Читать книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez - Страница 18

Llenado de valores perdidos

Оглавление

Los algoritmos del aprendizaje máquina, generalmente, no funcionan bien si se tienen valores faltantes. Es muy importante entender por qué falta un valor. Puede hacerlo debido a varias razones, tales como un error aleatorio, un fallo sistemático o ruido del sensor. Una vez identificada la razón, existen múltiples formas de lidiar con los valores que faltan, como se muestra en la siguiente lista:

Eliminar la observación: si se cuenta con suficientes datos y solo un par de las observaciones no relevantes tienen algunos valores faltantes, entonces es seguro eliminar estas observaciones.

Eliminar el atributo: eliminar un atributo tiene sentido cuando la mayoría de los valores faltan, los valores son constantes o el atributo se halla fuertemente correlacionado con otro atributo.

Asignar un valor especial N/D: algunas veces falta un valor, debido a diversas razones: que está fuera del alcance, que el valor de atributo discreto no se encuentra definido o que no resulta posible obtener o medir el valor en cuestión; por ejemplo, una persona nunca califica una película, por lo que su calificación en dicho filme es inexistente.

Tomar el valor de atributo promedio: en caso de que se cuente con un número limitado de observaciones, no resulta viable permitirse eliminar observaciones o atributos. En este caso, se pueden estimar los valores perdidos; por ejemplo, asignando el valor de atributo promedio o el valor promedio sobre observaciones similares.

Predecir el valor de otros atributos: se puede predecir el valor anterior de los datos de entrada si el atributo posee dependencias de tiempo.

Como se puede observar, el valor, o valores, puede faltar por muchas razones; por lo tanto, resulta importante entender por qué falta, está ausente o dañado para poder llenarlo correctamente.

Introducción al Machine Learning con MATLAB

Подняться наверх