La identificación de los datos que faltan para el aprendizaje de las máquinas

Incluso si usted tiene suficientes ejemplos a la mano para la formación de los dos algoritmos de aprendizaje automático simples y complejas, que deben presentar los valores completos de las características, sin ningún tipo de datos que faltan. Tener un ejemplo incompleto facilita la conexión de todas las señales dentro y entre las características imposibles. Los valores perdidos también hacen que sea difícil para el algoritmo de aprender durante el entrenamiento. Usted debe hacer algo con los datos que faltan.

Muy a menudo, puede ignorar los valores que faltan o repararlos adivinando un valor de reemplazo probable. Sin embargo, demasiados valores perdidos hacen predicciones más inciertos ya que la información faltante pudo ocultar cualquier posible figura- en consecuencia, los valores más faltan en las características, la más variable e imprecisa las predicciones.

Como primer paso, contar el número de casos que faltan en cada variable. Cuando una variable tiene demasiados casos que faltan, es posible que se caiga de la formación y la prueba de conjunto de datos. Una buena regla general es dejar caer una variable si más del 90 por ciento de sus casos se echa en falta.

Algunos algoritmos de aprendizaje no saben cómo hacer frente a los valores que faltan e informar de errores en las dos fases de entrenamiento y prueba, mientras que otros modelos los tratan como valores cero, provocando una subestimación del valor o probabilidad predicha (que es como si parte de la fórmula ISN `t funciona correctamente). En consecuencia, es necesario sustituir todos los valores que faltan en su matriz de datos con un valor adecuado para el aprendizaje se realice correctamente la máquina.

Existen muchas razones para la falta de datos, pero el punto esencial es si los datos faltan al azar o en un orden específico. los datos que falta al azar es ideal porque se puede adivinar su valor utilizando un promedio simple, una mediana, u otro algoritmo de aprendizaje automático, sin demasiadas preocupaciones. Algunos casos contienen un fuerte sesgo hacia ciertos tipos de ejemplos.

Por ejemplo, pensar en el caso de estudiar el ingreso de una población. La gente rica (por razones fiscales, presumiblemente) tienden a ocultar su verdadero ingreso al informar a usted que no saben. Los pobres, por el contrario, pueden decir que ellos no quieren reportar sus ingresos por temor a juicio negativo. Si se le pasa la información de ciertos estratos de la población, la reparación de los datos que faltan pueden ser difíciles y engañoso porque usted puede pensar que estos casos son al igual que los demás.

En cambio, son bastante diferentes. Por lo tanto, no se puede simplemente utilizar los valores promedio para reemplazar los valores perdidos - debe utilizar enfoques complejos y sintonizar con cuidado. Por otra parte, la identificación de casos que no faltan los datos al azar es difícil porque requiere una inspección más detallada de cómo los valores que faltan son asociados con otras variables en el conjunto de datos.

Cuando faltan datos al azar, se puede reparar fácilmente los valores vacíos debido a que obtenga consejos a su verdadero valor de otras variables. Cuando los datos no le falta al azar, no se puede obtener buenos consejos de otras informaciones disponibles si no se entiende la asociación de datos con el caso que falta.

Por lo tanto, si usted tiene que averiguar el ingreso en los datos que faltan, ya éste le falta porque la persona es rica, no se puede reemplazar el valor que falta con un promedio simple porque se le reemplaza con un ingreso medio. En su lugar, se debe utilizar un promedio de los ingresos de los ricos como un reemplazo.

Cuando los datos no le falta al azar, el hecho de que el valor falta es informativo, ya que ayuda a localizar el grupo que falta. Puede dejar la tarea de buscar la razón por la que le falta a su algoritmo de aprendizaje automático mediante la construcción de una nueva característica binaria que informa cuando el valor de una variable no se encuentra. En consecuencia, el algoritmo de aprendizaje automático se darán cuenta del mejor valor para su uso como un reemplazo por sí mismo.