Los valores perdidos en sus datos

Video: Estimar valores perdidos

Uno de los problemas con los datos más frecuentes y más desordenadas que tratar es la falta de datos. Los archivos pueden ser incompleta ya que los registros fueron retirados o un dispositivo de almacenamiento llenos. O ciertos campos de datos pueden contener datos de algunos registros. El primero de estos problemas se pueden diagnosticar simplemente verificar el número de registros de archivos. El segundo problema es más difícil de tratar.

Para ponerlo en términos simples, cuando se encuentra un campo que contiene los valores que faltan, tiene dos opciones:

  • Ignoralo.

  • Pegar algo en el campo.

Video: Valores perdidos en SPSS

Ignorar el problema

En algunos casos, es posible que simplemente encontrar un solo campo con un gran número de valores que faltan. Si es así, lo más fácil de hacer es simplemente ignorar el campo. No lo incluya en su análisis.

Otra forma de ignorar el problema es ignorar el registro. Sólo tiene que eliminar el registro que contiene los datos que faltan. Esto puede tener sentido si hay sólo unos pocos registros de delincuentes. Pero si hay varios campos de datos que contienen un número significativo de los valores que faltan, este enfoque puede reducir el número de registros a un nivel inaceptable.

Otra cosa a tener en cuenta antes de simplemente eliminar registros es cualquier señal de un patrón. Por ejemplo, supongamos que se está analizando un conjunto de datos relacionados con los saldos de tarjetas de crédito en todo el país. Que pueden encontrarse con un montón de registros que muestren $ 0.00 saldos (tal vez alrededor de la mitad de los registros). Esto no es en sí misma una indicación de los datos que faltan. Sin embargo, si todos los registros de, digamos, California están mostrando $ 0.00 saldos, que indica un problema potencial de los valores que faltan. Y no es una que se resolvería de forma útil mediante la supresión de todos los registros de estado más grande del país. En este caso, es probable que sea un problema de los sistemas e indica que un nuevo archivo debe ser creado.

En general, la eliminación de registros es una forma fácil, pero no es ideal, solución a problemas de valor faltante. Si el problema es relativamente pequeña y no hay un patrón discernible a las omisiones, entonces puede estar bien para deshacerse de los registros ofensivos y seguir adelante. Pero con frecuencia se justifica un enfoque más cerebral.

La cumplimentación de los datos que faltan

La cumplimentación de los datos que faltan equivale a hacer una conjetura acerca de lo que habría sido en ese campo. Hay buenas y malas maneras de hacer esto. Una sencilla (pero mala) alternativa es reemplazar los valores perdidos por el promedio de los no faltan. En los campos no numéricos, que podría estar tentado a poblar los registros faltantes con el valor más común en los otros registros (el modo).

Estos enfoques son, por desgracia, todavía se utilizan con frecuencia en algunas aplicaciones de negocios. Pero ellos son considerados por muchos como los estadísticos malas ideas. Por un lado, el objetivo de hacer el análisis estadístico es encontrar los datos que diferencia a uno de otro resultado. Mediante la sustitución de todos los registros que faltan con el mismo valor, no se ha diferenciado nada.

El enfoque más cerebral es tratar de encontrar una manera de predecir de una manera significativa el valor que debe ser llenado en cada registro que falta un valor. Esto implica mirar los registros completos y tratando de encontrar pistas sobre lo que podría ser el valor faltante.

Supongamos que usted se analiza un archivo demográfica para predecir probables compradores de uno de sus productos. En ese archivo que tiene, entre otros campos, la información sobre el estado civil, número de hijos, y el número de automóviles. Por alguna razón, el número de campo de los automóviles no se encuentra en una tercera parte de los registros.

Mediante el análisis de los otros dos campos - el estado civil y número de hijos - usted puede descubrir algunos patrones. Las personas solteras tienden a tener un coche. Las personas casadas sin hijos tienden a tener dos coches. Las personas casadas con más de un niño podrían ser más propensos a tener tres coches. De esta manera, se puede adivinar a los valores que faltan en una manera que realmente diferencia a los registros. Más acerca de este enfoque por venir.

No es un término general en las estadísticas y datos de procesamiento que se refiere a datos cuestionables. El termino ruidoso se usa para describir datos que no es fiable, corrupto, o de otra manera menos de prístina. datos que faltan es sólo un ejemplo de esto. Una descripción detallada de las técnicas para la limpieza de datos con ruido en general está más allá del alcance de este libro. De hecho, esta es un área activa de investigación en la teoría estadística. El hecho de que todo el ruido no es tan fácil de detectar como valores faltantes hace que sea problemático de tratar.

Artículos Relacionados