8 mejores prácticas en la preparación de datos

paquetes de software estadísticos son extremadamente potentes en estos días, pero no pueden superar los datos de mala calidad. Lo que sigue es una lista de cosas que hay que hacer antes de ir fuera de la construcción de modelos estadísticos.

Compruebe los formatos de datos

Su análisis comienza siempre con un archivo de datos brutos. archivos de datos brutos vienen en muchas formas y tamaños diferentes. datos de mainframe es diferente de datos de PC, los datos de hoja de cálculo tiene un formato distinto de datos de la web, y así sucesivamente. Y en la era de los grandes datos, seguramente se enfrentará con los datos de una variedad de fuentes. El primer paso en el análisis de los datos es asegurarse de que puede leer los archivos que le den.

Es necesario desviar la mirada hacia lo que cada campo contiene. Por ejemplo, no es prudente confiar en que sólo porque un campo aparece como un campo de caracteres, en realidad contiene datos de caracteres.

Verificar los tipos de datos

Todos los datos se divide en una de cuatro categorías que afectan qué tipo de estadísticas se puede aplicar adecuadamente a la misma:

datos nominal es esencialmente sólo un nombre o un identificador.
Video: Neuro Oratoria: 10 Técnicas Científicas para Hablar en Público / Jürgen Klarić
Los datos ordinales pone registros en orden de menor a mayor.
Video: Administrando SQL Server, mejores practicas para un DBA
datos de intervalo representa valores donde las diferencias entre ellas son comparables.
datos de las razones es como datos de intervalo, excepto que también permite un valor de 0.

Es importante entender qué categorías su datos se divide en antes de alimentar en el software estadístico. De lo contrario, se arriesga a terminar con un galimatías perfectamente razonable de aspecto.

Graficar sus datos

Conseguir una idea de cómo se distribuye sus datos son importantes. Puede ejecutar procedimientos estadísticos hasta que esté azul en la cara, pero ninguno de ellos va a dar tanta información sobre lo que sus datos se parece como un simple gráfico.

Verificar la exactitud de datos

Una vez que se sienta cómodo que los datos se formatea la forma que desee, usted todavía tiene que asegurarse de que es exacta y que tiene sentido. Este paso requiere que tenga algún conocimiento de la materia que está trabajando.

En realidad no hay un enfoque de corte y secado de verificar la exactitud de los datos. La idea básica consiste en formular algunas propiedades que usted piensa que los datos deben exponer y probar los datos para ver si esas propiedades se cumplen. Precios de las acciones son siempre positivos? No todos los códigos de los productos se ajustan a la lista de los válidos? Esencialmente, usted está tratando de averiguar si los datos que realmente es lo que le han dicho que es.

identificar valores atípicos

Los valores extremos son puntos de datos que están fuera de sintonía con el resto de los datos. O bien son valores muy grandes o muy pequeños en comparación con el resto del conjunto de datos.

Los valores atípicos son problemáticos, ya que pueden comprometer seriamente las estadísticas y los procedimientos estadísticos. Un único valor extremo puede tener un enorme impacto en el valor de la media. Debido a que la media se supone que representa el centro de los datos, en un sentido, éste hace que la media de valores atípicos inútil.

Cuando nos enfrentamos a los valores atípicos, la estrategia más común es para eliminarlos. En algunos casos, sin embargo, es posible que desee tener en cuenta. En estos casos, por lo general es deseable hacer su análisis dos veces - una vez con valores extremos incluidos y una vez con los valores atípicos excluidos. Esto le permite evaluar qué método da resultados más útiles.

Hacer frente a los valores perdidos

Los valores perdidos son uno de los problemas más comunes de datos (y molesto) que se encontrará. Su primer impulso podría ser la de dejar caer los registros con valores perdidos de su análisis. El problema con esto es que los valores que faltan no son con frecuencia poco fallos de datos simplemente al azar.

Revisar sus suposiciones acerca de cómo se distribuyen los datos

Muchos procedimientos estadísticos dependen del supuesto de que los datos se distribuyen de una manera determinada. Si esta suposición no puede ser el caso, la precisión de sus predicciones se resiente.

El supuesto más común para las técnicas de modelado discutidos en este libro es que los datos se distribuyen normalmente.

O no. En los casos en que los datos no se distribuyen como se necesita que sea, no todo está perdido necesariamente. Hay una variedad de maneras de transformar los datos para obtener la distribución en la forma que lo necesite.

Una de las mejores maneras de verificar la exactitud de un modelo estadístico es realmente probarlo en contra de los datos una vez que se construye. Una forma de hacerlo es dividir el conjunto de datos al azar en dos archivos. Es posible llamar a estos archivos Análisis y prueba, respectivamente.

Es necesario dividir los datos al azar para ser eficaz. Simplemente no se puede dividir el conjunto de datos en la mitad superior y la mitad inferior, por ejemplo. Casi todos los archivos de datos están ordenados de alguna manera - por fecha si nada más. Esto introduce patrones sistemáticos que darán diferentes partes de las diferentes propiedades estadísticas de archivos. Al dividir el archivo al azar, le da a cada registro de la misma probabilidad de ser en ningún fichero. En sentido figurado, que está lanzando una moneda para cada registro para decidir qué archivo se va a. Aleatoriedad da tanto archiva las mismas propiedades estadísticas como los datos originales.

Una vez que haya dividir el conjunto de datos, dejar de lado el archivo de prueba. A continuación, proceder a construir su modelo predictivo usando el archivo de análisis. Una vez que el modelo se construye, que se aplican en el fichero de prueba y ver cómo lo hace.

Prueba de modelos de esta manera ayuda a proteger contra un fenómeno conocido como exceso de ajuste. Esencialmente, es posible que los procedimientos estadísticos para memorizar el archivo de datos en lugar de descubrir relaciones significativas entre las variables. Si se produce un exceso de ajuste, el modelo probará bastante mal con el archivo de prueba.

Realizar copias de seguridad y documentar todo lo que haces

Debido a que el software estadístico es llegar a ser tan fácil de usar, que es un pedazo de la torta para comenzar a generar informes y gráficos, por no hablar de los archivos de datos. Puede ejecutar procedimientos, literalmente, con el toque de un botón. Puede generar varias docenas de gráficos basados en diferentes transformaciones de datos en cuestión de unos pocos minutos. Eso hace que sea muy fácil perder la noción de lo que ha hecho y por qué.

Es importante asegurarse de que mantener un registro escrito de lo que estás haciendo. Los gráficos deben estar etiquetados con el nombre (y la versión) de los datos que se utilizó para crearlas. Los procedimientos estadísticos que se genera deben ser guardados y documentados.

También es importante realizar una copia de seguridad de sus archivos de datos. En el curso de su análisis, es probable que crear varias versiones de sus datos que reflejan diversas correcciones y transformación de variables. Debe guardar los procedimientos que crearon estas versiones. También deben ser documentados de manera que describa lo transformaciones que ha hecho y por qué.

La documentación no es tarea favorita de nadie, sino que hablamos de la experiencia cuando se recomienda encarecidamente no confiar en su memoria cuando se trata de sus proyectos de análisis.

Trabajando a través de los pasos que acabamos de describir, a maximizar la fiabilidad de sus modelos estadísticos. En muchos casos, el trabajo de preparación es en realidad más tiempo que la construcción del modelo real. Pero es necesario. Y usted mismo se lo agradecerá en el extremo para trabajar a través de él de forma metódica.