Limpieza de los datos para su modelo de análisis predictivo

Tendrá que asegurarse de que los datos estén limpios de cosas extrañas antes de poder utilizarlo en su modelo de análisis predictivo. Esto incluye encontrar y corregir todos los registros que contienen valores erróneos, e intentar rellenar los valores que faltan. También tendrá que decidir si se debe incluir registros duplicados (dos cuentas de los clientes, por ejemplo). El objetivo general es garantizar la integridad de la información que está utilizando para construir su modelo predictivo. Prestar especial atención a la integridad, exactitud y actualidad de los datos.

Video: BIG DATA en Ecommerce. Modelos Predictivos de Consumo y Segmentación mediante Técnicas Analíticas

Es útil para crear estadísticas descriptivas (características cuantitativas) para diversos campos, tales como el cálculo de mínimos y máximos, comprobando distribución de frecuencia (con qué frecuencia ocurre algo) y la verificación de los rangos esperados. Ejecución de una comprobación regular puede ayudar a Bandera de los datos que se encuentra fuera del rango esperado para una mayor investigación. Todos los registros que muestran los jubilados con fechas de nacimiento en la década de 1990 pueden ser marcados por este método.

Además, el contraste de la información es importante para que se asegure de que los datos son exactos. Para un análisis más profundo de las características de los datos y la identificación de la relación entre los registros de datos, se puede hacer uso de perfilado de datos (Análisis de la disponibilidad de datos y recopilación de estadísticas sobre la calidad de los datos), y herramientas de visualización.

Los datos que faltan podrían deberse al hecho de que la información en particular no se registró. En tal caso, se puede tratar de rellenar todo lo que puede- por omisión adecuados pueden ser fácilmente añadidos para llenar los espacios en blanco de ciertos campos.

Por ejemplo, para los pacientes en una sala de maternidad del hospital donde el campo de género falta un valor, la aplicación puede simplemente rellenarlo como femenina. Por lo demás, para cualquier varón que ingresó a un hospital con un registro que falta para el estado de embarazo, que graban de manera similar se puede llenar como no aplicable. Un código postal falta de una dirección se puede inferir a partir del nombre de la calle y la ciudad proporcionada en esa dirección.

Video: Creación de un modelo de análisis predictivo en la nube

En los casos en que la información es desconocida o no se puede deducir, entonces usted tendría que usar los valores otro que un espacio en blanco para indicar que los datos faltan, sin afectar la exactitud del análisis. Un espacio en blanco en los datos puede significar varias cosas, la mayoría de ellos no es bueno o útil. Siempre que pueda, se debe especificar la naturaleza de ese espacio en blanco por significativa lugar de relleno. Para los datos numéricos hechos enteramente de números pequeños y positivos (valores entre 0 y 100), el usuario, por ejemplo, puede definir el número -999,99 como lugar de relleno para los datos que faltan.

Así como es posible definir una rosa en un campo de maíz como una mala hierba, los valores atípicos pueden tener diferentes significados para diferentes análisis. Es común que algunos modelos que se construirán exclusivamente para rastrear esos valores atípicos y marcarlos. modelos de detección de fraudes y monitoreo actividades criminales están interesados ​​en esos valores atípicos, que en estos casos indican que algo no deseado teniendo lugar.

Video: José Supo - Eficiencia de un Modelo Predictivo

Se recomienda por lo que mantener los valores atípicos en el conjunto de datos en casos como estos. Sin embargo, cuando se consideran valores atípicos anomalías dentro de los datos - y sólo van a sesgar los análisis y dar lugar a resultados erróneos - sacarlos de sus datos. Lo que no quiere que suceda es que el modelo va a tratar de predecir los valores atípicos, y terminar fallando para predecir cualquier otra cosa.

La duplicación de los datos también puede ser útil o un nuisance- parte de ella puede ser necesario, puede indicar el valor, y puede reflejar un estado preciso de los datos. Por ejemplo, un registro de un cliente con múltiples cuentas se puede representar con múltiples entradas que están (técnicamente, de todos modos) duplican y repetitivas de los mismos registros.

Otro ejemplo sería un cliente que tiene tanto un teléfono del trabajo y un teléfono personal con la misma empresa y con el proyecto de ley va en la misma dirección - algo que sería valioso saber. De la misma manera, cuando los registros duplicados no contribuyen al análisis de valor y no son necesarias, a continuación, la eliminación de ellos pueden ser de enorme valor. Esto es especialmente cierto para grandes conjuntos de datos, donde la eliminación de registros duplicados puede simplificar la complejidad de los datos y reducir el tiempo necesario para el análisis.

Puede preventivamente evitar que los datos incorrectos de introducción de sus sistemas mediante la adopción de algunos procedimientos específicos:

Video: analisis de datos Excel.avi

  • Instituto controles de calidad y validación de datos para todos los datos recopilados.
  • Permita a sus clientes para validar y auto-corregir sus datos personales.
  • Proporcionar a sus clientes con los valores posibles y esperados para elegir.
  • Rutinariamente ejecutar comprobaciones de la integridad, la consistencia y exactitud de los datos.
Artículos Relacionados