Cómo limpiar los datos para el análisis predictivo

Antes de ejecutar un análisis predictivo, que necesita para asegurarse de que los datos estén limpios de cosas extrañas antes de poder utilizarlo en su modelo. Esto incluye encontrar y corregir todos los registros que contienen valores erróneos, e intentar rellenar los valores que faltan. También tendrá que decidir si se debe incluir registros duplicados (dos cuentas de los clientes, por ejemplo).

El objetivo general es garantizar la integridad de la información que está utilizando para construir su modelo predictivo. Prestar especial atención a la integridad, exactitud y actualidad de los datos.

Es útil para crear estadísticas descriptivas (características cuantitativas) para diversos campos, tales como el cálculo de min y max, la comprobación distribución de frecuencias (Con qué frecuencia ocurre algo) y la verificación de los rangos esperados. Ejecución de una comprobación regular puede ayudar a Bandera de los datos que se encuentra fuera del rango esperado para una mayor investigación. Todos los registros que muestran los jubilados con fechas de nacimiento en la década de 1990 pueden ser marcados por este método.

Además, el contraste de la información es importante para que se asegure de que los datos son exactos. Para un análisis más profundo de las características de los datos y la identificación de la relación entre los registros de datos, se puede hacer uso de perfilado de datos (Análisis de la disponibilidad de datos y recopilación de estadísticas sobre la calidad de los datos), y herramientas de visualización.

Los datos que faltan podrían deberse al hecho de que la información en particular no se registró. En tal caso, se puede tratar de rellenar todo lo que puede- por omisión adecuados pueden ser fácilmente añadidos para llenar los espacios en blanco de ciertos campos.

Por ejemplo, para los pacientes en una sala de maternidad del hospital donde el campo de género falta un valor, la aplicación puede simplemente rellenarlo como femenina. Por lo demás, para cualquier varón que ingresó a un hospital con un registro que falta para el estado de embarazo, que graban de manera similar se puede llenar como no aplicable.

Un código postal falta de una dirección se puede inferir a partir del nombre de la calle y la ciudad proporcionada en esa dirección.

Video: ios 8 texto predictivo Como Desactivar y activar texto predictivo iPhone 5S 5C 5 4 iOS 8

En los casos en que la información es desconocida o no se puede deducir, entonces usted tendría que usar los valores otro que un espacio en blanco para indicar que los datos faltan, sin afectar la exactitud del análisis. Un espacio en blanco en los datos puede significar varias cosas, la mayoría de ellos no es bueno o útil. Siempre que pueda, se debe especificar la naturaleza de ese espacio en blanco por significativa lugar de relleno.

Así como es posible definir una rosa en un campo de maíz como una mala hierba, los valores atípicos pueden tener diferentes significados para diferentes análisis. Es común que algunos modelos que se construirán exclusivamente para rastrear esos valores atípicos y marcarlos.

Video: Cómo limpiar los datos basura de WhatsApp

modelos de detección de fraudes y monitoreo actividades criminales están interesados en esos valores atípicos, que en estos casos indican que algo no deseado teniendo lugar. Se recomienda por lo que mantener los valores atípicos en el conjunto de datos en casos como estos. Sin embargo, cuando se consideran valores atípicos anomalías dentro de los datos - y sólo van a sesgar los análisis y dar lugar a resultados erróneos - sacarlos de sus datos.

La duplicación de los datos también puede ser útil o un nuisance- parte de ella puede ser necesario, puede indicar el valor, y puede reflejar un estado preciso de los datos. Por ejemplo, un registro de un cliente con múltiples cuentas se puede representar con múltiples entradas que están (técnicamente, de todos modos) duplican y repetitivas de los mismos registros.

De la misma manera, cuando los registros duplicados no contribuyen al análisis de valor y no son necesarias, a continuación, la eliminación de ellos pueden ser de enorme valor. Esto es especialmente cierto para grandes conjuntos de datos, donde la eliminación de registros duplicados puede simplificar la complejidad de los datos y reducir el tiempo necesario para el análisis.

Puede preventivamente evitar que los datos incorrectos de introducción de sus sistemas mediante la adopción de algunos procedimientos específicos:

Instituto controles de calidad y validación de datos para todos los datos recopilados.
Permita a sus clientes para validar y auto-corregir sus datos personales.
Proporcionar a sus clientes con los valores posibles y esperados para elegir.
Rutinariamente ejecutar comprobaciones de la integridad, la consistencia y exactitud de los datos.