¿Cómo encontrar valor en su análisis de datos predictivo

Video: Sensibilidad, especificidad y valores predictivos 1

Cualquier viaje exitoso requiere una preparación seria. modelos de análisis predictivo son esencialmente una inmersión profunda en grandes cantidades de datos. Si los datos no está bien preparada, el modelo de análisis predictivo surgirá de la inmersión sin peces. La clave para encontrar valor en el análisis predictivo es preparar los datos - a fondo y meticuloso - que su modelo usará para hacer predicciones.

Procesamiento de datos de antemano pueden ser un obstáculo en el proceso de análisis predictivo. Adquirir experiencia en la construcción de modelos predictivos - y, en particular, la preparación de datos - enseña la importancia de la paciencia. Seleccionar, procesar, limpieza y preparación de los datos es laborioso. Es la tarea que consume más tiempo en el análisis de ciclo de vida predictivo. Sin embargo, adecuada y sistemática preparación de los datos aumentará significativamente la posibilidad de que sus análisis de datos darán fruto.

Aunque lleva tiempo y esfuerzo para construir el primer modelo predictivo, una vez que tome el primer paso - la construcción del primer modelo que se encuentra el valor de sus datos - a continuación, los futuros modelos serán menos intensivos en recursos y consume mucho tiempo, incluso con completamente nuevo conjuntos de datos. Incluso si usted no utiliza los mismos datos para el siguiente modelo, los analistas de datos habrán adquirido una valiosa experiencia con el primer modelo.

Video: Usar Buscar objetivo para encontrar el resultado deseado mediante el ajuste de un valor de entrada

Cómo profundizar en el análisis de datos predictivo

Usando una analogía de la fruta, que no sólo tiene que quitar la cáscara de mala o la cubierta, pero excavar en él para llegar al núcleo-medida que se acerca al núcleo, se llega a la mejor parte de la fruta. La misma regla se aplica a los datos grandes.

Fundamentos de la validez de los datos de análisis predictivo

Los datos no siempre es válida cuando se encuentran por primera vez ella. La mayoría de los datos es o bien incompleto (Faltan algunos atributos o valores) o ruidoso (valores atípicos que contienen o errores). En el campo de la bioinformática biomédicos, por ejemplo, los valores extremos pueden conducir los análisis para generar resultados incorrectos o engañosos.

Los valores atípicos en los datos de cáncer, por ejemplo, pueden ser un factor importante que sesga la exactitud de los tratamientos médicos: muestras de expresión de genes pueden aparecer como falsos positivos de cáncer debido a que se analizaron frente a una muestra que contenía errores.

datos inconsistentes son datos que contiene discrepancias en los atributos de datos. Por ejemplo, un registro de datos puede tener dos atributos que no coinciden con: por ejemplo, un código postal (por ejemplo, 20037) y un estado correspondiente (Delaware). Los datos no válidos pueden dar lugar a modelos de predicción equivocada, lo que conduce a resultados analíticos engañosas que causarán malas decisiones ejecutivas.

Por ejemplo, el envío de cupones para pañales a las personas que no tienen hijos es un error bastante obvio. Pero puede suceder fácilmente si el departamento de marketing de una empresa de pañales termina con resultados válidos de su modelo de análisis predictivo.

Gmail no siempre podría sugerir a las personas adecuadas, si usted está tratando de llenar los clientes potenciales que pudo haber olvidado incluir en una lista de correo electrónico de grupo. Facebook, para dar otro ejemplo, puede sugerir amigos que podría no ser el tipo que usted está buscando.

Video: Buscar datos usando rangos Excel

En tales casos, es posible que haya demasiado grande un margen de error en los modelos o algoritmos. En la mayoría de los casos, los defectos y anomalías en los datos son seleccionados inicialmente para alimentar el modelo predictivo - pero los algoritmos que el poder predictivo del modelo podría tener grandes cantidades de datos no válidos.

Fundamentos de la variedad de datos en el análisis predictivo

La falta de uniformidad en los datos es otro gran reto conocido como variedad de datos. A partir de la corriente sin fin de datos no estructurados de texto (generados a través de correos electrónicos, presentaciones, informes de proyectos, textos, tweets) con las cuentas bancarias estructuradas, los datos de geolocalización y demografía de los clientes, las empresas están hambrientos de esta variedad de datos.

Video: TUTORIAL TABLAS Z

La agregación de estos datos y su preparación para la analítica es una tarea compleja. ¿Cómo se puede integrar los datos generados a partir de diferentes sistemas como Twitter, Opentable.com, búsqueda de Google, y un tercero que rastrea los datos del cliente? Bueno, la respuesta es que no hay una solución común. Cada situación es diferente, y el científico de datos por lo general tiene que hacer muchas maniobras para integrar los datos y prepararlo para el análisis.

A pesar de ello, un enfoque simple para la normalización puede apoyar la integración de datos de diferentes fuentes: Usted está de acuerdo con los proveedores de los datos a un formato de datos estándar que su sistema puede manejar - un marco que puede hacer todas sus fuentes de datos generan datos que son leídos por los seres humanos y máquinas. Piense en ello como un nuevo lenguaje que todas las fuentes de datos de gran hablará cada vez que están en el mundo grandes de datos.