La estructuración de los datos para análisis predictivo

Los datos en bruto es un recurso potencial para el análisis predictivo, pero no puede ser analizada de forma útil hasta que se le ha dado una estructura consistente. Los datos que residen en múltiples sistemas tiene que ser recogido y transformado para que esté listo para su análisis. Los datos recogidos deben residir en un sistema separado de modo que no interfiera con el sistema de producción en vivo. Mientras que la construcción de su modelo, dividir el conjunto de datos en un conjunto de datos de entrenamiento para entrenar el modelo, y un conjunto de datos de prueba para validar el modelo.

La extracción, transformación y carga de datos

Después de que se recogió inicialmente, los datos son por lo general en una dispersado por el estado que reside en múltiples sistemas o bases de datos. Antes de que se puede utilizar para un modelo de análisis predictivo, lo que tiene que consolidar en un solo lugar. Además, usted no quiere trabajar sobre los datos que residen en los sistemas operativos - que está buscando problemas. En su lugar, colocar una porción de ella en algún lugar donde se puede trabajar en él libremente sin afectar las operaciones. ETL (extracción, transformación y carga) es el proceso que alcanza ese estado deseable.

Video: Análisis Predictivo

Muchas organizaciones tienen múltiples databases- su modelo predictivo es probable que utilizar los datos de todos ellos. ETL es el proceso que recoge toda la información necesaria y lo coloca en un entorno separado donde se puede ejecutar su análisis. ETL no es, sin embargo, una vez y para siempre la operación-por lo general es un proceso continuo que actualiza los datos y lo mantiene hasta la fecha. Asegúrese de ejecutar sus procesos ETL por la noche o en otras ocasiones cuando la carga en el sistema operativo es baja.

La etapa de extracción recoge los datos deseados en su forma cruda de los sistemas operativos.
La etapa de transformación hace que los datos recogidos listo para ser utilizado en su modelo predictivo - fusionarla, la generación de los atributos derivados deseados, y poner los datos transformados en el formato apropiado para adaptarse a los requerimientos del negocio.
La etapa de carga coloca los datos en su lugar designado, donde se puede ejecutar su análisis sobre el mismo - por ejemplo, en un mercado de datos, almacenamiento de datos, u otra base de datos.

Video: Estructura de Datos

Debe seguir un enfoque sistemático para construir sus procesos ETL para cumplir con los requerimientos del negocio. Es una buena práctica para mantener una copia de los datos originales en un área separada para que siempre pueda volver a ella en caso de un error interrumpe la transformación o las etapas de carga de los procesos. La copia de los datos originales sirve como una copia de seguridad que se puede utilizar para reconstruir todo el conjunto de datos empleado por su análisis si es necesario. El objetivo es impedir la ley de Murphy y volver sobre sus pies rápidamente si tiene que volver a ejecutar todo el proceso de ETL a partir de cero.

Su proceso de ETL debe incorporar modularidad - la separación de las tareas y llevar a cabo el trabajo en etapas. Este enfoque tiene ventajas en caso de que quiera volver a procesar o volver a cargar los datos, o si desea utilizar algunos de esos datos para un análisis diferente o para construir diferentes modelos de predicción. El diseño de su ETL debe ser capaz de acomodar incluso mayores cambios en los requisitos de negocio - con sólo cambios mínimos en el proceso de ETL.

Mantener los datos actualizados

Después de la etapa de carga de ETL, después de obtener sus datos en la base de datos separada, mercado de datos, o almacén, que necesita para mantener los datos actualizados por lo que los modeladores pueden volver a ejecutar modelos previamente construidas sobre nuevos datos.

La implementación de un mercado de datos para los datos que desea analizar y mantenerlo al día le permitirá actualizar los modelos. Usted debe, para el caso, actualizar los modelos operativos regularmente después de que se deployed- nuevos datos puede aumentar el poder predictivo de los modelos. Los nuevos datos pueden permitir que el modelo para representar nuevas ideas, tendencias y relaciones.

Tener un entorno separado de los datos también le permite lograr un mejor rendimiento para los sistemas que se utilizan para ejecutar los modelos. Esto se debe a que no se está sobrecargando los sistemas operativos con las consultas intensivas o análisis requeridos para los modelos para correr.

Los datos sigue llegando - más de lo mismo, más rápido y en mayor variedad todo el tiempo. La implementación de la automatización y la separación de tareas y entornos puede ayudarle a gestionar esa inundación de los datos y apoyar la respuesta en tiempo real de sus modelos predictivos.

Para asegurarse de que está capturando los flujos de datos y que está actualizando sus modelos, mientras que el apoyo a los procesos ETL automaticos, la arquitectura analítica debe ser altamente modular y adaptable. Si se mantiene este objetivo de diseño en mente para cada parte se construye para su proyecto global de análisis predictivo, la mejora continua y ajustes que van junto con el análisis predictivo será más suave para mantener y facilitará la consecución de éxito.

Delineando los datos de ensayos y pruebas

Cuando los datos están listos y que está a punto de comenzar a construir su modelo predictivo, es útil para delinear su metodología de prueba y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos de negocio que ha reunido, documentado, y se recoge toda la información necesaria para ayudarle a alcanzar.

De buenas a primeras, se debe diseñar un método para probar si un objetivo de negocio se ha alcanzado con éxito. Debido a que el análisis predictivo miden la probabilidad de un resultado futuro - y la única manera de estar listo para realizar una prueba de este tipo es mediante la capacitación de su modelo en los datos del pasado, que todavía tiene que ver lo que puede hacer cuando se está en contra de los datos futuros. Por supuesto, no se puede correr el riesgo de ejecución de un modelo no probada en datos reales futuros, por lo que tendrá que utilizar los datos existentes para simular de forma realista los datos futuros. Para ello, hay que dividir los datos que está trabajando en la formación y prueba de datos.

Asegúrese de que selecciona estos dos conjuntos de datos al azar, y que ambos conjuntos de datos contienen y cubren todos los parámetros de datos que está midiendo.

Al dividir los datos en la prueba y de formación conjuntos de datos, que está evitando eficazmente cualquier problema sobreajuste que podrían derivarse de sobreentrenamiento el modelo en todo el conjunto de datos y recogiendo todos los patrones de ruido o características específicas que sólo pertenecen al conjunto de datos de la muestra y aren` t aplicable a otros conjuntos de datos.

La separación de sus datos en los conjuntos de datos de entrenamiento y prueba, alrededor del 70 por ciento y 30 por ciento respectivamente, asegura una medición precisa del rendimiento del modelo de análisis predictivo que estamos construyendo. Que desea evaluar su modelo frente a los datos de prueba, porque es una forma sencilla de medir si las predicciones del modelo son exactos. Para tener éxito aquí es una indicación de que el modelo tendrá éxito cuando está desplegado. Un conjunto de datos de prueba servirá como un conjunto independiente de datos que el modelo tiene todavía visto- el funcionamiento de su modelo frente a los datos de prueba no proporciona una vista previa de cómo se presentará el modelo cuando se va en vivo.