¿Cómo extraer, transformar y cargar datos para el análisis predictivo

Después de que se recogió inicialmente, los datos son por lo general en una dispersado por el estado que reside en múltiples sistemas o bases de datos y debe ser analizada antes de la predicción de nada. Antes de que se puede utilizar para un modelo de análisis predictivo, lo que tiene que consolidar en un solo lugar. Además, usted no quiere trabajar sobre los datos que residen en los sistemas operativos - que está buscando problemas.

En su lugar, colocar una porción de ella en algún lugar donde se puede trabajar en él libremente sin afectar las operaciones. ETL (extracción, transformación y carga) es el proceso que alcanza ese estado deseable.

Muchas organizaciones tienen múltiples databases- su modelo predictivo es probable que utilizar los datos de todos ellos. ETL es el proceso que recoge toda la información necesaria y lo coloca en un entorno separado donde se puede ejecutar su análisis.

Video: Como exportar datos de Access a Excel - Capítulo 220

ETL no es, sin embargo, una vez y para siempre la operación-por lo general es un proceso continuo que actualiza los datos y lo mantiene hasta la fecha. Asegúrese de ejecutar sus procesos ETL por la noche o en otras ocasiones cuando la carga en el sistema operativo es baja.

  • La etapa de extracción recoge los datos deseados en su forma cruda de los sistemas operativos.

  • La etapa de transformación hace que los datos recogidos listo para ser utilizado en su modelo predictivo - fusionarla, la generación de los atributos derivados deseados, y poner los datos transformados en el formato apropiado para adaptarse a los requerimientos del negocio.

  • La etapa de carga coloca los datos en su lugar designado, donde se puede ejecutar su análisis sobre el mismo - por ejemplo, en un mercado de datos, almacenamiento de datos, u otra base de datos.

Video: Regresion Logistica: Interpretacion de Coeficientes. Pronosticos

Debe seguir un enfoque sistemático para construir sus procesos ETL para cumplir con los requerimientos del negocio. Es una buena práctica para mantener una copia de los datos originales en un área separada para que siempre pueda volver a ella en caso de un error interrumpe la transformación o las etapas de carga de los procesos.

Su proceso de ETL debe incorporar modularidad - la separación de las tareas y llevar a cabo el trabajo en etapas. Este enfoque tiene ventajas en caso de que quiera volver a procesar o volver a cargar los datos, o si desea utilizar algunos de esos datos para un análisis diferente o para construir diferentes modelos de predicción. El diseño de su ETL debe ser capaz de dar cabida a grandes cambios en los requisitos de negocio - con cambios mínimos en el proceso de ETL.

Artículos Relacionados