El papel de etl tradicional en grandes volúmenes de datos

Video: PowerView PowerPivot Reportes en Excel Inteligencia de negocios y mineria de datos

herramientas ETL combinan tres funciones importantes (extracción, transformación, carga) requeridos para obtener los datos de un entorno de grandes volúmenes de datos y ponerlo en otro entorno de datos. Tradicionalmente, ETL se ha utilizado con el procesamiento por lotes en entornos de almacén de datos. Los almacenes de datos proporcionan a los usuarios de negocios con una forma de consolidar información para analizar e informar sobre los datos relevantes para su enfoque de negocio. herramientas ETL se utilizan para transformar los datos en el formato requerido por los almacenes de datos.

La transformación se hace realmente en una ubicación intermedia antes de los datos se carga en el almacén de datos. Muchos proveedores de software, como IBM, Informatica, generalizado, Talend, y Pentaho, proporcionan herramientas de software ETL.

ETL proporciona la infraestructura subyacente para la integración mediante la realización de tres funciones importantes:

  • Extraer: Leer datos de la base de datos fuente.

  • Transformar: Convertir el formato de los datos extraídos para que se ajuste a los requisitos de la base de datos destino. La transformación se lleva a cabo mediante el uso de reglas o la fusión de datos con otros datos.

    Video: Herramientas para Big Data de Microsoft

  • Carga: Escribir datos en la base de datos destino.

Sin embargo, ETL está evolucionando para apoyar la integración a través de mucho más de los almacenes de datos tradicionales. ETL puede apoyar la integración a través de sistemas transaccionales, almacenes de datos operativos, plataformas de BI, hubs MDM, la nube, y plataformas de Hadoop. proveedores de software ETL están extendiendo sus soluciones para proporcionar la extracción de datos grande, transformación y carga entre Hadoop y las plataformas tradicionales de gestión de datos.

ETL y herramientas de software para otros procesos de integración de datos, como la limpieza de datos, perfilado, y todo el trabajo de auditoría en diferentes aspectos de los datos para asegurar que los datos serán considerados de confianza. herramientas ETL se integran con herramientas de calidad de datos, y muchos incorporan herramientas para la limpieza de datos, mapeo de datos, y la identificación de linaje de datos. Con ETL, es suficiente extraer los datos que necesitará para la integración.

Se necesitan herramientas ETL para la carga y conversión de datos estructurados y no estructurados en Hadoop. herramientas ETL avanzados pueden leer y escribir archivos múltiples en paralelo desde y para Hadoop para simplificar cómo los datos se fusionaron en un proceso de transformación común. Algunas soluciones incorporan bibliotecas de transformaciones ETL creados previamente tanto para los datos de transacción y la interacción que se ejecutan en Hadoop o una infraestructura de red tradicional.

Video: Migracion de datos Talend Open Studio

la transformación de datos es el proceso de cambiar el formato de los datos para que pueda ser utilizado por diferentes aplicaciones. Esto puede significar un cambio del formato de los datos se almacenan en al formato requerido por la aplicación que utilizará los datos. Este proceso también incluye cartografía instrucciones para que las aplicaciones se les dice cómo obtener los datos que necesitan para procesar.

El proceso de transformación de datos se hace mucho más compleja debido a la sorprendente crecimiento en la cantidad de datos no estructurados. Una aplicación de negocios, tales como la gestión de relaciones con los clientes tiene requerimientos específicos de cómo se deben almacenar los datos. El dato es probable que sea estructurado en las filas y columnas organizadas de una base de datos relacional. Los datos son semiestructurada o estructurado si no sigue los requisitos de formato rígido.

La información contenida en un mensaje de correo electrónico se considera no estructurada, por ejemplo. Parte de la información más importante de una empresa es en formas no estructurados y semi-estructurados como documentos, mensajes de correo electrónico, mensajería formatos complejos, las interacciones de atención al cliente, las transacciones y la información procedentes de los paquetes de aplicaciones como ERP y CRM.

Herramientas de transformación de datos no están diseñados para trabajar bien con los datos no estructurados. Como resultado, las empresas que necesitan incorporar información no estructurada en su toma de decisiones de procesos de negocio se han enfrentado a una cantidad significativa de codificación manual para llevar a cabo la integración de datos requerida.

Dado el crecimiento y la importancia de los datos no estructurados para la toma de decisiones, soluciones ETL de los principales proveedores están comenzando a ofrecer enfoques estandarizados para la transformación de los datos no estructurados de forma que pueda integrarse más fácilmente con los datos estructurados operacionales.

Artículos Relacionados