Los fundamentos de la integración de datos grande

Los elementos fundamentales de la gran plataforma de datos gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto se debe a la necesidad de tener la escalabilidad y alto rendimiento necesario para gestionar los datos estructurados y no estructurados.

Video: Clase 3 de 7 - Modelamiento de Datos con Power Pivot y Power BI Desktop

Los componentes de la gran ecosistema de datos que van desde Hadoop a NoSQL DB, MongoDB, Cassandra, y HBase todos tienen su propio enfoque para cargar datos y extraer. Como resultado, los equipos pueden tener que desarrollar nuevas habilidades para gestionar el proceso de integración a través de estas plataformas. Sin embargo, muchas de las mejores prácticas de gestión de datos de su empresa será cada vez más importante a medida que se mueve en el mundo de los grandes volúmenes de datos.

Mientras que los grandes datos introduce un nuevo nivel de complejidad de la integración, se siguen aplicando los principios básicos fundamentales. Su objetivo de negocio tiene que estar centrado en la entrega de datos fiables y de calidad a la organización en el momento adecuado y en el contexto adecuado.

Video: SAP All in One - Carga masiva de datos fijos

Para garantizar esta confianza, es necesario establecer normas comunes de calidad de los datos con énfasis en la exactitud e integridad de los datos. Además, se necesita un enfoque integral para el desarrollo de metadatos de la empresa, el seguimiento de linaje de datos y de gobierno para apoyar la integración de los datos.

Al mismo tiempo, las herramientas tradicionales para la integración de datos están evolucionando para manejar la creciente variedad de datos no estructurados y el creciente volumen y la velocidad de los datos grandes. Mientras que las formas tradicionales de integración adquieren nuevos significados en un mundo de grandes datos, sus tecnologías de integración necesitan una plataforma común que soporta calidad de los datos y elaboración de perfiles.

Para tomar decisiones de negocios basados en el análisis de grandes datos, esta información debe ser confiable y comprendido en todos los niveles de la organización. A pesar de que probablemente no será el costo o tiempo efectivo para ser demasiado preocupado por la calidad de los datos en la fase exploratoria de un análisis de grandes volúmenes de datos, con el tiempo la calidad y la confianza debe desempeñar un papel si los resultados se van a incorporar en el proceso de negocio.

La información debe ser entregado a la empresa de una manera confiable, controlada y consistente, y flexible en toda la empresa, independientemente de los requisitos específicos de los sistemas o aplicaciones individuales. Para lograr este objetivo, se aplican tres principios básicos:

Debe crear un entendimiento común de las definiciones de datos. En las etapas iniciales de su análisis de grandes volúmenes de datos, no es probable que tengan el mismo nivel de control sobre las definiciones de datos como lo hace con sus datos operativos. Sin embargo, una vez que haya identificado los patrones que son más relevantes para su negocio, necesita la capacidad de asignar elementos de datos a una definición común.
Debe desarrollar un conjunto de servicios de datos para calificar los datos y que sea consistente y confiable en última instancia. Cuando las fuentes de datos no estructurados y grandes están integrados con los datos operacionales estructuradas, es necesario estar seguro de que los resultados serán significativos.
Necesita una forma aerodinámica para integrar sus grandes fuentes y sistemas de registro de datos. Con el fin de tomar buenas decisiones basadas en los resultados de su análisis de grandes volúmenes de datos, es necesario entregar la información en el momento adecuado y con el contexto correcto. Su proceso de integración de datos tan grande debe garantizar la coherencia y fiabilidad.

Para integrar datos a través de entornos de aplicación mixtos, obtener datos de un entorno de datos (fuente) a otro entorno de datos (destino). Extracción, transformación y tecnologías (ETL) de carga se han utilizado para lograr esto en entornos tradicionales de almacenamiento de datos. El papel de ETL está evolucionando para manejar entornos de gestión de datos más recientes, como Hadoop.

En un entorno de grandes volúmenes de datos, es posible que tenga que combinar herramientas que apoyan los procesos de integración por lotes (utilizando ETL) con la integración en tiempo real y la federación a través de múltiples fuentes. Por ejemplo, una compañía farmacéutica puede necesitar mezclar los datos almacenados en su sistema de gestión de datos maestros (MDM) con fuentes de datos grandes en los resultados médicos de uso de drogas cliente.

Las empresas utilizan MDM para facilitar la recogida, agregación, consolidación, y la entrega de datos coherentes y fiables de una manera controlada en toda la empresa. Además, las nuevas herramientas como Sqoop y Scribe se utilizan para apoyar la integración de los entornos de grandes volúmenes de datos. También encontrará un creciente énfasis en el uso de extracto, cargar y transformar las tecnologías (ELT). Estas tecnologías se describen a continuación.