La transformación de datos en hadoop

Video: TUTORIAL SPSS MANIPULACION Y TRANSFORMACION DE DATOS Y SU ANALISIS

La idea de los motores de ETL de inspiración Hadoop ha ganado mucha fuerza en los últimos años. Después de todo, Hadoop es un almacenamiento de datos flexible y plataforma de procesamiento que puede soportar grandes cantidades de datos y las operaciones sobre los datos. Al mismo tiempo, es tolerante a fallos, y ofrece la oportunidad para la reducción de costos de capital y de software.

A pesar de la popularidad de Hadoop como motor ETL, sin embargo, muchas personas (incluyendo una firma famosa de analistas) no recomiendan Hadoop como la única pieza de la tecnología para su estrategia de ETL. Esto es así porque el desarrollo de los flujos de ETL requiere una gran cantidad de conocimientos acerca de los sistemas existentes de su organización de base de datos, la naturaleza de los datos en sí, y los informes y las aplicaciones que dependen de ella.

En otras palabras, los DBAs, desarrolladores y arquitectos en su departamento de TI tendrán que familiarizarse bastante con Hadoop para implementar los flujos de ETL necesarios. Por ejemplo, una gran cantidad de codificación intensiva mano con cerdo, colmena, o incluso MapReduce puede ser necesaria para crear incluso el más simple de los flujos de datos - que pone a su empresa en el gancho para esas habilidades si se sigue este camino.

Video: Big Data y los pasos para transformar los datos en información útil

Usted tiene que codificar elementos tales como la depuración en paralelo, los servicios de gestión de aplicaciones (como el cheque que apunta y error y el control de eventos). Además, considere los requisitos empresariales como glossarization y ser capaz de mostrar el linaje de sus datos.

Hay requisitos reglamentarios para muchos informes estándar de la industria, donde el linaje de datos se solicitado- la organización informante debe ser capaz de mostrar dónde están los puntos de datos en el informe provienen de, cómo los datos llegaron a usted, y lo que se ha hecho para los datos.

Video: Procesamiento de datos con Apache Flink

Incluso para los sistemas de bases de datos relacionales, ETL es lo suficientemente complejo que hay productos especializados populares que proporcionan interfaces para la gestión y desarrollo de los flujos de ETL. Algunos de estos productos ahora ayudar en ETL basada en Hadoop y otra de desarrollo basado en Hadoop. Sin embargo, dependiendo de sus necesidades, puede que tenga que escribir algo de su propio código para apoyar a su lógica de transformación.

Artículos Relacionados