Hadoop y una colmena

Para hacer una larga historia corta, Colmena ofrece Hadoop con un puente con el mundo RDBMS y proporciona un dialecto SQL conocida como Colmena Query Language (HiveQL), que se puede utilizar para realizar tareas similares a SQL. Esa es la gran noticia, pero hay más a la Colmena de lo que parece, como se suele decir, o más aplicaciones de esta nueva tecnología que se pueden presentar en un argumento de venta estándar.

Por ejemplo, Colmena también hace posible el concepto conocido como almacenamiento de datos empresariales de aumento (EDW), un caso que lleva el uso de Apache Hadoop, donde los almacenes de datos se configuran como RDBMS construido específicamente para el análisis y presentación de datos.

Ahora, algunos expertos argumentan que Hadoop (con Colmena, HBase, Sqoop, y sus amigos surtidos) puede reemplazar el EDW. Sin embargo, Apache Hadoop es una gran adición a la empresa y que puede aumentar y complementar EDWs existentes. Colmena, HBase y Sqoop permiten el aumento EDW.

Video: La Miel. Los Secretos de la Colmena

Estrechamente asociado con la tecnología RDBMS / EDW es el extracto, transformar, y la tecnología de carga (ETL). Para comprender lo que ETL no, es muy útil saber que, en muchos casos de uso, los datos no pueden ser cargados inmediatamente en la base de datos relacional - que debe ser extraída de su fuente nativa, se transformó en un formato apropiado, y luego cargado en el RDBMS o EDW.

Por ejemplo, una empresa o una organización pueden extraer datos de texto no estructurados a partir de un foro de Internet, transformar los datos en un formato estructurado que a la vez útil y valiosa, y luego cargar los datos estructurados en su EDW.

Se puede ver que la colmena es una herramienta ETL potente por derecho propio, junto con el actor principal en este reino: Apache Pig. Una vez más, los usuarios pueden tratar de establecer Colmena y cerdo como el nuevas herramientas ETL para el centro de datos. (Que lo intenten.)

Al igual que con el debate sobre EDW frente Apache Hadoop, estas tecnologías Apache Hadoop no son directas reemplazos para disfrutar de herramientas ETL existente sino que son nuevas y potentes herramientas ETL para ser utilizados cuando sea apropiado.

Por último, pero no menos importante, Apache Hive le da poderosas herramientas analíticas, todo ello dentro del marco de HiveQL. Estas herramientas deben verse y sentirse muy familiar para los profesionales de TI que entienden cómo utilizar SQL.

Artículos Relacionados