el acceso SQL y Apache colmena

Video: Rethinking SQL for Big Data with Apache Drill

Apache Hive es indiscutiblemente la interfaz de consulta de datos más extendida en la comunidad Hadoop. Originalmente, los objetivos de diseño de la colmena no eran para la compatibilidad de SQL completa y de alto rendimiento, pero eran para proporcionar una interfaz fácil, algo familiar para los desarrolladores que necesitan para realizar consultas por lotes en Hadoop.

Video: Live Action: Hadoop and SQL Server Connector

Este enfoque más bien poco a poco ya no funciona, por lo que crece la demanda de soporte de SQL real y un buen rendimiento. Hortonworks respondieron a esta demanda mediante la creación del proyecto Stinger, donde se invirtió sus recursos de desarrollo en la mejora de la colmena para ser más rápido, a escala a un nivel de petabytes, y para ser más compatible con los estándares SQL. Este trabajo fue para ser entregado en tres fases.

En las fases 1 y 2, que viste una serie de optimizaciones para la forma en que se procesan las consultas, así como apoyo adicional para datos SQL tradicionales tipos: la adición del formato ORCFile para el procesamiento y almacenamiento más eficiente y la integración con hilo para un mejor rendimiento.

En la fase 3, las evoluciones verdaderamente significativos se producen, que desacoplar Colmena de MapReduce. Específicamente, implica la liberación de Apache Tez, que es un modelo de procesamiento alternativa para Hadoop, diseñado para cargas de trabajo interactivas.

Además del proyecto de Stinger, Hortonworks está encabezando una iniciativa ambiciosa para permitir la colmena para apoyar la edición de datos en el nivel de fila con el pleno cumplimiento de las propiedades ACID para los sistemas de bases de datos: atomicidad, coherencia, los niveles de aislamiento y durabilidad.