Impala cloudera y hadoop

Video: Introduction To Impala | Impala Hadoop Tutorial

Cloudera es un proveedor de software y servicios de Apache Hadoop líder en el gran mercado de datos. Como Taladro Apache, la tecnología de Cloudera Impala busca mejorar el tiempo de respuesta de consulta interactiva para los usuarios de Hadoop. Apache Hive ha proporcionado un mecanismo de consulta familiar y de gran alcance para los usuarios de Hadoop, pero los tiempos de respuesta a consultas a menudo son inaceptables debido a la dependencia del subárbol en MapReduce. La respuesta de cloudera a este problema es impala.

Video: Cloudera Impala Hands-on Video

Cloudera ha desarrollado un motor de consulta MPP, escrito en C ++, para reemplazar la capa de MapReduce apalancado por Apache Hive. A diferencia de Dremel y Taladro, Cloudera decidió que un motor de C ++ nativo MPP - en lugar de un motor de Java - fue la respuesta para consultas, Hadoop interactivas rápidas.

Tenga en cuenta que Impala utiliza HiveQL como una interfaz de programación, y motores de consulta Exec de impala son co-situado con nodos de datos HDFS, de acuerdo con el enfoque Hadoop de datos co-localización con las tareas de procesamiento. Impala también se puede utilizar HBase como almacén de datos. En este sentido, Impala es una extensión de Apache Hadoop, proporcionando una alternativa de muy alto rendimiento para el modelo de colmena-on-top-of-MapReduce.

Video: An introduction to Cloudera Impala - SQL on top of Hadoop

Cloudera y Twitter llevaron al desarrollo del nuevo formato de archivo Hadoop, que puede ser utilizado con el impala y está disponible como código abierto en GitHub. El formato de archivo parqué proporciona un medio columnar robusta para almacenar datos en Hadoop. Es compatible con la compresión y codificación altamente eficiente, y es eficaz para almacenar estructuras de datos anidadas.

Puedes encontrar La tecnología del impala de cloudera, que también fue inspirado por Dremel invención de Google.

Artículos Relacionados