grandes extraer datos con la colmena

Video: Menudo invento, la miel directamente al bote desde la colmena

Colmena es una, capa de datos-almacenamiento orientado a lotes construido sobre los elementos centrales de Hadoop (HDFS y MapReduce) y es muy útil en grandes volúmenes de datos. Proporciona a los usuarios que saben de SQL con una simple aplicación SQL-lite llamada HiveQL sin sacrificar el acceso a través de creadores de mapas y reductores. Con la colmena, se puede obtener lo mejor de ambos mundos: SQL-como el acceso a los datos estructurados y sofisticados análisis de datos grande con MapReduce.

Video: La increíble colmena que (recoge miel sola)

A diferencia de la mayoría de los almacenes de datos, colmena no está diseñado para respuestas rápidas a las consultas. De hecho, las consultas pueden tardar varios minutos o incluso horas dependiendo de la complejidad. Como resultado, la colmena es la mejor opción para la minería de datos y análisis más profundos que no requieren comportamientos en tiempo real. Porque se basa en el fundamento de Hadoop, es muy extensible, escalable y flexible, algo que el almacén de datos no es la media.

Colmena utiliza tres mecanismos para la organización de los datos:

Mesas: tablas de la colmena son las mismas que las tablas RDBMS que consisten en filas y columnas. Debido a que la colmena se coloca sobre la Hadoop HDFS, tablas se asignan a los directorios del sistema de archivos. Además, es compatible con la colmena tablas almacenadas en otros sistemas de archivos nativos.

particiones: Una tabla de la colmena puede soportar una o más particiones. Estas particiones se asignan a los subdirectorios en el sistema de archivos subyacente y representan la distribución de los datos a lo largo de la mesa. Por ejemplo, si una tabla se llama automóviles, con un valor de clave de 12345 y un valor fabricante Vado, la ruta de acceso a la partición sería / Hivewh / autos / kv = 12.345 / Ford.

cucharas: A su vez, los datos se pueden dividir en cubos. Cubos se guardan como archivos en el directorio de partición en el sistema de archivos subyacente. Los cubos se basan en el hash de una columna en la tabla. En el ejemplo anterior, es posible que tenga un cubo llamado Atención, que contiene todos los atributos de un auto Ford Focus.

metadatos colmena se almacena externamente en la “meta almacén.” La meta almacén es una base de datos relacional que contiene las descripciones detalladas del esquema de la colmena, incluyendo los tipos de columnas, los propietarios, los datos de clave y valor, estadísticas de la tabla, y así sucesivamente. La meta almacén es capaz de sincronizar los datos del catálogo de metadatos con otros servicios en el ecosistema de Hadoop.

Colmena soporta un lenguaje SQL, llamado HiveQL. HiveQL apoya muchas de las primitivas SQL, como SELECT, unir, agregada, la unión de todo, y así sucesivamente. También es compatible con consultas multitable e inserciones mediante el intercambio de los datos de entrada en una sola sentencia HiveQL. HiveQL puede ser extendida para soportar la agregación definida por el usuario, la transformación de columna, y las secuencias de comandos MapReduce embebidos.