El ecosistema apache hadoop
Video: [T3chFest 2014] Hadoop y el Zoológico a su Alrededor
Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y procesamiento de datos a gran escala. La mayoría (pero no todos) de estos proyectos son recibidos por la Apache Software Foundation. La tabla enumera algunos de estos proyectos.
Video: BIg Data Hadoop Ecosystem
Nombre del proyecto | Descripción |
---|---|
ambari | Un conjunto integrado de herramientas de administración para Hadoop instalación, el seguimiento y el mantenimiento de un clúster Hadoop. también incluidos son herramientas para agregar o quitar nodos esclavos. |
Avro | Un marco para la serialización eficiente (una especie de transformación) de datos en un formato binario compacto |
Canal artificial | Un servicio de flujo de datos para el movimiento de grandes volúmenes de registro datos en Hadoop |
HBase | Una base de datos distribuida que utiliza columnar HDFS por su almacenamiento subyacente. Con HBase, puede almacenar los datos en muy tablas grandes con estructuras de columnas variables. |
HCatalog | Un servicio para proporcionar una vista relacional de los datos almacenados en Hadoop, incluyendo un enfoque estándar para datos tabulares |
Colmena | Un almacén de datos distribuida para los datos que se almacena en HDFS- También proporciona un lenguaje de consulta que&rsquo-s basado en SQL (HiveQL) |
Matiz | Una interfaz de administración de Hadoop con herramientas práctico de GUI explora archivos, emitir consultas colmena y cerdo, y el desarrollo de Oozie flujos de trabajo |
Cuidador de elefantes | Una biblioteca de aprendizaje automático algoritmos estadísticos que eran implementado en MapReduce y se puede ejecutar de forma nativa en Hadoop |
oozie | Una herramienta de gestión de flujo de trabajo que puede manejar la programación y el encadenamiento de aplicaciones de Hadoop |
Cerdo | Una plataforma para el análisis de grandes conjuntos de datos que se ejecuta en HDFS y con una capa de infraestructura que consta de un compilador que produce secuencias de programas de MapReduce y una capa de lenguaje que consiste en el lenguaje de consulta con nombre latín de cerdo |
Sqoop | Una herramienta para mover eficientemente grandes cantidades de datos entre bases de datos relacionales y HDFS |
ZooKeeper | Un simple interfaz a la coordinación centralizada de servicios (Tales como nomenclatura, la configuración, y la sincronización) utilizado por aplicaciones distribuidas |
El ecosistema de Hadoop y sus distribuciones comerciales siguen evolucionando, con tecnologías nuevas o mejoradas y herramientas emergentes todo el tiempo.
Video: GDG DevFest Med 2016 - Dario catalano "Ecosistema Apache Hadoop: Architettura, API"
La figura muestra los diferentes proyectos del ecosistema de Hadoop y cómo se relacionan unos con otros;