El ecosistema apache hadoop

Video: [T3chFest 2014] Hadoop y el Zoológico a su Alrededor

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y procesamiento de datos a gran escala. La mayoría (pero no todos) de estos proyectos son recibidos por la Apache Software Foundation. La tabla enumera algunos de estos proyectos.

Video: BIg Data Hadoop Ecosystem

Proyectos relacionados con Hadoop
Nombre del proyectoDescripción
ambariUn conjunto integrado de herramientas de administración para Hadoop
instalación, el seguimiento y el mantenimiento de un clúster Hadoop. también
incluidos son herramientas para agregar o quitar nodos esclavos.
AvroUn marco para la serialización eficiente (una especie de
transformación) de datos en un formato binario compacto
Canal artificialUn servicio de flujo de datos para el movimiento de grandes volúmenes de registro
datos en Hadoop
HBaseUna base de datos distribuida que utiliza columnar HDFS por su
almacenamiento subyacente. Con HBase, puede almacenar los datos en muy
tablas grandes con estructuras de columnas variables.
HCatalogUn servicio para proporcionar una vista relacional de los datos almacenados en
Hadoop, incluyendo un enfoque estándar para datos tabulares
ColmenaUn almacén de datos distribuida para los datos que se almacena en HDFS-
También proporciona un lenguaje de consulta que&rsquo-s basado en SQL
(HiveQL)
MatizUna interfaz de administración de Hadoop con herramientas práctico de GUI
explora archivos, emitir consultas colmena y cerdo, y el desarrollo de Oozie
flujos de trabajo
Cuidador de elefantesUna biblioteca de aprendizaje automático algoritmos estadísticos que eran
implementado en MapReduce y se puede ejecutar de forma nativa en Hadoop
oozieUna herramienta de gestión de flujo de trabajo que puede manejar la programación y
el encadenamiento de aplicaciones de Hadoop
CerdoUna plataforma para el análisis de grandes conjuntos de datos que se ejecuta
en HDFS y con una capa de infraestructura que consta de un compilador
que produce secuencias de programas de MapReduce y una capa de lenguaje
que consiste en el lenguaje de consulta con nombre latín de cerdo
SqoopUna herramienta para mover eficientemente grandes cantidades de datos entre
bases de datos relacionales y HDFS
ZooKeeperUn simple interfaz a la coordinación centralizada de servicios
(Tales como nomenclatura, la configuración, y la sincronización) utilizado por
aplicaciones distribuidas

El ecosistema de Hadoop y sus distribuciones comerciales siguen evolucionando, con tecnologías nuevas o mejoradas y herramientas emergentes todo el tiempo.

Video: GDG DevFest Med 2016 - Dario catalano "Ecosistema Apache Hadoop: Architettura, API"

La figura muestra los diferentes proyectos del ecosistema de Hadoop y cómo se relacionan unos con otros;

Artículos Relacionados