10 Las tecnologías emergentes de hadoop para mantener el ojo en

Con Hadoop golpear la corriente principal de TI con una venganza, proyectos de código abierto relacionados con Hadoop están apareciendo por todas partes. Aquí están los diez mejores proyectos más interesantes de Hadoop emergente para que usted pueda mantener el ojo en. Algunos de ellos podrían estancarse y morir en silencio si un reemplazo superiores eran a venir, pero la mayoría de estos especímenes evolutivos probablemente se convertirán en componentes estándar en la mayoría de las distribuciones de Hadoop.

Esta lista se centra en los proyectos de la comunidad Apache porque este ecosistema ha sido aquel en el que se desarrollan y mantienen la mayoría de los proyectos de Hadoop convencionales existentes. Además, proyectos de Apache tienen criterios de gobierno sólidas que fomenten el desarrollo de un proceso abierto en el que las contribuciones de sus miembros son juzgados por su mérito técnico en lugar de en una agenda corporativa.

Accumulo

Apache Accumulo es un proyecto de almacenamiento de datos para Hadoop, desarrollado originalmente por la Agencia Nacional de Seguridad (NSA) del gobierno de los Estados Unidos. Accumulo es una aplicación BigTable de Hadoop. Específicamente, Accumulo es un mapa ordenados multidimensional, donde cada fila tiene una clave única, las filas se almacenan en orden clasificado sobre la base de esta clave, y cada fila puede tener múltiples versiones (en otras palabras, dimensiones).

Hubo mucho interés por la NSA en el uso de HBase como almacén de datos a gran escala, pero que no cumplía con los requisitos de seguridad interna de la NSA. Los ingenieros de la NSA construyeron entonces Accumulo como su propia implementación BigTable y más tarde contribuyeron a la comunidad Apache. ya que el proyecto ha crecido Accumulo una comunidad en desarrollo activo, con los contribuyentes a partir de un número de diferentes organizaciones - no sólo los tipos de la NSA, en otras palabras. Accumulo, ahora con el apoyo de varios de los principales proveedores de Hadoop, está viendo un aumento de la tasa de adopción.

La principal característica que distingue Accumulo de otras implementaciones BigTable es La seguridad basada en células, que asegura que sólo los usuarios autorizados pueden ver los datos almacenados en las filas consultados. Esto se implementa por medio de etiquetas de seguridad, que se almacenan con cada fila.

Perforar

Una serie de tecnologías emergentes y que compiten por ahí están tratando de resolver el problema de SQL-en-Hadoop. Aunque la mayoría de estas tecnologías son soluciones de una sola empresa, algunos de ellos son impulsado por la comunidad, con la colmena el ejemplo más destacado. Taladro Apache se inspira en el papel de Google Dremel, que presenta un diseño para un sistema interactivo que pueden consultar los datos almacenados en un sistema de archivos distribuido como HDFS y no tener que depender de MapReduce. El objetivo del diseño de taladro es ser capaz de escalar a miles de servidores y proporcionar tiempos de respuesta para las consultas subminute que operan con los datos petabyte escala.

A partir de primavera de 2014, Taladro sigue siendo un proyecto de incubadora de Apache, lo que significa que aún no ha sido aceptado como un proyecto de pleno derecho de Apache y todavía está estableciendo una base de código estable y de gestión del proyecto. Pero tiene un gran potencial, por lo que no se sorprenda si hace su salida de la incubadora pronto.

Halcón

Con la creciente integración de Hadoop en entornos de almacenamiento de datos, la industria está viendo una necesidad significativa de las capacidades de integración de datos y de gobierno en Hadoop. Los enfoques actuales para la integración de datos y el cumplimiento de los criterios de gobierno implican estas dos opciones:

  • Comprar tal utillaje de proveedores establecidos como IBM e Informatica.

  • Escribe amplias bibliotecas de código personalizado.

Esto es lo que el proyecto Apache Falcon tiene el objetivo de hacer frente a un conjunto de servicios de gestión de datos construidos específicamente para Hadoop. Como Taladro, Falcon es un proyecto de incubadora de Apache.

Los servicios de gestión de datos en Falcon se centran principalmente en la gestión de los datos de movimiento y transformación de datos. Si usted no está familiarizado con el manejo de datos entre bases de datos transaccionales y bases de datos de almacén, este proceso de movimiento y transformación de datos se conoce comúnmente como extracción, transformación y carga (ETL). Como parte del marco para el manejo de los procesos ETL, Falcon incluye la capacidad de almacenar los metadatos de los datos a medida que se pasa a través de las diversas etapas de ETL. Falcon continuación, puede proporcionar servicios para la gestión del ciclo de vida de los datos (por ejemplo, la ejecución de políticas de retención), replicación de datos, y el seguimiento de linaje de datos.

Giraph

Hadoop es bastante bueno en el almacenamiento y procesamiento de datos en tablas tradicionales (Colmena) y en el más reciente, el estilo BigTable (HBase y Accumulo), pero en muchos casos, las estructuras de almacenamiento de datos alternativos son más adecuadas para la tarea en cuestión. Gráfico de datos se ve muy diferente de datos de la tabla: No tiene filas o columnas. Hay simplemente un gráfico, donde los nodos individuales (también conocido como vértices) Están conectados entre sí por bordes.

Piense en esto: Uno enormes retos técnicos que Google se enfrenta es averiguar la mejor manera de calcular el ranking de resultados de búsqueda. Un factor en este es determinar cómo las páginas web más populares son individuales, con base en el número de enlaces entrantes se originan desde otras páginas web. Con mucho, la forma más práctica para calcular esto para todas las páginas es representar toda la World Wide Web como un gráfico, donde las páginas son los nodos y los enlaces son los vértices. Para capturar su trabajo de base de datos gráfica, Google publicó un documento sobre su base de datos gráfica, que lleva el nombre Pre-gel.

Apache Giraph, un motor de procesamiento gráfico que se basa en el papel Pregel y fue construido específicamente para Hadoop, puede leer y escribir datos de un número de fuentes estándar Hadoop, incluyendo colmena, HBase, y Accumulo.

La comunidad Giraph es bastante grande y diversa, que ofrece committers de código a partir de un número de organizaciones, incluyendo Facebook, Twitter y LinkedIn. Giraph está firmemente establecido como el principal motor de procesamiento gráfico para Hadoop, en términos de código de la madurez, el rendimiento y la adopción. los principales proveedores de Hadoop están apoyando Giraph y es probable que incluirlo. (El proyecto Apache BigTop ya lo hace.)

Knox puerta de enlace

Como un sistema distribuido con cientos o miles de ordenadores individuales, agrupaciones de Hadoop son la pesadilla de un administrador de seguridad. Para empeorar las cosas, los nodos de cálculo en un cluster Hadoop todos tienen múltiples servicios que se comunican entre sí y, en algunos casos, requiere conectividad directa con las aplicaciones de cliente. Sumar todos estos factores y que tiene una superficie masiva de los ordenadores con puertos abiertos que usted necesita para proteger. Para resolver este problema, Hortonworks ha iniciado el proyecto Apache Knox Gateway, que todavía está en sus primeros días como un proyecto de incubadora de Apache.

El objetivo principal de Knox puerta de enlace es proporcionar seguridad perimetral para clusters Hadoop. Esto se logra al proporcionar un punto central para la autenticación de clúster en el borde de un clúster Hadoop. Fuera del propio clúster, Knox puerta de enlace maneja todas las peticiones entrantes cliente en un clúster que está guardando y luego enruta las solicitudes válidas a los servicios adecuados en el cluster Hadoop. En este sentido, Knox Gateway es literalmente una pasarela segura para todas las comunicaciones entre el clúster Hadoop y el mundo exterior. Knox puerta de enlace permite a los administradores de red para aislar el cluster Hadoop del mundo exterior, porque mientras los servidores de puerta de enlace Knox están activos, los clientes tienen una conexión segura a sus servicios de Hadoop.

Samza

Un aspecto interesante de hilo es la posibilidad de ejecutar diferentes tipos de cargas de trabajo en un clúster Hadoop. Con MapReduce, que está limitado a procesamiento por lotes, pero con nuevas tecnologías como la chispa y Tez (que hablamos más adelante) y el taladro antes mencionado, Hadoop será capaz de admitir las consultas interactivas también. Otra clase de carga de trabajo es la transmisión de datos, que es lo que el proyecto Apache Samza es el objetivo de abordar. (Los datos en continuo trabaja para manejar los datos en tiempo real, en lugar de confiar en el stop-and-go aspecto de procesamiento por lotes.)

El proyecto fue iniciado por Samza ingenieros de LinkedIn, que necesitaban un motor de datos de streaming. En lugar de mantener su código interno, los ingenieros de LinkedIn están desarrollando Samza en la comunidad de código abierto Apache. En el momento de escribir estas líneas, Samza todavía está en sus primeros días como un proyecto de incubadora de Apache. Aunque existen otros motores de transmisión de datos (tal como Spark Streaming y la tormenta, se discute más adelante), el equipo de LinkedIn decidió construir su propio motor que mejor se adapte a sus necesidades.

Centinela

La sección sobre el proyecto Knox puerta de enlace de arriba cuenta con algunos de los desafíos de seguridad con Hadoop. Aunque Knox puerta de enlace se dirige a la autorización del sistema (asegurando que los usuarios pueden conectarse a los servicios del cluster Hadoop), no se refiere a la necesidad imperiosa de la autorización de datos, donde existen necesidades empresariales para restringir el acceso a subconjuntos de datos. Un ejemplo común es la necesidad de ocultar las tablas que contienen datos confidenciales, como números de tarjetas de crédito de los analistas en busca de patrones de comportamiento. El proyecto Apache Sentry fue iniciado por Cloudera como una manera de proporcionar este tipo de control de acceso a los datos almacenados en su proyecto impala y en la colmena. A partir de la primavera de 2014, Sentry es un proyecto de incubadora de Apache.

Sentry introduce el concepto de diferentes clases de funciones de usuario para Hadoop al tiempo que permite la clasificación de los activos de datos en el impala o colmena. En función de la clasificación que se aplica en el nivel de base de datos, tabla o vista, sólo los usuarios con los roles apropiados serían capaces de acceder a los datos.

Chispa

El proyecto Apache chispa se convirtió rápidamente en un nombre familiar (al menos en los hogares Hadoop) en 2014 cuando se convirtió en un proyecto de nivel superior de Apache (es decir, que se graduó en el estado incubadora) y una serie de empresas de distribución de Hadoop se alinearon para anunciar el apoyo. Chispa, como una plataforma de computación clúster, es otro proyecto que está realizando el enorme potencial HILO lleva a Hadoop en el apoyo a diferentes marcos de procesamiento de datos.

Spark fue originalmente desarrollado por investigadores de la Universidad de Berkeley, que creó los Databricks compañía de nuevo en 2013 para comercializarlo, ganando rápidamente $ 14 millones en fondos de capital de riesgo.

El entusiasmo en torno a la chispa se debe a su relativa simplicidad en comparación con MapReduce y su flexibilidad mucho mayor para los flujos y las cargas de trabajo interactivas. En contraste adicional a MapReduce, Spark hace su procesamiento de datos en memoria, lo que produce considerables beneficios de rendimiento. Al mismo tiempo, se puede procesar grandes conjuntos de datos que no caben en la memoria desde el disco, pero todavía proporciona ventajas de rendimiento, porque la chispa no es necesario que se adhieran al mapa rígida de MapReduce y reducir los ciclos, que a menudo no son óptimas para muchos algoritmos.

Como marco general, la chispa tiene una serie de proyectos de niño para el procesamiento de datos más especializados: Spark Streaming para la transmisión de datos en tiempo real feeds- tiburón, por queries- SQL interactivo Machine Learning Library (MLlib) Para aprendizaje-máquina y GraphX ​​para el procesamiento gráfico.

Tormenta

Apache Storm es el tercer motor de análisis de flujo de datos cubierto en este artículo (con Samza y Spark Streaming como los otros dos), que es un testimonio de la cantidad de atención analítica en tiempo real es cada vez en la comunidad Hadoop. Sin embargo, estos enfoques divergentes son también indicios de que todavía es temprano en la evolución de la transmisión de datos sobre el análisis Hadoop, ya que ninguno de estos tres se ha convertido en un líder. Tormenta ha sido un proyecto activo el más largo, después de haber sido donado a la comunidad de código abierto después de ser adquirida por Twitter en 2011. tormenta es ahora un proyecto de incubadora de Apache.

Gracias al trabajo de los desarrolladores Hortonworks que lo trajeron a la comunidad Apache, la tormenta fue reforzado para trabajar con el marco del hilo. Esto trajo la tormenta en el ecosistema de Hadoop como una alternativa de procesamiento en tiempo real.

Tez

De manera similar a lo que ocurre con los motores de análisis de datos de streaming, una serie de alternativas han surgido con MapReduce para el procesamiento distribuido interactiva. Spark es un ejemplo prominente de estos marcos. El otro ejemplo de ataque de un marco de este tipo es Apache Tez, que está en gran parte impulsado por Hortonworks.

La solución Hortonworks al desafío de SQL-en-Hadoop es mejorar la colmena. Para hacer frente a este reto, Hortonworks anunció su iniciativa Stinger, que involucró a una serie de cambios en la colmena, que implican un mejor soporte para los estándares ANSI SQL y rendimiento muy mejorado. Una limitación clave en la colmena es su dependencia de MapReduce para el procesamiento de consultas. MapReduce está limitado en su capacidad para hacer frente a las operaciones comunes de SQL tales como uniones y grupos apartaderos, que se traduce en rendimiento extremadamente bajo en comparación con las alternativas de bases de datos relacionales masivamente paralelas que van a gran escala comparable. Hortonworks anunció el proyecto Tez presentar un marco alternativo para MapReduce, que está optimizado para las posibilidades más óptimas (y flexibles) de procesamiento de datos. Tez también se utilizará como marco subyacente de cerdo.

Artículos Relacionados