La comparación de las distribuciones de hadoop

Video: Cloudera VS Apache VS MapR VS Hortonworks: Which Hadoop Distribution To Use? | Big Data Tutorial

Usted encontrará que el ecosistema Hadoop tiene muchos componentes, todos los cuales existen como sus propios proyectos de Apache. Debido Hadoop ha crecido considerablemente, y se enfrenta a algunos cambios más significativos, diferentes versiones de estos componentes comunidad de código abierto podrían no ser totalmente compatible con otros componentes. Esto plantea dificultades considerables para las personas que buscan obtener un comienzo independiente con Hadoop mediante la descarga y la compilación de proyectos directamente desde Apache.

Red Hat es, para muchas personas, el modelo de cómo hacer dinero con éxito en el mercado de software de código abierto. Lo que Red Hat ha hecho es tomar Linux (un sistema operativo de código abierto), agrupar todos sus componentes necesarios, construir un instalador sencillo, y proporcionar soporte de pago a cualquier cliente.

De la misma manera que Red Hat ha proporcionado un envase práctico para Linux, una serie de empresas han incluido Hadoop y algunas tecnologías relacionadas en sus propias distribuciones de Hadoop. Esta lista describe los más destacados:

Video: Hadoop vs. Cassandra

  • cloudera: Tal vez el jugador más conocido en el campo, Cloudera es capaz de reclamar Doug Cutting, co-fundador de Hadoop, como su principal arquitecto. Cloudera es visto por muchos como el líder del mercado en el espacio de Hadoop, ya que lanzó la primera distribución de Hadoop comercial y es un colaborador muy activo de código para el ecosistema Hadoop.

    Cloudera empresa, un producto posicionado por cloudera en el centro de lo que llama el “Datos de la empresa Hub”, incluye la distribución de Cloudera para Hadoop (CDH), una distribución basada en código abierto de Hadoop y sus proyectos relacionados, así como su propietaria Gestor de Cloudera. También se incluye una suscripción de soporte técnico para los componentes básicos de la CDH.

    modelo de negocio principal de cloudera mucho tiempo se ha basado en su capacidad para aprovechar su popular distribución CDH y proporcionar servicios de pago y de apoyo. En el otoño de 2013, Cloudera anunció formalmente que se centra en la adición de componentes propietarios de valor añadido en la parte superior de código abierto Hadoop para actuar como un elemento diferenciador.

    Además, Cloudera ha convertido en una práctica común para acelerar la adopción de código fuente alfa y beta abierta de nivel para la nueva libera Hadoop. Su enfoque es tomar componentes considere ser maduro y readaptar ellos en las bibliotecas de código abierto listos para producción existentes que se incluyen en su distribución.

  • EMC: HD Pivotal, la distribución Apache Hadoop de EMC, se integra de forma nativa la tecnología de EMC procesamiento paralelo masivo (MPP) de base de datos (anteriormente conocido como Greenplum, y ahora conocido como HAWQ) con Apache Hadoop. El resultado es una distribución de Hadoop de alto rendimiento con un verdadero procesamiento SQL para Hadoop. consultas basadas en SQL y otras herramientas de inteligencia de negocio se pueden utilizar para analizar los datos que se almacenan en HDFS.

  • Hortonworks: Otro jugador importante en el mercado de Hadoop, Hortonworks tiene el mayor número de committers y colaboradores de código de los componentes del ecosistema de Hadoop. (Committers son los guardianes de proyectos de Apache y tienen la facultad de aprobar cambios en el código.)

    Hortonworks es un spin-off de Yahoo !, que era el conductor corporativa original del proyecto Hadoop porque necesitaba una plataforma a gran escala para apoyar su negocio de los motores de búsqueda. De todos los proveedores de distribución de Hadoop, Hortonworks es la más comprometida con el movimiento de código abierto, basado en el volumen total del trabajo de desarrollo que contribuye a la comunidad, y porque todos sus esfuerzos de desarrollo son (con el tiempo) doblado en la base de código fuente abierto.

    El modelo de negocio Hortonworks se basa en su capacidad para aprovechar su popular distribución HDP y proporcionar servicios de pago y de apoyo. Sin embargo, no se vende software propietario. Por el contrario, la empresa apoya con entusiasmo la idea de trabajar dentro de la comunidad de código abierto para desarrollar soluciones que abordan los requisitos de características de la empresa (por ejemplo, procesamiento de consultas más rápido con la colmena).

    Video: Apache Hadoop Tutorial | Hadoop Hardware Requirements

    Hortonworks ha forjado una serie de relaciones con las empresas establecidas en la industria de gestión de datos: Teradata, Microsoft, Informatica, y SAS, por ejemplo. Aunque estas empresas no tienen sus propias ofertas de Hadoop, de la casa, que colaborará con Hortonworks para proporcionar soluciones integradas de Hadoop con sus propios conjuntos de productos.

    La oferta Hortonworks Hadoop es la Plataforma de Datos Hortonworks (HDP), que incluye Hadoop, así como herramientas y proyectos relacionados. También a diferencia de Cloudera, Hortonworks libera sólo versiones HDP con código de nivel de producción de la comunidad de código abierto.

    Video: Hadoop vs. HBase

  • IBM: Big Blue ofrece una gama de ofertas de Hadoop, con el enfoque en torno a valor añadido en la parte superior de la pila de código abierto Hadoop.

  • Intel: La distribución de Intel para Apache Hadoop (Intel Distribución) proporciona un procesamiento y gestión de datos distribuida para las aplicaciones empresariales que analizan grandes volúmenes de datos.

    Las características clave incluyen un excelente rendimiento con optimizaciones para procesadores Intel Xeon, almacenamiento SSD de Intel, e Intel 10 GbE redes- seguridad de los datos mediante el cifrado y descifrado en HDFS y control de acceso basado en roles con granularidad a nivel celular en HBase- mejoró consulta Colmena apoyo Performance- para el análisis estadístico con un conector para R, el popular paquete- estadístico de código abierto y los gráficos de análisis a través de Intel Gráfico constructor.

  • MapR: Para una distribución completa para Apache Hadoop y proyectos relacionados que es independiente de la Apache Software Foundation, no busque más MapR. Con ninguna dependencia de Java o dependencia en el sistema de archivos de Linux, MapR está siendo promovido como la única distribución de Hadoop que proporciona una protección completa de datos, sin puntos únicos de fallo y significativas ventajas de facilidad de uso.

    Tres ediciones MAPR están disponibles: M3, M5, M7 y. El M3 Edition es gratuito y está disponible para la producción ilimitada uso- MapR M5 es un software de suscripción de nivel intermedio y offering- MapR M7 es una distribución completa para Apache Hadoop HBase y que incluye cerdo, Colmena, Sqoop, y mucho más.

Artículos Relacionados