¿Cómo elegir una distribución de Hadoop

distribuciones de Hadoop comerciales ofrecen varias combinaciones de componentes de código abierto de Apache Software Foundation y en otros lugares - la idea es que los distintos componentes se han integrado en un solo producto, que le ahorra el esfuerzo de tener que montar su propio conjunto de componentes integrados. Además de software de código abierto, los vendedores suelen ofrecer software propietario, soporte, servicios de consultoría y capacitación.

¿Cómo ir sobre la elección de una distribución de Hadoop de las numerosas opciones que están disponibles? Cuando se trata de la creación de su propio entorno, que eres el que tiene que elegir, y que la elección debe basarse en un conjunto de criterios diseñados para ayudarle a tomar la mejor decisión posible.

No todas las distribuciones de Hadoop tener los mismos componentes (aunque todos ellos tienen capacidades básicas de Hadoop), y no todos los componentes en una distribución particular son compatibles con otras distribuciones.

Video: Los entornos de escritorio Linux más famosos!! ¿cual elegir?

Los criterios para seleccionar la distribución más adecuada pueden articularse como esta serie de preguntas importantes:

¿Qué es lo que quiere lograr con Hadoop?
¿Cómo puede utilizar Hadoop para obtener una perspectiva de negocio?
¿Qué problemas de negocio es lo que desea resolver?
¿Qué datos serán analizados?
¿Está dispuesto a utilizar componentes propietarios, o prefiere la oferta de código abierto?
Es la infraestructura Hadoop que usted está considerando lo suficientemente flexible como para todos los casos de uso?
¿Qué herramientas existentes se desea integrar con Hadoop?
¿Sus administradores necesitan herramientas de gestión? (Distribución núcleo de Hadoop no incluye herramientas administrativas.)
Será la ofrenda que elija le permiten moverse a un producto diferente y sin obstáculos, tales como los proveedores de tecnología? (El código de aplicación que no es transferible a otras distribuciones o los datos almacenados en formatos propietarios representan buenos ejemplos de lock-in.)
Va la distribución que está pensando en satisfacer sus necesidades futuras, en la medida en que es capaz de anticipar esas necesidades?

Video: Small Data, Big Data, My Data (Nagore de los Ríos)

Un enfoque para distribuciones que comparaban es crear una matriz de características - una tabla que detalla las especificaciones y características de cada distribución que está considerando. Su elección, entonces puede depender del conjunto de características y especificaciones técnicas que mejor responde a las necesidades de todo sus problemas de negocio específicos.

Por otro lado, si sus necesidades incluyen la creación de prototipos y la experimentación, la elección de la distribución de Apache Hadoop última oficial podría llegar a ser el mejor enfoque. Los lanzamientos más recientes, sin duda tienen las nuevas características más interesantes, pero si quieres que la estabilidad no quieren emoción. Para la estabilidad, buscar una rama de lanzamiento más antigua que ha estado disponible tiempo suficiente para tener algunas versiones incrementales (éstos suelen incluir correcciones de errores y características de menor importancia).

Siempre que se piensa en código abierto distribuciones de Hadoop, dar un momento de reflexión (o tal vez el pensamiento de muchos momentos) con el concepto de la fidelidad de código abierto - el grado en que una distribución particular es compatible con los componentes de código abierto de los que depende. De alta fidelidad facilita la integración con otros productos que están diseñados para ser compatibles con los componentes de código abierto. Baja fidelidad? No tanto.

El enfoque de código abierto para el desarrollo de software en sí es una parte importante de su Hadoop planes, ya que promueve la compatibilidad con una gran cantidad de herramientas de terceros que puede aprovechar en su propia implementación de Hadoop. El enfoque de código abierto también permite que el compromiso con la comunidad Apache Hadoop, que le da, a su vez, la oportunidad de acceder a una piscina más profunda de las habilidades y la innovación para enriquecer su experiencia Hadoop.

Debido a Hadoop es un ecosistema de rápido crecimiento, algunas partes continúan madurando ya que la comunidad desarrolla herramientas para satisfacer las demandas de la industria. Un aspecto de esta evolución es conocido como backporting, donde se aplica una nueva modificación del software o el parche a una versión del software que es más antigua que la versión a la que el parche es aplicable.

Un ejemplo es la conmutación por error NameNode: Esta capacidad es una parte de Hadoop 2 pero fue portado (en su forma beta) por un número de distribuciones en sus ofertas basadas en Hadoop-1 para tanto como un año antes de Hadoop 2 se convirtió generalmente disponibles.

Video: Canales de distribucion

No todas las distribuciones se involucra activamente en backporting nuevos contenidos en el mismo grado, aunque la mayoría lo hacen por elementos tales como correcciones de errores. Si desea una licencia de producción para la tecnología de sangrado de punta, esto es sin duda una opción-para la estabilidad, sin embargo, no es una buena idea.

La mayoría de las distribuciones de Hadoop incluyen código propietario de algún tipo, que con frecuencia se presenta en forma de instaladores y un conjunto de herramientas de gestión. Estas distribuciones por lo general surgen de diferentes modelos de negocio.

Video: ¿Cómo elegir el mejor televisor? | Un Nuevo Día | Telemundo

Por ejemplo, un modelo de negocio se puede resumir de esta manera: “establecerse como un líder de código abierto y pionero, el mercado de su empresa como tener la mejor experiencia y vender esa experiencia como un servicio” de Red Hat, Inc. es un ejemplo de un vendedor que utiliza este modelo.

En contraste con este enfoque, el e-abrazo-extender el modelo de negocio tiene vendedores que construyen capacidades que amplían las capacidades del software de código abierto. MapR e IBM, que ambos ofrecen los sistemas de archivos alternativos al Hadoop Distributed File System (HDFS), son buenos ejemplos.

La gente a veces por error tirar la etiqueta de “tenedor” a estas innovaciones, haciendo uso de la jerga utilizada por los programadores de software para describir situaciones en las que alguien toma una copia de un programa de código abierto como el punto de partida para su propio desarrollo (independiente).

Los sistemas de archivos alternativos ofrecidos por MapR e IBM son completamente diferentes sistemas de ficheros, no una horquilla de la fuente abierta HDFS. Ambas empresas permiten a sus clientes a elegir su propio sistema de archivos distribuido o HDFS. Sin embargo, en este enfoque, la compatibilidad es crítica, y el vendedor debe estar al día con las interfaces en evolución. Los clientes necesitan saber que los vendedores pueden ser invocados en apoyo de sus extensiones.