Nodos de borde en racimos de hadoop

nodos de borde son la interfaz entre el clúster Hadoop y la red exterior. Por esta razón, están a veces se denomina puerta linfáticos. Por lo general, los nodos externos se utilizan para ejecutar aplicaciones de cliente y herramientas de administración del clúster.

También se utilizan a menudo como áreas de almacenamiento para datos que se transfieren en el clúster Hadoop. Como tal, Oozie, cerdo, Sqoop, y las herramientas de gestión, como Hue y Ambari correr bien allí. La figura muestra los procesos que pueden ejecutarse en nodos de borde.

nodos de borde son a menudo pasados ​​por alto en las discusiones de Hadoop arquitectura de hardware. Esta situación es lamentable, porque los nodos frontera servir a un propósito importante en un cluster Hadoop, y tienen requisitos de hardware que son diferentes de nodos maestros y nodos esclavos.

En general, es una buena idea para reducir al mínimo las implementaciones de herramientas de administración de nodos maestros y nodos esclavos para asegurar que los servicios críticos como Hadoop NameNode tienen la menor competencia por los recursos como sea posible.

Usted debe evitar la colocación de una herramienta de transferencia de datos como Sqoop en otra cosa que un nodo de borde, ya que los volúmenes de transferencia de datos de alta podrían correr el riesgo de la capacidad de los servicios de Hadoop en el mismo nodo para comunicarse. El intercambio de servicios de mensajes de Hadoop son su sangre, por lo latencia alta significa que todo el nodo podría ser cortada de la agrupación.

La figura muestra dos nodos de borde, pero para muchas agrupaciones de Hadoop sería suficiente un único nodo de borde. nodos de borde adicionales se necesitan más comúnmente cuando el volumen de datos que se transfieren dentro o fuera de la agrupación es demasiado para un solo servidor de manejar.

almacenamiento recomendada

Para los nodos de borde de un clúster Hadoop, usar el almacenamiento de clase empresarial. Para nodos de borde se centraron en las herramientas de administración y ejecución de aplicaciones de cliente, utilice cuatro unidades de 900 GB SAS, junto con un controlador de disco duro RAID configurado para RAID 1 + 0.

nodos de borde orientados a la ingestión de datos, obviamente, necesitan mucho más espacio de almacenamiento, por lo que puede añadir unidades al nodo de frontera. En este caso, utilice las unidades SAS LFF debido a las capacidades mucho más altas están disponibles, en comparación con las unidades más pequeñas de factor de forma SAS.

procesadores recomendados

Un nodo de borde de propósito general sería bien servido por una configuración de procesador similar a uno usado para nodos esclavos - específicamente, un servidor de dos sockets con procesadores Ivy Bridge velocidad de reloj de entre 2 y 2,5 GHz.

memoria recomendada

Para la mayoría de cargas de trabajo en nodos de borde, 48 GB de RAM es suficiente.

redes recomendada

Para permitir la comunicación entre la red externa y el cluster Hadoop, nodos de borde deben ser multitarjeta en la subred privada del cluster Hadoop, así como en la red corporativa.

Video: Introducción a Bases de Datos - Universidad de Stanford (Sub-Spanish)

Un equipo multitarjeta es uno que ha dedicado conexiones a múltiples redes. Esta es una ilustración práctica de por qué nodos de borde son perfectamente adecuadas para la interacción con el mundo exterior del cluster Hadoop. Mantener el clúster Hadoop en su propia subred privada es una práctica excelente, por lo que estos nodos de borde servir como una ventana controlado dentro del clúster.

Para los nodos de borde que sirven al propósito de ejecutar aplicaciones de cliente o herramientas de administración, dos pares de conexiones de red 1 GbE unidos se recomiendan: un par para conectar al clúster Hadoop y otro par para la red exterior.

nodos de borde orientados a la manipulación de las altas tasas de transferencia de datos entrantes y salientes tendrá dos (o más) pares de conectores de red de 10 GbE unido: un par para conectar al clúster Hadoop y otro par para la red exterior o datos específicos ingieren fuentes.

Artículos Relacionados