Maestros nodos en racimos de hadoop

Los nodos maestros en racimos de Hadoop distribuidos reciban a los diversos servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, para todo el clúster Hadoop. La redundancia es fundamental para evitar los puntos únicos de fallo, por lo que ver dos interruptores y tres nodos maestros.

Video: sistemas operativos cluster hearbeat ubuntu 12.04

  • NameNode: Gestiona el almacenamiento HDFS. Para garantizar una alta disponibilidad, que tiene tanto un NameNode activo y un NameNode espera. Cada ejecuta en su propio nodo maestro, dedicado.

    Video: Docker Containers and Kubernetes with Brian Dorsey

  • nodo de Checkpoint (o nodo de copia de seguridad): proporciona checkpointing servicios para la NameNode. Esto implica la lectura de registro de edición de NameNode de cambios en los archivos en HDFS (nuevos, borrados y archivos adjuntos) desde el último punto de control, y su aplicación a archivo maestro del NameNode que se asigna a los archivos de bloques de datos.

    Video: Juan Esteban Katz tutor de Clases en Vivo

    Además, el nodo de copia de seguridad guarda una copia del espacio de nombres del sistema de archivos en la memoria y lo mantiene en sincronía con el estado de la NameNode. Para implementaciones de alta disponibilidad, no utilice un nodo de punto de control o nodo de copia de seguridad - utilizar un NameNode espera en su lugar. Además de ser una espera activa para el NameNode, la espera NameNode mantiene los servicios de puntos de control y mantiene una copia actualizada del espacio de nombres del sistema de archivos en la memoria.

  • JournalNode: Recibe modificaciones de edición de registro que indican cambios en los archivos en HDFS de NameNode. Al menos tres servicios JournalNode (y siempre es un número impar) deben ejecutar en un clúster, y son lo suficientemente ligero que puede colocarse con otros servicios en los nodos maestros.

  • Administrador de recursos: Supervisa la programación de tareas y gestión de los recursos del cluster Hadoop aplicación. Este servicio es el corazón de hilo.

  • JobTracker: Para los servidores Hadoop 1, se ocupa de la gestión de recursos de clúster y la programación. Con hilado, el JobTracker es obsoleto y no se utiliza. Un número de implementaciones de Hadoop todavía no han migrado a Hadoop 2 y el hilo.

  • HMaster: Supervisa los servidores región HBase y se ocupa de todos los cambios en los metadatos. Para garantizar una alta disponibilidad, asegúrese de usar una segunda instancia HMaster. El servicio HMaster es lo suficientemente ligero para colocarse con otros servicios en los nodos maestros. En Hadoop 1, instancias del servicio HMaster ejecutan en nodos maestros. En Hadoop 2, con Hoya (HBase a los hilados), las instancias HMaster ejecutan en contenedores en nodos esclavos.

  • Zookeeper: Coordenadas componentes distribuidos y proporciona mecanismos para mantenerlos sincronizados. Zookeeper se utiliza para detectar el fallo de la NameNode y elegir un nuevo NameNode. También se utiliza con HBase para gestionar los estados de la HMaster y los RegionServers.

    Al igual que con la JournalNode, se necesitan al menos tres casos de nodos Zookeeper (y siempre en número impar), y son lo suficientemente ligero para colocarse con otros servicios en los nodos maestros.

Aquí, usted tiene tres nodos maestros (con el mismo hardware), donde los servicios clave NameNode activo, NameNode de espera, y Administrador de recursos tienen cada uno su propio servidor. Hay servicios JournalNode y Zookeeper que se ejecutan en cada servidor también, pero estos son ligeros y no serán una fuente de contención de recursos con los servicios NameNode y gestor de recursos.

Los principios son los mismos para Hadoop 1, donde se necesita un nodo maestro dedicado para NameNode, NameNode secundaria, y los servicios JobTracker.

Si va a utilizar con HBase Hoya en Hadoop 2, no es necesario ningún servicio adicional. Para Hadoop 1 implementaciones utilizando HBase, visita la siguiente figura para el despliegue de servicios en nodos maestros del cluster Hadoop.

Hay dos diferencias cuando se comparan estos servidores maestros a los servidores maestros Hadoop 1 sin el apoyo HBase: aquí se necesita dos servicios HMaster (uno para coordinar HBase, y uno para actuar como un modo de espera) y los servicios del guardián de los tres nodos maestros para manejar la conmutación por error .

Si tiene intención de utilizar el clúster Hadoop 1 sólo para HBase, se puede hacer sin el servicio JobTracker, ya que HBase no depende de la infraestructura Hadoop MapReduce 1.

Cuando la gente habla de hardware para Hadoop, por lo general, hacen hincapié en el uso de mercancía - componentes de los baratos. Porque hay que desembolsar por sólo unos pocos nodos maestros (por lo general, tres o cuatro), que no está afectada por la multiplicación de los costes si, por ejemplo, decide utilizar unidades de disco duro caros.

Tenga en cuenta que, sin nodos maestros, que no queda racimo Hadoop. Maestros nodos tienen una función de misión crítica, ya pesar de que lo que necesita la redundancia, se deben diseñar con alta disponibilidad y capacidad de recuperación en mente.

almacenamiento recomendada

Para Hadoop nodos maestros, sin importar el número de nodos esclavos o usos de la agrupación, las características de almacenamiento son consistentes. Utilice cuatro unidades de 900 GB SAS, junto con un controlador de disco duro RAID configurado para RAID 1 + 0. Las unidades SAS son más caros que los discos SATA, y tienen menor capacidad de almacenamiento, pero son mucho más rápida y fiable.

Desplegar sus unidades SAS como una matriz RAID asegura que los servicios de gestión de Hadoop tienen una tienda redundante para sus datos de misión crítica. Esto le da de almacenamiento lo suficientemente estable, rápido y redundante para apoyar la gestión de su clúster Hadoop.

procesadores recomendados

En el momento de escribir estas líneas, la mayoría de las arquitecturas de referencia recomiendan el uso de placas base con dos sockets de CPU, cada uno con seis u ocho núcleos. La arquitectura Intel Ivy Bridge se utiliza comúnmente.

memoria recomendada

Los requisitos de memoria varían considerablemente dependiendo de la escala de un cluster Hadoop. La memoria es un factor crítico para Hadoop nodos maestros porque los servidores NameNode activos y en espera dependen en gran medida de RAM para gestionar HDFS. Como tal, usar la memoria de corrección de errores (ECC) para Hadoop nodos maestros. Típicamente, nodos maestros necesitan entre 64 GB y 128 GB de RAM.

El requisito de memoria NameNode es una función directa del número de bloques de archivos almacenados en HDFS. Por regla general, la NameNode utiliza más o menos 1 GB de RAM por cada millón de HDFS bloques. (Recuerde que los archivos se dividen en bloques individuales y se replica de manera que usted tiene tres copias de cada bloque.)

Las demandas de memoria de Resource Manager, HMaster, Zookeeper, y los servidores JournalNode son considerablemente menores que para el servidor NameNode. Sin embargo, es una buena práctica para el tamaño de los nodos maestras de una forma coherente, de modo que son intercambiables en caso de fallo de hardware.

redes recomendada

Comunicación rápida es vital para los servicios en nodos maestros, por lo que recomendamos el uso de un par de conexiones 10 GbE unidos. Este par unido proporciona redundancia, sino que también se duplica el rendimiento de 20GbE. Para grupos más pequeños (por ejemplo, menos de 50 nodos) que podría salir con el uso de conectores 1 GbE.

Artículos Relacionados