Actualizaciones de puntos de control en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) es un sistema de archivos de diario, donde los nuevos cambios en los archivos en HDFS son capturados en un registro de edición que se almacena en el NameNode en un archivo llamado. Periódicamente, cuando el archivo alcanza un cierto umbral o después de que haya transcurrido un cierto período, las entradas por diario tiene que estar comprometido con el archivo maestro.

NameNode en sí no hace esto, porque está diseñado para responder a las solicitudes de aplicación lo más rápidamente posible. Más importante aún, un considerable riesgo está involucrado en tener esta operación de actualización de metadatos administrados por un único servidor maestro.

Si los metadatos que describen las asignaciones entre los bloques de datos y sus correspondientes archivos se corrompe, los datos originales es tan bueno como perdido.

Video: Configuracion SKS Azamerica s926HD

Servicios de puntos de control para un clúster Hadoop están a cargo de uno de los cuatro demonios posibles, que deben ejecutarse en su propio nodo maestro dedicado junto nodo maestro del demonio NameNode:

  • NameNode secundario: Antes de Hadoop 2, este fue el único daemon puntos de control, realizar el proceso de los puntos de control se describe en esta sección. NameNode secundaria tiene un nombre notoriamente inexactas, ya que no es en absoluto “secundaria” o un “modo de espera” para la NameNode.

  • Nodo Punto de control: El Nodo Checkpoint es el reemplazo para la NameNode Secundaria. Se lleva a cabo los puntos de control y nada más.

  • Nodo de copia de seguridad: Proporciona servicio de puntos de control, sino que también mantiene una copia de seguridad del archivo y ediciones.

  • NameNode de espera: Realiza servicio de puntos de control y, a diferencia de la antigua NameNode secundario, el Standby NameNode es un verdadero servidor de reserva, lo que permite un intercambio en caliente del proceso de NameNode para evitar cualquier tiempo de inactividad.

Video: Stress, Portrait of a Killer - Full Documentary (2008)

El proceso checkpointing

Los siguientes pasos describen el proceso de punto de comprobación, ya que está a cargo de la NameNode y el servicio de puntos de control (tenga en cuenta que cuatro demonios posibles se pueden utilizar para los puntos de control):

  1. Cuando sea el momento para llevar a cabo el puesto de control, NameNode crea un nuevo archivo para aceptar los cambios en el sistema de archivos de diario.

    Nombra el nuevo archivo.

  2. Como resultado, el archivo acepta ningún otro cambio y se copia en el servicio de puntos de control, junto con el archivo.

  3. El servicio de puntos de control se fusiona estos dos archivos, creando un archivo llamado.

  4. Los puntos de control de servicio copias de archivos a la NameNode.

  5. NameNode sobrescribe el archivo.

  6. NameNode cambia el nombre del archivo.

Consideraciones nodo de respaldo

Además de proporcionar la funcionalidad de los puntos de control, el nodo de copia de seguridad mantiene el estado actual de todos los metadatos bloque HDFS en la memoria, al igual que el NameNode. En este sentido, se mantiene una copia de seguridad en tiempo real del estado del NameNode.

Como resultado de mantener los metadatos de bloque en la memoria, el nodo de copia de seguridad es mucho más eficiente que el Nodo Puesto de control en la realización de la tarea de puntos de control, debido a que el y los archivos no necesitan ser transferidos y luego fusionado. Estos cambios ya se fusionan en la memoria.

Otra ventaja de utilizar el nodo de copia de seguridad es que el NameNode se puede configurar para delegar el nodo de copia de seguridad de manera que persiste datos del registro diario en el disco.

Si está utilizando el nodo de copia de seguridad, no se puede ejecutar el nodo de Checkpoint. No hay necesidad de hacerlo, porque el proceso de punto de comprobación ya está siendo atendido.

consideraciones NameNode Standby

NameNode de espera es el servidor maestro espera activa designada para el NameNode. Mientras que actúa como espera, sino que también lleva a cabo el proceso de punto de comprobación. Como tal, no se puede ejecutar el nodo de reserva o espera Nodo.

NameNode secundaria, Checkpoint Node, Nodo de copia de seguridad, y espera NameNode Maestro diseño de servidor

El servidor principal que ejecuta el NameNode secundaria, Checkpoint Node, nodo de reserva o espera NameNode demonios tienen los mismos requisitos de hardware como las desplegadas por el servidor maestro NameNode. La razón es que estos servidores también se cargan en la memoria todos los metadatos y datos de ubicación de todos los bloques de datos almacenados en HDFS.

Artículos Relacionados