Replicación de bloques de datos en el sistema de archivos distribuido Hadoop

Video: Replicación por bloques

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos sobre barato y más fiable, el hardware. Barato tiene un anillo atractivo para ella, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para garantizar la alta disponibilidad de los datos.

Planificar de antemano para el desastre, el cerebro detrás de HDFS tomaron la decisión de configurar el sistema para que se almacenaría tres (recuento &rsquo-em - tres) copias de cada bloque de datos.

HDFS asume que cada disco y cada nodo esclavo es inherentemente poco fiables, por lo que, claramente, se debe tener cuidado en la elección de la que se almacenan las tres copias de los bloques de datos.

Video: EIE Mesa 05

La figura muestra cómo los bloques de datos desde el archivo anterior son a rayas en el clúster Hadoop - lo que significa que se distribuyen uniformemente entre los nodos esclavos de modo que una copia del bloque seguirá estando disponible independientemente de los fallos de disco, nodo o bastidor.

Video: Sistema de RRHH v1.5

El archivo que se muestra tiene cinco bloques de datos, etiquetadas a, b, c, d, y e. Si se echa un vistazo más de cerca, se puede ver este grupo en particular se compone de dos bastidores con dos nodos de cada uno, y que las tres copias de cada bloque de datos se han extendido a través de los diversos nodos esclavos.

Cada componente en el clúster Hadoop es visto como un punto de fallo potencial, así que cuando HDFS almacena las réplicas de los bloques originales a través del clúster Hadoop, se intenta que las réplicas de bloques se almacenan en diferentes puntos de fallo.

Video: 159th Knowledge Seekers Workshop, 2017 02 16. Subtitles

Por ejemplo, echar un vistazo en el bloque A. En el momento que necesitaba ser almacenado, fue elegido Esclavo Nodo 3, y la primera copia del bloque A se almacena allí. Para múltiples sistemas de estantes, HDFS determina entonces que las dos copias restantes del bloque A necesitan ser almacenados en un bastidor diferente. Así que la segunda copia del bloque A se almacena en el nodo esclavo 1.

La copia final se puede almacenar en el mismo bastidor que la segunda copia, pero no en el mismo nodo esclavo, por lo que se almacena en el nodo esclavo 2.