Fallos en los nodos y el disco esclavo en hdfs

Como la muerte y los impuestos, fallos de disco (y dado el tiempo suficiente, incluso fallos en los nodos o rack), son inevitables en Hadoop Distributed File System (HDFS). En el ejemplo mostrado, incluso si un bastidor fallara, el grupo podría continuar su funcionamiento. Rendimiento sufriría porque ha perdido la mitad de sus recursos de procesamiento, pero el sistema sigue estando en línea y todos los datos todavía está disponible.

En un escenario en el que falla una unidad de disco o un nodo esclavo, el servidor de metadatos central para HDFS (llamado NameNode) finalmente se entera de que los bloques del archivo almacenados en el recurso fallado ya no están disponibles. Por ejemplo, si Slave Nodo 3 falla, esto significaría que los bloques A, C, y D son underreplicated.

En otras palabras, muy pocas copias de estos bloques están disponibles en HDFS. Cuando HDFS detecta que un bloque se underreplicated, ordena una nueva copia.

Para continuar con el ejemplo, digamos que esclavo Nodo 3 vuelve a conectarse después de unas horas. Mientras tanto, el HDFS se ha asegurado de que hay tres copias de todos los bloques de archivos. Así que ahora, los bloques A, C, y D tienen cuatro copias cada uno y están overreplicated. Al igual que con los bloques underreplicated, el servidor de metadatos central de HDFS se enterará de esto también, y ordenará una copia de todos los archivos que desea eliminar.

Un buen resultado de la disponibilidad de los datos es que cuando se producen fallos de disco, no hay necesidad de reemplazar inmediatamente los discos duros fallidos. Esta forma más eficaz se puede hacer a intervalos regulares.

Artículos Relacionados