Hadoop sistema de archivos distribuido (HDFS) para proyectos de grandes volúmenes de datos

El sistema de archivos distribuido Hadoop es un enfoque versátil, resistente, agrupados a la gestión de archivos en un entorno de datos grande. HDFS no es el destino final de los archivos. Más bien, es un servicio de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes de datos y la velocidad son altas. Debido a que los datos se escriben una vez y luego leer muchas veces a partir de entonces, en lugar de las constantes de lectura-escritura de otros sistemas de archivos, HDFS es una excelente opción para apoyar el análisis de datos grande.

NameNodes de datos grandes

HDFS trabaja rompiendo archivos de gran tamaño en partes más pequeñas llamadas bloques. Los bloques se almacenan en los nodos de datos, y es responsabilidad del NameNode saber qué bloques de datos en la que los nodos conforman el archivo completo. NameNode también actúa como un “policía de tráfico,” la gestión de todo el acceso a los archivos.

La colección completa de todos los archivos en el clúster se refiere a veces como el sistema de archivos espacio de nombres. Es el trabajo del NameNode para gestionar este espacio de nombres.

A pesar de que existe una fuerte relación entre la NameNode y los nodos de datos, que operan de una manera “débilmente acoplado”. Esto permite que los elementos de racimo se comporten de forma dinámica, la adición de servidores a medida que aumenta la demanda. En una configuración típica, que encuentre uno NameNode y, posiblemente, un nodo de datos que se ejecuta en un servidor físico en el bastidor. Otros servidores funcionan sólo los nodos de datos.

Los nodos de datos se comunican entre sí de modo que puedan cooperar durante las operaciones normales del sistema de archivos. Esto es necesario porque los bloques de un archivo son susceptibles de ser almacenados en varios nodos de datos. Dado que el NameNode es tan crítico para el funcionamiento correcto de la agrupación, puede y debe reproducirse para protegerse contra un único punto de fallo.

nodos de datos grandes

nodos de datos no son inteligentes, pero son resistentes. Dentro del grupo de HDFS, los bloques de datos se replican a través de múltiples nodos de datos y el acceso es administrado por el NameNode. El mecanismo de replicación está diseñado para una eficiencia óptima cuando todos los nodos del clúster se recogen en un bastidor. De hecho, el NameNode utiliza un “ID de rack” para realizar un seguimiento de los nodos de datos de la agrupación.

nodos de datos también proporcionan mensajes de “latido” para detectar y asegurar la conectividad entre el NameNode y los nodos de datos. Cuando un latido del corazón ya no está presente, la NameNode unmaps el nodo de datos del clúster y sigue funcionando como si nada hubiese pasado. Cuando el latido del corazón devuelve, se añadió a la agrupación de forma transparente con respecto al usuario o aplicación.

La integridad de datos es una característica clave. HDFS soporta un número de capacidades diseñadas para proporcionar integridad de los datos. Como era de esperar, cuando los archivos se dividen en bloques y luego se distribuyen a través de diferentes servidores en el clúster, cualquier variación en el funcionamiento de cualquier elemento podría afectar la integridad de los datos. HDFS utiliza registros de transacciones y la validación de suma de control para garantizar la integridad en el clúster.

Los registros de transacciones seguimiento de cada operación y son eficaces en la auditoría o la reconstrucción del sistema de archivos debe ocurrir algo malo.

validaciones de suma de comprobación se utilizan para garantizar el contenido de archivos en HDFS. Cuando un cliente solicita un archivo, se puede verificar el contenido mediante el examen de la suma de comprobación. Si coincide con la suma de comprobación, la operación de archivo puede continuar. Si no es así, se informa de un error. archivos de control están ocultos para ayudar a evitar la manipulación.

Video: HDFS

los nodos de datos utilizan discos locales en el servidor de los productos básicos para la persistencia. Todos los bloques de datos se almacenan localmente, principalmente por razones de rendimiento. Los bloques de datos se replican en varios nodos de datos, por lo que el fallo de un servidor no necesariamente un archivo dañado. El grado de replicación, se establece el número de nodos de datos, y el espacio de nombres HDFS cuando se implementa el clúster.

HDFS para grandes volúmenes de datos

HDFS se dirige a grandes desafíos de datos mediante la ruptura de los archivos en un conjunto relacionado de bloques más pequeños. Estos bloques se distribuyen entre los nodos de datos de la agrupación HDFS y son gestionados por el NameNode. Tamaño de los bloques son configurables y son por lo general de 128 megabytes (MB) o 256 MB, lo que significa que un archivo de 1 GB consume ocho bloques de 128 MB para sus necesidades de almacenamiento básicos.

HDFS es elástico, por lo que estos bloques se replican en todo el clúster en caso de un fallo del servidor. ¿Cómo mantener un registro de todos los HDFS estas piezas? La respuesta corta es el sistema de archivos metadatos.

Los metadatos se define como Piense de HDFS metadatos como una plantilla para proporcionar una descripción detallada de los siguientes “datos sobre datos.”:

Cuando se creó el archivo, acceso, modificación, borrado, etc.
Donde se almacenan los bloques del archivo en el clúster
Video: Distributed File System (DFS) - Introducción
¿Quién tiene los derechos para ver o modificar el archivo
¿Cuántos archivos se almacenan en el clúster
Cuántos datos existen nodos en el clúster
La ubicación del registro de transacciones para el clúster

HDFS metadatos se almacenan en la NameNode, y mientras que el grupo está en funcionamiento, todos los metadatos se carga en la memoria física del servidor NameNode. Como era de esperar, cuanto mayor sea el grupo, mayor es la huella de metadatos.

¿Qué hace exactamente un servidor de bloque? Echa un vistazo a la siguiente lista:

Almacena los bloques de datos en el sistema de archivos local del servidor. HDFS está disponible en muchos sistemas operativos diferentes y se comporta de la misma ya sea en Windows, Mac OS o Linux.
Tiendas de los metadatos de un bloque en el sistema de archivos local basado en la plantilla de metadatos en el NameNode.
Realiza las validaciones periódicas de las sumas de comprobación de archivos.
Envía informes periódicos a la NameNode acerca de lo que los bloques están disponibles para operaciones de archivo.
Proporciona metadatos y datos a los clientes sobre la demanda. HDFS admite el acceso directo a los nodos de datos de programas de aplicación cliente.
Reenvía datos a otros nodos de datos en base a un modelo de “pipelining”.

colocación de bloque en los nodos de datos es esencial para la replicación y el apoyo a la canalización de datos de datos. HDFS mantiene una réplica de cada bloque localmente. HDFS es serio acerca de la replicación de datos y capacidad de recuperación.

NameNodes de datos grandes

nodos de datos grandes

Video: HDFS

HDFS para grandes volúmenes de datos

Video: Distributed File System (DFS) - Introducción