El procesamiento distribuido con MapReduce Hadoop

Hadoop MapReduce implica el procesamiento de una secuencia de operaciones sobre conjuntos de datos distribuidos. Los datos consisten en pares de valores clave, y los cálculos sólo tienen dos fases: una fase de mapa y una fase de reducir. empleos MapReduce definidos por el usuario se ejecutan en los nodos de cálculo en el cluster.

En términos generales, un trabajo MapReduce es como sigue:

Durante la fase de Mapa, los datos de entrada se divide en un gran número de fragmentos, cada uno de los cuales está asignado a una tarea mapa.
Estas tareas mapa se distribuyen a través del clúster.
Cada mapa de tareas procesa los pares de valores clave de su fragmento asignado y produce un conjunto de pares de clave y valor intermedio.
El conjunto de datos intermedio está ordenada por clave, y los datos clasificados se divide en un número de fragmentos que coincide con el número de tareas reducir.
Durante la fase de Reducir, cada reducir tarea procesa el fragmento de datos que se ha asignado a la misma y produce un par clave-valor de salida.
Estos reducen las tareas también se distribuyen a través del clúster y escriben su salida a HDFS cuando haya terminado.

El marco Hadoop MapReduce en antes (pre-versión 2) comunicados Hadoop tiene un único servicio maestro llama un JobTracker y varios servicios de esclavos llamados TaskTrackers, uno por nodo en el clúster.

Cuando se envía una tarea de MapReduce a la JobTracker, el trabajo se coloca en una cola y luego se ejecuta de acuerdo con las reglas de planificación definidas por un administrador. Como era de esperar, la JobTracker gestiona la asignación de mapa-y-reducir las tareas a las TaskTrackers.

Con Hadoop 2, un nuevo sistema de gestión de recursos está en el lugar llamado hilo (abreviatura de Yet UNno ella Resource METROanager). HILO ofrece servicios de programación y gestión de los recursos genéricos para que pueda ejecutar más aplicaciones MapReduce sólo en el clúster Hadoop. La arquitectura JobTracker / TaskTracker sólo podía funcionar MapReduce.

HDFS también tiene una arquitectura maestro / esclavo:

servicio maestro: Llamado a NameNode, que controla el acceso a los archivos de datos.
servicios de esclavos: Llamado DataNodes, que están distribuidos un nodo por en el clúster. DataNodes gestionar el almacenamiento que está asociada con los nodos en los que se ejecutan, que sirve leer y escribir solicitudes de los clientes, entre otras tareas.