El flujo de la aplicación mapreduce en hadoop

En su esencia, MapReduce es un modelo de programación para el procesamiento de conjuntos de datos que se almacenan en una manera distribuida a través de nodos esclavos de un clúster Hadoop. El concepto clave aquí es divide y conquistaras. En concreto, desea romper un gran conjunto de datos en muchos pedazos más pequeños y procesarlos en paralelo con el mismo algoritmo.

Con la Hadoop Distributed File System (HDFS), los archivos ya están divididos en trozos pequeños. MapReduce es lo que se utiliza para procesar todas las piezas.

aplicaciones MapReduce tienen múltiples fases, como se explica en esta lista:

  1. Determinar los conjuntos de datos exactos para procesar a partir de los bloques de datos. Esto implica calcular dónde se encuentran los registros a procesar dentro de los bloques de datos.

  2. Ejecutar el algoritmo especificado junto a cada registro en el conjunto de datos hasta que todos los registros se procesan.

    La instancia individual de la aplicación que se ejecuta en contra de un bloque de datos en un conjunto de datos se conoce como una asignador de tareas. (Esta es la parte de mapeo de MapReduce.)

  3. Localmente realizar una reducción provisional de la salida de cada correlacionador.

    (Las salidas se combinan provisionalmente, en otras palabras.) Esta fase es opcional, ya que, en algunos casos comunes, no es deseable.

  4. Sobre la base de requisitos de particionamiento, grupo de los tabiques aplicables de datos de conjuntos de resultados de cada Mapper.

  5. Se reducen los conjuntos de resultados de los creadores de mapas en un único conjunto de resultados - la parte de MapReduce Reducir.

    Una instancia individual de la aplicación que se ejecuta en contra de datos de salida mapper se conoce como una tarea reductor. (Por extraño que pueda parecer, ya que “Reducir” es parte del nombre de MapReduce, esta fase puede ser opcional- aplicaciones sin un reductor que se conoce como empleos mapa de sólo, que puede ser útil cuando no hay necesidad de combinar los conjuntos de resultados de las tareas mapa.)

Artículos Relacionados