El paradigma de programación MapReduce

Video: Combiners - Intro to Hadoop and MapReduce

Mapa reducido es un paradigma de programación que fue diseñado para permitir el procesamiento distribuido paralelo de grandes conjuntos de datos, la conversión a conjuntos de tuplas, y luego la combinación y la reducción de esas tuplas en conjuntos más pequeños de tuplas. En términos sencillos, MapReduce fue diseñada para tomar grandes volúmenes de datos y el uso de la computación distribuida en paralelo para convertir grandes volúmenes de datos en datos poco- o de tamaño regular.

procesamiento distribuido paralelo se refiere a un marco de gran alcance donde los volúmenes de masa de datos se procesan muy rápidamente mediante la distribución de las tareas de procesamiento a través de grupos de servidores de los productos básicos. Con respecto a MapReduce, tuplas se refieren a pares de valores clave por el cual se agrupa datos, ordenado, y procesados.

empleos MapReduce funcionan a través de mapa y reducen secuencias de la operación del proceso a través de un conjunto distribuido de servidores. En el mapa de tareas, delegar sus datos a pares de valores clave, transformarla, y filtrarla. A continuación, asigna los datos a los nodos de procesamiento.

Video: Indexing 16: MapReduce

En el reducir la tarea, que los datos agregados que a los conjuntos de datos de menor tamaño. Datos de la fase reducir se transforma en una norma formato de la clave-valor - donde el llave actúa como el identificador de registro y la valor es el valor que está siendo identificado por la clave. los nodos de computación los clusters’ procesan el mapa y reducir las tareas que se definen por el usuario. Este trabajo se realiza de acuerdo con los dos pasos siguientes:

Asignar los datos.
Los datos entrantes primero se deben delegar en pares de valores clave y se dividieron en fragmentos, que luego son asignados a asignar tareas. Cada cluster de computación - un grupo de nodos que están conectados entre sí y realizan una tarea de computación compartida - se le asigna un número de tareas mapa, que se distribuyen posteriormente entre sus nodos.
Tras la transformación de los pares de valores clave, se generan pares de clave y valor intermedio. Los pares de valores clave intermedios están ordenados por sus valores de clave, y esta lista se divide en un nuevo conjunto de fragmentos. Cualquiera que sea la cuenta que tiene para estos nuevos fragmentos, que será el mismo que el recuento de las tareas reducir.
Reducir los datos.
Cada tarea tiene reducir un fragmento asignado. La tarea de reducir simplemente procesa el fragmento y produce una salida, que es también un par clave-valor. Reducir las tareas también se distribuyen entre los diferentes nodos de la agrupación. Una vez finalizada la tarea, el resultado final se escribe en un sistema de archivos.

En resumen, puede rápida y eficiente se reducen y empezar a dar sentido a un gran volumen, velocidad y variedad de datos mediante el uso de mapas y reducir las tareas para etiquetar sus datos (clave, valor) pares, y luego reducir esos pares en conjuntos más pequeños de datos a través operaciones de agregación - operaciones que combinan múltiples valores a partir de un conjunto de datos en un solo valor. Un diagrama de la arquitectura MapReduce se puede encontrar aquí.

Video: MuleSoft Academy - Clase I - Introducción a Big Data, Map Reduce y Python

Si los datos no se presta a ser etiquetados y procesada a través de las teclas, los valores y la agregación, a continuación, asignar y reducir en general no es una buena opción para sus necesidades.

Si está utilizando MapReduce como parte de una solución Hadoop, a continuación, el resultado final está escrito en el Hadoop Distributed File System (HDFS). HDFS es un sistema de archivos que incluye grupos de servidores básicos que se utilizan para almacenar grandes volúmenes de datos. HDFS hace grande la manipulación y el almacenamiento económicamente viable mediante la distribución de las tareas de almacenamiento en clusters de servidores baratas las materias primas de datos.