La importancia de MapReduce de Hadoop

Video: Hadoop Map Reduce Programming 101 - 06 02 Map Reduce Development

Durante la mayor parte de la historia de Hadoop, MapReduce ha sido el único juego en la ciudad cuando se trata de procesamiento de datos. La disponibilidad de MapReduce ha sido la razón del éxito de Hadoop y al mismo tiempo un factor importante en la limitación de una mayor adopción.

MapReduce permite a los programadores cualificados para escribir aplicaciones distribuidas sin tener que preocuparse acerca de la infraestructura de computación distribuida subyacente. Este es un negocio muy grande: Hadoop MapReduce y el marco de manejar todo tipo de complejidad que los desarrolladores de aplicaciones no tienen que manejar.

Por ejemplo, la capacidad de escalar de forma transparente a cabo el clúster mediante la adición de nodos y la conmutación automática de ambos almacenamiento de datos y los subsistemas de procesamiento de datos ocurren con impacto cero en aplicaciones.

Video: MapReduce Flow Chart

La otra cara de la moneda es que a pesar de MapReduce se esconde una enorme cantidad de complejidad, no puede permitirse el lujo de olvidar lo que es: una interfaz para la programación paralela. Esta es una habilidad avanzada - y una barrera para la adopción más amplia. Simplemente no hay todavía muchos programadores de MapReduce, y no todos tienen la habilidad para dominarla.

En los primeros días de Hadoop Hadoop (1) y antes, sólo se podía ejecutar aplicaciones MapReduce en sus grupos. En Hadoop 2, el componente de hilo cambió todo al hacerse cargo de la gestión de recursos y la programación del marco MapReduce, y proporcionar una interfaz genérica para facilitar las aplicaciones se ejecuten en un clúster Hadoop.

En pocas palabras, esto significa MapReduce es ahora sólo uno de muchos entornos de aplicaciones que puede utilizar para desarrollar y ejecutar aplicaciones de Hadoop. Aunque es ciertamente posible ejecutar aplicaciones que utilizan otros marcos en Hadoop, eso no quiere decir que podemos empezar a olvidarse de MapReduce.

MapReduce actualmente es el único marco de proceso de datos preparado para la producción disponible para Hadoop. Aunque otros marcos con el tiempo disponible, MapReduce tiene casi una década de madurez en su haber (con casi 4.000 cuestiones JIRA completado, con cientos de desarrolladores, si estás llevar la cuenta).

No hay controversia: MapReduce es más maduro marco de Hadoop para el procesamiento de datos. Además, una cantidad significativa de código de MapReduce es ahora de uso que es poco probable que ir a ninguna parte pronto. En resúmen: MapReduce es una parte importante de la historia de Hadoop.

Los proyectos Apache Hive y Apache Pig son especialmente populares porque son puntos de entrada más fácil para el procesamiento de datos en Hadoop. Para muchos problemas, especialmente los tipos que se pueden resolver con SQL, Colmena y cerdo son excelentes herramientas. Sin embargo, para una tarea de mayor alcance, como el procesamiento estadístico o de extracción de texto, y especialmente para el procesamiento de datos no estructurados, es necesario utilizar MapReduce.