grandes volúmenes de datos y los orígenes de mapreduce

Video: MapReduce - Intro to Hadoop and MapReduce

MapReduce es cada vez más útil para grandes volúmenes de datos. En la década de 2000, algunos ingenieros de Google miraron hacia el futuro y se determinó que, si bien sus soluciones actuales para aplicaciones tales como rastreo web, la frecuencia de consulta, y así sucesivamente eran adecuadas para la mayoría de los requisitos existentes, que eran inadecuados para la complejidad que anticiparon que el web a escala en más y más usuarios.

Video: MapReduce en Español

Estos ingenieros determinaron que si el trabajo se podría distribuir en todos los equipos de bajo costo y luego se conecta a la red en forma de un “cúmulo”, que podrían resolver el problema. Distribución por sí solo no era una respuesta suficiente. Esta distribución del trabajo debe realizarse en paralelo para las siguientes tres razones:

El tratamiento debe ser capaz de expandirse y contraerse de forma automática.
El tratamiento debe ser capaz de proceder independientemente de los fallos en la red o los sistemas individuales.
Los desarrolladores que aprovechan este enfoque debe ser capaz de crear servicios que son fáciles de aprovechar por otros desarrolladores. Por lo tanto, este enfoque debe ser independiente de donde los datos y cálculos han ejecutado.

MapReduce fue diseñado como un modelo de programación genérica. Algunas de las implementaciones iniciales proporcionados todos los requisitos clave de ejecución en paralelo, tolerancia a fallos, equilibrio de carga y manipulación de datos. Los ingenieros a cargo del proyecto llamado el MapReduce iniciativa, ya que combina las capacidades de dos lenguajes de programación funcionales existentes: mapa y reducir.

Los ingenieros de Google diseñados MapReduce para resolver un problema práctico específico. Por lo tanto, fue diseñado como un modelo de programación combinado con la aplicación de ese modelo - en esencia, una implementación de referencia.

Video: Intro to Hadoop and MapReduce

La implementación de referencia se utilizó para demostrar la viabilidad y la eficacia del concepto y para ayudar a asegurar que este modelo sería ampliamente adoptado por la industria de la computación. Con los años, otras implementaciones de MapReduce se han creado y están disponibles como código abierto y productos comerciales.