La gestión de grandes volúmenes de datos con Hadoop: hdfs y mapreduce

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuidos Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación distribuida.

Video: Hadoop MapReduce Example | MapReduce Programming | Hadoop Tutorial For Beginners | Edureka

El Hadoop Distributed File System (HDFS) fue desarrollado para permitir a las empresas gestionar más fácilmente grandes volúmenes de datos de una manera simple y pragmática. Hadoop permite grandes problemas a descomponerse en elementos más pequeños para que el análisis se puede realizar de forma rápida y rentable. HDFS es un enfoque versátil, resistente, agrupados a la gestión de archivos en un entorno de datos grande.

HDFS no es el destino final de los archivos. Más bien se trata de un “servicio” de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes de datos y la velocidad son altas.

Video: HDFS - Intro to Hadoop and MapReduce

MapReduce es un marco de software que permite a los desarrolladores escribir programas que pueden procesar grandes cantidades de datos no estructurados en paralelo a través de un grupo distribuido de procesadores. MapReduce fue diseñado por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en modo batch.

El “mapa” componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas de una manera que equilibra la carga y gestiona la recuperación de fallos. Después de que se completó la computación distribuida, otra función llamada “reducir” agrega todos los elementos de nuevo juntos para proporcionar un resultado. Un ejemplo del uso de MapReduce sería determinar el número de páginas de un libro están escritos en cada uno de 50 idiomas diferentes.