¿Por qué utilizar hadoop para grandes datos?

los innovadores motores de búsqueda como Yahoo y Google se enfrentan a un problema de los datos del pantano. Tenían que encontrar una manera de darle sentido a las grandes cantidades de datos que sus motores estaban recogiendo. Estas empresas necesitan para comprender tanto la información que se reunían y cómo podrían obtener beneficios económicos que los datos para apoyar su modelo de negocio.

Hadoop fue desarrollado porque representaba la forma más pragmática para permitir a las empresas gestionar grandes volúmenes de datos de forma sencilla. Hadoop permite grandes problemas que se descomponen en elementos más pequeños para que el análisis podría hacerse de forma rápida y rentable.

Al romper el gran problema de datos en piezas pequeñas que se puedan procesar en paralelo, se puede procesar la información y reagrupar las piezas pequeñas para presentar los resultados.

Video: Introducción a Hadoop

Hadoop fue construido originalmente por un ingeniero llamado Doug Yahoo! corte y ahora es un proyecto de código abierto gestionado por la Apache Software Foundation. Está disponible bajo la licencia Apache v2.0.

Hadoop es un bloque de construcción fundamental en nuestro deseo de capturar y procesar grandes volúmenes de datos. Hadoop está diseñado para paralelizar el procesamiento de datos en los nodos de computación para acelerar los cálculos y ocultar la latencia. En su esencia, Hadoop tiene dos componentes principales:

  • Hadoop Distributed File System: Un fiable y de alto ancho de banda, de bajo costo, clúster de almacenamiento de datos que facilita la gestión de archivos relacionados a través de máquinas.

  • MapReduce motor: Una implementación / distribuido de procesamiento de datos de alto rendimiento en paralelo de la Mapa reducido algoritmo.

    Video: Taller BigData OpenAnalytics - Analítica "big data" sobre Hadoop usando R - 22/05/2014

Hadoop está diseñado para procesar grandes cantidades de datos estructuradas y no estructuradas (terabytes a petabytes) y se implementa en bastidores de servidores de productos básicos como un clúster Hadoop. Pueden añadirse servidores o se quitan de la agrupación dinámica porque Hadoop está diseñado para ser “auto-curación”. En otras palabras, Hadoop es capaz de detectar cambios, incluyendo los fallos, y adaptarse a los cambios y seguir funcionando sin interrupción.

Artículos Relacionados