¿Cuál es hadoop? - maniquíes

Hadoop es una herramienta de procesamiento de datos de código abierto que fue desarrollado por la Apache Software Foundation. Hadoop es actualmente el go-programar para el manejo de grandes volúmenes y variedades de datos, ya que fue diseñado para hacer la computación a gran escala más asequible y flexible. Con la llegada de Hadoop, el procesamiento masivo de datos se ha introducido a muchas más personas y más organizaciones.

Video: Big Data con Apache Spark

Hadoop que puede ofrecer una gran solución para manejar, procesar y flujos masivos de grupo estructurada, semiestructurada, y los datos no estructurados. Con la creación y despliegue de Hadoop, se obtiene una forma relativamente asequible para comenzar a utilizar y sacar ideas de todos los datos de su organización, en lugar de seguir confiando únicamente en ese conjunto de datos transaccional que ha de estar otra vez en un viejo almacén de datos en alguna parte.

Hadoop es uno de los programas más populares disponibles para necesidades de computación a gran escala. Hadoop proporciona una capa de mapa-y-reducir que es capaz de manejar los requerimientos de procesamiento de datos de la mayoría de los proyectos de grandes volúmenes de datos.

Video: Introducción a Hadoop. Técnica y de negocio

A veces los datos se hace demasiado grande y rápido, incluso para Hadoop de manejar. En estos casos, las organizaciones están recurriendo a las implementaciones de MapReduce, más personalizados-alternativos en su lugar.

Hadoop utiliza grupos de hardware común para el almacenamiento de datos. Hardware de cada grupo está conectado, y este hardware se compone de mercancía servidores - bajo costo, de bajo rendimiento servidores genéricos que ofrecen capacidades de pantalla de tan sólo cuando se ejecuta en paralelo a través de un clúster compartido. Estos servidores de las materias primas también se denominan nodos. la informática de consumo general disminuye drásticamente los costos involucrados en el manejo y almacenamiento de datos grandes.

Hadoop se compone de los dos componentes siguientes:

Un marco de procesamiento distribuido: Hadoop utiliza Hadoop MapReduce como marco de procesamiento distribuido. Una vez más, una marco de procesamiento distribuido es un potente marco donde las tareas de procesamiento se distribuyen en grupos de nodos de modo que grandes volúmenes de datos pueden ser procesados muy rápidamente a través del sistema como un todo.

Un sistema de archivos distribuido: Hadoop Hadoop utiliza el sistema de archivos distribuido (HDFS) como su sistema de archivos distribuido.

Las cargas de trabajo de las aplicaciones que se ejecutan en Hadoop se dividen entre los nodos del clúster Hadoop, y entonces la salida se almacena en el HDFS. El cluster Hadoop puede estar compuesto de miles de nodos. Para mantener los costes de entrada / salida (I / O) procesa bajo, los trabajos de Hadoop MapReduce se realizan como cerca de los datos como sea posible.

Esto significa que los procesadores de reducir las tareas se colocan lo más cerca posible a la asignación de datos de salida tarea que necesita ser procesada. Este diseño facilita el uso compartido de los requisitos computacionales en el procesamiento de grandes volúmenes de datos.

Hadoop también es compatible con la organización jerárquica. Algunos de sus nodos se clasifican como nodos maestros, y otros se clasifican como esclavos. El servicio principal, conocido como JobTracker, está diseñado para controlar varios servicios de esclavos. servicios de esclavos (también llamados TaskTrackers) Están distribuidos uno a cada nodo. El JobTracker controla los TaskTrackers y asigna tareas Hadoop MapReduce para ellos.

En una versión más reciente de Hadoop, conocido como Hadoop 2, se añadió un administrador de recursos llamada Hadoop de hilo. Con respecto a MapReduce de Hadoop, hilado actúa como un sistema integrado que realiza funciones de gestión de recursos y programación.

Hadoop procesa los datos en el lote. En consecuencia, si se trabaja con tiempo real, transmisión de datos, usted no será capaz de utilizar Hadoop para manejar sus grandes problemas de datos. Dicho esto, es muy útil para resolver muchos otros tipos de problemas grandes de datos.