Aplicaciones que se ejecutan antes de hadoop 2

Video: Understanding Hadoop 2 0 Architechture

Debido a que muchos despliegues de Hadoop existentes siguen todavía no utilizan embargo, otro negociador de recursos (HILO), echar un vistazo rápido a cómo Hadoop administró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en el papel que JobTracker demonios maestros y esclavos demonios TaskTracker jugaron en el manejo de procesamiento MapReduce.

El punto de emplear sistemas distribuidos es ser capaz de desplegar los recursos informáticos en una red de ordenadores autónomos de una manera que es, fácil, y barato con tolerancia a fallos.

En un sistema distribuido, como Hadoop, donde se tiene un conjunto de nodos informáticos autónomos que trabajan en paralelo todo, una gran cantidad de complejidad va a garantizar que todas las piezas funcionan juntas. Como tal, estos sistemas tienen típicamente capas distintas para manejar diferentes tareas para apoyar el procesamiento de datos en paralelo.

Video: Big Data tech talk: Apache Tez - A Modern Processing Engine for Hadoop 2

Este concepto, conocido como el separación de intereses, asegura que si es así, por ejemplo, el programador de la aplicación, no es necesario preocuparse por los detalles específicos para, por ejemplo, la conmutación por error de tareas mapa. En Hadoop, el sistema consta de estos cuatro capas distintas, como se muestra:

  • almacenamiento distribuido: El sistema de archivos distribuido Hadoop (HDFS) es la capa de almacenamiento donde se almacenan los datos, los resultados provisionales, y conjuntos de resultados finales.

  • Administracion de recursos: Además de espacio de disco, todos los nodos esclavos en el cluster Hadoop tienen ciclos de CPU, RAM, y ancho de banda de red. Un sistema como Hadoop tiene que ser capaz de repartir estos recursos para que múltiples aplicaciones y los usuarios pueden compartir el cluster de forma predecible y sintonizables. Este trabajo se realiza por el demonio JobTracker.

  • marco de procesamiento: El flujo de proceso MapReduce define la ejecución de todas las aplicaciones en Hadoop 1. Esto comienza con el mapa de fase continúa con la agregación con shuffle, tipo, o merge- y termina con la fase de reducir. En Hadoop 1, esto también es administrado por el demonio JobTracker, la ejecución local siendo gestionado por demonios TaskTracker que se ejecutan en los nodos esclavos.

  • Application Programming Interface (API): Las aplicaciones desarrolladas para Hadoop 1 necesitan ser codificados utilizando la API de MapReduce. En Hadoop 1, los proyectos de la colmena y cerdo proporcionan los programadores con interfaces fáciles para escribir aplicaciones de Hadoop, y debajo de la campana, su código se compila a MapReduce.

Video: Hadoop Administration Tutorial - 2 | Hadoop Admin Training - 2 | Hadoop 2.0, Cluster & Distributions

En el mundo de Hadoop 1 (que era el único mundo que tenía hasta hace muy poco), todo el procesamiento de datos girado en torno a MapReduce.

Artículos Relacionados