El origen y el diseño de hadoop

Video: Big Data Hadoop Training Tutorial For Beginners Video 1

Entonces, ¿qué es esta cosa con el nombre divertido - Hadoop? En su esencia, Hadoop es un marco para el almacenamiento de datos en grandes grupos de mercancía hardware - hardware de la computadora todos los días que es asequible y fácilmente disponible - y aplicaciones que se ejecutan en contra de esos datos. UN racimo es un grupo de ordenadores interconectados (conocido como nodos) Que pueden trabajar juntos en el mismo problema.

El uso de redes de recursos informáticos asequibles para adquirir el conocimiento del negocio es la propuesta de valor clave de Hadoop.

En cuanto a ese nombre, Hadoop, no se ven por ningún significado importante allí- es simplemente el nombre que el hijo de Doug Cutting dio a su elefante de peluche. (. Doug Cutting es, por supuesto, el co-creador de Hadoop) El nombre es único y fácil de recordar - características que la hicieron una gran elección.

Video: Hadoop Architecture Tutorial | Hadoop Tutorial For Beginners

Hadoop consta de dos componentes principales: un marco de procesamiento distribuido llamado MapReduce (que ahora está soportado por un componente llamado hilados) y un sistema de archivos distribuido conocido como el sistema de archivos Hadoop distribuido, o HDFS.

Una aplicación que se ejecuta en Hadoop obtiene su trabajo dividido entre los nodos (máquinas) de la agrupación, y HDFS almacena los datos que serán procesados. Un cluster Hadoop puede abarcar miles de máquinas, donde HDFS almacena datos y trabajos de MapReduce hacen su procesamiento cerca de los datos, lo que reduce los costos de E / S. MapReduce es extremadamente flexible y permite el desarrollo de una amplia variedad de aplicaciones.

Como ya habrán deducido, un cluster Hadoop es una forma de clúster de cálculo, un tipo de grupo que se utiliza principalmente con fines de cálculo. En un clúster de cálculo, muchos ordenadores (nodos de cómputo) Pueden compartir las cargas de trabajo de computación y tomar ventaja de un gran ancho de banda agregado a través del clúster.

racimos de Hadoop consisten normalmente de unos pocos nodos maestros, que controlan los sistemas de almacenamiento y procesamiento en Hadoop, y muchos nodos esclavos, que almacenan todos los datos del cluster y es también el lugar donde los datos se procesa.