Dimensionar el clúster Hadoop

Dimensionamiento de cualquier sistema de procesamiento de datos es tanto una ciencia como un arte. Con Hadoop, se tiene en cuenta la misma información que lo haría con una base de datos relacional, por ejemplo. Más significativamente, lo que necesita saber la cantidad de datos que tiene, estimar sus tasas de crecimiento esperadas, y establecer una política de retención (el tiempo para mantener los datos).

Video: Instalación y configuración de Cluster Hadoop con Apache Ambari + Creación de instancia en Hive

Las respuestas a estas preguntas sirven como punto de partida, que es independiente de cualquier requisito relacionados con la tecnología.

Después de determinar la cantidad de datos que necesita para almacenar, puede iniciar la factorización en consideraciones Hadoop-específicos. Supongamos que tiene una empresa de telecomunicaciones y que haya establecido que necesita 750 terabytes (TB) de espacio de almacenamiento para su registro detallado de llamadas (CDR) los archivos de registro.

Video: ¿Comó instalar #Hadoop #Yarn en modo cluster? parte1

Usted conserva estos registros a obedecer las regulaciones del gobierno, pero también se puede analizarlas para ver los patrones de pérdida de clientes y la red de salud del monitor, por ejemplo. Para determinar la cantidad de espacio de almacenamiento que necesita y, como resultado, el número de bastidores y nodos esclavos que necesita, a llevar a cabo sus cálculos con estos factores en mente:

Replicación: El factor de replicación predeterminado para los datos en HDFS es 3. Los 500 terabytes de datos CDR de la empresa de telecomunicaciones en el ejemplo a continuación, se convierte en 1500 terabytes.
El espacio de intercambio: Cualquier análisis o el procesamiento de los datos por MapReduce necesita un 25 por ciento adicional de espacio para almacenar cualquier conjunto de resultados intermedios y finales. (La empresa de telecomunicaciones necesita ahora 1875 terabytes de espacio de almacenamiento.)
Compresión: La empresa de telecomunicaciones almacena las CDR en una forma comprimida, donde se espera que la relación media de compresión para ser de 3: 1. Ahora necesita 625 terabytes.
Número de nodos esclavos: Suponiendo que cada nodo esclavo tiene doce unidades de 3 TB reservados a HDFS, cada nodo esclavo tiene 36 terabytes de almacenamiento HDFS primas disponibles, por lo que la empresa necesita 18 nodos esclavos.
Número de bastidores: Debido a que cada nodo esclavo usa 2 RU y la empresa en el ejemplo necesita tres nodos maestros (1 RU cada uno) y dos interruptores TdR (1RU cada uno), se necesita un total de 41RU. Es 1RU menor que la capacidad total de un rack estándar, por lo que un solo rack es suficiente para este despliegue.
Independientemente, ya no queda espacio para el crecimiento en este grupo, por lo que es prudente para comprar una segunda cremallera (y dos interruptores TdR adicionales) y dividir a los nodos esclavos entre los dos bastidores.
Pruebas: El mantenimiento de un cúmulo de pruebas que es una representación más pequeña escala del clúster de producción es una práctica estándar. No tiene que ser enorme, pero desea al menos cinco nodos de datos de manera que se obtiene una representación exacta del comportamiento de Hadoop. Como con cualquier entorno de prueba, debe ser aislado en una red diferente de la clúster de producción.
Copia de seguridad y recuperación de desastres: Al igual que cualquier sistema de producción, la empresa de telecomunicaciones también tendrá que considerar los requisitos de copia de seguridad y recuperación de desastres. Esta empresa podría ir tan lejos como para crear un clúster espejo para asegurarse de que tienen una reserva en caliente de todo su sistema. Esto es obviamente la opción más cara, pero es apropiado para entornos en los que el tiempo de actividad constante es crítico.
Al final menos caro del espectro (más allá de no copias de seguridad de los datos en todos), la empresa de telecomunicaciones podría regularmente de copia de seguridad de todos los datos (incluyendo los datos en sí, aplicaciones, archivos de configuración, y los metadatos) que se almacena en su clúster de producción en cinta. Con la cinta, los datos no es inmediatamente accesible, pero permitirá un esfuerzo de recuperación de desastres en el caso de que no todo el clúster Hadoop producción.

Video: Demo despliegue automático de Hadoop con Cloudera y Opennebula

Al igual que con su propio ordenador personal, cuando la unidad de disco duro principal se llena de espacio, el sistema se ralentiza considerablemente. Hadoop no es una excepción. También, un disco duro funciona mejor cuando es menor de 85 a 90 por ciento de su capacidad. Con esta información en mente, si el rendimiento es importante para usted, usted debe subir el factor de espacio de intercambio entre 25º y 33º por ciento.