Cuidador del zoológico hadoop para grandes volúmenes de datos

La técnica de mayor Hadoop para hacer frente a los grandes desafíos de datos es su capacidad de dividir y conquistar con Zookeeper. Después de que el problema se ha dividido, la conquista se basa en la capacidad para emplear distribuida y técnicas de procesamiento en paralelo a través del clúster Hadoop.

Video: #16 Hadoop Zoo : Hadoop Tutorial

Para algunos problemas grandes de datos, las herramientas interactivas son incapaces de proporcionar los conocimientos necesarios o puntualidad para tomar decisiones de negocio. En esos casos, es necesario crear aplicaciones distribuidas para resolver esos problemas grandes de datos. Zookeeper es la forma de coordinar todos los elementos de estas aplicaciones distribuidas de Hadoop.

Zookeeper como una tecnología es realmente simple, pero sus características son de gran alcance. Podría decirse que sería difícil, si no imposible, para crear aplicaciones flexibles, tolerantes a fallos distribuidos Hadoop sin ella. Algunas de las capacidades de Zookeeper son los siguientes:

  • sincronización de proceso: Zookeeper coordina el arranque y la parada de múltiples nodos en el cluster. Esto asegura que todo el procesamiento se produce en el orden previsto. Cuando un grupo de proceso entero es completa, entonces y sólo entonces puede ocurrir el procesamiento subsiguiente.

  • gestión de la configuración: Zookeeper se puede utilizar para enviar atributos de configuración a cualquiera o todos los nodos de la agrupación. Cuando el procesamiento es dependiente de los recursos particular que se está disponible en todos los nodos, Zookeeper asegura la consistencia de las configuraciones.

  • Autoelección: Zookeeper entiende la composición de la agrupación y puede asignar un papel “líder” a uno de los nodos. Este líder / maestro se ocupa de todas las solicitudes del cliente en nombre de la agrupación. Si el nodo líder falla, otro líder será elegido a partir de los nodos restantes.

    Video: El cuidador de animales que entrega su vida en el zoológico

  • mensajería confiable: A pesar de que las cargas de trabajo en Zookeeper están débilmente acoplados, todavía tiene una necesidad de comunicación entre y entre los nodos del clúster específicos para la aplicación distribuida. Zookeeper ofrece una capacidad de publicación / suscripción que permite la creación de una cola. Esta cola garantiza la entrega de mensajes incluso en el caso de un fallo de nodo.

    Video: Cuidador del mes del Zoológico de Cali Octubre 2011

Debido Zookeeper es la gestión de grupos de nodos de servicio a una sola aplicación distribuida, se implementa mejor a través de bastidores. Esto es muy diferente de los requisitos para el propio clúster (dentro de bastidores). La razón subyacente es simple: Zookeeper necesita realizar, ser resistente, y ser tolerante a fallos a un nivel por encima del propio clúster.

Recuerde que un cluster Hadoop ya se tolera errores, por lo que se curará. Zookeeper sólo tiene que preocuparse por su propia tolerancia a fallos.

El ecosistema de Hadoop y las distribuciones comerciales soportados son siempre cambiante. Las nuevas herramientas y tecnologías se introducen, las tecnologías existentes se mejoran, y algunas tecnologías son retirados por un reemplazo (esperemos que mejor). Esta es una de las mayores ventajas del código abierto.

Otra es la adopción de tecnologías de código abierto por parte de empresas comerciales. Estas compañías a mejorar los productos, lo que sea mejor para todos, ofreciendo apoyo y servicios a un costo modesto. Así es como el ecosistema de Hadoop ha evolucionado y por qué es una buena opción para ayudar a resolver los grandes desafíos de datos.

Artículos Relacionados