La arquitectura de cerdo en hadoop

“Simple” a menudo significa “elegante” cuando se trata de los dibujos de arquitectura para que la nueva mansión de Silicon Valley que ha planeado para cuando el dinero comienza a rodar en después de implementar Hadoop. El mismo principio se aplica a la arquitectura de software. Cerdo se compone de dos (cuéntenlos, dos componentes):

Video: Hadoop 03 - (YARN elementos arquitecturales)

El lenguaje en sí mismo: Como prueba de que los programadores tienen un sentido del humor, el lenguaje de programación para el cerdo se conoce como latín de cerdo, un lenguaje de alto nivel que le permite escribir programas de procesamiento y análisis de datos.
El compilador latín de cerdo: El compilador latín de cerdo convierte el código latín de cerdo en código ejecutable. El código ejecutable es ya sea en forma de puestos de trabajo MapReduce o puede generar un proceso donde se crea una instancia de Hadoop virtual para ejecutar el código de cerdo en un único nodo.
La secuencia de los programas de MapReduce permite a los programas de cerdo para realizar el procesamiento y análisis de datos en paralelo, aprovechando Hadoop MapReduce y HDFS. Ejecutar el trabajo Cerdo en la instancia Hadoop virtual es una estrategia útil para probar los scripts de cerdo.

La figura muestra cómo Pig refiere al ecosistema Hadoop.

Video: Arquitectura Hadoop para usuarios de SQL

programas de cerdo se pueden ejecutar en v1 v2 MapReduce o MapReduce sin ningún cambio de código, independientemente de qué modo el clúster ejecuta. Sin embargo, las secuencias de comandos de cerdo también se pueden ejecutar mediante la API de Tez lugar. Tez Apache proporciona un marco de ejecución más eficiente que MapReduce. HILO permite a los entornos de aplicaciones que no sean de MapReduce (como Tez) para ejecutarse en Hadoop. Colmena también puede funcionar contra el marco Tez.