Conejillo de hadoop y latín de cerdo para grandes volúmenes de datos

La potencia y flexibilidad de Hadoop para grandes volúmenes de datos son inmediatamente visibles para los desarrolladores de software principalmente porque el ecosistema Hadoop fue construido por los desarrolladores, para los desarrolladores. Sin embargo, no todo el mundo es un desarrollador de software. Cerdo fue diseñado para hacer Hadoop más accesible y utilizable por nondevelopers.

Cerdo es un entorno interactivo, o basado en el guión, la ejecución de apoyo latín de cerdo, un lenguaje utilizado para expresar los flujos de datos. El idioma latín de cerdo soporta la carga y procesamiento de los datos de entrada con una serie de operadores que transforman los datos de entrada y producen el resultado deseado.

El entorno de ejecución de cerdo tiene dos modos:

  • Modo local: Todos los scripts se ejecutan en una sola máquina. Hadoop MapReduce y HDFS no son necesarios.

  • Hadoop: También llamado modo de MapReduce, todos los scripts se ejecutan en un clúster Hadoop dado.

Bajo las sábanas, cerdo crea un conjunto de mapa y reducir trabajos. El usuario es absuelto de las preocupaciones de la escritura de código, compilar, envasado, presentación, y la recuperación de los resultados. En muchos aspectos, cerdo es análoga a SQL en el mundo RDBMS.

El idioma latín de cerdo proporciona una manera abstracta de obtener respuestas de grandes volúmenes de datos, centrándose en los datos y no la estructura de un programa de software personalizado. Cerdo hace muy sencilla la creación de prototipos. Por ejemplo, puede ejecutar un script de cerdo en una pequeña representación de su entorno de grandes volúmenes de datos para asegurarse de que está obteniendo los resultados deseados antes de comprometerse a procesar todos los datos.

programas de cerdo se pueden ejecutar de tres formas diferentes, todos ellos compatibles con el modo local y Hadoop:

  • Guión: Simplemente un archivo que contiene los comandos de Latín de cerdo, identificado por la .cerdo sufijo (por ejemplo, file.pig o myscript.pig). Los comandos son interpretados por cerdo y se ejecutan en orden secuencial.

  • Gruñido: Ronco es un intérprete de comandos. Puede escribir latín de cerdo en la línea de comandos gruñido ronco y ejecutará el comando en su nombre. Esto es muy útil para la creación de prototipos y “qué pasaría si” los escenarios.

  • Incrustado: programas de cerdo se pueden ejecutar como parte de un programa Java.

Latín de cerdo tiene una sintaxis muy rico. Es compatible con los operadores de las siguientes operaciones:

  • Carga y almacenamiento de datos

  • Los datos en continuo

  • filtrado de datos

  • Agrupar y unir los datos

  • clasificación de datos

  • Combinar y dividir los datos

Latín de cerdo también es compatible con una amplia variedad de tipos, expresiones, funciones, operadores de diagnóstico, macros y comandos del sistema de archivos.

Para obtener más ejemplos, visite el página web de cerdo dentro Apache.com.

Artículos Relacionados