El flujo de la aplicación latino cerdo en hadoop

En su esencia, es un cerdo de América flujo de datos lengua, donde se define un flujo de datos y una serie de transformaciones que se aplican a los datos que fluyen a través de su aplicación. Esto es en contraste a una flujo de control idioma (como C o Java), en el que escribe una serie de instrucciones.

Video: The Only Two Contractions in Spanish

En los lenguajes de control de flujo, se utiliza construcciones como bucles y lógica condicional (como una sentencia if). Usted no encontrará bucles y si las declaraciones en latín de cerdo.

Si necesita un cierto convencimiento de que trabajar con Cerdo es una fila significativamente más fácil de roer de tener que escribir Mapa y reducir programas, empezar por echar un vistazo a algunas de sintaxis real de cerdo:

A = CARGA `data_file.txt` -.. B = GRUPO ... -... C = FILTRO ...- DUMP B-.STORE C EN `Results`-

Video: El Siguiente Programa 1x06 Iguazomania Parte 1

Algunos de los textos en este ejemplo que en realidad parece Inglés, ¿verdad? No demasiado miedo, al menos en este punto. En cuanto a cada línea, a su vez, se puede ver el flujo básico de un programa de cerdo. (Tenga en cuenta que este código puede ser parte de un guión o emitidos en la consola interactiva llamada ronco.)

  1. Carga: En primer lugar, la carga (carga) los datos que desea manipular.

    Al igual que en un trabajo típico de MapReduce, que los datos se almacenan en HDFS. Para un programa de cerdo para acceder a los datos, indique primero a lo cerdo archivo o archivos para su uso. Para esta tarea, se utiliza el CARGA `archivo de datos` mando.

    Aquí, `archivo de datos` Puede especificar un archivo o un directorio HDFS. Si se especifica un directorio, todos los archivos de ese directorio se cargan en el programa.

    Si los datos se almacenan en un formato de archivo que no es nativa accesible a cerdo, se puede añadir opcionalmente la función con la declaración de carga para especificar una función definida por el usuario que puede leer en (e interpretar) los datos.

  2. Transformar: Ejecuta los datos a través de un conjunto de transformaciones que, muy por debajo del capó y muy alejado de cualquier cosa que tenga que preocuparse, se traducen en un conjunto de Mapa y reducir las tareas.

    La lógica de transformación es donde sucede toda la manipulación de datos. A continuación, puede filtrar las filas que no sean de interés, unir dos conjuntos de archivos de datos, los datos del grupo para construir agregaciones, resultados orden, y hacer mucho, mucho más.

  3. Dump: Por último, volcar (DUMP) los resultados en la pantalla

    Video: EL SIGUIENTE PROGRAMA - CERDO MOLINA - CRITICA DE TELEVISION

    o

    Almacenar (STORE) los resultados en un archivo en alguna parte.

    Video: Un juicio a El Siguiente Programa muchos años después

    Lo más habitual es utilizar el comando DUMP para enviar la salida a la pantalla cuando se depura sus programas. Cuando el programa entra en producción, basta con cambiar la llamada a una llamada DUMP tienda para que los resultados de ejecutar sus programas se almacenan en un archivo para su posterior procesamiento o análisis.

Artículos Relacionados