Su primer programa hadoop: hola hadoop!

Después del cluster Hadoop está instalado y en ejecución, puede ejecutar su primer programa de Hadoop. Esta aplicación es muy simple, y calcula el total de millas voladas para todos los vuelos realizados en un año. El año está definida por el archivo de datos que se lee en su aplicación.

Video: Apache Hadoop & Big Data 101: The Basics

Para mantener las cosas un poco más simples aquí, se encontrará con un guión de cerdo para calcular el total de millas voladas. Verá el mapa y reducir fases pasan volando en la salida.

Aquí está el código para este script cerdo:

Video: [T3chFest 2015] Adiós Hadoop - Hola Spark

registros = CARGA `2013_subset.csv` USO PigStorage ( ``) AS (año, mes, DAYOFMONTH, DayOfWeek, DepTime, CRSDepTime, ArrTime, CRSArrTime, UniqueCarrier, FlightNum, TailNum, ActualElapsedTime, CRSElapsedTime, tiempo de conexión, ArrDelay, DepDelay, Origen , Dest, Distancia: int, TaxiIn, TaxiOut, Cancelado, CancellationCode, desviada, CarrierDelay, WeatherDelay, NASDelay, SecurityDelay, LateAircraftDelay) -milage_recs = registros de grupo ALL-tot_miles = FOREACH milage_recs GENERAR SUM (records.Distance) -Store tot_miles EN / usuario / root / totalmiles-

¿Quieres poner este código en un archivo en su máquina virtual, por lo que en primer lugar crear un archivo. derecha, haga clic en el escritorio de la máquina virtual y seleccione Crear documento en el menú contextual que aparece y el nombre del documento. A continuación, abra el documento en un editor, pegar en el código, y guardar el archivo.

Desde la línea de comandos, ejecute el siguiente comando para ejecutar la secuencia de cerdo:

totalmiles.pig cerdo

Verá muchas líneas de producción, y, finalmente, “! Éxito” un mensaje, seguido por más estadísticas, y, finalmente, el símbolo del sistema. Después de su trabajo cerdo ha completado, se puede ver el resultado:

Video: Hadoop Tutorial - Installing a Hadoop Cluster

hdfs dfs -cat / usuario / root / totalmiles / parte-r-00000

Redoble de tambores, por favor ... Y la respuesta es: 775 009 272

Y con eso, se le han acabado su primera aplicación Hadoop!

Artículos Relacionados