modos locales y distribuidas de ejecutar secuencias de comandos de cerdo en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo se pueden empaquetar con el servidor de cerdo.

Cerdo tiene dos modos para ejecutar secuencias de comandos:

Modo local: Todos los scripts se ejecutan en una sola máquina, sin necesidad de Hadoop MapReduce y HDFS. Esto puede ser útil para desarrollar y probar la lógica de cerdo. Si está utilizando un pequeño conjunto de datos al desarrollador o probar el código, a continuación, el modo local podría ser más rápido que ir a través de la infraestructura de MapReduce.
El modo local no requiere Hadoop. Cuando se ejecuta en modo local, el programa de cerdo se ejecuta en el contexto de una máquina virtual de Java local y acceso a los datos se realiza a través del sistema de archivos local de una sola máquina. Modo local es en realidad una simulación local del MapReduce en clase LocalJobRunner de Hadoop.
modo de MapReduce (también conocido como modo Hadoop): Pig se ejecuta en el clúster Hadoop. En este caso, la secuencia de comandos de cerdo se convierte en una serie de trabajos de MapReduce que luego se ejecutan en el clúster Hadoop.

Si usted tiene un terabyte de datos que desea realizar operaciones sobre y desea desarrollar un programa de forma interactiva, es posible que pronto se encontrará cosas ralentizar considerablemente, y es posible que comience a crecer su almacenamiento. Modo local le permite trabajar con un subconjunto de los datos de una manera más interactiva para que pueda averiguar la lógica (y eliminar los errores) de su programa de cerdo.

Una vez que haya creado las cosas tal y como quieres y sus operaciones están funcionando sin problemas, a continuación, puede ejecutar la secuencia de comandos en el conjunto completo de datos utilizando el modo de MapReduce.