Latín de cerdo en los programas de cerdo de Hadoop

Video: Джоэл Селаникио: Об удивительных зародышах революции больших данных в области здравоохранения

Latín de cerdo es el idioma para programas de cerdo. Cerdo traduce la secuencia de comandos latín de cerdo en trabajos de MapReduce que pueda ser ejecutado dentro del cluster Hadoop. Si viene con cerdo América, el equipo de desarrollo sigue tres principios fundamentales de diseño:

Mantenlo simple. Latín de cerdo proporciona un método simplificado para interactuar con Java MapReduce. Es una abstracción, es decir, que simplifica la creación de programas paralelos en el clúster Hadoop para los flujos de datos y análisis. Las tareas complejas pueden requerir una serie de transformaciones de datos relacionados entre sí - tales series se codifican como flujo de datos de secuencias.
La escritura de transformación de datos y fluye como scripts Latín de cerdo en lugar de programas de Java MapReduce hace que estos programas fáciles de escribir, entender y mantener porque a) no tiene que escribir el trabajo en Java, b) no tiene que pensar en términos de MapReduce, y c) no es necesario para llegar a un código personalizado para soportar tipos de datos enriquecidos.
Latín de cerdo proporciona un lenguaje más simple para explotar el clúster Hadoop, lo que hace que sea más fácil para más personas a aprovechar el poder de Hadoop y ser productivos antes.
Que sea inteligente. Usted puede recordar que el compilador de América cerdo hace el trabajo de la transformación de un programa de Latín de cerdo en una serie de puestos de trabajo de Java MapReduce. El truco está en asegurarse de que el compilador puede optimizar la ejecución de estos trabajos de MapReduce de Java de forma automática, lo que permite al usuario centrarse en la semántica y no en la forma de optimizar y acceder a los datos.
Para los tipos de youSQL por ahí, esta discusión le resultará familiar. SQL está configurado como una consulta declarativa que se utiliza para acceder a los datos estructurados almacenados en un RDBMS. El motor RDBMS se traduce primero la consulta a un método de acceso de datos y luego mira a las estadísticas y genera una serie de enfoques de acceso a datos. El optimizador basado en costos elige el enfoque más eficaz para su ejecución.
No limite el desarrollo. Hacer cerdo extensible para que los desarrolladores pueden añadir funciones para hacer frente a sus problemas de negocios particulares.

almacenes de datos RDBMS tradicionales hacen uso de la pauta de tratamiento de datos ETL, donde midatos XTRACT de fuentes externas, transform que se adapte a sus necesidades operativas, y luego lOAD que en el destino final, si se trata de una tienda operativa de datos, un almacén de datos, u otra variante de la base de datos.

Sin embargo, con grandes volúmenes de datos, normalmente se desea reducir la cantidad de datos que haya moverse, por lo que terminan con lo que el procesamiento de los datos en sí.

El idioma para los flujos de datos de cerdo, por lo tanto, tiene un pase en el enfoque de ETL de edad, y se va con ELT en su lugar: miXTRACT los datos de las diversas fuentes, lOAD en HDFS, y luego transform según sea necesario para preparar los datos para su posterior análisis.