Tecnologías marco de datos grandes que usted debe saber para conseguir un trabajo en grandes volúmenes de datos

Video: CONSIGUE TRABAJO o CAMBIA DE EMPLEO con esta relajación / meditación GRATIS. GET WORK Pilar Nature

Además de almacenar información, hay varios marcos importantes para la organización, acceder y analizar grandes volúmenes de datos. Hay cuatro tecnologías importantes que debe estar familiarizado con o experto en, dependiendo del papel grande datos que está persiguiendo.

El marco de Hadoop

El marco de Hadoop de Apache es un proyecto de código abierto - la tecnología no independiente, sino una colección de tecnologías. Hadoop tiene muchas implementaciones que utilicen los proveedores de datos grandes populares como, Amazon Web Services, Cloudera, Hortonworks y MapR.

Hadoop permite una muy alta velocidad de procesamiento de grandes volúmenes de datos mediante el uso de una estrategia de MapReduce. Mapa reducido es un modelo de programación utilizado para procesar grandes cantidades de datos a través de sistemas agrupados paralelas. Esto hace sus cargas de trabajo en los archivos que se almacenan dentro de un marco de sistema de archivos, como el sistema de archivos distribuido Hadoop (HDFS) o incluso conjuntos de datos estructurados. Como puede haber adivinado por el nombre de MapReduce, hay dos pasos en el proceso:

  • Cartografía: Hay un nodo maestro que tiene grandes puestos de trabajo y los mapas de nodos de trabajo más pequeños para hacer el trabajo. En algunos casos, un nodo trabajador podría simplificar aún más la carga de trabajo a los nodos más pequeños. (Un paso mapa es como una DÓNDE en una instrucción SQL.)

  • La reducción de: Cuando el trabajo es realizado por los nodos de trabajo, el nodo maestro recoge las “respuestas” y reúne los resultados. (A reducir paso es como una GRUPO en una instrucción SQL.)

El poder está en la paralelización (trabajando varios trabajos al mismo tiempo) de la etapa de mapeo. Puede ordenar a través de petabytes de datos en horas en lugar de días, como sería el caso de las consultas de bases tradicionales que ejecutan SQL.

El objetivo de Hadoop es tomar montones y montones de datos y obtener un conjunto de respuestas o resultados. Esto se hace a través de un mapa / reducir el proceso en paralelo. Los datos se “mapea” de acuerdo con algún algoritmo de ordenación y luego “reducido” a través de un algoritmo de resumen adicional para derivar un conjunto de resultados. La magia está en la parte paralela.

Muchos puestos de trabajo de mapeo se pueden hacer al mismo tiempo a través de una red de computadoras, o linfáticos. Los nodos son los recursos independientes dentro de una red de sistemas informáticos. Al compartir la carga, el trabajo de clasificar aunque grandes cantidades de datos se puede hacer rápidamente.

Cerdo

Cerdo y su lengua, latín de cerdo (no se puede acusar a los frikis de no tener un sentido del humor), son una plataforma para el análisis de grandes conjuntos de datos creadas originalmente en Yahoo! para acceder a las agrupaciones de Hadoop y más tarde se trasladó a la comunidad de código abierto Apache.

Latín de cerdo es el lenguaje de acceso que se utiliza para acceder al entorno de tiempo de ejecución de cerdo. Está diseñado para hacer el trabajo de crear puestos de trabajo MapReduce más fácil. Usted no tiene que construir su propio mapa y reducir funciones, pero es otro idioma para aprender.

Colmena

El reto para los programadores de bases de datos tradicionales que se trasladan a las nuevas tecnologías es que tienen que aprender nuevos lenguajes y paradigmas, como el cerdo. Han estado programando en SQL durante años, y moviendo a los modelos informáticos más puro es un reto. Introduzca la colmena.

Colmena permite a los programadores confortables con SQL para escribir colmena Query Language (HQL) para consultar las agrupaciones de Hadoop. Mediante el uso de un lenguaje muy similar a SQL, colmena puede traducir tipo SQL pone en Hadoop-hablar, lo que hace que la facilidad de uso de Hadoop mucho más aceptable para los programadores RDMBS tradicionales.

Piense en ello como un motor de traducción. Si un programador no sabe cómo programar en Hadoop, pero sabe cómo utilizar SQL para acceder a los datos, Colmena actúa como puente y que se traduce tipo SQL pone en Hadoop.

Video: ¿Cuál es tu trabajo ideal? | Test Divertidos

Chispa

Spark es una plataforma emergente que también se basa en HDFS. Además de ser capaz de aprovechar HDFS, chispa puede acceder HBase, Cassandra, y otros insumos. Spark aprovecha grid computing para grandes procesamiento en paralelo y puede almacenar información en la memoria RAM, que proporciona acceso ultra-rápido a los datos y recursos informáticos para el análisis.

Video: Curso de Jardinería a gran escala parte 1

Los programadores pueden acceder chispa usando Python, Scala, o Java. Spark también se puede utilizar en conjunción con el análisis de gráficos como GraphX ​​y MLIB, que es la biblioteca de aprendizaje de máquina de Apache.

Artículos Relacionados