Google dremel y hadoop

Video: Hadoop on Google Compute Engine for Processing Big Data

Para la mayoría de la gente, el término Dremel trae a la mente una herramienta de bajo par mano de alta velocidad que funciona bien para una variedad de trabajos en la casa. Pero, ¿sabía que Google creó un Dremel? En lugar de producir otro herramienta mecánica portátil, sin embargo, Google eligió una herramienta de software rápida destinada al análisis interactivo de datos grandes.

Video: Apache Drill Introduction

Al igual que con otras tecnologías de Google que inspiraron partes del ecosistema Hadoop, como MapReduce, Google File System (HDFS), y BigTable (ver HBase), Google ha desarrollado Dremel para uso interno y luego publicó un artículo que describe el propósito y el diseño de la tecnología . (En otras palabras, Dremel no es algo que se puede descargar y utilizar en el clúster Hadoop.)

Google utiliza Dremel para una variedad de trabajos, incluyendo el análisis de documentos en la Web rastreado, la detección de spam de correo electrónico, a través de informes de errores de aplicaciones, y mucho más. servicio de BigQuery de Google utiliza realmente Dremel.

Video: Big Data at Google - Jordan Tigani - Strata+Hadoop World 2016 London

Google ha diseñado la tecnología MapReduce para el procesamiento por lotes sobre conjuntos masivos de datos. A medida que sus necesidades han evolucionado, también lo hizo su tecnología, y Google decidió crear Dremel para mejorar el rendimiento de las consultas interactivas en contra de grandes conjuntos de datos.

El enfoque MapReduce proporciona tolerancia a la escalabilidad y la consulta falla, pero es fundamentalmente un sistema basado en lotes, por lo que los tiempos de respuesta para consultas más pequeñas (las consultas que implican sólo una pequeña parte de todo un conjunto de datos, por ejemplo) a menudo no son lo que esperan los usuarios.

Video: DEFCON 17: Hadoop: Apache's Open Source Implementation of Google's MapReduce Framework

Así que Google ha desarrollado una tecnología de ejecución de consultas diseñado para consultas interactivas, que se ejecuta en los servidores intermedios en la parte superior del sistema de archivos de Google (GFS). (Recuerde, GFS fue la inspiración para Apache HDFS, que es el sistema de archivos de Hadoop.)

Al igual que en colmena, Dremel utiliza un lenguaje similar a SQL (familiar para la mayoría de los programadores) y emplea un diseño de datos columnar. Dremel ofrece respuesta de consulta rápida e interactiva preservando al mismo tiempo la tolerancia a fallos y escalabilidad que se encuentra en Apache Hive. En las notas del producto Dremel, Google explica cómo se puede realizar consultas de agregación en cuestión de segundos en las mesas con un billón de filas - no está mal del todo.

Por lo que Google tiene su tecnología Dremel, que utiliza internamente, pero luego están todas las tecnologías “inspirada en” Dremel (algo así como todos aquellos perfumes “inspirada en” Drakkar Noir).

Artículos Relacionados