Hadoop como un archivo de datos consultable de almacén en frío

Video: Multiple Reducers - Intro to Hadoop and MapReduce

Una multitud de estudios muestran que la mayoría de los datos en un almacén de datos empresariales rara vez se consultan. proveedores de bases de datos han respondido a dichas observaciones mediante la implementación de sus propios métodos para la clasificación de los datos que se colocan en.

Un método ordena el universo de datos en las denominaciones de caliente, o frío, donde caliente los datos (a veces llamados activo datos) se utiliza a menudo, calentar los datos se utiliza de vez en tiempo y frío los datos se utiliza muy poco. La solución propuesta por muchos vendedores es para almacenar los datos fríos sobre discos más lentos dentro de los recintos de almacenamiento de datos o para crear estrategias de caché inteligente para mantener calientes los datos en memoria, entre otros.

El problema con este enfoque es que a pesar de que se utiliza el almacenamiento lento, sigue siendo caro para almacenar datos fríos, rara vez se utilizan en un almacén. Los costos de aquí se deriva de hardware y licencias de software. Al mismo tiempo, los datos fríos e inactiva es a menudo está archivada en la cinta.

Video: Hadoop Tutorials

Este modelo tradicional de archivado de datos se rompe cuando se desea consultar todos los datos fríos de una manera rentable y relativamente eficiente - sin tener que solicitar cintas viejas, en otras palabras.

Si nos fijamos en las características de costo y operacionales de Hadoop, de hecho parece que se va a convertir en la nueva cinta de copia de seguridad. Hadoop es de bajo costo en gran parte porque los sistemas de Hadoop están diseñados para utilizar un grado inferior de hardware que lo que normalmente se desplegó en los sistemas de almacenamiento de datos. Otro ahorro significativo de costos es la concesión de licencias de software.

Video: Big Data and Hadoop Tutorials

Las licencias comerciales de distribución de Hadoop requieren una fracción del coste de las licencias de software de almacenamiento de datos relacionales, que son conocidos por ser caro. Desde una perspectiva operacional, Hadoop está diseñado para escalar fácilmente sólo mediante la adición de nodos esclavos adicionales a un clúster existente. Y a medida que se añaden nodos esclavos y los conjuntos de datos crecen en volumen, marcos de procesamiento de datos de Hadoop permiten a sus aplicaciones para manejar sin problemas la mayor carga de trabajo.

Hadoop representa una forma sencilla, flexible y de bajo costo para impulsar el procesamiento a través literalmente miles de servidores.

Con su arquitectura escalable y de bajo costo, Hadoop parecería ser una opción perfecta para el archivo de datos de depósito. . . a excepción de una pequeña cuestión: La mayor parte del mundo que se ejecuta en SQL y SQL por sí solo no juega bien con Hadoop.

Sin duda, el movimiento NoSQL más Hadoop ambiente, está vivo y bien, pero la mayoría de los usuarios de energía ahora utilizan SQL a través de, conjuntos de herramientas comunes off-the-shelf que generan consultas SQL bajo el capó - productos tales como Tableau, Microsoft Excel, e IBM Cognos BI.

Video: Let's Learn Python Basics, hadoop basics

Es cierto que el ecosistema Hadoop Hive incluye, pero Colmena admite sólo un subconjunto de SQL, y aunque está mejorando el rendimiento (junto con el soporte de SQL), no es tan rápido en responder a las preguntas más pequeños como los sistemas relacionales son. Recientemente, ha habido un gran avance en torno al acceso SQL para Hadoop, que ha allanado el camino para Hadoop para convertirse en el nuevo destino para los archivos de almacenamiento de datos en línea.

Dependiendo del proveedor de Hadoop, SQL (o SQL-como las API) se están haciendo disponibles para que los más comunes off-the-shelf de informes y herramientas de análisis pueden emitir sin problemas de SQL que se ejecuta en los datos almacenados en Hadoop. Por ejemplo, IBM tiene su API de SQL grande, tiene Cloudera Impala, y la propia colmena, a través de la iniciativa Hortonworks Stinger, se está convirtiendo cada vez más compatible con SQL.

Aunque existen diversos puntos de vista (algunos tienen por objeto mejorar Hive- algunos, para extender Hive- y otros, para proporcionar una alternativa), todas estas soluciones intentan abordar dos cuestiones: MapReduce es una mala solución para ejecutar consultas de menor tamaño, y el acceso SQL es - por ahora - la clave para permitir a los trabajadores de TI a utilizar sus conocimientos de SQL existentes para obtener valor de los datos almacenados en Hadoop.