almacenamiento estructurado y tratamiento de datos Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características principales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y procesamiento de datos de propósito general diseñado para escalar a miles de nodos de computación y petabytes de datos.

Video: Procesamiento de datos con Spark y Spark SQL

No hay modelo de datos en los datos Hadoop misma- simplemente se almacena en el clúster Hadoop como archivos RAW. Como tal, los componentes básicos de Hadoop en sí no tienen capacidades especiales para la catalogación, la indexación o la consulta de datos estructurados.

La belleza de un sistema de almacenamiento de datos de propósito general es que puede ser extendido para fines muy específicos. La comunidad Hadoop ha hecho lo mismo con una serie de proyectos de Apache - proyectos que, en su totalidad, forman el Hadoop ecosistema. Cuando se trata de almacenamiento de datos estructurados y procesamiento, los proyectos que se describen en esta lista son los más comúnmente utilizados:

Colmena: Un marco para el almacenamiento de datos Hadoop. cataloga datos de la colmena en archivos estructurados y proporciona una interfaz de consulta con el lenguaje SQL del mismo nombre HiveQL.
Video: Flume + Spark Streaming
HBase: UN repartido la base de datos - una base de datos NoSQL que se basa en varios equipos en lugar de en una sola CPU, en otras palabras - que se construye en la parte superior de Hadoop.
Video: Máster en Big Data y Data Science: ciencia e ingeniería de datos UAM
Giraph: Un motor de procesamiento gráfico para los datos almacenados en Hadoop.

Muchos otros proyectos de Apache soportan diferentes aspectos de análisis de datos estructurados, y algunos proyectos se centran en una serie de marcos e interfaces.

Al determinar la arquitectura óptima para sus necesidades de análisis, asegúrese de evaluar los atributos y capacidades de los sistemas que está considerando. La tabla compara los almacenes de datos basados en Hadoop (colmena, Giraph, y HBase) con RDBMS tradicional.

Una comparación de almacenamiento basado en Hadoop y RDBMS
criterios	Colmena	Giraph	HBase	RDBMS
datos cambiables	No	Sí	Sí
diseño de datos	archivos crudos almacenados en HDFS- Colmena apoya patentada fila-orientada o formatos en columnas.	A escasa, distribuido, persistente multidimensional ordenados mapa	Fila-orientado o columna-orientado
Tipos de datos	tipos de datos Bytes- se interpretan en consulta.	Compatibilidad de tipos de datos ricos
Hardware	Hadoop agrupado x86 mercancía Servidores- cinco o más es típico debido a que la tecnología de almacenamiento subyacente es HDFS, que por defecto requiere tres réplicas.	sistemas multiprocesador típicamente grandes y escalables
Alta disponibilidad	Si- integrado en la arquitectura Hadoop	Sí, si el hardware y el RDBMS están configurados correctamente
índices	Sí	No	Fila de clave única o una mesa especial que se necesite	Sí
Lenguaje de consulta	HiveQL	Giraph API	comandos de la API (HBase,,,,,, HiveQL	SQL
Esquema	Esquema definido como archivos son catalogados con los datos de la colmena Definition Language (DDL)	Esquema de lectura	La variabilidad en el esquema entre filas	Esquema de la carga
rendimiento	Millones de lecturas y escrituras por segundo	Miles de lecturas y escrituras por segundo
Actas	Ninguna	Proporciona soporte ácido sobre una única fila	Proporciona varias filas y tablas cruzadas con soporte transaccional pleno cumplimiento de la propiedad ACID
velocidad de transacción	modesta velocidad de queries- rápido e interactivo para la tabla completa exploraciones	Rápido para queries- interactivo rápido para escaneos completos de tabla	Rápido para queries- interactiva más lento para los escaneos completos de tabla
El tamaño típico	Varía de terabytes a petabytes (de cientos de millones a mil millones de filas)	De gigabytes a terabytes (de entre cientos de miles a millones de filas)

Video: Procesamiento de datos con Spark y Spark SQL

Video: Flume + Spark Streaming

Video: Máster en Big Data y Data Science: ciencia e ingeniería de datos UAM