Almacenamiento de datos estructurado y procesamiento en hadoop
Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características principales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y procesamiento de datos de propósito general diseñado para escalar a miles de nodos de computación y petabytes de datos.
Video: Procesamiento de datos con Spark y Spark SQL
No hay modelo de datos en los datos Hadoop misma- simplemente se almacena en el clúster Hadoop como archivos RAW. Como tal, los componentes básicos de Hadoop en sí no tienen capacidades especiales para la catalogación, la indexación o la consulta de datos estructurados.
La belleza de un sistema de almacenamiento de datos de propósito general es que puede ser extendido para fines muy específicos. La comunidad Hadoop ha hecho lo mismo con una serie de proyectos de Apache - proyectos que, en su totalidad, forman el Hadoop ecosistema. Cuando se trata de almacenamiento de datos estructurados y procesamiento, los proyectos que se describen en esta lista son los más comúnmente utilizados:
Colmena: Un marco para el almacenamiento de datos Hadoop. cataloga datos de la colmena en archivos estructurados y proporciona una interfaz de consulta con el lenguaje SQL del mismo nombre HiveQL.
Video: Flume + Spark Streaming
HBase: UN repartido la base de datos - una base de datos NoSQL que se basa en varios equipos en lugar de en una sola CPU, en otras palabras - que se construye en la parte superior de Hadoop.
Video: Máster en Big Data y Data Science: ciencia e ingeniería de datos UAM
Giraph: Un motor de procesamiento gráfico para los datos almacenados en Hadoop.
Muchos otros proyectos de Apache soportan diferentes aspectos de análisis de datos estructurados, y algunos proyectos se centran en una serie de marcos e interfaces.
Al determinar la arquitectura óptima para sus necesidades de análisis, asegúrese de evaluar los atributos y capacidades de los sistemas que está considerando. La tabla compara los almacenes de datos basados en Hadoop (colmena, Giraph, y HBase) con RDBMS tradicional.
criterios | Colmena | Giraph | HBase | RDBMS |
---|---|---|---|---|
datos cambiables | No | Sí | Sí | |
diseño de datos | archivos crudos almacenados en HDFS- Colmena apoya patentada fila-orientada o formatos en columnas. | A escasa, distribuido, persistente multidimensional ordenados mapa | Fila-orientado o columna-orientado | |
Tipos de datos | tipos de datos Bytes- se interpretan en consulta. | Compatibilidad de tipos de datos ricos | ||
Hardware | Hadoop agrupado x86 mercancía Servidores- cinco o más es típico debido a que la tecnología de almacenamiento subyacente es HDFS, que por defecto requiere tres réplicas. | sistemas multiprocesador típicamente grandes y escalables | ||
Alta disponibilidad | Si- integrado en la arquitectura Hadoop | Sí, si el hardware y el RDBMS están configurados correctamente | ||
índices | Sí | No | Fila de clave única o una mesa especial que se necesite | Sí |
Lenguaje de consulta | HiveQL | Giraph API | comandos de la API (HBase,,,,,, HiveQL | SQL |
Esquema | Esquema definido como archivos son catalogados con los datos de la colmena Definition Language (DDL) | Esquema de lectura | La variabilidad en el esquema entre filas | Esquema de la carga |
rendimiento | Millones de lecturas y escrituras por segundo | Miles de lecturas y escrituras por segundo | ||
Actas | Ninguna | Proporciona soporte ácido sobre una única fila | Proporciona varias filas y tablas cruzadas con soporte transaccional pleno cumplimiento de la propiedad ACID | |
velocidad de transacción | modesta velocidad de queries- rápido e interactivo para la tabla completa exploraciones | Rápido para queries- interactivo rápido para escaneos completos de tabla | Rápido para queries- interactiva más lento para los escaneos completos de tabla | |
El tamaño típico | Varía de terabytes a petabytes (de cientos de millones a mil millones de filas) | De gigabytes a terabytes (de entre cientos de miles a millones de filas) |