Almacenamiento de datos estructurado y procesamiento en hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características principales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y procesamiento de datos de propósito general diseñado para escalar a miles de nodos de computación y petabytes de datos.

Video: Procesamiento de datos con Spark y Spark SQL

No hay modelo de datos en los datos Hadoop misma- simplemente se almacena en el clúster Hadoop como archivos RAW. Como tal, los componentes básicos de Hadoop en sí no tienen capacidades especiales para la catalogación, la indexación o la consulta de datos estructurados.

La belleza de un sistema de almacenamiento de datos de propósito general es que puede ser extendido para fines muy específicos. La comunidad Hadoop ha hecho lo mismo con una serie de proyectos de Apache - proyectos que, en su totalidad, forman el Hadoop ecosistema. Cuando se trata de almacenamiento de datos estructurados y procesamiento, los proyectos que se describen en esta lista son los más comúnmente utilizados:

  • Colmena: Un marco para el almacenamiento de datos Hadoop. cataloga datos de la colmena en archivos estructurados y proporciona una interfaz de consulta con el lenguaje SQL del mismo nombre HiveQL.

    Video: Flume + Spark Streaming

  • HBase: UN repartido la base de datos - una base de datos NoSQL que se basa en varios equipos en lugar de en una sola CPU, en otras palabras - que se construye en la parte superior de Hadoop.

    Video: Máster en Big Data y Data Science: ciencia e ingeniería de datos UAM

  • Giraph: Un motor de procesamiento gráfico para los datos almacenados en Hadoop.

Muchos otros proyectos de Apache soportan diferentes aspectos de análisis de datos estructurados, y algunos proyectos se centran en una serie de marcos e interfaces.

Al determinar la arquitectura óptima para sus necesidades de análisis, asegúrese de evaluar los atributos y capacidades de los sistemas que está considerando. La tabla compara los almacenes de datos basados ​​en Hadoop (colmena, Giraph, y HBase) con RDBMS tradicional.

Una comparación de almacenamiento basado en Hadoop y RDBMS
criteriosColmenaGiraphHBaseRDBMS
datos cambiablesNo
diseño de datosarchivos crudos almacenados en HDFS- Colmena apoya patentada
fila-orientada o formatos en columnas.
A escasa, distribuido, persistente multidimensional ordenados
mapa
Fila-orientado o columna-orientado
Tipos de datostipos de datos Bytes- se interpretan en consulta.Compatibilidad de tipos de datos ricos
HardwareHadoop agrupado x86 mercancía Servidores- cinco o más es típico
debido a que la tecnología de almacenamiento subyacente es HDFS, que por defecto
requiere tres réplicas.
sistemas multiprocesador típicamente grandes y escalables
Alta disponibilidadSi- integrado en la arquitectura HadoopSí, si el hardware y el RDBMS están configurados correctamente
índicesNoFila de clave única o una mesa especial que se necesite
Lenguaje de consultaHiveQLGiraph APIcomandos de la API (HBase,,,,,, HiveQLSQL
EsquemaEsquema definido como archivos son catalogados con los datos de la colmena
Definition Language (DDL)
Esquema de lecturaLa variabilidad en el esquema entre filasEsquema de la carga
rendimientoMillones de lecturas y escrituras por segundoMiles de lecturas y escrituras por segundo
ActasNingunaProporciona soporte ácido sobre una única filaProporciona varias filas y tablas cruzadas con soporte transaccional
pleno cumplimiento de la propiedad ACID
velocidad de transacciónmodesta velocidad de queries- rápido e interactivo para la tabla completa
exploraciones
Rápido para queries- interactivo rápido para escaneos completos de tablaRápido para queries- interactiva más lento para los escaneos completos de tabla
El tamaño típicoVaría de terabytes a petabytes (de cientos de millones
a mil millones de filas)
De gigabytes a terabytes (de entre cientos de miles a
millones de filas)
Artículos Relacionados