bases de datos columnares en un entorno de grandes volúmenes de datos

bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, los datos se almacenan a través de filas. Aunque esto puede parecer una distinción trivial, es la característica subyacente más importante de las bases de datos de columna.

Es muy fácil añadir columnas, y se puede añadir fila por fila, ofreciendo una flexibilidad grande, el rendimiento y la escalabilidad. Cuando se tiene el volumen y la variedad de datos, es posible que desee utilizar una base de datos columnar. Es muy adaptable- simplemente seguir añadiendo columnas.

Una de las bases de datos más populares es columnares HBase. Es, también, es un proyecto de la Fundación Apache Software distribuido bajo la licencia Apache v2.0 Software. HBase utiliza el sistema de archivos Hadoop MapReduce y el motor para sus necesidades de almacenamiento de datos básicos.

El diseño de HBase se modela en BigTable de Google. Por lo tanto, las implementaciones de HBase son mapas altamente escalables, dispersos, distribuidos, persistentes multidimensionales ordenados. El mapa es indexado por una clave de fila, columna de clave, y una timestamp- cada valor en el mapa es una matriz no interpretada de bytes.

Cuando su aplicación requiere de grandes volúmenes de datos el acceso de lectura / escritura de datos al azar, en tiempo real, HBase es una muy buena solución. A menudo se utiliza para almacenar los resultados para el procesamiento analítico más tarde.

Las características importantes de HBase incluyen los siguientes:

Consistencia: Aunque no es una aplicación “Acid”, HBase ofrece consistencia fuerte de lectura y escritura y no se basa en un modelo de consistencia eventual. Esto significa que se puede utilizar para los requisitos de alta velocidad, siempre y cuando usted no necesita las “características adicionales” ofrecidas por RDBMS como soporte de transacciones completo o columnas escritas.
sharding: Debido a que los datos se distribuyen por el sistema de archivos de apoyo, HBase ofrece, la división y la redistribución de su contenido automática transparente.
Alta disponibilidad: A través de la implementación de servidores región, HBase soporta conmutación por error y recuperación de redes LAN y WAN. En el centro, hay un servidor principal responsable del seguimiento de los servidores región y todos los metadatos para el clúster.
API del cliente: HBase ofrece acceso mediante programación a través de una API de Java.
El apoyo a las operaciones de TI: Los ejecutores pueden exponer rendimiento y otros parámetros a través de un conjunto de páginas web integradas.

HBase implementaciones son los más adecuados para

De gran volumen, la recopilación de datos incrementales y procesamiento
el intercambio de información en tiempo real (por ejemplo, mensajería)
cambiar con frecuencia porción de contenido