Almacenar grandes volúmenes de datos con hbase

HBase es una base de datos distribuida no relacional, (columnar) que utiliza HDFS como su almacén de persistencia para proyectos de grandes volúmenes de datos. Es el modelo de Google BigTable y es capaz de albergar tablas muy grandes (miles de columnas / filas), ya que se coloca sobre las agrupaciones de Hadoop de hardware básico.

HBase ofrece al azar, en tiempo real el acceso de lectura / escritura de datos grandes. HBase es altamente configurable, que proporciona una gran flexibilidad para hacer frente a enormes cantidades de datos de manera eficiente. Ahora echa un vistazo a cómo HBase puede ayudar a resolver sus grandes desafíos de datos.

HBase es una base de datos en columnas, por lo que todos los datos se almacenan en tablas con filas y columnas similares a los sistemas de gestión de bases de datos relacionales (RDBMS). La intersección de una fila y una columna se llama una célula. Una diferencia importante entre las tablas HBase y tablas RDBMS está de versiones.

Cada valor de la celda incluye un atributo de “versión”, que no es más que una marca de tiempo que identifica únicamente la célula es. De versiones seguimiento de los cambios en la célula y hace que sea posible recuperar cualquier versión de los contenidos en caso de ser necesario. HBase almacena los datos de las celdas en orden decreciente (el uso de la marca de tiempo), por lo que una lectura encontrará siempre los valores más recientes primero.

Las columnas de HBase pertenecen a una familia de columnas. El nombre de la familia columna se utiliza como prefijo para identificar a los miembros de su familia. Por ejemplo, frutas: manzana y frutas: plátano son miembros de la frutas familia de columnas. HBase implementaciones están sintonizados a nivel familiar columna, por lo que es importante ser consciente de cómo se va a acceder a los datos y lo grande que espera las columnas que sean.

Las filas en las tablas HBase también tienen una clave asociada con ellos. La estructura de la clave es muy flexible. Puede ser un valor calculado, una cadena, o incluso otra estructura de datos. La clave se utiliza para controlar el acceso a las celdas de la fila, y que se almacenan en orden de menor valor a valor alto.

Todas estas características juntas forman el esquema. El esquema está definido y creado antes de que los datos pueden ser almacenados. Aun así, las tablas pueden alterarse y nuevas familias de columna se pueden añadir después de la base de datos está en marcha y funcionando. Esta extensibilidad es extremadamente útil cuando se trata de grandes volúmenes de datos, ya que no siempre se sabe acerca de la variedad de sus flujos de datos.