La agrupación en nosql

Video: NoSQL Explained

bases de datos NoSQL se adaptan bien a grandes bases de datos. clones Bigtable como HBase no son una excepción. Es probable que desee utilizar varios servidores de materias primas de bajo costo en un solo clúster en lugar de una máquina muy potente. Esto se debe a que se puede obtener un mejor rendimiento general por dólar mediante el uso de muchos servidores de las materias primas, en lugar de un servidor mucho más costosa única, de gran alcance.

Video: Model Your Relational Database Data as NoSQL Document Data

Además de ser capaz de escalar rápidamente, servidores de bajo costo de las materias primas también pueden hacer que su servicio de base de datos más resistente y por lo tanto ayudar a evitar los fallos de hardware. Esto se debe a que tiene otros servidores para hacerse cargo del servicio si falla la placa base de un único servidor. Este no es el caso con un solo servidor grande.

La figura muestra una configuración HBase altamente disponible con un ejemplo de datos dividido entre los servidores.

El diagrama muestra dos nodos (HRegionServers) en una configuración de alta disponibilidad, actuando cada uno como una copia de seguridad para el otro.

Video: MongoDB и сравнение NoSQL баз [GeekBrains]

En muchas configuraciones de producción, es posible que desee al menos tres nodos de alta disponibilidad para asegurar dos fallas en el servidor cercanos en el tiempo entre sí pueden ser manejados. Esto no es tan raro como se podría pensar! Consejos varía por Bigtable- por ejemplo, HBase recomienda cinco nodos como un mínimo para un clúster:

Cada servidor de la región gestiona su propio juego de llaves.
El diseño de una estrategia de asignación de clave de fila es importante, ya que determina la forma en que la carga se transmite a través del clúster.
| Cada región mantiene su propio registro de escritura y almacenar en memoria.
En HBase, todos los datos se escriben en una tienda en memoria, y más tarde esta tienda se vacía en el disco. En el disco, estas tiendas son llamados almacenar archivos.
HBase interpreta almacenar archivos como archivos individuales, pero en realidad, están distribuidos en bloques a través de un sistema de archivos distribuido Hadoop (HDFS). Esto proporciona una alta ingesta y la velocidad de recuperación porque todas las grandes operaciones de E / S se distribuyen en muchas máquinas.

Para maximizar la disponibilidad de los datos, por defecto, Hadoop mantiene tres copias de cada archivo de datos. Las grandes instalaciones tienen

Una copia primaria
Una réplica en el mismo bastidor
Otra réplica en un estante diferente

Antes de Hadoop 2.0, Namenodes no se podía hacer de alta disponibilidad. Estos mantienen una lista de todos los servidores activos en el clúster. Eran, por lo tanto, un único punto de fallo. Desde Hadoop 2.0, este límite ya no existe.