Bases de datos de documentos en un entorno de datos grande

Se encuentran dos tipos de bases de datos de documentos para proyectos de grandes volúmenes de datos. Uno a menudo se describe como un repositorio de contenido completo de estilo de documentos. La otra es una base de datos para el almacenamiento de componentes de documentos para el almacenamiento permanente como una entidad estática o para el montaje dinámico de las partes de un documento. La estructura de los documentos y sus partes se proporciona mediante la notación de objetos javascript (JSON) y / o JSON binario (BSON).

bases de datos documentales son más útiles cuando se tiene que producir una gran cantidad de informes y que necesita ser ensamblado de forma dinámica a partir de elementos que cambian con frecuencia.

En su esencia, JSON es un formato de intercambio de datos, basado en un subconjunto del lenguaje de programación javascript. Aunque parte de un lenguaje de programación, es textual en la naturaleza y muy fácil de leer y escribir. También tiene la ventaja de ser fácil para los ordenadores de manejar. Existen dos estructuras básicas en JSON, y que son apoyados por muchos, si no todos, los lenguajes de programación modernos.

Video: Búsquedas efectivas de documentos en bases de datos para investigación educativa

La primera estructura básica es un conjunto de pares de nombre / valor, y que están representados mediante programación como objetos, registros, enchavetados listas, y así sucesivamente. La segunda estructura básica es una lista ordenada de valores, y que están representados mediante programación como matrices, listas o secuencias. BSON es una serialización binaria de estructuras JSON diseñados para aumentar el rendimiento y la escalabilidad.

MongoDB para grandes volúmenes de datos

MongoDB es el nombre del proyecto para el “nosotros hu (Mongo) de base de datos” del sistema. Es mantenido por una empresa llamada 10gen como código abierto y está disponible libremente bajo la licencia GNU AGPL v3.0. Las licencias comerciales con pleno apoyo están disponibles en 10gen.

MongoDB se compone de bases de datos que contienen “colecciones”. Una colección se compone de “documentos”, y cada documento se compone de campos. Al igual que en las bases de datos relacionales, puede indexar una colección.

Si lo hace, aumenta el rendimiento de las operaciones de búsqueda de datos. A diferencia de otras bases de datos, sin embargo, MongoDB vuelve algo que se llama un “cursor”, que sirve como un puntero a los datos. Esta es una capacidad muy útil, ya que ofrece la opción de contar o clasificar los datos sin extraerlo. De forma nativa, MongoDB soporta BSON, la aplicación binaria de documentos JSON.

MongoDB es también un ecosistema que consiste en los siguientes elementos:

De alta disponibilidad y servicios de replicación para escalar a través de redes locales y de área amplia.

  • Un sistema de archivos basado en la red, que permite el almacenamiento de objetos de gran tamaño, dividiéndolas entre varios documentos.

  • MapReduce para apoyar la analítica y la agregación de las diferentes colecciones / documentos.

  • Un servicio sharding que distribuye una sola base de datos a través de una agrupación de servidores en una sola o en múltiples centros de datos. El servicio es impulsado por una clave fragmento. La clave fragmento se utiliza para distribuir documentos de forma inteligente a través de múltiples instancias.

  • Un servicio de consulta que soporta consultas ad hoc, consultas distribuidas y búsqueda de texto completo.

  • implementaciones incluyen MongoDB efectiva

    • gestión de contenidos de gran volumen

    • Redes sociales

    • archivado

    • análisis en tiempo real

    CouchDB para grandes volúmenes de datos

    Otra base de datos relacional es muy popular CouchDB. Al igual que MongoDB, CouchDB es de código abierto. Es mantenida por el Apache Software Foundation y está disponible bajo la licencia Apache v2.0. A diferencia de MongoDB, CouchDB fue diseñado para imitar la web en todos los aspectos.

    Por ejemplo, CouchDB es resistente a los abandonos de red y continuará funcionando muy bien en las zonas donde la conectividad de red es irregular. También está en casa en un teléfono inteligente o en un centro de datos. Todo esto viene con algunas ventajas y desventajas. Debido a la mímica web subyacente, CouchDB es alta latencia que resulta en una preferencia para almacenamiento de datos local.

    CouchDB no se adapta bien a las implementaciones más pequeñas. Debe determinar si estas compensaciones pueden ser ignoradas al comenzar su aplicación de datos grande.

    bases de datos CouchDB se componen de documentos que consta de campos y archivos adjuntos, así como una “descripción” del documento en la forma de metadatos que se mantiene de forma automática por el sistema. La tecnología subyacente cuenta con todas las capacidades de ACID. La ventaja en CouchDB más relacional es que los datos son empaquetados y preparados para la manipulación o almacenamiento en vez de dispersos a través de filas y tablas.

    CouchDB es también un ecosistema con las siguientes capacidades:

    • compactación: Las bases de datos se comprimen para eliminar el espacio desperdiciado cuando se alcanza un cierto nivel de vacío. Esto ayuda a rendimiento y eficiencia para la persistencia.

    • Ver modelo: Un mecanismo para filtrar, organizar, y la información sobre los datos que utilizan una serie de definiciones que se almacenan como documentos en la base de datos. Encontrará una relación de uno a muchos de bases de datos a puntos de vista, por lo que puede crear muchas formas diferentes de representar los datos que ha “cortado en lonchas y en dados.”

    • Replicación y distribuidos servicios: almacenamiento de documento está diseñado para proporcionar la replicación bidireccional. réplicas parciales se pueden mantener para apoyar la distribución basada en criterios o la migración a los dispositivos con conectividad limitada. la replicación nativa es a base de pares, pero se puede aplicar Maestro / Esclavo, Maestro / Maestro, y otros tipos de modalidades de replicación.

    implementaciones efectivas incluyen CouchDB

    • gestión de contenidos de gran volumen

      Video: ORDENAR BASES DE DATOS EN EXCEL

    • Escalar de teléfono inteligente para centros de datos

    • Las aplicaciones con conectividad de red limitada o lenta

      Video: 1/2. Base de datos para la gestión de la documentación de la empresa

    Artículos Relacionados