Lo que debe saber sobre nosql para conseguir un trabajo de datos grande

Una gran cantidad de información se almacena en los RDBMS, pero ¿qué pasa con todos los demás datos de la tecnología grande se entero de? La enorme cantidad de datos y la necesidad de acceder a él rápidamente, así como almacenar datos no estructurados, requiere una gran variedad de otros sistemas que permiten la velocidad y la agilidad. La llegada no sólo de SQL (NoSQL) proporciona a los usuarios una manera más flexible y escalable para almacenar y acceder a datos para dar cabida a las demandas de grandes volúmenes de datos.

Key-valor de par almacenes de datos

Este sistema no requiere un modelo altamente estructurado como un sistema relacional. El sistema de clave-valor de par (KVP) se centra en las tablas y claves, permite una gran flexibilidad, y puede crecer a un tamaño muy grande sin sacrificar el rendimiento. Se llama escala. Escalada, o la adición de millones o mil millones de artículos a un almacén de datos, puede afectar negativamente el rendimiento en un sistema tradicional. tiendas KVP que “escalables” puede ser muy, muy grande y aún realizar rápidamente.

Video: Video Bases de Datos NoSQL 2016

UN llave es un identificador que se utiliza para encontrar una valor, lo que desea almacenar. Juntos se les considera una par.

Digamos que quiere almacenar las preferencias del usuario como la fruta favorita, coche, el color y el deporte. Para acceder a esa información, sólo tendría que consultar la clave, que podría haberse recuperado de una cookie del navegador y recuperar esos datos.

El “sistema” en este caso le permite almacenar mediante programación y consulta la clave-valor de par. Consultar una clave significa simplemente mirar hacia arriba y conseguir el valor. El sistema KVP ofrece una enorme flexibilidad para una situación como esta en la que no desea restringir las opciones de almacenamiento. Cuando necesite almacenar mil millones de elementos de datos, un RDBMS tradicional puede funcionar mal.

KVP soluciones para grandes volúmenes de datos están diseñados para ser altamente escalable y resistente. Estas tecnologías son típicamente almacenan completamente en la memoria de acceso aleatorio (RAM), por lo que el acceso es rápido y no requiere la consulta para acceder a datos almacenados en un dispositivo físico como una unidad de disco, que lleva mucho más tiempo de acceso.

La computación grid es un concepto de la difusión de los trabajos a través de muchos ordenadores para obtener los trabajos que se hacen más rápido, así como proporcionar un alto nivel de disponibilidad o tolerancia a fallos.

implementaciones KVP prevalentes incluyen los siguientes:

Amazon DynomoDB: Un almacén de datos NoSQL KVP se ofrece como un servicio en la nube de Amazon.
FoundationDB: Un almacén de datos NoSQL KVP que asegura las transacciones ACID.
MemcacheDB: A distribuido (basado rejilla) de almacenamiento de datos que residía en la RAM.
Redis: Un caché de clave-valor con la capacidad para almacenar todo tipo de datos - estructurados y no estructurados. En la industria de la gente se refiere a Redis como un servidor de estructura de datos.
riak: Una de código abierto NoSQL KVP basada en los conceptos de producto Amazon DynomoDB.

Video: Bases de datos no-relacionales en #programadorIO

bases de datos orientadas a documentos

bases de datos orientadas a documentos permiten el almacenamiento y recuperación de datos semiestructurada - datos que está en algún lugar entre estructurado (como un tweet) y estructurado. páginas web y documentos son un gran ejemplo de los datos semiestructuradas.

Video: Modelado de Datos NoSQL Parte 1 - JOIN vs Embed

Mientras que los RDBMS se orientan en torno a mesas y claves, los sistemas orientados a documentos utilizan un paradigma documento. En lugar de almacenar los datos en filas y columnas, el modelo de documento define la información en un documento y almacena esa información lógicamente. Este es un enfoque muy flexible y simplificado para el almacenamiento y recuperación de datos.

Muchos de éstos almacenar datos de bases de datos NoSQL documentos en formato JSON.

implementaciones populares orientados a documentos incluyen los siguientes:

Cassandra: Una parte del proyecto de código abierto Apache, este es un sistema de base de datos distribuida (basado en grid) orientado al documento.
CouchDB: Un sistema de base de datos documental de código abierto que tiene capacidades de ACID.
MarkLogic: Un sistema de base de datos documental disponible en el mercado considerado como listo para la empresa. Esto es altamente seguro, fiable y utilizado por muchas empresas Fortune 1000 para los procesos de cara al cliente.
MongoDB: Tal vez el principal sistema de base de datos NoSQL que utiliza un enfoque orientado al documento. Esto también es de código abierto bajo el modelo de licencia Apache.

bases de datos orientadas Graph-

Este tipo de base de datos utiliza conceptos de nodos, bordes y propiedades para almacenar información y las relaciones. grafos dirigidos son especialmente útiles cuando se piensa acerca de las relaciones complejas como los horarios con múltiples dependencias, o en una red social, donde se necesita almacenar información sobre personas y su conexión.

La teoría de grafos es la ciencia de la visualización de modelos matemáticos en términos de gráficos para relacionar los objetos entre sí. Una imagen red social es un ejemplo de un gráfico. Los nodos son las personas, y el borde conecta estas personas. Las propiedades pueden definir los bordes, o relaciones.

Este tipo de almacenamiento de base de datos es especialmente útil para los sitios como LinkedIn o Facebook.

Un ejemplo de una tecnología gráfica popular es GraphDB, que se utiliza para mapear las relaciones de datos especiales llaman tripletas RDF. La herramienta toma los objetos y los hechos, y gráficamente las relaciona.

bases de datos orientada a columnas

Estos sistemas se distribuyen los almacenes de datos en columnas. Orientan información no en filas, como RDBMS tradicional, pero en columnas. Esto permite el agrupamiento natural de los datos, lo que acelera el análisis.

RDBMS tradicional debe seguir una forma muy definida para organizar la información llamada la normalización de mesa, lo que evita la repetición de los tipos de columnas y la información se desglosa en una naturaleza atómica. Por lo tanto, para montar un informe, un programador tiene que unir estos elementos atómicos, utilizando SQL, en grupos que tengan sentido para un ser humano. Esto puede tomar un tiempo muy largo cuando se trata de grandes cantidades de datos. RDMBSs tradicionales son mucho más lentos debido a que deben establecer vínculos complicados y requieren mucho tiempo para montar grandes franjas de datos en los informes.

Apache HBase es un popular almacén de datos orientada a columnas distribuida que fue modelado después de Bigtable sistema de Google. HBase se basa en el sistema de archivos de Hadoop. HBase permite un rápido acceso a las tablas que son mil millones de filas por millones de columnas.

Con bases de datos de las columnas, se puede agregar información verticalmente en las familias de las columnas, lo que permite un acceso rápido de grandes cantidades de datos. A diferencia de los modelos relacionales, que se centran fila, grandes columnas y los datos resumidos sobre esas columnas se puede hacer mucho más rápido.