La gestión de las tecnologías de datos grandes en una nube híbrida

El termino big Data se utiliza a menudo en el mundo de la tecnología de nube híbrida debido a la continua necesidad de procesar cantidades crecientes de datos. El hecho clave sobre grandes volúmenes de datos es que existe en el punto de las soluciones que las organizaciones han puesto históricamente en lugar de manejar grandes volúmenes de datos complejos de inflexión. tecnologías de datos grandes permiten a las personas a analizar y utilizar estos datos de manera efectiva realidad.

características de datos grandes

grandes volúmenes de datos en general, tiene tres características - el volumen, variedad y velocidad:

Volumen: Big data es grande en volumen. Se refiere en general a al menos varios terabytes de datos. Muchas implementaciones de grandes volúmenes de datos están buscando para analizar petabytes de información.
Nombre Valor
Byte 10⁰
Gigabyte 10⁹ bytes
terabyte 10¹² bytes
petabyte 10¹⁵ bytes
Exabyte 10¹⁸ bytes
Variedad: grandes volúmenes de datos se presenta en diferentes formas y tamaños. Incluye estos tipos de datos:

Nombre	Valor
Byte	10⁰
Gigabyte	10⁹ bytes
terabyte	10¹² bytes
petabyte	10¹⁵ bytes
Exabyte	10¹⁸ bytes

Datos estructurados es la especie típica de los datos que los analistas están acostumbrados a tratar con. Incluye los ingresos y el número de ventas - el tipo de datos que piensa acerca de la inclusión en una base de datos. Los datos estructurados también se produce en nuevas formas de productos tales como sensores y etiquetas RFID.
datos semiestructurada tiene cierta estructura a ella, pero no en la forma de pensar sobre las tablas de una base de datos. Incluye formatos EDI y XML.
Los datos no estructurados incluye texto, imagen y audio, incluyendo cualquier mensaje de correo electrónico de documentos, pío, o un blog interno para una empresa o en Internet. Los datos no estructurados representa alrededor del 80 por ciento de todos los datos.

Velocidad: Esta es la velocidad a la que los datos se mueve. Piense en los sensores de captura de datos cada milisegundo o corrientes de datos de salida de los equipos médicos. grandes volúmenes de datos a menudo viene a ti en una corriente, por lo que tiene una naturaleza en tiempo real asociada a ella.

La nube es un lugar ideal para grandes volúmenes de datos, debido a su almacenamiento escalable, calcular la energía y los recursos elásticas. El modelo de nube está a gran escala- la informática y una serie de marcos y tecnologías distribuye han surgido para apoyar este modelo, incluyendo

Video: Comercialización y Tecnología en las Nubes

Apache Hadoop: Una plataforma de computación distribuida de código abierto escrito en Java. Es una biblioteca de software que permite el procesamiento distribuido a través de grupos de ordenadores. Es realmente un sistema de archivos distribuido. Se crea un grupo de equipo, cada uno con un sistema de archivos de Hadoop. Hadoop fue diseñado para hacer frente a grandes cantidades de datos complejos. Los datos pueden ser estructurados, no estructurados o semi-estructurada. Hadoop puede correr a través de una gran cantidad de servidores que no comparten memoria o disco. Ver Hadoop para más información.
Mapa reducido: Un marco de software introducido por Google para apoyar la computación distribuida en grandes conjuntos de datos. Está en el corazón de lo que Hadoop está haciendo con grandes volúmenes de datos y análisis de datos grandes. Está diseñado para aprovechar los recursos de la nube. Este cómputo se realiza a través de numerosos ordenadores, llama racimos, y cada grupo se conoce como una nodo. MapReduce puede tratar con datos estructurados y no estructurados. Los usuarios especifican una función de mapa que procesa un par clave / valor para generar un conjunto de pares intermedios y una función de reducción que combina estos pares.

bases de datos de datos grandes

Un recurso importante de Hadoop es que puede manejar diferentes tipos de datos. sistemas de gestión de bases de datos paralelas han estado en el mercado desde hace décadas. Pueden apoyar la ejecución en paralelo, porque la mayoría de las mesas están particionan en los nodos de un clúster, y que se puede traducir comandos SQL en un plan que se divide a través de los nodos del clúster. Sin embargo, que en su mayoría se ocupan de datos estructurados, porque es difícil de encajar, datos no estructurados de forma libre en las columnas y filas en un modelo relacional.

Hadoop se ha iniciado un movimiento en lo que se ha llamado NoSQL, es decir, no sólo SQL. El término se refiere a un conjunto de tecnologías que es diferente de los sistemas de bases de datos relacionales. Una diferencia importante es que no utilizan SQL. También están diseñados para el sistema de archivos distribuido.

NoSQL no significa que las personas no deberían usar SQL. Más bien, la idea es que, dependiendo de cuál es tu problema, bases de datos relacionales y bases de datos NoSQL pueden coexistir en una organización. Existen numerosos ejemplos de este tipo de bases de datos, incluyendo las siguientes:

Apache Cassandra: Un sistema de gestión de datos de código abierto distribuido originalmente desarrollado por Facebook. No tiene requisitos estrictos de la estructura, por lo que puede manejar todos los diferentes tipos de datos. Los expertos afirman que sobresale en gran volumen, de procesamiento de transacciones en tiempo real. Otras bases de datos de código abierto incluyen MongoDB, Apache CouchDB, y Apache HBase.
Amazon DB simple: Amazon compara esta base de datos a una hoja de cálculo en que tiene columnas y filas con atributos y elementos almacenados en cada uno. A diferencia de una hoja de cálculo, sin embargo, cada célula puede tener varios valores, y cada elemento puede tener su propio conjunto de atributos asociados. Amazon luego indexa automáticamente los datos. Recientemente, Amazon anunció Amazon Dynamo DB como una manera de traer grandes NoSQL de datos a la nube.
Google BigTable: Este híbrido es algo así como una mesa grande. Debido a que las tablas pueden ser grandes, que están divididos en los límites de fila en las tablas, que podrían ser cientos de megabytes o menos. MapReduce se utiliza a menudo para generar y modificar datos almacenados en BigTable.