cuestiones de rendimiento en la gestión de grandes volúmenes de datos de arquitectura

Su gran arquitectura de datos también tiene que actuar en concierto con la infraestructura de apoyo de su organización. Por ejemplo, usted podría estar interesado en el funcionamiento de los modelos para determinar si es seguro para perforar en busca de petróleo en una zona de alta mar dada en tiempo real los datos de la temperatura, la salinidad, la resuspensión de sedimentos, y una serie de otras alternativas biológicas, químicas y físicas de columna de agua.

Video: Pasos para crear una metodología de investigación

Podría tomar días para ejecutar este modelo usando una configuración de servidor tradicional. Sin embargo, el uso de un modelo de computación distribuida, lo que llevaba días ahora podría tener minutos.

El desempeño también podría determinar el tipo de base de datos que utilizaría. Por ejemplo, en algunas situaciones, es posible que desee entender cómo se relacionan dos elementos de datos muy distintos. ¿Cuál es la relación entre el zumbido en una red social y el crecimiento de las ventas? Esta no es la consulta típica que se puede pedir de una base de datos estructurada, relacional.

Una base de datos de gráficos puede ser una mejor elección, ya que está específicamente diseñado para separar los “nodos” o entidades de sus “propiedades” o la información que define dicha entidad, y el “borde” o de la relación entre los nodos y propiedades. Utilizando la base de datos de la derecha también mejorará el rendimiento. Normalmente, la base de datos del gráfico se puede utilizar en aplicaciones científicas y técnicas.

Otros enfoques importantes bases de datos operacionales incluyen bases de datos de columnas que almacenan información de manera eficiente en columnas en lugar de filas. Este enfoque conduce a un rendimiento más rápido, porque de entrada / salida es extremadamente rápido. Cuando el almacenamiento de datos geográficos es parte de la ecuación, una base de datos espacial está optimizado para almacenar y consultar datos en base a cómo los objetos se relacionan en el espacio.

Video: Jaguar Attacks Crocodile Cousin (EXCLUSIVE VIDEO) | National Geographic

Organizar los servicios y herramientas de datos grandes

No todos los datos que utilizan las organizaciones está en funcionamiento. Una cantidad cada vez mayor de datos provienen de una variedad de fuentes que no son tan organizado o sencillo, incluidos los datos que proviene de máquinas o sensores y fuentes de datos públicas y privadas masivas. En el pasado, la mayoría de las empresas no fueron capaces de capturar o almacenar esta gran cantidad de datos. Simplemente era demasiado caro o demasiado abrumador.

Video: What's new in Android - Google I/O 2016

Incluso si las empresas fueron capaces de capturar los datos, no tenían las herramientas para hacer nada al respecto. Muy pocas herramientas podrían dar sentido a estas grandes cantidades de datos. Las herramientas existentes eran difíciles de usar y no producían resultados en un plazo de tiempo razonable.

Al final, los que realmente quería ir al enorme esfuerzo de análisis de estos datos se vieron obligados a trabajar con instantáneas de datos. Esto tiene el efecto indeseable de eventos importantes que faltan debido a que no estaban en una instantánea en particular.

MapReduce Hadoop, y la mesa grande para grandes volúmenes de datos

Video: SAP HANA Demo_(360p)

Con la evolución de la tecnología informática, ahora es posible gestionar los inmensos volúmenes de datos. Los precios de los sistemas se han reducido, y como resultado, las nuevas técnicas de computación distribuida son la corriente principal. El verdadero avance ocurrió como empresas como Yahoo !, Google y Facebook llegó a la conclusión de que necesitaban ayuda en la monetización de las cantidades masivas de datos que estaban creando.

Estas empresas emergentes necesitan encontrar nuevas tecnologías que les permitan almacenar, acceder y analizar grandes cantidades de datos en tiempo casi real para que pudieran obtener beneficios económicos de los beneficios de tener esta cantidad de datos sobre los participantes en sus redes.

Sus soluciones resultantes están transformando el mercado de gestión de datos. En particular, el MapReduce innovaciones, Hadoop, y en la Tabla Gran demostraron ser las chispas que dieron lugar a una nueva generación de gestión de datos. Estas tecnologías abordan uno de los problemas más fundamentales - la capacidad de procesar grandes cantidades de datos de manera eficiente, rentable, y en el momento oportuno.

Mapa reducido

MapReduce fue diseñado por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en modo batch. El “mapa” componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas. También equilibra la carga y gestiona la recuperación de errores. Otra función llamada “reducir” agrega todos los elementos de nuevo juntos para proporcionar un resultado.

Mesa grande

Tabla grande fue desarrollado por Google para ser un sistema de almacenamiento distribuido destinados al manejo de datos estructurados altamente escalables. Los datos se organizan en tablas con filas y columnas. A diferencia de un modelo tradicional de base de datos relacional, mesa grande es un persistente distribuido escasa mapa, y multidimensional ordenada. Está destinado a almacenar grandes volúmenes de datos a través de servidores de conveniencia.

Hadoop

Hadoop es un marco de software administrado-Apache derivado de MapReduce y la tabla grande. Hadoop permite a las aplicaciones basadas en MapReduce se ejecuten en grandes grupos de productos de hardware. El proyecto es la base de la arquitectura de computación apoyo a la empresa Yahoo!’S. Hadoop está diseñado para paralelizar el procesamiento de datos en los nodos de computación para acelerar los cálculos y ocultar la latencia.

Dos componentes principales de Hadoop existen: un sistema de archivos distribuido masivamente escalable que puede soportar petabytes de datos y un motor de MapReduce masivamente escalable que calcula los resultados en lotes.