Rendimiento y grandes volúmenes de datos

Video: Rendimiento de base de datos con las SSD para empresas de Kingston

Sólo tener un equipo más rápido no es suficiente para garantizar el nivel adecuado de rendimiento para manejar grandes volúmenes de datos. Tienes que ser capaz de distribuir componentes de su servicio de datos grande a través de una serie de nodos. En computación distribuida, una nodo es un elemento contenido dentro de un grupo de sistemas o dentro de un bastidor.

Un nodo típicamente incluye la CPU, la memoria, y una especie de disco. Sin embargo, un nodo también puede ser una hoja de CPU y la memoria que se basan en las cercanías de almacenamiento dentro de un rack.

Dentro de un entorno de datos grande, estos nodos son típicamente agrupados juntos para proporcionar una escala. Por ejemplo, es posible comenzar con un análisis de grandes datos y continuar añadiendo más fuentes de datos. Para acomodar el crecimiento, una organización simplemente añade más nodos en un cluster para que pueda escalar para adaptarse a los requisitos crecientes.

Sin embargo, no es suficiente simplemente ampliar el número de nodos en el cluster. Más bien, es importante ser capaz de enviar parte de la gran análisis de datos para diferentes entornos físicos. Cuando usted envía estas tareas y la forma de gestionar los hace la diferencia entre el éxito y el fracaso.

En algunas situaciones complejas, es posible que desee ejecutar muchos algoritmos diferentes en paralelo, incluso dentro de la misma agrupación, para alcanzar la velocidad de análisis requerido. ¿Por qué le ejecutar diferentes algoritmos de grandes volúmenes de datos en paralelo dentro del mismo rack? Cuanto más cerca estén las distribuciones de las funciones son, más rápido se pueden ejecutar.

Aunque es posible distribuir el análisis de grandes volúmenes de datos a través de redes para tomar ventaja de la capacidad disponible, usted debe hacer este tipo de distribución basado en los requisitos de rendimiento. En algunas situaciones, la velocidad de procesamiento tiene un asiento trasero. Sin embargo, en otras situaciones, obtener resultados rápidos es el requisito. En esta situación, usted quiere asegurarse de que las funciones de red están en estrecha proximidad entre sí.

Video: SQL SERVER - MEJORANDO EL RENDIMIENTO DE LAS CONSULTAS

En general, la gran entorno de datos tiene que ser optimizado para el tipo de tarea de análisis. Por lo tanto, la escalabilidad es el eje central de la toma de datos grandes operan con éxito. Aunque teóricamente sería posible operar un entorno de grandes volúmenes de datos en un único entorno grande, no es práctico.

Para entender las necesidades de escalabilidad de grandes volúmenes de datos, uno sólo tiene que mirar en la nube escalabilidad y comprender tanto los requisitos y el enfoque. Al igual que la computación en nube, los grandes datos requiere la inclusión de redes rápidas y baratas de racimos de hardware que se pueden combinar en bastidores para aumentar el rendimiento. Estas agrupaciones son compatibles con la automatización de software que permite la escalabilidad dinámica y equilibrio de carga.

Video: Qué significan los datos de las cubiertas de las bicicletas

El diseño y la implementación de MapReduce son excelentes ejemplos de cómo la computación distribuida puede hacer que los datos grandes operacionalmente visible y accesible. En esencia, las empresas se encuentran en uno de los puntos de inflexión en la computación únicas donde los conceptos de la tecnología se unen en el momento adecuado para resolver los problemas correctos. La combinación de computación distribuida, sistemas de hardware mejorado, y soluciones prácticas, tales como MapReduce Hadoop está cambiando y la gestión de datos de manera profunda.