conceptos básicos de computación distribuida para grandes volúmenes de datos

Si su empresa está considerando un proyecto de datos grande, es importante que entienda algunos conceptos básicos de computación distribuida en primer lugar. No hay un único modelo de computación distribuida, porque los recursos informáticos se pueden distribuir de muchas maneras.

Por ejemplo, puede distribuir un conjunto de programas en el mismo servidor físico y el uso de servicios de mensajería para que puedan comunicarse y transmitir información. También es posible tener muchos sistemas diferentes o servidores, cada uno con su propia memoria, que pueden trabajar juntos para resolver un problema.

¿Por qué es necesaria la computación distribuida para grandes volúmenes de datos

No todos los problemas requieren de computación distribuida. Si no existe una gran limitación de tiempo, el procesamiento complejo puede hacer a través de un servicio especializado de forma remota. Cuando las empresas necesitan hacer análisis de datos complejos, sería mover datos a un servicio externo o entidad en la que estaban disponibles para el procesamiento de una gran cantidad de recursos de repuesto.

No es que las empresas querían esperar a obtener los resultados que necesitábamos, simplemente no era económicamente viable para comprar suficientes recursos de computación para manejar estas nuevas necesidades. En muchas situaciones, las organizaciones podrían capturar sólo selecciones de datos en lugar de tratar de capturar todos los datos debido a los costos. Los analistas quería que todos los datos, pero tuvo que conformarse con instantáneas, con la esperanza de capturar los datos correctos en el momento adecuado.

Principales avances de hardware y software revolucionaron la industria de gestión de datos. En primer lugar, la innovación y la demanda aumentó el poder y la disminución del precio del hardware. El nuevo software se supo que entiende cómo tomar ventaja de este hardware mediante procesos como el equilibrio de carga y la optimización de la automatización a través de un gran grupo de nodos.

Video: Curso de Computacion basico. Defincion, Ventajas e Historia #2

El software incluye reglas incorporadas que entiende que ciertas cargas de trabajo requiere un cierto nivel de rendimiento. El software trató a todos los nodos como si fueran simplemente una piscina grande de la computación, almacenamiento y redes activos, y los procesos a otro nodo se movieron sin interrupción si un nodo falla, utilizando la tecnología de virtualización.

Las cambiantes economía de la informática y de grandes volúmenes de datos

Avance rápido y mucho ha cambiado. En los últimos años, el costo de adquirir recursos de computación y almacenamiento ha disminuido dramáticamente. Con la ayuda de la virtualización, servidores básicos que podrían ser agrupados y cuchillas que pueden ser conectados en red en un rack cambiaron la economía de la computación. Este cambio coincidió con la innovación en soluciones de automatización de software que mejoraron drásticamente la capacidad de administración de estos sistemas.

La capacidad de las técnicas de procesamiento en paralelo apalancamiento computación distribuida y transformado dramáticamente el paisaje y reducir drásticamente la latencia. Hay casos especiales, tales como alta frecuencia Trading (HFT), en la que una baja latencia sólo puede lograrse mediante la localización de los servidores físicamente en un solo lugar.

El problema con la latencia para datos de gran

Uno de los problemas perennes con la gestión de datos - sobre todo grandes cantidades de datos - ha sido el impacto de la latencia. Estado latente es el retardo dentro de un sistema basado en retrasos en la ejecución de una tarea. La latencia es un problema en todos los aspectos de la computación, incluyendo comunicaciones, gestión de datos, el rendimiento del sistema, y mucho más.

Si alguna vez ha utilizado un teléfono inalámbrico, que ha experimentado de primera mano la latencia. Es el retraso en las transmisiones entre usted y su interlocutor. A veces, la latencia tiene poco impacto en la satisfacción del cliente, por ejemplo, si las empresas tienen que analizar los resultados de manera interna para planificar una nueva versión del producto. Esto probablemente no requiere una respuesta inmediata o acceso.

Sin embargo, cuanto más cerca que la respuesta es a un cliente en el momento de la decisión, más que las cuestiones de latencia.

técnicas de procesamiento paralelo de computación distribuida y pueden hacer una diferencia significativa en la latencia experimentada por los clientes, proveedores y socios. Muchas aplicaciones de datos grandes dependen de baja latencia debido a los requisitos de datos grandes para la velocidad y el volumen y la variedad de los datos.

Puede que no sea posible construir una aplicación de grandes volúmenes de datos en un entorno de alta latencia si se necesita un alto rendimiento. La necesidad de verificar los datos en tiempo casi real también se puede ver afectado por la latencia. Cuando se trata de datos en tiempo real, un alto nivel de latencia significa la diferencia entre el éxito y el fracaso.

Video: CURSO DE COMPUTACIÓN BÁSICO 2016 - parte 3

la demanda de grandes volúmenes de datos cumple con soluciones

El crecimiento de Internet como una plataforma para todo, desde el comercio a la medicina transformó la demanda de una nueva generación de gestión de datos. A finales de 1990, las compañías de motores y de Internet como Google, Yahoo !, y Amazon.com fueron capaces de ampliar sus modelos de negocio, aprovechando el hardware de bajo costo para la computación y almacenamiento.

A continuación, estas empresas necesitan una nueva generación de tecnologías de software que les permitan obtener beneficios económicos de las enormes cantidades de datos que se captura desde los clientes. Estas empresas no podrían esperar los resultados del procesamiento analítico. Ellos necesitan la capacidad de procesar y analizar estos datos en tiempo casi real.