Soluciones de datos grandes alternativas

Mirando más allá de Hadoop, se puede ver soluciones de datos grandes alternativas en el horizonte. Estas soluciones permiten trabajar con grandes volúmenes de datos en tiempo real o para utilizar las tecnologías de bases de datos alternativas de manejar y procesarla. Aquí, presentan a los marcos en tiempo real de procesamiento, luego las plataformas de procesamiento paralelo masivo (MPP), y finalmente las bases de datos NoSQL que le permiten trabajar con grandes volúmenes de datos fuera del entorno Hadoop.

Video: Alternativas de Resolucion de Conflictos

Usted debe ser consciente de algo conocido como el cumplimiento de ACID, acrónimo de UNtomicity, doOHERENCIA, yosolation, y reurability cumplimiento. cumplimiento de ACID es un estándar por el que se garanticen las transacciones de bases de datos precisos y fiables.

En las soluciones de datos grandes, la mayoría de los sistemas de bases de datos no son conforme a ACID, pero esto no significa necesariamente suponen un problema importante. Eso es porque la mayoría de los sistemas de datos grandes utilizan Decision Support Systems (DSS) de datos de proceso por lotes antes de que los datos se lee. DSS son los sistemas de información que se utilizan para la organización de apoyo a decisiones. DSS no transaccionales demuestran no hay requisitos de cumplimiento real de ACID.

marcos de procesamiento en tiempo real

A veces puede que tenga que consultar grandes flujos de datos en tiempo real. . . y usted simplemente no puede hacer este tipo de cosas utilizando Hadoop. En estos casos, utilice un marco procesamiento en tiempo real en su lugar. UN marco procesamiento en tiempo real es - como su nombre lo indica - un marco que es capaz de procesar los datos en tiempo real (o casi en tiempo real) como que los flujos de datos y desemboca en el sistema. En esencia, los marcos de procesamiento en tiempo real son la antítesis de los marcos de procesamiento por lotes que aparecen desplegados en Hadoop.

marcos de procesamiento en tiempo real se pueden clasificar en las dos categorías siguientes:

  • Marcos que reducen la sobrecarga de tareas de MapReduce para aumentar la eficiencia del tiempo total del sistema: Soluciones en esta categoría incluyen Apache Storm y Spark Apache para el procesamiento de flujo-tiempo casi real.

  • Marcos que implementan métodos innovadores para facilitar la Consulta de consulta en tiempo real de grandes volúmenes de datos: Algunas soluciones en esta categoría incluyen Dremel de Google, Taladro Apache, tiburón para Apache Hive, y el Impala de Cloudera.

Video: Soluciones alternativas a delitos menores en el NSJP

En tiempo real, los marcos de procesamiento de flujo son muy útiles en una multitud de industrias - a partir de valores y análisis de los mercados financieros con el comercio electrónico optimizaciones, y desde la detección del fraude en tiempo real a la logística de pedidos optimizados. Independientemente de la industria en la que trabaja, si su negocio se ve afectado por los flujos de datos en tiempo real que se generan por los seres humanos, máquinas, o sensores, a continuación, un marco de procesamiento en tiempo real sería útil para usted en la optimización y la generación de valor para su organización.

Massively procesamiento en paralelo (MPP) plataformas

Massively Parallel Processing (MPP) plataformas se pueden utilizar en lugar de MapReduce como un enfoque alternativo para el procesamiento de datos distribuidos. Si su objetivo es el despliegue de procesamiento paralelo en un almacén de datos tradicional, a continuación, un MPP puede ser la solución perfecta.

Para entender cómo MPP se compara con un marco estándar de procesamiento MapReduce paralelo, tenga en cuenta lo siguiente. MPP ejecuta tareas de computación en paralelo sobre, hardware personalizado costoso, mientras que MapReduce los ejecuta en los servidores baratas materias primas. En consecuencia, las capacidades de procesamiento de MPP se cuestan restrictiva. Dicho esto, el MPP es más rápido y más fácil de usar que los trabajos de MapReduce estándar. Esto se debe a MPP se puede consultar utilizando Structured Query Language (SQL), pero los trabajos de MapReduce nativos están controlados por el más complicado lenguaje de programación Java.

Conocida vendedores MPP y productos incluyen la vieja escuela plataforma de Teradata, además de nuevas soluciones como EMC2‘S Greenplum DCA, Vertica de HP, Netezza de IBM, y Exadata de Oracle.

La introducción de las bases de datos NoSQL

Tradicional sistemas de gestión de bases de datos relacionales (RDBMS) no están equipadas para manejar grandes demandas de datos. Esto se debe a las bases de datos relacionales tradicionales están diseñados para manejar bases de datos relacionales única que se construyen de datos que se almacenan en filas y columnas limpias y por lo tanto son capaces de ser consultada a través de Structured Query Language (SQL).

sistemas RDBM no son capaces de manejar los datos no estructurados y semi-estructurados. Por otra parte, los sistemas de RDBM simplemente no tienen las capacidades de procesamiento y manejo que son necesarios para cumplir con los requisitos de gran volumen de datos y velocidad.

Aquí es donde entra en juego NoSQL. Bases de datos NoSQL, como MongoDB, son no relacionales, sistemas de bases de datos distribuidas que fueron diseñados para elevarse al gran reto de datos. bases de datos NoSQL paso más allá de la arquitectura tradicional base de datos relacional y ofrecen una solución mucho más escalable y eficiente.

sistemas NoSQL facilitar la consulta de datos no SQL de datos no relacionales o libre de esquema, semi-estructuradas y no estructuradas. De esta manera, las bases de datos NoSQL son capaces de manejar las fuentes de datos estructurados, semi-estructurados, no estructurados y que son comunes en los sistemas de datos grandes.

NoSQL ofrece cuatro categorías de bases de datos no relacionales - bases de datos de gráficos, bases de datos de documentos, valores-clave tiendas y tiendas familiares columna. Desde NoSQL ofrece una funcionalidad nativa para cada uno de estos tipos diferentes de estructuras de datos, ofrece la funcionalidad de almacenamiento y recuperación muy eficiente para la mayoría de tipos de datos no relacionales. Esta adaptabilidad y eficiencia hace NoSQL una opción cada vez más popular para el manejo de grandes volúmenes de datos y para superar los desafíos de procesamiento que vienen junto con él.

Hay algo de un debate sobre la importancia del nombre NoSQL. Algunos argumentan que significa NoSQL No sólo SQL, mientras que otros sostienen que la sigla representa bases de datos no SQL. El argumento es bastante complejo y no hay corte y seca respuesta real. Para simplificar las cosas, basta pensar en NoSQL como una clase de sistemas de gestión de bases de datos no relacionales que no entran dentro del espectro de los sistemas RDBM que se consultan con SQL.

Artículos Relacionados