Bases de datos de procesamiento paralelo masivo

Video: Base Datos Distribuidas Y Paralelas

Para proporcionar una mejor comprensión de las alternativas de SQL-en-Hadoop Hive, podría ser útil revisar un manual de procesamiento paralelo masivo (MPP) bases de datos en primer lugar.

Video: Procesamiento de Datos Iterativamente

Apache Hive es en capas en la parte superior del sistema de archivos distribuido Hadoop (HDFS) y el sistema de MapReduce y presenta una interfaz de programación de SQL-como a sus datos (HiveQL, para ser exactos). Esta combinación de tecnologías de Hadoop desplegado en un clúster es similar a las bases de datos del MPP que han existido durante un tiempo en el mercado de TI.

bases de datos MPP generalmente proporcionan una interfaz SQL y un sistema de gestión de base de datos relacional (RDBMS) que se ejecuta en un grupo de servidores conectados en red entre sí por una interconexión de alta velocidad. La figura muestra los componentes de un RDBMS que típicamente se incluye en soluciones SQL-en-Hadoop.

sistemas de datos relacionales han evolucionado considerablemente a un punto donde han surgido las mejores prácticas entre la mayoría de las ofertas en función de una infraestructura óptima ejecución de la consulta. La figura muestra esto en términos de la corriente de una consulta como se procesa por un motor de RDBMS.

Video: Sistemas de información y Procesamiento de Datos

En primer lugar, el texto de la consulta se analiza y se entiende. A continuación, el árbol de sintaxis para la consulta se compila en un plan de ejecución lógica, que está optimizado a continuación para formar el plan de ejecución física final, que luego es ejecutada por el tiempo de ejecución. Para muchas de las soluciones de SQL-en-Hadoop, que se está viendo componentes similares están desplegando en Hadoop.

racimos MPP se refieren generalmente como teniendo una arquitectura compartida-Nada, ya que cada sistema tiene su propia CPU, memoria y disco. Sin embargo, a través de las interconexiones de software de base de datos y de alta velocidad, el sistema funciona como un todo y pueden escalar a medida que los nuevos servidores se agregan al clúster. El sistema global se sintoniza de forma explícita para proporcionar respuesta de consulta rápida e interactiva.

Video: Tutorial Fundamentos de la programación: Bases de datos : Qué son las bases de datos | video2brain

bases de datos MPP son a menudo más flexible, escalable y rentable que los RDBMS tradicionales, alojadas en un servidor multiprocesador grande.

Artículos Relacionados