La importancia de SQL para hadoop

Hay razones de peso que SQL ha demostrado ser resistente. La industria de TI ha tenido 40 años de experiencia con SQL, ya que fue desarrollado por primera vez por IBM a principios de 1970. Con el aumento de la adopción de bases de datos relacionales en la década de 1980, SQL ya se ha convertido en una habilidad normal para la mayoría de los profesionales de TI.

Se puede ver fácilmente por qué SQL ha tenido tanto éxito: Es relativamente fácil de aprender, y las consultas SQL son bastante legible. Esta facilidad se remonta a un punto de diseño de la base en SQL - el hecho de que se trata de una declarativo idioma, en contraposición a una imperativo idioma.

Para que una lengua sea que se solicitan medios declarativas que las consultas tienen que ver sólo con la naturaleza de los datos - idealmente, no debería haber nada en su consulta que determina cómo el procesamiento debe ser ejecutado. En otras palabras, todo lo que indique en SQL es la información que desea volver del sistema - no cómo conseguirlo.

Por el contrario, con un lenguaje imperativo (C, por ejemplo, o Java o Python) su código consta de instrucciones donde se definen las acciones que necesita el sistema para ejecutar.

Además de las habilidades (fácilmente) apalancadas de sus profesionales de TI SQL-amistoso, el valor de las aplicaciones de bases de datos décadas también se han construido con interfaces SQL. Cuando se habla de cómo Hadoop puede complementar el almacén de datos, está claro que las organizaciones van a almacenar datos estructurados en Hadoop. Y como resultado, que van a ejecutar parte de su lógica de la aplicación existente contra Hadoop.

Nadie quiere pagar por las aplicaciones sean reescritos, por lo que una interfaz SQL es altamente deseable.

Con el desarrollo de interfaces de datos SQL para Hadoop, una tendencia interesante es que de análisis de negocios comerciales y herramientas de gestión de datos son casi todos subiendo al carro de Hadoop, incluyendo la inteligencia empresarial Reporting- Extracto de paquetes- estadística, transformar y marcos de carga (ETL) - y una variedad de otras herramientas. En la mayoría de los casos, la interfaz a los datos Hadoop es Colmena.