Sqoop hadoop para grandes volúmenes de datos

Video: How To Import Data From RDBMS To HDFS | Sqoop Hadoop Tutorial

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama ETL, por extracción, transformación y carga.

Video: Sqoop Import export from Mysql, Oracle, PostgreSQL

Mientras que obtener datos en Hadoop es crítica para el procesamiento utilizando MapReduce, también es fundamental para obtener datos de Hadoop y en una fuente de datos externa para su uso en otros tipos de aplicación. Sqoop es capaz de hacer esto también.

Aunque a veces es necesario mover los datos en tiempo real, que es lo más a menudo necesaria para cargar o descargar datos de forma masiva. Al igual cerdo, Sqoop es un intérprete de línea de comandos. Que escribe los comandos Sqoop en el intérprete y se ejecutan uno a la vez. Cuatro características clave se encuentran en Sqoop:

  • importación masiva: Sqoop puede importar tablas individuales o bases de datos enteras en HDFS. Los datos se almacenan en los directorios y archivos nativos en el sistema de archivos HDFS.

  • Entrada directa: Sqoop puede importar y asignar SQL (relacional) bases de datos directamente en Colmena y HBase.

    Video: Apache Sqoop Tutorial -Importing and Exporting Data

  • la interacción de datos: Sqoop puede generar clases Java para que pueda interactuar con los datos mediante programación.

    Video: SQOOP Import Data from MYSQL Database to HDFS in CLOUDERA

  • exportación de datos: Sqoop puede exportar los datos directamente de HDFS en una base de datos relacional utilizando una definición de la tabla de destino en función de las características específicas de la base de datos de destino.

Sqoop trabaja mirando a la base de datos que desea importar y seleccionar una función de importación apropiado para los datos de origen. Después de que se reconoce la entrada, a continuación, lee los metadatos de la tabla (o base de datos) y crea una definición de clase de sus requisitos de entrada.

Puede forzar Sqoop que ser muy selectivo de forma que se obtiene sólo las columnas que está buscando antes de la entrada en lugar de hacer una entrada entera y luego en busca de sus datos. Esto puede ahorrar un tiempo considerable. La importación real de la base de datos externa a HDFS se realiza mediante un trabajo MapReduce creado por detrás de las escenas Sqoop.

Sqoop es una herramienta eficaz para los no programadores. El otro punto importante a destacar es la dependencia de las tecnologías subyacentes como HDFS y MapReduce. Usted ve esto en varias ocasiones a lo largo del elemento del ecosistema Hadoop.

Artículos Relacionados