La importación de datos con sqoop

Video: Hadoop: Use Sqoop to copy a relational database table to HDFS

Listo para sumergirse en la importación de datos con Sqoop? Empieza por tomar un vistazo a la figura, que ilustra los pasos en una operación típica de importación Sqoop de un RDBMS o un sistema de almacenamiento de datos. Nada demasiado complicado aquí - sólo una tabla Productos de datos típico de un (típico) compañía ficticia importado en un típico grupo de Apache Hadoop de un sistema de gestión de típico de datos (DMS).

Durante el Paso 1, Sqoop utiliza el conector adecuado para recuperar los metadatos de tabla a partir de los productos DMS objetivo. (Los metadatos se utiliza para asignar los tipos de datos de la tabla productos a los tipos de datos en el lenguaje Java.)

Paso 2 a continuación, utiliza estos metadatos para generar y compilar una clase Java que será utilizado por una o más tareas mapa para importar las filas reales de la tabla productos. Sqoop salva la clase Java generada en el espacio temporal o en un directorio que especifique de manera que se puede aprovechar para el posterior procesamiento de los registros de datos.

El código Java generado Sqoop que se guarda para usted es como el regalo que sigue dando! Con este código, Sqoop importa registros de la DMS y los almacena a HDFS utilizando uno de los tres formatos que se pueden recoger datos: Avro binarios, archivos de secuencias binarias, o archivos de texto delimitados. Posteriormente, este código está disponible para usted para el procesamiento de datos posterior.

archivos de secuencias son una elección natural si va a importar los tipos de datos binarios y usted necesitará la clase Java generado para serializar y deserializar los datos más adelante - quizá para el procesamiento MapReduce o exportar. Avro datos - basado en la serialización propio marco de Apache - es útil si se necesita para interactuar con otras aplicaciones después de la importación a HDFS.

Si decide almacenar los datos importados en formato de texto delimitado, es posible encontrar el código Java generado valiosas en el futuro a medida que analizar y realizar conversiones de formato de datos en sus nuevos datos. Verá que el código generado también ayuda a combinar conjuntos de datos después de las operaciones de importación Sqoop, y el código Java generado puede ayudar a evitar la ambigüedad en el tratamiento de los datos de texto delimitados.

Video: Importar de Excel a MySQL usando phpMyAdmin

Finalmente, durante la Etapa 3, Sqoop divide los registros de datos en la tabla de productos a través de una serie de tareas mapa (con el número de mapeadores opcionalmente especificados por el usuario) e importa los datos de la tabla en HDFS, colmena, o HBase.

Artículos Relacionados