Configurar el entorno de Hadoop con bigtop Apache

Si se siente cómodo trabajando con máquinas virtuales y Linux, puede instalar Bigtop en una máquina virtual diferente de lo recomendado. Si usted es realmente atrevido y tener el hardware, seguir adelante y tratar de instalar Bigtop en un clúster de máquinas en modo totalmente distribuida!

Paso 1: Descarga de un VM

Hadoop se ejecuta en todas las distribuciones populares de Linux, por lo que necesita una máquina virtual Linux. Hay una libre disposición (y legal!) imagen CentOS 6 disponible.

Se necesita un sistema operativo de 64 bits en su ordenador portátil con el fin de ejecutar esta máquina virtual. Hadoop necesita un entorno de 64 bits.

Después de descargar la máquina virtual, extraerlo del archivo zip descargado en el directorio de destino. No asegurarse de que tiene alrededor de 50 GB de espacio disponible como Hadoop y sus datos de ejemplo se lo necesita.

Si aún no dispone de una reproductor de VM, se puede descargar una de forma gratuita.

Después de haber configurado el reproductor de máquina virtual, abrir el reproductor, vaya a Archivo → Abrir, a continuación, vaya al directorio donde ha extraído la máquina virtual Linux. Busque un archivo llamado y seleccionarlo. Verá información sobre el número de procesadores y la memoria que se utilizará. Averiguar la cantidad de memoria tiene su ordenador, y asignar la mitad de ella para la máquina virtual para usar. Hadoop necesita mucha memoria.

Una vez que esté listo, haga clic en el botón de reproducción, y la instancia de Linux se iniciará. Usted verá un montón de mensajes pasan volando como Linux se está iniciando y te vienen a una pantalla de inicio de sesión. El nombre de usuario ya está establecido en “Tom”. Especificar la contraseña como “gong” e ingrese.

Paso 2: Descarga de Bigtop

Desde el interior de la máquina virtual de Linux, a la derecha, haga clic en la pantalla y seleccione Abrir en la Terminal desde el menú contextual que aparece. Esto abre una terminal de Linux, donde puede ejecutar comandos. Haga clic dentro de la terminal para que pueda ver el cursor e introduzca el siguiente comando: do -

Se le pedirá su contraseña, por lo que escribir “TomTom”, como lo hizo anteriormente. Este comando cambia al usuario raíz, que es la cuenta principal para un equipo con Linux - Hay que tener esto con el fin de instalar Hadoop.

Con su acceso a la raíz (no deje que el poder llegar a la cabeza), ejecute el siguiente comando:

wget -O /etc/yum.repos.d/bigtop.repo 
http://apache.org/dist/bigtop/bigtop-
0.7.0 / repositorio / centos6 / bigtop.repo

El comando es esencialmente una solicitud web, la cual solicita un archivo específico en la URL se puede ver y lo escribe en un camino específico - en este caso, eso es /.

Paso 3: Instalación Bigtop

Los genios detrás de Linux han hecho la vida muy fácil para la gente que necesita para instalar los paquetes de software grandes como Hadoop. Lo que han bajado en el último paso no era todo el paquete Bigtop y todas sus dependencias. Era sólo una repositorio de archivos (Con la extensión), que le dice a un programa de instalación que se necesitan paquetes de software para la instalación Bigtop.

Al igual que cualquier producto de software grande, Hadoop tiene un montón de requisitos previos, pero usted no tiene que preocuparse. Un archivo bien diseñado apuntará a las dependencias, y el instalador es lo suficientemente inteligente como para ver si se está perdiendo en su ordenador y luego descargarlas e instalarlas.

El instalador está utilizando aquí se llama yum, que se llega a ver en acción ahora:

yum install hadoop * * mahout oozie * * hbase colmena * * tonalidad de cerdo * * cuidador del zoológico

Tenga en cuenta que usted está recogiendo y seleccionando los componentes de Hadoop para instalar. Hay un número de otros componentes disponibles en Bigtop, pero estos son los únicos que va a utilizar aquí. Puesto que la máquina virtual es una nueva instalación de Linux, tendrá muchas dependencias, por lo que tendrá que esperar un poco.

El instalador yum es bastante detallado, para que pueda ver exactamente lo que está siendo descargado e instalado para pasar el tiempo. Cuando se realiza el proceso de instalación, debería ver un mensaje que dice “Complete!”

Paso 4: A partir de Hadoop

Antes de iniciar las aplicaciones que se ejecutan en Hadoop, hay algunas de configuración e instalación cosas básicas que hay que hacer. Aquí están en orden:

Descargar e instalar Java:

yum install java-1.7.0-OpenJDK-devel.x86_64

Formatear el NameNode:

sudo /etc/init.d/hadoop-hdfs-namenode init

Iniciar los servicios de Hadoop para el clúster pseudodistributed:
```
para i-en Hadoop HDFS-NameNode Hadoop-hdfs-DataNode - hacer el servicio sudo $ i start - hecho
```
Crear una estructura de subdirectorio en HDFS:
Video: hadoop installation steps on centos
```
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
```
Iniciar los demonios del hilo:

sudo service hadoop-hilo ResourceManager inicio del servicio startsudo hadoop-hilo NodeManager

Y con eso, ya está hecho. ¡Felicitaciones! Usted ha instalado una implementación de Hadoop de trabajo!

Video: Hadoop Multi Node Cluster Setup | Hadoop Installation | Hadoop Administration Tutorial | Edureka

Paso 5: La descarga del conjunto de datos de la muestra

Para descargar el conjunto de datos de muestra, abra el navegador Firefox desde el interior de la máquina virtual, e ir a la página dataexpo.

No necesitará todo el conjunto de datos, así que empieza con un solo año de 1987. Cuando esté a punto de descarga, seleccione la opción Abrir el Gestor de archivos con.

Después de que su archivo se ha descargado, extraer el archivo en el directorio de inicio en el que fácilmente podrá encontrarlo. Haga clic en el botón Extraer y, a continuación, seleccione el directorio de escritorio.

Video: 10. Hadoop Administration Tutorial - Configure Ambari Files View

Paso 6: la copia de los datos de la muestra pone en HDFS

Recuerde que sus programas de Hadoop sólo pueden trabajar con los datos después de que se almacena en HDFS. Entonces, ¿qué vas a hacer ahora es copiar el archivo de datos de vuelo para 1987 en HDFS. Introduzca el siguiente comando:

hdfs DFS -copyFromLocal 1987.csv / usuario / root