Cómo instalar Hadoop con configuración paso a paso en Ubuntu

En este tutorial, lo guiaremos paso a paso por el proceso para instalar Apache Hadoop en una caja de Linux (Ubuntu). Este es un proceso de 2 partes

  • Parte 1) Descargar e instalar Hadoop
  • Parte 2) Configurar Hadoop

Hay 2 requisitos previos

  • Debes tener Ubuntu instalado y funcionando
  • Debe tener Java instalado.

Parte 1) Descargar e instalar Hadoop

Paso 1) Agregue un usuario del sistema Hadoop usando el siguiente comando

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Ingrese su contraseña, nombre y otros detalles.

NOTA: Existe la posibilidad de que se produzca el error mencionado a continuación en este proceso de configuración e instalación.

"hduser no está en el archivo sudoers. Se informará de este incidente".

Este error se puede resolver iniciando sesión como usuario root

Ejecuta el comando

sudo adduser hduser_ sudo

Re-login as hduser_

Paso 2) Configurar SSH

Para administrar los nodos en un clúster, Hadoop requiere acceso SSH

Primero, cambie de usuario, ingrese el siguiente comando

su - hduser_

Este comando creará una nueva clave.

ssh-keygen -t rsa -P ""

Habilite el acceso SSH a la máquina local usando esta clave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Ahora pruebe la configuración de SSH conectándose a localhost como usuario 'hduser'.

ssh localhost

Nota: tenga en cuenta que si ve el siguiente error en respuesta a 'ssh localhost', existe la posibilidad de que SSH no esté disponible en este sistema.

Para resolver esto -

Purgar SSH usando,

sudo apt-get purge openssh-server

Es una buena práctica purgar antes del inicio de la instalación.

Instale SSH usando el comando-

sudo apt-get install openssh-server

Paso 3) El siguiente paso es descargar Hadoop

Seleccione estable

Seleccione el archivo tar.gz (no el archivo con src)

Una vez que se complete la descarga, navegue hasta el directorio que contiene el archivo tar

Ingresar,

sudo tar xzf hadoop-2.2.0.tar.gz

Ahora, cambie el nombre de hadoop-2.2.0 como hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Parte 2) Configurar Hadoop

Paso 1) Modificar el archivo ~ / .bashrc

Agregue las siguientes líneas al final del archivo ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Ahora, obtenga esta configuración de entorno usando el siguiente comando

. ~/.bashrc

Paso 2) Configuraciones relacionadas con HDFS

Establezca JAVA_HOME dentro del archivo $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Con

Hay dos parámetros en $ HADOOP_HOME / etc / hadoop / core-site.xml que deben configurarse:

1. 'hadoop.tmp.dir': se utiliza para especificar un directorio que utilizará Hadoop para almacenar sus archivos de datos.

2. 'fs.default.name': especifica el sistema de archivos predeterminado.

Para establecer estos parámetros, abra core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copie debajo de la línea entre las etiquetas

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navegue al directorio $ HADOOP_HOME / etc / Hadoop

Ahora, cree el directorio mencionado en core-site.xml

sudo mkdir -p 

Otorgar permisos al directorio

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Paso 3) Configuración de reducción de mapas

Antes de comenzar con estas configuraciones, establezcamos la ruta HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Y entrar

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Siguiente entrar

sudo chmod +x /etc/profile.d/hadoop.sh

Salga de la Terminal y reinicie nuevamente

Escriba echo $ HADOOP_HOME. Para verificar el camino

Ahora copia archivos

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Abra el archivo mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Agregue las siguientes líneas de configuración entre las etiquetas y

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Abra $ HADOOP_HOME / etc / hadoop / hdfs-site.xml como se muestra a continuación,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Agregue las siguientes líneas de configuración entre las etiquetas y

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Cree un directorio especificado en la configuración anterior

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Paso 4) Antes de iniciar Hadoop por primera vez, formatee HDFS usando el siguiente comando

$HADOOP_HOME/bin/hdfs namenode -format

Paso 5) Inicie el clúster de nodo único de Hadoop usando el siguiente comando

$HADOOP_HOME/sbin/start-dfs.sh

Una salida del comando anterior

$HADOOP_HOME/sbin/start-yarn.sh

Usando la herramienta / comando 'jps' , verifique si todos los procesos relacionados con Hadoop se están ejecutando o no.

Si Hadoop se ha iniciado correctamente, una salida de jps debería mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Paso 6) Detener Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh

Articulos interesantes...