En este tutorial, lo guiaremos paso a paso por el proceso para instalar Apache Hadoop en una caja de Linux (Ubuntu). Este es un proceso de 2 partes
- Parte 1) Descargar e instalar Hadoop
- Parte 2) Configurar Hadoop
Hay 2 requisitos previos
- Debes tener Ubuntu instalado y funcionando
- Debe tener Java instalado.
Parte 1) Descargar e instalar Hadoop
Paso 1) Agregue un usuario del sistema Hadoop usando el siguiente comando
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Ingrese su contraseña, nombre y otros detalles.
NOTA: Existe la posibilidad de que se produzca el error mencionado a continuación en este proceso de configuración e instalación.
"hduser no está en el archivo sudoers. Se informará de este incidente".
Este error se puede resolver iniciando sesión como usuario root
Ejecuta el comando
sudo adduser hduser_ sudo
Re-login as hduser_
Paso 2) Configurar SSH
Para administrar los nodos en un clúster, Hadoop requiere acceso SSH
Primero, cambie de usuario, ingrese el siguiente comando
su - hduser_
Este comando creará una nueva clave.
ssh-keygen -t rsa -P ""
Habilite el acceso SSH a la máquina local usando esta clave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Ahora pruebe la configuración de SSH conectándose a localhost como usuario 'hduser'.
ssh localhost
Nota: tenga en cuenta que si ve el siguiente error en respuesta a 'ssh localhost', existe la posibilidad de que SSH no esté disponible en este sistema.
Para resolver esto -
Purgar SSH usando,
sudo apt-get purge openssh-server
Es una buena práctica purgar antes del inicio de la instalación.
Instale SSH usando el comando-
sudo apt-get install openssh-server
Paso 3) El siguiente paso es descargar Hadoop
Seleccione estable
Seleccione el archivo tar.gz (no el archivo con src)
Una vez que se complete la descarga, navegue hasta el directorio que contiene el archivo tar
Ingresar,
sudo tar xzf hadoop-2.2.0.tar.gz
Ahora, cambie el nombre de hadoop-2.2.0 como hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configurar Hadoop
Paso 1) Modificar el archivo ~ / .bashrc
Agregue las siguientes líneas al final del archivo ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Ahora, obtenga esta configuración de entorno usando el siguiente comando
. ~/.bashrc
Paso 2) Configuraciones relacionadas con HDFS
Establezca JAVA_HOME dentro del archivo $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Con
Hay dos parámetros en $ HADOOP_HOME / etc / hadoop / core-site.xml que deben configurarse:
1. 'hadoop.tmp.dir': se utiliza para especificar un directorio que utilizará Hadoop para almacenar sus archivos de datos.
2. 'fs.default.name': especifica el sistema de archivos predeterminado.
Para establecer estos parámetros, abra core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copie debajo de la línea entre las etiquetas
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navegue al directorio $ HADOOP_HOME / etc / Hadoop
Ahora, cree el directorio mencionado en core-site.xml
sudo mkdir -p
Otorgar permisos al directorio
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Paso 3) Configuración de reducción de mapas
Antes de comenzar con estas configuraciones, establezcamos la ruta HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Y entrar
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Siguiente entrar
sudo chmod +x /etc/profile.d/hadoop.sh
Salga de la Terminal y reinicie nuevamente
Escriba echo $ HADOOP_HOME. Para verificar el camino
Ahora copia archivos
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Abra el archivo mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Agregue las siguientes líneas de configuración entre las etiquetas
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Abra $ HADOOP_HOME / etc / hadoop / hdfs-site.xml como se muestra a continuación,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Agregue las siguientes líneas de configuración entre las etiquetas
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Cree un directorio especificado en la configuración anterior
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Paso 4) Antes de iniciar Hadoop por primera vez, formatee HDFS usando el siguiente comando
$HADOOP_HOME/bin/hdfs namenode -format
Paso 5) Inicie el clúster de nodo único de Hadoop usando el siguiente comando
$HADOOP_HOME/sbin/start-dfs.sh
Una salida del comando anterior
$HADOOP_HOME/sbin/start-yarn.sh
Usando la herramienta / comando 'jps' , verifique si todos los procesos relacionados con Hadoop se están ejecutando o no.
Si Hadoop se ha iniciado correctamente, una salida de jps debería mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Paso 6) Detener Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh