En este tutorial, aprenderá:
- Instalación de NLTK en Windows
- Instalación de Python en Windows
- Instalación de NLTK en Mac / Linux
- Instalación de NLTK a través de Anaconda
- Conjunto de datos NLTK
- Cómo descargar todos los paquetes de NLTK
- Ejecución del script de PNL
- Cómo ejecutar el script NLTK
Instalación de NLTK en Windows
En esta parte, aprenderemos cómo configurar NLTK a través de la terminal (símbolo del sistema en Windows).
Las instrucciones que se dan a continuación se basan en la suposición de que no tiene instalado Python. Entonces, el primer paso es instalar Python.
Instalación de Python en Windows:
Paso 1) Ir a vínculo https://www.python.org/downloads/ , y seleccionar la versión más reciente para Windows.
Nota : Si no desea descargar la última versión, puede visitar la pestaña de descarga y ver todas las versiones.
Paso 2) Haga clic en el archivo descargado
Paso 3) Seleccione Personalizar instalación
Paso 4) Haga clic en SIGUIENTE
Paso 5) En la siguiente pantalla
- Seleccione las opciones avanzadas
- Dar una ubicación de instalación personalizada. En mi caso, se elige una carpeta en la unidad C para facilitar la operación
- Haga clic en Instalar
Paso 6) Haga clic en el botón Cerrar una vez que finalice la instalación.
Paso 7) Copie la ruta de su carpeta de Scripts.
Paso 8) En el símbolo del sistema de Windows
- Navega hasta la ubicación de la carpeta pip
- Ingrese el comando para instalar NLTK
pip3 install nltk
- La instalación debe realizarse con éxito
NOTA : Para Python2 use el comando pip2 install nltk
Paso 9) En el menú Inicio de Windows, busque y abra PythonShell
Paso 10) Puede verificar si la instalación es precisa proporcionando el siguiente comando
import nltk
Si no ve ningún error, la instalación está completa.
Instalación de NLTK en Mac / Linux
La instalación de NLTK en Mac / Unix requiere el administrador de paquetes python pip para instalar nltk. Si pip no está instalado, siga las instrucciones a continuación para completar el proceso
Paso 1) Actualice el índice del paquete escribiendo el siguiente comando
sudo apt update
Paso 2) Instalación de pip para Python 3:
sudo apt install python3-pip
También puede instalar pip usando easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Ahora easy_install está instalado. Ejecute el siguiente comando para instalar pip
sudo easy_install pip
Paso 3) Utilice el siguiente comando para instalar NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Instalación de NLTK a través de Anaconda
Paso 1) Instale anaconda (que también se puede usar para instalar diferentes paquetes) visitando https://www.anaconda.com/products/individual y seleccione qué versión de python necesita instalar para anaconda.
Nota: Consulte este tutorial para conocer los pasos detallados para instalar anaconda.
Paso 2) En el indicador de Anaconda,
- Ingrese el comando
conda install -c anaconda nltk
- Revise la actualización del paquete, la degradación, la información de instalación e ingrese sí
- NLTK se descarga e instala
Conjunto de datos NLTK
El módulo NLTK tiene muchos conjuntos de datos disponibles que debe descargar para usarlos. Más técnicamente se llama corpus . Algunos de los ejemplos son palabras vacías , gutenberg , framenet_v15 , large_grammars , etc.
Cómo descargar todos los paquetes de NLTK
Paso 1) Ejecute el intérprete de Python en Windows o Linux
Paso 2)
- Ingrese los comandos
import nltknltk.download ()
- Se abre la ventana descargada de NLTK. Haga clic en el botón Descargar para descargar el conjunto de datos. Este proceso llevará tiempo, según su conexión a Internet.
NOTA: Puede cambiar la ubicación de descarga haciendo clic en Archivo> Cambiar directorio de descarga
Paso 3) Para probar los datos instalados, use el siguiente código
>>> from nltk.corpus import brown>>>brown.words()
['El', 'Fulton', 'Condado', 'Grand', 'Jurado', 'dijo',…]
Ejecución del script de PNL
Vamos a discutir cómo se ejecutará el script NLP en nuestra PC local. Hay muchas bibliotecas para el procesamiento del lenguaje natural presentes en el mercado. Por lo tanto, la elección de una biblioteca depende de sus necesidades. Aquí está la lista de bibliotecas de PNL.
Cómo ejecutar el script NLTK
Paso 1) En su editor de código favorito, copie el código y guarde el archivo como " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Explicación del código:
- En este programa, el objetivo era eliminar todo tipo de puntuación de un texto dado. Importamos "RegexpTokenizer", que es un módulo de NLTK. Elimina toda la expresión, símbolo, carácter, numérico o cualquier cosa que desee.
- Acaba de pasar la expresión regular al módulo "RegexpTokenizer".
- Además, hemos tokenizado la palabra usando el módulo "tokenize". La salida se almacena en la variable "filterdText".
- Y los imprimió usando "print ()".
Paso 2) En el símbolo del sistema
- Navegue a la ubicación donde guardó el archivo
- Ejecute el comando Python NLTKsample.py
Esto mostrará la salida como:
['Hola', 'Guru99', 'Tú', 'tengo', 'compilación', 'un', 'muy', 'bueno', 'sitio', 'y', 'Yo', 'amor', ' visitando ',' su ',' sitio ']