Problemas de etiquetado y modelo de Markov oculto

Tabla de contenido:

Anonim

Etiquetado de frases

Etiquetar oración en un sentido más amplio se refiere a la adición de etiquetas del verbo, sustantivo, etc., por el contexto de la oración. La identificación de etiquetas POS es un proceso complicado. Por lo tanto, el etiquetado genérico de POS no es posible manualmente ya que algunas palabras pueden tener significados diferentes (ambiguos) según la estructura de la oración. La conversión de texto en forma de lista es un paso importante antes del etiquetado, ya que cada palabra de la lista se repite y se cuenta para una etiqueta en particular. Consulte el siguiente código para comprenderlo mejor

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PRODUCCIÓN

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Explicación del código

  1. Código para importar nltk (kit de herramientas de lenguaje natural que contiene submódulos como tokenización de oraciones y tokenización de palabras).
  2. Texto cuyas etiquetas se van a imprimir.
  3. Tokenización de sentencias
  4. El bucle for se implementa donde las palabras se tokenizan desde la oración y la etiqueta de cada palabra se imprime como salida.

En Corpus hay dos tipos de etiquetadores POS:

  • Basado en reglas
  • Etiquetadoras estocásticas POS

Etiquetador POS basado en reglas: Para las palabras que tienen un significado ambiguo, se aplica un enfoque basado en reglas sobre la base de información contextual. Se hace comprobando o analizando el significado de la palabra anterior o siguiente. La información se analiza desde el entorno de la palabra o dentro de sí misma. Por lo tanto, las palabras están etiquetadas por las reglas gramaticales de un idioma en particular, como las mayúsculas y la puntuación. por ejemplo, el etiquetador de Brill.

2. Etiquetador POS estocástico: bajo este método se aplican diferentes enfoques, como la frecuencia o la probabilidad. Si una palabra se etiqueta principalmente con una etiqueta en particular en el conjunto de entrenamiento, en la oración de prueba se le asigna esa etiqueta en particular. La etiqueta de palabra depende no solo de su propia etiqueta, sino también de la etiqueta anterior. Este método no siempre es exacto. Otra forma es calcular la probabilidad de que ocurra una etiqueta específica en una oración. Por lo tanto, la etiqueta final se calcula verificando la probabilidad más alta de una palabra con una etiqueta en particular.

Modelo de Markov oculto:

Los problemas de etiquetado también se pueden modelar utilizando HMM. Trata a los tokens de entrada como una secuencia observable, mientras que las etiquetas se consideran estados ocultos y el objetivo es determinar la secuencia del estado oculto. Por ejemplo, x = x 1 , x 2 ,…, x n donde x es una secuencia de tokens mientras que y = y 1 , y 2 , y 3 , y 4 … y n es la secuencia oculta.

¿Cómo funciona el modelo HMM?

HMM usa una distribución de unión que es P (x, y) donde x es la secuencia de entrada / secuencia de token e y es la secuencia de etiqueta.

La secuencia de etiquetas para x será argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Hemos categorizado las etiquetas del texto, pero las estadísticas de dichas etiquetas son vitales. Entonces, la siguiente parte es contar estas etiquetas para el estudio estadístico.