Aprendizaje sin supervisión
El aprendizaje no supervisado es una técnica de aprendizaje automático en la que los usuarios no necesitan supervisar el modelo. En cambio, permite que el modelo funcione por sí solo para descubrir patrones e información que antes no se había detectado. Se ocupa principalmente de los datos sin etiquetar.
Algoritmos de aprendizaje no supervisados
Los algoritmos de aprendizaje no supervisado permiten a los usuarios realizar tareas de procesamiento más complejas en comparación con el aprendizaje supervisado. Sin embargo, el aprendizaje sin supervisión puede ser más impredecible en comparación con otros métodos de aprendizaje naturales. Los algoritmos de aprendizaje no supervisados incluyen agrupamiento, detección de anomalías, redes neuronales, etc.
En este tutorial, aprenderá:
- Ejemplo de aprendizaje automático no supervisado
- ¿Por qué el aprendizaje no supervisado?
- Tipos de aprendizaje no supervisado
- Agrupación
- Tipos de agrupación en clústeres
- Asociación
- Aprendizaje automático supervisado frente a no supervisado
- Aplicaciones de aprendizaje automático no supervisado
- Desventajas del aprendizaje no supervisado
Ejemplo de aprendizaje automático no supervisado
Tomemos el caso de un bebé y su perro de la familia.
Ella conoce e identifica a este perro. Pocas semanas después, un amigo de la familia trae un perro e intenta jugar con el bebé.
Baby no ha visto a este perro antes. Pero reconoce que muchas características (2 orejas, ojos, caminar sobre 4 patas) son como su perro mascota. Ella identifica al nuevo animal como un perro. Este es un aprendizaje no supervisado, en el que no se le enseña, pero se aprende de los datos (en este caso, datos sobre un perro). Si hubiera sido un aprendizaje supervisado, el amigo de la familia le habría dicho al bebé que es un perro.
¿Por qué el aprendizaje no supervisado?
A continuación, presentamos las principales razones para utilizar el aprendizaje no supervisado:
- El aprendizaje automático no supervisado encuentra todo tipo de patrones desconocidos en los datos.
- Los métodos no supervisados lo ayudan a encontrar características que pueden ser útiles para la categorización.
- Se lleva a cabo en tiempo real, por lo que todos los datos de entrada se analizarán y etiquetarán en presencia de los alumnos.
- Es más fácil obtener datos sin etiquetar de una computadora que datos etiquetados, que necesitan intervención manual.
Tipos de aprendizaje no supervisado
Los problemas de aprendizaje no supervisados se agrupan además en problemas de agrupación y asociación.
Agrupación
La agrupación en clústeres es un concepto importante cuando se trata de aprendizaje no supervisado. Se trata principalmente de encontrar una estructura o patrón en una colección de datos sin clasificar. Los algoritmos de agrupación procesarán sus datos y encontrarán agrupaciones naturales (grupos) si existen en los datos. También puede modificar cuántos clústeres deben identificar sus algoritmos. Le permite ajustar la granularidad de estos grupos.
Existen diferentes tipos de agrupación en clústeres que puede utilizar:
Exclusivo (particionamiento)
En este método de agrupamiento, los datos se agrupan de tal manera que un dato puede pertenecer a un solo grupo.
Ejemplo: K-medias
Aglomerativo
En esta técnica de agrupamiento, todos los datos son un grupo. Las uniones iterativas entre los dos conglomerados más cercanos reducen el número de conglomerados.
Ejemplo: agrupación jerárquica
Superposición
En esta técnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede pertenecer a dos o más grupos con distintos grados de pertenencia.
Aquí, los datos se asociarán con un valor de membresía apropiado. Ejemplo: medias C difusas
Probabilístico
Esta técnica utiliza la distribución de probabilidad para crear los conglomerados.
Ejemplo: seguir palabras clave
- "zapato de hombre".
- "zapato de mujer".
- "guante de mujer".
- "guante de hombre".
se puede agrupar en dos categorías "zapato" y "guante" o "hombre" y "mujer".
Tipos de agrupación en clústeres
- Agrupación jerárquica
- Agrupación de K-medias
- K-NN (k vecinos más cercanos)
- Análisis de componentes principales
- Valor singular de descomposición
- Análisis de componentes independientes
Agrupación jerárquica:
El agrupamiento jerárquico es un algoritmo que construye una jerarquía de grupos. Comienza con todos los datos que se asignan a un grupo propio. Aquí, dos grupos cercanos estarán en el mismo grupo. Este algoritmo finaliza cuando solo queda un grupo.
Agrupación de K-means
K significa que es un algoritmo de agrupamiento iterativo que le ayuda a encontrar el valor más alto para cada iteración. Inicialmente, se selecciona el número deseado de clústeres. En este método de agrupación, debe agrupar los puntos de datos en k grupos. Una k más grande significa grupos más pequeños con más granularidad de la misma manera. Una k más baja significa grupos más grandes con menos granularidad.
La salida del algoritmo es un grupo de "etiquetas". Asigna un punto de datos a uno de los k grupos. En la agrupación de k-means, cada grupo se define creando un centroide para cada grupo. Los centroides son como el corazón del grupo, que captura los puntos más cercanos a ellos y los agrega al grupo.
La agrupación de K-mean define además dos subgrupos:
- Agrupación aglomerativa
- Dendrograma
Agrupación aglomerativa:
Este tipo de agrupación de K-medias comienza con un número fijo de agrupaciones. Asigna todos los datos en el número exacto de clústeres. Este método de agrupación no requiere el número de agrupaciones K como entrada. El proceso de aglomeración comienza formando cada dato como un solo grupo.
Este método utiliza alguna medida de distancia, reduce el número de grupos (uno en cada iteración) mediante el proceso de fusión. Por último, tenemos un gran clúster que contiene todos los objetos.
Dendrograma:
En el método de agrupamiento de dendrogramas, cada nivel representará un posible grupo. La altura del dendrograma muestra el nivel de similitud entre dos grupos de unión. Cuanto más cerca de la parte inferior del proceso se encuentran más agrupaciones similares, es el hallazgo del grupo del dendrograma que no es natural y en su mayoría subjetivo.
K- Vecinos más cercanos
K- vecino más cercano es el más simple de todos los clasificadores de aprendizaje automático. Se diferencia de otras técnicas de aprendizaje automático en que no produce un modelo. Es un algoritmo simple que almacena todos los casos disponibles y clasifica las nuevas instancias en función de una medida de similitud.
Funciona muy bien cuando hay una distancia entre ejemplos. La velocidad de aprendizaje es lenta cuando el conjunto de entrenamiento es grande y el cálculo de la distancia no es trivial.
Análisis de componentes principales:
En caso de que desee un espacio de mayor dimensión. Debe seleccionar una base para ese espacio y solo las 200 puntuaciones más importantes de esa base. Esta base se conoce como componente principal. El subconjunto que seleccione constituye un nuevo espacio que es de tamaño pequeño en comparación con el espacio original. Mantiene tanta complejidad de datos como sea posible.
Asociación
Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica no supervisada se trata de descubrir relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, las personas que compran una casa nueva tienen más probabilidades de comprar muebles nuevos.
Otros ejemplos:
- Un subgrupo de pacientes con cáncer agrupados por sus medidas de expresión génica
- Grupos de compradores según su historial de navegación y compras
- Grupo de películas según la calificación otorgada por los espectadores de películas
Aprendizaje automático supervisado frente a no supervisado
Parámetros | Técnica de aprendizaje automático supervisada | Técnica de aprendizaje automático sin supervisión |
Los datos de entrada | Los algoritmos se entrenan utilizando datos etiquetados. | Los algoritmos se utilizan contra datos que no están etiquetados. |
Complejidad computacional | El aprendizaje supervisado es un método más simple. | El aprendizaje no supervisado es computacionalmente complejo |
Precisión | Método altamente preciso y confiable. | Método menos preciso y confiable. |
Aplicaciones de aprendizaje automático no supervisado
Algunas aplicaciones de las técnicas de aprendizaje automático no supervisadas son:
- La agrupación en clústeres divide automáticamente el conjunto de datos en grupos en función de sus similitudes
- La detección de anomalías puede descubrir puntos de datos inusuales en su conjunto de datos. Es útil para encontrar transacciones fraudulentas.
- La minería de asociaciones identifica conjuntos de elementos que a menudo ocurren juntos en su conjunto de datos
- Los modelos de variables latentes se utilizan ampliamente para el preprocesamiento de datos. Como reducir la cantidad de características en un conjunto de datos o descomponer el conjunto de datos en varios componentes
Desventajas del aprendizaje no supervisado
- No puede obtener información precisa sobre la clasificación de datos, y la salida como datos utilizados en el aprendizaje no supervisado está etiquetada y no se conoce.
- La menor precisión de los resultados se debe a que los datos de entrada no se conocen y las personas no los etiquetan de antemano. Esto significa que la máquina debe hacerlo por sí misma.
- Las clases espectrales no siempre corresponden a clases informativas.
- El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificación.
- Las propiedades espectrales de las clases también pueden cambiar con el tiempo, por lo que no puede tener la misma información de clase mientras se mueve de una imagen a otra.
Resumen
- El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no es necesario supervisar el modelo.
- El aprendizaje automático no supervisado le ayuda a encontrar todo tipo de patrones desconocidos en los datos.
- El agrupamiento y la asociación son dos tipos de aprendizaje no supervisado.
- Cuatro tipos de métodos de agrupamiento son 1) Exclusivo 2) Aglomerativo 3) Superpuesto 4) Probabilístico.
- Los tipos de agrupación importantes son: 1) Agrupación jerárquica 2) Agrupación de K-medias 3) K-NN 4) Análisis de componentes principales 5) Descomposición de valores singulares 6) Análisis de componentes independientes.
- Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos.
- En el aprendizaje supervisado, los algoritmos se entrenan utilizando datos etiquetados, mientras que en el aprendizaje no supervisado, los algoritmos se utilizan con datos que no están etiquetados.
- La detección de anomalías puede descubrir puntos de datos importantes en su conjunto de datos que son útiles para encontrar transacciones fraudulentas.
- El mayor inconveniente del aprendizaje no supervisado es que no puede obtener información precisa sobre la clasificación de datos.