Aprendizaje automático supervisado: qué es, algoritmos, ejemplo

¿Qué es el aprendizaje automático supervisado?

En el aprendizaje supervisado, entrena la máquina utilizando datos que están bien "etiquetados ". Significa que algunos datos ya están etiquetados con la respuesta correcta. Se puede comparar con el aprendizaje que tiene lugar en presencia de un supervisor o un profesor.

Un algoritmo de aprendizaje supervisado aprende de los datos de entrenamiento etiquetados y le ayuda a predecir los resultados de los datos imprevistos.

Crear, escalar e implementar con éxito modelos de aprendizaje automático supervisados ​​precisos requiere tiempo y experiencia técnica de un equipo de científicos de datos altamente capacitados. Además, el científico de datos debe reconstruir modelos para asegurarse de que la información proporcionada se mantenga verdadera hasta que cambien los datos.

En este tutorial, aprenderá:

  • ¿Qué es el aprendizaje automático supervisado?
  • Cómo funciona el aprendizaje supervisado
  • Tipos de algoritmos de aprendizaje automático supervisados
  • Técnicas de aprendizaje automático supervisadas frente a no supervisadas
  • Desafíos en el aprendizaje automático supervisado
  • Ventajas del aprendizaje supervisado:
  • Desventajas del aprendizaje supervisado
  • Mejores prácticas para el aprendizaje supervisado

Cómo funciona el aprendizaje supervisado

Por ejemplo, desea entrenar una máquina para que le ayude a predecir cuánto tiempo le llevará conducir a casa desde su lugar de trabajo. Aquí, comienza creando un conjunto de datos etiquetados. Estos datos incluyen

  • Las condiciones climáticas
  • Hora del día
  • Vacaciones

Todos estos detalles son sus aportaciones. El resultado es la cantidad de tiempo que tardó en conducir de regreso a casa ese día específico.

Instintivamente sabes que si está lloviendo afuera, te tomará más tiempo conducir a casa. Pero la máquina necesita datos y estadísticas.

Veamos ahora cómo puede desarrollar un modelo de aprendizaje supervisado de este ejemplo que ayude al usuario a determinar el tiempo de viaje. Lo primero que debe crear es un conjunto de entrenamiento. Este conjunto de entrenamiento contendrá el tiempo total de viaje y los factores correspondientes como el clima, la hora, etc. Según este conjunto de entrenamiento, su máquina puede ver que existe una relación directa entre la cantidad de lluvia y el tiempo que tardará en llegar a casa.

Por lo tanto, se asegura de que cuanto más llueva, más tiempo conducirá para regresar a su casa. También puede ver la conexión entre el tiempo que sale del trabajo y el tiempo que estará en la carretera.

Cuanto más cerca esté de las 6 de la tarde, más tiempo tardará en llegar a casa. Su máquina puede encontrar algunas de las relaciones con sus datos etiquetados.

Este es el comienzo de su modelo de datos. Comienza a afectar la forma en que la lluvia afecta la forma en que las personas conducen. También comienza a ver que más personas viajan durante un momento particular del día.

Tipos de algoritmos de aprendizaje automático supervisados

Regresión:

La técnica de regresión predice un único valor de salida utilizando datos de entrenamiento.

Ejemplo : puede utilizar la regresión para predecir el precio de la vivienda a partir de los datos de formación. Las variables de entrada serán la localidad, el tamaño de la casa, etc.

Fortalezas : Las salidas siempre tienen una interpretación probabilística y el algoritmo se puede regularizar para evitar el sobreajuste.

Debilidades : la regresión logística puede tener un rendimiento inferior cuando existen límites de decisión múltiples o no lineales. Este método no es flexible, por lo que no captura relaciones más complejas.

Regresión logística:

Método de regresión logística utilizado para estimar valores discretos basados ​​en un conjunto dado de variables independientes. Le ayuda a predecir la probabilidad de que ocurra un evento ajustando los datos a una función logit. Por lo tanto, también se conoce como regresión logística. Como predice la probabilidad, su valor de salida se encuentra entre 0 y 1.

Aquí hay algunos tipos de algoritmos de regresión

Clasificación:

Clasificación significa agrupar la salida dentro de una clase. Si el algoritmo intenta etiquetar la entrada en dos clases distintas, se denomina clasificación binaria. La selección entre más de dos clases se denomina clasificación multiclase.

Ejemplo : Determinar si alguien será o no moroso del préstamo.

Puntos fuertes : El árbol de clasificación funciona muy bien en la práctica.

Debilidades : los árboles individuales sin restricciones son propensos a sobreajustarse.

Aquí hay algunos tipos de algoritmos de clasificación

Clasificadores Naïve Bayes

El modelo bayesiano ingenuo (NBN) es fácil de construir y muy útil para grandes conjuntos de datos. Este método se compone de gráficos acíclicos directos con un padre y varios hijos. Asume la independencia entre los nodos secundarios separados de su padre.

Árboles de decisión

Los árboles de decisiones clasifican las instancias clasificándolas según el valor de la característica. En este método, cada modo es la característica de una instancia. Debe estar clasificado, y cada rama representa un valor que el nodo puede asumir. Es una técnica de clasificación muy utilizada. En este método, la clasificación es un árbol que se conoce como árbol de decisión.

Le ayuda a estimar valores reales (costo de compra de un automóvil, número de llamadas, ventas mensuales totales, etc.).

Máquinas de vectores soporte

La máquina de vectores de soporte (SVM) es un tipo de algoritmo de aprendizaje desarrollado en 1990. Este método se basa en los resultados de la teoría del aprendizaje estadístico introducida por Vap Nik.

Las máquinas SVM también están estrechamente conectadas con las funciones del kernel, que es un concepto central para la mayoría de las tareas de aprendizaje. El marco del kernel y SVM se utilizan en una variedad de campos. Incluye recuperación de información multimedia, bioinformática y reconocimiento de patrones.

Técnicas de aprendizaje automático supervisadas frente a no supervisadas

Residencia en Técnica de aprendizaje automático supervisada Técnica de aprendizaje automático sin supervisión
Los datos de entrada Los algoritmos se entrenan utilizando datos etiquetados. Los algoritmos se utilizan contra datos que no están etiquetados.
Complejidad computacional El aprendizaje supervisado es un método más simple. El aprendizaje no supervisado es computacionalmente complejo
Precisión Método altamente preciso y confiable. Método menos preciso y confiable.

Desafíos en el aprendizaje automático supervisado

A continuación, se muestran los desafíos que enfrenta el aprendizaje automático supervisado:

  • Característica de entrada irrelevante Los datos de entrenamiento actuales podrían dar resultados inexactos
  • La preparación y preprocesamiento de datos siempre es un desafío.
  • La precisión se ve afectada cuando se ingresan valores imposibles, poco probables e incompletos como datos de entrenamiento
  • Si el experto en cuestión no está disponible, entonces el otro enfoque es "fuerza bruta". Significa que debe pensar en las características correctas (variables de entrada) para entrenar la máquina. Podría ser inexacto.

Ventajas del aprendizaje supervisado:

  • El aprendizaje supervisado le permite recopilar datos o producir una salida de datos de la experiencia anterior
  • Le ayuda a optimizar los criterios de rendimiento utilizando la experiencia
  • El aprendizaje automático supervisado le ayuda a resolver varios tipos de problemas de computación del mundo real.

Desventajas del aprendizaje supervisado

  • El límite de decisión puede estar sobreentrenado si su conjunto de entrenamiento no tiene ejemplos que desea tener en una clase
  • Debe seleccionar muchos buenos ejemplos de cada clase mientras entrena al clasificador.
  • La clasificación de macrodatos puede ser un verdadero desafío.
  • La formación para el aprendizaje supervisado requiere mucho tiempo de cálculo.

Mejores prácticas para el aprendizaje supervisado

  • Antes de hacer cualquier otra cosa, debe decidir qué tipo de datos se utilizarán como conjunto de entrenamiento.
  • Debe decidir la estructura de la función aprendida y el algoritmo de aprendizaje.
  • Recopile los resultados correspondientes de expertos humanos o de mediciones.

Resumen

  • En el aprendizaje supervisado, entrena la máquina utilizando datos que están bien "etiquetados".
  • Quieres entrenar una máquina que te ayude a predecir cuánto tiempo te llevará conducir a casa desde tu lugar de trabajo es un ejemplo de aprendizaje supervisado
  • La regresión y la clasificación son dos tipos de técnicas de aprendizaje automático supervisadas.
  • El aprendizaje supervisado es un método más simple, mientras que el aprendizaje no supervisado es un método complejo.
  • El mayor desafío en el aprendizaje supervisado es que la característica de entrada irrelevante, los datos de entrenamiento actuales pueden dar resultados inexactos.
  • La principal ventaja del aprendizaje supervisado es que le permite recopilar datos o producir una salida de datos de la experiencia anterior.
  • El inconveniente de este modelo es que el límite de decisión puede estar sobrecargado si su conjunto de entrenamiento no tiene ejemplos que desee tener en una clase.
  • Como práctica recomendada del aprendizaje supervisado, primero debe decidir qué tipo de datos se deben utilizar como conjunto de capacitación.

Articulos interesantes...