R Regresión lineal simple, múltiple y escalonada (con ejemplo)

Tabla de contenido:

Anonim

En este tutorial, aprenderá

  • Regresión lineal simple
  • Regresión lineal múltiple
  • Variables continuas
  • Regresión de factores
  • Regresión escalonada
  • Aprendizaje automático
  • Aprendizaje supervisado
  • Aprendizaje sin supervisión

Regresión lineal simple

La regresión lineal responde a una pregunta simple: ¿Puede medir una relación exacta entre una variable objetivo y un conjunto de predictores?

El más simple de los modelos probabilísticos es el modelo de línea recta:

dónde

  • y = variable dependiente
  • x = variable independiente
  • = componente de error aleatorio
  • = interceptar
  • = Coeficiente de x

Considere la siguiente trama:

La ecuación es la intersección. Si x es igual a 0, y será igual a la intersección, 4.77. es la pendiente de la recta. Indica en qué proporción varía y cuando varía x.

Para estimar los valores óptimos de , utilice un método llamado Mínimos cuadrados ordinarios (MCO) . Este método intenta encontrar los parámetros que minimizan la suma de los errores al cuadrado, es decir, la distancia vertical entre los valores de y predichos y los valores de y reales. La diferencia se conoce como término de error .

Antes de estimar el modelo, puede determinar si una relación lineal entre y y x es plausible trazando una gráfica de dispersión.

Gráfico de dispersión

Usaremos un conjunto de datos muy simple para explicar el concepto de regresión lineal simple. Importaremos las alturas y pesos promedio para mujeres estadounidenses. El conjunto de datos contiene 15 observaciones. Desea medir si las alturas están correlacionadas positivamente con los pesos.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Producción:

La gráfica de dispersión sugiere una tendencia general de que y aumente a medida que aumenta x. En el siguiente paso, medirá la cantidad de aumentos por cada adicional.

Estimaciones de mínimos cuadrados

En una regresión OLS simple, el cálculo de es sencillo. El objetivo no es mostrar la derivación en este tutorial. Solo escribirás la fórmula.

Quieres estimar:

El objetivo de la regresión OLS es minimizar la siguiente ecuación:

dónde

es el valor predicho.

La solución para

Tenga en cuenta que significa el valor medio de x

La solución para

En R, puede usar la función cov () y var () para estimar

beta <- cov(df$height, df$weight) / var (df$height)beta

Producción:

##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha

Producción:

## [1] -87.51667

El coeficiente beta implica que por cada altura adicional, el peso aumenta en 3,45.

La estimación manual de una ecuación lineal simple no es ideal. R proporciona una función adecuada para estimar estos parámetros. Verá esta función en breve. Antes de eso, presentaremos cómo calcular a mano un modelo de regresión lineal simple. En su viaje de científico de datos, apenas o nunca estimará un modelo lineal simple. En la mayoría de las situaciones, las tareas de regresión se realizan en muchos estimadores.

Regresión lineal múltiple

Las aplicaciones más prácticas del análisis de regresión emplean modelos que son más complejos que el modelo simple de línea recta. El modelo probabilístico que incluye más de una variable independiente se denomina modelos de regresión múltiple . La forma general de este modelo es:

En notación matricial, puede reescribir el modelo:

La variable dependiente y es ahora una función de k variables independientes. El valor del coeficiente .

Introducimos brevemente la suposición que hicimos sobre el error aleatorio del OLS:

  • Media igual a 0
  • Varianza igual a
  • Distribución normal
  • Los errores aleatorios son independientes (en un sentido probabilístico)

Necesita resolver el vector de coeficientes de regresión que minimizan la suma de los errores al cuadrado entre los valores de y predichos y reales.

La solución de forma cerrada es:

con:

  • indica la transposición de la matriz X
  • indica la matriz invertible

Usamos el conjunto de datos mtcars. Ya está familiarizado con el conjunto de datos. Nuestro objetivo es predecir la milla por galón sobre un conjunto de características.

Variables continuas

Por ahora, solo usará las variables continuas y dejará de lado las características categóricas. La variable am es una variable binaria que toma el valor 1 si la transmisión es manual y 0 para automóviles automáticos; vs también es una variable binaria.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Producción:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2… 

Puede usar la función lm () para calcular los parámetros. La sintaxis básica de esta función es:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Recuerde que una ecuación tiene la siguiente forma

en R

  • El símbolo = se reemplaza por ~
  • Cada x se reemplaza por el nombre de la variable
  • Si desea eliminar la constante, agregue -1 al final de la fórmula

Ejemplo:

Desea estimar el peso de las personas en función de su altura e ingresos. La ecuación es

La ecuación en R se escribe de la siguiente manera:

y ~ X1 + X2 +… + Xn # Con intercepción

Entonces, para nuestro ejemplo:

  • Pesar ~ altura + ingresos

Su objetivo es estimar la milla por galón en función de un conjunto de variables. La ecuación a estimar es:

Estimará su primera regresión lineal y almacenará el resultado en el objeto de ajuste.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Explicación del código

  • modelo <- mpg ~ . disp + hp + drat + wt: almacena el modelo para estimar
  • lm (modelo, df): Estime el modelo con el marco de datos df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

El resultado no proporciona suficiente información sobre la calidad del ajuste. Puede acceder a más detalles como el significado de los coeficientes, el grado de libertad y la forma de los residuos con la función summary ().

summary(fit)

Producción:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Inferencia de la salida de la tabla anterior

  • La tabla anterior demuestra que existe una fuerte relación negativa entre peso y kilometraje y una relación positiva con drat.
  • Solo la variable wt tiene un impacto estadístico en mpg. Recuerde, para probar una hipótesis en estadística, usamos:
    • H0: Sin impacto estadístico
    • H3: el predictor tiene un impacto significativo en y
    • Si el valor de p es menor que 0.05, indica que la variable es estadísticamente significativa
  • R cuadrado ajustado: Varianza explicada por el modelo. En su modelo, el modelo explicó el 82 por ciento de la varianza de y. R cuadrado siempre está entre 0 y 1. Cuanto más alto, mejor

Puede ejecutar la prueba ANOVA para estimar el efecto de cada característica en las variaciones con la función anova ().

anova(fit)

Producción:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Una forma más convencional de estimar el rendimiento del modelo es mostrar el residual frente a diferentes medidas.

Puede usar la función plot () para mostrar cuatro gráficos:

- Residuos vs valores ajustados

- Gráfico QQ normal: cuartil teórico frente a residuos estandarizados

- Ubicación de escala: valores ajustados frente a raíces cuadradas de los residuos estandarizados

- Residuales vs apalancamiento: apalancamiento vs residuales estandarizados

Agrega el código par (mfrow = c (2,2)) antes de plot (fit). Si no agrega esta línea de código, R le solicita que presione el comando enter para mostrar el siguiente gráfico.

par(mfrow=(2,2))

Explicación del código

  • (mfrow = c (2,2)): devuelve una ventana con los cuatro gráficos uno al lado del otro.
  • Los primeros 2 suman el número de filas
  • El segundo 2 suma el número de columnas.
  • Si escribe (mfrow = c (3,2)): creará una ventana de 3 filas y 2 columnas
plot(fit)

Producción:

La fórmula lm () devuelve una lista que contiene mucha información útil. Puede acceder a ellos con el objeto de ajuste que ha creado, seguido del signo $ y la información que desea extraer.

- coeficientes: `ajustar $ coeficientes`

- residuales: `ajustar $ residuales`

- valor ajustado: `ajustar $ valores ajustados`

Regresión de factores

En la última estimación del modelo, se realiza una regresión de mpg solo en variables continuas. Es sencillo agregar variables de factores al modelo. Agrega la variable am a su modelo. Es importante asegurarse de que la variable sea un nivel de factor y no sea continua.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Producción:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R usa el primer nivel de factor como grupo base. Debe comparar los coeficientes del otro grupo con el grupo base.

Regresión escalonada

La última parte de este tutorial trata sobre el algoritmo de regresión paso a paso . El propósito de este algoritmo es agregar y eliminar candidatos potenciales en los modelos y mantener aquellos que tienen un impacto significativo en la variable dependiente. Este algoritmo es significativo cuando el conjunto de datos contiene una gran lista de predictores. No es necesario que agregue y elimine manualmente las variables independientes. La regresión por pasos se crea para seleccionar los mejores candidatos para ajustarse al modelo.

Veamos en acción cómo funciona. Utiliza el conjunto de datos mtcars con las variables continuas solo para ilustración pedagógica. Antes de comenzar el análisis, es bueno establecer variaciones entre los datos con una matriz de correlación. La biblioteca GGally es una extensión de ggplot2.

La biblioteca incluye diferentes funciones para mostrar estadísticas resumidas como la correlación y distribución de todas las variables en una matriz. Usaremos la función ggscatmat, pero puede consultar la viñeta para obtener más información sobre la biblioteca GGally.

La sintaxis básica de ggscatmat () es:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Muestra la correlación de todas sus variables y decide cuál será la mejor candidata para el primer paso de la regresión por pasos. Existen algunas correlaciones fuertes entre sus variables y la variable dependiente, mpg.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Producción:

Regresión escalonada

La selección de variables es una parte importante para ajustar un modelo. La regresión paso a paso realizará el proceso de búsqueda automáticamente. Para estimar cuántas opciones posibles hay en el conjunto de datos, calcula con k es el número de predictores. La cantidad de posibilidades aumenta con el número de variables independientes. Por eso es necesario realizar una búsqueda automática.

Necesita instalar el paquete olsrr de CRAN. El paquete aún no está disponible en Anaconda. Por lo tanto, lo instala directamente desde la línea de comando:

install.packages("olsrr")

Puede trazar todos los subconjuntos de posibilidades con los criterios de ajuste (es decir, R-cuadrado, R-cuadrado ajustado, criterios bayesianos). El modelo con los criterios de AIC más bajos será el modelo final.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Explicación del código

  • mpg ~ .: Construya el modelo para estimar
  • lm (modelo, df): ejecutar el modelo OLS
  • ols_all_subset (fit): Construya los gráficos con la información estadística relevante
  • plot (prueba): traza los gráficos

Producción:

Los modelos de regresión lineal utilizan la prueba t para estimar el impacto estadístico de una variable independiente sobre la variable dependiente. Los investigadores establecieron el umbral máximo en el 10 por ciento, con valores más bajos indica un vínculo estadístico más fuerte. La estrategia de la regresión paso a paso se construye en torno a esta prueba para agregar y eliminar candidatos potenciales. El algoritmo funciona de la siguiente manera:

  • Paso 1: Haga una regresión de cada predictor en y por separado. Es decir, haga una regresión de x_1 en y, x_2 de y a x_n. Almacene el valor p y mantenga el regresor con un valor p inferior a un umbral definido (0,1 por defecto). Los predictores con una significancia menor que el umbral se agregarán al modelo final. Si ninguna variable tiene un valor p menor que el umbral de entrada, entonces el algoritmo se detiene y usted tiene su modelo final con una constante solamente.
  • Paso 2: Utilice el predictor con el valor p más bajo y agregue una variable por separado. Regresas una constante, el mejor predictor del paso uno y una tercera variable. Agrega al modelo paso a paso los nuevos predictores con un valor inferior al umbral de entrada. Si ninguna variable tiene un valor p inferior a 0,1, el algoritmo se detiene y tiene su modelo final con un solo predictor. Realiza una regresión del modelo paso a paso para comprobar la importancia de los mejores predictores del paso 1. Si es más alto que el umbral de eliminación, manténgalo en el modelo por pasos. De lo contrario, lo excluye.
  • Paso 3: Repite el paso 2 en el nuevo mejor modelo paso a paso. El algoritmo agrega predictores al modelo paso a paso según los valores ingresados ​​y excluye el predictor del modelo paso a paso si no satisface el umbral de exclusión.
  • El algoritmo continúa hasta que no se puede agregar ni excluir ninguna variable.

Puede realizar el algoritmo con la función ols_stepwise () del paquete olsrr.

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Antes de eso, te mostramos los pasos del algoritmo. A continuación se muestra una tabla con las variables dependientes e independientes:

Variable dependiente

Variables independientes

mpg

disp

hp

maldita sea

peso

qsec

Comienzo

Para empezar, el algoritmo comienza ejecutando el modelo en cada variable independiente por separado. La tabla muestra el valor p para cada modelo.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Para ingresar al modelo, el algoritmo mantiene la variable con el valor p más bajo. De la salida anterior, es wt

Paso 1

En el primer paso, el algoritmo ejecuta mpg en wt y las otras variables de forma independiente.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Cada variable es un candidato potencial para ingresar al modelo final. Sin embargo, el algoritmo mantiene solo la variable con el valor p más bajo. Resulta que hp tiene un valor p ligeramente más bajo que qsec. Por lo tanto, hp ingresa al modelo final

Paso 2

El algoritmo repite el primer paso pero esta vez con dos variables independientes en el modelo final.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Ninguna de las variables que ingresaron al modelo final tiene un valor p suficientemente bajo. El algoritmo se detiene aquí; tenemos el modelo final:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12 

Puede utilizar la función ols_stepwise () para comparar los resultados.

stp_s <-ols_stepwise(fit, details=TRUE)

Producción:

El algoritmo encuentra una solución después de 2 pasos y devuelve el mismo resultado que teníamos antes.

Al final, puede decir que los modelos se explican mediante dos variables y una intersección. La milla por galón se correlaciona negativamente con la potencia bruta y el peso

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Aprendizaje automático

El aprendizaje automático se está generalizando entre los científicos de datos y se implementa en cientos de productos que usa a diario. Una de las primeras aplicaciones de AA fue el filtro de spam .

A continuación se muestran otras aplicaciones de Machine Learning:

  • Identificación de mensajes de spam no deseados en el correo electrónico
  • Segmentación del comportamiento del cliente para publicidad dirigida
  • Reducción de transacciones fraudulentas con tarjetas de crédito
  • Optimización del uso de energía en edificios de viviendas y oficinas.
  • Reconocimiento facial

Aprendizaje supervisado

En el aprendizaje supervisado , los datos de entrenamiento que alimenta al algoritmo incluyen una etiqueta.

La clasificación es probablemente la técnica de aprendizaje supervisado más utilizada. Una de las primeras tareas de clasificación que abordaron los investigadores fue el filtro de correo no deseado. El objetivo del aprendizaje es predecir si un correo electrónico se clasifica como spam o ham (buen correo electrónico). La máquina, después del paso de entrenamiento, puede detectar la clase de correo electrónico.

Las regresiones se utilizan comúnmente en el campo del aprendizaje automático para predecir el valor continuo. La tarea de regresión puede predecir el valor de una variable dependiente basándose en un conjunto de variables independientes (también llamadas predictores o regresores). Por ejemplo, las regresiones lineales pueden predecir el precio de una acción, el pronóstico del tiempo, las ventas, etc.

Aquí está la lista de algunos algoritmos fundamentales de aprendizaje supervisado.

  • Regresión lineal
  • Regresión logística
  • Vecinos mas cercanos
  • Máquina de vectores de soporte (SVM)
  • Árboles de decisión y bosque aleatorio
  • Redes neuronales

Aprendizaje sin supervisión

En el aprendizaje no supervisado , los datos de entrenamiento no están etiquetados. El sistema intenta aprender sin una referencia. A continuación se muestra una lista de algoritmos de aprendizaje no supervisados.

  • K-mean
  • Análisis jerárquico de conglomerados
  • Maximización de expectativas
  • Reducción de visualización y dimensionalidad
  • Análisis de componentes principales
  • Kernel PCA
  • Incrustación localmente lineal

Resumen

La regresión ordinaria por mínimos cuadrados se puede resumir en la siguiente tabla:

Biblioteca

Objetivo

Función

Argumentos

base

Calcule una regresión lineal

lm ()

fórmula, datos

base

Resumir modelo

resumir()

encajar

base

Extraer coeficientes

lm () $ coeficiente

base

Extraer residuos

lm () $ residuales

base

Extracto del valor ajustado

lm () $ valores ajustados

olsrr

Ejecutar regresión paso a paso

ols_stepwise ()

fit, pent = 0.1, prem = 0.3, details = FALSE

Nota : Recuerde transformar la variable categórica en factor antes de ajustar el modelo.