Correlación en R: Pearson & Spearman con ejemplo de matriz

Una relación bivariada describe una relación -o correlación- entre dos variables y. En este tutorial, discutimos el concepto de correlación y mostramos cómo se puede usar para medir la relación entre dos variables.

Hay dos métodos principales para calcular la correlación entre dos variables.

Pearson: correlación paramétrica
Spearman: correlación no paramétrica

En este tutorial, aprenderá

correlación de Pearson
Correlación de rango de Spearman
Matriz de correlación
Visualice la matriz de correlación

correlación de Pearson

El método de correlación de Pearson se utiliza generalmente como verificación principal de la relación entre dos variables.

El coeficiente de correlación`` es una medida de la fuerza de la relación lineal entre dos variables y. Se calcula de la siguiente manera:

con

, es decir, desviación estándar de
, es decir, desviación estándar de

La correlación varía entre -1 y 1.

Un valor cercano o igual a 0 implica poca o ninguna relación lineal entre y.
Por el contrario, cuanto más se acerque a 1 o -1, más fuerte será la relación lineal.

Podemos calcular la prueba t de la siguiente manera y verificar la tabla de distribución con un grado de libertad igual a:

Correlación de rango de Spearman

Una correlación de rango ordena las observaciones por rango y calcula el nivel de similitud entre el rango. Una correlación de rango tiene la ventaja de ser robusta a valores atípicos y no está vinculada a la distribución de los datos. Tenga en cuenta que una correlación de rango es adecuada para la variable ordinal.

La correlación de rango de Spearman, siempre está entre -1 y 1, con un valor cercano a la extremidad indica una relación fuerte. Se calcula de la siguiente manera:

con indicaron las covarianzas entre rango y. El denominador calcula las desviaciones estándar.

En R, podemos usar la función cor (). Se necesitan tres argumentos, y el método.

cor(x, y, method)

Argumentos :

x: primer vector
y: segundo vector
método: La fórmula utilizada para calcular la correlación. Tres valores de cadena:
- "pearson"
- "kendall"
- "lancero"

Se puede agregar un argumento opcional si los vectores contienen un valor faltante: use = "complete.obs"

Usaremos el conjunto de datos de BudgetUK. Este conjunto de datos informa la asignación presupuestaria de los hogares británicos entre 1980 y 1982. Hay 1519 observaciones con diez características, entre ellas:

wfood: compartir comida compartir gasto
wfuel: compartir el gasto de combustible
wcloth: presupuesto compartido para gasto en ropa
walc: compartir el gasto en alcohol
wtrans: compartir el gasto en transporte
wother: parte del gasto en otros bienes
totexp: gasto total del hogar en libras
ingreso total ingreso neto del hogar
edad: edad del hogar
niños: número de niños

Ejemplo

library(dplyr)PATH <-"https://raw.githubusercontent.com/guru99-edu/R-Programming/master/british_household.csv"data <-read.csv(PATH)filter(income < 500)mutate(log_income = log(income),log_totexp = log(totexp),children_fac = factor(children, order = TRUE, labels = c("No", "Yes")))select(-c(X,X.1, children, totexp, income))glimpse(data)

Explicación del código

Primero importamos los datos y echamos un vistazo con la función glimpse () de la biblioteca dplyr.
Tres puntos están por encima de 500K, por lo que decidimos excluirlos.
Es una práctica común convertir una variable monetaria en logaritmo. Ayuda a reducir el impacto de los valores atípicos y disminuye la asimetría en el conjunto de datos.

Producción:

## Observations: 1,516## Variables: 10## $ wfood  0.4272, 0.3739, 0.1941, 0.4438, 0.3331, 0.3752, 0… ## $ wfuel  0.1342, 0.1686, 0.4056, 0.1258, 0.0824, 0.0481, 0… ## $ wcloth  0.0000, 0.0091, 0.0012, 0.0539, 0.0399, 0.1170, 0… ## $ walc  0.0106, 0.0825, 0.0513, 0.0397, 0.1571, 0.0210, 0… ## $ wtrans  0.1458, 0.1215, 0.2063, 0.0652, 0.2403, 0.0955, 0… ## $ wother  0.2822, 0.2444, 0.1415, 0.2716, 0.1473, 0.3431, 0… ## $ age  25, 39, 47, 33, 31, 24, 46, 25, 30, 41, 48, 24, 2… ## $ log_income  4.867534, 5.010635, 5.438079, 4.605170, 4.605170,… ## $ log_totexp  3.912023, 4.499810, 5.192957, 4.382027, 4.499810,… ## $ children_fac  Yes, Yes, Yes, Yes, No, No, No, No, No, No, Yes,…

Podemos calcular el coeficiente de correlación entre las variables de ingreso y wfood con los métodos "pearson" y "spearman".

cor(data$log_income, data$wfood, method = "pearson")

producción:

## [1] -0.2466986

cor(data$log_income, data$wfood, method = "spearman")

Producción:

## [1] -0.2501252

Matriz de correlación

La correlación bivariada es un buen comienzo, pero podemos obtener una imagen más amplia con el análisis multivariado. Una correlación con muchas variables se representa dentro de una matriz de correlación . Una matriz de correlación es una matriz que representa la correlación de pares de todas las variables.

La función cor () devuelve una matriz de correlación. La única diferencia con la correlación bivariada es que no necesitamos especificar qué variables. De forma predeterminada, R calcula la correlación entre todas las variables.

Tenga en cuenta que no se puede calcular una correlación para la variable factorial. Necesitamos asegurarnos de eliminar la característica categórica antes de pasar el marco de datos dentro de cor ().

Una matriz de correlación es simétrica, lo que significa que los valores por encima de la diagonal tienen los mismos valores que el de abajo. Es más visual mostrar la mitad de la matriz.

Excluimos children_fac porque es una variable de nivel de factor. cor no realiza correlación en una variable categórica.

# the last column of data is a factor level. We don't include it in the codemat_1 <-as.dist(round(cor(data[,1:9]),2))mat_1

Explicación del código

cor (datos): muestra la matriz de correlación
round (datos, 2): Redondea la matriz de correlación con dos decimales
as.dist (): muestra solo la segunda mitad

Producción:

## wfood wfuel wcloth walc wtrans wother age log_income## wfuel 0.11## wcloth -0.33 -0.25## walc -0.12 -0.13 -0.09## wtrans -0.34 -0.16 -0.19 -0.22## wother -0.35 -0.14 -0.22 -0.12 -0.29## age 0.02 -0.05 0.04 -0.14 0.03 0.02## log_income -0.25 -0.12 0.10 0.04 0.06 0.13 0.23## log_totexp -0.50 -0.36 0.34 0.12 0.15 0.15 0.21 0.49

Nivel significativo

El nivel de significancia es útil en algunas situaciones cuando usamos el método de pearson o spearman. La función rcorr () de la biblioteca Hmisc calcula para nosotros el valor p. Podemos descargar la librería de conda y copiar el código para pegarlo en la terminal:

conda install -c r r-hmisc

El rcorr () requiere que un marco de datos se almacene como una matriz. Podemos convertir nuestros datos en una matriz antes de calcular la matriz de correlación con el valor p.

library("Hmisc")data_rcorr <-as.matrix(data[, 1: 9])mat_2 <-rcorr(data_rcorr)# mat_2 <-rcorr(as.matrix(data)) returns the same output

El objeto de lista mat_2 contiene tres elementos:

r: Salida de la matriz de correlación
n: número de observación
P: valor p

Estamos interesados en el tercer elemento, el valor p. Es común mostrar la matriz de correlación con el valor p en lugar del coeficiente de correlación.

p_value <-round(mat_2[["P"]], 3)p_value

Explicación del código

mat_2 [["P"]]: Los valores p se almacenan en el elemento llamado P
round (mat_2 [["P"]], 3): Redondea los elementos con tres dígitos

Producción:

wfood wfuel wcloth walc wtrans wother age log_income log_totexpwfood NA 0.000 0.000 0.000 0.000 0.000 0.365 0.000 0wfuel 0.000 NA 0.000 0.000 0.000 0.000 0.076 0.000 0wcloth 0.000 0.000 NA 0.001 0.000 0.000 0.160 0.000 0walc 0.000 0.000 0.001 NA 0.000 0.000 0.000 0.105 0wtrans 0.000 0.000 0.000 0.000 NA 0.000 0.259 0.020 0wother 0.000 0.000 0.000 0.000 0.000 NA 0.355 0.000 0age 0.365 0.076 0.160 0.000 0.259 0.355 NA 0.000 0log_income 0.000 0.000 0.000 0.105 0.020 0.000 0.000 NA 0log_totexp 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 NA

Visualice la matriz de correlación

Un mapa de calor es otra forma de mostrar una matriz de correlación. La biblioteca GGally es una extensión de ggplot2. Actualmente, no está disponible en la biblioteca conda. Podemos instalarlo directamente en la consola.

install.packages("GGally")

La biblioteca incluye diferentes funciones para mostrar los estadísticos de resumen como la correlación y distribución de todas las variables en una matriz.

La función ggcorr () tiene muchos argumentos. Introduciremos solo los argumentos que usaremos en el tutorial:

La función ggcorr

ggcorr(df, method = c("pairwise", "pearson"),nbreaks = NULL, digits = 2, low = "#3B9AB2",mid = "#EEEEEE", high = "#F21A00",geom = "tile", label = FALSE,label_alpha = FALSE)

Argumentos:

df : conjunto de datos utilizado
método : fórmula para calcular la correlación. De forma predeterminada, se calculan por pares y Pearson
nbreaks : Devuelve un rango categórico para la coloración de los coeficientes. De forma predeterminada, no hay interrupciones y el degradado de color es continuo
dígitos : Redondea el coeficiente de correlación. Por defecto, establecido en 2
bajo : controla el nivel más bajo de la coloración
mid : controla el nivel medio de la coloración
alto : controla el alto nivel de coloración
geom : controla la forma del argumento geométrico. De forma predeterminada, "mosaico"
etiqueta : valor booleano. Mostrar o no la etiqueta. De forma predeterminada, se establece en "FALSE"

Mapa de calor básico

La trama más básica del paquete es un mapa de calor. La leyenda del gráfico muestra un color degradado de - 1 a 1, donde el color caliente indica una fuerte correlación positiva y el color frío, una correlación negativa.

library(GGally)ggcorr(data)

Explicación del código

ggcorr (datos): solo se necesita un argumento, que es el nombre del marco de datos. Las variables a nivel de factor no se incluyen en la gráfica.

Producción:

Agregar control al mapa de calor

Podemos agregar más controles al gráfico.

ggcorr(data,nbreaks = 6,low = "steelblue",mid = "white",high = "darkred",geom = "circle")

Explicación del código

nbreaks = 6: rompe la leyenda con 6 rangos.
low = "steelblue": utilice colores más claros para la correlación negativa
mid = "white": usa colores blancos para la correlación de rangos medios
high = "darkred": use colores oscuros para una correlación positiva
geom = "circle": utiliza el círculo como forma de las ventanas en el mapa de calor. El tamaño del círculo es proporcional al valor absoluto de la correlación.

Producción:

Agregar etiqueta al mapa de calor

GGally nos permite agregar una etiqueta dentro de las ventanas.

ggcorr(data,nbreaks = 6,label = TRUE,label_size = 3,color = "grey50")

Explicación del código

label = TRUE: Suma los valores de los coeficientes de correlación dentro del mapa de calor.
color = "grey50": elija el color, es decir, gris
label_size = 3: establece el tamaño de la etiqueta en 3

Producción:

ggpairs

Finalmente, presentamos otra función de la biblioteca GGaly. Ggpair. Produce un gráfico en formato matricial. Podemos mostrar tres tipos de cálculo dentro de un gráfico. La matriz es una dimensión, con igual al número de observaciones. La parte superior / inferior muestra ventanas y en diagonal. Podemos controlar qué información queremos mostrar en cada parte de la matriz. La fórmula de ggpair es:

ggpair(df, columns = 1: ncol(df), title = NULL,upper = list(continuous = "cor"),lower = list(continuous = "smooth"),mapping = NULL)

Argumentos :

df : conjunto de datos utilizado
columnas : seleccione las columnas para dibujar la gráfica
título : incluye un título
superior : controla las casillas sobre la diagonal de la trama. Necesita proporcionar el tipo de cálculos o gráfico para devolver. Si continuo = "cor", le pedimos a R que calcule la correlación. Tenga en cuenta que el argumento debe ser una lista. Se pueden utilizar otros argumentos, consulte la [viñeta] ("http://ggobi.github.io/ggally/#custom_functions") para obtener más información.
Inferior : controla las casillas debajo de la diagonal.
Mapeo : indica la estética del gráfico. Por ejemplo, podemos calcular el gráfico para diferentes grupos.

Análisis bivariado con ggpair con agrupación

El siguiente gráfico muestra tres datos:

La matriz de correlación entre la variable log_totexp, log_income, age y wtrans agrupada por si el hogar tiene un hijo o no.
Trace la distribución de cada variable por grupo.
Mostrar el diagrama de dispersión con la tendencia por grupo

library(ggplot2)ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"), title = "Bivariate analysis of revenue expenditure by the British household", upper = list(continuous = wrap("cor",size = 3)),lower = list(continuous = wrap("smooth",alpha = 0.3,size = 0.1)),mapping = aes(color = children_fac))

Explicación del código

columnas = c ("log_totexp", "log_income", "edad", "wtrans"): elija las variables para mostrar en el gráfico
title = "Análisis bivariado de los gastos de ingresos de los hogares británicos": agregue un título
upper = list (): Controla la parte superior del gráfico. Es decir, por encima de la diagonal
continuo = envolver ("cor", tamaño = 3)): Calcule el coeficiente de correlación. Envolvemos el argumento continuo dentro de la función wrap () para controlar la estética del gráfico (es decir, tamaño = 3) -lower = list (): Controla la parte inferior del gráfico. Es decir, por debajo de la diagonal.
continuo = envolver ("suave", alfa = 0.3, tamaño = 0.1): agregue un diagrama de dispersión con una tendencia lineal. Envolvemos el argumento continuo dentro de la función wrap () para controlar la estética del gráfico (es decir, tamaño = 0.1, alfa = 0.3)
mapping = aes (color = children_fac): Queremos que cada parte del gráfico sea apilada por la variable children_fac, que es una variable categórica que toma el valor 1 si el hogar no tiene niños y 2 en caso contrario

Producción:

Análisis bivariado con ggpair con agrupamiento parcial

El siguiente gráfico es un poco diferente. Cambiamos la posición del mapeo dentro del argumento superior.

ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"),title = "Bivariate analysis of revenue expenditure by the British household",upper = list(continuous = wrap("cor",size = 3),mapping = aes(color = children_fac)),lower = list(continuous = wrap("smooth",alpha = 0.3,size = 0.1)))

Explicación del código

Exactamente el mismo código que en el ejemplo anterior excepto por:
mapping = aes (color = children_fac): Mueve la lista en upper = list (). Solo queremos el cálculo apilado por grupo en la parte superior del gráfico.

Producción:

Resumen

Podemos resumir la función en la siguiente tabla:

Biblioteca	Objetivo	método	código
Base	correlación bivariada	Pearson	cor(dfx2, method = "pearson")
Base	correlación bivariada	Lancero	cor(dfx2, method = "spearman")
Base	Correlación multivariante	pearson	cor(df, method = "pearson")
Base	Correlación multivariante	Lancero	cor(df, method = "spearman")
Hmisc	Valor p		rcorr(as.matrix(data[,1:9]))[["P"]]
Ggally	mapa de calor		ggcorr(df)
	Gráficos multivariados		cf code below

Correlación en R: Pearson & Spearman con ejemplo de matriz

Tabla de contenido:

correlación de Pearson

Correlación de rango de Spearman

Matriz de correlación

Nivel significativo

Visualice la matriz de correlación

Mapa de calor básico

Agregar control al mapa de calor

Agregar etiqueta al mapa de calor

ggpairs

Análisis bivariado con ggpair con agrupación

Análisis bivariado con ggpair con agrupamiento parcial

Resumen

# 150: Hola diseñadores, si solo saben una cosa sobre JavaScript, esto es lo que les recomendaría - Trucos CSS

# 158: Menú del botón Expando - Trucos CSS

155: Imágenes receptivas, WordPress y Cloudinary - Trucos CSS

# 154: Un sitio de WordPress para niños con póster - Trucos CSS

# 153: Empezando con CSS Grid - Trucos CSS

Las 150 preguntas y respuestas principales de la entrevista sobre pruebas de software

Las 15 preguntas principales de la entrevista sobre pruebas de automatización y amp; Respuestas

Las 40 preguntas principales de la entrevista de control de calidad (control de calidad) y amp; Respuestas

PDF de pruebas de software: Descargar el tutorial de pruebas manuales

Certificación ISTQB: material de estudio de examen completo con prueba simulada

Función de potencia - Trucos CSS

Funciones auxiliares de activos simples - Trucos CSS

Funciones de Px a Em - Trucos CSS

Simplificación de contextos y eventos - Trucos CSS

Función de unidad de tira - Trucos CSS