Factor en R: Variable categórica & Variables continuas

Tabla de contenido:

Anonim

¿Qué es el factor en R?

Factor in R es una variable que se utiliza para categorizar y almacenar los datos, y tiene un número limitado de valores diferentes. Almacena los datos como un vector de valores enteros. El factor R también se conoce como una variable categórica que almacena valores de datos enteros y de cadena como niveles. El factor se utiliza principalmente en modelos estadísticos y análisis de datos exploratorios con R.

En un conjunto de datos, podemos distinguir dos tipos de variables: categóricas y continuas .

  • En la estadística descriptiva para variables categóricas en R, el valor es limitado y generalmente se basa en un grupo finito particular. Por ejemplo, una variable categórica en R puede ser países, año, género, ocupación.
  • Sin embargo, una variable continua puede tomar cualquier valor, desde entero hasta decimal. Por ejemplo, podemos tener los ingresos, el precio de una acción, etc.

Variables categóricas

Las variables categóricas en R se almacenan en un factor. Revisemos el siguiente código para convertir una variable de carácter en una variable de factor en R. Los caracteres no son compatibles con el algoritmo de aprendizaje automático y la única forma es convertir una cadena en un número entero.

Sintaxis

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumentos:

  • x : un vector de datos categóricos en R. Debe ser una cadena o un número entero, no un decimal.
  • Niveles : un vector de posibles valores tomados por x. Este argumento es opcional. El valor predeterminado es la lista única de elementos del vector x.
  • Etiquetas : agregue una etiqueta a los datos categóricos x en R. Por ejemplo, 1 puede tomar la etiqueta `masculino` mientras que 0, la etiqueta` femenino`.
  • ordenado : Determine si los niveles deben ordenarse en datos categóricos en R.

Ejemplo:

Creemos un marco de datos de factores.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Producción:

## [1] "character"## [1] "factor"

Es importante transformar una cadena en variable de factor en R cuando realizamos la tarea de Machine Learning.

Una variable categórica en R se puede dividir en variable categórica nominal y variable categórica ordinal .

Variable categórica nominal

Una variable categórica tiene varios valores, pero el orden no importa. Por ejemplo, hombre o mujer. Las variables categóricas en R no tienen orden.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Producción:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Desde el factor_color, no podemos distinguir ningún orden.

Variable categórica ordinal

Las variables categóricas ordinales tienen un orden natural. Podemos especificar el orden, de menor a mayor con order = TRUE y de mayor a menor con order = FALSE.

Ejemplo:

Podemos usar el resumen para contar los valores de cada variable de factor en R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Producción:

## [1] evening morning afternoon middaymidnight evening 

Ejemplo:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Producción:

## morning midday afternoon evening midnight## 1 1 1 2 1

R ordenó el nivel de 'mañana' a 'medianoche' como se especifica en los niveles entre paréntesis.

Variables continuas

Las variables de clase continuas son el valor predeterminado en R. Se almacenan como numéricas o enteras. Podemos verlo en el conjunto de datos a continuación. mtcars es un conjunto de datos integrado. Recopila información sobre diferentes tipos de automóviles. Podemos importarlo usando mtcars y verificar la clase de la variable mpg, milla por galón. Devuelve un valor numérico que indica una variable continua.

dataset <- mtcarsclass(dataset$mpg)

Producción

## [1] "numeric"