Usando Boxplots
¿Qué es un Boxplot?
Un boxplot (o diagrama de caja y bigotes) es una representación gráfica que resume la distribución de un conjunto de datos numéricos a través de sus cuartiles.

Es una herramienta muy útil en el análisis exploratorio de datos porque permite identificar rápidamente la mediana, la dispersión, la asimetría y los valores atípicos (outliers) de los datos1.
Los boxplots son herramientas poderosas para el análisis exploratorio de datos, permitiéndote visualizar rápidamente la distribución y detectar posibles problemas en tus datos.
Componentes de un Boxplot
- Caja: Representa el rango intercuartílico (IQR), que es la distancia entre el primer cuartil (Q1, 25%) y el tercer cuartil (Q3, 75%).
- Línea dentro de la caja: Indica la mediana (Q2, 50%).
- Bigotes: Se extienden desde los cuartiles hasta el valor máximo y mínimo dentro de 1.5 veces el IQR.
- Puntos fuera de los bigotes: Representan los valores atípicos.
Importancia en el Análisis de Datos
- Identificación de Outliers: Los boxplots permiten detectar valores atípicos que pueden influir en el análisis.
- Comparación de Distribuciones: Facilitan la comparación de la distribución de datos entre diferentes grupos.
- Visualización de la Dispersión: Muestran la variabilidad de los datos y la presencia de asimetrías.
Ejemplos con mtcars en R
La base de datos mtcars contiene datos sobre diferentes modelos de automóviles, incluyendo variables como el consumo de combustible, la cilindrada, la potencia, etc. Aquí te dejo algunos ejemplos de cómo crear boxplots con esta base de datos usando R.
1. Boxplot de una Variable
# Cargar ggplot2
library(ggplot2)
# Crear un boxplot para la variable 'mpg' (millas por galón)
ggplot(mtcars, aes(y = mpg)) +
geom_boxplot() +
labs(title = "Boxplot de Millas por Galón (mpg)",
y = "Millas por Galón (mpg)")
2. Boxplot por Grupo
# Crear un boxplot de 'mpg' agrupado por el número de cilindros ('cyl')
ggplot(mtcars, aes(x = factor(cyl), y = mpg)) +
geom_boxplot() +
labs(title = "Boxplot de Millas por Galón (mpg) por Número de Cilindros",
x = "Número de Cilindros",
y = "Millas por Galón (mpg)")
3. Boxplot con Personalización
# Crear un boxplot personalizado
ggplot(mtcars, aes(x = factor(cyl), y = mpg, fill = factor(cyl))) +
geom_boxplot() +
labs(title = "Boxplot de Millas por Galón (mpg) por Número de Cilindros",
x = "Número de Cilindros",
y = "Millas por Galón (mpg)") +
theme_minimal() +
scale_fill_brewer(palette = "Set3")
Recursos Adicionales
1: R CODER 2: Datamentor