Histogramas en R

visualización de la distribución de variables cuantitativas

R

R es el lenguaje de programación más utilizado para programación estadística, la versatilidad de sus gráficos en relación a lo fácil de su código hace que sea incluso más simple de usar que Python. Los histogramas se utilizan para analizar la distribución de variables cuantitativas.

Comencemos a obtener números aleatorios  que posean una distribución normal con el comando rnorm y entre paréntesis la cantidad de números aleatorios que necesitamos.

Estos números lo almacenaremos en la variable x utilizando  <-

Creando 100 números aleatorios con distribución normal

1
rnorm(100)

Almacenando los resultados en la variable x

1
x <- rnorm(100)

hist

Realizando el histograma:

1
hist(x)

Distribución de la variable x

En la figura de arriba se puede ver el tipo más básico de histograma que se puede crear,  para ver todos los argumentos que admite la función hist se puede escribir ?hist ; cada  argumento va seguido de una coma. Todo el código puede ir en una sola linea, pero para que sea más legible se da enter, para indicar que el código no esta terminado se cambia el icono de > por + a cada nueva linea automáticamente. A continuación los argumentos más útiles :

1
2
3
4
5
6
> hist(x,
+      main = "Histograma de ...", #Titulo
+      ylab = "Frecuencia",        #Titulo del eje "y"
+      xlab = "Variable",          #Titulo del eje "x"
+       col = "blue"                #Color
+      )

Distribución de la variable x

ggplot2

Para tener una mejor visualización de los datos , de manera menos básica e incluso asignar variables a la estética, usaremos el paquete ggplot2

Si aún no lo tienes lo puedes instalar con install.packages, y se activa con library

1
2
install.packages("ggplot2")
library(ggplot2)
1
2
data = data.frame(x)
plot <- ggplot(data, aes(x)) + geom_histogram()

Distribución de la variable x hecho en ggplot2

Ahora que sabemos la sintaxis básica hay que añadirle más detalle:

1
2
3
4
5
plot <- ggplot(data, aes(x)) +
	geom_histogram(fill="blue", alpha=0.8) +
	ggtitle("Titulo") +
	labs(x = "Variable") +
	labs(y = "Frecuencia")

Esto crea un objeto plot por lo que podemos añadirle atributos con el símbolo +. Solo no olvides de guardar los cambios asignándolo a una variable

1
2
3
plot +
	labs(subtitle="Plot hecho en ggplot2")
	labs(caption= "Distribucion de la variable x")

Se puede guardar la imagen del plot con

1
ggsave("Rplot1.png",plot)

Distribución de la variable x hecho en ggplot2

OK, esto es suficiente para comenzar a practicar, no te olvides de leer la documentación de ggplot2 para gráficos más avanzados.

0%