Anda di halaman 1dari 3

Taller de gráficas

Métodos Cuantitativos (R)

El objetivo de este taller es desarrollar en el estudiante la habilidad de comprender el uso y


la aplicación de diferentes gráficas que facilitan la interpretación y el entendimiento de los
resultados en un análisis estadístico, enfocado principalmente a la utilización de éstas en R

¿Qué tipo de gráficas existen? beside: Valor lógico que cambia la gráfica de valores
por barra juntos a separados
La demostración de datos estadísticos a través de gráficas
permite entender e interpretar de manera más fácil los names.arg: Vector de nombres que se desea graficar
resultados, es por eso que existen diferentes tipos de gráficas por debajo de cada barra o grupo de barras
o diagramas, que son usados para conjuntos específicos
de datos, de los cuales se seleccionaron algunos para ser horiz: Valor lógico que modifica la manera en que son
explicados a continuación. dibujadas las barras

Diagrama de Barras main, sub: Título general y subtítulo del gráfico

En este tipo de gráfica, sobre los valores de las variables xlab, ylab: Nombres de los ejes
se levantan barras estrechas de longitudes proporcionales a
xlim, ylim: Límites de los ejes
las correspondientes. Se utilizan para representar variables
cuantitativas discretas. col: valor o valores de colores para rellenar las barras
Este gráfico es útil para representar datos categóricos
nominales u ordinales. A cada categoría o clase de la variable Ejemplo básico:
se le asocia una barra cuya altura representa la frecuencia o
la frecuencia relativa de esa clase. Las barras difieren sólo en datos=table(basedatos)
altura, no en ancho. La escala en el eje horizontal es arbitraria barplot(data=datos, main=’Titulo Gráfica’, xlab=’eje X’,
y en general, las barras se dibujan equiespaciadas, por esta ylab=’eje Y’)
razón este tipo de gráfico sólo debe usarse para variables
categóricas. Es importante que el eje vertical comience en De igual manera, se puede hacer uso de otras librerías
cero, de modo que no se exageren diferencias entre clases. para realizar esta gráfica, con el objetivo de realizar tareas
En un gráfico de barras, así como en cualquier tipo de gráfico que no pueden ser realizadas de manera regular con el
se debe indicar el número total de datos ya que el gráfico paquete "Graphics sus respectivas funciones. Una de las
2

sólo muestra porcentajes o frecuencias relativas y la fuente librerías es "ggplot"la cual funciona de manera diferente a
de la que se obtuvieron los mismos. Por otro lado, cuando la anteriormente vista, ya que en vez de usar comandos, se le
se desean comparar dos o más distribuciones de datos, por asigna el una función a una variable que posteriormente será
ejemplo la misma variable cualitativa a través de los años, el visualizada.
modo más simple de hacerlo es por medio de un gráfico de Ejemplo ggplot:
barras combinadas.
Para crear un diagrama de barras en R, podemos hacer uso grafica=ggplot(data=datos, aes(x=eje x, y=eje
del paquete "Graphics", el cual viene integrado por defecto y))+geom_bar(stat=ïdentity")
con el lenguaje. La función que nos permite realizar este tipo grafica
de gráficas es barplot(x), donde x es un vector o matriz que
contiene los datos que queremos graficar. Esta función recibe Histograma de Frecuencia
varios valores como parámetros pero nos centraremos en los
más importantes los cuales son: Sirven para visualizar la distribución de una única
variable continúa dividiendo el eje x en intervalos con
width: Vector opcional que contiene el grosor deseado números específicos de observaciones. Normalmente, los
de la barra de cada variable histogramas presentan la información de recuento por medio
de barras. Sin embargo, es necesario saber que los gráficos
space: Espacio deseado después de cada barra de frecuencia pretenden mostrar la distribución de los datos,
2 MÉTODOS CUANTITATIVOS (R)

y esta dependerá del número de clases o intervalos que se Se indica en la escala horizontal el punto medio de cada
incluyan. intervalo y en la escala vertical la escala densidad para ese
Es común que durante el manejo de datos, se confunda intervalo, esto define pares (x, y) en el gráfico que se unen
el uso de gráficos de barras cuando en realidad debe usarse con tramos de líneas rectas. Se marcan además los puntos
un histograma de frecuencia. Recuerden que el gráfico de medios del intervalo que precede al primero y del que sigue al
barras no tiene en cuenta el hecho de que los intervalos de último. No obstante este tipo de gráfico es adecuado cuando
clases tiene una longitud normalmente simétrica. Asimismo se quiere comparar la distribución entre los niveles de una
este representa el porcentaje en la altura de la barra, mientras variable categórica. El polígono de frecuencias es un gráfico
que el histograma muestra el porcentaje en el área de la barra. útil para comparar dos distribuciones de frecuencias.
Por último, en los gráficos de barras, éstas se encuentran Para poder graficar un polígono de frecuencias es
separadas para denotar una falta de continuidad, por tanto, si necesario instalar una librería, que facilitará el proceso,
se está graficando una variable continua, es imperativo el uso llamada .agricolae". Específicamente usaremos la función
del histograma, dado que no habrá saltos en la distribución polygon(x), siendo x el return de la funcion hist(), con
por el tipo de dato de la variable. todos los parametros de la función anterior, con la adición
Ahora bien, ¿cuándo usar cada uno de los gráficos de uno nuevo llamado frequency, el cual indica el
mencionados? Se debe tener en cuenta que: tipo de histograma que se está graficando, 1=frecuencia,
2=frecuencia relativa, 3=densidad de probabilidad.
- Cuando la variable que define los grupos es categórica
corresponde usar un gráfico de barras. Ejemplo agricolae:

- Cuando la variable que define las categorías es datos=table(basedatos)


numérica, en general lo que interesa es estudiar la x=hist(data=datos, main=’Titulo Grafica’,xlab=’eje
distribución de casos en las distintas edades, por lo x’,xlim=c(0,100),col="darkmagenta", freq=TRUE)
tanto es preferible el histograma ya que la escala del polygon(x, frequency=1, color=’red’)
eje horizontal respeta la escala de la variable de interés.
Gráfico Circular o Pie Chart
- Para variables numéricas discretas con pocos valores
posibles puede utilizarse un gráfico de barras. En este gráfico, ampliamente utilizado, se representa la
frecuencia relativa de cada categoría como una porción
Para hacer uso de este tipo de gráfica y dibujarla en de un círculo, en la que el ángulo se corresponde con la
R, podemos también hacer uso de la librería de graphics frecuencia relativa. Es importante indicar el número total de
utilizando la función hist(x), siendo x el vector del cual sujetos. Esta representación gráfica es muy simple y permite
queremos graficar los datos, la cual funciona de manera comparar la distribución de una variable categórica en 2 o
muy similar a la vista anteriormente y tiene los siguientes más grupos.
parámetros: Es importante tener en cuenta los siguientes aspectos al
freq: valor lógico que indica si la gráfica demuestra momento de diseñar un gráfico circular :
frecuencias o probabilidades, como una función de - Se debe identificar el “todo” así como sus partes.
densidad.
- Cada elemento estudiado debe pertenecer solo a una
include.lowest: valor lógico que incluye un valor x[i]
categoría.
como el primero en la gráfica.
- Se deben representar las proporciones para cada
El resto de los parámetros son muy similares al de la
categoría de la variable.
anterior gráfica.
Ejemplo básico: - La suma de las proporciones no debe exceder al 100 %.

datos=table(basedatos) - Se debe utilizar para representar máximo 5 categorías.


hist(data=datos, main=’Título Gráfica’,xlab=’eje
x’,xlim=c(50,100),col="darkmagenta", freq=TRUE) - Si la suma de las categorías más grandes y más
importantes suman menos del 100 %, entonces las
Polígonos de Frecuencia otras categorías se deben de agrupar en una sola, la
cual se debe identificar con el nombre de “otras”,
El polígono de frecuencias es similar al histograma en “varios”, etc.
muchos aspectos, pero pretende dar una imagen aproximada
de la “curva” definida por la distribución de la variable. Para Ahora bien, es importante resaltar que la información
construirlo se usan los mismos ejes que en el histograma. que brindan los dos tipos de gráficos, gráfico de barras y
INSERT SHORTTITLE COMMAND IN PREAMBLE 3

gráfico circular, es equivalente. Sin embargo, el gráfico de


boxplot(x,data=) donde x es una formula que relaciona los
barras resulta más natural para comparar las distribuciones
datos con la agrupación, dicha formula generalmente toma
de dos grupos, debido a que el ojo humano percibe mejor
la forma de y-group. A continuación usaremos los mismos
diferencias en longitudes que en ángulos. Por otra parte, en el
datos del ejemplo anterior para hacer un diagrama de caja.
gráfico de barras todas las barras comienzan al mismo nivel,
lo que facilita la comparación. Ejemplo básico:
Los gráficos circulares pueden ser dibujados con la
librería por defecto ’graphics’ usando la función pie(x), datos=cbind(10,5,8,6,9)
siendo x el vector de datos que queremos graficar. Esta frecuencia=cbind(3,2,1,2,3)
función recibe como parámetros más importantes los nombres=cbind(’a’,’b’,’c’,’d’,’e’)
siguientes: boxplot(datos-frecuencia,names=nombres, main=’Titulo
Grafica’)
labels: valor o valores de los nombres de las partes en
el piechart
Gráficos de Dispersión
radius: valor del tamaño del círculo
Es un gráfico muy simple y útil para estudiar relaciones
Ejemplo básico: entre dos variables cuantitativas. Se dibuja un sistema de
coordenadas cartesianas en el que se representan los valores
datos=cbind(10,5,8,6,9) que toman las dos variables para cada sujeto o unidad de
nombres=cbind(’a’,’b’,’c’,’d’,’e’) análisis. Se acostumbra asignar la variable independiente al
pie(datos,labels=nombres, main=’Titulo Grafica’) eje horizontal (comúnmente denominado eje X) y la variable
dependiente al eje vertical (eje Y).
De igual manera, podemos usar la librería aprendida La nube resultante de puntos permite evaluar si existe
anteriormente para realizar este tipo de gráficas. relación entre las dos variables y la naturaleza de tal relación.
Ejemplo ggplot: Si es lineal, curvilínea, exponencial, logarítmica, cíclica,
creciente, decreciente, etc. o si no hay relación aparente entre
datos=cbind(10,5,8,6,9) las variables.
nombres=cbind(’a’,’b’,’c’,’d’,’e’) Para interpretar un gráfico de dispersión debe mirarse el
piechart=ggplot(datos, aes(x=’eje x’, y=datos, patrón general que siguen los puntos. Este patrón debería
fill=nombres))+ geom_bar(width = 1, stat = ’identity’)+ revelar la dirección, forma y fuerza de la relación entre
coord_polar(’y’, start=0) las dos variables. En el caso de desear encontrar una
piechart relación lineal entre variables, es necesario realizar una
regresión lineal de los datos. En esencia para saber qué
Boxplot comportamiento tienen las variables a comparar y para
determinar si la relación es efectivamente lineal y valdría
En estadísticas descriptivas, un diagrama de caja o boxplot
la pena realizar el análisis de dicha relación por medio del
es un método para representar gráficamente grupos de datos
coeficiente de correlación lineal de Pearson.
numéricos a través de sus cuartiles. Los diagramas de caja
Por último, al graficar una nube de puntos o gráfico de
también pueden tener líneas que se extienden verticalmente
dispersión, únicamente es necesario usar la función más
desde las cajas (bigotes) que indican variabilidad fuera
básica del paquete ’graphics’, plot(x,y,...) siendo x e y los
de los cuartiles superior e inferior, de ahí el término
datos que deseamos graficar. El resto de los parámetros son
box-and-whisker plot. Los valores atípicos se pueden trazar
los mismos que para las funciones anteriores.
como puntos individuales. Los diagramas de caja no son
paramétricos: muestran la variación en las muestras de Para realizar una linea de regresión debemos usar la
una población estadística sin hacer ninguna suposición de función lm(y-x) la cual crea un modelo de regresión lineal
la distribución estadística. Los espaciamientos entre las entre la variable dependiente y y la independiente x y por
diferentes partes del cuadro indican el grado de dispersión último se grafica el resultado con la función abline(r) siendo
y la asimetría en los datos, y muestran valores atípicos. r el return de la función lm(y-x)
Además de los puntos en sí, permiten estimar visualmente Ejemplo básico:
varios valores, por ejemplo el rango entre otros. Los
diagramas de caja se pueden dibujar horizontal o datosx=table(databasex)
verticalmente. datosy=table(databasey)
Para graficar un diagrama de caja en R se puede llevar plot(x,y,main=’Título Gráfica’,xlab=’ejex’,ylab=’ejey’)
a cabo con la librería básica ’graphics’, con la función abline(lm(y-x), col=red")

Anda mungkin juga menyukai