Anda di halaman 1dari 4

Diagrama de Caja o Boxplot

Un diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un


conjunto de datos. Est compuesto por un rectngulo, la "caja", y dos brazos, los "bigotes".
Es un grfico que suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1,
Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin.

Es la representacin grfica, basada en cuartiles, que ayuda a exhibir un conjunto de datos.


Para construir un diagrama de caja, solo se necesita cinco estadsticos: el valor mnimo, Q1
(cuartel 1), la mediana, Q3 (cuartel 3) y el valor mximo.
Proporcionan una visin general de la simetra de la distribucin de los datos; si la mediana
no est en el centro del rectngulo, la distribucin no es simtrica. Son tiles para ver la
presencia de valores atpicos.
Tomemos un ejemplo: (Grfico 1)
La variable medida en este caso es : tiempo en segundos para recorrer 100 m

Mediana
Primer cuartil Tercer cuartil
Valor mnimo de la variable Valor mximo de la variable
Los bigotes tienen un lmite de prolongacin, de modo que aquellos valores atpicos que se
separan del cuerpo principal de datos se indican individualmente. A diferencia de otros
mtodos de presentacin de datos, los grficos de caja muestran los valores atpicos de la
variable. Llamaremos valores atpicos de la variable a aquellos que estn tan apartados del
cuerpo principal de los datos que bien pueden representar los efectos de causas extraas,
como algn error de medicin o registro. Su eliminacin no se justifica, ya que el propsito
del grfico de caja consiste en brindarnos un mayor conocimiento de la forma en que se
distribuyen los datos.
Tukey ( citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de los

bigotes. Para esto calcula 4 barreras, dos interiores y dos exteriores:


Barrera interior inferior=Primer cuartil 1,5 . RIC
Barrera interior superior=Tercer cuartil + 1,5 . RIC
Barrera exterior inferior=Primer cuartil 3 . RIC
Barrera exterior superior=Tercer cuartil + 3 . RIC
Recordemos que RIC (Recorrido Intercuartlico) es igual a la diferencia entre el Tercer cuartil
y el Primero.
Si se consideran los valores de la variable comprendidos entre las dos barreras interiores, el
valor mnimo de la variable y el valor mximo son los extremos de los bigotes.
Si existen valores de la variable comprendidos entre las barreras interiores y exteriores se
consideran valores atpicos y se indican con *. Si existieren valores fuera de las barreras
exteriores se consideran valores todava ms atpicos y se indican con .
Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la simetra o
asimetra de la distribucin. Se utilizan los siguientes criterios: si la mediana est en el centro
de la caja o cerca de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca del primer cuartil indica que los datos son positivamente
asimtricos y si est ms cerca del tercer cuartil, seala que los datos son negativamente
asimtricos. Asimismo, la longitud relativa de los bigotes se puede emplear como un indicio
de su asimetra.
Una vez realizado el grfico, qu tipo de preguntas debemos formular para una mejor
comprensin?
Algunas preguntas podran ser las siguientes:
Qu porcentaje de los datos est representado por la caja?
Qu porcentaje representa cada uno de los bigotes?
Puede ser un bigote ms largo que otro?. Cul es el significado?
Se encuentra la mediana siempre en el centro de la caja?
Ejemplo
Dominos Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Ral el propietario,
desea informacin relacionada con el tiempo de entrega. Cunto tiempo tarda una entrega
tpica?. En que margen de tiempos deben completarse la mayora de las entregas?. En el caso
de una muestra de 20 entregas, Ral recopil la siguiente informacin:
Valor mnimo = 13 min.
Cuartil 1 = 15 min.
Mediana = 18 min.
Cuartil 3 = 22 min.
Valor mximo = 30 min.
Elabore un diagrama de caja para los tiempos de entrega. Qu conclusiones deduce sobre los
tiempos de entrega?
El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada a lo
largo del eje horizontal. Enseguida, dibujamos una caja que inicie en Q1 (15 min) y termine
Q3 (22 min). Dentro de la caja trazamos una lnea vertical para representar a la mediana (18
min). Por ltimo, prolongamos lneas horizontales a partir de la caja dirigidas al valor mnimo
(13 min) y al valor mximo (30 min). Estas lneas horizontales que salen de la caja, a veces
reciben e nombre de bigotes, en virtud de que se asemejan a los bigotes de un gato.

El Diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15 y 22
minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil. Este
rango es la distancia entre el primer y tercer cuartel; muestra la propagacin o dispersin de
la mayora de las entregas.
Cul es la importancia entonces del uso de los grficos de caja?
En particular, los grficos de caja vinculan los conceptos de mediana, cuartiles, valor mnimo
y mximo que los alumnos manejan individualmente pero no en forma global.

El diagrama de tallos y hojas


Dado un conjunto de datos formado por

observaciones, las cuales pueden ser

representadas mediante
y donde cada
tiene
por lo menos dos dgitos. Una forma rpida de obtener una representacin
visual del conjunto de datos es construir un diagrama de tallos y hojas. Este
diagrama es usado cuando hay un nmero no muy pequeo de datos. Los
siguientes son los pasos para construir un diagrama de tallos y hojas:
1. Seleccionar uno o ms dgitos iniciales para los valores de tallo. El
dgito(s) final(es) se convierte (n) en hojas. Para facilitar la
determinacin de la forma de la distribucin de los datos se necesitan al
menos 5 tallos.
2. Hacer una lista de valores de tallo en una columna vertical.
3. Registrar las hojas por cada observacin junto al valor correspondiente
del tallo.
4. Indicar las unidades para tallos y hojas en algn lugar del diagrama.
Muchos de los procedimientos estadsticos que se desarrollarn en la siguientes
unidades suponen que la variable aleatoria estudiada tiene al menos una
distribucin aproximadamente normal, para la cual el diagrama de tallos y
hojas tiene forma de campana.
Los diagramas de tallos y hojas nos dan una idea de la localizacin de los datos
y de la forma de la distribucin. Esta tcnica funciona bien para los conjuntos
de datos que no tienen una dispersin muy grande.

Ejemplo
La siguiente tabla representa el porcentaje de algodn en un material utilizado
para la fabricacin de camisas para caballeros.

Tabla 1. Datos del porcentaje de algodn


33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6
34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1
35.6 35.0 34.7 34.1 34.6 35.9 34.6 34.7
36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7
35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8
34.7 36.8 35.0 37.9 34.0 32.9 32.1 34.3
33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7
32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8

El diagrama de tallos y hojas para los anteriores datos aparece a continuacin.


Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el
nmero 1 despus del punto significa que se usa una sola cifra decimal).
Tallo Hojas
6

32

156789

18

33

114566666688

(21) 34

011122355666667777779

25

35

00111234456789

11

36

234888

37

13689

Algunas veces, la utilizacin del primero o de los dos primeros dgitos de los
datos puntuales como tallos no proporcionan suficientes tallos como para
permitirnos detectar la forma de su distribucin. Una manera de solucionar esto
es utilizar tallos dobles. Es decir, utilizar cada tallos dos veces: una vez para
trazar las hojas inferiores 0, 1, 2, 3, 4, y a continuacin nuevamente para
trazar las hojas superiores 5, 6, 7, 8, 9. El siguiente grfico ilustra lo anterior