Anda di halaman 1dari 4

ATENCIN PRIMARIA DE SALUD, EPIDEMIOLOGA E INFORMTICA II

AO 2011

GRFICO DE CAJA
DESCRIPCIN. El grfico de caja (box-plot en ingls) es una forma de presentacin estadstica
destinada, fundamentalmente, a resaltar aspectos de la distribucin de las observaciones en una o
ms series de datos cuantitativos. Reemplaza, en consecuencia, al histograma y a la curva de
distribucin de frecuencias sobre los que tiene ventajas en cuanto a la informacin que brinda y a la
apreciacin global que surge de la lectura. Fue ideado por John Tukey, de la Universidad de
Princeton (U.S.A.) en 1977 y los detalles que siguen corresponden a la descripcin dada por este
autor. Cabe destacar que en diferentes textos (y presentaciones del grfico) se utilizan de manera
diferente a las sealadas por su creador algunos elementos de la presentacin; lo que, en lo posible,
se aclara en este documento.
ELEMENTOS CONSTRUCTIVOS. Este grfico utiliza una sola escala: la correspondiente a la
variable de los datos que se presentan. Es decir, no utiliza escala de frecuencias. Por lo tanto, no
corresponde asociarlo a los que utilizan el sistema de coordenadas cartesianas. Los elementos que
los constituyen son (ver Figura 1):
La caja: Es un rectngulo que abarca el recorrido (o rango, o intervalo) intercuartlico (RIC) de la
distribucin; o sea, el tramo de la escala que va desde el primer cuartil (C1) al tercer cuartil (C3).
Esto incluye el 50 % de las observaciones centrales.
Mediana: Se dibuja mediante una lnea (algunos lo marcan con un asterisco, otros con una cruz)
dentro de la caja y a la altura de la escala que corresponde al valor de esa medida.
Bigotes: Son lneas que salen a los costados de la caja y que sirven como referencia para ubicar las
observaciones que estn por fuera del 50 % central de la distribucin. (Para determinar su longitud:
ver explicacin ms adelante).
Cercados interiores: Indica la finalizacin de los bigotes. A veces no se dibujan.
Cercados exteriores: Ubicados ms perifricamente en la distribucin. Casi nunca se dibujan.
Perifricos (o perifricos prximos): Sealamiento de las observaciones que se encuentran entre
el cercado interior y el cercado exterior. Se marcan con un asterstico . (Algunos paquetes
informticos utilizan una O).
Perifricos lejanos (o perifricos extremos): Sealamiento de las observaciones que se encuentran
fuera del cercado exterior. Se marcan con un punto grande . (Algunos paquetes informticos
utilizan una E y otros una X).
CONSTRUCCIN: (Ver Fig. 1). La creacin de la caja no ofrece dificultades ya que se extiende
entre el C1 y el C3; quedando, as, determinados los lados izquierdo y derecho por los puntos de la
escala a la que corresponden esas medidas. Los lados superior e inferior no estn determinados ms
que por la conveniencia esttica de la presentacin; es decir, lo define quien lo dibuja (o el
programa informtico). Tampoco representa dificultad trazar la mediana: se lo hace a la altura de la
escala donde se encuentre el valor correspondiente a ese estadstico.
Los bigotes merecen alguna descripcin ms detallada. En principio, cada uno debe tener un
largo mximo equivalente a 1 veces el largo de la caja. En la Figura 1 el RIC es de 1ao (5,5
4,5); por lo tanto los bigotes tendrn una extensin de 1,5 aos, llegando hasta 3 aos y 7 aos en
el ejemplo. All se dibujar el cercado interior, siempre que haya un valor correspondiente en esos
puntos (3 y 7); es decir, siempre que el cercado interior se corresponda con una observacin. Si
donde debiera dibujarse el cercado interior no hay ninguna observacin, ese lmite se marcar a la
altura de la observacin ms prxima hacia el centro de la distribucin. Por este motivo los bigotes
pueden tener dimensiones diferentes a las dadas y, an, ser diferentes entre ellos. En caso de
dibujarse, cada cercado exterior se lo coloca a una distancia de la caja correspondiente a 3 veces el

Prof. Alberto C. Palladino

Pgina 1

ATENCIN PRIMARIA DE SALUD, EPIDEMIOLOGA E INFORMTICA II

AO 2011

largo de la misma; es decir, el doble de la distancia a la que se encuentra el cercado interior (si es
que se lo ha dibujado con su extensin mxima). Como se dijo, casi nunca se marca.
Los perifricos representan los valores atpicos. Estos valores pueden ser atpicos leves
(si estn entre ambos cercados y corresponden a los perifricos prximos) y atpicos extremos si
estn fuera del cercado exterior (correspondiendo a los perifricos lejanos). Se dibujan de la manera
sealada; aunque, en algunas presentaciones no los diferencian, marcndolos todos con asteriscos o
todos con puntos. En el ejemplo de la Figura 1 hay dos perifricos prximos, correspondientes a
valores 2,5 y 8,5. Si la distribucin no posee valores por fuera del cercado interior, no habr
representacin de asteriscos y puntos. Sin embargo, se observa en presentaciones de este tipo que
no se han dibujado esos elementos simplemente porque los cercados interiores se los ha extendido
hasta abarcar los valores ms extremos de la distribucin; constituyendo esto un error de
construccin, de acuerdo a la versin original del creador de este grfico.
Aunque ac se lo ha descripto de manera horizontal, generalmente el grfico se presenta
verticalmente: la escala de la variable trazada sobre una lnea vertical y a la derecha el resto de los
elementos correspondientes a una (o ms) distribuciones. Este grfico es til para representar ms
de una distribucin de frecuencias, siempre que las series utilicen la misma escala y en un tramo de
ella que permita la comparacin en un mismo grfico. En su presentacin vertical (la ms habitual)
los valores de la escala se incrementan de abajo hacia arriba. En el ejemplo de la Figura 1, entonces,
el 1 estar abajo y el 9 arriba. En tanto, el lado izquierdo de la caja (as como el bigote y los
cercados correspondientes) pasar a ser el inferior y lo inverso con los elementos del lado opuesto.
INTERPRETACIN: Este grfico brinda informacin sobre la forma general de la curva:
simetra, curtosis (curvas ms afinadas o ms aplanadas), el punto de la mediana, la
distribucin de las observaciones a ambos lados de los valores centrales y la presencia (y el/los
valor/es) de valores atpicos. Se insiste que este grfico no refiere la frecuencia para cada valor;
pero, s, con los elementos sealados se puede inferir cmo se distribuyen esas frecuencias a lo
largo de la escala de referencia.
En el caso particular de la distribucin normal el grfico tendr las caractersticas del de la
Figura 1. La mediana estar ubicada en el centro de la caja, cada bigote tendr una longitud 1
veces de la longitud de la caja (y sern igual entre ellos). El intervalo dado por ambos cercados
interiores comprender el 95 % de las observaciones. Los asteriscos indicarn la presencia de
valores entre el cercado interior y el cercado exterior. El intervalo entre los dos cercados exteriores
comprender al 99 % de las observaciones. Los puntos indicarn la presencia de valores por fuera
del cercado exterior. Es decir, si la serie la componen 200 observaciones (y tratndose de una
distribucin normal) habr 10 marcas (5 por cada lado) por fuera de lo cercados interiores: las 4
ms prximas (de cada lado) se sealarn con un asterisco () y 1 observacin de cada lado (la
ms perifrica) se referenciar con un punto ().
Si la distribucin es asimtrica los elementos se modificarn segn el sesgo de esa
distribucin. (Sesgo negativo: cola de la curva ms larga hacia los valores ms bajos; sesgo
positivo: cola de la curva ms larga hacia los valores ms altos). La Figura 2 muestra un grfico de
caja para una serie con sesgo negativo. Se observa que la mediana est ms cerca del lado derecho
de la caja (valores ms altos); lo que implica que el 25 % de las observaciones comprendidas entre
el segundo y tercer cuartil ocupa un menor tramos en la escala (las observaciones estn ms
prximas) que igual proporcin de observaciones correspondiente a valores comprendidos entre el
primer y segundo cuartil. La mayor o menor longitud total de la caja indicar el grado de
concentracin del 50 % central de las observaciones. El bigote izquierdo (o inferior en la
presentacin vertical) es ms largo por corresponder a la cola ms larga de la curva que presentara
esta distribucin; lo que, a su vez, sugiere una mayor dispersin de las observaciones hacia los
Prof. Alberto C. Palladino

Pgina 2

ATENCIN PRIMARIA DE SALUD, EPIDEMIOLOGA E INFORMTICA II

AO 2011

valores ms bajos. Lo opuesto ocurre en la Figura 3, en la que se muestra un grfico de caja de una
distribucin con sesgo positivo.
VENTAJAS: El grfico de caja es una buena alternativa a la presentacin tradicional de datos
medidos con escala cuantitativa: el histograma. En ste algunas caractersticas de la distribucin
pueden quedar enmascaradas por la construccin de los intervalos de clase; como por ejemplo: los
valores de la escala que corresponden al 50 % de las observaciones centrales y al 25 % de las
observaciones de cada lado, el valor de la mediana, los valores de observaciones muy apartadas de
las posiciones centrales, etc. Es decir, es una presentacin que agrega a las ventajas de los grficos
(rpida comprensin visual) algunas referencias estadsticas Por otra parte, permite cotejar varias
series de datos medidas con la misma escala y ubicadas en posiciones parecidas de sta; siendo, en
tal sentido, ms claro y de mayor informacin que el polgono de frecuencias (utilizado para
comparar dos o ms histogramas).

9
(aos de edad)

Figura 1: Grfico de caja en una distribucin normal.

9
(aos de edad)

Figura 2: Grfico de caja en una distribucin con sesgo negativo.

9
(aos de edad)

Figura 3: Grfico de caja en una distribucin muy sesgada (sesgo positivo).

Prof. Alberto C. Palladino

Pgina 3

ATENCIN PRIMARIA DE SALUD, EPIDEMIOLOGA E INFORMTICA II

AO 2011

A la izquierda se presenta un grfico de


caja en el que se comparan dos categoras de
una variable (sexo); mostrando la distribucin
por edades de pacientes HIV de la Provincia
del Chaco en el perodo 1989-2007. Es decir,
las distribuciones corresponden a la variable
edad y cada serie corresponde a una categora
de la variable sexo. Puede observarse aqu que
la distribucin es mayor (es decir, mayor
dispersin) para el sexo femenino; el que, por
otra parte, presenta una edad promedio
(mediana) menor que el de varones. Adems, el
95 % de las mujeres llega hasta edades ms
tempranas; si bien, hay casos desde la edad 0
en ambas categoras. El grfico no muestra
(como es propio de esta presentacin) cuntos
hay en que cada tramos de los respectivos
dibujos; aunque, se ha colocado al pie de cada
caja el n total de cada poblacin. La escala
dibujada en la vertical es la correspondiente a la variable edad valores de la variable y sirve para
mostrar la extensin de los distintos elementos del dibujo (caja, bigotes, etc.)

Prof. Alberto C. Palladino

Pgina 4

Anda mungkin juga menyukai