Anda di halaman 1dari 8

Grficas estadsticas

Existe una gran variedad de grficos para representar informacin, los mas conocidos son los diagrama de barras, histogramas y diagramas de sectores, pero no son los nicos, vale la pena detenerse un momento para ver algunos de los grficos ideados por Tukey (19152000) como el " Box-and - Whisker Plot" (Diagrama de cajas) o el "Stem-and-Leaf Diagram" (Diagrama de tallo y hojas).

Diagrama de Tallos y Hojas

Cada dato representa su valor y, a la vez, ocupa un espacio de forma que obtenemos simultneamente la presentacin de los datos y el perfil de una distribucin en una variable. Por otra parte, la informacin repetitiva se reduce al mnimo.

Diagrama de Caja y Bigotes

El diagrama de caja y bigotes es un resumen grfico que permite visualizar, para un conjunto de datos, la tendencia central, la dispersin y la presencia posible de datos atpicos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el tercer cuartil de los datos.

Diagrama de Tallos y Hojas


El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formar el tallo). Esta representacin de los datos es semejante a la de un histograma pero adems de ser fciles de elaborar, presentan ms informacin que estos. Ejemplos

Horarios de trenes
Basndome en un articulo de Juan C. Drsteler en InfoVis.net, tomamos como ejemplo un horario de trenes confeccionado a partir de un dptico de la lnea CastelldefelsBarcelona/Sants recogido en la estacin de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas ms una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres. Dptico original Trayecto Castelldefels -> Barcelona-Sants
5.03 22.38 6.02 6.18 6.37 6.48 6.55 7.02 7.07 7.20 7.25 7.32 7.37 7.50 8.02 8.05 8.20 8.24 8.32 8.37 8.51 9.02 9.07 9.24 9.32 9.37 10.02 10.07 10.32 10.37 11.02 11.07 11.32 11.37 12.02 12.07 12.32 12.37 13.02 13.07 13.20 13.32 13.37 13.50 14.02 14.07 14.20 14.32 14.37 14.50 15.02 15.07 15.20 15.32 15.37 15.50 16.02 16.07 16.20 16.32 16.37 16.50 17.02 17.07 17.20 17.32 17.37 17.50 18.02 18.07 18.20 18.32 18.37 18.50 19.02 19.07 19.20 19.32 19.37 19.50 20.02 20.07 20.20 20.32 20.37 20.50 21.02 21.07 21.20 21.32 21.37

En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y los minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de la longitud de las filas y es, adems, muy fcil ver en que minutos de cada hora pasan tpicamente los mismos. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf
05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | | | | | | | | | | 03 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 38 18 07 05 07 07 07 07 07 07 07 07 07 07 07 07 07 37 20 20 24 32 32 32 20 20 20 20 20 20 20 20 20 48 25 24 32 37 37 37 32 32 32 32 32 32 32 32 32 55 32 37 50 32 37 51 37

37 37 37 37 37 37 37 37 37

50 50 50 50 50 50 50 50

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido
05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 | | | | | | | | | 03 02 02 02 02 02 02 02 38 18 07 05 07 07 07 07 37 20 20 24 32 20 20 48 25 24 32 37 32 32 55 32 37 50 32 37 51 37 37 50 37

Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces menos dgitos que con el horario original, menos espacio y ms claridad. Esto nos da idea de que una disposicin apropiada de los datos puede ser doblemente informativa y que la representacin grfica puede contribuir enormemente a la percepcin de patrones y a la comprensin de la naturaleza de los fenmenos.

Edad de 20 personas
Supongamos la siguiente distribucin de frecuencias
36 39 25 24 37 29 24 23 39 41 20 40 36 33 45 24 31 34 31 40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su tallo

Por ltimo reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribuciones


Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribucin
35 39 38 24 32 24 28 34 30 26 29 41 27 29 19 48 48 28 40 22

De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

Diagrama de Tallo y Hoja


No puedo comenzar hablando del grfico de Tallo y Hoja sin referirme a su creador John Wilder Tukey. Este Ingenioso Qumico y Matemtico dio su aporte a la estadstica con varias de las grficas ms usadas en el anlisis de datos exploratorio. Sus principales contribuciones fueron:

La introduccin de las modernas tcnicas para estimar el espectro de las series temporales. En 1965, en un artculo conjunto con J. W. Cooley, publicado en la revista Mathematics of Computation, introdujo el algoritmo de la transformada rpida de Fourier (FFT), fundamental para crear el procesamiento digital de datos.

Fund el Anlisis Exploratorio de Datos o EDA (Exploratory Data Analysis), una nueva aproximacin a la estadstica que usa fuertemente un conjunto de tcnicas basadas en el uso de grficos. Su libro Exploratory Data Analysis (1977) es el clsico sobre este tema. EDA es una filosofa bsicamente grfica de exploracin de datos estadsticos. Destacan los grficos "Box-and-Whisker Plot" (Diagrama de caja y bigotes) , el "Stem-and-Leaf Diagram" (Diagrama de tallo y hojas), los Radigramas (rootograms) y los Diagramas de ajuste.

Entonces Continuando... El Diagrama de Tallo y Hoja, a pesar de no ser un grfico definitivo para la presentacin de datos, es fcil y rpido para realizar a mano, con el se puede dar una mirada no pulida de los datos. Que podemos concluir al ver este grfico??? 1. El valor caracterstico de la distribucin (Promedio, moda, etc) 2. La forma general de la distribucin (simetra, asimetra a la derecha, asimetra a la izquierda)

3. Grado de dispersin respecto del valor caracterstico 4. Outlier (Observaciones individuales que se escapan del patrn general de los datos)

5. Huecos(hoyos) en los datos

6. Cantidad de peaks

Como construirlo?? En un grfico de tallo y hoja cada valor de datos es partido en "un tallo" "y una hoja". "La hoja" es por lo general el ltimo dgito del nmero y los otros dgitos a la izquierda "de la hoja" forman "el tallo". Por ejemplo, el nmero 136 sera partido como: TALLO: 13 HOJA: 6 1. Puede ordenar los datos de menor a mayor, esto ayudara a la organizacin de los datos (Opcional) 2. Separe cada nmero en un tallo y una hoja.

3. Agrupe los nmeros con los mismos tallos. Ponga los tallos en una lista en orden creciente. Veamos un Ejemplo con los siguientes 15 datos: 35, 36, 38, 40, 42, 42, 44, 45, 45, 47, 48, 49, 50, 50, 50

Algunos software como R, SPSS o MINITAB pueden separar el Tallo en una parte inferior(hojas desde el cero al 4) y otra superior (hojas desde el 5 al 9)

Este grfico tambin puede ser usado para comparar dos grupos de datos, trazando hojas al lado izquierdo y derecho del tallo. Adems facilita el calculo de cuantiles(percentiles, cuartiles, quintiles, etc etc). Su comando en R es: >X<-c(35, 36, 38, 40, 42, 42, 44, 45, 45, 47, 48, 49, 50, 50, 50) >stem(X) The decimal point is 1 digit(s) to the right of the | 3 | 568 4 | 0224 4 | 55789 5 | 000 > stem(X,scale=0.5) The decimal point is 1 digit(s) to the right of the | 3 | 568 4 | 022455789 5 | 000

Diagrama de Caja y Bigotes


Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentacin visual que describe varias caractersticas importantes, al mismo tiempo, tales como la dispersin y simetra. Para su realizacin se representan los tres cuartiles y los valores mnimo y mximo de los datos, sobre un rectngulo, alineado horizontal o verticalmente.

Construccin: Comparar distribuciones Diagrama de Caja a travs de Excel

Construccin:
Una grfica de este tipo consiste en una caja rectangular, donde los lados ms largos muestran el recorrido intercuartlico. Este rectngulo est dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mnimo y mximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un lmite de prolongacin, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Ejemplo distribucin de edades

Utilizamos la ya usada distribucin de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.
36 39 25 24 37 29 24 23 39 41 20 40 36 33 45 24 31 34 31 40

Ordenar los datos

Para calcular los parmetros estadstico, lo primero es ordenar la distribucin


40 41 20 23 45 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40

Calculo de Cuartiles

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmtica de dicho valor y el siguiente: Q1=(24 + 25) / 2 = 24,5 Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmtica de dicho valor y el siguiente: me= Q2 = (33 + 34)/ 2 =33,5 Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin. En nuestro caso, como 3N / 4 = 15, resulta Q2=(39 + 39) / 2 = 39

Dibujar la Caja y los Bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmn, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmx).
Informacin del diagrama

Podemos obtener abundante informacin de una distribucin a partir de estas representaciones. Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacin est ms dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello el 25% de los ms jvenes estn ms concentrados que el 25% de los mayores. El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la poblacin est comprendido en 14,5 aos.

Seguro que t podrs obtener ms informacin (Utiliza la mediana!)

Comparar distribuciones
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos de datos.

Comparacin distribucin de edades Comparacin entrenamientos de un corredor Comparacin clasificacin liga

Comparacin distribucin de edades

Anlogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta distribucin con la del otro ejemplo de distribucin de edades.
35 39 38 24 32 24 28 34 30 26 29 41 27 29 19 48 48 28 40 22

A partir de dicha comparacin puede obtenerse bastante informacin de ambas distribuciones.

Comparacin entrenamientos de un corredor

Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 das consecutivos (cada da se toman varios tiempos y se calculan mediana, cuartiles, valores mnimo y mximo) Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el mximo y el mnimo menor, como as tambin la diferencia intercuartlica.
Comparacin clasificacin liga

Las puntuacin de los equipos de la liga de la temporada 01/02 y 02/03 en primera divisin se pueden comparar con un diagrama caja y bigotes, como aparece aqu,

Comentarios: No hay datos muy atpicos, es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos. Hay ms diferencia de puntos entre el primer y el ltimo clasificado para la liga 02/03 que en la liga anterior. Los quipos del tercer cuarto de la clasificacin estn ms apelotonados en la liga 02/03.

Diagrama de Caja a travs de Excel


Diagrama de Caja realizado con la hoja de calculo EXCEL para una, dos o tres variables

Anda mungkin juga menyukai