Anda di halaman 1dari 49

2.

Medidas descriptivas

2.1 Introduccin
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuacin. En este sentido pueden examinarse varias caracter sticas, siendo las ms comunes! La tendencia central de los datos" La dispersin o variacin con respecto a este centro" Los datos que ocupan ciertas posiciones. La simetra de los datos. La forma en la que los datos se agrupan.

Figura: Medidas representativas de un conjunto de datos estad sticos

# lo largo de este cap tulo, $ siguiendo este orden, iremos estudiando los estad sticos que nos van a orientar sobre cada uno de estos niveles de informacin! valores alrededor de los cuales se agrupa la muestra, la ma$or o menor fluctuacin alrededor de esos

valores, nos interesaremos en ciertos valores que marcan posiciones caracter sticas de una distribucin de frecuencias as como su simetr a $ su forma.

2.3 Estadsticos de tendencia central


Las tres medidas ms usuales de tendencia central son! la media, la mediana, la moda. En ciertas ocasiones estos tres estad sticos suelen coincidir, aunque generalmente no es as . %ada uno de ellos presenta ventajas e inconvenientes.

2.3.2 La media
La media aritmtica de una variable estad stica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es X ni fi x& n& f& ... ... ... xk nk fk la media es el valor que podemos escribir de las siguientes formas equivalentes!

'i los datos no estn ordenados en una tabla, entonces

2.3.2.1 Observacin
(emos supuesto impl citamente en la definicin de media que tratbamos con una variable X discreta. 'i la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritm)tica obtenida a partir de las marcas de clase ci, diferir de la media obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que ser tanto ma$or cuanto ma$or sea la diferencia entre los valores reales $ las marcas de clase, o sea, cuanto ma$ores sean las longitudes ai, de los intervalos.

2.3.2.2 Pro osicin


La suma de las diferencias de la variable con respecto a la media es nula, es decir,

*emostracin +asta desarrollar el sumatorio para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x&, mediante el valor central , es compensado por los dems errores!

'i los errores se consideran con signo positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error alguna de las siguientes!

que son cantidades estrictamente positivas si alg,n

2.3.2.3 E!em lo
-btener las desviaciones con respecto a la media en la siguiente distribucin $ comprobar que su suma es cero. li.& . li / . &/ ni &

&/ . 2/ 2 2/ . 0/ 1 0/ . 1/ 0 "olucin: li.& . li / . &/ &/ . 2/ 2/ . 0/ 0/ . 1/ ni & 2 1 0 n6&/ La media aritm)tica es! xi 2 &2 22 02 xi ni 2 0/ &// &/2 .&3 .3 5& 5&& .&3 .&4 51 500

%omo se puede comprobar sumando los elementos de la ,ltima columna,

2.3.2.# Pro osicin $%&nig'


7ara cualquier posible valor kque consideremos como candidato a medida central, mejora en el sentido de los m nimos cuadrados, es decir lo

*emostracin 'ea . 8eamos que el error cuadrtico cometido por kes ma$or que el de .

2.3.2.( Pro osicin $Linealidad de la media'

2.3.2.) Pro osicin


*ados r grupos con n&, n2, ..., nrobservaciones $ siendo medias de cada uno de ellos. Entonces la media de las es , , ..., las respectivas observaciones

*emostracin 8amos a llamar xij a la j.)sima observacin del grupo i" Entonces tenemos

#s , agrupando convenientemente las observaciones se llega a que

2.3.2.* Observacin
# pesar de las buenas propiedades que ofrece la media, )sta posee algunos inconvenientes!

9no de ellos es que es mu$ sensible a los valores extremos de la variable! $a que todas las observaciones intervienen en el clculo de la media, la aparicin de una

observacin extrema, har que la media se desplace en esa direccin. En consecuencia, no es recomendable usar la media como medida central en las distribuciones mu$ asim)tricas" *epende de la divisin en intervalos en el caso de variables continuas. 'i consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias de Mlaga el valor de la media puede no pertenecer al conjunto de valores de la variable" 7or ejemplo hijos.

2.3.2.+ ,-lculo abreviado


'e puede utili:ar la linealidad de la media para simplificar las operaciones necesarias para su clculo mediante un cambio de origen $ de unidad de medida. El m)todo consiste en lo siguiente! &. ;omamos a un n,mero que exprese aproximadamente el tipo de unidad con la que se trabaja. 7or ejemplo, si las unidades que usamos son millones, tomamos a6&.///.///. 2. 'eleccionamos un punto cualquiera de la :ona central de la tabla, x/. Este punto jugar el papel de origen de referencia. 0. %ambiamos a la variable

1. %onstruimos de este modo la tabla de la variable Z, para la que es ms fcil calcular directamente, $ despu)s se calcula mediante la relacin <2.2=.

2.3.2.. /edias generali0adas


En funcin del tipo de problema varias generali:aciones de la media pueden ser consideradas. (e aqu algunas de ellas aplicadas a unas observaciones x&, ..., xn! La media geomtrica , es la media de los logaritmos de los valores de la variable!

Luego

'i los datos estn agrupados en una tabla, entonces se tiene!

La media armnica , se define como el rec proco de la media aritm)tica de los rec procos, es decir,

7or tanto,

La media cuadr-tica , es la ra : cuadrada de la media aritm)tica de los cuadrados!

2.3.# La mediana

%onsideramos una variable discreta X cu$as observaciones en una tabla estad stica han sido ordenadas de menor a ma$or. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de s al de las observaciones. 7or tanto, si n es el n,mero de observaciones, la mediana corresponder a la observacin >n?2@5&, donde representamos por la parte entera de un n,mero.

Figura: %lculo geom)trico de la mediana

En el caso de variables continuas, las clases vienen dadas por intervalos, $ aqu la frmula de la mediana se complica un poco ms <pero no demasiado=! 'ea <li.&,li@ el intervalo donde hemos encontrado que por debajo estn el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolacin lineal <teorema de ;hales= como sigue <figura 2.2=!

2.3.#.1 Observacin
La relacin <2.2= corresponde a definir para cada posible observacin, , su frecuencia relativa acumulada, F<x=, por interpolacin lineal entre los valores F<lj.&= 6 Fj. & $ F<lj= 6 Fj de forma que

*e este modo, Med es el punto donde

. Esto equivale a decir que la .

mediana divide al histograma en dos partes de reas iguales a

2.3.#.2 Observacin
Entre las propiedades de la mediana, vamos a destacar las siguientes! %omo medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, $a que no depende de los valores que toma la variable, sino del orden de las mismas. 7or ello es adecuado su uso en distribuciones asim)tricas. Es de clculo rpido $ de interpretacin sencilla. # diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos <ej. La mediana de una variable nmero de hijos toma siempre valores enteros=. 'i una poblacin est formada por 2 subpoblaciones de medianas Med& $ Med2, slo se puede afirmar que la mediana, Med, de la poblacin est comprendida entre Med& $ Med2

El ma$or defecto de la mediana es que tiene unas propiedades matemticas complicadas, lo que hace que sea mu$ dif cil de utili:ar en inferencia estadstica. Es funcin de los intervalos escogidos. 7uede ser calculada aunque el intervalo inferior o el superior no tenga l mites.

La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor. Este es el equivalente al teorema de ABnig <proposicin 2.&= con respecto a la media, pero donde se considera como medida de dispersin a!

2.3.#.3 E!em lo
'ea X una variable discreta que ha presentado sobre una muestra las modalidades

'i cambiamos la ,ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media!

En este caso la media no es un posible valor de la variable <discreta=, $ se ha visto mu$ afectada por la observacin extrema. Este no ha sido el caso para la mediana.

2.3.#.# E!em lo
-btener la media aritm)tica $ la mediana en la distribucin adjunta. *eterminar grficamente cul de los dos promedios es ms significativo. li.& . li / . &/ &/ . 2/ 2/ . 0/ ni C/ 4/ 0/

0/ . &// 2/ &// . 2// &/ "olucin: li.& . li / . &/ ni C/ ai &/ xi 2 xi ni 0//

C/

C/

&/ . 2/ 2/ . 0/ 0/ . &// &// . 2//

4/ 0/ 2/ &/ n62//

&/ &/ D/

&2 22 C2

&.2// D2/ &.0// 0.///

&1/ &D/

4/ 0/

&3/ 2,3 2// /,22

1// 0//

La media aritm)tica es!

La primera frecuencia absoluta acumulada que supera el valor n?26&// es ello el intervalo mediano es >&/"2/=. #s !

6&1/. 7or

7ara ver la representatividad de ambos promedios, reali:amos el histograma de la figura 2.0, $ observamos que dada la forma de la distribucin, la mediana es ms representativa que la media.

Figura: 7ara esta distribucin de frecuencias es ms representativo usar como


estad stico de tendencia central la mediana que la media.

2.3.) La moda
Llamaremos moda a cualquier mximo relativo de la distribucin de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia ma$or que su anterior $ su posterior.

Figura: %lculo geom)trico de la moda

En el caso de variables continuas es ms correcto hablar de intervalos modales. 9na ve: que este intervalo, <li.&, li@, se ha obtenido, se utili:a la siguiente frmula para calcular la moda, que est motivada en la figura 2.1!

2.3.).1 Observacin
*e la moda destacamos las siguientes propiedades! Es mu$ fcil de calcular. 7uede no ser ,nica. Es funcin de los intervalos elegidos a trav)s de su amplitud, n,mero $ l mites de los mismos. #unque el primero o el ,ltimo de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada.

2.3.+ 1elacin entre media2 mediana 3 moda


En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida entre la media $ la moda <incluso ms cerca de la media=. En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de la mediana. 'in embargo en estudios relacionados con propsitos estad sticos $ de inferencia suele ser ms apta la media. 8eamos un ejemplo de clculo de estas tres magnitudes.

2.3.+.1 E!em lo
%onsideramos una tabla estad stica relativa a una variable continua, de la que nos dan los intervalos, las marcas de clase ci, $ las frecuencias absolutas, ni. Entervalos ci ni / .. 2 & 2 2 .. 1 0 & 1 .. C 2 1 C .. 4 D 0 4 . &/ 3 2

7ara calcular la media podemos aFadir una columna con las cantidades de los t)rminos de esa columna dividida por n6&2 es la media! Entervalos ci ni
i

. La suma

/ .. 2 & 2 2 2 .. 1 0 & 0 1 .. C 2 1 * C .. 4 D 0 &/ 4 . &/ 3 2 &2 &2 C1

2 0 2/ 2& &4

La mediana es el valor de la variable que deja por debajo de s a la mitad de las n observaciones, es decir C. %onstruimos la tabla de las frecuencias absolutas acumuladas, i, $ vemos que eso ocurre en la modalidad tercera, es decir,

7ara el clculo de la , lo primero es encontrar los intervalos modales, buscando los mximos relativos en la columna de las frecuencias absolutas, ni. 8emos que ha$ dos modas, correspondientes a las modalidades i6&, i60. En el primer intervalo modal, <l/,&@6</,2@, la moda se calcula como

El segundo intervalo modal es <l2,l0@6<1"C@, siendo la moda el punto perteneciente al mismo que se obtiene como!

En este caso, como se ve en la figura 2.2, la moda no toma un valor ,nico, sino el conjunto

Figura: *iagramas diferencial e integral con clculo geom)trico de la moda $ de la mediana de la variable.

2.( Estadsticos de osicin


7ara una variable discreta, se define el ercentil de orden k, como la observacin, !k, que deja por debajo de si el de la poblacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que

Med6 !2/

En el caso de una variable continua, el intervalo donde se encuentra calcula buscando el que deja debajo de si al obtiene seg,n la relacin!

, se

de las observaciones. *entro de )l, !k se

7or su propia naturale:a, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no puede considerarsele como una medida de tendencia central. Los cuartiles, "l, son un caso particular de los percentiles. (a$ 0, $ se definen como!

*e forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en &/ grupos de igual tamaFo. Ms precisamente, definimos #&,#2, ..., #3 como!

Los percentiles <que inclu$en a la mediana, cuartiles $ deciles= tambi)n son denominados estadsticos de osicin.

2.(.4.1 E!em lo
*ada la siguiente distribucin en el n,mero de hijos de cien familias, calcular sus cuartiles. xi / ni &1
i

&1

& 2 0 1 2

&/ &2 2C 2/ &2 n6&//

21 03 C2 42 &//

"olucin: &. 7rimer cuartil!

2. 'egundo cuartil!

0. ;ercer cuartil!

2.(.4.2 E!em lo
%alcular los cuartiles en la siguiente distribucin de una variable continua! li.& . li /.& &.2 2.0 ni &/ &2 &2
i

&/ 22 01

0.1 1.2

&/ D n62&

11 2&

"olucin: &. 7rimer cuartil

2. 'egundo cuartil!

0. ;ercer cuartil

2.(.4.3 E!em lo
(an sido ordenados los pesos de 2& personas en la siguiente tabla! Entervalos f.a. li.& .. li 04 .. 12 12 .. 22 22 .. 23 23 .. CC CC .. D0 ni 0 2 D 0 C 2& Encontrar aquellos valores que dividen a los datos en 1 partes con el mismo n,mero de observaciones. "olucin: Las cantidades que buscamos son los tres cuartiles! , $ . 7ara calcularlos, le aFadimos a la tabla las columnas con las frecuencias acumuladas, para locali:ar qu) intervalos son los que contienen a los cuartiles buscados! li.& .. li ni
i

04 .. 12 0 12 .. 22 2

0 2

22 .. 23 D &2 23 .. CC 0 &2 CC .. D0 C 2& 2& $ se encuentran en el intervalo 22..23, $a que 06&2 es la primera f.a.a. que supera a $

. est en CC..D0, pues 62& es el primer i 2 ma$or que #s se tiene que! .

-bs)rvese que

. Esto es lgico, $a que la mediana divide a la distribucin en

dos partes con el mismo n,mero de observaciones, $ , hace lo mismo, pues es deja a dos cuartos de los datos por arriba $ otros dos cuartos por abajo.

2.(.4.# E!em lo
La distribucin de una variable tiene por pol gono acumulativo de frecuencias el de la figura 2.C. 'i el n,mero total de observaciones es 2/! &. Elaborar una tabla estad stica con los siguientes elementos! intervalos, marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa $ frecuencias relativa acumulada. 2. %untas observaciones tuvieron un valor inferior a &/, cuntas inferior a 4 $ cuntas fueron superior a &&. 0. %alcule las modas.

1. *etermine los cuartiles.

Figura: *iagrama acumulado de frecuencias relativas.

"olucin: &. En la siguiente tabla se proporciona la informacin pedida $ algunos clculos auxiliares que nos permitirn responder a otras cuestiones. Entervalos ni /.2 2.D D . &2 &2 . &2 2. %alculemos el n,mero de observaciones pedido!
i

fi

Fi

xi

ai 2 &

&/ &/ /,2 /,0 2,2 2 22 02 /,2 /,D &/ 2/ /,2 & C 2 1/ /,& /,4 3,2 2

2 &2,2

&0,2 D 0,00

&/ 5 2250 6 04 observaciones tomaron un valor inferior a &/

&/ 5 225& 6 0C observaciones tomaron un valor inferior a 4

2/ .<&/ 5 2251= 6 2/.036&& observaciones tomaron un valor superior a && 0. (a$ dos modas. %alculemos la ms representativa!

1. %uartiles!

2.* /edidas de variabilidad o dis ersin

Los estad sticos de tendencia central o posicin nos indican donde se sit,a un grupo de puntuaciones. Los de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o si por el contrario estn o mu$ dispersas. 9na medida ra:onable de la variabilidad podr a ser la am litud o rango, que se obtiene restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular $ sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes!

Go utili:a todas las observaciones <slo dos de ellas=" 'e puede ver mu$ afectada por alguna observacin extrema" El rango aumenta con el n,mero de observaciones, o bien se queda igual. En cualquier caso nunca disminu$e.

En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior. Estas se determinan en funcin de la distancia entre las observaciones $ algun estad stico de tendencia central.

2.*.2 5esviacin media2 Dm


'e define la desviacin media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x&, ..., xn, entonces

'i los datos estn agrupados en una tabla estad stica es ms sencillo usar la relacin

%omo se observa, la desviacin media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente! *esde el punto de vista geom)trico, la distancia que induce la desviacin media en el espacio de observaciones no es la natural <no permite definir ngulos entre dos conjuntos de observaciones=. Esto hace que sea mu$ engorroso trabajar con ella a la hora de hacer inferencia a la poblacin.

2.*.# 6arian0a 3 desviacin t ica


%omo forma de medir la dispersin de los datos hemos descartado!

, pues sabemos que esa suma vale /, $a que las desviaciones con respecto a la media se compensan al haber t)rminos en esa suma que son de signos distintos. 7ara tener el mismo signo al sumar las desviaciones con respecto a la media podemos reali:ar la suma con valores absolutos. Esto nos lleva a la #m, pero como hemos mencionado, tiene poco inter)s por las dificultades que presenta.

'i las desviaciones con respecto a la media las consideramos al cuadrado, , de nuevo obtenemos que todos los sumandos tienen el mismo signo <positivo=. Esta es adems la forma de medir la dispersin de los datos de forma que sus propiedades matemticas son ms fciles de utili:ar. 8amos a definir entonces dos estad sticos que sern fundamentales en el resto del curso! La varian$a $ la desviacin tpica. La varian0a, , se define como la media de las diferencias cuadrticas de n

puntuaciones con respecto a su media aritm)tica, es decir 7ara datos agrupados en tablas, usando las notaciones establcidas en los cap tulos

anteriores, la varian:a se puede escibir como 9na frmula equivalente para el clculo de la varian:a est basada en lo siguiente!

%on lo cual se tiene

'i los datos estn agrupados en tablas, es evidente que

La varian:a no tiene la misma magnitud que las observaciones <ej. si las observaciones se miden en metros, la varian:a lo hace en =. 'i queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su ra : cuadrada. 7or ello se define la desviacin t ica, , como

2.*.#.1 E!em lo
%alcular la varian:a $ desviacin t pica de las siguientes cantidades medidas en metros!

0,0,1,1,2

"olucin: 7ara calcular dichas medidas de dispersin es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Hste es la media!

La varian:a es!

siendo la desviacin t pica su ra : cuadrada!

Las siguientes propiedades de la varian:a <respectivamente, desviacin t pica= son importantes a la hora de hacer un cambio de origen $ escala a una variable. En primer lugar, la varian:a <resp. *esviacin t pica= no se ve afectada si al conjunto de valores de la variable se le aFade una constante. 'i adems cada observacin es multiplicada por otra constante, en este caso la varian:a cambia en relacin al cuadrado de la constante <resp. La desviacin t pica cambia en relacin al valor absoluto de la constante=. Esto queda precisado en la siguiente proposicion!

2.*.#.2 Pro osicin


'i entonces *emostracin 7ara cada observacin xi de X, definicin varian:a de % es , tenemos una observacin de % que es por . 7or tanto, la

. 7or la proposicin 2.&, se tiene que

2.*.#.3 Observacin

Las consecuencias del anterior resultado eran de esperar! 'i los resultados de una medida son trasladados una cantidad b, la dispersin de los mismos no aumenta. 'i estos mismos datos se multiplican por una cantidad a I&, el resultado tender a concentrarse alrededor de su media <menor varian:a=. 'i por el contrario aJ& habr ma$or dispersin. -tra propiedad fundamental de la varian:a es la siguiente!

2.*.#.# Pro osicin


*ados r grupos, cada uno de ellos formado por ni observaciones de media varian:a . Entonces la varian:a, observaciones vale , del conjunto de todas las $ de

*emostracin *icho de otro modo, pretendemos demostrar que la varian$a total es igual a la media de las varian$as ms la varian$a de las medias. %omen:amos denotando mediante xij la observacin j.)sima en el i.)simo grupo, donde $ . Entonces

2.*.#.( Observacin

#dems de las propiedades que hemos demostrado sobre la varian:a <$ por tanto sobre la desviacin t pica=, ser conveniente tener siempre en mente otras que enunciamos a continuacin!

#mbas son sensibles a la variacin de cada una de las puntuaciones, es decir, si una puntuacin cambia, cambia con ella la varian:a. La ra:n es que si miramos su definicin, la varian:a es funcin de cada una de las puntuaciones. 'i se calculan a traves de los datos agrupados en una tabla, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el clculo de la varian:a cuando los datos han sido resumidos en una tabla estad stica mediante intervalos, en lugar de haber sido calculados directamente como datos no agrupados. Este error no ser importante si la eleccin del n,mero de intervalos, amplitud $ l mites de los mismos ha sido adecuada. La desviacin t pica tiene la propiedad de que en el intervalo

se encuentra, al menos, el D2K de las observaciones <vease ms adelante el teorema de ;heb$cheff, pgina =. Encluso si tenemos muchos datos $ estos provienen de una distribucin normal <se definir este concepto ms adelante=, podremos llegar al

Go es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central.

2.*.#.) /todo abreviado ara el c-lculo de la varian0a


La proposicin de la pgina puede ser utili:ada para simplificar clculos al igual que vimos en el ejemplo 2.&. 'i una variable X toma unos valores para los cuales las operaciones de clculo de media $ varian:a son tediosas, podemos reali:ar los clculos sobre una variable Z definida como

9na ve: que han sido calculadas

, obtenemos

teniendo en cuenta que!

2.*.#.* 7rados de libertad


Los grados de libertad de un estad stico calculado sobre n datos se refieren al n,mero de cantidades independientes que se necesitan en su clculo, menos el n,mero de restricciones que ligan a las observaciones $ el estad stico. Es decir, normalmente n.&. Elustremoslo con un ejemplo. %onsideramos una serie de valores de una variable,

que han sido tomados de forma independiente. 'u media es $ se ha calculado a partir de las n62observaciones independientes xi, que estn ligadas a la media por la relacin!

Luego el n,mero de grados de libertad de la media es n.&61. 'i calculamos a continuacin la varian:a, se han de sumar n cantidades

'in embargo esas cantidades no son totalmente independientes, pues estn ligadas por una restriccin!

El n8mero de grados de libertad del estad stico es el n,mero de observaciones de la variable menos el n,mero de restricciones que verifican, as que en este caso, los grados de libertad de la varian:a sobre los n62 datos son tambi)n n.& 61. 9n principio general de la teor a matemtica nos dice que si pretendemos calcular de modo aproximado la varian:a de una poblacin a partir de la varian:a de una muestra su$a, se tiene que el error cometido es generalmente ms pequeFo, si en ve: de considerar como estimacin de la varian:a de la poblacin, a la varian:a muestral

consideramos lo que se denomina cuasivarian0a muestral, que se calcula como la anterior, pero cambiando el denominador por el n,mero de grados de libertad, n.&!

'obre este punto incideremos ms adelante, $a que es fundamental en estad stica inferencial.

2.*.#.+ 9i i:icacin
'e conoce por ti i:icacin al proceso de restar la media $ dividir por su desviacin t pica a una variable X. *e este modo se obtiene una nueva variable

de media

$ desviacin t pica

, que denominamos variable ti i:icada.

Esta nueva variable carece de unidades $ permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. #s por ejemplo nos podemos preguntar si un elefante es ms grueso que una hormiga determinada, cada uno en relacin a su poblacin. ;ambi)n es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. 7or ejemplo si deseamos comparar el

nivel acad)mico de dos estudiantes de diferentes 9niversidades para la concesin de una beca de estudios, en principio ser a injusto concederla directamente al que posea una nota media ms elevada, $a que la dificultad para conseguir una buena calificacin puede ser mucho ma$or en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante $ favorece al otro. En este caso, lo ms correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias $ desviaciones t picas respectivas de las notas de los alumnos de cada 9niversidad.

2.*.) ,oe:iciente de variacin


(emos visto que las medidas de centrali:acin $ dispersin nos dan informacin sobre una muestra. Gos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. 7or ejemplo, si nos piden comparar la dispersin de los pesos de las poblaciones de elefantes de dos circos diferentes, nos dar informacin ,til. L7ero qu) ocurre si lo que comparamos es la altura de unos elefantes con respecto a su pesoM ;anto la media como la desviacin t pica, $ , se expresan en las mismas unidades que la variable. 7or ejemplo, en la variable altura podemos usar como unidad de longitud el metro $ en la variable peso, el Nilogramo. %omparar una desviacin <con respecto a la media= medida en metros con otra en Nilogramos no tiene ning,n sentido. El problema no deriva slo de que una de las medidas sea de longitud $ la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una poblacin de &// elefantes con el correspondiente en miligramos de una poblacin de 2/ hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. 7or ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes <toneladas=. 'i la ingerier a gen)tica no nos sorprende con alguna barbaridad, lo lgico es que la dispersin de la variable peso de las hormigas sea practicamente nula <O#unque ha$a algunas que sean &./// veces ma$ores que otrasP= En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, $ en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variacin es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables $ tiene en cuenta la proporcin existente entre medias $ desviacin t pica. 'e define del siguiente modo!

+asta dar una rpida mirada a la definicin del coeficiente de variacin, para ver que las siguientes consideraciones deben ser tenidas en cuenta!

'lo se debe calcular para variables con todos los valores positivos. ;odo ndice de variabilidad es esencialmente no negativo. Las observaciones pueden ser

positivas o nulas, pero su variabilidad debe ser siempre positiva. *e ah que slo debemos trabajar con variables positivas, para la que tenemos con seguridad que

. Go es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, bJ/, para tener %6X5b, entonces , $a que la desviacin t pica no es sensible ante cambios de origen, pero si la media. Lo contario ocurre si restamos <bI/=.

Es invariante a cambios de escala. 'i multiplicamos X por una constante a, para obtener , entonces

2.*.).1 Observacin
Es importante destacar que los coefientes de variacin sirven para comparar las variabilidades de dos conjuntos de valores <muestras o poblaciones=, mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados.

2.*.).2 E!em lo
*ada la distribucin de edades <medidas en aFos= en un colectivo de &// personas, obtener! &. La variable tipificada Z. 2. 8alores de la media $ varian:a de Z. 0. %oeficiente de variacin de Z. (oras trabajadas Gum. empleados / .. 1 1D

1 .. &/ &/ .. 2/ 2/ .. 1/

02 &D 1 &//

"olucin: 7ara calcular la variable tipificada

partimos de los datos del enunciado. 'er necesario calcular en primer lugar la media $ desvicin t pica de la variable original <X6 aFos=. li.& .. li / .. 1 1 .. &/ xi 2 D ni 1D 02 &D 1 xi ni xi2 ni 31 &44 221 &.2C4 222 0.422 &2/ 0.C//

&/ .. 2/ &2 2/ .. 1/ 0/

n6&// C30 3.&4&

# partir de estos valores podremos calcular los valores tipificados para las marcas de clase de cada intervalo $ construir su distribucin de frecuencias!

$i ./,D12 /,/&& &,22/ 0,14C

ni 1D 02 &D 1 n6&//

$i ni /,022 2/,D2/ &0,311 /,/2&

$i2 ni /,//1 22,0/0 14,C/3 &//,//2

.02,/&2 2C,/4C

# pesar de que no se debe calcular el coeficiente de variacin sobre variables que presenten valores negativos <$ Z los presenta=, lo calculamos con objeto de ilustrar el porqu)!

Es decir, el coeficiente de variacin no debe usarse nunca con variables tipificadas.

2.. ;simetra 3 a untamiento


'abemos cmo calcular valores alrededor de los cuales se distribu$en las observaciones de una variable sobre una muestra $ sabemos cmo calcular la dispersin que ofrecen los mismos con respecto al valor de central. Gos proponemos dar un paso ms all en el anlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribu$en de forma sim)trica con respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma diferente del lado derecho &ue del lado i$&uierdo. 'i la simetr a ha sido determinada, podemos preguntarnos si la curva es ms o menos apuntada <larga $ estrecha=. Este apuntamiento habr que medirlo comparado a cierta distribucin de frecuencias que consideramos normal <no por casualidad es )ste el nombre que recibe la distribucin de referencia=.

Estas ideas son las que vamos a desarrollar en lo que resta del cap tulo.

2...2 Estadsticos de asimetra


7ara saber si una distribucin de frecuencias es sim)trica, ha$ que precisar con respecto a qu). 9n buen candidato es la mediana, $a que para variables continuas, divide al histograma de frecuencias en dos partes de igual rea. 7odemos basarnos en ella para, de forma natural, decir que una distribucin de :recuencias es simtrica si el lado derecho de la grfica <a partir de la mediana= es la imagen por un espejo del lado i:quierdo<figura 2.D=.

Figura: *istribuciones de frecuencias sim)tricas $ asim)tricas

%uando la variable es discreta, decimos que es sim)trica, si lo es con respecto a la media.

2...2.1 Observacin

'e podr a pensar que definir la simetr a con usando la mediana para variables continuas $ usando la media para variables discretas es una eleccin arbitraria. En realidad esto no es as , pues si una variable es continua, coinciden los ambos criterios de simetr a <con respecto a la media $ a la mediana=. Es ms, se tiene que media $ mediana coinciden para distribuciones continuas sim)tricas. 7or otro lado, en el caso de variables discretas, la distribucin es sim)trica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el n,mero de observaciones es impar. 'i la variable es continua sim)trica $ unimodal, coinciden la media, la mediana $ la moda.

*entro de los tipos de asimetr a posible, vamos a destacar los dos fundamentales <figura 2.4=! ;simetra ositiva: 'i las frecuencias ms altas se encuentran en el lado i:quierdo de la media, mientras que en derecho ha$ frecuencias ms pequeFas <cola=. ;simetra negativa: %uando la cola est en el lado i:quierdo.

Figura: #simetr a positiva $ asimetr a negativa

%uando reali:amos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente sim)trica. En la prctica diremos que la distribucin de frecuencias es sim)trica si lo es de un modo aproximado. 7or otro lado, a,n observando cuidadosamente la grfica, podemos no ver claro de qu) lado estn las frecuencias ms altas. %onviene definir entonces unos estad sticos que a$uden a interpretar la asimetr a, a los que llamaremos ndices de asimetra, $ que denotaremos mediante . 8amos a definir a continuacin algunos de los ndices de asimetr a ms usuales como son el ndice basado en los tres cuartiles, el momento de tercer orden $ la distancia entre la moda $ la media o la media $ la mediana.

2...2.2 <ndice basado en los tres cuartiles $=ule>?o@le3'


'i una distribucin es sim)trica, es claro que deben haber tantas observaciones entre la que deja por debajo de s las tres cuartas partes de la distribucin $ la mediana, como entre la mediana $ la que deja por debajo de s un quarto de todas las observaciones. *e forma abreviada esto es,

9na pista para saber si una distribucin de frecuencias es asim)trica positiva la descubrimos observando la figura 2.3=!

7or analog a, si es asim)trica negativa, se tendr

7ara quitar dimensionalidad al problema, utili:amos como ndice de asimetra la cantidad!

Es claro que El n,mero obtenido, , es invariante ante cambios de origen de referencia $ de escala.

Figura: 9so de los cuartiles para medir la asimetr a

2...2.3 <ndice basado en el momento central de tercer orden


'ea X una variable cuantitativa $ . Llamamos momento de orden p a!

'e denomina momento central de orden p a la cantidad

'i los datos estn agrupados en una tabla, mp admite otra expresin equivalente!

2...2.# E!em lo
7or la proposicin 2.& <pgina = se tiene que

m& 6 /.

El momento de orden 2 es la varian:a muestral!

Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el caso de variables sim)tricas, $a que para cada i que est) a un lado de la media, con , le corresponde una observacin j del otro lado de la media tal que . Elevando cada una de esas cantidades a p impar, $ sumando se tiene que

'i la distribucin fuese asim)trica positiva, las cantidades , con impar positivas estar an mu$ aumentadas al elevarse a p. Esta propiedad nos indica que un ndice de asimetr a posible consiste en tomar p60$ definir

que para datos organi:ados en una tabla ser a

#po$andonos en este ndice, diremos que ha$ asimetr a positiva si a0J/, $ que la asimetr a es negativa si a0I/.

2...2.( Observacin

(emos dividido m0 por el cubo de para que a0sea un n,mero abstracto sin dimensiones, independiente de la variabilidad de la variable. 7or otro lado, la cantidad definida por la relacin <2.&D= no es la misma que la definida en <2.2&=. 'implemente las notamos para simboli:ar que es un ndice de asimetr a.

2...2.) Otros ndices de asimetra


+asndonos en que si una distribucin de frecuencias es sim)trica $ unimodal, entonces la media, la mediana $ la moda coinciden, podemos definir otras medidas de asimetr a, como son!

o bien,

*iremos que ha$ asimetr a positiva si 2.&/=.

$ negativa si

<v)ase la figura

Figura: *iferencias importantes entre la media $ la moda o la media $ la mediana indican asimetr a.

2...2.* E!em lo
Las edades de un grupo de personas se reflejan en la tabla siguiente!

Entervalos ni D .. 3 3 .. && && .. &2 &2 .. &0 &0 .. &1 &1 .. &2 &2 .. &D &D .. &3 1 &4 &1 2D 12 0& 2/ &

*eterminar la variabilidad de la edad mediante los estad sticos varian:a, desviacin t pica, coeficiente de variacin $ rango intercuart lico. Estudie la simetr a de la variable. "olucin: En primer lugar reali:amos los clculos necesarios a partir de la tabla de frecuencias! Entervalos D .. 3 3 .. && && .. &2 &2 .. &0 &0 .. &1 &1 .. &2 &2 .. &D &D .. &3 ni 1 &4 xi 4 &/
i

xi ni 02 &4/ &C& 2CD 02/ &4

xi2 ni 22C &.4// &.42&,2 D.C21,2 2.&2/ 021

1 22

&1 &&,2 0C 12 &0,2 &/2 2/ & &2D &C &4 &2C &2D

2D &2,2 C0 00D,2 1.2&4,D2 0& &1,2 &0C 113,2 C.2&D,D2

2./C2 2D.D12,22

La media es columna de la xi2 ni como sigue!

aFos. La varian:a la calculamos a partir de la

El coeficiente de variacin no posee unidades $ es!

En lo que concierne a la simetr a podemos utili:ar el coeficiente de asimetr a de Qule. +oRle$, para el cual es preciso el clculo de los cuartiles!

Lo que nos dice que aproximadamente en un rango de encuentra el central del total de observaciones2.& #dems!

aFos se

Este resultado nos indica que existe una ligera asimetr a a la i:quierda <negativa=. 9n resultado similar se obtiene si observamos <Sigura 2.&&= que la distribucin de frecuencias es unimodal, siendo la moda!

Figura: La distribucin de frecuencias de la edad presenta una ligera asimetr a negativa.

en cu$o caso podemos usar como medida del sesgo!

2...# Estadsticos de a untamiento


'e define el coe:iciente de a lastamiento de FisAer como!

donde m1 es el momento emp rico de cuarto orden. Es )ste un coeficiente adimensional, invariante ante cmbios de escala $ de origen. 'irve para medir si una distribucin de frecuencias es mu$ apuntada o no. 7ara decir si la distribucin es larga $ estrecha, ha$ que tener un patrn de referencia. El patrn de referencia es la distribucin normal o gaussiana2.2 para la que se tiene

*e este modo, atendiendo a Le toc8rtica: %uando normal" /esoc8rtica:

, se clasifican las distribuciones de frecuencias en

, o sea, si la distribucin de frecuencias es ms apuntada que la

%uando , es decir, cuando la distribucin de frecuencias es tan apuntada como la normal" Platic8rtica: %uando la normal" , o sea, si la distribucin de frecuencias es menos apuntada que

Figura: #puntamiento de distribuciones de frecuencias

2.11 Problemas

E!ercicio 2..1. En el siguiente conjunto de n,meros, se proporcionan los pesos <redondeados a la libra ms prxima= de los beb)s nacidos durante un cierto intervalo de tiempo en un hospital! 1, 4, 1, C, 4, C, D, D, D, 4, &/, 3, D, C, &/, 4, 2, 3, C, 0, D, C, 1, D, C, 3, D, 1, D, C, 4, 4, 3, &&, 4, D, &/, 4, 2, D, D, C, 2, &/, 4, 3, D, 2, C, 2. &. %onstruir una distribucin de frecuencias de estos pesos. 2. Encontrar las frecuencias relativas. 0. Encontrar las frecuencias acumuladas. 1. Encontrar las frecuencias relativas acumuladas. 2. *ibujar un histograma con los datos de la parte a. C. L7or qu) se ha utili:ado un histograma para representar estos datos, en lugar de una grfica de barrasM D. %alcular las medidas de tendencia central. 4. %alcular las medidas de dispersin. 3. %alcular las medidas de forma. &/. LEs esta una distribucin sesgadaM *e ser as , Len qu) direccinM &&. Encontrar el percentil 21. E!ercicio 2..2. # continuacin se dan los resultados obtenidos con una muestra de 2/ universitarios. la caracter stica es el tiempo de reaccin ante un est mulo auditivo! /,&&/ /,&&/ /,&2C /,&&2 /,&&D /,&&0 /,&02 /,&/D /,&22 /,&&0 /,/34 /,&22 /,&/2 /,&/0 /,&&3 /,&// /,&&D /,&&0 /,&21 /,&&4 /,&02 /,&/4 /,&&2 /,&2/ /,&/D /,&20 /,&/3 /,&&D /,&&& /,&&2 /,&/& /,&&2 /,&&& /,&&3 /,&/0 /,&// /,&/4 /,&2/ /,/33 /,&/2 /,&23 /,&&2 /,&2& /,&0/ /,&01 /,&&4 /,&/C /,&24 /,/31 /,&&&1 &. L%ul es la amplitud total de la distribucin de los datosM 2. -btenga la distribucin de frecuencias absolutas $ relativas. 0. -btenga la distribucin de frecuencias acumuladas, absolutas $ relativas, con los intervalos anteriores.

1. %alcular la media $ la varian:a con los intervalos del apartado b $ despu)s calculense las mismas magnitudes sin ordenar los datos en una tabla estad stica. L%on qu) m)todo se obtiene ma$or precisinM 2. *ibuje el pol gono de frecuencias relativas. C. *ibuje el pol gono de frecuencias relativas acumuladas. E!ercicio 2..3. %on el fin de observar la relacin entre la inteligencia $ el nivel socioeconmico <medido por el salario mensual familiar= se tomaron dos grupos, uno formado con sujetos de cociente intelectual inferior a 32 $ otro formado por los dems" *e cada sujeto se anot el salario mensual familiar. ;eniendo en cuenta los resultados que se indican en la tabla! Givel socioeconmico 'ujetos con '( I 32 'ujetos con Entervalos &/ o menos &/ . &C &C . 22 22 . 24 24 . 01 ms de 01 &. *ibuje un grfico que permita comparar ambos grupos. 2. %alcule las medidas de tendencia central para aquellos sujetos con '( I 32. 0. %alcular las medidas de dispersin para aquellos sujetos con . Srecuencia D2 02 2/ 0/ 22 &2 Srecuencia &3 2C 22 0/ 21 1C

E!ercicio 2..#. 9n estudio consisti en anotar el n,mero de palabras le das en &2 segundos por un grupo de &2/ sujetos disl)xicos $ &2/ individuos normales. ;eniendo en cuenta los resultados de la tabla de palabras le das *isl)xicos n# Gormales n 22 o menos 2C 2D 24 2C 21 &C &2 & 3 2& 23

23 0/ o ms calcule! &.

&/ 2

24 02

Las medias aritm)ticas de ambos grupos. 2. Las medianas de ambos grupos. 0. El porcentaje de sujetos disl)xicos que superaron la mediana de los normales. 1. %ompare la variabilidad relativa de ambos grupos. E!ercicio 2..(. La tabla siguiente muestra la composicin por edad, sexo $ trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de 8i:ca$a en el aFo &3D3! Edad &1.&3 &3.21 21.23 23.01 01.03 03.11 &. Tepresentar grficamente la distribucin de frecuencias de aquellas personas trabajadoras que padecen tuberculosis. 2. Tepresentar grficamente la distribucin de frecuencias de los varones no trabajadores que padecen tuberculosis. 0. Tepresentar grficamente la distribucin de frecuencias del n,mero total de mujeres que padecen tuberculosis. 1. L%ul es la edad en la que se observa con ma$or frecuencia que no trabajan los varonesM LQ las mujeresM *eterminar as mismo la edad ms frecuente <sin distincin de sexos ni ocupacin=. 2. L7or debajo de qu) edad est el 2/K de los varonesM C. L7or encima de qu) edad se encuentra el 4/K de las mujeresM D. ;rabajadores 2 &/ 02 1D 04 22 & 1 &/ &2 4 1 0 &1 12 23 1C 2C Go trabajadores 22 2/ &2 &0 &/ D 1/ 0C 2/ 01 22 &4 C2 2C C2 1D 02 22 2D 0/ 1D C/ 14 23 ;otales 1& 1/ C/ 1C 00 22 C4 D/ &/D &/C 4& 2&

8arn Mujer ;otal 8arn Mujer ;otal 8arn Mujer ;otal

-btener la media, mediana $ desviacin t pica de la distribucin de las edades de la muestra total. 4. Estudiar la asimetr a de las tres distribuciones. E!ercicio 2..). En una epidemia de escarlatina, se ha recogido el n,mero de muertos en 1/ ciudades de un pa s, obteni)ndose la siguiente tabla! de muertos / %iudades &. Tepresentar grficamente estos datos. 2. -btener la distribucin acumulada $ representarla. 0. %alcular media, mediana $ moda. 1. %alcular la varian:a $ la desviacin t pica. 2. 7orcentaje de ciudades con al menos 2 muertos. C. 7orcentaje de ciudades con ms de 0 muertos. D. 7orcentaje de ciudades con a lo sumo 2 muertos. & 2 0 1 2 C D

D && &/ D & 2 & &

Anda mungkin juga menyukai