Medidas descriptivas
2.1 Introduccin
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuacin. En este sentido pueden examinarse varias caracter sticas, siendo las ms comunes! La tendencia central de los datos" La dispersin o variacin con respecto a este centro" Los datos que ocupan ciertas posiciones. La simetra de los datos. La forma en la que los datos se agrupan.
# lo largo de este cap tulo, $ siguiendo este orden, iremos estudiando los estad sticos que nos van a orientar sobre cada uno de estos niveles de informacin! valores alrededor de los cuales se agrupa la muestra, la ma$or o menor fluctuacin alrededor de esos
valores, nos interesaremos en ciertos valores que marcan posiciones caracter sticas de una distribucin de frecuencias as como su simetr a $ su forma.
2.3.2 La media
La media aritmtica de una variable estad stica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es X ni fi x& n& f& ... ... ... xk nk fk la media es el valor que podemos escribir de las siguientes formas equivalentes!
2.3.2.1 Observacin
(emos supuesto impl citamente en la definicin de media que tratbamos con una variable X discreta. 'i la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritm)tica obtenida a partir de las marcas de clase ci, diferir de la media obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que ser tanto ma$or cuanto ma$or sea la diferencia entre los valores reales $ las marcas de clase, o sea, cuanto ma$ores sean las longitudes ai, de los intervalos.
Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x&, mediante el valor central , es compensado por los dems errores!
'i los errores se consideran con signo positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error alguna de las siguientes!
2.3.2.3 E!em lo
-btener las desviaciones con respecto a la media en la siguiente distribucin $ comprobar que su suma es cero. li.& . li / . &/ ni &
&/ . 2/ 2 2/ . 0/ 1 0/ . 1/ 0 "olucin: li.& . li / . &/ &/ . 2/ 2/ . 0/ 0/ . 1/ ni & 2 1 0 n6&/ La media aritm)tica es! xi 2 &2 22 02 xi ni 2 0/ &// &/2 .&3 .3 5& 5&& .&3 .&4 51 500
*emostracin 'ea . 8eamos que el error cuadrtico cometido por kes ma$or que el de .
*emostracin 8amos a llamar xij a la j.)sima observacin del grupo i" Entonces tenemos
2.3.2.* Observacin
# pesar de las buenas propiedades que ofrece la media, )sta posee algunos inconvenientes!
9no de ellos es que es mu$ sensible a los valores extremos de la variable! $a que todas las observaciones intervienen en el clculo de la media, la aparicin de una
observacin extrema, har que la media se desplace en esa direccin. En consecuencia, no es recomendable usar la media como medida central en las distribuciones mu$ asim)tricas" *epende de la divisin en intervalos en el caso de variables continuas. 'i consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias de Mlaga el valor de la media puede no pertenecer al conjunto de valores de la variable" 7or ejemplo hijos.
1. %onstruimos de este modo la tabla de la variable Z, para la que es ms fcil calcular directamente, $ despu)s se calcula mediante la relacin <2.2=.
Luego
La media armnica , se define como el rec proco de la media aritm)tica de los rec procos, es decir,
7or tanto,
2.3.# La mediana
%onsideramos una variable discreta X cu$as observaciones en una tabla estad stica han sido ordenadas de menor a ma$or. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de s al de las observaciones. 7or tanto, si n es el n,mero de observaciones, la mediana corresponder a la observacin >n?2@5&, donde representamos por la parte entera de un n,mero.
En el caso de variables continuas, las clases vienen dadas por intervalos, $ aqu la frmula de la mediana se complica un poco ms <pero no demasiado=! 'ea <li.&,li@ el intervalo donde hemos encontrado que por debajo estn el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolacin lineal <teorema de ;hales= como sigue <figura 2.2=!
2.3.#.1 Observacin
La relacin <2.2= corresponde a definir para cada posible observacin, , su frecuencia relativa acumulada, F<x=, por interpolacin lineal entre los valores F<lj.&= 6 Fj. & $ F<lj= 6 Fj de forma que
2.3.#.2 Observacin
Entre las propiedades de la mediana, vamos a destacar las siguientes! %omo medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, $a que no depende de los valores que toma la variable, sino del orden de las mismas. 7or ello es adecuado su uso en distribuciones asim)tricas. Es de clculo rpido $ de interpretacin sencilla. # diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos <ej. La mediana de una variable nmero de hijos toma siempre valores enteros=. 'i una poblacin est formada por 2 subpoblaciones de medianas Med& $ Med2, slo se puede afirmar que la mediana, Med, de la poblacin est comprendida entre Med& $ Med2
El ma$or defecto de la mediana es que tiene unas propiedades matemticas complicadas, lo que hace que sea mu$ dif cil de utili:ar en inferencia estadstica. Es funcin de los intervalos escogidos. 7uede ser calculada aunque el intervalo inferior o el superior no tenga l mites.
La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor. Este es el equivalente al teorema de ABnig <proposicin 2.&= con respecto a la media, pero donde se considera como medida de dispersin a!
2.3.#.3 E!em lo
'ea X una variable discreta que ha presentado sobre una muestra las modalidades
'i cambiamos la ,ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media!
En este caso la media no es un posible valor de la variable <discreta=, $ se ha visto mu$ afectada por la observacin extrema. Este no ha sido el caso para la mediana.
2.3.#.# E!em lo
-btener la media aritm)tica $ la mediana en la distribucin adjunta. *eterminar grficamente cul de los dos promedios es ms significativo. li.& . li / . &/ &/ . 2/ 2/ . 0/ ni C/ 4/ 0/
C/
C/
4/ 0/ 2/ &/ n62//
&/ &/ D/
&2 22 C2
&1/ &D/
4/ 0/
1// 0//
La primera frecuencia absoluta acumulada que supera el valor n?26&// es ello el intervalo mediano es >&/"2/=. #s !
6&1/. 7or
7ara ver la representatividad de ambos promedios, reali:amos el histograma de la figura 2.0, $ observamos que dada la forma de la distribucin, la mediana es ms representativa que la media.
2.3.) La moda
Llamaremos moda a cualquier mximo relativo de la distribucin de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia ma$or que su anterior $ su posterior.
En el caso de variables continuas es ms correcto hablar de intervalos modales. 9na ve: que este intervalo, <li.&, li@, se ha obtenido, se utili:a la siguiente frmula para calcular la moda, que est motivada en la figura 2.1!
2.3.).1 Observacin
*e la moda destacamos las siguientes propiedades! Es mu$ fcil de calcular. 7uede no ser ,nica. Es funcin de los intervalos elegidos a trav)s de su amplitud, n,mero $ l mites de los mismos. #unque el primero o el ,ltimo de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada.
2.3.+.1 E!em lo
%onsideramos una tabla estad stica relativa a una variable continua, de la que nos dan los intervalos, las marcas de clase ci, $ las frecuencias absolutas, ni. Entervalos ci ni / .. 2 & 2 2 .. 1 0 & 1 .. C 2 1 C .. 4 D 0 4 . &/ 3 2
7ara calcular la media podemos aFadir una columna con las cantidades de los t)rminos de esa columna dividida por n6&2 es la media! Entervalos ci ni
i
. La suma
2 0 2/ 2& &4
La mediana es el valor de la variable que deja por debajo de s a la mitad de las n observaciones, es decir C. %onstruimos la tabla de las frecuencias absolutas acumuladas, i, $ vemos que eso ocurre en la modalidad tercera, es decir,
7ara el clculo de la , lo primero es encontrar los intervalos modales, buscando los mximos relativos en la columna de las frecuencias absolutas, ni. 8emos que ha$ dos modas, correspondientes a las modalidades i6&, i60. En el primer intervalo modal, <l/,&@6</,2@, la moda se calcula como
El segundo intervalo modal es <l2,l0@6<1"C@, siendo la moda el punto perteneciente al mismo que se obtiene como!
En este caso, como se ve en la figura 2.2, la moda no toma un valor ,nico, sino el conjunto
Figura: *iagramas diferencial e integral con clculo geom)trico de la moda $ de la mediana de la variable.
Med6 !2/
En el caso de una variable continua, el intervalo donde se encuentra calcula buscando el que deja debajo de si al obtiene seg,n la relacin!
, se
7or su propia naturale:a, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no puede considerarsele como una medida de tendencia central. Los cuartiles, "l, son un caso particular de los percentiles. (a$ 0, $ se definen como!
*e forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en &/ grupos de igual tamaFo. Ms precisamente, definimos #&,#2, ..., #3 como!
Los percentiles <que inclu$en a la mediana, cuartiles $ deciles= tambi)n son denominados estadsticos de osicin.
2.(.4.1 E!em lo
*ada la siguiente distribucin en el n,mero de hijos de cien familias, calcular sus cuartiles. xi / ni &1
i
&1
& 2 0 1 2
21 03 C2 42 &//
2. 'egundo cuartil!
0. ;ercer cuartil!
2.(.4.2 E!em lo
%alcular los cuartiles en la siguiente distribucin de una variable continua! li.& . li /.& &.2 2.0 ni &/ &2 &2
i
&/ 22 01
0.1 1.2
&/ D n62&
11 2&
2. 'egundo cuartil!
0. ;ercer cuartil
2.(.4.3 E!em lo
(an sido ordenados los pesos de 2& personas en la siguiente tabla! Entervalos f.a. li.& .. li 04 .. 12 12 .. 22 22 .. 23 23 .. CC CC .. D0 ni 0 2 D 0 C 2& Encontrar aquellos valores que dividen a los datos en 1 partes con el mismo n,mero de observaciones. "olucin: Las cantidades que buscamos son los tres cuartiles! , $ . 7ara calcularlos, le aFadimos a la tabla las columnas con las frecuencias acumuladas, para locali:ar qu) intervalos son los que contienen a los cuartiles buscados! li.& .. li ni
i
04 .. 12 0 12 .. 22 2
0 2
22 .. 23 D &2 23 .. CC 0 &2 CC .. D0 C 2& 2& $ se encuentran en el intervalo 22..23, $a que 06&2 es la primera f.a.a. que supera a $
-bs)rvese que
dos partes con el mismo n,mero de observaciones, $ , hace lo mismo, pues es deja a dos cuartos de los datos por arriba $ otros dos cuartos por abajo.
2.(.4.# E!em lo
La distribucin de una variable tiene por pol gono acumulativo de frecuencias el de la figura 2.C. 'i el n,mero total de observaciones es 2/! &. Elaborar una tabla estad stica con los siguientes elementos! intervalos, marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa $ frecuencias relativa acumulada. 2. %untas observaciones tuvieron un valor inferior a &/, cuntas inferior a 4 $ cuntas fueron superior a &&. 0. %alcule las modas.
"olucin: &. En la siguiente tabla se proporciona la informacin pedida $ algunos clculos auxiliares que nos permitirn responder a otras cuestiones. Entervalos ni /.2 2.D D . &2 &2 . &2 2. %alculemos el n,mero de observaciones pedido!
i
fi
Fi
xi
ai 2 &
&/ &/ /,2 /,0 2,2 2 22 02 /,2 /,D &/ 2/ /,2 & C 2 1/ /,& /,4 3,2 2
2 &2,2
&0,2 D 0,00
2/ .<&/ 5 2251= 6 2/.036&& observaciones tomaron un valor superior a && 0. (a$ dos modas. %alculemos la ms representativa!
1. %uartiles!
Los estad sticos de tendencia central o posicin nos indican donde se sit,a un grupo de puntuaciones. Los de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o si por el contrario estn o mu$ dispersas. 9na medida ra:onable de la variabilidad podr a ser la am litud o rango, que se obtiene restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular $ sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes!
Go utili:a todas las observaciones <slo dos de ellas=" 'e puede ver mu$ afectada por alguna observacin extrema" El rango aumenta con el n,mero de observaciones, o bien se queda igual. En cualquier caso nunca disminu$e.
En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior. Estas se determinan en funcin de la distancia entre las observaciones $ algun estad stico de tendencia central.
'i los datos estn agrupados en una tabla estad stica es ms sencillo usar la relacin
%omo se observa, la desviacin media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente! *esde el punto de vista geom)trico, la distancia que induce la desviacin media en el espacio de observaciones no es la natural <no permite definir ngulos entre dos conjuntos de observaciones=. Esto hace que sea mu$ engorroso trabajar con ella a la hora de hacer inferencia a la poblacin.
, pues sabemos que esa suma vale /, $a que las desviaciones con respecto a la media se compensan al haber t)rminos en esa suma que son de signos distintos. 7ara tener el mismo signo al sumar las desviaciones con respecto a la media podemos reali:ar la suma con valores absolutos. Esto nos lleva a la #m, pero como hemos mencionado, tiene poco inter)s por las dificultades que presenta.
'i las desviaciones con respecto a la media las consideramos al cuadrado, , de nuevo obtenemos que todos los sumandos tienen el mismo signo <positivo=. Esta es adems la forma de medir la dispersin de los datos de forma que sus propiedades matemticas son ms fciles de utili:ar. 8amos a definir entonces dos estad sticos que sern fundamentales en el resto del curso! La varian$a $ la desviacin tpica. La varian0a, , se define como la media de las diferencias cuadrticas de n
puntuaciones con respecto a su media aritm)tica, es decir 7ara datos agrupados en tablas, usando las notaciones establcidas en los cap tulos
anteriores, la varian:a se puede escibir como 9na frmula equivalente para el clculo de la varian:a est basada en lo siguiente!
La varian:a no tiene la misma magnitud que las observaciones <ej. si las observaciones se miden en metros, la varian:a lo hace en =. 'i queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su ra : cuadrada. 7or ello se define la desviacin t ica, , como
2.*.#.1 E!em lo
%alcular la varian:a $ desviacin t pica de las siguientes cantidades medidas en metros!
0,0,1,1,2
"olucin: 7ara calcular dichas medidas de dispersin es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Hste es la media!
La varian:a es!
Las siguientes propiedades de la varian:a <respectivamente, desviacin t pica= son importantes a la hora de hacer un cambio de origen $ escala a una variable. En primer lugar, la varian:a <resp. *esviacin t pica= no se ve afectada si al conjunto de valores de la variable se le aFade una constante. 'i adems cada observacin es multiplicada por otra constante, en este caso la varian:a cambia en relacin al cuadrado de la constante <resp. La desviacin t pica cambia en relacin al valor absoluto de la constante=. Esto queda precisado en la siguiente proposicion!
2.*.#.3 Observacin
Las consecuencias del anterior resultado eran de esperar! 'i los resultados de una medida son trasladados una cantidad b, la dispersin de los mismos no aumenta. 'i estos mismos datos se multiplican por una cantidad a I&, el resultado tender a concentrarse alrededor de su media <menor varian:a=. 'i por el contrario aJ& habr ma$or dispersin. -tra propiedad fundamental de la varian:a es la siguiente!
*emostracin *icho de otro modo, pretendemos demostrar que la varian$a total es igual a la media de las varian$as ms la varian$a de las medias. %omen:amos denotando mediante xij la observacin j.)sima en el i.)simo grupo, donde $ . Entonces
2.*.#.( Observacin
#dems de las propiedades que hemos demostrado sobre la varian:a <$ por tanto sobre la desviacin t pica=, ser conveniente tener siempre en mente otras que enunciamos a continuacin!
#mbas son sensibles a la variacin de cada una de las puntuaciones, es decir, si una puntuacin cambia, cambia con ella la varian:a. La ra:n es que si miramos su definicin, la varian:a es funcin de cada una de las puntuaciones. 'i se calculan a traves de los datos agrupados en una tabla, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el clculo de la varian:a cuando los datos han sido resumidos en una tabla estad stica mediante intervalos, en lugar de haber sido calculados directamente como datos no agrupados. Este error no ser importante si la eleccin del n,mero de intervalos, amplitud $ l mites de los mismos ha sido adecuada. La desviacin t pica tiene la propiedad de que en el intervalo
se encuentra, al menos, el D2K de las observaciones <vease ms adelante el teorema de ;heb$cheff, pgina =. Encluso si tenemos muchos datos $ estos provienen de una distribucin normal <se definir este concepto ms adelante=, podremos llegar al
Go es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central.
, obtenemos
que han sido tomados de forma independiente. 'u media es $ se ha calculado a partir de las n62observaciones independientes xi, que estn ligadas a la media por la relacin!
Luego el n,mero de grados de libertad de la media es n.&61. 'i calculamos a continuacin la varian:a, se han de sumar n cantidades
'in embargo esas cantidades no son totalmente independientes, pues estn ligadas por una restriccin!
El n8mero de grados de libertad del estad stico es el n,mero de observaciones de la variable menos el n,mero de restricciones que verifican, as que en este caso, los grados de libertad de la varian:a sobre los n62 datos son tambi)n n.& 61. 9n principio general de la teor a matemtica nos dice que si pretendemos calcular de modo aproximado la varian:a de una poblacin a partir de la varian:a de una muestra su$a, se tiene que el error cometido es generalmente ms pequeFo, si en ve: de considerar como estimacin de la varian:a de la poblacin, a la varian:a muestral
consideramos lo que se denomina cuasivarian0a muestral, que se calcula como la anterior, pero cambiando el denominador por el n,mero de grados de libertad, n.&!
'obre este punto incideremos ms adelante, $a que es fundamental en estad stica inferencial.
2.*.#.+ 9i i:icacin
'e conoce por ti i:icacin al proceso de restar la media $ dividir por su desviacin t pica a una variable X. *e este modo se obtiene una nueva variable
de media
$ desviacin t pica
Esta nueva variable carece de unidades $ permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. #s por ejemplo nos podemos preguntar si un elefante es ms grueso que una hormiga determinada, cada uno en relacin a su poblacin. ;ambi)n es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. 7or ejemplo si deseamos comparar el
nivel acad)mico de dos estudiantes de diferentes 9niversidades para la concesin de una beca de estudios, en principio ser a injusto concederla directamente al que posea una nota media ms elevada, $a que la dificultad para conseguir una buena calificacin puede ser mucho ma$or en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante $ favorece al otro. En este caso, lo ms correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias $ desviaciones t picas respectivas de las notas de los alumnos de cada 9niversidad.
+asta dar una rpida mirada a la definicin del coeficiente de variacin, para ver que las siguientes consideraciones deben ser tenidas en cuenta!
'lo se debe calcular para variables con todos los valores positivos. ;odo ndice de variabilidad es esencialmente no negativo. Las observaciones pueden ser
positivas o nulas, pero su variabilidad debe ser siempre positiva. *e ah que slo debemos trabajar con variables positivas, para la que tenemos con seguridad que
. Go es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, bJ/, para tener %6X5b, entonces , $a que la desviacin t pica no es sensible ante cambios de origen, pero si la media. Lo contario ocurre si restamos <bI/=.
Es invariante a cambios de escala. 'i multiplicamos X por una constante a, para obtener , entonces
2.*.).1 Observacin
Es importante destacar que los coefientes de variacin sirven para comparar las variabilidades de dos conjuntos de valores <muestras o poblaciones=, mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados.
2.*.).2 E!em lo
*ada la distribucin de edades <medidas en aFos= en un colectivo de &// personas, obtener! &. La variable tipificada Z. 2. 8alores de la media $ varian:a de Z. 0. %oeficiente de variacin de Z. (oras trabajadas Gum. empleados / .. 1 1D
1 .. &/ &/ .. 2/ 2/ .. 1/
02 &D 1 &//
partimos de los datos del enunciado. 'er necesario calcular en primer lugar la media $ desvicin t pica de la variable original <X6 aFos=. li.& .. li / .. 1 1 .. &/ xi 2 D ni 1D 02 &D 1 xi ni xi2 ni 31 &44 221 &.2C4 222 0.422 &2/ 0.C//
&/ .. 2/ &2 2/ .. 1/ 0/
# partir de estos valores podremos calcular los valores tipificados para las marcas de clase de cada intervalo $ construir su distribucin de frecuencias!
ni 1D 02 &D 1 n6&//
.02,/&2 2C,/4C
# pesar de que no se debe calcular el coeficiente de variacin sobre variables que presenten valores negativos <$ Z los presenta=, lo calculamos con objeto de ilustrar el porqu)!
Estas ideas son las que vamos a desarrollar en lo que resta del cap tulo.
2...2.1 Observacin
'e podr a pensar que definir la simetr a con usando la mediana para variables continuas $ usando la media para variables discretas es una eleccin arbitraria. En realidad esto no es as , pues si una variable es continua, coinciden los ambos criterios de simetr a <con respecto a la media $ a la mediana=. Es ms, se tiene que media $ mediana coinciden para distribuciones continuas sim)tricas. 7or otro lado, en el caso de variables discretas, la distribucin es sim)trica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el n,mero de observaciones es impar. 'i la variable es continua sim)trica $ unimodal, coinciden la media, la mediana $ la moda.
*entro de los tipos de asimetr a posible, vamos a destacar los dos fundamentales <figura 2.4=! ;simetra ositiva: 'i las frecuencias ms altas se encuentran en el lado i:quierdo de la media, mientras que en derecho ha$ frecuencias ms pequeFas <cola=. ;simetra negativa: %uando la cola est en el lado i:quierdo.
%uando reali:amos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente sim)trica. En la prctica diremos que la distribucin de frecuencias es sim)trica si lo es de un modo aproximado. 7or otro lado, a,n observando cuidadosamente la grfica, podemos no ver claro de qu) lado estn las frecuencias ms altas. %onviene definir entonces unos estad sticos que a$uden a interpretar la asimetr a, a los que llamaremos ndices de asimetra, $ que denotaremos mediante . 8amos a definir a continuacin algunos de los ndices de asimetr a ms usuales como son el ndice basado en los tres cuartiles, el momento de tercer orden $ la distancia entre la moda $ la media o la media $ la mediana.
9na pista para saber si una distribucin de frecuencias es asim)trica positiva la descubrimos observando la figura 2.3=!
Es claro que El n,mero obtenido, , es invariante ante cambios de origen de referencia $ de escala.
'i los datos estn agrupados en una tabla, mp admite otra expresin equivalente!
2...2.# E!em lo
7or la proposicin 2.& <pgina = se tiene que
m& 6 /.
Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el caso de variables sim)tricas, $a que para cada i que est) a un lado de la media, con , le corresponde una observacin j del otro lado de la media tal que . Elevando cada una de esas cantidades a p impar, $ sumando se tiene que
'i la distribucin fuese asim)trica positiva, las cantidades , con impar positivas estar an mu$ aumentadas al elevarse a p. Esta propiedad nos indica que un ndice de asimetr a posible consiste en tomar p60$ definir
#po$andonos en este ndice, diremos que ha$ asimetr a positiva si a0J/, $ que la asimetr a es negativa si a0I/.
2...2.( Observacin
(emos dividido m0 por el cubo de para que a0sea un n,mero abstracto sin dimensiones, independiente de la variabilidad de la variable. 7or otro lado, la cantidad definida por la relacin <2.&D= no es la misma que la definida en <2.2&=. 'implemente las notamos para simboli:ar que es un ndice de asimetr a.
o bien,
$ negativa si
<v)ase la figura
Figura: *iferencias importantes entre la media $ la moda o la media $ la mediana indican asimetr a.
2...2.* E!em lo
Las edades de un grupo de personas se reflejan en la tabla siguiente!
Entervalos ni D .. 3 3 .. && && .. &2 &2 .. &0 &0 .. &1 &1 .. &2 &2 .. &D &D .. &3 1 &4 &1 2D 12 0& 2/ &
*eterminar la variabilidad de la edad mediante los estad sticos varian:a, desviacin t pica, coeficiente de variacin $ rango intercuart lico. Estudie la simetr a de la variable. "olucin: En primer lugar reali:amos los clculos necesarios a partir de la tabla de frecuencias! Entervalos D .. 3 3 .. && && .. &2 &2 .. &0 &0 .. &1 &1 .. &2 &2 .. &D &D .. &3 ni 1 &4 xi 4 &/
i
1 22
&1 &&,2 0C 12 &0,2 &/2 2/ & &2D &C &4 &2C &2D
2./C2 2D.D12,22
En lo que concierne a la simetr a podemos utili:ar el coeficiente de asimetr a de Qule. +oRle$, para el cual es preciso el clculo de los cuartiles!
Lo que nos dice que aproximadamente en un rango de encuentra el central del total de observaciones2.& #dems!
aFos se
Este resultado nos indica que existe una ligera asimetr a a la i:quierda <negativa=. 9n resultado similar se obtiene si observamos <Sigura 2.&&= que la distribucin de frecuencias es unimodal, siendo la moda!
donde m1 es el momento emp rico de cuarto orden. Es )ste un coeficiente adimensional, invariante ante cmbios de escala $ de origen. 'irve para medir si una distribucin de frecuencias es mu$ apuntada o no. 7ara decir si la distribucin es larga $ estrecha, ha$ que tener un patrn de referencia. El patrn de referencia es la distribucin normal o gaussiana2.2 para la que se tiene
%uando , es decir, cuando la distribucin de frecuencias es tan apuntada como la normal" Platic8rtica: %uando la normal" , o sea, si la distribucin de frecuencias es menos apuntada que
2.11 Problemas
E!ercicio 2..1. En el siguiente conjunto de n,meros, se proporcionan los pesos <redondeados a la libra ms prxima= de los beb)s nacidos durante un cierto intervalo de tiempo en un hospital! 1, 4, 1, C, 4, C, D, D, D, 4, &/, 3, D, C, &/, 4, 2, 3, C, 0, D, C, 1, D, C, 3, D, 1, D, C, 4, 4, 3, &&, 4, D, &/, 4, 2, D, D, C, 2, &/, 4, 3, D, 2, C, 2. &. %onstruir una distribucin de frecuencias de estos pesos. 2. Encontrar las frecuencias relativas. 0. Encontrar las frecuencias acumuladas. 1. Encontrar las frecuencias relativas acumuladas. 2. *ibujar un histograma con los datos de la parte a. C. L7or qu) se ha utili:ado un histograma para representar estos datos, en lugar de una grfica de barrasM D. %alcular las medidas de tendencia central. 4. %alcular las medidas de dispersin. 3. %alcular las medidas de forma. &/. LEs esta una distribucin sesgadaM *e ser as , Len qu) direccinM &&. Encontrar el percentil 21. E!ercicio 2..2. # continuacin se dan los resultados obtenidos con una muestra de 2/ universitarios. la caracter stica es el tiempo de reaccin ante un est mulo auditivo! /,&&/ /,&&/ /,&2C /,&&2 /,&&D /,&&0 /,&02 /,&/D /,&22 /,&&0 /,/34 /,&22 /,&/2 /,&/0 /,&&3 /,&// /,&&D /,&&0 /,&21 /,&&4 /,&02 /,&/4 /,&&2 /,&2/ /,&/D /,&20 /,&/3 /,&&D /,&&& /,&&2 /,&/& /,&&2 /,&&& /,&&3 /,&/0 /,&// /,&/4 /,&2/ /,/33 /,&/2 /,&23 /,&&2 /,&2& /,&0/ /,&01 /,&&4 /,&/C /,&24 /,/31 /,&&&1 &. L%ul es la amplitud total de la distribucin de los datosM 2. -btenga la distribucin de frecuencias absolutas $ relativas. 0. -btenga la distribucin de frecuencias acumuladas, absolutas $ relativas, con los intervalos anteriores.
1. %alcular la media $ la varian:a con los intervalos del apartado b $ despu)s calculense las mismas magnitudes sin ordenar los datos en una tabla estad stica. L%on qu) m)todo se obtiene ma$or precisinM 2. *ibuje el pol gono de frecuencias relativas. C. *ibuje el pol gono de frecuencias relativas acumuladas. E!ercicio 2..3. %on el fin de observar la relacin entre la inteligencia $ el nivel socioeconmico <medido por el salario mensual familiar= se tomaron dos grupos, uno formado con sujetos de cociente intelectual inferior a 32 $ otro formado por los dems" *e cada sujeto se anot el salario mensual familiar. ;eniendo en cuenta los resultados que se indican en la tabla! Givel socioeconmico 'ujetos con '( I 32 'ujetos con Entervalos &/ o menos &/ . &C &C . 22 22 . 24 24 . 01 ms de 01 &. *ibuje un grfico que permita comparar ambos grupos. 2. %alcule las medidas de tendencia central para aquellos sujetos con '( I 32. 0. %alcular las medidas de dispersin para aquellos sujetos con . Srecuencia D2 02 2/ 0/ 22 &2 Srecuencia &3 2C 22 0/ 21 1C
E!ercicio 2..#. 9n estudio consisti en anotar el n,mero de palabras le das en &2 segundos por un grupo de &2/ sujetos disl)xicos $ &2/ individuos normales. ;eniendo en cuenta los resultados de la tabla de palabras le das *isl)xicos n# Gormales n 22 o menos 2C 2D 24 2C 21 &C &2 & 3 2& 23
23 0/ o ms calcule! &.
&/ 2
24 02
Las medias aritm)ticas de ambos grupos. 2. Las medianas de ambos grupos. 0. El porcentaje de sujetos disl)xicos que superaron la mediana de los normales. 1. %ompare la variabilidad relativa de ambos grupos. E!ercicio 2..(. La tabla siguiente muestra la composicin por edad, sexo $ trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de 8i:ca$a en el aFo &3D3! Edad &1.&3 &3.21 21.23 23.01 01.03 03.11 &. Tepresentar grficamente la distribucin de frecuencias de aquellas personas trabajadoras que padecen tuberculosis. 2. Tepresentar grficamente la distribucin de frecuencias de los varones no trabajadores que padecen tuberculosis. 0. Tepresentar grficamente la distribucin de frecuencias del n,mero total de mujeres que padecen tuberculosis. 1. L%ul es la edad en la que se observa con ma$or frecuencia que no trabajan los varonesM LQ las mujeresM *eterminar as mismo la edad ms frecuente <sin distincin de sexos ni ocupacin=. 2. L7or debajo de qu) edad est el 2/K de los varonesM C. L7or encima de qu) edad se encuentra el 4/K de las mujeresM D. ;rabajadores 2 &/ 02 1D 04 22 & 1 &/ &2 4 1 0 &1 12 23 1C 2C Go trabajadores 22 2/ &2 &0 &/ D 1/ 0C 2/ 01 22 &4 C2 2C C2 1D 02 22 2D 0/ 1D C/ 14 23 ;otales 1& 1/ C/ 1C 00 22 C4 D/ &/D &/C 4& 2&
-btener la media, mediana $ desviacin t pica de la distribucin de las edades de la muestra total. 4. Estudiar la asimetr a de las tres distribuciones. E!ercicio 2..). En una epidemia de escarlatina, se ha recogido el n,mero de muertos en 1/ ciudades de un pa s, obteni)ndose la siguiente tabla! de muertos / %iudades &. Tepresentar grficamente estos datos. 2. -btener la distribucin acumulada $ representarla. 0. %alcular media, mediana $ moda. 1. %alcular la varian:a $ la desviacin t pica. 2. 7orcentaje de ciudades con al menos 2 muertos. C. 7orcentaje de ciudades con ms de 0 muertos. D. 7orcentaje de ciudades con a lo sumo 2 muertos. & 2 0 1 2 C D