Anda di halaman 1dari 7

Modelos lineales en Biologa,

5 Curso de Ciencias Biolgicas

Clase 28/10/04

Estimacin y estimadores: Distribuciones asociadas al muestreo


Referencias: Cualquiera de los textos incluidos en la bibliografa recomendada En este tema se aplicarn algunos de los conceptos relativos a probabilidad que se han visto hasta ahora, pues se trata de encontrar funciones de los datos procedentes de una muestra que sirvan para estimar algunos de los parmetros poblacionales ms importantes.

1.- Estadsticos y estimadores.


Definimos Estadstico como cualquier funcin de los datos de una muestra. Cada valor de una funcin definida a partir de las medidas de una muestra depende de la muestra que en cada caso se haya elegido. Si la muestra es aleatoria, cualquier estadstico es una variable aleatoria y como tal, tendr una distribucin. Dedicaremos este tema a hablar de las distribuciones de algunos estadsticos muy usados en experimentacin. Frecuentemente nos interesa conocer algn dato de una poblacin, por ejemplo: qu proporcin de personas votar una determinada opcin poltica?, o Cul es la talla media de esta comunidad?. En muchas ocasiones el dato que pretendemos conocer es, adems, algn parmetro de una distribucin. Por ejemplo, respecto de la opcin poltica, podemos considerar toda la poblacin dividida en dos grupos: los que votan la opcin en estudio y los que no lo votan; podemos representar la situacin mediante una variable aleatoria que tomar los valores 1, si eligen la opcin de inters, y 0 si no la eligen. Esta situacin quedar modelada por la distribucin binaria, cuyo nico parmetro es la proporcin p que queremos conocer. Se tratar de elegir una muestra y encontrar la funcin de la muestra que mejor estime el dato poblacional requerido. Definimos Estimador como cualquier estadstico que sirva para evaluar un dato poblacional a partir de los de una muestra. Todos los estimadores son variables aleatorias y siguen algn modelo de distribucin, comentaremos los ms importantes a lo largo del tema. Representaremos con la letra griega un parmetro poblacional genrico, con el mismo smbolo con . El estimador de la proporcin p es p circunflejo, su estimador: ; el de la media es ;y el de la varianza 2 es 2 . Existen varios procedimientos para determinar estimadores, algunos de ellos son: el de analoga, el de mxima verosimilitud, el de mnimos cuadrados y otros. Nosotros definiremos estimadores por analoga: tomaremos como estimador de un parmetro poblacional su propia definicin aplicada a la muestra: Estimador de una proporcin: La proporcin se estima en la muestra contando el numero de individuos que presenten la caracterstica que se estudie y dividindolo entre el tamao de la muestra: n = a Sea una muestra de tamao n, y de ellos n a presentan la caracterstica en estudio, entonces p n Estimacin de una media: utilizaremos la media muestral como estimacin de la poblacional. Sea una muestra de tamao n y una caracterstica cuantitativa X cuyas medidas en los individuos de la =x= muestra han resultado ser x1 , x2 ,....,x n , entonces

x
i =1

Estimacin de una varianza: se utiliza la cuasivarianza muestral para estimar la varianza poblacional: 2 = s2 =

(x
i =1

x)

n 1

Estimacin de parmetros, pg 1

En ocasiones observaremos el parmetro p como la media de una distribucin binaria: puesto que la variable aleatoria solo puede tomar los valores 1 (acierto) y 0 (fallo), el nmero de aciertos es tambin la suma de todos los valores de la variable observados en la muestra, y al dividir la suma de todas las observaciones entre el nmero de ellas, tendremos la media muestral. El parmetro de una Poisson es su media, por lo que para estimarlo tambin podremos considerarlo como una media.

2.- Propiedades de los estimadores:


Insesgadez: la principal caracterstica que debe cumplir un estimador es que estime lo que realmente se pretende estimar, o sea, al repetir muchas veces la estimacin, se obtenga como promedio un valor muy prximo al que se desea estimar: )= . Un estimador que cumpla esta propiedad se dice que es insesgado, en caso contrario se le denomina E( sesgado. La media muestral es un estimador insesgado de la media poblacional, pues E(x) = . La varianza muestral no es un estimador insesgado de la varianza poblacional, ya que: n 1 2 , por ese motivo se usa como estimador de la varianza poblacional la cuasivarianza n que s es insesgado. E(s 2 ) = Eficiencia: todo estimador es una variable aleatoria, y, como tal, tendr una media y una varianza, un estimador es tanto ms eficiente cuento menor sea su varianza, pues la variabilidad implica poca seguridad en que la estimacin sea correcta, desde ese punto de vista, lo ideal sera que la variabilidad fuese nula. La eficiencia siempre se define en relacin a otro estimador del mismo parmetro, un estimador es ms eficiente que otro si tiene menos varianza. Existe un valor mnimo de la varianza de un estimador insesgado, es la denominada cota de Frchet-Cramer-Rao, si un estimador insesgado alcanza esta cota, decimos que es eficiente. Suficiencia: un estimador es suficiente si contiene toda la informacin muestral relativa al parmetro que se desea estimar. La media muestral es un estimador suficiente, pues se usan todos los datos de la muestra en su clculo. Conocida la media muestral, el disponer de todos los datos de la muestra no mejora mi informacin referente a la media poblacional. Consistencia: un estimador es consistente si la probabilidad de encontrar valores estimados distintos a los que se desea estimar es muy baja (por poco que se diferencien los valores estimados de los que se pretenden estimar) cuando el tamao de la muestra es muy grande. Los estimadores basados en una media muestral son insesgados, eficientes y suficientes.

3.- Distribuciones en el muestreo: a) Distribucin de la media muestral:

a.1) Variable aleatoria X es una Normal ( ; 2). Extraida una muestra de tamao n, con las observaciones x 1, x 2 ,...xn . Al considerar todas las posibles muestras, cada observacin toma los valores de la variable aleatoria X y su misma densidad, la suma de n variables aleatorias Normales, todas ellas con la misma media y varianza es una variable aleatoria Normal, cuya media es n y cuya varianza es n2, portanto , aplicando las propiedades de la esperanza matemtica, podemos comprobar que la media X sigue una distribucin de media y varianza 2/n. . Adems, al ser Normal la poblacin de la que se extrae la muestra, la media muestral sigue tambi n una distribucin Normal: Si X N(;2) X N(;2/n) Al tipificar la media muestral: Z = X 2 n

N(0;1)

Estimacin de parmetros, pg 2

Con frecuencia no se conoce la varianza poblacional, entonces se estima con la cuasivarianza poblacional, pero al tipificar, lo que se obtiene no es lo mismo que antes: t = t(n 1) s2 n Cuando los datos proceden de una variable Normal , la media de todas las medias muestrales sigue una distribucin Normal, si se tipifica con la desviacin tpica poblacional, la media tipificada sigue una Normal (0;1). Per o si se tipifica con la cuasidesviacin tpica, sigue una distribucin t de Student con n-1 grados de libertad . a.2) La variable aleatoria X No es una Normal: Entonces la distribucin de la media muestral depende de la distribucin de la variable original. No obstante, para muestras grandes : n>30 (Teorema Central del Lmite), se puede asegurar que la distribucin de la media muestral es muy aproximadamente una Normal de media la de X y de varianza la de X dividido por el tamao muestral. Si la varianza muestral es desconocida NO SE PUEDE UTILIZAR LA DISTRIBUCIN t, pues falla el supuesto de Normalidad, por ello se comete menos error utilizando la distribucin Normal y tomando MUESTRAS DE TAMAO SUPERIOR A 60. X

b) Distribucin del estimador del parmetro p de una distribucin binaria:


Si de una distribucin binaria tomamos una muestra de tamao n y contamos el nmero de aciertos, na, el cociente na/n estima la proporcin de aciertos en la poblacin. Considerando la variable aleatoria nmero de aciertos observados en la muestra de tamao n, esta variable , si la extraccin fue independiente, sigue una distribucin binomial, de parmetros n y p : na b(n;p) Tambin se puede considerar que los valores posibles de la variable aleatoria de partida (binaria con media p y varianza pq) son 0 y 1, por lo tanto las observaciones muestrales solo tendrn estos valores, la suma de todas las observaciones muestrales coincide con el nmero de aciertos y por lo tanto, na/n puede ser considerado como una media, por lo que segn el Teorema Central del Lmite (T.C.L.) , si la muestra es grande: X N( ;2/n)=N(p; pq/n)

c) Distribucin del estimador del parmetro 2 de una distribucin Normal:


2

Si X es una variable aleatoria N(;2) y desconocemos la media y la varianza poblacional, podemos estimar sta con la cuasivarianza poblacional:
n 1 n 2 x x (n 1)s2 sigue una distribucin Chi( xi x ) , se puede demostrar que el estadstico i = n 1 i= 1 2 i =1 cuadrado con n-1 grados de libertad. Esto significa que al tipificar r especto de la varianza poblacional, cada sumando es el cuadrado de una N(0;1) , y la suma de todos ellos una Chi-cuadrado, pero todos los sumandos no son independientes, ya que la suma de todas las observaciones ha de ser tal que se obtenga la media x observada. Si fijamos este valor de la media muestral y dejamos que varen libremente las observaciones, solo hemos de calcular n-1, pues la ltima viene obligada. Por lo tanto, el nmero de grados de libertad de la distribucin Chi-cuadrado es n-1 (el mismo nmero que se utiliza como denominador del clculo del estimador de la varianza).

s2 =

d) Distribucin del cociente de las los estimadores de las varianzas de dos distribuciones Normales independientes:
(n 1)s 2 sigue una 2 distribucin Chi cuadrado con n-1 g.l., calculado cada uno de ellos en su respectiva muestra, el estadstico: En ocasiones hay que comparar las varianzas de dos distribuciones Normales, como el estadstico

Estimacin de parmetros, pg 3

( n1 1) s12 (n2 1) s22


22 ( n2 1) 12 (n1 1) s12 = 12 s22 22 sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad respectivamente.

4.- Estimacin por punto y por intervalo:


Cuando realizamos una estimacin de un parmetro aplicando el estimador correspondiente, damos un valor como estimacin del parmetro poblacional, entonces decimos que hemos realizado una estimacin por punto. Con frecuencia hay que plantearse qu tan segura es esa estimacin: Qu probabilidad hay de que el valor que se ha dado como estimacin coincida con lo que realmente se desea estimar?. Supongamos el caso de una distribucin binaria cuyo parmetro p sea realmente 0.4, que por el momento es desconocido y tomamos una muestra de tamao, n=5 , qu probabilidad hay de que se obtenga na=2 para que el p estimado sea 0.4? 5 P(X = 2) = 0.4 2 0.6 3 = 0,3456 2 Esto nos dice que e n solo 34.5 de cada cien veces que tomsemos esta muestra estimaremos correctamente el parmetro poblacional (en ms del 65% de los casos realizaremos una estimacin incorrecta). Qu decir si la variable de partida fuese contnua?. Por ello una estimacin por punto es poco informativa de la calidad de esa estimacin y se prefiere dar un intervalo de valores entre los cuales esperamos est incluido el valor estimado con una cierta probabilidad, es la estimacin por intervalo. Para realizar una estimacin p or intervalo es preciso conocer la distribucin del estimador que se usa y, a partir de ella, construir un intervalo de confianza. Vemoslo con un ejemplo:

a) Estimacin por intervalo de la media de una variable Normal .


Realizar una estimacin por inter valo es encontrar los extremos a y b de un intervalo que esperamos contenga la media poblacional con una probabilidad que nosotros fijamos de antemano y que denominamos, nivel de confianza, sea este nivel 1, entonces ser : P(a < b) =1- Nosotros sabemos que si la variable de partida es Normal, la media muestral es una Normal de media la poblacional y varianza la poblacional dividida por el tamao muestral: X N(; /n) Z =
2

X 2 n

N(0;1)

Se puede encontrar dos valores: a y b tales que la probabilidad de que Z tome valores comprendidos entre ellos sea un valor dado 1-, P(a<Zb) = 1- . En realidad hay infinidad de posibles valores a y b y por eso se suelen tomar tales que la probabilidad de que Z sea menor que a sea igual a la probabilidad de que Z sea mayor que b , y ambas probabilidades igual a /2 Como al distribucin Normal es simtrica respecto de su media, en el caso de una N(0;1), dos abcisas a y b que delimiten colas de igual probabilidad verifican que |a| =| b|, por lo que solo hay que buscar el cuantil z /2 de la Normal(0;1)

Estimacin de parmetros, pg 4

/2

/2

Entonces: P( z / <

x 2 n

z ) = 1 , quitando denominadores dentro del parntesis:

2 2 P z / 2 < x z / 2 = 1 , restando x : n n 2 2 P x z / 2 < x + z / 2 = 1 , cambiando el signo y el sentido de la desigualdad dentro del n n parntesis: 2 2 P x z / 2 < x + z / 2 =1 n n Supongamos una variable aleatoria de la que sabemos que sigue una distribucin Normal, de media desconocida y varianza conocida =4. Para estimar la media poblacional tomamos una muestra de tamao 10 y calculamos la media muestral , que resulta ser 30. La estimacin por punto ser x =30. 2 2 Por lo tanto, el intervalo buscado es: x z / 2 < x + z / 2 n n Para este ejemplo, si se desea que 1- =0.90, el cuantil buscado es el que deja a su derecha un rea de 0.05, para que su simtrico deje un rea a su izquierda de 0.05. En las tablas de la Normal(0;1), podemos encontrar que el cuantil buscado es 1.64, por lo que : 2 2 4 4 I1 = x z /2 < x + z / 2 = 30 1.64 ; 30 +1.64 = ( 28.963;31.037 ) n n 10 10 Podemos afirmar que la media poblacional es un valor comprendido entre 28.963 y 31.037 con un grado de confianza del 90%.

Estimacin de parmetros, pg 5

Ntese que se habla de confianza en lugar de probabilidad: una vez tomada la muestra, todos los datos requeridos para construir el intervalo son conocidos y podemos construirlo. Este intervalo ya ha sido fijado y contendr o no a la media poblacional. Solo podemos afirmar que de repetir el proceso muchas veces, tendramos que, en promedio, 90 de cada 100 de los intervalos que as se constuyan contendrn a la media poblacional, y "confiamos" en que este sea uno de esos 90. Si la varianza poblacional fuese desconocida, todo sera semejante, cambiando varianza poblacional por cuasivarianza muestral y la distribucin Normal por una t de Student con n-1 grados de libertad. Para el ejemplo actual, si 4 es la cuasidesviacin tpica: s2 s2 4 4 I1 = x t ( n < x + t (n 1) / 2 = 30 1.833 ; 30 +1.833 = ( 28.841;31.159) 1 ) , / 2 n n 10 10 Lgicamente, cuando valor de la varianza estimada coincide con la varianza poblacional (desconocida), al desconocer la varianza poblacional se obtiene un intervalo ms amplio para tener la misma confianza de recubrir la media, pues el grado de desconocimiento es mayor.

b) Estimacin por intervalo de la media de una variable que no sabemos si sigue una ley Normal.
En este caso solo podemos tomar muestras grandes y aplicar el T.C.L.. Si la varianza poblacional es conocida, el tamao muestral solo debe ser superior a 30, mientras que si la varianza poblacional es desconocida, el tamao ha de ser superior a 60. En ambos casos se debe usar la distribucin Normal y no la t , ya que por no cumplirse el supuesto de normalidad, el error cometido al utilizar la t de Student es superior al que se comente manteniendo la Normal. Los resultados son solo aproximados, tanto ms cuanto mayor sea la muestra: 2 2 I1 x z / 2 < x + z / 2 n n I1 x z / 2 s2 s2 < x + z / 2 n n con n >30

con n >60

c) Estimacin por intervalo del parmetro p de una distribucin binaria:


Si se toma una muestra de tamao n de una distribucin binaria de parmetro p desconocido, podemos contar el nmero de aciertos de la muestra para estimar p. Esta cantidad es una variable aleatoria que sigue una distribucin binomial de parmetros n conocido y p desconocido. Si se supone que la estimacin por punto de p es una buena aproximacin de su valor poblacional, se podr calcular las probabilidades asociados a los distintos valores de los posibles x de una distribucin y sumar P(X=0)+P(X=1)+.... hasta encontrar una tal que la suma est lo ms prximo posible a /2, supongamos b(n;p) que esta sea xa . Del mismo modo se puede proceder por el extremo superior: P(X=n)+P(X=n-1)+.... hasta encontrar un x b que haga que la suma sea lo ms prximo posible a /2,entonces, como: p = n a / n , el intervalo ser: xa xb ; ) aunque, como la probabilidad es discreta, el nivel 1- deseado casi nunca se alcanza exactamente. Este n n procedimiento tiene una objecin grave y es que para construir una estimacin del parmetro poblacional ha de hacer uso de este parmetro, que es desconocido y se utiliza el valor de p estimado. Otro procedimiento consiste en determinar los valores p1 y p2 del siguiente modo: p1 es la proporci n que se ha de utilizar en una distribuci n binomial b(n ; p1) para que la probabilidad de obtener na o ms aciertos sea 1- /2 y p2 es la proporci n que se ha de utilizar en una distribucin binomial b(n ; p2) para que la probabilidad de obtener na o menos aciertos sea /2 pq En el caso de que el tamao muestral sea grande, se puede usar la aproximacin de la Normal: p N p; , el intervalo n de confianza ser: I1 = ( pq , el inconveniente es que el intervalo para p vuelve a quedar en funcin de p , por eso se suele sustituir los n p y q de dentro de la raz por sus estimaciones muestrales: z / 2 p =p

Estimacin de parmetros, pg 6

pq n Esta frmula solo es aplicable si el tamao muestral es tal que tanto el nmero de "aciertos" como el de "fallos" sean mayor que 20. Adems habra que incluir una correccin por continuidad debida al hecho de aproximar una distribucin discreta (con valores para probabilidades puntuales) por una contnua, en la que la probabilidad asociada a un solo punto es nula. En el caso de que no se alcance este tamao de muestra, se puede calcular el intervalo a partir de la frmula inicial: z / 2 p =p p(1 p) n En la que se ha sustituido q por 1 p , como el resto de cantidades son conocidas, tenemos una ecuaci n irracional en p, que se resuelve aislando el trmino irracional, elevando al cuadrado: z / 2 p =p pq = z / 2 n y resolviendo la ecuacin de segundo grado que se obtiene. Las raices de dicha ecuaci n son los extremos del intervalo pedido. Existen otras expresiones para la estimacin por intervalo de proporciones, que no se vern aqu, (ver Martn Andrs, 1994).
2 ) (p p 2

d) Estimacin por intervalo de una varianza de una variable aleatoria Normal


En el caso de la varianza, si la variable de la que se toma la muestra sigue una distribucin Normal N( ; 2 ) sabemos que el (n 1)s 2 estadstico sigue una distribucin Chi-cuadrado con n-1 g.l., puesto que esta distribucin toma valores a partir de 2 cero y no es simtrica, tendremos que determinar a partir de las tablas de esta distribucin los cuantiles 21-/2 y 2/2 que dejan a su derecha un rea 1-/2 y /2, respectivamente, entonces: (n 1)s 2 P 12 / 2 < < 2 / 2 = 1 al despejar la varianza poblacional hay que invertir los signos de la desigualdad, y 2 ( n 1 ) s 2 ( n 1 ) s 2 el intervalo de confianza es: I1 = ; 2 2 1 /2 / 2

Estimacin de parmetros, pg 7

Anda mungkin juga menyukai