Anda di halaman 1dari 12

UNIDAD III:INFERENCIA ESTADSTICA

INFERENCIA ESTADSTICA Y
ESTIMACIN DE PARMETROS

TEMA

10.1. INTRODUCCIN
10.2. INFERENCIA ESTADSTICA
10.3. ESTIMACIN DE PARMETROS
10.3.1. Estimadores puntuales
10.3.2. Propiedades de los estimadores
10.4. TIPOS DE ESTIMACIN
10.4.1. Estimacin puntual
10.4.2. Estimacin intervalar (Intervalo de Confianza)
10.4.3. Interpretacin de los intervalos de confianza
10.4.4. Estimacin del tamao muestral

10.1. INTRODUCCIN
En las unidades anteriores enfatizamos las propiedades del muestreo de la media y de la
varianza muestrales. Tambin enfatizamos las presentaciones de datos en varias formas. El propsito
de estas presentaciones es la construccin de las bases que permitan a los estadsticos extraer
conclusiones acerca de los parmetros de la poblacin a partir de los datos experimentales. Por
ejemplo, el teorema del lmite central proporciona informacin sobre la distribucin de la media muestral
X . La distribucin involucra a la media de la poblacin . As, cualquier conclusin que se extraiga con
respecto a a partir de un promedio muestral observado debe depender del conocimiento de su
distribucin muestral. Comentarios similares se podran aplicar a S2 y 2.
En esta unidad comenzamos por sealar de manera formal el propsito de la inferencia
estadstica. Seguimos con la presentacin del problema de la estimacin de los parmetros de la
poblacin. Restringiremos nuestros desarrollos formales de los procedimientos especficos de
estimacin a problemas que involucren una y dos muestras.

10.2. INFERENCIA ESTADSTICA


En la primera unidad presentamos la filosofa general de la inferencia estadstica formal. La teora
de la inferencia estadstica consiste en aquellos mtodos por los que se realizan generalizaciones
acerca de una poblacin. La tendencia actual es la distincin entre el mtodo clsico de estimacin de
un parmetro de la poblacin, por medio del cual las inferencias se basan de manera estricta en
informacin que se obtiene de una muestra aleatoria seleccionada de la poblacin, y el mtodo
bayesiano, que utiliza el conocimiento subjetivo previo sobre la distribucin de probabilidad de los
parmetros desconocidos junto con la informacin que proporcionan los datos de la muestra. A lo largo
de la mayor parte de esta unidad utilizaremos los mtodos clsicos para estimar los parmetros de la
poblacin desconocidos como la media, la proporcin y la varianza mediante el clculo de estadgrafos
de muestras aleatorias y la aplicacin de la teora de las distribuciones muestrales.
La inferencia estadstica se puede dividir en dos reas principales: estimacin y pruebas de
hiptesis. Para distinguir claramente entre las dos reas, considere los siguientes ejemplos. Un
candidato a un puesto pblico puede desear estimar la verdadera proporcin de votantes que lo
favorecern mediante la obtencin de las opiniones de una muestra aleatoria de 100 votantes. La
fraccin de votantes en la muestra que favorecern al candidato se podra utilizar como una estimacin
de la verdadera proporcin en la poblacin de votantes. El conocimiento de la distribucin muestral de
una proporcin nos permite establecer el grado de precisin de nuestra estimacin. Este problema cae
en el rea de la estimacin.
Considere ahora el caso en el que se est interesado en encontrar si la marca A de cera para
piso es ms resistente al desgaste que la marca B. Se puede plantear la hiptesis de que la marca A es
mejor que la marca B y, despus de la prueba apropiada, aceptar o rechazar esta hiptesis. En este
ejemplo no intentamos estimar un parmetro sino que en realidad tratamos de llegar a una decisin
correcta acerca de una hiptesis preestablecida. Una vez ms dependemos de la teora del muestreo y
del uso de datos que nos proporcionen alguna medicin de la precisin de nuestra decisin.
En trminos generales, los mtodos para hacer inferencia acerca de los parmetros de la
poblacin estn en una de dos categoras:

Estimacin: estima o predice el valor del parmetro


Prueba de hiptesis: tomar una decisin respecto al valor de un parmetro basado en alguna
idea preconcebida acerca de cul podra ser su valor.

163
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

10.3. ESTIMACIN DE PARMETROS


10.3.1. Estimadores puntuales
La inferencia ms simple es la estimacin puntual o por punto, en la que se calcula un nico
valor con los datos muestrales para estimar un parmetro poblacional. Cmo decidimos qu estadstico
muestral calcular para dar una nica estimacin numrica de un parmetro de la poblacin? Suponga
que tratamos de estimar la media poblacional y que estamos dispuestos a suponer que la distribucin de
la poblacin es normal. La media muestral es un estadgrafo natural que se puede utilizar para estimar la
media poblacional. Cuando la distribucin de la poblacin es normal, la mediana muestral es una
estimacin posible de la media poblacional. Tambin lo es una media truncada al 80%, el promedio del
80% de los valores centrales. Aunque la poblacin sea simtrica, es casi seguro que la muestra sea algo
asimtrica debido a la variacin aleatoria. As, para cualquier muestra particular. Los tres mtodos
proporcionan estimaciones en cierto sentido diferentes. Los valores atpicos tienen una enorme
influencia sobre la media. Una media truncada tiene una menor influencia en los valores atpicos, pero
desperdicia datos al ignorar (por ejemplo) un 20% de ellos. Podemos pensar en la mediana como una
media truncada extrema, en donde uno descarta todos los datos excepto el central o los centrales.
Cul mtodo deberamos utilizar?

Para proseguir el anlisis, necesitamos una definicin tcnica. Utilizamos  como smbolo
genrico de un parmetro poblacional y  para indicar una estimacin de  basada en los datos de una
muestra.
Definicin 10.1

Un estimador de un parmetro es una funcin de los valores muestrales aleatorios  ,  ,  que


proporciona una estimacin puntual de . Un estimador es en s mismo una variable aleatoria y por
consiguiente tiene una distribucin de probabilidades (distribucin muestral).
Hay una distincin tcnica entre un estimador como una funcin de variables aleatorias y una
estimacin como un nico nmero. Es la distincin entre un proceso (el estimador) y el resultado de
dicho proceso (la estimacin). Lo que en realidad importa de esta definicin es que nosotros slo
podemos definir buenos procesos (estimadores), mas no garantizar buenos resultados (estimaciones).
Lo ms que podemos hacer es encontrar estimadores que den buenos resultados en el lmite.

, de un
Una estimacin puntual de algn parmetro de la poblacin  es un valor estimado, 

estimador . Por ejemplo, el valor  del estadgrafo , que se calcula a partir de la muestra de tamao
n, es una estimacin puntual del parmetro poblacional . De manera similar,  =   es una estimacin
puntual de la verdadera proporcin  para un experimento binomial.

No se espera que un estimador realice la estimacin del parmetro poblacional sin error. No
esperarnos que  estime  exactamente, sino que en realidad esperamos que no est muy alejado. Para
una muestra particular es posible obtener un estimado ms cercano de mediante el uso de la mediana
de la muestra  como un estimador. Considere, por ejemplo, una muestra de n=3 que consista en los
valores 2, 5 y 11 de una poblacin cuya media es 4 pero supuestamente se le desconoce. Estimaramos
a como  = 6, con el uso de la media muestral como nuestra estimacin. En este caso el estimador 
produce una estimacin,  d=5, ms cercana al verdadero parmetro que la estimacin del estimador .

10.3.2. Propiedades de los estimadores


10.3.2.1. Insesgado

La primera propiedad que queremos que tenga un estimador (y su distribucin normal) es que, en
promedio, estime correctamente el parmetro de la poblacin. Por ejemplo, parece errneo utilizar el
percentil 90 de una muestra para estimar la mediana (percentil 50) de una poblacin, en vez de utilizar la
mediana de la muestra. Aunque es concebible que, en una muestra particular, el percentil 90 est ms
cerca de la media de la poblacin que la mediana muestral, en general dicho percentil es demasiado
grande. En otras palabras, este percentil tiende a sobrestimar la mediana de la poblacin. Queremos
utilizar en la estimacin un estadgrafo que no sobrestime o subestime sistemticamente el parmetro
poblacional que se busca.
Un estimador  que es una funcin de los datos muestrales  ,  ,  se conoce como estimador
insesgado del parmetro poblacional si su valor esperado es igual a . Dicho de otra manera,  es un
estimador insesgado del parmetro  si  = .
Definicin 10.2.

Un estimador insesgado es correcto en el promedio. Podemos pensar en el valor esperado de 


para todas las muestras posibles, o, lo que es lo mismo, como el promedio en el lmite de los valores 
para muestras repetidas. La condicin de que el estimador  es insesgado supone que el valor promedio
de  es exactamente correcto. Si el estimador es sesgado, la magnitud del sesgo es:
 =  

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

164

UNIDAD III:INFERENCIA ESTADSTICA

Grfico 10.1:
.1: Ilustracin de un estimador insesgado y un estimador sesgado

La exigencia de que un estimador sea insesgado no es muy restrictiva y no excluye muchos


estimadores potenciales. Por lo general son muchos los estimadores insesgados de ccualquier
alquier parmetro
poblacional. Por ejemplo, cuando se toman muestras de una poblacin normal, la media muestral, la
mediana y las medias truncadas son todos estimadores insesgados de la media poblacional .
La ausencia de sesgos no es la nica propiedad que
que queremos que tenga un estimador. Un
estimador insesgado que sobrestima el parmetro de inters la mitad de las veces y la subestima la otra
mitad no es un buen estimador. Una segunda propiedad que exigimos a un estimador es que tenga una
distribucin muestral
estral en que gran parte de la probabilidad est concentrada cerca del parmetro que se
va a estimar. El error estndar nos da una medida de la concentracin de la distribucin muestral de un
estimador: mientras ms pequeo sea el error estndar, mayor ser
ser
la concentracin de la probabilidad
cerca del parmetro de inters. El grfico 10.2 presenta las distribuciones muestrales de dos
estimadores insesgados hipotticos de un parmetro de la poblacin. Es obvio que !
" # !
$ y por
consiguiente que  es un
n estimador de  ms deseable que  .

Grfico 10.2:
10.2: Comparacin de (a) un estimador eficiente y (b) un estimador ineficiente

10.3.2.2. Eficiencia
El error estndar de un estimador tambin se relaciona con el grado de error probable. Mientras
ms pequeo sea aquel,
el, ms pequeo ser ste. Por consiguiente, nos gustara encontrar un estimador
insesgado con el menor error estndar posible, o, lo que es lo mismo, el error probable ms pequeo.
Definicin 10.3:
Se dice que un estimador es el ms eficiente para un problema
blema particular cuando tiene el error tpico
ms pequeo de todos los estimadores posibles.
Se utiliza la palabra eficiente porque, en una situacin dada, el estimador hace el mejor uso
posible de los datos muestrales. De acuerdo con la teora estadstica clsica, en trminos generales se
debe preferir el estimador insesgado ms eficiente sobre cualquier otro. Dadas algunas hi
hiptesis
ptesis muy
especficas, es posible encontrar los estimadores ms eficientes. Por ejemplo, si la poblacin de la que
se toman las muestras es normal, la media muestral tiene un error estndar ms pequeo que la
mediana muestral y que cualquier otro estimador
estimador insesgado. Por lo tanto, si hay una buena razn para
suponer que la poblacin es normal, el mejor estimador de la media poblacional es la media muestral.

10.3.2.3. Consistencia
Un criterio adicional para un buen estimador es la consistencia
consistencia. Si tenemos la fortuna de contar
con una muestra muy, muy grande, debera estar garantizado que el estimador est muy prximo al
parmetro poblacional (o del proceso).
Definicin 10.4:
Un estimador es consistente si se aproxima al parmetro poblacional con probabilidad uno
uno, a medida
que el tamao de la muestra tiende al infinito.

Por ejemplo, la media muestral de


de una muestra aleatoria tiene el valor esperado y un error
estndar que se aproxima a cero a medida que n tiende a infinito. Por lo tanto, cuando el tamao de la
muestra
estra tiende a infinito, se aproxima a tanto como se quiera. De acuerdo con la definicin, es
consistente. (Todos los estimadores
estimadores que se analizan en este texto son consistentes, siempre y cuando
las hiptesis establecidas se cumplan.)
Un estimadorr inconsistente es a todas luces un mal estimador. No es aconsejable dar una
estimacin imprecisa basada en una infinidad de datos, cosa que puede suceder si el sesgo de un
estimador no aproxima a 0 a medida que n tiende a infinito. Utilizar el percentil 2
25
5 de la muestra para
estimar la mediana poblacional producira un estimador inconsistente. Tambin habra inconsistencia si
165
Ctedra de C
Clculo Estadstico y Biometra Facultad de C
Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


el error estndar de un estimador no tiende a cero a medida que el tamao muestral crece. Por lo
general. Los estimadores inconsistentes son el resultado de alguna equivocacin o, lo que es ms
probable, resultan del fracaso de una hiptesis clave.

10.4. TIPOS DE ESTIMACIN


10.4.1. Estimacin puntual
Suponga que en una muestra de 200 estudiantes interesa el promedio general de notas de cada
uno de ellos y luego calcular la media de dichos promedios. Se obtiene una media de 2,46 puntos PG.
Esto nos asegura que la media de la poblacin sea tambin 2,46? Por supuesto que no, ya que
debemos considerar el error de muestreo. Por definicin, los estadgrafos muestrales son slo
estimaciones de parmetros. Si slo informamos este nmero 2,46, estamos proporcionando lo que se
llama estimacin puntual, un estadstico proporcionado sin mencionar un rango de error. Esto no es
mucho mejor que una suposicin. Por qu? Porque si extraemos una segunda, una tercera o una
cuarta muestra, es probable que por medio de los clculos obtengamos medias ligeramente diferentes
de cada una. En otras palabras, existe variabilidad en los resultados estadsticos de una muestra a otra.
En esencia, la estimacin puntual se refiere a la eleccin de un estadgrafo, es decir, un nmero
calculado a partir de datos muestrales (y quizs de ms informacin) respecto al cual tenemos alguna
esperanza o seguridad de que est razonablemente cerca del parmetro que ha de estimar.
As, el valor calculado de la media muestral se utiliza como una estimacin del valor medio de la
poblacin; el valor calculado de la desviacin estndar muestral se utiliza como una estimacin de la
desviacin estndar de la poblacin y el valor de la proporcin de elementos de una muestra con cierta
caracterstica en comn se usa como estimacin de la verdadera proporcin de una poblacin que
presenta la misma caracterstica. Tales estimaciones reciben el nombre de estimaciones de punto, o
puntuales del parmetro correspondiente.
Pero convendra acompaar la estimacin puntual con un error que nos determine cmo se
distribuye ese estimador puntual. Ese error es el error estndar o tpico del estimador.

'%

En consecuencia, la precisin de un estimador insesgado se mide por el error estndar del


estimador; es decir, cuanto menor sea !
tanto ms preciso es el estimador, o cuanto menor es el error

de muestreo para sustituir  por . Si  es insesgada su precisin se mide por  () * +. Es entonces

buena prctica que cuando se d una estimacin, tambin se d el error estndar estimado si no se
conoce la varianza de la distribucin. La expresin formal:

'
, %

A continuacin se presenta un cuadro resumen de los principales parmetros con sus


estimadores puntuales y las caractersticas de la distribucin muestral correspondiente.

Parmetro

Media

Tamao de
muestra

Proporcin

Dif. de medias

1 2
Dif. de proporciones

1 2
Suma o Total
S

n1 .n2
n1 .n2

Cuadro 10.1: Principales Estimadores


Caractersticas del Estimador
Estimador
puntual

 =

.


1 =


0

x1 x2

(1 1 )

S = Nx
S = N

()

()

Var

/

 

1 2
S = N
S = N


,"
6


,$
6


/$


/"


/$

+


 (1  )  (1  )
=
+
0
0


/"

(1 )
0

N 2 .Var( x )
N 2Var( p)

10.4.2. Estimacin intervalar (Intervalo de Confianza)


Anoche un vecino asisti a un concierto en el estadio deportivo del barrio. Al regresar a su casa
descubri que en el alboroto del evento haba perdido un anillo. Entonces decide ir al lugar con un
detector de metales. Este instrumento no es muy adecuado para apuntar con precisin objetos, pero es
bastante confiable dentro de un margen de error. Especficamente el detector es preciso dentro de
4,57m el 95% de las veces, se decir que no puede sealar el lugar exacto del anillo pero tiene un alto
grado de confianza que se encuentra dentro de los 4,57 m.
166
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Buscar la ubicacin de un objeto es similar a estimar el valor de un parmetro poblacional usando
estadgrafos de una muestra. Por ejemplo, es posible tomar una muestra de alumnos de 3 ao de
secundario y estimar su altura media dentro de 2,5cm una estimacin puntual con 1,25cm de ms o de
menos (por decir, 174,5cm 1,25cm)? Nuestra conclusin sera que la altura media est entre 173,25 y
175,75cm aunque no sea exacta es cercana. Podemos declarar, pensando en un muestreo repetido,
que tenemos un 95% de que ese intervalo estimado contenga el verdadero valor?
Definicin 10.5:
Un intervalo de confianza es un rango de valores posibles de un parmetro expresado con un grado
especfico de confianza.
Con intervalos de confianza tomamos una estimacin puntual y la acoplamos con lo que
sabemos sobre distribuciones muestrales. Proyectamos un margen conocido, calculable o intervalo- de
error alrededor de la estimacin puntual. Por ejemplo, donde X= calificacin promedio (CP), suponga
que tomamos una muestra de 300 alumnos de la facultad y calculamos una media muestral
CP X = 7.46 . Nuestro conocimiento sobre el muestreo repetido y las distribuciones muestrales nos
dice que este estadstico de la muestra debe estar cerca del parmetro verdadero de la poblacin. Qu
tan cerca? Nos basaremos en la distribucin muestral de medias.

( )

Al calcular intervalos de confianza no tomamos muestras repetidamente, ni graficamos ni


calculamos reas debajo de la curva de distribucin muestral. En cambio, extraemos slo una muestra y
calculamos una estimacin puntual como la media. Luego calculamos el error tpico que multiplicamos
por el valor crtico y con ello construiremos el intervalo, sumando y restando una cantidad a la
estimacin puntual.
En consecuencia, convendra acompaar la estimacin puntual de con un enunciado
probabilstico basado en la distribucin de probabilidades del estimador, es decir, que el error de la
estimacin puntual se mide en trminos de la variacin que presenta la estimacin , ac x , en
muestreos repetidos.

La diferencia entre la estimacin puntual y el verdadero valor del parmetro se simboliza de la


siguiente forma , | | . Para n relativamente grande, el estimador es una variable aleatoria que
8
tiene aproximadamente la distribucin normal con media y error tpico
. En consecuencia, diremos


que el error mximo de estimacin, cuando n es grande, entre la estimacin puntual y el verdadero valor
del parmetro a estimar es  cuya expresin es la siguiente,

E = z

Error mximo de estimacin


cuando n es grande

siendo : , el cuantil de la distribucin normal estndar que arrastra una probabilidad de  , con , nivel

de significancia establecido

En otras palabras, si intentamos estimar con la media de una gran muestra aleatoria ( n 30 ),
8
podemos decir con una probabilidad de 1 < que el error | | ser a lo sumo := . Los valores de
mayor uso para (1 <) son 0,95 y 0,99 y los valores correspondientes a :=
:>,>>? = 2,575, respectivamente.

= 0, 025

son :>,>? = 1,96 y

= 0,025

Grfico 10.3: Distribucin de muestreo de un estimador , donde > es una estimacin puntual que sobrestima a 
o en una cantidad ) *, que en valor absoluto, D Des llamado error de estimacin.

Los mtodos expuestos hasta ahora exigen conocer o que pueda ser aproximada mediante la
desviacin estndar muestral s, requiriendo as que n sea relativamente grande. Sin embargo, es
razonable suponer que si estamos muestreando en una poblacin normal y el tamao de la muestra es
F GH
pequeo podemos fundamentar nuestro argumento en E = I  que es un valor de una variable aleatoria

que tiene una distribucin t con (n-1) grados de libertad. Podemos decir con una probabilidad de 1-
que el error en que incurrimos al emplear x para estimar ser a lo sumo de:

167
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

E = t

s
2

Error mximo de estimacin


cuando n es pequeo

O con una confiabilidad de (1- ) % de que el error sea menor que esa cantidad.
En consecuencia, la precisin de un estimador insesgado se mide por el error estndar del
estimador; es decir, cuanto menor sea !
tanto ms preciso es el estimador, o cuanto menor es el error

de muestreo para sustituir  por . Si  es insesgada su precisin se mide por  () * +. Es entonces
buena prctica que cuando se d una estimacin, tambin se d el error estndar de la estimacin. Si,
por alguna razn, requiere una expresin ms formal de la estimacin y su precisin, podemos obtener
lo que se llama una estimacin por intervalo.
(JKLMNOPQR STULTOV ) J ; siendo J el error mximo de estimacin explicado anteriormente
Construccin del Intervalo de confianza

Propsito de calcular un intervalo de confianza: encontrar un intervalo significa que se puede


calcular la probabilidad de que el verdadero valor de est en ese intervalo. Entonces se debe
encontrar un intervalo de confianza aleatorio para el parmetro en cuestin. El intervalo aleatorio
obtenido para sea cual sea es ) ;  + *, con un nivel de confianza 1-. Lo que significa que para
todas las muestras de tamao n fijo, el (1-)% de los intervalos obtenidos a partir de ellas, contiene el
valor real del parmetro y el ()%, no lo contiene.

10.4.2.1. Intervalo de confianza de una media poblacional


Suponga, por ejemplo, que estudiamos la estructura salarial de una planta agroindustrial que
emplea a varios miles de operarios de lnea, pero no tenemos acceso a todos los archivos de la
compaa. Obtenemos una muestra aleatoria de 130 archivos del personal con datos de salarios por
hora, una variable de razn X. nuestro propsito consiste en utilizar estos datos de la muestra para
realizar declaraciones sobre la poblacin entera de operarios de lnea. As, calculamos un intervalo de
confianza para el salario medio / de todos los operarios. Nuestra pregunta de investigacin es cul es
el salario medio por hora de la poblacin de operarios de lnea, / ? Est entre, por decir, $9 y $10, o
entre $14 y $15, dnde?. Si estimamos por intervalo se tiene una confianza del 95%, si ese es el nivel
de confianza establecido de antemano, de que el salario medio est dentro del margen de cantidades de
pesos que calculamos.
Al confiar en una muestra, sabemos que existe un error en nuestra conclusin, porque
conocemos el error de muestreo. De hecho, la nica manera de estar absolutamente seguros consiste
en eliminar cualquier error de muestreo recogiendo datos de la poblacin entera, y calculando el
parmetro correcto / . Esto resulta muy costoso y consume bastante tiempo. As, acordamos emplear
una muestra, sabiendo que tendremos algn grado de error en nuestra conclusin. Por fortuna, la
cantidad de este error esperado es conocida. El nivel de error esperado es la diferencia entre el nivel de
confianza determinado y la confianza perfecta del 100%. En otras palabras, si estamos 95% seguros
respecto de nuestra conclusin, quedamos 5% inseguros de ella. As, tenemos un 5% de nivel de error
esperado.
Al calcular un intervalo de confianza, empleamos la letra griega (gama) para simbolizar el nivel
de confianza. En general, el nivel de confianza y el nivel de significancia son complementarios y juntos
suman 100%. As:
Nivel de confianza = 1-
Nivel de significancia =

El error de estimacin por intervalo, , (ver error mximo de estimacin) depende:


del cuantil : de la distribucin Normal estndar si el tamao de la muestra, n, es grande
(n30), del nivel de significancia y del error tpico del estimador puntual.
$

del cuantil E(, ,  1) de la distribucin t de Student si el tamao de la muestra, n, es pequeo


$

(n<30), la poblacin es normal o aproximadamente normal y se desconoce la varianza


poblacional del estimador puntual ; del nivel de significancia y del error tpico del estimador
puntual.

168
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Lista breve de verificacin de los cinco pasos para calcular intervalos de confianza
1. Enuncie la pregunta de investigacin, identifique el nivel de medicin de la variable, liste
las especificaciones y elabore un diagrama conceptual de la poblacin y muestra de
inters.
2. Calcule el error de estimacin, .
3. Calcule el lmite inferior del intervalo, (
( -) , y el Lmite
mite superior del mismo, ) + **
4. Proporcione una interpretacin estadstica
estadstica que ilustre el co
concepto intervalo
intervalo de
confianza.
5. Proporcione una interpretacin en trminos del problema.

Intervalo de confianza para con 2 conocida


Si x es la media de una muestra aleatoria de tamao n de una poblacin con varianza 2 conocida, un
intervalo de confianza de (1-)100%
(1
para est dado por

X
X
= 1
P x z
< < x + z
2
2
n
n

donde z es el valor de z que deja un rea de 2 a la derecha.


2

Para muestras pequeas que se seleccionan de poblaciones no normales, no podemos esperar


que nuestro grado de confianza sea preciso. Sin embargo, para muestras de tamao n30,, sin importar
la forma de la mayor parte de las poblaciones, la teora de muestre
muestreo garantiza buenos resultados.
Muestras diferentes darn valores diferentes de x y por tanto producirn diferentes intervalos de
estimacin del parmetro como se muestra en el grfico 10.
10.4.
4. Los puntos circulares al centro de cada
intervalo indican la posicin de la estimacin puntual x para cada muestra aleatoria. Se ve que la mayor
parte de los intervalos contienen a ,, pero no todos los casos. Ntese que todos los intervalos son del
mismo ancho, pues esto depende
dep
slo de la eleccin de z/22 una vez que se determina x . Entre ms
grande elegimos el valor de z/2, hacemos ms anchos todos los intervalos y podemos tener ms
confianza en que la muestra particular que se seleccione producir un intervalo que contenga el
parmetro desconocido .

Grfico 10.4:
.4: Estimaciones por intervalo de

para muestras diferentes de una misma poblacin

El intervalo de confianza de (1-)100%


(1 )100% proporciona una estimacin de la precisin de nuestra
estimacin puntual. Si es realmente el valor central del intervalo, entonces x estima sin error. La
mayor parte de las veces, sin embargo, x no ser exactamente
xactamente igual a y la estimacin puntual es
errnea. La magnitud de este error ser el valor absoluto de la diferencia entre y x , y podemos tener
(1-)100%
)100% de confianza de que esta diferencia no exceder z 2

n . Esto se puede ver con facilidad

si dibujamos un diagrama de un intervalo de confianza hipottico como el del grfico 10.5.

Grfico 10.5:
.5: Error en la estimacin de

mediante x

169
Ctedra de C
Clculo Estadstico y Biometra Facultad de C
Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Si se utiliza x como una estimacin de , podemos tener una confianza de (1-)100% de que el error
no exceder z 2

n.

Hablando estrictamente, la frmula slo se aplica si conocemos la varianza de la poblacin de la


que seleccionamos la muestra. A falta de esta informacin, podemos tomar una muestra preliminar de
tamao n 30 que proporcione una estimacin de . Despus, con el uso de s como aproximacin
para en la frmula podemos determinar aproximadamente cuntas observaciones se necesitan para
proporcionar el grado de precisin que se desea.
Con frecuencia intentamos estimar la media de una poblacin cuando se desconoce la varianza.
Se debe recordar que si tenemos una muestra aleatoria pequea a partir de una distribucin normal,
entonces la variable aleatoria

T=

X
S

tiene una distribucin t de Student con n-1 grados de libertad. Aqu S es la desviacin estndar de la
muestra. En esta situacin, que se desconoce, se puede utilizar T para construir un intervalo de
confianza de . El procedimiento es el mismo que cuando se conoce excepto que se remplaza por S
y la distribucin normal estndar se remplaza por la distribucin t. Entonces, con referencia al grfico
10.6, podemos asegurar que:
Z)E/ # \ # E/ * = 1
1

Grfico 10.6: Distribucin t

donde E=] es el valor de t con n-1 grados de libertad, que deja un rea de 2 arriba de ese valor.

Debido a la asimetra, un rea igual de 2 caer la izquierda de E=] . Para nuestra muestra aleatoria
particular de tamao n, se calculan la media y la desviacin estndar y se obtiene el siguiente intervalo
de confianza de (1-)100% para .

Intervalo de confianza para con 2 desconocida


Si x y s son la media y la desviacin estndar de una muestra aleatoria de tamao n (<30) de una
poblacin normal con varianza 2 desconocida, un intervalo de confianza de (1-)100% para est
dado por

donde t

s
s
= 1
P x t
< < x + t
2
2
n
n

es el valor de t con = n 1 grados de libertad, que deja un rea de 2 a la derecha.


2

Hacemos una distincin entre los casos de conocida y desconocida al calcular las
estimaciones del intervalo de confianza. Debemos enfatizar que para el caso de conocida se utiliza el
teorema del lmite central, mientras que para desconocida hacemos uso de la distribucin muestral de
la variable aleatoria T. sin embargo, el uso de la distribucin de t se basa en la premisa de que el
muestreo se realiza de una distribucin normal. En tanto que la distribucin tenga la forma aproximada
de campana, los intervalos de confianza se pueden calcular cuando 2 se desconoce mediante el uso
de la distribucin t y se pueden esperar muy buenos resultados.
Con mucha frecuencia los estadsticos recomiendan que an cuando la normalidad no se puede
suponer, con desconocida y n 30, s puede remplazar a y se puede utilizar el intervalo de
confianza

x z

s
2

n
170

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Por lo general ste se denomina como un intervalo de confianza de muestra grande. La
justificacin yace slo en la presuncin de que con una muestra tan grande como 30, s estar muy cerca
de la real y de esta manera el teorema del lmite central sigue valiendo. Se debe hacer nfasis en que
esto es slo una aproximacin y que la calidad de este enfoque mejora a medida que el tamao de la
muestra crece ms.

10.4.2.2. Intervalo de Confianza de la diferencia entre dos medias

Si tenemos dos poblaciones con medias  ^  y varianzas  ^  , respectivamente, un


estimador puntual de la diferencia entre  ^  est dado por la estadstica   . Por tanto, para
obtener una estimacin puntual de   , seleccionamos dos muestras aleatorias independientes, una
de cada poblacin, de tamao  ^  , y calculamos la diferencia   , de las medias muestrales.
Claramente, debemos considerar las distribuciones muestrales de   .
Podemos esperar que la distribucin muestral de   est distribuda de forma
y
la
desviacin
estndar
aproximadamente
normal
con
media
(/" G/$ ) =  
(/" G/$ )

= _`


/"a

 b + `


/$a

variable normal estndar

 b. Por tanto, podemos escribir con una probabilidad de 1 que la

Z=

(X

X 2 ) ( 1 2 )

12 22
n + n
1
2

caer entre -z/2 y z/2.


Invocando al teorema del lmite central, el intervalo de confianza para
conocidas es:

1 2

con



 ^ 

Intervalo de confianza para 1 2 , con 12 y 22 conocidas


Si x1 y x 2 son las medias de muestras aleatorias independientes de tamao n1 y n2 (grandes)de
poblaciones con varianzas conocidas 12 y 22 , respectivamente, un intervalo de confianza de (1 )%
para 1 2 est dado por

12 22
12 22
P ( x1 x 2 ) z / 2
+
< 1 2 < ( x1 x 2 ) + z / 2
+
= 1

n
n
n
n
1
2
1
2

Donde z/2 es el valor de z que deja un rea de /2 a la derecha.


El grado de confianza es exacto cuando las muestras se seleccionan de poblaciones normales.
Para poblaciones no normales el teorema del lmite central permite una buena aproximacin para
muestras de tamao grande.
Para el caso de una estimacin de un intervalo de confianza sobre la diferencia entre dos
medias, se supone que tenemos dos muestras aleatorias independientes de distribuciones con medias
1 y 2 , respectivamente.
El procedimiento dado para estimar la diferencia entre dichas medias se aplica si se conocen las
varianzas de las poblaciones. Si las varianzas no se conocen y las muestras son grandes, las
mismas se reemplazan, en la expresin dada anteriormente, por sus respectivas estimaciones,   ^  ,

Varianzas desconocidas y muestras pequeas (n1<30 y n2<30)


2
2
2
Considere el caso donde se desconocen 12 y 22 . Si 1 = 2 = , obtenemos una variable

normal estndar de la forma

Z=

(X

X 2 ( 1 2 )

2 1 n + 1n
1
2

Las dos variables aleatorias

(n1 1)S12
2

(n2 1)S 22
2

tienen distribuciones ji cuadrada con n1-1 y n2-1 grados de libertad, respectivamente. Adems, son
variables ji cuadrada independientes, puesto que las muestras aleatorias se seleccionaron de forma
independiente. En consecuencia, su suma tiene una distribucin ji cuadrada con 1 = n1 + n2 2 grados
de libertad.

171
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

V=

(n1 1)S12 + (n2 1)S 22


2

(n1 1)S12 + (n2 1)S 22


2

Como se puede mostrar que las expresiones anteriores para Z y V son independientes, se sigue
que la estadstica

T=

(X

X 2 ) (1 2 )

2 1 n + 1 n
2
1
tiene distribucin t con 1 = n1 + n2 2 grados de libertad.

(n1 1)S12 + (n2 1)S 22


2 (n1 + n 2 2 )

Se puede obtener una estimacin puntual de la varianza comn desconocida 2 al unir las
varianzas muestrales. Denotemos al estimador de unin por S C2 , escribimos entonces

S C2 =

(n1 1)S12 + (n2 1)S 22


n1 + n2 2

2
c

Al sustituir S en la estadstica T, obtenemos la forma menos incmoda

T=

(X

X 2 ) (1 2 )

S C 1 + 1
n2
n1

Despus de llevar a cabo las manipulaciones matemticas de costumbre, se calculan la


diferencia de las medias muestrales y la varianza unida y entonces se obtiene el siguiente intervalo de
confianza de (1 )100% para 1 2 .
Intervalo de confianza para 1 2 , con 12 = 22 desconocidas y (n1<30 y n2<30)
Si x1 y x 2 son las medias de muestras aleatorias independientes con tamaos n1 y n2 (cada una <30),
respectivamente, de poblaciones aproximadamente normales con varianzas iguales pero desconocidas,
un intervalo de confianza de (1 )100% para 1 2 est dado por

1
1
1
1
P (x1 x 2 ) t / 2 s C
+
< 1 2 < (x1 x 2 ) + t / 2 s C
+
= 1
n
n
n
n
1
2
1
2

Donde sC es la estimacin de unin de la desviacin estndar poblacional y t/2 es el valor de t con


= n1 + n2 2 grados de libertad, que deja un rea de /2 a la derecha.
Ejemplo 10.1.: En el artculo Macroinvertebrate Community Structure as an Indicator of Acid Pollution
publicado en la Revista de Contaminacin Ambiental se da un reporte sobre una investigacin realizada
en Cane Creek, Alabama, para determinar la relacin entre parmetros fisioqumicos seleccionados y
diversas mediciones de la estructura de la comunidad de macroinvertebrados. Una faceta de la
investigacin fue una evaluacin de la efectividad de un ndice numrico de la diversidad de especies
para indicar la degradacin del agua debida al desage cido de una mina. Conceptualmente, un ndice
alto de la diversidad de especies macroinvertebradas debe indicar un sistema acutico no contaminado,
mientras que un ndice de diversidad baja indicara un sistema acutico contaminado.
Se eligieron dos estaciones de muestreo independientes para este estudio, una que se localiza
corriente abajo del punto de descarga de la mina de cido y la otra localizada corriente arriba. Para 12
muestras mensuales reunidas en la estacin corriente abajo el ndice de diversidad de especies tuvo un
valor medio x1 = 3.11 y una desviacin estndar s1 = 0.771 mientras que 10 muestras mensuales
reunidas en la estacin corriente arriba tuvieron un valor medio del ndice x 2 = 2.04 y una desviacin
estndar s2 = 0.448. Encuentre un intervalo de confianza de 90% para la diferencia entre las medias
poblacionales para los dos sitios; suponga que las poblaciones estn distribuidas de forma
aproximadamente normal con varianzas iguales.
SOLUCIN Representemos con 1 y 2 las medias poblacionales, respectivamente, para los ndices de
diversidad de especies en las estaciones corriente abajo y corriente arriba. Deseamos encontrar un
intervalo de confianza de 90% para 1 - 2 . Nuestra estimacin puntual de 1 - 2 es
x1 x2 = 3.11 2.04 = 1.07
2
La estimacin de la unin s C de la varianza comn 2 es
s C2 =

(n1 1)s12 + (n 2 1)s 22


(n1 + n 2 2)

(11)( 0.7712 ) + (9)( 0.448 2 )


= 0.417
12 + 10 2

Al tomar la raz cuadrada obtenemos sc = 0.646. Con el uso de = 0.1, encontramos en la tabla A.4 que
t0,05 = 1.725 para = n1 + n2 2 = 20 grados de libertad. Por tanto, el intervalo de confianza de 90% para
1 - 2 es

1
1
1
1
P (1 .07 ) (1 .725 )(0.646 )
+
< 1 2 < (1.07 ) + (1.725 )(0.646 )
+ = 0 .90
12
10
12
10

172
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


que se simplifica a P(0.593 < 1 - 2 < 1.547) = 0.90

10.4.2.3. Intervalo de confianza de una proporcin


Un estimador puntual de la proporcin de un experimento binomial est dado por el
/
estadgrafo 1 = d , donde X representa el n de xitos en c pruebas. Por tanto, la proporcin de la
muestra 1 =

F
d

ser la estimacin puntual del parmetro .

Si no se espera que la proporcin desconocida est demasiado cerca de cero o de 1,


podemos establecer un intervalo de confianza para al considerar la distribucin muestral de 1. Al
designar un fracaso en cada prueba binomial mediante el valor 0 y un xito con valor 1, el nmero de
xitos, x, se puede interpretar como la suma de n valores que consisten slo en ceros y unos, y 1 es
slo la media muestral de estos c valores. De aqu, por el teorema del lmite central, para c
suficientemente grande, 1 est distribuida de forma aproximadamente normal con media
6, = 

Y un erro tpico
,
6

Por tanto, podemos asegurar que

=e

(1 )
0

P( z / 2 < Z < z / 2 ) = 1
Donde

f=

1 

g(1 )0

Y z/2 es el valor de la curva normal estndar sobre la cual encontramos un rea de / 2 . Al sustituir Z,
escribimos
Z h:= #

1 

g(1 )0

# := i = 1 <

Para nuestra muestra aleatoria particular de tamao n, se calcula la proporcin muestral p = x n


y se obtiene el siguiente intervalo de confianza de (1 )100% aproximado para .

Intervalo de confianza para j de una muestra grande

Si 1 es la proporcin de xitos de una muestra aleatoria de tamao n y q = 1 p , un intervalo de


confianza de (1 )100% para el parmetro binomial  est dado por

Z k1 := g1(1 1)0 #  # 1 + := g1(1 1)0l = 1 <

donde z/2 es el valor de z que deja un rea de 2 a la derecha.

Cuando c es pequea y la proporcin desconocida  se considera cercana a cero o a 1, el


procedimiento del intervalo de confianza que se establece aqu no es confiable y, por tanto, no se debe
utilizar. Para estar seguro, se debe requerir que 1 o (1 1) no sea mayor que o igual a 5. El mtodo
para encontrar un intervalo de confianza para el parmetro binomial  tambin se aplica cuando la
distribucin binomial se utiliza para aproximar la distribucin hipergeomtrica, es decir, cuando c es
pequea en relacin con C.
Si  es el valor central de un intervalo de confianza de (1 )100% entonces 1 estima a  sin
error. La mayor parte de las veces, sin embargo, 1 no ser exactamente igual a  y la estimacin
puntual es errnea. El tamao de este error ser la diferencia positiva que separa a  y1, y podemos
tener una confianza del (1 )100% de que esta diferencia no exceder := g1(1 1). Podemos ver
esto fcilmente si dibujamos un diagrama de un intervalo de confianza tpico como en el grfico 10.7.

Grfico 10.7: Si p se utiliza como una estimacin de , podemos tener una confianza del
que el error no exceder := gm  .

(1 )100% de

10.4.2.4. Intervalo de Confianza de la diferencia entre dos proporciones


Considere el problema donde deseamos estimar la diferencia entre dos parmetros binomiales
 ^  . Por ejemplo, podemos hacer que  sea la proporcin de fumadores con cncer de pulmn y 

173

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


la proporcin de no fumadores con cncer de pulmn. Nuestro problema, entonces, es estimar la
diferencia entre estas dos proporciones. Primero, seleccionamos muestras aleatorias independientes de
tamao n1 y n2 a partir de las dos poblaciones binomiales con medias 0  y 0  y varianzas 0  (1
 ) y 0  (1  ) respectivamente, despus determinamos los nmeros x1 y x2 de personas con
cncer de pulmn en cada ejemplo, y formar las proporciones 1 =  0 y 1 =  0 . Un estimador
puntual de la diferencia entre las dos proporciones,   , est dada por el estadgrafo 1 1 . Por
tanto, la diferencia de las proporciones muestrales, 1 1 se utilizar como la estimacin puntual de
  .

Se puede establecer un intervalo de confianza para   al considerar la distribucin muestral


de 1 1 . Sabemos que estn distribuidas cada uno de forma aproximadamente normal, con medias
1 y 2 y varianzas 1 (1 1 ) / c1 y 2 (1 2 ) / c2 , respectivamente. Al elegir muestras independientes
de las dos poblaciones, las variables 1 y 1 sern independientes, y entonces por la propiedad
reproductiva de la distribucin normal concluimos que 1 1 est distribuida de forma
aproximadamente normal con media y error tpico
(6," G6,$ ) = q


,"
6

(6," G6,$ ) =  
+


,$
6

=e

 (1  )  (1  )
+
0
0

Por tanto, se escribe en trminos de probababilidad, que

P( z / 2 < Z < z / 2 ) = 1
Donde

:=

(1 1 ) (  )

 (1  )  (1  )
q 
+
0
0

y z/2 es el valor de la curva normal estndar sobre la cual encontramos un rea de / 2 .


Intervalo de confianza para 1 2 de una muestra grande

Si 1 y 1 son las proporciones de xitos en muestras aleatorias de tamao c1 y c2, respectivamente, un
intervalo de confianza de (1 )100% para la diferencia de dos parmetros binomiales 1 2 est
dado por
Z r(1 1 ) := e

1 (1 1 ) 1 (1 1 )


1 (1 1 ) 1 (1 1 )
+
# (  ) # (1 1 ) + := e
+
s =1<
0
0
0
0

donde z/2 es el valor de z que deja un rea de 2 a la derecha.

10.4.3. Interpretacin de los intervalos de confianza


Para el caso de un solo parmetro, el intervalo de confianza simplemente produce lmites de
error sobre el parmetro. Los valores contenidos en el intervalo se deben ver como valores razonables
dados los datos muestrales. En el caso de una diferencia entre dos medias, la interpretacin se puede
extender a una comparacin de las dos medias. Por ejemplo, si tenemos gran confianza de que una
diferencia 1 - 2 es positiva, realmente inferiremos que 1>2 con poco riesgo de caer en un error. De
esta forma, en el ejemplo, tenemos una confianza de 90% de que el intervalo de 0.593 a 1.547 contiene
la diferencia de las medias poblacionales para valores del ndice de diversidad de especies en las dos
estaciones. El hecho de que ambos lmites de confianza sean positivos indica que, en promedio, el
ndice para la estacin que se localiza corriente abajo del punto de descarga es mayor que el ndice para
la estacin que se localiza corriente arriba.

10.4.4. Estimacin del tamao muestral


Con frecuencia deseamos saber qu tan grande necesita ser una muestra para asegurar que el
error al estimar ser menor que una cantidad especfica . Esto significa que debemos elegir n de
8
modo que :=  = . Al resolver esta ecuacin se obtiene:

Si x se usa como estimacin de , podemos tener (1-)100% de confianza de que el error no exceder
una cantidad especfica e cuando el tamao de muestra es

z
n= 2
E

Cuando se resuelve para el tamao de la muestra n, todos los valores fraccionales se redondean
al siguiente nmero entero. Si se sigue este principio, podemos estar seguros que nuestro grado de
confianza nunca cae por debajo de (1-)100%.
174
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

Anda mungkin juga menyukai