Anda di halaman 1dari 12

DES

CRI
PCI
N
BRE
VE
En
el
cont
exto
de
esti
mar
un
par

INTRODUCCIN A LA INFERENCIA ESTADSTICA


La construccin de modelos probabilsticos presentada en el captulo
anterior es el caso tpico de razonamiento deductivo: se establecen
hiptesis respecto al mecanismo generador de los datos y con ellas
se deducen las probabilidades de los valores posibles. La Inferencia
Estadstica realiza el proceso inverso: dadas las frecuencias
observadas de una variable, inferir el modelo probabilstico que ha
generado los datos. Para ello debemos calcular los parmetros que
definen las distintas distribuciones, pero esto requiere conocer los
valores de la variable que estemos estudiando para todos y cada
uno de los elementos de la poblacin (conjunto de homogneo de
elementos en los que se estudia una variable dada), lo cual no es
posible por varias razones:
Imposibilidad fsica de acceder a toda la poblacin, por ejemplo para
calcular la probabilidad de cara de una moneda requiere su
lanzamiento infinitas veces.
Imposibilidad econmica de acceder a toda la poblacin, p. e. no se
podran pagar los anlisis para determinar el nivel medio de
colesterol en un pas.
Imposibilidad por destruccin del individuo, p. e. el estudio de la
duracin media de un modelo de marcapasos implicara esperar la
destruccin de toda la produccin.
Sea cual sea el caso, con poblaciones de un tamao N
suficientemente grande la nica alternativa factible es su
determinacin aproximada a travs de una muestra (subconjunto
representativo de la poblacin).
La Inferencia Estadstica es el conjunto de mtodos que permiten
obtener una conclusin a cerca de una poblacin a travs de la
informacin proporcionada por una muestra, un procedimiento
inductivo que va de lo particular (muestra) a lo general (poblacin).
Cuando la informacin deseada de la poblacin es el valor de alguno
de sus parmetros, la tcnica a utilizar es la estimacin.
La estimacin puede ser de dos tipos. Mediante estimacin
puntual se persigue dar un nico valor aproximado del parmetro
desconocido, quedando sin especificar cmo de buena es tal
aproximacin. Mediante la estimacin por intervalo se persigue dar
un intervalo de valores, alguno de los cuales es el verdadero valor
del parmetro desconocido, con una cierta seguridad de que la
afirmacin sea cierta. En el primer caso se afirmara " la proporcin

de varones en Espaa es aproximadamente el 49%", en el segundo,


"la proporcin de varones en Espaa es algn nmero entre el 48%
y el 50% caso con seguridad". El valor 49% se dice que es una
estimacin puntual de P (la verdadera proporcin de varones en
Espaa); el intervalo (48%-50%) se dice que es un intervalo de
confianza para p.

MUESTREO ALEATORIO
Ya que el conocimiento de la poblacin lo va a proporcionar la
muestra, es lgico que la misma no se deba tomar de un modo
arbitrario, sino que debe representar adecuadamente a toda la
poblacin. Si la muestra no es representativa, nada de lo que se
concluya a partir de ella ser vlido para la poblacin de inters,
sino que lo ser para la subpoblacin que representa. As, para
determinar el nivel medio de colesterol de todos los espaoles, la
muestra no puede tomarse slo de personas de edad avanzada, ni
slo de individuos que aparezcan en la gua telefnica, ni slo de
individuos que acuden a un hospital, etc. Para que la muestra sea
representativa de la poblacin, es preciso que sea extrada de ella
de modo que:
1 Todos los individuos de la poblacin tengan la misma probabilidad
de ser seleccionados e incluidos en la muestra (igual probabilidad)
2 La seleccin de un individuo no influya para nada en la seleccin
o no de otro individuo cualquiera (independencia).
Cuando ello se verifica diremos que la muestra es una muestra
aleatoria. La obtencin de una muestra aleatoria requiere en primer
lugar la identificacin completa de la poblacin en estudio; a
continuacin se numeran los individuos de la poblacin y, por
medios similares a un sorteo, se extrae al azar un conjunto de
nmeros, los individuos correspondientes a ellos forman una
muestra aleatoria de tal poblacin. Para hacer esta seleccin
podemos utilizar tambin las tablas de nmeros aleatorios.

ESTIMACIN PUNTUAL
Supongamos que se desea conocer la estatura media de todos los
espaoles. Si tomamos una muestra de n = 100 espaoles qu
valor elegiremos como el ms aproximado, presuntamente, a ?
Parece razonable que si 170 cm es la estatura media de dicha

muestra, debemos afirmar que =170 es inexacto (pues la media


muestral no coincide en general con ), convengamos en indicar lo
anterior as: 1 = 170, indicando el subndice en el parmetro que la
cantidad es una estimacin puntual del mismo. De un modo general,
una estimacin puntual es un valor que se propone para el
parmetro desconocido, valor que se obtiene determinando en la
muestra el parmetro muestral paralelo al poblacional. As, una
estimacin puntual para la media de una v.a es la media muestral
1= , para la varianza de una v.a. es la varianza muestral
=s2 para la proporcin de una Binomial p es la proporcin muestral
p 1.

ESTIMACIN POR INTERVALO DE CONFIANZA


Los
estimadores puntuales slo dan una idea aproximada
del valor del parmetro a estimar, no conocindose cmo de buena
es la aproximacin; ellos simplemente proporcionan el mejor
nmero que pueda proponerse como valor del parmetro. Por
ejemplo decir que 1=170 cm significa que la estatura media de
todos los espaoles es aproximadamente 170 cm, pero el trmino
"aproximado" no se sabe si alude a 1 cm arriba o abajo, o a 1 metro
arriba o abajo. De hecho no puede esperarse gran cosa de un
estimador.
Los problemas anteriores eran de esperar pues realmente es
demasiado pedir que a partir de una muestra pueda calcularse el
valor del parmetro tan exactamente como si se tomara toda la
poblacin. En realidad lo que importa es que el valor de la media
muestral, Por ejemplo, no est demasiado alejado de , y esto se
comprueba con los intervalos de confianza.
El objetivo es realizar afirmaciones del tipo: "la estatura media (de
los espaoles no s exactamente cunto es, pero es casi seguro
alguno de los valores
, con una cierta seguridad. La
seguridad alude a la probabilidad de que la afirmacin sea cierta,
con lo que el problema de obtener intervalos de confianza para un
parmetro radica en encontrar dos valores a y b tales que
, donde (a, b) es el intervalo de confianza para
,1
- el nivel de confianza del intervalo (usualmente prximo a 1) y
el nivel de error del intervalo (usualmente prximo a 0).

INTERVALO DE CONFIANZA PARA UNA MEDIA


Variables Normales.
Supongamos una v. a. x con distribucin N (; ) en donde la media
es desconocida y la varianza , la suponemos por ahora conocida.
Con el fin de estimar (colesterol medio, nivel medio de glucosa,
altura media de los varones mayores de edad, etc.) se va a tomar
una muestra aleatoria x1,x2,...,xn que proporciona una media que
ser una estimacin puntual de . Aceptaremos sin demostrarlo que:
(4.1)
Con probabilidad del 95%, y as tenemos el intervalo buscado. Esta
expresin debe interpretarse adecuadamente. Ella indica que el 95%
de las muestras de tamao n tendrn una media que, al sustituirla
en la expresin, da lugar a un intervalo que contiene en su interior a
, en tanto que otro 5% no suceder esto. Ntese que se ha dicho
que "el intervalo contiene en su interior a , y no que " cae en el
interior del intervalo"; la primera afirmacin es cierta pues los
extremos del intervalo son v. a. por depender de
que tambin lo
es; la segunda afirmacin es falsa pues es un parmetro (valor fijo
aunque desconocido), no una v.a., no pudiendo variar. As pues debe
decirse que hay una probabilidad del 95% de que el intervalo
contenga al parmetro.
En el ejemplo de la estatura media de los espaoles, si se tiene
que
, dado que el 95% de los intervalos contienen a ,
diremos que "tenemos la esperanza de que este sea uno de los 95
intervalos de cada 100 que dejan en su interior a , esperando no
haber tenido la mala suerte de que el intervalo obtenido sea uno de
los 5 de cada 100 intervalos errneos". Ms abreviadamente,
diremos que est entre (169; 172) "con una confianza del 95%";
de ah el nombre de intervalo de confianza. Conviene notar que
ahora se habla de "confianza", y no de "probabilidad" como antes,
pues los extremos del intervalo ya son nmeros fijos y o est o no
est dentro.
El

intervalo

(4.1)

podemos

expresarlo

abreviadamente

como

, debindose el valor 1,96 al 5% de error tomado, es


decir z0,05 = 1,96 en la tabla de la Distribucin Normal. De un modo
general, si en lugar de una confianza del 95% tomamos una de (1

- ), (o en lugar de un error del 5% se toma uno de


intervalo ser:

), entonces el

(4.2)
Con , en la tabla de la D. N.
Ejemplo 1: Para determinar la estatura media de los varones
adultos espaoles, se tom una muestra al azar de 10 de ellos
en la que se obtuvo los valores 162, 176, 169, 165, 171, 169,
172, 168, 167 y 175 cm. Determinar el valor de la estatura
media, suponiendo que = 16.
Un estimador puntual para la estatura media es la que en
este caso es 169,4. Para dar un intervalo de confianza hemos
de suponer que es una v. a. normal. Como n=10, = 169,4
y = 4, para el intervalo de confianza al 95%, la expresin
(4.1) indica que
As pues, esperamos que este intervalo sea un de los 95 de
cada 100 que contienen a , o, ms brevemente, la estatura
media de los espaoles varones adultos es algn valor entre
166,92 cm y 171,88 cm con una confianza del 95%.
Es evidente que un intervalo de confianza para un dado ser tanto
ms preciso cuanto ms estrecho sea. As, ser preferible afirmar
que la estatura media est entre 170 y 171 cm al 95% de confianza,
que afirmar que la estatura est entre 165 y 175 con igual
confianza. Como la longitud del intervalo es dos veces su radio, el
mismo puede disminuirse aumentando el valor del tamao de la
muestra (pues n aparece dividiendo). Ello responde a una regla que
ser general en toda la Estadstica: cuanto ms grande sea una
muestra, ms informacin da y ms precisas son las conclusiones
que se obtengan a partir de ella.
La otra forma de estrechar el intervalo es disminuyendo la confianza
(es decir, aumentando el error). As z0,05 = 1,96, pero z0,15 = 1,44, que
por ser menor da un intervalo ms estrecho. Sin embargo ahora la
anchura del intervalo ha disminuido a costa de la seguridad
(confianza) del mismo, y ello no es deseable. Lo usual es considerar
errores del 5%, aunque en ocasiones se utilizan otros como los del
1% o del 10%. Nos podemos preguntar se puede dar un intervalo al
100% de confianza?; la respuesta es que esto exigira una z 0,00 = ,

con lo que el intervalo sera ( - , ) que en el caso del ejemplo dara


lugar a la afirmacin "la estatura media de los espaoles est entre y ", que es absolutamente cierta y absolutamente intil
tambin.
Hasta este momento hemos supuesto que la varianza de la
poblacin era conocida, lo que no suele ser real. Cuando es
desconocida, lo lgico es sustituirla por su estimador s, obteniendo
as que
.Sin embargo s es una v. a. y unas veces ser
ms grande que y otras ms pequea, lo que da una cierta
imprecisin al intervalo. Conviene ensanchar un poco el intervalo
para que la confianza del mismo permanezca. El modo de hacerlo
consiste en aumentar el valor de
, localizndolo en una tabla
distinta. Ahora tendremos:
(4.3)
Con t en la tabla de la distribucin t de Student con (n-1) grados
de libertad, tabla que presenta los valores de t en un formato
similar al de la distribucin normal, excepto en que la nueva variable
depende de un nuevo parmetro llamado grados de libertad.
Ejemplo 2: Resolver el ejemplo anterior sin suponer conocido el
valor de
.
De antes se conoce que n =10 y = 169,4. Ahora es preciso
calcular la varianza muestral por la frmula correspondiente lo
que da s = 4,3. Como t0,05 (9 g.l.)= 2,262 en la tabla, entonces
es el intervalo de confianza para al 95% de confianza.
La interpretacin del nuevo intervalo es idntica del que resultaba
cuando la varianza era conocida, la nica diferencia es que ahora no
slo el centro del intervalo es variable, sino que tambin lo es su
radio.

TAMAO DE LA MUESTRA
En la fase de diseo de una experiencia suele plantearse cul debe
ser el tamao mnimo de la muestra para lograr una precisin dada
en la estimacin de la media. As, cuntos espaoles debo tomar
para determinar su estatura media con una precisin de 1 cm? Con
ello se quiere indicar que si concluyo que debo tomar n = 100
espaoles y tomo una muestra de 100 de ellos, la estatura media en

la muestra (

) distar de la media de la poblacin () en menos de

1 cm (en general d cm), es decir que


con una cierta
confianza. Otro modo de decir lo mismo es afirmar que si es =170
en la muestra de 100 que se ha decidido como idnea, entonces s
que (va a estar entre 169 y 171 (es decir entre -d y +d). Como
adems se tiene
queda:

habr de ser

, y despejando n

(4.4)
La expresin (4.4) tiene la desventaja de depender de
desconocido usualmente.

, valor

Tenemos varias alternativas para resolver este inconveniente:


1) Sustituir por el valor mximo que se piense pueda tomar,
segn nuestras experiencias previas. En el peor de los casos n ser
mayor de lo necesario. Quedara:

(4.5)
2) Tomar una muestra piloto de tamao n pequeo, obtener en
ella su varianza
y entonces:

(4.6)
Con t

en la Tabla de la t de Student con n-1 g.l.

3) Enunciar la precisin en trminos de fracciones de


deseamos ocurra que
d2 por K2 en la (4.4) queda:

. As, si

con una confianza 1- , cambiando

(4.7)
Ejemplo 3: Determinar el tamao de muestra requerido para
obtener la estatura media de la poblacin, con una precisin
de 1 cm, si la varianza poblacional es = 25.

Tomando n=97 individuos, segn la frmula (4.4) la media de


ellos estar en el intervalo x 1al 95% de confianza. El
redondeo se hace siempre por exceso pasa asegurar la
precisin.
Ejemplo 4: Determinar el tamao de la muestra para obtener
la estatura media de una poblacin con una precisin de 0,3 .
Ahora n=43, segn la expresin (4.7), y, entonces la media
est en
0,3
Ejemplo 5: Con datos del Ejemplo 1 como muestra piloto,
determinar n con precisin d=4cm

Ahora n=10 y
. Como 6 < 10 = n, ello
indica que con la muestra piloto nos basta para la precisin
deseada.
Ejemplo 6: Igual que el anterior pero exigiendo un d = 1 cm.

De nuevo n= 10 y ahora
son precisos 85 individuos ms que antes.

INTERVALO
DE
PROPORCIN

CONFIANZA

, con lo que

PARA

UNA

Vamos a empezar este apartado planteando un ejemplo.


Ejemplo 7: Si de 100 personas encuestadas, 30 se manifiestan
a favor de un determinado partido poltico, qu porcentaje de
votos obtendra dicho partido de celebrarse en ese momento
las elecciones? (confianza del 95%)
Obsrvese que x="n de individuos, entre los 100
encuestados, que votarn al candidato" es una Binomial de
parmetro n = 100 y p desconocido. El objetivo es determinar
p teniendo en cuenta que x sigue una B(n,p), con n = 100 y x
= 30 el valor obtenido experimentalmente de esa Binomial.
Conviene expresar que todo lo que sigue contiene las frmulas
para p expresadas en tantos por uno, no en %.

Intervalo.
La distribucin Binomial, bajo ciertas circunstancias, se aproxima a
una Normal. Los resultados siguientes se basan en esta
aproximacin. La expresin ms tradicional del intervalo de
confianza para una proporcin p es la siguiente:

(4.8)
Esta expresin es vlida si x > 20 y n-x >20.Tiene la ventaja de ser
cmoda, pero a cambio es ms imprecisa y tiene unas condiciones
de validez ms exigentes. La siguiente expresin es ms exacta
(pero ms incmoda) y para su validez basta con que sean x > 5 y n
- x > 5:

(4.9)
Ejemplo 7(continuacin):
Aqu n = 100 y x = 30. Como x > 20 y n - x = 70 > 20, se
puede utilizar (4.8):

, es decir que piensan


votar al partido entre un 20,52% y un 39,48% de la poblacin.
Si usamos la (4.9) que es ms exacta:

; 0,4011)

= (0,2145

Para obtener este intervalo, se han considerado en primer


lugar todos los signos (-) y despus todos los signos (+).
Tamao de la muestra

Ejemplo 8: En relacin con el ejemplo anterior, el partido


poltico desea realizar una encuesta con el fin de determinar el
porcentaje de votantes con una precisin del 3% A cuntos
individuos hay que encuestar (confianza del 95%).
El objetivo es decidir a qu nmero n de individuos hay que
preguntar para que el porcentaje de votos favorables entre
ellos difiera del porcentaje nacional en menos de d = 3%.
Esto garantiza que, tomada la muestra, si el porcentaje en ella
es de 30% el porcentaje nacional ser 27% < p < 33%, es
decir que p est en 30% 3% con una confianza del 95%
De un modo general, si d es la precisin (mxima diferencia a
admitir entre la estimacin y p), hay una frmula paralela a la (4.4):

(4.10)
La idea es tener garantas de que tomando una muestra de tamao
n, la proporcin poblacional p de individuos que verifican la
caracterstica es, con una confianza de (1 - ), alguno de los valores
entre p1 d, con p1 la proporcin en la muestra y d un nmero dado
de antemano.
El problema, una vez ms, es que la expresin anterior depende de
p (que es desconocido). Puede demostrarse que pq es tanto mayor
cuanto ms se aproxime p a 0,5 alcanzando el mximo cuando p =
0,5, o sea,

(4.11).
Como sucede en todas las frmulas de tamao de muestra, n es
tanto ms grande cuanto mayor sea la confianza del intervalo y
cuanto menor sea d (cuanta mayor precisin se desee). La (4.11)
aporta una novedad: el tamao de la muestra es ms grande cuanto
ms se aproxime p al valor 0,5, disminuyendo cuando nos
enfrentemos a caracteres raros (p pequeo) o muy frecuentes (p
grande). Igual sucede con la anchura de los intervalos de confianza
para p: son ms anchos cuanto ms se acerque p a 0,5. Volviendo al
problema del desconocimiento de p, la aplicacin de (4.10) puede
hacerse de dos modos:
1) Si no se tiene idea alguna acerca de su posible valor, sustituir pq
por 1/4, quedando:

(4.12)
2) Si se tiene alguna informacin, sustituir p por el valor ms
cercano posible ( y compatible con la informacin) a 0,5.
Ejemplo 8 (continuacin):
Si el partido es nuevo y no se tiene idea acerca del porcentaje
posible
de
votos
favorables,
sera

Si el partido sabe que nunca en elecciones anteriores ha


obtenido ms del 30% de los votos y le sorprendera que esto
no siguiera siendo as, sera

Anda mungkin juga menyukai