Anda di halaman 1dari 11

7 Intervalos de Confianza

7.1 Estimaciones puntuales

Supongamos que se quiere estudiar un conjunto (poblacin) de objetos homogneos respecto a cierto
ndice cualitativo o cuantitativo que caracteriza estos objetos. Por ejemplo, si se tiene un lote de piezas,
como ndice cualitativo puede servir el estndar de la pieza y como cuantitativo, la dimensin controlable
de la pieza.
A veces se realiza una investigacin total, es decir, se examina todo uno de los objetos del conjunto
respecto al ndice que interesa. En la prctica, sin embargo, la investigacin total se practica con relativa
rareza. Por ejemplo, si el conjunto contiene un nmero muy grande de objetos, fsicamente es imposible
realizar un examen total. Si el examen del objeto est vinculado con su destruccin o requiere grandes
gastos materiales, prcticamente no tiene sentido efectuar la investigacin total. En estos casos se
escogen fortuitamente del total un nmero limitado de objetos y se someten stos al estudio.
Se llama conjunto muestral, o simplemente muestra, conjunto de objetos tomados fortuitamente.
Se llama conjunto general el conjunto de objetos, de los cuales se saca muestreo.
Se llama volumen del conjunto (muestral o general) el nmero de objetos do ese conjunto. Por
ejemplo, si de 1000 piezas se escogen para el examen 100 piezas, el volumen del conjunto general es N =
1000 y el volumen de la muestra n = 100
Supongamos que se quiere estudiar una caracterstica cuantitativa de un conjunto general. Admitamos
que de unas consideraciones tericas se haya logrado establecer, precisamente qu tipo de la distribucin
tiene esta caracterstica (por ejemplo normal) pero no se conocen los parmetros de esta distribucin (por
ejemplo el promedio, la varianza, etc.). Naturalmente surge el problema de estimar los parmetros que
determinan esta distribucin, por ejemplo, si se conoce previamente que la caracterstica estudiada est
distribuida normalmente en el conjunto general, hay que estimar (hallar aproximadamente; la esperanza
matemtica y la desviacin cuadrtica media, ya que estos dos parmetros determinan completamente la
distribucin normal. Generalmente, el investigador dispone solamente de los datos de la muestra, por
ejemplo, los valores de la caracterstica cuantitativa x1 , x2 , , xn , obtenidos como resultado de n
observaciones (aqu y en adelante las observaciones se suponen independientes). Mediante estos datos
se expresa el parmetro a estimar, por ejemplo el valor promedio, en una forma aproximada.
As pues, se llama estimacin estadstica de un parmetro desconocido de una distribucin normal la
funcin de las magnitudes aleatorias observadas. Para que las estimaciones estadsticas den buenas
aproximaciones de los parmetros estimados, ellas deben satisfacer determinados requisitos. A
continuacin se indican estas exigencias.
Denotemos * la estimacin estadstica de un parmetro desconocido , el cual generalmente es una
funcin f X de una caracterstica X de un conjunto general con una distribucin en este conjunto
conocida tericamente. Admitamos que mediante la muestra de volumen n est hallada estimacin 1 *
Repetimos el experimento, es decir, extraemos del conjunto general otra muestra de igual volumen y por
sus datos obtenemos la estimacin 2 * . Reiterando la prueba varias veces, obtenemos los nmeros
1*, 2 *,, k * cuales, en general, sern diferentes entre s. Por consiguiente, la estimacin * se
puede considerar como una magnitud aleatoria, mientras que los nmeros 1*, 2 *, , k * , como sus
valores posibles.
Supongamos que la estimacin * da un valor aproximado de con exceso; en tal caso, cada nmero
i *, i 1, 2, , k , hallado segn los datos de las muestras, sern mayor que el valor real de
.Evidentemente, en este caso la esperanza matemtica (valor medio) de la magnitud aleatoria *
tambin ser mayor que * , es decir M * . Est claro que si * es un valor subestimado,

tendremos M * .
De este modo, el empleo de la estimacin estadstica, cuya esperanza matemtica no es igual al
parmetro a estimar, dara lugar a errores sistemticos (del mismo signo). Por este motivo es natural
exigir que la esperanza matemtica de la estimacin * sea igual al parmetro que se estima. A pesar de
que este requisito no elimina los errores (unos valores de * son mayores y otros son menores que ),
sin embargo con igual frecuencia se tropezarn con errores de distintos signos. En otras palabras, el
cumplimiento de la condicin M * garantiza contra la obtencin de errores sistemticos.
La estimacin estadstica * cuya esperanza matemtica es igual al parmetro que se estima X para
todo volumen de la muestra, es decir, M * , se llama centrada (o insesgada). La estimacin
cuya esperanza matemtica no es igual al parmetro que se estima, se llama no centrada (o sesgada)
y se define sesgo de * cmo M * .
Sera errneo considerar que la estimacin no desviada siempre da una buena aproximacin del
parmetro que se estima. En efecto, los valores posibles de * pueden ser fuertemente dispersos
alrededor su valor medio, es decir, la dispersin D * puede ser considerable. En este caso, la
estimacin hallada por los datos de una muestra, por ejemplo, i * puede resultar muy alejada del valor
medio * , y tambin del propio parmetro estimado ; y por lo tanto, tomando i * como valor
aproximado de , cometeramos un gran error. Si nosotros sugiramos que la dispersin * sea
pequea, se excluye la posibilidad de cometer un gran error. Por esta causa la estimacin estadstica debe
satisfacer el requisito de eficacia.
La estimacin estadstica se llama eficiente cuando tiene la dispersin mnima posible (para un
volumen dado de la muestra n). Al considerar muestras de gran volumen (n es grande!) la estimacin
estadstica debo satisfacer adems el requisito de consistencia. La estimacin estadstica se llama
consistente cuando la probabilidad la estimacin difiere del parmetro que se estima tiende a cero para
n . Esta condicin se cumple por ejemplo, s la dispersin de la estimacin centrada tiende a cero
para n , es decir D *
n
0 esta estimacin resulta precisamente consistente. Resumiendo se
puede decir que una estimacin puntual debe ser centrada, eficiente y consistente.

Esencialmente son tres los parmetros de inters: la media de la poblacin general , la varianza
de la poblacin general D y la proporcin de elementos de la poblacin general P , que
pertenecen a cierta categora Consideremos una variable X cuantitativa, que caracteriza un
conjunto general de dimensin N y x1 , x2 , , xN sus valores en este conjunto general y los valores
correspondientes , xn de una muestra de dimensin n (siempre n N y por lo general n N ). En
x1 , x2 ,
este caso definimos la media de la poblacin general y su estimacin, la media muestral x
definimos como:
N n

x x xN xi x x xn x i
1 2 i 1
* x 1 2 i 1
(7.1)
N N n n

La varianza de la poblacin general, D y su estimacin, la media muestral D* s


2 2

definimos como:
2 2
N N
1 N n n
1 n
x
i
2
xi xi
2

N i 1 x x i
2
xi xi
2

n i 1
D 2 i 1
i 1 D* s 2 i 1
i 1 (7.2)
N N n 1 n 1

Si M N valores de la poblacin correspondiente al conjunto general, x1 , x2 ,


, xN pertenecen a cierta
categora C, entonces la probabilidad de encontrar un elemento perteneciente a esta categora P y su
estimacin a partir de una muestra x1 , x2 , , xn que contiene m n elementos pertenecientes a la misma
categora, p P * definimos como:
M m
P p P* (7.3)
N n

Se puede demostrar matemticamente que todas tres estimaciones muestrales definidas a travs de las
formulas (7.1), (7.2) y (7.3) son centradas, eficientes y consistentes.
7.2 Estimaciones por intervalos. Nivel de Confianza

En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima
que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido
es un parmetro poblacional. La probabilidad de xito en la estimacin se representa con 1 y se
denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de
significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo
ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un
intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error. Hay
que tener en cuenta que para construir un determinado intervalo de confianza es necesario conocer la
distribucin terica que sigue el parmetro a estimar. En definitiva, un intervalo de confianza 1 , 2
definido para un nivel de confianza 1 para de un conjunto
la estimacin de un parmetro
general en la base de una estimacin * con una determinada distribucin de probabilidad, P * debe
satisfacer la condicin:
P 1 2 1 (7.4)
En la mayora de los casos (esto se puede demostrar matemticamente) la densidad de la
distribucin f * de la estimacin * (hay que tener en cuenta que la estimacin * es una variable
aleatoria que vara de una muestra a la otra) tiene la forma de una campana, coincidente o similar a la de
la distribucin normal. Por esta razn, los valores posibles de la caracterstica del conjunto general
forman un intervalo de ancho 2 con el centro en el punto * , donde el parmetro define el valor
mximo de las posibles discrepancias entre la caracterstica del conjunto general y la estimacin,
max * (ver Fig. 7.1)

Fig. 7.1 La densidad de distribucin de la estimacin muestral. La zona sombreada muestra el intervalo
de confianza para la caracterstica del conjunto general correspondiente a nivel de confianza .

Se puede ver de la Fig. 7.1 que la probabilidad de que la caracterstica del conjunto general est
ubicada dentro del intervalo de confianza * , * con la probabilidad 1 crrespondiente al nivel
de confianza debe cumplirse la desigualdad:
P * * 1 (7.5)
Desde la Fig.7.1 se puede ver que la condicin (7.5) es equivalente a la otra condicin, ms simple:
P * P * / 2 1 2 (7.6)
Las fronteras de un intervalo de confianza usando las relaciones (7.5) y (7.6) se puede expresar en los
trminos de percentiles p , correspondientes a la probabilidad p de la distribucin aleatoria de la

estimacin * (ver Anexo A). Las condiciones (7.5) y (7.6) en estos trminos puede ser escrita como:
* 2 * 2 * 1 2 * 1 2 (7.7)
7.3 Intervalos de confianza para la media poblacional con muestras grandes
De una poblacin general de media y desviacin estndar se pueden tomar muestras de n
elementos cada una. Cada una de estas muestras tiene a su vez una media x definidas con la formulas
(7.1), la cual presenta una variable aleatoria con una distribucin desconocida. Pero si el tamao de las
muestras es lo suficientemente grande,la distribucin de medias muestrales definidas a travs de formula
(7.1) segn el teorema central de lmites es, prcticamente, una distribucin normal (o gaussiana) con un
valor medio (la estimacin es no sesgada) y una desviacin estndar tpica dada por la siguiente
expresin: x n (demustrelo!). Esto se representa en nuestras notaciones como x N , n . Si

estandarizamos esta variable aleatoria se sigue que: x n Z N 0,1 . En esta distribucin


normal estndar puede calcularse fcilmente un intervalo dentro del cual caigan un determinado
porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P z1 z z2 1 , donde
(1-)100 es el porcentaje deseado.
Se desea obtener una expresin tal que 1 2 1 . En esta distribucin normal de
medias se puede calcular el intervalo de confianza donde se encontrar la media poblacional si slo se
conoce una media muestral x , con una confianza determinada. Habitualmente se manejan valores de
confianza del 95 y del 99 por ciento. A este valor se le llamar 1 (debido a que , el nivel de
significacin, es el error que se cometer, un trmino opuesto).

Para ello se necesita calcular el punto (el percentil ver el anexo A) x1 2, o, mejor dicho, su versin
estandarizada z1 2 junto con su "opuesto en la distribucin, - z1 2. Estos dos puntos delimitan la
probabilidad para el intervalo, como se muestra en la siguiente imagen:

Fig. 7.2 Intervalo de confianza para el medio de la poblacin general para muestras grandes.

Observando los grficos en la Fig. 7.2 se puede concluir que para el intervalo de confianza debe cumplirse
la condicin siguiente:

x
z1 2 z1 2 1 (7.8)
n

Haciendo operaciones es posible despejar para obtener el intervalo:

x z1 2 n x z1 2 n 1 (7.9)

De lo cual se obtendr el intervalo de confianza:

x z1 2 n x z1 2 n (7.10)
Si no se conoce y n es grande (habitualmente se toma n 30) la desviacin estndar de la poblacin
general en la frmula (7.10) se reemplaza por su estimacin s :

x z1 2 s n x z1 2 s n (7.11)
donde:
2
n n n
1 n
x i x x i
2

i 1
xi 2
xi
n i 1
x i 1
; s
2 i 1
(7.12)
n n 1 n 1
Aproximaciones para el valor z1 2 para los niveles de confianza estndar son 1,96 para 1 =95% y
2,576 para 1 =99%.
Para hallar los percentiles de la distribucin normal a travs de la tabla de la funcin de errores hay
que tener en cuenta que
1 1
F z1 2 z 2 1 z1 2 (7.13)
2 2 2
7.4 Intervalos de confianza para la media poblacional con muestras pequeas

Las frmulas que hemos utilizando en la seccin anterior para los parmetros del intervalo de
confianza para las muestras grandes en la forma resumida son las siguientes
n n 2
n n
2 2 1
xi xi x xi xi
x i 1 2 i 1 i 1 n i 1
Z ; x ; s
s2 n n n 1 n 1
La variable Z en estas relaciones para las muestras grandes segn el teorema central de lmites tiene la
distribucin normal, i.e. Z N 0,1 . Este resultado nos permiti expresar los intervalos de confianza en
los trminos de los percentiles de la distribucin normal z1 2.
En el caso cuando el tamao de la muestra no es tan grande ( n 30 ) la variable aleatoria Z ya
tiene una distribucin diferente de normal. Y es la distribucin de Student (ver anexo B) con n-1 gradops
de libertad. Pero la frmula para el intervalo de confianza en este caso debe ser similar a (7.11), con la
nica diferencia: el percentil de la distribucin normal debe ser reemplazado por el percentil de la
distribucin de Student. Las formulas correspondientes tienen la forma:
n n 2
n n
2 2 1
xi xi x xi xi
x i 1 2 i 1 i 1 n i 1
Tn 1 ; x ; s
s2 n n n 1 n 1
(7.14)
En este caso el intervalo de confianza se escribe como:

n 1 n 1
x t1 2 s n x t1 2 s n (7.15)

Los percentiles de la distribucin de Student son las raices de la ecuacin:

n 1
Tn 1 t1 2 1 (7.16)
2
7.5 Intervalo de confianza para una proporcin

El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de una
muestra de tamao n, calculada como pn m n (m es el nmero de sucesos favorables en n pruebas) a un
nivel de confianza del (1-)100% es:

En la demostracin de estas frmulas estn involucrados el Teorema Central del Lmite y la aproximacin
de una binomial por una normal.

Anexo A. Percentiles de una distribucin

Una medida de posicin muy til para describir una poblacin, es la denominada 'percentil'. En
forma intuitiva podemos decir que es un valor tal que supera un determinado porcentaje de los miembros
de la poblacin. Por ejemplo, considere un curso de cuarenta alumnos que se forma en lnea por orden de
estatura, primero los grandes y al final los chicos. Suponga, adems, que se considera chico a un
alumno de la cuarta parte final de esta lnea. ste es un concepto relativo a este curso, con toda
seguridad variar al referirse a otro. Es fcil aceptar que los chicos de octavo bsico tienen menor
estatura que los chicos de cuarto medio.
Como la cuarta parte corresponde al 25% de la poblacin, en el ejemplo que se menciona, los
chicos de un curso, son aquellos cuya estatura no supera el percentil veinticinco de la poblacin formada
por los alumnos del curso.
Si una variable pudiese asumir muchos valores, la representacin de la proporcin del total, menor o igual
que un valor, tendra una forma creciente parecida a la siguiente:
La definicin: Sea una variable aleatoria X tenga una funcin de la distribucin F x , el percentil X p de
esta variable se define como un umbral que separe la regin x X p donde la variable aleatoria X se
encuentra con la probabilidad p, 0 p 1 , es decir X p es un punto que satisface la condicin:
x Xp F Xp p (A1.1)

Fig. 1 La interpretacin grfica de un percentil


Fig.2 Ejemplo: Interpretacin de los percentiles de la distribucin normal.

Anexo B. Las distribuciones relacionadas con la distribucin normal

Distribucin Chi-cuadrato

Densidad de probabilidad Funcin de distribucin


En estadstica, la distribucin (de Pearson) es una de las ms usadas
Distribucin de probabilidad con un parmetro k que representa el nmero de los grados de libertad de la
variable aleatoria
Vk Z12 Z 22 Z32 Z k2
donde Zi son variables aleatorias normales independientes de media cero y varianza uno N 0,1 . El que

la variable aleatoria X tenga esta distribucin se representa habitualmente as: Vk k2 .


Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi y se pronuncia en
castellano como ji
Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede
aproximarse por una distribucin normal:

Parmetros nmero de grados de libertad


Dominio

Funcin de densidad (pdf)

Media
Mediana Aproximadamente
Moda si
Varianza
Distribucin t de Student

Densidad de distribucin Funcin de distribucin

La distribucin t de Student es la distribucin de probabilidad del cociente donde


Z tiene una distribucin normal de media nula y varianza 1
V tiene una distribucin chi-cuadrado con grados de libertad
Z y V son independientes y Si es una constante no nula, el cociente es una variable aleatoria que sigue la distribucin t de
Student Z V / no central con parmetro de no-centralidad .

Parmetros grados de libertad (real)


Dominio

Funcin de
densidad

Funcin de
distribucin donde es la
funcin hipergeomtrica
Media 0 para > 1, indefinida para otros valores
Mediana 0
Moda 0

Varianza
para > 2, indefinida para otros valores

En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la
media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre dos medias muestrales y
para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la
desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra.
Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media y varianza 2. Sea

la media muestral. Entonces

sigue una distribucin normal de media 0 y varianza 1.


Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset estudi un cociente relacionado,

donde
es la varianza muestral y demostr que la funcin de densidad de T es

donde es igual a n 1.La distribucin de T se llama ahora la distribucin-t de Student. El parmetro representa el nmero de
grados de libertad. La distribucin depende de , pero no de o , lo cual es muy importante en la prctica

Historia
La distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fbrica de cerveza, Guiness, que
prohiba a sus empleados la publicacin de artculos cientficos debido a una difusin previa de secretos industriales. De ah que
Gosset publicase sus resultados bajo el seudnimo de Student.1

Anda mungkin juga menyukai