Anda di halaman 1dari 68

UNIDAD I

MUESTRAS ALEATORIAS Y DISTRIBUCIONES DE MUESTREO


1.1 Muestras aleatorias
Cuando nos interesa estudiar las caractersticas de poblaciones grandes, se
utilizan muestras por muchas razones; una enumeracin completa de la poblacin,
llamada censo, puede ser econmicamente imposible, o no se cuenta con el tiempo
suficiente. A continuacin se ver algunos usos del muestreo en diversos campos:
1. Poltica. Las muestras de las opiniones de los votantes se usan para que los
candidatos midan la opinin pblica y el apoyo en las elecciones.
2. Educacin. Las muestras de las calificaciones de los exmenes de estudiantes se
usan para determinar la eficiencia de una tcnica o programa de enseanza.
3. Industria. Muestras de los productos de una lnea de ensamble sirve para
controlar la calidad.
4. Medicina. Muestras de medidas de azcar en la sangre de pacientes diabticos
prueban la eficacia de una tcnica o de un frmaco nuevo.
5. Agricultura. Las muestras del maz cosechado en una parcela proyectan en la
produccin los efectos de un fertilizante nuevo.
6. Gobierno. Una muestra de opiniones de los votantes se usara para determinar
los criterios del pblico sobre cuestiones relacionadas con el bienestar y la
seguridad nacional.
MUESTREO ALEATORIO: es aquel procedimiento de seleccin de la muestra en el que
todos y cada uno de los elementos de la poblacin tiene una cierta probabilidad de
resultar elegidos . De esta forma, si tenemos una poblacin de N elementos y estamos
interesados en obtener una muestra de n elementos (muestra de tamao n), cada
subconjunto de n elementos de la poblacin tendr tambin una cierta probabilidad de
resultar la muestra elegida.
Si designamos por Mi a cada uno de estos subconjuntos ,con i= 1,2,3,...N;
cada Mi tendr una cierta probabilidad P(Mi) de resultar elegido.
Object 1
1.2 Distribucin de muestreo de estadstica
Las muestras aleatorias obtenidas de una poblacin son, por naturaleza propia,
impredecibles. No se esperara que dos muestras aleatorias del mismo tamao y
tomadas de la misma poblacin tenga la misma media muestral o que sean
completamente parecidas; puede esperarse que cualquier estadstico, como la media
muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de
una muestra a otra, por ello, se quiere estudiar la distribucin de todos los valores
posibles de un estadstico. Tales distribuciones sern muy importantes en el estudio de
la estadstica inferencial, porque las inferencias sobre las poblaciones se harn usando
estadsticas muestrales. Como el anlisis de las distribuciones asociadas con los
estadsticos muestrales, podremos juzgar la confiabilidad de un estadstico muestral
como un instrumento para hacer inferencias sobre un parmetro poblacional
desconocido.
Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a
otra, se le puede considerar como una variable aleatoria con su correspondiente
distribucin de frecuencias.
La distribucin de frecuencia de un estadstico muestral se denomina distribucin
muestral. En general, la distribucin muestral de un estadstico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamao.
Suponga que se han seleccionado muestras aleatorias de tamao 20 en una
poblacin grande. Se calcula la madia muestral x para cada muestra; la coleccin de
todas estas medias muestrales recibe el nombre de distribucin muestral de medias,
lo que se puede ilustrar en la siguiente figura:
Suponga que se eligen muestras aleatorias de tamao 20, de una poblacin
grande, y se calcula la deviacin estndar de cada una. La coleccin de todas estas
desviaciones estndar muestrales se llama distribucin muestral de la desviacin
estndar, y lo podemos ver en la siguiente figura:
Ejemplo 1.6
Se eligen muestras ordenadas de tamao 2, con reemplazo, de la poblacin de valores
0, 2, 4 y 6. Encuentre:
, la media poblaciona.
, la desviacin estndar poblacional.
x,
la media de la distribucin muestral de medias.
x
, la desviacin estndar de la distribucin muestral de medias.
Adems, grafica las frecuencias para la poblacin y para la distribucin muestral de
medias.
Solucin:
a. La media poblacional es:
b. La desviacin estndar de la poblacin es:
c. A continuacin se listan los elementos de la distribucin muestral de la media y
la correspondiente distribucin de frecuencias.
La media de la distribucin muestral de medias es:
d) La desviacin estndar de la distribucin muestral de medias es:
De aqu que podamos deducir que:
Como para cualquier variable aleatoria, la dsitribucin muestral de medias tiene
una media o valor esperado, una varianza y una desviacin estndar, se puede
demostrar que la distribucin muestral de medias tiene una media igual a la media
poblacional. Esto es:
Distribuciones muestrales
Despus de haber realizado el ejercicio anterior se puede ver que una
distribucin muestral se genera extrayendo todas las posibles muestras del mismo
tamao de la poblacin y calculndoles a stas su estadstico.
Si la poblacin de la que se extraen las muestras es normal, la distribucin
muestral de medias ser normal sin importar el tamao de la muestra.
Si la poblacin de donde se extraen las muestras no es normal, entonces el
tamao de la muestra debe ser mayor o igual a 30, para que la distribucin muestral
tenga una forma acampanada. Mientras mayor sea el tamao de la muestra, ms cerca
estar la distribucin muestral de ser normal.
Para muchos propsitos, la aproximacin normal se considera buena si se cumple
n=30. La forma de la disitribucin muestral de medias sea aproximadamente normal,
an en casos donde la poblacin original es bimodal, es realmente notable.
1.3 La distribucin t de Student
Supngase que se toma una muestra de una poblacin normal con media y
varianza . Si es el promedio de las n observaciones que contiene la muestra
aleatoria, entonces la distribucin es una distribucin normal estndar.
Supngase que la varianza de la poblacin
2
es desconocida. Qu sucede con la
distribucin de esta estadstica si se reemplaza por s? La distribucin t proporciona
la respuesta a esta pregunta.
La media y la varianza de la distribucin t son = 0 y para >2,
respectivamente.
La siguiente figura presenta la grfica de varias distribuciones t. La apariencia
general de la distribucin t es similar a la de la distribucin normal estndar: ambas
son simtricas y unimodales, y el valor mximo de la ordenada se alcanza en la media
= 0. Sin embargo, la distribucin t tiene colas ms amplias que la normal; esto es, la
probabilidad de las colas es mayor que en la distribucin normal. A medida que el
nmero de grados de libertad tiende a infinito, la forma lmite de la distribucin t es la
distribucin normal estndar.

Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t, est ms dispersa que la curva normal estndar z.
3. A medida que aumenta, la dispersin de la curva t correspondiente disminuye.
4. A medida que , la secuencia de curvas t se aproxima a la curva normal
estndar, por lo que la curva z recibe a veces el nombre de curva t con gl =
La distribucin de la variable aleatoria t est dada por:
Esta se conoce como la distribucin t con grados de libertad.
Sean X
1
, X
2
, . . . , X
n
variables aleatorias independientes que son todas normales
con media y desviacin estndar . Entonces la variable aleatoria tiene
una distribucin t con = n-1 grados de libertad.
La distribucin de probabilidad de t se public por primera vez en 1908 en un
artculo de W. S. Gosset. En esa poca, Gosset era empleado de una cervecera irlandesa
que desaprobaba la publicacin de investigaciones de sus empleados. Para evadir esta
prohibicin, public su trabajo en secreto bajo el nombre de "Student". En
consecuencia, la distribucin t normalmente se llama distribucin t de Student, o
simplemente distribucin t. Para derivar la ecuacin de esta distribucin, Gosset supone
que las muestras se seleccionan de una poblacin normal. Aunque esto parecera una
suposicin muy restrictiva, se puede mostrar que las poblaciones no normales que
poseen distribuciones en forma casi de campana an proporcionan valores de t que se
aproximan muy de cerca a la distribucin t.
La distribucin t difiere de la de Z en que la varianza de t depende del tamao de
la muestra y siempre es mayor a uno. Unicamente cuando el tamao de la muestra
tiende a infinito las dos distribuciones sern las mismas.
Se acostumbra representar con el valor t por arriba del cual se encuentra un
rea igual a . Como la distribucin t es simtrica alrededor de una media de cero,
tenemos ; es decir, el valor t que deja un rea de a la derecha y por
tanto un rea de a la izquierda, es igual al valor t negativo que deja un rea de
en la cola derecha de la distribucin. Esto es, t
0.95
= -t
0.05
, t
0.99
=-t
0.01
, etc.
Para encontrar los valores de t se utilizar la tabla de valores crticos de la
distribucin t del libro Probabilidad y Estadstica para Ingenieros de los autores
Walpole, Myers y Myers.
Ejemplo:
El valor t con = 14 grados de libertad que deja un rea de 0.025 a la izquierda, y
por tanto un rea de 0.975 a la derecha, es
t
0.975
=-t
0.025
= -2.145
Si se observa la tabla, el rea sombreada de la curva es de la cola derecha, es por esto
que se tiene que hacer la resta de . La manera de encontrar el valor de t es
buscar el valor de en el primer rengln de la tabla y luego buscar los grados de
libertad en la primer columna y donde se intercepten y se obtendr el valor de t.
Ejemplo:
Encuentre la probabilidad de t
0.025
< t < t
0.05.
Solucin:
Como t
0.05
deja un rea de 0.05 a la derecha, y t
0.025
deja un rea de 0.025 a la
izquierda, encontramos un rea total de 1-0.05-0.025 = 0.925.
P( t
0.025
< t < t
0.05
) = 0.925
Ejemplo:
Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de tamao
15 que se selecciona de una distribucin normal.
Solucin:
Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos damos cuenta
que a este valor le corresponde un rea de 0.05 a la izquierda, por ser negativo el valor.
Entonces si se resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a . Luego
se busca el valor de 0.005 en el primer rengln con 14 grados de libertad y se obtiene
un valor de t = 2.977, pero como el valor de est en el extremo izquierdo de la
curva entonces la respuesta es t = -2.977 por lo tanto:
P(-2.977 < t < -1.761) = 0.045
Ejemplo:
Un ingeniero qumico afirma que el rendimiento medio de la poblacin de cierto
proceso en lotes es 500 gramos por milmetro de materia prima. Para verificar esta
afirmacin toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre
t
0.05
y t
0.05
, queda satisfecho con su afirmacin. Qu conclusin extraera de una
muestra que tiene una media de 518 gramos por milmetro y una desviacin estndar
de 40 gramos? Suponga que la distribucin de rendimientos es aproximadamente
normal.
Solucin:
De la tabla encontramos que t
0.05
para 24 grados de libertad es de 1.711. Por tanto, el
fabricante queda satisfecho con esta afirmacin si una muestra de 25 lotes rinde un
valor t entre 1.711 y 1.711.
Se procede a calcular el valor de t:
Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad de
obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la
tabla y es aproximadamente de 0.02. De aqu que es probable que el fabricante
concluya que el proceso produce un mejor producto del que piensa.
1.4 La distribucin ji-cuadrada
DISTRIBUCION JI-CUADRADA (X
2
)
En realidad la distribucin ji-cuadrada es la distribucin muestral de s
2
. O sea
que si se extraen todas las muestras posibles de una poblacin normal y a cada muestra
se le calcula su varianza, se obtendr la distribucin muestral de varianzas.
Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer
el estadstico X
2
. Si se elige una muestra de tamao n de una poblacin normal con
varianza , el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1
grados de libertad y se denota X
2
(X es la minscula de la letra griega ji). El
estadstico ji-cuadrada esta dado por:
donde n es el tamao de la muestra, s
2
la varianza muestral y la varianza de la
poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede
dar con la siguiente expresin:
Propiedades de las distribuciones ji-cuadrada
1. Los valores de X
2
son mayores o iguales que 0.
2. La forma de una distribucin X
2
depende del gl=n-1. En consecuencia, hay un
nmero infinito de distribuciones X
2
.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X
2
no son simtricas. Tienen colas estrechas que se extienden a
la derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X
2
es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X
2
se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X
2
. Note que el valor modal aparece en el
valor (n-3) = (gl-2).
La funcin de densidad de la distribucin X
2
esta dada por:
para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica
de Walpole, la cual da valores crticos (gl) para veinte valores especiales de .
Para denotar el valor crtico de una distribucin X
2
con gl grados de libertad se usa el
smbolo (gl); este valor crtico determina a su derecha un rea de bajo la curva
X
2
y sobre el eje horizontal. Por ejemplo para encontrar X
2
0.05
(6) en la tabla se localiza
6 gl en el lado izquierdo y a o largo del lado superior de la misma tabla.
Clculo de Probabilidad
El clculo de probabilidad en una distribucin muestral de varianzas nos sirve para
saber como se va a comportar la varianza o desviacin estndar en una muestra que
proviene de una distribucin normal.
Ejemplos:
1. Suponga que los tiempos requeridos por un cierto autobs para alcanzar un de
sus destinos en una ciudad grande forman una distribucin normal con una
desviacin estndar =1 minuto. Si se elige al azar una muestra de 17 tiempos,
encuentre la probabilidad de que la varianza muestral sea mayor que 2.
Solucin:
Primero se encontrar el valor de ji-cuadrada correspondiente a s
2
=2 como
sigue:
El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de libertad
y se encuentra que a este valor le corresponde un rea a la derecha de 0.01. En
consecuencia, el valor de la probabilidad es P(s
2
>2)
2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de
una poblacin normal con varianza
, tenga una varianza muestral:
a. Mayor que 9.1
b. Entre 3.462 y 10.745
Solucin.
a. Primero se proceder a calcular el valor de la ji-cuadrada:
Al buscar este nmero en el rengln de 24 grados de libertad nos da un rea a la
derecha de 0.05. Por lo que la P(s
2
>9.1) = 0.05
1. Se calcularn dos valores de ji-cuadrada:
y
Aqu se tienen que buscar los dos valores en el rengln de 24 grados de libertad. Al
buscar el valor de 13.846 se encuentra un rea a la derecha de 0.95. El valor de 42.98
da un rea a la derecha de 0.01. Como se est pidiendo la probabilidad entre dos
valores se resta el rea de 0.95 menos 0.01 quedando 0.94.
Por lo tanto la P(3.462 s
2
10.745) = 0.94
Estimacin de la Varianza
Para poder estimar la varianza de una poblacin normal se utilizar la distribucin ji-
cuadrada.
Al despejar esta frmula la varianza poblacional nos queda:
Los valores de X
2
dependern de nivel de confianza que se quiera al cual le llamamos
. Si nos ubicamos en la grfica se tiene:
Ejemplos:
1. Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de pasto
distribuidas por cierta compaa: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9,
45.2 y 46. Encuentre un intervalo de confianza de 95% para la varianza de todos
los paquetes de semillas de pasto que distribuye esta compaa, suponga una
poblacin normal.
Solucin:
Primero se calcula la desviacin estndar de la muestra:
al elevar este resultado al cuadrado se obtiene la varianza de la muestra
s
2
= 0.286.
Para obtener un intervalo de confianza de 95% se elige un = 0.05. Despus
con el uso de la tabla con 9 grados de libertad se obtienen los valores de X
2
.
Se puede observar en la grfica anterior que el valor de X
2
corre en forma
normal, esto es de izquierda a derecha.
Por lo tanto, el intervalo de confianza de 95% para la varianza es:
Graficamente:
Se observa que la varianza corre en sentido contrario, pero esto es slo en la
grfica. La interpretacin quedara similar a nuestros temas anteriores referentes
a estimacin. Con un nivel de confianza del 95% se sabe que la varianza de la
poblacin de los pesos de los paquetes de semillas de pasto esta entre 0.135 y
0.935 decagramos al cuadrado.
1.5 La distribucin F de Fisher
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de
dos poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente
se desea comparar la precisin de un instrumento de medicin con la de otro, la
estabilidad de un proceso de manufactura con la de otro o hasta la forma en que vara
el procedimiento para calificar de un profesor universitario con la de otro.
Intuitivamente, podramos comparar las varianzas de dos poblaciones, y
, utilizando la razn de las varianzas muestrales s
2
1
/s
2
2
. Si s
2
1
/s
2
2
es casi igual a
1, se tendr poca evidencia para indicar que y no son iguales. Por otra parte,
un valor muy grande o muy pequeo para s
2
1
/s
2
2
, proporcionar evidencia de una
diferencia en las varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-
cuadrada independientes, cada una dividida entre sus respectivos grados de libertad.
Esto es,
donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad
1
y
2
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas
con grados de libertad, respectivamente. Entonces la distribucin de la variable
aleatoria est dada por:

y se dice que sigue la distribucin F con grados de libertad en el numerador y
grados de libertad en el denominador.
La media y la varianza de la distribucin F son:
para
para

La variable aleatoria F es no negativa, y la distribucin tiene un sesgo hacia la derecha.
La distribucin F tiene una apariencia muy similar a la distribucin ji-cuadrada; sin
embargo, se encuentra centrada respecto a 1, y los dos parmetros proporcionan
una flexibilidad adicional con respecto a la forma de la distribucin.
Si s
1
2
y s
2
2
son las varianzas muestrales independientes de tamao n
1
y n
2
tomadas de
poblaciones normales con varianzas
1
2
y
2
2
, respectivamente, entonces:
Para manejar las tablas de Fisher del libro de Introduccin a la Inferencia Estadstica
del autor Genther, se tendr que buscar primero los grados de libertad dos para luego
localizar el rea correspondiente, relacionndola con los grados de libertad uno, para
calcular el valor de F.
Las tablas tienen la siguiente estructura:
P 1 2 3 . .. 500
6 0.0005
0.001
0.005
.
.
0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y
6 grados de libertad dos con un rea de cero a Fisher de 0.995. Si lo vemos
graficamente:
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.


Ejemplos :
1. Encontrar el valor de F, en cada uno de los siguientes casos:
a. El rea a la derecha de F, es de 0.25 con =4 y =9.
b. El rea a la izquierda de F, es de 0.95 con =15 y =10.
c. El rea a la derecha de F es de 0.95 con con =6 y =8.
d. El rea a la izquierda de F, es de 0.10 con con =24 y =24
Solucin:
a. Como el rea que da la tabla es de cero a Fisher, se tiene que localizar primero
los grados de libertad dos que son 9, luego un rea de 0.75 con 4 grados de
libertad uno.
b. En este caso se puede buscar el rea de 0.95 directamente en la tabla con sus
respectivos grados de libertad.
c. Se tiene que buscar en la tabla un rea de 0.05, puesto que nos piden un rea a
la derecha de F de 0.95.
d. Se busca directamente el rea de 0.10, con sus respectivos grados de libertad.
1. Si s
1
2
y s
2
2
son las varianzas muestrales de muestras aleatorias independientes
de tamaos n
1
=10 y n
2
=20, tomadas de poblaciones normales que tienen las
mismas varianzas, encuentre P(s
1
2
/s
2
2
2.42).
Solucin:
Primero se establecen los grados de libertad. Como en el numerador est la
poblacin uno y en el denominador la poblacin dos, entonces los grados de
libertad uno equivalen a 10-1=9 y los grados de libertad dos a 20-1=19.
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se
observa que no estn, por lo tanto se tiene que interpolar entre 15 y 20 grados de
libertad, buscando el valor de fisher que quedara:
Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15
grados de libertad dos, y se encuentra los siguiente:
Area
0.90 2.09
0.95 2.59
Al interpolar entre estos dos valores nos queda un rea de 0.933.
Se procede a hacer lo mismo pero con 20 grados de libertad dos:
Area
0.95 2.39
0.975 2.84
Al interpolar entre estos dos valores nos queda un rea de 0.9516.
Ahora ya se tienen las dos reas referentes a los grados de libertad dos, por lo
que se interpolar para ver cunto le corresponde a los grados libertad dos con
un valor de 19.
Area
15 0.933
20 0.9516
Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de
libertad dos con un valor de Fisher de 2.42 el rea a la izquierda es de 0.9478.
2. Si s
1
2
y s
2
2
representan las varianzas de las muestras aleatorias independientes
de tamao n
1
= 25 y n
2
= 31, tomadas de poblaciones normales con varianzas
1
2
=10 y
2
2
= 15, respectivamente, encuentre P(s
1
2
/s
2
2
> 1.26).
Solucin:
Calcular el valor de Fisher:
Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de
libertad uno. Cuando se este en esta posicin se busca adentro de la tabla el valor de
Fisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un rea de
0.95, pero esta rea correspondera a la probabilidad de que las relaciones de varianzas
muestrales fueran menor a 1.26, por lo que se calcula su complemento que sera 0.05,
siendo esta la probabilidad de que s
1
2
/s
2
2
> 1.26.
Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones
Normales
Supngase que se tienen dos poblaciones normales e independientes con
varianzas desconocidas
1
2
y
2
2
, respectivamente. De este par de poblaciones, se
tienen disponibles dos muestras aleatorias de tamaos n
1
y n
2
, respectivamente, sean
s
1
2
y s
2
2
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del
100( ) por ciento para el cociente de las dos varianzas,
1
2
/
2
2
.
Para construir el intervalo de confianza para el cociente de dos varianzas
poblacionales, se coloca la varianza muestral mayor en el numerador del estadstico F.
Ejemplos:
1. Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje
de motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:
Mtodo 1 Mtodo 2
n
1
= 31 n
2
= 25
s
1
2
= 50 s
2
2
= 24
Construya un intervalo de confianza del 90% para
1
2
/
2
2
.
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se
tiene la siguiente frmula:
al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de
libertad. En este caso los grados de libertad uno valen 30 y los grados de libertad
dos 24.
y
Estos resultados los podemos interpretar de la siguiente manera:
Con un nivel de confianza del 90% se sabe que la relacin de varianzas
1
2
/
2
2
esta entre 1.07 y 3.93. Esto supondra que la varianza de la poblacin 1 es
mayor a la varianza de la poblacin 2 entre 1.07 y 3.93.
2. Una compaa fabrica propulsores para uso en motores de turbina. Al ingeniero
de manufactura le gustara seleccionar el proceso que tenga la menor
variabilidad en la rugosidad de la superficie. Para ello toma una muestra de
n
1
=16 partes del primer proceso, la cual tiene una desviacin estndar s
1
= 4.7
micropulgadas, y una muestra aleatoria de n
2
=12 partes del segundo proceso, la
cual tiene una desviacin estndar s
2
= 5.1 micropulgadas.
3. Se desea encontrar un intervalo de confianza del 90% para el cociente de las dos
varianzas
1
2
/
2
2
.
Suponga que los dos procesos son independientes y que la rugosidad de la
superficie est distribuida de manera normal.
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la
siguiente frmula:
al despejar: .
En este caso los grados de libertad uno valen 11 y los grados de libertad dos 15.
y
Estos resultados los podemos interpretar de la siguiente manera:
Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estndar de la rugosidad de la superficie de los dos procesos sean
diferentes con un nivel de confianza del 90%.
UNIDAD II
ESTIMACIN PUNTUAL Y POR INTERVALOS
2.1 Propiedades de los estimadores puntuales
La inferencia estadstica est casi siempre concentrada en obtener algn tipo de
conclusin acerca de uno o ms parmetros (caractersticas poblacionales). Para
hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las
poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores
calculados de varias cantidades muestrales . Por ejemplo, representamos con
(parmetro) el verdadero promedio de resistencia a la ruptura de conexiones de
alambres utilizados para unir obleas de semiconductores. Podra tomarse una muestra
aleatoria de 10 conexiones para determinar la resistencia a la ruptura de cada una, y la
media muestral de la resistencia a la ruptura se poda emplear para sacar una
conclusin acerca del valor de . De forma similar, si es la varianza de la
distribucin de resistencia a la ruptura, el valor de la varianza muestral s
2
se podra
utilizar pra inferir algo acerca de .
Cuando se analizan conceptos generales y mtodos de inferencia es conveniente
tener un smbolo genrico para el parmetro de inters. Se utilizar la letra griega
para este propsito. El objetivo de la estimacin puntual es seleccionar slo un nmero,
basados en datos de la muestra, que represente el valor ms razonable de .
Una muestra aleatoria de 3 bateras para calculadora podra presentar duraciones
observadas en horas de x
1
=5.0, x
2
=6.4 y x
3
=5.9. El valor calculado de la duracin
media muestral es = 5.77, y es razonable considerar 5.77 como el valor ms
adecuado de .
Una estimacin puntual de un parmetro es un slo nmero que se puede
considerar como el valor ms razonable de . La estimacin puntual se obtiene al
seleccionar una estadstica apropiada y calcular su valor a partir de datos de la muestra
dada. La estadstica seleccionada se llama estimador puntual de .
El smbolo (theta sombrero) suele utilizarse para representar el estimador de
y la estimacin puntual resultante de una muestra dada. Entonces se lee como
"el estimador puntual de es la media muestral ". El enunciado "la estimacin
puntual de es 5.77" se puede escribir en forma abreviada .
Ejemplo:
En el futuro habr cada vez ms inters en desarrollar aleaciones de Mg de bajo
costo, para varios procesos de fundicin. En consecuencia, es importante contar con
mtodos prcticos para determinar varias propiedades mecnicas de esas aleaciones.
Examine la siguiente muestra de mediciones del mdulo de elasticidad obtenidos de un
proceso de fundicin a presin:
44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1
Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea
estimar la varianza poblacional . Un estimador natural es la varianza muestral:
En el mejor de los casos, se encontrar un estimador para el cual siempre. Sin
embargo, es una funcin de las X
i
muestrales, por lo que en s misma una variable
aleatoria.
+ error de estimacin
entonces el estimador preciso sera uno que produzca slo pequeas diferencias de
estimacin, de modo que los valores estimados se acerquen al valor verdadero.
Propiedades de un Buen Estimador
Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si
, para todo valor posible de . En otras palabras, un estimador insesgado es
aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se
usa la media muestral para estimar la media poblacional , se sabe que la ,
por lo tanto la media es un estimador insesgado.
Eficiente o con varianza mnima.- Suponga que
1
y
2
son dos estimadores
insesgados de . Entonces, aun cuando la distribucin de cada estimador est centrada
en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor
verdadero pueden ser diferentes.
Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza
mnima. El resultante recibe el nombre de estimador insesgado con varianza
mnima (MVUE, minimum variance unbiased estimator) de .
En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica.
Si comparamos dos estaisticas de una muestra del mismo tamao y tratamos de decidir
cual de ellas es un estimador mas eficiente, escogeramos la estadstica que tuviera el
menor error estndar, o la menor desviacin estndar de la distribucin de muestreo.
Tiene sentido pensar que un estimador con un error estndar menor tendr una mayor
oportunidad de producir una estimacin mas cercana al parmetro de poblacin que se
esta considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro
slo que la distribucin muestral de medias tiene una menor varianza, por lo que la
media se convierte en un estimador eficiente e insesgado.
Coherencia.- Una estadstica es un estimador coherente de un parmetro de poblacin,
si al aumentar el tamao de la muestra se tiene casi la certeza de que el valor de la
estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un
estimador es coherente se vuelve mas confiable si tenemos tamaos de muestras mas
grandes.
Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la informacin
contenida de la muestra que ningn otro estimador podra extraer informacin
adicional de la muestra sobre el parmetro de la poblacin que se esta estimando.
Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la
informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se
necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza
a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a
representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la
muestra como es en el caso de la media, la varianza, desviacin estndar, etc; se tendr
un estimador suficiente.
2.2 Intervalos de confianza para la media
Intervalo de confianza para la media, cuando se selecciona una muestra aleatoria
de tamao n de una poblacin con distribucin normal con media y varianza
conocida.
En este caso, por las condiciones de la muestra se utiliza la distribucin normal
estndar, por lo tanto y pertenecen a una distribucin normal estndar. Como
se trabaja con una distribucin normal, y son iguales pero con diferente signo,
es negativo y es positivo, por lo tanto en la frmula se incluye el signo y y
se reemplazan por Z. Para obtener el intervalo de confianza para la media se utiliza
la siguiente expresin:
(2.1)
Donde Z pertenece a una distribucin normal estndar.
Interpretando este intervalo se dir que el promedio poblacional estar entre:
con una confiabilidad del (1- ) por ciento.

EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos,
tiene una distribucin normal con desviacin estndar de 8 unidades por hora. Se
desea estimar un intervalo de confianza del 90 por ciento para el promedio de unidades
por hora producido con dicho proceso. Para tal efecto, se toma una muestra aleatoria
de la produccin por hora durante 25 horas y se obtiene un promedio de 160 unidades.
Solucin . Como la distribucin de la poblacin es normal y se conoce la desviacin
estndar poblacional, se utiliza la expresin 2.1 para calcular el intervalo de confianza.
El valor de Z se halla en una tabla de la distribucin normal. La confiabilidad es del 90
por ciento, por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2
en la cola inferior y a /2 en la cola superior. En la figura 2.2, el rea que hay de - a Z
es 0,95 y para sta rea el valor de Z en la distribucin normal es 1,64
Figura 2.2 Percentil de la distribucin normal


Interpretacin . El promedio de unidades por hora producidas en dicha fbrica est
entre 157 y 163 con una confiabilidad del 90 por ciento.
Intervalo de confianza para la media si se selecciona una muestra aleatoria de
tamao n 30 de una poblacin con distribucin diferente a la normal.
Por las condiciones de la muestra, se utiliza la expresin (1.7). Haciendo el mismo
proceso que se hizo en el caso anterior se obtiene:
(2.2)
Donde Z pertenece a una distribucin normal estndar.
EJEMPLO
En un estudio elaborado acerca de la duracin de 51 bombillas de semforos en cierta
ciudad, se determin un promedio de duracin de 1.795 horas con una desviacin
estndar de 489 horas. Halle un intervalo con el 95 por ciento de confiabilidad para
estimar la media poblacional.
Solucin

Como el tamao de la muestra es mayor que 30, se utiliza la expresin 2.2 y para una
confiabilidad del 95 por ciento, el valor de Z en la distribucin normal es 1,96.
Reemplazando:
Interpretacin . Con una confiabilidad del 95 por ciento, la duracin promedio de las
bombillas de semforos de dicha ciudad, est entre 1.661 y 1.921 horas
2.3 Intervalos de confianza para la Varianza
De una poblacin con distribucin normal con media m y varianza s 2 se obtiene
una muestra aleatoria de tamao n. Para obtener el intervalo de confianza para la
varianza ( s 2 ) se parte de la expresin (1.4):
Se divide por ns
2
:
Se invierte:
Reescribiendo:
Donde y pertenecen a una distribucin chi-cuadrado con (n-1) grado de
libertad, por lo tanto, y son diferentes y < .
Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs
2
.
Halle un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de
todos los cables de sta marca.
Solucin . Se utiliza la expresin 2.6. Los valores de y pertenecen a una
distribucin chi-cuadrado con 29 grados de libertad. como puede observarse en la
figura 2.3 el rea que hay por debajo de Z a /2 es 0,05, por lo tanto =17,71 y el
rea que hay por debajo de es 0,95, por lo tanto =42,56
Figura 2.3 Percentiles de la distribucin chi-cuadrado
Reemplazando en la expresin 2.6 se obtiene:

Por razones de utilidad se halla el intervalo de confianza para la desviacin estndar,
sacando la raz cuadrada de los lmites, por lo tanto:
2.4 Intervalo de confianza para la diferencia de medias
NTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS
DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS
En esta seccin se ver el caso en donde se tienen dos poblaciones con medias y
varianzas desconocidas, y se desea encontrar un intervalo de confianza para la
diferencia de dos medias
1
-
2
. Si los tamaos de muestras n
1
y n
2
son mayores que
30, entonces, puede emplearse el intervalo de confianza de la distribucin normal. Sin
embargo, cuando se toman muestras pequeas se supone que las poblaciones de inters
estn distribuidas de manera normal, y los intervalos de confianza se basan en la
distribucin t.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS
DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS PERO IGUALES
Si s
1
2
y s
2
2
son las medias y las varianzas de dos muestras aleatorias de tamao
n
1
y n
2
, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100(
) por ciento para la diferencia entre medias es:
en donde:
es el estimador combinado de la desviacin estndar comn de la poblacin con n
1
+n
2
2 grados de libertad.
Ejemplos:
1. Un artculo publicado dio a conocer los resultados de un anlisis del peso de
calcio en cemento estndar y en cemento contaminado con plomo. Los niveles
bajos de calcio indican que el mecanismo de hidratacin del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de
cemento. Al tomar diez muestras de cemento estndar, se encontr que el peso
promedio de calcio es de 90 con una desviacin estndar de 5; los resultados
obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en
promedio con una desviacin estndar de 4. Supngase que el porcentaje de peso
de calcio est distribuido de manera normal. Encuntrese un intervalo de
confianza del 95% para la diferencia entre medias de los dos tipos de cementos.
Por otra parte, supngase que las dos poblaciones normales tienen la misma
desviacin estndar.
Solucin:
El estimador combinado de la desviacin estndar es:
Al calcularle raz cuadrada a este valor nos queda que s
p
= 4.41
expresin que se reduce a 0.72
1
-
2
6.72
Ntese que el intervalo de confianza del 95% incluye al cero; por consiguiente,
para este nivel confianza, no puede concluirse la existencia de una diferencia
entre las medias.
2. Se realiz un experimento para comparar el tiempo promedio requerido por el
cuerpo humano para absorber dos medicamentos, A y B. Suponga que el tiempo
necesario para que cada medicamento alcance un nivel especfico en el torrente
sanguneo se distribuye normalmente. Se eligieron al azar a doce personas para
ensayar cada frmaco registrndose el tiempo en minutos que tard en alcanzar
un nivel especfico en la sangre. Calcule un intervalo de confianza del 95% para
la diferencia del tiempo promedio. Suponga varianzas iguales.
Medicamento A Medicamento B
n
A
= 12 n
B
= 12
S
A
2
= 15.57 S
B
2
= 17.54
Solucin:
2.35
B
-
A
9.25
Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel
especfico es mayor para el medicamento B.
UNIDAD III
PRUEBA DE HIPTESIS
3.1 Conceptos bsicos para la prueba de hiptesis estadstica
Muchos problemas de ingeniera, ciencia, y administracin, requieren que se
tome una decisin entre aceptar o rechazar una proposicin sobre algn parmetro.
Esta proposicin recibe el nombre de hiptesis. Este es uno de los aspectos ms tiles
de la inferencia estadstica, puesto que muchos tipos de problemas de toma de
decisiones, pruebas o experimentos en el mundo de la ingeniera, pueden formularse
como problemas de prueba de hiptesis.
Una hiptesis estadstica es una proposicin o supuesto sobre los parmetros de
una o ms poblaciones.
Suponga que se tiene inters en la rapidez de combustin de un agente propulsor
slido utilizado en los sistemas de salida de emergencia para la tripulacin de
aeronaves. El inters se centra sobre la rapidez de combustin promedio. De manera
especfica, el inters recae en decir si la rapidez de combustin promedio es o no 50
cm/s. Esto puede expresarse de manera formal como
H
o
; = 50 cm/s
H
1
; 50 cm/s
La proposicin H
o
; = 50 cm/s, se conoce como hiptesis nula, mientras que
la proposicin H
1
; 50 cm/s, recibe el nombre de hiptesis alternativa. Puesto
que la hiptesis alternativa especifica valores de que pueden ser mayores o menores
que 50 cm/s, tambin se conoce como hiptesis alternativa bilateral. En algunas
situaciones, lo que se desea es formular una hiptesis alternativa unilateral, como en
H
o
; = 50 cm/s H
o
; = 50 cm/s

H
1
; < 50 cm/s H
1
; > 50 cm/s
Es importante recordar que las hiptesis siempre son proposiciones sobre la
poblacin o distribucin bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parmetro de la poblacin especificado en la hiptesis nula se
determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hiptesis usualmente es determinar si ha
cambiado el valor del parmetro.
2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con el
proceso bajo estudio. En este caso, el objetivo de la prueba de hiptesis es
verificar la teora o modelo.
3. Cuando el valor del parmetro proviene de consideraciones externas, tales como
las especificaciones de diseo o ingeniera, o de obligaciones contractuales. En
esta situacin, el objetivo usual de la prueba de hiptesis es probar el
cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisin sobre una hiptesis en particular
recibe el nombre de prueba de hiptesis. Los procedimientos de prueba de hiptesis
dependen del empleo de la informacin contenida en la muestra aleatoria de la
poblacin de inters. Si esta informacin es consistente con la hiptesis, se concluye
que sta es verdadera; sin embargo si esta informacin es inconsistente con la hiptesis,
se concluye que esta es falsa. Debe hacerse hincapi en que la verdad o falsedad de una
hiptesis en particular nunca puede conocerse con certidumbre, a menos que pueda
examinarse a toda la poblacin. Usualmente esto es imposible en muchas situaciones
prcticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hiptesis
teniendo en cuenta la probabilidad de llegar a una conclusin equivocada.
La hiptesis nula, representada por H
o
, es la afirmacin sobre una o ms
caractersticas de poblaciones que al inicio se supone cierta (es decir, la "creencia a
priori").
La hiptesis alternativa, representada por H
1
, es la afirmacin contradictoria a
H
o
, y sta es la hiptesis del investigador.
La hiptesis nula se rechaza en favor de la hiptesis alternativa, slo si la
evidencia muestral sugiere que H
o
es falsa. Si la muestra no contradice decididamente
a H
o
, se contina creyendo en la validez de la hiptesis nula. Entonces, las dos
conclusiones posibles de un anlisis por prueba de hiptesis son rechazar H
o
o no
rechazar H
o
.
3.2 Elementos de una prueba estadstica
Prueba de una Hiptesis Estadstica
Para ilustrar los conceptos generales, considere el problema de la rapidez de
combustin del agente propulsor presentado con anterioridad. La hiptesis nula es que
la rapidez promedio de combustin es 50 cm/s, mientras que la hiptesis alternativa es
que sta no es igual a 50 cm/s. Esto es, se desea probar:
H
o
; = 50 cm/s
H
1
; 50 cm/s
Supngase que se realiza una prueba sobre una muestra de 10 especmenes, y
que se observa cual es la rapidez de combustin promedio muestral. La media muestral
es un estimador de la media verdadera de la poblacin. Un valor de la media muestral
que este prximo al valor hipottico = 50 cm/s es una evidencia de que el
verdadero valor de la media es realmente 50 cm/s; esto es, tal evidencia apoya la
hiptesis nula H
o
. Por otra parte, una media muestral muy diferente de 50 cm/s
constituye una evidencia que apoya la hiptesis alternativa H
1
. Por tanto, en este caso,
la media muestral es el estadstico de prueba.
La media muestral puede tomar muchos valores diferentes. Supngase que si
48.5 51.5, entonces no se rechaza la hiptesis nula H
o
; = 50 cm/s, y que si
<48.5 >51.5, entonces se acepta la hiptesis alternativa H
1
; 50 cm/s.
Los valores de que son menores que 48.5 o mayores que 51.5 constituyen la
regin crtica de la prueba, mientras que todos los valores que estn en el intervalo
48.5 51.5 forman la regin de aceptacin. Las fronteras entre las regiones crtica y
de aceptacin reciben el nombre de valores crticos. La costumbre es establecer
conclusiones con respecto a la hiptesis nula H
o
. Por tanto, se rechaza H
o
en favor de
H
1
si el estadstico de prueba cae en la regin crtica, de lo contrario, no se rechaza H
o
.
Este procedimiento de decisin puede conducir a una de dos conclusiones
errneas. Por ejemplo, es posible que el valor verdadero de la rapidez promedio de
combustin del agente propulsor sea igual a 50 cm/s. Sin embargo, para todos los
especmenes bajo prueba, bien puede observarse un valor del estadstico de prueba
que cae en la regin crtica. En este caso, la hiptesis nula H
o
ser rechazada en favor
de la alternativa H
1
cuando, de hecho, H
o
en realidad es verdadera. Este tipo de
conclusin equivocada se conoce como error tipo I.
3.3 Error tipo I y error tipo II
El error tipo I se define como el rechazo de la hiptesis nula H
o
cuando sta es
verdadera. Tambin es conocido como nivel de significancia.
Si tuviramos un nivel de confianza del 95% entonces el nivel de significancia sera del
5%. Anlogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sera del 10%.
Ahora supngase que la verdadera rapidez promedio de combustin es diferente
de 50 cm/s, aunque la media muestral caiga dentro de la regin de aceptacin. En
este caso se acepta H
o
cuando sta es falsa. Este tipo de conclusin recibe el nombre de
error tipo II.
El error tipo II error se define como la aceptacin de la hiptesis nula
cuando sta es falsa.
Por tanto, al probar cualquier hiptesis estadstica, existen cuatro situaciones diferentes
que determinan si la decisin final es correcta o errnea.
Decisin H
o
es verdadera H
o
es falsa
Aceptar H
o
No hay error
Error tipo II
Rechazar H
o
Error tipo I No hay error
1. Los errores tipo I y tipo II estn relacionados. Una disminucin en la probabilidad
de uno por lo general tiene como resultado un aumento en la probabilidad del
otro.
2. El tamao de la regin crtica, y por tanto la probabilidad de cometer un error
tipo I, siempre se puede reducir al ajustar el o los valores crticos.
3. Un aumento en el tamao muestral n reducir y de forma simultnea.
4. Si la hiptesis nula es falsa, es un mximo cuando el valor real del parmetro
se aproxima al hipottico. Entre ms grande sea la distancia entre el valor real y
el valor hipottico, ser menor
.
PASOS PARA ESTABLECER UN ENSAYO DE HIPOTESIS
INDEPENDIENTEMENTE DE LA DISTRIBUCION QUE SE ESTE TRATANDO
1. Interpretar correctamente hacia que distribucin muestral se ajustan los datos del
enunciado.
2. Interpretar correctamente los datos del enunciado diferenciando los parmetros
de los estadsticos. As mismo se debe determinar en este punto informacin
implcita como el tipo de muestreo y si la poblacin es finita o infinita.
3. Establecer simultneamente el ensayo de hiptesis y el planteamiento grfico del
problema. El ensayo de hiptesis est en funcin de parmetros ya que se quiere
evaluar el universo de donde proviene la muestra. En este punto se determina el
tipo de ensayo (unilateral o bilateral).
4. Establecer la regla de decisin. Esta se puede establecer en funcin del valor
crtico, el cual se obtiene dependiendo del valor de (Error tipo I o nivel de
significancia) o en funcin del estadstico lmite de la distribucin muestral. Cada
una de las hiptesis deber ser argumentada correctamente para tomar la
decisin, la cual estar en funcin de la hiptesis nula o H
o
.
5. Calcular el estadstico real, y situarlo para tomar la decisin.
6. Justificar la toma de decisin y concluir.
UNIDAD IV
REGRESIN LINEAL SIMPLE
4.1 Diagrama de dispersin
En las distribuciones bidimensionales a cada individuo le corresponden los
valores de dos variables, las representamos por el par (x
i
, y
i
).
Si representamos cada par de valores como las coordenadas de un punto, el
conjunto de todos ellos se llama nube de puntos o diagrama de dispersin.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor
posible, llamada recta de regresin.
Ejemplo
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Diagrama de dispersin
1 Correlacin directa
La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.
2 Correlacin inversa
La recta correspondiente a la nube de puntos de la distribucin es una recta
decreciente.
3 Correlacin nula
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una
forma redondeada.
Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de la nube de
puntos. Se pueden dar tres tipos:
1. Correlacin fuerte
La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.
2. Correlacin dbil
La correlacin ser dbil cuanto ms separados estn los puntos de la recta.
3. Correlacin nula
4.2 Recta de regresin
La recta de regresin es la que mejor se ajusta a la nube de puntos.
La recta de regresin pasa por el punto llamado centro de gravedad.
Recta de regresin de Y sobre X
La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de
los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable
X.
Recta de regresin de X sobre Y
La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de
los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable
Y.
Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y
sus eucaciones son:
y =
x =
Ejemplo
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Hallar las rectas de regresin y representarlas.
x
i
y
i
x
i
y
i
x
i
2
y
i
2

2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1 Hallamos las medias arimticas.
2 Calculamos la covarianza.
3 Calculamos las varianzas.
4Recta de regresin de Y sobre X.
4Recta de regresin de X sobre Y.
4.3 El mtodo de mnimos cuadrados
Este mtodo exige que la diferencia entre el valor observado (Y i ) y el valor
estimado (Y i ) sea mnima, es decir, que el error sea mnimo. Ya que:
Los coeficientes de regresin ( y ) son los que hacen que estos errores sean
mnimos, por lo tanto, se deben hallar las expresiones que permitan estimar los
coeficientes de regresin minimizando los errores. Al considerar los n valores de las
variables, es necesario que:
Para encontrar un mnimo, se requiere que las dos primeras derivadas sean mayores
que cero. Se deriva S parcialmente respecto a y .
Derivando respecto a 0:
La ecuacin (1) se iguala a cero y se obtiene:
Derivando respecto a 1:
La ecuacin (3) se iguala a cero y se obtiene:

Las segundas derivadas no dependen de los estimadores 0 y 1 y adems dichas
ecuaciones son siempre positivas, lo que garantiza que los valores encontrados al
resolver las ecuaciones (2) y (4), denominadas ecuaciones normales cumplen con
lo exigido por el mtodo de los mnimos cuadrados.
Dividiendo la ecuacin (2) por n se obtiene:
Dividiendo la ecuacin (4) por n se obtiene:
Reemplazando 0 por su equivalente:
Factorizando 1:
Las ecuaciones (5) y (6) permiten estimar los coeficientes de regresin de la
ecuacin:
Adems de que y estimados con las ecuaciones (5) y (6), minimizan la suma de
cuadrados de los residuos; 0 y 1son estimadores insesgados de y . Es decir
que:
4.4 Coeficiente de correlacin
El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de
las desviaciones tpicas de ambas variables.
El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades del coeficiente de correlacin
1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.
Es decir, si expresamos la altura en metros o en centmetros el coeficiente de
correlacin no vara.
2. El signo del coeficiente de correlacin es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlacin es directa.
Si la covarianza es negativa, la correlacin es inversa.
Si la covarianza es nula, no existe correlacin.
3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1.
1 r 1
4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es
fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es
fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es
dbil.
7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlacin de la distribucin e interpretarlo.
x
i
y
i
x
i
y
i
x
i
2
y
i
2

2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1 Hallamos las medias aritmticas.
2 Calculamos la covarianza.
3 Calculamos las desviaciones tpicas.
4 Aplicamos la frmula del coeficiente de correlacin lineal.
Al ser el coeficiente de correlacin positivo, la correlacin es directa.
Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy fuerte.
Los valores de dos variables X e Y se distribuyen segn la tabla siguiente:
Y/X 0 2 4
1 2 1 3
2 1 4 2
3 2 5 0
Determinar el coeficiente de correlacin.
Convertimos la tabla de doble entrada en tabla simple.
x
i
y
i
f
i
x
i
f
i
x
i
2
f
i
y
i
f
i
y
i
2

f
i
x
i
y
i
f
i
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76
Al ser el coeficiente de correlacin negativo, la correlacin es inversa.
Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy dbil.
4.5 Coeficiente de determinacin ()2R
El objetivo principal del anlisis de regresin es proyectar el valor de la variable
dependiente conociendo o suponiendo valores para la variable independiente. La
confiabilidad de las proyecciones est dada por la confiabilidad de la ecuacin, la cual
se mide a travs del coeficiente de determinacin y de los errores de los coeficientes de
regresin. El coeficiente de determinacin (R
2
) nos dice qu tanto se ajusta la lnea de
regresin a los datos.
Figura 4.2 Descomposicin de la variacin de Y
Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la
ecuacin ajustada a unos datos. Para un valor dado de X se ha tomado el
correspondiente valor de Y. La distancia que hay entre el valor observado y la media
, puede descomponerse en dos partes que son: la distancia entre el valor
observado y el estimado con la ecuacin de regresin y la distancia entre el
valor estimado y el promedio , es decir:
Siendo:
: Distancia Total.
: Distancia de una observacin a la regresin o residuo
: Distancia de la lnea de regresin a la media o distancia de la regresin
Como se tienen n observaciones, para cada caso se presenta la misma situacin, por lo
tanto se toma la suma de estas distancias al cuadrado:
En el anexo B se presenta la demostracin de que:

Es decir: SCT = SCR + SCE (4.4)
Lo cual indica que la SCT puede descomponerse en dos partes, una describe la
variacin de los residuos (SCR) y representa aquella parte de la SCT que no ha sido
explicada por la ayuda de X y la otra parte describe los valores ajustados de Y, es decir,
representa aquella porcin de la SCT que ha sido explicada por la regresin de Y sobre
X.
Dividiendo la ecuacin 4.4 por SCT se obtiene:

El segundo trmino es el coeficiente de determinacin, as que:
Donde:
Como puede observarse, el coeficiente de determinacin es la proporcin de la
variable dependiente explicada por la variable independiente y por lo tanto est entre 0
y 1. Es decir: 0 R 2 1.

A medida que el R 2 se acerca a 1, la ecuacin de regresin es ms confiable, ya
que de la expresin 4.5 se deduce que la SCR tiende a cero y entre ms cercano est el
R 2 de cero, la ecuacin es menos confiable ya que la SCE tiende a cero.

Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es
el coeficiente de correlacin (R) que es una medida del grado de asociacin entre dos
variables. Puede calcularse como:
Donde: S
x
y S
y
son las desviaciones estndar de X y Y respectivamente.
A continuacin se presentan algunas propiedades del coeficiente de correlacin (R):
- -1 R 1
- El signo de R depende del signo de la covarianza o de la pendiente ( )
- R es de naturaleza simtrica; lo anterior implica que el coeficiente de correlacin
entre X y Y (R
xy
) es igual al coeficiente de correlacin entre Y y X (R
xy
).
- Si X y Y son estadsticamente independientes, el coeficiente de correlacin entre ellos
es cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En
otras palabras, una correlacin igual a cero no implica necesariamente independencia.
- Es una medida de asociacin lineal o dependencia lineal nicamente; por
consiguiente no tiene sentido, utilizarlo para describir relaciones no lineales.
En el contexto del anlisis de regresin, R
2
es una medida ms significativa que
R, debido a que el primero muestra la proporcin de la varianza en la variable
dependiente explicada por la(s) variable(s) explicativa(s) y, por tanto, proporciona una
medida global de la magnitud del efecto que ejerce la variacin existente en una
variable sobre la variabilidad de la otra. De otro lado R no nos permite realizar
inferencias de este gnero. Adems, la interpretacin de R en un modelo de regresin
mltiple es de un valor dudoso"
1

El coeficiente de determinacin (R
2
) es til para evaluar la ecuacin de regresin
integralmente, pero es necesario evaluar la confiabilidad de cada uno de los
coeficientes de regresin, lo cual se hace con los errores de estos coeficientes y ms
especficamente con las pruebas de hiptesis para cada uno de ellos.
4.6 Anlisis de residuos
El anlisis de los residuos es bsico para chequear si se verifican las hiptesis del
modelo de regresin. Por ello, a continuacin se exponen las propiedades matemticas
de los mismos. Considrese el modelo de regresin lineal mltiple
Los residuos mnimo-cuadrticos vienen dados por
o en forma matricial
Como = H , siendo H = X
-1
X
t
la matriz de proyeccin ortogonal. Es fcil
probar que la matriz H es idempotente y simtrica . En base a esto
= - = -H = =

= X + -HX -H = ,
donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,
Por tanto, e
i
es una variable aleatoria con distribucin
donde h
ii
es el valor de influencia de
i.
que mide la distancia estadstica de
i.
a .
Un residuo grande indica que la observacin est lejos del modelo estimado y, por
tanto, la prediccin de esta observacin es mala. Las observaciones con residuos
grandes se denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican
los residuos tipificados siguen una distribucin normal estndar, pero como
2
es
desconocido, se sustituye por su estimador, la varianza residual
R
2
y se obtienen los
residuos estandarizados, definidos como
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t
con n- grados de libertad. Como ya se indic en el estudio del modelo de
regresin lineal simple, en el cluco de r
i
existe el problema de que hay una relacin de
dependencia entre el numerador y el denominador de r
i
. Para evitar sto, con mayor
esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador
R,
, la
varianza residual del modelo de regresin obtenido a partir de la muestra en la que se
ha eliminado la observacin . Ahora se definen los residuos estudentizados como
Los residuos estudentizados siguen una distribucin t con - grados de
libertad. Si el tamao muestral es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudindose considerar grandes los
residuos estandarizados tales que > 2.
Con los residuos estandarizados o estudentizados se pueden construir los siguientes
grficos de inters, muchos de los cuales ya han sido comentados,
El grfico de dispersin matricial, de todas las variables del modelo (respuesta y
regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer
grfico que se debe observar. Proporciona una primera idea de la existencia de
relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una
idea de posibles relaciones lineales entre las variables regresoras, lo que crea
problemas de multicolinealidad.
El grfico de dispersin matricial para los datos del Ejemplo 7.1. se
representa en la Figura 9.2.
Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.
El histograma de los residuos, que sirve para observar la existencia de
normalidad, simetra y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que
permite contrastar la normalidad (simetra) de la distribucin de los residuos.
El grfico de residuos frente a las predicciones , que permite detectar
diferentes problemas:
Heterocedasticidad, la varianza no es constante y se deben de transformar
los datos (la variable Y ) o aplicar mnimos cuadrados ponderados.
Error en el anlisis, se ha realizado mal el ajuste y se verifica que los
residuos negativos se corresponden con los valores pequeos
i
y los errores
positivos se corresponden con los valores grandes de
i
, o al revs.
El modelo es inadecuado por falta de linealidad y se deben de transformar
los datos o introducir nuevas variables que pueden ser cuadrados de las
existentes o productos de las mismas. O bien se deben introducir nuevas
variables explicativas.
Existencia de observaciones atpicas o puntos extremos.
Tener en cuenta que se debe utilizar el grfico de residuos frente a las
predicciones en lugar del grfico de residuos frente a las
observaciones porque las variables e estn correladas, mientras que
las variables e no lo estn.
El grfico de residuos frente a una variable explicativa , permite deducir si
la existencia de heterocedasticidad o la falta de linealidad en el modelo son
debidas a la variable explicativa representada.
Grficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera
de ellas se observa que la relacin con la variable x
j
no es lineal y, probablemente,
un ajuste cuadrtico sea adecuado, tambin se tendran dudas acerca de la
homocedasticidad del modelo.
Figura 9.3. Grfico de residuos frente a variable regresora. Ajuste no lineal.
En la Figura 9.3 se observa que el modelo es heterocedstico y la causa de este
problema puede ser la variable explicativa x
j
. Por ello, la solucin se basa en
transformar el modelo teniendo en cuenta este hecho.

Figura 9.4. Grfico de residuos frente a variable regresora. Heterocedasticidad.
El grfico de residuos frente a una variable omitida, permite valorar
si esta variable influye en el modelo y por lo tanto se debe incluir como una
nueva variable regresora.
En la Figura 9.5. de residuos frente a una variable omitida se observa
que existe una relacin lineal con esta variable y por tanto se mejora el
ajuste si se incluye la variable x
omit
.
Figura 9.5. Grfico de residuos frente a variable omitida.
Un situacin frecuente se produce cuando se tienen observaciones de diferentes
poblaciones y se debe de incluir una variable de clasificacin en el
modelo de regresin.
sto se puede observar en el grfico de residuos frente a predicciones
como se puede ver en la Figura 9.6.
Figura 9.6. Necesidad de una variable de clasificacin.
El grfico de los residuos frente a la variable de clasificacin omitida se
presenta en la Figura 9.7.
Figura 9.7. Residuos frente a variable de clasificacin omitida.
El grfico parcial de residuos, es til para valorar la influencia real de
una variable regresora, esto es, conocer la informacin nueva que aporta
la variable regresora en estudio y que no aportan las otras variables regresoras.
Segn el paquete estadstico que se utilice los grficos parciales de residuos
se pueden construir de diferentes formas.
Tipo 1.
Si se tienen k variables regresoras y se desea obtener el g
rfico parcial de residuos respecto a la variable x
k
, se procede de la siguiente forma:
1. se calcula el modelo de regresin respecto a las restantes
variables regresoras,

2. Se calculan los residuos
que representan la parte de Y no explicada por las variables x
1
,x
2
,...,x
k-1
.
3. Por tanto, la grfica de los residuos parciales e
k
*
frente a la variable x
k

4. permite valorar la importancia real de esta variable.
Tipo 2.
Un grfico muy parecido y ms fcil de calcular se obtiene de la siguiente forma.
Calcular

k
*
= +
k k
= +
k k

= -
Se obtiene un nuevo grfico parcial representando los residuos parciales
k
*
frente a la variable x
k
.
Si la variable x
k
es ortogonal a las restantes variables explicativas
los estimadores
i
*
y
i
, i = 1,...,k - 1, sern muy prximos y, por tanto,
tambin lo son los vectores e
k
*
y
k
*
. Lo que hace que los dos grficos
de residuos parciales sean casi iguales en este caso.
Grficos parciales son representados en las Figuras 9.8 y 9.9. E
n ambos casos se observa que existe una relacin lineal entre las variables
regresoras y la variable de inters.
Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (altura)
Figura 9.9. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)
Tipo 3.
Otro grfico parcial de inters que proporcionan algunos paquetes estadsticos
es el siguiente (se quiere calcular el grfico parcial respecto a x
k
):
Se calculan los modelos de regresin de las variables Y y x
k
respecto a
las restantes variables regresoras,
Ahora se representa el grfico de residuos de e
k
*
frente a los residuos e
,k
.
Esto es, el grfico de los pares . Este grfico da una idea de la relacin
entre la variable Y y la variable x
k
una vez que se ha eliminado la influencia
de las otras variables regresoras.
Utilizando los datos del ejemplo 7.1. se obtienen los siguientes grficos parciales:
Figura 9.10. Grfico parcial respecto a altura.
Figura 9.11. Grfico parcial respecto a dimetro.

El grfico de residuos frente al ndice (tiempo = i), proporciona informacin
acerca de la hiptesis de independencia de los residuos. En este grfico se
pueden observar algunas caractersticas que indican falta de independencia,
tales como una correlacin positiva o negativa, la existencia de tendencias,
saltos estructurales, rachas,....,etc.
En este grfico tambin se puede observar si existe una relacin lineal con
el ndice y ste debe de incluirse en el modelo de regresin como variable explicativa.
Como ya se indic anteriormente al realizar estos grficos, una alta variabilidad
en los residuos (
2
grande) puede esconder una pauta de comportamiento de los
mismos y, en este caso, es conveniente filtrar o suavizar los residuos utilizando la
tcnica de medias mviles o medianas mviles u otro anlogo. Asi el filtro de
medianas mviles de orden tres a partir de los residuos originales
t = 1
n
genera
una nueva sucesin de residuos
t = 2
n - 1
ms suave.
para t = 2,...,n- 1. Si se considera que la sucesin resultante no est suficientemente
suavizada se puede repetir el procedimiento de suavizacin.
UNIDAD V
TEORA DEL MUESTREO
5.1 Introduccin
Uno de los propsitos de la estadstica inferencial es estimar las caractersticas
poblacionales desconocidas, examinando la informacin obtenida de una muestra, de
una poblacin. El punto de inters es la muestra, la cual debe ser representativa de la
poblacin objeto de estudio.
Se seguirn ciertos procedimientos de seleccin para asegurar de que las
muestras reflejen observaciones a la poblacin de la que proceden, ya que solo se
pueden hacer observaciones probabilsticas sobre una poblacin cuando se usan
muestras representativas de la misma.
El objetivo de la estadstica es, primordialmente, hacer inferencias o
generalizaciones con base en la informacin suministrada por una muestra, por lo tanto
la confiabilidad de dichas inferencias depende de la acertada seleccin de la muestra.
El muestreo es un mtodo cientfico que utiliza principios matemticos y
estadsticos para la adecuada seleccin de una muestra y manejo de la informacin
obtenida a partir de ella, para as tener estimaciones confiables. El muestreo consiste en
la seleccin de una parte de la poblacin, de tal manera que sta parte represente
adecuadamente la poblacin.
Errores en el Muestreo
Cuando se utilizan valores muestrales, o estadsticos para estimar valores
poblacionales, o parmetros, pueden ocurrir dos tipos generales de errores: el error
muestral y el error no muestral.
El error muestral se refiere a la variacin natural existente entre muestras
tomadas de la misma poblacin.
Cuando una muestra no es una copias exacta de la poblacin; an si se ha tenido
gran cuidado para asegurar que dos muestras del mismo tamao sean representativas
de una cierta poblacin, no esperaramos que las dos sean idnticas en todos sus
detalles. El error muestral es un concepto importante que ayudar a entender mejor la
naturaleza de la estadstica inferencial.
Los errores que surgen al tomar las muestras no pueden clasificarse como errores
muestrales y se denominan errores no muestrales.
El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se
refiere a una tendencia sistemtica inherente a un mtodo de muestreo que da
estimaciones de un parmetro que son, en promedio, menores (sesgo negativo), o
mayores (sesgo positivo) que el parmetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorizacin.
5.2 Muestreo aleatorio simple
La aleatorizacin se refiere a cualquier proceso de seleccin de una muestra de
la poblacin en el que la seleccin es imparcial o no est sesgada; una muestra elegida
con procedimientos aleatorios se llama muestra aleatoria.
Los tipos ms comunes de tcnicas de muestreo aleatorios son el muestreo
aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el
muestreo sistemtico.
Si una muestra aleatoria se elige de tal forma que todos los elementos de la
poblacin tengan la misma probabilidad de ser seleccionados, la llamamos muestra
aleatoria simple.
Ejemplo 1.1
Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un
grupo de estadstica de 20 alumnos.
20
C
5
da el nmero total de formas de elegir una
muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la
muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda,
luego los colocamos en un recipiente y despus los revolvemos, entonces podremos
tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco
nombres. Un procedimiento ms simple para elegir una muestra aleatoria sera escribir
cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un
recipiente, revolverlos y despus extraer cinco papeles al mismo tiempo.
Otro mtodo parea obtener una muestra aleatoria de 5 estudiantes en un grupo
de 20 utiliza una tabla de nmeros aleatorios. Se puede construir la tabla usando una
calculadora o una computadora. Tambin se puede prescindir de estas y hacer la tabla
escribiendo diez dgitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los
revolvemos, de ah, la primera tira seleccionada determina el primer nmero de la
tabla, se regresa al recipiente y despus de revolver otra vez se selecciona la seguida
tira que determina el segundo nmero de la tabla; el proceso contina hasta obtener
una tabla de dgitos aleatorios con tantos nmeros como se desee.
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco
prctico, imposible o no deseado; aunque sera deseable usar muestras aleatorias
simples para las encuestas nacionales de opinin sobre productos o sobre elecciones
presidenciales, sera muy costoso o tardado.
5.3 Estimacin del tamao de la Muestra
Cuando deseamos estimar el tamao de la muestra se debe tener en cuenta que
los objetivos de la encuesta suelen requerir varias estadsticas y que al considerar cada
una de ellas pueden llevar a un diseo diferente, por lo tanto, para determinar el
tamao de la muestra se debe elegir el principal objetivo y calcular el tamao de
muestra necesario para cumplir dicho objetivo. En caso de ser varios los objetivos
principales se determina un tamao de muestra para cumplir cada objetivo y entre
todos ellos, se elige el mayor.
El tamao de la muestra depende bsicamente del tamao de la poblacin, del
nivel de confianza o confiabilidad de las estimaciones, del grado de variacin o
dispersin de la variable a estudiar y del error de estimacin.
El nivel de confianza o confiabilidad lo fija arbitrariamente quien est calculando
el tamao de la muestra, teniendo en cuenta que dicha confiabilidad debe estar entre el
noventa y el noventa y nueve por ciento. A mayor confiabilidad mayor tamao de
muestra.
El grado de variacin o dispersin de la variable se mide a travs de la desviacin
estndar, la cual puede ser estimada a partir de una muestra piloto o a partir de la
informacin recopilada en una investigacin similar, realizada anteriormente.
El error de estimacin es la mxima diferencia en valor absoluto, que se est dispuesto
a aceptar, entre el valor del estimador y el valor del parmetro, a ste error de
estimacin se le nota como B. El valor del error de estimacin depende del estimador
que se desee obtener y de la magnitud de la variable. Por ejemplo si se va a estimar la
proporcin de desempleados, un error de estimacin lgico puede ser del 3 por ciento;
pero si se va a estimar el peso promedio de un grupo de estudiantes, un error de
estimacin lgico puede ser de 7 kilos. A mayor error de estimacin menor tamao de
muestra.
Dependiendo del tipo de estimador que se desee obtener, se debe utilizar una
frmula diferente para calcular el tamao de la muestra.

5.4 Muestreo estratificado
El muestreo estratificado requiere de separar a la poblacin segn grupos que
no se traslapen llamados estratos, y de elegir despus una muestra aleatoria simple en
cada estrato. La informacin de las muestras aleatorias simples de cada estrato
constituira entonces una muestra global.
Ejemplo 1.2
Suponga que nos interesa obtener una muestra de las opiniones de los profesores
de una gran universidad. Puede ser difcil obtener una muestra con todos los
profesores, as que supongamos que elegimos una muestra aleatoria de cada colegio, o
departamento acadmico; los estratos vendran a ser los colegios, o departamentos
acadmicos.
5.5 Muestreo por conglomerados
El muestreo por conglomerados requiere de elegir una muestra aleatoria
simple de unidades heterogneas entre s de la poblacin llamadas conglomerados.
Cada elemento de la poblacin pertenece exactamente a un conglomerado, y los
elementos dentro de cada conglomerado son usualmente heterogneos o dismiles.
Ejemplo 1.3
Suponga que una compaa de servicio de televisin por cable est pensando en
abrir una sucursal en una ciudad grande; la compaa planea realizar un estudio para
determinar el porcentaje de familias que utilizaran sus servicios, como no es prctico
preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la
cual forma un conglomerado.
En el muestreo por conglomerados, stos se forman para representar, tan
fielmente como sea posible, a toda la poblacin; entonces se usa una muestra aleatoria
simple de conglomerados para estudiarla. Los estudios de instituciones sociales como
iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el
muestreo por conglomerados.
El muestreo sistemtico es una tcnica de muestreo que requiere de una
seleccin aleatoria inicial de observaciones seguida de otra seleccin de observaciones
obtenida usando algn sistema o regla.
Ejemplo 1.4
Para obtener una muestra de suscriptores telefnicos en una ciudad grande,
puede obtenerse primero una muestra aleatoria de los nmeros de las pginas del
directorio telefnico; al elegir el vigsimo nombre de cada pgina obtendramos un
muestreo sistemtico, tambin podemos escoger un nombre de la primera pgina del
directorio y despus seleccionar cada nombre del lugar nmero cien a partir del ya
seleccionado. Por ejemplo, podramos seleccionar un nmero al azar entre los primeros
100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del
directorio que corresponden a los nmeros 40, 140, 240, 340 y as sucesivamente.
Error Muestral
Cualquier medida conlleva algn error. Si se usa la media para medir, estimar, la
media poblacional , entonces la media muestral, como medida, conlleva algn error.
Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamao 25 de
una poblacin con media = 15: si la media de la muestra es x=12, entonces a la
diferencia observada x- = -3 se le denomina el error muestral. Una media muestral
x puede pensarse como la suma de dos cantidades, la media poblacional y el error
muestral; si e denota el error muestral, entonces:

Ejemplo 1.5
Se toman muestras de tamao 2 de una poblacin consistente en tres valores, 2,
4 y 6, para simular una poblacin "grande" de manera que el muestreo pueda realizarse
un gran nmero de veces, supondremos que ste se hace con reemplazo, es decir, el
nmero elegido se reemplaza antes de seleccionar el siguiente, adems, se seleccionan
muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las
observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la
muestra ordenada (4,2). En la muestra (4,2), se seleccion primero 4 y despus 2. La
siguiente tabla contiene una lista de todas las muestras ordenadas de tamao 2 que es
posible seleccionar con reemplazo y tambin contiene las medioas muestrales y los
correspondientes errores muestrales. La media poblacional es igual a
= (2+4+6)/3 = 4. Ver la tabla en la siguiente pgina.
Notese las interesantes relaciones siguientes contenidas en la tabla:
La media de la coleccin de medias muestrales es 4, la media de la poblacin de la que
se extraen las muestras. Si x denota la media de todas las medias muestrales
entonces tenemos:
x = (3+4+3+4+5+5+2+4+6)/9 = 4
La suma de los errores muestrales es cero.
e
1
+ e
2
+ e
3
+ . . . + e
9
= (-2) + (-1) + 0 + (-1) + 0 + 1 + 0 + 1 + 2 = 0
Muestras ordenadas x Error muestral e = x -
(2,2) 2 2 4 = -2
(2,4) 3 3 4 = -1
(2,6) 4 4 4 = 0
(4,2) 3 3 4 = -1
(4,4) 4 4 4 = 0
(4,6) 5 5 4 = 1
(6,2) 4 4 4 = 0
(6,4) 5 5 4 = 1
(6,6) 6 6 4 = 2
En consecuencia, si x se usa para medir, estimar, la media poblacional , el promedio
de todos los errores muestrales es cero.

Anda mungkin juga menyukai