LIMA, 2018
1
INTRODUCCION
2
Los métodos de contraste de hipótesis tienen como objetivo comprobar si
determinado supuesto referido a un parámetro poblacional, o a parámetros
análogos de dos o más poblaciones, es compatible con la evidencia empírica
contenida en la muestra. Los supuestos que se establecen respecto a los
parámetros se llaman hipótesis paramétricas. Para cualquier hipótesis
paramétrica, el contraste se basa en establecer un criterio de decisión, que
depende en cada caso de la naturaleza de la población, de la distribución de
probabilidad del estimador de dicho parámetro y del control que se desea fijar a
priori sobre la probabilidad de rechazar la hipótesis contrastada en el caso de
ser ésta cierta.
En todo contraste intervienen dos hipótesis. La hipótesis nula (Ho) es aquella
que recoge el supuesto de que el parámetro toma un valor determinado y es la
que soporta la carga de la prueba. La decisión de rechazar la hipótesis nula,
que en principio se considera cierta, está en función de que sea o no
compatible con la evidencia empírica contenida en la muestra. El contraste
clásico permite controlar a priori la probabilidad de cometer el error de rechazar
la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de
significación del contraste ( ) y suele fijarse en el 1%, 5% o 10%.
La proposición contraria a la hipótesis nula recibe el nombre de hipótesis
alternativa (H1) y suele presentar un cierto grado de indefinición: si la hipótesis
alternativa se formula simplemente como 'la hipótesis nula no es cierta', el
contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido
de la diferencia, el contraste es unilateral o a una sola cola.
Cuando se realiza un contraste con el SPSS no se fija el nivel de significación
deseado, el programa calcula el valor-p o significación asintótica, que es la
probabilidad de que el estadístico de prueba tome un valor igual o superior al
muestral bajo el supuesto de que la hipótesis nula es cierta. Por tanto, si el
valor-p es menor o igual que el nivel de significación deseado se rechazará Ho.
Un valor-p próximo a cero indica que se rechazará la Ho para cualquier nivel de
significación.
3
Cada acción de un proceso estadístico está asociado a un Nivel de confianza
(probabilidad de haber acertado al decir que el parámetro está contenido en el
intervalo), y a un Nivel de significancia (probabilidad de equivocarnos: es un
error).
INFERENCIA
ESTIMACIONES ERRORES
HIPOTESIS
PUNTUALES POR INTERVALOS
DE CONFIANZA
PARA LA PARA LA
MEDIA PROPORCION
4
INDICE
1. Introducción
2. Definiciones
3. Estimaciones
4. Pruebas De Hipótesis
4.1. Hipótesis
5. Errores
5
3. ESTIMACION
ESTIMACION:
ESTIMADOR:
Propiedades
a. Insesgado:
si : E ˆ
de lo contrario se dice que es sesgado, un estimador Insesgado es aquel cuya
media o valor esperado de la distribución de las de las estimaciones es igual al
parámetro estimado.
Es decir:
Al aumentar el tamaño de la muestra, su media tiende a coincidir con el
parámetro θ, y por lo tanto, su sesgo tiende a cero.
lim E ˆ
Esto es:
n
6
Ahora, en lugar de utilizar el sesgo y la varianza para describir la bondad de un
E ˆ
b. Consistente
Se utiliza cuando no es posible utilizar estimador de mínima varianza, ya que a
medida que crece el tamaño de la muestra las estimaciones que nos
proporciona el estimador se aproximan cada vez más al valor del parámetro θ .
Si el estimador es Insesgado o asintóticamente Insesgado (carece de sesgo),
para que sea consistente es suficiente que, cuando el tamaño de la muestra
tiende a infinito (es decir, se hace muy grande), la varianza del estimador se
aproxime a cero. Esto es,
lim Var 0
n
c. Eficiente
La eficiencia de un estimador está vinculada a su varianza muestral. Así, para
Si un estadístico es más eficiente que otro, significa que varía menos de unas
muestras a otras. La media es un estimador del parámetro µ es más eficiente
que la mediana. Del mismo modo, la varianza Sn-12 es un estimador de σ2 más
eficiente que Sn2. (demostración para el alumno)
7
Conclusión:
d. Suficiencia:
x
i 1
i
X
n
Para el cálculo se tienen en cuenta todas las puntuaciones Xi. también ocurre
con los estimadores Sn-12 y Sn2 de la varianza. Todos ellos pueden ser
considerados estimadores suficientes de los respectivos parámetros.
ESTIMACION
8
4.2. Estimación Puntual
Media
X SI x
Varianza
S 2 s2 SI s
2
2
Desviación típica
S s NO s
Proporción p̂ SI p̂
P
9
4.3. ESTIMACIÓN: POR INTERVALOS DE CONFIANZA
Es decir, estimar por intervalos es obtener dos valores estadísticos que definen
el intervalo (un límite inferior y un límite superior) con un grado específico de
confianza incluye al parámetro a estimar. La probabilidad de que una
estimación por intervalo incluya al parámetro se denomina nivel de confianza.
confianza: Y significancia:
0.99. 0.01 1.00
0.975 0.025 1.00
0.95 0.05 1.00
0.90 0.10 1.00
0.80 0.20 1.00
10
c.Determinar el estadístico de la distribución muestral
d. Construir el intervalo
e. Interpretación
11
4.4.1. Intervalos de confianza para la media con varianza
conocida
Ejemplo:
Solución
f. Muestra: n = 25 alumnos
g. Nivel de confianza : 90%
h. Estadístico de la muestra: es Z, se conoce la varianza.
i. Calculo de los valores del intervalo (puntos críticos)
IC ( ) : X Z
1 n
2
12
4.4.2.Intervalos de confianza para la media con varianza
desconocida
a. Para n > 30
13
b. Para n < 30
1. Muestra: n = 15 alumnos
2. Nivel de confianza : 90%
3. Estadístico de la muestra: es t, no se conoce la varianza
4. La media y la varianza se han obtenido de la muestra (media = 5 y la
varianza = 2, desviación estándar =1.464.)
5. Calculo de los valores del intervalo (puntos críticos
s
IC ( ) : X t 2 *
n 1,1 n
1.464
IC ( ) : 5 1.761* 5 0.666 (4.334, 5.666)
15
14
ERRORES DE ESTIMACION DE LA MEDIA
S
EZ * Et *
1 n 1 n
2 2
p * (1 p)
IC ( ) : p Z
PZ
1
p * (1 p)
n
PZ
1
p * (1 p)
n
1 n 2 2
2
Ejemplo
P * (1 P
IC ( ) : p Z
1 n
2
0.333* (1 0.333
IC ( ) : 0.333 1.28 (0.28, 0.38)
150
15
6. Interpretación : el intervalo de confianza para los trabajadores que
no alcanzan el límite de las ventas es (0.28, 0.38)
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor
que el parámetro de la población bajo estudio puede tomar. Esta afirmación
puede estar basada en alguna creencia o experiencia pasada que será
contrastada con la evidencia que nosotros obtengamos a través de la
información contenida en la muestra. Esto es a lo que llamamos Prueba de
Hipótesis
HIPOTESIS:
Hipótesis de Investigación
Hipótesis Estadística
Se establecen para ser evaluadas por medio de técnicas estadísticas
adecuadas. Estas son las hipótesis objeto de estudio.
TIPOS DE HIPOTESIS
A. Hipótesis Nula: Ho
16
H 0 : 0 , H 0 : 0 , H 0 : 0
B. Hipótesis Alternativa: H1
H1 : 0 , H 0 : 0 , H 0 : 0
PRUEBA DE HIPÓTESIS
Es una regla que cuando los valores experimentales son observados nos
conduce a una decisión, No rechazar “Aceptar”, Rechaza, bajo consideración
región de región de
región región aceptación rechazo
de de
1
1
17
HIPOTESIS BILATERAL O DE DOS COLAS
región de aceptación
región de
región de rechazo
rechazo
1
/2 /2
1 2
Hipótesis Nula: H 0 : 0
Hipótesis Alternativa: H1 : 0
H 0 : 0 , H 0 : 0 , H 0 : 0
H1 : 0 , H 0 : 0 , H 0 : 0
2. Definir un nivel de confianza
Nota:
18
de cada punto podemos ubicar a la región de rechazo, solo para este caso se
contara con dos regiones de rechazo.
6. Decisión
7. Conclusión
19
Una caja de 300cm3de leche evaporada se diseña para que contenga una
cantidad ligeramente mayor que 300cm3, de tal manera que si excede este
volumen hay problemas. Sin embargo, un volumen menor a 300cm3ocasiona
que los consumidores demanden al fabricante. En el proceso normal de
producción, el fabricante supone que la media es igual o mayor
a300cm3Suponiendoquese prueba una muestra de 45 cajas y se encuentra un
volumen promedio de 290cm3.Sepuedeafirmarqueel fabricante está en lo
correcto, si se sabe que la desviación estándar de las cajas de leche de 6 cm3,
con un nivel de significancia de 0.01
Solución
1. Formular la hipótesis
Ho : 300 cm 3
H 1 : 300 cm 3
2. Nivel de Significancia
0.01
3. Estadística de Prueba
Como n > 30 y la varianza es conocida, la estadística de prueba de la
variable aleatoria es la distribución normal estándar N (0,1)
4. Región Critica
5. Decisión
Si Z calc Z tabl Ho se acepta
5.833 2.326 Ho no se acepta
6. Conclusión
20
.Se puede afirmar que el fabricante no está en lo correcto, el contenido de
las cajas no es 300cm3 , con un nivel de significancia de 0.01
Una empresa que regula el consumo eléctrico de cierta localidad, publica los
resultados del consumo anual en número de Kilowatt-hora que gastan varios
aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio
de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora.
¿Se puede concluir que las aspiradoras gastan anualmente, en promedio,
menos de 46 kilowatt-hora con un nivel de significancia de 0.05? Suponga que
la población de kilowatt-hora es normal.
Solución:
2. Nivel de Significancia
0.05
3. Estadística de Prueba
X 42 46 4
t Z 1.164
S/ n 11.9 / 12 11.9 / 3.464
4. Región Critica
21
5. Decisión
Si t calc ttabl Ho se acepta
1.164 1.796 Ho se acepta
6. Conclusión
Se concluye que las aspiradoras gastan anualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
Un ingeniero civil afirma que se instalan termas eléctricas en 70% de todas las
casas que se construyen hoy actualmente en la ciudad. ¿Estaría de acuerdo
con esta afirmación si una investigación de casas nuevas en esta ciudad
muestra que 8 de 15 tienen instaladas termas eléctricas? Con un nivel de
significancia de 0.10.
Solución.
1. Formular la hipótesis
Ho : P 0.70
H 1 : P 0.70
2. Nivel de Significancia
0.10
3. Estadística de Prueba
22
pP 0.533 0.70 0.167
t Z 1.415
P (1 P) 0.70 (0.30) 0.118
n 15
4. Región Critica
5. Decisión
Si t calc ttabl Ho se acepta
1.164 1.796 Ho se acepta
6. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
región de región de
aceptación rechazo
región región
de de
1
1
23
Hipótesis Nula: Hipótesis Nula:
H o : 1 2 0 H o : 1 2 0
Hipótesis Alternativa:
Hipótesis Alternativa: H1 : 1 2 0
H 1 : 1 2 0
Región de aceptación
Región de
Región de Rechazo
rechazo
1
/2 /2
1 2
Hipótesis Nula:
Hipótesis Alternativa:
Procedimiento:
Es el mismo procedimiento que en primer caso: solo se tiene en cuenta al
formular las hipótesis, que en este caso es para la diferencia de dos promedios,
como se muestra en la tabla anterior.
SOLUCION:
24
1. Formular la hipótesis
Ho : 1 2 0
H 1 : 1 2 0
2. Nivel de Significancia
0.05 ,
2 2
3. Estadística de Prueba
( X 1 X 2 ) ( 1 1 ) (4.5 3.4 ) 0
Z calc Z calc 2.57
12 22 1 1.5
n1 n2 121 15 2
4. Región Critica
5. Decisión
Si Z tabl Z calc Z tabl Ho se acepta
(1.96) 2.57 no es (1.96) Ho no se acepta
6. Conclusión
Se concluye que los datos recogidos, no muestran evidencia suficiente para
explicar diferencia entre las concentraciones medias de ácido úrico en el suero
de individuos normales e individuos con síndrome de Down, con un nivel de
significancia de 0.05
25
Un grupo de especialistas de la salud, tiene como objetivo examinar las
características de la destrucción pulmonar, en personas que fuman cigarrillos
antes de desarrollar un marcado Enfisema pulmonar. En personas longevas se
practicaron mediciones de tres índices de destrucción pulmonar, en personas
que no fumaban, y en personas con tabaquismo que mueren repentinamente
fuera de un nosocomio y por causas no respiratorias. Según el estudio una
calificación alta indica un mayor daño pulmonar. Se obtuvieron muestras con
las calificaciones producidas, para uno de los índices de destrucción pulmonar
de una muestra de 9 personas que no fuman y 16 fumadores. Los especialistas
pretenden saber si es posible concluir, en base a los datos, que las personas
que si fuman, en general, tienen los pulmones más dañados que las personas
no fumadoras, como se indica en la siguiente tabla. No se conoce las varianza
de las muestras, pero se supone son iguales)
Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6
SOLUCION:
1. Formular la hipótesis
Ho : NF F 0
H 1 : NF F 0
2. Nivel de Significancia
0.05
3. Estadística de Prueba
15(4.4711) 2 8(4.8492) 2
S p2 21.2165
15 8
(17.51 12.4 ) 0
t calc t calc 2.6573
21.2165 21.2165
16 9
4. Región Critica
26
5. Decisión
tcalc ttabl Ho se acepta
2.6573 no es (1.71) Ho no se acepta
6. Conclusión
B. CUANDO LAS VARIANZAS 12 22 NO SON IGUALES
¿Los datos aportan evidencia suficiente para concluir que la cantidad promedio
de impurezas del proceso es menor para la línea 2?. Con un nivel de
significancia igual a 0.05
Solución:
7. Formular la hipótesis
Ho : 1 2
H1 : 1 2
8. Nivel de Significancia
0.05
27
9. Estadística de Prueba
( X 1 X 2 ) ( 1 1 ) (3.21 3.0 ) 0
t calc t calc 0.6426
S12 S 22 1.04 0.51
n1 n2 16 16
11. Decisión
Si tcalc ttabl Ho se acepta
1.164 1.7 Ho se acepta
12. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
28
sodio. De 149 pacientes sin hipertensión, 36 tenían una dieta sin sodio. ¿Es
posible concluir que las poblaciones muestreadas, la proporción de pacientes
con dieta restringida en sodio es mayor entre pacientes con hipertensión que
entre pacientes sin hipertensión?
Solución.
1. Formular la hipótesis
Ho : P 0
H1 : P 0
2. Nivel de Significancia
0 .0 .5
3. Estadística de Prueba
( p 1 p2 ) ( P1 P2 ) X1 X 2
Z P
1 1 n1 n2
Pˆ (1 Pˆ )
n1 n2
(0.43641 0.2416)
Z 2.71
0.2941(0.7059) 0.2941(0.7059)
55 149
4. Región Critica
1
5. Decisión
29
Si Z calc Z tabl Ho se acepta
2.71 1.64 Ho se acepta
6. Conclusión
4.7. ERRORES
Ho verdadera Ho falsa
30