El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantas
quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporción de los valores que tienen una característica particular.
En donde
Ahora se determinará si el proceso funciona correctamente para las llantas producidas para
el turno de día. Los resultados del turno de día indican que cinco llantas en una muestra de
100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de
significancia de .05, las regiones de rechazo y no rechazo se establecerían como a
continuación se muestra:
= .05
Y entonces,
= −1.107
Ho: p = p0
H1: p ¹ p0
La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras
1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
3
una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.
Está de más que te diga que este estadígrafo se distribuye normal estándar.
H1: p1 ¹ p2
Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas
consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al
hacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tanta
diferencia se requiere para que sea estadísticamente significativo? De eso se pruebas
estadísticas de diferencias de proporciones.
Ho: Lo que pagan las mujeres en el fondo de pensión es igual o mayor a lo que pagan los
hombres (algunos autores solo le colocan igual).
Ha: _______________________________________
La hipótesis alternativa es lo que las mujeres del grupo activista desean demostrar.
Paso 2.
Determinar el nivel de significancia. Definida por el analista, en este casi se desea usar α =
0.01
Paso 3.
Paso 4
6
92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó la
infección.
La notación que usamos para el análisis de dos proporciones es el mismo que para una
proporción. Los números inferiores son para distinguir los dos grupos.
1 2 1 2
Proporción π1 π2 p1 p2
n1 n2
El error estándar de la diferencia entre dos proporciones es dado por la raíz cuadrada de la
varianza.
Estimado ±1.96 x ES
P=r1+r2/n1+n2
Donde:
Hipótesis nula:
Ho: π1 = π2
Ho: π1 - π2 = 0
Hipótesis alternativa:
9
H1: π1 ≠ π2
H1: π1 – π2 ≠ 0
ES = 0.019
(p1-p2) – 0 0.31 - 0
ES(p1-p2) 0.019
P<0.05
Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos la
hipótesis alternativa de que son diferentes.
Ho: p = p0
H1: p ¹ p0
En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se distribuye
normal estándar.
La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:
Ho: p1 = p2 Þ p1 - p2 = 0
10
H1: p1 ¹ p2
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras
1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.
Está de más que te diga que este estadígrafo se distribuye normal estándar.
H1: p1 ¹ p2
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos
estimar, por lo que se utilizarán las proporciones de la muestra como estimadores
puntuales:
Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo,
respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla
encontramos que z para un nivel de confianza del 90% es de 1.645.
-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.
Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:
Usuaria No Usuaria
Número de
42 294
disfunciones
Solución:
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera
precisa.
Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe
ser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con
conceptos que ya se han visto a través de este material.
De una muestra de 159 niños del grupo 1 78 califican con más de 100 puntos, de una
muestra de 250 niños del grupo 2 123 califican con más de 100 puntos.
Construya un intervalo de confianza par a la diferencia entre las dos proporciones del grupo
1 y 2 de los niños con califican con más de 100.
13
nH 45 nM 71
PH .58 PM .42
1 1
s phm P(1 P)
H
n nM
donde:
n H PH nM PM
P
nH nM
14
Por lo tanto:
45(.58) 71(.42)
P 0.48
45 71
y
1 1
s phm .48(1 .48) 0.10
45 71
La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor crítico
Z. La administración no puede concluir con un 95 por ciento de confianza que la proporción
de hombres que visita 9 o más veces los Oxxo es mayor que la proporción de mujeres.
Para cualquier tamaño de muestra dado n, tomado de una población con media , los valores
de la media muestralvarían de una muestra a otra. Esta variabilidad sirve de base para la
distribución muestral. La distribución muestral de la media se describe determinando el
valor esperado E () o media, de la distribución y la desviación estándar de la distribución de
15
las medias, . Como esta desviación estándar indica la precisión de la media muestral como
estimador puntual, por lo general se le denomina error estándar de la media.
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa
para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas
tipo B fabricadas por la Everlast Company, encuentre el máximo error de estimación tal
que se pueda tener un 95% de confianza en que P dista menos de de p.
Solución:
p=x/n = 20/400=0.05
z(0.95)=1.96
Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos
de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error máximo de
estimación será aproximadamente 0.021 con un nivel de confianza del 95%
16
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar
el tamaño de la muestra.
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relación con otro.
X2 = Σ (Oi – ei)2
i ei
Grados de libertad
V = (r-1)*(c-1)
Gran total
Características
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntándosele si prefería recibir cursos en el área de matemáticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidencia suficiente
para rechazar la hipótesis nula “la preferencia por las matemáticas, ciencias sociales o
humanidades es independiente del sexo de un alumno”, al nivel de significancia del 0.05?
Solución:
Paso 1
Ha: La preferencia por las áreas es no independiente del sexo de los estudiantes.
Pasó 2
Para determinar el valor crítico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este número es exactamente el número de
celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales. Estos
últimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras celdas
de la primera fila (véase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
18
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no serán
correctos. En consecuencia, para este problema existen dos selecciones libres. Cada una
de estas corresponde a un grado de libertad. Así, el número de grados de libertada en este
ejemplo es 2 (v=2). Por esta razón, si se utiliza =0.05, el valor critico es X2 (2, 0.05) = 6.
Véase la siguiente figura.
Pasó 3
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hipótesis nula, la cual asevera
que estos factores son independientes. En consecuencia, se espera que los valores estén
distribuidos en proporción a los totales marginales. Hay 122 hombres; se espera que estén
distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y 115. Así, para los
hombres las cuentas esperadas de celda son:
Similarmente, se esperan:
Para las mujeres. Entonces los valores esperados son como se indica en la tabla siguiente
(siempre verifíquense los totales nuevos contra los antiguos.)
19
M CS H Total
Nota
El cálculo de los valores esperados puede verse de manera alternativa. Recuérdese que la
hipótesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo hecho
este supuesto en el ejemplo, de hecho sé está afirmando que son independientes los
eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante elegido al
azar prefiere cursos de matemáticas. El estimador puntual para la probabilidad de que un
estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante prefiera los
cursos de matemática es 72/300. En consecuencia, la probabilidad de que ocurran ambos
eventos es el producto de las probabilidades.
Deportista 38 9 47
No deportista 31 22 53
69 31 100
Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de
identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra y
preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por ejemplo
una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que
prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura [celda (2,3)]
y así sucesivamente. Como en la lista aparecen todas las combinaciones posibles de
predilección de cerveza y género, en otras palabras aparecen todas las contingencias
posibles, a la tabla se le llama tabla de contingencia.
CervezaCerveza preferida
preferida
Ligera Ligera
Clara ClaraTotal
Oscura Oscura
GéneroGénero
HombreHombre
26.67 Celda
37.33(1,1) Celda80(1,2) Celda (1,3)
16.00
Mujer Mujer
23.33 Celda
32.67(2,1) Celda70(2,2) Celda (2,3)
14.00
Género Hombre 20 40 20 80
Si podemos determinar las
Mujer 30 30 10 70frecuencias esperadas bajo la
hipótesis de independencia entre la
Total 50 70 30 150 preferencia de cerveza y el género
del consumidor, podemos usar la
distribución ji cuadrada para determinar si existe una diferencia significativa entre la
frecuencia observada y la esperada.
21
e
Sea ij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de
contingencia. Con esta notación reconsideremos el cálculo de la frecuencia esperada para
los hombres (renglón i = 1) que prefieren la cerveza clara (columna j = 2) esto es, la
e
frecuencia esperada 1, 2 . Apegándonos al esquema anterior para el cálculo de las
frecuencias esperadas, podemos demostrar que
e1, 2
= (7/15) 80 = 37.33
e1, 2
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad total
de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y
150 es el tamaño de la muestra total. En consecuencia vemos
2
k f oi f ei
2
i 1 f ei
K = Categorías o celdas.
porque rechazaremos la hipótesis nula sólo si las diferencias entre frecuencias observadas
y esperadas producen un valor grande de . En el ejemplo =6.13 es mayor que =
2 2 2
Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que
mantengan ni el grado de esta.
La condición de independencia, tal como fue definida en la página anterior era: X e Y son
independientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que X
tome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidades
de que cada una tome el valor correspondiente.
Hombre Oscura 20 16 4 16 1
2 6.12710104
Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de
ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta (f(x,y))
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,
en cada caso, el número de veces que hemos obtenido un valor de X (xi) en cualquier
combinación con distintos valores de Y, es decir, son nuestra estima de la función de
probabilidad de X multiplicada por el número total de observaciones; análogamente, las
sumas de columnas (Cj) son nuestra estima de la función de probabilidad de Y multiplicada
por el número total de observaciones.
Naturalmente, nadie espera que esta condición se cumpla exactamente debido al efecto de
los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre
las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las
frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede calcular
un parámetro que depende de ambas que tiene distribución chi-cuadrado,
Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas serán mayores que las atribuibles al efecto del azar y,
al estar elevadas al cuadrado en el numerador de la expresión anterior, ésta tenderá a ser
mayor que lo que suele ser el valor de una variable chi-cuadrado.
Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la región crítica
se encontrar siempre en la cola derecha de la distribución chi-cuadrado. Nuevamente, esta
prueba será siempre de una sola cola.
Estadístico de contraste
Tal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dos
variables son independientes, es decir, que, habitualmente, nos veremos obligados a
colocar nuestra hipótesis en la hipótesis nula. El número de grados de libertad de la chi-
cuadrado que sirve de contraste se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj tengamos
(I J)
A este número tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las
sumas de filas obtenemos el número total de observaciones sin perder ningún grado de
libertad.
26
Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo de distribución
de ninguna de las variables implicadas y utiliza únicamente información de la muestra, es
decir, información contingente. Esta es la razón por la que, habitualmente, se le llama chi-
cuadrado de contingencia.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a
una determinada distribución, esta distribución puede estar completamente especificada
(hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta).
Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en
estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y
la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están
basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución
muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o
criterios:
5.7 APLICACIONES.
La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una
población.
Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.
En una encuesta determinada se podría preguntar a unas personas si votarían por los
candidatos A, B o C, por lo general, los resultados se indican en una gráfica que informa
acerca del número de votantes para cada categoría posible.
28