Anda di halaman 1dari 7

ESTADÍSTICA INFERENCIAL

Mat. Sotero Monroy Rivera

Estadística Inferencial
Pruebas de bondad de ajuste y pruebas no paramétricas

1 Prueba de bondad de ajuste

1.1: Características
1. Se considera como una prueba para determinar si una población tiene una distribución
teórica específica.
2. La prueba se basa en el nivel de ajuste que existe entre la frecuencia de ocurrencia de
las observaciones en una muestra observada y las frecuencias esperadas que se obtienen
a partir de la distribución hipotética.
3. Al comparar las frecuencias observadas con las frecuencias esperadas correspondientes
debemos decidir si es posible que tales discrepancias ocurran como resultado de fluc-
tuaciones del muestreo.
4. Es práctica común referirse a cada resultado posible de un experimento como una celda.

Theorem 1.1: Prueba de bondad de ajuste


Supóngase que en una determinada muestra se observan una serie de posibles sucesos
E1 , E2 , . . . , Ek , que ocurren con frecuencias f1 , f2 , . . . , fk , llamadas frecuencias observadas
y que, según las reglas de probabilidad, se espera que ocurran con frecuencias e1 , e2 , . . . , ek
llamadas frecuencias teóricas o esperadas. Entonces si fi ≥ 5 para toda i(i = 1, 2, . . . , k),
la variable aleatoria
k
(fi − ei )2
χ2 =
X

i=1 ei
tiene aproximadamente una distribución chi-cuadrado con ν = k − m − 1 grados de libertad,
donde m es el número de parámetros independientes sustituidos por estimadores de la muestra.

Problema 1. Se supone que una máquina mezcla cacahuates, avellanas, castañas y pacanas a razón
de 5:2:2:1. Se observa que una lata que contiene 500 de tales nueces mezcladas tiene 269 cacahuates,
112 avellanas, 74 castañas y 45 pacanas. A un nivel de significancia de significancia de 0.05 pruebe
la hipótesis de que la máquina mezcla las nueces a una razón de 5:2:2:1.

Problema 2. Las calificaciones de un curso de estadística para un semestre específico fueron las
siguientes:
Calificación A B C D F
f 14 18 32 20 16
Pruebe la hipótesis, a un nivel de significancia de 0.05, de que la distribución de calificaciones es
uniforme.

1
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

Problema 3. Se quiere decidir, con base en los datos (frecuencias observadas) de la siguiente tabla,
si el número de errores que un tipógrafo al elaborar una galera de texto es una variable aleatoria
que tiene una distribución de Poisson:
Número de errores Frecuencias observadas
f _i
0 18
1 53
2 103
3 107
4 82
5 46
6 18
7 10
8 2
9 1

Problema 4. Se lanza un dado 180 veces con los siguientes resultados:


x 1 2 3 4 5 6
f 28 36 36 30 27 23
¿Se trata de un dado balanceado? Utilice un nivel de signicancia 0.01.

Problema 5. Se seleccionan tres canicas de una urna que tiene 5 canicas rojas y 3 verdes. Después
de registrar el número X de canicas rojas, las canicas se reemplazan en la urna y el experimento se
repite 112 veces. Los resultados que se obtienen son los siguientes:
x 0 1 2 3
f 1 31 55 25
Pruebe la hipótesis, a un nivel de significancia de 0.05, de que los datos registrados se pueden
ajustar a la distribución hipergeométrica h(x; 8, 3, 5), x = 0, 1, 2, 3.

Problema 6. Se lanza una moneda hasta que sale una cara y se registra el número de lanzamientos
X. Después de repetir el experimento 256 veces, obtenemos los siguientes resultados:
x 1 2 3 4 5 6 7 8
f 136 60 34 12 9 1 3 1
A un nivel de significancia de 0.05, pruebe la hipótesis de que la distribución observada de X se
puede ajustar a la distribución geométrica g(x; 1/2), x = 1, 2, 3, ...

2
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

2 Prueba de Independencia (Tablas de Contingencia)

2.1: Características
1. Las "pruebas de independencia" implican dos variables categóricas y lo que se prueba
es la suposición de que las dos variables son estadísticamente independientes.
2. La independencia implica que el saber la categoría en la que se clasifica una observación
con respecto a una variable, no tiene ningún efecto sobre la probabilidad de caer también
en alguna de las diversas categorías de las otras variables.
3. Por ejemplo, podríamos clasificar una muestra de personas por género y por opinión
acerca de un problema político, para probar la hipótesis de que las opiniones sobre el
problema son independientes del género.

Definition 2.1: Tablas de contingencia


Cuando se registran dos variables categóricas, se puede resumir la información al contar el
número observado de unidades que caen en cada una de las diversas intersecciones de niveles
de categoría. Las cantidades resultantes se exhiben en un conjunto ordenado llamado tabla
de contingencia. Mediante la expresión r × c se definen las dimensiones de este tipo de
tablas, en donde r indica el número de poblaciones (renglones) y k el número de categorias
(columnas).

Theorem 2.1: Criterio de independencia


• Establecer las hipótesis
H0 : Los dos métodos de clasificación son independientes.
H1 : Los dos métodos de clasificación son dependientes.
• Calcular las frecuencias esperadas por celda con
ri cj ri cj
  
eij = n = ,
n n n
donde n es número total de observaciones, ri es el total de observaciones en el
renglón i, y cj es el total de observaciones en la columna j. Colocar las frecuencias
esperadas entre paréntesis y al lado de las frecuencias observadas.
• Determinar el nivel de significancía (α), y los grados de libertad, con la siguiente formula:

ν = (r − 1) × (c − 1).

• Calcular χ2α con ν grados de libertad y establecer la región de rechazo como χ2 ≥ χ2α .
• Calcular χ2 = Todas las celdas fije−e ij
P
ij
.

Problema 7. Determinar si las opiniones de los votantes residentes del estado de Illinois respecto

3
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

a una nueva reforma fiscal son independientes de sus niveles de ingreso. Los sujetos de una muestra
aleatoria de 1000 votantes registrados del estado de Illinois se clasifican de acuerdo con su posición
en las categorías de ingreso bajo, medio o alto, y si están a favor o no de la nueva reforma fiscal.
Las frecuencias observadas se presentan en la tablade contingencia.

Reforma fiscal Bajo Medio Alto Total


A favor 182 213 203 598
En contra 154 138 110 402
Total 336 351 313 1000

4
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

3 Prueba de homogeneidad

3.1: Características
1. En una "prueba de homogneidad" se quiere probar la hipótesis de que las proporciones
de población dentro de cada renglón son iguales.
2. Los totales de renglón o de columna están predeterminados.
3. Por ejemplo, podríamos clasificar una muestra de personas por género y por opinión
acerca de un problema político, para probar la hipótesis de que las opiniones sobre el
problema son independientes del género.

Theorem 3.1: Criterio de homogenidad


• Establecer las hipótesis
H0 : p1 = p2 = · · · = pk Las k proporciones son iguales.
H1 : por lo menos una proporción es diferente.
• Calcular las frecuencias esperadas por celda con
ri cj ri cj
  
eij = n = ,
n n n
donde n es número total de observaciones, ri es el total de observaciones en el
renglón i, y cj es el total de observaciones en la columna j. Colocar las frecuencias
esperadas entre paréntesis y al lado de las frecuencias observadas.
• Determinar el nivel de significancía (α), y los grados de libertad, con la siguiente formula:

ν = (r − 1) × (c − 1).

• Calcular χ2α con ν grados de libertad y establecer la región de rechazo como χ2 ≥ χ2α .
• Calcular χ2 = Todas las celdas fije−e ij
P
ij
.

Problema 8. Una encuesta de las opiniones de los votantes se realizó en cuatro distritos políticos
urbanos para comparar la fracción de votantes que están a favor del candidato A. Muestras aleato-
rias de 200 votantes fueron entrevistados en cada uno de los cuatro distritos, con los resultados que
se muestran en la Tabla. ¿Los datos presentan suficiente evidencia para indicar que las fracciones
de votantes a favor del candidato A difieren en los cuatro distritos?
Opinión 1 2 3 4 Total
A favor 76 53 59 48 236
En contra 124 147 141 152 564
Total 200 200 200 200 1000

5
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

4 Pruebas no paramétricas

4.1 Escala de medición

4.2 Métodos estadísticos contra no paramétricos

4.3 Prueba de Kolmogorov – Smirnov

4.1: Prueba de Kolmogorov-Smimov o prueba K-S


1. Es un método no paramétrico sencillos para probar si existe una diferencia significativa
entre una distribución de frecuencias observada y una distribución de frecuencias teórica.
Así, es otra medida de la bondad de ajuste como lo es la prueba ji-cuadrada.
2. Ventajas sobre la prueba χ2 :
(a) No arbitrariedad en la elección de intervalos.
(b) Es valida para cualquier tamaño muestral.
(c) Es una prueba más poderosa, y es más fácil de usar, puesto que no requiere que
los datos se agrupen de alguna manera.
3. Desventajas:
(a) No tal general.
(b) Difícil de implementar en los casos discretos.
4. Esta prueba se basa en la comparación de entre la función de distribución acumu-
lada de una distribución teórica Ft (X) con la distribución acumulada de la
muestra Fm (X).

6
ESTADÍSTICA INFERENCIAL
Mat. Sotero Monroy Rivera

4.2: Pasos a seguir en la prueba de Kolmogorov-Smirnov


(
H0 : Fm = Ft , para todo X;
1. Plantear las hipótesis:
H1 : Fm 6= Ft , por lo menos para un X;
2. Calcular todos los valores Fm (X) de la muestra X1 , X2 , . . . , Xn .
3. Determinar la desviación máxima, la cual está dada por el supremo de los valores
absolutos de las diferencias entre los valores de la función acumulada teórica y de la
muestra:
Dn = sup Fm (X) − Ft (X).

4. Escoger el nivel de significancia α (5%, 1% o semejante).


5. Establecer el criterio de aceptación: No se rechaza H0 si el valor calculado Dn es menor
o igual que el valor de la Tabla ?? y se rechaza H0 si el valor calculado Dn es mayor
que el de la tabla ??.

Problema 9. Los siguientes datos son las determinaciones de glucosa en la sangre de mg/100ml
de 36 hombres adultos no obesos y aparentemente sanos. Deseamos probar si estos datos provienen
de una distribución Normal con media 80 y desviación estándar 6.
75 92 80 80 84 72
84 77 81 77 75 81
80 92 72 77 78 76
77 86 77 92 80 78
68 78 92 68 80 81
87 76 80 87 77 86

Anda mungkin juga menyukai