Anda di halaman 1dari 37

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA PESQUERA Y ALIMENTOS


Escuela profesional de Ingeniería de Alimentos

ESTADISTICA PARA LA INVESTIGACION


PRUEBAS PARAMETRICAS
PROFESOR
Abiu David Camposano Anticona
INTEGRANTES CÓDIGO
De los Santos Ramírez Zaira 1514110102
Luna Escobar Keren Margarita 1514120238
Sandoval Barrientos Ruth Evelyn 1414120089

2019-V
Índice
I. INTRODUCCIÓN ............................................................................................................................ 3

II. OBJETIVO ..................................................................................................................................... 4

III. MARCO TEÓRICO .......................................................................................................................... 5

IV. PROBLEMAS APLICATIVOS............................................................................................................ 6

V. CONCLUSIONES ............................................................................................................................ 7

IX. REFERENCIAS BIBLIOGRAFÍAS ....................................................................................................... 8


I. INTRODUCCIÓN

Las pruebas paramétricas son una herramienta estadística que se utiliza para el análisis de
los factores de la población. Esta muestra debe cumplir ciertos requisitos como el tamaño, ya
que mientras más grande sea, más exacto será el cálculo.

Este método requiere que se especifique la forma de distribución de la población materna


estudiada. Puede tratarse, por ejemplo, de una distribución normal, como ocurre en general
cuando se trata de muestras de gran tamaño. En general, estas pruebas sólo pueden
aplicarse a variables numéricas.

Las pruebas paramétricas están basadas en la ley de distribución de la variable que se


estudia. A pesar de que existen muchos tipos de leyes de distribución, éstas se basan en las
normales, que tiene dos parámetros: la media y la desviación estándar. Lo suficiente para
conocer la probabilidad.
II. OBJETIVOS

 Tener conocimiento de todo lo que abarcan las pruebas paramétricas.


 Adquirir conocimiento de los diferentes tipos de pruebas paramétricas.
 Tener conocimiento de las ventajas y desventajas.
 Comprender los pasos a seguir en la resolución de problemas.
III. MARCO TEÓRICO
La estadística inferencial paramétrica hace suposiciones específicas acerca de la
población o poblaciones que se muestrean. De allí la importancia del Teorema del Límite
Central para esta clase de inferencias (el supuesto de normalidad es parte fundamental
de las pruebas paramétricas). Los métodos descritos con anterioridad (estimación
puntual, estimación de intervalo y pruebas de hipótesis) en su forma paramétrica se
derivan principalmente de trabajos realizados por Neyman y Pearson como proyecto
conjunto. De hecho, su trabajo se dirigió al problema principal de las pruebas de
hipótesis: Construir una teoría matemática de pruebas que se utilicen para reducir la
frecuencia de conclusiones erróneas respecto a las hipótesis consideradas. Como
resultado se definieron una serie de estadísticos de prueba que, siendo fijo el Error Tipo
I, dejan libre la probabilidad de Error Tipo II. De allí que la teoría de Neyman y Pearson
haya dejado a un lado la dependencia entre probabilidades de Errores Tipo I y Tipo II
para centrarse en restringir el tamaño de la región crítica.

¿QUÉ ES UNA PRUEBA PARAMÉTRICA?

Pruebas de hipótesis estadísticas que asumen cierto comportamiento de:

 Muestras obtenidas aleatoriamente


 Distribución normal de observaciones
 Existe un parámetro de interés que buscamos estimar

¿PARA QUÉ USAR UNA PRUEBA PARAMÉTRICA?

Las pruebas estadísticas paramétricas son aquellas que se utilizan para analizar
datos numéricos (escalas de intervalos o razones).
Busca estimar los parámetros de una población en base a una muestra.

¿CUÁNDO SE UTILIZA UNA PRUEBA PARAMÉTRICA?

Cuando se conoce el modelo de distribución de la población objeto de estudio y


se desconoce un número finito de parámetros de dicha distribución que hay que
estimar con los datos de la muestra. Cuando se requieren conocer la distribución
de la muestra para poder realizar inferencias sobre la población.

¿CÓMO SE UTILIZA UNA PRUEBA PARAMÉTRICA?

 Las variables consideradas son cuantitativas continuas, medidas por lo


menos en una escala de intervalos.
 Las muestras consideradas proceden de poblaciones en las que las
variables se distribuyen según la ley normal.
 Se da homoscedasticidad (homogeneidad de varianzas) entre las distintas
distribuciones comparadas, es decir, las muestras proceden de
poblaciones con varianzas similares.
 Las muestras consideradas tienen un tamaño grande. Consideraremos
grande, una muestra de tamaño superior a 30 individuos (n>30).
 La significación de los resultados que obtengamos dependerá del
cumplimiento efectivo de tales condiciones. Este tipo de pruebas de
contraste reciben la denominación de pruebas paramétricas.
CONDICIONES QUE DEBEN CUMPLIR LAS PRUEBAS PARAMÉTRICAS

Una prueba paramétrica debe cumplir con los siguientes elementos:

 Normalidad: El análisis y observaciones que se obtienen de las muestras deben


considerarse normales. Para esto se deben realizar pruebas de bondad de
ajuste donde se describe que tan adaptadas se encuentran las observaciones y
cómo discrepan de los valores esperados.
 Homocedasticidad: Los grupos deben presentar variables uniformes, es decir,
que sean homogéneas.
 Errores: Los errores que se presenten deben de ser independientes. Esto solo
sucede cuando los sujetos son asignados de forma aleatoria y se distribuyen de
forma normal dentro del grupo.

VENTAJAS Y DESVENTAJAS DE LAS PRUEBAS PARAMÉTRICAS

Algunas de las ventajas de las pruebas paramétricas son:

 Son más eficientes.


 Son perceptibles a las características de la información obtenida.
 Los errores son muy poco probables.
 Los cálculos probabilísticos son muy exactos

Las desventajas de las pruebas paramétricas son:

 Los cálculos son difíciles de realizar


 Los datos que se pueden observar son limitados

Las pruebas paramétricas son una herramienta útil para múltiples situaciones, cálculo e
interpretaciones.

Gracias a que se utilizan comúnmente, es posible observar los resultados obtenidos a


través de un análisis. Son un método muy poderoso si se cumplen las condiciones de su
aplicación. Sin embargo, los investigadores deben tener en cuenta que si las variables
que están estudiando no siguen una ley normal, no pueden elegirse.

TIPOS DE PRUEBAS PARAMÉTRICAS:

 Prueba del valor Z de la distribución normal


 Prueba T de Student para datos relacionados (muestras dependientes)
 Prueba T de Student para datos no relacionados (muestras independientes)
 Prueba T de Student-Welch para dos muestras independientes con varianzas no
homogéneas
 Prueba de Ji Cuadrada de Bartlett para demostrar la homogeneidad de varianzas
 Prueba F (análisis de varianza o ANOVA).

PRUEBA DEL VALOR Z DE LA DISTRIBUCIÓN NORMAL

La gráfica de la distribución normal tiene la forma de una campana, por este motivo también
es conocida como la campana de Gauss. Sus características son las siguientes:
 Es una distribución simétrica.
 Es asintótica, es decir sus extremos nunca tocan el eje horizontal, cuyos valores
tienden a infinito.
 En el centro de la curva se encuentran la media, la mediana y la moda.
 El área total bajo la curva representa el 100% de los casos.
 Los elementos centrales del modelo son la media y la varianza.

Esta distribución es un modelo matemático que permite determinar probabilidades de
ocurrencia para distintos valores de la variable. Así, para determinar la probabilidad de
encontrar un valor de la variable que sea igual o inferior a un cierto valor xi, conociendo el
promedio y la varianza de un conjunto de datos, se debe reemplazar estos valores (media,
varianza y xi) en la fórmula matemática del modelo. El cálculo resulta bastante complejo, pero,
afortunadamente, existen tablas estandarizadas que permiten eludir este procedimiento. En el
gráfico, el área sombreada corresponde a la probabilidad de encontrar un valor de la variable
que sea igual o inferior a un valor dado. Esa probabilidad es la que aprenderemos a
determinar usando una tabla estandarizada.

Tabla de la distribuci ón normal

La tabla de la distribución normal presenta los valores de probabilidad para una variable
estándar Z, con media igual a 0 y varianza igual a 1. Para usar la tabla, siempre debemo
s estandarizar la variable por medio de la expresión:

𝑥−𝜇
𝑍=
𝜎

Siendo x el valor de interés; µ la media de nuestra variable y σ su desviación estándar.


Recordemos que µ y σ corresponden a parámetros, o sea valores en el universo, que ge
neralmente no conocemos, por lo que debemos calcular Z usando los datos de nuestra
muestra.

En general, el valor de Z se interpreta como el número de desviaciones estándar que


están comprendidas entre el promedio y un cierto valor de variable x. En otras palabras,
se puede decir que es la diferencia entre un valor de la variable y el promedio,
expresada esta diferencia en cantidad de desviaciones estándar.

Pasos para resolver:

1. Calcular el promedio y la desviación estándar de las observaciones de la muestr


a en estudio.

∑(𝑥𝑖 − 𝑥̅ )
𝜎2 =
𝑛−1

2. Calcular la diferencia que existe con respecto al promedio.


3. Dividir la diferencia calculada entre la desviación estándar obtenida de la muestr
a en estudio, que corresponde al valor Z.
4. Decidir si se acepta o rechaza la hipótesis.

El significado del valor Z en la curva normal de frecuencias: es el número de


desviaciones estándar que se desvían con respecto al promedio o media aritmética.
Prueba T de Student

A. Prueba T de Student para datos relacionados (muestras


dependientes)

El procedimiento Prueba T para muestras independientes compara las medias de dos


grupos de casos. Lo ideal es que para esta prueba los sujetos se asignen
aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea
debida al tratamiento (o falta de tratamiento) y no a otros factores.

Se basan en supuestos teóricos válidos, así las mediciones de las observaciones, tienen
procedimientos de gran potencia-eficiencia para evitar error del tipo I

Requisitos para aplicarlas

 Las observaciones deben ser independientes


 Poblacionales con distribución normal
 Las mediciones se deben elaborar en una escala de intervalo que tengan la
misma magnitud (puedan efectuarse todas las operaciones aritméticas
admisibles)
 Las varianzas de los grupos deben ser homogéneas

Para este tipo de prueba se utiliza la siguiente fórmula:


Pasos para resolver:

1. Determinar el promedio o media aritmética de cada grupo de población.


2. Calcular las varianzas de cada grupo, a fin de demostrar la homogeneidad de var
ianzas mediante la prueba de X2 de Bartlett.
3. Calcular la suma de cuadrados de cada grupo.
4. Calcular la desviación estándar ponderada (sp) de ambos grupos.
5. Obtener la diferencia absoluta entre los grupos.
6. Aplicar la fórmula y obtener el valor estadístico de t.
7. Calcular los grados de libertad (gl).
8. Obtener la probabilidad del valor t en la tabla.
9. Decidir si se acepta o rechaza la hipótesis.

B. Prueba T de Student-Welch

El test de Welch es uno de los test más utilizados en estadística para utilizada para com
parar las observaciones de 2 grupos. Realizar un test de Welch en R para comparar dos
muestras normales con varianzas diferentes es extraordinariamente sencillo a partir del
uso de la interfaz gráfica R Commander.

 Para dos muestras independientes con varianzas no homogéneas


 Prueba estadística de utilidad para contrastar hipótesis en función de la media ar
itmética
 Pero dada la heterogeneidad de las varianzas no aplica T student por lo cual se
da el agregado de Welch.
 El agregado de Welch consiste en una ecuación para calcular los grados de libert
ad, de manera que disminuye el error por la no homogeneidad de las varianzas.

La ecuación para este tipo de prueba es la siguiente:


Cálculo de los grados de libertad

Donde:

2 1 = varianza del grupo 1. 2 2 =


varianza del grupo 2. n1 =
tamaño de la muestra del grupo 1. n2 =
tamaño de la muestra del grupo 2.

Pasos para resolver:

1. Determinar el promedio, la varianza y el tamaño de la muestra de cada población en el


estudio.
2. Aplicar la ecuación t.
3. Calcular los grados de libertad (gl) de acuerdo con la ecuación dada.
4. Comparar el valor de t calculado respecto a los grados de libertad con los valores de t
críticos.
5. Decidir si se acepta o rechaza la hipótesis.

Prueba F (análisis de varianza o ANOVA)

El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las


varianzas para determinar si las medias son diferentes. El procedimiento funciona
comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos
como una manera de determinar si los grupos son todos parte de una población más grande o
poblaciones separadas con características diferentes.

Esta prueba posee las siguientes características:

 Potente herramienta estadística


 Método de análisis estadístico se basa en el estudio de la variación total entre los
datos y la descomposición de esta en diversos factores
 Se puede contestar a la pregunta de si existen diferencias significativas entre las
medias de las poblaciones o si, por el contrario, las diferencias encontradas pueden
deberse a las limitaciones del muestreo
 Esta prueba se basa en el estadístico F obtenido de la tabla de ANOVA para la
partición de la variabilidad total en variabilidad “entre y dentro” de las muestras.
 Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales.
 Los ANOVA evalúan la importancia de uno o más factores al comparar las medias de
la variable de respuesta en los diferentes niveles de los factores.
 La hipótesis nula establece que todas las medias de la población (medias de los
niveles de los factores) son iguales mientras que la hipótesis alternativa establece que
al menos una es diferente.

El ANOVA, pues, es una prueba semejante a las pruebas “t” y “z” en cuanto a la práctica, pero
la comparación entre grupos no se basa en las diferencias entre las medias, sino en la
varianza de la variable numérica “y” o variable dependiente en cada grupo (nivel) de la
variable categórica “x” o variable independiente.
Si las diferencias entre las varianzas de cada grupo (fuente de variación inter) son mayores
que las intragrupales (fuente de variación intra), seguramente se reportarán diferencias
estadísticamente significativas entre los grupos que no son debidas al azar.
Así, mientras en las pruebas de significación para dos grupos obtenemos valores empíricos “t”
y “z” en el ANOVA la cifra estadística obtenida se denomina razón F de Snedecor. Al ser F el
resultado de dividir la media cuadrática inter entre la media cuadrática intra cuanto mayor sea
el dividendo mayor, por tanto, será el cociente y mayor, por ende, la probabilidad de que
existan diferencias estadísticamente significativas.

Cabe preguntarse entonces, porque cuando existen más de dos grupos en vez de utilizar el
ANOVA, aparentemente no sería más lógico e intuitivo comparar todas las posibles
combinaciones tomadas de dos en dos. Supongamos, en este sentido, que un educador está
interesado en denotar la posible superioridad de un programa de técnicas de estudio sobre
otros dos programas. Para ello implementa cada programa en un grupo diferente. En este
caso la variable independiente sería programa de técnicas de estudio con tres niveles: A, B y
C, mientras la dependiente el rendimiento escolar en Historia.

Si no se contempla el ANOVA como técnica de contraste, la manera lógica de resolver


esta cuestión sería comparar cada grupo con el resto por binomios, o lo que es lo mismo
combinar n- elementos (3 grupos) tomados dos a dos. Si tenemos en cuenta la expresión
matemática:

Donde:

m: número de elementos que se combinan


N!: factorial de n-elementos
N y/o n: número de elementos
Tomando como ejemplo el caso de los programas de técnicas de estudio y sustituyendo cada
elemento por su valor en la expresión anterior tenemos que:
IV. Problemas aplicativos

1. Entre las ciudades de Estados Unidos con una población de más de 250,000 habitantes, la
media del tiempo de viaje de ida al trabajo es de 24.3 minutos. El tiempo de viaje más
largo pertenece a la ciudad de Nueva York, donde el tiempo medio es de 38.3 minutos.
Suponga que la distribución de los tiempos de viaje en la ciudad de Nueva York tiene una
distribución de probabilidad normal y la desviación estándar es de 7.5 minutos.

µ = 38.3 min. x−𝜇


σ = 7.5 min. z=
𝜎

a) ¿Qué porcentaje de viajes en la ciudad de Nueva York consumen men


os de 30 minutos?
p(x ≤ 30) Probabilidad
acumulada.
30 – 38.3 − 8.3
z = 7.5 = 7.5 = −1.11 =
0.1335
p(x ≤ 30) = 0.1335 = 13.35%

b) ¿Qué porcentaje de viajes consumen


entre 30 y 35 minutos?
p (30 ≤ x ≤ 35)
Probabilidad acumulada.

z=
35 – 38.3
=
−3.3
= −0.44 = 0.3300
7.5 7.5

30 – 38.3 − 8.3
z= 7.5
= 7.5
= −1.11 =
0.1335

p(30 ≤ x ≤ 35) = 0.3300 – 0.1335 = 0.1965 =


19.65%
c) ¿Qué porcentaje de viajes consumen entre 30 y 40 minutos?
p (30 ≤ x ≤ 40) Probabilidad
acumulada.
40 – 38.3 1.7
z= = = 0.23 = 0.5910
7.5 7.5

30 – 38.3 −8.3
z= 7.5
= 7.5
= −1.11 =

0.1335

p (30 ≤ x ≤ 40) = 0.5910 – 0.1335 = 0.4575 = 45.75%

2. Un investigador realizó un estudio para mostrar que los niveles de ansiedad de


las personas obsesas que asisten de manera constante a tratamiento para
control de peso corporal es mayor que el de los obesos que no asisten a
tratamiento. Él desea saber si las varianzas de los grupos son homogéneas o
no.

Especificaciones: Participaron 28 personas obesas (hombres y mujeres). 14


personas obesas que no asistían a tratamiento y 14 que asistían de manera regular
a algún tipo de tratamiento. A los 28 participantes se les solicitó que dieran
respuesta a la escala de estado de ansiedad (IDARE), la cual está diseñada para
evaluar el grado de ansiedad ante situaciones cotidianas. Los puntajes de la escala
varían en un rango de 20 a 80 puntos, siendo los puntajes más altos los indicativos
de un mayor nivel de ansiedad.

Elección de la prueba estadística.

El modelo experimental tiene dos muestras independientes. Véase:


Estadística/Flujogramas/Flujograma 4

Planteamiento de Hipótesis.

 Hipótesis alterna (Ha). El investigador, al observar los valores de las varianzas


de los dos grupos, percibe que son diferentes entre sí, pero ignora si las
fuentes de error son las mismas. La hipótesis se refiere a que las varianzas, de
acuerdo con lo observado, son diferentes.
 Hipótesis nula (Ho). La diferencia observada entre las varianzas se debe al
azar; por lo tanto, son iguales y la fuente de error probablemente es la misma.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.

Aplicación de la prueba estadística.


Primeramente, se determina el tamaño de la muestra y las varianzas de cada grupo,
con lo cual creamos una tabla de apoyo.

21 = 558.9286 / (14 - 1) = 42.99

22 = 837.5 / (14 - 1) = 64.42

Cálculo de ln.
Para este cálculo utilizamos una tabla logarítmica de base 10 (logaritmos comunes)

log(10)21 = 42.99 = 0.6325 + 1 = 1.6325

log(10)22 = 64.42 = 0.8089 + 1 = 1.8089

N = 28
K=2
(n - 1) = 26
2 (n - 1) = 1396.33
ln2 (n - 1) = 103
Entonces tenemos ya los cálculos requeridos para poder aplicar la prueba X2 Bartlett.

*Hacemos un paréntesis para calcular el (ln) de:

Continuamos con el cálculo de la X2 de Bartlett.

Calculamos los grados de libertad (gl):

gl = K - 1 = 2 -1 = 1

El valor de ji cuadrada de Bartlett calculado se compara con los valores críticos de la


distribución de ji cuadrada de Pearson, y resulta que el valor 3.48 con 1 grado de
libertad corresponde a una probabilidad de 0.05.

Decisión.

Como el valor de ji cuadrada de Bartlett es notoriamente menor que el crítico, el cual


equivale a 0.05, la probabilidad de ji cuadrada de 0.46 con 1 grado de libertad mayor
que 0.05. Por lo tanto, se acepta Ho y se rechaza Ha.

Interpretación.

Existe homogeneidad de las varianzas, es decir, aún cuando los valores de error
estadístico difieren entre sí, el procedimiento señala que es un efecto aleatorio y existe
gran probabilidad de que la fuente o fuentes de variación sean las mismas.
3. La USPHARMER construye grandes cosechadoras, para que una cosechadora
este debidamente balanceada cuando opera, en uno de sus costados se instala
ra una palanca de 25lb.La máquina que produce estas placas se haya ajustada
para dar placas que promedian25lb. La distribución de palancas producidas es
normal, pero el supervisor del taller está preocupado porque las maquinas está f
uera de ajuste y están produciendo placas que no promedian 25lb.Para probar p
reocupación a lazar se seleccionaran 20 de las placas producidas el día anterior
y las pesan. En la siguiente tabla se muestran los pesos obtenidos:

tabla se muestran los pesos obtenidos:


Utilizando un 95% de confianza encuentre el punto crítico de la producción.
u = 25

510.6
𝑥̅ = = 25.53
20
S2 = (22.6 – 25)2 + (22.2 – 25 )2 + (23.2 – 25)2 + (27.4 –
25)2 + (24.5 – 25 )2 +( 27 – 25)2 +(26.2 – 25)2 + ( 25.8 – 25)2 +( 26.6 – 25)2 +
(25.3 – 25)2 +(30.4 – 25)2 + (28.1 – 25)2 +(23.1 – 25)2 + (28.6 – 25)2 + (26.9
– 25)2 + (24.2 – 25)2 + (23.5 – 25)2 + (24.9 – 25)2 + (26.1 – 25)2 + (23.6 –
25)2

19

96.6
𝑆2 =
19

𝑆 2 = √5.08

𝑆 = 2.25
𝑋𝑖 − 𝑥̅
𝑆2 = = 2.25
𝑛−1

2.25
𝑆𝑋 = = 0.50
√20

𝑥− 𝑥̅ 25.53−25
𝑡= = = 1.06
𝑆𝑥 0.5

El promedio de la población de todas las placas pesa 25lb.

Gráfica de distribución
T. df=25

0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-2,06 0 2,06
X

4. Una muestra aleatoria de 10 focos del ciclo medio de vida es de 4600 hrs con una
desviación estándar muestral de 250hrs.

El ciclo medio de vida y la desviación estándar de una muestra del tamaño de 8 focos de otra
marca son 4000 hrs y desviación estándar muestral 200hrs. Se supone que el ciclo de vida de
ambas marcas tiene una distribución normal.

Construya el intervalo de confianza del 90% para estimar la diferencia entre el ciclo medio de
vida entre las dos marcas de focos.
𝑛1 = 10
𝑥̅ = 4600hrs
S= 250hrs
𝑛2 = 8
𝑥̅ = 4000 ℎ𝑟𝑠

𝑆 = 200ℎ𝑟𝑠

Gráfica de distribución
T. df=16

0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-2,12 0 2,12
X

𝑔𝑙 = 𝑛1 + 𝑛2 − 2

gl= 10 + 8 – 2 = 16

1 - .90= .10

0.10
= 0.05
2
𝐼𝑐𝛼 = (𝑥̅ 1 − 𝑥̅ 2) ± 𝑡𝜎𝑥̅ 1 − 𝑥̅ 2

𝐼𝑐90% = (4600 − 4000)1.746(108.84)

𝐿𝑠 = 600 + 190.03 = 790.03

𝐿𝑖 = 600 − 190.03 = 409.97

(n1 − 1)S12 + (𝑛2 − 1)𝑆22


𝜎2 =
n1 + 𝑛2 − 2

2
(9)2502 + (7)2002
𝜎 =
10 + 8 − 2
(9)62500 + (7)40000
𝜎2 =
16
562500 + 280000
𝜎2 =
16
842500
𝜎2 =
16

Gráfica de distribución
T. df=16
0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-2,12 0 2,12
X
𝜎 2 = 52656.25 = 229.469

𝑆12 𝑆22
𝑆𝑥̅1 − 𝑥̅2 = √ +
𝑛1 𝑛2

52656 52656
𝑆𝑥̅1 − 𝑥̅2 = √ +
10 8

𝑆𝑥̅1 − 𝑥̅2 = √5265.6 + 6582

𝑆𝑥̅1 − 𝑥̅2 = √11847.6

𝑆𝑥̅1 − 𝑥̅2 = 108.846

5. En una muestra de 105 comercios seleccionados al azar de una zona, se


observa que 27 de ellos han tenido pérdidas en este mes. Un analista
económico de la zona establece que la proporción de comercios en la
zona con pérdidas es igual o superior a 0.35. Contraste dicha hipótesis a
un nivel de significación del 5 %.

El contraste de una cola establece las hipótesis:

H0: p ≥ 0,35

frente a la alternative

H1: p < 0,35

La proporción en la muestra, p, de comercios con pérdidas es:

27
𝑝= = 0.26
105

𝑞 = 1 − 𝑝 = 0.74

El cuantil −Zα correspondiente al nivel de significación 0.05 es igual a −Zα =


−1,65

El valor del estadístico de contraste es


𝑝 − 𝑝𝑜 0.26 − 0.35
𝑧𝑐 = = = −1.93
𝑝𝑜− 𝑞𝑜 0.35 − 0.65
√ √
𝑛 105

Gráficamente tenemos:

6. Se tienen los siguientes datos experimentales correspondientes a 17


individuos de los que se ha recogido el valor que presentan en dos
variables, una de ellas cuantitativa con distribución normal considerada
como variable respuesta (Rta), y la otra variable dicotómica considerada
como variable explicativa (Exp). Los datos se presentan de forma que en
las filas hay varios individuos para facilitar la lectura:

Rta Exp Rta Exp


15 1 16 2
15 1 25 2
25 1 28 2
25 1 28 2
25 1 28 2
33 1 28 2
43 1 35 2
15 2 43 2
16 2

Calcular un intervalo de confianza al 90% para la diferencia de medias


asumiendo igualdad de varianzas y no asumiendo la igualdad de éstas y
realizar el siguiente contraste:

mediante la prueba t-Student para dos medias en los dos supuestos de


igualdad y no igualdad de varianzas.
Cálculo de los estadísticos descriptivos básicos

Para los datos del ejemplo se tiene que los tamaños muestrales son: n1 = 7 y
n2 = 10. Las medias y las desviaciones típicas para los dos grupos son:

donde x1i indica los valores de la variable Rta para el grupo 1 y x2i
indica los valores de la variable Rta para el grupo 2.

Cálculo del IC90% para la diferencia de medias suponiendo igualdad


de varianzas
Para calcular el IC90% para la diferencia de medias se necesita
calcular el error estándar de la diferencia de medias que, en el
supuesto de igualdad de varianzas, tiene la expresión:

Donde s2 recibe el nombre de varianza conjunta (“pooled variance”), que


tiene por expresión:
En segundo lugar para calcular el IC deseado se necesita el valor de la
t-Student t1- /2;gl para = 0.10 (confianza del 90%) y con grados de
libertad gl = (n1 - 1) + (n2 – 1) = (n1 + n2 – 2) = 15, que resulta ser t1-α/2;
gl = 1.7531, con lo que el intervalo de confianza buscado es:

Que cubre al valor de cero para la diferencia de medias poblacionales de


los dos grupos.

Cálculo del IC90% para la diferencia de medias suponiendo no


igualdad de varianzas
Para calcular el IC90% para la diferencia de medias se necesita calcular
el error estándar de la diferencia de medias que, en el supuesto de no
igualdad de varianzas, tiene la expresión:

En segundo lugar para calcular el IC deseado se necesita el valor de la t-


Student t1-α/2;gl para α = 0.10 (confianza del 90%) y con grados de libertad gl
dados por la siguiente expresión:
Que resulta ser t1-/2;gl = 1.7807, con lo que el intervalo de confianza buscado
es:

Que cubre al valor de cero para la diferencia de medias poblacionales de


los dos grupos.

Cálculo de la prueba t-Student para la diferencia de medias


suponiendo igualdad de varianzas
Para llevar a cabo el contraste requerido se construye el estadístico de
contraste experimental t dado por:

Que bajo la hipótesis nula sigue una distribución t-Student con grados de
libertad gl = (n1 - 1) + (n2 – 1) = (n1 + n2 – 2) = 15, que tiene asociado un
p-valor de 0.9412.

Cálculo de la prueba t-Student para la diferencia de medias


suponiendo no igualdad de varianzas
Para llevar a cabo el contraste requerido se construye el estadístico de
contraste experimental t dado por:
Que bajo la hipótesis nula sigue una distribución t-Student con grados de
libertad gl dados por:

Que tiene asociado un p-valor de 0.9426.

7. Un educador y su grupo de investigación están interesados en verificar la


superioridad del método de lectura silábico frente al fonológico. Para ello
enseñan a 16 alumnos de una clase con el primer método (silábico) y a otros 16
de otra clase con el segundo (fonológico). Tras un periodo prudencial miden la
variable dependiente, rendimiento lector, habiéndose obtenido los siguientes
resultados:

M. silábico (1) 3,3,4,4,5,5,5,6,6,7,7,8,8,9,9,10


M. fonológico (2) 2,2,3,3,4,5,6,6,6,6,7,7,7,7,7,7
SOLUCION

 Planteamiento de las hipótesis estadísticas:


 Contraste bilateral:
𝐻0 : 𝜇1 = 𝜇2 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜇1 − 𝜇2 = 0
𝐻0 : 𝜇1 ≠ 𝜇2 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜇1 − 𝜇2 ≠ 0
 Contraste unilateral:
𝐻0 : 𝜇1 ≤ 𝜇2 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜇1 − 𝜇2 ≤ 0
𝐻0 : 𝜇1 > 𝜇2 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜇1 − 𝜇2 > 0
 Selección de la prueba adecuada:
Considerando las varianzas de ambos grupos homogéneas y tratándose de
dos grupos de sujetos independientes, cuya suma de elementos excede de 30
(N>30) utilizamos la expresión:
𝑋1 − 𝑋2
𝑍=
2
√𝑆 1 + 𝑆 2 2/𝑁2
𝑁1
Remplazando
6.18 − 5.31
𝑍=
√4.791/16 + 3.53/16
0.87
𝑍=
√0.29 + 0.22
𝑍 = 1.21
 Interpretación y decisión:
Asumiendo un error α = 0,05 bilateral y, por tanto, unos valores críticos de zeta
±1,96 podemos apreciar como el valor de Ze (1,21) se sitúa en la región de
aceptación de Ho. Cualquier lateralidad supuesta, así como errores asumidos
darían lugar a una decisión similar a la tomada.

Ante los resultados obtenidos podemos afirmar que no existen diferencias


estadísticamente significativas entre los métodos de lectura silábico y
fonológico. Por tanto, el educador puede abordar la enseñanza de la lectura
desde cualquiera de los dos métodos ya que ninguno se ha mostrado
significativamente superior. Ello no implica, desde luego, que una réplica de
este estudio con diferentes sujetos ofrezca resultados distintos a los obtenidos.

8. Un profesor está interesado en verificar si el uso de diferentes metodologías de


enseñanza (M1, M2, M3) resulta determinante en la consecución de un mayor o
menor rendimiento escolar en la asignatura de inglés. Así pues, durante un
trimestre implementa las tres metodologías contempladas en tres diferentes
grupos de alumnos midiendo el rendimiento académico en inglés al final del
trimestre en una prueba final. Estos han sido los resultados:
Asumiendo un nivel de significación α = 0,05 bilateral puede decirse que existe alguna
metodología que influye decisivamente en el rendimiento en inglés, o lo que es lo
mismo ¿se reportan diferencias estadísticamente significativas entre los tres grupos
que utilizan metodologías de enseñanza diferentes, tomando como variable
dependiente el desempeño en inglés?

 Planteamiento de hipótesis
𝐻0 : 𝑥𝑚1 = 𝑥𝑚2 = 𝑥𝑚3 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜎 2 𝑀 = 0
𝐻0 : 𝑥𝑚1 ≠ 𝑥𝑚2 ≠ 𝑥𝑚3 𝑜 𝑡𝑎𝑚𝑏𝑖𝑒𝑛 𝜎 2 𝑀 ≠ 0

 Selección de la prueba adecuada y cálculo de términos

Las características de la situación planteada (comparación de tres grupos con una sola
variable independiente) aconsejan la utilización del ANOVA, aunque su uso esté
condicionado al cumplimiento de determinados supuestos paramétricos.

- El primer elemento es el término de corrección (C) que se define como:


(∑ 𝑥𝑖)2
𝐶=
𝑁
Remplazando

(83)2
𝐶= = 459.266
15
- Suma de cuadrados total
SCt = 525 – 459,266 = 65,73
- Suma de cuadrados entre
SCe = [(17)²/5 + (25)²/5 + (41)²/5] - 459,266 = 59,73
- Suma de cuadrados intra
SCi = 65,73 – 59,73 = 6
- Valor de la razón F
F = 29,85 / 0,5 = 59,73
- Asociación de la magnitud del ANOVA
Tratar de determinar la varianza explicada por el modelo, es decir, en qué
porcentaje el rendimiento en inglés está determinado por el uso de una u otra
metodología de enseñanza se utiliza el coeficiente de asociación η y su
correlato para determinar el porcentaje de varianza η².
𝑆𝐶𝑒 59.73
𝑛 = √𝑆𝐶𝑡 =√65.73 = 0.95

𝑆𝐶𝑒 59.73
𝑛2 = =
𝑆𝐶𝑡 65.73
= 0.9 ∗ 100 = 90%

Como puede apreciarse el rendimiento en inglés está determinado por las


metodologías de enseñanza en un 90%, un porcentaje altísimo que a fe de ser
sinceros pocas veces se produce en la realidad educativa. En resumen:

 Interpretación y decisión

Aunque todos los valores calculados son importantes, el valor decisivo para interpretar
un ANOVA desarrollado manualmente es la razón F. Dicho valor es el estadístico
empírico o teórico que hay que comparar con una razón F crítica o tabular. Esta
segunda razón viene determinada por los grados de libertad entre e intra y el valor alf a
que se asuma. Los grados de libertad entre e intra actúan como numerador y
denominador respectivamente, de tal forma que el proceso de búsqueda y
comparación entre razones F es, para el caso que nos ocupa, el siguiente:

Conclusión

Evidentemente Femp. > Fcrít., motivo por el cual se acepta H1; ello implica que se
reportan diferencias estadísticamente significativas entre los tres tipos de
metodologías de enseñanza del inglés. En este sentido, la observación de los
resultados obtenidos a nivel de medias resulta elocuente, ya que aquellos alumnos
instruidos con la metodología 3 (M3) han alcanzado un rendimiento académico en
ingles muy superior a los instruidos mediante las metodologías M2 Y M3.

9. En la empresa EL DULCERON se está haciendo tres pruebas cobre la adición


de azúcar en mermeladas, en el primer método se agrega cada 10 minutos con
un movimiento leve, en el segundo método se agrega cada veinte minutos y en
el tercer se agrega cada veinte cinco minutos con un movimiento más rápido.
Después de un mes estando en almacén se realiza un control de calidad a cada
frasco obtenido. Midiendo así su Brix°, los resultados son los siguientes:
Método I Método II Método III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos obtendrán
el mismo grado de dulzor? O por el contrario ¿Hay algún método superior a los
demás?

SOLUCION

Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:

Metd. I Metd. II Metd. III Total Sum2/n


Suma 77 72 61 210 2940
Sum2/n 1185.8 1036.8 744.2 2966.8

A continuación, calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44

SC(intra) = 2984 – 2966,8 = 17,2

SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 = 13,4

CM(intra) = 17,2/12 = 1,43

Por consiguiente, el estadístico de contraste vale:

F = 13,4/ 1,43 = 9,37


Conclusión

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95%


es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres
métodos de agregado de azúcar en distintos tiempos producen diferencias
significativas.

10. En la empresa LA VAQUITA, se está formulando galletas sabor a yogurt, lo


singular de esta galleta será su textura blanda, para esto se hizo una prueba al
público degustador para que escoja las pruebas y las califique de acuerdo a su
textura con un rango de 1-10 y estos fueron los resultados:
Textura I Textura II Textura III Textura IV
5 9 8 1
7 10 6 3
6 8 9 4
3 7 5 5
9 7 7 1
7 4 4
4 4
2

¿Qué conclusiones pueden sacarse acerca de las cuatro texturas de las galletas,
con un nivel de significación del 5%?

SOLUCION

Prueba de hipótesis
HO: Las texturas de las galletas son las mismas
Ha: Al menos una de las texturas es distintas

Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:

Proc. I Proc. II Proc. III Proc. IV Total Sum2/n


Suma 43 42 43 18 146 819.8
Sum2/n 231.1 352.8 264.1 54 902

A continuación, calculamos los cuadrados de las observaciones y su total


A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 988 – 819,8 = 168,2

SC(intra) = 988 – 902 = 86

SC(entre) = 902 – 819,8 = 82,2

Los cuadrados medios serán:

CM(entre) = 82,2/3 = 27,4

CM(intra) = 86/22 = 3,9

Por consiguiente, el estadístico de contraste vale:

F = 27,4/ 3,9 = 7,03

Conclusión

El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del


95% es 3,05. Por consiguiente, se rechaza la hipótesis nula y se concluye que las
cuatro texturas de galletas producen diferencias significativas.

11. En un estudio sobre el aprovechamiento tecnológico del Mandi (un tipo de


pescado) mediante salado y ahumado en frio, se realizaron análisis sensorial en
sopas preparadas con este pescado luego de 7 días de almacenamiento. Los
tratamientos que se ensayaron fueron: T1: Muestra con 3% de sal y 5h de
ahumado, T2: Muestra con 3% de sal y 10h de ahumado, T 3: Muestra con 10%
de sal y 5h de ahumado, T4: Muestra con 10% de sal y 10h de ahumado. Se
trabajó con 10 jueces entrenados quienes calificaron el sabor de las muestras
mediante la escala que se muestra a continuación: 1: aceptable, 2: razonable, 3:
buena y 4: excelente. Con los resultados que se muestran en la siguiente tabla,
determine cuál es el mejor tratamiento.

JUECES JUECES TOTAL

T1 T2 T3 T4

1 3 3 4 4 14

2 2 4 4 4 14
3 4 4 2 3 13

4 2 1 4 4 11

5 4 1 2 3 10

6 2 4 1 4 11

7 3 2 4 4 13

8 1 2 3 4 10

9 2 4 3 3 12

10 3 2 1 4 10

Total 26 27 28 37 118

Solución:
 Prueba de hipótesis
HO: Los tratamientos ensayados confieren el mismo sabor a las sopas
Ha: Al menos uno de ellos confiere un mejor sabor a las sopas

 Nivel de significancia: α = 0.05


 Prueba estadística: Prueba de F de snedecor
 Regla de decisión: si el FC > Ftab se rechaza HO

 Cálculo del factor de corrección (FC):

1182
𝐹𝐶 = = 348.10
4𝑥10
 SCtratamientos:

262 + 272 + 282 + 372


− 348.10 = 7.70
10

 SCJueces:

142 + 142 + 132 + 112 + 102 + 112 + 132 + 102 + 122 + 102
− 348.10 = 5.90
4

 SCTotales:
32 + 22 + ⋯ +42 +32 +42 − 348.10 = 45.90

FUENTE DE GRADOS SUMA DE CUADRADO FC FTab


VRIACION DE CUADRADOS MEDIO
LIBERTAD
Tratamientos 3 7.70 2.57 2.14 2.96
Jueces 9 5.90 0.66
Error 27 32.30 1.20
Total 39 45.90

CONCLUSIÓN:
FC < FTab por lo tanto se acepta la HO, esto significa que:
Existe suficiente evidencia estadística, a un nivel de significancia del 5% para afirmar
que los tratamientos ensayados al Mandi confieren el mismo sabor a las sopas, por lo
que se recomienda optar por el tratamiento T 1 por emplear menos sal y menor tiempo
de ahumado.
12. Se presentaron 5 muestras de galletas de chocolate usando diferentes niveles
de adicion de saborizantes, las muestras fueron presentadas a 6 jueces para
que realicen el ordenamiento de las muestras de menor a mayor intensidad. Las
respuestas de los jueces fueron:

JUECES JUECES

T1 T2 T3 T4 T5
1 3 2 5 4 1
2 2 3 4 5 1
3 3 4 5 2 1
4 1 2 5 4 3
5 3 2 4 5 1
6 3 1 5 4 2

SOLUCIÓN:

I. Prueba de hipótesis :

H0: no existen diferencias en el sabor

Ha: al menos el sabor de una es diferente


II. Nivel de significacia= 0.05
III. Prueba f de senedector
IV. Fc ˃Ftabla, se rechaza Ho

Transformación de los datos a valor numérico

5 0 -0.5 0.5 1.16 1.16 0


6 0 -1.16 -1.16 0.5 0.5 0
Total -1.66 -2.16 5.64 3.32 5.35 0
Promedio -0.27 -13.36 0.94 0.55 0.45 0

Calcular factor de corrección

02
𝐹𝐶 = =0
5+6

−1.662 + −2.162 + 5.642 + 3.322 + −5.162


𝑆𝐶𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = − 0 = 12.78
6

02 + 02 + 02 + 02 + 02
𝑆𝐶𝑗𝑢𝑒𝑐𝑒𝑠 = −0=0
5

𝑆𝐶𝑡𝑜𝑡𝑎𝑙𝑒𝑠 = (02 + −0.52 + ⋯ + −1.162 + 0.52 ) − 0 = 19.15

FUENTE DE GRADOS SUMA DE CUADRADO Fc Ftabla


VARIACIÓN LIBERTAD CUADRADOS MEDIO
TRATAMIENTO 4 12.78 3.19 10.0 2.87
JUECES 5 0 0
ERROR 20 6.37 0.318
TOTAL 29 19.15

Existe evidencia estadística a un α=5% para afirmar que el sabor de una de las
galletas es diferente.

Prueba tuckey:

Ordenamos de mayor a menor

TRATAMIENTOS T1 T2 T3 T4 T5
MEDIAS 0.94 0.553 -0.27 -0.36 -0.85
ERROR ESTANDAR

0.318 0.5
𝐸=( ) = 0.2302
6

DIFERENCIA MINIMA SIGNIFICATIVA

D.M.S= E (RES)

D.M.S = 0.2032 X 4.24

D.M.S = 0.976

Comparando las diferencias entre las medias, las que sean mayores se consideran
significativas:

T5 T4 T3 T2 T1
T5 X X
T4 X x
T3 x
T2
T1

Conclusión: lo tratamientos T3 Y t4 presentan significativamente un sabor a chocolate


más pronunciado que la muestra T5.
V. Referencias bibliografías
Aimar, L. M. (s.f.). Obtenido de
https://invetigacion.webs.com/archivos/DOC/PruebasZ_y_Chi.pdf

Dávila, M. A. (2003). Técnicas Estadísticas Paramétricas y. GUAYAQUIL - ECUADOR.

QuestionPro . (s.f.). Obtenido de QuestionPro :


https://www.questionpro.com/blog/es/pruebas-parametricas/

Silvente, M. J. (2011). Cómo aplicar las pruebas paramétricas bivariadas t de Student y ANOVA
en SPSS. Caso práctico. REIRE, 18.

Anda mungkin juga menyukai