Anda di halaman 1dari 35

ACTIVIDADES DEL TEMA 6

- A1. CUESTIONES TEORICAS

Resolver cuatro de las siguientes actividades teóricas

1.- Deducir el cálculo de las cantidades 𝑺𝑺𝑨𝑩 y 𝑺𝑺𝑬 en términos de las cantidades
𝑺𝑺𝑻 , 𝑺𝑺𝑨 y
𝑎 𝑏 2
𝑦𝑖𝑗 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 = ∑ ∑ −
𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1

Continuando con los datos facilitados en el tema 6, sabemos que se cumple la siguiente
igualdad:
𝑎 𝑏 𝑛 𝑎 𝑏 𝑎 𝑏
2 2 2 2
∑ ∑ ∑(𝑦𝑖𝑗𝑘 − ̅̅̅̅̅
𝑦 … ) = 𝑏𝑛 ∑(𝑦
̅̅̅
𝑖.. − ̅̅̅)
𝑦… + 𝑎𝑛 ∑(𝑦
̅̅̅.𝑗.̅ − ̅̅̅)
𝑦… + 𝑛 ∑ ∑(𝑦
̅̅̅̅
𝑖𝑗. − ̅̅̅
𝑦𝑖.. − ̅𝑦̅̅.𝑗.̅ + ̅̅̅)
𝑦…
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑎 𝑏 𝑛
2
+ ∑ ∑ ∑(𝑦𝑖𝑗𝑘 − 𝑦̅)
𝑖=1 𝑗=1 𝑘=1
Puesto que los productos cruzados son cero, se tiene que:
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐸
Siendo:
 Suma de cuadrados totales: con abn-1 grados de libertad, su expresión viene dada
por:
𝑎 𝑏 𝑛
2 𝑦. .2
𝑆𝑆𝑇 = ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 −
𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑘=1
 Sumas de cuadrados de los efectos principales, con a-1 y b-1 grados de libertad
cada una, sus expresiones vienen dadas por:
𝑎 𝑏
1 𝑦…2 1 𝑦…2
𝑆𝑆𝐴 = ∑ 𝑦𝑖..2 − 𝑆𝑆𝐵 = 2
∑ 𝑦.𝑗. −
𝑏𝑛 𝑎𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1
 Sumas de cuadrados debida a la interacción entre A y B, con (a-1)(b-1) grados
de libertad, su expresión viene dada por:
𝑎2 𝑏 𝑎 𝑏
𝑦𝑖𝑗. 1 1 𝑦…2
𝑆𝑆𝐴𝐵 = ∑∑ − ∑ 𝑦𝑖..2 − 2
∑ 𝑦.𝑗. −
𝑛 𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1
 Sumas de cuadrados debida al error, con ab(n-1) grados de libertad, su expresión
viene dada por:
𝑎 𝑏 𝑛 𝑎 𝑏
2 1 2
𝑆𝑆𝐸 = ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 − ∑ ∑ 𝑦𝑖𝑗.
𝑛
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1
Para obtener otra expresión, consideramos la suma de cuadrados entre los totales de las ab
celdas, a la que se denomina suma de cuadrados debida a los "subtotales" y
cuya fórmula viene dada en el enunciado:
𝑎 𝑏 2
𝑦𝑖𝑗 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 = ∑ ∑ −
𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1
Entonces:
𝑎 𝑏 2 𝑎 𝑏
𝑦…2 𝑦𝑖𝑗
1 𝑦…2 1 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = ∑ ∑ − − [ ∑ 𝑦𝑖..2 − 2
] − [ ∑ 𝑦.𝑗. − ]=
𝑛 𝑎𝑏𝑛 𝑏𝑛 𝑎𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1

𝑎 𝑏 2 𝑎 𝑏
1 𝑦𝑖𝑗 1 𝑦…2
= ∑∑ − ∑ 𝑦𝑖..2 − 2
∑ 𝑦.𝑗. − = 𝑆𝑆𝐴𝐵
𝑛 𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1

Luego:
𝑆𝑆𝐴𝐵 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
Si hacemos un sistema de ecuaciones con las dos expresiones de las sumas de cuadrados que
hemos obtenido, obtenemos que:
𝑆𝑆 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
{ 𝐴𝐵 }
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐸

Sustituyendo 𝑆𝑆𝐴𝐵 en la segunda ecuación:

𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 + 𝑆𝑆𝐸 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 + 𝑆𝑆𝐸

𝐿𝑢𝑒𝑔𝑜: 𝑆𝑆𝐸 = 𝑆𝑆𝑇 + 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠

Así pues:

𝑆𝑆𝐴𝐵 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵


{
𝑆𝑆𝐸 = 𝑆𝑆𝑇 + 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠

2.- Determinar el tamaño muestral en un diseño bifactorial a partir de la curva


característica de operación del análisis de la varianza en el modelo de efectos fijos. Dicha
curva viene dada por:
𝑛𝑏𝐷 2
𝜙2 = (1)
2𝑎𝜎 2
𝑛𝑎𝐷 2
𝜙2 = (2)
2𝑏𝜎 2
𝑛𝐷 2
𝜙2 = (3)
2𝜎 2 [(𝑎 − 1)(𝑏 − 1) + 1]
donde D denota la diferencia entre dos efectos medios del factor A (ecuación (1)), entre dos
efectos medios del factor B (ecuación (2)) y entre dos efectos medios del factor de
interacción (ecuación (3)). La curva operativa se obtiene representando la
probabilidad de aceptar la hipótesis nula frente a los diferentes tamaños muestrales, para
un error tipo I, α=0, 05 en este caso. Considerar diferentes valores de los parámetros a y
b que determinan los grados de libertad del numerador y denominador en las ecuaciones
anteriores.

Para determinar el tamaño de la muestra (es decir, el número de réplicas, n) apropiado en un


diseño factorial de dos factores, podemos hacer uso de las curvas de operación característica.
Estas curvas se utilizan del mismo modo que las tablas de las distribuciones. Fijados unos
parámetros se busca el valor deseado de la respuesta, en este caso el tamaño de la muestra.
Las podemos encontrar dibujadas en los apéndices de ciertos libros (por ejemplo: apéndice
V del libro de Douglas C. Montgomery).

Esencialmente, para calcular el tamaño de la muestra se necesita fijar el nivel de significación


α = 0, 05, el tamaño del efecto y la potencia deseada. En el caso de las curvas de operación los
parámetros son: el nivel de significación, los grados de libertad ν1 (grados de libertad del
numerador) y ν2 (grados de libertad del error) y del parámetro 𝜙 2 .

Una forma de emplear estas curvas consiste en encontrar el valor menor de 2 que corresponde
a una diferencia especificada entre las medias de dos tratamientos cualesquiera:
 Si la diferencia en las medias de dos renglones cualesquiera es D, entonces el valor
mínimo de Φ2 es:
𝑛𝑏𝐷 2
𝜙2 =
2𝑎𝜎 2
Donde D denota diferencia entre dos efectos medios del factor A
 Si la diferencia en las medias de dos columnas cualesquiera es D, entonces el valor
mínimo de Φ2 es:
𝑛𝑎𝐷 2
𝜙2 =
2𝑏𝜎 2
Donde D denota diferencia entre dos efectos medios del factor B
 Si la diferencia corresponde a una diferencia entre dos factores de interacción
cualesquiera, entonces el valor mínimo de Φ2 es:

𝑛𝐷 2
𝜙2 =
2𝜎 2 [(𝑎 − 1)(𝑏 − 1) + 1]
Donde D denota diferencia entre dos efectos medios del factor de interacción
La curva operativa se obtiene representando la probabilidad de aceptar la hipótesis nula frente a
los diferentes tamaños muestrales, para un error tipo I, α = 0, 05 en este caso.

En la tabla siguiente se muestra el valor apropiado del parámetro Φ2 , así como los grados de
libertad del numerador y el denominador:
En los gráficos siguientes ponemos como ejemplo las curvas de operación característica obtenidas
del apéndice V del libro de Douglas C. Montgomery, para el caso de grados de libertad del
numerador (𝑣1 ) 1 y 2, y diferentes valores de grados de libertad del denominador, en dicho
apéndice podemos encontrar más gráficas para los distintos valores de 𝑣1 .

Ejemplo:
Para ilustrar con un ejemplo, como podemos obtener el tamaño muestral mediante el uso de estas
curvas podemos poner un ejemplo, para un caso en el que consideramos la expresión (1) de las
curvas de operación característica, una desviación típica de 5, un valor de D=8 y en el que los
parámetros a y b toman el valor de 3, en tal caso, se tendría que:

2
𝑛𝑏𝐷 2 𝑛 ∗ 3 ∗ 82 .
𝜙 = = = 1,28𝑛 ⇒ Φ = √1,28𝑛
2𝑎𝜎 2 2 ∗ 3 ∗ 52
𝑣1 = 𝑎 − 1 = 2 𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑑𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟
𝑣2 = 𝑎𝑏(𝑛 − 1) = 9(𝑛 − 1)𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑑𝑒 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟
Dando distintos valores a n y buscando en el cuadro para 𝑣1 = 2, se tiene que:
Φ = 1,6
- Para n=2 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 9
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.45 (buscamos
que esta probabilidad sea pequeña).
Φ = 1,96
- Para n=3 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 18
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.18 (buscamos
que esta probabilidad sea aún más pequeña).
Φ = 2,26
- Para n=4 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 27
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.06 (podemos
aceptar esta probabilidad).
Podemos concluir que con 4 réplicas se obtiene una sensitividad deseada.
Para terminar con el ejercicio teórico-práctico, presentamos un cuadro donde consideramos
diferentes valores de los parámetros a y b que determinan los grados de libertad del numerador y
denominador y que pueden servir para futuros ejemplos como el anterior:
Para a=2 y b=3

Para a=4 y b=3


3.- Desarrollar el análisis de la varianza en el modelo bifactorial de efectos fijos, cuando se
considera una observación por celda.

Un experimento de dos factores, tiene por modelo estadístico:


𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏
Con:
𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐵
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜
Considerando los efectos fijos, se tiene:
𝑎 𝑏

∑ 𝜏𝑖 = 0 ∑ 𝛽𝑗 = 0
𝑖=1 𝑗=1

En un experimento de dos factores con una sola réplica, es decir, en los que sólo hay una
observación por celda, se tendría este modelo con ab observaciones.
Ahora bien, al examinar los cuadrados medios esperados, se observa que la varianza del error 𝜎 2
no es estimable, es decir, que el efecto de la interacción de los dos factores (𝜏𝛽)𝑖𝑗 y el error
experimental no pueden separarse de alguna manera obvia.
Por este motivo, no se cuenta con pruebas para los efectos principales a menos que el efecto de
la interacción sea cero. Luego entonces, (𝜏𝛽)𝑖𝑗 para cualquier valor de i y j.
Consecuente con lo anterior, tenemos que un experimento de dos factores, con una sola réplica,
es decir, en los que sólo hay una observación por celda, tiene por modelo estadístico plausible:

𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏

Correspondería a un diseño en bloques aleatorizados, en su caso.


Es de interés contrastar la igualdad entre los efectos de los tratamientos del factor A, así como la
igualdad entre los tratamientos del factor B. Adicionalmente, es importante contrastar si existen
interacciones significativas entre los tratamientos de los dos factores. Es decir, será
conveniente realizar aquellos contrastes con hipótesis nulas:
𝐻0 : 𝜏1 = ⋯ = 𝜏𝑎 = 0
𝐻0 : 𝛽1 = ⋯ = 𝛽𝑏 = 0
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏
Teniendo en cuenta que para este caso:
𝑏 𝑎 𝑎 𝑏

𝑦𝑖. = ∑ 𝑦𝑖𝑗 𝑦.𝑗 = ∑ 𝑦𝑖𝑗 𝑦𝑖. = ∑ ∑ 𝑦𝑖𝑗


𝑗=1 𝑖=1 𝑖=1 𝑗=1
Podemos resumir el análisis de la variancia para un modelo bifactorial con una observación
por celda, en el cuadro siguiente:

Se tiene que:
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙

Si el modelo es apropiado, entonces la media de cuadrados residuales es un estimador


insesgado de σ2 y los efectos principales pueden probarse mediante la comparación de 𝑀𝑆𝐴 y
de 𝑀𝑆𝐵 contra 𝑀𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 . Una prueba desarrollada por Tukey (1949) resulta útil para
determinar si existe el efecto de interacción. Este procedimiento supone que la forma de la
interacción es particularmente simple, es decir:

(𝜏𝛽)𝑖𝑗 = 𝛾𝜏𝑖 𝛽𝑗 𝐸𝑛 𝑑𝑜𝑛𝑑𝑒 𝛾 𝑒𝑠 𝑢𝑛𝑎 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎

Si se define la interacción de esta forma, puede usarse el método de regresión para probar la
significancia de éste término. La prueba consiste en descomponer la suma de cuadrados
residuales en un componente de un solo grado de libertad debido a la no aditividad del modelo
(interacción) y en un componente para el error con:
(𝑎 − 1)(𝑏 − 1) − 1 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
Matemáticamente se tiene:
2
𝑦..2
[∑𝑎𝑖=1 ∑𝑏𝑗=1 𝑦𝑖𝑗 𝑦𝑖. 𝑦.𝑗 − 𝑦.. (𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑎𝑏 )]
𝑆𝑆𝑁 =
𝑎𝑏𝑆𝑆𝐴 𝑆𝑆𝐵
Con un grado de libertad, y
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 − 𝑆𝑆𝑁
Con (a–1)(b–1)–1 grados de libertad. Para probar la presencia de la interacción debe calcularse:
𝑆𝑆𝑁
𝐹0 =
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 /[(a– 1)(b– 1)– 1]
Si 𝐹0 > 𝐹𝛼,1,(𝑎−1)(𝑏−1)−1, la hipótesis de interacción nula debe rechazarse.
4.- Extender el análisis de la varianza bifactorial, desarrollado en el tema 6, al caso de
trifactorial.
Se considera el caso de diseños trifactoriales, donde hay tres factores A, B y C, con a, b y c niveles,
respectivamente, que influyen sobre la respuesta. El modelo estadístico viene dado por:
𝑦𝑖𝑗𝑘𝑙 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝛾𝑘 + (𝜏𝛽)𝑖𝑗 + (𝜏𝛽)𝑖𝑗 + (𝜏𝛾)𝑖𝑘 + (𝛽𝛾)𝑖𝑘 + (𝜏𝛽𝛾)𝑖𝑗𝑘 + 𝜀𝑖𝑗𝑘𝑙

𝑐𝑜𝑛 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐 𝑙 = 1, … , 𝑛

Donde:

𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙


𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐵
𝛾𝑘 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑘 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
(𝜏𝛾)𝑖𝑘 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛾𝑘
(𝛽𝛾)𝑗𝑘 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝛽𝑗 𝑦 𝛾𝑘
(𝜏𝛽𝛾)𝑖𝑗𝑘 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 , 𝛽𝑗 𝑦 𝛾𝑘
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Suponemos el caso en que A, B y C son fijos, cada réplica del experimento contiene todas las
posibles combinaciones de tratamientos, es decir, contiene los abc tratamientos posibles, luego se
tiene abcn observaciones.

Es de interés contrastar la igualdad entre los efectos de los tratamientos del factor A, B y C,
adicionalmente, es importante contrastar si existen interacciones significativas entre los
tratamientos de dos o de los tres factores. Las hipótesis que normalmente interesan contrastar son:

𝐻0 : 𝜏1 = ⋯ = 𝜏𝑎 = 0
𝐻0 : 𝛽1 = ⋯ = 𝛽𝑏 = 0
𝐻0 : 𝛾1 = ⋯ = 𝛾𝛾𝑏 = 0
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏
𝐻0 : (𝜏𝛾)𝑖𝑘 = 0 𝑖 = 1, … , 𝑎 𝑘 = 1, … , 𝑐
𝐻0 : (𝛽𝛾)𝑗𝑘 = 0 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐
𝐻0 : (𝜏𝛽𝛾)𝑖𝑗𝑘 = 0 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐

Frente a:

𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 𝑖 𝑐𝑜𝑛 𝜏𝑖 ≠ 0


𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 𝑗 𝑐𝑜𝑛 𝛽𝑗 ≠ 0
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 𝑘 𝑐𝑜𝑛 𝛾𝑘 ≠ 0
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 (𝑖, 𝑗) 𝑐𝑜𝑛 (𝜏𝛽)𝑖𝑗 ≠ 0
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 (𝑖, 𝑘) 𝑐𝑜𝑛 (𝜏𝛾)𝑖𝑘 ≠ 0
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 (𝑗, 𝑘) 𝑐𝑜𝑛 (𝛽𝛾)𝑗𝑘 ≠ 0
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 (𝑖, 𝑗, 𝑘) 𝑐𝑜𝑛 (𝜏𝛽𝛾)𝑖𝑗𝑘 ≠ 0

ANÁLISIS ESTADÍSTICO:
En la descomposición de la variación global en el modelo trifactorial de efectos fijos, así como
en la construcción de los estadísticos para el contraste de las hipótesis anteriores, se considerará
la siguiente notación:
𝑏 𝑐 𝑛 𝑎 𝑐 𝑛 𝑎 𝑏 𝑛

𝑦𝑖. . = ∑ ∑ ∑ 𝛾𝑖𝑗𝑘𝑙 𝑦.𝑗.. . = ∑ ∑ ∑ 𝛾𝑖𝑗𝑘𝑙 𝑦..𝑘. . = ∑ ∑ ∑ 𝛾𝑖𝑗𝑘𝑙


𝑗=1 𝑘=1 𝑙=1 𝑖=1 𝑘=1 𝑙=1 𝑖=1 𝑗=1 𝑙=1
𝑐 𝑛 𝑏 𝑛 𝑎 𝑛

𝑦𝑖𝑗.. = ∑ ∑ 𝑦𝑖𝑗𝑘𝑙 𝑦𝑖.𝑘. = ∑ ∑ 𝑦𝑖𝑗𝑘𝑙 𝑦.𝑗𝑘. = ∑ ∑ 𝑦𝑖𝑗𝑘𝑙


𝑘=1 𝑙=1 𝑗=1 𝑙=1 𝑖=1 𝑙=1
𝑛 𝑎 𝑏 𝑐 𝑛

𝑦𝑖𝑗𝑘. = ∑ 𝑦𝑖𝑗𝑘𝑙 𝑦..𝑘. . = ∑ ∑ ∑ ∑ 𝛾𝑖𝑗𝑘𝑙


𝑙=1 𝑖=1 𝑗=1 𝑘=1 𝑙=1

La suma de cuadrados total se obtiene de la forma:


𝑎 𝑏 𝑐 𝑛
2 𝑦…2
𝑆𝑆𝑇 = ∑ ∑ ∑ ∑ 𝛾𝑖𝑗𝑘𝑙 −
𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝑘=1 𝑙=1
𝑎 𝑏 𝑐
2 𝑦…2
𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝑎𝑏𝑐) = ∑ ∑ ∑ 𝛾𝑖𝑗𝑘. −
𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝑘=1
Se tiene que:
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐶 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐴𝐶 + 𝑆𝑆𝐵𝐶 + 𝑆𝑆𝐴𝐵𝐶 + 𝑆𝑆𝐸
𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵𝐶) = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐶 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐴𝐶 + 𝑆𝑆𝐵𝐶 + 𝑆𝑆𝐴𝐵𝐶

Siendo:

 Sumas de cuadrados de los efectos principales, con a-1, b-1 y c-1 grados de
libertad cada una, sus expresiones vienen dadas por:
𝑎 𝑏 𝑐
1 𝑦…2 1 𝑦…2 1 𝑦…2
𝑆𝑆𝐴 = ∑ 𝛾𝑖..2 − 𝑆𝑆𝐵 = 2
∑ 𝛾.𝑗. − 𝑆𝑆𝐶 = 2
∑ 𝛾..𝑘. −
𝑏𝑐𝑛 𝑎𝑏𝑐𝑛 𝑎𝑐𝑛 𝑎𝑏𝑐𝑛 𝑎𝑏𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝑘=1

 Sumas de cuadrados debida a las interacciones entre AyB, AyC, y ByC, sus
expresiones vienen dadas por:
𝑎 2 𝑏
𝛾𝑖𝑗.. 𝑦…2
𝑆𝑆𝐴𝐵 = ∑∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
𝑐𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1
𝑎 2 𝑐
𝛾𝑖.𝑘. 𝑦…2
𝑆𝑆𝐴𝐶 = ∑∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐶 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐴 − 𝑆𝑆𝐶
𝑏𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑘=1
𝑏 𝑐 2
𝛾.𝑗𝑘. 𝑦…2
𝑆𝑆𝐵𝐶 = ∑ ∑ − − 𝑆𝑆𝐵 − 𝑆𝑆𝐶 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐵 − 𝑆𝑆𝐶
𝑎𝑛 𝑎𝑏𝑐𝑛
𝑗=1 𝑘=1
 Sumas de cuadrados debida a la interacción entre los tres factores, A, B y C tiene
por expresión:

𝑎 𝑏 𝐶 2
𝛾𝑖𝑗𝑘. 𝑦…2
𝑆𝑆𝐴𝐵𝐶 = ∑ ∑ ∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐶 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴𝐶 − 𝑆𝑆𝐵𝐶 =
𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝐾=1

= 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵𝐶) − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐶 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴𝐶 − 𝑆𝑆𝐵𝐶

 Sumas de cuadrados debida al error, con abc(n-1) grados de libertad, su expresión


viene dada por:

𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵𝐶)


La tabla del análisis de varianza se presenta en el cuadro siguiente, las pruebas F para los efectos
principales y las interacciones se siguen directamente de los cuadrados medios esperados:

De los contrastes planteados, se rechaza la hipótesis nula a un nivel de significación 𝛼, cuando


𝐹0 > 𝐹𝛼,𝑣1 ,𝑣2
En el cuadro siguiente tenemos los cuadrados medios esperados:

Bajo las hipótesis nulas planteadas, todas estas cantidades coinciden con la varianza 𝛼 2 de la
componente de error. En cambio, cuando dichas hipótesis no se cumplen la magnitud de estas
cantidades aumenta. De hecho, si se considera el cociente entre cada una de las variabilidades
debidas a los factores principales y las interacciones y la media de cuadrados debida al error, se
obtiene que dichos cocientes aumentan en magnitud cuando nos alejamos de la hipótesis nula.
A2. TRABAJO
Elaborar un resumen sobre: Ajuste de curvas y superficies de respuesta.

1.- INTRODUCCIÓN
Resultar útil ajustar una curva de respuesta a los niveles de un factor cuantitativo para que el
investigador cuente con una ecuación que relacione la respuesta con el factor. Esta ecuación
podría utilizarse para hacer interpolaciones, es decir, para predecir la respuesta en niveles
intermedios entre los factores, respecto de los que se utilizaron realmente en el experimento.
Cuando al menos dos de los factores son cuantitativos, puede ajustarse una superficie de respuesta
para predecir y con varias combinaciones de los factores del diseño. En general, se usan métodos
de regresión lineal para ajustar estos modelos a los datos experimentales. Se suele utilizar un
paquete de software para generar los modelos de regresión, como SPSS, R, etc.

Cabe destacar la metodología de superficies de respuesta (RSM), como el enfoque de


optimización más exitoso y generalizado. En general, se usan métodos de regresión lineal para
ajustar estos modelos a los datos experimentales. Además, los efectos de los factores cuantitativos
pueden representarse con efectos polinomiales con un solo grado de libertad. De manera similar,
es posible hacer la partición de las interacciones de factores cuantitativos en componentes de
interacción con un solo grado de libertad.

El enfoque usual es utilizar el diseño de experimentos para determinar cuáles variables


están influenciando la respuesta de interés. Una vez que dichas variables son identificadas, se
obtiene un estimado aproximado de la superficie de respuesta por medio de modelos factoriales
especiales. Esta superficie de respuesta se usa como guía para variar gradualmente los factores
controlables que afectan la respuesta de manera tal que se mejore el valor de la respuesta. Una
vez que el cambio de los factores controlables no origine una mejora predecible en la variable de
la respuesta, se puede aplicar un método de experimentación más sofisticado para encontrar la
superficie de respuesta operativa final del proceso de interés.
2.- AJUSTE DE CURVAS Y SUPERFICIES DE RESPUESTA. MODELOS DE
PRIMER Y SEGUNDO ORDEN
 Definición:
La Metodología para el Ajuste de Curvas y Superficies de Respuesta es un conjunto de técnicas
matemáticas y estadísticas utilizadas para modelar y analizar problemas en los que una variable
de interés es influenciada por otras.
El objetivo es optimizar la variable de interés. Esto se logra al determinar las condiciones óptimas
de operación del sistema.
 Definición:
Los factores son las condiciones del proceso que influencian la variable de respuesta. Estos
pueden ser cuantitativos o cualitativos.
Definición:

La Respuesta, es una cantidad medible cuyo valor se ve afectado al cambiar los niveles de los
factores. El interés principal es optimizar dicho valor.

Al decir que un valor de respuesta Y depende de los niveles x1 , ..., xk de k factores,


A1 , ..., Ak, estamos diciendo que existe una función matemática de x1 , ..., xk (que llamaremos
función de respuesta), cuyo valor para una combinación dada de los niveles de los factores
corresponde a Y, es decir:
Y=f(x1, ..., xk )
La función de respuesta se puede representar con una ecuación polinomial. El éxito depende de
que la respuesta se pueda ajustar a un polinomio de primer o segundo grado.
Supongamos que la función de respuesta para los niveles de dos factores se puede expresar
utilizando un polinomio de primer grado:

𝑌 = 𝛽0 + 𝛽1 ∗ 𝑋1 + 𝛽2 ∗ 𝑋2
Donde 𝛽0 + 𝛽1 + 𝛽2 son los coeficientes de regresión a estimar, X1 y X1 representan los
niveles de A1 y A2 respectivamente. Suponiendo que se recolectan N≥3 valores de respuesta
̂0 , 𝛽
(Y), con los estimadores 𝛽 ̂1 𝑦 𝛽
̂2 se obtienen 𝛽0 , 𝛽1 𝑦 𝛽2 respectivamente. Al remplazar los
coeficientes de regresión por sus estimadores obtenemos:

̂0 + 𝛽
𝑌̂ = 𝛽 ̂1 ∗ 𝑋1 + 𝛽
̂2 ∗ 𝑋2

Donde 𝑌̂ denota el valor estimado de Y dado porX1 y X2.


La relación Y= f ( X1, ..., X k ) entre Y y los niveles de los k factores A1 , ..., Ak representa
una superficie. Con k factores la superficie está en k+1 dimensiones. Por ejemplo cuando se
tiene Y=f (X1 ) la superficie esta en dos dimensiones:

Si tenemos Y=f(X1, X2) la superficie está en tres dimensiones:


Nota:
La gráfica de contornos facilita la visualización de la forma de una superficie de respuesta en tres
dimensiones. En ésta las curvas de los valores iguales de respuesta se grafican en un plano donde
los ejes coordenados representan los niveles de los factores. Cada curva representa un valor
específico de la altura de la superficie, es decir un valor específico de 𝑌̂.
La región experimental especifica la región de valores para los niveles de los factores.
Esto se puede hacer empleando los niveles actuales de operación para cada factor, si se desea
explorar el vecindario se incrementa y disminuye el valor del nivel en una cantidad determinada.

2.1. - MODELOS DE PRIMER ORDEN

Generalmente se desconoce la relación entre la respuesta y las variables independientes, por ello
requerimos un modelo que aproxime la relación funcional entre Y y las variables
independientes. Si la respuesta se describe adecuadamente por una función lineal de las
variables independientes se utiliza el modelo de primer orden (Cornell (1990)):

𝑌 = 𝛽0 + 𝛽1 ∗ 𝑋1 + ⋯ + 𝛽𝑘 ∗ 𝑋𝑘 + 𝜀

Los parámetros del modelo se estiman mediante el método de mínimos cuadrados. Una vez que
se tienen los estimadores se sustituyen en la ecuación y obtenemos el modelo ajustado (Cornell
(1990)):
̂0 + 𝛽
𝑌̂ = 𝛽 ̂1 ∗ 𝑋1 + ⋯ + 𝛽
̂𝑘 ∗ 𝑋𝑘

Este modelo se utiliza cuando queremos estudiar el comportamiento de la variable de respuesta


únicamente en la región y cuando no conocemos la forma de la superficie.
Prueba de la significancia de los coeficientes estimados en el modelo ajustado:

De acuerdo a Cornell (1990), para estimar los coeficientes se requieren N≥k+1 valores
de respuesta (Y). Se necesita del siguiente análisis de varianza:
La variación total, suma de cuadrados total SST, se calcula de la forma:
𝑁

𝑆𝑆𝑇 = ∑(𝑌𝑖 − 𝑌̂)2


𝑖=1

Donde Yi es el valor i-ésimo observado.


La suma de cuadrados se compone por la suma de cuadrados debido a la regresión y la suma de
cuadrados no tomada en cuenta por el modelo ajustado. La fórmula de la suma de cuadrados
debido a la regresión es (Cornell (1990)):
𝑁

𝑆𝑆𝑅 = ∑(𝑌̂𝑖 − 𝑌̅)2


𝑖=1

La suma de cuadrados residual, se calcula de la siguiente forma (Cornell (1990)):


𝑁

𝑆𝑆𝐸 = ∑(𝑌̂𝑖 − 𝑌)2


𝑖=1

En la siguiente tabla, se tiene el análisis de varianza, en ella a


representa el número de términos del modelo ajustado:

La prueba de significación de la ecuación de regresión ajustada tiene la siguiente hipótesis nula:


𝐻0 : 𝛽0 = 𝛽1 = 𝛽𝑘 = 0
Contra la alternativa:
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 𝑗 𝑐𝑜𝑛 𝛽𝑗 ≠ 0
La prueba supone que el error se comporta normalmente, en ésta se utiliza el estadístico
de prueba F, el cuál se calcula de la forma:
𝑠𝑠𝑅
𝑆𝑆𝑅 (𝑁 − 𝑎)
𝐹 = −1 =
𝑎
𝑆𝑆𝐸 𝑆𝑆𝐸 (𝑎 − 1)
𝑁−𝑎
Este se compara con una 𝐹𝑎−1,𝑁−𝑎 . Si F calculada excede este valor la hipótesis nula se rechaza
con un nivel de confianza α.
Esto significa que la variación explicada por el modelo es significativamente mayor que la
variación inexplicable.
Además de esta prueba se puede hacer un análisis del ajuste del modelo con la R2, que es la
proporción total de la variación de las observaciones con respecto a la media que se puede explicar
con la ecuación de regresión ajustada. Esta se calcula de la siguiente manera:
𝑆𝑆𝑅
𝑅2 =
𝑆𝑆𝑇
Prueba de falta de ajuste:

La falta de ajuste se presenta por la no planaridad o la curvatura de la superficie de respuesta.


Requiere que el diseño del experimento satisfaga una serie de requisitos:
1. El número de los distintos puntos del diseño, n, debe exceder el número de
términos en el modelo ajustado, es decir n>k+1.
2. Al menos 2 réplicas deben encontrarse en uno o más puntos del diseño para estimar la
varianza del error.
Además, los valores del error aleatorio, deben asumir una distribución normal e independiente
con una varianza común α2.
Al cumplirse las condiciones 1 y 2, la suma de cuadrados residual se compone de dos fuentes de
variación. La primera es la falta de ajuste del modelo ajustado (debido a la exclusión de términos
de mayor orden) y la segunda es la variación del error puro. Para calcularlas necesitamos la suma
de cuadrados calculada de las réplicas que recibe el nombre de error puro de la suma de cuadrados
y sustraer de la suma de cuadrados residual éste para obtener la suma de cuadrados de la falta de
ajuste. Es decir (Cornell (1990)):
𝑛 𝑛

𝑆𝑆𝐸𝑃𝑈𝑅𝑂 = ∑ ∑(𝑌𝑖𝑙 − 𝑌̅𝑙 )2


𝑙=1 𝑖=1

Donde Yil es la i-ésima observación del l-ésimo punto del diseño, 𝑌̅1 es el promedio de las rl
observaciones del l-ésimo punto del diseño. Se tiene:
𝑆𝑆𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸 = 𝑆𝑆𝐸 − 𝑆𝑆𝐸𝑃𝑈𝑅𝑂
𝑛

𝑆𝑆𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸 = ∑ 𝑟𝑙 (𝑌̂𝑙 − 𝑌̅𝑙 )2


𝑙=1

𝑌̂𝑙 es el valor predicho de la respuesta en el l-ésimo punto del diseño. La prueba de adecuación
del modelo ajustado es:
𝑠𝑠𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸
𝑛−𝑎 𝑆𝑆𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸 (𝑁 − 𝑛)
𝐹= =
𝑆𝑆𝐸𝑃𝑈𝑅𝑂 𝑆𝑆𝐸𝑃𝑈𝑅𝑂 (𝑛 − 𝑎)
𝑁−𝑁
La hipótesis de suficiencia de ajuste con un nivel a de significancia se rechaza cuando el valor
calculado del estadístico es mayor a 𝐹𝑛−𝑎,𝑁−𝑛𝑎 ,
2
Cuando la F calculada no es mayor el cuadrado medio residual es utilizado para estimar y
para probar la significancia del modelo ajustado. Si hipótesis de suficiencia de ajuste se
rechaza, se debe de elevar el grado del modelo aumentando
términos de producto cruzado y/o términos de mayor grado en x1 , ..., xk. Si se requieren
puntos adicionales para estimar todos los coeficientes éstos se añaden. Se colectan los datos y se
vuelve a hacer el análisis.
Si no se rechaza la hipótesis podemos inferir que la superficie es plana. Una vez que se tiene la
ecuación y se ha probado el ajuste se buscan niveles que mejoren los valores de respuesta.

Método de máxima pendiente en ascenso.


Frecuentemente la estimación inicial de las condiciones de operación óptimas está alejada del
óptimo real, en este caso se desea moverse rápidamente a la vecindad del óptimo. El método de
máxima pendiente en ascenso es un procedimiento para recorrer secuencialmente la
trayectoria de la máxima pendiente, que nos lleva en dirección del máximo aumento de la
respuesta. Cuando se desea la minimización se habla de mínima pendiente en descenso.
De acuerdo a Montgomery (1991), la dirección de ascenso máximo es en la que Y aumenta más
rápido, ésta es paralela a la normal de la superficie de respuesta ajustada.
Los incrementos a lo largo de la trayectoria son proporcionales a los coeficientes de regresión
𝛽0 , 𝛽1 , … , 𝛽𝑘 .
Los experimentos se llevan a cabo hasta que deje de observarse un incremento en la respuesta,
entonces se ajusta un nuevo modelo de primer orden con el que se determina una nueva trayectoria
y se continua con el procedimiento. Finalmente, se consigue llegar a la cercanía del óptimo, esto
ocurre cuando existe falta de ajuste del modelo de primer orden.

2.2. - POLINOMIO DE SEGUNDO ORDEN


El modelo de segundo orden es el siguiente (Cornell (1990)):
𝑘 𝑘 𝑘

𝑌 = 𝛽0 + ∑ 𝛽𝑖 ∗ 𝑋𝑖 + ∑ 𝛽𝑖𝑖 ∗ 𝑋𝑖2 + + ∑ ∑ 𝛽𝑖𝑗 ∗ 𝑋𝑖 ∗ 𝑋𝑗 + 𝜀


𝑖=1 𝑖=1 𝑗=1 𝑖<𝑗

Los 𝛽𝑖 son los coeficientes de regresión para los términos de primer orden, los 𝛽𝑖𝑖 son los
coeficientes para los términos cuadráticos puros, los 𝛽𝑖𝑗 son los coeficientes para los términos de
producto cruzado y 𝜀 es el término del error aleatorio.
Los términos cuadráticos puros y los de producto cruzados son de segundo orden. El número de
términos en la ecuación esta dado por:
(𝐾 + 1)(𝑘 + 2)
𝑎=
2
Los parámetros del modelo se estiman mediante el método de mínimos cuadrados.
Una vez que se tienen los estimadores se sustituye n en la ecuación y obtenemos el modelo
ajustado en el vecindario del valor óptimo de la respuesta:

𝑘 𝑘 𝑘

𝑌̂ = 𝛽̂0 + ∑ 𝛽̂𝑖 ∗ 𝑋𝑖 + ∑ 𝛽̂𝑖𝑖 ∗ 𝑋𝑖2 + + ∑ ∑ 𝛽̂𝑖𝑗 ∗ 𝑋𝑖 ∗ 𝑋𝑗


𝑖=1 𝑖=1 𝑗=1 𝑖<𝑗

La significancia de los coeficientes estimados y el ajuste del modelo se prueban con el estadístico
F, con la fórmula ya vista anteriormente.

Una vez que se ha verificado que el modelo tiene suficiencia de ajuste y que los coeficientes son
significativos, se procede a localizar las coordenadas del “punto estacionario” y se lleva a cabo
un análisis más detallado del sistema de respuesta.

Localización del punto estacionario

Suponiendo que se desea maximizar la respuesta, el máximo (si es que existe), será el conjunto
X1 , ..., Xk tal que las derivadas parciales

𝜕𝛾̂ 𝜕𝛾̂
=⋯= =0
𝜕𝑥1 𝜕𝑥𝑘

Dicho punto, se denomina punto estacionario. El punto estacionario puede ser:


a) Un punto de respuesta máxima
b) Un punto de respuesta mínima
c) Un punto silla.
Podemos obtener el punto estacionario usando la notación matricial para el modelo de segundo
orden (Montgomery (1991)):
𝑌̂ = 𝛽̂0 + 𝑥 ′ 𝑏 + 𝑥 ′ 𝐵𝑥
Donde:
𝛽̂12 𝛽̂1𝑘
𝛽̂11 2 ⋯ 2
𝑥1 𝛽̂1 𝛽̂21 ̂ ̂
𝛽
𝑥
𝑥 = ( 2)
̂
𝑏 = 𝛽2 𝐵= 2 𝛽22 ⋯ 22𝑘
⋮ ⋮ ⋮ ⋱ ⋮
𝑥𝑘 ̂
(𝛽𝑘 ) 𝛽̂𝑘1 𝛽̂𝑘2
2 2 𝛽̂𝑘𝑘
( )
La derivada de 𝑌̂ con respecto al vector x igualada a cero es:
𝜕𝛾̂
= 𝑏 + 2𝐵𝑥 = 0
𝜕𝑥
1
𝑥0 = − 𝐵 −1 𝑏
2
Sustituyendo ésta en la ecuación matricial para el modelo de segundo orden, tenemos:
1
𝛾̂0 = 𝛽̂0 + 𝑥0′ 𝑏
2
Caracterización de la superficie de respuesta
Encontrado el punto estacionario, es necesario caracterizar la superficie de respuesta, es decir,
determinar si se trata de un punto de respuesta máximo, mínimo o silla. La forma directa de hacer
esto es mediante la gráfica de contornos del modelo ajustado, sin embargo es útil un análisis más
formal.

3. DISEÑOS EXPERIMENTALES PARA AJUSTAR SUPERFICIES DE RESPUESTA. El


ajuste y análisis de una superficie de respuesta se facilita con la elección apropiada de un diseño
experimental.
Un diseño es el conjunto específico de combinaciones de los niveles de las k variables que se
utilizará al llevar a cabo el experimento.
3.1 DISEÑOS PARA AJUSTAR MODELOS DE PRIMER ORDEN.
Una clase única de diseños que minimizan la varianza de los coeficientes de 𝛽̂𝑖 , son los diseños
ortogonales de primer orden. Por ortogonal se entiende que los elementos fuera de la diagonal de
la matriz x' x son iguales a cero, lo cual implica que los productos cruzados de las columnas de
la matriz x es igual a cero. En esta clase de diseños ortogonales de primer orden se incluyen:
1. Diseños factoriales 2k
2. Fracciones de la serie 2k
3. Diseños simplex
4. Diseños Placket-Burman
3.2 DISEÑOS PARA AJUSTAR MODELOS DE SEGUNDO ORDEN.

Un diseño experimental para ajustar un modelo de segundo orden debe tener al menos tres niveles
de cada factor (-1, 0, +1). Así como en el diseño de primer orden se desea la ortogonalidad, en
éste se desea que sea un diseño rotable. Se dice que un diseño es rotable cuando la varianza de la
respuesta predicha en algún punto es función sólo de la distancia del punto al centro y no es una
función de la dirección.
Dentro de los diseños rotables de segundo orden se incluyen:
1. Diseño central compuesto
2. Diseño equirradial
3. Diseños Box-Behnken

Documentación: Cornell (1990) y Montgomery (1991).


A3. ANÁLISIS DE DATOS

El modelo matemático que planteamos es el siguiente:

𝑦𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑖 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 𝑖 = 1,2 𝑗 = 1,2,3,4,5 𝑘 = 1,2

Con
𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑀𝑎𝑡𝑒𝑟𝑖𝑎𝑙
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Considerando los efectos fijos, se tiene:


𝑎 𝑏 𝑏 𝑎

∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1

Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio1.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_MATERIAL
y EFEC_TRATAMIENTO como los efectos del problema y la variable DESGASTE como
variable dependiente.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un
modelo de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por
lo que se realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se
obtiene la siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de,
EFEC_MATERIAL,EFEC_TRATAMIENTO y (EFEC_MATERIAL*EFEC_TRATAMIENTO) que
corresponde a la variabilidad debida a los efectos de cada uno de los factores y de la interacción
entre ambos.
Las preguntas que nos planteamos y que podemos dar respuesta con la tabla de ANOVA obtenida
son: ¿Son los materiales igual de resistentes? ¿Y los tratamientos son igual de efectivos? La
efectividad de los tratamientos, ¿es la misma para todos los materiales?.
Para ello observamos el valor del estadístico (Fexp= 0.541) que contrasta la hipótesis
correspondiente a la interacción entre ambos factores:
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1,2 𝑗 = 1,2,3,4,5
Dicho valor deja a la derecha un Sig. = 0.71, mayor que el nivel de significación 0.05. Por lo
tanto la interacción entre ambos factores no es significativa y debemos eliminarla del
modelo.

Construimos de nuevo la Tabla ANOVA en la que sólo figurarán los efectos principales. Para ello
en la ventana Univariante, pinchamos en Modelo e indicamos en la salida correspondiente que es
un modelo aditivo. Se obtiene la siguiente Tabla:

Esta tabla muestra dos únicas fuentes de variación, los efectos principales de los dos factores, y
se ha suprimido la interacción entre ambos. Se observa que el valor de la Suma de Cuadrados del
error de este modelo es de 74,2. Observando los valores de los p-valores, 0.000 y 0.01 asociados
a los contrastes principales, se deduce que los dos efectos son significativos a un nivel de
significación del 5%. Deducimos que ni el material utilizado es el mismo, ni la efectividad de los
tratamientos, pero dicha efectividad no depende del tipo de material con el que se trabaje ya que
la interacción no es significativa.
Con el fin de determinar qué material es el mejor utilizamos el método de Tukey, para ello en la
ventana Univariante seleccionamos Post_hoc…, se obtiene la siguiente tabla:

La tabla nos muestra tres subconjuntos homogéneos, el primero está formado por los materiales
E y A; esto nos indica que no se aprecian diferencias significativas entre ellos. El segundo
subconjunto homogéneo está formado por el material C y el tercero por los materiales D y B,
indicándonos, como en el primero caso que no hay diferencias significativas entre estos
dos tipos de materiales. Sin embargo si hay diferencias significativas entre todos los
subconjuntos, siendo los materiales D y B significativamente más efectivo que el resto (sus
desgastes presentan cantidades de 44 y 45.25 respectivamente, superior a los obtenidos con los
otros materiales).

ESTUDIO DE LOS RESIDUOS

En este apartado vamos a comprobar que se verifican los supuestos de normalidad,


homocedasticidad (igualdad de varianzas) y linealidad, estos supuestos resultan necesarios para
validar el diseño. Utilizaremos el análisis de los residuos para realizar los contrastes a posteriori
de dichas hipótesis del modelo.

Normalidad

Podemos comprobarla de forma gráfica o analíticamente, gráficamente podemos estudiar el


gráfico probabilístico normal, Para obtener dicho gráfico seleccionamos
Analizar/Estadísticos descriptivos/Gráficos Q-Q... , obtenemos lo siguiente:
El Gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad. Lo conformamos
de forma analística mediante el contraste de Kolmogorov-Smirnov:

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.53) y el valor del p- valor asociado (0.942). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.

Homocedasticidad e Independencia

Mediante la gráfico de los residuos:


Los residuos son independientes, puesto que el gráfico correspondiente a la relación entre los
valores pronosticados y los residuos tipificados no muestran ninguna pauta de variación
sistemática. Por otro lado, podemos confirmar la homogeneidad de las varianzas puesto que, como
se observa en el gráfico, la dispersión de los residuos tipificados es similar a lo largo de todos los
valores pronosticados, no apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.

Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.
El modelo matemático que planteamos es el siguiente:
𝑦𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 𝑖 = 1,2 𝑗 = 1,2,3 𝑘 = 1,2
Con
𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴𝑛𝑡𝑖𝑔𝑢𝑒𝑑𝑎𝑑
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑇𝑎𝑚𝑎ñ𝑜 𝐷𝑒𝑝𝑎𝑟𝑡𝑜
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Considerando los efectos fijos, se tiene:


𝑎 𝑏 𝑏 𝑎

∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1

Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio2.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_ANTIG y
EFEC_DEPART como los efectos del problema y la variable ABSENTISMO como variable
dependiente.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un modelo
de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por lo que se
realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se obtiene la
siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de,
EFEC_ANTIG, EFEC_DEPART y (EFEC_ANTIG*EFEC_DEPART) que corresponde a
la variabilidad debida a los efectos de cada uno de los factores y de la interacción entre ambos.
Observamos el valor del estadístico correspondiente a la interacción entre ambos factores es
Fexp= 2.192 que contrasta la hipótesis correspondiente a la interacción entre ambos factores:
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 i=1,2 j=1,2,3
Dicho valor deja a la derecha un Sig. = 0.122, mayor que el nivel de significación 0.05. Por lo
tanto la interacción entre ambos factores no es significativa y debemos eliminarla del
modelo.
Construimos de nuevo la Tabla ANOVA en la que sólo figurarán los efectos principales. Para ello
en la ventana Univariante, pinchamos en Modelo e indicamos en la salida correspondiente que es
un modelo aditivo. Se obtiene la siguiente Tabla:

Esta tabla muestra dos únicas fuentes de variación, los efectos principales de los dos factores, y
se ha suprimido la interacción entre ambos. Se. Observando los valores de los p-valores, 0.000 y
0.014 asociados a los contrastes principales, se deduce que los dos efectos son significativos a un
nivel de significación del 5%. Deducimos así que la interacción entre la antigüedad y el tamaño
de los departamentos no es significativa. Con el fin de determinar qué Departamento influye más
en el absentismo, utilizamos el método de Tukey, para ello en la ventana Univariante
seleccionamos Post_hoc…, se obtiene la siguiente tabla:

La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por los
Departamentos pequeños y medianos; esto nos indica que no se aprecian diferencias significativas
entre ellos. El segundo subconjunto homogéneo está formado por el Departamento grande,
indicándonos, que hay diferencias significativas entre los subconjuntos, siendo el Departamento
grande significativamente más efectivo que el resto (su absentismo es de 11.05, superior a
los obtenidos con los otros departamentos de 2.45 y 5 respectivamente).
ESTUDIO DE LOS RESIDUOS
En este apartado vamos a comprobar que se verifican los supuestos de normalidad,
homocedasticidad (igualdad de varianzas) y linealidad, estos supuestos resultan necesarios para
validar el diseño. Utilizaremos el análisis de los residuos para realizar los contrastes a posteriori
de dichas hipótesis del modelo.

Normalidad
Podemos comprobarla de forma gráfica o analíticamente, gráficamente podemos estudiar el
gráfico probabilístico normal, Para obtener dicho gráfico seleccionamos
Analizar/Estadísticos descriptivos/Gráficos Q-Q... , obtenemos lo siguiente:

El Gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad. Lo conformamos
de forma analística mediante el contraste de Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.721) y el valor del p-valor asociado (0.676). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.

Homocedasticidad e Independencia

Mediante la gráfico de los residuos:

Los residuos son independientes, puesto que el gráfico correspondiente a la relación entre los
valores pronosticados y los residuos tipificados no muestran ninguna pauta de variación
sistemática. Por otro lado, podemos confirmar la homogeneidad de las varianzas puesto que, como
se observa en el gráfico, la dispersión de los residuos tipificados es similar a lo largo de todos los
valores pronosticados, no apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.

Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.
El modelo matemático que planteamos es el siguiente:

𝑦𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 𝑖 = 1,2,3 𝑗 = 1,2,3 𝑘 = 1,2,3,4


Con

𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙


𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑀𝑎𝑡𝑒𝑟𝑖𝑎𝑙
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Considerando los efectos fijos, se tiene:


𝑎 𝑏 𝑏 𝑎

∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1

Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio3.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_MATERIAL
y EFEC_TEMP como los efectos del problema y la variable DURACION_BAT como
variable dependiente.

Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un modelo


de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por lo que se
realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se obtiene la
siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de ,
EFEC_MATERIAL, EFEC_TEMP y (EFEC_MATERIAL * EFEC_TEMP) que corresponde
a la variabilidad debida a los efectos de cada uno de los factores y de la interacción entre ambos:
Observamos en el cuadro anterior los valores obtenidos de los estadísticos y p-valores
correspondiente a los contrastes con hipótesis nulas:
𝐻0 : 𝜏1 = ⋯ = 𝜏3 = 0
𝐻0 : 𝛽1 = ⋯ = 𝛽3 = 0
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1,2,3 𝑗 = 1,2,3
Todos los p-valores obtenidos son menores que el nivel de significación 0,05. Por lo tanto se
rechazan las hipótesis nulas anteriores y todos son significativos para el modelo. Deducimos así
que la interacción entre el material y la temperatura es significativa.
Con el fin de determinar qué Material influye más en el tiempo de duración, utilizamos el método
de Tukey, para ello en la ventana Univariante seleccionamos Post_hoc…, se obtiene la siguiente
tabla:

La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por los Materiales
1 y 2; esto nos indica que no se aprecian diferencias significativas entre ellos. El segundo
subconjunto homogéneo está formado por el 2 y 3, indicándonos, que hay diferencias
significativas entre los materiales 1 y 3, siendo el material 3 significativamente más efectivo que
el resto (su tiempo de duración es de 125.08, superior a los obtenidos con los otros materiales).

Con el fin de determinar qué Temperatura influye más en el tiempo de duración, utilizamos el
método de Tukey, para ello en la ventana Univariante seleccionamos Post_hoc…, se obtiene la
siguiente tabla:

La tabla nos muestra tres subconjuntos homogéneos, el primero está formado por la temperatura
de 125 grados, el segundo subconjunto homogéneo está formado por la temperatura de 70 grados
y el último subconjunto por la de 15 grados, indicándonos, que hay diferencias significativas entre
las tres temperaturas, siendo la temperatura de 15 grados significativamente más efectiva que el
resto (su tiempo de duración es de 144.83, superior a los obtenidos con las otras temperaturas).

Para realizar un estudio de la interacción conjunta de los dos factores representamos el gráfico de
perfil:
Aparecen representadas las medias en horas de la duración de las baterías, calculadas en
cada subgrupo resultante de combinar cada nivel de la variable material con cada nivel de la
variable temperatura. En la gráfica queda claro que el número medio de hora es mayor cuando la
temperatura es de 15, siendo mayor para el material 2, por el contrario el menor número de horas
lo presenta la temperatura 125 y menor aún para el material 2. Este gráfico nos proporciona
información del significado de esta interacción

ESTUDIO DE LOS RESIDUOS


En este apartado vamos a comprobar que se verifican los supuestos de normalidad,
homocedasticidad (igualdad de varianzas) y linealidad, estos supuestos resultan necesarios para
validar el diseño. Utilizaremos el análisis de los residuos para realizar los contrastes a posteriori
de dichas hipótesis del modelo.

Normalidad
Podemos comprobarla de forma gráfica o analíticamente, gráficamente podemos estudiar el
gráfico probabilístico normal, Para obtener dicho gráfico seleccionamos
Analizar/Estadísticos descriptivos/Gráficos Q-Q... , obtenemos lo siguiente:

El Gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad. Lo conformamos
de forma analística mediante el contraste de Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.631) y el valor del p-valor asociado (0.821). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.

Homocedasticidad e Independencia
Mediante la gráfico de los residuos:

Los residuos son independientes, puesto que el gráfico correspondiente a la relación entre los
valores pronosticados y los residuos tipificados no muestran ninguna pauta de variación
sistemática. Por otro lado, podemos confirmar la homogeneidad de las varianzas puesto que, como
se observa en el gráfico, la dispersión de los residuos tipificados es similar a lo largo de todos los
valores pronosticados, no apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.

Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.

Consideremos la misma situación anterior pero ahora los datos son incompletos puesto que
sólo tenemos disponible una muestra aleatoria, vamos a trabajar en el SPSS pero ahora con el tipo
IV para las sumas de cuadrados se obtiene los mismos resultados.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un modelo
de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por lo que se
realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se obtiene la
siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de ,
EFEC_MATERIAL, EFEC_TEMP y (EFEC_MATERIAL * EFEC_TEMP) que corresponde
a la variabilidad debida a los efectos de cada uno de los factores y de la interacción entre ambos:

Observamos en el cuadro anterior que los valores obtenidos son los mismos que en el ejercicio 3,
por lo que:
Todos los p-valores obtenidos son menores que el nivel de significación 0,05. Por lo tanto se
rechazan las hipótesis nulas anteriores y todos son significativos para el modelo. Deducimos así
que la interacción entre el material y la temperatura es significativa.
Las conclusiones que obtengamos son las mismas que para el ejercicio 3, con lo cual llegamos a
la conclusión que podemos trabajar con muestras aleatorias simples para hacer inferencia sobre
datos de los que no conocemos todos los valores que los compone.

Anda mungkin juga menyukai