1.- Deducir el cálculo de las cantidades 𝑺𝑺𝑨𝑩 y 𝑺𝑺𝑬 en términos de las cantidades
𝑺𝑺𝑻 , 𝑺𝑺𝑨 y
𝑎 𝑏 2
𝑦𝑖𝑗 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 = ∑ ∑ −
𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1
Continuando con los datos facilitados en el tema 6, sabemos que se cumple la siguiente
igualdad:
𝑎 𝑏 𝑛 𝑎 𝑏 𝑎 𝑏
2 2 2 2
∑ ∑ ∑(𝑦𝑖𝑗𝑘 − ̅̅̅̅̅
𝑦 … ) = 𝑏𝑛 ∑(𝑦
̅̅̅
𝑖.. − ̅̅̅)
𝑦… + 𝑎𝑛 ∑(𝑦
̅̅̅.𝑗.̅ − ̅̅̅)
𝑦… + 𝑛 ∑ ∑(𝑦
̅̅̅̅
𝑖𝑗. − ̅̅̅
𝑦𝑖.. − ̅𝑦̅̅.𝑗.̅ + ̅̅̅)
𝑦…
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑎 𝑏 𝑛
2
+ ∑ ∑ ∑(𝑦𝑖𝑗𝑘 − 𝑦̅)
𝑖=1 𝑗=1 𝑘=1
Puesto que los productos cruzados son cero, se tiene que:
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐸
Siendo:
Suma de cuadrados totales: con abn-1 grados de libertad, su expresión viene dada
por:
𝑎 𝑏 𝑛
2 𝑦. .2
𝑆𝑆𝑇 = ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 −
𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑘=1
Sumas de cuadrados de los efectos principales, con a-1 y b-1 grados de libertad
cada una, sus expresiones vienen dadas por:
𝑎 𝑏
1 𝑦…2 1 𝑦…2
𝑆𝑆𝐴 = ∑ 𝑦𝑖..2 − 𝑆𝑆𝐵 = 2
∑ 𝑦.𝑗. −
𝑏𝑛 𝑎𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1
Sumas de cuadrados debida a la interacción entre A y B, con (a-1)(b-1) grados
de libertad, su expresión viene dada por:
𝑎2 𝑏 𝑎 𝑏
𝑦𝑖𝑗. 1 1 𝑦…2
𝑆𝑆𝐴𝐵 = ∑∑ − ∑ 𝑦𝑖..2 − 2
∑ 𝑦.𝑗. −
𝑛 𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Sumas de cuadrados debida al error, con ab(n-1) grados de libertad, su expresión
viene dada por:
𝑎 𝑏 𝑛 𝑎 𝑏
2 1 2
𝑆𝑆𝐸 = ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 − ∑ ∑ 𝑦𝑖𝑗.
𝑛
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1
Para obtener otra expresión, consideramos la suma de cuadrados entre los totales de las ab
celdas, a la que se denomina suma de cuadrados debida a los "subtotales" y
cuya fórmula viene dada en el enunciado:
𝑎 𝑏 2
𝑦𝑖𝑗 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 = ∑ ∑ −
𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1
Entonces:
𝑎 𝑏 2 𝑎 𝑏
𝑦…2 𝑦𝑖𝑗
1 𝑦…2 1 𝑦…2
𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = ∑ ∑ − − [ ∑ 𝑦𝑖..2 − 2
] − [ ∑ 𝑦.𝑗. − ]=
𝑛 𝑎𝑏𝑛 𝑏𝑛 𝑎𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑎 𝑏 2 𝑎 𝑏
1 𝑦𝑖𝑗 1 𝑦…2
= ∑∑ − ∑ 𝑦𝑖..2 − 2
∑ 𝑦.𝑗. − = 𝑆𝑆𝐴𝐵
𝑛 𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Luego:
𝑆𝑆𝐴𝐵 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
Si hacemos un sistema de ecuaciones con las dos expresiones de las sumas de cuadrados que
hemos obtenido, obtenemos que:
𝑆𝑆 = 𝑆𝑆𝑠𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
{ 𝐴𝐵 }
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐸
Así pues:
Una forma de emplear estas curvas consiste en encontrar el valor menor de 2 que corresponde
a una diferencia especificada entre las medias de dos tratamientos cualesquiera:
Si la diferencia en las medias de dos renglones cualesquiera es D, entonces el valor
mínimo de Φ2 es:
𝑛𝑏𝐷 2
𝜙2 =
2𝑎𝜎 2
Donde D denota diferencia entre dos efectos medios del factor A
Si la diferencia en las medias de dos columnas cualesquiera es D, entonces el valor
mínimo de Φ2 es:
𝑛𝑎𝐷 2
𝜙2 =
2𝑏𝜎 2
Donde D denota diferencia entre dos efectos medios del factor B
Si la diferencia corresponde a una diferencia entre dos factores de interacción
cualesquiera, entonces el valor mínimo de Φ2 es:
𝑛𝐷 2
𝜙2 =
2𝜎 2 [(𝑎 − 1)(𝑏 − 1) + 1]
Donde D denota diferencia entre dos efectos medios del factor de interacción
La curva operativa se obtiene representando la probabilidad de aceptar la hipótesis nula frente a
los diferentes tamaños muestrales, para un error tipo I, α = 0, 05 en este caso.
En la tabla siguiente se muestra el valor apropiado del parámetro Φ2 , así como los grados de
libertad del numerador y el denominador:
En los gráficos siguientes ponemos como ejemplo las curvas de operación característica obtenidas
del apéndice V del libro de Douglas C. Montgomery, para el caso de grados de libertad del
numerador (𝑣1 ) 1 y 2, y diferentes valores de grados de libertad del denominador, en dicho
apéndice podemos encontrar más gráficas para los distintos valores de 𝑣1 .
Ejemplo:
Para ilustrar con un ejemplo, como podemos obtener el tamaño muestral mediante el uso de estas
curvas podemos poner un ejemplo, para un caso en el que consideramos la expresión (1) de las
curvas de operación característica, una desviación típica de 5, un valor de D=8 y en el que los
parámetros a y b toman el valor de 3, en tal caso, se tendría que:
2
𝑛𝑏𝐷 2 𝑛 ∗ 3 ∗ 82 .
𝜙 = = = 1,28𝑛 ⇒ Φ = √1,28𝑛
2𝑎𝜎 2 2 ∗ 3 ∗ 52
𝑣1 = 𝑎 − 1 = 2 𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑑𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟
𝑣2 = 𝑎𝑏(𝑛 − 1) = 9(𝑛 − 1)𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑑𝑒 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟
Dando distintos valores a n y buscando en el cuadro para 𝑣1 = 2, se tiene que:
Φ = 1,6
- Para n=2 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 9
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.45 (buscamos
que esta probabilidad sea pequeña).
Φ = 1,96
- Para n=3 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 18
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.18 (buscamos
que esta probabilidad sea aún más pequeña).
Φ = 2,26
- Para n=4 { 𝑣1 = 2
𝑣2 = 9(𝑛 − 1) = 27
Lo que implica una probabilidad de aceptar la hipótesis nula de 0.06 (podemos
aceptar esta probabilidad).
Podemos concluir que con 4 réplicas se obtiene una sensitividad deseada.
Para terminar con el ejercicio teórico-práctico, presentamos un cuadro donde consideramos
diferentes valores de los parámetros a y b que determinan los grados de libertad del numerador y
denominador y que pueden servir para futuros ejemplos como el anterior:
Para a=2 y b=3
∑ 𝜏𝑖 = 0 ∑ 𝛽𝑗 = 0
𝑖=1 𝑗=1
En un experimento de dos factores con una sola réplica, es decir, en los que sólo hay una
observación por celda, se tendría este modelo con ab observaciones.
Ahora bien, al examinar los cuadrados medios esperados, se observa que la varianza del error 𝜎 2
no es estimable, es decir, que el efecto de la interacción de los dos factores (𝜏𝛽)𝑖𝑗 y el error
experimental no pueden separarse de alguna manera obvia.
Por este motivo, no se cuenta con pruebas para los efectos principales a menos que el efecto de
la interacción sea cero. Luego entonces, (𝜏𝛽)𝑖𝑗 para cualquier valor de i y j.
Consecuente con lo anterior, tenemos que un experimento de dos factores, con una sola réplica,
es decir, en los que sólo hay una observación por celda, tiene por modelo estadístico plausible:
Se tiene que:
𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑆𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙
Si se define la interacción de esta forma, puede usarse el método de regresión para probar la
significancia de éste término. La prueba consiste en descomponer la suma de cuadrados
residuales en un componente de un solo grado de libertad debido a la no aditividad del modelo
(interacción) y en un componente para el error con:
(𝑎 − 1)(𝑏 − 1) − 1 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
Matemáticamente se tiene:
2
𝑦..2
[∑𝑎𝑖=1 ∑𝑏𝑗=1 𝑦𝑖𝑗 𝑦𝑖. 𝑦.𝑗 − 𝑦.. (𝑆𝑆𝐴 + 𝑆𝑆𝐵 + 𝑎𝑏 )]
𝑆𝑆𝑁 =
𝑎𝑏𝑆𝑆𝐴 𝑆𝑆𝐵
Con un grado de libertad, y
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 − 𝑆𝑆𝑁
Con (a–1)(b–1)–1 grados de libertad. Para probar la presencia de la interacción debe calcularse:
𝑆𝑆𝑁
𝐹0 =
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 /[(a– 1)(b– 1)– 1]
Si 𝐹0 > 𝐹𝛼,1,(𝑎−1)(𝑏−1)−1, la hipótesis de interacción nula debe rechazarse.
4.- Extender el análisis de la varianza bifactorial, desarrollado en el tema 6, al caso de
trifactorial.
Se considera el caso de diseños trifactoriales, donde hay tres factores A, B y C, con a, b y c niveles,
respectivamente, que influyen sobre la respuesta. El modelo estadístico viene dado por:
𝑦𝑖𝑗𝑘𝑙 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝛾𝑘 + (𝜏𝛽)𝑖𝑗 + (𝜏𝛽)𝑖𝑗 + (𝜏𝛾)𝑖𝑘 + (𝛽𝛾)𝑖𝑘 + (𝜏𝛽𝛾)𝑖𝑗𝑘 + 𝜀𝑖𝑗𝑘𝑙
𝑐𝑜𝑛 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐 𝑙 = 1, … , 𝑛
Donde:
Suponemos el caso en que A, B y C son fijos, cada réplica del experimento contiene todas las
posibles combinaciones de tratamientos, es decir, contiene los abc tratamientos posibles, luego se
tiene abcn observaciones.
Es de interés contrastar la igualdad entre los efectos de los tratamientos del factor A, B y C,
adicionalmente, es importante contrastar si existen interacciones significativas entre los
tratamientos de dos o de los tres factores. Las hipótesis que normalmente interesan contrastar son:
𝐻0 : 𝜏1 = ⋯ = 𝜏𝑎 = 0
𝐻0 : 𝛽1 = ⋯ = 𝛽𝑏 = 0
𝐻0 : 𝛾1 = ⋯ = 𝛾𝛾𝑏 = 0
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏
𝐻0 : (𝜏𝛾)𝑖𝑘 = 0 𝑖 = 1, … , 𝑎 𝑘 = 1, … , 𝑐
𝐻0 : (𝛽𝛾)𝑗𝑘 = 0 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐
𝐻0 : (𝜏𝛽𝛾)𝑖𝑗𝑘 = 0 𝑖 = 1, … , 𝑎 𝑗 = 1, … , 𝑏 𝑘 = 1, … , 𝑐
Frente a:
ANÁLISIS ESTADÍSTICO:
En la descomposición de la variación global en el modelo trifactorial de efectos fijos, así como
en la construcción de los estadísticos para el contraste de las hipótesis anteriores, se considerará
la siguiente notación:
𝑏 𝑐 𝑛 𝑎 𝑐 𝑛 𝑎 𝑏 𝑛
Siendo:
Sumas de cuadrados de los efectos principales, con a-1, b-1 y c-1 grados de
libertad cada una, sus expresiones vienen dadas por:
𝑎 𝑏 𝑐
1 𝑦…2 1 𝑦…2 1 𝑦…2
𝑆𝑆𝐴 = ∑ 𝛾𝑖..2 − 𝑆𝑆𝐵 = 2
∑ 𝛾.𝑗. − 𝑆𝑆𝐶 = 2
∑ 𝛾..𝑘. −
𝑏𝑐𝑛 𝑎𝑏𝑐𝑛 𝑎𝑐𝑛 𝑎𝑏𝑐𝑛 𝑎𝑏𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝑘=1
Sumas de cuadrados debida a las interacciones entre AyB, AyC, y ByC, sus
expresiones vienen dadas por:
𝑎 2 𝑏
𝛾𝑖𝑗.. 𝑦…2
𝑆𝑆𝐴𝐵 = ∑∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
𝑐𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1
𝑎 2 𝑐
𝛾𝑖.𝑘. 𝑦…2
𝑆𝑆𝐴𝐶 = ∑∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐶 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐴 − 𝑆𝑆𝐶
𝑏𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑘=1
𝑏 𝑐 2
𝛾.𝑗𝑘. 𝑦…2
𝑆𝑆𝐵𝐶 = ∑ ∑ − − 𝑆𝑆𝐵 − 𝑆𝑆𝐶 = 𝑆𝑆𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠(𝐴𝐵) − 𝑆𝑆𝐵 − 𝑆𝑆𝐶
𝑎𝑛 𝑎𝑏𝑐𝑛
𝑗=1 𝑘=1
Sumas de cuadrados debida a la interacción entre los tres factores, A, B y C tiene
por expresión:
𝑎 𝑏 𝐶 2
𝛾𝑖𝑗𝑘. 𝑦…2
𝑆𝑆𝐴𝐵𝐶 = ∑ ∑ ∑ − − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐶 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴𝐶 − 𝑆𝑆𝐵𝐶 =
𝑛 𝑎𝑏𝑐𝑛
𝑖=1 𝑗=1 𝐾=1
Bajo las hipótesis nulas planteadas, todas estas cantidades coinciden con la varianza 𝛼 2 de la
componente de error. En cambio, cuando dichas hipótesis no se cumplen la magnitud de estas
cantidades aumenta. De hecho, si se considera el cociente entre cada una de las variabilidades
debidas a los factores principales y las interacciones y la media de cuadrados debida al error, se
obtiene que dichos cocientes aumentan en magnitud cuando nos alejamos de la hipótesis nula.
A2. TRABAJO
Elaborar un resumen sobre: Ajuste de curvas y superficies de respuesta.
1.- INTRODUCCIÓN
Resultar útil ajustar una curva de respuesta a los niveles de un factor cuantitativo para que el
investigador cuente con una ecuación que relacione la respuesta con el factor. Esta ecuación
podría utilizarse para hacer interpolaciones, es decir, para predecir la respuesta en niveles
intermedios entre los factores, respecto de los que se utilizaron realmente en el experimento.
Cuando al menos dos de los factores son cuantitativos, puede ajustarse una superficie de respuesta
para predecir y con varias combinaciones de los factores del diseño. En general, se usan métodos
de regresión lineal para ajustar estos modelos a los datos experimentales. Se suele utilizar un
paquete de software para generar los modelos de regresión, como SPSS, R, etc.
La Respuesta, es una cantidad medible cuyo valor se ve afectado al cambiar los niveles de los
factores. El interés principal es optimizar dicho valor.
𝑌 = 𝛽0 + 𝛽1 ∗ 𝑋1 + 𝛽2 ∗ 𝑋2
Donde 𝛽0 + 𝛽1 + 𝛽2 son los coeficientes de regresión a estimar, X1 y X1 representan los
niveles de A1 y A2 respectivamente. Suponiendo que se recolectan N≥3 valores de respuesta
̂0 , 𝛽
(Y), con los estimadores 𝛽 ̂1 𝑦 𝛽
̂2 se obtienen 𝛽0 , 𝛽1 𝑦 𝛽2 respectivamente. Al remplazar los
coeficientes de regresión por sus estimadores obtenemos:
̂0 + 𝛽
𝑌̂ = 𝛽 ̂1 ∗ 𝑋1 + 𝛽
̂2 ∗ 𝑋2
Generalmente se desconoce la relación entre la respuesta y las variables independientes, por ello
requerimos un modelo que aproxime la relación funcional entre Y y las variables
independientes. Si la respuesta se describe adecuadamente por una función lineal de las
variables independientes se utiliza el modelo de primer orden (Cornell (1990)):
𝑌 = 𝛽0 + 𝛽1 ∗ 𝑋1 + ⋯ + 𝛽𝑘 ∗ 𝑋𝑘 + 𝜀
Los parámetros del modelo se estiman mediante el método de mínimos cuadrados. Una vez que
se tienen los estimadores se sustituyen en la ecuación y obtenemos el modelo ajustado (Cornell
(1990)):
̂0 + 𝛽
𝑌̂ = 𝛽 ̂1 ∗ 𝑋1 + ⋯ + 𝛽
̂𝑘 ∗ 𝑋𝑘
De acuerdo a Cornell (1990), para estimar los coeficientes se requieren N≥k+1 valores
de respuesta (Y). Se necesita del siguiente análisis de varianza:
La variación total, suma de cuadrados total SST, se calcula de la forma:
𝑁
Donde Yil es la i-ésima observación del l-ésimo punto del diseño, 𝑌̅1 es el promedio de las rl
observaciones del l-ésimo punto del diseño. Se tiene:
𝑆𝑆𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸 = 𝑆𝑆𝐸 − 𝑆𝑆𝐸𝑃𝑈𝑅𝑂
𝑛
𝑌̂𝑙 es el valor predicho de la respuesta en el l-ésimo punto del diseño. La prueba de adecuación
del modelo ajustado es:
𝑠𝑠𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸
𝑛−𝑎 𝑆𝑆𝐹𝐴𝐿𝑇𝐴_𝐴𝐽𝑈𝑆𝑇𝐸 (𝑁 − 𝑛)
𝐹= =
𝑆𝑆𝐸𝑃𝑈𝑅𝑂 𝑆𝑆𝐸𝑃𝑈𝑅𝑂 (𝑛 − 𝑎)
𝑁−𝑁
La hipótesis de suficiencia de ajuste con un nivel a de significancia se rechaza cuando el valor
calculado del estadístico es mayor a 𝐹𝑛−𝑎,𝑁−𝑛𝑎 ,
2
Cuando la F calculada no es mayor el cuadrado medio residual es utilizado para estimar y
para probar la significancia del modelo ajustado. Si hipótesis de suficiencia de ajuste se
rechaza, se debe de elevar el grado del modelo aumentando
términos de producto cruzado y/o términos de mayor grado en x1 , ..., xk. Si se requieren
puntos adicionales para estimar todos los coeficientes éstos se añaden. Se colectan los datos y se
vuelve a hacer el análisis.
Si no se rechaza la hipótesis podemos inferir que la superficie es plana. Una vez que se tiene la
ecuación y se ha probado el ajuste se buscan niveles que mejoren los valores de respuesta.
Los 𝛽𝑖 son los coeficientes de regresión para los términos de primer orden, los 𝛽𝑖𝑖 son los
coeficientes para los términos cuadráticos puros, los 𝛽𝑖𝑗 son los coeficientes para los términos de
producto cruzado y 𝜀 es el término del error aleatorio.
Los términos cuadráticos puros y los de producto cruzados son de segundo orden. El número de
términos en la ecuación esta dado por:
(𝐾 + 1)(𝑘 + 2)
𝑎=
2
Los parámetros del modelo se estiman mediante el método de mínimos cuadrados.
Una vez que se tienen los estimadores se sustituye n en la ecuación y obtenemos el modelo
ajustado en el vecindario del valor óptimo de la respuesta:
𝑘 𝑘 𝑘
La significancia de los coeficientes estimados y el ajuste del modelo se prueban con el estadístico
F, con la fórmula ya vista anteriormente.
Una vez que se ha verificado que el modelo tiene suficiencia de ajuste y que los coeficientes son
significativos, se procede a localizar las coordenadas del “punto estacionario” y se lleva a cabo
un análisis más detallado del sistema de respuesta.
Suponiendo que se desea maximizar la respuesta, el máximo (si es que existe), será el conjunto
X1 , ..., Xk tal que las derivadas parciales
𝜕𝛾̂ 𝜕𝛾̂
=⋯= =0
𝜕𝑥1 𝜕𝑥𝑘
Un diseño experimental para ajustar un modelo de segundo orden debe tener al menos tres niveles
de cada factor (-1, 0, +1). Así como en el diseño de primer orden se desea la ortogonalidad, en
éste se desea que sea un diseño rotable. Se dice que un diseño es rotable cuando la varianza de la
respuesta predicha en algún punto es función sólo de la distancia del punto al centro y no es una
función de la dirección.
Dentro de los diseños rotables de segundo orden se incluyen:
1. Diseño central compuesto
2. Diseño equirradial
3. Diseños Box-Behnken
Con
𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑀𝑎𝑡𝑒𝑟𝑖𝑎𝑙
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜
∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1
Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio1.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_MATERIAL
y EFEC_TRATAMIENTO como los efectos del problema y la variable DESGASTE como
variable dependiente.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un
modelo de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por
lo que se realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se
obtiene la siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de,
EFEC_MATERIAL,EFEC_TRATAMIENTO y (EFEC_MATERIAL*EFEC_TRATAMIENTO) que
corresponde a la variabilidad debida a los efectos de cada uno de los factores y de la interacción
entre ambos.
Las preguntas que nos planteamos y que podemos dar respuesta con la tabla de ANOVA obtenida
son: ¿Son los materiales igual de resistentes? ¿Y los tratamientos son igual de efectivos? La
efectividad de los tratamientos, ¿es la misma para todos los materiales?.
Para ello observamos el valor del estadístico (Fexp= 0.541) que contrasta la hipótesis
correspondiente a la interacción entre ambos factores:
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 𝑖 = 1,2 𝑗 = 1,2,3,4,5
Dicho valor deja a la derecha un Sig. = 0.71, mayor que el nivel de significación 0.05. Por lo
tanto la interacción entre ambos factores no es significativa y debemos eliminarla del
modelo.
Construimos de nuevo la Tabla ANOVA en la que sólo figurarán los efectos principales. Para ello
en la ventana Univariante, pinchamos en Modelo e indicamos en la salida correspondiente que es
un modelo aditivo. Se obtiene la siguiente Tabla:
Esta tabla muestra dos únicas fuentes de variación, los efectos principales de los dos factores, y
se ha suprimido la interacción entre ambos. Se observa que el valor de la Suma de Cuadrados del
error de este modelo es de 74,2. Observando los valores de los p-valores, 0.000 y 0.01 asociados
a los contrastes principales, se deduce que los dos efectos son significativos a un nivel de
significación del 5%. Deducimos que ni el material utilizado es el mismo, ni la efectividad de los
tratamientos, pero dicha efectividad no depende del tipo de material con el que se trabaje ya que
la interacción no es significativa.
Con el fin de determinar qué material es el mejor utilizamos el método de Tukey, para ello en la
ventana Univariante seleccionamos Post_hoc…, se obtiene la siguiente tabla:
La tabla nos muestra tres subconjuntos homogéneos, el primero está formado por los materiales
E y A; esto nos indica que no se aprecian diferencias significativas entre ellos. El segundo
subconjunto homogéneo está formado por el material C y el tercero por los materiales D y B,
indicándonos, como en el primero caso que no hay diferencias significativas entre estos
dos tipos de materiales. Sin embargo si hay diferencias significativas entre todos los
subconjuntos, siendo los materiales D y B significativamente más efectivo que el resto (sus
desgastes presentan cantidades de 44 y 45.25 respectivamente, superior a los obtenidos con los
otros materiales).
Normalidad
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.53) y el valor del p- valor asociado (0.942). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.
Homocedasticidad e Independencia
Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.
El modelo matemático que planteamos es el siguiente:
𝑦𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 𝑖 = 1,2 𝑗 = 1,2,3 𝑘 = 1,2
Con
𝜇 𝑒𝑓𝑒𝑐𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝜏𝑖 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴𝑛𝑡𝑖𝑔𝑢𝑒𝑑𝑎𝑑
𝛽𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑗 − é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑇𝑎𝑚𝑎ñ𝑜 𝐷𝑒𝑝𝑎𝑟𝑡𝑜
(𝜏𝛽)𝑖𝑗 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝜏𝑖 𝑦 𝛽𝑗
{ 𝜀𝑖𝑗 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜
∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1
Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio2.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_ANTIG y
EFEC_DEPART como los efectos del problema y la variable ABSENTISMO como variable
dependiente.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un modelo
de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por lo que se
realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se obtiene la
siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de,
EFEC_ANTIG, EFEC_DEPART y (EFEC_ANTIG*EFEC_DEPART) que corresponde a
la variabilidad debida a los efectos de cada uno de los factores y de la interacción entre ambos.
Observamos el valor del estadístico correspondiente a la interacción entre ambos factores es
Fexp= 2.192 que contrasta la hipótesis correspondiente a la interacción entre ambos factores:
𝐻0 : (𝜏𝛽)𝑖𝑗 = 0 i=1,2 j=1,2,3
Dicho valor deja a la derecha un Sig. = 0.122, mayor que el nivel de significación 0.05. Por lo
tanto la interacción entre ambos factores no es significativa y debemos eliminarla del
modelo.
Construimos de nuevo la Tabla ANOVA en la que sólo figurarán los efectos principales. Para ello
en la ventana Univariante, pinchamos en Modelo e indicamos en la salida correspondiente que es
un modelo aditivo. Se obtiene la siguiente Tabla:
Esta tabla muestra dos únicas fuentes de variación, los efectos principales de los dos factores, y
se ha suprimido la interacción entre ambos. Se. Observando los valores de los p-valores, 0.000 y
0.014 asociados a los contrastes principales, se deduce que los dos efectos son significativos a un
nivel de significación del 5%. Deducimos así que la interacción entre la antigüedad y el tamaño
de los departamentos no es significativa. Con el fin de determinar qué Departamento influye más
en el absentismo, utilizamos el método de Tukey, para ello en la ventana Univariante
seleccionamos Post_hoc…, se obtiene la siguiente tabla:
La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por los
Departamentos pequeños y medianos; esto nos indica que no se aprecian diferencias significativas
entre ellos. El segundo subconjunto homogéneo está formado por el Departamento grande,
indicándonos, que hay diferencias significativas entre los subconjuntos, siendo el Departamento
grande significativamente más efectivo que el resto (su absentismo es de 11.05, superior a
los obtenidos con los otros departamentos de 2.45 y 5 respectivamente).
ESTUDIO DE LOS RESIDUOS
En este apartado vamos a comprobar que se verifican los supuestos de normalidad,
homocedasticidad (igualdad de varianzas) y linealidad, estos supuestos resultan necesarios para
validar el diseño. Utilizaremos el análisis de los residuos para realizar los contrastes a posteriori
de dichas hipótesis del modelo.
Normalidad
Podemos comprobarla de forma gráfica o analíticamente, gráficamente podemos estudiar el
gráfico probabilístico normal, Para obtener dicho gráfico seleccionamos
Analizar/Estadísticos descriptivos/Gráficos Q-Q... , obtenemos lo siguiente:
El Gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad. Lo conformamos
de forma analística mediante el contraste de Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.721) y el valor del p-valor asociado (0.676). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.
Homocedasticidad e Independencia
Los residuos son independientes, puesto que el gráfico correspondiente a la relación entre los
valores pronosticados y los residuos tipificados no muestran ninguna pauta de variación
sistemática. Por otro lado, podemos confirmar la homogeneidad de las varianzas puesto que, como
se observa en el gráfico, la dispersión de los residuos tipificados es similar a lo largo de todos los
valores pronosticados, no apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.
Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.
El modelo matemático que planteamos es el siguiente:
∑ 𝜏𝑖 = 0 ; ∑ 𝛽𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0 ; ∑(𝜏𝛽)𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑗=1 𝑖=1
Realizamos el ejercicio utilizando el software SPSS, para ello utilizamos el archivo ejercicio3.sav
donde se recogen los datos del enunciado y en donde se definen las variables EFEC_MATERIAL
y EFEC_TEMP como los efectos del problema y la variable DURACION_BAT como
variable dependiente.
La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por los Materiales
1 y 2; esto nos indica que no se aprecian diferencias significativas entre ellos. El segundo
subconjunto homogéneo está formado por el 2 y 3, indicándonos, que hay diferencias
significativas entre los materiales 1 y 3, siendo el material 3 significativamente más efectivo que
el resto (su tiempo de duración es de 125.08, superior a los obtenidos con los otros materiales).
Con el fin de determinar qué Temperatura influye más en el tiempo de duración, utilizamos el
método de Tukey, para ello en la ventana Univariante seleccionamos Post_hoc…, se obtiene la
siguiente tabla:
La tabla nos muestra tres subconjuntos homogéneos, el primero está formado por la temperatura
de 125 grados, el segundo subconjunto homogéneo está formado por la temperatura de 70 grados
y el último subconjunto por la de 15 grados, indicándonos, que hay diferencias significativas entre
las tres temperaturas, siendo la temperatura de 15 grados significativamente más efectiva que el
resto (su tiempo de duración es de 144.83, superior a los obtenidos con las otras temperaturas).
Para realizar un estudio de la interacción conjunta de los dos factores representamos el gráfico de
perfil:
Aparecen representadas las medias en horas de la duración de las baterías, calculadas en
cada subgrupo resultante de combinar cada nivel de la variable material con cada nivel de la
variable temperatura. En la gráfica queda claro que el número medio de hora es mayor cuando la
temperatura es de 15, siendo mayor para el material 2, por el contrario el menor número de horas
lo presenta la temperatura 125 y menor aún para el material 2. Este gráfico nos proporciona
información del significado de esta interacción
Normalidad
Podemos comprobarla de forma gráfica o analíticamente, gráficamente podemos estudiar el
gráfico probabilístico normal, Para obtener dicho gráfico seleccionamos
Analizar/Estadísticos descriptivos/Gráficos Q-Q... , obtenemos lo siguiente:
El Gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad. Lo conformamos
de forma analística mediante el contraste de Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos
surgieran de una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se
muestra el valor del estadístico Z (0.631) y el valor del p-valor asociado (0.821). Por lo tanto no
se puede rechazar la hipótesis de normalidad de los residuos.
Homocedasticidad e Independencia
Mediante la gráfico de los residuos:
Los residuos son independientes, puesto que el gráfico correspondiente a la relación entre los
valores pronosticados y los residuos tipificados no muestran ninguna pauta de variación
sistemática. Por otro lado, podemos confirmar la homogeneidad de las varianzas puesto que, como
se observa en el gráfico, la dispersión de los residuos tipificados es similar a lo largo de todos los
valores pronosticados, no apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.
Luego, podemos confirmar que se cumplen las hipótesis de idoneidad del modelo.
Consideremos la misma situación anterior pero ahora los datos son incompletos puesto que
sólo tenemos disponible una muestra aleatoria, vamos a trabajar en el SPSS pero ahora con el tipo
IV para las sumas de cuadrados se obtiene los mismos resultados.
Comenzamos en el menú principal, Analizar/Modelo lineal general/ Univariante… . Es un modelo
de dos factores donde se quiere estudiar la posible interacción entre ambos factores, por lo que se
realiza el modelo completo donde aparezca dicha interacción, mediante esta acción se obtiene la
siguiente tabla de ANOVA, en donde podemos encontrar por una lado, las filas de ,
EFEC_MATERIAL, EFEC_TEMP y (EFEC_MATERIAL * EFEC_TEMP) que corresponde
a la variabilidad debida a los efectos de cada uno de los factores y de la interacción entre ambos:
Observamos en el cuadro anterior que los valores obtenidos son los mismos que en el ejercicio 3,
por lo que:
Todos los p-valores obtenidos son menores que el nivel de significación 0,05. Por lo tanto se
rechazan las hipótesis nulas anteriores y todos son significativos para el modelo. Deducimos así
que la interacción entre el material y la temperatura es significativa.
Las conclusiones que obtengamos son las mismas que para el ejercicio 3, con lo cual llegamos a
la conclusión que podemos trabajar con muestras aleatorias simples para hacer inferencia sobre
datos de los que no conocemos todos los valores que los compone.