Anda di halaman 1dari 27

DISEO COMPLETAMENTE RANDOMIZADO O AL AZAR

Este diseo experimental es el ms simple de todos los diseos experimentales y til cuando
las unidades experimentales son esencialmente homogneas; es decir cuando la variacin
entre ellas es pequea que al agruparlas en bloques la ganancia en precisin sera
insignificante. En este diseo los tratamientos se asignan aleatoriamente a las unidades
experimentales sin imponer restriccin. Es decir, cada unidad experimental tiene la misma
oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de
nmeros aleatorios.
Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C.
Suponga que se cuenta con 15 parcelas(numeradas del 1 al 15) y se decide usar 5 repeticiones
por tratamiento. Entonces en la tabla de nmero aleatorio dada en el libro de Steel y Torrie
(tabla A1) se eligi aleatoriamente un punto de partida (puede ser eligiendo un nmero
aleatoria para pgina, otra para fila y otro para columna) de este punto de partida se elige
verticalmente y en forma consecutiva 15 nmeros aleatorios de tres dgitos, luego se rankea
estos nmeros asignando el nmero 1 al menor, el nmero 2 al siguiente y as sucesivamente
hasta llegar asignar el nmero 15 al mayor de todo. Los 5 primeros nmeros aleatorios da
origen a las parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarn el
tratamiento A, los 5 siguiente el tratamiento B y los 5 ltimos las parcelas que se le aplicarn
el tratamiento C. Suponga se obtuvo los siguientes nmeros aleatorios:

Nmero aleatorio
Rango (Tratamiento A)
Nmero aleatorio
Rango (Tratamiento B)
Nmero aleatorio
Rango (Tratamiento C)

118
1
638
5
687
6

701
8
901
13
938
14

789
9
841
11
377
2

965
15
396
4
392
3

688
7
802
10
848
12

Con el R
> runif(15)
[1] 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 0.84816566
[7] 0.72926011 0.74283935 0.28981326 0.88392633 0.60864244 0.99716336
[13] 0.49769922 0.80065374 0.08644736
0.88531918 0.67671878 0.33055180 0.78807129 0.99752578
13
6
3
9
14
0.84816566 0.72926011 0.74283935 0.28981326 0.88392633
11
7
8
2
12
0.60864244 0.99716336 0.49769922 0.80065374 0.08644736
5
15
4
10
1

Tratamiento A
Tratamiento B
Tratamiento C

Ventajas
1)
Este diseo es flexible en cuanto a que el nmero de tratamiento y repeticiones slo
est limitado por el nmero de unidades experimentales.
2)
El nmero de repeticiones puede variar de un tratamiento a otro, aunque generalmente
lo ideal es tener el mismo nmero de repeticiones por cada tratamiento

3)
El anlisis estadstico es simple, aun cuando se pierde unidades experimentales o
tratamientos completos, el diseo se mantiene es decir sigue siendo un diseo completamente
al azar
4)
El nmero de grados de libertad para estimar el error experimental es mximo, esto
mejora la precisin del experimento, lo cual toma mayor importancia con experimento
pequeo (en aquellos cuyos grados de libertad para el error es menor a 20).
Desventaja
Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variacin entre
las unidades experimentales excepto a la debida a los tratamientos.
Diseo completamente Randomizado con una observacin por unidad experimental
Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con
ni repeticiones y de cada unidad experimental se obtiene una observacin. Luego, se obtiene
el siguiente cuadro de datos:
Totales

Tratamiento

Y11 Y12

Y1n1

Y1.

N de
Media
observaciones
n1
Y1.

Y21 Y22

Y2n2

Y2.

n2

Y2.

Yt1

Yt 2

Ytnt

Yt .

nt

Yt .

Totales

ni

Y.. Yij
i 1 j 1

ni

Donde: Yi. Yij , Yi.


j 1

Yi.
, para i 1, 2,
ni

n. ni

Y..

i 1

Y..
n.

,t

Modelo aditivo lineal


Yij i ij

para i 1, 2,
j 1, 2,

,t

, ni

donde:
Yij = Es la observacin o respuesta que se obtiene de la unidad experimental que
constituye la j-sima repeticin del tratamiento i .

= Es el parmetro comn para todos los tratamientos llamado media comn.


i = Es el parmetro que representa el efecto verdadero del i -simo tratamiento.

ij = Es un componente aleatorio que representa el efecto verdadero de la

j -sima unidad experimental sujeta al tratamiento i, llamado comnmente error.


Para las pruebas de hiptesis se asume que ij es una variable independiente distribuida
normalmente con media cero y variancia comn 2 (esto es, ij ~ N 0, 2 ).

En un diseo experimental de acuerdo con el tipo de efecto que se desea analizar se presenta
dos tipos de modelo:
Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o
fijado por el investigador.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al
azar de una poblacin grande.
Anlisis de modelos de efectos fijos
En un modelo de efectos fijos, los efectos de los tratamientos son definidos como
desviaciones con respecto a la media comn, de manera tal que:
t

ni

i 1 j 1

Estimacin de parmetros: Para realizar la estimacin de parmetros se usar el mtodo de


los mnimos cuadrados, el cual consiste en encontrar los valores de y i ( i 1, 2, t ) que
minimiza la suma de cuadrados de los errores:
ni

ni

Q Yij i
t

i 1 j 1

2
ij

i 1 j 1

Estos valores sern denotados por y i ( i 1, 2,


Aplicando este mtodo se tiene:

t ).

ni
t
Q
2 Yij i 0
, i
i 1 j 1

Q
i

ni

2 Yij i 0 , para i 1, 2,
i 1

, i

Lo cual es equivalente a:
t

ni

j 1

n. i Y..
ni nii Yi.

para i 1, 2,

Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones normales, la


cual tiene mltiples soluciones. Para obtener una solucin se aplica restricciones:
t

n
i 1

i i

Con esta restriccin el sistema se reduce a:

n. Y..
ni nii Yi.

para i 1, 2,

Resolviendo se tiene la siguiente solucin:

Y..
i

Y..
n.

Yi.
Y..
ni

i Yi Y..

para i 1, 2,

Yij i
Yij Yi. ,

para i 1, 2,

t,

Al valor

j 1, 2,

ni

se le llama valor ajustado o predicho de la j -sima repeticin del tratamiento i .


De esto se puede obtener los residuos del modelo:

eij Yij Yij


eij Yij Yi. ,

para i 1, 2,

t,

j 1, 2,

ni

Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24
animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuacin.

A
62
60
63
59

Tratamientos
B
C
63 68
67 66
71 71
64 67
65 68

D
56
62
60
61
63

66

68

64
63
59

Yi.

244 396 408 488

ni

Yi.

61

66

68

61

Luego, el modelo aditivo lineal est dado por:


Yij i ij

para i 1, 2, 3 y 4
j 1, 2,

, ni

n1 4, n2 n3 6 y n4 8
donde:
Yij = Es el tiempo de coagulacin que se obtiene del j-simo animal que recibi la dieta

i.

= Es la media del tiempo de coagulacin que se obtiene con estos experimentos


i = Es el parmetro que representa el efecto verdadero del i -sima dieta.

ij = Es un componente aleatorio que representa el efecto verdadero del


j -simo animal sujeta a la dieta i, llamado comnmente error.
> coag<-read.table("coag.txt",T)
> Tiempo<-coag$Tiempo
> dieta<-coag$dieta
> ypi<-tapply(Tiempo,dieta,mean)
> ypi
A B C D
61 66 68 61
> ype<-mean(Tiempo)
> ype
[1] 64
> efectoi<-ypi-ype
Los estimados de los efectos de las dietas ( i Yi Y.. ) son
> efectoi
A B C D
-3 2 4 -3
> mod<-lm(Tiempo~dieta)
> mod
Call:
lm(formula = Tiempo ~ dieta)
Coefficients:

(Intercept)
6.100e+01

dietaB
5.000e+00

dietaC
7.000e+00

dietaD
-3.333e-15

Los residuos ( eij Yij Yi. ) estn dados por:


> ei<-residuals(mod)
> ei
1
2
3
4
5
1.000000e+00 -1.000000e+00 2.000000e+00 -2.000000e+00 -3.000000e+00
6
7
8
9
10
1.000000e+00 5.000000e+00 -2.000000e+00 -1.000000e+00 1.402687e-16
11
12
13
14
15
1.125131e-16 -2.000000e+00 3.000000e+00 -1.000000e+00 1.125131e-16
16
17
18
19
20
1.125131e-16 -5.000000e+00 1.000000e+00 -1.000000e+00 2.924635e-17
21
22
23
24
2.000000e+00 3.000000e+00 2.000000e+00 -2.000000e+00

Los valores ajustados o predichos ( Yij Yi. ) estn dados por:


> yest<-predict(mod)
> yest
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
61 61 61 61 66 66 66 66 66 66 68 68 68 68 68 68 61 61 61 61 61 61 61 61

Anlisis de Variancia (Modelo I)


En un modelo de efectos fijos, es de inters en probar la siguiente hiptesis:
H 0 : 1 2

t 0 , contra

H a : i 0 , para al menos un i .

Si hacemos

i i , para i 1, 2,

entonces un estimador de i est dado por i Yi. y las hiptesis dados anteriormente puede
ser expresado como:
H 0 : 1 2

t , contra

H a : al menos dos i son diferentes

El procedimiento de prueba adecuado para probar estas hiptesis es el Anlisis de Variancia,


el cual consiste en descomponer la variabilidad total en sus fuentes. Esto es,
ni

ni

Yij Y.. ni Yi. Y.. Yij Yi.


t

i 1 j 1

donde:

i 1

i 1 j 1

ni

ni

SCTotal Yij Y.. Yij2


t

i 1 j 1

i 1 j 1

Y..2
= Medida de la variacin total
n.

Yi.2 Y..2
= Medida de la variacin que existe entre los

n.
i 1 ni
tratamientos.
t

SCTrat ni Yi. Y..


2

i 1

ni

ni

Yi.2
= Medida de la variacin que existe dentro de
i 1 ni
cada tratamiento.

SCE Yij Yi. Yij2


t

i 1 j 1

i 1 j 1

Se puede observar que:


SCE SCTotal SCTrat

Adems al trmino:

Y..2
TC
n.
Cuadrados Medios y sus Valores Esperados: Los cuadrados medios se define como el
cociente entre la suma de cuadrados y sus respectivos grados de libertad. Para un DCA se
tiene:

CMTrat SCTrat / t 1
CME SCE / n. t
Se puede demostrar que para modelo de efectos fijo (modelo I):
t

E CMTrat 2

E CME

n
i 1

2
i i

t 1

Para modelo de efectos aleatorio (modelo II)

n
n n

2
i

E CMTrat 2 rd2 , siendo rd


E CME

t 1

Se puede observar el CME es un estimador insesgado de la variancia comn 2


Luego, esto puede ser representado en el siguiente cuadro llamado cuadro de ANVA

Fuente
de
Variacin
Entre
Tratamiento
Dentro de
Tratamiento
Total

Suma
de Grados de Cuadrados Medios
Fc
Cuadrados Libertad
SCTrat
t 1
CMTrat SCTrat / t 1 CMTrat
CME
SCE
n. t
CME SCE / n. t
SCTotal

n. 1

Entonces, bajo la asuncin de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y variancia comn y bajo la H 0 se puede demostrar
que
F

CMTrat
~ Ft 1,n. t
CME

Luego para probar H 0 se puede usar esta Estadstica de Prueba, se rechaza H 0 si


Fc F1 ;t 1,n. t .
Coeficiente de Variabilidad: Una medida que permite medir cuan homogneo el conjunto de
unidades experimentales usadas est dado por el coeficiente de variabilidad, el cual se define:

CME
100
Y..
En experimentos agrcolas se considera un coeficiente aceptable si cv 25% .
cv

Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24
animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuacin.

A
62
60
63
59

Tratamientos
B
C
63 68
67 66
71 71
64 67
65 68
66 68

D
56
62
60
61
63
64
63
59

Yi.

244 396 408 488

ni

Yi.

61

66

68

61

ni

Y.. Yij 62 60

59 1536 ,

i 1 j 1

Y..2 1536

98304 ,
n.
24
2

TC

ni

Y
i 1 j 1

2
ij

622 602

592 98644 ,

Yi.2 2442 3962 4082 4882

98532

4
6
6
8
i 1 ni
4

Yi.2
SCTrat TC 98532 98304 228 ,
i 1 ni
4

ni

SCTotal Yij2 TC 98644 98304 340


i 1 j 1

SCE SCTotal SCTrat 340 228 112

Fuente de Variacin
Entre Dietas (tratamientos)
Dentro de dietas (residual)
Total

SC
228
112
340

GL
3
20
23

CM
76
5.6

F
13.57

H p : 1 2 3 4 0

H a : Al menos un i 0
CMTrat 76
Fc

13.57
CME
5.6

F 0.95,3,20 3.10 , F 0.99,3,20) 4.94 , Se rechaza H 0


Diagnstico de cumplimiento de Supuestos
1.- Introduccin
Las suposiciones que se hacen sobre el modelo para realizar estimacin por intervalo y
pruebas de hiptesis sobre los parmetros son:
1.- modelo aditivo lineal
2.- El trmino de error tiene media cero.
3.- El trmino de error tiene variancia constante 2 .
4.- Los errores no estn correlacionados.
5.- Los errores se distribuyen normalmente.
Las suposiciones 4 y 5 implican que los errores son variables aleatorias independientes.
Violaciones de estos supuestos, sobretodo de los supuestos 3, 4 y 5, le resta validez a la
prueba de hiptesis realizada en el ANVA y a las pruebas de comparaciones mltiples.
En este captulo, se presenta varios mtodos tiles para realizar el diagnstico y tratamiento
de las violaciones de las suposiciones bsicas en el anlisis de variancia

2.- Definicin de Residuos


Un residuo se define:

eij Yij Yij ,

j 1, 2,

, ni y i 1,2,

,t

donde:
Yij es una observacin y Yij el valor ajustado correspondiente. Esto es

Yij i Y.. Yi. Y.. Yi.


Desde que el residuo es una desviacin entre el valor observado y el ajustado, entonces es una
medida de variabilidad no explicada por el modelo. De esta manera, cualquier violacin de
las suposiciones del modelo debe ser mostrada por el residual. Tambin puede pensarse que
los residuos son valores observado de los errores.
Propiedades de los residuos
1)
2)

La media de los residuos es igual a cero.


La variancia promedio aproximada es:
t

CME

ni

e
i 1 j 1
t

2
ij

SCE
t

n t n t
i 1

i 1

3) Los residuos no son independientes. Esta dependencia de los residuos tiene un pequeo
t

efecto sobre su uso para investigar la calidad del modelo mientras

n
i 1

no sea pequeo.

Residuo Estandarizado
Muchas veces es til trabajar con los residuos estandarizados, los cuales se define:

dij

eij
CMError 1 hi ,i

, j 1, 2,

, ni y i 1, 2,

,t

Siendo el elemento i de la diagonal de la siguiente matriz hat H X XX X donde


-

1n11 1n11 0n11

1n 1 0n2 1 1n2 1
X 2

1nt 1 0nt 1 0nt 1

0n11

0n2 1

, X X es la inversa generalizada de XX

1nt 1

El residuo estandarizado tiene media cero y una variancia aproximadamente igual a la unidad.

Los residuos estandarizados son tambin tiles para detectar violaciones al supuesto de
normalidad. Si los errores estn distribuido normalmente, entonces aproximadamente el 68%
de los residuales podran caer entre 1 y +1, y aproximadamente el 95% podran caer entre 2
y +2 desviaciones sustanciales de estos lmites indican violacin potencial de la suposicin de
normalidad. Si n es pequeo, se reemplaza los lmite 1 y 2 con los correspondiente
valores de la distribucin de tGLE . El examen de los residuales estandarizados hecho de esta
manera es tambin til para identificar valores extremos.

Chequeo de supuestos de Normalidad


1)
2)

Para chequear este supuestos se debe realizar el grfico en papel de probabilidad


normal de los residuales estandarizado y tener la observacin del prrafo anterior.
Realizar la prueba de normalidad de Shapiro Wild, o de Anderson Darling

Chequeo de Homogeneidad de variancia


1)

2)

3)

Grfico de Caja, este grfico no slo permite visualizar si existe homogeneidad de


varianza, sino si existe valores extremos. Adems permite tambin realizar una
comparacin grfica entre tratamientos. (solo para DCA)
Grfico de los residuales versus los valores ajustados. Aparte de chequear
homogeneidad de varianza, permite detectar valores extremos y falta de ajuste del
modelo. Todos los residuales debe distribuirse uniformemente en una banda de ancho
del mismo ancho
Grfico de los valores ajustados versus la raz cuadrada de los valores absolutos de los
residuales estandarizados: el paquete R proporciona este grfico ms la curva estimada
de la regresin Lowes que se obtiene con estos valores. El Lowes no debe tener una
tendencia marcada. (dado en la pizarra en clase)

Grfico de residuos versus valores estimados y


Este grfico es til para detectar varios tipos comunes de modelos inadecuados, y puede ser
de las siguientes formas: (dado en la pizarra en clase)
Los residuos caen dentro de una banda, el modelo es adecuado
4) Pruebas de Homogeneidad de variancia. Prueba de Bartlett o de Levene (solo para DCA)
a) Prueba de Bartlett para homogeneidad de Variancia en DCA

H 0 : 12 22

t2

H a : Al menos dos i2 son diferentes


la estadstica de prueba est dado por

c2

t
a
1 t

2
2
n

t
ln
CME

1
ln
S

i
i ~ t 1 / H 0 es verdadera
i
C i 1
i 1

ni

Yij Yi.

ni

j 1

donde: S
2
i

, siendo Yi

ni 1

CME

SCE
t

n t
i 1

S p2

i 1

2
i

n t
i 1

j 1

ij

ni

, para i 1, 2,

,t,

1
1
1

y C 1
t
3 t 1 i 1 ni 1
ni 1

i 1

n 1 S

Se rechaza H 0 a un nivel de significacin , si c2 21 ,t 1 .


Ejemplo: Con los datos de tiempo de Coagulacin

A
62
60
63
59

Tratamientos
B
C
63 68
67 66
71 71
64 67
65 68
66 68

D
56
62
60
61
63
64
63
59

Yi.

244

396

408

488

ni

Yi.

61

66

68

61

Yij2

14894

Si2

3.333333

ni

26176 27758

29816

j 1

2.8

6.857143

H 0 : A2 B2 C2 D2

H a : Al menos dos i2 son diferentes


C 1

1
1
1 1 1 1

( )
1.091799

3* 4 1 3 5 5 7 3 5 5 7

1
20ln 5.6 3ln 3.333333 5ln 8 5ln 2.8 7 ln 6.857143
1.091799
c2 1.667956

c2

20.95,3 7.815 , se acepta H 0


> coag<-read.table("coag.txt",T)
> coag
Tiempo dieta aleatorizacion
1
62
A
4
2
60
A
15
3
63
A
24
4
59
A
9

5
63
B
12
6
67
B
18
7
71
B
22
8
64
B
17
9
65
B
8
10
66
B
5
11
68
C
2
12
66
C
19
13
71
C
13
14
67
C
7
15
68
C
23
16
68
C
20
17
56
D
1
18
62
D
14
19
60
D
3
20
61
D
6
21
63
D
10
22
64
D
11
23
63
D
16
24
59
D
21
> mod<-lm(Tiempo~dieta,coag)
> summary(aov(mod))
Df Sum Sq Mean Sq F value
Pr(>F)
dieta
3
228
76.0
13.57 4.66e-05 ***
Residuals
20
112
5.6
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> par(mfrow=c(2,2))
> plot(mod)

2
1
0
-2

-1

Theoretical Quantiles

Scale-Location

Residuals vs Leverage

0.5

63

65

67

2
1
0

0.5

-2 -1

17

61

-1

67

17

Fitted values

1.0

1.5

65

0.0

Standardized residuals

63

-2

17

Standardized residuals

-6

61

Normal Q-Q
Standardized residuals

-2 0

Residuals

4 6

Residuals vs Fitted

Cook's distance
17
0.00

Fitted values

0.10

0.5

0.20

Leverage

> ri<-rstandard(mod)
> sort(ri)
17
5
4
12
8
24
2
-2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500
14
9
19
10
11
15
16
-0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000
20
18
6
1
21
23
3
0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001
22
13
7
1.3552619 1.3887301 2.3145502
> shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9822, p-value = 0.9322
> ad.test(ri)
Anderson-Darling normality test
data: ri
A = 0.2598, p-value = 0.6814
> bartlett.test(Tiempo~dieta,coag)
Bartlett test of homogeneity of variances

data: Tiempo by dieta


Bartlett's K-squared = 1.668, df = 3, p-value = 0.6441

b) Prueba de Levene para Homogeneidad de Variancia DCA


La prueba de Levene es una alternativa a la prueba de Bartlett. Es menos sensitivo que la
prueba de Bartlett al incumplimiento del supuesto de normalidad. Si Se tiene una fuerte
evidencia que sus datos provienen de una distribucin normal o casi normal, entonces la
prueba de Bartlett es mejor.
Para realizar la prueba de Levene se sigue el siguiente procedimiento:

H 0 : 12 22

t2

H a : Al menos dos i2 son diferentes


Estadstico de prueba
Se extrado k muestra aleatoria, la i -sima muestra es de tamao ni , en cada muestra se ha
observado una caracterstica Y . Luego, el estadstico de prueba de Levene se define:

k ni Z i Z
i 1
k ni

k 1 Zij Zi

i 1 j 1

donde Z ij puede ser:


1.- Zij Yij Yi , siendo Yi es la media de las observaciones obtenida de la muestra i
2.- Zij Yij Yi , siendo Yi es la mediana de las observaciones obtenida de la muestra i .
3.- Zij Yij Yi , siendo Yi es la media truncada del 10% de las observaciones obtenida de la
muestra i .
La media truncada del 10% calcula la media de los datos comprendido entre el 5to percentil y
el percentil 95.
En (1), (2) y (3) Yij es la j-sima observacin sobre la variable Y obtenida de la muestra i . La
seleccin de cul de los Z ij determina la robustez y poder de la prueba de Levine. Por
robustez se entiende la habilidad de la prueba de no detectar falsamente variancias desiguales
cuando los datos no se distribuyen normalmente y las variancias son iguales. Por poder de
prueba se entiende a la habilidad de la prueba detectar variancias desiguales cuando de hecho
estas son desiguales.
El artculo original de Levene propuso la prueba usando solamente la media. Brown y
Forsythe (1974) extendieron la prueba usando la mediana y la media truncada. Ellos mediante
estudios realizados con el mtodo de Monte Carlos llegaron a la conclusin de que el uso de
la media truncada tiene mejor comportamiento cuando los datos siguen una distribucin de
Cauchy y la mediana cuando los datos siguen una distribucin Chi cuadrado con 4 grados de

libertad (esto es para distribuciones sesgada). En cambio el uso de la media proporciona mejor
poder para distribuciones simtricas de cola moderada.
Aunque la eleccin ptima depende de la distribucin subyacente, la definicin sobre la base
de la mediana se recomienda como la opcin que ofrece buena robustez frente a muchos tipos
de datos no normales, manteniendo una buena potencia. Si usted tiene conocimiento de la
distribucin subyacente de los datos, esto puede indicar mediante una de las otras opciones.
En la prueba de Levene se rechaza la hiptesis que la variancia son iguales si

W F1 ,k 1, N k

> leveneTest(Tiempo~dieta,coag)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.6492 0.5926
20

c) Prueba de Score para variancia del error no constante


Breusch y Pagan (1979), y Cook y Weisberg (1983) sugiere una prueba de puntaje (score) para
la variancia de los errores no constante en un modelo lineal, basado sobre la relacin:
var i g 0 1 zi1 p zip
Aqu los zi son predictores de la variancia del error y la funcin g de los predictores
lineales 0 1 zi1

p zip no se necesita ser conocido. En aplicaciones tpicas son los mismo


predictores del modelo lineal (esto es los x s), o slo hay un z , el valor ajustado y desde el
modelo lineal, en tal caso se realiza una prueba de dependencia de la dispersin con los niveles.
Esta prueba ha sido implementada en la librera car del paquete R mediante la funcin ncvTest
para probar la dependencia sobre los niveles. En este caso la hiptesis planteada est dado por:
H 0 : La variancia del error es constante
Contra la alternativa
H1 : La variancia del error no es constante
> library(car)
> ncvTest(mod)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1454082
Df = 1

p = 0.7029627

Chequeo de independencia
Grfico de los residuales versus aleatorizacin o orden de observacin.
a) Los residuales versus la secuencia en que fueron recolectados o orden de aleatorizacin:

-4

-2

residuales

Figura No 1, autocorrelacin positiva

10

15

20

tiempo

0
-2
-4
-6

residuales

Figura No 2, autocorrelacin negativa

10
tiempo

15

20

vs. orden

(la respuesta es Tiempo)


5.0

Residuo

2.5

0.0

-2.5

-5.0
2

> mod<-lm(Tiempo~dieta,coag)
> ei<-residuals(mod)
> data.frame(coag,ei)
Tiempo dieta aleatorizacion
1
62
A
4
2
60
A
15
3
63
A
24
4
59
A
9
5
63
B
12
6
67
B
18
7
71
B
22
8
64
B
17
9
65
B
8
10
66
B
5
11
68
C
2
12
66
C
19
13
71
C
13
14
67
C
7
15
68
C
23
16
68
C
20
17
56
D
1
18
62
D
14
19
60
D
3
20
61
D
6
21
63
D
10
22
64
D
11
23
63
D
16
24
59
D
21

10
12
14
16
Orden de observacin

18

20

22

24

ei
1.000000e+00
-1.000000e+00
2.000000e+00
-2.000000e+00
-3.000000e+00
1.000000e+00
5.000000e+00
-2.000000e+00
-1.000000e+00
1.402687e-16
1.125131e-16
-2.000000e+00
3.000000e+00
-1.000000e+00
1.125131e-16
1.125131e-16
-5.000000e+00
1.000000e+00
-1.000000e+00
2.924635e-17
2.000000e+00
3.000000e+00
2.000000e+00
-2.000000e+00

Para construir el siguiente archivo: aleat.txt copiar el conjunto de datos obtenidos con el
comando data.frame y pegar en la hoja de trabajo del Minitab desplazar los nombres a una casilla
a la derecha e eliminar la columna de numeracin de los datos copiar los datos obtenidos en una
hoja de excel y ordenar el conjunto de datos de acuerdo a la columna de aleatorizacin de menor
a mayor, luego copiar el conjunto de datos obtenidos en block de notas grave este archivo con

un nobre diferente a coag.txt, por ejemplo aleat.txt.


> aleat<-read.table("aleat.txt",T)
> aleat
Tiempo dieta aleatorizacion ei
1
56
D
1 -5
2
68
C
2 0
3
60
D
3 -1
4
62
A
4 1
5
66
B
5 0
6
61
D
6 0
7
67
C
7 -1
8
65
B
8 -1
9
59
A
9 -2
10
63
D
10 2
11
64
D
11 3
12
63
B
12 -3
13
71
C
13 3
14
62
D
14 1
15
60
A
15 -1
16
63
D
16 2
17
64
B
17 -2
18
67
B
18 1
19
66
C
19 -2
20
68
C
20 0
21
59
D
21 -2
22
71
B
22 5
23
68
C
23 0
24
63
A
24 2

0
-4

-2

RESID1

> plot(ei~aleatorizacion,ty="l",aleat)

10

15

aleatorizacion

>
>
>
>

mod1<-lm(Tiempo~dieta,aleat)
library(zoo)
library(lmtest)
dwtest(mod1,alternative="two.sided")
Durbin-Watson test

20

data: mod1
DW = 2.3125, p-value = 0.396
alternative hypothesis: true autocorrelation is not 0
> dwtest(mod1,alternative="less")
Durbin-Watson test
data: mod1
DW = 2.3125, p-value = 0.198
alternative hypothesis: true autocorrelation is less than 0
> dwtest(mod1,alternative="greater")
Durbin-Watson test
data: mod1
DW = 2.3125, p-value = 0.802
alternative hypothesis: true autocorrelation is greater than 0

Grfico de leverage vs residuales estandarizados


Permite detectar valores extremos y leverages y corresponde al cuarto grfico que
presenta el comando plot(mod).
Estimacin del Nmero de Rplicas para la prueba de F en el ANVA en un DCA
Para probar la H 0 : 1 2

t 0 se usa la estadstica

CMTrat
CME
Esta estadstica tiene una distribucin F central con v1 t 1 y v2 r t 1 grados de
F0

libertad si H 0 es verdadera.
Dentro de una prueba de hiptesis se puede cometer dos tipos de errores. Error tipo I y
error tipo II. Generalmente una prueba de hiptesis el investigador fija la probabilidad
de cometer error tipo I (el nivel de significacin ) pero no la probabilidad de cometer
error tipo II, . La potencia de prueba es la probabilidad de rechazar la hiptesis nula
cuando esta es falsa; esto es 1 P F F1 ,v1 ,v2 H 0 es falsa , esta variable F tiene
una distribucin F no central con v1 t 1 , v2 r t 1 grados de libertad y parmetro
de no centralidad

r i2

. Los valores de los efectos de los tratamientos y de 2 ,

pueden ser reemplazados por sus estimados basados de un experimento similar o


preliminar, as como el valor de la variancia comn por el CME. Luego fijando los
valores de y , se puede hacer un programa en lenguaje R como l se muestra a
continuacin:
nrepdca<-function(y,trat,t,r1,a,b){trat<-as.factor(trat)
y<-as.vector(y)
mod<-lm(y~trat)
efectos<-coefficients(mod)

trat1<-sum(y[1 :r1])/r1-mean(y)
etrat1<-efectos[2 :t]+trat1
etrat<-c(trat1,etrat1)
v2p<- mod$df.residual
cme<-deviance(mod)/v2p
scef<-sum(etrat^2)
v1<-t-1
fo<-qf(1-a,v1,v2p)
r<-0
pot1<-0
pot<-1-b
while(pot1<pot){r<-r+1
v2<-r*(t-1)
lamda<-(r*scef)/cme
pot1<-1pf(fo,v1,v2,lamda)
}
valor<-c(r,pot1)
caract<-c("replica","potencia")
nrep<-data.frame(caract,valor)
nrep
}
Para el ejemplo de coagulacin se tiene:
> nrepdca(tiempo,dieta,4,4,0.05,0.1)
caract
valor
1 replica 3.000000
2 potencia 0.927757

Tambin, se puede utilizar mtodo grfico basado en el grfico de la probabilidad de


cometer error tipo II, y de una variable

r i2

que est en funcin del parmetro


t 2
de no centralidad. Estos grficos pueden ser encontrados en el apndice V del libro de
Montgomery.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son
elegidos al azar de una poblacin grande. En este caso se considera el siguiente modelo:
Yij i ij

para i 1, 2,
j 1, 2,

,t

, ni

En este modelo, se asumen que los ij ~ NID 0, 2 , y que los efectos i son variables
aleatorias independientes distribuidas normalmente con media cero y variancia comn 2 .
Esto es:

i ~ NID 0, 2
A 2 y 2 se le conoce con el nombre de componentes de variancias, debido a que la
variancia de una observacin puede ser expresada como:

var yij 2 2
En este caso el parmetro de inters es la variancia de los efectos 2 . Si 2 0 todos
los efectos de los tratamientos son iguales, si 2 0 existe variabilidad entre estos
efectos. En este caso, el inters del investigador es probar si existe una variabilidad
significativa los efectos de los tratamientos. Esto es
H 0 : 2 0
H1 : 2 0

Se puede demostrar que bajos estas suposiciones ( ij ~ NID 0, 2 y i ~ NID 0, 2 ),


en el cuadro de ANVA se cumple:

n
n n

2
i

E CMTrat rd , siendo rd
2

E CME 2

t 1

Luego, para probar H 0 : 2 0 contra la alternativa H1 : 2 0 , se puede usar la


siguiente estadstica de prueba:
Fc

CMTrat
~ Ft 1,n t H 0 es verdadera
CME

Se rechaza H 0 : 2 0 a un nivel de significacin si Fc F1 ,t 1,n t


De los esperados cuadrados medios, se puede observar que los estimadores insesgados de
2 y 2 est dado por
CMTrat CME
,
rd
respectivamente. Si n1 n2 nt r , entonces

2 CME y 2

CMTrat CME
r

Ejemplo: Una compaa textil que confecciona un tipo de fibra posee un nmero muy
grande de telares. En la produccin de fibra es importante que produzca fibra con
resistencia uniforme. Se sospecha, que adicionalmente a la variacin usual en la
resistencia de las fibras producidas por un telar, existen variaciones en la resistencia de
fibras producidas entre los telares. Para investigar esto, se selecciona 5 telares al azar y se
realiza 4 determinaciones por cada telar. Este experimento fue conducido bajo un diseo
completamente azar. Realice el ANVA y pruebe la hiptesis respectiva.

T1

T2

Telares
T3

42
45
43
44

48
47
49
47

50
52
53
51

T4

T5

55
54
53
54

44
45
46
43

> telares<-read.table("telares.txt",T)
> modte2<-lm(resist~telares,data=telares)
> modte2
Call:
lm(formula = resist ~ telares, data = telares)
Coefficients:
(Intercept)
43.50

telaresb
4.25

telaresc
8.00

telaresd
10.50

telarese
1.00

> summary(aov(modte2))
Df Sum Sq Mean Sq F value
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

H 0 : 2 0
H a : 2 0
En este caso la prueba result altamente significativo ya que

Fc

CMTrat
61.139 con un P-value=0.000000004175.
CME

Luego los componentes de variancia estimados estn dado por:

2 CME 1.32 y 2

CMTrat CME 80.5 1.32

19.795
r
4

Para ver si esta prueba es vlida se debe realizar un anlisis de residuales


> par(mfrow=c(2,2))
> plot(modte2)

46

48

50

52

1.5
0.5
1

-2

-1

Scale-Location

Constant Leverage:
Residuals vs Factor Levels

0.4
0.0

46

48

50

52

54

Fitted values

0.5
-1.5 -0.5

1.5

Theoretical Quantiles

Standardized residuals

Fitted values

2
1

44

-0.5

54

0.8

1.2

-1.5

Standardized residuals

44

Standardized residuals

Normal Q-Q

0.5
-1.5 -0.5

Residuals

1.5

Residuals vs Fitted

telares :
a

Factor Level Combinations

> ri<-rstandard(modte2)
> shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9308, p-value = 0.1601
> library(car)
Loading required package: MASS
Loading required package: nnet
> ncvTest(modte2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.4140372
Df = 1

p = 0.5199275

> summary(aov(modte2))
Df Sum Sq Mean Sq F value
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
---

Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

>
>
>
>

resistencia<-telares[,1]
telar<-telares[,2]
ypi<-tapply(resistencia,telar,mean)
ypi
a
b
c
d
e
43.50 47.75 51.50 54.00 44.50
> yp<-mean(resistencia)
> efectoest<-ypi-yp
> efectoest
a
b
c
d
e
-4.75 -0.50 3.25 5.75 -3.75
> qqnorm(efectoest)
> qqline(efectoest)

4
2
0
-2
-4

Sample Quantiles

Normal Q-Q Plot

-1.0

-0.5

0.0

0.5

Theoretical Quantiles
> shapiro.test(efectoest)
Shapiro-Wilk normality test
data: efectos1
W = 0.9334, p-value = 0.6197

1.0

Anda mungkin juga menyukai