Anda di halaman 1dari 156

D

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

TECNICAS

ACTUALES

ESTADISTICA

DE

APLICADA

Alfonso Garca P
erez

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

c
Copyright 2011
Alfonso Garca Perez

No est
a permitida la reproducci
on total o parcial de este
libro, ni su tratamiento inform
atico, ni la transmisi
on de
ninguna forma o por cualquier medio, ya sea electr
onico,
mec
anico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro est
a registrado por el autor en el
Registro de la Propiedad Intelectual con el n
umero M-007363/2011
y protegido por la Ley, que establece penas de prisi
on adem
as
de las correspondientes indemnizaciones para quien lo plagiara

Edita: Universidad Nacional de Educaci


on a Distancia

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Pr
ologo

El presente texto, en formato pdf, corresponde al estudio de los temas 5 a


9 del M
aster, T
ecnicas Actuales de Estadstica Aplicada.
No es un texto autosuficiente sino que se supone que el lector ha estudiado
los temas anteriores del M
aster. Con este libro se pretende cubrir una serie de
temas especficos de esta
area as como incluir numerosos problemas resueltos,
que proporcionar
an al alumno una mejor soltura en el manejo de las tecnicas
estadsticas aplicadas en esta rama del saber.
Las secciones marcadas con un asterisco pueden omitirse en una primera
lectura por ser un poco m
as tecnicas.
En el libro se citar
an los textos Estadstica Aplicada: Conceptos B
asicos
(abreviado por CB), Metodos Avanzados de Estadstica Aplicada. Tecnicas
Avanzadas (en adelante TA) y Metodos Avanzados de Estadstica Aplicada.
Metodos Robustos y de Remuestreo (en adelante MR).
Otras referencias que pueden aparecer son los libros Estadstica Aplicada
con BMDP (EABMDP), Estadstica Aplicada con SAS (EASAS) y Estadstica
Aplicada con R (EAR).

Alfonso Garca Perez


e-mail: agar-per@ccia.uned.es

ii

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Indice

1. T
ecnicas Actuales en Regresi
on Lineal
1.1.
1.2.
1.3.
1.4.
1.5.

Introducci
on . . . . . . . . . . . . .
*El Modelo de Regresi
on Lineal . .
Diagn
ostico de la Regresi
on Lineal
Puntos influyentes . . . . . . . . .
Regresi
on Robusta . . . . . . . . .
1.5.1. S-estimadores . . . . . . . .
1.5.2. MM-estimadores . . . . . .
1.6. Enmascaramiento . . . . . . . . . .
1.7. Referencias . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

2. Modelos Lineales Generalizados Univariantes

2.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Definici
on de Modelo Lineal Generalizado univariante . . . . .
2.2.1. Dispersi
on excesiva (Overdispersion) . . . . . . . . . . .
2.3. Estimaci
on y Contrastes basados en la verosimilitud . . . . . .
2.3.1. Estimador de m
axima verosimilitud de los par
ametros i
2.3.2. Estimador del par
ametro de escala . . . . . . . . . . .
2.3.3. Contrastes de hip
otesis sobre los par
ametros . . . . . .
2.3.4. Contraste de bondad de ajuste del modelo . . . . . . . .
2.4. C
alculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5. Metodos basados en la cuasi-verosimilitud . . . . . . . . . . . .
2.6. Metodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Metodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1. M -estimadores basados en la cuasi-verosimilitud . . . .
2.7.2. Contraste robusto de bondad de ajuste del modelo . . .
2.7.3. C
alculo con Rmo . . . . . . . . . . . . . . . . . . . . . .
2.8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii

1
1
3
9
14
20
22
24
26

27

27
28
33
33
34
36
37
38
39
48
48
49
50
52
53
59

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

3. T
ecnicas Actuales en el An
alisis de Series Temporales
3.1. Introducci
on . . . . . . . . . . . . . . . . .
3.1.1. C
alculo con R . . . . . . . . . . . .
3.2. Filtrado lineal . . . . . . . . . . . . . . . .
3.3. Modelos ARIMA . . . . . . . . . . . . . .
3.3.1. Identificaci
on del Modelo ARIMA
3.3.2. Estimaci
on de los par
ametros . . .
3.3.3. Diagnosis . . . . . . . . . . . . . .
3.3.4. Predicci
on . . . . . . . . . . . . . .
3.3.5. Test de serie estacionaria . . . . .
3.3.6. Ejemplos . . . . . . . . . . . . . .
3.4. Cointegraci
on . . . . . . . . . . . . . . . .
3.5. Modelos ARCH y GARCH . . . . . . . .
3.6. Ejemplos de series climatol
ogicas . . . . .
3.7. Referencias . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

61

.
.
.
.
.
.
.
.
.
.
.
.
.
.

. 61
. 62
. 63
. 68
. 69
. 74
. 76
. 79
. 81
. 82
. 91
. 94
. 100
. 110

4. Inferencias con Mixturas de Distribuciones


4.1. Introducci
on . . . . . . . . . . . . . . . . . . .
4.2. Estimaci
on de los par
ametros . . . . . . . . .
4.2.1. Metodos Cl
asicos . . . . . . . . . . . .
4.2.2. Intervalos bootstrap . . . . . . . . . .
4.2.3. Metodos Robustos . . . . . . . . . . .
4.3. Revisi
on del An
alisis Cluster . . . . . . . . .
4.4. Analisis Discriminante, An
alisis de Mixturas,
y An
alisis con Componentes Principales . . .
4.4.1. An
alisis con Componentes Principales
4.5. Referencias . . . . . . . . . . . . . . . . . . .

113

. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
An
alisis Cluster
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .

5. T
ecnicas Estadsticas para Datos Espaciales
5.1. Introducci
on . . . . . . . . . . . . . . . . . . . .
5.2. Datos espaciales y su representaci
on . . . . . .
5.3. Procesos Puntuales Espaciales . . . . . . . . . .
5.3.1. An
alisis de la distribuci
on espacial . . .
Aleatoriedad Espacial Completa (CSR)
Ajuste de Modelos Espaciales Puntuales
5.3.2. An
alisis de la densidad espacial . . . . .
5.4. Referencias . . . . . . . . . . . . . . . . . . . .

iv

113
114
114
120
122
123
127
127
128

129

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

129
130
134
135
139
143
148
149

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1

T
ecnicas Actuales en
Regresi
on Lineal
1.1.

Introducci
on

La Regresi
on Lineal por mnimos cuadrados es, sin duda, una de las tecnicas
estadsticas m
as utilizadas desde que Legendre (1805) y Gauss (1809) publicaran sus primeras formalizaciones. Y hemos querido comenzar un texto sobre
Tecnicas Actuales de Estadstica Aplicada con este metodo precisamente porque, la mayora de las veces, se sigue utilizando sin analizar debidamente las
suposiciones que requiere o, lo que es m
as interesante, sin las modificaciones
que se han producido en los u
ltimos a
nos y que lo mejoran considerablemente.
Una simple mirada a la Figura 1.4 que aparece m
as adelante, pone en evidencia lo inadecuado que puede resultar, en algunas ocasiones, utilizar la recta de
regresi
on de mnimos cuadrados para hacer predicciones.
Ya en el Captulo 14 de CB y en la Secci
on 6.1.1 de EAR estudiamos algunas
tecnicas estadsticas dise
nadas para analizar la normalidad o la simetra de los
datos observados. Aqu las revisaremos en profundidad con el prop
osito de
Diagnosticar las suposiciones necesarias para que un An
alisis de Regresi
on
Lineal sea v
alido, tecnicas que se denominan Regression Diagnostics. Pero
adem
as, la propia Regresi
on Lineal tambien es u
til para detectar posibles
datos an
omalos entre las observaciones (y analizar su significado), an
alisis
denominado Diagnostic Regression.

1.2.

*El Modelo de Regresi


on Lineal

En esta secci
on exponemos una formalizaci
on precisa del Modelo de Regresi
on Lineal. Recordemos que el Modelo de Regresi
on Lineal supone una
variable dependiente Y relacionada linealmente con unas covariables inde1

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

pendientes X1 , ..., Xk mediante la expresi


on

Y = 0 + 1 X1 + 2 X2 + ... + +k Xk + e

[1.1]

siendo e una variable aleatoria de error.


Si englobamos a los par
ametros en un vector de par
ametros = (0 , ..., k )t ,
el modelo lineal [1.1] se puede expresar de la forma
Y = Xt + e

en donde es Xt = (1, X1 , ..., Xk ).


Con este modelo se suele querer analizar cu
ales de las covariables X1 , ..., Xk
son significativas en la explicaci
on de Y , estimando posteriormente los coeficientes de regresi
on i de las covariables significativas, y todo ello con una
muestra aleatoria de tama
no n de las variables en estudio,
y1
..
.

x11 ... x1k

e1
..
.

yi
..
.

xi1

xik

ei
..
.

yn

xn1 ... xnk

en

...

Si denominamos y = (y1 , ..., yn )t al vector de las observaciones de la variable dependiente y llamamos

1 x11 x1k

..
x = (x1 , ..., xn )t = ...
.
1 xn1 xnk

a la matriz n (k + 1) de las observaciones de las variables independientes, el


Modelo de Regresi
on Lineal se suele expresar de la forma
y = x + e

en donde e = (e1 , ..., en )t es el vector de errores.


En el Modelo de Regresi
on Lineal se supone, o bien que los xij son valores
de las variables determinsticas Xj (suposici
on poco habitual) o, lo que es
m
as frecuente, que los xij son valores fijos de las variables aleatorias Xj , de
forma que, dados los xi = (1, xi1 , ..., xik )t , las yi ser
an (condicionalmente)
independientes con distribuci
on
yi |xi ; N (i , )

siendo

i = 1, ..., n

D
3

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

E[yi |xi ] = i = 0 + 1 xi1 + ... + k xik

i = 1, ..., n.

Por tanto, tambien ser


a

ei |xi ; N (0, )

i = 1, ..., n.

Es decir, con respecto a los errores, el Modelo de Regresi


on Lineal supone que
E[e|x] = 0 (es decir, que los errores, condicionados por las covariables, tienen
media cero, suposici
on que suele denominarse exogeneity), y que V [e|x] =
2 I con I la matriz identidad (es decir, que hay homocedasticidad y falta de
correlaciones condicionales, entre los errores).
Los estimadores habituales bi de mnimos cuadrados que formar
an el hiperplano ajustado
ck xk
yt = b0 + b1 x1 + ... +

son aquellos valores que hacen mnimos (la suma al cuadrado de) los residuos
ri , entendidos estos como las diferencias entre los valores yi observados y los
obtenidos con el hiperplano ajustado

es decir,

ck xik
yti = b0 + b1 xi1 + ... +

obteniendose las estimaciones

ri = yi yti


b = xt x 1 xt y.

Por tanto, los valores te


oricos dados por el hiperplano ajustado ser
an iguales
a


b = x xt x 1 xt y = H
by
yt = (yt1 , ..., ytn )t = x

b = x xt x 1 xt se denomina matriz sombrero, la cual
en donde la matriz H
ser
a de importancia en la Secci
on 1.4.

1.3.

Diagn
ostico de la Regresi
on Lineal

En esta secci
on trataremos el an
alisis de las condiciones necesarias para
que la Regresi
on Lineal de mnimos cuadrados sea v
alida, lo que se denomina
Diagn
ostico de la regresi
on (Regression Diagnostics).

Estas
son: la linealidad entre la variable dependiente y las covariables inon
dependientes, y el que los errores ei sean independientes y con distribuci

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

ei ; N (0, ), suposici
on esta u
ltima analizada mediante un an
alisis de los
residuos.
La linealidad entre la variable dependiente Y y las k covariables Xi suele analizarse gr
aficamente mediante k diagramas de dispersi
on (y, xi ). Si los
puntos aparecen alineados suele admitirse esa linealidad.
Para analizar si los errores ei siguen una N (0, ) se considera que los residuos ri son buenos estimadores suyos y se analiza si puede admitirse que los
residuos ri proceden de una N (0, ). Para ello, lo primero es calcular la media
muestral de los residuos que debera
Pnde 2ser cero. Despues, dado que la cuasivarianza muestral de los residuos,
1 ri /(n k 1) = SSN EX/(n k 1)
es un buen estimador de la varianza com
un 2 (vease CB-secci
on 10.3.1), lo
que se considera habitualmente son los residuos estandarizados

Residuos ri
.

Si estos siguen aproximadamente una N (0, 1), se admite la suposici


on de normalidad de los errores. (Sobre esto volveremos en la Secci
on 1.6.)
No obstante, a diferencia de los errores e1 , ..., en que s son independientes e identicamente distribuidos, los residuos r = (r1 , ..., rn )t = y yt , que
se generan con el tradicional metodo de mnimos cuadrados, no son ni independientes ni tienen la misma varianza ya que puede demostrarse con unos
cuantos c
alculos (vease Rao, 1973, pag. 227, apartado (iii)) que es
Residuos estandarizados =


b = 2 (I x xt x 1 xt )
V (r|x) = V (y|x) V (yt |x) = 2 (I H)

con lo que la varianza de cada ri depende de combinaciones lineales de xij no


independientes, por tanto, de los otros rj .
b
En concreto, si denominamos hij a los elementos de la matriz sombrero H,
2
las varianzas de los residuos ser
an veces los elementos de la diagonal de
b es decir,
I H,
V (ri |x) = 2 (1 hii ).

Por esta raz


on, no suelen utilizarse los residuos estandarizados sino los
residuos estudentizados,
ri
Residuos estudentizados =

1 hii

los cuales, si es cierta la suposici


on de normalidad y homocedasticidad, seguir
an una distribuci
on t de Student con n k 1 grados de libertad, por lo
que suele realizarse un gr
afico de los residuos estudentizados para ver si puede
admitirse que siguen aproximadamente una tnk1 .

D
5

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

No obstante, si el n
umero n de residuos es relativamente grande en relaci
on
con el n
umero k de covariables, esta dependencia en los residuos se suele
ignorar en el an
alisis y suelen considerarse s
olo los residuos estandarizados.
El an
alisis de la normalidad de los residuos estandarizados, o el que los
residuos estudentizados sigan una tnk1 , debera hacerse mediante alg
un test
de bondad del ajuste aunque lo m
as frecuente es utilizar metodos gr
aficos
como el histograma, el diagrama de hojas y ramas, o el qq-plot.
Por u
ltimo, el an
alisis de la homocedasticidad, es decir, que la varianza de
los residuos es constante, se puede visualizar representando los valores de los
ri para cada i, o como suele hacerse habitualmente para yi o cada yti . Es decir,
on que debera de ser
representando los pares de puntos (yti , ri ), representaci
m
as o menos constante alrededor de cero, al ir variando el i.
Ejemplo 1.1 (PREB-problema 7.2)
Se cree que la duraci
on del revestimiento de un estanque depende de la cantidad de cal
hidr
aulica que contiene. Para analizar esta relaci
on se midi
o, en siete revestimientos, el tiempo, Y , hasta la aparici
on de filtraciones, teniendo cada uno de los revestimientos diferentes
porcentajes de cal hidr
aulica, X. Los resultados obtenidos fueron los siguientes:
X
Y

4
12

10
26

80
180

45
132

25
100

60
200

90
230

Se pide:
a) Determinar la recta de mnimos cuadrados.
b) Contrastar, a nivel = 0 1, la hip
otesis nula H0 de que las variables X e Y no est
an
relacionadas linealmente, frente a la alternativa de que s est
an relacionadas linealmente.
c) Analizar las suposiciones de la Regresi
on Lineal.

La secuencia habitual de comandos en R para obtener la recta de regresi


on y analizar su
significado, aparece a continuaci
on
> x<-c(4,10,80,45,25,60,90)
> y<-c(12,26,180,132,100,200,230)
> ajus<-lm(y~x)
> ajus

Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)
17.398

x
2.415

> summary(ajus)

Call:
lm(formula = y ~ x)

50

100

150

200

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

20

40

60

80

Figura 1.1 : Nube de puntos

Residuals:
1
2
3
-15.057 -15.545 -30.574

4
5.941

5
22.235

6
37.720

7
-4.721

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.3979
17.2332
1.01 0.359038
x
2.4147
0.3156
7.65 0.000608 ***
(1)
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

0.1

(2)
Residual standard error: 25.99 on 5 degrees of freedom
Multiple R-Squared: 0.9213,
Adjusted R-squared: 0.9055
F-statistic: 58.52 on 1 and 5 degrees of freedom,
p-value: 0.0006075

obteniendo en (1) un p-valor suficientemente peque


no como para indicar que s es v
alida la
recta de regresi
on en la explicaci
on de la variable dependiente Y en funci
on de la independiente X. La estimaci
on de , la cual aparece en (2), es
b = 25 99.
La tabla ANOVA la obtenemos ejecutando (3). Vemos
p que el estimador de
es la raz
cuadrada del cuadrado medio de los residuos,
b =
SSN EX/(n 2) = 676 = 26; es
decir, el mismo de antes.
> anova(ajus)
Analysis of Variance Table

(3)

D
7

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Histogram of resid(ajus)

Frequency

10
0
10
30

20

Sample Quantiles

20

30

40

Normal QQ Plot

1.0

0.0

0.5

1.0

40

20

Theoretical Quantiles

20

40

resid(ajus)

Figura 1.2 : Gr
afico de normalidad e Histograma

Response: y
Df Sum Sq Mean Sq F value
Pr(>F)
x
1 39538
39538 58.524 0.0006075 ***
Residuals 5
3378
676
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

La linealidad entre la variable dependiente y la independiente se admite al representar la


habitual nube de puntos, Figura 1.1, obtenida ejecutando (4)
> plot(x,y)

(4)

Para analizar la normalidad de los residuos de la recta ajustada, primero los obtenemos
con la funci
on resid y, despues, un simple gr
afico de normalidad nos permitir
a visualizar
la normalidad o no de estos. En este ejemplo, obtenemos el vector de residuos ejecutando
(5). Si ejecutamos (6) vemos que la media muestral de los residuos es pr
acticamente cero;
esto es una buena se
nal. De hecho, el gr
afico de normalidad (qq-plot), obtenido ejecutando
(7) y que aparece a la izquierda de la Figura 1.2, parece indicarnos que s podra admitirse
esta, pero el histograma de la derecha de la misma figura, obtenido ejecutando (8), parece
indicarnos la presencia de alg
un dato extremo a la derecha. El gr
afico de hojas y ramas,
obtenido despues de ejecutar (9), confirma la falta de simetra, y en consecuencia la falta
de normalidad, de los datos.
> resid(ajus)
1

(5)

10
0
30

20

10

resid(ajus)

20

30

40

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

50

100

150

200

fitted(ajus)

Figura 1.3 : Gr
afico de varianza

-15.056672 -15.544853 -30.573632

5.940758

22.234694

> mean(resid(ajus))
[1] 3.807718e-16
>
>
>
>

par(mfrow=c(1,2))
qqnorm(resid(ajus))
hist(resid(ajus))
stem(resid(ajus))

37.720305

-4.720600

(6)

(7)
(8)
(9)

The decimal point is 1 digit(s) to the right of the |


-2 | 1
-0 | 655
0 | 6
2 | 28

Una forma de analizar gr


aficamente que la varianza es constante es representar en un diagrama de dispersi
on los pares de puntos (yti , ri ). No debera de haber variaciones significativas.
Para ello ejecutamos (10) y obtenemos la Figura 1.3. Al haber considerado pocos puntos no
se puede apreciar, pero parece que tampoco la homocedasticidad queda muy bien parada.
> plot(fitted(ajus),resid(ajus))

(10)

1.4.

D
9

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

Puntos influyentes

Desde un punto de vista algo informal, diremos que un dato es influyente


(influential) si su inclusi
on o exclusi
on del conjunto de observaciones conduce
a cambios sustanciales en el modelo ajustado, es decir, en los coeficientes de
regresi
on estimados bi , mediante el tradicional metodo de mnimos cuadrados.

Precisando un poco m
as, los datos an
omalos que se tengan en el grupo
de observaciones dependientes yi se denominan simplemente outliers, y si son
datos an
omalos en el conjunto de las covariables dependientes xi se denominan
leverage points, los cuales en ocasiones se traducen por puntos de apalancamiento al apalancar (lever) la recta de regresi
on aunque mantendremos en el
texto la denominaci
on inglesa, leverage points.
La detecci
on de unos y otros es el objetivo de la Regresi
on Diagn
ostica
(Diagnostic Regression).
M
as arriba expresamos los valores te
oricos del hiperplano ajustado como
1 t
by
yt = (yt1 , ..., ytn )t = x xt x
xy=H


b = x xt x 1 xt era denominada matriz sombrero. Maen donde la matriz H
b
tem
aticamente, toda matriz obtenida
1 tde la misma manera que H a partir de
t
x, es decir, definida como x x x
x , se denomina matriz de proyecci
on ortogonal sobre, en este caso, x, expresando as, en terminos geometricos, la idea
de que el vector yt es la proyecci
on del vector y en espacio generado por las
columnas de la matriz x.
b una matriz proyecci
Al considerar a H
on, de dimensi
on n n y de rango

k, los elementos P
de la diagonal hii est
an todos entre 0 hii 1, i = 1, ..., n y
b = n hii es igual a k. En el caso extremo de que fuera hii = 1
la traza de H
i=1
seran los hij = 0 para todo j 6= i lo que significara que yti = yi , es decir,
que el hiperplano ajustado pasara por (xi , yi ) independientemente del valor
de las otras observaciones. Aunque hii = 1 es una situaci
on extrema, un valor
alto suyo implicara que el hiperplano de regresi
on pasara cerca de (xi , yi ),
es decir que este fuera un leverage point. Aunque no existe unanimidad sobre
a partir de que valor de hii denominar al correspondiente punto (xi , yi ) un
leverage point, suele considerarse como tal, aquel punto para el que hii > 0 5.
Ejemplo 1.2 (TA-ejemplo 2.2)

La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho y
la hembra), y del cerebro en gramos, Y , de varios animales y homnidos (datos tomados en
parte de Rousseeuw y Leroy, 1987, pag. 57, que a su vez los toma de otras fuentes, adem
as de
datos de homnidos recogidos en varios artculos de paleontologa por el autor de este texto)

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

10

Animal u Homnido
1
Castor monta
nes
2
Vaca
3
Lobo gris
4
Cabra
5
Cerdo guineano
6
Burro
7
Caballo
8
Mono Potar
9
Gato
10 Jirafa
11 Gorila
12 Macaco ind
u
13 Canguro
14 Hamster
15 Rat
on
16 Conejo
17 Oveja
18 Jaguar
19 Chimpace
20 Rata
21 Topo
22 Cerdo
23 Elefante asi
atico
24 Elefante africano
25 Diplodocus
26 Triceratops
27 Braquiosaurio
28 Australopithecus afarensis
29 Australopithecus africanus
30 Paranthropus robustus
31 Paranthropus boisei
32 Homo habilis
33 Homo erectus
34 Homo sapiens
35 P. troglodythes
36 Hombre actual

X
1 35
465
36 33
27 66
1 04
187 1
521
10
3 3
529
207
6 8
35
0 12
0 023
2 5
55 5
100
52 16
0 28
0 122
192
2547
6654
11700
9400
87000
37
35 5
36
41 5
42
61
59 5
47
70

Y
8 1
423
119 5
115
5 5
419
655
115
25 6
680
406
179
56
1
0 4
12 1
175
157
440
1 9
3
180
4603
5712
50
70
154 5
2198 67
2308 14
2781 42
2698 95
3127 13
4420 59
6372 9
2197 55
10410 89

Si queremos hacer un An
alisis de Regresi
on de estos datos, primero los incorporaremos a R
con (1) y calcularemos la recta de mnimos cuadrados ejecutando (2). Mediante la sentencia
(3), observando el p-valor (4), concluimos que el peso del cuerpo no es significativo para
predecir el peso del cerebro ya que se puede aceptar con bastante seguridad la hip
otesis nula
de que es cero el coeficiente de regresi
on correspondiente a la variable independiente, peso
del cuerpo.
No obstante, en este caso de Regresi
on Lineal Simple, podemos representar tanto la nube
puntos como la recta de regresi
on ajustada, ejecutando (5) y (6) y obteniendo la Figura 1.4
en donde se aprecia claramente un leverage point, la observaci
on 36, el braquiosaurio, que
apalanca a la recta de regresi
on haciendola completamente inadecuada. Esta deducci
on ha
sido posible porque estamos ante un ejemplo de Regresi
on Lineal Simple. Si tuvieramos una
Regresi
on Lineal M
ultiple, la representaci
on gr
afica como elemento de an
alisis deja de ser
v
alida y son necesarios Metodos Robustos para poder realizar el an
alisis de las hip
otesis de
la regresi
on que nos protejan de la posible presencia de datos an
omalos en la muestra.

11

36

34

24

2000

4000

6000

8000

10000

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

33 23

32
30
31
29
28
35

107
19
1162
221
12
17
18
3
8
4
13
9
16
5
20
15
21
14

27

26 25

20000

40000

60000

80000

Figura 1.4 : Nube de puntos y Recta del Ejemplo 1.2

> pesos<-matrix(scan("d:\\datos\\pesos"),ncol=2,byrow=T)
> recta<-lm(pesos[,2]~pesos[,1])
> summary(recta)

(1)
(2)
(3)

Call:
lm(formula = pesos[, 2] ~ pesos[, 1])
Residuals:
Min
1Q Median
-1470.6 -1370.5 -1160.1

3Q
755.6

Max
8940.9

Coefficients:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 1470.98004 403.88050
3.642 0.000891 ***
pesos[, 1]
-0.01392
0.02736 -0.509 0.614220
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(4)

Residual standard error: 2361 on 34 degrees of freedom


Multiple R-squared: 0.007555,
Adjusted R-squared: -0.02163
F-statistic: 0.2588 on 1 and 34 DF, p-value: 0.6142

> plot(pesos[,1],pesos[,2],xlab="X",ylab="Y",pch=16)
> text(pesos[,1],pesos[,2],pch=16,1:36,adj=1.5,cex=0.8,col=2)
> abline(recta,lty=2,lwd=2,col=4)

(5)
(5)
(6)

b ejecutaremos primero (7) para convertir nuestro


Si queremos calcular la matriz sombrero H
data frame de datos en una matriz, a partir de la cual, en (8), obtenemos la matriz som-

12

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

brero con dos cifras decimales. La matriz sombrero obtenida a continuaci


on muestra en su
diagonal la influencia de los datos, apreciando que el Braquiosaurio (observaci
on 27), tiene
una influencia de 0 97 sobre 1. Observamos tambien que el dato 36, el Hombre Actual, tiene
una influencia de 0 41 sobre 1, es decir, tambien es un dato que est
a en el lmite de ser considerado un leverage point. Aunque lo fuera, se suele distinguir entre good leverage points,
como el Hombre Actual, por estar situado en la tendencia que presentan los datos (afianza
a la recta en el buen camino) y bad leverage points, como el Braquiosaurio, que arrastra la
recta al mal camino.
> ejemplo1_2<-matrix(c(pesos[,1],pesos[,2]),ncol=2)

(7)

> round(ejemplo1_2%*%(solve(t(ejemplo1_2)%*%ejemplo1_2))%*%t(ejemplo1_2),3)

(8)

[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]
[31,]
[32,]
[33,]
[34,]
[35,]
[36,]
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]

[,1] [,2] [,3] [,4] [,5] [,6]


0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.01
0
0
0 0.01
0 0.01
0
0
0 0.01
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.00
0
0
0 0.00
0 0.01
0
0
0 0.01
0 0.01
0
0
0 0.01
0 0.00
0
0
0 0.00
0 0.02
0
0
0 0.02
[,18] [,19] [,20] [,21] [,22]
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00
0.00 0.00
0
0 0.00

[,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17]
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.01 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.01 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.00
0
0 0.00 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.01 0.00
0
0
0
0 0.00
0.02
0
0 0.02 0.01 0.00
0
0
0
0 0.00
0.01
0
0 0.01 0.00 0.00
0
0
0
0 0.00
0.03
0
0 0.03 0.02 0.01
0
0
0
0 0.01
[,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33]
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
0.01 0.01 0.00 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

13

[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]
[31,]
[32,]
[33,]
[34,]
[35,]
[36,]
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.01
0
0.00 0.01
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.00
0
0.00 0.01
0
0.00 0.01
0
0.00 0.01
0
0.00 0.00
0
0.01 0.02
0
[,34] [,35] [,36]
0.00 0.00 0.00
0.01 0.00 0.02
0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.00
0.01 0.00 0.02
0.02 0.01 0.03
0.00 0.00 0.00
0.00 0.00 0.00
0.02 0.01 0.03
0.01 0.00 0.02
0.00 0.00 0.01
0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.01
0.00 0.00 0.01
0.01 0.00 0.02
0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.01
0.11 0.04 0.18
0.14 0.05 0.22
0.00 0.00 0.00
0.00 0.00 0.00
-0.01 0.00 -0.02
0.05 0.02 0.09
0.06 0.02 0.09
0.07 0.02 0.11

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01

0.00
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.00
0.00
0.00
0.08
0.10
0.00
0.00
0.02
0.04
0.04
0.05
0.05
0.05
0.08
0.11
0.04
0.18

0.00
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.00
0.00
0.00
0.10
0.13
0.01
0.01
0.06
0.05
0.05
0.06
0.06
0.07
0.09
0.14
0.05
0.22

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.02
0.01
0.13
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.01
0.01
0.10
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00

0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.02
0.06
0.13
0.10
0.97
0.00
0.00
-0.01
-0.01
-0.01
-0.01
-0.01
0.00
-0.02

0.00
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.04
0.05
0.00
0.00
0.00
0.02
0.02
0.02
0.02
0.03
0.04
0.05
0.02
0.09

0.00 0.00 0.00 0.00 0.00


0.01 0.01 0.01 0.01 0.01
0.00 0.00 0.00 0.00 0.01
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.01 0.01
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.04 0.05 0.05 0.05 0.08
0.05 0.06 0.06 0.07 0.09
0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00
0.00 -0.01 -0.01 -0.01 -0.01
0.02 0.02 0.02 0.03 0.04
0.02 0.02 0.02 0.03 0.04
0.02 0.03 0.03 0.03 0.05
0.02 0.03 0.03 0.03 0.05
0.03 0.03 0.03 0.04 0.05
0.04 0.05 0.05 0.05 0.07
0.06 0.07 0.07 0.08 0.11
0.02 0.02 0.02 0.03 0.04
0.09 0.11 0.11 0.12 0.17

14

1.5.

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

[31,]
[32,]
[33,]
[34,]
[35,]
[36,]

Tecnicas Actuales de Estadstica Aplicada


0.07
0.08
0.11
0.15
0.05
0.25

0.02
0.03
0.04
0.05
0.02
0.09

0.11
0.12
0.17
0.25
0.09
0.41

Regresi
on Robusta

En Regresi
on Robusta se puede proceder de dos maneras: una, mantener
la forma en la que se combinan las medias, varianzas y covarianzas muestrales
cl
asicas en los estimadores de los coeficientes de regresion, pero sustituyendolas

por medias, varianzas y covarianzas robustas. Esta


es la idea seguida por la
recta de regresi
on Media Biponderada, obtenida ejecutando la funci
on bireg
de Rmo , y la recta de regresi
on Winsorizada obtenida ejecutando la funci
on
mo
winreg de R , analizadas ambas en MR-secci
on 7.4.
Otra posibilidad, como vimos en MR-secci
on 7.2, es la recta de regresi
on de
Huber obtenida con la funci
on rlm de la librera MASS, o la recta de regresi
on
B-robusta o
ptima (un M -estimador para la regresi
on lineal tipo Schweppe)
on 7.3), rectas que se basan
obtenida con la funci
on bmreg de Rmo (MR-secci
en utilizar otras funciones en la minimizaci
on de los residuos ri = (yi xti )




n
n
X
X
yi xti
ri ()
mn

= mn

i=1

i=1

m
as generales que la no robusta de la recta de mnimos cuadrados, basada en
minimizar la funci
on cuadr
atica
mn

n
X

ri2

i=1

es decir, basadas en cambiar el criterio de obtenci


on del estimador
optimo.
Si, como es habitual, la funci
on tiene derivada , el estimador buscado se
encontrar
a habitualmente como soluci
on de la ecuaci
on
n
X
i=1

ri ()

xi = 0

que requiere la fijaci


on de un estimador de escala
. No obstante, los M estimadores en general y estos en particular, tienen un punto de ruptura de,
como m
aximo, 1/(k + 1), siendo k la dimensi
on de X. Es decir, en el caso
de la regresi
on lineal simple, tendr
an, como m
aximo, un punto de ruptura de

15

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

0 5, que esta muy bien, pero en cuanto el n


umero k de covariables aumente,
el punto de ruptura bajar
a dram
aticamente.
Adem
as, los M -estimadores pueden tener problemas con la presencia de
datos an
omalos entre las covariables, leverage points como dijimos m
as arriba.
Ejemplo 1.2 (continuaci
on)
La siguiente tabla recoge los pesos del cuerpo X, en kilogramos (promediados el macho y la
hembra), y del cerebro en gramos, Y , de varios animales y homnidos,
Animal u Homnido
1
Mono Potar
2
Macaco ind
u
3
Chimpance
4
Australopithecus afarensis
5
Australopithecus africanus
6
Paranthropus robustus
7
Paranthropus boisei
8
Homo habilis
9
Homo erectus
10 Homo sapiens
11 P. troglodythes
12 Hombre actual
13 Gorila
14 Elefante asi
atico
15 Elefante africano
16 Diplodocus
17 Triceratops

X
10
6 8
52 16
37
35 5
36
41 5
42
61
59 5
47
70
207
2547
6654
11700
9400

Y
115
179
440
2198 67
2308 14
2781 42
2698 95
3127 13
4420 59
6372 9
2197 55
10410 89
406
4603
5712
50
70

Comencemos considerando los 12 primeros datos y calculando de la recta de mnimos cuadrados cl


asica. Incorporamos los datos con (1), los convertimos en un data frame con (2) y
los representamos con (3) y (4). La recta de regresi
on cl
asica de mnimos cuadrados (que
hemos denominado recta21) se obtiene ejecutando (5). Aunque los datos a utilizar con lm
pueden ser del tipo vectores, para su uso posterior, los hemos convertido en data frame.
La recta de regresi
on robusta de Huber (MR-secci
on 7.2) se puede obtener ejecutando la
funci
on rlm de la librera MASS,

rlm(y~x,k2=1.345,scale.est="MAD", data=datos)

Esta funci
on, elige por defecto como tuning constant el valor b = 1 345 aunque se puede
modificar. El estimador del par
ametro de escala elegido por defecto es MAD (MR-secci
on 2.6)
aunque se puede especificar proposal 2 si se quiere utilizar la Hubers proposal 2 (MRsecci
on 7.2). El resto de argumentos es similar a los de la funci
on lm pero aqu los datos
necesariamente tienen que tener estructura data frame. Como siempre, si quiere m
as informaci
on de la funci
on basta con que ejecute ?rlm.
Para obtener esta recta con los datos del ejemplo, denominada recta22, ejecutamos (6) (representada despues de color rojo), a
nadiendo ambas rectas al gr
afico y obteniendo finalmente
la Figura 1.5 con la siguiente secuencia de sentencias,

16

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

2000

4000

6000

8000

10000

Tecnicas Actuales de Estadstica Aplicada

Hombre actual

Chimpanc

50

100

150

200

Figura 1.5 : Rectas de mnimos cuadrados y robusta de Huber

>
>
>
>
>
>
>
>
>
>

ejem2<-matrix(scan("d:\\datos\\ejem2.txt"),ncol=2,byrow=T)
ejem2<-data.frame(ejem2[,1],ejem2[,2])
plot(ejem2[,1],ejem2[,2],xlim=c(0,208),pch=16,xlab="x",ylab="y")
text(80,10000,"Hombre actual")
text(70,500,"Chimpanc
e")
recta21<-lm(ejem2[,2]~ejem2[,1],data=ejem2)
abline(recta21)
library(MASS)
recta22<-rlm(ejem2[,2]~ejem2[,1],data=ejem2)
abline(recta22,col=2)

(1)
(2)
(3)
(4)
(4)
(5)

(6)

Se ve que la recta de Huber es m


as robusta, es decir, menos sensible a un par valores extremos,
es decir, que parecen tirar de la recta de mnimos cuadrados, que son el Hombre actual y el
Chimpance.
Ahora a
nadimos a los datos anteriores, el Gorila (en azul) y volvemos a calcular ambas rectas
obteniendo la Figura 1.6, en donde aparecen las rectas de regresi
on de mnimos cuadrados
(las negras) y las robusta de Huber (las rojas) con y sin el nuevo dato Gorila.
>
>
>
>
>
>
>

points(207,406,pch=16,col=4)
text(200,900,"Gorila")
ejem3<-matrix(scan("d:\\datos\\ejem3.txt"),ncol=2,byrow=T)
ejem3<-data.frame(ejem3[,1],ejem3[,2])
recta31<-lm(ejem3[,2]~ejem3[,1],data=ejem3)
recta32<-rlm(ejem3[,2]~ejem3[,1],data=ejem3)
abline(recta31)

17

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

2000

4000

6000

8000

10000

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

Hombre actual

Gorila

Chimpanc

50

100

150

200

Figura 1.6 : Rectas de mnimos cuadrados y robusta de Huber

> abline(recta32,col=2)

Como se ve, la recta de Huber tampoco es robusta a la presencia de leverage points.

Una alternativa que se pens


o en un principio y luego se ha descartado, fue
la de utilizar como funci
on el valor absoluto (por analoga con la mediana
en los estimadores de localizaci
on), de forma que se minimizara
mn

n
X
i=1

|ri |

estimador que se denomina recta de regresi


on de mnimos valores absolutos
(least absolute values), tambien denominado estimador norma L1 (el de mnimos cuadrados sera el de norma L2 ), pero este estimador no es la soluci
on,
ya que tiene punto de ruptura (MR-secci
on 1.5.2) igual a 0, es decir, el mismo
que el estimador de mnimos cuadrados, fundamentalmente porque conserva
la estructura de suma en la expresi
on a minimizar.
Las alternativas que han dado buenos resultados frente a outliers y frente
a leverage points (aunque con alg
un problema si se presentan inliers), han
sido la recta de regresi
on de mnimas medianas de cuadrados (least median of

18

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

squares), tambien denominada LMS, sugerida en Hampel (1975) y desarrollada


por Peter Rousseeuw (1984), que tiene punto de ruptura m
aximo de 0 5,
mn mediana ri2
i

y la recta de regresi
on de mnimos cuadrados recortados (least trimmed squares), denominada LTS, propuesta por Peter Rousseeuw (1984, 1985) y con
punto de ruptura 0 5,
mn

q
X

2
r(i)

i=1

2000

4000

6000

8000

10000

en donde, como se ve, en el proceso de minimizaci


on s
olo se consideran los q
residuos m
as peque
nos, tom
andose habitualmente q = [n/2] + [(k + 2)/2], con
[ ] la funcion parte entera.
Ambas rectas de regresi
on robustas se obtienen con la funci
on lqs de la
librera MASS. La recta LMS se obtiene ejecutando

Hombre actual

Gorila

Chimpanc

50

100

150

Figura 1.7 : Nube de puntos y Rectas del Ejemplo

lqs(y~x,method="lms",data=datos)

200

19

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

y la recta LTS ejecutando

lqs(y~x,data=datos)

Como antes, en ambos casos, los datos necesariamente tienen que tener estructura data frame. En las rectas as obtenidas no puede aplicarse la funci
on
summary para analizar la significaci
on del coeficiente de regresi
on.
La recta LTS tambien se obtiene con la funci
on ltsReg de la librera robustbase ejecutando

ltsReg(y~x,data=datos)

recta a la que s se le puede ejecutar la funci


on summary.

6000

8000

10000

Ejemplo 1.2 (continuaci


on)

Elefante africano

2000

4000

Elefante asitico

Triceratops

2000

4000

6000

8000

Diplodocus

10000

12000

Figura 1.8 : Nube de puntos y Rectas del Ejemplo

Podemos calcular las rectas LMS (la verde, recta3) y LTS (la azul, recta4) e incorporarlas
al gr
afico anterior obteniendo la Figura 1.7. Se ve que ambas son robustas.

20

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

>
>
>
>
>
>
>

Tecnicas Actuales de Estadstica Aplicada

recta3<-lqs(ejem3[,2]~ejem3[,1],method="lms",data=ejem3)
recta4<-lqs(ejem3[,2]~ejem3[,1],data=ejem3)
abline(recta3,col=3)
abline(recta4,col=4)
library(robustbase)
recta44<-ltsReg(ejem3[,2]~ejem3[,1],data=ejem3)
recta44

Call:
ltsReg.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)
Coefficients:
Intercept ejem3[, 1]
-443.69
75.82
Scale estimate 855.8

Ahora incorporamos el resto de datos del ejemplo para utilizar los 17 datos, introduciendo
de esta manera m
as outliers,
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>

ejem5<-matrix(scan("d:\\datos\\ejem5.txt"),ncol=2,byrow=T)
ejem5<-data.frame(ejem5[,1],ejem5[,2])
plot(ejem5[,1],ejem5[,2],pch=16,xlab="x",ylab="y")
text(2500,5000,"Elefante asi
atico")
text(6600,6100,"Elefante africano")
text(9400,500,"Triceratops")
text(11400,500,"Diplodocus")
recta51<-lm(ejem5[,2]~ejem5[,1],data=ejem5)
recta52<-rlm(ejem5[,2]~ejem5[,1],data=ejem5)
recta53<-lqs(ejem5[,2]~ejem5[,1],method="lms",data=ejem5)
recta54<-lqs(ejem5[,2]~ejem5[,1],data=ejem5)
abline(recta51)
abline(recta52,col=2)
abline(recta53,col=3)
abline(recta54,col=4)

Se ve en la Figura 1.8 que la recta de mnimos cuadrados en negro (recta51) y la de Huber


en rojo (recta52) son sensibles a esos datos an
omalos en el espacio de las covariables. No
obstante, la LMS, least median of squares (recta53, en verde) y la LTS, least trimmed
squares (recta54, en azul), no lo son.

1.5.1.

S-estimadores

Propuestos por Rousseeuw y Yohai (1984) se basan en minimizar un M estimador de escala robusto de los residuos, de la siguiente forma:
Para cada valor fijo de se obtiene el estimador de escala
() resolviendo
la ecuaci
on en ,

21

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

1X

n
i=1

ri ()

siendo 0 < < 1 una constante adecuada, y eligiendo la funci


on de forma
que sea acotada y, habitualmente adem
as, que sea simetrica en cero, (0) = 1
y decreciente a cero mon
otonamente cuando x .
Ahora, el S-estimador se elige como aquel que minimice
().
Si y se eligen adecuadamente, el punto de ruptura del estimador es
asint
oticamente 0 5 y eficiente.
Se podra determinar el S-estimador con la funci
on lmrob.S de la librera
robustbase (creando antes la matriz del dise
no), o con la funci
on lqs de la
librera MASS, pero no es recomendable dada la poca eficiencia que tiene.
Ejemplo 1.2 (continuaci
on)
Si ejecutamos (1) obtenemos el S-estimador con la librera MASS. Si queremos utilizar la
librera robustbase ejecutamos (2) aunque primero debemos crear la matriz del dise
no y
luego ejecutar la funci
on lmrob.S
> recta55<-lqs(ejem3[,2]~ejem3[,1],method="S",data=ejem3)
> recta55
Call:
lqs.formula(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3,
method = "S")

(1)

Coefficients:
(Intercept)
ejem3[, 1]
-632.72
82.84
Scale estimates 883.8
> X1
> X1
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]

<- cbind(1, ejem3[,1])


[,1]
[,2]
1 10.00
1
6.80
1 52.16
1 37.00
1 35.50
1 36.00
1 41.50
1 42.00
1 61.00
1 59.50
1 47.00
1 70.00
1 207.00

> recta56<-lmrob.S(X1,ejem3[,2],control=lmrob.control(nRes = 20),trace.lev=1)$coef

(2)

22

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

> recta56
[1] -507.63714

80.32232

La rectas obtenidas son algo distintas ya que el algoritmo de obtenci


on lo es. Con el primer
metodo obtenemos la recta yt = 632 72 + 82 84 x. Con el segundo, la recta yt = 507 63 +
80 32 x. No se le puede aplicar la funci
on summary para analizar la significaci
on del coeficiente
de regresi
on a ninguna de ellas.

1.5.2.

MM-estimadores

Propuestos por Yohai (1987) son M -estimadores con una gran punto de
ruptura y una gran eficiencia bajo un modelo normal. Para determinarlos
se comienza con una estimaci
on inicial de , que podemos denominar b0 ,
con alto punto de ruptura aunque seguramente con poca eficiencia bajo el
modelo normal (por ejemplo la obtenida con un S-estimador). Se determina a
continuaci
on un M -estimador robusto de escala
con los residuos ri (b0 ) (lo
que implica no necesitar un estimador previo de ) y, finalmente, se resuelve
la ecuaci
on
n
X
i=1

ri ()

xi = 0

mediante un proceso iterativo que comienza en b0 .


Los MM-estimadores tienen punto de ruptura asint
otico 0 5, eficiencia
asint
otica bajo errores normales y distribuci
on asint
otica normal.
Los MM-estimadores se pueden calcular con la funci
on rlm de la librera
MASS o, mejor, con la funci
on lmrob de la librera robustbase.
Ejemplo 1.2 (continuaci
on)
Vamos a utilizar los 13 primeros datos del ejemplo, es decir, los datos del fichero ejem3.
> library(MASS)
> recta6<-rlm(ejem3[,2]~ejem3[,1],method="MM",data=ejem3)
> recta6
Call:
rlm(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3, method = "MM")
Converged in 8 iterations
Coefficients:
(Intercept) ejem3[, 1]
-700.45042
86.09356

Degrees of freedom: 13 total; 11 residual


Scale estimate: 884

23

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal
> library(robustbase)
> recta7<-lmrob(ejem3[,2]~ejem3[,1],data=ejem3)
> recta7

Call:
lmrob(formula = ejem3[, 2] ~ ejem3[, 1], data = ejem3)
Coefficients:
(Intercept)
ejem3[, 1]
-700.5
86.1

Como se ve, ambas libreras dan la misma recta de regresi


on robusta MM,
yt = 700 5 + 86 1 x. No obstante, veremos un poco m
as abajo que podemos
obtener directamente la significaci
on del coeficiente de regresi
on con la funci
on
summary aplicada a la recta obtenida con robustbase y no a la obtenida con
MASS.
Ejemplo 1.2 (continuaci
on)
Se pueden representar las rectas en un mismo gr
afico ejecutando las siguientes sentencias.
Se observar
a que, salvo las dos primeras, la de mnimos cuadrados recta 31 y la de Huber
recta 32, las dem
as son robustas.
>
>
>
>
>
>
>
>
>

plot(ejem3[,1],ejem3[,2],pch=16,xlab="x",ylab="y")
abline(recta31)
abline(recta32,col=2)
abline(recta3,col=3)
abline(recta4,col=4)
abline(recta44,col=5)
abline(recta7,col=6)
abline(recta55,col=7)
abline(recta56,col=8)

La pregunta es, cu
al de ellas elegir. Nosotros sugerimos elegir la que de una mayor significaci
on al contraste sobre el coeficiente de regresi
on utilizando la funci
on summary. S
olo podemos
hacerlo con cuatro de ellas obteniendo los siguientes resultados:
> summary(recta31)

# la recta de m
nimos cuadrados

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2797.152
1268.292
2.205
0.0496 *
ejem3[, 1]
1.833
17.601
0.104
0.9189
> summary(recta32)
# la recta robusta de Huber
Coefficients:
Value
Std. Error t value
(Intercept) 2591.9197 1120.0630
2.3141

(1)

24

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

ejem3[, 1]

-0.4214

15.5443

-0.0271

Residual standard error: 2750 on 11 degrees of freedom


> 2*pt(-0.0271,11)
[1] 0.9788654

(2)

> summary(recta44)
# la recta lts
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Intercept
-443.69
356.15 -1.246
0.253
ejem3[, 1]
75.82
9.20
8.241 7.54e-05 ***

(3)

> summary(recta7)
# la recta MM con robustbase
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -700.52
420.33 -1.667 0.12379
ejem3[, 1]
86.10
20.18
4.266 0.00133 **

(4)

Los p-valores asociados a la recta de mnimos cuadrados y de Huber ((2) y (3), confirman la
no adecuaci
on de estas. El p-valor de la recta LTS es el menor. Por consiguiente, sugerimos
quedarnos con la recta
yt = 443 69 + 75 82 x

1.6.

Enmascaramiento

La teora cl
asica nos dice que una manera de actuar, alternativa a la Regresi
on Robusta, sera representar los residuos estandarizados (estimados) del
ajuste, es decir, las diferencias entre los valores observados y los obtenidos con
la recta estimada, divididos por un estimador de la desviaci
on tpica,

Residuos ri
yi yti
=

y todos aquellos datos cuyos residuos esten m


as all
a de, por ejemplo, el interva

lo (1 96, 1 96), deben ser considerados outliers y, en consecuencia eliminados,


por constituir estos valores un intervalo de confianza al 95 % por seguir los residuos de una normal N (0, 1).
As, considerando el ejemplo anterior, si ejecutamos la siguiente secuencia
de instrucciones,
Residuos estandarizados =

>
>
>
>

par(mfrow=c(1,2))
plot(rstandard(recta21))
text(3,-1.9,"Chimpanc
e")
text(10,2.2,"Hombre actual")

25

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 1. Tecnicas Actuales en Regresi


on Lineal

Hombre actual

1
0
1
2

rstandard(recta31)

1
0
1

rstandard(recta21)

Hombre actual

Chimpanc

Gorila

10

12

Index

10

12

Index

Figura 1.9 : Gr
aficos de residuos

> plot(rstandard(recta31))
> text(10.6,2.3,"Hombre actual")
> text(12,-2.4,"Gorila")

> plot(rstandard(recta51),ylim=c(-3,3))
> text(16,2.5,"Hombre actual")

vemos en la gr
afica de la izquierda de la Figura 1.9 que aparecen como outliers
el Hombre actual y el Chimpance, pero cuando incorporamos al Gorila, este
outlier enmascara al Chimpance y aparecen como outliers s
olo el Hombre
actual y el Gorila, lo que indica que un gr
afico de residuos puede ser enga
noso.

Pero este efecto puede ser a


un peor: cuando incorporamos todos los datos,
el efecto de enmascaramiento del resto de los outliers, s
olo indica en la Figura
1.10 como outlier al Hombre actual y no los cuatro claros outliers que hemos
a
nadido, ni al Gorila o Chimpance. Esto es debido a que los outliers tiran de
la recta de mnimos cuadrados y se minimizan los residuos. Al mismo tiempo,
un gran n
umero de outliers aumenta la varianza estimada y disminuye la claridad del grafico de residuos. La conclusi
on es clara: debemos utilizar siempre
Metodos Robustos.

26

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

1
0
1
3

rstandard(recta51)

Hombre actual

10

15

Index

Figura 1.10 : Gr
aficos de residuos

1.7.

Referencias

Gauss, C.F. (1809). Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem
Ambientum. (Disponible en Internet: digitalizado por Google).
Hampel, F.R. (1975). Beyond location parameters: Robust concepts and methods. Proceedings of 40th Session I.S.I., Warsaw 1975, Bull. Int. Statist. Inst., 46, Book 1, 375-382.
Legendre, A.M. (1805). Nouvelles methodes pour la determination des orbites des com`etes.
Apendice de Sur la Methode des moindres quarres.(Disponible en Internet: digitalizado
por Google).
Rao, C.R. (1973). Linear Statistical Inference and its Applications, 2a edici
on. Wiley.

Rousseeuw, P.J. (1984). Least median of squares regression. Journal of the American Statistical Association, 79, 871880.
Rousseeuw, P.J. (1985). Multivariate estimation with high breakdown point. In: Grossmann
W, Pflug G, Vincze I, Wertz W, editores. Mathematical Statistics and Applications,
Vol. B, Dordrecht: Riedel Publishing Company, 283297.
Rousseeuw, P.G. y Leroy, A.M. (1987). Robust Regression and Outlier Detection. Wiley

Rousseeuw, P.G. y Yohai, V. (1984). Robust regression by means of S-estimators. Nonlinear


Time Series Analysis. Lecture Notes in Statistics, 26, 256-272, Springer Verlag.
Yohai, V. (1987). High Breakdown-point and high efficiency estimates for regression. The
Annals of Statistics, 15, 642656.

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2

Modelos Lineales
Generalizados Univariantes
2.1.

Introducci
on

Modelos Lineales Generalizados es una denominaci


on generica que engloba
algunos metodos ya estudiados anteriormente, tales como la Regresi
on Lineal
Simple (CB-captulo 9), la Regresi
on Lineal M
ultiple (CB-captulo 10), la Regresi
on Logstica (TA-captulo 9) o la Regresi
on Poisson (TA-captulo 10),
as como otros Metodos de Regresi
on a
un no estudiados y que ser
an analizados en este captulo.
La raz
on de realizar un estudio global de estos metodos es la de obtener,
de una sola vez, resultados aplicables a todos ellos. En particular en lo referente a los Metodos Robustos utilizados en dichos modelos. Esta generalizaci
on
se consigue con un mayor nivel de abstracci
on por lo que el captulo puede
resultar, en ocasiones, demasiado tecnico. Si el lector est
a interesado, principalmente, por las aplicaciones de estos metodos encontrar
a m
as interesante la
Secci
on 2.4 si desea un enfoque cl
asico y a la Secci
on 2.7.3 cuando se busque
un an
alisis robusto.
A continuaci
on aparecen tres ejemplos que ser
an resueltos en dichas secciones.
Ejemplo 2.1
Consideraremos el experimento proporcionado por Phelps (1982) en el que se anot
o para
cada uno de los i = 24 grupos, el n
umero de zanahorias da
nadas por insectos de entre todas

las del grupo. Estas


fueron plantadas en tres bloques, por lo que al ser esta una covariable de
tipo cualitativo, debieron considerarse en el modelo dos covariables indicadoras, bloque1 y
bloque2. Adem
as, se fumig
o seg
un ocho dosis de un determinado insecticida, consider
andose
la covariable cuantitativa log(dosis) en el modelo.
Se pretende ajustar a estos datos un Modelo de Regresi
on Binomial cl
asico y otro robusto.

27

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

28

Ejemplo 2.2
Feigl y Zelen (1965) analizaron datos de 33 pacientes con leucemia para los que se anot
o si
su tiempo de supervivencia era superior a 52 semanas (de hecho, ellos anotaron el tiempo de
supervivencia y no s
olo si era o no mayor a 52 semanas), que correspondera a un valor igual
a 1, exito, de la variable dependiente Y , con probabilidad p, siendo Y = 0 si ese tiempo de
supervivencia era inferior o igual a 52 semanas, fracaso, de probabilidad 1 p.
Como covariables independientes que se piensa pueden explicar a esta, se consideraron la
covariable W BC, n
umero de gl
obulos blancos por milmetro c
ubico de sangre, (o leucocitos,
o en ingles White Blood Cell Count) indicando un valor alto de esta covariable la existencia de infecci
on, y la covariable AG, presencia (AG = 1) o ausencia (AG = 0) de cierta
caracterstica morfol
ogica de los gl
obulos blancos. A estos datos se ajustar
a en Modelo de
Regresi
on Logstica cl
asico y otro robusto.

Ejemplo 2.3
Los artculos de Lindenmayer y sus colaboradores (en la bibliografa damos dos de estos
artculos) proporcionan multitud de datos sobre las Monta
nas Centrales de Victoria en Australia. Aqu trabajaremos con datos sobre diferentes especies de marsupiales arborcolas de
Bosques Montano tipo Ash (Montane Ash Forest).
En este estudio se analizaron 151 lugares diferentes de 3ha con vegetaci
on uniforme, observ
andose en cada uno de estos las siguientes 14 variables: La variable dependiente de
respuesta, n
umero de especies de marsupiales en el lugar (Diversidad), y las 13 covariables
siguientes: el n
umero de arbustos (Arbustos); si haba, 1, o no, 0, tocones de pasadas operaciones forestales (Tocones) que es una variable cualitativa con dos niveles; el n
umero de

arboles de porte hueco (Stags); un ndice de cortezas extradas (Cortezas); un ndice de habitabilidad para marsupiales (Habitat); el
area de acacias (Acacias); el tipo de Eucalipto que
es una variable cualitativa con tres niveles: Eucalipto regnans (Regnans), Eucalipto delegatensis (Delegatensis) y Eucaliptus nitens (Nitens); y, por u
ltimo, el aspecto del lugar que es
una variable de tipo cualitativo con cuatro niveles, (NWNE), (NWSE), (SESW) y (SWNW).
Se pretende ajustar un Modelo de Regresi
on Poisson a estos datos, primero cl
asico y, despues,
robusto.

Aunque el Modelo de Regresi


on Lineal Simple o M
ultiple es un caso particular de Modelo Lineal General y, por tanto, tambien puede ser considerado
como otro caso m
as en este captulo, no lo haremos porque ya en el texto CB lo
estudiamos con detalle desde un punto de vista cl
asico y en el texto MR desde
un punto de vista robusto. Eso s, los utilizaremos como punto de partida.

2.2.

Definici
on de Modelo Lineal Generalizado univariante

Para definir los Modelos Lineales Generalizados, partiremos del Modelo de


Regresi
on Lineal. Modelizar nuestros datos con un Modelo de Regresi
on Lineal

29

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

M
ultiple (estudiado en el Captulo 10 de CB) supone considerar una variable
dependiente o de respuesta Y sobre la que pensamos influyen linealmente k
variables independientes o covariables X1 , ..., Xk de la forma
Y = 0 + 1 X1 + ... + k Xk + e

[2.1]

siendo e un variable de error con distribuci


on normal N (0, ).
En el Modelo de Regresi
on Lineal [2.1] se persigue entre otras cosas,
estimar los par
ametros 0 , 1 , ..., k en base a una muestra aleatoria de tama
no
n(> k + 1) de las variables independientes y de la dependiente, dando origen
a los datos
y1
..
.

x11 ... x1k

yi
..
.

xi1

yn

xn1 ... xnk

...

xik

Si englobamos a las variables independientes en un vector X = (X1 , ..., Xk )t


y a los par
ametros en un vector de par
ametros = (0 , ..., k )t , el modelo
lineal [2.1] se puede expresar de la forma
Y = Zt + e

en donde es Zt = (1, Xt ) = (1, X1 , ..., Xk ), (denominado vector del dise


no) y
en donde estamos interesados en estimar los par
ametros de en base a los
datos
(yi , xti ) = (yi , xi1 , ..., xik )

i = 1, ..., n.

En este Modelo de Regresi


on Lineal la variable de respuesta Y es de tipo
cuantitativo. Las covariables suelen ser de tipo cuantitativo (aunque tambien
podran considerarse de tipo cualitativo), y pueden ser determinsticas, es decir, valores conocidos o condiciones experimentales, o pueden ser estoc
asticas,
es decir, valores de un vector aleatorio X.
Si suponemos que las covariables son de tipo determinstico, el modelo
lineal [2.1] puede reformularse diciendo que tenemos n observaciones independientes y1 , ..., yn procedentes de distribuciones N (i , ) en donde la media i
es de la forma
i = zti = 0 + 1 xi1 + ... + k xik

i = 1, ..., n.

Si, como habitualmente sucede, las covariables se consideran estoc


asticas,
el esquema sera el mismo aunque, ahora, condicional; en concreto, los n pares

30

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

(yi , xi ) se suponen observaciones independientes y, dadas las xi , las Yi ser


an
(condicionalmente) independientes con distribuci
on
Yi /xi ; N (i , )

con

E[Yi /xi ] = i = zti

i = 1, ..., n

i = 1, ..., n.

En un Modelo Lineal Generalizado (univariante) ampliamos un poco la


situaci
on anterior. De nuevo suponemos que, dadas las xi , las n variables Yi
son (condicionalmente) independientes aunque ahora, la variable de respuesta
Yi puede ser de tipo continuo, o puede ser de recuentos de observaciones, o
puede ser de tipo binario.
Las dos condiciones antes recuadradas ahora tambien se generalizan. En
este tipo de modelos suponemos que la distribuci
on de las Yi (condicionada
por las xi ) no es necesariamente normal, sino una familia de tipo exponencial
ametro
con esperanza (condicional) E[Yi /xi ] = i y, posiblemente, con un par
de escala (com
un para todas las Yi ) denominado . M
as en concreto, se supone
on de densidad una familia de
que la distribuci
on de las Yi /xi tiene por funci
tipo exponencial de la forma


yi i b(i )
f (yi /i , ) = exp
+ c(yi , )
[2.2]

en donde i se denomina par


ametro natural, es el par
ametro de escala o
dispersi
on, y b y c dos funciones que determinan el tipo de familia exponencial.
Adem
as, en un Modelo Lineal Generalizado, la forma en que las covariables
suministran informaci
on sobre la media i de la variable dependiente ya no es
necesariamente lineal mediante el predictor lineal i = zti , sino que lo hacen
mediante una funci
on de respuesta h con inversa h1 = g, denominada esta
u
ltima, funci
on link, es decir, de la forma
i = h(i ) = h(zti )

o bien,

i = g(i ) = zti

i = 1, ..., n

i = 1, ..., n.

Por tanto, un Modelo Lineal Generalizado vendr


a especificado cuando demos el tipo de familia exponencial para las distribuciones condicionadas Yi /xi ,
la funci
on link g y el vector (o matriz) del dise
no zi .

31

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

En estas distribuciones de Yi /xi , se supone que el par


ametro natural es una
funci
on w1 de la media; es decir, i = w1 (i ) siendo i = b (i ) = b(i )/i .
Adem
as, la varianza en estas distribuciones tambien es de una forma peculiar, V ar(Yi /xi ) = w2 (i ), en donde la funci
on w2 tambien se determina

a partir de la funci
on b de la forma w2 (i ) = b (i ) = 2 b(i )/i2 . Es decir,
suponemos que es E(Yi /xi ) = b (i ) y V ar(Yi /xi ) = b (i ) .
Para cada familia exponencial existe una funci
on link natural o can
onica
que es la que iguala al par
ametro natural con el predictor lineal; es decir,
i = w1 (i ) = g(i ) = i = zti ; es decir, la obtenida a partir de la ecuaci
on
g() w1 ().

Ejemplo 2.4
Si las Yi /xi se distribuyen como normales N (i , ), su funci
on de densidad ser
a




2
2
1
1
1
yi i 2i /2

exp 2 (yi i )2 = eyi /(2 ) exp


2
2
2
2
Si comparamos la expresi
on anterior con [2.2], podemos identificar, observando el termino
clave (el que involucra a las yi y las i ), que es i = i = w1 (i ) (con lo que ser
a w1 () = ),
b(i ) = 2i /2 y = 2 .

2
2
El termino restante deber
a ser exp{c(yi , )} = 1/( 2) eyi /(2 ) aunque este es irrelevante
a la hora de identificar los elementos de la distribuci
on modelo.
Como se observa, es b (i ) = b(i )/i = i y w2 (i ) = b (i ) = 2 b(i )/i2 = 1, con lo
que V ar(Yi /xi ) = w2 (i ) = .
Finalmente, de la ecuaci
on clave
g() w1 () =

se deduce que, en el caso de ser f una distribuci


on normal (caso de regresi
on lineal), debe
de ser g() = , lo que implica una funci
on link can
onica igual a la identidad.

En el caso de ser f una distribuci


on Poisson, P(i ) la distribuci
on de probabilidad se puede
expresar como
f (yi /i , ) =

1
exp{yi log i i }
yi !

con lo que, observando [2.2], deber


a ser
i = log i

b(i ) = i

de la primera de estas igualdades se deduce que debe ser i = ei , obteniendo de la segunda,


en consecuencia, que es b(i ) = i = ei .
Por otro lado, al ser i la media de Yi , deber
a ser i = w1 (i ), es decir, log i = w1 (i ), por
lo que la funci
on w1 es w1 () = log . Finalmente, de la ecuaci
on g() w1 () obtenemos
g() = log , que indica a la funci
on logaritmo como la funci
on link can
onica en este tipo de
modelos de regresi
on Poisson.

32

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

En el caso de seguir las Yi /xi una distribuci


on binomial B(ni , pi ), ser
a
!
!


ni yi
ni
pi
f (yi /i , ) =
pi (1 pi )ni yi =
exp yi log
+ ni log(1 pi )
yi
yi
1 pi
con lo que, observando [2.2], deber
a ser
i = log

pi
1 pi

b(i ) = ni log(1 pi )

= 1.

Como la media de la distribuci


on binomial, B(ni , pi ), es i = ni pi , de la ecuaci
on i = w1 (i )
obtenemos
w1 (i ) = w1 (ni pi ) = log

pi
ni pi
i
= log
= log
1 pi
ni ni pi
ni i

y, finalmente, de la ecuaci
on g() w1 (), la funci
on link can
onica g() = log(/(n )).
Por tanto, la ecuaci
on que relaciona la media de la variable de respuesta con las covariables
g(i ) = zti , ser
a






i
ni pi
pi
= log
= log
= 0 + 1 X1 + ... + k Xk .
log
ni i
ni ni pi
1 pi

Observemos que, en el caso de que la variable respuesta sea Bernoulli, Yi /xi ; B(1, pi ) en
donde esta s
olo toma los valores exito y fracaso, tendremos un caso particular del anterior
(correspondiente a la regresi
on logstica) en donde la funci
on link ser
a g() = log(/(1 ))
o lo que es lo mismo, g(p) = log(p/(1 p)) por ser para esta distribuci
on = p. La ecuaci
on
que relaciona la media de la variable de respuesta con las covariables es, en este caso, la
misma de antes,




i
pi
log
= log
= 0 + 1 X1 + ... + k Xk
1 i
1 pi
por lo que no se suele hacer distinci
on entre estos dos u
ltimos casos y se habla de la funci
on
link can
onica g() = log(/(1 )), denominada logit.

En resumen, prescindiendo de la nomenclatura dada a la variable de la


funci
on considerada, hemos obtenido tres funciones link, la funci
on link identidad, g() = , la funci
on link logaritmo o simplemente log, g() = log y la
funci
on link logit, g() = log(/(1 )), funciones link naturales o can
onicas
de los modelos, respectivamente, normal, Poisson y binomial (Bernoulli).
Se utilizan tambien otras funciones link, la funci
on link inversa, g() =
1/ y la funci
on link gaussiana-inversa, g() = 2/2 , funciones link can
onicas de los modelos, respectivamente, gamma y gaussiano-inverso.
Otras funciones link no can
onicas, pero que se pueden utilizar en alg
un
1
modelo son, la funci
on link probit, g() = (), es decir, la inversa de
la funci
on de distribuci
on de una normal est
andar N (0, 1), la funci
on link
complementaria log-log, g() = log(log(1)) y la funci
on link raz cuadrada,

g() = .
Con el software Rmo suministrado con el curso podemos trabajar con los
cinco modelos antes mencionados, podemos formar la Tabla 2.1 en la que

33

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

aparece una C indicando la funci


on link can
onica. Las opciones marcadas con
una p indican que tambien pueden elegirse como funciones link, pero que no
son las can
onicas.

Normal

Poisson

p
C

Modelos
Binomial Gamma

Gaussianoinverso

Funciones link

identidad
logaritmo
logit
inversa
gaussiana-inversa
probit
complementaria log-log
raz cuadrada

p
p

p
p

Tabla 2.1: Modelos y funciones link

2.2.1.

Dispersi
on excesiva (Overdispersion)

Supongamos que queremos modelizar nuestros datos mediante un Modelo


de Regresi
on Logstico. En ese caso, la distribuci
on asociada a las Yi en el
Modelo Lineal Generalizado sera la Bernoulli B(1, p), con media p y varianza
p(1 p).
Si quisieramos modelizar los datos con un Modelo de Regresi
on Poisson,
la distribuci
on sera Poisson, P(), de media y varianza .
Supongamos ahora que, al observar nuestros datos, vemos que, en uno u
otro caso, su varianza es mayor de la que debera ser. En estos casos, modelizaremos los datos, para la primera situaci
on, con un Modelo de Regresi
on
Logstica, de varianza p(1 p) y, en el segundo caso, mediante un Modelo de
Regresi
on Poisson, pero con varianza .
En estas situaciones decimos que nuestros datos presentan una dispersi
on
excesiva (overdispersion), problema que trataremos m
as adelante.

2.3.

Estimaci
on y Contrastes basados en la verosimilitud

La estimaci
on de los par
ametros del Modelo Lineal Generalizado (as como
contrastes de hip
otesis referentes a estos), adem
as de dos tests de bondad del
ajuste, se pueden realizar siguiendo metodos basados en la verosimilitud. En
posteriores secciones estudiaremos Metodos basados en la cuasi-verosimilitud

34

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

y Metodos Bayesianos.

2.3.1.

Estimador de m
axima verosimilitud de los par
ametros
i

En esta secci
on determinaremos la forma en la que estimar los par
ametros i del modelo; es posible que los diferentes par
ametros y funciones que
intervienen en el Modelo Lineal Generalizado puedan entorpecer la comprensi
on del proceso, pero hemos querido desgranar este puesto que la ecuaci
on
de verosimilitud resultante (en realidad, sistema de ecuaciones) es clave en las
posteriores generalizaciones y robustificaci
on.
La manera en la que habitualmente hemos estimado los par
ametros de
un modelo es mediante la utilizaci
on del Metodo de la M
axima Verosimilitud
(CB-secci
on 5.2). Para ello, primero debemos expresar la funci
on de verosimilitud como funci
on del par
ametro. Si observamos [2.2] los par
ametros del
modelo seran i y ; de momento supondremos conocido (aunque m
as abajo
volveremos sobre ello). La funci
on de verosimilitud ser
a, por tanto,

L(1 , ..., n ) =

n
Y

f (yi /i ) = exp

i=1

n 
X
yi i b(i )

i=1

)
c(yi , )

El Metodo de la M
axima Verosimilitud indica asignar como estimadores
de los par
ametros a aquellos valores que hagan m
axima dicha funci
on de verosimilitud. Como el m
aximo de una funci
on y de su logaritmo se alcanzan en
el mismo punto, determinaremos el maximo del logaritmo de L(1 , ..., n ),
log L(1 , ..., n ) =


n 
X
yi i b(i )

i=1

n
X

c(yi , )

i=1

Como suponemos conocido y vamos a maximizar esta funci


on derivando
respecto al par
ametro e igualando a cero esta derivada, el segundo sumando
de la expresi
on anterior se anular
a por lo que prescindiremos de el en lo que
sigue consider
andolo, simplemente, como una constante, cte.
Si reparametrizamos la funci
on anterior (es decir, cambiamos los par
ametros), al ser i = w1 (i ) tendremos, (la u
ltima igualdad es s
olo notaci
on)

log L(1 , ..., n ) =


n 
X
yi w1 (i ) b(w1 (i ))
i=1

+ cte =

n
X

li (i ) + cte [2.3]

i=1

y si volvemos a reparametrizar, expresando la verosimilitud anterior en terminos de las i y las covariables, por ser i = h(zti ) tendremos

35

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

log L() =


n 
X
yi w1 (h(zt )) b(w1 (h(zt ))
i

i=1

+ cte

[2.4]

La derivada de esta expresi


on la debemos obtener teniendo en cuenta las
funciones que aparecen en ella y la denominaci
on que hemos dado a sus variables.
Conviene recordar tambien que, como es un vector, al hablar de la derivada de log L() con respecto a = (0 , 1 , ..., k )t , la cual representamos
por log L()/, nos referimos al vector de derivadas parciales
( log L()/0 , ..., log L()/k )t

el cual igualaremos al vector de ceros, dando origen a un sistema de ecuaciones


de verosimilitud, de k + 1 ecuaciones con k + 1 inc
ognitas, 0 , 1 , ..., k .
Observamos tambien que derivar [2.4] respecto a va a consistir, b
asicamente, en aplicar reiteradamente la derivada de una funci
on de funci
on por lo
que expresaremos cada una de las funciones de la composici
on con respecto a
su variable; adem
as, como el mismo lector puede comprobar f
acilmente, es
zti
= zi

Derivando en [2.4] ser


a
"
n
log L()
1X
=
yi

i=1

!

w1 (i )
i b (w1 (i ))
i i =h(zt )

!
#

w1 (i )

i
i i =h(zt )

n
X
i=1


w1 (i )
i

i =h(zti )

i (yi i ())

por ser b (w1 (i )) = i () = i , y siendo


i
i =
=

!

h()
zti

=
=h(zt )

!

h()
zi = Di () zi
=h(zt )
i

en donde la u
ltima igualdad s
olo se ha introducido como notaci
on para definir
Di ().
Como es i = b (i ) ser
a i = (b )1 (i ) y, como era i = w1 (i ) ,

1
ser
a w1 (i ) = (b ) (i ) por lo que, utilizando la f
ormula para la derivada de
la funci
on inversa, ser
a
w1 (i )
(b )1 (i )
1
1
1

=
= 1
=
=
=
i
i
b ((b ) (i ))
b (i )
w2 (i )
V ar(Yi /xi )

36

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Por tanto, la derivada buscada se podr


a expresar de cualquiera de las
siguientes dos maneras,
n

i=1

i=1

X i
log L() X zi Di ()
=
(yi i ()) =
(yi i )

V ar(Yi /xi )
w2 (i )

como aparece, respectivamente, en Fahrmeir y Tutz (1994, pag. 38) o en Cantoni y Ronchetti (2001, p
ag. 1022).
El sistema de ecuaciones de verosimilitud
n

log L() X i
=
(yi i ) = 0

w2 (i )

[2.5]

i=1

no va a tener habitualmente una soluci


on analtica y debe de resolverse de
forma numerica mediante un metodo iterativo. El software Rmo utiliza el m
as
habitual, el de mnimos cuadrados ponderados (iteratively reweighted least
squares), IWLS, tambien denominado de las marcas de Fisher (Fisher scoring).
Otras alternativas (no disponibles con Rmo ) son el Metodo de Newton-Raphson
o, mejor, los Metodos Quasi-Newton.
El estimador de m
axima verosimilitud b obtenido mediante alguno de
los metodos anteriores, cuando exista y sea u
nico, tendr
a una distribuci
on
asint
otica normal multivariante,
b ; N (, V )

siendo la matriz de covarianzas V aproximadamente igual a la inversa de la


matriz de informaci
on de Fisher
b
V A1 ()

siendo dicha matriz de informaci


on igual a

2.3.2.

b =
A()

n
X
i=1

b
zi zti Di2 ()

b
w2 (h(zti ))

Estimador del par


ametro de escala

Si el parametro de escala no fuese conocido podra estimarse, a partir del


b por la expresi
estimador ,
on,
n

b =

X (yi bi )2
1
n (k + 1)
w2 (bi )
i=1

[2.6]

37

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

b obteniendose de esta manera un estimador consistente


en donde bi = h(zti ),
b
para , el cual puede utilizarse en la expresi
on de A1 ().
Observese que, en un Modelo de Regresi
on Normal, el estimador anterior
del par
ametro de escala coincide con el obtenido para la varianza 2 mediante
la suma de residuos al cuadrado.

2.3.3.

Contrastes de hip
otesis sobre los par
ametros

Una vez obtenidos los estimadores para los i , podemos considerar el realizar tests de hip
otesis sobre ellos de la forma H0 : C = c0 frente a la
alternativa H1 : C 6= c0 . (En esta secci
on supondremos que el par
ametro
de escala es conocido o reemplazado por el valor [2.6].)
Un caso particular de estas hip
otesis, muy importante, es el contraste de
H0 : r = 0 frente a H0 : r 6= 0 siendo r un subvector de ; es decir,
el contraste de ser cero algunas i frente a la alternativa de modelo completo,
en el que todas las i son distintas de cero.
Se consideran tres tipos de tests de hip
otesis. El primero es el test de
raz
on de verosimilitudes (Velez y Garca Perez, 1993, secci
on 9.2) basado en
el estadstico de contraste
=

e
sup0 L()
L()
=
b
sup L()
L()

siendo el espacio parametrico y 0 la parte de este espacio definido por la


hip
otesis nula; es decir, el cociente entre el m
aximo de la funci
on de verosimilitud L() alcanzado cuando las variables varan en la regi
on definida por
e y el m
la hip
otesis nula, L(),
aximo alcanzado por esta funci
on cuando los
b por la definici
par
ametros toman cualquier valor posible, L(),
on de estimador

de m
axima verosimilitud.
Como todo test de hip
otesis, este requiere para su ejecuci
on de la distribuci
on del estadstico de contraste bajo la hip
otesis nula. Aunque la distribuci
on
exacta no es f
acilmente calculable, no obstante, s se sabe (Velez y Garca
Perez, 1993, p
agina 395) que, para tama
nos muestrales suficientemente grandes, se tiene aproximadamente una distribuci
on 2
h
i
h
i
e log L()
b = 2 log L()
b log L()
e ; 2
2 log = 2 log L()
k+1q

siendo q la dimensi
on del espacio parametrico bajo la hip
otesis nula. Por ejemplo, si la hip
otesis nula fuera que uno s
olo de los i fuera cero, la dimensi
on del
espacio parametrico sera k ya que H0 s
olo fija una restricci
on (que sea i = 0),
por lo que deja libres de tomar cualquier valor a los otros k par
ametros. En

38

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

este caso, los grados de libertad de la 2 con los que buscar puntos crticos y
calcular p-valores seran k + 1 q = k + 1 k = 1.
Otro test de hip
otesis muy utilizado es el test de Wald basado en el estadstico de contraste

t h
i1 

b t
Wald = Cb c0
CA1 ()C
Cb c0

b la inversa de la matriz de informaci


on de Fisher definida m
as
siendo A1 ()
arriba.
Por u
ltimo, si llamamos funci
on score a la funci
on
s() =

log L()

el tercer test de hip


otesis considerado es el test score basado en el estadstico
e t A1 ()s(
e )
e
score = s()

Estos dos u
ltimos estadsticos de contraste tambien tienen, bajo la hip
otesis
nula, la misma distribuci
on asint
otica 2k+1q que tena el estadstico de raz
on
de verosimilitudes. Mientras que cualquiera de los tres tests es aceptable para
modelos sin overdispersion, es muy recomendable utilizar estos dos u
ltimos
cuando esta est
a presente.

2.3.4.

Contraste de bondad de ajuste del modelo

Como es habitual, los dos estadsticos utilizados para contrastar la hip


otesis
nula de adecuarse correctamente nuestros datos a un modelo concreto, son el
estadstico de Pearson
=

n
X
(yi bi )2
i=1

w2 (bi )

b la media estimada, y w2 (bi ) la


en donde, como m
as arriba, es bi = h(zti ),
varianza estimada, y el estadstico desviaci
on (deviance)
G2 = 2

n
X
i=1

[li (bi ) li (yi )]

donde de nuevo aparece la media estimada bi y las contribuciones li de cada


uno de los valores muestrales al logaritmo de la verosimilitud, definidas en
[2.3].
Ambos estadsticos siguen, aproximadamente, una distribuci
on 2n(k+1) .

2.4.

39

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

C
alculo con Rmo

Con Rmo se pueden estimar los par


ametros en un Modelo de Regresi
on
Lineal Generalizado mediante la funci
on
glm(modelo,family,data)

en donde el argumento modelo debe indicar el modelo lineal que queremos


contrastar, expresado mediante variables indicadoras para aquellas variables
que sean de tipo cualitativo.
En el caso de datos binomiales, los de la variable respuesta aparecen habitualmente en forma de matriz de dos columnas en donde entenderemos que la
primera se corresponde con el n
umero de exitos y la segunda columna con el
de fracasos (ver el ejemplo de m
as abajo).
En el argumento family debemos indicar la familia que utilizaremos en
la construcci
on del modelo lineal de entre las cinco que aparecen en la Tabla
2.1, as como la funci
on link si no es la can
onica; por ejemplo, en el caso
de un modelo de regresi
on logstica, en este segundo argumento, teclearemos
el comando family=binomial o, equivalentemente, teclearamos el comando
family=binomial(link=logit) ya que esta es la funci
on link can
onica correspondiente a esta familia.
Los datos, incluidos en el tercer argumento data, deben venir en modo
estructura de datos.
Ejemplo 2.1 (continuaci
on)
Los datos del experimento de Phelps (1982) vienen recogidos en el fichero de datos zanaho,
suministrado entre el Material Did
actico del curso.
El objetivo que se persigue es ajustar un Modelo Lineal Generalizado (en esta secci
on, cl
asico)
para datos binomiales B(ni , pi ) (con lo que es i = ni pi ), de la forma


i
log
= 0 + 1 log(dosis) + 2 bloque2 + 3 bloque1
ni i
Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con ese formato al utilizar la funci
on read.table. A continuaci
on lo
comprobamos.
> zanahorias<-read.table("d:\\datos\\zanaho",header=T)

(1)

> zanahorias
da~
nadas total logdosis bloque bloque1 bloque2
1
10
35
1.52
1
1
0
2
16
42
1.64
1
1
0
.................................................
23
3
22
2.24
3
0
0
24
2
31
2.36
3
0
0

Al trabajar con datos binomiales, como dijimos m


as arriba, la variable de respuesta debe
estar formada por una matriz en la que la primera columna sea los exitos y la segunda

40

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

columna los fracasos (=al n


umero de pruebas-exitos). Los datos de esta variable respuesta
(que hemos denominado respuesta) la obtenemos en (2) utilizando la funci
on de Rmo cbind
que pega columnas. A continuaci
on comprobamos que lo ha hecho bien.
> respuesta<-cbind(zanahorias[,1],zanahorias[,2]-zanahorias[,1])
> respuesta
[,1] [,2]
[1,]
10
25
[2,]
16
26
.................
[23,]
3
19
[24,]
2
29

(2)

Ahora ya podemos utilizar la funci


on glm en (3), apareciendo los resultados en (4), los
cuales valoramos ejecutando (5).
> resultado<-glm(respuesta~logdosis+bloque2+bloque1,
+ family=binomial,data=zanahorias)

(3)

> resultado

(4)

Call:

glm(formula = respuesta ~ logdosis + bloque2 + bloque1,


family = binomial, data = zanahorias)

Coefficients:
(Intercept)
1.4802

logdosis
-1.8174

bloque2
0.8433

bloque1
0.5424

Degrees of Freedom: 23 Total (i.e. Null); 20 Residual


Null Deviance:
83.34
Residual Deviance: 39.98
AIC: 128.6
> summary(resultado)

(5)

Call:
glm(formula = respuesta ~ logdosis + bloque2 + bloque1,
family = binomial, data = zanahorias)
Deviance Residuals:
Min
1Q
Median
-1.9200 -1.0215 -0.3239

3Q
1.0602

Max
3.4324

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
1.4802
0.6554
2.258 0.023918 *
logdosis
-1.8174
0.3434 -5.293 1.20e-07 ***
bloque2
0.8433
0.2257
3.736 0.000187 ***
bloque1
0.5424
0.2315
2.343 0.019118 *
(6)

--Signif. codes:

(8)

(7)

***

0.001

**

0.01

0.05

0.1

41

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 83.344
Residual deviance: 39.976
(9)
AIC: 128.61

on 23
on 20

degrees of freedom
degrees of freedom

1
0
2

residuals(resultado)

Number of Fisher Scoring iterations: 3

10

15

20

Figura 2.1 : Gr
afico de los Residuos

Los estimadores de los coeficientes aparecen en (6), sus errores est


andar en (7) (iguales a
los que aparecen en la columna izquierda de la Tabla 1 del artculo de Cantoni y Ronchetti,
2001) y los p-valores de los contrastes de la hip
otesis nula de ser estos cero, indican en
(8) que son significativas las tres covariables independientes consideradas, quedando como
modelo ajustado el siguiente,
log

i
ni i

= 1 4802 1 8174 log(dosis) + 0 8433 bloque2 + 0 5424 bloque1

El valor del estadstico deviance que aparece en (9), igual a G2 = 39 976, se utiliza en el
contraste de la hip
otesis nula de adecuarse correctamente el modelo anterior a los datos

42

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

observados y que corresponde a una 2n(k+1) = 2244 = 220 . El p-valor de este test ser
a,
por tanto,
> 1-pchisq(39.976,20)
[1] 0.005030426

indicando, de forma sorprendente, que debe rechazarse la bondad del ajuste del modelo obtenido cuando los contrastes individuales para los par
ametros i indicaban que las covariables
s explicaban a la variable respuesta.
Si representamos los residuos del modelo ajustado en la Figura 2.1 mediante la siguiente
secuencia,
> i<-seq(1,24)
> plot(i,residuals(resultado))

observamos que la observaci


on n
umero 14 es un outlier. Es m
as conveniente, por tanto,
utilizar metodos robustos como veremos m
as adelante.

A continuaci
on realizaremos un An
alisis de Regresi
on Logstica desde un
punto de vista cl
asico. El an
alisis robusto de estos datos se ver
a al final del
captulo.
Ejemplo 2.2 (continuaci
on)
Para los datos de Feigl y Zelen (1965) se pretende ajustar un Modelo de Regresi
on Logstica
(cl
asico en esta secci
on) de la forma
log

p
= 0 + 1 W BC + 2 AG
1p

Los datos observados aparecen en el fichero de datos leucemia, proporcionado entre el Material Did
actico del curso. (Los valores de W BC del fichero fueron divididos por 104 con lo
que habr
a que multiplicarlos por esta cantidad en la f
ormula del modelo ajustado.)
Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con ese formato al utilizar la funci
on read.table. A continuaci
on lo
comprobamos.
> leucemia<-read.table("d:\\datos\\leucemia",header=T)

(1)

> leucemia
Super
WBC AG
1
1 0.230 1
2
1 0.075 1
3
1 0.430 1
.................................................
32
0 10.000 0
33
0 10.000 0

Ahora, en (2), utilizamos la funci


on glm apareciendo los resultados en (3), los cuales valoramos ejecutando (4).

43

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes


> solu<-glm(Super~WBC+AG,family=binomial,data=leucemia)
> solu
Call:

glm(formula = Super ~

Coefficients:
(Intercept)
-1.3074

(2)
(3)

WBC + AG, family = binomial, data=leucemia)

WBC
-0.3177

AG
2.2611

Degrees of Freedom: 32 Total (i.e. Null); 30 Residual


Null Deviance:
42.01
Residual Deviance: 31.06
AIC: 37.06
> summary(solu)

(4)

Call:
glm(formula = Super ~ WBC + AG, family = binomial, data = leucemia)
Deviance Residuals:
Min
1Q
Median
-1.5224 -0.6417 -0.4534

3Q
0.8362

Max
2.1569

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.3074
0.8140 -1.606
0.1083
WBC
-0.3177
0.1856 -1.712
0.0870 .
AG
2.2611
0.9517
2.376
0.0175 *
(5)

--Signif. codes:

(7)

(6)

***

0.001

**

0.01

0.05

0.1

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 42.010
Residual deviance: 31.062
(8)
AIC: 37.062

on 32
on 30

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

Los estimadores de los coeficientes aparecen en (5), sus errores est


andar en (6) (iguales a
los que aparecen en la Tabla 7.1 del texto de Maronna, Martin y Yohai, 2006, p
agina 237)
y los p-valores de los contrastes de la hip
otesis nula de ser estos cero, parecen indicar en
(7) que no son significativas (es decir, que no se deberan de aceptar) las dos covariables
independientes consideradas (con dudas podra serlo AG). Si se aceptaran ambas, quedara
como modelo ajustado el siguiente,
log

p
= 1 3074 0 3177 W BC(10000) + 2 2611 AG.
1p

El valor del estadstico deviance que aparece en (8), igual a G2 = 31 062, se utiliza en el
contraste de la hip
otesis nula de adecuarse correctamente el modelo anterior a los datos

44

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

0
1

residuals(solu)

Tecnicas Actuales de Estadstica Aplicada

10

15

20

25

30

Figura 2.2 : Gr
afico de los Residuos

observados y que corresponde a una 2n(k+1) = 2333 = 230 . El p-valor de este test ser
a,
por tanto,
> 1-pchisq(31.062,30)
[1] 0.4123636

indicando que debe aceptarse, por contra, la bondad del ajuste del modelo obtenido.
Si representamos los residuos del modelo ajustado en la Figura 2.2 mediante la siguiente
secuencia,
> i<-seq(1,33)
> plot(i,residuals(solu))

observamos que el dato n


umero 17 es una observaci
on influyente (un outlier). De hecho
corresponde a un individuo con cien mil gl
obulos blancos (lo que parece indicar que existe
infecci
on), pero que sorprendentemente sobrevivi
o m
as de 52 semanas. Las observaciones 18
y 19 son tambien un tanto atpicas puesto que son individuos que han sobrevivido mucho
tiempo y tienen un valor AG = 0.
Veremos al final del captulo que ocurre con este ejemplo utilizando metodos robustos.

Concluimos esta secci


on de aplicaciones con un ejemplo de Regresi
on Poisson cl
asica cuya versi
on robusta postergaremos hasta el final del captulo.

45

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

Ejemplo 2.3 (continuaci


on)
Para los datos de Lindenmayer sobre marsupiales, que vienen recogidos en el fichero de datos
marsu proporcionado entre el Material Did
actico del curso, se pretende ajustar un Modelo de
Regresi
on Poisson (en esta secci
on cl
asico) que tendr
a 11 covariables, puesto que las cualitativas incorporan al modelo tantas covariables indicadoras como clases presentan menos una.
Ser
an, 5 covariables cuantitativas, Arbustos, Stags, Cortezas, Habitat y Acacias, una
indicador correspondiente a Tocones, dos covariables indicador correspondientes al tipo de
Eucalipto, Delegatensis y Nitens, y tres covariables indicador correspondientes al aspecto
del lugar, NWSE, SESW y SWNW, quedando el modelo de la forma
log Diversidad

0 + 1 Arbustos + 2 Stags + 3 Cortezas + 4 Habitat + 5 Acacias

+ 6 Tocones + 7 Delegatensis + 8 Nitens + 9 NWSE + 10 SESW + 11 SWNW

Como los datos a utilizar deben de estar en forma de estructura de datos, ejecutamos (1)
para incluirlos en Rmo con este formato al utilizar la funci
on read.table
> marsu<-read.table("d:\\datos\\marsu",header=T)

(1)

Ahora, en (2), utilizamos la funci


on glm apareciendo los resultados en (3), los cuales valoramos ejecutando (4).
> respu<-glm(Diversidad ~ Arbustos+Stags+Cortezas+Habitat+Acacias+
+ Tocones+Delegatensis+Nitens+NWSE+SESW+SWNW,
+ family=poisson,data=marsu)

(2)

> respu

(3)

Call: glm(formula = Diversidad ~ Arbustos + Stags + Cortezas +


Habitat +
Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +
SWNW, family = poisson, data = marsu)
Coefficients:
(Intercept)
-0.94694

Arbustos
0.01192

Stags
0.04023

Cortezas
0.03989

Habitat
0.07173

Acacias
0.01764

Tocones
-0.27241

Delegatensis
-0.01534

Nitens
0.11492

NWSE
0.06675

SESW
0.11695

SWNW
-0.48890

Degrees of Freedom: 150 Total (i.e. Null);


Null Deviance:
187.5
Residual Deviance: 118.9
AIC: 423.7

139 Residual

> summary(respu)

Call:
glm(formula = Diversidad ~ Arbustos + Stags + Cortezas + Habitat +
Acacias + Tocones + Delegatensis + Nitens + NWSE + SESW +

(4)

46

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

SWNW, family = poisson, data = marsu)


Deviance Residuals:
Min
1Q
-2.04444 -0.97981

Median
0.05173

3Q
0.44497

Max
1.78911

Coefficients:
(Intercept)
Arbustos
Stags
Cortezas
Habitat
Acacias
Tocones
Delegatensis
Nitens
NWSE
SESW
SWNW

Estimate Std. Error z value Pr(>|z|)


-0.94694
0.26524 -3.570 0.000357 ***
0.01192
0.02193
0.544 0.586722
0.04023
0.01120
3.592 0.000328 ***
0.03989
0.01438
2.774 0.005545 **
0.07173
0.03812
1.882 0.059845 .
0.01764
0.01059
1.665 0.095835 .
-0.27241
0.28572 -0.953 0.340385
-0.01534
0.19149 -0.080 0.936134
0.11492
0.27214
0.422 0.672815
0.06675
0.19008
0.351 0.725442
0.11695
0.19018
0.615 0.538598
-0.48890
0.24710 -1.979 0.047868 *
(5)

--Signif. codes:

(7)

(6)

***

0.001

**

0.01

0.05

0.1

(Dispersion parameter for poisson family taken to be 1)


Null deviance: 187.49
Residual deviance: 118.87
(8)
AIC: 423.67

on 150
on 139

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

Los estimadores de los coeficientes aparecen en (5) y sus errores est


andar en (6) (iguales
ambos a los que aparecen en la correcci
on al artculo de Cantoni y Ronchetti en la p
agina
web de la primera) y los p-valores de los contrastes de la hip
otesis nula de ser estos cero,

aparecen en (7). Estos


parecen indicar que son significativas (es decir, que deberan de
utilizarse) Stags y Cortezas; con dudas, el aspecto del lugar SWNW y, con muchas m
as dudas,
Habitat y Acacias. Si nos qued
aramos con estas cinco covariables, el modelo de Regresi
on
Poisson cl
asico ajustado se obtendra ejecutando
> glm(Diversidad ~ Stags+Cortezas+Habitat+Acacias+SWNW,family=poisson,
+ data=marsu)$coeff
(Intercept)
-0.82125317

Stags
0.04095897

Cortezas
0.04064307

Habitat
0.07820446

Acacias
SWNW
0.01363301 -0.59674721

es decir, obtendramos el modelo


log Diversidad

0 8213 + 0 0410 Stags + 0 0406 Cortezas + 0 0782 Habitat

47

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

14

133

65

30

124

88 93
89
92

64

15

24
23

139

110

59

34
35

102

123128
130
119
117

75

147
144
148

0
2

residuals(respu)

19 25
26

68
70
50
111 120
48
43
108
73
45
91
46 51 55 61
122
78
60
52
104
94
72
58
2
74 79
126
16
17 22
143 149
82
18
31
49
33 39
96
71
136141
115
142
83
98
4
80
107 114
37
105
63 69
62
1 5
40
99
47
103
76 84
113
21 27
8
66
3
53 57
77
20 28
29
118
145
6
42
129 135
146
81 87
137
116
101
97
9
131 138
54
106
151
150
100
112
85
121
41
132
109
1013
127
56
36 44
140
95
125
38
134
67
90
12
11

32

86

50

100

150

Figura 2.3 : Gr
afico de los Residuos

+0 0136 Acacias 0 5967 SWNW

[2.7]

el mismo (segunda columna de la tabla 5) de las correcciones al artculo de Cantoni y


Ronchetti.
Observese que si representamos los residuos del modelo ajustado en la Figura 2.3 mediante
la siguiente secuencia,
> i<-seq(1,151)
> plot(i,residuals(respu),pch=16)
> text(i,residuals(respu),1:151,adj=-1,cex=0.8)

no vemos aparentemente casi ninguna observaci


on influyente. Cantoni y Ronchetti dicen que
lo son la 59, la 110, la 139 y la 133, pero esto es un tanto arriesgado. Lo que s pone de
manifiesto este ejemplo es que el metodo de observar, quitar las observaciones an
omalas
y utilizar metodos cl
asicos para las observaciones restantes, no es operativo. M
as adelante
aplicaremos a estos datos metodos robustos.
Observemos por u
ltimo, que hemos utilizado como variable dependiente de respuesta el
n
umero de especies marsupiales del lugar y no una tasa de estas como hacemos habitualmente
con los Modelos de Regresi
on Poisson. No debemos preocuparnos ya que el modelo sigue
siendo v
alido al estar considerando, de hecho, una tasa hipotetica consistente en dividir el

48

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

n
umero observado por 10
o 100, y hablar de n
umero de especies de marsupiales de cada 10

o, de cada 100. Lo importante es tenerlo en cuenta cuando si hicieramos predicciones con el


modelo ajustado.

2.5.

M
etodos basados en la cuasi-verosimilitud

La definici
on de Modelo Lineal Generalizado, establecida en la secci
on
segunda, lleva a suponer un distribuci
on concreta de tipo exponencial para las
observaciones Yi /xi (Poisson, normal, etc).
Adem
as, una estructura para la media E[Yi /xi ] = i = zti la cual implica
una forma concreta para la varianza, ya que esta est
a relacionada con la media
a traves de la expresi
on V ar(Yi /xi ) = w2 (i ) = w2 (zti ).
La estimaci
on y contrastes basados en la cuasi-verosimilitud (Wedderburn,
1974; McCullagh y Nelder, 1989; Heyde, 1997) relajan la suposici
on de una
familia de tipo exponencial para las observaciones y, tambien, algo la anterior
ligadura entre la media y la varianza, ya que siguen suponiendo para la media
la forma
E[Yi /xi ] = i = zti

pero para la varianza

V ar(Yi /xi ) = w2 (i )

se deja libertad a la funci


on w2 .
El estimador de cuasi-verosimilitud es, de nuevo, la soluci
on del sistema
de ecuaciones de cuasi-verosimilitud
n
X
Q(yi , i ())
i=1

n
X
i=1

i
(yi i ) = 0
w2 (i )

[2.8]

denominado ahora as porque la forma de w2 (i ) es arbitraria. Los sumandos


de la anterior ecuaci
on, que seran los scores individuales en el metodo de
cuasi-verosimilitud, suelen representarse como
Q(yi , i )
(yi i )
=
i

w2 (i )

2.6.

M
etodos Bayesianos

Si existe informaci
on previa sobre los par
ametros suministrada a traves
de una distribuci
on a priori (), por el teorema de Bayes, la distribuci
on a

49

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

posteriori de los par


ametros ser
a

(/y1 , ..., yn ) = R

L() ()
L() ()d

Si se considera una funci


on de perdida cuadr
atica, el estimador Bayes sera
la media de la distribuci
on a posteriori anterior (vease, por ejemplo, Velez y
Garca Perez, 1993, secci
on 5.5.2).
El problema radica (adem
as de la habitual subjetividad en la elecci
on
de la distribuci
on a priori, lo que duplica los problemas de sensibilidad en la
distribuci
on modelo) en los c
alculos, que deben de ser numericos y las integrales
a resolver, por ejemplo la media de la anterior distribuci
on a posteriori,
Z
E[/y1 , ..., yn ] = (/y1 , ..., yn ) d
tendran la dimensi
on de siendo su c
alculo numerico muy complejo.
Una alternativa es considerar la moda de esta distribuci
on a posteriori como estimador Bayes de los par
ametros (vease, por ejemplo, Velez y Garca
Perez, 1993, secci
on 7.5), es decir, como estimador bBa el valor de que maximiza la densidad a posteriori (/y1 , ..., yn ) o, equivalentemente, su logaritmo,
igual (salvo constantes) a
log L() + log ()

en donde el primer sumando es el logaritmo de la verosimilitud del modelo


lineal generalizado, expresado, por ejemplo, por [2.4], y el segundo sumando el
logaritmo de la distribuci
on a priori. Por ejemplo, si esta distribuci
on a priori
fuera normal multivariante,
; Nk (, B)

la funci
on anterior a maximizar sera

1
( )t B1 ( )
2
la cual puede maximizarse iterativamente, por ejemplo, mediante el algoritmo
EM (Expectation-Maximizing).
log L()

2.7.

M
etodos robustos

Es conocido que los estimadores de m


axima verosimilitud son, en general,
bastante sensibles a la presencia de datos an
omalos. En concreto, la falta de
robustez en la regresi
on logstica fue puesta de manifiesto por Pregibon (1982),
y, en general, para todos los modelos lineales generalizados por autores como

50

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Stefanski, Carroll y Ruppert (1986); K


unsch, Stefanski y Carroll (1989); o
Morgenthaler (1992).
Si comparamos el sistema [2.5]
o [2.8] (de ecuaciones de verosimilitud o
cuasi-verosimilitud) con el que proporciona los M -estimadores multidimensionales (sistema [6.2] de la secci
on 6.5.2 del texto MR) o, en primera instancia,
se compara con la situaci
on unidimensional (ecuaci
on [2.6] de la secci
on 2.5
del texto MR), se pueden considerar los estimadores de m
axima verosimilitud o cuasi-verosimilitud, como M -estimadores con funci
on (funci
on score)
asociada, la funci
on
(yi , i ) =

(yi i )
i
w2 (i )

Como la funci
on de influencia de tales estimadores es proporcional a esta
funci
on (vease la ecuaci
on [6.3] del texto MR), si esta funci
on score no es
acotada (como funci
on de las observaciones yi o de las funciones xi a traves
de i ) el estimador resultante no ser
a robusto. Aqu, como puede observarse,
la diferencia yi i del numerador nos dice que no es acotada y que, por
tanto, los estimadores de m
axima verosimilitud y cuasi-verosimilitud, no van
a ser robustos frente a observaciones yi distantes de su media i o frente a la
presencia de datos an
omalos en las covariables xi .
Aunque existen varios trabajos sobre regresi
on logstica robusta, principalmente del grupo Agoras liderado por Peter Rousseeuw, aqu expondremos la
soluci
on propuesta por Elvezio Ronchetti (y Eva Cantoni) en su trabajo de
2001 para todo modelo lineal generalizado.

2.7.1.

M-estimadores basados en la cuasi-verosimilitud

Como dijimos m
as arriba, la forma de las ecuaciones de verosimilitud [2.5]
y cuasi-verosimilitud [2.8] sugiere buscar el estimador robusto entre los M estimadores (MR-secciones 2.5 y 6.5.2), uno de los cuales es el estimador de
m
axima verosimilitud y otro el estimador basado en la cuasi-verosimilitud.
En concreto, Cantoni y Ronchetti (2001) sugieren M -estimadores para los
par
ametros con funci
on asociada, de la forma
(yi , i ) = w(xi ) (yi , i ) i a()

es decir, soluciones en de las ecuaciones


n
X
Q(yi , i ())
i=1

n
X

i=1


w(xi ) (yi , i ) i a() = 0

[2.9]

de manera que se pueda separar la influencia de datos an


omalos en dos funciones (M -estimadores tipo-Mallows como se indica en MR, p
agina 182) una,

51

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

w(xi ), que recoja la influencia en el espacio de las covariables y otra, (yi , i )


que lo haga lo propio en el de las observaciones dependientes yi . Eligiendo una
y otra acotadas obtendremos estimadores robustos.
Como funci
on a() se elige la funci
on
n

a() =

1X
Eyi /xi [(yi , i )] w(xi ) i
n
i=1

(en donde Eyi /xi representa la esperanza o media con respecto a la distribuci
on condicionada yi /xi ) con objeto de que el estimador resultante sea Fisherconsistente1 .
Como funciones w(xi ) y (yi , i ) se suelen elegir funciones que han dado
buenos resultados en Regresi
on Lineal, desde el punto de vista de la robustez.
Observese que si elegimos

w(xi ) = 1

(yi , i ) =

(yi i )
w2 (i )

i = 1, ..., n

obtendremos como M -estimadores los basados en la cuasi-verosimilitud.


Para los modelos lineales generalizados, Regresi
on Logstica y Regresi
on
Poisson, Cantoni y Ronchetti (2001) proponen utilizar como funci
on (yi , i )
la funci
on

en donde es

b (ri )
(yi , i ) = p
w2 (i )
(yi i )
ri = p
w2 (i )

on de Huber (ya definida en el Ejemplo 2.8 de MR)


y b la funci


b
b (x) = mn{b, m
ax{x, b}} = x mn 1,
|x|

si
x < b
b
x
si
b x b
=

b
si
x>b

por lo que llamaremos estimador cuasi-verosmil tipo-Mallows a la soluci


on en
del sistema de ecuaciones
1 Propiedad definida como T (F ) = sea cual sea el valor del par
ametro dentro del espacio

param
etrico, y que significa que el estimador, con funcional asociado T , toma, asint
oticamente, el
valor correcto del par
ametro.

52

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

n
X
i=1

"

#
b (ri )

w(xi ) p
i a() = 0
w2 (i )

Como ocurra con los M -estimadores en la regresi


on lineal (MR-secci
on
7.3), si tomamos adem
as w(xi ) = 1, el estimador resultante recibe el nombre
de estimador cuasi-verosmil de Huber.

2.7.2.

Contraste robusto de bondad de ajuste del modelo

M
as arriba basamos el contraste de bondad de ajuste de un modelo lineal
generalizado a unos datos en el estadstico de contraste desviaci
on (deviance)
2

G = 2

n
X
i=1

[li (bi ) li (yi )]

en donde las li son (salvo constantes irrelevantes en la obtenci


on del m
aximo)
las contribuciones de cada uno de
P los valores muestrales al logaritmo de la verosimilitud, log L(1 , ..., n ) = ni=1 li (i ) , pero ahora evaluadas en la media
estimada bi y en los datos observados yi , lo que permite comparar el m
aximo
obtenido con los estimadores de m
axima verosimilitud y el obtenido con los
datos.
Mediante los M -estimadores basados en la cuasi-verosimilitud resolvemos
el sistema [2.9], es decir, minimizamos (hay un cambio
de signo irrelevante
Pn
Q
al estar la derivada igualada a cero) la funci
on
i=1 i (yi , i ), por lo que
una medida
de la cuasi-verosimilitud alcanzada por los estimadores obtenidos
P
ser
a ni=1 Qi (yi , bi ).
De esta manera podemos comparar dos modelos determinados, al igual que
lo hacamos en TA-secci
on 8.4.1, considerando como hip
otesis nula un modelo
con k + 1 q terminos (es decir, con q determinados i = 0) al que podemos
denominar submodelo, frente a la hip
otesis alternativa de un modelo con m
as
terminos, digamos con k+1 par
ametros i 6= 0. Si ei y bi son, respectivamente,
los estimadores de i bajo los modelos con los k + 1 q y k + 1 par
ametros
estimados, Cantoni y Ronchetti (2001) proponen un test robusto de bondad
de ajuste basado en el estadstico de contraste
Q2 = 2

"

n
X
i=1

Qi (yi , ei )

n
X
i=1

Qi (yi , bi )

el cual, para tama


nos muestrales suficientemente grandes, sigue aproximadamente una distribuci
on combinaci
on lineal de q variables independientes Yi ,
cada una de ellas con distribuci
on 21

53

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes

Q2 ;

q
X

di Yi

i=1

siendo d1 , ..., dq los q autovalores positivos de una determinada matriz.

2.7.3.

C
alculo con Rmo

Cantoni y Ronchetti (2001) proporcionan apoyo inform


atico para la obtenci
on de los M -estimadores cuasi-verosmiles tipo-Mallows robustos antes
estudiados, as como los estimadores cuasi-verosmiles de Huber, en Modelos Lineales Generalizados con distribuciones Bernoulli (es decir, Regresi
on
Logstica Robusta), Poisson (es decir, Regresi
on Poisson Robusta) y Binomial. Ademas, tambien proporcionan c
odigos para ejecutar el test robusto de
as arriba.
bondad del ajuste Q2 definido m
Para la estimaci
on robusta de los par
ametros utilizaremos la funci
on
glm.rob(x,y,choice,ni)

en donde bajo el argumento x incluimos la matriz de datos de las covariables,


incorporando los datos de estas en las columnas. En el argumento y incluimos los datos de la variable respuesta en una matriz con una columna. Con
choice elegimos cu
al de los tres an
alisis queremos realizar, logstico con logit,
binomial con binom y de Regresi
on Poisson con poisson. El argumento ni se
utiliza s
olo si se eligi
o la regresi
on binomial y, en este caso, debe ser una matriz
de una columna (de igual tama
no que y), en donde indicamos el n
umero de
umero de exitos yi antes fijado en y.
ensayos ni correspondientes al n
Para la ejecuci
on del contraste robusto de bondad del ajuste basado en el
estadstico Q2 , utilizaremos la funci
on
quasi.rob(x,y,out.col,choice,ni)

con identico significado de los argumentos que en la funci


on antes considerada
glm.rob, y donde el nuevo argumento out.col debe indicar las columnas a
omitir en el submodelo. (Sobre este punto ver el ejemplo que sigue).
En la elecci
on del estimador tipo-Mallows debemos fijar previamente el
valor de la constante de Huber c. Esto lo haremos, por tanto, con anterioridad
y con la precauci
on de que si se guardan los resultados al salir de Rmo este
ser
a el valor de dicha constante en sesiones sucesivas y de que, si no se guarda,
deber
a volver a definirse. Si se hace c igual a infinito obtendremos los mismos
resultados que con el metodo cl
asico.
Comencemos con un ejemplo de An
alisis de Regresi
on Binomial robusto.

54

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Ejemplo 2.1 (continuaci


on)
Primero fijamos el valor de la constante de Huber en (1), ejecutando a continuaci
on la
funci
on que nos proporciona las estimaciones robustas. En (2) obtenemos estas y en (3) sus
errores estimados, iguales a los obtenidos en la columna derecha de la Tabla 1 del trabajo
de Cantoni y Ronchetti (2001), con una peque
na diferencia ya que nosotros trabajamos con
Rmo y ellos con S-Plus.
> chuber<-1.2
> salida.robusta<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),
+ as.matrix(zanahorias[,1]), choice="binom",ni=as.matrix(zanahorias[,2]))

(1)

> salida.robusta$coeff
[1] 1.9301522 -2.0497142

(2)

0.6897909

0.4613198

> salida.robusta$sd.coeff
[1] 0.6984066 0.3689728 0.2366980 0.2413989

(3)

Si ahora queremos validar el modelo con el que nos quedaremos, podemos hacer contrastes
anidados como los que se indicaban m
as arriba, consistentes en establecer como hip
otesis
alternativa un modelo con un n
umero determinado de covariables y como hip
otesis nula un
submodelo de este. Si rechazamos la hip
otesis nula, con un p-valor bajo, podemos concluir
que la covariable no incluida en el modelo de la hip
otesis nula (en el submodelo) es relevante
a la hora de explicar a la variable dependiente. Todo esto lo haremos con la funci
on anterior
quasi.rob
Primero plantearemos la hip
otesis alternativa de un modelo con las tres covariables consideradas, logdosis, bloque1 y bloque2 frente a la hip
otesis nula del submodelo sin la covariable
bloque2. Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lnea
marcada con (4) incluimos, como primer argumento de la funci
on, un modelo las tres covariables que aparecen en las columnas 3, 5 y 6 de la matriz de datos, y como en la lnea (5) le
decimos, con el argumento out.col=3, que como hip
otesis nula considere el submodelo sin
la que aparece en la columna 3 de las anteriores, es decir, en la columna 6 de la matriz de
datos, es decir, sin bloque2.
El p-valor de este test lo obtenemos ejecutando (6) que claramente indica que rechazamos la
hip
otesis nula del submodelo, lo que indica cierta significaci
on (i.e., algo explica) la covariable
bloque2.
> resultado<-quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),
+ as.matrix(zanahorias[,1]),out.col=3,choice="binom",
+ ni=as.matrix(zanahorias[,2]))

(4)
(5)

> resultado$pvalue

(6)

[,1]
[1,] 0.003565751

Podemos considerar el siguiente


arbol de posibles modelos en una primera tanda de comparaciones
H0 : logdosis, bloque1
H1 : logdosis, bloque1, bloque2
H0 : logdosis, bloque2

55

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes


H1 : logdosis, bloque1, bloque2
H0 : bloque1, bloque2
H1 : logdosis, bloque1, bloque2

En el primer test obtuvimos el p-valor 0 0036. Los otros dos p-valores los obtenemos ejecutando
> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),
+ out.col=2,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 0.05600116
y

> quasi.rob(as.matrix(zanahorias[,c(3,5,6)]),as.matrix(zanahorias[,1]),
+ out.col=1,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 2.773081e-08

p-valores que llevan a la conclusi


on de ser muy significativa (muy explicativa) la covariable
logdosis, algo significativa (como dijimos m
as arriba) bloque2 y poco relevante bloque1.
Como el u
nico posible modelo sera el que contiene a las covariables logdosis y bloque2
surgen ahora dos posibles tests,
H0 : logdosis
H1 : logdosis, bloque2
H0 : bloque2
H1 : logdosis, bloque2

cuyos p-valores obtenemos ejecutando, respectivamente, las secuencias,

> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ out.col=2,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 0.01178241
y

> quasi.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ out.col=1,choice="binom",ni=as.matrix(zanahorias[,2]))$pvalue
[,1]
[1,] 3.961684e-08

los cuales indican, de nuevo, la significaci


on de bloque2 y, de nuevo, lo significativo que
resulta la covariable logdosis.
Parece, por tanto, razonable utilizar estas dos covariables, para cuya estimaci
on de par
ametros ejecutamos la siguiente secuencia

56

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

> glm.rob(as.matrix(zanahorias[,c(3,6)]),as.matrix(zanahorias[,1]),
+ choice="binom",ni=as.matrix(zanahorias[,2]))$coeff
[1]

2.1187526 -2.0355601

0.4759153

que lleva a quedarnos, finalmente, con el modelo




i
log
= 2 119 2 036 log(dosis) + 0 476 bloque2
ni i

Observemos que si en (1) hacemos la constante de Huber igual a infinito, obtendremos, en


lugar de (2), los resultados cl
asicos obtenidos cuando hicimos este ejemplo con Metodos
Cl
asicos. Ve
amoslo,
> chuber<-Inf

> a<-glm.rob(as.matrix(zanahorias[,c(3,6,5)]),as.matrix(zanahorias[,1]),
+ choice="binom",ni=as.matrix(zanahorias[,2]))
There were 26 warnings (use warnings() to see them)
> a$coeff
[1] 1.4540106 -1.8078152

0.8497862

0.5524021

Veamos a continuaci
on dos ejemplos de An
alisis de Regresi
on Logstica
robusta.

Ejemplo 2.2 (continuaci


on)
Despues de fijar el valor de la constante de Huber en 1 2 utilizamos la funci
on glm.rob en
la estimaci
on robusta de los par
ametros de la Regresi
on Logstica, los cuales obtenemos en
(1).
> chuber<-1.2

> B<-glm.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),
+ choice="logit")
> B$coeff
[1] 0.1646176 -2.0318031

2.4926958

(1)

Si ahora queremos analizar con cu


al modelo nos quedamos, podemos hacer contrastes anidados, como los que hicimos en el ejemplo anterior, en los que estableceremos como hip
otesis
alternativa un modelo con un n
umero determinado de covariables y como hip
otesis nula un
submodelo de este. Si rechazamos la hip
otesis nula, con un p-valor bajo, podemos concluir
que la covariable no incluida en el modelo de la hip
otesis nula (en el submodelo) es relevante
a la hora de explicar a la variable dependiente. Todo esto lo haremos con la funci
on anterior
quasi.rob
Primero plantearemos la hip
otesis alternativa de un modelo con las dos covariables consideradas, W BC y AG frente a la hip
otesis nula del submodelo sin la covariable AG. Es decir,
contrastaremos las hip
otesis

57

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes


H0 : W BC
H1 : W BC, AG

Para ello ejecutamos la secuencia siguiente en donde destacamos como en la lnea marcada
con (2) incluimos, como primer argumento de la funci
on, un modelo con las dos covariables
que aparecen en las columnas 2 y 3 de la matriz de datos, y como en la lnea (3) le decimos,
con el argumento out.col=2, que como hip
otesis nula considere el submodelo sin la covariable
que aparece en la columna 2 de las anteriores, es decir, en la columna 3 de la matriz de datos,
es decir, sin AG.
El p-valor de este test lo obtenemos ejecutando (4) que no es concluyente en cuanto al rechazo
de la hip
otesis nula del submodelo (desde luego la rechaza para un nivel de significaci
on 0 05),
indicando cierta significaci
on (i.e., algo explica) la covariable AG.

> a1<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),
out.col=2,choice="logit")

(2)
(3)

> a1$pvalue

(4)

[,1]
[1,] 0.04645812

Ahora contrastaremos la otra posibilidad cual es la de eliminar la covariable W BC, es decir,


contrastar las hip
otesis
H0 : AG
H1 : W BC, AG

Para ello ejecutamos la siguiente sentencia indic


andole en (5), que ahora no considere la
covariable que aparece en el lugar 1 del la matriz previa de datos de las covariables; es decir,
la de la columna 2 de la matriz de datos, es decir, que prescinda en la hip
otesis nula de
W BC.
El p-valor lo obtenemos ejecutando (6), el cual indica que se puede aceptar la hip
otesis nula
y prescindir de la covariable W BC.

> a2<-quasi.rob(as.matrix(leucemia[,c(2,3)]),as.matrix(leucemia[,c(1)]),
out.col=1,choice="logit")

(5)

> a2$pvalue

(6)

[,1]
[1,] 0.1371982

Por tanto, como ya hemos decidido quedarnos s


olo con la covariable AG, volvemos a ajustar
el modelo de Regresi
on Logstico robusto ejecutando
> glm.rob(as.matrix(leucemia[,c(3)]),as.matrix(leucemia[,c(1)]),
+ choice="logit")$coeff
[1] -1.945900

2.063683

58

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

qued
andonos, por tanto, con el modelo de Regresi
on Logstica robusto
log

p
= 1 9459 + 2 063683 AG.
1p

Ejemplo 2.5 (TA-ejemplo 9.1)


En el texto TA resolvimos un ejercicio (el 9.1 de la secci
on 9.4 de ese texto) en el que
realiz
abamos un An
alisis de Regresi
on Logstica a unos datos. All lo resolvamos utilizando
Metodos Cl
asicos. A continuaci
on utilizaremos Metodos Robustos.
Para ello primero volvemos a fijar, en (1), el valor de la constante de Huber y luego ejecutamos (2) s
olo con la covariable presi
on que era la significativa.
> chuber<-1.2

> A<-glm.rob(as.matrix(valores[,c(10)]),as.matrix(valores[,c(6)]),
+ choice="logit")
> A$coeff
[1] 1.335000 -1.180849

Observemos que obtenemos las mismas estimaciones para los coeficientes que obtenamos
all (al final de la Secci
on 9.4 de TA) puesto que no haba datos an
omalos entre las observaciones.

Veamos en el siguiente ejemplo c


omo realizar un An
alisis de Regresi
on
Poisson robusto.

Ejemplo 2.3 (continuaci


on)
Primero fijamos el valor de la constante de Huber en 1 6 que es el valor establecido en Cantoni
y Ronchetti (2001). Despues utilizamos la funci
on glm.rob en la estimaci
on robusta de los
par
ametros de la Regresi
on Poisson, los cuales obtenemos en (1).
> chuber<-1.6

> C<-glm.rob(as.matrix(marsu[,c(2,3,4,5,6,7,9,10,12,13,14)]),
+ as.matrix(marsu[,c(1)]),choice="poisson")
> C$coeff
[1] -0.89780510 0.00994289 -0.25141328
[6] 0.07141413 0.01777746 -0.02022772
[11] 0.09492416 -0.50792232

(1)

0.04016733
0.12693237

0.03999019
0.06009973

Si acept
aramos este modelo de Regresi
on Poisson robusta, nos quedara por tanto,
log Diversidad

0 8978 + 0 0099 Arbustos + 0 0402 Stags + 0 04 Cortezas

59

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 2. Modelos Lineales Generalizados Univariantes


+0 0714 Habitat + 0 0178 Acacias 0 2514 Tocones

0 0202 Delegatensis + +0 1269 Nitens + 0 0601 NWSE

+0 0949 SESW 0 5079 SWNW

que son los mismos valores que aparecen en la correcci


on del trabajo de Cantoni y Ronchetti.
Ahora deberamos realizar tests condicionales para ver con que modelo nos quedamos finalmente. Como hay muchas covariables y muchos datos, el programa da errores en algunos
contrastes anidados. Si nos limitamos a ajustar el Modelo de Regresi
on Poisson robusto para
las cinco covariables con las que nos quedamos en los metodos cl
asicos, ejecutaramos
> glm.rob(as.matrix(marsu[,c(4,5,6,7,14)]),as.matrix(marsu[,c(1)]),
+ choice="poisson")$coeff
[1] -0.79811068

0.04057311

0.04099017

0.07762185

0.01429919 -0.60443908

con lo que nos quedaramos con el Modelo de Regresi


on Poisson robusto,

log Diversidad

0 7981 + 0 0406 Stags + 0 0410 Cortezas + 0 0776 Habitat


+0 0143 Acacias 0 6044 SWNW

el mismo obtenido en la correcci


on del artculo de Cantoni y Ronchetti y casi identico al
cl
asico [2.7] como era de esperar, ya que all comentamos que no veamos observaciones
influyentes.

2.8.

Referencias

Cantoni, E. y Ronchetti, E. (2001). Robust inference for generalized linear models. Journal
of the American Statistical Association 96, 1022-1030.
Fahrmeir, L. y Tutz, G. (1994). Multivariate Statistical Modelling Based on Generalized
Linear Models. Springer-Verlag.

Feigl, P. y Zelen, M. (1965). Estimation of exponential probabilities with concomitant


information. Biometrics 21, 826-838.
Heyde, C.C. (1997). Quasi-likelihood and its Applications. Springer-Verlag.

K
unsch, H.R., Stefanski, L.A., y Carroll, R.J. (1989). Conditionally unbiased boundedinfluence estimation in general regression models, with applications to generalized
linear models. Journal of the American Statistical Association 84, 460-466.
Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Smith, A.P., y Nix, H.A. (1990). The
conservation of arboreal marsupials in the montane ash forest of the central highlands
of Victoria, south-east Australia: I. Factors influencing the occupancy of trees with
hollows. Biological Conservation 54, 111-131.

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

60

Lindenmayer, D.B., Cunningham, R.B., Tanton, M.T., Nix, H.A., y Smith, A.P. (1991). The
conservation of arboreal marsupials in the montane ash forest of the central highlands
of Victoria, south-east Australia: III. The habitat requirements of Leadbeaters possum
Gymnobelideus leadbeateri and models of the diversity and abundance of arboreal
marsupials. Biological Conservation 56, 295-315.
Maronna, R.A., Martin, R.D. y Yohai, V.J. (2006). Robust Statistics. Theory and Methods.
Wiley.

McCullagh, P. y Nelder, J.A. (1989). Generalized Linear Models, 2a edici


on. Chapman and
Hall.
Morgenthaler, S. (1992). Least-absolute-deviations fits for generalized linear models. Biometrika 79, 747-754.
Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models. Journal of Royal
Statistical Society, A 135, 370-384.

Phelps, K. (1982). Use of the complementary log-log function to describe dose-response


relationships in insecticide evaluation field trials. In Lecture Notes in Statistics, 14.
GLIM.82: Proceedings of the International Conference on Generalized Linear Models,
ed. R. Gilchrist. Springer-Verlag.
Pregibon, D. (1982). Resistant fits for some commonly used logistic models with medical
applications. Biometrika 38, 485-498.

Sinha, S.K. (2004). Robust analysis of generalized linear mixed models. Journal of the
American Statistical Association 99, 451-460.
Stefanski, L.A., Carroll, R.J. y Ruppert, D. (1986). Optimally bounded score functions
for generalized linear models with applications to logistic regression. Biometrika 73,
413-424.
Velez, R. y Garca Perez, A. (1993). Principios de Inferencia Estadstica. UNED.

Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models, and the
Gauss-Newton method. Biometrika 61, 439-447.

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3

T
ecnicas Actuales en el
An
alisis de Series Temporales
3.1.

Introducci
on

En el Captulo 13 de TA hicimos un estudio muy elemental del An


alisis
de Series Temporales; aqu profundizaremos en dicho an
alisis. Si consideramos como elementos de una serie temporal Yt , la Tendencia, los Movimientos
Estacionales y las Variaciones Residuales (prescindiendo de los Movimientos
Cclicos, los cuales suelen englobarse dentro de los Movimientos Estacionales), el An
alisis de una Serie Temporal puede hacerse, b
asicamente, mediante
un Filtrado Lineal (Linear Filtering) con el que eliminamos la Estacionalidad
mostr
andonos la serie resultante (filtrada) la Tendencia Tt , a la que se suman
unos movimientos irregulares: las Variaciones Residuales Rt ,
Yt = Tt + Rt .

Tambien puede analizarse una serie temporal mediante el Suavizado Exponencial (Exponential Smoothig), en donde se aplica la misma idea del filtrado.
De hecho, algunos autores consideran el Suavizado un caso particular de Filtrado.
Tambien el uso de tecnicas de Regresi
on Lineal es habitual en un An
alisis
de Series Temporales. Suelen ajustarse funciones lineales o cuadr
aticas para
explicar la Tendencia, a las que se les suma unas funciones trigonometricas
(series de Fourier) para explicar las Variaciones Estacionales. Este tipo de
tecnicas se suele denominar An
alisis Espectral (Spectral Analysis).
No obstante, las tecnicas m
as frecuentemente utilizadas son las dise
nadas
por Box y Jenkins en la decada de los 60, mediante los modelos ARIMA y sus
generalizaciones, en donde se supone que los residuos Rt son una serie estacionaria a la que se ajusta un modelo ARMA. En esta captulo nos centraremos
61

62

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

en este u
ltimo tipo de an
alisis aunque comenzaremos con el Filtrado Lineal,
como motivaci
on de los procesos de Medias M
oviles.
Recordemos que clasificamos las series en estacionarias, como la que estudiamos en TA-ejemplo 13.1 y que represent
abamos en la Figura 13.1, y series
no estacionarias, como las que aparecen m
as adelante en las Figuras 3.1 y 3.3
de este texto, series que pueden presentar (como le ocurre a estas dos u
ltimas)
una componente estacional.
En algunos casos, los Residuos, adem
as de ser un proceso estacionario,
tienen distribuci
on normal, denomin
andose en ese caso, Ruido Blanco.
Hay, b
asicamente, dos posibles caminos de an
alisis Box-Jenkins: uno, eliminar primero de la serie observada la Tendencia (mediante un ajuste de
regresi
on o diferenciando la serie) y, en su caso, las Variaciones Estacionales,
qued
andonos s
olo con las Variaciones Residuales para aplicar luego, a esta serie Residual, un modelo ARMA seg
un un an
alisis visual de las funciones ACF
y PACF. La segunda posibilidad es aplicar un modelo ARIMA a la serie no estacionaria o, si adem
as incluye movimientos estacionales, un modelo SARIMA
(generalizaci
on de los ARIMA) a la serie de los datos observados.
Hay que destacar que todos estos modelos SARIMA son buenos para modelizar series homoced
asticas, es decir, series en las que las varianzas se pueden
suponer constantes ( V (Yt ) = 2 en cada periodo). Si no son constantes las
varianzas, entonces debemos hacer una transformaci
on Box-Cox (CB-secci
on
14.4.2) de las observaciones hasta que sean homoced
asticas (habitualmente tomando logaritmos) para luego ajustar un modelo SARIMA a los datos transformados o, alternativamente, deberemos utilizar modelos heteroced
asticos tales
como los ARCH (Auto Regressive Conditional Heteroscedastic) o los GARCH
(Generalized ARCH), situaci
on habitual en la series financieras.

3.1.1.

C
alculo con R

La utilizaci
on de alg
un paquete estadstico en el An
alisis de Series Temporales se hace indispensable. Nosotros utilizaremos en este captulo, R. Para
ello, lo primero que tenemos que conseguir es que los datos (que recomendamos esten ya en formato ascii; tipo fichero txt) sean reconocidos como objetos
de dicho paquete estadstico para lo que deberemos utilizar la funci
on
ts(x,start,frecuency)

mediante la cual creamos un objeto que R reconoce como una serie temporal y
sobre el que podremos ejecutar las funciones creadas para dicho prop
osito. En
dicha funcion, x debe ser un vector numerico (en el caso de series temporales
univariantes) o una matriz (si estamos trabajando con series temporales multi-

63

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

variantes) de los valores temporales observados. Este argumento es obligatorio


y puede ser creado en la lnea de comandos con la funci
on c, como hicimos en
TA, o incorporado de una dispositivo externo a R, como haremos aqu para
simplificar los c
alculos.
Si queremos precisar un poco m
as los valores temporales incluidos en x
utilizaremos los otros dos argumentos de la funci
on. Con start indicamos
el momento de la primera observaci
on mediante un vector de dos n
umeros
enteros: a
no y unidad de tiempo (ver un poco m
as abajo). Con frequency
se
nalamos el n
umero de observaciones por unidad de tiempo.

3.2.

Filtrado lineal

Como dijimos m
as arriba, mediante el Filtrado Lineal de una serie eliminamos sus movimientos estacionales, qued
andonos la serie libre de ellos y
mostr
andonos as, m
as claramente, su Tendencia, a la que se suman los movimientos err
aticos de las Variaciones Residuales. Para que todo esto tenga
validez, es imprescindible suponer que la serie es lineal, es decir, que las tres
componentes de la serie act
uan de forma aditiva y que cada valor observado
Yt es funci
on lineal de los valores precedentes, mediante expresiones del tipo
Yt = 0 + 1 Yt1 + 2 Yt2 + ...

Ejemplo 3.1
Los datos del fichero NoDuraderos son datos de consumo de bienes no duraderos por cuatrimestres de 34 a
nos, desde el primer cuatrimestre de 1955 hasta el cuarto cuatrimestre de
1988 en el Reino Unido (Franses, 1998). Para incorporarlos a R, ejecutaremos (1). Como se
ve, con start indicamos el a
no y el periodo de comienzo. Al indicar con frequency que el
periodo de observaci
on es cuatrimestral, la funci
on ts transforma los datos en ascii del fichero
NoDuraderos en una serie temporal en donde las observaciones se realizan cada cuatrimestre, como puede comprobarse ejecutando (2). Se puede editar este fichero NoDuraderos con
WordPad o el Bloc de Notas para ver la estructura que debe de tener un fichero de datos
que queramos crear para luego utilizarlo con R.
> serie1<-ts(scan("d:\\datos\\NoDuraderos"),start=c(1955,1),frequency=4)
> serie1
Qtr1 Qtr2 Qtr3 Qtr4
1955 24030 25620 26209 27167
1956 24620 25972 26285 27659
1957 24780 26519 26803 28200
1958 25476 26846 27302 28601
1959 26025 27998 28258 29828
1960 27346 29174 29375 30603
1961 28168 29884 30165 31260
1962 28629 30614 30717 32054
1963 29364 31783 32532 33392
1964 30599 32528 33200 34258

(1)
(2)

64

serie1

30000

40000

50000

60000

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

1955

1960

1965

1970

1975

1980

1985

Time

Figura 3.1 : Serie Temporal del Ejemplo 3.1

1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986

31111
32013
32227
33902
33742
34149
34783
36466
39131
38729
39131
38714
38695
40777
41947
43315
42833
42552
43740
44878
46354
48527

32946
34055
34343
34838
35401
36176
37042
38680
40780
40427
40394
40062
39780
41778
44061
43396
43548
43526
45007
46234
47260
50237

33846
34244
35301
35874
36147
37485
38008
39976
41852
41576
40956
41152
40923
43160
44378
44843
44637
45039
46667
47055
48883
51592

34845
35084
36546
37315
38067
39047
40132
42273
43684
43886
42959
43460
44093
45897
47237
46835
47107
47940
49325
50318
52605
55152

1990

65

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales
1987 50451 52294 54633 58802
1988 53990 55477 57850 61978

Como dijimos en TA-secci


on 13.1 podemos representar la serie anterior o bien con la funci
on
plot (o con la funci
on ts.plot) ejecutando (3) y obteniendo la Figura 3.1.
> plot(serie1)

(3)

55000
45000
25000

35000

seriedes

45000
25000

35000

seriedes

55000

Como puede verse en esta figura, la serie es claramente no estacionaria y presenta una
estacionalidad muy marcada cada a
no, como f
acilmente se desprende de observar los datos
y del tipo de datos que estamos considerando.
Uno de los primeros prop
ositos en un An
alisis de Series Temporales es la eliminaci
on de los
Movimientos Estacionales para luego tratar de conseguir una Serie Estacionaria que permita
ser descrita m
as f
acilmente. Si, pensando en el ejemplo anterior, promediamos cada a
no
creando una nueva serie en la que s
olo tengamos una observaci
on anual, la serie resultante,
l
ogicamente dejar
a de oscilar dentro de cada a
no.

1955

1965

1975

1985

aos

1955

1965

1975

1985

aos

Figura 3.2 : Serie Temporal desestacionalizada del Ejemplo 3.1

Primero extraemos los valores observados de la serie con (4) y luego, en (5), obtenemos las
medias muestrales por filas. Si representamos ahora la serie resultante ejecutando (6), vemos
en la Figura 3.2 (izquierda) que la serie no presenta los movimientos estacionales previos.
Es m
as, podemos ajustar una recta de mnimos cuadrados y luego sobre-impresionarla, con
(7) despues de repetir (6), en la derecha del gr
afico anterior.
> b<-matrix(serie1,ncol=4,byrow=T)
> seriedes<-rowMeans(b)
> par(mfrow=c(1,2))

(4)
(5)

66

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

>
>
>
>

Tecnicas Actuales de Estadstica Aplicada

a~
nos<-seq(1955,1988,len=34)
plot(a~
nos,seriedes,type="l")
ajuste<-lm(seriedes~a~
nos)
abline(ajuste,lty=3)

(6)
(7)

que muestra un buen ajuste, aunque parece iniciarse un aumento de las ventas al final de la
serie, quiz
as indicando un cambio de tendencia.

Esta desestacionalizaci
on de la serie ha sido muy elemental porque la serie
era excepcionalmente sencilla. Adem
as, hemos perdido observaciones (es decir,
informaci
on) al resumir en un solo dato las cuatro observaciones que de el
tenamos, lo que, aunque simplifica el problema, implica una aproximaci
on a
veces no deseable. Es bueno para estimar, como hemos hecho, la tendencia de
la serie aunque implica cometer posibles errores. Por ejemplo, parece indicar
que las ventas son siempre crecientes dentro de cada a
no.
Una soluci
on es sustituir los n datos originales por otros n que resulten
de promediar los anteriores y posteriores a cada dato original. Este metodo
se denomina Filtrado de la serie y su expresi
on m
as simple es el Filtrado
Lineal (linear filtering), siendo una clase muy importante de filtros lineales las
medias m
oviles finitas, mediante las cuales sustituimos los datos originales Yt ,
t = 1, ..., n por las sumas ponderadas,
Zt =

s
X

j=r

aj Yt+j

t = r + 1, ..., n s.

quedando la fijaci
on de las ponderaciones aj a cargo de la experiencia del
estadstico. Si es r = s el filtrado se dice simetrico.
La funci
on de R, filter proporciona el filtrado de una serie. Por defecto
considera el filtrado lineal de medias m
oviles finitas que acabamos de mencionar y, como argumento, debemos indicar en filter el vector de coeficientes
aj .
Como el lector ya habr
a pensado, todas estas medias muestrales podran
sustituirse por medianas o, en general, por medias recortadas, con objeto de
evitar datos an
omalos en un periodo promediado concreto.
Ejemplo 3.2
La serie temporal de conductores muertos (o con secuelas muy severas) en el Reino Unido,
desde Enero de 1969 hasta Diciembre de 1984 (Harvey y Durbin, 1986), puede conseguirse
ejecutando (1)

> serie2<-ts(scan("d:\\datos\\MuerteConductores"),start=c(1969,1),frequency=12)
> serie2
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148

(1)

67

1000

1500

serie2

2000

2500

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

1970

1975

1980

1985

Time

Figura 3.3 : Serie Temporal del Ejemplo 3.2

1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984

1752
2030
2080
2097
1608
1577
1473
1648
1956
1813
1665
1474
1456
1494
1357

1765
1655
1768
1963
1503
1356
1655
1401
1462
1445
1361
1458
1445
1057
1165

1717
1693
1835
1677
1548
1652
1407
1411
1563
1762
1506
1542
1456
1218
1282

1558
1623
1569
1941
1382
1382
1395
1403
1459
1461
1360
1404
1365
1168
1110

1575
1805
1976
2003
1731
1519
1530
1394
1446
1556
1453
1522
1487
1236
1297

1520
1746
1853
1813
1798
1421
1309
1520
1622
1431
1522
1385
1558
1076
1185

1805
1795
1965
2012
1779
1442
1526
1528
1657
1427
1460
1641
1488
1174
1222

1800
1926
1689
1912
1887
1543
1327
1643
1638
1554
1552
1510
1684
1139
1284

1719
1619
1778
2084
2004
1656
1627
1515
1643
1645
1548
1681
1594
1427
1444

2008
1992
1976
2080
2077
1561
1748
1685
1683
1653
1827
1938
1850
1487
1575

2242
2233
2397
2118
2092
1905
1958
2000
2050
2016
1737
1868
1998
1483
1737

2478
2192
2654
2150
2051
2199
2274
2215
2262
2207
1941
1726
2079
1513
1763

La representaci
on gr
afica de esta serie de datos se obtiene ejecutando (2) y obteniendo la
Figura 3.3 en la que se observa una cierta estacionalidad (es decir, picos de periodicidad
menor a un a
no).
> plot(serie2)

(2)

Si queremos eliminar (o mejor dicho, reducir) esta estacionalidad, podemos filtrar la serie.
La serie filtrada simetrica de longitud 13 (es decir, cada dato Yt es promediado con 6 valo-

68

1000

1500

serie2

2000

2500

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

1970

1975

1980

1985

Time

Figura 3.4 : Serie Temporal y desestacionalizada del Ejemplo 3.2

res anteriores y 6 posteriores) con coeficientes 1/24 el primero y el u


ltimo (recuerde que es
simetrica) y 1/12 los restantes, es decir, con coeficientes (1/24, 1/12, 1/12, ..., 1/12, 1/12,
1/24) se obtiene ejecutando (3), habiendo denominado seriefiltrada a la nueva serie temporal. Si queremos sobre-impresionar esta a la serie anterior, podemos ejecutar (4) (despues
de (2)), obteniendo la Figura 3.4 en donde se aprecia como la serie filtrada no presenta ya
los movimientos estacionales.
> seriefiltrada<-filter(serie2,c(1/2,rep(1,11),1/2)/12)
> lines(seriefiltrada)

3.3.

(3)
(4)

Modelos ARIMA

En TA-secci
on 13.5 ya vimos c
omo ajustar un modelo ARIMA a una serie
cronol
ogica. Aqu profundizaremos en dicho an
alisis. Recordamos que podemos
clasificar las series temporales en estacionarias, es decir, en series de las que
hemos eliminado cualquier tendencia, incluso las tendencias estacionales, y en
series no estacionarias, uno de cuyos casos particulares m
as importantes es el

69

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

de las series (no estacionarias) estacionales. Los modelos ARIMA se aplican


a series estacionarias de segundo orden (second-order stationarity) que son
aquellas, como vimos en TA-secci
on 13.3, en las que la media y la varianza
son constantes y las covarianzas s
olo dependen del retardo considerado.

3.3.1.

Identificaci
on del Modelo ARIMA

Se ha escrito mucho sobre la elecci


on de los coeficientes (p, d, q) del modelo
ARIMA(p, d, q). Hoy en da, gracias a la rapidez de los ordenadores, puede
probarse f
acilmente con varios posibles modelos y elegir aquel que, o bien nos
de la mayor verosimilitud, o bien nos de el menor valor AIC. Ambos son los
criterios habitualmente utilizados en la selecci
on del modelo. No obstante, una
vez elegido el modelo y estimados sus par
ametros, habitualmente con las funciones de R, arima y auto.arima, debemos analizar si este es suficientemente
bueno mediante la Diagnosis, realizada con la funci
on de R, tsdiag o con la
ltimo se haran predicciones con la funci
on predict.
de Rmo , diagnosis. Por u
La transformaci
on de una serie no estacionaria en estacionaria puede hacerse restando a esta la Tendencia previamente ajustada por mnimos cuadrados
o diferenci
andola d veces; es decir, repitiendo d veces el c
alculo de las diferencias Yt Yt1 hasta que la serie sea estacionaria. De hecho, d es el orden del
polinomio de la Tendencia de la serie; es decir, si la serie tiene una tendencia
lineal debe ser d = 1; si la tendencia de la serie se ajusta bien por un polinomio
de orden 2, ese debe ser el valor de d, y as sucesivamente; el por que es f
acil de
entender: si una serie tiene una tendencia lineal, es decir es, aproximadamente,
yt = a0 + a1 t

ser
a

t = 1, ..., n

yt1 = a0 + a1 (t 1)

y, por tanto,

yt yt1 = a1

es decir, constante. Si la serie tuviera una tendencia cuadr


atica, sera aproximadamente,
yt = a0 + a1 t + a2 t2

t = 1, ..., n

y por tanto,

yt1 = a0 + a1 (t 1) + a2 (t 1)2

con lo que la serie wt ,

70

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

wt = yt yt1 = (a1 a2 ) + 2 a2 t = b0 + b1 t

ser
a una serie con tendencia lineal que ser
a necesario diferenciar, es decir,
calcular sus diferencias de un retardo (de un lag) para obtener una serie con
tendencia constante. En resumen, es necesario diferenciar una vez con un retardo una serie con tendencia lineal para obtener una serie estacionaria, y
ser
a necesario diferenciar dos veces, de un retardo cada vez, una serie de tendencia cuadr
atica para obtener un serie estacionaria, es decir, una serie en
donde parece que no hay tendencia.
Escribiremos como d (yt ) el diferenciar d veces la serie yt . Es decir, 1 (yt ) =
yt yt1 , serie (con una observaci
on menos: la primera) que podemos denominar wt . Sera pues 2 (yt ) = 1 (wt ) = wt wt1 . La serie d (yt ) tendr
a nd
datos menos (los n d primeros). Y esto habiendo considerado las diferencias
de un retado, es decir, habiendo restado a cada valor de la serie el anterior. Si calculamos la diferencia con respecto al retado k lo expresaremos por
1k (yt ) = yt ytk . Por tanto, expresaremos d diferenciaciones, con respecto
al retardo k (siempre el mismo retardo) de la forma dk (yt ).
La funcion de R que calcula las diferencias es

diff(x,lag,differences)

en donde x es la serie cuyas diferencias queremos calcular, lag el retardo de


estas y differences el n
umero de veces que queremos diferenciar la serie.
Es decir, seg
un la notaci
on anterior, diff(serie,lag=k,differences=d)=
dk (serie).
Ejemplo 3.1 (continuaci
on)
La serie de la Figura 3.1 tiene una tendencia lineal, por lo que parece claro que debe ser d = 1
el orden de diferenciaci
on, pero existen adem
as unos movimientos estacionales muy marcados.
Se ve que, dentro de cada a
no, hay una sub-tendencia lineal de periodo 4. Es decir, que si
calculamos, para cada a
no las diferencias Yt Yt4 habr
a desaparecido las tendencia dentro
de cada a
no; es decir, las variaciones estacionales. Parece por tanto razonable diferenciar
primero la serie con un retardo de orden 4 y, despues, diferenciar la serie resultante.
As, ejecutando (1) desestacionalizamos la serie1, cuya representaci
on es la de la izquierda
de la Figura 3.5 en donde ya no se ven los movimientos estacionales aunque la serie no parece
estacionaria. Con (2) la convertimos en estacionaria como puede verse en el gr
afico de la
derecha de la Figura 3.5.
>
>
>
>
>

serie11<-diff(serie1,4)
serie12<-diff(serie11)
par(mfrow=c(1,2))
plot(serie11)
plot(serie12)

(1)
(2)

71

1000
500
1500
2000

1000

1000

serie12

1000

serie11

2000

500

3000

1500

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

1955

1965

1975

Time

1985

1955

1965

1975

1985

Time

Figura 3.5 : Serie desestacionalizada y estacionaria del Ejemplo 3.1

Si no hubieramos eliminado los movimientos estacionales (diferenciando con un retardo igual


a 4) antes de diferenciar la serie dada, es decir, hubieramos ignorado esos movimientos estacionales y obtenido la serie13 ejecutando (3), la representaci
on gr
afica 3.6 muestra todava
los movimientos estacionales y, en consecuencia, que no es una serie estacionaria.
> serie13<-diff(serie1)
> serie14<-diff(serie13,4)

(3)
(4)

Si, analizado esto, diferenciamos despues la serie13 con un retardo igual a 4 (es decir, ejecutamos (4)), ambas series serie12 y serie14 coincidiran exactamente al estar considerando
series temporales lineales ya que, seg
un la primera forma de actuar, hubieramos calculado primero la serie Wt = Yt Yt4 y luego la serie estacionaria Zt = Wt Wt1 =
Yt Yt1 Yt4 + Yt5 ; por el segundo camino comentado, calcularamos primero, la serie
Wt = Yt Yt1 y luego la serie estacionaria Zt = Wt Wt4 = Yt Yt1 Yt4 + Yt5 .

Una vez que ya intuimos el ndice d (es decir, ya tenemos la serie estacio-

72

0
4000

2000

serie13

2000

4000

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

1955

1960

1965

1970

1975

1980

1985

1990

Time

Figura 3.6 : Serie sin desestacionalizar del Ejemplo 3.1

naria), la representaci
on de las funciones de autocorrelaci
on y autocorrelaci
on
parcial me dir
an cu
ales son los ndices p y q del modelo ARIMA(p, d, q) a
ajustar.

Modelo ARIMA
Vamos a expresar en un modelo los conceptos anteriores. La expresi
on
general de un modelo ARMA(p, q) (estacionario) era (TA-secci
on 13.3.3)
Zt = 0 + 1 Zt1 + ... + p Ztp + et 1 et1 ... q etq .

Si prescindimos de la constante 0 , porque en ocasiones se considera la


media del proceso estacionario Zt , represent
andose el modelo anterior como
Zt = 1 (Zt1 ) + ... + p (Ztp ) + et 1 et1 ... q etq

cambiamos adem
as de signo los coeficientes de la parte MA(q), consideramos
el operador retardo L, definido por Lk (Zt ) = Ztk , y los polinomios en este
operador

73

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

p (L) = 1 1 L ... p Lp

[3.1]

q (L) = 1 + 1 L + ... + q Lq

la expresi
on habitual (la que considera R) de modelo ARMA(p, q)
Zt = 1 Zt1 + ... + p Ztp + et + 1 et1 + ... + q etq

suele escribirse como

p (L)Zt = q (L)et .

Es decir, R ajusta, por defecto, un modelo ARIMA a Xt . Aunque


ya volveremos sobre ello un poco m
as abajo cuando hablemos de la funci
on
arima, ya adelantamos que, cuando haya diferenciaci
on (es decir, sea d 1),
no habr
a diferencias entre ajustar un modelo a Xt o a Xt .
Si, para conseguir que la serie fuera estacionaria, tuvimos que hacer d
diferenciaciones, considerando el operador identidad, I(Yt ) = Yt , la diferenciaci
on de un retardo, antes considerada, se podr
a expresar como (I L)(Yt ) =
1
I(Yt ) L(Yt ) = Yt Yt1 = (Yt ) y d diferenciaciones (de un retardo siempre), por (I L)d (Yt ) = d (Yt ), con lo que el modelo ARIMA(p, d, q) suele
expresarse de la forma generica
p (L)(I L)d Yt = q (L)et

o, con la otra notaci


on, de la forma

p (L)d Yt = q (L)et

o tambien,

p (L)Zt = q (L)et

siendo Zt = d Yt .

Si, como ocurre en muchas ocasiones, creemos que en nuestras observaciones hay adem
as una componente estacional, como por ejemplo al tener observaciones mensuales (s = 12) y creemos que Yt no s
olo es funci
on de Yt1 , Yt2 , ...,
sino tambien de Yt12 y, quiz
a, Yt24 , deberemos incorporar esta componente
estacional a nuestro modelo anterior. Box y Jenkins (1970) generalizaron el
modelo ARIMA anterior para incluir la componente estacional en todas las
otras componentes AR, MA y Tendencia, definiendo un modelo ARIMA estacional multiplicativo (abreviado por SARIMA), de orden (p, d, q) (P, D, Q)s ,
como

74

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

p (L)P (Ls )Zt = q (L)Q (Ls )et

[3.2]

siendo Zt = d D
s Yt un proceso estacionario y en donde aparecen los siguientes polinomios asociados (la segunda igualdad es para indicar la denominaci
on
de R):
p (L) = 1 1 L ... p Lp = 1 ar1 L ... arp Lp

P (Ls ) = 1 1 Ls ... P LsP = 1 sar1 Ls ... sarP LsP


q (L) = 1 + 1 L + ... + q Lq = 1 + ma1 L + ... + maq Lq

Q (Ls ) = 1 + 1 Ls + ... + Q LsQ = 1 + sma1 Ls + ... + smaQ LsQ

Este modelo puede parecer complicado a primera vista pero, si desarroll


aramos los c
alculos en [3.2], obtendramos un modelo ARMA(p+sP, q +sQ) (para
la serie estacionalizada Zt ) con una gran n
umero de par
ametros iguales a cero;
de hecho, lo habitual es que ni d ni D sean mayores que 1. Por ejemplo, el
modelo SARIMA de orden (1, 0, 0)(0, 1, 1)12 sera el siguiente: los polinomios
asociados seran,
p (L) = 1 a1 L
P (Ls ) = 1
q (L) = 1

Q (Ls ) = 1 + b1 L12
y la ecuaci
on [3.2]

(1 a1 L)Zt = (1 + b1 L12 )et

siendo Zt = 0 112 Yt = Yt Yt12 , es decir, en terminos de la serie observada,


Yt = Yt12 + a1 (Yt1 Yt13 ) + et + b1 et12

3.3.2.

Estimaci
on de los par
ametros

La funci
on de R, arima nos dar
a las estimaciones de los coeficientes, una
vez le indiquemos el orden del modelo SARIMA (o ARIMA) a ajustar. Sus
argumentos son

75

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

arima(x,order=c(p,d,q),seasonal=list(order=c(P,D,Q),period=s),include.mean=T)

en donde x ser
a la serie de datos originales, y los par
ametros que se indican
en los otros dos argumentos corresponden con los del modelo a ajustar. Por
defecto ajusta el modelo a los datos menos la media, Yt , es decir, no
suministrara termino independiente. Si se desea, hay que utilizar el argumento
include.mean=F. Observese que cuando sea d + D 1 se obtendr
a el mismo
resultado tanto si se considera la media como si no porque, al diferenciar, esta
se cancelara.
La representaci
on gr
afica de las funciones ACF y PACF nos permiten intuir, respectivamente, el orden q y p del modelo ARMA(p, q): si despues del
primer retardo, hay q valores fuera de las lneas de confianza en la funci
on
ACF, y si hay p fuera de las lneas de confianza de la funci
on PACF, tal y
como vimos en TA. Si al ejecutar esta funci
on con un ndice d = 1 e incluyendo
ordenes en la parte estacional, R no nos calcula las estimaciones y nos da el

error de que la serie es estacional no estacionaria,


non-stationary seasonal

podemos aplicar la funci


on arima a la serie diff(x) con d = 0 en esta ocasi
on,
aunque estaremos estimado los par
ametros de la serie diferenciada Yt Yt1 .
No obstante, es m
as sencillo utilizar la funci
on auto.arima del paquete
forecast ya que ajusta el modelo SARIMA (o ARIMA) sin darle nuestro
orden intuitivo de la serie. El u
nico argumento a utilizar es la serie.
Ejemplo 3.1 (continuaci
on)
Si queremos ajustar un modelo SARIMA a la serie1 utilizando la funci
on auto.arima, primero deberemos bajarnos una vez el paquete forecast. A continuaci
on ya podemos ejecutar
la siguiente secuencia de instrucciones,

> library(forecast)
> auto.arima(serie1)
Series: serie1
ARIMA(1,1,1)(0,0,2)[4] with drift
Call: auto.arima(x = serie1)
Coefficients:
ar1
ma1
0.2031 -0.7933
s.e. 0.1250
0.0748

sma1
0.9878
0.0670

sma2
0.6881
0.0660

drift
251.5359
54.9355

76

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

sigma^2 estimated as 833769: log likelihood = -1115.17


AIC = 2242.35
AICc = 2243.01
BIC = 2259.78

que sugiere un modelo SARIMA de orden (1, 1, 1) (0, 0, 2)4 con los coeficientes all mencionados. Los polinomios asociados ser
an, por tanto,
p (L) = 1 0 2031 L
P (L4 ) = 1

q (L) = 1 0 7933L

Q (L4 ) = 1 + 0 9878L4 + 0 6881L8

por lo que la ecuaci


on [3.2] quedar
a igual a

(1 0 2031 L)Zt = (1 0 7933 L)(1 + 0 9878 L4 + 0 6881 L8 )et

con Zt = 1 04 Yt = Yt Yt1 . Con lo que, haciendo operaciones, quedar


a,

Yt = 1 2031 Yt1 0 2031 Yt2 +et 0 7933 et1 +0 9878 et4 0 7836 et5 +0 6881 et8 0 5459 et9

Si la funci
on auto.arima nos sugiere un modelo de
ordenes elevados, conviene probar si un modelo m
as sencillo no baja mucho la verosimilitud (o
sube mucho el AIC) para quedarnos con este modelo m
as sencillo; el ndice de
diferenciaci
on, seguramente no habr
a que modificarlo.

3.3.3.

Diagnosis

Observando los valores del logaritmo de las verosimilitudes resultante, log


likelihood o el valor de AIC, podemos valorar la bondad del ajuste efectuado.
No obstante, es mejor utilizar alg
un gr
afico y un test para analizar la bondad
del ajuste de la serie. En TA ya lo hicimos con Rmo y la funci
on diagnosis, la
cual nos proporciona el test Box-Pierce. En R tenemos la funci
on tsdiag con
las mismas caractersticas, pero que nos suministra, entre otras cosas, el test
de Ljung y Box (1978) sobre la hip
otesis nula de que los residuos del modelo
ajustado son aleatorios (m
as en concreto, que son un ruido blanco) y, por
tanto, que el ajuste es adecuado. Apuntamos que un ruido blanco es un proceso
estacionario en donde todos los terminos et son independientes e identicamente
distribuidos con E[et ] = 0, V (et ) = 2 (constante) y Cov(et , et+k ) = 0 para
todo entero k; a veces, a este proceso se denomina s
olo ruido y se le califica de
ruido blanco si, adem
as, las ei tienen distribuci
on normal. El test de Ljung-Box
s
olo contrasta la hip
otesis nula de que es un ruido.

77

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Un concepto relacionado es el de caminata aleatoria (random walk) en


donde Yt = Yt1 + et siendo et un ruido blanco y, por tanto, E[Yt ] = 0,
V (Yt ) = t 2 y Cov(Yt , Yt+k ) = t 2 . Un ejemplo de caminata o paseo aleatorio
es el Movimiento Browniano.
Habitualmente utilizaremos tres argumentos de dicha funci
on: el primero
x que es obligatorio y que es la serie ajustada; el segundo es el nivel de significaci
on para el test de Ljung-Box que ser
a utilizado en el tercer gr
afico (por
defecto toma 0 1, y el tercero es el n
umero de retardos que queremos utilizar
en el gr
afico, tomando por defecto 10.
tsdiag(x,0.1,gof.lag=10)

Ejemplo 3.1 (continuaci


on)
Si ejecutamos (1) y (2) obtenemos la Figura 3.7. Se observa en el tercer gr
afico de p-valores
del test de Ljung-Box que la serie ajustada es adecuada al comienzo del periodo, pero a
medida que avanzamos, el ajuste no es admisible.

Standardized Residuals

1955

1960

1965

1970

1975

1980

1985

1990

Time

ACF

0.2 0.4

1.0

ACF of Residuals

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.7 : Gr
aficos diagn
osticos para el Ejemplo 3.1

> resul1<-auto.arima(serie1)
> tsdiag(resul1)

(1)
(2)

Esta situaci
on es habitual en el ajuste de series temporales. Habitualmente un modelo no
se ajustar
a muy bien a una serie muy larga. Es necesario hacer ajustes por periodos de

78

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

tiempo, siendo especialmente interesante obtener un buen ajuste para el periodo final si
queremos hacer predicciones. As, si hacemos un an
alisis m
as detallado de la u
ltima parte
de la serie1, que podemos extraer de la serie completa con (3) y le ajustamos un modelo
SARIMA con (4), ya vemos en (5) y (6) que el modelo SARIMA de orden (2, 1, 2)(1, 0, 0)4 ,
con los coeficientes que aparecen en (7), proporciona mayor verosimilitud y menor AIC que
el ajustado anteriormente.
> seriefinal<-window(serie1, start=c(1978,1))
> library(forecast)
> resul2<-auto.arima(seriefinal)
> resul2
Series: seriefinal
ARIMA(2,1,2)(1,0,0)[4] with drift

(3)

(4)

Call: auto.arima(x = seriefinal)


Coefficients:
ar1
-1.5450
s.e.
0.1167

ar2
-0.9138
0.1072

ma1
1.3393
0.2129

sigma^2 estimated as 260302:


AIC = 688.06
AICc = 691.26
> tsdiag(resul2)

ma2
0.5982
0.2130

sar1
0.9903
0.0077

drift
580.3124
1520.2268

log likelihood = -337.03


BIC = 700.39

(7)

(5)
(6)
(8)

La Figura 3.8, obtenida ejecutando (8), muestra que el ajuste analizado como antes mediante el test de Ljung-Box es adecuado, como puede verse al observar para los 10 retardos
analizados, un p-valor significativamente mayor que 0 1.
El modelo ajustado es, por tanto el siguiente: los polinomios asociados ser
an,
p (L) = 1 + 1 545 L + 0 9138 L2
P (L4 ) = 1 0 9903 L4

q (L) = 1 + 1 3393 L + 0 5982 L2


Q (L4 ) = 1

por lo que la ecuaci


on [3.2] quedar
a igual a

(1 + 1 545 L + 0 9138 L2 )(1 0 9903 L4 )Zt = (1 + 1 3393 L + 0 5982 L2 )et

con Zt = 1 04 Yt = Yt Yt1 . Con lo que, haciendo operaciones, quedar


a,

Yt = 0 545 Yt1 + 0 6312 Yt2 + 0 9138 Yt3 + 0 9903 Yt4 + 0 5397 Yt5 0 6251 Yt6
0 9049 Yt7 + et + 1 3393 et1 + 0 5982 et2

79

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Standardized Residuals

1978

1980

1982

1984

1986

1988

Time

ACF

0.2 0.4

1.0

ACF of Residuals

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.8 : Gr
aficos diagn
osticos para el Ejemplo 3.1

3.3.4.

Predicci
on

Una vez que tenemos el modelo, la predicci


on consiste en sustituir los
valores precedentes de Yt en el modelo estimado. No obstante, es m
as sencillo
utilizar, como en TA, la funci
on
predict(x,n.ahead)

donde que incluiremos en x la serie estimada y en a.head los instantes futuros


en los que hacer la predicci
on.
Observamos que esta funci
on no es especfica de series temporales y que no
hace m
as que sustituir los coeficientes estimados en la expresi
on, como hace,
por ejemplo, en la regresi
on lineal. Es necesario, por tanto, tener cuidado con
lo que est
a prediciendo. Seguramente es m
as simple sustituir los retardos en
la expresi
on del modelo ajustado que utilizarla. Si la utilizamos puede dar
problemas si la serie x ha sido ajustada con la funci
on auto.arima. En estos
casos, debemos reajustar la serie con la funci
on arima si es que esta no da
problemas en el ajuste.
Es decir, si predict funciona bien con la serie obtenida con auto.arima
pues ya hemos terminado. Si da problemas, debemos utilizar la funci
on arima;

80

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

si esta funcion no da problemas, al resultado le aplicamos predict y ya hemos


terminado. Si arima da problemas y tenemos que diferenciar la serie antes de
utilizar arima, al resultado le podemos aplicar predict pero se lo estamos
aplicando a la serie diferenciada por lo que habr
a que integrar al final, una vez
obtenida las predicciones.
Ejemplo 3.1 (continuaci
on)
Como la seriefinal daba un buen ajuste, podemos hacer predicciones para los pr
oximos
dos a
nos. si sustituimos los valores que queremos predecir en la serie previamente ajustada,
obtendremos la estimaci
on deseada. Por ejemplo, si queremos predecir el valor de la serie en
el siguiente valor, es decir, en el primer cuatrimestre de 1989, observando los valores antes
ajustados a la serie1, haramos
Y19891

0 545 61798 + 0 6312 57850 + 0 9138 55477 + 0 9903 53990


+0 5397 58802 0 6251 54633 0 9049 52294 = 57259 7

Si queremos utilizar predict con la serie ajustada con auto.arima ejecutaramos (1) obteniendo los problemas que aparecen despues de ejecutar esta sentencia. Pasamos, por tanto,
a reajustar la serie con arima para el orden ya conocido, pero al ejecutar inicialmente arima
obtenemos errores por lo que diferenciamos eliminando el valor d = 1. Vemos, por fin, que
los coeficientes as estimados son pr
acticamente los mismos que obtuvimos m
as arriba con
la funci
on auto.arima
> predict(resul2)
Error en dim(data) <- dim : se intenta especificar un atributo en un NULL

(1)

> resul3<-arima(seriefinal,order=c(2,1,2),seasonal=list(order=c(1,0,0),period=4))
Error arima(seriefinal,order=c(2, 1, 2),seasonal=list(order=c(1, :non-stationary
seasonal AR part from CSS

> resul3<-arima(diff(seriefinal),order=c(2,0,2),seasonal=list(order=c(1,0,0),period=4))
> resul3
Series: diff(seriefinal)
ARIMA(2,0,2)(1,0,0)[4] with non-zero mean

Call: arima(x = diff(seriefinal), order = c(2, 0, 2), seasonal = list(order =


c(1,0, 0), period = 4))
Coefficients:
ar1
-1.5446
s.e.
0.1171

ar2
-0.9132
0.1078

ma1
1.3386
0.2133

sigma^2 estimated as 260380:


AIC = 688.06
AICc = 691.26

> predict(resul3,n.ahead=2*4)
$pred

ma2
0.5970
0.2133

sar1
0.9902
0.0077

intercept
596.4397
1518.6165

log likelihood = -337.03


BIC = 700.39

(2)

Qtr1
1989 -4827.372
1990 -4767.439
$se

81

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales
Qtr2
1576.267
1511.940

Qtr3
2266.592
2328.489

Qtr4
4141.662
4036.291

(3)

Qtr1
Qtr2
Qtr3
Qtr4
1989 510.2747 520.9945 520.9956 529.4738
1990 639.4553 640.4883 645.7074 652.4197

Ahora obtenemos las predicciones finalmente ejecutando (2). Pero observese que se obtienen
las predicciones para la serie diferenciada. Es decir, en (3) obtenemos que es, por ejemplo,
Z19891 = 4827 372 ; es decir, que es Y19891 Y19884 = 4827 372 , o bien,
Y19891 = Y19884 4827 372 = 61978 4827 372 = 57150 628

que sera el valor que se obtendra analticamente con el modelo ajustado por la funci
on
arima, de la misma manera a como hicimos m
as arriba.

3.3.5.

Test de serie estacionaria

Como dijimos al comienzo de esta secci


on, los modelos SARIMA se aplican
a series estacionarias. Por ello, antes de tratar de identificar y estimar el modelo
a ajustar y para luego diagnosticar si es adecuado o no, es conveniente analizar
si la serie es estacionaria, posiblemente despues de diferenciarla.
Una serie temporal se considera estacionaria si las races de la ecuaci
on
caracterstica [3.1] son todas mayores que 1 en valor absoluto. En el caso de
un modelo AR(1) esta ecuaci
on sera
p (L) = 1 1 L = 0

que proporciona un valor L = 1/1 . Si esta raz es mayor que 1, la serie


se considera estacionaria. Por consiguiente, un modelo AR(1) se considera
estacionario si |1 | < 1. Si es igual a 1, llamamos a esta raz, unit root. Existen
tests para detectar (y luego eliminar) las unit root. Los dos m
as habituales son
el de Dickey-Fuller y el de Phillips-Perron (1988). Este u
ltimo, que utilizaremos
aqu, se ejecuta con la funci
on PP.test.
Ejemplo 3.1 (continuaci
on)
Anteriormente diferenciamos la serie temporal de datos observados para obtener la serie12
que parece estacionaria. Para contratar la hip
otesis nula de que serie tiene una unit root frente
a la hip
otesis alternativa de que la serie es estacionaria, ejecutamos (1), concluyendo a la
vista del p-valor tan peque
no obtenido en (2) que la serie s puede considerarse estacionaria.
> PP.test(serie12)

(1)

82

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada


Phillips-Perron Unit Root Test

data: serie12
Dickey-Fuller = -13.2695, Truncation lag parameter = 4, p-value = 0.01
(2)

3.3.6.

Ejemplos

Una vez analizados los elementos b


asicos de una An
alisis con los Modelos
ARIMA, parece indicado resolver unos cuantos ejemplos.

Pasos a seguir en una modelizaci


on ARIMA
Recapitulando, podemos resumir los pasos a dar en este tipo de An
alisis.
1) Primero debemos incorporar los datos a R. 2) Luego representaremos la
serie con la funci
on plot, lo que nos dar
a una idea de su forma. Como los
modelos SARIMA se ajustan a series estacionarias, antes de probar con varios modelos y no encontrar uno que se ajuste bien, debemos desestacionalizar
la serie. Un paso previo es que sea homoced
astica para lo que, si no lo es, 3)
transformaremos los datos con alguna transformaci
on Box-Cox, habitualmente
el logaritmo. Ya la tenemos con varianza constante. Adem
as, la verosimilitud
ser
a una medida valiosa en la validacion del modelo ARIMA ajustado y esta
est
a basada en la normalidad de las Variaciones Residuales, es decir, de los residuos et . Por ello, 4) debemos analizar la normalidad de los residuos, primero
con stl para obtenerlos y luego con un histograma y, por ejemplo, el test de
Kolmogorov-Smirnov para comprobarlo, obtenido este u
ltimo con la funci
on
ks.test.
Para que sea estacionaria, si no lo es, 5) debemos diferenciarla, con la
funci
on diff. A continuaci
on, 6) chequeamos si ya es estacionaria con el test
de Phillips-Perron mediante la funci
on PP.test. Ahora que ya tenemos la
serie estacionaria, 7) representamos las funciones ACF y PACF mediante acf
y pacf para identificar al modelo ARMA a aplicar a la serie estacionaria
as obtenida. 8) Con la funci
on arima estimamos los par
ametros del modelo.
9) Con la funci
on tsdiag diagnosticamos si el ajuste es adecuado y, finalmente,
si lo deseamos, 10) podemos hacer predicciones con la funci
on predict.
Si no hacemos los pasos 3), 5) y 6) al tratar identificar el modelo ARIMA
en 7), no tendremos gr
aficos claros y sobre todo, en 9) rechazaremos el modelo
propuesto.
Alternativamente a los pasos 5) a 8) podemos ejecutar la funci
on auto.arima
que dar
a un ajuste r
apido del modelo SARIMA.

83

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Ejemplo 3.3
Los siguientes datos (Diggle, 1990) corresponden, respectivamente, a Hombres y Mujeres
fallecidos mensualmente por enfermedades comunes de la garganta (bronquitis, enfisema y
asma) en el Reino Unido desde 1974 a 1979. La serie31 corresponde a los Hombres y la
serie32 a las Mujeres.

> serie31<-ts(scan("d:\\datos\\MUERTESGargantaHOMBRES"),start=c(1974,1),frequency=12)
> serie32<-ts(scan("d:\\datos\\MUERTESGargantaMUJERES"),start=c(1974,1),frequency=12)
La serie suma de ambas ser
a la siguiente,
> serie3<-serie31+serie32
> serie3
Jan Feb Mar Apr May
1974 3035 2552 2704 2554 2014
1975 2933 2889 2938 2497 1870
1976 2787 3891 3179 2011 1636
1977 3102 2294 2385 2444 1748
1978 2815 3137 2679 1969 1870
1979 3084 2605 2573 2143 1693

Jun
1655
1726
1580
1554
1633
1504

Jul
1721
1607
1489
1498
1529
1461

Aug
1524
1545
1300
1361
1366
1354

Sep
1596
1396
1356
1346
1357
1333

Oct
2074
1787
1653
1564
1570
1492

Nov
2199
2076
2013
1640
1535
1781

Dec
2512
2837
2823
2293
2491
1915

Primero vamos a representar esta serie y adem


as analizar si las Variaciones Residuales siguen
aproximadamente una distribuci
on normal ya que todos los resultados que consideran la
verosimilitud, est
an suponiendo una distribuci
on normal para estos residuos. La funci
on stl
descompone la serie cronol
ogica.
Por tanto, ejecutamos la siguiente secuencia para obtener la Figura 3.9
>
>
>
>
>

muertes<-stl(serie3,"periodic")
residual<-muertes$time.series[,3]
par(mfrow=c(1,2))
plot(serie3)
hist(residual)

En el gr
afico de la izquierda parece apreciarse homocedasticidad en los datos. En el de la
derecha parece que los residuos pueden considerarse normales. Para confirmar esta normalidad ejecutamos el test de Kolmogorov-Smirnov (vease EAR). El p-valor del test, dado en
(1), de valor 0 4858, es lo suficientemente grande como para aceptar la normalidad de los
residuos.
> ks.test(residual,"pnorm",mean(residual),sd(residual))
One-sample Kolmogorov-Smirnov test
data: residual
D = 0.0964, p-value = 0.4858
alternative hypothesis: two-sided

(1)

Para evitar tener que realizar los pasos 5) a 8), podemos ejecutar (2) y (3), observando en
la Figura 3.10 que los p-valores del test de Ljung-Box son lo suficientemente grandes como
para aceptar el modelo SARIMA de orden (2, 0, 0) (2, 0, 0)12 obtenido.

84

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

25
20
15
0

1500

10

Frequency

2500
2000

serie3

3000

3500

30

Histogram of residual

1974

1976

1978

1980

500

Time

500

1000

residual

Figura 3.9 : Serie Temporal e Histograma de Residuos del Ejemplo 3.3

> library(forecast)
> resul3<-auto.arima(serie3)
> resul3
Series: serie3
ARIMA(2,0,0)(2,0,0)[12] with non-zero mean

(2)

Call: auto.arima(x = serie3)


Coefficients:
ar1
ar2
0.5388 -0.1903
s.e. 0.1652
0.1276

sar1
0.2956
0.1038

sar2
0.5243
0.1013

intercept
2062.7889
148.7027

sigma^2 estimated as 76593: log likelihood = -513.96


AIC = 1039.93
AICc = 1041.22
BIC = 1053.59
> tsdiag(resul3)

Este modelo sera el siguiente: los polinomios asociados ser


an,
p (L) = 1 0 5388 L + 0 1903 L2

P (Ls ) = 1 0 2956 L12 0 5243 L24


q (L) = 1

(3)

85

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Standardized Residuals

1974

1975

1976

1977

1978

1979

1980

Time

0.4
0.2

ACF

1.0

ACF of Residuals

0.0

0.5

1.0

1.5

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.10 : Gr
aficos de diagn
ostico para el Ejemplo 3.3

Q (Ls ) = 1

y la ecuaci
on [3.2]

(1 0 5388 L + 0 1903 L2 )(1 0 2956 L12 0 5243 L24 )Zt = et

siendo Zt = (Yt ) = (Yt 2062 7889) , ya que, al no haber integraci


on ni en la parte
estacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,
nos queda como modelo para la serie observada,
Yt = 241 9651 + 0 5388 Yt1 0 1903 Yt2 + 0 2956 Yt12 0 1593 Yt13 + 0 0563 Yt14 +
+0 5243 Yt24 0 2825 Yt25 + 0 0998 Yt26 + et .

Si queremos predecir, por ejemplo, los fallecidos que se estiman en Enero de 1980, observando
los valores de los retardos en la serie3, ser
an
Y19801 = 241 9651 + 0 5388 1915 0 1903 1781 + 0 2956 3084 0 1593 2491 + 0 0563 1535+
+0 5243 2815 0 2825 2293 + 0 0998 1640 = 2527 881

Las predicciones son m


as f
aciles de hacer ejecutando (4). Se ve que la primera predicci
on
coincide con la que acabamos de realizar analticamente, salvo los redondeos en las u
ltimas
cifras decimales.

86

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

> predict(resul3,n.ahead=2*12)
$pred
Jan
Feb
Mar
1980 2527.899 2736.875 2554.025
1981 2735.635 2546.277 2475.459
Sep
Oct
Nov
1980 1476.943 1635.797 1702.863
1981 1507.039 1637.346 1808.679
$se

Mar
315.5808
329.6141
Nov
316.1447
329.6613

Apr
May
Jun
Jul
Aug
2056.079 1859.218 1672.406 1603.838 1487.315
2102.857 1808.757 1654.458 1611.649 1521.113
Dec
2243.621
2038.756

Apr
May
Jun
Jul
Aug
315.8676 316.1155 316.1431 316.1432 316.1443
329.6381 329.6588 329.6612 329.6612 329.6613
Dec
316.1447
329.6613

serie3

1500

2000

2500

3000

3500

Jan
Feb
1980 276.7539 314.3647
1981 326.5521 329.5125
Sep
Oct
1980 316.1447 316.1447
1981 329.6613 329.6613

(4)

1974

1976

1978

1980

1982

Time

Figura 3.11 : Serie y Predicciones del Ejemplo 3.3

Lo bueno de obtener las predicciones con R no es s


olo que se simplifican los c
alculos sino
que, adem
as, podemos representarlas f
acilmente, obteniendo la Figura 3.11. Para ello primero
le decimos, en (5), que represente la serie de datos observados ampliando, con el segundo
argumento, el rango de las abscisas hasta 1983. En (6) le decimos que a
nada el gr
afico de
las predicciones, en rojo con el argumento col=2, y con un trazo un poco m
as grueso, con el
u
ltimo argumento lwd=2.
> plot(serie3,xlim=c(1974,1983))
> lines(predict(resul3,n.ahead=4*12)$pred,col=2,lwd=2)

(5)
(6)

87

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Ejemplo 3.4
Unos datos que contiene R con el nombre nottem, son las temperaturas medias mensuales
en Nottingham Castle (Nottingham, Inglaterra) en grados Fahrenheit desde Enero de 1920
hasta Diciembre de 1939.
> nottem
Jan
1920 40.6
1921 44.2
1922 37.5
1923 41.8
1924 39.3
1925 40.0
1926 39.2
1927 39.4
1928 40.8
1929 34.8
1930 41.6
1931 37.1
1932 42.4
1933 36.2
1934 39.4
1935 40.0
1936 37.3
1937 40.8
1938 42.1
1939 39.4

Feb
40.8
39.8
38.7
40.1
37.5
40.5
43.4
38.5
41.1
31.3
37.1
38.4
38.4
39.3
38.2
42.6
35.0
41.0
41.2
40.9

Mar
44.4
45.1
39.5
42.9
38.3
40.8
43.4
45.3
42.8
41.0
41.2
38.4
40.3
44.5
40.4
43.5
44.0
38.4
47.3
42.4

Apr
46.7
47.0
42.1
45.8
45.5
45.1
48.9
47.1
47.3
43.9
46.9
46.5
44.6
48.7
46.9
47.1
43.9
47.4
46.6
47.8

May
54.1
54.1
55.7
49.2
53.2
53.8
50.6
51.7
50.9
53.1
51.2
53.5
50.9
54.2
53.4
50.0
52.7
54.1
52.4
52.4

Jun
58.5
58.7
57.8
52.7
57.7
59.4
56.8
55.0
56.4
56.9
60.4
58.4
57.0
60.8
59.6
60.5
58.6
58.6
59.0
58.0

Jul
57.7
66.3
56.8
64.2
60.8
63.5
62.5
60.4
62.2
62.5
60.1
60.6
62.1
65.5
66.5
64.6
60.0
61.4
59.6
60.7

Aug
56.4
59.9
54.3
59.6
58.2
61.0
62.0
60.5
60.5
60.3
61.6
58.2
63.5
64.9
60.4
64.0
61.1
61.8
60.4
61.8

Sep
54.3
57.0
54.3
54.4
56.4
53.0
57.5
54.7
55.4
59.8
57.0
53.8
56.3
60.1
59.2
56.8
58.1
56.3
57.0
58.2

Oct
50.5
54.2
47.1
49.2
49.8
50.0
46.7
50.3
50.2
49.2
50.9
46.6
47.3
50.2
51.2
48.6
49.6
50.9
50.7
46.7

Nov
42.9
39.7
41.8
36.3
44.4
38.1
41.6
42.3
43.0
42.9
43.0
45.5
43.6
42.1
42.8
44.2
41.6
41.4
47.8
46.6

Dec
39.8
42.8
41.7
37.6
43.6
36.3
39.8
35.2
37.3
41.9
38.8
40.6
41.8
35.8
45.8
36.4
41.3
37.1
39.2
37.8

Vamos a utilizar la serie desde 1920 hasta 1936 para predecir los tres u
ltimos a
nos y compararlos con los observados. Para ello, primero los extraemos ejecutando (1). Con (2) y (3)
extraemos las Variaciones Residuales.
>
>
>
>
>
>

serie4<-window(nottem, end=c(1936,12))
temperaturas<-stl(serie4,"periodic")
residual<-temperaturas$time.series[,3]
par(mfrow=c(1,2))
plot(serie4)
hist(residual)

> ks.test(residual,"pnorm",mean(residual),sd(residual))

(1)
(2)
(3)
(4)
(5)

(6)

One-sample Kolmogorov-Smirnov test


data: residual
D = 0.045, p-value = 0.803
(7)
alternative hypothesis: two-sided

La representaci
on gr
afica de la serie, obtenida ejecutando (4) y que aparece a la izquierda
de la Figura 3.12, muestra claramente un serie estacional (como era de esperar por el tipo

88

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

40
20
0

10

Frequency

50
30

35

40

45

serie4

55

30

60

65

Histogram of residual

1920

1925

1930

1935

Time

residual

Figura 3.12 : Serie e Histograma de residuos del Ejemplo 3.4

de datos considerados). El histograma de la derecha de esta figura, obtenido ejecutando (5),


parece mostrar una distribuci
on normal en los residuos. Para comprobarlo estadsticamente,
realizamos el test de Kolmogorov-Smirnov ejecutando (6). El p-valor que aparece en (7)
es lo suficientemente alto, 0 803, como para confirmar la aceptaci
on de la hip
otesis nula de
normalidad de los datos.
Una cuesti
on que habamos comentado anteriormente es la de conseguir homocedasticidad
en los datos en el sentido de que, agrupando todos los valores de la serie por meses, o cuatrimestres o, en general, por ciclo que estemos considerando, la varianza en cada uno de esos
grupos se mantenga constante. En este ejemplo lo hacemos ejecutando la siguiente sentencia
en donde le pedimos que nos haga diagramas de cajas para cada mes, obteniendo la Figura
3.13. Se observa en esta figura que puede admitirse la hip
otesis de homocedasticidad. Si no
fuera as, deberamos de aplicar transformaciones de Box-Cox a los datos hasta conseguirla,
o utilizar los modelos ARCH o GARCH que veremos m
as adelante.

> boxplot(split(serie4,cycle(serie4)),names=month.abb)

Podemos pasar, por tanto, a ajustar y analizar un modelo SARIMA para los datos. Para ello
ejecutamos (8) y (9).
> library(forecast)
> resul4<-auto.arima(serie4)
> resul4
Series: serie4

(8)

89

30

35

40

45

50

55

60

65

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Jan

Feb

Mar

Apr

May

Jun

Jul

Aug

Sep

Oct

Nov

Dec

Figura 3.13 : Gr
aficos de dispersi
on de la Serie del Ejemplo 3.4

ARIMA(1,0,0)(2,0,0)[12] with non-zero mean


Call: auto.arima(x = serie4)
Coefficients:
ar1
sar1
0.3796 0.2826
s.e. 0.0695 0.0520

sar2
0.6638
0.0528

intercept
49.2636
2.4656

sigma^2 estimated as 6.22: log likelihood = -490.31


AIC = 990.61
AICc = 990.92
BIC = 1007.2
> tsdiag(resul4)

(9)

Los p-valores del tercer gr


afico de la Figura 3.14 son lo suficientemente altos como para
confirmar la bondad del ajuste del modelo SARIMA de orden (1, 0, 0) (2, 0, 0)12 efectuado.
Los polinomios asociados a este modelo son
p (L) = 1 0 3796 L

P (Ls ) = 1 0 2826 L12 0 6638 L24


q (L) = 1

Q (Ls ) = 1

y la ecuaci
on [3.2]

(1 0 3796 L)(1 0 2826 L12 0 6638 L24 )Zt = et

90

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Standardized Residuals

1920

1925

1930

1935

Time

0.6
0.0

ACF

ACF of Residuals

0.0

0.5

1.0

1.5

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.14 : Gr
aficos de diagn
ostico del Ejemplo 3.4

siendo Zt = (Yt ) = (Yt 49 2636) , ya que, al no haber integraci


on ni en la parte
estacionaria ni en la no estacionaria (d = D = 0), debemos considerar la media. Por tanto,
nos queda como modelo para la serie observada,
(1 0 2826 L12 0 6638 L24 0 3796 L + 0 1073 L13 + 0 252 L25 )(Yt 49 2636) = et
es decir,

Yt = 1 6405 + 0 3796 Yt1 + 0 2826 Yt12 0 1073 Yt13 + 0 6638 Yt24 0 252 Yt25 + et .

Si queremos predecir con este modelo ajustado, por ejemplo, las temperaturas en Enero de
1937, observando los valores de los retardos en la serie4, ser
a
Y19371 = 1 6405 + 0 3796 41 3 + 0 2826 37 3 0 1073 36 4 + 0 6638 40 0 252 45 8 = 38 96
Como en el ejemplo anterior, es m
as sencillo utilizar la funci
on predict. Para obtener las
predicciones de los tres a
nos no considerados al comienzo del ejemplo, ejecutamos (10).
(Observese c
omo obtenemos la misma predicci
on que la calculada analticamente.)
La obtenci
on del gr
afico de la serie completa observada y la sobre-impresi
on de la estimada
en los tres u
ltimos a
nos (Figura 3.15) la obtenemos ejecutando (11) y (12), apreci
andose
un buen ajuste.
> predict(resul4,n.ahead=3*12)$pred

(10)

91

50
30

35

40

45

nottem

55

60

65

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

1920

1925

1930

1935

1940

Time

Figura 3.15 : Serie observada y predicci


on en el Ejemplo 3.4

Jan
Feb
Mar
1937 38.96297 40.51673 43.83906
1938 38.41083 37.32316 44.23648
1939 39.35871 40.08274 44.24196
Sep
Oct
Nov
1937 56.76335 48.91803 43.73641
1938 57.24890 49.38925 42.61430
1939 56.49883 49.06972 43.71537

Apr
May
Jun
Jul
Aug
46.26941 50.70761 59.35506 62.47614 62.39015
44.85694 51.95285 58.31326 60.12466 60.83056
46.03062 50.98218 58.52005 61.10382 61.24623
Dec
38.47386
40.92789
39.74538

> plot(nottem)
> lines(predict(resul4,n.ahead=3*12)$pred,col=2,lwd=2)

3.4.

(11)
(12)

Cointegraci
on

En ocasiones ocurre que dos series cronol


ogicas parecen tener un comportamiento muy semejante; es decir, que parecen estar relacionadas la una
con la otra. Por ejemplo, cuando representamos la cantidad de lluvia cada
en dos ciudades, los picos y los valles de ambas series parecen coincidir. Esta
dependencia es recproca y es debida a su car
acter estacional.
Por otro lado, aunque eliminemos las variaciones estacionales de una serie,
en ocasiones seguimos apreciando esta dependencia. Por ejemplo, podemos
observar que los mercados financieros dependen fuertemente unos de otros.

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

92

Podramos decir, adem


as, que esta dependencia no es recproca ya que las
Bolsas del mundo suelen replicar el comportamiento de la Bolsa americana.
Esta dependencia de las componentes no estacionarias de dos series se
denomina cointegraci
on. Para analizarla, R proporciona el test de Phillips y
Ouliaris (1990) para contrastar la hip
otesis nula de no cointegraci
on (es decir,
de no dependencia) entre las series univariantes de una serie multivariante
dada, mediante la funci
on, del paquete tseries,
po.test(x)

en donde x debe ser una serie multivariante; es decir, un objeto creado por la
funci
on ts, en donde haya al menos dos series univariantes.
Aunque el concepto de dependencia/independencia es recproco, de hecho,
el test de Phillips y Ouliaris supone un regresi
on de la primera serie del vector
x (consider
andola dependiente) sobre el resto de las series del vector de series.
Ejemplo 3.3 (continuaci
on)
Primero vamos a crear la serie bidimensional MuertesGarganta cuyas componentes son las
series unidimensionales correspondientes a los hombres y mujeres ejecutando la siguiente
secuencia de instrucciones,
> nueva<-matrix(c(serie31,serie32),ncol=2)
> MuertesGarganta<-ts(nueva,start=c(1974,1),frequency=12)
> MuertesGarganta
Series 1 Series 2
Jan 1974
2134
901
Feb 1974
1863
689
Mar 1974
1877
827
Apr 1974
1877
677
May 1974
1492
522
Jun 1974
1249
406
Jul 1974
1280
441
Aug 1974
1131
393
Sep 1974
1209
387
Oct 1974
1492
582
Nov 1974
1621
578
Dec 1974
1846
666
Jan 1975
2103
830
Feb 1975
2137
752
Mar 1975
2153
785
Apr 1975
1833
664
May 1975
1403
467
Jun 1975
1288
438
Jul 1975
1186
421
Aug 1975
1133
412
Sep 1975
1053
343
Oct 1975
1347
440

Nov
Dec
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct
Nov
Dec
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct
Nov
Dec
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct
Nov
Dec
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct
Nov
Dec

1975
1975
1976
1976
1976
1976
1976
1976
1976
1976
1976
1976
1976
1976
1977
1977
1977
1977
1977
1977
1977
1977
1977
1977
1977
1977
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979

93

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales
1545
2066
2020
2750
2283
1479
1189
1160
1113
970
999
1208
1467
2059
2240
1634
1722
1801
1246
1162
1087
1013
959
1179
1229
1655
2019
2284
1942
1423
1340
1187
1098
1004
970
1140
1110
1812
2263
1820
1846
1531
1215
1075
1056
975
940
1081
1294
1341

531
771
767
1141
896
532
447
420
376
330
357
445
546
764
862
660
663
643
502
392
411
348
387
385
411
638
796
853
737
546
530
446
431
362
387
430
425
679
821
785
727
612
478
429
405
379
393
411
487
574

El test de Phillips-Ouliaris para contrastar la hip


otesis nula H0 : No existe cointegraci
on

94

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

entre las series de muertes por enfermedades de garganta de hombres y mujeres, es decir,
de la hip
otesis nula H0 : No existe dependencia entre las series de muertes por enfermedades
de garganta de hombres y mujeres, se realiza ejecutando (1), despues de abrir la librera
tseries. En (2) se observa un p-valor muy peque
no (de hecho nos dice que es incluso
menor), lo que indica rechazar la hip
otesis nula de que no hay dependencia y concluir con la
alternativa de que s hay dependencia.
> library(tseries)
> po.test(MuertesGarganta)

(1)

Phillips-Ouliaris Cointegration Test

data: MuertesGarganta
Phillips-Ouliaris demeaned = -58.9757, Truncation lag parameter = 0,
p-value = 0.01

(2)

Warning message:
In po.test(MuertesGarganta) : p-value smaller than printed p-value

Como dijimos m
as arriba, este test no trata ambas series de igual manera por lo que deberamos contrastar tambien si es significativa la regresi
on de la segunda serie sobre la
primera, ejecutando (3). El p-valor obtenido en (4) confirma la conclusi
on anterior.
> po.test(MuertesGarganta[,2:1])

(3)

Phillips-Ouliaris Cointegration Test

data: MuertesGarganta[, 2:1]


Phillips-Ouliaris demeaned = -61.064, Truncation lag parameter = 0,
p-value = 0.01

(4)

Warning message:
In po.test(MuertesGarganta[, 2:1]) : p-value smaller than printed p-value

3.5.

Modelos ARCH y GARCH

Muchas series cronol


ogicas, en especial las financieras, no se ajustan bien
por modelos ARIMA porque no son homoced
asticas (ni se pueden transformar
para que lo sean) sino que la varianza depende de varianzas e instantes pasados,
y al tratar de ajustarla un modelo ARIMA obtenemos como mejor ajuste un
ARIMA(0, d, 0), es decir, despues de diferenciarla d veces, un ARIMA(0,0,0),
un ruido blanco. Si al representarla vemos que la varianza (volatilidad) vara
con el tiempo, entonces puede ser adecuado ajustar un modelo ARCH o, en
general, un modelo GARCH.
En los modelos ARCH, introducidos por Engle (1982), suponemos que es

95

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Yt = t et

2
2
t2 = 0 + 1 Yt1
+ ... + p Ytp
.

Una generalizaci
on de esta clase de modelos son los modelos GARCH(p, q)
(debidos a Bollerslev, 1986 y Taylor, 1986) en donde se supone que es
Yt = t et

t2 = 0 +

p
X
i=1

2
i Yti
+

q
X

2
j tj
.

j=1

P
Estos modelos son estacionarios si 0 > 0 y
i + j 1.
Entre ellos, el m
as popular es el modelo GARCH(1,1) con errores normales,
es decir, una serie en donde
Yt = t et

et ; N (0, 1)

i.i.d.

2
2
t2 = 0 + 1 Yt1
+ 1 t1

con 0 , 1 > 0, 1 0.

Ejemplo 3.5
En Bollerslev y Ghysels (1996) aparecen los datos de la tasa de cambio entre el Marco alem
an
y la Libra esterlina desde 3 de Enero de 1984 hasta el 31 de Diciembre de 1991. Estos datos
pueden incorporarse a R ejecutando (1)
> MarcoLibra<-ts(scan("d:\\datos\\MarcoLibra"))

(1)

Si tratamos de ajustar un modelo ARIMA a estos datos ejecutando (2), vemos que el resultado es un ARIMA(0,0,0), es decir, un ruido blanco y adem
as, ejecutando (3), que el test
de Ljung-Box lo confirma como vemos en el tercer gr
afico de la Figura 3.16.
> library(forecast)
> resul5<-auto.arima(MarcoLibra)
> resul5
Series: MarcoLibra
ARIMA(0,0,0) with non-zero mean

Call: auto.arima(x = MarcoLibra)


Coefficients:

(2)

96

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Standardized Residuals

500

1000

1500

2000

Time

0.6
0.0

ACF

ACF of Residuals

10

15

20

25

30

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.16 : An
alisis del ajuste en el Ejemplo 3.5

s.e.

intercept
-0.0164
0.0106

sigma^2 estimated as 0.221: log likelihood = -1311.1


AIC = 2626.19
AICc = 2626.2
BIC = 2637.37
> tsdiag(resul5)

(3)

Sin embargo, si ejecutamos la siguiente secuencia, vemos en el u


ltimo dibujo de la Figura
3.17 que el test de Ljung-Box (dibujado con 50 retardos) es altamente significativo
> resul6<-auto.arima(MarcoLibra^2)
> tsdiag(resul6,gof.lag=50)

lo que sugiere ajustar un modelo GARCH.

Para ajustar un modelo ARCH o, en general, GARCH utilizaremos la


funci
on de la librera tseries

garch(x,order=c(1,1),grad,trace)

97

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

10

20

Standardized Residuals

500

1000

1500

2000

Time

0.6
0.0

ACF

ACF of Residuals

10

15

20

25

30

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

20

30

40

50

lag

Figura 3.17 : An
alisis del ajuste de los cuadrados del Ejemplo 3.5

en donde x es la serie a ajustar; order=c(p,q) es el orden del modelo GARCH(p, q)


a ajustar; p corresponde a la parte GARCH y q a la parte ARCH; es decir, si se
quiere ajustar un ARCH(3) ejecutaramos order=c(0,3). Por defecto ajusta
un GARCH(1,1).
grad es un argumento opcional con el que indicar el metodo de optimizaci
on utilizado en la estimaci
on de los par
ametros, analytical (tomado por
defecto) o numerical. Nosotros recomendamos este segundo, numerico.
trace es otro argumento opcional que nos da detalles (grade=T) o no
(grade=F) del proceso de optimizaci
on. Por defecto nos los da aunque por
brevedad en los resultados es preferible que no nos los de.
Como resultado de ejecutar esta funci
on, en conjunci
on con summary, obtenemos, entre otras cosas, los valores de los estimadores de los coeficientes del
modelo, junto con el correspondiente p-valor del test que tiene como hip
otesis
nula su igualdad a cero, es decir, el no ser significativo.
Adem
as se obtiene el test de Jarque-Bera de bondad del ajuste de los
residuos a la normalidad, basado en los coeficientes de asimetra y curtosis
muestrales. La hip
otesis nula es que los residuos se distribuyen seg
un una
normal y el estadstico de este test sigue una distribuci
on asint
otica 22 .
El otro test que se obtiene tambien es de nuevo el test de Box-Ljung donde
la hip
otesis nula es la independencia.

98

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Ejemplo 3.5 (continuaci


on)
Si queremos ajustar y valorar el tradicional modelo GARCH(1,1) a estos datos, ejecutaramos
(1). En (2) obtenemos los estimadores de los coeficientes del modelo, as como sus p-valores,
que sugieren que todos los coeficientes son v
alidos y que el modelo
Y t = t e t

con

2
2
t2 = 0 010867 + 0 154604 Yt1
+ 0 80442 t1

es adecuado.

> summary(garch(MarcoLibra,grad="numerical",trace=F))

(1)

Call:
garch(x = MarcoLibra, grad = "numerical", trace = F)
Model:
GARCH(1,1)

Residuals:
Min
1Q
Median
-6.797391 -0.537032 -0.002637

3Q
0.552327

Max
5.248671

Coefficient(s):
Estimate Std. Error t value Pr(>|t|)
a0 0.010867
0.001297
8.376
<2e-16 ***
a1 0.154604
0.013882
11.137
<2e-16 ***
b1 0.804420
0.016046
50.133
<2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(2)

Diagnostic Tests:
Jarque Bera Test

data: Residuals
X-squared = 1060.012, df = 2, p-value < 2.2e-16

(4)

Box-Ljung test

data: Squared.Residuals
X-squared = 2.4776, df = 1, p-value = 0.1155

(3)

El test de Box-Ljung de p-valor 0 1155, dado en (3), sugiere que se puede aceptar la independencia de los residuos et . No obstante, la normalidad de estos es rechazada en (4) con
el test de Jarque-Bera.

Como la normalidad de los residuos es una de las suposiciones necesarias


para utilizar un modelo GARCH, si no se cumple, ser
a necesario utilizar otras

99

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

funciones de R que nos permitan probar con otras distribuciones para los
residuos. En concreto, podemos utilizar la funci
on del m
odulo fGrach

garchFit(formula,x,skew=1,shape=4,cond.dist="norm",trace)

en donde x ser
a la serie temporal a ajustar. En formula debemos especificar
el modelo GARCH(p, q) a ajustar mediante la sentencia
formula=~garch(p,q)

Finalmente, el argumento cond.dist nos permite elegir un modelo para


los residuos. Los argumentos skew y shape pueden ser utilizados para fijar
los par
ametros de la distribuci
on modelo de los residuos. Para esta podemos
elegir entre
norm = considera una N (0, 1), es decir, la densidad de R, dnorm(x)

snorm = considera una distribuci


on normal asimetrica con coeficiente de
asimetra el fijado en skew, es decir, la densidad dsnorm(x, mean = 0,
sd = 1, xi = skew).
ged = considera una distribuci
on de error generalizada simetrica con
coeficiente dado en shape; es decir, la densidad dged(x, mean = 0, sd
= 1, nu = shape).

sged = considera una distribuci


on de error generalizada asimetrica con
coeficiente dado en shape y coeficiente de asimetra el dado en skew;
es decir, la densidad dsged(x, mean = 0, sd = 1, nu = shape, xi =
skew).
std = considera una distribuci
on t-Student estandarizada simetrica con
coeficiente dado en shape; es decir, la densidad dstd(x, mean = 0, sd
= 1, nu = shape).

sstd = considera una distribuci


on t-Student estandarizada asimetrica
con coeficiente dado en shape y coeficiente de asimetra el dado en skew;
es decir, la densidad dsstd(x, mean = 0, sd = 1, nu = shape, xi =
skew).
Ejemplo 3.5 (continuaci
on)
Si queremos obtener los mismos resultados que con la funci
on garch ejecutaramos,

> summary(garchFit(formula=~garch(1,1),MarcoLibra,cond.dist="norm",trace=F))

100

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Variando las distribuciones y sus par


ametros de los residuos podemos obtener un mejor
ajuste.

3.6.

Ejemplos de series climatol


ogicas

Una vez finalizado el estudio fundamental de las series temporales, hemos


pensado que sera bueno concluir el captulo con un an
alisis de series climatol
ogicas reales, tema de gran actualidad.
Ejemplo 3.6
Consideremos los datos (Jones, 1994; Parker et al., 1994, 1995) de promedios de desviaciones
de temperaturas globales de la tierra y del aire desde 1856 hasta 1997 en grados centgrados,
los cuales podemos incorporar a R ejecutando (1). Si representamos estos datos ejecutando
(2), vemos que hay una tendencia creciente, especialmente en los u
ltimos a
nos
(1)
(2)

0.0
0.4

0.2

temp

0.2

0.4

> temp<-ts(scan("d:\\datos\\globtemp.dat"),start=1856,frequency=1)
> plot(temp)

1860

1880

1900

1920

1940

1960

1980

2000

Time

Figura 3.18 : Serie de temperaturas globales con tendencia

Si modelizamos esta serie de la forma

Yt = t + et

siendo t = a+b t la tendencia lineal y et una serie estacionaria, podemos conseguir una serie
estacionaria restando a los valores observados la tendencia estimada por mnimos cuadrados
obteniendo as lo que se denomina una serie sin tendencia detrended,

101

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Yt t

o, como vimos, diferenciando la serie un retardo, al tener una tendencia lineal,


Yt Yt1

obteniendo lo que se denomina serie diferenciada.


Si, siguiendo la primera posibilidad, ajustamos una recta por mnimos cuadrados a los 142
datos observados ejecutando la siguiente secuencia de sentencias, recta que denominamos
tendencia y que sobre-impresionamos en el gr
afico con la u
ltima instrucci
on.
> tiempos<-seq(1856,1997,len=142)
> tendencia<-lm(temp~tiempos)
> abline(tendencia)

La ecuaci
on de la Tendencia se obtiene ejecutando
> tendencia

Call:
lm(formula = temp ~ tiempos)

0.3

0.2

0.1

0.0

0.1

0.2

0.3

tiempos
0.004168

W_t2

0.0
0.1
0.2
0.3
0.4

W_t1

0.1

0.2

0.3

Coefficients:
(Intercept)
-8.187096

1860

1900

1940

Time

1980

1860

1900

1940

Time

Figura 3.19 : Series detrended y diferenciada

1980

102

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

que indica un recta de ecuaci


on t = 8 1871 + 0 0042 t, es decir, con pendiente positiva, lo
que indica un calentamiento global. La serie sin la tendencia ajustada por mnimos cuadrados
(serie detrended) ser
a, por tanto,
Wt1 = Yt t = Yt + 8 1871 0 0042 t

obtenida con R ejecutando

> W_t1 <- temp + 8.1871 - 0.0042 * tiempos

de representaci
on la parte izquierda de la Figura 3.19, que no parece una serie muy estacionaria.
Si por contra diferenciamos la serie dada calculando la serie diferenciada

obtenida con R ejecutando

Wt2 = Yt Yt1

> W_t2 <- diff(temp)

de representaci
on la parte derecha de la Figura 3.19, tenemos lo que s parece una serie
estacionaria. La Figura 3.19 la obtenemos ejecutando
> par(mfrow=c(1,2))
> plot(W_t1)
> plot(W_t2)

De hecho, si representamos en la Figura 3.20 las funciones de autocorrelaci


on ACF de ambas
series con la siguiente secuencia,
> par(mfrow=c(1,2))
> acf(W_t1)
> acf(W_t2)

vemos en la gr
afica de la izquierda que la serie Wt1 no es estacionaria porque, despues del
primer retardo, que siempre es igual a 1, necesitamos 11 retardos para estar dentro de las
bandas de confianza, mientras que la gr
afica de la derecha s que sugiere que es estacionaria
y que parece adecuado un modelo MA(2) pues est
a entre los lmites de confianza despues de
dos retardos.
Si, representamos la funci
on de autocorrelaci
on parcial PACF de la serie Wt2 (Figura 3.21)
ejecutando
> pacf(W_t2)

esta parece indicarnos un modelo AR(3) pues necesita 4 retardos para estar dentro de las
bandas de confianza.
Por u
ltimo, si ejecutamos
> library(forecast)
> result<-auto.arima(temp)
> result
Series: temp
ARIMA(2,1,1) with drift

103

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series W_t2

ACF

0.4
0.2

0.0

0.2

ACF

0.6

0.8

1.0

Series W_t1

10

15

20

Lag

10

15

20

Lag

Figura 3.20 : Funciones de autocorrelaci


on

Call: auto.arima(x = temp)


Coefficients:
ar1
ar2
0.3096 -0.1771
s.e. 0.1174
0.0974

ma1
-0.7433
0.0940

drift
0.0051
0.0027

sigma^2 estimated as 0.01131: log likelihood = 115.61


AIC = -221.23
AICc = -220.78
BIC = -206.48

el modelo sugerido es el de un ARIMA(2,1,1). Por tanto, compararemos los valores de la


verosimilitud (cuanto mayor, mejor) y del AIC (cuanto menor, mejor) de los modelos ARIMA(2,1,0), ARIMA(2,1,3) y ARIMA(2,1,1).
> arima(temp,order=c(2,1,0))
Series: temp
ARIMA(2,1,0)

Call: arima(x = temp, order = c(2, 1, 0))


Coefficients:
ar1
-0.2828
s.e.
0.0816

ar2
-0.2796
0.0817

104

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

0.0
0.1
0.3

0.2

Partial ACF

0.1

Series W_t2

10

15

20

Lag

Figura 3.21 : Funciones de autocorrelaci


on parcial

sigma^2 estimated as 0.01280: log likelihood = 107.07


AIC = -208.14
AICc = -207.96
BIC = -199.29
> arima(temp,order=c(2,1,3))
Series: temp
ARIMA(2,1,3)
Call: arima(x = temp, order = c(2, 1, 3))
Coefficients:
ar1
ar2
0.3441 -0.4358
s.e. 0.5746
0.2396

ma1
-0.7610
0.5943

ma2
0.3026
0.4253

ma3
-0.1591
0.1926

sigma^2 estimated as 0.01147: log likelihood = 114.66


AIC = -217.32
AICc = -216.69
BIC = -199.62

Las verosimilitudes y valores AIC de los tres modelos ARIMA(2,1,0) (log-verosimi = 107 07,
AIC=208 14), ARIMA(2,1,3) (log-verosimi = 114 66, AIC=217 32) y ARIMA(2,1,1) (logverosimi = 115 61, AIC=221 23) sugieren el modelo ARIMA(2,1,1). Adem
as, el test de
Ljung-Box, ejecutado con
> tsdiag(result)

muestra en la tercera gr
afica de la Figura 3.22 que el ajuste de este modelo es adecuado, al
estar la lnea de p-valores muy cerca de 1.
El modelo ajustado tiene, por tanto, los siguientes polinomios asociados,
p (L) = 1 0 3096 L + 0 1771 L2

105

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Standardized Residuals

1860

1880

1900

1920

1940

1960

1980

2000

Time

0.4
0.2

ACF

1.0

ACF of Residuals

10

15

20

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.22 : Daignosis del modelo ARIMA(2,1,1)

P (Ls ) = 1

q (L) = 1 0 7433L
Q (Ls ) = 1

por lo que la ecuaci


on [3.2] quedar
a igual a

(1 0 3096 L + 0 1771 L2 )Zt = (1 0 7433 L)et

con Zt = 1 Yt = Yt Yt1 . Con lo que, haciendo operaciones, quedar


a,

Yt = 1 3096 Yt1 0 4867 Yt2 + 0 1771 Yt3 + et 0 7433 et1

Ejemplo 3.7
Los datos recogidos por Shumway y Verosub (1992), y que est
an en el fichero sediglaci,
corresponden al espesor de capas de sedimento depositadas por glaciares cerca de Massachusetts en los meses de deshielo de 634 a
nos, desde el a
no -9835 al a
no -9202. Este tipo
de datos aporta mucha informaci
on paleoclim
atica sobre otras variables muy relacionadas,
tales como la temperatura de la epoca porque, en un a
no c
alido, se deposita m
as tierra y
cieno en el fondo del glaciar y, como la disminuci
on del espesor implica una mayor cantidad
de dep
ositos, un aumento de las capas de sedimento en un momento temporal implica un
aumento de la temperatura en esa epoca.
Primero incorporaremos los datos a R ejecutando (1). Como el periodo (frequency) de los
valores de la serie es 1, no hace falta utilizar la funci
on stl para analizar la normalidad de los
residuos. Su gr
afica, obtenida ejecutando (2) y que aparece en el lado izquierdo de la Figura

106

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

3.23 muestra claramente una falta de normalidad. El histograma de los datos transformados
por logaritmos, obtenidos ejecutando (3), s parece indicar normalidad.

0.1
0.0

0.000

0.005

0.2

0.3

0.4

0.5

0.6

Histogram of log(espesor)

Density

0.010

Density

0.015

0.020

Histogram of espesor

50

100

150

espesor

log(espesor)

Figura 3.23 : Histogramas para los datos y los logaritmos de los datos

>
>
>
>

espesor<-ts(scan("d:\\datos\\sediglaci.dat"),start=-9835,frequency=1)
par(mfrow=c(1,2))
hist(espesor,prob=T)
hist(log(espesor),prob=T)

(1)

(2)
(3)

Ahora, lo m
as simple es ajustar un modelo arima ejecutando (4), lo que nos sugiere en (5)
un modelo ARIMA(1,1,1).
> library(forecast)
> auto.arima(log(espesor))
Series: log(espesor)
ARIMA(1,1,1)

(4)
(5)

Call: auto.arima(x = log(espesor))


Coefficients:
ar1
ma1
0.2330 -0.8858
s.e. 0.0518
0.0292

sigma^2 estimated as 0.2284:


AIC = 868.88
AICc = 868.91

log likelihood = -431.44


BIC = 882.23

107

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

0
1

diff(log(espesor))

3
2

log(espesor)

De hecho, si representamos la serie ejecutando (6) y obteniendo el gr


afico de la izquierda
de la Figura 3.24, vemos que la serie no parece estacionaria. La representaci
on de la serie
diferenciada, obtenida ejecutando (7) y que aparece en el gr
afico de la derecha de la misma
Figura 3.24, s que muestra una serie estacionaria. El orden 1 de la segunda componente del
ARIMA parece adecuado.

9800

9600

9400

9200

9800

9600

Time

9400

9200

Time

Figura 3.24 : Serie sin diferenciar y diferenciada

> par(mfrow=c(1,2))
> plot(log(espesor))
> plot(diff(log(espesor)))

(6)
(7)

Si resumimos las indicaciones dadas en TA-Secci


on 13.5.1 sobre la identificaci
on del modelo
ARMA (ya estacionario) en base a las representaciones de las funciones de correlaci
on parcial
y auto-correlaci
on parcial en la siguiente tabla, en donde decrecer r
apidamente significa que
queda dentro de las bandas de confianza del dibujo,

ACF

PACF

AR(p)
No decrece

Decrece a cero
despues de p retardos

MA(q)
Decrece a cero
despues de q retardos
No decrece

ARMA(p, q)
No decrece
No decrece

la representaci
on de las funciones de correlaci
on parcial y auto-correlaci
on parcial de la serie
diferenciada, obtenidas ejecutando la siguiente secuencia, la cual da como resultado la Figura
3.25 parece indicarnos un modelo ARMA(0,1,1).

108

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

> par(mfrow=c(1,2))
> acf(diff(log(espesor)))
> pacf(diff(log(espesor)))

0.4

0.3

0.2

0.1

0.0

Series diff(log(espesor))

Partial ACF

0.4
0.2
0.4

0.2

0.0

ACF

0.6

0.8

1.0

Series diff(log(espesor))

10

15

20

25

10

Lag

15

20

25

Lag

Figura 3.25 : Funciones de correlaci


on y auto-correlaci
on de la serie diferenciada
Si observamos la verosimilitud (y el valor del AIC) de este modelo ejecutando
> arima(log(espesor),order=c(0,1,1))
Series: log(espesor)
ARIMA(0,1,1)

Call: arima(x = log(espesor), order = c(0, 1, 1))


Coefficients:
ma1
-0.7705
s.e.
0.0341

sigma^2 estimated as 0.2353:


AIC = 885.44
AICc = 885.45

log likelihood = -440.72


BIC = 894.34

vemos que apenas se reduce el logaritmo de la verosimilitud, que pasa de 431 44 a 440 88 o
que tampoco aumenta mucho el AIC, que pasa de 868 88 a 885 44. No obstante, si realizamos
la diagnosis de ambos modelos ejecutando la funci
on tsdiag, vemos en la Figura 3.26 que el
modelo ARIMA(0,1,1) no pasa el test de Ljung-Box, mientras que el modelo ARIMA(1,1,1)
s lo pasa, seg
un el gr
afico de la Figura 3.27.

109

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Standardized Residuals

9800

9700

9600

9500

9400

9300

9200

Time

0.6
0.0

ACF

ACF of Residuals

10

15

20

25

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.26 : Tests diagn


ostico del modelo ARIMA(0,1,1)

>
>
>
>

resultado1<-arima(log(espesor),order=c(0,1,1))
resultado2<-arima(log(espesor),order=c(1,1,1))
tsdiag(resultado1)
tsdiag(resultado2)

Nos queramos, por tanto, con el modelo ARIMA(1,1,1), con polinomios asociados
p (L) = 1 0 233 L
P (Ls ) = 1

q (L) = 1 0 8858 L
Q (Ls ) = 1

por lo que la ecuaci


on [3.2] quedar
a igual a

(1 0 233 L)Zt = (1 0 8858 L)et

con Zt = 1 Yt = Yt Yt1 . Con lo que, haciendo operaciones, quedar


a,
Yt = 1 233 Yt1 0 233 Yt2 + et 0 8858 et1

110

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Standardized Residuals

9800

9700

9600

9500

9400

9300

9200

Time

0.6
0.0

ACF

ACF of Residuals

10

15

20

25

Lag

p value

0.0 0.4 0.8

p values for LjungBox statistic

10

lag

Figura 3.27 : Tests diagn


ostico del modelo ARIMA(1,1,1)

3.7.

Referencias

Bollerslev, T. (1986). Generalized autoregressive conditional heteroscedasticity. Journal of


Econometrics, 51, 307327.
Bollerslev, T. y Ghysels, E. (1996). Periodic autoregressive conditional heteroskedasticity.
Journal of Business and Economic Statistics, 14, 139151.
Box, G.E.P. y Jenkins, G.M. (1970). Time Series Analysis: Forecasting and Control. Edici
on
revisada en 1976. Editorial Holden-Day.
Diggle, P.J. (1990). Time Series: A Biostatistical Introduction. Oxford University Press.

Engle, R.F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of the United Kingdom inflation. Econometrica, 50, 9871007.
Franses, P.H. (1998). Time Series Models for Business and Economic Forecasting. Cambridge University Press.
Harvey, A.C. y Durbin, J. (1986). The effects of seat belt legislation on British road casualties: a case study in structural times series modeling. Journal of the Royal Statistical
Society, Series A 149, 187-227. With discussion.
Jones, P.D. (1994). Hemispheric surface air temperature variations: A reanalysis and an
update to 1993. J. Clim., 7, 17941802.
Ljung, G.M. y Box, G.E.P. (1978). On a measure of lack of fit in time series models.
Biometrika, 65, 553564.

Parker, D.E., Jones, P.D., Bevan, A. y Folland, C.K. (1994). Interdecadal changes of surface
temperature since the late 19th century. J. Geophysical Research, 90, 1437314399.

Parker, D.E., Folland, C.K. y Jackson, M. (1995). Marine surface temperature: observed
variations and data requirements. Climatic Change, 31, 55960.
Pe
na, D. (2005). An
alisis de Series Temporales. Alianza Editorial.

111

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 3. Tecnicas Actuales en el An


alisis de Series Temporales

Phillips, P.C.B. y Ouliaris, S. (1990). Asymptotic properties of residual based tests for
cointegration. Econometrica, 58, 165193.

Phillips, P.C.B. y Perron, P. (1988). Trends and random walks in macroeconomic time
series. Biometrika, 75, 335346.
Shumway, R.H. y Verosub, K.L. (1992). State space modeling of paleoclimatic time series.
In Pro. 5th Int. Meeting Stat. Climatol. Toronto, 22-26, Junio, 1992.
Taylor, S.J. (1986). Modeling Financial Time Series. Chichester: John Wiley and Sons.

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

112

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4

Inferencias con Mixturas de


Distribuciones
4.1.

Introducci
on

El Modelo Probabilstico supuesto para la variable en observaci


on es determinante en Estadstica Parametrica. Habitualmente, este modelo es una
distribuci
on m
as o menos conocida, como por ejemplo una normal N (1 , 1 )
f1 (x) =

12 (x1 )2
1
e 1
.
1 2

En ocasiones esta situaci


on no es tan clara y s
olo sabemos que los datos
proceden de una determinada poblaci
on con probabilidad p1 , o de otra poblaci
on con probabilidad 1 p1 . Por ejemplo, cuando tratamos con datos de
alturas de individuos, estos pueden ser datos de machos o de hembras; es decir, los datos pueden proceder, con una determinada probabilidad p1 de una
normal N (1 , 1 ) o con probabilidad 1 p1 de otra normal N (2 , 2 ).
En estos casos se dice que el modelo es una Mixtura de varias distribuciones, como por ejemplo una mixtura de dos normales de la forma
12 (x1 )2
12 (x2 )2
1
1
e 1
+ (1 p1 ) e 2
1 2
2 2
[4.1]
siendo p1 un n
umero entre 0 y 1. El an
alisis de problemas inferenciales para este
tipo de modelos recibe el nombre de An
alisis de Mixturas (Mixture Analysis) y
se utiliza mucho como alternativa del An
alisis Discriminante cuando no existe
la muestra de adiestramiento (training sample). (TA-captulo 6.)
L
ogicamente, el n
umero de grupos en consideraci
on, digamos c, puede ser
mayor que 2, la variable observada x no tiene porque ser unidimensional y los

p1 f1 (x)+ (1 p1 ) f2 (x) = p1

113

114

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

modelos no normales (ni siquiera de tipo continuo). En general, una Mixtura


tendr
a la forma
c
X

pi fi (x)

i=1

debiendo ser las fi distribuciones de probabilidad y las pi = P {G = i}, denominadas probabilidades


a priori de pertenencia al grupo i, i = 1, ..., c, deben
P
sumar 1, ci=1 pi = 1.
La historia del comienzo del Mixture Analysis se remonta a 1894 cuando
el zo
ologo W.F.R. Weldon solicit
o a Karl Pearson que clasificara en los dos
sexos unos datos de cangrejos aunque ya la haba comenzado, de forma m
as
rudimentaria, Newcomb en 1886.
Pearson consider
o como modelo una mixtura de dos normales y us
o el
Metodo de los Momentos, inventado por el y no el m
as habitual Metodo de la
M
axima Verosimilitud, inventado por su competidor, R.A. Fisher. No obstante, hoy en da es este u
ltimo el que se utiliza en Mixture Analysis y, aunque hay
al menos seis metodos distintos (s
olo en el caso de una mixtura de dos normales; vease Everitt, 1984), habitualmente se utiliza el algoritmo EM (Dempster
et al., 1977), en nuestro caso, el de la librera mixtools de R. Precisamente la
necesidad de tener que utilizar metodos iterativos computacionales para obtener los estimadores, ha hecho que, hasta ahora, apenas se utilizara el Mixture
Analysis.

4.2.

Estimaci
on de los par
ametros

El problema habitual que suele abordarse en primer lugar es el de la estimaci


on de los par
ametros que forman el modelo Mixtura. Este problema suele
simplificarse mucho porque suele suponerse una variable unidimensional y que
el modelo es de la forma [4.1].
Las probabilidades de pertenencia a cada grupo pi , denominadas probabilidades a priori, despues de observados los datos, por el teorema de Bayes
(CB-secci
on 3.10) se convierten en probabilidades a posteriori por la expresi
on,
pi fi (x)
, i = 1, ..., c
j=1 pj fj (x)

4.2.1.

Pc

M
etodos Cl
asicos

Para estimar los par


ametros de la mixtura sin utilizar Metodos Robustos,
recomendamos utilizar la funci
on de R, Mclust de la librera mclust que tambien admite datos multivariantes procedentes de mixturas de normales (multi-

115

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones

variantes) . Es posible utilizar tambien la funci


on normalmixEM que est
a dentro
de la librera mixtools, aunque nosotros nos decantamos por la primera.
Resaltamos que, para que la inferencias resultes aceptables, los datos deben
proceder de mixturas de dos normales. Si con un histograma no se aprecia esta
situaci
on, bien porque no parezcan proceder de una distribuci
on bimodal o,
como ocurre frecuentemente, los datos parecen asimetricos, deberemos transformarlos antes de aplicar las funciones de R, con objeto de que las inferencias
sean buenas.
Ejemplo 4.1
El Ejemplo 14.5 de CB proporcionaba la siguiente distribuci
on de frecuencias de las estaturas
de 110 personas
X
1 61
1 62
1 63
1 64
1 65
1 66
1 67
1 68
1 69
1 70
1 71

ni
1
2
3
3
4
4
5
9
5
4
4

X
1 72
1 73
1 74
1 75
1 86
1 89
1 90
1 92
1 93
1 94
1 95

ni
3
3
2
1
1
1
2
2
3
4
4

X
1 96
1 97
1 98
2 00
2 01
2 02
2 03
2 04
2 05
2 06

ni
7
9
7
4
4
3
2
2
1
1

Ya vimos all que estos datos proceden de una mixtura de dos normales; para identificar
de que dos normales se trata, primero deberemos crear el vector de observaciones, o bien
tecleando los 110 datos ejecutando (1), o simplemente import
andolos ejecutando (2),

> pobla<-c(161,162,162,...,206)
> pobla<-read.table("d:\\datos\\Ejem14_5.txt",header=T)

(1)
(2)

Para obtener los valores de la mixtura, primero ejecutamos (3), obteniendo como respuesta
que la mejor opci
on es dos componentes (como ya suponamos) con la misma varianza. Para
obtener las estimaciones de los par
ametros de las dos componentes ejecutamos (4),

> library(mclust)
> Mclust(pobla[,1])

(3)

best model: equal variance with 2 components


> Mclust(pobla[,1],G=2)$parameters
$Vinv
NULL
$pro

(4)

116

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

[1] 0.4818252 0.5181748


$mean

(5)

1
2
168.0003 197.1931

(6)

$variance
$variance$modelName
[1] "E"
$variance$d
[1] 1
$variance$G
[1] 2

$variance$sigmasq
[1] 13.97301

(7)

obteniendo en las proporciones de mezcla en (5), las medias en (6) y la varianza com
un en
(7). Es decir, inferimos que los datos proceden de la mixtura de normales
0 482 N (168,

13 973) + 0 518 N (197 2,

13 973).

Si queremos representar los datos y la mixtura ajustada, primero creamos la nueva funci
on
dibu

function (x)
{
0.482*dnorm(x,168,3.738)+0.518*dnorm(x,197.2,3.738)
}

y luego ejecutamos

> x<-seq(160,210,len=100)
> hist(pobla[,1],main=" ",xlab=" ",ylab=" ",prob=T,col=2,ylim=c(0,0.06))
> lines(x,dibu(x))

obteniendo la Figura 4.1.


Las probabilidades de pertenencia a posteriori a cada una de las dos normales (partiendo de
una probabilidades a priori de 0 5) se obtendran ejecutando (8). Esto es muy interesante
en problemas de clasificaci
on de datos.
> solu<-Mclust(pobla[,1])$z
> solu
[,1]
[,2]
[1,] 1.000000e+00 2.728942e-20
[2,] 1.000000e+00 2.204633e-19
[3,] 1.000000e+00 2.204633e-19

(8)

117

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Captulo 4. Inferencias con Mixturas de Distribuciones

160

170

180

190

200

210

Figura 4.1 : Histograma de los datos con la mixtura ajustada

[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]

1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00

1.781059e-18
1.781059e-18
1.781059e-18
1.438866e-17
1.438866e-17
1.438866e-17
1.162418e-16
1.162418e-16
1.162418e-16
1.162418e-16
9.390839e-16
9.390839e-16
9.390839e-16
9.390839e-16
7.586587e-15
7.586587e-15
7.586587e-15
7.586587e-15
7.586587e-15
6.128984e-14
6.128984e-14
6.128984e-14

118

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

[26,]
[27,]
[28,]
[29,]
[30,]
[31,]
[32,]
[33,]
[34,]
[35,]
[36,]
[37,]
[38,]
[39,]
[40,]
[41,]
[42,]
[43,]
[44,]
[45,]
[46,]
[47,]
[48,]
[49,]
[50,]
[51,]
[52,]
[53,]
[54,]
[55,]
[56,]
[57,]
[58,]
[59,]
[60,]
[61,]
[62,]
[63,]
[64,]
[65,]
[66,]
[67,]
[68,]
[69,]
[70,]
[71,]
[72,]
[73,]
[74,]
[75,]
[76,]

Tecnicas Actuales de Estadstica Aplicada


1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
9.999999e-01
7.587965e-04
1.440218e-06
1.782735e-07
1.782735e-07
2.731510e-09
2.731510e-09
3.381122e-10
3.381122e-10
3.381122e-10
4.185225e-11
4.185225e-11
4.185225e-11
4.185225e-11
5.180561e-12
5.180561e-12
5.180561e-12
5.180561e-12
6.412608e-13
6.412608e-13
6.412608e-13
6.412608e-13
6.412608e-13
6.412608e-13

6.128984e-14
6.128984e-14
6.128984e-14
6.128984e-14
6.128984e-14
6.128984e-14
4.951428e-13
4.951428e-13
4.951428e-13
4.951428e-13
4.951428e-13
4.000115e-12
4.000115e-12
4.000115e-12
4.000115e-12
3.231577e-11
3.231577e-11
3.231577e-11
3.231577e-11
2.610698e-10
2.610698e-10
2.610698e-10
2.109107e-09
2.109107e-09
2.109107e-09
1.703886e-08
1.703886e-08
1.376520e-07
9.992412e-01
9.999986e-01
9.999998e-01
9.999998e-01
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00

[77,]
[78,]
[79,]
[80,]
[81,]
[82,]
[83,]
[84,]
[85,]
[86,]
[87,]
[88,]
[89,]
[90,]
[91,]
[92,]
[93,]
[94,]
[95,]
[96,]
[97,]
[98,]
[99,]
[100,]
[101,]
[102,]
[103,]
[104,]
[105,]
[106,]
[107,]
[108,]
[109,]
[110,]

119

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones


6.412608e-13
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
7.937664e-14
9.825410e-15
9.825410e-15
9.825410e-15
9.825410e-15
9.825410e-15
9.825410e-15
9.825410e-15
1.505451e-16
1.505451e-16
1.505451e-16
1.505451e-16
1.863479e-17
1.863479e-17
1.863479e-17
1.863479e-17
2.306654e-18
2.306654e-18
2.306654e-18
2.855226e-19
2.855226e-19
3.534260e-20
3.534260e-20
4.374782e-21
5.415199e-22

1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00
1.000000e+00

En este ejemplo se obtiene que las primeras 53 observaciones proceden de la primera poblaci
on casi con probabilidad 1 y que las restantes pertenecen, casi con probabilidad 1, a la
segunda poblaci
on.
La probabilidades a posteriori se suelen representar en un gr
afico, que para este ejemplo sera
el de la Figura 4.2 obtenida ejecutando

> plot(pobla[,1],solu[,1],type="l")
> lines(pobla[,1],solu[,2],type="l",col=2)

120

0.0

0.2

0.4

solu[, 1]

0.6

0.8

1.0

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

160

170

180

190

200

pobla[, 1]

Figura 4.2 : Probabilidades a posteriori

4.2.2.

Intervalos bootstrap

En ocasiones, adem
as de las estimaciones por punto de los (habitualmente
5) par
ametros de la mixtura, se desea obtener intervalos de confianza para los
par
ametros por medio de las tecnicas bootstrap; en concreto se suele utilizar el
Intervalo Percentil (percentil confidence interval) (MR-secci
on 9.7.3). Para ello
se deben utilizar las funciones de Rmo que aparecen en el texto MR-captulo
9, o equivalentemente, las mismas sin la extensi
on .s de la librera bootstrap
de R.
No obstante, como queremos combinarlas con las funciones de obtenci
on
de los estimadores del Mixture Analysis, debemos programar un poco con
R porque necesitamos definir la funci
on a remuestrear. Veamos el siguiente
ejemplo.
Ejemplo 10.1 (continuaci
on)
Si queremos obtener un intervalo de confianza percentil bootstrap de la media de la
primera componente, necesitamos definir primero la funci
on que hemos denominado media1

function (x)
{
Mclust(x,G=2)$parameter$mean[1]
}

121

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones

y ahora, si queremos obtener un intervalo de confianza de coeficiente de confianza 1 = 0 9,


con 1000 replicaciones bootstrap de los datos originales, para obtener 1000 estimaciones del
par
ametro y luego los valores que dejan antes el 5 % y despues otro 5 %, ejecutaramos
>
>
>
>

library(bootstrap)
library(mclust)
solumedia1<-bootstrap(pobla[,1],1000,media1)$thetastar
quantile(solumedia1,c(0.05,0.95))
5%
95%
167.2558 168.7453

obteniendo, por tanto, el intervalo de confianza [167 2558 , 168 7453].


An
alogamente, para obtener un intervalo para la media de la segunda componente,
primero definimos la funci
on media2
function (x)
{
Mclust(x,G=2)$parameter$mean[2]
}
y luego ejecutamos

> solumedia2<-bootstrap(pobla[,1],1000,media2)$thetastar
> quantile(solumedia2,c(0.05,0.95))
5%
95%
196.2692 198.1178

obteniendo el intervalo de confianza [196 2692 , 198 1178].


Para el intervalo de confianza de la probabilidad de la primera componente o poblaci
on
p1 definiramos la funci
on propor1
function (x)
{
Mclust(x,G=2)$parameter$pro[1]
}
y luego ejecutamos

> solupropor1<-bootstrap(pobla[,1],1000,propor1)$thetastar
> quantile(solupropor1,c(0.05,0.95))
5%
95%
0.3995458 0.5545619

es decir, el intervalo [0 39955 , 0 55456].


Para la segunda proporci
on de mezcla definiramos la funci
on propor2

122

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

function (x)
{
Mclust(x,G=2)$parameter$pro[2]
}

y luego ejecutamos

> solupropor2<-bootstrap(pobla[,1],1000,propor2)$thetastar
> quantile(solupropor2,c(0.05,0.95))
5%
95%
0.4363636 0.6000000

es decir, el intervalo [0 43636 , 0 6]. Por u


ltimo, para la desviaci
on tpica com
un (si saliera
como mejor modelo uno con dos desviaciones tpicas, deberamos rehacer estos c
alculos)
definiramos la funci
on desvi

function (x)
{
sqrt(Mclust(x,G=2)$parameter$variance$sigmasq[1])
}

y luego ejecutaramos

> soludesvi<-bootstrap(pobla[,1],1000,desvi)$thetastar
> quantile(soludesvi,c(0.05,0.95))
5%
95%
2.969043 4.029853

es decir, [2 969 , 4 030].


Como es conocido, cada vez que calcul
aramos un intervalo bootstrap, podramos obtener un resultado distinto. Para evitarlo, deberamos aumentar el n
umero de replicaciones
bootstrap.
Alternativamente a los metodos bootstrap, tambien podra utilizarse la f
ormula conocida
del intervalo (aproximado) para la media de una poblaci
on no necesariamente normal si los
tama
nos muestrales son suficientemente grandes.

4.2.3.

M
etodos Robustos

Aunque la funci
on TLE de la librera tlemix podra proporcionar un Mixture Analysis robusto, preferimos utilizar la funci
on wle.normal.mixture del
paquete wle.

123

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones


Ejemplo 10.1 (continuaci
on)
Para ello, ejecutaramos

> library(wle)
> wle.normal.mixture(pobla[,1],m=2)

Call:
wle.normal.mixture(x = pobla[, 1], m = 2)
Location:
[,1]
[1,] 168.0
Scale:
[1,]

[,1]
3.292

Proportion:
[,1]
[1,] 0.4835

[,2]
197.3

[,2]
3.853

[,2]
0.5165

Number of solutions

observ
andose que sale pr
acticamente lo mismo porque no hay datos an
omalos en la muestra.

4.3.

Revisi
on del An
alisis Cluster

En el Captulo 5 de TA estudiamos el An
alisis Cluster, tecnica alternativa
al Mixture Analysis y en donde el n
umero de grupos a formar no suele estar
fijado de antemano.
Las tecnicas de An
alisis Cluster suelen considerarse de tres tipos: Jer
arquicas Aglomerativas, de tipo descriptivo sin suposici
on de un modelo probabilstico, en donde, partiendo de tantos clusters como individuos a clasificar estos
se van agrupando en sucesivas etapas hasta formar un solo cluster, seg
un las
distancias a las que se encuentran los individuos: en cada etapa se agrupan los
individuos o clusters m
as pr
oximos. Este proceso se representa en un gr
afico
denominado dendograma, el cual permite decidir con cu
antos clusters quedarnos (si no estaba prefijado antes) y la composici
on de los mismos. Las funciones
de R a utilizar (las del texto TA lo eran de Rmo) son hclust y agnes, ambas
muy similares.

Otro tipo es el de Partici


on Optima,
en donde comenzando con una partici
on (una divisi
on en clusters) inicial, vamos recolocando los individuos en los

124

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

k clusters (n
umero fijado de antemano) seg
un alg
un criterio de
optimo. B
asicamente, el metodo en este grupo es el k-medias. Las funciones de R a utilizar
son kmeans (para ejecutar el k-medias), pam (para ejecutar un k-medias m
as
robusto) y, menos utilizadas, clara (cuando hay una gran cantidad de datos)
y fanny (para realizar un an
alisis cluster fuzzy).
Por u
ltimo, el tercer grupo de tecnicas cluster suele denominarse Jer
arquicas Divisivas en donde, partiendo de un u
nico cluster, este se va dividiendo o
troceando sucesivamente. Las funciones de R a utilizar son fundamentalmente
diana y, en menos ocasiones, mona.
En todos estas tecnicas suele ser necesario aplicar alguna medida de dis
tancia entre los individuos. Estas
se calculan con las funciones de R, dist
(para el caso habitual en el que las variables sean numericas) y daisy (para
el caso en el que las variables sean o no numericas).
En todos los casos, la referencia fundamental es el texto de Kaufman y
Rousseeuw (1990) y la mayora de todas estas funciones estan en la librera
cluster por lo que ser
a necesario abrirla si R no encuentra alguna funci
on.

10

44
43
41
42
47
45
4653
50
48
49
51
52
22
21
20
18
19
31
30
29
28
27
26
25
23
24
36
35
34
32
33
40
39
37
38
13
12
10
11
17
16
14
15 1
2
3
6
4
5
9
7
8 54
55
56
57
93
92
91
90
89
87
88
77
76
75
74
73
71
72
86
85
84
83
82
81
80
78
79
58
59
62
60
61
66
65
63
64
70
69
67
68
97
96
94
95
101
100
98
99
104
102
103
105
106
110
109
107
108

Height

15

20

25

Medias

A
hclust (*, "centroid")

Figura 4.3 : Dendograma basado en centroides

Ejemplo 10.1 (continuaci


on)
Si comenzamos ejecutando un An
alisis Jer
arquico Aglomerativo, por el tipo de datos,
lo razonable (TA-secci
on-5.2.2) es formar la matriz de distancias con la distancia Eucldea,
conseguido ejecutando (1). En cuanto a tipos de agrupamiento (TA-secci
on-5.2.3), probaremos con dos de las opciones que nos ofrece la funci
on hclust, centroide, basado en las
medias muestrales, ejecutando (2) y, el m
as robusto, ejecutando (3). Se obtiene despues el
dendograma en ambos casos, Figuras 4.3 y 4.4. Los resultados son muy similares y los grupos
los ya conocidos.

125

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones

> A<-dist(pobla,method="euclidean",diag=T,upper=T)

(1)

> B1<-hclust(A,method="centroid")
> B2<-hclust(A,method="median")

(2)
(3)

> plot(B1,main="Medias")
> plot(B2,main="Medianas")

10

53
50
48
49
51
52
36
35
34
32
33
40
39
37
38
44
43
41
42
47
45
46 1
2
3
6
4
5
9
7
8
13
12
10
11
17
16
14
15
22
21
20
18
19
31
30
29
28
27
26
25
23
24
110
109
107
108
97
96
94
95
101
100
98
99
104
102
103
105
106
93
92
91
90
89
87
88
77
76
75
74
73
71
72
86
85
84
83
82
81
80
78
79
58
59
62
60
61
66
65
63
64
70
69
67
68 54
55
56
57

Height

15

20

Medianas

A
hclust (*, "median")

Figura 4.4 : Dendograma basado en mediodes

La funci
on agnes (de la librera cluster) proporcionara el mismo resultado aunque
aportando el coeficiente de aglomeraci
on, un porcentaje que nos indica lo bueno que ha sido
el resultado.
Para ejecutar el algoritmo k-medias, podemos ejecutar y representar, el cl
asico con (4)
o el robusto con (5). Los resultados son los mismos.
> C1<-kmeans(pobla,2)
> C1
K-means clustering with 2 clusters of sizes 57, 53

(4)

Cluster means:
y Pob
1 197.193
0
2 168.000
1

Clustering vector:
[1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[38] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

126

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

20

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
55 54
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110

10

Height

30

40

Dendograma divisivo

pobla
Divisive Coefficient = 1

Figura 4.5 : Dendograma Divisivo

[75] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Within cluster sum of squares by cluster:
[1] 934.8772 602.0000
Available components:
[1] "cluster" "centers"

"withinss" "size"

> plot(pobla,col=C1$cluster)
> C2<-pam(pobla,k=2,diss=F)

(5)

> C2
Medoids:
ID
y Pob
[1,] 31 168
1
[2,] 78 197
0
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[38] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[75] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Objective function:
build
swap
5.109091 2.881818
Available components:
[1] "medoids"
"id.med"
[6] "clusinfo"
"silinfo"

"clustering" "objective"
"diss"
"call"

"isolation"
"data"

127

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 4. Inferencias con Mixturas de Distribuciones

> plot(pobla,col=C2$cluster)

Por u
ltimo, si queremos realizar un An
alisis Cluster Divisivo, ejecutaramos (6) obteniendo los mismos resultados que antes, los cuales se pueden representar obteniendo la Figura
4.5.

> D<-diana(pobla,diss=F)
> plot(D,main="Dendograma divisivo")

4.4.

(6)

An
alisis Discriminante, An
alisis de Mixturas,
An
alisis Cluster y An
alisis con Componentes
Principales

Estas tres tecnicas se utilizan, fundamentalmente, para clasificar individuos en grupos. En el An


alisis Discriminante es necesario conocer a que grupos
pertenecen unos cuantos individuos de la muestra. Si no se dispone de esta informaci
on se debe utilizar el An
alisis de Mixturas. Estas dos tecnicas suponen
un modelo habitualmente normal (o combinaci
on de normales) y un n
umero
prefijado de antemano de grupos. Cuando alguna de estas dos cosas (modelo
o n
umero de grupos) no es previamente conocida o no se quiere suponer, se
utiliza el An
alisis Cluster.
Hacemos la observaci
on de que, para que la clasificaci
on funcione bien, si
se requiere normalidad de los datos, es muy probable que, antes de aplicar
las tecnicas de clasificaci
on, deberamos de transformar los datos para obtener
simetra y, en su caso, normalidad.

4.4.1.

An
alisis con Componentes Principales

Un apartado especial es la clasificaci


on de individuos utilizando la representaci
on gr
afica de los scores en el los ejes de las primeras componentes principales. recordamos, adem
as, que la determinaci
on de las componentes principales
no requiere la normalidad de los datos aunque es deseable por la mejor interpretaci
on de los resultados. Para un recordatorio de esta tecnica, se recomienda
revisar TA-captulo 2 en el caso de la versi
on cl
asica y la correspondiente secci
on del texto MR en el caso de la versi
on robusta. Para revisar su aplicaci
on
clasificaremos los datos del Ejemplo que hemos seguido en el captulo tanto en

128

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

el caso cl
asico como en el robusto aunque, en este ejemplo, al no habar datos
an
omalos, no habr
a diferencias entre ambos.
Para el caso de una matriz de datos estandarizada A, es decir, en donde
no haya variables con m
as peso que otras, la secuencia de comandos en el caso
cl
asico sera (si hay 40 individuos)
> resultado1<-prcomp(A)
> plot(resultado1$x[,1],resultado1$x[,2])
> text(resultado1$x[,1],resultado1$x[,2],1:40,adj=-1,cex=0.8)

(Ejecutando resultado1 veramos si las dos primeras componentes principales


contienen la mayora de la informaci
on de la matriz de varianzas-covarianzas.)
Y en el caso robusto ejecutaramos,
>
>
>
>
>

library(robustbase)
Ma<-covMcd(A,cor=F)
resultado2<-princomp(A,covmat=Ma,cor=F)$scores
plot(resultado2[,1],resultado2[,2])
text(resultado2[,1],resultado2[,2],1:40,adj=-1,cex=0.8)

4.5.

Referencias

Dempster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood from incomplete
data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1-38.
Dong, Z. (1997). Mixture analysis and its preliminary application in archaeology. Journal
of Archaeological Science, 24, 141-161.

Everitt, B.S. (1984). Maximum likelihood estimation of the parameters in a mixture of two
univariate normal distributions; a comparison of different algorithms. The Statistician,
33, 205-215.
Everitt, B.S. and Hand, D.J. (1981). Finite Mixture Distributions. Chapman And Hall.

Flury, B.D., Airoldi, J.-P. and Biber, J.-P. (1992). Gender identification of water pipits
(anthus spinoletta) using mixtures of distributions. Journal of Theoretical Biology,
158, 465-480.

Kaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to


Cluster Analysis. Wiley.
McLachlan, G. and Peel, D. (2000). Finite Mixture Models. Wiley.

Newcomb, S. (1886). A generalized theory of combination of observations so as to obtain


the best result. American Journal of Mathematics, 8, 343-366.

Pearson, K. (1894). Contribution to the mathematical theory of evolution. Philosophical


Transaction of the Royal Society of London, Series A, 183, 71-110.

Titterington, D.M., Smith, A.F.M. and Makov, U.E. (1985). Statistical Analysis of Finite
Mixture Distributions. Wiley.

D
Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5

T
ecnicas Estadsticas para
Datos Espaciales
5.1.

Introducci
on

Muchos datos que se observan y sobre los que queremos sacar conclusiones
estadsticas tienen una componente espacial. As, si estamos analizando una
enfermedad, la localizaci
on geogr
afica de los lugares en donde se produjeron
casos es muy importante. No digamos ya el an
alisis de aspectos tan actuales
como el posible cambio clim
atico, los lugares en donde se toman las temperaturas son tan importantes como los valores de estas.
En general, la componente espacial es omitida por la dificultad de analizar
este tipo datos. Esperamos que, despues de estudiar este captulo, el lector no
prescinda de esta valiosa informaci
on.
Formalmente, los datos que se analizan con este tipo de tecnicas consisten
en localizaciones {s1 , ..., sn } que habitualmente lo ser
an sobre una superficie,
generalmente La Tierra, es decir, habitualmente ser
an pares de puntos (xi , yi ),
como (latitud , longitud), o (menor distancia a la costa , menor distancia a
una lnea imaginaria paralela a la costa), y unos datos {Z(s1 ), ..., Z(sn )} observados sobre esas localizaciones, como podran ser precipitaciones de lluvia,
o la polucion aerea, etc. Supondremos que los datos son el resultado de la
observaci
on de una variable Z, unidimensional o multidimensional.
Seg
un el tipo de localizaci
on s que se considere, los datos espaciales se
denominan y analizan de forma diferente. Si las localizaciones {s1 , ..., sn } son
fijas pero valores cualesquiera de la superficie considerada, es decir, matem
aticamente valores cualesquiera de IRk (habitualmente k = 2
o k = 3) se habla
de Geoestadstica.
Si las localizaciones no son fijas sino que tambien son aleatorias (pero
independientes de Z) se habla de Procesos Puntuales. Es muy habitual en ellos
129

130

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

que la variable Z no se considere (o se considere como constante) y que se a


nada
una marca a los datos, como por ejemplo que son de una u otra clase, o son de
una poblacion u otra, de manera que el interes en este tipo de datos se centra en
las localizaciones con objeto de: a) Analizar la distribuci
on que presentan los
datos espaciales (por ejemplo, si est
an o no igualmente espaciados); b) Estudiar
las marcas que presentan las localizaciones para, por ejemplo, comparar un par
de especies, y c) Estudiar la densidad de las localizaciones, es decir, al n
umero
de individuos por unidad de
area.
En ocasiones las localizaciones fijas pueden ser valores aislados; m
as en
concreto, formar un conjunto numerable como por ejemplo observaciones en
puntos igualmente espaciados. Esta situaci
on no la trataremos aqu porque es
semejante a un An
alisis de Series Temporales. No obstante, en todo el captulo
siempre consideraremos distinto el ndice de la localizaci
on de un posible ndice
temporal t; de hecho, si se quieren considerar datos espaciales a lo largo del
tiempo, como por ejemplo el an
alisis de terremotos a lo largo del tiempo,
hablaremos de modelos espacio-temporales.

5.2.

Datos espaciales y su representaci


on

Como dijimos m
as arriba, la matriz de datos espaciales habitual estar
a formada por columnas en donde aparecer
an localizaciones y valores de variables
medidas en esas localizaciones.

Ejemplo 5.1
Los datos meuse de la librera sp corresponden a localizaciones y concentraciones (en un

area de aproximadamente 15 15 metros) de metales pesados en la capa superior del suelo,


recogidos en una llanura de inundaci
on del ro Mosa, cerca de la localidad holandesa de Stein
datos tomados de Rikken y van Rijn (1993). La matriz de datos es de la forma
x
y cadmium copper lead zinc
181072 333611
11.7
85 299 1022
181025 333558
8.6
81 277 1141

elev
dist
om ffreq soil lime landuse dist.m
7.909 0.00135803 13.6
1
1
1
Ah
50
6.983 0.01222430 14.0
1
1
1
Ah
30

............................................................................................
179466 330381
180627 330190

0.8
2.7

21
27

51
124

162
375

9.406 0.35860600
8.261 0.01222430

5.7
5.5

3
3

1
3

0
0

W
W

en donde las dos primeras columnas son las localizaciones en coordenadas RDM (un sistema
de coordenadas topogr
aficas holandes); las cuatro siguientes, concentraciones en partes por
mill
on de metales pesados; elev la elevaci
on relativa sobre la llanura; dist la distancia GIS
al Mosa; om materia org
anica del suelo; las cuatro siguientes, variables de tipo cualitativo y,
finalmente, dist.m la distancia en metros al Mosa.
La manera de incorporar estos datos a R es en formato data.frame, por ejemplo recogiendolos
primero en un fichero txt.

460
40

131

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

Los datos espaciales o, con m


as precisi
on, las localizaciones de la matriz
de datos espaciales pueden representarse de cuatro formas distintas: Puntos,
Lneas, Polgonos y Redes (grids).

Representaci
on en Puntos y Polgonos
La representaci
on en Puntos es la habitual de una nube de puntos, generalmente sin marco ni ejes coordenados como sucede en los mapas, utilizando
la funci
on plot con sus conocidos argumentos. Previamente debemos extraer
las localizaciones de la matriz de datos.
Ejemplo 5.1 (continuaci
on)
Primero extraemos las localizaciones con (1) ya que los nombres de estas en la matriz
de datos son, en este ejemplo, x e y. Luego ejecutamos plot con sus habituales opciones,
obteniendo la Figura 5.1

Figura 5.1 : Localizaciones de los datos

>
>
>
>

library(sp)
data(meuse)
coordinates(meuse)<-c("x","y")
plot(meuse,pch=16,col=2)

(1)

En este ejemplo, adem


as de los datos de las localizaciones en donde se produjeron las observaciones, tambien se tienen las coordenadas del propio ro Mosa en el fichero meuse.riv. Su
representaci
on es trivial con la funci
on plot obteniendo la Figura 5.2 al ejecutar
> data(meuse.riv)
> plot(meuse.riv,type="l",col=3,xlab=" ",ylab=" ")

Este tipo de representaci


on (m
as semejante a un mapa) se denomina representaci
on en
Polgonos.

132

326000

330000

334000

338000

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

179000

180000

181000

182000

Figura 5.2 : Dibujo del ro Mosa

Representaci
on en Lneas
Una vez que tenemos las localizaciones, podemos unirlas mediante segmentos con la funci
on (de la librera sp) SpatialLines.
Ejemplo 5.1 (continuaci
on)

Figura 5.3 : Localizaciones de los datos unidas por segmentos

Ejecutando la funci
on SpatialLines en las localizaciones de los datos antes extradas, obtenemos la Figura 5.3.

133

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales


> lineas<-SpatialLines(list(Lines(list(Line(coordinates(meuse))))))
> plot(lineas,col=4)

Representaci
on en Redes (Grids)
Si queremos representar un
area, basta con tener muchas localizaciones de
ella, de manera que la representaci
on de esa gran cantidad de puntos dar
a la
sensaci
on de una representaci
on de toda la zona. Este tipo de gr
afica se denomina Representaci
on en Redes.
Ejemplo 5.1 (continuaci
on)

Se tiene muchas coordenadas de la zona en donde se hicieron las observaciones. Estas


est
an
en el fichero meuse.grid. Primero extraemos las coordenadas ejecutando (1). Podramos
representar ya esta
area con la funci
on plot aplicada a estas coordenadas, pero la representaci
on sera muy tosca. R tiene la posibilidad de representaciones mejores mediante la funci
on
image, pero esta funci
on s
olo admite objetos, es decir datos, del tipo SpatialPixels; por
eso, en (2) obligamos a nuestras coordenadas antes extradas con (1) a que se conviertan en
objetos de este tipo con la funci
on as. Ahora con (3) representamos estos objetos obteniendo
la Figura 5.4.

Figura 5.4 : Zona de las localizaciones de los datos

>
>
>
>

data(meuse.grid)
coordinates(meuse.grid)<-c("x","y")
zona<-as(meuse.grid,"SpatialPixels")
image(zona,col="lightblue")

(1)
(2)
(3)

Podemos representar juntos el ro, la zona en donde se produjeron las localizaciones y estas
comenzando los tres gr
aficos con la zona y utilizando el argumento add=TRUE en la funci
on
plot. Para representar juntos la zona y las localizaciones basta con ejecutar (4) y (5). Si
queremos que tambien aparezca el ro debemos cambiar antes un poco el objeto a representar
y ejecutar (6) antes de (7)
As, la Figura 5.5 se obtiene ejecutando las tres sentencias siguientes,

>
>
>
>

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

134

image(zona,col="lightblue")
plot(meuse,pch=16,col=2,add=TRUE)
rio<-SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv")))
plot(rio,col=3,add=TRUE)

Figura 5.5 : Zona de las localizaciones junto con estas y el ro

5.3.

Procesos Puntuales Espaciales

Los Modelos Espaciales Puntuales (Spatial Point Patterns) inicialmente


fueron utilizaron por bot
anicos y ec
ologos en la decada de los 30 del siglo pasado para determinar, por ejemplo, la distribuci
on espacial de los datos y sus
causas en unas determinadas especies en estudio, o para comparar si puede admitirse que dos especies est
an igualmente distribuidas; no obstante, hoy en da
son utilizadas en muchos campos tales como la arqueologa, la epidemiologa,
la astronoma o la criminologa. Por ejemplo, es posible dise
nar un modelo
para comprender mejor la ubicaci
on de los delitos, o bien es posible estudiar si
los casos de una cierta enfermedad est
an distribuidos geogr
aficamente seg
un
alg
un determinado modelo. En todos los casos, los datos observados ser
an del
tipo pares (xi , yi ) y, si se quieren comparar poblaciones, tendr
an asociados una
marca que identifique las poblaciones a comparar.
Como dijimos m
as arriba, los tres prop
ositos para los que se usan los Procesos Puntuales Espaciales son: Analizar la distribuci
on que presentan los datos
espaciales para concluir si est
an distribuidos aleatoriamente, es decir, al azar
y sin ning
un modelo que rija las localizaciones observadas; est
an distribuidos

(4)
(5)
(6)
(7)

135

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

regularmente, es decir, est


an igualmente (uniformemente) espaciados; o, por
u
ltimo, si las localizaciones est
an distribuidas formando clusters.

El segundo objetivo es analizar la densidad espacial, es decir, el n


umero
de individuos por unidad de
area.
El u
ltimo objetivo de an
alisis es relativo a las marcas que presentan los
datos para, por ejemplo, comparar dos especies.
A estos tres objetivos dedicaremos los tres apartados siguientes de esta
secci
on.

5.3.1.

An
alisis de la distribuci
on espacial

Los datos completos de los siguientes tres ejemplos est


an en la librera
spatstat, respectivamente con los nombres cells, japanesepines y redwood.
Ejemplo 5.2

Los siguientes datos representan la localizaci


on de los centros de 42 celulas observadas bajo
un microscopio
optico en una sesi
on histol
ogica. El campo de visi
on del microscopio ha sido
re-escalado al cuadrado unidad. Los datos fueron recogidos por F.H.C. Crick (uno de los dos
descubridores de la estructura molecular del ADN) y Ripley (vease Ripley, 1977).

cells

Figura 5.6 : Distribuci


on espacial de las celulas

136

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

0 35
0 487
0 637
...
0 35
0 462
0 625

Tecnicas Actuales de Estadstica Aplicada


0 025
0 087
0 05
...
0 962
0 9
0 95

Su representaci
on gr
afica es la Figura 5.6 obtenida ejecutando (1). Esta representaci
on
gr
afica sugiere que los datos est
an distribuidos regularmente sobre el cuadrado unidad. Es
decir, los datos siguen el modelo de estar igualmente espaciados.
> library(spatstat)
> data(cells)
> plot(cells,pch=16)

(1)

Observe el lector que si, en lugar de importar los datos de localizaciones,


quiere incorporarlos, debe hacerlo como matriz o como un par de vectores.

Ejemplo 5.3
Los siguientes datos son las localizaciones de pinos negros japoneses realizadas por Numata
(1961) re-escalados a un cuadrado de lado unidad.

japanesepines

Figura 5.7 : Distribuci


on espacial de los pinos japoneses

0 09
0 29
0 38
...
0 39
0 43
0 62

137

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales


0 09
0 02
0 03
...
0 96
0 96
0 97

Su representaci
on gr
afica es la Figura 5.7 obtenida ejecutando (1). De esta representaci
on
gr
afica parece deducirse que estos no se distribuyen ni regularmente ni siguiendo ning
un
modelo sobre el cuadrado unidad; parece que se distribuyen al azar sobre dicho cuadrado sin
seguir un patr
on claro.
Remarcamos que en este captulo, al azar, no significar
a lo mismo que uniformemente distribuidos (situaci
on que se presentaba en el ejemplo anterior). L
ogicamente si se supone un
modelo probabilstico que genera los datos, estos se obtienen al azar seg
un el modelo supuesto. Este modelo puede ser el modelo uniforme (CB-secci
on 4.5.2) u otro. En este captulo
entenderemos distribuidos al azar cuando no haya modelo aparente que genere los datos
mientras que uniformemente significar
a que es un modelo uniforme el que los genera. Esto
no es del todo cierto porque cuando m
as abajo analicemos si puede admitirse o no que los
datos est
an generados al azar supondremos un proceso de Poisson homogeneo como generador de los datos, pero esto es s
olo una suposici
on matem
atica para explicar situaciones como
la representada en la Figura 5.7 en donde no parece haber ni una regularidad (uniformidad)
en la distribuci
on de las localizaciones, como ocurra en el ejemplo anterior, ni una tendencia
a agrupamientos (a clusters) en estas, como ocurrir
a en el ejemplo siguiente.
> data(japanesepines)
> plot(japanesepines,pch=16)

(1)

Ejemplo 5.4
Los siguientes datos representan las ubicaciones de 62 secuoyas de California en una regi
on
muestral cuadrada. Los datos originales era 195, procedentes de Strauss (1975), pero se suelen
utilizar los 62 aqu tratados, estudiados anteriormente por Ripley (1977) en una subregi
on
que se ha re-escalado a un cuadrado unidad.
0 36
0 44
0 48
...
0 74
0 86
0 96

0 08
0 1
0 08
...
0 9
0 9
0 96

Su representaci
on gr
afica es la Figura 5.8 obtenida ejecutando (1). De esta representaci
on
gr
afica se desprende que los datos aparecen distribuidos en clusters lo que indica un modelo
subyacente, no regular como ocurra en el caso de las celulas.
> data(redwood)
> plot(redwood,pch=16)

(1)

Tecnicas Actuales de Estadstica Aplicada

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

138

redwood

Figura 5.8 : Distribuci


on espacial de las secuoyas californianas

Para poder abordar los tres objetivos anteriores es necesario introducir


algunas herramientas matem
aticas.
Proceso Puntual
Un Proceso Estoc
astico es una sucesi
on de observaciones de origen aleatorio. Cuando decimos sucesi
on nos estamos refiriendo a que las observaciones
se obtienen siguiendo un orden que puede ser temporal (como ocurre con
las Series Temporales) o espacial (el que aqu nos ocupa) o, incluso, espaciotemporal. Formalmente, un Proceso Estoc
astico es una sucesi
on de variables
aleatorias Xt que evolucionan en funci
on de otra variable (la que marca el
orden) denominada ndice t, que ser
a el tiempo o el espacio. Cada una de las
variables aleatorias del proceso tiene su propia distribuci
on de probabilidad y,
entre ellas, pueden estar correlacionadas o no.
Un Proceso Puntual Espacial es un proceso estoc
astico que genera localizaciones de algunos sucesos de interes dentro de una regi
on concreta en estudio.
Denominaremos Modelo Espacial Puntual a las localizaciones de los sucesos
generados por un proceso puntual en el
area de estudio. Si las localizaciones

139

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

tienen Marcas para distinguir varios grupos de datos, hablaremos de Proceso


y Modelo Espacial Puntual con Marcas.
Aleatoriedad Espacial Completa (CSR)

Como dijimos m
as arriba, dentro del An
alisis de la Distribuci
on de las
localizaciones, el primer objetivo es averiguar si estas est
an distribuidas al zar
en la regi
on de estudio. En el ejemplo anterior de los pinos negros japoneses
pareca intuirse una aleatoriedad en su distribuci
on. Es decir, que no existe
ning
un patr
on que regule su ubicaci
on. Esta idea se denomina Aleatoriedad
Espacial Completa (Complete Spatial Randomness) o, abreviadamente, CSR
y se formaliza matem
aticamente con un Proceso de Poisson homogeneo de
par
ametro , ya que este tipo de procesos se caracteriza por tres propiedades:
a) El n
umero de localizaciones en una regi
on A de
area |A| sigue una
distribuci
on de Poisson con media |A|, en donde es la intensidad del proceso,
es decir, el n
umero esperado de localizaciones por unidad de
area.
b) Dadas n localizaciones en una regi
on A, es decir, condicionalmente a
que hay n localizaciones en A, estas se distribuyen seg
un una distribuci
on
uniforme sobre A.
c) En dos regiones disjuntas A y B, el n
umero de localizaciones en A y el
n
umero de localizaciones en B son variables aleatorias independientes.

El analizar si los datos siguen o no Aleatoriedad Espacial Completa, es


decir, un proceso de Poisson homogeneo, puede hacerse de dos formas: una,
mediante cuadrados (quadrats), de manera que se anota el n
umero de localizaciones acaecidas en cuadrados en los que se ha dividido la zona en estudio y se
compara mediante un test 2 de bondad del ajuste con las que debera haber
si fuera cierto el modelo Poisson, y dos, mediante distancias. Como es bien
conocido, los tests basados en recuentos de observaciones son menos precisos
que los basados en las propias observaciones. Por ello, para analizar la CSR
consideraremos metodos basados en distancias.
Distancia a la localizaci
on m
as cercana
Hay varias posibilidades de distancia aunque suele utilizarse la distancia
(Eucldea) entre una localizaci
on y la localizaci
on vecina m
as cercana (nearestneighboring). Se puede demostrar que si las localizaciones est
an generadas
por un proceso de Poisson homogeneo de par
ametro , es decir, al azar, la
distribuci
on de estas distancias viene dada por la siguiente funci
on de densidad
g(w) = 2 w e w

w>0

o equivalentemente, por la siguiente funci


on de distribuci
on

140

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

G(w) = 1 e w

w > 0.

Por tanto, las localizaciones observadas estar


an generadas al azar, es decir,
no siguiendo ning
un patr
on, si las diferencias entre su funci
on de distribuci
on
emprica y este modelo te
orico G no son significativas.
Si representamos por dij la distancia Eucldea entre dos localizaciones i y j,
la distancia entre una localizaci
on i y la localizaci
on vecina m
as cercana ser
a,
l
ogicamente, di = mnj {dij , con j 6= i}, para i = 1, ..., n. Por tanto, fijada una
distancia w, el estimador de G(w) sera la funci
on de distribuci
on emprica
n
umero de di w
b
G(w)
=
n

(Apuntamos el que las localizaciones i y j ser


an vectores, de dos o tres dimensiones habitualmente, por lo que deberan representarse por i y j aunque, por
simplificar la notaci
on, no la hemos incorporado.)
Hay varios tests de hip
otesis para contrastar la aleatoriedad CSR (vease
Cressie, 1993, p
agina 604). En la Figura 5.9 aparecen los gr
aficos de los pares
b
(G(w), G(w))
para los tres ejemplos anteriores as como las sentencias en R
para obtenerlos, utilizando la librera spatstat.
SECUOYAS CALIFORNIANAS

1.0
0.8
0.6
0.4
0.2

obs

0.0

CLULAS

PINOS JAPONESES

1.0
0.8
0.6
0.4
0.2
0.0

0.0

0.2

0.4

0.6

0.8

1.0

theo

Figura 5.9 : An
alisis visual de la CSR

>
>
>
>
>
>
>
>

141

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

library(lattice)
library(spatstat)
r<-seq(0,sqrt(2)/6,by=0.005)
japo<-envelope(as(japanesepines,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
rojo<-envelope(as(redwood,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
celu<-envelope(as(cells,"ppp"),fun=Gest,r=r,nrank=2,nsim=99)
resulta<-rbind(japo,rojo,celu)
resulta<-cbind(resulta,DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","C
ELULAS"),each=length(r)))

> DATASET=rep(c("PINOS JAPONESES","SECUOYAS CALIFORNIANAS","C


ELULAS"),each=length(r))
> print(xyplot(obs~theo|DATASET, data=resulta, type="l",panel=function(x, y, subscripts)
{lpolygon(c(x, rev(x)),c(resulta$lo[subscripts], rev(resulta$hi[subscripts])),border="gray",
col = "gray", fill = T)
llines(x, y, col="black", lwd=2)}
))

Como se deduce de estos tres gr


aficos, solamente en el caso de los pinos
negros japoneses se tiene la Aleatoriedad Espacial Completa CSR.

Ejemplo 5.5
La utilizaci
on de los datos de los tres ejemplos anteriores es interesante pero habitualmente el
lector estar
a m
as interesado en analizar si sus propios datos cumplen o no la hip
otesis CSR.
Para ello detallaremos este hipotetico ejemplo en el que el autor del texto se ha inventado
unos pares de datos en (1) y (2) que seran, por ejemplo, los pares reales (latitud, longitud),
para formar la matriz de datos en (3), que corresponder
a a la matriz de datos reales del
lector. El an
alisis de la CSR se hace con datos re-escalados en el cuadrado unidad; es decir,
debemos cambiar la escala de estos para que todos ellos tomen valores en [0,1]. Esto se
consigue restando a cada dato x el menor de los valores, mn(x) y dividiendo el resultado de
esta diferencia por la diferencia entre el m
aximo y el mnimo de los valores, es decir, haciendo
el c
alculo

x mn(x)
.
m
ax(x) mn(x)
El re-escalamiento se hace en tres pasos a partir de (4), denominando de la misma manera
la matriz resultante. Por supuesto, si el lector debe repetir este proceso varias veces, le
resultar
a m
as sencillo crear una funci
on que haga todos los pasos. Finalmente se pueden
representar los datos.
> library(lattice)
> library(spatstat)
> x1<-c(21,22,21.2,22.4,22.8,21.7,22.3,21.5,22.4,21.9,21.2,22.2,21.4,
22.6,23.0,21.9,22.5,21.7,22.6,22.1,21.5,22.5,21.7,22.9,23.3,22.2,
22.8,22.0,22.9,22.4)

(1)

> x2<-c(34.1,35,33.9,34.9,35.1,33.7,33.1,33.4,33.5,33.7,33.7,34.6,33.5,
34.5,34.7,33.3,32.7,33.0,33.1,33.3,34.8,35.7,34.6,35.6,35.8,34.4,33.8,
34.1,34.2,34.4)

(2)

> prueba<-matrix(c(x1,x2),ncol=2)

(3)

142

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

> b1<-(prueba[,1]-min(prueba[,1]))/(max(prueba[,1])-min(prueba[,1]))
> b2<-(prueba[,2]-min(prueba[,2]))/(max(prueba[,2])-min(prueba[,2]))
> prueba<-matrix(c(b1,b2),ncol=2)

(4)

> plot(prueba)

La aleatoriedad CSR se verificar


a en nuestros datos si las diferencias (en este caso gr
aficas)
b
entre el modelo te
orico G(w) y la distribuci
on emprica G(w)
no son grandes, para un
conjunto de distancias w razonable, conjunto de distancias que fijamos en (5), iguales en
este caso a 50 distancias entre 0 y 0 25.
> w<-seq(0,0.25,len=50)

(5)

Como el modelo te
orico es muy difcil de manejar, lo que hacemos es simular, con la funci
on envelope de la librera spatstat muchas realizaciones suyas (las que queramos con
el argumento nsim de envelope) del proceso puntual, en este caso G, para lo que utilizamos el argumento fun=Gest de envelope. Esta funci
on envelope s
olo admite datos del tipo
ppp, por eso transformamos antes los datos japanesepines con la funci
on as. Los datos en
forma de matriz no son de este tipo. Primero deberemos transformamos en datos del tipo
SpatialPoints con esta funci
on ejecutando (6) y, despues en datos ppp, con la funci
on as
pero abierta la librera maptools ejecutando (7),
> prueba2<-SpatialPoints(prueba)
> library(maptools)
> prueba3<-as(prueba2,"ppp")

(6)
(7)

Las distancias w a considerar se incluyen en la funci


on envelope con el argumento r.

PRUEBA

1.0

0.8

obs

0.6

0.4

0.2

0.0

0.0

0.2

0.4

0.6

0.8

1.0

theo

Figura 5.10 : An
alisis de datos de prueba

De esta forma, con envelope obtendremos unos entornos de confianza entre los que debera
b
de estar las distribuci
on emprica G(w).
En estos entornos se puede fijar el coeficiente de
confianza mediante el argumento nrank de la funci
on envelope, diciendole cu
antos de los
valores simulados eliminar a cada lado del entorno. Si fijamos nrank=2 (quitamos 2 a cada
lado) sobre 100 simulaciones nsim=99, tendremos entornos de confianza del 96 %.
Por tanto, ejecutando (8), tendremos el entorno de confianza

143

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales


> entorno<-envelope(prueba3,fun=Gest,r=w,nrank=2,nsim=99)

(8)

Ahora s
olo tenemos que representarlo y sobre-impresionar en el dibujo del entorno as creado
(y que, adelantamos a los lectores que tratan de replicar este ejemplo podr
a cambiar de
b
simulaci
on en simulaci
on) nuestra distribuci
on emprica G(w).
Esta representaci
on gr
afica
se puede hacer de varias maneras aunque utilizaremos la combinaci
on anterior (script en
terminologa R) ejecutando

> entorno<-cbind(entorno,DATASET=rep(c("PRUEBA"),each=length(w)))
> DATASET=rep(c("PRUEBA"),each=length(w))

> print(xyplot(obs~theo|DATASET , data=entorno, type="l",


panel=function(x, y, subscripts)
{
lpolygon(c(x, rev(x)),
c(entorno$lo[subscripts], rev(entorno$hi[subscripts])),
border="gray", col="gray",fill=T
)
llines(x, y, col="black", lwd=2)
}
))

que podemos unir en una nueva funci


on con un u
nico argumento en el que incluyamos
entorno, obteniendo la Figura 5.10. En ella se observa que los datos fueron generados al
azar.

Ajuste de Modelos Espaciales Puntuales

Si hemos rechazado la Aleatoriedad Espacial Completa de una regi


on A,
es decir, que las localizaciones observadas en A no se producen al azar, el
siguiente paso l
ogico es ajustar un modelo a las localizaciones observadas. Si
hemos rechazado la CSR vimos que haba dos posibilidades: Una distribuci
on
regular uniforme, como ocurra en el ejemplo de las celulas, que se suele modelizar mediante Procesos de Inhibici
on Simple, que no ser
an tratados aqu.
La segunda posibilidad es que se produjeran clusters, es decir, agrupamientos
de localizaciones. Esta segunda posibilidad se modeliza mediante un Proceso
de Poisson no homogeneo (recordemos que la CSR lo era mediante un Proceso
de Poisson homogeneo) o mediante un Proceso de Cox o mediante un Proceso de Poisson con clusters. Nosotros s
olo analizaremos el Proceso de Poisson
no homogeneo de par
ametro (s) que se diferencia del homogeneo estudiado
m
as arriba porque la intensidad del proceso (s) ya no es constante sino que
depende de la localizaci
on s A.

144

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Estimaci
on de la Intensidad
En el caso de un proceso de Poisson homogeneo la intensidad es constante
en cada
area considerada A, por lo que, si en ese
area hay n localizaciones, un
b = n/|A| en donde |A| representa el
estimador suyo ser
a
area de la regi
on
A.
En el caso de procesos de Poisson no homogeneos hay varias posibilidades
que se resumen en dos: utilizar Metodos Parametricos, consistentes en proponer una funci
on cuyos par
ametros son estimados por el metodo de m
axima
verosimilitud. Esta va permite incluir p covariables existentes Zj , j = 1, ..., p
y utilizar, por ejemplo, un modelo log-lineal de la forma
log (s) =

p
X

j Zj (s)

j=1

on
siendo Zj (s) j = 1, ..., p los valores que toman las covariables en la localizaci
s.
La segunda posibilidad en la estimaci
on de la intensidad de un proceso
de Poisson no homogeneo son los Metodos no Parametricos, basados en el
Estimador N
ucleo Suavizado (kernel smoothing) dado por
b
(s)
=



n
X
1
||s si ||
K
q(||s||) h2
h

[5.1]

i=1

supuesto que se han observado n localizaciones s1 , ..., sn , siendo K la funci


on
n
ucleo considerada (habitualmente bivariante), q(s) una correcci
on frontera
para compensar los valores que se pierden cuando s est
a cerca de la frontera
de la regi
on A, y siendo h una medida del nivel de suavizado (smoothing),
tambien denominada ancho de banda (bandwidth), que se quiere considerar:
valores peque
nos de h conducir
an a estimadores poco suaves y valores grandes
a estimadores muy suaves.
La funci
on n
ucleo habitualmente considerada es la denominada funci
on
cu
artica (quartic), tambien denominada biponderada (biweight) definida, para
localizaciones s (1, 1), como
K(s) =

3
(1 ||s||)2

y como 0 para localizaciones s 6 (1, 1).


Apuntamos el que ||s|| denota la norma del
pvector s que, si es bidimensional
con coordenadas (s1 , s2 ), es igual a ||s|| = s21 + s22 . (An
alogamente con la
norma de la diferencia de vectores que aparece en la f
ormula anterior.)
La especificaci
on del suavizado h es un serio problema puesto que diferentes
especificaciones conducen a muy diferentes estimaciones de la intensidad.

145

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

Ejemplo 5.4 (continuaci


on)
Vamos a estimar la intensidad del proceso de Poisson no homogeneo mediante tecnicas no
parametricas utilizando el estimador n
ucleo suavizado dado por [5.1], ejecutado por la funci
on
kernel2d de la librera splancs. Los argumentos de esta funci
on son, b
asicamente tres: el
primero, los datos en formato ppp; el segundo, un polgono en el que queramos obtenga las
estimaciones (el cuadrado de lado unidad en nuestro caso), y el tercero, el nivel de suavizado
h considerado m
as arriba. La correcci
on frontera se ignora.

redwoodfull

Figura 5.11 : Distribuci


on espacial de las 195 secuoyas californianas

Todo este proceso comienza con la determinaci


on del nivel de suavizado h, para lo que se
suele utilizar el criterio propuesto por Diggle (1985) y Berman y Diggle (1989) consistente
en elegir como nivel de suavizado el primer valor en el que se consigue minimizar el error
cuadr
atico medio del estimador kernel que tratamos de construir. En este proceso se utiliza
la funci
on mse2d de la librera splancs. Los argumentos de esta funci
on son, b
asicamente
cuatro: el primero, los datos en formato ppp; el segundo un polgono en el que queramos
obtener las estimaciones; el tercero, el n
umero de iteraciones que queremos considerar y, el
cuarto, el valor m
aximo admitido para h.
Los datos redwood utilizados antes en este ejemplo son una parte de los 195 datos redwoodfull
que utilizaremos. Su representaci
on gr
afica, obtenida ejecutando
> library(spatstat)
> data(redwoodfull)
> plot(redwoodfull,pch=16)

es la Figura 5.11, en donde se aprecia la distribuci


on de la intensidad.
Como tambien utilizaremos el paquete spatstat, primero abrimos las libreras que vamos
a utilizar en el ejemplo. Luego, en (1), creamos el polgono en el que vamos a estimar la
intensidad que es el cuadrado de lado unidad, definido dando los dos vertices extremos.
Ahora, en (2) obtenemos 100 valores del error cuadr
atico medio (M SE) para 100 valores
h (el m
aximo h = 0 15) utilizando la funci
on mse2d, al haber considerando que el valor

146

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Tecnicas Actuales de Estadstica Aplicada

Intensidad

1500

1000

500

0.8

0.6

0.2

0.4

0.4

0.6

0.2

0.8

Figura 5.12 : Intensidad estimada

0 15 es el m
aximo admisible. Es decir, obtenemos 100 pares de valores (h, M SE). Podramos
representarlos para ver en que h se alcanza el menor M SE, pero es m
as sencillo ejecutar (3)
> library(splancs)
> library(spatstat)

> poli<-as.points(list(x=c(0,0,1,1),y=c(0,1,1,0)))

(1)

> suavizados<-mse2d(as.points(as(redwoodfull,"ppp")),poli,100,0.15)

(2)

> suavizados$h[which.min(suavizados$mse)]
[1] 0.039

(3)

Ahora que ya sabemos que el suavizado a utilizar ser


a h = 0 039 (es decir, la intensidad
ser
a poco suave), podemos obtener las estimaciones de la intensidad utilizando la funci
on
kernel2d ejecutando (4). Por defecto elige el kernel biponderado. Lo que ocurre es que as se
obtienen muchas cosas. Las coordenadas en donde se est
a estimando la intensidad se obtienen
separadamente ejecutando (5) y (6), cosa que no tiene mucho interes. Lo interesante son
los valores estimados para esas localizaciones dadas por (7).
La representaci
on en tres dimensiones de valores z para pares de datos (x, y) la haremos con
la funci
on persp ejecutando (8) y obteniendo la Figura 5.12.
> kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)

(4)

> a1<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$x

(5)

147

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales


> a2<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$y
> a3<-kernel2d(as.points(as(redwoodfull,"ppp")),poli,h0=0.039)$z

(6)
(7)

> persp(a1,a2,a3,theta=30,phi=30,expand=0.5,col="lightblue",ltheta=120,
(8)
+ shade=0.75,ticktype = "detailed",xlab=" ",ylab=" ",zlab=" ",main="Intensidad")

Modelos Aditivos Generalizados GAM


Los Modelos Aditivos Generalizados son una extensi
on del Modelo de Regresi
on Lineal M
ultiple, en donde explicamos la media de la variable de respuesta Y con p covariables de forma lineal
E[Y ] = 0 + 1 X1 + ... + p Xp

permitiendo para las covariables Xi , en los modelos GAM, una expresi


on m
as
general que la anterior mediante unas funciones hi , aunque manteniendo la
linealidad del modelo,
E[Y ] = h0 + h1 (X1 ) + ... + hp (Xp ).

Estas funciones hi (que en la mayora de las ocasiones ser


an la misma para
todo i = 0, 1, ..., p) se elegir
an dentro de un grupo de funciones suaves y se
estimar
an habitualmente por metodos no parametricos.
Si estamos en un esquema de datos espaciales en donde nuestros datos
son localizaciones (habitualmente vectores bidimensionales) s = (s1 , ..., sn ),
los modelos GAM se pueden utilizar de varias formas. Una de ellas consiste
en modelizar la respuesta en funci
on de los valores de las covariables en las
localizaciones:
E[Y ] = h0 + h1 (X1 (s)) + ... + hp (Xp (s)).

En otras ocasiones se a
nade al habitual modelo de regresi
on lineal m
ultiple una variaci
on residual espacial (como hacamos en el caso de las series
temporales)
E[Y ] = 0 + 1 X1 + ... + p Xp + h(s).

Y, adem
as, la variable de respuesta puede ser dicot
omica (estudios de casocontrol), apareciendo a la izquierda de la igualdad, en estos casos, log p(s), en
los modelos anteriores.
Con todo esto queremos decir que es muy importante establecer de forma
clara el modelo considerado en la aplicaci
on, sea GAM o no. Dos buenos textos
para el an
alisis de los modelos GAM son Hastie y Tibshirani (1990), y el de
Wood (2006).

148

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

5.3.2.

Tecnicas Actuales de Estadstica Aplicada

An
alisis de la densidad espacial

Este objetivo se consigue f


acilmente con la funci
on summary.

Ejemplo 5.1 (continuaci


on)
Primero debemos abrir la librera en donde est
an los datos, en este caso spatstat, ejecutando
(1). Luego, ejecutando (2), obtenemos la densidad en (3), que es de 42 datos por unidad
de
area.
> library(spatstat)
> summary(cells)
Planar point pattern: 42 points
Average intensity 42 points per square unit

(1)
(2)
(3)

Window: rectangle = [0, 1] x [0, 1] units


Window area = 1 square unit

Ejemplo 5.2 (continuaci


on)
Supuesto que ya hemos abierto la librera spatstat, ejecutando (1), obtenemos la densidad
en (2), que es de 65 datos por unidad de
area.
> summary(japanesepines)
Planar point pattern: 65 points
Average intensity 65 points per square unit (one unit = 5.7 metres)

(1)

(2)

Window: rectangle = [0, 1] x [0, 1] units


Window area = 1 square unit
Unit of length: 5.7 metres

Ejemplo 5.3 (continuaci


on)
De nuevo, abierta la librera spatstat, ejecutando (1), obtenemos la densidad en (2), que
es de 62 datos por unidad de
area.
> summary(redwood)
Planar point pattern: 62 points
Average intensity 62 points per square unit
Window: rectangle = [0, 1] x [-1, 0] units
Window area = 1 square unit

Un esquema-resumen del captulo aparece en la u


ltima p
agina.

(1)
(2)

5.4.

149

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Captulo 5. Tecnicas Estadsticas para Datos Espaciales

Referencias

Berman, M. y Diggle, P.J. (1989). Estimating weighted integrals of the second-order intensity of a spatial point process. Journal of the Royal Statistical Society, Serie B, 51,
8192.
Bivand, R.S., Pebesma, E.J. y G
omez-Rubio, V. (2008). Applied Spatial Data Analysis.
Springer.
Cressie, N.A.C. (1993). Statistics for Spatial Data. Wiley.

Diggle, P.J. (1985). A kernel method for smoothing point process data. Applied Statistics,
34, 138147.
Diggle, P.J. (2003). Statistical Analysis of Spatial Point Patterns, 2a edici
on. Arnold.

Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman and Hall.

Numata, M. (1961). Forest vegetation in the vicinity of Choshi. Coastal flora and vegetation at Choshi, Chiba Prefecture. IV. Bulletin of Choshi Marine Laboratory, Chiba
University, 3, 2848 (en Japones).

Rikken, M.G.J. y van Rijn, R.P.G. (1993). Soil pollution with heavy metals - an inquiry
into spatial variation, cost of mapping and the risk evaluation of copper, cadmium,
lead and zinc in the floodplains of the Meuse west of Stein, the Netherlands. Tesis
Doctoral, Dept. de Geografa Fsica, Universidad de Utrecht.
Ripley, B.D. (1977). Modelling spatial patterns (with discussion). Journal of the Royal
Statistical Society, Serie B, 39, 172212.
Strauss, D.J. (1975). A model for clustering. Biometrika, 63, 467475.

Wood, S.N. (2006). Generalized Additive Models: An Introduction with R. Chapman and
Hall-CRC, Boca Raton.

Al f
on
so
Ga
rc
aP
ere
z.
UN
E

Localizaciones fijas: Geoestadstica.

Localizaciones aleatorias: Procesos Puntuales Espaciales




quadrants

Aleatoriamente:
CSR

distancias

on Simple.
Regularmente: Procesos de Inhibici

Analizar
la
distribuci
o
n

Metodos parametricos: Modelo log-lineal

Proceso
de
Poisson
no
homog
e
neo

Metodos no parametricos: Estimador n


ucleo suavizado

Formando Clusters

Proceso
de
Cox.

Proceso de Poisson con Clusters.

Estudiar las marcas: comparar poblaciones.

Estudiar la densidad: n
umero de individuos por unidad de
area.

Anda mungkin juga menyukai