Anda di halaman 1dari 29

UNIVERSIDADE FEDERAL DE LAVRAS

DEPARTAMENTO DE CIENCIAS
EXATAS

EM ESTAT

PROGRAMA DE POS-GRADUA
C
AO
ISTICA E EXPERIMENTAC
AO

AGROPECUARIA

NOTAS DE AULA
A
` ANALISE

INTRODUC
AO
DE CONFIGURAC
OES
ESPACIAIS DE PONTOS

Nome: Rodrigo Ferreira de Abreu


Professor: Jo
ao Domingos Scalon

LAVRAS
2015/2

Sum
ario
1 Introdu
c
ao
2 Tipologia dos dados espaciais
2.1 Dados de superfcie contnua (geoestatstica)
2.2 Dados de
areas (Lattice) . . . . . . . . . . . .
2.3 Dados de Processos Pontuais . . . . . . . . .
2.4 Resumo: Estatstica espacial . . . . . . . . .

.
.
.
.

1
1
2
2
3

3 Introdu
c
ao `
a an
alise de configura
c
oes espaciais de pontos (eventos)
3.1 Configurac
ao pontual espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Quest
oes cientficas tpicas (Mapas) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
3
4

4 Explorando a propriedade de primeira ordem (intensidade)


4.1 Intensidade homogenea . . . . . . . . . . . . . . . . . . . . . . .
4.2 Intensidade n
ao homogenea . . . . . . . . . . . . . . . . . . . .
4.2.1 Contagem de quadrados . . . . . . . . . . . . . . . . . .
4.2.2 Estimador de intensidade kernel (n
ucleo) . . . . . . . .

5
5
6
6
7

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

5 Processo de Poisson homog


eneo e testes iniciais contra a hip
otese nula de completa
aleatoriedade espacial
11
5.1 Processo de Poisson Homogeneo (PPH) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2 Testes contra a hip
otese nula de completa aleatoriedade espacial . . . . . . . . . . . . . . . . 12
6 Explorando a depend
encia (intera
c
ao) entre eventos
6.1 Metodos Gr
aficos . . . . . . . . . . . . . . . . . . . . .
6.1.1 Gr
afico de Morisita . . . . . . . . . . . . . . . .
6.1.2 Gr
afico de Fry . . . . . . . . . . . . . . . . . .
6.2 Metodos baseados em dist
ancias . . . . . . . . . . . .
6.2.1 Func
ao G . . . . . . . . . . . . . . . . . . . . .
6.2.2 Metodo de Monte Carlo . . . . . . . . . . . . .
6.2.3 Func
ao F (Ripley, 1977) . . . . . . . . . . . . .
6.2.4 Func
ao J . . . . . . . . . . . . . . . . . . . . .
6.2.5 Func
ao K . . . . . . . . . . . . . . . . . . . . .
6.2.6 Func
ao L . . . . . . . . . . . . . . . . . . . . .
6.3 Observac
oes gerais sobre as func
oes . . . . . . . . . . .
7 Anexos

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

13
13
13
15
16
16
20
20
22
23
24
25
26

INTRODUC
AO

Introdu
c
ao
Estatstica espacial

Todos os dados s
ao coletados em alguma posicao no tempo e no espaco (coordenadas). Em alguns casos
essa posic
ao e importante e pode ser includa explicitamente na analise. Pode-se estar interessado em apenas
um dos aspectos dos dados (temporal ou espacial) do fenomeno ou em ambos simultaneamente (espacotemporal).
A estatstica cl
assica assume que as observacoes sao independentes no tempo e no espaco. Esta suposic
ao
e violada em muitas situac
oes o que faz a estatstica classica apresentar resultados esp
urios.
A estatstica e uma colec
ao de metodos e tecnicas para visualizacao, exploracao e analise aplicada `
a
dados que apresentam estrutura espacial e podem ser modelados como processos estocasticos. Por que a
estatstica espacial e importante?
A estatstica espacial pode remover a dependencia espacial para possibilitar o uso da estatstica cl
assica
(filtragem espacial).
A estatstica espacial pode modelar explicitamente a dependencia espacial (estimacao espacial).

Tipologia dos dados espaciais

Tradicionalmente classificados de acordo com uma tipologia de tres categorias (Cressie, 1993). Esta
categorizac
ao diz respeito a natureza estocastica da observacao.
Dados de superfcie contnua
Dados de
area (lattice)
Dados de processos pontuais
Uma quarta categoria (n
ao definida por Cressie):
Dados de interac
ao espacial
Como o que distingue essas categorias e o tipo de dado aleatorio, e natural que existam metodos diferentes
para cada tipo de dado.

2.1

Dados de superfcie contnua (geoestatstica)

O fen
omeno est
a distribudo continuamente na superfcie da regiao de estudo.
Ex.: temperatura, altitude, teor de argila no solo, etc...
Obj.: Recuperar a superfcie a partir de alguns pontos de coleta

2.2

Dados de
areas (Lattice)

2.2

Dados de
areas (Lattice)

S
ao dados indexados a sub-regi
oes (polgonos) que constituem uma particao de um domnio contnuo.
Ex.: Dados agregados por municpio, bairro, setor censitario, pixel, etc.
Obj.: Suavizar o mapa, an
alise da auto-correlacao espacial, ajuste de modelos de regressao.

2.3

Dados de Processos Pontuais

A informac
ao e a pr
opria posic
ao do evento que pode estar (ou nao) associada `a alguma marca.
Ex.: Localizac
ao de crimes, doencas, plantas, etc...
Obj.: Descrever e modelar a intensidade e o padrao da configuracao pontual.

2.4

Resumo: Estatstica espacial

2.4

Resumo: Estatstica espacial

Tipo de An
alise

Tipos de dados

Exemplos

Padr
oes pontuais

Eventos localizados

Ocorrencias de doencas

Determinacao de padroes

Superfcies

Amostras de campo

Depositos mineais

Interpolacao de superfcies

Areas

Contagens e entidades

Dados censitarios

Analise de vizinhanca e relacionamento das entidades (Regressao)

Problemas Tpicos

Introdu
c
ao `
a an
alise de configuraco
es espaciais de pontos (eventos)

Nesta sec
ao ser
a abordada a an
alise de configuracoes espaciais de pontos de um modo mais teorico. Para
a parte das an
alise no R e necess
ario um conhecimento basico sobre alguns comandos do software, para
iniciar as an
alises das configurac
oes espaciais de pontos.
No Anexo I est
a um roteiro para iniciar essas analises usando o pacote spatstat (Spatial Point Pattern
Analysis).

3.1

Configurac
ao pontual espacial

Uma configurac
ao pontual e um conjunto contavel de localizacoes/coordenadas (eventos ou objetos ou
pontos) xi que est
ao associados (ou n
ao) a informacoes adicionais (marcas e/ou covariaveis) dentro de uma
regi
ao (plana) de estudo W .

A configurac
ao pontual observada x e tratada como uma realizacao de um processo estocastico pontual
X no espaco bidimensional. Em geral, considera-se que os processos sejam estacion
arios e isotr
opicos.
Estacionariedade
Refere-se a alguma forma de invari
ancia de localizacao dos eventos, ou seja, as propriedades estatsticas
do processo estoc
astico s
ao invariantes sob translacao. Ex.: a esperanca de um subconjunto de eventos
independe da localizac
ao desses eventos na regiao (fraca).
Isotropia (para processos com dimens
ao >1)

3.2

Quest
oes cientficas tpicas (Mapas)

As propriedades estatsticas s
ao invariantes sob rotacao. Ex.: a covariancia entre dois eventos depende
somente da dist
ancia entre os pontos e n
ao da direcao entre eles.
Tem-se como caractersticas das configuracoes espaciais, que as localizacoes, em geral, nao estao associadas a valores, mas apenas a ocorrencia dos eventos. Excecao: eventos com marcas. A dimensao dos eventos
e zero e a
a rea dos eventos n
ao e uma medida valida apesar de em muitos casos ocuparem espaco.
Considerando a an
alise de configurac
oes espaciais de pontos no plano, as localizacoes pontuais podem
representar:
Um subconjunto (amostra) das localizacoes (eventos pontuais) na regiao sampled (sparsely) point pattern amostra.
Objetivos: Estimar intensidade dos eventos na area e testar hipotese de configuracao aleatoria completa.
Todas (mapa) as possveis localizac
oes (eventos pontuais) na regiao mapped point pattern mapa.
Objetivos: Estimar a intensidade, Testar a hipotese de configuracao aleatoria e ajustar um modelo para a
configurac
ao.

3.2

Quest
oes cientficas tpicas (Mapas)

Usualmente, o objetivo da an
alise est
a em fazer inferencias sobre o processo estocastico X , ou seja,
caracteriz
a-lo em termos de efeitos de primeira e segunda ordem.
1. Efeitos de Primeira Ordem
S
ao considerados globais ou de grande escala.Correspondem a variacoes no valor medio do processo.

Neste caso estamos interessados na intensidade do processo (N


umero de Eventos / Unidade de Area)
que mede a abund
ancia ou frequencia dos eventos, podendo ser constante (uniforme ou homogenea)
ou variar de localizac
ao para localizacao (nao uniforme, nao homogenea).
2. Efeitos de Segunda Ordem
Denominados locais ou de pequena escala, representam a dependencia estocastica entre os eventos do
processo.
Na an
alise da interac
ao procura-se responder se os eventos estao mais proximos (ou mais distantes) do
que seria esperado em uma configuracao aleatoria. Assim, configuracoes tpicas de interacao entre os
eventos s
ao: independencia, regular e agrupamentos.

3. Efeitos das covari


aveis (quando disponveis)
- Investigar se a intensidade depende das covariaveis.
- Adicionar o efeito das covari
aveis antes de analisar a interacao.
4. Segregac
ao de pontos com diferentes marcas (quando disponveis)
- Investigar se pontos com diferentes marcas sao encontrados em diferentes regioes dentro da area de
estudo.
5. Dependencia entre pontos com diferentes marcas (quando disponveis)
- Investigar se existe interac
ao (repulsao ou aproximacao) entre pontos com uma marca e pontos com
outro tipo de marca.
- Investigar se existe dependencia entre os valores das marcas em duas localizacoes especficas.

EXPLORANDO A PROPRIEDADE DE PRIMEIRA ORDEM (INTENSIDADE)

Explorando a propriedade de primeira ordem (intensidade)

A intensidade e a densidade media dos pontos, ou seja, o n


umero esperado de pontos por unidade de
area. A intensidade de um processo pontual e analoga ao valor esperado de uma variavel aleatoria. Ela pode
ser constante (uniforme ou homogenea) ou pode variar de localizacao para localizacao (nao uniforme ou nao
homogenea).
A intensidade e sempre dada em termos de n
umero por unidade de area (Ex.: Dois eventos por metro
quadrado). A sua investigac
ao deve ser uma das primeiras etapas na analise configuracoes pontuais.

4.1

Intensidade homog
enea

Se um processo pontual X e homogeneo, entao para qualquer sub-regiao B do espaco bidimensional, o


n
umero esperado de pontos em B e proporcional `a sua area:
E[N (X B)] =
areaB

(1)

em que e a constante de proporcionalidade (intensidade).


Um estimador n
ao tendencioso da verdadeira intensidade do processo pontual X e dado por:
=

n(x)
area(W )

em que n(x) e o n
umero de eventos dentro de W.
Usando o spatstat no RStudio

TM

Intensidade homog
enea no spatstat
Carregar os dados
> data(img01ppp)
> plot(img01ppp)
Utilize o comando abaixo para obter varias informacoes sobre os dados, inclusive a estimativa da
intensidade.
> summary(img01ppp)
Utilize o comando abaixo para extrair o valor da estimativa da intensidade.
> summary(img01ppp)$intensity
Utilize outros dados para obter as estimativas de intensidade.

(2)

4.2

Intensidade n
ao homogenea

Exemplo:
> dados01ppp = ppp(x=dados01\$x,y=dados01\$y,
z=dados01\$z,window = w, marks = dados01\$z,
check = TRUE)
> dados01ppp
Marked planar point pattern: 897 points
marks are numeric, of storage type double
window: rectangle = [0, 511] x [0, 767] units
> plot(dados01ppp,main="")
> summary(dados01ppp)
Marked planar point pattern: 897 points
Average intensity 0.002288633 points per square
unit
Coordinates are given to 2 decimal places
i.e. rounded to the nearest multiple of 0.01 units
marks are numeric, of type double
Summary:
Min. 1st Qu. Median
Mean 3rd Qu.
1.380
1.780
2.820
3.397
4.180

Max.
16.140

Window: rectangle = [0, 511] x [0, 767] units


Window area = 391937 square units
> summary(dados01ppp)$intensity
[1] 0.002288633

4.2

Intensidade n
ao homog
enea

Quando a intensidade do processo pontual varia de localizacao para localizacao, ela e denominada de nao
homogenea.
Assumindo que o n
umero esperado de pontos que estao dentro de uma pequena regiao du ao redor de uma
localizacao u e igual a (u)du. Ent
ao (u) e a funcao intensidade do processo pontual se satisfaz:
Z
E[N (X B)] =
(u)du
(3)
B

A medida de intensidade e definida como:


(B) = E[N (X B)]

(4)

Se existe a suspeita que a intensidade possa ser nao homogenea, a funcao intensidade (ou medida de
intensidade) pode ser estimada por: contagens por quadrados, metodos de alisamento nao parametricos
(Kernel ) e metodos parametricos (ajustando modelos).

4.2.1

Contagem de quadrados

Neste metodo, a janela W e dividida em sub-regioes (quadrados) B1 , B2 , , Bm de areas iguais. Conta-se


o n
umero de eventos dentro de cada sub-regiao, nj = n(x Bj ), para j = 1, ..., m.
Esses sao estimadores n
ao tendenciosos dos correspondentes valores da medida de intensidade (Bj ).
Obs.: Os valores da medida de intensidade sao influenciados pela quantidade e pelo tamanho das subregioes.

4.2

Intensidade n
ao homogenea

Usando o spatstat no RStudio

TM

Intensidade n
ao homog
enea (contagens por quadrantes) no spatstat
Utilize os comandos abaixo para obter as contagens por quadrantes e o grafico.
>
>
>
>
>

q=quadratcount(img01ppp, nx=5, ny=5)


q
mean(q)
plot(q, cex=2)
plot(dados01ppp, add=TRUE, cex=0.5)

Utilize outros dados para a mesma an


alise.
Exemplo:
> q=quadratcount(dados01ppp,nx=3,ny=3)
> q
x
y
[0,170] (170,341] (341,511]
(511,767]
117
118
162
(256,511]
80
93
96
[0,256]
80
71
80
> mean(q)
[1] 99.66667
> plot(quadratcount(dados01ppp,nx=3,ny=3))

4.2.2

Estimador de intensidade kernel (n


ucleo)

Um estimador kernel usual da func


ao intensidade e dado por:
n

(u) =

1 X 1
k
(u) i=1 2

u xi


(5)

em que:
u representa uma localizac
ao qualquer na area de estudo e xi sao as localizacoes dos eventos observados
n representa o n
umero de eventos
k(.) e a func
ao kernel, ou seja, uma funcao densidade de probabilidade escolhida de forma adequada
para construir uma superfcie contnua sobre os dados
O parametro > 0 denominado largura de faixa ou janela de suavizacao ou janela de alisamento e
controla o alisamento (amaciamento) da superfcie gerada
(u) e um fator para corrigir o efeito de borda
Escolha dos pontos u para o estimador de intensidade kernel
Podem ser escolhidos a partir dos vertices de uma grade regular fina posicionada sobre a janela W. Quanto
mais fina a grade maior a resoluc
ao da intensidade e, consequentemente, maior o trabalho computacional.
O R (spatstat) usa, como default, 128 x 128 pontos igualmente espacados.
Escolha da fun
c
ao kernel para o estimador de intensidade kernel

4.2

Intensidade n
ao homogenea

A func
ao kernel deve ser uma func
ao densidade de probabilidade bivariada simetricamente radial.Existem
diversas funcoes candidatas: Gaussiana, Epanechnikov, triangular, uniforme, etc.
A maioria apresenta a propriedade de que quanto mais proximo do ponto u estiver o evento, maior ser
a
o seu peso na func
ao intensidade. Uma funcao muito utilizada para k(.) e a quartica kernel dada por:
k(u) =

3
(1 ut u)2 , para ut u 1

(6)

Obs.: Sabe-se que a func


ao kernel exerce pouca influencia nas estimativas da intensidade.
Escolha do par
ametro de alisamento para o estimador de intensidade kernel
o principal problema do estimador e deve ter um valor maior que zero. Se o parametro se aproxima
E
de zero, a intensidade e estimada como uma serie de picos sobre os eventos.
Se o par
ametro se afasta de zero, todos os detalhes sao ignorados. Existem varias propostas para a escolha
deste par
ametro. Diggle (1981) sugere = 0, 68n0,2 para area unitarias, ja em 1985, Diggle sugere escolher
um valor que minimiza a soma de quadrados do erro obtidos por validacao cruzada (bw.diggle). Loader
(1999) sugere escolher um valor que minimiza a funcao de verossimilhanca do processo pontual obtidas por
validac
ao cruzada (bw.ppl).
Existem outras propostas, porem n
ao existe consenso sobre qual o mais apropriado. Pode-se testar v
arios
par
ametros e utilizar aquele que melhor representa a intensidade.
Efeito do par
ametro de alisamento

Corre
c
ao do efeito de borda no estimador de intensidade kernel
O estimador kernel pode ser influenciado pelo efeito de bordas. Este efeito pode ser minimizado atraves
de v
arios procedimentos. Um desses metodos consiste em calcular
Z
1 (u v)
(u) =
k
dv
(7)
2

W
que e um fator que representa o volume percentual da kernel centrada em u que se encontra dentro de
W.
Estimador de intensidade kernel

4.2

Intensidade n
ao homogenea

Finalmente, o estimador de intensidade kernel com um fator para a correcao do efeito de borda e densidade
kernel quartica (quarta ordem) pode ser expresso por:
(u) =


2
h2i
1 X 3
1

(u)
2
2

(8)

hi

em que hi representa a dist


ancia entre uma localizacao qualquer u e o evento observado xi .A Figura a
seguir ilustra a ideia do estimador de intensidade definido abaixo, desconsiderando o efeito de borda.
(s) =

X
hi

3
2


2
h2
1 2i

(9)

Uma visao do estimador kernel:

Pode-se utilizar outras formas de superfcie de sada das estimativas de intensidade tais como o grafico
em perspectiva ou o gr
afico de contornos (isolinhas).

4.2

Intensidade n
ao homogenea

Usando o spatstat no RStudio

10

TM

Usando o estimador kernel - spatstat


Usando a func
ao density.ppp kernel gaussiana

> help(density.ppp)
> den=density(dados01ppp)
> plot(density(dados01ppp))

Mudando o numero de pontos da malha:


> den=density(dados01ppp, dimyx=c(2,2))
> plot(den)

Mudando o metodo para calcular a banda de largura


> den = density(dados01ppp,
bw.diggle(dados01ppp))
> plot(den)

sigma

NEO E TESTES INICIAIS CONTRA A HIPO


TESE NULA DE
5 PROCESSO DE POISSON HOMOGE
COMPLETA ALEATORIEDADE
Outras forma de gr
aficos s
ao:
persp(den)

contour(den)

points(dados01ppp)

Brinque com a func


ao density.ppp considerando outras bases de dados e diferentes parametros.

Processo de Poisson homog


eneo e testes iniciais contra a hip
otese nula de completa aleatoriedade espacial

5.1

Processo de Poisson Homog


eneo (PPH)

O processo de Poisson homogeneo (uniforme) bidimensional com intensidade e o modelo estocastico


mais simples para representar uma configuracao de pontos no espaco e atua como uma fundacao em que
modelos mais complexos podem ser, subsequentemente, construdos.
Este modelo e muitas vezes chamado de modelo da Completa Aleatoriedade Espacial - CAE ou Aleatoriedade Espacial Completa - AEC ou Complete Spatial Randomness - CSR.
Sob CSR, os pontos sao independentes entre si e tem a mesma propensao de serem encontrados em qualquer lugar no plano bidimensional.
O processo de Poisson homogeneo com intensidade > 0 tem as seguintes propriedades:
PP1 O n
umero N (X B)de pontos dentro de qualquer regiao B e uma variavel aleatoria que segue a
distribuicao de Poisson.
PP2 O n
umero esperado de pontos dentro da regiao B e dado por E[N (X B)] =
areaB.
PP3 Se B1 e B2 s
ao conjuntos mutuamente excludentes, entao N (X B1 ) e N (X B2 ) sao variaveis
aleatorias independentes.

5.2

Testes contra a hip


otese nula de completa aleatoriedade espacial

12

PP4 Dado que N (X B) = n, os n pontos sao independentes e uniformemente distribudos em B.


Explicitamente, a distribuic
ao de probabilidade da variavel aleatoria do n
umero de pontos dentro de
qualquer regi
ao B, N (X B) e:
pn (B) =

1 (areaB)
e
( areaB)n
n!

n = 1, 2, ...

(10)

Realizac
oes do processo de Poisson homogeneo no plano podem ser simuladas facilmente utilizando as
propriedade PP1-PP4.
Usando o spatstat no RStudio

TM

No spatstat utiliza-se as func


oes:
rpoispp(lambda, win= win=owin(c(0,1),c(0,1)))
ou
runifpoint(n, win= win=owin(c(0,1),c(0,1)))

> rpoispp(1,win=owin(c(0,10),c(0,20)))
Planar point pattern: 195 points
window: rectangle = [0, 10] x [0, 20] units
plot(rpoispp((1),win=owin(c(0,10),c(0,20))))

> runifpoint(100,win=owin(c(0,10),c(0,20)))
Planar point pattern: 100 points
window: rectangle = [0, 10] x [0, 20] units
> plot(runifpoint(100,win=owin(c(0,10),c(0,20))))

5.2

Testes contra a hip


otese nula de completa aleatoriedade espacial

Um processo pontual pode falhar para satisfazer a hipotese nula de completa aleatoriedade espacial porque apresenta intensidade n
ao uniforme (violando a propriedade PP2) ou porque exibe dependencia entre os
pontos (violando as propriedade PP3 e PP4).
Os testes de hip
oteses contra a hip
otese nula de completa aleatoriedade espacial que consideram o primeiro
caso s
ao baseados nas estatsticas do qui-quadrado e de Kolmogorov-Smirnov.

EXPLORANDO A DEPENDENCIA
(INTERAC
AO)
ENTRE EVENTOS

Usando o spatstat no RStudio

13

TM

Testes contra a hip


otese nula de completa aleatoriedade espacial
O teste do qui-quadrado pode ser conduzindo atraves da funcao quadrat.test(X, nx=2, ny=2), em que
X e uma configurac
ao pontual no formato ppp e nx e ny determinam o n
umero de quadrados em que
s
ao feitas as contagens dos eventos.
O teste de Kolmogorov-Smirnov pode ser conduzindo atraves da funcao kstest(X, x), em que X e
uma configurac
ao pontual no formato ppp e x e um dos vetores das coordenadas (x, y) dos eventos.
Veja pgs. 89-92, Baddeley (2010)

Explorando a depend
encia (interac
ao) entre eventos

Supondo que a intensidade do processo e constante, para verificar se a configuracao e uma realizac
ao de
um Processo de Poisson Homogeneo, faz-se uma analise da interacao.
Tricotomia (Cressie, 1991)
i) Independencia: n
ao existe interac
ao entre os eventos PPH
ii) Regularidade: existe uma tendencia de repulsao entre os eventos.
iii) Agrupamentos: Existe uma tendencia de atracao entre os eventos.
Observa
c
ao: Regularidade e agrupamentos nem sempre sao explcitos, por isso necessita-se de metodos
estatsticos para fazer essa caracterizac
ao.
Existem basicamente dois grupos de metodos para diagnostico de interacao.
M
etodos Gr
aficos
- Gr
afico de Morishita
- Gr
afico de Fry
M
etodos baseados em dist
ancias
-

6.1
6.1.1

Dist
ancia entre um evento e o seu vizinho mais proximo (Fun
c
ao G)
Dist
ancia entre um ponto aleat
orio e o evento mais proximo (Fun
c
ao F)
Raz
ao entre as func
oes F e G (Fun
c
ao J)
Dist
ancia entre um evento e os demais (Fun
c
ao K)

M
etodos Gr
aficos
Gr
afico de Morisita

Passos para obter o gr


afico de Morisita:
1) O domnio espacial e subdividido em 2 2 quadrantes iguais.
2) Calcula-se o ndice de Morisita. Existem varias formas, uma delas e:
q
Ig =
Em que:

n
X

qi (qi 1)

i=1

q q(q q 1)

q
=

n
X

qi (qi 1)

i=1

n(n 1)

(11)

6.1

Metodos Gr
aficos

14

q: N
umero de quadrantes;
qi : N
umero de eventos no i-esimo quadrante;
n: O n
umero de eventos no domnio espacial;
q: N
umero medio de eventos por quadrante em cada subdivisao;
Se Ig = 1 Independencia.
Se Ig > 1 Agrupamentos.
Se Ig < 1 Regularidade.
3) Divide-se o espaco amostral sucessivamente (3 3, 4 4, ...) calculando Ig para cada subdivisao.
4) o gr
afico de Morisita e o diagrama de dispersao (Ig diagonal dos quadrados)
Interpreta
c
ao do gr
afico
O gr
afico de Morisita exibe um linha horizontal na altura (ndice) igual a 1, que representa a completa
aleatoriedade espacial.
Se a dispers
ao dos pontos estiver abaixo da linha de completa aleatoriedade espacial, e um indicativo de
que a configurac
ao possui regularidade. Se os pontos estiverem acima da linha, significa que ha agrupamentos. E se os pontos estiverem alternado entre acima e abaixo da linha significa que a configuracao dos pontos
e aleat
oria. Vejamos para o caso dos conjuntos de pontos cells, redwood e japanesepines.
Usando o spatstat no RStudio

TM

miplot(cells,xlab=Diagonal do quadrante, ylab =


ndice de Morisita)
Como se pode ver no gr
afico, a dispersao dos dados est
a abaixo da linha de c. a. e., o que indica
regularidade.

miplot(redwood,xlab=Diagonal do quadrante, ylab


= ndice de Morisita)
Para os dados redwood, podemos ver que a os pontos est
ao acima da linha indicando que ha agrupamentos.

6.1

Metodos Gr
aficos

15

miplot(japanesepines,xlab=Diagonal do quadrante,
ylab = ndice de Morisita)
Para os pinheiros japoneses, pode-se perceber que
a dispers
ao dos dados oscila em torno do ndice 1
indicando que o processo e aleat
orio.

Obs.: Apenas para


areas retangulares
6.1.2

Gr
afico de Fry

Foi proposto por Fry em 1979, a partir de uma proposta de Patterson (1934) trabalhando em mineralogia.
As etapas de construc
ao do gr
afico s
ao:
1) Colocar no centro de um papel transparente uma marca.
2) Colocar a folha transparente sobre a configuracao pontual, fazendo que a marca fique sobre um dos
eventos.
3) Na folha transparente copia-se os pontos da configuracao pontual com excecao daquele que foi marcado.
4) Repetir as etapas 2 e 3 para todos os eventos.
5) No final ser
a obtido um diagrama de dispersao com x (n 1) pontos, que e denominado de Gr
afico
de Fry.
Interpreta
c
ao do gr
afico
Se o gr
afico apresentar uma falha no centro, existem indcios de regularidade. Caso o grafico apresente
uma ou mais regi
oes com grande concentracao de pontos, existem indcios de agrupamentos.
No R, usando o SpatStat o comando e:
fryplot(X, argumentos graficos)
Usando o conjunto de dados Cells, redwood e japanesepines do R:
Usando o spatstat no RStudio

TM

fryplot(cells, cex=0.5)
Pode-se notar a partir do gr
afico uma grande falha
no centro, indicando que h
a regularidade no padrao
dos pontos para os dados das celulas.

6.2

Metodos baseados em dist


ancias

16

fryplot(redwood, cex=0.5)
Para os dados redwood, pode-se perceber que ha
tres regi
oes de concentrac
ao de pontos, o que indica
que h
a agrupamentos.

fryplot(japanesepines, cex=0.5)
No caso dos pinheiros japoneses, o gr
afico nao apresenta falha no centro ou grandes regi
oes de concentrac
ao de pontos, o que indica que o conjunto de
dados e completamente aleat
orio.

6.2
6.2.1

M
etodos baseados em dist
ancias
Fun
c
ao G

Esta func
ao foi proposta por Ripley (1976,1977).
Seja yi a dist
ancia entre o i-esimo evento e seu vizinho mais proximo dentro de uma regiao com
area
|A|. Assumindo que o processo pontual e estacionario, a funcao G e definida como sendo a probabilidade de
encontrar um evento que tenha um vizinho com distancia menos ou igual a y. Assim:
G(y) = P (yi y)

(12)

G(y) pode ser estimada pela func


ao de distribuicao emprica das distancias observadas entre vizinhos
mais pr
oximos.
O estimador mais simples (n
ao corrige efeito de bordas) de G(y) e dado por:
n
X

G(y)
=

I(yi y)

i=1

(13)

em que I(.) e uma func


ao indicadora.
Se yi y I(.) = 1 e 0 caso contr
ario.
Sob a hip
otese de completa aleatoriedade espacial, o n
umero de eventos em qualquer regiao com area |A|
segue uma distribuic
ao de Poisson com media = area|A|.
G(y) = F (yi y) =

X eu uyi
X eu u0
2
=1
= 1 eu = 1 earea|A| = 1 ey
yi
0!
y =0

yi y

(14)

6.2

Metodos baseados em dist


ancias

17

Na pr
atica n
ao e conhecido. Sob a suposicao de estacionariedade, pode ser estimado por:
= n

|A|

(15)

Em que n e o n
umero de eventos e |A| e a area de estudo.
Interpreta
c
ao do Gr
afico
2

Sob a hip
otese de completa aleatoriedade espacial (PPH) tem-se que G(y) = 1 ey . Cujo gr
afico
est
a a seguir:

O modo mais simples de interpretar a funcao G e atraves do grafico de G(y)


e G(y) contra as distancias y.

i) Os gr
aficos de G(y)
e G(y) s
ao muito proximos, indicando que a configuracao e um PPH (Processo
Pontual Homogeneo).

ii) Se G(y)
> G(y), indica um excesso de vizinhos mais proximos (distancias), do que o esperado pelo
PPH. Neste caso, isso implica a existencia de agrupamentos na configuracao.

iii) Se G(y)
< G(y), as dist
ancias entre vizinhos mais proximos sao menores do que esperado pelo PPH,
o que indica regularidade na configurac
ao.

6.2

Metodos baseados em dist


ancias

18

O estimador G(y)
dado pela equac
ao (13) e tendencioso tendo em vista o efeito de borda. Para minimizar esse efeito existem diversos estimadores propostos. Alguns sao: Kaplan-Meier e Hazard (propostos por
Baddeley), e Amostra redutiva (proposto por Ripley, 1976).
O estimador da amostra redutiva e dado por:
n
X

G(y)
=

I(yi y, y di )

i=1
n
X

(16)
I(y di )

i=1

em que di e a dist
ancia do iesimo evento ate a borda mais proxima.
Usando o spatstat no RStudio

TM

Ao aplicar o comando Gest sobre o conjunto de dados, o defaut do R faz os testes com os estimadores
com a correc
ao do efeito de borda. O grafico ira aparecer com as curvas da funcao teorica, a correc
ao
do efeito de borda de G (Kaplan-Meier),e o estimador de Hazard. Abaixo esta um exemplo com o
conjunto de dados Cells.
> gteste=Gest(cells)
> gteste
Function value object (class fv)
for the function r -> G(r)
.....................................................................
Math.label
Description
r
r
distance argument r
theo
G[pois](r)
theoretical Poisson G(r)
han
hat(G)[han](r) Hanisch estimate of G(r)
rs
hat(G)[bord](r) border corrected estimate of G(r)
km
hat(G)[km](r)
Kaplan-Meier estimate of G(r)
hazard hat(h)[km](r)
Kaplan-Meier estimate of hazard function h(r)
theohaz h[pois](r)
theoretical Poisson hazard function h(r)
.....................................................................

Vamos mostrar agora o resultado dos testes da funcao G, com os conjuntos de dados cells, redwood e
japanesepines.

6.2

Metodos baseados em dist


ancias

Usando o spatstat no RStudio

19

TM

gteste=Gest(cells)
plot(gteste,main=Cells)
Como se pode ver no gr
afico, a curva teorica esta
acima da observada (com as correc
oes), ou seja,

G(y)
< G(y), o que indica regularidade.

plot=Gest(redwood)
Para os dados redwood, pode-se perceber que a
curva te
orica est
a abaixo das observadas (com correc
ao do efeito de borda).Indicando que ha agrupamentos. Pode-se perceber tambem pelo grafico,
que ate uma dist
ancia 0,02 n
ao h
a nenhuma arvore
pr
oxima da outra.

plot(Gest(japanesepines)
No caso dos pinheiros japoneses, pode-se perceber
que as curvas observadas e a curva teorica estao
muito pr
oximas, o que indica que o conjunto de
dados e aleat
orio.

Mas o qu
ao pr
oximo ou dist
ante devem estar as curvas para dizer que o processo e um PPH, ou possui
regularidade ou agrupamentos?
Para isso existe a func
ao envelope, que realiza n simulacoes do processo determinadas pelo pesquisador.
A func
ao cria um intervalo de confianca para o qual, se a curva teorica estiver dentro do envelope indica que
o processo e um PPH, se a curva te
orica estiver acima do envelope indica regularidade e se estiver abaixo
indica agrupamentos. Vejamos:
Usando o spatstat no RStudio

TM

Ecells=envelope(cells,Gest,nsim = 99,rank=1)
plot(Ecells)
Como se pode ver no gr
afico, a curva teorica esta

acima do envelope, ou seja, G(y)


< G(y), o que
indica regularidade.

Eredwood=envelope(redwood,Gest,nsim=99,rank=1)
plot(Eredwood)
Para os dados redwood, pode-se perceber que a
curva te
orica est
a abaixo do envelope indicando
que h
a agrupamentos.

6.2

Metodos baseados em dist


ancias

20

Ejapanese=envelope(japanesepines,Gest,nsim=99,rank=1)
plot(Ejapanese)
Para os dados dos pinheiros japoneses, pode-se perceber que a curva te
orica est
a dentro do envelope
indicando que o processo e aleat
orio.

6.2.2

M
etodo de Monte Carlo

Metodo Monte Carlo e uma sada para fazer inferencias quando nao se conhece a distribuicao do par
ametro de interesse ou quando as suposic
oes de um modelo sao violadas.
H0 : A configurac
ao observada e uma realizacao de um P.P.H. (C.A.E.)
H1 : A configurac
ao observada e uma realizacao de um processo indefinido (diferente do P.P.H.)
Etapas:

1) Obter G(y)
i (y), com i = 1, ..., s a partir de realizacao de um P.P.H.
2) Obter G
(grafico aqui)
i (s) determinar
3) Dos s G
i (y) e L(y) = mini G
i (y), com i = 1, ..., s.
U (y) = maxi G
Observe que,
1
(17)
s+1
2
Um nvel de signific
ancia para esse teste e exatamente igual a
. Pode-se utilizar qualquer ordem
s+1
(k) para obter :
2k
=
(18)
s+1
Interpreta
c
ao do Gr
afico

P (G(y)
> U (y) = P (G(y)
> L(y) =

Fazer o gr
afico de G(y),
U (y) e L(y) contra y.

i) Se G(y)
> U (y) para algum y, rejeita-se H0 na direcao de agrupamentos.

ii) Se G(y)
< L(y) para algum y, rejeita-se H0 na direcao de regularidade.
Observe que

P (G(y))
> U (y)

P (G(y))
< L(y)

6.2.3

Fun
c
ao F (Ripley, 1977)

Seja uma configurac


ao de eventos gerada por um processo estacionario em uma regiao plana de area |A|.

6.2

Metodos baseados em dist


ancias

21

Seja xi a dist
ancia entre um ponto (n
ao e o evento) e o evento mais proximo (distancia ponto-evento).
A func
ao F, ou func
ao das dist
ancias dos espacos vazios e a funcao distribuicao das distancias pontoevento:
F (x) = P (xi 6 x)
(19)
Um estimador da func
ao F sem correc
ao do efeito de borda e dado por:
F (x) =

m
X
I(xi 6 x)
m
i=1

(20)

Em que m e o n
umero de pontos.
Para a escolha de m existem algumas propostas:
m e uma grade regular com aproximadamente

n, em que n e o n
umero de eventos (Diggle).

m e relacionada com o tamanho de um pixel. No spatstat tem-se

|A|
1
(eps =
) (Baddeley).
100
100

Sob a hip
otese de completa aleatoriedade espacial (PPH com intensidade ), F (x) e dada por
2

F (x) = 1 ex

(21)

no lugar de , em que
= n . Para corrigir o efeito de borda de F (x) pode-se
Na pr
atica utiliza-se
|A|
utilizar:
Kaplan-Meier (KM)
Amostra reduzida (RS)
Chiv-Stoyon (CS)
Interpreta
c
ao do Gr
afico
Usando o spatstat no RStudio

TM

plot(envelope(cells,fun=Fest,nsim=99,nrank=1))
Como se pode ver no gr
afico, a func
ao F estimada
est
a acima do envelope, o que indica regularidade.

6.2

Metodos baseados em dist


ancias

22

plot(envelope(redwood,fun=Fest,nsim=99,nrank=1))
Para os dados redwood, pode-se perceber que a
func
ao F estimada est
a abaixo do envelope indicando que h
a agrupamentos.

plot(envelope(japanesepines,fun=Fest,nsim=99,nrank=1))
Para os dados dos pinheiros japoneses, pode-se perceber que a func
ao F estimada est
a dentro do envelope indicando que o processo e aleatorio.

Obs.: Tendo como base dados simulados, pode-se dizer que a funcao F e melhor para detectar configurac
oes com agrupamentos, enquanto a funcao G e melhor para detectar configuracoes com regularidade.

6.2.4

Fun
c
ao J

As func
oes F e G descrevem a interac
ao existente na configuracao de maneiras opostas. Entretanto sob
a suposic
ao de completa aleatoriedade espacial (PPH), ambas sao iguais.
2

F (d) = G(d) = 1 ed

Observando este comportamento Van-Leishout e Baddeley (1996) propuseram a funcao J, definida por:
J(d) =

1 G(d)
,
1 F (d)

F (d) 6= 1

Sob a hip
otese de completa aleatoriedade espacial, J(d) 1 se J(d) > 1 indica regularidade. No caso de
J(d) < 1, indica que h
a agrupamentos.
Um estimador da func
ao J e obtido a partir dos estimadores das funcoes F e G:

= 1 G(d)
J(d)
1 F (d)
A func
ao J, em geral, apresenta o mesmo poder para detectar configuracoes com agrupamentos e regularidades. Entretanto, pode ter um poder menor que a funcao G para regularidade e que a funcao F para
agrupamentos.
Usando o spatstat no RStudio

TM

plot(envelope(cells,funJFest,nsim=99))
Como se pode ver no gr
afico, a func
ao J estimada
est
a acima do envelope, o que indica regularidade.

6.2

Metodos baseados em dist


ancias

23

r=seq(0,0.115,length.out = 50)
plot(envelope(redwood,r=r,Jest,nsim=99))
Para os dados redwood, pode-se perceber que a
func
ao J estimada est
a abaixo do envelope indicando que h
a agrupamentos.

plot(envelope(japanesepines,Jest,nsim=99))
Para os dados dos pinheiros japoneses, pode-se perceber que a func
ao J estimada est
a dentro do envelope indicando que o processo e aleatorio.

Pode-se utilizar os mesmos estimadores para correcao do efeito de borda utilizados nas funcoes F e G.
Entretanto os autores argumentam que na funcao J nao e necessario fazer correcao para o efeito de borda.

6.2.5

Fun
c
ao K

As func
oes F, G e J descrevem a configuracao pontual com base nas distancias entre vizinhos mais pr
oximos.
Para descrever a configurac
ao em diferentes escalas, Ripley (1976,1977) propos a funcao K, tambem conhecida como func
ao do segundo momento reduzido.
A func
ao K para um processo estoc
astico homogeneo (estacionario) e definida como:
k(d) = E[n
umero de eventos dentro de uma dist
ancia a partir de um evento arbitr
ario], ou seja:
K(d) =

E[.]

em que e a intensidade do processo.


Um estimador simples, sem correc
ao do efeito de borda, e obtido diretamente da definicao:
n X
n
X

K(d)
=

I(dij d)

i=1 j6=i

1)
(n

= n , n e o n
em que
umero de eventos da configuracao em uma regiao plana de area |A|. I(.) = 1 se
|A|
dij d e 0 caso contr
ario. Um estimador para a funcao K e:
|A|

K(d)
=

n X
n
X

I(dij d)

i=1 j6=i

n(n 1)

Teoricamente, a func
ao K cresce indefinidamente com o aumento de d. Para obter o estimador K(d),
Diggle recomenda d 0, 25|A|.
Sob a suposic
ao de completa aleatoriedade espacial (PPH), tem-se que:
E[.] = d2 K(d) = d2

(22)

6.2

Metodos baseados em dist


ancias

24

Interpreta
c
ao do gr
afico

Se K(d)
> K(d), indica a existencia de agrupamentos.

Se K(d)
< K(d), indica a existencia de regularidade.
Efeito de borda

K(d)
pode ser influenciado por eventos proximos das bordas. Para tentar corrigir esta influencia existem
v
arios procedimentos.
mais rapido, serve para qualquer tipo de area, mas e menos eficiente.
- Amostragem reduzida (border). E
- Estimador de Oscher (1983). Serve para qualquer tipo de area, e lento (se houver muitos pontos pode
ser muito trabalhoso) mas e muito eficiente.
muito eficiente, e rapido mas se usa apensas para areas retan- Estimador Isotr
opico (Ripley, 1977). E
gulares (no spatstat).
Para o estimador isotr
opico, considere uma circunferencia em torno do evento i passando no evento
j. wij e a proporc
ao da circunferencia dentro da area |A|.
(imagem k1)
n X
n
X

K(d)
=

|A|
n(n 1)

I(dij )

i=1 j=1

wij

(23)

Deve-se observar que wij pode ser diferente de wji .


6.2.6

Fun
c
ao L

Existem v
arias transformac
oes na funcao K para facilitar a interpretacao da mesma. Em geral, essas
transformac
oes s
ao utilizadas para linearizar e estabilizar a variancia da funcao K, e recebem o nome de
func
ao L. S
ao elas:
q

L(d)
= K(d)
(24)
s

K(d)

(25)

K(d)
d

(26)

2 d2
L(d)
= K(d)

(27)

L(d)
=
s

L(d)
=

2 d2
K(d)

L(d)
=
d
"
#

1
K(d)

L(d) = log
log(d)
2

(28)
(29)

Obs.: A func
ao K (ou L) e aproximadamente nao tendenciosa para d fixo. O vies da funcao K aumenta
com o aumento de d. Existem v
arias propostas para estabelecer o valor maximo de d.
Exemplo:

1
4 (menor

lado de uma regi


ao retangular)

6.3

6.3

Observac
oes gerais sobre as func
oes

25

Observac
oes gerais sobre as funco
es

1. As func
oes F, G, J, K e L s
ao desenvolvidas para processos estacionarios.
2. Se o processo n
ao for estacion
ario, essas funcoes podem detectar interacao quando na verdade, existe
apenas efeitos de primeira ordem.
3. Mesmo usando v
arias func
oes, n
ao h
a garantia de caracterizar completamente a configuracao.
4. Pode ocorrer que o mesmo processo apresente funcoes (Ex. K) diferentes.

ANEXOS

26

Anexos
Anexo I

ROTEIRO PARA INICIAR ANALISE DE CONFIGURAC


OES
DE PONTOS USANDO
SPATSTAT
Dentro do RStudioTM carregar o spatstat:
library(spatastat)
Usando help para conhecer os dados:
help(amacrine)
Usando demo para conhecer as configuracoes pontuais
demo(data)
Usando demo para conhecer o spatstat
demo(spatstat)
Entrando com os dados:
Entrando com os dados (*.txt) usando o comando read.table
dados01 <- read.table(C:/Users/DEX/Desktop/dados01.txt, header=TRUE)
summary(data)
Analogamente pode-se usar o comando toolsdo Rstudio. Para importar dados do excel, primeiro, devese salvar excel em .txt e depois usar os comandos acima.
Criando objeto no formato point pattern ppp
Primeiro passo: criar uma janela.
- Criando uma janela quadrada com lado igual a r
ws=square(r=1)
plot(ws, main=)
- Criando uma janela retangular usando o comando owine informacoes conhecidas (ex. do summary)
wr = owin(c(0, 100), c(0, 800))
plot(wr, main=)
Criando uma janela poligonal qualquer
wp = owin(poly = list(x = c(0.5, 1, 0.5, 0),y=c(0, 0.5, 1, 0.5)))
plot(wr, main=)
Observe que o polgono e construdo na forma anti-horario.
wp = owin(poly = list(x = c(0.5, 0.95, 1, 0.5, 0),y=c(0, 0.25, 0.5, 1, 0.5)))
plot(wp, main=)
wp = owin(poly = list(x = c(0.5, 0.95, 1, 0.5, 0.15, 0),y=c(0, 0.25, 0.5, 1, 0.85, 0.5)))
plot(wp, main=)
Criando uma janela a partir dos dados

ANEXOS

27

x = dados01$x
y = dados01$y
wr = ripras(x,y)
Caso a sua janela seja esteja disponvel em um formato shape(bastante usual para dados obtidos por
satelite ou de municpios, estados, etc.) a mesma pode ser importada e convertida no formato usado pelo
spatstat. Veja pg. 49 da apostila do Baddeley.
Criando o objeto pppsem marcas com janela wr
help(ppp)
dados01ppp=ppp(x, y, window=wr)
plot(dados01ppp, main = )
Criando o objeto pppcom marcas zcom janela wr
dados01pppm=ppp(x, y, window=wr, marks=dados01$z)
dados01pppm
plot(dados01pppm, main = )
Algumas operac
oes:
Para selecionar apenas as dez primeiras coordenadas da configuracao pontos01ppp obter o grafico efetuamse os seguintes comandos:
utt = dados01ppp[1:10, ]
plot(wr, main=)
points(dados01ppp)
points(utt,pch=3, add=TRUE) # Marca no grafico os pontos selecionados.
As principais func
oes para extrair informacoes de um objeto da classe ppp (X) sao:
npoints(dados01ppp)# para extrair o n
umero de pontos existentes em X.
coords(dados01ppp) # para extrair as coordenadas dos pontos existentes em X.
as.owin(dados01ppp) # para extrair a janela de X.
area.owin(dados01ppp) # para extrair area
perimeter(dados01ppp) # para extrair permetro