Anda di halaman 1dari 44

5 ANLISE ESPACIAL DE REAS

Gilberto Cmara
Marilia S Carvalho
Oswaldo Gonalves Cruz
Virginia Correa
5.1 INTRODUO
Este captulo discute mtodos de anlise de dados espaciais cuja
localizao est associada a reas delimitadas por polgonos. Este caso ocorre
com muita freqncia quando lidamos com eventos agregados por
municpios, bairros ou setores censitrios, onde no se dispe da localizao
exata dos eventos, mas de um valor por rea. Alguns desses indicadores so
contagens, como o caso da maior parte das variveis coletadas no censo:
por exemplo, o IBGE fornece, para cada setor censitrio, o nmero de chefes
de famlia em cada uma das faixas de renda consideradas. Diversos
indicadores de sade tambm so deste tipo: o Ministrio e Secretarias de
Sade organizam e disponibilizam dados de bitos, partos, doenas
transmissveis por municpio. Utilizando duas contagens bitos e
populao, por ex. taxas de densidade de ocorrncia, como taxas de
mortalidade ou incidncia so estimados. Outros indicadores bastante teis
so: (a) propores, como percentual de adultos analfabetos; (b) mdias,
como renda mdia do chefe da famlia por setor censitrio; e (c) medianas,
como mediana etria em homens.
A forma usual de apresentao de dados agregados por reas o uso
de mapas coloridos com o padro espacial do fenmeno. A Figura 5-1
mostra a distribuio espacial do ndice de excluso social
1
para os 96
distritos da cidade de So Paulo, para os dados do censo de 1991. Verifica-
se que 2/3 dos 96 distritos de So Paulo estavam abaixo dos ndices
mnimos de incluso social em 1991. Uma forte polarizao centro-periferia
claramente perceptvel no mapa, que apresenta duas grandes regies de
excluso social, as zonas Sul e Leste da cidade. Na zona Leste, nota-se um
gradiente do ndice de excluso/incluso social, que piora medida que nos
afastamos do centro. Na zona Sul, a descontinuidade do ndice mais

1
O ndice de excluso/incluso social uma medida agregada das disparidades
socioeconmicas, que varia de 1 a +1, onde o valor 0 (zero) indica o um nvel bsico de
incluso social.
A l l d d f
abrupta, e verificamos a existncia de distritos com altos ndices de
excluso/incluso social prximos a reas excludas.


Figura 5-1 ndice de Excluso/Incluso Social dos Bairros da Cidade de So Paulo para os
dados de 1991, com 96 distritos agrupados por sextis.
Grande parte dos usurios limita seu uso de SIG a essas operaes de
visualizao, tirando concluses intuitivas. Mas possvel ir muito alm.
Quando visualizamos um padro espacial, muito til traduzi-lo em
consideraes objetivas: o padro que observamos aleatrio ou apresenta
uma agregao definida? Esta distribuio pode ser associada a causas
mensurveis? Os valores observados so suficientes para analisar o fenmeno
espacial a ser estudado? Existem agrupamentos de reas com padres
diferenciados dentro da regio de estudo?
Para abordar estas questes, este captulo apresenta um conjunto de
tcnicas de anlise espacial de dados agregados por reas. O primeiro passo
escolher o modelo inferencial a ser utilizado. A hiptese mais comum supor
que as reas so diferenciadas, e que cada uma delas possui uma identidade
prpria. Do ponto de vista estatstico, isto implica em que cada rea
apresenta uma distribuio de probabilidade distinta das demais, o chamado
modelo espacial discreto. A alternativa supor que o fenmeno estudado
apresenta continuidade espacial, formando uma superfcie, o chamado
modelo espacial contnuo estudado no captulo anterior. Neste caso, as reas
so consideradas apenas um suporte para coleta de dados, e o modelo
inferencial desconsidera os limites de cada rea. A produo de superfcies a
partir de dados de rea ser discutida no final deste captulo.
A questo de agregao de contagens em reas levanta ainda problemas
conceituais importantes: Pode-se estimar comportamentos individuais a
partir de dados agregados? Em que medida a comportamento dos
A l l d d f
agregados reflete mais do que a soma dos indivduos? Qual o erro cometido
ao estimar indicadores onde as contagens so muito pequenas? Neste
captulo, aps a apresentao dos modelos adequados anlise de dados
agregados por reas sero abordados os conceitos bsicos da anlise
espacial, para dados agregados por rea.
5.2 MODELOS DE DISTRIBUIO DE DADOS EM REAS
O modelo de distribuio mais utilizado para dados de rea o modelo
de variao espacial discreta. Considere-se a existncia de um processo
estocstico n i Z
i
,..., 1 , = , onde
i
Z a realizao do processo espacial na
rea i e n o total de reas A
i
. O objetivo principal da anlise construir
uma aproximao para a distribuio conjunta de variveis aleatrias
} ..., , {
1 n
Z Z Z = , estimando sua distribuio.
De forma semelhante ao modelo de eventos pontuais discutido no
captulo 2, considere-se
i
Z como a varivel aleatria que descreve a
contagem, indicador ou taxa associada rea A
i
. Dispomos de um valor
observado z
i
, correspondente contagem na i-sima rea. A hiptese mais
comum supor que a varivel aleatria
i
Z , que descreve o nmero de
ocorrncias em cada rea pode ser associada a uma distribuio de
probabilidade de Poisson. Tal hiptese justifica-se por ser esta a distribuio
estatstica mais adequada a fenmenos que envolvem contagens de eventos,
como o caso na maioria dos dados agregados por reas. Evidentemente
outras distribuies podem ser mais adequadas, dependendo da varivel a ser
analisada. Taxas podem ser modeladas utilizando a distribuio normal, pois
ainda que esta admita valores negativos, evidentemente impossveis neste
tipo de indicador, as propriedades da distribuio normal podem ser
adequadas.
A alternativa hiptese de variao espacial discreta supor que os
dados apresentam variao espacial contnua. Considera-se um processo
estocstico } , ), ( {
2
A A x x Z , cujos valores podem ser conhecidos em
todos os pontos da rea de estudo. Neste caso, as contagens agregadas
devem ser transformadas em taxas ou indicadores, pois o que varia
continuamente no espao so as taxas e no as contagens. A estimao deste
processo estocstico pode ser feita como descrito nos captulos 3 e 4 deste
livro. O uso de modelos espaciais contnuos ser discutido na seo 5.8.
A l l d d f
5.3 PROBLEMAS DE ESCALA E A RELAO REA-INDIVDUO
Um dos problemas bsicos com dados agregados por rea que, para
uma mesma populao estudada, a definio espacial das fronteiras das
reas afeta os resultados obtidos. As estimativas obtidas dentro de um
sistema de unidades de rea so funo das diversas maneiras que estas
unidades podem ser agrupadas; pode-se obter resultados diferentes
simplesmente alterando as fronteiras destas zonas. Este problema
conhecido como problema da unidade de rea modificvel.
Em muitos dos estudos envolvendo dados de rea, o dado agregado a
nica fonte disponvel, porm o objeto de estudo diz respeito a
caractersticas e relacionamentos individuais. Alguns destes estudos
procuram estabelecer relaes de causa-efeito entre diferentes medidas,
como o uso de modelos de regresso; um exemplo clssico correlacionar
anos de estudo do chefe de famlia e sua renda, que usualmente apresenta
forte correlao. Note-se, no entanto, que devido aos efeitos de escala e de
agregao de reas, os coeficientes de correlao podem ser inteiramente
diferentes no indivduo e nas reas. Este fenmeno, nas cincias sociais e na
epidemiologia, chamado de falcia ecolgica.
Considere um conjunto de indivduos onde so medidas duas
caractersticas de cada um dos indivduos, conforme estimado na Figura
5-2. Uma regresso considerando todos os indivduos (linha negra do
quadro esquerda) resulta em coeficiente positivo de 0,1469. Esses
indivduos pertencem a grupos distintos, separando cada grupo conforme o
atributo cor, obtm-se correlao negativa, variando entre 0,5 e 0,8.
Utilizando as mdias de cada grupo (linha negra do quadro direita), o
coeficiente vai a 0,99. importante observar que cada modelo mede um
aspecto diferente e que no h modelo correto. No primeiro caso, pode-se
dizer que sem informaes que permitam separar os indivduos nos grupos
coloridos, as variveis se relacionam positivamente. No ltimo exemplo, o
interesse do estudo o efeito da variao na mdia de uma varivel sobre a
mdia da outra, nos grupos. So perguntas diferentes, e modelos diferentes.
A l l d d f
Figura 5-2 Modelos de regresso: indivduos, indivduos em estratos diferentes e grupos.
Para ilustrar o problema das mudanas de unidade de anlise, estudou-
se os dados de censo de Belo Horizonte para o ano de 1991, em duas
escalas: os setores censitrios e as unidades de planejamento (UP),
mostradas na Figura 5-2. Os setores censitrios foram utilizados pelo IBGE
para o censo de 1991, e as unidades de planejamento correspondem a
agregamentos de reas utilizados pela prefeitura de Belo Horizonte.
Figura 5-3. Setores censitrios ( esquerda) e Unidades de Planejamento ( direita) para o
municpio de Belo Horizonte.
A partir das variveis do censo, foram computadas 1000 correlaes
entre pares de variveis, tanto por setor censitrio como por UP. Por
exemplo, tomou-se as variveis nmero de chefes de famlia com
rendimento entre 0,5 e 1 salrio mnimo e nmero de chefes de famlia
com 1 a 3 anos de estudo e computou-se a correlao para o caso de
setores censitrios (0,79) e para o caso de UP (0,96). Os resultados,
mostrados na 1aLela 5-1, indicam que as correlaes nos setores censitrios
so significativamente menores que as correlaes por unidades de
planejamento. Nada menos que 773 correlaes so menores para os
A l l d d f
setores censitrios que para as UPs. Apenas 40 (4%) tem o comportamento
oposto. Em algumas situaes, ocorre inclusive mudana de sinal, isto ,
variveis correlacionadas negativamente no nvel dos setores censitrios
passam a ser correlacionadas positivamente. Verifica-se que a reduo de
escala (reas maiores) tende a homogeneizar os dados, reduzir a flutuao
aleatria e reforar correlaes que, assim, aparentam ser mais fortes que
em reas menores.
Os resultados acima indicam que no se pode afirmar que qualquer
escala seja a certa, mas apenas qual dos modelos melhor serve ao que se
deseja esclarecer: correlaes mais fracas e maior flutuao aleatria, porm
com mais homogeneidade interna, ou mais fortes com o vis ocasionado
por desconsiderar a disperso e a heterogeneidade em torno da mdia nas
grande reas. Como regra geral, quanto mais desagregado o dado, maior a
flexibilidade na escolha de modelos; pois agregar em regies maiores fcil,
mas desagregar impossvel.
Tabela 5-1
CORRELAES ENTRE PARES DE VARIVEIS SEGUNDO
DIFERENTES UNIDADES DE REAS SETOR CENSITRIO E UNIDADE DE
PLANEJ AMENTO - PARA O CENSO DE 1991 EM BELO HORIZONTE
Correlaes por Unidade de Planejamento
-0,4/-0,2 -0,2/0,0 0,0/0,2 0,2/0,4 0,4/0,6 0,6/0,8 0,8/1,0 Pares
-0,8/-0,6 0 0 1 1 1 0 2 5
-0,6/-0,4 2 11 7 4 2 7 0 33
-0,4/-0,2 3 23 14 11 10 3 6 70
-0,2/0,0 3 5 9 27 34 13 21 112
0,0/0,2 0 1 2 42 75 32 55 207
0,2/0,4 0 2 0 17 44 50 68 181
0,4/0,6 0 2 3 1 10 42 110 168
0,6/0,8 0 0 2 7 8 9 75 101
0,8/1,0 0 0 0 4 4 3 112 123
C
o
r
r
e
l
a

o

p
o
r

S
e
t
o
r

C
e
n
s
i
t

r
i
o

Totais 8 45 38 114 187 159 449 1000

Na prtica, por razes de confidencialidade, os dados individuais muito
raramente esto disponveis. O que fazer ento? Uma possibilidade
trabalhar com os Uma possibilidade trabalhar com os dadosna maior escala
A l l d d f
espacial possvel, usualmente denominadas micro-reas, por exemplo, setores
censitrios. E utilizar tcnicas de agregao ou de otimizao combinatria
para obter regies mais agregadas, mas que preservem o fenmeno estudado
da melhor forma possvel. Deste modo, deve-se reconhecer que o problema
da escala um efeito inerente aos dados agregados por reas. Ele no pode
ser removido e no pode ser ignorado. Para minimizar seu impacto com
relao a esses estudos, deve-se procurar utilizar a melhor escala de
levantamento de dados disponvel e utilizar tcnicas que permitam tratar a
flutuao aleatria, sempre buscando critrios de agregao dos dados que
sejam consistentes com os objetivos do estudo.
5.4 ANLISE EXPLORATRIA
As tcnicas de anlise exploratria aplicadas a dados espaciais so
essenciais ao desenvolvimento das etapas da modelagem estatstica espacial,
em geral sensvel ao tipo de distribuio, presena de valores extremos e
ausncia de estacionariedade. As tcnicas empregadas so, em geral,
adaptaes das ferramentas usuais. Assim, se na investigao de valores
extremos se utiliza ferramentas grficas como histogramas ou boxplots, na
anlise espacial importante tambm investigar outliers no s no conjunto
dos dados mas tambm em relao aos vizinhos. Alm disso, a no-
estacionariedade do processo espacial na regio de estudo tambm deve ser
investigada, nos seus vrios aspectos: variao na mdia (primeira ordem), na
varincia e na covarincia espacial.
Visualizao de Dados
A forma mais simples e intuitiva de anlise exploratria a visualizao
de valores extremos nos mapas. Vale ressaltar que o uso de diferentes pontos
de corte da varivel induz a visualizao de diferentes aspectos. Os SIGs
dispem usualmente de trs mtodos de corte de varivel: intervalos iguais,
percentis e desvios padres. No caso de intervalos iguais, em que os valores
mximo e mnimo so divididos pelo nmero de classes. Se a varivel tem
um distribuio muito concentrada de um lado, este corte deixa apenas um
nmero muito pequeno de reas nas classes da perna mais longa da
distribuio; como resultado, a maior parte das reas ser alocada a uma ou
duas cores. O uso de percentis para definao de classes obriga a alocao
dos polgonos em quantidades iguais pelas cores; isto pode mascarar
diferenas significativas em valores extremos e dificultar a identificao de
reas crticas. Finalmente, o uso de desvios padres, no qual a distribuio da
varivel apresentada em gradaes de cores diferentes para valores acima e
abaixo da mdia, faz a suposio da normalidade da distribuio da varivel;
esta hiptese pouco realista no caso de variveis censitrias em pases de
A l l d d f
grande desigualdade social com o Brasil. Em resumo, parte importante da
anlise exploratria experimentar diferentes pontos de corte da varivel na
visualizao dos mapas.
As diferentes tcnicas de visualizao esto ilustradas no exemplo a
seguir, em que mostramos a distribuio espacial do indicador que mede a
proporo de recm-natos que nasce em boas condies de sade (ndice de
APGAR) para os bairros do Rio de J aneiro, no ano de 1994. Foram geradas
duas visualizaes, ambas com 5 pontos de corte e 5 cores. Na Figura 5-4,
utilizou-se quintis; na Figura 5-5, cinco classes de igual tamanho. Como a
distribuio da varivel no simtrica, quando se divide em classes de
amplitudes iguais as de valores mais baixos (ou piores), assinaladas em
vermelho ficam reduzidas a poucas reas, enquanto que na diviso em
quintis, por definio, um quinto das reas ficar em cada classe. A pergunta
ento : o que se deseja mostrar? Certamente o responsvel pela assistncia
peri-natal da regio no ficar satisfeito visualizando um quinto dos bairros
como sendo de alto risco. Por outro lado, como as reas onde o ndice
mais baixo tm populao pequena, a confiabilidade dos valores encontrados
pode ser efeito apenas da flutuao aleatria descrita anteriormente. Vale a
pena ento olhar mapas? Claro que sim, da mesma forma como olhamos
histogramas e box-plots, e procurando sempre ver a distribuio utilizando
diferentes pontos de corte. Os SIGs em geral tem uma forma padro, mas
dezenas de possibilidades podem e devem ser exploradas.

Figura 5-4 Distribuio do ndice de APGAR, agrupada em quintis.
A l l d d f

Figura 5-5 - Distribuio do ndice de APGAR, agrupada em classes de igual amplitude.
Outra questo interessante a comparao de mapas. Supondo a
distribuio espacial de um indicador em diferentes anos: como visualizar a
evoluo temporal? Certamente os pontos de corte da varivel nos diferentes
perodos devem ser os mesmos. Observe na Figura 5-4 a evoluo temporal
da mortalidade por homicdios para os trinios 79-81 e 90-92, no Estado do
Rio de J aneiro. A apresentao dos quintis da distribuio conjunta dos
indicadores permite visualizar bem o espalhamento desta doena.


Figura 5-6 Mortalidade por homicdios no Rio de Janeiro, para os trinios 79-81 e 80-92.
A l l d d f
Grficos de Mdias e Medianas
Os grficos de mdias e medianas segundo linhas e colunas permitem
explorar simultaneamente a presena de tendncia (no-estacionariedade de
primeira ordem), e no-estacionariedade de segunda ordem, onde a varincia
e a covarincia entre vizinhos no se mantm constante. Para construir estes
grficos, utiliza-se as coordenadas dos centrides das reas, aproximando-as
para um espaamento regular de forma a montar uma matriz. Calcula-se
ento as mdias e as medianas do indicador ao longo das linhas (eixo Leste-
Oeste) e colunas (eixo Norte-Sul) desta matriz. Esta tcnica permite
identificar a flutuao das medidas ao longo de duas direes, sugerindo a
presena de valores discrepantes quando a diferena entre estas grande, e a
tendncia ao longo de uma direo quando os valores variam suavemente.

Figura 5-7 Mdias e medianas para escolaridade e renda na Ilha do Governador.


L-O
S
-
N
o = Mediana
x = Mdia
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
oo
o
o
ooo
o
oo
o
o
o
o
o
o
o
o
oo
o
o
o
colunas
R
E
N
D
A
0 10 20 30 40
-
1
0
1
2
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
x
xx
x
x
x
x
x
x
x
x
x xx
x
x
x
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
RENDA
lin
h
a
s
-1 0 1 2
0
1
0
2
0
3
0
4
0
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
colunas
E
S
C
O
L
A
R
I
D
A
D
E
0 10 20 30 40
0
.
2
0
.
4
0
.
6
0
.
8
x
x
x
x
x
x
xx
x
xx
x
x
xx
x
x
x
x
x
x
xx
x
xx
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ESCOLARIDADE
lin
h
a
s
0.2 0.4 0.6
0
1
0
2
0
3
0
4
0
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
RENDA
ESCOLARIDADE
Eixo Norte-Sul
Eixo Leste-Oeste
A l l d d f
Na Figura 5-7, apresenta-se o resultado desta tcnica aplicada a dois
indicadores socioeconmicos do censo 1991 renda mdia do chefe da
famlia e proporo de chefes de famlia com escolaridade igual ou superior
ao segundo grau para setores censitrios da Ilha do Governador, no Rio de
J aneiro. Esta composta por 225 setores censitrios, cujos centrides esto
assinalados no primeiro quadro da figura: observe que nas extremidades do
mapa a quantidade de pontos muito pequena, e, consequentemente,
qualquer medida nesta rea ser pouco robusta.
No eixo Norte-Sul (colunas) pode-se observar que a renda mdia do
chefe da famlia apresenta tendncia varivel, bem menor no centro da
regio. A mesma coisa acontece para escolaridade, embora com maior
flutuao. No eixo Leste-Oeste (linhas), tambm parece haver algum
deslocamento para valores mais altos no sentido leste, mas o descolamento
de mdias (x) e medianas (o) sugere a presena de valores extremos dos
indicadores. A variao na mdia dos indicadores na regio est,
aparentemente, dividida entre as duas direes analisadas, e pode-se explorar
melhor a tendncia atravs da rotao dos eixos de referncia.
Anlise de Autocorrelao Espacial
Outra etapa da anlise exploratria visa identificar a estrutura de
correlao espacial que melhor descreva os dados. A idia bsica estimar a
magnitude da autocorrelao espacial entre as reas. Neste caso, as
ferramentas utilizadas so o ndice global de Moran, o ndice de Geary e o
variograma. Quando se dispe de grande nmero de reas, resultantes por
exemplo de escalas espaciais detalhadas, a natureza dos processos envolvidos
tal que muito provvel a existncia de diferentes regimes de correlao
espacial em diferentes sub-regies. Para evidenciar estes regimes espaciais,
pode-se utilizar os indicadores locais de autocorrelao espacial e o mapa de
espalhamento de Moran, descritos tambm nesta seo. Todas estas
estatsticas dependem da definio de vizinhana adotada, discutida a seguir.
Matrizes de Proximidade Espacial
Para estimar a variabilidade espacial de dados de rea, uma ferramenta
bsica a matriz de proximidade espacial, tambm chamada matriz de
vizinhana. Dado um conjunto de n reas {A
1
,..,A
n
}, construmos a matriz
W
(1)
(n x n), onde cada um dos elementos w
ij
representa uma medida de
proximidade entre A
i
e A
j
. Esta medida de proximidade pode ser calculada a
partir de um dos seguintes critrios:
w
ij
= 1, se o centride de A
i
est a uma determinada distncia de A
j
; caso
contrrio w
ij
= 0
A l l d d f
w
ij
= 1, se A
i
compartilha um lado comum com A
j
, caso contrrio w
ij
=
0
w
ij
= l
ij
/l
i
, onde l
ij
o comprimento da fronteira entre A
i
e A
j
e l
i
o
permetro de A
i

Como a matriz de proximidade utilizada em clculos de indicadores
na fase de anlise exploratria, muito til normalizar suas linhas, para que
a soma dos pesos de cada linha seja igual a 1. Isto simplifica muito vrios
clculos de ndices de autocorrelao espacial, como se ver a seguir. A
Figura 5-8 ilustra um exemplo simples de matriz de proximidade espacial,
em que os valores dos elementos da matriz refletem o critrio de adjacncia e
foram normalizados.
Figura 5-8- Matriz de proximidade espacial de primeira ordem, normalizada pelas linhas.
A idia da matriz de proximidade espacial pode ser generalizada para
vizinhos de maior ordem (vizinhos dos vizinhos). Com critrio anlogo ao
adotado para a matriz de vizinhana de primeira ordem, pode-se construir as
matrizes W
(2)
, ..., W
(n)
. Por exemplo, na Figura 5-6, as reas A e C so
vizinhas na matriz de proximidade espacial de ordem 2. No que segue, por
simplicidade, os coeficientes da matriz de primeira ordem so designados
simplesmente por w
ij
, e os das matrizes de ordem k por w
ij
(k)
e que essas
matrizes esto normalizadas por linhas.
Mdia Mvel Espacial
Uma forma simples de explorar a variao da tendncia espacial dos
dados calcular a mdia dos valores dos vizinhos. Isto reduz a variabilidade
espacial, pois a operao tende a produzir uma superfcie com menor
flutuao que os dados originais. A mdia mvel
i
associada ao atributo z
i
,
relativo i-sima rea, pode ser calculada a partir dos elementos w
ij
da
matriz normalizada de proximidade espacial W
(1)
, tomando-se simplesmente
a mdia dos vizinhos:
A
B
C
D
E
A B C D E
A 0 0,5 0 0,5 0
B 0,25 0 0,25 0,25 0,25
C 0 0,5 0 0 0,5
D 0,33 0,33 0 0 0,33
E 0 0,33 0,33 0,33 0
A l l d d f

=
=
n
j
i ij i
z w
1

(5.1.)
A Figura 5-9 ilustra o uso do estimador de mdia mvel para o
percentual de idosos (mais de 70 anos) para os 96 distritos da cidade de So
Paulo. Estes dados so indicadores da grande disparidade social da cidade,
com uma grande variao entre o centro (onde a proporo de idosos chega
a 8%) com a periferia (onde h vrias regies com menos de 1%). O valor
mximo do percentual de idosos de 8,2% e o mnimo de 0,8%, com um
desvio padro de aproximadamente 2%. Com a mdia local, h um
alisamento: o valor mnimo de 1% e o mximo reduzido a 6,8%. Pode-se
notar, ao comparar os dois mapas da Figura 5-9, que a mdia mvel local
fornece uma viso das grandes tendncias do fenmeno em estudo e no caso
do percentual de idosos, mostra um forte gradiente centro-periferia.

Figura 5-9- Distribuio dos idosos na cidade de So Paulo (censo de 1991). esquerda,
apresentao dos valores por distribuio estatstica. direita, mdia mvel local.
Indicadores Globais de Autocorrelao Espacial: ndices de Moran e Geary
Um aspecto fundamental da anlise exploratria espacial a
caracterizao da dependncia espacial, mostrando como os valores esto
correlacionados no espao. Neste contexto, as funes utilizadas para estimar
quanto o valor observado de um atributo numa regio dependente dos
valores desta mesma varivel nas localizaes vizinhas so a autocorrelao
espacial e o variograma. O ndice global de Moran I, a expresso da
autocorrelao considerando apenas o primeiro vizinho:
A l l d d f

=
= =


=
n
i
i
n
i
n
j
j i ij
z z
z z z z w
I
1
2
1 1
) (
) )( (
(5.2.)
Na equao acima, n o nmero de reas, z
i
o valor do atributo
considerado na rea i, z o valor mdio do atributo na regio de estudo e
w
ij
os elementos da matriz normalizada de proximidade espacial. Neste caso
a correlao ser computada apenas para os vizinhos de primeira ordem no
espao, conforme estabelecido pelos pesos w
ij
. O mesmo clculo feito para
matrizes de proximidade de maior ordem permite estimar a funo de
autocorrelao para cada ordem de vizinhana (ou lag).

=
= =


=
N
i
i
n
i
n
j
j i
) k (
ij
) k (
) z z (
) z z )( z z ( w n
I
1
2
1 1
(5.3.)
De uma forma geral, o ndice de Moran presta-se a um teste cuja
hiptese nula de independncia espacial; neste caso, seu valor seria zero.
Valores positivos (entre 0 e +1) indicam para correlao direta e negativos,
(entre 0 e 1) correlao inversa. Uma vez calculado, importante
estabelecer sua validade estatstica. Em outras palavras, ser que os valores
medidos representam correlao espacial significativa? Para estimar a
significncia do ndice, ser preciso associar a este uma distribuio
estatstica, sendo mais usual relacionar a estatstica de teste distribuio
normal. Outra possibilidade, sem pressupostos em relao distribuio, e
abordagem mais comum um teste de pseudo-significncia. Neste caso, so
geradas diferentes permutaes dos valores de atributos associados s
regies; cada permutao produz um novo arranjo espacial, onde os valores
esto redistribudos entre as reas. Como apenas um dos arranjos
corresponde situao observada, pode-se construir uma distribuio
emprica de I, como mostrado na Figura 5-10. Se o valor do ndice I medido
originalmente corresponder a um extremo da distribuio simulada, ento
trata-se de valor com significncia estatstica.
No caso do ndice excluso/incluso social em So Paulo, apresentado
na Figura 5-1, o ndice global de Moran medido 0,642. Uma pseudo-
distribuio com 100 valores est mostrada na Figura 5-10. Neste caso, o valor
de significncia associado de 5,23, o que nos leva a rejeitar a hiptese nula
(no correlao entre as regies), com significncia de 99,5%. Pode-se dizer
ento que a excluso social em So Paulo apresenta forte estrutura espacial,
A l l d d f
parte variao ampla, ou tendncia, parte dependncia espacial entre
vizinhos.
Figura 5-10 Exemplo de distribuio simulada para o ndice de Moran.

A hiptese implcita do clculo do ndice de Moran a estacionariedade
de primeira e segunda ordem, e o ndice perde sua validade ao ser calculado
para dados no estacionrios Quando existir no-estacionariedade de
primeira ordem (tendncia), os vizinhos tendero a ter valores mais
parecidos que reas distantes, pois cada valor comparado mdia global,
inflacionando o ndice. Da mesma forma, se a varincia no constante, nos
locais de maior varincia o ndice ser mais baixo, e vice-versa. Quando o
dado no-estacionrio, a funo de autocorrelao continua decaindo
mesmo aps ultrapassar a distncia onde h influncias locais. Algumas
variaes deste modelo so o teste C de Geary e o teste Ipop. O primeiro (C
de Geary) difere do teste I de Moran por utilizar a diferena entre os pares,
enquanto que Moran utiliza a diferena entre cada ponto e a mdia global.
Assim, o indicador C de Geary assemelha-se ao variograma, e o I de Moran
ao correlograma.



= = =
= =

=
n
j
n
i
i ij
n
i
n
j
j i ij
n
i
z w
) z z ( w ) n (
C
1 1
2
1
1
2
1
1
(5.4.)
O teste Ipop tambm utilizado para detectar desvios de uma
distribuio espacial aleatria, porm incorpora a variao da populao nas
reas. Assim, sensvel ocorrncia de aglomerado intra-rea ou seja, a
ocorrncia de elevado nmero de casos numa pequena populao de um
nico municpio alm dos aglomerados entre reas, onde municpios com
muitos casos so adjacentes. Portanto o ndice Ipop pode ser decomposto em
A l l d d f
um componente intra-reas e outro inter-reas, que podem ser apresentados
sob forma percentual nos resultados. A hiptese nula (H
0
) assume que a
variao geogrfica do nmero de casos segue a variao geogrfica do
tamanho da populao, sendo particularmente til quando a populao das
reas no homognea.
) 1 (
) 2 1 ( ) )( (
) (
1 1 1
2
1 1 1 1
2
b b w d X w d d X
d w b N e w b N d e d e w N
Ipop
m
i
ii i
m
i
m
j
ij j i
m
i
i ii
m
i
i ij j j
m
i
m
j
i i ij


=


= = =
= = = =
(5.5.)
onue:= = meio ue ieas
k == meio roral ue casos em rouas as ieas.

==
meio ue casos na iea =

=
Piooiao ue casos na iea==E

Lk F
u
=
Poulaao roral em rouas as ieas

==
1amanlo ua oulaao na iea =

==
Piooiao ue oulaao na iea =E

Lk F=
w
==
Dieiena enrie a raxa u

e a meuia ue u

=
Pesos ariiLuuos conoime a conexao enrie as ieas==e==
== Pievalencia meuia Ek LuF=
A tabela 5.2 apresenta os resultados dos testes de aglomerado espacial
para a mortalidade por homicdios no Estado do Rio. Observe que o grau de
significncia do teste Ipop maior que o Moran, e que aproximadamente
metade da agregao deve-se a fatores intra-municipais. Ou seja, alm de
municpios prximos apresentarem padres semelhantes, existe um excesso
de casos dentro dos municpios violentos, que ultrapassa o esperado em
funo da populao.
TABELA 5.2
RESULTADOS DOS TESTES DE AGLOMERADOS ESPACIAIS:
HOMICDIOS NO RIO DE J ANEIRO, 90-92
Moran I Ipop
Indicador 0,5861 0,00015
p-valor 7,5091 88,9238
% entre reas - 54,3
% intra reas - 45,7

A l l d d f
Variograma
De maneira anloga ao apresentado no captulo 3, podemos utilizar o
variograma como indicador da dependncia espacial. Para tanto, associamos
o valor nico do atributo de cada rea a um ponto, usualmente o centro
geomtrico ou populacional do polgono. Com base nestas localizaes,
calcula-se a funo variograma. Note-se quando o dado no-estacionrio,
tambm o variograma no se estabiliza, mas continua crescendo sempre com
a distncia. Como exemplo de uso do variograma para dados de rea, a
Figura 5-11 ilustra o ndice de Desenvolvimento Humano IDH para o
estado de So Paulo, calculado pelo IPEA, com base no censo de 1991. A
Figura 5-12 apresenta o variograma do IDH, computado a partir dos
centride de cada municpio.

Figura 5-11- IDH para So Paulo (censo de 1991)

Figura 5-12 Variograma experimental do IDH para So Paulo (censo de 1991). Passo de
amostragem: 40 km (tolerncia : 20 km).
A l l d d f
O que mostra o variograma da Figura 5-10? No eixo dos X,
apresentam-se as distncias entre os municpios, e no eixo Y, a mdia do
quadrado das diferenas do IDH, para municpios separados por faixas de
distncia, com intervalos de 40 km e tolerncia de 20 km. Assim, o primeiro
ponto calcula a diferena de IDH entre os municpios cuja distncia entre os
centros seja de 20 a 60 Km, e assim por diante, at a distncia de 400 km. O
grfico evidencia uma forte dependncia espacial entre os indicadores de
qualidade de vida dos municpios de So Paulo. Trata-se de um resultado dos
processos de ocupao do estado, que seguiram perspectivas regionais. A
partir da lgica de expanso do caf do sculo XIX, observa-se hoje uma
regio de forte produo agrcola situada ao longo do eixo da rodovia
Anhanguera, a predominncia da pecuria na regio do Oeste Paulista, e
uma forte concentrao industrial na regio metropolitana de So Paulo, no
ABC e no mdio Vale do Paraba. Assim, todos os processos histricos
apontam para uma dependncia espacial no desenvolvimento econmico no
estado.
Para considerar um exemplo adicional, considere-se o estudo sobre
mortalidade por homicdios na regio Sudeste. que so a causa de mais de
20% dos bitos dos homens entre 15 e 45 anos no Brasil. A Figura 5-13
ilustra a distribuio espacial da mortalidade por homicdios, usando como
indicador o logaritmo do coeficiente de mortalidade especfico , por 100.000
residentes do mesmo grupo etrio. Entendendo o processo da violncia
como o de uma "epidemia" da modernidade, que se "propaga" no espao,
uma simples observao visual permite identificar uma elevada ocorrncia de
mortes violentas no RJ , com uma tendncia espacial capital-interior. No caso
de ES e SP, h uma concentrao prxima da capital e grandes cidades. No
entanto, em MG, as reas mais violentas situam-se longe das regies
metropolitanas, o que indica um padro espacial distinto. Adicionalmente,
h uma marcada transio na fronteira entre MG e RJ , indicando uma
mudana nas condies de disseminao da "epidemia da violncia". Cabe
lembrar que foi utilizado o logaritmo do indicador, dado ser a distribuio
do mesmo bastante concentrada em torno de valores muito baixos, com
uma grande cauda a direita.
A l l d d f

Figura 5-13 - Mortalidade por homicdos, regio Sudeste do Brasil
O correlograma da Figura 5-14 apresenta a autocorrelao espacial
entre os municpios de cada estado, expressa atravs da funo definida pela
equao 5.3. O grfico indica a existncia de uma forte tendncia espacial no
RJ , pois a funo de autocorrelao no se estabiliza com a distncia, mas
continua decrescente, ao contrrio de MG, que no apresenta dependncia
espacial marcante. Em outras palavras, no RJ , se o municpio vizinho ao seu
violento, altamente provvel que a sua cidade tambm o seja; todo o
estado apresenta uma estrutura de violncia regionalizada, e a violncia decai
no interior do estado. Em MG, esta padro no observado: a violncia
parece flutuar aleatoriamente.
Figura 5-14. Correlograma da mortalidade por homicdios nos estados do Sudeste.

Diagrama de Espalhamento de Moran
O diagrama de espalhamento de Moran uma maneira adicional de
visualizar a dependncia espacial. Construdo com base nos valores
-0.2
0.0
0.2
0.4
0.6
MG
0 100 200 300 400 500 600
distncia entre pares
RJ
0 100 200 300 400 500 600
A
u
t
o
c
o
r
r
e
l
a

o
A l l d d f
normalizados (valores de atributos subtrados de sua mdia e divididos pelo
desvio padro), permite analisar o comportamento da variabilidade espacial.
A idia comparar os valores normalizados do atributo numa rea com a
mdia dos seus vizinhos, construindo um grfico bidimensional de z (valores
normalizados) por wz (mdia dos vizinhos), que dividido em quatro
quadrantes, como mostrado na Figura 5-15 para o ndice de
excluso/incluso social de So Paulo, censo de 1991. Os quadrantes podem
ser interpretados como:
Q1 (valores positivos, mdias positivas) e Q2 (valores negativos, mdias
negativas): indicam pontos de associao espacial positiva, no sentido
que uma localizao possui vizinhos com valores semelhantes.
Q3 (valores positivos, mdias negativas) e Q4 (valores negativos, mdias
positivas): indicam pontos de associao espacial negativa, no sentido
que uma localizao possui vizinhos com valores distintos.
Figura 5-15 Diagrama de Espalhamento de Moran para o ndice de excluso/incluso
social de So Paulo, censo de 1991.
O diagrama de espalhamento de Moran corrobora os resultados
apresentados, onde indicamos que o ndice global de Moran para o
indicador de excluso/incluso social para os distritos de So Paulo
apresentava valor estatisticamente significativo. Como mostrado na Figura
5-15, a maior parte dos distritos de So Paulo est localizado nos quadrantes
Q1 e Q2, que apresentam associao espacial positiva. Os pontos localizados
nos quadrantes Q3 e Q4 podem ser vistos como regies que no seguem o
mesmo processo de dependncia espacial das demais observaes.
Evidentemente, o diagrama reflete a estrutura espacial nas duas escalas de
anlise: vizinhana e tendncia.
Z = 0,642*WZ
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
-1,0 -0,5 0,0 0,5 1,0 1,5
Z
W
Z
Q Q
4 4 Q Q
1 1
Q Q
2 2 Q Q
3 3
A l l d d f
O ndice de Moran I equivalente ao coeficiente de regresso linear que
indica a inclinao da reta de regresso () de wz em z. Para o caso dos
dados apresentados na Figura 5-15, este coeficiente igual a 0,642, o mesmo
valor calculado aplicando-se a frmula da equao 5.3. O diagrama de
espalhamento de Moran tambm pode ser apresentado na forma de um
mapa temtico bidimensional, no qual cada polgono apresentado
indicando-se seu quadrante no diagrama de espalhamento, como ilustra a
Figura 5-16, em que mostramos o mapa do espalhamento do ndice de
Moran para o ndice de excluso/incluso social da cidade de So Paulo em
1991. Nesta figura, Alto-Alto, Baixo-Baixo, Alto-Baixo e Baixo-Alto
indicam, respectivamente, os quadrantes Q1, Q2, Q3 e Q4, mostrados na
Figura 5-15. Nota-se uma forte polarizao centro-periferia e observa-se que
os distritos localizados nos quadrantes Q3 e Q4 (indicados pela cor azul)
podem ser entendidos como regies de transio entre o centro da cidade
(que tende a apresentar valores positivos do ndice de excluso/incluso
social) e as duas grandes periferias de So Paulo (zona Sul e zona Leste).
Figura 5-16 Mapa de Espalhamento de Moran para o ndice de excluso/incluso
social da cidade de So Paulo, censo 1991
Indicadores Locais de Associao Espacial
Os indicadores globais de autocorrelao espacial, como o ndice de
Moran, fornecem um nico valor como medida da associao espacial para
todo o conjunto de dados, o que til na caracterizao da regio de estudo
como um todo. Quando lidamos com grande nmero de reas, muito
provvel que ocorram diferentes regimes de associao espacial e que
apaream mximos locais de autocorrelao espacial, onde a dependncia
espacial ainda mais pronunciada. Assim, muitas vezes desejvel examinar
padres em maior detalhe. Para tanto, preciso utilizar indicadores de
associao espacial que possam ser associados s diferentes localizaes de
uma varivel distribuda espacialmente. Os indicadores locais produzem um
A l l d d f
valor especfico para cada rea, permitindo assim a identificao de
agrupamentos. O ndice local de Moran pode ser expresso para cada rea i a
partir dos valores normalizados z
i
do atributo como:

=
=
=
n
j
j
n
j
j ij i
i
z
z w z
I
1
2
1
(5.6.)
A significncia estatstica do uso do ndice de Moran local computada
de forma similar ao caso do ndice global. Para cada rea, calcula-se o ndice
local, e depois permuta-se aleatoriamente o valor das demais reas, at obter
uma pseudo-distribuio para a qual possamos computar os parmetros de
significncia.Uma vez determinada a significncia estatstica do ndice local
de Moran, til gerar um mapa indicando as regies que apresentam
correlao local significativamente diferente do resto do dados. Estas regies
podem ser vistas como "bolses" de no-estacionariedade, pois so reas com
dinmica espacial prpria e que merecem anlise detalhada. Para o caso do
ndice de excluso/incluso social da cidade de So Paulo (censo de 1991),
esse mapa (Figura 5-17) mostra claramente os agregados de pobreza e de
riqueza na cidade. Na zona Leste e na zona Sul de So Paulo h regies
crticas, onde o agravamento das condies sociais resulta numa degradao
significativa das condies de vida.


Figura 5-17 Indicador de autocorrelao espacial para o ndice de excluso/incluso
social de So Paulo (censo de 1991). Apenas os valores com significncia maior que 95%
esto mostrados.
A l l d d f
5.5 ESTIMAO DE INDICADORES:
A seo 5.3 apresentou o problema de agregao de contagens em reas,
com a recomendao final de utilizar a melhor resoluo espacial disponvel.
Na prtica, o uso desta estratgia requer um tratamento adicional nos dados,
principalmente nos casos de pequenas reas em que calculamos taxas sobre
um universo populacional reduzido. Para entender melhor o problema,
considere-se a Figura 5-18 que apresenta um mapa temtico com a
mortalidade infantil dos bairros do Rio de J aneiro, em 1994. Neste mapa, o
Rio est dividido em 148 bairros, e a taxa de mortalidade infantil anual para
cada bairro, expressa o nmero de bitos de menores de 1 ano, por mil
nascidos vivos.


Figura 5-18 - Taxa total de mortalidade infantil por mil nascidos vivos no Rio de
Janeiro, em 1994.
Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade
de vrios bairros, com 15 bairros apresentando uma taxa maior que 40
bitos por mil nascidos, e 2 casos com taxas acima de 100 por mil nascidos.
Um observador desatento poderia concluir que todos estes bairros
apresentam um grave problema social. Na realidade, muitos destes valores
extremos ocorrem nos bairros com pequenas populaes, pois a diviso da
cidade utilizada esconde enormes diferenas na populao em risco, variando
de 15 at 7500 crianas por bairro. Por exemplo, considere uma regio com
15 crianas nascidas e nenhuma morte, o que aparentemente indicaria uma
situao ideal. Se apenas uma criana morre neste ano, a taxa passa de 0 por
mil para 66 por mil !
Tais problemas so tpicos de recobrimentos espaciais sobre divises
poltico-administrativas, onde se analisam reas com valores muito distintos
de populao em risco. Vrios estudos tm mostrado que em divises
polticas como bairros e municpios apresentam relaes inversas de rea e
populao, isto , os maiores bairros em populao tendem a ter menores
A l l d d f
reas, e vice-versa. Por isso mesmo, freqentemente o que mais chama a
ateno num mapa temtico de taxas, que so os valores extremos, muitas
vezes so resultado de um nmero reduzidssimo de observaes, sendo
portanto menos confivel, ou seja, apenas flutuao aleatria .
Para suavizar a flutuao aleatria, considera-se que a taxa estimada
pela diviso simples entre contagem de bitos e de populao taxa
observada apenas uma realizao de um processo no observado, e que
tanto menos confivel quanto menor a populao. Assim, prope-se re-
estimar uma taxa mais prxima do risco real ao qual a populao est
exposta. A primeira providncia fazer um grfico que expresse a taxa em
funo da populao em risco, como mostrado na Figura 5-19.
Figura 5-19 Taxa de mortalidade infantil no Rio de Janeiro em 1994 em funo do
nmero de nascimentos por bairro.
No caso do Rio, a taxa mdia de mortalidade infantil da cidade, em
1994, foi de 21 bitos por mil nascidos. Neste grfico, observa-se que os
bairros com maior populao apresentam taxas prximas da mdia da
cidade. Conforme diminui a populao em risco, aumenta muito a flutuao
da taxa medida, formando o que j foi denominado de efeito funil. Nos
bairros de menor populao, esta variao oscilou de 0 a quase 130 por mil.
razovel supor que as taxas das diferentes regies esto
autocorrelacionadas, e levar em conta o comportamento dos vizinhos para
estimar uma taxa mais realista para as regies de menor populao. Esta
formulao sugere o uso de tcnicas de estimao bayesiana. Nesse contexto,
considera-se que a taxa real
i
associada a cada rea no conhecida, e
dispomos de uma taxa observada
i i i
n z t = , onde n
i
o nmero de pessoas
observadas, z
i
o nmero de eventos na i-sima rea.
A l l d d f
A idia do estimador bayesiano supor que a taxa
i
uma varivel
aleatria, que possui uma mdia
i
e uma varincia
2
i
. Pode ser
demonstrado que o melhor estimador bayesiano dado por uma combinao
linear entre a taxa observada e a mdia
i
:

i i i i i
) w ( t w

+ = 1 , (5.7.)
O fator w
i
dado por:

i i i
i
i
n
w

+
=
2
2
(5.8.)
O peso w
i
tanto menor quanto menor for a populao em estudo da
i-sima rea e reflete o grau de confiana a respeito de cada taxa. Para o caso
de populaes reduzidas, a confiana na taxa observada diminui e a
estimativa da taxa se aproxima de nosso modelo a priori (ou seja, se
aproxima de ). Regies com populaes muito baixas tero uma correo
maior, e regies populosas tero pouca alterao em suas taxas. Logo
i
ser
estimado, quando n for pequeno, com maior peso da mdia da vizinhana.
Neste ponto, deve-se observar que a formulao bayesiana requer as
mdias e varincias
i
e
2
i
para cada uma das reas. A abordagem mais
simples para tratar a estimao destes parmetros o chamado estimador
bayesiano emprico. Este estimador parte da hiptese que a distribuio da
varivel aleatria
i
a mesma para todas as reas; isto implica que todas as
mdias e varincias so iguais. Pode-se ento estimar
i
e
2
i
diretamente a
partir dos dados. Neste caso, calcula-se
i
a partir das taxas observadas:

=
i
i
n
y
(5.9.)
E estima-se a varincia
2
i
a partir da varincia das taxas observadas
com relao mdia estimada:

n n
t n
i
i i


) (
2
2

(5.10.)
As regies tero suas taxas re-estimadas aplicando-se uma mdia
ponderada entre o valor medido e a taxa mdia global, em que o peso da
mdia ser inversamente proporcional populao da regio. Ao aplicarmos
esta correo s taxas de mortalidade infantil do Rio de J aneiro, observamos
que h uma reduo significativa nos valores extremos. Por exemplo, a
Cidade Universitria (Ilha do Fundo), onde nasceram 13 crianas em 1994,
apresentou uma taxa aparente de 76 por mil nascidos vivos e uma taxa
A l l d d f
corrigida de 36 por mil. Bairros com pouca populao no grupo de risco
apresentaram redues semelhantes, enquanto que bairros mais populosos
mantiveram as taxas originalmente medidas. A comparao entre a taxa
primria e o valor estimado est apresentada na Figura 5-18. Em resumo,
preciso extremo cuidado ao produzir mapas temticos, especialmente em
casos onue aiesenramos raxas meuiuas soLie oulaes com valoies
ieuuziuos.
Figura 5-18. Comparao entre a taxa de mortalidade infantil observada e a taxa estimada
pelo mtodo bayesiano emprico.
O estimador bayesiano emprico pode ser generalizado para incluir
efeitos espaciais. Neste caso, a idia fazer a estimativa bayesiana
localmente, convergindo em direo a uma mdia local e no a uma mdia
global. Basta aplicar o mtodo anterior em cada rea considerando como
regio a sua vizinhana. Isto equivalente a supor que as taxas da
vizinhana da rea i possuem mdia
i
e varincia
2
i
comuns. Neste caso,
pode-se falar em estimativa bayesiana emprica local. A seguir, apresenta-se a
deteco de hansenase em Recife (Figura 5-20) onde foi utilizado esse mtodo
local para estimar a taxa da doena nos bairros da cidade. Atravs do mapa
corrigido foi possvel indicar bairros prioritrios para a atuao da
vigilncia epidemiolgica por apresentarem valores altos mesmo aps
suavizao do indicador.
A l l d d f
0
0 - 2.28
2.28 - 4.63
4.63 - 8.79
8.79 - 144.33
N
E W
S
1.07 - 2.53
2.53 - 4.35
4.35 - 5.83
5.83 - 8.43
8.43 - 13.59
Coef. Deteco 93-97
Alisamento Bayesiano
Emprico

Figura 5-20 - Taxas de deteco mdia de hansenase em menores de 15 anos, perodo
1993-1997, por bairro do Recife, e taxas estimadas atravs de alisamento bayesiano.

Como apresentado acima, o estimador bayesiano emprico parte da
hiptese que a distribuio da varivel aleatria
i
a mesma para todas as
reas e que as mdias e varincias
i
e
2
i
para cada uma das reas so iguais.
Deve-se lembrar que esta hiptese nem sempre realista, pois em estatsticas
socioeconmicas (como no caso dos dados de sade discutidos) as
caractersticas das populaes estudadas so muito heterogneas. Deste
modo, em muitos casos desejvel fazer a hiptese de que cada rea tem seu
prprio padro (e os
i
e
2
i
so distintos); isto implica em estimar a
distribuio conjunta } ..., , {
1 n
Z Z Z = das variveis aleatrias.
primeira vista, a estimativa da distribuio conjunta pode parecer
impossvel, dado que est disponvel para anlise apenas uma amostra de
cada uma das variveis aleatrias, ou seja, sabe-se apenas o valor coletado em
cada unidade de rea. Entretanto, os estimadores bayesianos completos (full
Bayes) tornaram possvel resolver o problema, atravs da utilizao de
tcnicas de simulao baseadas em MCMC Markov Chain Monte Carlo
para a inferncia dos parmetros de interesse. Em funo da complexidade
de formulao, este livro no aborda os estimadores bayesianos baseados em
MCMC. O leitor deve referir-se bibliografia no final do captulo para
maiores detalhes.
A l l d d f
5.6 MODELOS DE REGRESSO
Um dos tipos de estudos mais comuns com dados de rea o uso de
modelos de regresso. Um modelo de regresso uma ferramenta estatstica
que utiliza o relacionamento existente entre duas ou mais variveis de
maneira que uma delas possa ser descrita ou o seu valor estimado a partir das
demais. Na situao dos dados espaciais, quando est presente a
autocorrelao espacial, as estimativas do modelo devem incorporar esta
estrutura espacial, uma vez que a dependncia entre as observaes altera o
poder explicativo do modelo. A significncia dos parmetros usualmente
superestimada, e a existncia de variaes em larga escala pode at mesmo
induzir a presena de associaes esprias.
Neste livro, no ser feita uma descrio detalhada dos modelos
tradicionais de regresso, disponvel em diversos livros consagrados, mas
apenas ser apresentado um breve resumo, necessrio ao entendimento dos
modelos de regresso espacial. O objetivo geral de uma anlise de regresso
linear quantificar a relao linear entre uma varivel dependente e um
conjunto de variveis explicativas, conforme expresso na equao matricial:
) , 0 N( ~ ,
2
+ = X Y ou (5.11.)

(
(
(
(
(
(

+
(
(
(
(
(
(

(
(
(
(
(
(

=
(
(
(
(
(
(

n k nk n
k
k
n
..
..
..
..
X .. X
.. .. .. ..
.. .. .. ..
X .. X
X .. X
Y
..
..
Y
Y

2
1
1
1
0
1 1
1 2 21
1 1 11
2
1
1
1
1
(5.12.)

onde Y a varivel dependente, composta de um vetor (n x 1) de
observaes tomadas em cada um das n reas, X uma matriz (n x k) com k-
1 variveis explicativas tambm tomadas nas n reas, vetor (k x 1) com os
coeficientes de regresso, e um vetor (n x 1) de erros aleatrios, ou
resduos.
Tipicamente, quando se faz uma anlise de regresso, procura-se
alcanar dois objetivos: (a) encontrar um bom ajuste entre os valores preditos
pelo modelo e os valores observados da varivel dependente; (b) descobrir
quais da variveis explicativas contribuem de forma significativa para este
relacionamento linear. Para tanto, a hiptese padro que as observaes
no so correlacionadas, e, consequentemente, que os resduos
i
do modelo
tambm so independentes e no-correlacionados com a varivel
dependente, tem varincia constante, e apresentam distribuio normal com
mdia zero.
A l l d d f
No entanto, no caso de dados espaciais, onde est presente a
dependncia espacial, muito pouco provvel que a hiptese padro de
observaes no correlacionadas seja verdadeira. No caso mais comum os
resduos continuam apresentando a autocorrelao espacial presente nos
dados, que pode se manifestar por diferenas regionais sistemticas nas
relaes do modelo, ou ainda por uma tendncia espacial contnua.
A investigao dos resduos da regresso em busca de sinais de estrutura
espacial o primeiro passo em uma regresso espacial. As ferramentas usuais
de anlise grfica e o mapeamento de resduos, podem dar as primeiras
indicaes de que os valores observados esto mais correlacionados do que
seria esperado sob uma condio de independncia. Neste caso, utilizar os
testes de autocorrelao espacial Moran e Geary nos resduos da
regresso informa sobre sua presena. Em caso de existir autocorrelao,
deve-se especificar um modelo que considere a interferncia causada pela
mesma.
No restante desta seo, apresentamos vrios tipos de modelos de
regresso que permitem incorporar efeitos espaciais, desde aqueles que
tratam a estrutura espacial de forma global (como um nico parmetro) at
modelos em que os parmetros variam continuamente no espao.
Modelos com Efeitos Espaciais Globais
A incluso explcita de efeitos espaciais em modelos de regresso pode
ser feita de diferentes formas. A classe de modelos de regresso espacial mais
simples, chamados de modelos com efeitos espaciais globais, supe que
possvel capturar a estrutura de correlao espacial num nico parmetro,
que adicionado ao modelo de regresso tradicional. Neste caso, tem-se
duas alternativas para tratar a autocorrelao global em um modelo de
regresso. Na primeira, a autocorrelao espacial ignorada atribuda
varivel dependente Y. Esta abordagem denominada como modelo espacial
autoregressivo misto (Spatial AutoRegressive SAR ou ainda como spatial
lag model), dado que se considera a dependncia espacial atravs da adio
ao modelo de regresso de um novo termo na forma de uma relao espacial
para a varivel dependente. Formalmente isto expresso como:
+ + = X WY Y , (5.13.)
onde W a matriz de proximidade espacial, e o produto WY expressa a
dependncia espacial em Y e o coeficiente espacial autoregressivo. A
hiptese nula para a no existncia de autocorrelao que = 0. A idia
bsica neste modelo incorporar a autocorrelao espacial como
componente do modelo. Em termos de componentes individuais, este
modelo pode ser expresso como
A l l d d f

i
i
i i
j
j ij i
x y w y + +
|
|
|
.
|

\
|
=

=1
(5.14.)
O segundo tipo de modelo de regresso espacial com parmetros globais
considera que os efeitos espaciais so um rudo, ou perturbao, ou seja,
fator que precisa ser removido. Neste caso, os efeitos da autocorrelao
espacial so associados ao termo de erro e o modelo pode ser expresso por:
+ = + = W X Y , , (5.15.)
onde W a componente do erro com efeitos espaciais, o coeficiente
autoregressivo e a componente do erro com varincia constante e no
correlacionada. A hiptese nula para a no existncia de autocorrelao
que = 0, ou seja, o termo de erro no espacialmente correlacionado. Este
modelo tambm chamado de modelo do erro espacial (spatial error model
ou ainda Conditional AutoRegressive - CAR).
A partir da equao 5.15, pode-se mostrar que o modelo de erro
espacial pode tambm ser expresso como:
+ = WX X WY Y (5.16.)
ou ainda como
+ = X W I Y W I ) ( ) ( (5.17.)
o que pode ser visto como uma regresso no-espacial nas variveis
filtradas
X W I X Y W I Y ) ( , ) (
* *
= = (5.18.)
Na prtica, a distino entre os dois tipos de modelos de regresso
espacial com parmetros globais difcil pois, apesar da diferena nas suas
motivao, eles so muito prximos em termos formais. Estes modelos esto
includos em ambientes de estatstica espacial avanados, como nos softwares
SpaceSat, S-Plus e R, esse de domnio pblico. Nas referncias no final do
captulo, o leitor poder encontrar indicaes sobre como tais modelos
podem ser estimados e sobre testes de hipteses sobre seu comportamento.
Os modelos de regresso espacial com efeitos globais partem do
princpio de que o processo espacial subjacente aos dados analisados
estacionrio. Isto implica que os padres de autocorrelao espacial
existentes nos dados podem ser capturados num nico parmetro. Na
prtica, para conjuntos de dados censitrios de mdio e grande porte, a
natureza dos processos espaciais tal que diversos padres de associao
espacial podem estar presentes. Esta hiptese, que pode ser verificada, por
A l l d d f
exemplo, pelos indicadores locais de autocorrelao espacial, est na origem
aos modelos cujos parmetros variam no espao, discutidos a seguir.
Modelos de Regresso com Efeitos Espaciais Locais
(a) Caso Discreto Modelos de Regresso com Regimes Espaciais
Quando o processo espacial no-estacionrio, os coeficientes de
regresso precisam refletir a heterogeneidade espacial. Para tanto, h duas
grandes alternativas: (a) modelar a tendncia espacial de forma contnua,
com parmetros variantes no espao; (b) modelar a variao espacial de
forma discreta, ao dividir o espao em sub-regies estacionrias, chamadas
de regimes espaciais.
A idia de regimes espaciais dividir a regio de estudo em sub-regies,
cada uma com seu padro espacial prprio, e realizar regresses em
separado, uma para cada regio. As observaes so classificadas em dois ou
mais subconjuntos, a partir de uma varivel por indicao, a saber:
1 ,
1 1 1 1
= + = ind X Y (5.19.)
2 ,
2 2 2 2
= + = ind X Y (5.20.)
Apesar de cada regime possuir os seus prprios valores de coeficientes,
estes valores so estimados conjuntamente, ou seja, todo o conjunto de
observaes disponvel utilizado na regresso. Para a determinao dos
regimes espaciais, as tcnicas de anlise exploratria apresentadas no incio
do captulo so muito teis, especialmente o mapa de espalhamento de
Moran e os indicadores locais de autocorrelao espacial.
Na prtica, para os dados scio-econmicos tpicos de cidades
brasileiras, o modelo de regimes espaciais tende a apresentar resultados
melhores que os modelos de regresso simples ou de regresso espacial com
efeitos globais. Isto ocorre em funo das fortes desigualdades sociais no
Brasil, que ocasionam descontinuidades abruptas nos fenmenos estudados,
como no caso do recorte entre favelas e reas ricas, como freqente nas em
nossas grandes cidades.
Modelos de Regresso com Efeitos Espaciais Locais
(b) Modelos de Regresso com Efeitos espaciais contnuos
Esta classe de modelos procura modelar fenmenos no-estacionrios.
Diferentemente do modelo por regimes espaciais, os efeitos espaciais so
modelados de forma contnua, com duas hipteses: (a) a existncia de uma
variao suave em larga escala, sem efeitos locais significativos ou (b) a
existncia de variaes locais contnuas, sem uma forte tendncia global. O
primeiro caso corresponde s superfcies de tendncia, descritas no captulo 3
deste livro, resumidas no que segue para convenincia de leitura. O modelo
A l l d d f
de superfcies de tendncia considera um processo espacial onde o valor da
varivel uma funo polinomial de sua posio no espao. O modelo de
regresso mltipla utilizando notao vetorial :
) ( ) ( ) ( s s s + = X Y (5.21.)
onde, Y(s) varivel aleatria representando o processo no ponto s,
X(s)

tendncia (ou seja, o valor mdio (s)),
(s)

erro aleatrio com mdia zero e varincia
2

O vetor x(s) consiste em p funes das coordenadas espaciais (s
1
, s
2
), do
ponto amostrado s. Para uma superfcie de tendncia linear apenas (1, s
1
,
s
2
), para quadrtica (1, s
1
, s
2,
s
1
2
, s
2
2
, s
1
.s
2
), e assim sucessivamente. o
vetor (p+1) de parmetros a ser ajustado. O pressuposto bsico deste
modelo supe que os erros tm varincia constante e so independentes em
cada local, consequentemente, a covarincia zero: no h efeitos de
segunda ordem presentes no processo. Neste contexto, feito o ajuste do
modelo por mnimos quadrados ordinrios. O modelo de superfcies de
tendncia til sobretudo como uma primeira aproximao do fenmeno,
pois na prtica, so limitados os casos em que a variao espacial pode ser
expressa desta forma. No entanto, os resduos destes modelos so muito
informativos sobre a natureza das variaes locais.
No caso de modelos de variaes locais contnuas, idia ajustar um
modelo de regresso a cada ponto observado, ponderando todas as demais
observaes como funo da distncia a este ponto. Desta forma, sero feitos
tantos ajustes quantas observaes existirem e o resultado ser um conjunto
de parmetros, sendo que cada ponto considerado ter seus prprios
coeficientes de ajuste. Estes parmetros podem ser apresentados visualmente
para identificar como se comportam espacialmente os relacionamentos entre
variveis. Esta tcnica denominada geographically weighted regression
(GWR ou regresso ponderada espacialmente). Para aplicar o modelo GWR,
o modelo padro de regresso reescrito na forma:
+ = X s s Y ) ( ) ( , (5.22.)
onde, Y(s) a varivel aleatria representando o processo no ponto s, e
(s)

indica que os parmetros so estimados no ponto s. Para estimar os
parmetros deste modelo, a soluo padro por mnimos quadrados para o
caso no-espacial, dada por
Y X X) X
T 1 T
= ( (5.23.)
e geneializaua usanuo um merouo ue ajusre local:
Y X X X
T T
) ( ) ) ( ( ) (
1
s W s W s

= (5.24.)
A l l d d f
O ajuste local feito de forma a garantir uma influncia maior dos
pontos mais prximos, de forma semelhante aos estimadores de densidade
por kernel, discutidos no captulo 2 do livro. Um exemplo o uso de uma
funo gaussiana, do tipo

|
|
.
|

\
|
=
2
2
2
exp
2
1
) , (

ij
ij
d
s w (5.25.)
onde representa o raio de influncia considerado, e d
ij
a distncia entre a
localizao considerada e o j-simo ponto. Pode-se fazer testes de hipteses
para verificar se as variaes espaciais tm significado estatstico ou so
aleatrias. Para maiores detalhes sobre o modelo GWR, o leitor deve referir-
se bibliografia no final do captulo.
Diagnstico de Modelos com Efeitos Espaciais
A anlise grfica dos resduos o primeiro passo para avaliar a
qualidade do ajuste da regresso. Mapear os resduos uma etapa importante
no diagnstico do modelo, buscando indcios de ruptura dos pressupostos de
independncia. Uma alta concentrao de resduos positivos (ou negativos)
numa parte do mapa um bom indicador da presena de autocorrelao
espacial. Para um teste quantitativo, o mais comum utilizar o ndice I de
Moran sobre os resduos.
Como os estimadores e os diagnsticos tradicionais de regresso no
levam em conta os efeitos espaciais, as inferncias, como por exemplo as
indicaes de qualidade de ajuste baseadas em R
2
(coeficiente de
determinao), sero incorretas. Estas conseqncias so similares s que
acontecem quando uma varivel explicativa significativa omitida do
modelo de regresso. Quando se quer comparar um ajuste obtido por um
modelo de regresso padro, com um ajuste obtido por um dos modelos cuja
especificao considera a autocorrelao espacial, uma medida como o R
2

no mais confivel.
O mtodo mais usual de seleo de modelos de regresso baseia-se nos
valores de mxima verossimilhana dos diferentes modelos, ponderando pela
diferena no nmero de parmetros estimados. Nos modelos com estrutura
de dependncia espacial ou temporal - utilizam-se os critrios de
informao onde a avaliao do ajuste penalizada por uma funo do
nmero de parmetros. Cabe observar que necessrio ainda levar em conta
o nmero de parmetros independentes ao se incluir funes espaciais nos
modelos. Para cada nova varivel em modelo de regresso, acrescenta-se um
parmetro.
A l l d d f
Usualmente a comparao de modelos feita utilizando o logaritmo da
mxima verossimilhana, que o que possui melhor ajuste para os dados
observados. O critrio de informao de Akaike (AIC) expresso por:
k LIK AIC 2 * 2 + = (5. 26.)
onde LIK o log de verossimilhana maximizado e k o nmero de
coeficientes de regresso. Segundo este critrio, o melhor modelo o que
possui menor valor de AIC. Diversos outros critrios de informao esto
disponveis, a maior parte dos quais so variaes do AIC, com mudanas na
forma de penalizao de parmetros ou observaes.
Exemplo Ilustrativo
Como exemplo ilustrativo das tcnicas de regresso espacial, estudou-se
o relacionamento entre renda e longevidade na cidade de So Paulo, para os
dados do Censo de 1991. Tratam-se de duas das trs variveis utilizadas para
compor o IDH (ndice de desenvolvimento humano) da ONU. A varivel
dependente a ser explicada denotada por PERIDOSO (percentual de
pessoas com mais de 70 anos por distrito de So Paulo) e a varivel
independente indicada por PERREN20 (percentual de chefes de famlia
com renda de mais de 20 salrios mnimos mensais). A distribuio espacial
destas variveis est mostrados na Figura 5-21.

Figura 5-21. Percentual de idosos ( esquerda) e de chefes de famlia com renda
maior que 20 SM mensais ( direita) para os distritos de So Paulo (1991).
Foram comparados trs modelos de regresso: o modelo padro no-
espacial, o modelo autoregressivo (spatial lag) e o modelo em regimes
espaciais. No caso dos regimes espaciais foram consideradas trs regies da
A l l d d f
cidade (centro, periferia e a transio centro-periferia). O modelo padro
expresso como:
PERIDOSO =
0
+
1
PERREN20 + (5. 27.)
Utilizando-se a matriz de vizinhana W dos distritos, o modelo spatial
lag pode ser expresso como:
PERIDOSO =
0
+
1
PERREN20 + W(PERIDOSO) + (5. 28.)
Considerando-se trs regies da cidade, o modelo de regimes espaciais
pode ser expresso como
PERIDOSO_1 =
1
0
+
1
1
PERREN20_1, reg=1 (5. 29.)
PERIDOSO_2 =
2
0
+
2
1
PERREN20_2, reg=2 (5. 30.)
PERIDOSO_3 =
3
0
+
3
1
PERREN20_3, reg=3 (5. 31.)
Os resultados destes modelos de regresso so apresentados na Tabela
5-3. No modelo de regresso tradicional, a relao entre renda e longevidade
em So Paulo muito reduzida, o que d suporte a idia do IDH de que
tratam-se de dimenses complementares da desenvolvimento humano. No
entanto, quando os efeitos espaciais so levados em conta, verifica-se que a
existncia de real dependncia entre os dois fatores. Na Figura 5-22,
apresenta-se a distribuio espacial dos resduos da regresso para os
modelos de mnimos quadrados e spatial lag. Uma anlise visual dos resduos
da regresso tradicional indica uma prevalncia de resduos positivos no
centro da cidade e resduos negativos na periferia, principalmente nas Zonas
Leste e Sul. Os resultados numricos confirmam esta anlise, pois o ndice de
Moran dos resduos altamente significativo. Com relao ao desempenho
global, as medidas R
2
so indicadores limitados e devem ser encaradas com
cuidados, e deve-se preferir as medidas baseadas em verossimilhana (LIK,
AIC). Neste caso, o modelo spatial lag teve um desempenho muito superior
ao modelo padro. Este efeito esperado, pela existncia de um ndice de
Moran significativo nos resduos, que capturado no coeficiente de efeito
espacial ().
Os regimes espaciais escolhidos para So Paulo so mostrados na Figura
5-23, bem como os resduos da regresso considerando estes regimes. Da
anlise visual dos resduos, verifica-se a no-existncia de forte tendncia
espacial, o que evidenciado pelo baixo ndice de Moran dos mesmos,
indicado na Tabela 5-3. No geral, o modelo de regimes espaciais apresentou
o melhor desempenho, por qualquer dos critrios (R
2
, LIK e AIC). O
resultado reflete a forte polarizao centro-periferia da cidade de So Paulo,
e compatvel com estudos que mostram os resultados da violncia urbana
nas taxas de mortalidade, especialmente de homens dos 15 aos 25 anos.
A l l d d f
Tabela 5-3
Resultados da Regresso para Longevidade e Renda em So Paulo, 1991
Regresso MMQ Spatial Lag Regimes
Espaciais
R
2
ajustado 0,280 0,586 0,80
Log verossimilhana -187,92 -150,02 -124,04
AIC (Crterio de Inf. Akaike) 379,84 306,51 260,09
ndice de Moran dos resduos 0,620 - 0,020


Figura 5-22- Resduos da regresso por mnimos quadrados ( esquerda) e resduos
da regresso com o modelo spatial lag ( direita).


Figura 5-23 Regimes espaciais para os distritos de So Paulo ( esquerda) e resduos
da regresso por regimes espaciais ( esquerda).
A l l d d f
5.7 ESTIMAO DE MODELOS CONTNUOS A PARTIR DE DADOS DE REA
As sees anteriores apresentaram tcnicas de anlise espacial de dados
de rea tomando por base o modelo de variao espacial discreta, onde cada
rea modelada respeitando seus limites, adjacncias e vizinhana. Nesta
seo, considera-se o modelo de variao espacial contnua, que supe um
processo estocstico } , ), ( {
2
A A x x Z , cujos valores podem ser
conhecidos em todos os pontos da rea de estudo. A idia de modelos
contnuos para dados socioeconmicos decorre do fato que os levantamentos
censitrios muitas vezes impem limites de reas a partir de critrios
puramente operacionais, que no tm relao direta com o fenmeno
modelado. Este fato leva idia de dissolver os limites das reas em
superfcies contnuas, de forma a modelar melhor a real continuidade de, por
exemplo, setores censitrios em regies urbanas densamente povoadas.
No caso de estimadores de superfcies, as principais alternativas so o
uso de tcnicas no-paramtricas e o uso de interpoladores geoestatsticos,
descritos nos captulos 3 deste livro e que so brevemente resumidos no que
segue.
Estimador de Intensidade No-Paramtrico
De forma similar como no caso de superfcies, podemos utilizar o
estimador de intensidade (kernel estimator) para nos fornecer uma primeira
aproximao da distribuio espacial do fenmeno ou varivel. Neste caso,
quando os valores observados representam uma medida mdia como taxa
de mortalidade ou renda per capita, podemos utilizar um estimador que nos
permitiria calcular o valor do atributo por unidade de rea. Para toda
posio (x;y) cujo valor queremos estimar, o estimador de intensidade ser
computado a partir dos valores {z
1
,...,z
n
} contidos num raio de tamanho , a
partir da equao

=
=
ij
n
j
ij
n
j
j
ij
i
d
d
k
z
d
k
z ,
) (
) (

1
1
(5. 32.)
Na equao acima, a funo () um interpolador no-paramtrico, que
pode ser, por exemplo, um kernel gaussiano, como apresentado nos captulos
2 e 3 deste livro, onde o leitor poder encontrar uma discusso mais
aprofundada sobre os estimadores de intensidade no-paramtricos. Um
exemplo do estimador de intensidade para taxas pode ser visto na Figura 5-
22, onde so apresentados os dados de mortalidade por homicdios para o
Estado do Rio de J aneiro, para o trinio 90-92 interpolados pelo estimador
A l l d d f
de intensidade, que nos d uma idia da distribuio espacial da varivel
estudada. Na Figura 5-24(a) apresentado um mapa com os valores de
indicadores de taxa de mortalidade, agregados por municpio. Na Figura
5-24(b), apresentamos o resultado do estimador de intensidade, que nos d
uma idia melhor da distribuio espacial da varivel estudada.
Quando as observaes nas reas representam contagens, como as
obtidas pelo censo, o estimador de kernel apresentado acima no
apropriado. Um valor mdio de um atributo como nmero de domiclios
precrios no faria sentido, e deve-se pensar em termos de nmero de
domiclios precrios por unidade de rea. Neste caso, pode-se utilizar o
numerador da equao (5.32), dividido pela rea do crculo definido pelo
raio de busca:

=

=
ij
n
j
j
ij
i
d z
d
k z , ) (
1

1
2
(5.33.)



Figura 5-24 (a) Mortalidade por homicdios no RJ (1990-1992). Mapa temtico com
valores por municpio. (b) Superfcie obtida por estimador de intensidade no-paramtrico

(a)
(b)
A l l d d f

Uso de Interpoladores Geoestatsticos
No captulo 3, apresenta-se a teoria bsica da geoestatstica, cuja
motivao tradicional est associada a dados do meio fsico como medidas de
teor mineral ou de poluio. No caso da krigagem ordinria, a hiptese
subjacente que os dados apresentam distribuio gaussiana, e neste caso as
propriedades timas dos estimadores (como a mnima varincia do
resultado) so garantidas. Para o caso de dados socioeconmicos ou de sade
coletiva, a hiptese da normalidade dos dados muito raramente realista,
sendo mais comum supor uma distribuio de Poisson, por se tratar de
contagens de eventos. No entanto, as propriedades timas do estimador de
krigagem e sua ampla disponibilidade em diferentes sistemas de informao
geogrfica fazem com que seja importante investigar seu uso para dados
socioeconmicos. Neste caso, a primeira providncia investigar quo
aproximados da distribuio normal se apresentam os dados; se for
necessrio, pode-se aplicar transformaes apropriadas (com a transformao
logartmica) para simetrizar a distribuio emprica e assim aproximar-se
da distribuio normal. Para considerar uma situao concreta, Figura 5-25
apresenta a distribuio da taxa de homicdios por 100 mil habitantes, para
os 96 distritos de So Paulo em 1996, acompanhada do grfico de
probabilidade normal, que indica o quanto estes dados se aproximam de uma
distribuio gaussiana. Da anlise dos dois dados, e considerando-se ainda
que a mdia (43,6) suficientemente prxima da mediana (39,3), e como o
teste de normalidade de Shapiro-Wilk indica um valor de 0,9653 (p-valor de
0,012), a hiptese de normalidade no pode ser rejeitada e permite aplicar
uma interpolador de krigagem.
Figura 5-25. Distribuio da taxa de homicdios por 100 mil habitantes para So Paulo em
1996. direita: frequncia relativa; esquerda: grfico de probabilidade normal.
0
2
4
6
8
10
12
14
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
Taxa de homicdios
F
r
e
q

n
c
i
a
A l l d d f
Com base nestas hipteses, e com o objetivo de entender os padres
espao-temporais em So Paulo, utilizou-se a krigagem ordinria para
produzir superfcies das taxas de homicdio para os 96 distritos de So Paulo
para os anos de 1996 e 1999 (a distribuio de taxas de 1999 apresentou
padres semelhantes que a de 1996). Para tal, o conjunto de pontos obtido
pela associao do valor do parmentro de cada rea, ao seu centride, foi
tomado como uma amostra, usada para computar um variograma que
modelou a estrutura de correlao espacial. A superfcie obtida est
apresentada na Figura 5-26 e mostra uma queda significativa nas reas com
as menores taxas de homicdios (menos que 30 mortes por 100,000 pessoas)
em 1999 com relao a 1996. Como as reas de menor taxa de homicdio
correspondem s reas mais ricas da cidade (compare com as figuras 5.1), o
resultado mostra um espalhamento espacial do crime, com a violncia
ocupando progressivamente toda a cidade.





Taxa Homicdios
(por 100,000)

Figura 5-26. Superfcies estimadas para as taxas de homicdio em So Paulo em 1996
(esquerda) e 1999 (direita).
5.8 COMENTRIOS FINAIS
Este captulo mostrou que as tcnicas de anlise espacial podem ampliar
consideravelmente a capacidade de compreender os padres espaciais
associados a dados de rea, especialmente quando se trata de indicadores
sociais, que apresentam autocorrelao espacial global e local. Tcnicas
exploratrias como os indicadores de Moran e os mapas de espalhamento de
Moran so muito teis para mostrar as agregaes espaciais e indicar reas
prioritrias em termos de poltica pblica. Mtodos de estimao bayesiana
A l l d d f
para taxas permitem a correo de efeitos associados a pequenas populaes.
Modelos de regresso espacial permitem estabelecer as relaes entre as
variveis, levando em conta os efeitos espaciais; neste caso, o poder
explicativo dos modelos pode ter ganhos significativos. A gerao de
superfcies um maneira eficiente de apreenso visual dos padres espaciais.
Em resumo, estudiosos de dados scio-econmicos podem se beneficiar
substancialmente das tcnicas deste captulo.
5.9 REFERNCIAS
A referncia bsica para a maior parte das tcnicas apresentadas neste
captulo o livro de Trevor Bailey, Spatial Data Analysis by Example
(Bailey and Gattrel, 1995) e uma discusso geral sobre os modelos de
distribuio para dados espaciais apresentada em Diggle (2001). A
homepage de Peter Diggle (www.maths.lancs.ac.uk/~diggle) contm material
relevante sobre estatstica espacial.
No caso dos modelos de regresso espacial, o software SpaceStat de Luc
Anselin, e a documentao associada (Anselin, 1992) apresenta em detalhe os
modelos de regresso com efeitos globais (spatial lag e spatial error), e o
modelo de regimes espaciais. O SpaceStat foi utilizado para computar os
modelos no exemplo apresentado no captulo. Os trabalhos de Luc Anselin
no campo de indicadores locais de autocorrelao espacial (Anselin, 1995;
Anselin, 1996) tambm so referncias importantes. O stio do SpaceStat
www.spacestat.com.
O modelo de regresso GWR (geographically weighted regression) foi
idealizado por A.Stewart Fotheringham, e est descrito em seu livro
Quantitative Geography (Fotheringham et al., 2000) e outros trabalhos
(Fotheringham et al., 1996) (Brunsdon et al., 1996). Maiores informaes
podem ser encontradas no stio http://www.ncl.ac.uk/~ngeog/GWR/.
A discusso sobre o problema dos efeitos de escala e a chamada falcia
ecolgica deve muito aos trabalhos de Stan Openshaw; como exemplo,
veja-se Openshaw (1997). Seus trabalho sobre o uso de tcnicas de
otimizao combinatria para obter regies mais agregadas, tambm so
muito importantes (Openshaw and Alvanides, 1999).
A questo da gerao de superfcies a partir de dados socioeconomicos
deve muito aos trabalhos de David Martin, em seu livro Geographic
Information Systems: Socioeconomic Applications (Martin, 1995) e seus
trabalhos sobre os dados censitrios no Reino Unido (Martin, 1996; Martin,
1998).
A l l d d f
Os estimadores bayesianos empricos foram inicialmente propostos em
(Marshall, 1991). Uma discusso geral sobre o assunto, incluindo uma
discusso sobre os estimadores bayesianos completos, pode ser encontrada
no excelente trabalho de Renato Assuno (Assuno, 2001) ou na reviso
abrangente de Trevor Bailey, publicada nos Cadernos de Sade Pblica
(Bailey, 2001).
Os dados de So Paulo do censo de 1991 foram extrados do trabalho
"Mapa de Excluso/Incluso Social na Cidade de So Paulo", coordenado
pela prof. Aldaza Sposati, da PUC/SP (Sposati, 1996). As taxas de homicdio
para os distritos de So Paulo em 1996 e 1999 foram produzidas pela
Fundao SEADE e a gerao de superfcies por krigeagem foi feita por J os
Luiz Rodriguez Yi.
Os dados do censo de Belo Horizonte para o ano de 1991 foram
cedidos pela PRODABEL, e o estudo do problema das mudanas de unidade
de anlise foi realizado por Taciana Dias e Maria Piedade Oliveira.
Os dados de mortalidade infantil para a cidade do Rio de J aneiro foram
organizados pela FIOCRUZ e esto apresentados no trabalho de Eleonora
DOrsi e Marilia Carvalho (D'rsi & Carvalho, 1998). Os dados do estudo
sobre mortalidade por homicdios na Regio Sudeste tambm foram
publicados pela equipe da FIOCRUZ, e podem ser acessados nas pginas
pessoais dos autores: http://www.procc.fiocruz.br/~marilia/ e
www.procc.fiocruz.br/~oswaldo/.
O nmero especial dos Cadernos de Sade Pblica sobre o tema de
estatsticas espaciais em sade (volume 17(5), outubro-novembro 2001),
disponvel na Internet (www.scielo.br) representa um bom ponto de partida
sobre o tema, com vrios estudos relevantes.
1. ANSELIN, L. SpaceStat tutorial: a workbook for using SpaceStat in the
analysis of spatial data. Santa Barbara, NCGIA (National Center for
Geographic Information and Analysis), 1992.
2. ANSELIN, L. Local indicators of spatial association - LISA. Geographical
Analysis v.27, p.91-115, 1995.
3. ANSELIN, L. The Moran scatterplot as ESDA tool to assess local
instability in spatial association. In: M. Fisher, H. J . Scholten and D.
Unwin (ed). Spatial Analytical Perspectives on GIS. London, Taylor &
Francis, 1996. v., p.111-126.
4. ASSUNO, R. Estatstica Espacial com Aplicaes em Epidemiologia,
Economia e Sociologia. So Carlos, SP, UFScar, 2001. Disponvel na
homepage www.est.ufmg.br/~assuncao.
A l l d d f
5. BAILEY, T. Spatial Statistics Methods in Health. Cadernos de Sade
Pblica v.17, n.5,, 2001.
6. BAILEY, T. and A. GATTREL. Spatial Data Analysis by Example.
London, Longman, 1995.
7. BRUNSDON, C. A.S. FOTHERINGHAM AND M.E. CHARLTON,
Geographically Weighted Regression: A Method for Exploring Spatial
Nonstationarity. Geographical Analysis, 28(4), 281-298, 1996.
8. CRUZ, O. C. Homicdios no Estado do Rio de Janeiro: anlise da
distribuio espacial e sua evoluo. Dissertao de mestrado/Faculdade
de sade Pblica-USP, 1996.
lrr://malaiia.iocc.iociuz.Li/-osvaluo/uLli/ogc-uiss.u
9. DIGGLE, P. Spatial statistics in the biomedical science: future directions.
Lancaster, Lancaster University, 2001.
10. D'RSI, E. and M. S. CARVALHO. Perfil de Nascimentos no Municpio
do Rio de J aneiro - Uma Anlise Espacial. Cadernos de Sade Pblica
v.14, n.1, p.367-379, 1998.
11. FOTHERINGHAM, A.S., C. BRUNSDON AND M.E. CHARLTON,
2000, Quantitative Geography, London: Sage
12. FOTHERINGHAM, A.S., M.E. CHARLTON AND C. BRUNSDON,
The Geography of Parameter Space: An Investigation into Spatial Non-
Stationarity. International Journal of Geographic Information Systems,
10: 605-627, 1996.
13. GELMAN, A., CARLIN, J .B., STERN, H.S., RUBIN, D.B. (1995)
Bayesian Data Analysis Chapman & Hall/CRC.
14. GILKS, W.R., RICHARDSON, S., SPIEGELHALTER, D.J . (orgs) (1998),
Markov Chain Monte Carlo in Practice, Chapman & Hall.
15. MARSHALL, R. Mapping disease and mortality rates using empirical
Bayes estimators. Applied Statistics v.40, p.283-294, 1991.
16. MARTIN, D. Geographic Information Systems: Socioeconomic
Applications. London, Routledge, 1995.
17. MARTIN, D. An assessment of surface and zonal models of population.
International Journal of Geographical Information Systems v.10, p.973-
989, 1996.
18. MARTIN, D. Optimizing census geography: the separation of collection
and output geographies. International Journal of Geographical
Information Sciencev.12, p.673-685, 1998.
A l l d d f
19. OPENSHAW, S. Developing GIS-relevant zone-based spatial analysis
methods. In: P. Longley and M. Batty (ed). Spatial Analysis: Modelling
in a GIS Environment. New York, J ohn Wiley, 1997. v., p.55-73.
20. OPENSHAW, S. and S. ALVANIDES. Applying Geocomputation to the
analysis of spatial distributions. In: P. A. Longley, Goodchild, M. F.,
Maguire, D. J . and Rhind, D. W (ed). Geographical Information
Systems: Principles, Techniques, Management and Applications.
Chichester, Wiley, 1999. v., p.267-282.
21. SPOSATI, A. Mapa de Excluso/Incluso Social de So Paulo. So Paulo,
EDUC, 1996.

Anda mungkin juga menyukai