Anda di halaman 1dari 36

GCN 3506:

ANÁLISE ESTATISTICA MULTIVARIADA


APLICADA AO TRATAMENTO DE DADOS
AMBIENTAIS

Carla Bonetti & Jarbas Bonetti


Analisando Múltiplas Variáveis

Quando se estuda fenômenos naturais,


complexos em sua essência, é comum ter
que se lidar com múltiplas variáveis
simultaneamente, de modo a compreender
as relações de inter-dependência que
existem entre elas. Nestes casos aplica-se
técnicas de análise estatística conhecidas
como MULTIVARIADAS.
Análise Exploratória de Dados

• Análise Exploratória de Dados (AED) é uma técnica lançada


por John Wilder Tukey em 1977 no livro Exploratory Data
Analysis (sigla EDA, em inglês).
• Seguindo as diretrizes propostas por Tukey, os pesquisadores
deveriam iniciar sua análise pelo exame dos dados disponíveis
para depois decidir sobre qual técnica aplicar para equacionar o
problema
• A análise exploratória emprega grande variedade de técnicas
gráficas e quantitativas, visando: maximizar a obtenção de
informações ocultas na base de dados; determinar as variáveis
importantes nas tendências observadas; detectar
comportamentos anômalos do fenômeno; testar se são válidas
as hipóteses assumidas; escolher modelos e determinar um
número otimizado de variáveis.
• Em suma: esta técnica constitui uma ferramenta para descobrir
quais tendências, relações e padrões podem estar ocultos em
uma coleção de dados analisados.
Análise Exploratória de Dados:
justificativa
• A extração de informações dos resultados de um
experimento (coleta ou medida) envolve a análise
de grande número de variáveis;
• Muitas vezes, um pequeno número destas variáveis
contém as informações mais relevantes, enquanto
que a maioria das variáveis adiciona pouco ou nada
à interpretação dos resultados;
• A decisão sobre quais variáveis são importantes é
feita, geralmente, com base na intuição ou na
experiência, ou seja, baseado em critérios que são
mais subjetivos que objetivos;
• A redução de variáveis (ou de dimensionalidade)
através de critérios objetivos, permitindo a
construção de gráficos bidimensionais contendo
maior informação estatística, pode ser conseguida
através da análise estatística multivariada.
Objetivos da Disciplina:

Î Apresentar e discutir criticamente


as técnicas exploratórias de
quantificação mais utilizadas no
tratamento de dados ambientais.
Objetivos da Disciplina:

Î Trabalhar integradamente com


variáveis ambientais quantitativas
através da geração de matrizes,
testes de hipótese e representações
gráficas
Objetivos da Disciplina:

Î Analisar espacialmente os
resultados através da aplicação de
softwares de interpolação e
visualização.
Estas pesquisas destinam-se por exemplo
aos estudos de:

Î Avaliação de Risco e Avaliação de Impacto


Î Análise e Previsões de Séries Temporais
Î Obtenção de Índices de Qualidade de Água,
Ar e Solo
Î Setorização Ambiental
Î Avaliação de Estoques Naturais (reservas
extrativistas, pesca, biodiversidade, ...)
Î Capacidade Suporte do Meio
ANÁLISE ESTATISTICA

Conceitos Iniciais
O ciclo experimental

Identificar
um
problema
Gerar
Concluir Hipótese

Avaliar Coletar
criticamente Dados
os resultados

Testar Sintetizar
Hipótese Informações
A estatística participa deste ciclo
nas seguintes etapas:

Î Planejamento da amostragem

Î Tratamento dos Dados

Î Síntese dos Resultados

Î Confirmação da Hipótese
Problemática: acúmulo de
dados

Consequência: bases amplas


permanecem inexplorados ou
são sub-exploradas
A COMPLEXIDADE DE GERENCIAMENTO
DE DADOS DEMANDA O
DESENVOLVIMENTO DE TÉCNICAS QUE
POSSIBILITEM A OBTENÇÃO DE
SÍNTESES

Integração e análise de dados


Níveis de Percepção e Cognição

• Dado: valor atribuído a uma propriedade que define certa


condição ambiental
• Informação: reconhecimento da variabilidade ou
recorrência dos dados
• Conhecimento: compreensão dos eventos e processos
que regem a variabilidade
• Cultura: validação conhecimento pela sociedade

DADO INFORMAÇÃO CONHECIMENTO CULTURA

Adaptado de Dubois et al. (1988)


Formas de integração de dados
(técnicas de transformação de dados em informação e conhecimento)

• Geração de planilhas e Estatística Descritiva


• Estatística Multivariada e Geoestatística –
manipulação de dados numéricos (espacializados)
• Sistema de Informação Geográfica – manipulação
de dados espacialmente endereçados
Análise de Dados

Análise Univariada

Exemplo de Representação Gráfica: Histogramas


RESISTÊNCIA NO SENTIDO DA MÁQUINA RESISTÊNCIA CRUZADA
12 18
11
16
10
14
9
8 12
núm. de obs.

núm. de obs.
7
10
6
8
5
4 6
3
4
2
2
1
0 0
100 105 110 115 120 125 130 135 140 45 50 55 60 65 70 75 80 85

resistência resistência
Análise Bivariada

Exemplo de Representação Gráfica:

14
7
0

140

135

diagrama de dispersão 130

125
MAQUINA 120

115

110

105

100
0,720,740,760,780,800,820,840,860,880,900,920,940,960,981,00 0 6 12
DENSID
Análise Multivariada

Exemplo de Representação Gráfica:

Eixos Multidimensionais
Dados multivariados

variáveis
casos X1 X2 ... Xp

1 x11 x12 ... x1p


2 x21 x22 ... x2p
... ... ... ... X(n x p)
n xn1 xn2 ... xnp matriz de dados
Exemplos de pesquisas envolvendo

tratamento de dados multivariados


REGRESSÃO

A regressão é uma técnica de


combinação linear que usa uma
(simples) ou mais variáveis
independentes (múltipla) para
predizer o comportamento de uma
variável dependente
Estudo da variação da altura média do manguezal em função
da variação da temperatura média anual, da velocidade dos
ventos, da amplitude da maré e da salinidade das águas
adjacentes

Altura Tem Sal Mare Vento


Amostra (m) p°C (PSU) (cm) (nós)
1 0,48 24,0 18 40 5
2 0,51 24,5 16 90 7
3 0,70 23,0 23 47 4
4 0,85 25,3 21 110 5
5 1,20 25,4 20 82 7
6 1,35 24,0 22 95 6
7 1,80 27,0 23 101 9
8 1,86 27,1 12 94 1
9 2,50 27,5 25 87 8
10 2,80 26,0 24 65 2
11 3,10 27,0 18 70 1
12 3,40 28,1 28 145 8
13 3,90 28,5 22 220 5
14 4,50 28,5 25 90 3
15 5,00 29,0 30 92 8
Resultado

Altura (m) Temp ° C Vento (nós) Mare (cm) Sal (PSU)


Altura (m) 1
Temp ° C 0,894354 1
Vento (nós) -0,0427 0,0848 1
Mare (cm) 0,424918 0,551 0,226418 1
Sal (PSU) 0,599685 0,4234 0,488489 0,184154 1

Coeficientes valor-P Stat t

Interseção -15,699 1E-05 -6,99202

Temp ° C 0,610712 3E-05 6,530322

Sal (PSU) 0,086439 0,0437 2,253364

Altura (y) = -15,7 + 0,61*Temp + 0,087*Sal


Análise de Agrupamento

Define o agrupamento de casos ou


variáveis baseado na medida de
similaridade de seus valores
descritores. A similaridade pode ser
definida através de coeficientes de
distância ou de relação.
Setorização da Baía Sul a partir de um conjunto de
descritores sedimentológicos

D.
Lama médio Carbon %
Estação Prof. M % phi % Carb. o M.O.T.
1 8,7 0,00 1,22 32,74 0,14 0,1
2 7,1 0,01 1,71 5,17 1,17 0,0
3 5,1 4,98 2,11 5,76 0,15 0,0
4 7,8 2,20 2,47 1,93 0,09 0,0
5 9,5 5,87 2,22 3,11 0,15 0,0
… … … … … … …

35 2,4 74,58 5,51 10,83 1,35 4,7

36 8,6 48,04 4,07 31,58 0,94 1,8

37 0,6 93,78 6,72 2,43 0,66 7,49

38 0,7 98,52 6,85 6,29 1,95 14,14

39 0,6 94,22 6,48 4,76 1,17 12,43

40 0,5 98,33 6,58 2,52 1,29 10,96


Resultado
Análise de Componentes Principais

Transforma o conjunto de variáveis


existentes em novas variáveis
através de combinações lineares,
sintetizando a informação contida
em cada uma das variáveis
progressivamente. Estas novas
variáveis podem ser ordenadas bi-
dimensionalmente e gradientes
podem ser reconhecidos entre elas
Ordenação das estações amostrais das baías Norte e Sul
em função de descritores sedimentológicos
Analise Espacial de Dados Quantitativos

Técnicas de Interpolação
Modelo Digital de Terreno
Complexo Estuarino Lagunar de Cananéia-Iguape
DISTRIBUIÇÃO SALINIDADE - 01/02/2001

TEMPERATURA - 01/02/2001
°C

DAS 6990000 Ilha da Galé


33.2
33.0
32.8 6990000 Ilha da Galé
29.4
29.2

PROPRIEDADES
32.6
32.4
32.2
29.0
32.0 28.8
6985000 31.8 6985000

FÍSICO-
Baía de Tijucas 31.6 Baía de Tijucas
28.6
31.4
Calhau de São Pedro
31.2
Calhau de São Pedro
28.4
Ilha Deserta Ilha Deserta
31.0 28.2
6980000 6980000

QUIMICAS
30.8
30.6 28.0
30.4
Ilha do Arvoredo 30.2
Ilha do Arvoredo 27.8
30.0 27.6

DAS ÁGUAS
6975000 29.8 6975000
29.6 27.4
29.4
29.2 27.2
735000 740000 745000 750000 755000 760000 765000

SUPERFICIAIS
735000 740000 745000 750000 755000 760000 765000

pH - 01/02/2001 OXIGÊNIO DISSOLVIDO - 01/02/2001


mg/l

6990000 8.27 6990000 Ilha da Galé 6.8


Ilha da Galé

8.26 6.7
6985000 8.25 6985000
6.6
Baía de Tijucas Baía de Tijucas
Malha Amostral Calhau de São Pedro 8.24
Calhau de São Pedro
Ilha Deserta
Ilha Deserta 6.5
6980000 8.23 6980000
1 2 3 4 5

6990000 Ilha da Galé 6.4


11 10 9 8 7
Ilha do Arvoredo 8.22 Ilha do Arvoredo
6

6975000 8.21 6975000 6.3


6985000 12 13 14 15 16 17 18 19 20
8.20 6.2
Baía de Tijucas Calhau de São Pedro
735000 740000 745000 750000 755000 760000 765000 735000 740000 745000 750000 755000 760000 765000
29 28 27 26 25 24 23 22 21
6980000 Ilha Deserta

30 31 32 33
Ilha do Arvoredo
Transparência - 01/02/2001
Turbidez - 01/02/2001
34 35 36 37
m
6975000 NTU
43 42
10.0
41 40 39 38
6990000 Ilha da Galé
9.5
9.0
735000 740000 745000 750000 755000 760000
6990000 3.3
Ilha da Galé 8.5
8.0
2.8 7.5
6985000 7.0
2.3 Baía de Tijucas 6.5
6985000 Calhau de São Pedro 6.0
1.8 Ilha Deserta 5.5
Baía de Tijucas Calhau de São Pedro
5.0
Ilha Deserta 6980000 4.5
1.3
6980000 4.0
Ilha do Arvoredo 3.5
0.8 3.0
Ilha do Arvoredo 6975000 2.5
0.3 2.0
6975000 1.5
1.0
735000 740000 745000 750000 755000 760000 765000 735000 740000 745000 750000 755000 760000 765000
Amostras 3D
RIO BIGUAÇU
Janeiro 2002 Fevereiro 2002 Março 2002

SALINIDADE

pH

TURBIDEZ

TEMPERATURA

PRECIPITAÇÃO

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 1 3 5 7 9 11 13 15 17 19 21 23 25 27 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
Índice Hidrológico
Lagoas do Camacho / Garopaba do Sul e Santa Marta

10
Ideal
9
6840000
8 Satisfactory

7 Recommended
with restrictions
6

5
6836000
4

2 Inadequate
1
6832000
0
700000 704000 708000 712000
Visualização de Dados Espaciais

Anda mungkin juga menyukai