Anda di halaman 1dari 9

ANLISE DE DADOS

4
ANLISE DE DADOS

A definio das caractersticas das guas subterrnea baseou-se nas anlises


qumicas e fsico-qumicas e na utilizao de mtodos estatsticos, como a
estatstica multivariada e a geoestatsitica, como meio de tentar relacionar as
caractersticas geolgicas de onde as guas foram captadas.
Inicialmente, quando os resultados das anlises qumicas apresentavam
valores inferiores ao do limite de deteco da tcnica utilizada, foram
considerados como sendo iguais metade dos valores dos limites de deteco nas
propostas da anlise estatstica. Este procedimento normal em anlise estatstica
na rea de imputao dos dados, para no ficarem lacunas no banco de dados
PUC-Rio - Certificao Digital N 0410378/CA

(Scopel et al., 2005) e conservar a normalidade dos dados.


O clculo do balano inico foi aplicado em cada amostra para verificar os
resultados das anlises qumicas antes que fossem feitas as anlises estatsticas. O
erro do balano inico aceitvel compreende ao intervalo entre 20 %, pois foi
utilizado para o credenciamento do laboratrio. O balano inico definido pela
equao 1, onde as concentraes dos ctions e nions esto em meq L-1 (Scopel
et al., 2005):

Erro do balano inico (%) = ctions - nions x 100 (1)


(ctions + nions)

onde:
ctions = [Na+] + [K+] + [Mg+2] + [Ca+2] (2)
nions = [Cl-] + [SO4=] + [HCO3-] + [NO3-] (3)

De acordo com Deutsch (1997), diversas razes possveis podem criar um


desequilbrio eltrico na composio dos dados relatados:
1. O projeto do programa de amostragem negligenciou uma espcie
principal dissolvida.
2. Erro do laboratrio.
ANLISE DE DADOS 61

3. Usar amostras de gua no filtradas contendo a partcula da matria


que se dissolve na amostra quando o cido adicionado para
finalidades da preservao.
4. A precipitao de um mineral no recipiente da amostra que remove os
constituintes do mineral da gua.
5. Em determinados casos, a espcie dissolvida do elemento ou do
composto no pode corresponder espcie tpica usada para fazer o
clculo do balano inico.
Segundo Holland e Turetian (2004), o balano inico importante, pois
promove uma explicao para a variabilidade qumica da gua subterrnea. Uma
relao geral para a composio qumica da gua subterrnea resultante junto ao
caminho do fluxo dada por:

gua inicial + minerais dissolvidos - minerais precipitados = gua final


Os dados experimentais originais podem no ter uma distribuio adequada
PUC-Rio - Certificao Digital N 0410378/CA

para a anlise estatstica, dificultando a extrao de informaes teis e a


interpretao dos mesmos. Nestes casos, um pr-processamento nos dados
originais pode ser de grande importncia. Um dos mtodos de pr-processamento
mais utilizados a padronizao (Morgano et al., 1999; Landim, 2000), a qual se
calcula a mdia dos valores experimentais para cada varivel e subtra-se cada
valor experimental do respectivo valor mdio, dividindo o resultado pelo desvio
padro calculado para cada varivel (equao 4), permitindo que as variveis
transformadas passem a ter mdia zero e desvio padro um.
z = xji - xmj
(4)
j
onde:
z = varivel normal padronizada;
xji = valor da interseo da coluna da varivel j e o caso i;
xmj = mdia da varivel j;
j = desvio padro da varivel j.
A anlise multivariada foi aplicada com o objetivo de determinar grupos de
amostras com as mesmas caractersticas dentro da base de dados existentes para
cada municpio do Estado do Rio de Janeiro em estudo. A anlise estatstica foi
feita usando o programa STATISTICA 6.0 atravs dos seguintes mtodos: anlise
ANLISE DE DADOS 62

de agrupamentos (Clusters) e anlise fatorial relacionada utilizando como mtodo


de extrao a anlise de componentes principais.
A anlise multivariada uma ferramenta que permite a interpretao de uma
base de dados com um nmero grande de variveis por meio de um tratamento
estatstico. Os mtodos que usam este tipo de anlise levam a resultados como:

reduo do nmero de variveis da base de dados;


identificao de grupos de variveis ou amostras similares;
identificao das relaes entre as variveis.

A anlise de componentes principais procura interpretar a estrutura de um


conjunto de dados multivariados, tanto entre indivduos (modo Q) como entre
variveis (modo R), a partir da matriz de varincia-covarincia ou de correlaes,
pela obteno de autovalores e autovetores. Consiste numa transformao linear
das n variveis originais correlacionadas entre si em n novas variveis
ortogonais e no deve ser confundida com a anlise fatorial, segundo a qual se
PUC-Rio - Certificao Digital N 0410378/CA

supe que as relaes existentes dentro de um conjunto de n variveis seja


reflexo das correlaes de cada uma dessas variveis com p fatores,
mutuamente no correlacionados entre si, sendo p menor que n (Landim,
2000).
A anlise de agrupamento utilizada quando se deseja explorar as
similaridades entre indivduos (modo Q) ou entre variveis (modo R) definindo-os
em grupos, considerando simultaneamente, no primeiro caso, todas as variveis
observadas em cada indivduo e, no segundo caso, todos os indivduos nos quais
foram feitas as mesmas medidas. Segundo esse mtodo, procura-se por
agrupamentos ntidos de itens representados por pontos num espao n dimensional
em um nmero conveniente de grupos relacionados atravs de similaridades ou de
distncia (Landim, 2000).
ANLISE DE DADOS 63

4.1
Anlise de componentes principais (ACP)

A base fundamental da maioria dos mtodos modernos para tratamento de


dados multivariados a anlise de componentes principais (Sharaf et al., 1986;
Beebe et al., 1988), o qual tem sido freqentemente usado em estudos
geoqumicos (Melloul e Collin, 1992), que consiste numa transformao da matriz
de dados com o objetivo de representar as variveis presentes em muitas variveis
atravs de um nmero menor de fatores. Constri-se um novo sistema de eixos
(denominados de componentes principais, fatores ou ainda autovetores) para
representar as amostras, no qual a natureza multivariada dos dados pode ser
visualizada em poucas dimenses. Estas novas variveis so obtidas em ordem
decrescente de quantidade de informao estatstica que descrevem, ou seja, a
primeira componente principal aponta a direo de maior variao de dados, a
segunda que ortogonal a primeira, aponta outra direo que descreve a maior
PUC-Rio - Certificao Digital N 0410378/CA

variao restante dos dados e assim por diante (Morgano et al., 1999).
O mtodo ACP est baseado na correlao entre as variveis e na realidade
agrupa aquelas as quais esto altamente correlacionadas. Este mtodo inicia-se
com o clculo dos autovalores e dos correspondentes autovetores de uma matriz
de correlao entre as variveis, sendo tal procedimento conhecido como modo
R.
Se A for a matriz de covarincias ou de correlao e AT a matriz transposta,
de dimenses p x p, com termos aij, os autovalores (i) e autovetores (vi) sero
extrados pelas equaes 5 e 6:
det (AAT - i I) = 0 (5)
(AAT - i I) vi = 0 (6)
onde:
I = a matriz identidade;
vi = o autovetor correspondente ao autovalor i.

Resolve-se a equao 5 para encontrar os autovalores i da matriz. A soma


dos autovalores da matriz representa a variabilidade total da mesma e a
contribuio de cada autovalor em termo de variabilidade determinada. O
primeiro autovalor determinado corresponde maior porcentagem da
ANLISE DE DADOS 64

variabilidade total existente, o segundo, a maior variabilidade possvel restante e


assim por diante.
Encontrados os autovalores, substituindo-os na equao 6 e resolvendo-as,
obtm-se os autovetores correspondentes a cada autovalor, ou seja, as
componentes principais. Os autovetores correspondem s componentes principais
e so a resultado do carregamento (loadings) das variveis originais em cada um
deles. Tais carregamentos podem ser considerados como uma medida da relativa
importncia de cada varivel em relao s componentes principais e os
respectivos sinais, se positivos ou negativos, indicam relaes diretamente ou
inversamente proporcionais.
A matriz de carregamentos (loadings) de cada varivel nas componentes
principais ao ser multiplicada pela matriz de dados fornecer a matriz de
contagem (scores) de cada caso em relao s componentes principais (Morgano
et al., 1999; Landim, 2000). Usando a notao matricial, as componentes
PUC-Rio - Certificao Digital N 0410378/CA

principais so obtidas por meio de transformaes lineares conforme a equao 7:

AP = T (7)

em que A a matriz de covarincias ou de correlaes, AT a matriz transposta e P


a matriz dos carregamentos (loadings), onde os elementos de cada coluna
correspondem aos coeficientes das combinaes lineares das variveis originais, e
T a matriz de contagem (scores), que contm as coordenadas das amostras no
novo sistema de eixos. Logo, esses valores podem ser dispostos num diagrama de
disperso, em que os eixos so as duas componentes principais mais importantes,
e mostrar o relacionamento entre os casos condicionados pelas variveis medidas.

4.2
Anlise de agrupamentos (Clusters)

A anlise de agrupamentos um termo usado para descrever uma variedade


de tcnicas numricas com o objetivo de identificar grupos de indivduos com
caractersticas semelhantes dentro de um conjunto de dados, considerando todas
as variveis para cada indivduo (Moura, 1985; Davis, 1986).
Inicialmente, cada amostra representada como um ponto no espao e,
portanto, a questo fundamental transformar a informao de um espao n-
dimensional para um espao bidimensional. O parmetro usado neste processo a
ANLISE DE DADOS 65

medida de distncia entre as amostras ou variveis. Estas distncias, quando


visualizadas atravs de diagramas conhecidos como dendogramas, apontam as
amostras ou variveis mais semelhantes entre si, ou seja, quanto menor distncia
entre os pontos, maior ser a semelhana entre as amostras. Portanto, a medida
entre dois pontos foi calculada usando a equao da distncia Euclideana (equao
8) (Morgano et al., 1999; Landim, 2000; Stanimirova et al., 2005):
m

dij = [ ( xik xjk)2 ] (8)
k=1

Segundo Morgano et al. (1999), no mtodo de anlise de agrupamento, as


distncias entre todas as amostras ou variveis so calculadas e comparadas.
Como as distncias reais entre as amostras ou variveis mudam com o tipo e o
tamanho do conjunto de dados, necessrio transform-las numa escala de
similaridade que calculada segundo a equao 9:
PUC-Rio - Certificao Digital N 0410378/CA

Sab = 1 (dab/dmax) (9)


onde: Sab a similaridade entre as amostras ou variveis a e b, dab a distncia
entre as mesmas e dmax a maior distncia entre todas as amostras ou variveis.
Logo, a escala varia de um (amostras ou variveis semelhantes) a zero (amostras
sem similaridade).
Aps o clculo das distncias, as duas amostras ou variveis mais prximas
so conectadas formando um agrupamento. Este processo repetido at que as
amostras ou variveis sejam conectadas formando grupos. Uma vez que estas so
conectadas pelas proximidades entre elas, necessrio definir o mtodo de
agrupamento entre uma amostra ou uma varivel e um grupo ou entre grupos de
amostras ou variveis. Portanto, foi utilizado o mtodo de Wards (Stanimirova et
al., 2005).
Segundo Hair et al. (2005), no mtodo de Wards, a distncia entre dois
agrupamentos a soma dos quadrados entre os dois agrupamentos feita sobre
todas as variveis. Em cada estgio do procedimento do agrupamento, a soma
interna de quadrados minimizada sobre todas as parties (o conjunto completo
de agrupamentos disjuntos ou separados) que podem ser obtidas pela combinao
de dois agregados do estgio anterior. Esse procedimento tende a combinar
agrupamentos com um pequeno nmero de observaes e, tambm, tende a
produzir agregados com aproximadamente o mesmo nmero de observaes.
ANLISE DE DADOS 66

A figura 6 mostra um exemplo de anlise de agrupamento utilizando o


mtodo de Wards e a distncia Euclideana.

Dendograma para 19 casos


Metodo de Ward's
Distncia Euclideana
16

14

12
Distncia de ligao

10

0
14 6 5 4 16 7 3 13 12 10 11 9 8 19 18 17 15 2 1

Figura 6: Dendograma representativo da anlise de agrupamento para 19 casos usando


PUC-Rio - Certificao Digital N 0410378/CA

o mtodo de Wards e Distncia Euclideana.

4.3
Anlise fatorial

A anlise fatorial provou ser til na interpretao de dados hidrogeolgicos


(Schot e Van der Wal, 1992). O objetivo da anlise fatorial rearranjar (resumir,
reduzir) os dados para apresent-los de uma maneira que melhor explique a
estrutura dos dados originais. Portanto, um conjunto de fatores criado, em uma
estrutura simples, para maximizar o poder de explicao das interrelaes dos
parmetros qumicos (variveis). Logo, cada fator visto como uma varivel
dependente que uma funo do conjunto inteiro de variveis observadas. (Hair et
al., 2005).
Os dados foram analisados usando a anlise fatorial modo R para encontrar
fatores ou os principais processos responsveis pela composio da gua
subterrnea em cada municpio estudado.
Os principais estgios realizados foram a preparao da matriz de correlao
entre as variveis normalizadas, a obteno da comunalidade e a transformao
dos fatores atravs de processos de rotao matemtica at que uma soluo final
fosse obtida (Davis, 1986).
ANLISE DE DADOS 67

A comunalidade representa a soma dos quadrados das cargas fatoriais das


variveis sobre cada fator, indicando a eficincia dos mesmos na explicao da
variabilidade total (Landim, 2002). Contudo, a matriz de correlao e a
comunalidade determinam a varivel que no apresenta alguma associao com as
demais variveis ou, no atende a nveis de explicao aceitveis.
O procedimento de rotao Varimax (Meng e Maynard, 2001; Invernizzi e
Oliveira, 2004), aplicado aos componentes principais, foi usado para facilitar a
interpretao dos dados. Seu objetivo aumentar os fatores de carregamento de
uma varivel e reduzir o nmero de fatores que uma varivel carrega, fazendo
com que cada fator seja interpretado pelos maiores carregamentos possveis
relacionados com o menor nmero possvel de variveis.

4.4
Diagrama de Piper
PUC-Rio - Certificao Digital N 0410378/CA

O diagrama de Piper freqentemente utilizado para classificao e


comparao de distintos grupos de guas quanto aos ctions e nions dominantes.
O programa AquaChem 3.70 gera o diagrama de Piper e mostra a classificao
das amostras segundo esse critrio. A representao grfica pode evidenciar
possveis relaes entre os ons de uma mesma amostra. Dentre as opes
grficas, tem-se a de desenhar as linhas de grade, manter visvel s classificaes
e mostrar a distribuio percentual das amostras nos diversos campos. Outra
ferramenta importante a seleo de uma ou de um grupo de amostras,
permitindo por em destaque um determinado alvo em estudo.
Os diagramas de Piper, tambm chamados de diagramas trilineares (Piper,
1944; Back, 1966), so extrados plotando as propores dos ctions principais
(Ca2+, Mg+2, Na+ + K+) e dos nions principais (HCO3-, Cl-, SO4=) em dois
diagramas triangulares respectivos, e combinando as informaes dos dois
tringulos em um losango situado entre os mesmos (Lucena et al., 2004). As
propores so traadas nos grficos triangulares e suas escalas, para a proporo
das variveis, correspondem a 100 por cento. Os grficos mostram, assim, as
propores relativas dos ons principais, mas no suas concentraes absolutas.
A figura 7 representa o diagrama de Piper adaptado para a anlise dos
ctions e nions principais nas amostras de gua.
ANLISE DE DADOS 68

1-Ca ou Mg/Cl ou SO 4
2-Ca,Na ou Mg/Cl ou
SO4
3-Na/Cl
4-Ca ou Mg/HCO 3 ou
1
SO4
5-Ca, Na ou Mg/Cl, SO4
ou HCO 3 4 2
6-Na/HCO3 ou Cl
7-Ca ou Mg/HCO 3
8-Ca ou Na/HCO 3
9-Na/HCO3
7 5 3

8 6

Figura 7: Diagrama de Piper adaptado, usado para a classificao do ction e nion


PUC-Rio - Certificao Digital N 0410378/CA

dominantes.

Para o clculo da distribuio percentual de cada ction ou nion, foram


utilizadas as equaes 10 e 11, respectivamente, onde as concentraes das
espcies inicas esto expressas em unidade de meq L-1:

X (%) = C x 100 (10)


([Na ] + [K ]) + [Ca2+] + [Mg2+]
+ +

X (%) = A x 100
-- =
[HCO3 ] + [Cl ] +[SO4 ] (11)
onde:
C = concentrao de Na+ + K+, Ca2+ ou Mg2+.
A = concentrao de HCO3-, Cl- ou SO4=.
X = distribuio percentual de cada espcie inica C ou A.

Se algum ction ou nion perfaz mais de 50% do contedo inico total, a


gua classificada por esta espcie predominante. Quando isto no acontece, a
gua classificada pelos dois mais abundantes. Outro on de menor interesse,
quando em concentrao alta tambm pode entrar na denominao (Mestrinho,
2006). Neste trabalho, para a denominao da gua, foram considerados somente
o ction e nion dominante.