Anda di halaman 1dari 13

Crtica | Estatstica multivariada

Page 1 of 13

criticanarede.com ISSN 1749-8457

9 de Maio de 2004 Filosofia da cincia

Estatstica multivariada
Uma viso didtica-metodolgica
J. M. Moita Neto

Introduo
Em qualquer deciso que tomamos em nossas vidas, sempre levamos em conta
um grande nmero de fatores. Obviamente nem todos estes pesam da mesma
maneira na hora de uma escolha. s vezes, por tomarmos uma deciso usando a
intuio, no identificamos de maneira sistemtica estes fatores. Ou seja, no
identificamos quais as variveis que afetaram a nossa deciso.
Quando analisamos o mundo que nos cerca, identificamos que todos os
acontecimentos, sejam eles culturais ou naturais, envolvem um grande nmero
de variveis. As diversas cincias tm a pretenso, de conhecer a realidade e de
interpretar os acontecimentos (cincias humanas) e os fenmenos (cincias
naturais), baseadas no conhecimento das variveis intervenientes consideradas
importantes nestes eventos.
Estabelecer relaes, encontrar ou propor leis explicativas o papel prprio da
cincia. Para isso necessrio controlar, manipular, medir as variveis que so
consideradas relevantes ao entendimento do fenmeno analisado. Muitas so as
dificuldades em traduzir as informaes obtidas em conhecimento. A maior delas
de natureza epistemolgica: a cincia no conhece a realidade, apenas a
representa atravs de modelos e teorias dos diversos ramos do conhecimento.

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 2 of 13

Outra dificuldade a aspirao de universalidade das explicaes cientficas. Ora,


isto implica e condiciona a pesquisa a uma padronizao metodolgica. Um
aspecto essencial desta padronizao a avaliao estatstica das informaes. A
maneira prpria de fazer cincia, procurando reduzir a poucas variveis,
desenvolveu muito um ramo da estatstica que olha as variveis de maneira
isolada a estatstica univariada.
Somos cientificamente treinados a analisar as variveis isoladamente e a partir
desta anlise fazer inferncias sobre a realidade. Esta simplificao tem
vantagens e desvantagens. Quando um fenmeno depende de muitas variveis,
geralmente este tipo de anlise falha, pois no basta conhecer informaes
estatsticas isoladas, mas necessrio tambm conhecer a totalidade destas
informaes fornecida pelo conjunto das variveis. As relaes existentes entre as
variveis no so percebidas e assim efeitos antagnicos ou sinergticos de efeito
mtuo entre variveis complicam a interpretao do fenmeno a partir das
variveis consideradas. Porm, no caso restrito de variveis independentes entre
si possvel, com razovel segurana, interpretar um fenmeno complexo usando
as informaes estatsticas de poucas variveis. As informaes estatsticas mais
relevantes neste tipo de anlise so as medidas de tendncia central e de
disperso dos dados.
O desenvolvimento tecnolgico oriundo das descobertas cientficas tem
alavancado o prprio desenvolvimento cientfico, ampliando em vrias ordens de
grandeza a capacidade de obter informaes de acontecimentos e fenmenos que
esto sendo analisados. Uma grande massa de informao deve ser processada
antes de ser transformada em conhecimento. Portanto, cada vez mais estamos
necessitando de ferramentas estatsticas que apresentem uma viso mais global
do fenmeno que aquela possvel numa abordagem univariada. A denominao
Anlise Multivariada corresponde a um grande nmero de mtodos e tcnicas

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 3 of 13

que utilizam simultaneamente todas as variveis na interpretao terica do


conjunto de dados obtidos.
Para que no haja qualquer mistificao dos mtodos de anlise multivariada
convm lembrar que estes mtodos padecem dos mesmos problemas de toda a
estatstica. A estatstica tem uma quasi-circularidade pouco explorada nos textos:
pesquisamos para dizer algo significativo sobre o universo que elegemos, porm a
pesquisa s ser significativa se conhecermos suficientemente o universo para
escolhermos adequadamente as variveis e as condies de amostragem. A
objetividade da pesquisa cientfica s comea depois da escolha das variveis e
das metodologias de anlise, antes disto atividade cientfica completamente
subjetiva.
Obviamente, o resultado de toda pesquisa cientifica est contaminada por este
vis de nossa subjetividade. Para entender melhor, vamos exemplificar com a
anlise de gua de um rio. O pesquisador piauiense no tem motivos para
analisar mercrio nos rios Poti ou Parnaba pois no h atividade de garimpo nas
proximidades destes rios. No havendo registro conhecido de curtume ou de
outra atividade industrial especfica muito dos ons metlicos no sero
pesquisados. A matria orgnica ser determinada de forma global e no se
investiga substncias especficas, a no ser que haja indcios de alguma
contaminao. Considerando que aquilo que no se investiga jamais ser
descoberto, entende-se a subjetividade de um resultado de uma anlise de gua
pelo que se deixou de dizer e a sua objetividade pelo que foi dito no laudo tcnico
de anlise.

Estatstica
Os diversos mtodos de anlise multivariados guardam entre si a necessidade de
implementao computacional dos fundamentos tericos que subjazem em suas

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 4 of 13

abordagens. A complexidade matemtica, prpria dos mtodos multivariados,


sugere, como medida de bom senso, uma descrio desmatematizada de seus
contedos, remetendo ao uso do software estatstico o trabalho enfadonho do
clculo. Os programas estatsticos bem construdos escondem o edifcio
matemtico atrs de uma interface amigvel ao pesquisador. O professor de
estatstica hoje pode se dar ao luxo de transmitir o significado estatstico do
tratamento de dados sem entediar os alunos com a profundidade das dedues
matemticas, fazendo uso abundante de exemplos. Deste modo, possvel
trabalhar a parte mais nobre desta cincia que a inferncia estatstica. Ou seja, o
que posso afirmar com os dados que tenho. Ou ainda, que conhecimento
cientfico produzi no meu trabalho.
Talvez neste momento tenhamos chegado ao paradoxo interessante, a
complexidade matemtica pode ser substituda por uma simplicidade didtica.
Atravs do uso de software estatstico, possvel pensar estatstica sem ser
estatstico. Obviamente esta seria uma grosseria com nossos colegas se no for
devidamente exemplificado. No chamo eletricista para trocar lmpada. No
procuro mdico para resfriado. Em outras palavras, as trivialidades estatsticas
incluindo a anlise multivariada esto ao alcance de todos e sem o
constrangimento matemtico do passado.
Esta aparente facilidade esbarra em dois problemas de ordem prtica: 1) as
prateleiras cheias com a diversidade de mtodos estatsticos confundem o
usurio que no consegue identificar a melhor soluo para seu problema. Neste
caso, o estatstico se transforma em psiclogo e pergunta: qual o seu
problema?, ou o que voc pretende mostrar em sua pesquisa?. Depois aponta a
ferramenta adequada. 2) O usurio no conhece suficientemente o sistema de
trabalho e por isso no consegue fazer uma inferncia adequada. Neste caso, o
estatstico no pode ajudar, pois o objeto de pesquisa em si foge de sua

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 5 of 13

especialidade. Quando no h conhecimento terico prvio do sistema, as


dificuldades comeam logo na amostragem, no incio do trabalho cientfico.
importante ressaltar que ningum faz cincia sem expectativa. Esta surge do
conhecimento terico e do senso comum. A pesquisa cientfica consiste em
traduzir esta expectativa em problema, a partir do problema manifestar uma
proposta de trabalho e, desta proposta, escolher um procedimento metodolgico
adequado. A estatstica parte constitutiva deste procedimento metodolgico,
estando presente no seu incio (amostragem e seleo das variveis) e no seu fim
(tratamento, anlise e inferncia sobre os dados). Vale lembrar que, por mais
avanada que esteja a estatstica, ainda no se pode abrir mo da intuio e da
experincia precedente do pesquisador.

Mtodos multivariados
Existem vrios mtodos de anlise multivariada com finalidades bem diversas
entre si. Portanto, voltamos ao primeiro passo, que saber que conhecimento se
pretende gerar. Ou melhor, o que se pretende afirmar a respeito dos dados. Para
exemplificar esta diversidade, vamos propor alguns objetivos e indicar alguns
mtodos possveis. Quando o interesse verificar como as amostras se
relacionam, ou seja, o quanto estas so semelhantes segundo as variveis
utilizadas no trabalho, destaco dois mtodos que podem ser utilizados: a anlise
por agrupamento hierrquico (HCA) e a anlise por componentes principais
(PCA). Quando a finalidade principal fazer previso, por exemplo, quando
temos muitas variveis independentes e queremos encontrar uma varivel
dependente, a regresso linear mltipla e redes neurais so mtodos indicados
para esta situao. Com uma finalidade bem diversa, existem mtodos de anlise
multivariada que podem ser usados na etapa inicial de uma pesquisa, na prpria
escolha das variveis que descrevero o sistema. Isto muito comum nos casos

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 6 of 13

em que um processo necessita ser otimizado. Dentre os mtodos que servem para
otimizao, citamos o simplex e o planejamento fatorial.
Os mtodos estatsticos so escolhidos de acordo com os objetivos da pesquisa,
por isto, mostrar, predizer ou otimizar so obtidos por diferentes mtodos.
Portanto, a estatstica multivariada, com os seus diferentes mtodos, difere de
uma prateleira de supermercado abarrotada de produtos com a mesma funo,
pois cada mtodo tem sua fundamentao terica e sua faixa de aplicabilidade.
Vamos apresentar aqui dois destes mtodos para aprofundar melhor a teoria
subjacente e explicar suas aplicaes.

Anlise de agrupamento Hierrquico (HCA)


A anlise de agrupamento hierrquico consiste no tratamento matemtico de
cada amostra como um ponto no espao multidimensional descrito pelas
variveis escolhidas (Moita Neto, J. M., Moita, Graziella Ciaramella, Uma
Introduo Anlise Exploratria de Dados Multivariados, Qumica Nova, So
Paulo, SP: v. 21, n. 4, p. 467-469, 1998). Tambm possvel, nesta tcnica, tratar
cada varivel como um ponto no espao multidimensional descrito pelas
amostras, ou seja, podemos ter agrupamento de amostras ou de variveis de
acordo com o interesse em cada situao. Quando uma determinada amostra
tomada como um ponto no espao das variveis, possvel calcular a distncia
deste ponto a todos os outros pontos, constituindo-se assim uma matriz que
descreve a proximidade entre todas as amostras estudadas.
Existem vrias maneiras de calcular a distncia entre dois pontos, a mais
conhecida e utilizada a distncia euclidiana, pois corresponde ao sentido trivial
de distncia no plano. Relembrando que, para duas variveis, corresponde a
aplicao do teorema de Pitgoras (a2=b2 + c2): O comprimento da hipotenusa
(a) igual raiz quadrada da soma dos quadrados dos comprimentos dos catetos

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 7 of 13

(b e c). Baseada nesta matriz de proximidade entre as amostras, se constri um


diagrama de similaridade denominado dendrograma (dendr(o) = rvore).
Existem vrias maneiras de aglomerar matematicamente estes pontos no espao
multidimensional para formar os agrupamentos hierrquicos. Cada um
corresponde a um algoritmo especfico (ou seja, o modo particular como os
clculos sero feitos pelo computador), que usa as informaes da matriz de
proximidade para criar um dendrograma de similaridade. A interpretao de um
dendrograma de similaridade entre amostras fundamenta-se na intuio: duas
amostras prximas devem ter tambm valores semelhantes para as variveis
medidas. Ou seja, elas devem ser prximas matematicamente no espao
multidimensional. Portanto, quanto maior a proximidade entre as medidas
relativas s amostras, maior a similaridade entre elas. O dendrograma
hierarquiza esta similaridade de modo que podemos ter uma viso bidimensional
da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no
estudo. Quando o dendrograma construdo das variveis, a similaridade entre
duas variveis aponta forte correlao entre estas variveis do conjunto de dados
estudado. Os dendrogramas de amostras so mais comuns.
A aplicao da anlise de agrupamento hierrquico, quando temos variveis de
escalas diferentes, deve ser precedida por um tratamento prvio dos dados.
Quando no feito o pr-tratamento, as variveis com valores numricos mais
altos sero mais importantes no clculo que as variveis com valores numricos
mais baixos. O pr-tratamento mais comumente empregado a transformao Z,
que transforma as medidas de cada varivel de tal modo que o conjunto de dados
tenha mdia zero e varincia um. A finalidade deste procedimento equalizar a
importncia estatstica de todas as variveis utilizadas. As dificuldades
matemticas envolvidas nestes clculos, hoje so removidas pelos pacotes
estatsticos de grande amplitude e facilidade de uso, como o caso do SPSS

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 8 of 13

(Statistical Package for the Social Sciences). O SPSS fornece todas as


ferramentas para a obteno do dendrograma de similaridade incluindo as
diversas opes de distncia, mtodos de aglomerao e modos de transformao
dos dados originais.

Anlise de componentes principais (PCA)


A anlise de componentes principais uma tcnica estatstica poderosa que pode
ser utilizada para reduo do nmero de variveis e para fornecer uma viso
estatisticamente privilegiada do conjunto de dados. A anlise de componentes
principais fornece as ferramentas adequadas para identificar as variveis mais
importantes no espao das componentes principais.
Os fundamentos da anlise de componentes principais sero apresentados
descrevendo os passos matemticos e estatsticos a partir das necessidades de
interpretao adequada da matriz de dados. O entendimento exaustivo do
assunto requer o conhecimento de operaes com matrizes e por isso optamos
por uma abordagem conceitual usando as noes de lgebra linear.
Um ponto no grfico cartesiano representado por valores das coordenadas x e y.
No caso de um grfico tridimensional, a apresentao de um ponto corresponde
aos valores das coordenadas x, y e z. Traduzindo isto para o mundo das amostras
e das variveis, o ponto uma amostra e os valores em cada uma das
coordenadas correspondem aos valores das variveis medidas. Para exemplificar
isto, vamos supor que estejamos medindo duas propriedades fsicas como o
ponto de fuso e o ponto de ebulio de vrias molculas. A molcula de gua
ficaria locada nas coordenadas (0 oC , 100 oC) deste grfico. O lcool etlico ficaria
locado nas coordenadas (-114 oC, 78 oC) e assim por diante. Caso se queira
transformar a escala do ponto de fuso para Kelvin e a escala do ponto de
ebulio para Fahrenheit, a representao da molcula de gua continua a

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 9 of 13

mesma em relao s outras molculas, embora mudem os eixos coordenados.


Ou seja, a estrutura dos dados no alterada por uma transformao de
coordenadas (Anexo).
A anlise de componentes principais consiste em reescrever as variveis originais
em novas variveis denominadas componentes principais, atravs de uma
transformao de coordenadas. A transformao de coordenadas um processo
trivial quando feito usando matrizes. A transformao matemtica das
coordenadas pode ser feita de diversas maneiras conforme o interesse. A
transformao das variveis originais em componentes principais tem algumas
especificidades que explicaremos agora.
Os componentes principais so as novas variveis geradas atravs de uma
transformao matemtica especial realizada sobre as variveis originais. Esta
operao matemtica est disponvel em diversos softwares estatsticos
especializados. Cada componente principal uma combinao linear de todas as
variveis originais. Por exemplo, um sistema com oito variveis, aps a
transformao, ter oito componentes principais. Cada uma destas componentes
principais, por sua vez, ser escrita como uma combinao linear das oito
variveis originais. Nestas combinaes, cada varivel ter uma importncia ou
peso diferente.
Duas so as caractersticas das componentes principais que as tornam mais
efetivas que as variveis originais para a anlise do conjunto das amostras
(Prado, P. I., Lewinsohn, Thomas Michael, Carmo, R. L., Hogan, D. J.
Ordenao Multivariada na Ecologia e seu Uso em Cincias Ambientais.
Ambiente e Sociedade, Campinas, SP: v.10, p. 69-83, 2002). As variveis podem
guardar entre si correlaes que so suprimidas nas componentes principais. Ou
seja, as componentes principais so ortogonais entre si. Deste modo, cada

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 10 of 13

componente principal traz uma informao estatstica diferente das outras. A


segunda caracterstica importante decorrente do processo matemticoestatstico de gerao de cada componente que maximiza a informao estatstica
para cada uma das coordenadas que esto sendo criadas. As variveis originais
tm a mesma importncia estatstica, enquanto que as componentes principais
tm importncia estatstica decrescente. Ou seja, as primeiras componentes
principais so to mais importantes que podemos at desprezar as demais.
Destas caractersticas podemos compreender como a anlise de componentes
principais: a) podem ser analisadas separadamente devido ortogonalidade,
servindo para interpretar o peso das variveis originais na combinao das
componentes principais mais importantes b) podem servir para visualizar o
conjunto da amostra apenas pelo grfico das duas primeiras componentes
principais, que detm maior parte da informao estatstica.

Comparao PCA e HCA


A anlise de componentes principais e a anlise de agrupamento hierrquico so
tcnicas de anlise multivariada com fundamentos tericos bem diferentes,
podendo ser aplicadas independentemente. Estas tcnicas podem at ser
complementares na informao sobre o conjunto de dados, dependendo do
sistema analisado. Ambas fornecem a viso mais global possvel das amostras
dentro do conjunto de dados, conforme as variveis usadas (Cazar, R. A. An
Exercise on Chemometrics for a Quantitative Analysis Course. Journal of
Chemical Education, Madison, WI: v. 80, n. 9, p. 1026-1029, 2003).

Regresso Linear mltipla de componentes principais


A regresso linear mltipla tambm uma tcnica multivariada cuja finalidade
principal obter uma relao matemtica entre uma das variveis (a varivel
dependente) e o restante das variveis que descrevem o sistema (variveis

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 11 of 13

independentes). Sua principal aplicao, aps encontrar a relao matemtica


produzir valores para a varivel dependente quando se tm as variveis
independentes.Ou seja, ela pode ser usada na predio de resultados.
Obviamente, a soma das contribuies de diversas variveis para uma
determinada predio pode tambm ser feita usando as componentes principais,
pois as mesmas tm a vantagem de poder ser tratadas de modo completamente
independente. Portanto, possvel tambm fazer regresso linear mltipla das
componentes principais.

Concluso
Objetivos bem precisos, desde o incio da pesquisa, ajudam na consecuo do
trabalho e posterior tratamento estatstico. Mesmo quando o pesquisador no
tem qualquer habilidade ou conhecimento de estatstica, no pode deixar na mo
do estatstico o seu conjunto de dados como se houvesse algum procedimento
mgico para extrair informaes daquele sistema. O ideal o estabelecimento de
um dilogo continuo entre pesquisador e estatstico para o primeiro apontar com
clareza onde quer chegar e o que deseja dizer do sistema e o segundo informar os
limites e possibilidades das tcnicas estatsticas.
J. M. Moita Neto

Anexo
Transformao de coordenadas no modificam a estrutura dos dados Mudana
de escala de temperatura

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 12 of 13

Se gostou, apoie a Crtica fazendo uma subscrio ou clicando na publicidade.


Sem o seu apoio no possvel continuar a editar a Crtica. Com o seu apoio, os
tradutores podem ser pagos, o trabalho de formatar e editar a Crtica tambm
remunerado, e as despesas com o servidor no tm de ser suportadas pelo
Director. Todas as sugestes e crticas so bem-vindas. Mais informaes...
Copyright 19972008 criticanarede.com ISSN 1749-8457
Reproduza livremente mas, por favor, cite a fonte.

http://criticanarede.com/cien_estatistica.html

8/6/2008

Crtica | Estatstica multivariada

Page 13 of 13

Termos de utilizao: http://criticanarede.com/termos.html.

http://criticanarede.com/cien_estatistica.html

8/6/2008

Anda mungkin juga menyukai