Anda di halaman 1dari 7

3 .................................................................................................................................. 30 3.1 3.2 2.1 INTRODUO .......................................... ERROR! BOOKMARK NOT DEFINED. DADOS MULTIVARIADOS ........................ ERROR!

BOOKMARK NOT DEFINED. VETOR MEDIA E MATRIZ DE COVARINCIA ........... ERROR! BOOKMARK NOT

DEFINED.

2.2 2.3 2.4 2.5

COMBINAO LINEAR DE VARIVEIS .... ERROR! BOOKMARK NOT DEFINED. DISTANCIAS ENTRE OBJETOS ........................................................................ 31 DISTANCIAS ENTRE AMOSTRAS .................................................................... 32 MISSING DATA POINTS ........................... ERROR! BOOKMARK NOT DEFINED.

Dados e Distancias Multivariadas

30

DADOS E DISTANCIAS MULTIVARIADAS

CAPTULO

Captulo 3

31

2.1 DISTANCIAS ENTRE OBJETOS


A maioria das tcnicas de anlise multivariada so baseadas no simples conceito de distncia. Se considerarmos o ponto P = (x1, x2) no plano, a linha d(O,P) representa a distncia entre P e a origen, O(0,0), , de acordo com o teorema de pitgoras:
2 d (O, P) x12 x2

(1)

Se o ponto P tem p-coordenadas, ento P = (x1, x2, ..., xp), a linha reta de P at O = (0, 0, ..., 0) :
2 d (O, P) x12 x2 ... x 2 p

(2)

A linha reta entre os pontos arbitrrios P e Q, com as coordenadas P = (x1, x2, ..., xp) e Q = (y1, y2, ..., yp) dada por:

d (O, P) ( x1 y1 ) 2 ( x2 y2 ) 2 ... ( x p y p ) 2

(3)

A linha reta ou distncia Euclidiana insatizfatria para a maioria dos propsitos estatsticos pois j que cada coordenada contribui de maneira equalitria para a distncia Euclidiana. Conforme mencionado anteriormente, cada amostra corresponde a um ponto em um espao p-dimensional, onde as p medidas realizadas no objeto correspondem s coordenadas do mesmo naquele espao. A distancia entre dois objetos i e j no espao de dimenso p pode ser calculada atravs da relao:

disti , j ( ( d ik d lk ) p )1 / p
k 1

(4)

Dados e Distancias Multivariadas

32

conhecida como distancia de Minkowski. A distancia Euclidiana corresponde a um caso especial em que p = 2, enquanto que a distancia de Manhattan corresponde a p = 1. A distancia entre dois pontos em um espao de dimenso p corresponde a uma boa estimativa da similaridade entre os dois objetos em questo. Quanto maior distancia menor a similaridade, isto e, objetos idnticos apresentam disti , j 0 . A similaridade entre dois objetos e definida como:
simij 1 disij / max( disij )

(5)

Onde max( disij ) e o maior valor entre as distancias entre os objetos analisados. Usando essa funo, objetos idnticos apresentaro
simij 1

objetos

muito

diferentes,

simij 0 .

As

medidas

de

similaridades so importantes em tcnicas de agrupamento e reconhecimento de padres.

Captulo 3

33

Dados e Distancias Multivariadas

34

Quando as coordenadas representam medidas em variveis no comensurveis, desejavel que os valores sejam pr-processados.

Uma maneira de equalizar os pesos das variveis dividir cada coordenada pelo desvio padro amostral, resultando nas coordenadas
* * padronizadas, x1 x1 / s11 e x2 x2 / s22 . Dessa forma, a distncia

estatstica do ponto P = (x1, x2) at a origem O = (0,0) pode ser calculada atravs da relao:
* * d (O, P) ( x1 ) 2 ( x2 ) 2 ( x1 / s11 ) 2 ( x2 / s22 ) 2 2 x12 x2 s11 s22

(6)

Comparando as expresses (1) e (6), pode-se concluir que a diferena entre essas duas expresses est nos pesos k1 = 1/s11 e k2 = 1/s22.

Captulo 3

35

Se as varincias das duas variveis forem iguais, ento k1 = k2, x1 e x2 tero o mesmo peso e, consequente,ente, a expresso (6) converge para a distncia Euclidiana (expresso 1).

Anda mungkin juga menyukai