Anda di halaman 1dari 9

Variveis aleatrias multivariadas

1. Funes de distribuio conjunta de probabilidades


Foi vista anteriormente a definio de distribuio de probabilidade de uma varivel
aleatria, . Esta distribuio pode ser formulada em termos de uma funo de
densidade de probabilidade (fdp), , ou uma funo de probabilidade acumulada (fpa),
. Se agora, ao invs de termos apenas uma nica varivel, tivermos um vetor de
duas variveis aleatrias:

(1)
as propriedades estatsticas deste vetor sero representadas por uma distribuio
conjunta de probabilidades, que pode ser formulada em termos de uma funo de
densidade de probabilidade conjunta, , ou uma funo de probabilidade acumulada
conjunta, , onde um ponto qualquer no espao amostral bi-
dimensional. A funo definida como:

(2)
sendo que a relao entre e definida como:

(3)

(4)

As definies apresentadas nas eqs. 1 a 4 podem facilmente ser extendidas para mais
de duas variveis aleatrias no vetor . A partir das definies acima, destacam-se as
seguintes propriedades de :

(5)

onde , com , a chamada funo de probabilidade acumulada marginal,


obtida integrando-se em todas as dimenses exceto na -sima.
Na prtica muito difcil, seno impossvel, estimar-se adequadamente parmetros
de uma distribuio multivariada a partir de amostras de um vetor de variveis
aleatrias. Isto se deve ao fato de que a distribuio multivariada deve conter
informaes completas sobre qualquer tipo de relao de dependncia que exista
entre as variveis que compem o vetor, ainda que as mesmas sejam no lineares.
N = 1024;
x1 = randn(1,N);
e = randn(1,N);
x2 = x1.^2 + e;

plot(x1,x2,'b.');
axis([-4 4 -4 10]);
grid on;

>> corrcoef([x1; x2]')

ans =

1.0000 -0.0482
-0.0482 1.0000

Figura 1. Simulao de duas variveis com dependncia no linear.

Por outro lado, conforme os axiomas da teoria de probabilidades implcitos na eq. 2,


se as variveis aleatrias so independentes as funes conjuntas resultam ser
simplesmente um produtrio das respectivas funes marginais:

(6)

importante estabelecer desde j uma distino entre o termo dependncia e correlao.


A correlao uma forma particular de dependncia, que a de uma relao linear.
Portanto, duas variveis aleatrias correlacionadas so dependentes, mas duas
variveis dependentes no so necessariamente correlacionadas.
Como exemplo de uma dependncia no linear, imagine um vetor , tal
que e tem uma relao funcional da forma:

sendo que e so variveis gaussianas padro independentes. Simulaes de e


podem ser feitas como ilustrado na fig. 1. Supondo-se que o observador no
conhea a relao funcional entre e , e supondo-se que no seja observvel,
pelo grfico de amostras simuladas percebe-se claramente uma dependncia entre
as duas variveis. Dependendo da forma como esta dependncia se apresenta, pode
ser muito difcil, seno impossvel, encontrar uma expresso adequada para .

2. Momentos estatsticos cruzados


Da mesma forma que variveis aleatrias univariadas apresentam momentos
estatsticos, variveis multivariadas apresentam momentos estatsticos cruzados.
Estes momentos so definidos como o valor esperado de monmios (produto de
potncias) de ordem , igual ao nmero de variveis no vetor . Para o caso em que
, os momentos cruzados centrais seriam dados por:

(7)

No entanto, de interesse prtico somente o primeiro momento cruzado central (com


), denominado de covarincia:

(8)

A covarincia tambm pode ser expressa na forma:

(9)
onde e so os desvios padro das respectivas distribuies marginais, e
denominado coeficiente de correlao. Demonstra-se (pela inequao de Schwartz) que
o coeficiente de correlao um nmero adimensional tal que . O uso da
notao j antecipa o fato de que as covarincias entre todos os
pares de variveis no vetor constituem uma matriz simtrica, denominada matriz
de covarincia, .
A covarincia, e sua forma adimensional representada pelo coeficiente de correlao,
so medidas da dependncia linear de duas variveis aleatrias. O estimador do
coeficiente de correlao :

(10)

com amostras. Na fig. 1 est apresentado o clculo do coeficiente de


correlao estimado atravs da funo corrcoef do Matlab. Percebe-se que embora
as variveis e sejam nitidamente dependentes, o coeficiente de correlao
resulta ser relativamente pequeno (e de fato tende a zero) j que a dependncia
fortemente no linear. A funo corrcoef retorna a chamada matriz de correlao
(para conjuntos de amostras, referentes s variveis aleatrias do vetor ):

(11)

onde a diagonal sempre 1 pois a correlao de uma varivel aleatria com ela
mesma mxima. Combinando-se as eqs. 9 e 11, e construindo-se a matriz diagonal:

(12)
com os desvios padro das variveis aleatrias do vetor , pode-se estabelecer uma
relao entre as matrizes de covarincia e de correlao como sendo:

(13)
Esta relao usada a seguir na expresso da distribuio gaussiana multivariada.

3. A distribuio gaussiana multivariada


Caso todas as variveis aleatrias que componham o vetor sejam gaussianas, a
funo de densidade de probabilidade conjunta ser dada por:

(14)

onde:

(15)
o vetor de mdias e a matriz de covarincia, , foi definida na seo anterior.
Tendo-se em conta a eq. 13, a matriz de covarincia pode ser re-escrita a partir de
uma fatorizao de Cholesky da matriz de correlao como:

(16)

e consequentemente a inversa da matriz de covariancia :

(17)
a qual substituda na eq. 14 resulta em:

(18)

Esta forma apresenta vantagens computacionais, pois ao invs de se calcular a inversa


da matriz de covarincia pode ser utilizada a fatorizao de Cholesky da matriz de
correlao, seguida de uma retro-substituio para se calcular os termos entre
colchetes dentro da funo exponencial.
Deve-se, contudo, estar atento para o fato de que no caso de existir forte correlao
entre algumas variveis aleatrias isso far com que a matriz de correlao seja mal
condicionada. Neste caso o seu determinante tender a zero, e a fatorizao de
Cholesky ser impossvel. Mas isto tambm significa que alguma varivel aleatria
pode ser modelada diretamente como uma funo linear de outras, sem prejuzo para
a qualidade geral do modelo estatstico.
Quando o vetor de variveis aleatrias constitudo de variveis gaussianas padro
correlacionadas, com e para todo , a eq. 18 simplifica-se para:
R = [1.0 0.9;
0.9 1.0];
s = (2*pi)^2 * det(R);
L = chol(R)';
N = 100;
z = linspace(-3,3,N);
[X,Y] = meshgrid(z,z);
pz = zeros(size(X));

for ii = 1:N,
for jj = 1:N,

xy = L\[X(ii,jj); Y(ii,jj)];
pz(ii,jj) = exp(-(xy'*xy)/2)/sqrt(s);

end
end

colormap(bone); contour(X,Y,pz);
grid on; axis equal;
axis([-3 3 -3 3]);

Figura 2. Visualizao da funo bivariada.

(19)

interessante aproveitar a possibilidade de se calcular analiticamente a distribuio


de probabilidade no caso gaussiano para se visualizar a respectiva funo de
densidade de probabilidade. Para isto definem-se duas variveis aleatrias com
mdia zero e desvio padro unitrio, sendo o coeficiente de correlao .A
visualizao da funo expressa na eq. 19 est apresentada na fig. 2. Observa-se que
as linhas de contorno (curvas de nvel) nesta figura tem forma elptica. As elipses
estaro alinhadas com uma reta cuja inclinao depende do coeficiente de correlao
e da relao entre os desvios padres das duas variveis. Para um coeficiente de
correlao positivo e desvios padres iguais, as elipses estaro alinhadas com uma
reta inclinada de com o eixo , no sentido positivo (anti-horrio). Para desvios
padres iguais e coeficiente de correlao nulo, as elipses se tornaro crculos
concntricos.

4. Simulao de variveis gaussianas correlacionadas


A eq. 18 indica que possvel transformar-se um vetor de variveis gaussianas
multivariadas, , em um vetor de variveis gaussianas padro (mdia zero, desvio
padro unitrio) no correlacionadas, , atravs da expresso:

(20)
Consequentemente, possvel inverter esta relao para produzir simulaes do
vetor a partir de simulaes no correlacionadas do vetor . Esta inverso resulta:

(21)
N = 1024;

R = [1.0 0.9;
0.9 1.0];

L = chol(R)';
Z = L*([randn(1,N); randn(1,N)]);

plot(Z(1,:),Z(2,:),'b.');
grid on;
axis equal;
axis([-3 3 -3 3]);

Figura 3. Simulao de variveis gaussianas correlacionadas.

O uso desta transformao est ilustrado na fig. 3, onde se utiliza o Matlab para
produzir simulaes de duas variveis gaussianas padro com coeficiente de
correlao . As simulaes apresentadas correspondem portanto
distribuio de probabilidade ilustrada na fig. 2.

5. Combinao linear de variveis gaussianas correlacionadas


Como j foi mencionado anteriormente, o teorema do limite central diz que a soma
de variveis aleatrias com distribuio qualquer tende a uma varivel gaussiana.
Particularmente, a combinao linear de variveis gaussianas preserva a distribuio
gaussiana. Calcula-se a seguir o valor esperado e o desvio padro desta combinao,
j que estes dois parmetros definem completamente a sua distribuio de
probabilidades.
Uma combinao linear de variveis multivariadas pode ser expressa como:

(22)

Aplicando-se o operador de valor esperado tem-se que:

(23)

Ou seja, como o operador de expectncia linear ele pode avanar para dentro do
somatrio bem como atravessar constantes multiplicativas. Portanto:

(24)
Da mesma forma, pode-se usar o operador de expectncia para o clculo da varincia
da combinao:

(25)

Fatorando-se as constantes a_i e convertendo-se o quadrado em um duplo somatrio


tem-se que:

(26)

O operador de expectncia pode agora avanar para dentro dos somatrios,


atravessando as constantes, o que leva a:

(27)

Finalmente, reconhecendo-se que a operao de expectncia resultante corresponde


definio de covarincia, chega-se a:

(28)

Tem-se portanto as eqs. 24 e 28 como expresses simples para o clculo da mdia e do


desvio padro da combinao linear de variveis correlacionadas. Estes resultados
so vlidos independentemente da distribuio de probabilidades das variveis
combinadas, mas completam a descrio estatstica no caso de se combinarem
variveis gaussianas.
Caso se combinem variveis no correlacionadas, os coeficientes de correlao so
unitrios para e nulos para , o que resulta na soluo particular:

(29)

Este resultado ser usado a seguir para explicar um processo aleatrio muito
importante na dinmica de sistemas.

6. O processo de Bernoulli
Pela definio original, um processo de Bernoulli, , uma vetor de nmeros
aleatrios no correlacionados, que podem assumir os valores ou sempre com as
mesmas probabilidades e , respectivamente. Sem perda de generalidade,
assume-se aqui que os dois valores possveis para o processo so e , com igual
probabilidade , e passamos a estudar o que ocorre com um processo
que corresponde soma acumulada dos elementos no correspondente vetor de
variveis aleatrias. Portanto, o -simo termo deste processo, , dado por:

(30)

Calculado-se a expectncia como uma ponderao pela probabilidade discreta de


cada valor possvel para uma varivel aleatria, o valor mdio e o desvio padro das
variveis (no correlacionadas) podem ser encontrados como:

Consequentemente, fazendo-se uso das eqs. 24 e 29 da seo anterior tem-se que:

(31)

(32)

Ou seja, o processo um processo com mdia zero e desvio padro crescente. A


fig. 4 apresenta simulaes deste processo, que possui alguns usos e interpretaes
muito teis.
Por exemplo, o rudo captado por um acelermetro (sensor de vibraes), quando
integrado no tempo para produzir um sinal de velocidade (ou duplamente integrado
para produzir um deslocamento) resulta em uma deriva de zero, devida ao
crescimento da varincia decorrente da soma acumulada implcita na integrao
numrica. Consequentemente, este problema de instrumentao requer tcnicas
especiais de integrao para ser evitado.
Um processo de Bernoulli bivariado, quando integrado no tempo, produz um
processo aleatrio bidimensional chamado random walk. Este processo utilizado
como modelo do movimento browniano (movimento de partculas minsculas
flutuando na superfcie de um lquido, observadas j em 1827 pelo botnico Robert
Brown). Esta abordagem probabilstica permitiu a Einstein a confirmao da
existncia de tomos e mleculas, permitindo uma estimativa de seu espaamento
mdio. Estas estimativas foram posteriormente confirmadas por Jean Perrin em 1909,
rendendo-lhe um Prmio Nobel.
N = 2048;

for ii = 1:8,

B = 2*round(rand(1,N)) - 1;
Y = cumsum(B);

plot(1:N,Y); hold on;

end

plot(1:N, sqrt(1:N),'r');
plot(1:N,-sqrt(1:N),'r');

hold off;
grid on;
axis([0 N -100 100]);

Figura 4. Simulaes da soma acumulada de processos de Bernoulli. As linhas de


referncia (vermelhas) correspondem ao desvio padro .

Anda mungkin juga menyukai