Correlação parcial Suponhamos que o nosso interesse seja estudar N indivíduos em três variáveis, X, Y, e Z, com as seguintes correlações:
X versus Y: rXY = +.50 r2XY = .25
X versus Z: rXZ = +.50 r2XZ = .25 2 Y versus Z: rYZ = +.50 r YZ = .25 Inicialmente, focalize no valor de r2, o qual, para este exemplo, é igual a 0.25. Isto significa que, para cada par de variáveis, XY, XZ, e YZ, a covariância, ou a sobreposição das variâncias é de 25%. Como ilustrado no diagrama seguinte, 25% da variabilidade de X sobrepõem com a variabilidade em Y; 25% 2
da variabilidade de X sobrepõem com variabilidade em Z; e
25% da variabilidade de Y também sobrepõem com variabilidade em Z. Note que há uma região onde todos os três círculos de variabilidade se sobrepõem. O significado destas três sobreposições é que certa quantia da correlação encontrada entre quaisquer duas variáveis equivale à correlação que cada uma dessas duas tem com a terceira variável. Assim, 25% das variabilidades sobrepostas estão entre X e Y, aproximadamente metade (julgado a olho nu) está empatado com o que existe entre XZ e YZ. Semelhantemente, para os 25% das variabilidades sobrepostas entre X e Z, onde metades estão limitadas na parte 3
superior com a sobreposição de XY e YZ. E, semelhantemente,
para os 25% de sobreposições de YZ, onde metades estão limitadas na parte superior com a sobreposição de XY e XZ. A Correlação parcial permite medir a região de três sobreposições precisamente e, então, removê-lo da figura para determinar qual seria a correlação entre quaisquer duas variáveis (hipoteticamente) se elas não fossem, cada uma, correlacionada com a terceira variável. Alternativamente, pode-se dizer que a correlação parcial permite determinar qual a correlação entre quaisquer duas variáveis (hipoteticamente) se a terceira variável fosse mantida constante. A correlação parcial de X e Y, com os efeitos de Z removidos (ou mantido constante), seria dada pela fórmula, 4
a qual, para o presente exemplo seria,
Conseqüentemente, .
A mesma estrutura geral seria aplicada para calcular a correlação
parcial entre X e Z, com os efeitos de Y removidos:
. 5
e para calcular a correlação parcial de Y e Z, com os efeitos de
X removidos:
Exemplo de correlação parcial aplicada a vida real.
O Wechsler Adult Intelligence Scale (WAIS) é uma escala freqüentemente utilizada para medir "inteligência" durante os anos de infância. Entre suas várias sub-escalas três estão rotuladas como C, A e V. 6
O "C" representa "compreensão", que reflete principalmente na
habilidade do indivíduo testado em compreender os significados e implicações de passagens escritas. O "A" refere-se à habilidade do indivíduo em executar tarefas que requerem habilidade em aritmética. O "V" representa "vocabulário", que como pode ser imaginado é uma medida que aumenta ou diminui conforme a amplitude do vocabulário do indivíduo dentro do domínio do idioma no qual o teste é construído. A tabela seguinte mostra as correlações encontradas entre estas três sub-escalas típicas. 7
C versus A: rCA = + 0.49 r2CA = 0.24
C versus V: rCV = + 0.73 r2CV = 0.53 A versus V: rAV = + 0.59 r2AV = 0.35
Neste exemplo, as sobreposições são diferentes,
embora a lógica seja a mesma. Isto é, 24% das sobreposições das variâncias ocorrem na relação entre compreensão e habilidade em aritmética, uma porção significativa reflete o fato de que ambas variáveis são correlacionadas com vocabulário. Se nós fôssemos remover os efeitos de vocabulário da relação entre C e A, a correlação parcial resultante seria, 8
Conseqüentemente, .
Em resumo: com os efeitos de vocabulário removidos, a
correlação entre compreensão e habilidade em aritmética se desmorona até quase zero. A conclusão prática é que se nós fôssemos administrar o WAIS a um grupo de indivíduos, que eram homogêneos com respeito à amplitude de vocabulário, a correlação entre os escores de 9
compreensão e aritmética prova-se bastante escasso, da ordem
de r = +0.11 e r2 = 0.01. Na maioria dos casos, uma correlação parcial da forma geral rXY.Z mostrar-se-á menor do que a correlação original rXY.
Nesses casos, em que se mostra maior, a terceira variável, Z, é
chamada tipicamente de variável supressora, uma vez que está suprimindo a maior correlação que estaria embutida entre X e Y se Z permanecesse constante. Por exemplo, suponha que um professor, muito exigente, tenha administrado uma prova na disciplina de estatística e que nós temos as medições obtidas, a cada um dos estudantes do curso, as três variáveis seguintes: 10
X = O esforço despedido no estudo para o exame
Y = O conceito do estudante na prova da disciplina Z = Uma medida do grau em que o professor inspira temor e respeito no estudante
A seguir, apresentam-se as correlações entre as três
variáveis: X versus Y: rXY = +0.20 r2XY = 0.04 X versus Z: rXZ = + 0.80 r2XZ = 0.64 Y versus Z: rYZ = - 0.40 r2YZ = 0.16 11
Observem que não é estranho a correlação entre X e Y resultar
em baixo valor, rXY = + 0.20 e r2XY = 0.04, indicando mero 4% de covariância entre os graus de esforço que os estudantes dispensaram para o exame e as notas que eles receberam?.
Examine, porém, as outras duas correlações e observem que não
é, afinal de contas, tão estranho assim. Quanto maior o temor e respeito, maior é o esforço que os estudantes tendem a impor para se preparar para o exame; conseqüentemente rXZ = + 0.80 e r2XZ = 0.64. Por outro lado, quanto maior o medo e respeito, os estudantes tendem menos a fazer um bom exame, como resultado disso rYZ 12
= - 0.40 e r2YZ = 0.16. Removendo os efeitos supressores, medo
e respeito, da equação, tem-se:
e a correlação entre esforço e o conceito no exame vai de um
pequeno rXY = + 0.20, para um expressivo rXY.Z = +0.95. 13
Ou, alternativamente: removendo-se o medo e o respeito, a
covariância entre esforço e conceito no exame vai de mero 4% 2 para um valor altamente significativo de 90% (r XY.Z = .90).