Anda di halaman 1dari 17

FACULDADE PITGORAS DE LINHARES Prof. Esp.

Thiago Magalhes
CORRELAO E REGRESSO LINEAR

Introduo Suponha que um inspetor de segurana queira determinar se existe uma relao entre o nmero de horas de treinamento para um funcionrio e o nmero de acidentes envolvendo este mesmo funcionrio. Ou suponha que uma psicloga queira saber se existe uma relao entre o nmero de horas que uma pessoa dorme a cada noite e o tempo de reao da pessoa. Como voc determinaria se a relao existe? Nesta etapa, voc estudar como descrever que tipo de relao, ou correlao, existe entre duas variveis quantitativas e como determinar se a correlao significante.

Definio Uma Correlao uma relao entre duas variveis. Os dados podem ser representados por pares ordenados (x,y), onde x a varivel independente (ou explanatria) e y a varivel dependente (ou resposta).

DIAGRAMA DE DISPERSO um grfico no qual cada ponto plotado representa um par observado de valores para as variveis estudadas (X ,Y), num sistema de eixos cartesianos. Atravs do diagrama de disperso podemos ter uma idia do tipo de relao entre as variveis estudadas. A varivel independente (explanatria) x medida pelo eixo horizontal, e a varivel dependente (resposta) y medida pelo eixo vertical. Um diagrama de disperso pode ser usado para determinar se existe uma correlao linear (linha reta) entre duas variveis. Os diagramas de disperso mostram diversos tipos de correlao. A seguir temos alguns exemplos de diagramas de disperso.

Estatstica e Probabilidade

Pgina 58

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes

Consideremos uma amostra aleatria, formada por dez dos 60 alunos do 3 Perodo de Engenharia da Faculdade Pitgoras e pelas notas obtidas por eles em Clculo 2 e Estatstica: Notas No 01 02 03 04 05 06 07 08 09 10 Clculo 2 (X) 5,0 8,0 7,0 10,0 6,0 7,0 9,0 3,0 8,0 2,0 Estatstica (Y) 6,0 9,0 8,0 10,0 5,0 7,0 8,0 4,0 6,0 2,0

Estatstica e Probabilidade

Pgina 59

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Representando, em um sistema cartesiano ortogonal, os pares ordenados , obtemos uma nuvem de pontos que denominamos diagrama de disperso. Esse diagrama nos fornece uma idia grosseira, porm til da correlao existente:
12 10 Estatstica 8 6 4 2 0 -3 2 Clculo 2 7 12

Construindo o diagrama de disperso Um gerente de marketing conduziu um estudo para determinar se h uma relao entre o dinheiro gasto com propaganda e as vendas da empresa. Os dados so mostrados na tabela. Coloque os dados em um diagrama de disperso e determine se parece haver uma correlao linear positiva ou negativa ou se parece no haver correlao linear.

Estatstica e Probabilidade

Pgina 60

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Soluo O diagrama de disperso mostrado direita. A partir do diagrama de disperso, parece haver uma correlao linear positiva entre as variveis. Interpretao: Lendo da esquerda para a direita, conforme os gastos com propaganda aumentam, as vendas tendem a aumentar.

Coeficiente de correlao Interpretar a correlao usando um diagrama de disperso pode ser subjetivo. Uma maneira mais precisa de se medir o tipo e a fora de uma correlao linear entre duas variveis calcular o coeficiente de correlao. Embora a frmula para o coeficiente de correlao amostral seja dada, mais conveniente usar uma ferramenta tecnolgica para calcular esse valor. O Coeficiente de Correlao uma medida da fora e direo de uma relao linear entre duas variveis. O smbolo r representa o coeficiente de correlao amostral. Uma frmula para r :

O nome formal de r "Coeficiente de Correlao de Pearson". Este nome em homenagem ao estatstico ingls Karl Pearson (1857-1936). Onde n o nmero de pares de valores . A partir dos valores de observados. Observe-se que

, podemos verificar o tipo da correlao

existente entre as variveis estudadas, conforme tabela seguinte:


Valor de 0,0 0,1 |----| 0,3 0,4 |----| 0,6 0,7 |----| 0,9 0,99 1,0 Correlao nula fraca media forte fortssima perfeita

Estatstica e Probabilidade

Pgina 61

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Exemplo: Encontre o coeficiente de correlao para os dados da tabela de notas obtidas pelos 10 alunos de Engenharia nas disciplinas de Clculo 2 e Estatstica: X2 25 64 49 100 36 49 81 9 64 4 481 Y2 36 81 64 100 25 49 64 16 36 4 475

(X) 5 8 7 10 6 7 9 3 8 2 65

(Y) 6 9 8 10 5 7 8 4 6 2 65

XY 30 72 56 100 30 49 72 12 48 4 473

10.473 65.65 10.481 652 10.475 652

505 0,911 585 525

CORRELAO POSITIVA E CORRELAO NEGATIVA O valor de r est sempre entre Se as variveis x e y crescem no mesmo

sentido, isto , quando x cresce, y tambm cresce, diz-se que as duas variveis tm correlao positiva e o valor de r est prximo de 1. Ento, notas de Clculo 2 e notas de Estatstica dos alunos tem correlao positiva, porque quando uma das variveis cresce, a outra , em mdia, tambm cresce. Se as variveis x e y variam em sentido contrrio, isto , quando x cresce, em mdia y decresce, diz-se que as duas variveis tm correlao negativa e o valor de r est prximo de -1. Se r est prximo a 0, isso no significa que no h relao linear.

Estatstica e Probabilidade

Pgina 62

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Observe os dados da Tabela abaixo Consumo individual de protenas de origem animal, em gramas, e coeficiente de natalidade, em 14 pases. Pas Consumo de protenas Formosa Malsia ndia Japo Iugoslvia Grcia Itlia Bulgria Alemanha Irlanda Dinamarca Austrlia Estados Unidos Sucia Fonte: Castro (1961) 4,7 7,5 8,7 9,7 11,2 15,2 15,2 16,8 37,3 46,7 56,1 59,9 61,4 62,6 Coef. de natalidade 45,6 39,7 33,0 27,0 25,9 23,5 23,4 22,2 20,0 19,1 18,3 18,0 17,9 15,0

50 45 40 35 30 25 20 15 10 5 0 0 20 40 60

Eixo x = consumo de protenas Eixo y = coeficiente de natalidade

Estatstica e Probabilidade

Pgina 63

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


ANLISE DE REGRESSO Muitas vezes de interesse estudar a relao de dois ou mais atributos ou variveis simultaneamente. Nesses casos presume-se que pelo menos duas observaes so feitas sobre cada elemento da amostra. A amostra consistir, ento, de pares de valores, um valor para cada uma das variveis, designadas, X e Y. Um indivduo i qualquer apresenta o par de valores (Xi; Yi). O objetivo visado quando se registra pares de valores (observaes) em uma amostra, o estudo das relaes entre as variveis X e Y. Para a anlise de regresso interessam principalmente os casos em que a variao de um atributo sensivelmente dependente do outro atributo. O problema consiste em estabelecer a funo matemtica que melhor exprime a relao existente entre as duas variveis. Simbolicamente a relao expressa por uma equao de regresso e graficamente por uma curva de regresso.

REGRESSO LINEAR O processo de regresso linear consiste em determinar a equao da reta que melhor se ajusta ao conjunto de pontos de uma distribuio. No processo de regresso linear aconselhvel expressar y em funo de x obtendo uma equao do tipo y = ax + b. Neste caso, x a varivel independente e y a varivel dependente, isto , y estimado em funo de x. A equao obtida denominada equao de regresso de y sobre x. Usa-se essa equao quando se deseja obter valores de y que correspondem a valores de x no constantes da tabela. A equao de uma reta de regresso para uma varivel independente x e
mx b , onde y o valor y previsto para um uma varivel dependente y y

dado valor x. A inclinao m e a interseo y b so dadas por

onde

a mdia dos valores y no conjunto de dados e

a mdia dos

valores x. A linha de regresso sempre passa pelo ponto

Estatstica e Probabilidade

Pgina 64

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


EXEMPLO: Determinar a equao da reta que melhor se ajusta aos pontos da tabela:

Completando a tabela com os valores necessrios para os clulos de a e de b, temos:

Calculando m e b, sendo n = 8 (nmeros de pares) Assim, a reta de regresso de y sobre x .

Aplicaes das linhas de regresso Aps encontrar a equao de uma linha de regresso, voc pode usar a equao para prever valores y sobre a amplitude de dados se a correo entre x e y significante. Por exemplo, um executivo de publicidade poderia projetar as vendas da empresa com base nos gastos de propaganda. Para prever valores y, substitua o valor x dado na equao de regresso e ento calcule , o valor y previsto.

Estatstica e Probabilidade

Pgina 65

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Prevendo valores usando equaes de regresso A equao de regresso para os dados sobre gastos com propaganda (em milhares de dlares) e vendas da empresa (em milhares de dlares) :

Use essa equao para prever as vendas esperadas da empresa para os seguintes gastos com propaganda.

Soluo Para prever as vendas esperadas pela empresa, substitua cada gasto com propaganda por x na equao de regresso. Depois, calcule .

Interpretao Quando os gastos com propaganda somam $ 1.500, as vendas da empresa so cerca de $180.155.

Quando os gastos com propaganda somam $ 1.800, as vendas da empresa so cerca de $195.373.

Estatstica e Probabilidade

Pgina 66

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Quando os gastos com propaganda somam $ 2.500, as vendas da empresa so cerca de $ 230.884. Valores de previso so significantes somente para valores x na (ou prximos ) faixa dos dados. Os valores x do conjunto original de dados variam de 1,4 a 2,6. Portanto, no seria apropriado usar a linha de regresso y = 50,729x + 104,061 para prever as vendas da empresa por gastos com propaganda, tais como 0,5 ($ 500) ou 5,0 ($ 5.000).

Estatstica e Probabilidade

Pgina 67

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


Exerccios de Aplicao 1. esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relao, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Massa Muscular (Y) 82.0 91.0 100.0 68.0 87.0 73.0 78.0 80.0 65.0 84.0 116.0 76.0 97.0 100.0 105.0 77.0 73.0 78.0 Idade (X) 71.0 64.0 43.0 67.0 56.0 73.0 68.0 56.0 76.0 65.0 45.0 58.0 45.0 53.0 49.0 78.0 73.0 68.0

a) Construa o diagrama de disperso e interprete-o. b) Calcule o coeficiente de correlao linear entre X e Y. c) Determine a equao da reta de regresso para a relao entre as variveis Y: massa muscular (dependente) e X: idade (independente).

Estatstica e Probabilidade

Pgina 68

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


d) Considerando a reta estimada dada no item (c), estime a massa muscular mdia de mulheres com 50 anos. 2 - A tabela abaixo mostra o faturamento de uma empresa (R$x1000)

Ms Faturamento

JAN 2,1

FEV MAR ABR 2,0 2,6 2,9

MAI 3,1

JUN 3,5

a) Determinar o coeficiente de correlao de Pearson. b) Estimar o faturamento para julho, pela equao da reta de regresso

3 - Observou-se que o volume mensal de lixo gerado em uma cidade, em funo do nmero de dormitrios das residncias, o seguinte (em m 3): No Dormitrios

3 0,45

4 0,57

Volume de lixo 0,15 0,29

a) Calcular e interpretar o coeficiente de correlao. b) Representar o grfico de disperso dessa relao. c) Determinar a equao da reta de regresso. d) Estimar o volume de lixo para uma residncia com 5 dormitrios.

4 - A funo de demanda de um produto est representada na tabela abaixo:

Preo (R$) Demanda (un.)

56,00 60,00 63,00 68,00 74,00 100 93 87 81 75

a) Determinar a equao da reta de regresso. b) Estimar a demanda se o preo for R$ 80,00.

Estatstica e Probabilidade

Pgina 69

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


5 - Os gastos com propaganda e o respectivo volume de vendas gerado, de um certo produto, so dados abaixo:

Gastos com propaganda (em milhares de R$)

20

40

10

100

70

Volume de vendas 1.110 1.250 (em milhares de R$)

1.000

1950 1600

a) Determinar o coeficiente angular e linear da reta de regresso. b) Determinar a equao da reta de regresso. c) Calcular o coeficiente de correlao de Pearson. Interpretar esse valor. d) Estimar o volume de vendas para um gasto de R$ 150.000,00 em propaganda. e) Caso no se faa nenhum investimento em propaganda, qual o volume de vendas esperado? f) Se a expectativa de vendas for de R$ 1.500.000,00, quando se deve investir em propaganda para esse produto?

6 - Suponha que uma cadeia de supermercados tenha financiado um estudo sobres gastos com mercadorias para famlias de classe mdia. O estudo se limitou a famlias com renda lquida entre 8 e 20 salrios mnimos. Obteve-se a seguinte equao: , onde:

Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.

Estatstica e Probabilidade

Pgina 70

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes


7 - Para cada uma das amostras faa o diagrama de disperso e, se uma equao linear parecer apropriada, determine os seus parmetros e calcule o coeficiente de correlao.

8 - Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada indstria:

a) Calcule o coeficiente de correlao. b) Ajuste uma funo linear da forma indstria. para o custo total dessa

Estatstica e Probabilidade

Pgina 71

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes

Gabarito

1. a) Massa Muscular

120 110 100 90 80 70 60 40 50 60 70 80

Idade No grfico de disperso entre a varivel massa muscular e idade, pode-se observar que h um forte indcio de relao linear decrescente entre as variveis em estudo. Nota-se que a massa muscular das pessoas diminui medida que a idade aumenta.

b)

- 0,837 , Segundo o resultado da correlao obtida, pode-se notar que h

uma forte correlao linear entre a varivel massa muscular e idade. Nota-se que medida que a idade da pessoa aumenta a massa muscular diminui, o que coerente com o grfico de disperso apresentada anteriormente.

c)

d)

2. a) 0,9717

b) 3,76

3. a) 0,9986

Estatstica e Probabilidade

Pgina 72

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes

Volume do Lixo

b)

0,6 0,5 0,4 0,3 0,2 0,1 0 0 1 2 3 4 5

N de Dormitrios c)

d) 0,72

4. a) b)

5. a) b) c) d) R$ 2.452,63 e) R$ 878,18 f) R$ 59,24 6. 4,8 7.


4000 3500 3000 2500 2000 1500 1000 500 0 0 20 40 Tamanho 60 80

Estatstica e Probabilidade

Custo Total

Pgina 73

FACULDADE PITGORAS DE LINHARES Prof. Esp. Thiago Magalhes

Obs. Uma Equao Linear no parece ser apropriada.

Obs. Uma equao linear parece ser apropriada. Logo:

8. a) b)

Estatstica e Probabilidade

Pgina 74