Anda di halaman 1dari 84

Probabilidades e Estatı́stica C

Estatı́stica
Maria de Fátima Miguens

Ano Lectivo 2009/2010


Conteúdo

1 Inferência Estatı́stica 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 População e amostra aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Estimação Pontual 9
2.1 Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Exemplo de estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Métodos para determinação de estimadores . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Erro de amostragem e distribuição de amostragem . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Distribuição de amostragem de X . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Distribuição de amostragem de S 2 . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Distribuição de amostragem de P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Erro padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Enviesamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Eficiência e erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.4 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.5 Propriedades de X̄, S 2 e P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Estimação por Intervalo de Confiança 21


3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Estimação por intervalo de confiança do valor médio µ = E (X) da população X . . . 24
3.3 Estimação por intervalo de confiança da variância σ 2 = V (X) da população X . . . . 30
3.4 Estimação por intervalo de confiança da proporção p de ocorrência do acontecimento A 32
3.5 Outras distribuições de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.1 Diferença de médias de amostras de duas populações, X̄ − Ȳ . . . . . . . . . . 34
3.5.2 Quociente de variâncias amostrais de duas populações, S12 /S22 . . . . . . . . . . 34
3.5.3 Diferença de proporções amostrais de duas populações pˆ1 − pˆ2 . . . . . . . . . . 35

4 Teste de Hipóteses 36
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Teste de hipóteses para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Teste de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . 39
4.2.2 Teste de hipóteses unilateral direito para o valor médio . . . . . . . . . . . . . 46
4.2.3 Teste de hipóteses unilateral esquerdo para o valor médio . . . . . . . . . . . . 48

1
4.3 Teste de hipóteses para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Teste de hipóteses bilateral para a variância . . . . . . . . . . . . . . . . . . . . 51
4.3.2 Teste de hipóteses unilateral direito para a variância . . . . . . . . . . . . . . . 52
4.3.3 Teste de hipóteses unilateral esquerdo para a variância . . . . . . . . . . . . . . 54
4.4 Outros testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 Teste de hipóteses para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Teste de hipóteses para comparação do valor médio de duas populações . . . . 57
4.5 Teste ao pressuposto da normalidade de uma população . . . . . . . . . . . . . . . . . 60

5 Regressão Linear Simples 67


5.1 Relação entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.3 Método dos mı́nimos quadrados para estimar β0 e β1 . . . . . . . . . . . . . . . . . . . 69
5.4 Estimação da variância do erro σ 2 e qualidade do ajustamento . . . . . . . . . . . . . 71
5.4.1 Estimador para σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4.2 Qualidade do ajustamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5 Distribuição de amostragem dos estimadores β̂0 e β̂1 . . . . . . . . . . . . . . . . . . . 73
5.5.1 Distribuição de amostragem de β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5.2 Distribuição de amostragem de β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.6 Inferência sobre os parâmetros do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6.1 Inferência sobre β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6.2 Inferência sobre β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.6.3 Inferência sobre σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.7 Estimação do valor esperado de Y para uma observação x0 da variável controlada . . 79
5.8 Previsão do valor da variável resposta Y para um novo valor de x0 da variável controlada 80
Lista de Tabelas

2.1 Tabela de estimadores para o valor médio, variância, desvio padrão e proporção . . . . 20

3.1 Intervalos de confiança para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . 29


3.2 Distribuição de amostragem para a diferença de médias de amostras de duas populações 34
3.3 Distribuição de amostragem para o quociente de variâncias de amostras de duas pop-
ulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Distribuição de amostragem para a diferença de proporções amostrais de duas populações 35

4.1 Testes de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . . . . . 44


4.2 Testes de hipóteses unilateral direito para o valor médio . . . . . . . . . . . . . . . . . 48
4.3 Testes de hipóteses unilateral esquerdo para o valor médio . . . . . . . . . . . . . . . . 50
4.4 Testes de hipóteses para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5 Testes para a proporção, p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.6 Testes de hipóteses para comparação de dois valores médios . . . . . . . . . . . . . . . 57

3
Lista de Figuras

1.1 Função de probabilidade da população e da amostra . . . . . . . . . . . . . . . . . . . 7

3.1 Intervalos de confiança para o valor médio: Situações A, B e D . . . . . . . . . . . . . 29


3.2 Intervalos de confiança para o valor médio: Situação C . . . . . . . . . . . . . . . . . . 30
3.3 Intervalo de confiança para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 Teste bilateral para o valor médio: Situações A, B e D . . . . . . . . . . . . . . . . . . 44


4.2 Teste bilateral para o valor médio: Situação C . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Teste unilateral direito para o valor médio: Situações A, B e D . . . . . . . . . . . . . 47
4.4 Teste unilateral direito para o valor médio: Situação C . . . . . . . . . . . . . . . . . . 48
4.5 Teste unilateral esquerdo para o valor médio: Situações A, B e D . . . . . . . . . . . . 50
4.6 Teste unilateral esquerdo para o valor médio: Situação C . . . . . . . . . . . . . . . . 51
4.7 Teste bilateral para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.8 Teste unilateral direito para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.9 Teste unilateral esquerdo para a variância . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.10 Teste do qui-quadrado ao pressuposto de normalidade . . . . . . . . . . . . . . . . . . 63

4
Capı́tulo 1

Inferência Estatı́stica

1.1 Introdução
A inferência estatı́stica é uma área de estudo dedicada ao desenvolvimento e aplicação de métodos
que possibilitem a tomada de decisões e a predição de quantidades desconhecidas numa população.
Este métodos utilizam a informação contida numa amostra seleccionada da população.
A inferência estatı́stica pode ser dividida em duas grandes áreas: estimação de parâmetros e testes
de hipóteses. Como exemplo de um problema sobre estimação de parâmetros, suponhamos que um
engenheiro pretende analisar a resistência de uma componente usada no chassis de um automóvel.
Sendo natural que a resistência varie de componente para componente, isto devido a diferenças que
podem ocorrer nos materiais e no processo de fabrico de cada componente assim, como nos métodos
de leitura da respectiva resistência, o engenheiro está apenas interessado em estimar a resistência
média deste tipo de componentes. Na prática, o engenheiro irá utilizar os dados de uma amostra de
resistências para determinar um número que de algum modo, considere ser uma boa avaliação (ou uma
predição) da verdadeira resistência média. Este número é denominado estimativa pontual. Veremos
também que é possı́vel estabelecer a precisão desta estimativa.
Consideremos a situação em que duas temperaturas de reacção, digamos t1 e t2 , podem ser uti-
lizadas num processo quı́mico. Um engenheiro conjectura que com t1 obterá, em média, resultados de
maior grandeza do que com t2 . O teste estatı́stico de hipóteses é uma ferramenta que permite resolver
questões deste tipo. Neste caso, a hipótese será que o resultado médio quando usada a temperatura
t1 é maior que o resultado médio quando usada a temperatura t2 . Repare que não é dado ênfase à
estimação dos resultados médios; em vez disso, a atenção é dirigida para a conclusão que se pode
retirar acerca da hipótese formulada sobre os resultados médios.
Começamos por definir amostra aleatória, conceito fundamental na inferência estatı́stica. Mais
tarde veremos o conceito de estimador e estimativa de um parâmetro, e finalmente iremos calcular
a precisão da estimativa de um parâmetro analisando as propriedades do estimador utilizado e/ou
determinando estimativas por intervalo de confiança.

1.2 População e amostra aleatória

1.2.1 População
Exemplo 1.1 Consideremos o conjunto de alunos da FCT/UNL e a informação acerca do número de
pessoas que compõem o respectivo agregado familiar. Admitamos que 5%, 9%, 40%, 30%, 10%, 5% e

5
1. Inferência Estatı́stica 6

1% dos alunos têm um agregado familiar constituı́do por 1, 2, 3, 4, 5, 6 e 7 pessoas, respectivamente. Se


formos escolher um aluno ao caso e registarmos o n.o de pessoas no seu agregado familiar, poderemos
obter um valor X−“n.o pessoas no agregado familiar”, com a seguinte função de probabilidade

1 2 3 4 5 6 7
X
0.05 0.09 0.40 0.30 0.10 0.05 0.01

Se o objectivo for estudar o n.o de pessoas que constituem o agregado familiar dos alunos da FCT/UNL,
esse objectivo consiste em estudar a v.a. X.
Esse estudo poderá passar pela estimação da função de probabilidade de X ou pela estimação do
n.o esperado de pessoas no agregado familiar de um aluno, ou pela estimação do desvio padrão de X,
etc.
No fundo o estudo incide sobre a v.a. X ou seja sobre a distribuição do n.o de elementos que
compõem o agregado familiar dos alunos da FCT/UNL.

Definição 1.1 Uma população consiste na totalidade das observações do fenómeno em estudo.

Em cada problema, a população pode ser pequena, grande ou infinita. O número de observações
na população é designado por dimensão da população. Por exemplo, o número de garrafas não com-
pletamente cheias produzidas por dia numa empresa de refrigerantes é uma população finita. As
observações obtidas por medição do nı́vel diário de monóxido de carbono é uma população infinita.
A estatı́stica dedica-se ao estudo da população, ou seja ao estudo da repartição de probabilidades
dos seus valores. Se representarmos por X o conjunto dos valores da população, estudar X será estudar
a sua repartição de probabilidades, será portanto estudar a sua distribuição.
Esse estudo poderá passar pela estimação da própria função de distribuição de X, ou pelo estimação
do valor de alguns dos parâmetros da distribuição que se admite ser a mais correcta para X.
Por exemplo, um engenheiro pode considerar que a população das resistências de um elemento
do chassis tem distribuição normal com valor médio µ e variância σ 2 . (Quando consideramos este
pressuposto, dizemos que temos uma população normal ou uma população normalmente distribuı́da.)
O seu objectivo é estimar a resistência média, µ, desse elemento do chassis.

1.2.2 Amostra
Na maioria das situações, é impossı́vel ou impraticável observar a totalidade da população. Por
exemplo, não seria viável estudar a resistência do elemento do chassis através da observação de todos
os elementos da população. Isso seria demasiado demorado e dispendioso. Além do mais, alguns (por
ventura todos) desses elementos não existiriam no momento em que se quer tirar uma conclusão acerca
da sua resistência média.
Assim, seleccionamos alguns elementos da população, e com o estudo das suas caracterı́sticas,
vamos tirar ilacções sobre as caracterı́sticas de toda a população.
Adoptando este procedimento, ficamos dependentes de um conjunto de observações da população,
para podermos tomar decisões acerca de toda a população.
Definição 1.2 Uma amostra é um conjunto de observações seleccionadas, ao acaso e segundo um
método pré-estabelecido, de uma população.

Exemplo 1.2 No estudo sobre o número X de pessoas que compõem o agregado familiar dos alunos
FCT/UNL, recolheu-se uma amostra de valores respeitantes a 50 alunos (seleccionados ao acaso). Na
1. Inferência Estatı́stica 7

tabela que se segue, resume-se a informação obtida:

Valores amostrais 1 2 3 4 5 6 7 Total


Frequência absoluta 2 6 18 14 6 3 1 50
Frequência relativa 0.04 0.12 0.36 0.28 0.12 0.06 0.02 1.00

O conjunto de frequências relativas desta amostra constitui uma estimativa da função de probabil-
idade de X.
Suponha que era possı́vel inquirir todos os alunos e como tal obter a função de probabilidade de X:

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01

Figura 1.1: Função de probabilidade da população e da amostra


N.º pessoas / Agregado
0.5

Freq obs
0.4
0.3
0.2
0.1
0.0

1 2 3 4 5 6 7

N.º pessoas

Para que as nossas inferências sejam válidas, a amostra deve ser representativa da população. É
por vezes tentador, seleccionar elementos da população aplicando critérios na sua escolha, como por
exemplo, a comodidade da sua selecção. Estas atitudes podem introduzir uma tendência na amostra
provocando estimativas sub-avaliadas ou sobre-avaliadas. Para evitar estes problemas, devemos se-
leccionar uma amostra aleatória usando um mecanismo de escolha casual. Assim sendo, a selecção
de uma amostra deve ser resultado de uma experiência aleatória. Cada dado amostral é um valor
observado de uma variável aleatória. O modo como se distribuem as observações na população, isto é
a sua função de distribuição, determina a probabilidade de selecção de um dado.

Exemplo 1.3 Se de facto a função de probabilidade de X é



1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01

então será escolhido um aluno com o agregado constituı́do por 1 pessoa com probabilidade 0.05, um
aluno com 2 pessoas no agregado com probabilidade 0.09, etc.

Importa agora falarmos do conceito de amostra aleatória. Seja X a variável aleatória que representa
o resultado da selecção de uma observação da população e F a sua função de distribuição. Suponhamos
que cada observação amostral é obtida de modo independente, e nas mesmas condições. Isto é, as
1. Inferência Estatı́stica 8

observações amostrais são obtidas como se observássemos X, independentemente e sob as mesmas


condições, por n vezes. Seja Xi a variável aleatória que representa a i-ésima réplica. Então as
v.a.’s X1 , X2 , . . . , Xn , constituem uma amostra aleatória e os valores que se obtêm por concretização
desta amostra aleatória são representados por x1 , x2 , . . . , xn . As variáveis aleatórias que constituem a
amostra aleatória são independentes e têm todas a mesma função de distribuição F, uma vez que se
admite que cada observação amostral é obtida nas mesmas condições e na mesma população.

Exemplo 1.4 Se no estudo de X-“n.o de pessoas por agregado familiar dos alunos da FCT/UNL”,
optarmos por seleccionar ao acaso e com reposição, uma amostra de 3 alunos, então X1 representa
o n.o de pessoas do agregado familiar do 1o aluno que viermos a seleccionar. Claro que, se a função
de probabilidade de X for

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01

então o n.o de pessoas do agregado familiar deste 1o aluno terá função de probabilidade

1 2 3 4 5 6 7
X1
0.05 0.09 0.4 0.3 0.1 0.05 0.01

O n.o de pessoas do agregado familiar do 2o aluno que viermos a seleccionar terá função de probabili-
dade

1 2 3 4 5 6 7
X2
0.05 0.09 0.4 0.3 0.1 0.05 0.01

e o n.o de pessoas do agregado familiar do 3o aluno que vir a escolhido terá função de probabilidade

1 2 3 4 5 6 7
X3
0.05 0.09 0.4 0.3 0.1 0.05 0.01

Se a escolha destes 3 alunos for perfeitamente casual e usarmos um método de amostragem com
reposição, então X1 , X2 e X3 são v.a.’s independentes e todas igualmente distribuı́das, com uma
distribuição idêntica à da população X.
Admitamos que, após a escolha dos alunos, se observaram os valores x1 = 5, x2 = 1 e x3 = 3. Isto
significa que a amostra aleatória (X1 , X2 , X3 ) foi concretizada na amostra observada (x1 , x2 , x3 ) =
(5, 1, 3).

Definição 1.3 Seja X uma população e (X1 , X2 , . . . , Xn ) uma amostra aleatória resultante da se-
lecção ao acaso e com reposição de n elementos de X. Então:

(a) X1 , X2 , . . . , Xn são variáveis aleatórias independentes;

(b) X1 , X2 , . . . , Xn são variáveis aleatórias identicamente distribuı́das, com distribuição igual à da


população X.
Capı́tulo 2

Estimação Pontual

2.1 Estatı́sticas
Muitas vezes o propósito da recolha da amostra consiste em obtermos informação acerca do valor
dos parâmetros da distribuição da população, caso tenham valor desconhecido. Essa informação é
obtida por estimação dos parâmetros, ou seja pela utilização de estatı́sticas adequadas ao tipo de
parâmetros em causa.
Por exemplo, o engenheiro ao considerar que a população das resistências de um elemento do
chassis tem distribuição normal, só pretende saber algo acerca da resistência média do elemento do
chassis, por isso só pretende estimar o valor médio µ desta distribuição normal. Precisa neste caso de
uma estatı́stica para estimar µ.
Suponhamos, por exemplo, que pretendemos chegar a uma conclusão acerca da proporção de
pessoas em Portugal que preferem, uma marca de refrigerante, em particular. Representemos por
p o valor desconhecido desta proporção. Sendo impraticável interrogar todos os portugueses para
determinarmos o verdadeiro valor de p, vamos inferir o seu valor à custa de uma amostra (de tamanho
conveniente) e usando a proporção observada p̂, de pessoas que nesta amostra preferem aquela marca
de refrigerante.
A proporção amostral, p̂, é calculada dividindo o número total de indivı́duos da amostra que
preferem a marca de refrigerante, pelo total de indivı́duos na amostra (dimensão da amostra). Assim,
p̂ é uma função dos valores observados na amostra. Mas como é possı́vel seleccionar muitas e variadas
amostras de uma população, o valor de p̂ poderá variar de amostra para amostra. Isto é, p̂ é uma
observação de uma variável aleatória P̂ que representa a proporção de pessoas que numa amostra
aleatória (X1 , X2 , . . . , Xn ) vierem a manifestar preferência pela marca de refrigerante. P̂ é uma
estatı́stica.

Definição 2.1 Uma estatı́stica é uma função das variáveis de uma amostra aleatória, ou seja, se
(X1 , X2 , . . . , Xn ) é uma amostra aleatória da população X e T : Rn −→ R é uma função, T ≡
T (X1 , X2 , . . . , Xn ) é uma estatı́stica.

Veremos mais tarde, alguns exemplos importantes de estatı́sticas. Uma vez que uma estatı́stica é
uma variável aleatória, necessariamente terá uma função de distribuição. A essa função de distribuição
é dado o nome de distribuição de amostragem da estatı́stica. A noção de distribuição de amostragem
é fundamental em inferência estatı́stica.
Uma secção importante da inferência estatı́stica aborda a denominada estimação pontual de
parâmetros tais como o valor médio de uma população ou como a variância de uma população. Quando

9
2. Estimação Pontual 10

se discutem problemas de inferência estatı́stica sobre parâmetros de uma população é habitual o uso
de letras gregas para na representação desses parâmetros. Por exemplo, µ para o valor médio de uma
população, σ para o desvio padrão de uma população.
O objectivo da estimação pontual de um parâmetro θ, consiste na atribuição de um valor numérico,
baseado na informação da amostra, que seja um valor plausı́vel para θ. Esse valor numérico será a
estimativa pontual do parâmetro.
Em geral, se X é uma população com função de distribuição F, caracterizada por um parâmetro θ
de valor desconhecido, e se (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n da população X,
então a estatı́stica Θ̂ = h (X1 , X2 , . . . , Xn ) é denominada estimador pontual de θ. Repare que Θ̂ é uma
variável aleatória, porque é função de variáveis aleatórias. Após uma amostra ter sido seleccionada,
Θ̂ toma um valor numérico particular θ̂ chamado estimativa pontual de θ.
Definição 2.2 Uma estimativa pontual do parâmetro θ de uma população é um único valor numérico
θ̂ de uma estatı́stica Θ̂, obtido pela observação (x1 , x2 , . . . , xn ) de uma amostra aleatória (X1 , X2 , . . . , Xn ).

Exemplo 2.1 Regressemos ao exemplo do n.o de pessoas por agregado familiar dos alunos da FCT/UNL.
Suponhamos que querı́amos saber qual o n.o médio de pessoas por agregado familiar destes alunos?
Se analisássemos toda a população, saberı́amos que X tem função de probabilidade

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
e portanto saberı́amos que
µ = E (X) = 1 × 0.05 + 2 × 0.09 + . . . + 7 × 0.01 = 3.5 pessoas
Mas de facto, o que conhecemos é a amostra
Valores amostrais 1 2 3 4 5 6 7 Total
Frequência absoluta 2 6 18 14 6 3 1 50
e por isso, poderemos quando muito apresentar uma estimativa pontual de µ, usando a estatı́stica
n
1X
X= Xi . A estimativa pontual de µ resultaria em:
n
i=1

50
1 X 1 179
x= xi = (1 × 2 + 2 × 6 + 3 × 18 + . . . + 7 × 1) = = 3.58 pessoas
50 50 50
i=1

2.2 Exemplo de estatı́sticas


De entre os diversos parâmetros que caracterizam a distribuição de uma população X, o valor
médio, a variância, o desvio padrão e a proporção são os que mais frequentemente são estimados.
Por esta razão, apresentamos os estimadores mais comuns (e melhores de acordo com certos critérios
estatı́sticos que abordaremos mais tarde) para o valor médio,para a variância, para o desvio padrão
e para a proporção de uma população. Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória com
dimensão n, de X.
Estimador do valor médio µ de uma população X
n
1X X1 + X2 + . . . + X n
X= Xi =
n n
i=1
2. Estimação Pontual 11

Estimador da variância σ 2 de uma população X


n 2 2 2
2 1 X 2 X1 − X + X2 − X + . . . + Xn − X
S = Xi − X =
n−1 n−1
i=1

que também pode ser escrito e determinado por


n
! !
1 X 2 1  2  2

S2 = Xi2 − nX = X1 + X22 + . . . + Xn2 − nX
n−1 n−1
i=1

Estimador do desvio padrão σ de uma população X



S = + S2

As estimativas pontuais destes parâmetros, representar-se-ão por x, s2 e s, respectivamente.

Estimador da proporção (ou probabilidade) p de realização de um acontecimento A


Se numa amostra de dimensão n, se observar K vezes o acontecimento A (sucesso), o estimador
de p é
K
P̂ =
n
e a estimativa de p é
k
p̂ = ,
n
quando se observa K = k.

Exemplo 2.2 O número de defeitos num painel metálico usado na construção de automóveis tem
distribuição de Poisson. Seleccionada uma amostra do n.o de defeitos em 10 paineis, obtiveram-se os
seguintes valores: (2, 7, 15, 8, 7, 6, 3, 7, 3, 4).
Se pretendermos estimar o parâmetro da distribuição da população, como sabemos que esta é
Poisson e o parâmetro da distribuição de Poisson coincide com o valor médio desta distribuição, o
problema resume-se à estimação do valor médio da população.
Assim, para a amostra obtida, a estimativa do parâmetro será:
2 + 7 + 15 + 8 + 7 + 6 + 3 + 7 + 3 + 4 62
x= = = 6.2
10 10
ou seja, estimamos que seja de 6.2 o no médio de defeitos por painel.

Exemplo 2.3 Admitamos que não se conhece a distribuição do n.o de defeitos por painel e se pretende
avaliar a dispersão desse n.o de defeitos. Se medirmos a dispersão através do desvio padrão, então
v ! !
u 10 10
√ u 1 X p X
2 2
s = s2 = t xi − 10 × 6.22 = 13.9(5) ≈ 3.74 xi = 510
10 − 1
i=1 i=1

é a sua estimativa pontual.


2. Estimação Pontual 12

2.3 Métodos para determinação de estimadores

2.3.1 Método dos momentos


Definição 2.3 Dada uma população X e r ∈ N, define-se o nome de momento de ordem r, por

µ′r = E (X r ) ,

e o momento centrado de ordem r, por

µr = E [(X − E (X))]r .

Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) da população X, para estimadores destes momentos,
considerem-se
n
1X r
Mr′ = Xi ,
n
i=1

o estimador de µ′r , designado por momento amostral de ordem r e,


n
1X r
Mr = Xi − X̄ ,
n
i=1

o estimador de µr , designado por momento amostral centrado de ordem r.

Se X é uma população cuja distribuição depende de k parâmetros, θ1 , θ2 , . . . , θk , os respectivos


estimadores de momentos, Θ∗1 , Θ∗2 , . . . , Θ∗k , são as soluções do sistema de k equações a k incógnitas,


 E (X) = X̄

 2 = M2
µ


µ3 = M3

 ..


 .

µk = Mk

Exemplo 2.4 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com distribuição
U (a, b). Determinemos os estimadores de momentos, A∗ e B ∗ , dos parâmetros a e b, respectivamente.
a+b (b − a)2
Como sabemos, E (X) = e µ2 = V (X) = . Assim
2 12
 (
a+b  √
E (X) = X̄ 2 = X̄ a = X̄ − √ 3 M2
⇔ (b−a) 2 ⇔
V (X) = M2 = M2 b = X̄ + 3 M2
12
n n
1X 2 n − 1 1 X 2 n − 1 2
Repare que M2 = Xi − X̄ = Xi − X̄ = S .
n n n−1 n
i=1 i=1
 r
 3 (n − 1)
 A∗ = X̄ −
 S
Os estimadores de momentos para a e b são, r n .
 3 (n − 1)
 B ∗ = X̄ +
 S
n
2. Estimação Pontual 13

2.4 Erro de amostragem e distribuição de amostragem


Já atrás foi dito que, se X é uma população com função de distribuição F, caracterizada por
um parâmetro θ de valor desconhecido, e se X1 , X2 , . . . , Xn é uma amostra aleatória de dimensão
n desta população, então a estatı́stica Θ̂ = h (X1 , X2 , . . . , Xn ) é denominada estimador pontual de
θ. Após a selecção de uma amostra, com valores (x1 , x2 , . . . , xn ), obtemos um valor particular θ̂ =
h (x1 , x2 , . . . , xn ) de Θ̂, chamado estimativa pontual de θ.
Definição 2.4 O erro de amostragem é a diferença entre a estimativa obtida através de uma amostra
e a estimativa que se obteria através da recolha de informação de toda a população (censo à população).

Repare que Θ̂ é uma variável aleatória, porque é função de variáveis aleatórias e como tal terá
uma distribuição. Essa distribuição não é mais do que a repartição probabilı́stica de todos os valores
observáveis de Θ̂, sendo estes todos os que se obteriam caso fosse realizável recolher todas as possı́veis
amostras de dimensão n.

Definição 2.5 A distribuição de um estimador pontual (ou estatı́stica) Θ̂ é designada por distribuição
de amostragem de Θ̂.

2.4.1 Distribuição de amostragem de X


Admitamos que X é uma população com valor médio µ ≡ E (X) e variância σ 2 ≡ V (X).
Se µ tiver valor desconhecido e o quisermos estimar através de uma a.a. (X1 , X2 , . . . , Xn ), podemos
considerar o estimador
n
1X
X= Xi
n
i=1

Valor médio e variância de X


Sendo X uma v.a., comecemos por determinar o seu valor médio e a sua variância
n
! n n
 1X 1X 1X nµ
E X = E Xi = E (Xi ) = µ= =µ (2.4.1)
n n n n
i=1 i=1 i=1
n
! n n
 1X 1 X 1 X 2 nσ 2 σ2
V X = V Xi = V (Xi ) = σ = = (2.4.2)
n n2 n2 n2 n
i=1 i=1 i=1

Observações:

• O valor esperado da distribuição da média amostral X coincide com o valor médio da população.

• A variância da distribuição da média amostral X é igual à variância da população dividida por


n.
Este resultado diz-nos que, quanto maior for o número de observações recolhidas, mais concen-
trados em torno de µ estarão os valores de X (ou seja, as estimativas de µ).
Também se conclui que a variância de X é proporcional à variância da população.

Passamos agora a apresentar a distribuição de amostragem de X que, como veremos depende do


conhecimento que temos sobre a população donde se extrai a amostra.
2. Estimação Pontual 14

Situação A: X tem distribuição Normal com variância σ 2 conhecida



Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2 em que
σ 2 tem um valor conhecido.   
Como X1 , X2 , . . . , Xn são v.a.’s i.i.d com distribuição N µ, σ 2 , então X ∼ N E X , V X ,
isto é
 
σ2
X ∼ N µ, (2.4.3)
n
e
X −µ √ X −µ
Z= √ ≡ n ∼ N (0, 1) (2.4.4)
σ/ n σ

Situação B: X tem distribuição desconhecida ou conhecida e não normal, com variância


σ 2 conhecida e n ≥ 30
Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição não normal ou
desconhecida, com variância σ 2 conhecida.
Mesmo nos casos em que é possı́vel deduzir a distribuição de X, essa distribuição não é “manejável”no
sentido da comodidade do cálculo de probabilidades.
Quando X tem uma distribuição desconhecida, é impossı́vel determinar a distribuição de X.
Pelas duas razões acima mencionadas, opta-se pela recolha de uma amostra de tamanho razoavel-
mente grande, normalmente de dimensão maior ou igual a 30, n ≥ 30, de modo a podermos invocar o
Teorema Limite Central e estabelecermos que

X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.5)
σ/ n σ

Situação C: X tem distribuição Normal com variância σ 2 desconhecida



Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2 em que
σ 2 tem um valor desconhecido.
Não conhecendo o valor de σ 2 , podemos começar por o estimar usando o estimador
n
1 X 2
S2 = Xi − X
n−1
i=1
.
Então, a estatı́stica (v.a.)
X −µ √ X −µ
T = √ ≡ n
S/ n S
tem distribuição t (ou t-Student) com n − 1 graus de liberdade, que se representa de modo abreviado
por tn−1 .

X −µ √ X −µ
T = √ ≡ n ∼ tn−1 (2.4.6)
S/ n S

Nota: A distribuição t é simétrica em torno de zero e o seu suporte é R.


2. Estimação Pontual 15

Situação D: X tem distribuição desconhecida ou conhecida e não normal, com variância


σ 2 desconhecida e n ≥ 30
Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição não normal ou
desconhecida, com variância σ 2 desconhecida.
Mais uma vez o desconhecimento do valor de σ 2 leva a que o estimemos através de
n
2 1 X 2
S = Xi − X
n−1
i=1
.
Se considerarmos uma amostra de dimensão n ≥ 30, a estimativa de σ 2 é suficientemente precisa de
modo que o Teorema Limite Central e outras considerações fora do âmbito desta disciplina, permitem
estabelecer que

X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.7)
S/ n S

2.4.2 Distribuição de amostragem de S 2


Sendo importante estimar a variância de uma população X, podemos adoptar como seu estimador
n
2 1 X 2
S = Xi − X
n−1
i=1
.
Quanto à sua distribuição de amostragem, só existem resultados de utilização prática quando a
amostra provém de uma população com distribuição Normal. Assim, se (X1 , X2 , . . . , Xn ) é uma
a.a. de uma população X com distribuição N µ, σ 2 em que µ tem valor desconhecido, a estatı́stica
(v.a.)
(n − 1) S 2
X2 =
σ2
tem distribuição do Qui-Quadrado com n−1 graus de liberdade (que abreviadamente se escreve χ2n−1 ).

(n − 1) S 2
X2 = ∼ χ2n−1 (2.4.8)
σ2
Nota: A distribuição do Qui-quadrado é assimétrica e o seu suporte é [0, +∞[. 
Observação: Quando (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2
em que µ tem valor conhecido, podemos estimar σ 2 através do estimador
n
1X
σ 2∗
= (Xi − µ)2 .
n
i=1

A sua distribuição de amostragem é

nσ 2

∼ χ2n (2.4.9)
σ2
Contudo, esta situação não é muito frequente uma vez que, quando não se conhece a variância de
uma população, poucas vezes se conhece o seu valor médio.
2. Estimação Pontual 16

2.4.3 Distribuição de amostragem de P̂


Seja X uma população que regista a ocorrência de um sucesso (observação de uma caracterı́stica
pretendida) através da atribuição do valor 1 caso se dê um sucesso e do valor 0 quando se dá um
insucesso.
Se p for a probabilidade de sucesso, então X tem distribuição Binomial de parâmetros (1, p).
Admitamos que p é desconhecido e que para a sua estimação se considera uma amostra (X1 , X2 , . . . , Xn )
da população X.PEsta amostra será constituı́da por zeros e uns.
Assim, K = ni=1 Xi dá-nos o total de sucessos em n observações.
O estimador natural de p é a proporção de sucessos na amostra, isto é:
n
1X K
P̂ = Xi ≡
n n
i=1

Vamos agora discutir


Pn a distribuição de P̂ . Sendo (X1 , X2 , . . . , Xn ) v.a.’s i.i.d com distribuição
B (1, p), então K = i=1 Xi ≡ nP̂ ∼ B (n, p).
Contudo, a distribuição Binomial não apresenta uma grande comodidade de cálculo de probabil-
idades quando estão em causa tratamentos estatı́sticos. Por isso, é habitual a recolha de amostras
de dimensão n ≥ 30 (consideradas suficientemente grandes) que permitam a aplicação do Teorema
Limite Central para se poder concluir que
K − np a
p ∼ N (0, 1)
np (1 − p)

e portanto que

P̂ − p a
Z=q ∼ N (0, 1) (2.4.10)
p(1−p)
n

Observações:
P
• Repare que P̂ = n1 ni=1 Xi não é mais do que a média de uma amostra (X1 , X2 , . . . , Xn ) de
uma população X ∼ B (1, p). Se entrarmos em linha de conta com o facto de µ ≡ E (X) = p
e σ 2 ≡ V (X) = p (1 − p), então o resultado 2.4.10 não é mais do que um caso particular do
resultado 2.4.5 (População não normal com variância conhecida e n ≥ 30).

• Relativamente à observação anterior, podemos ainda dizer que, se p tem um valor desconhecido,
também σ 2
  ≡ V (X) = p (1 − p) tem um valor desconhecido. O mais natural é considerar
P̂ 1 − P̂ para estimador de σ 2 = p (1 − p) e, o Teorema Limite Central em conjugação com
outros resultados aquém do âmbito desta disciplina, permitem concluir que

P̂ − p a
Z=q ∼ N (0, 1) (2.4.11)
P̂ (1−P̂ )
n
2. Estimação Pontual 17

2.5 Propriedades dos estimadores


 
Como Θ̂ é uma variável aleatória, podemos falar do E Θ̂ , medida que expressa o valor esperado
   
de Θ̂, da V Θ̂ e do desvio padrão σ Θ̂ , quantidades estas que expressam a dispersão de Θ̂.
Estas medidas permitem estabelecer propriedades importantes para o estimador Θ̂.

2.5.1 Erro padrão


 
Definição 2.6 O erro padrão de um estimador pontual Θ̂ é o seu desvio padrão σ Θ̂

O estimador Θ̂ será tanto ”melhor”quanto menor for o seu erro padrão, porque nos informa de que
as estimativas do parâmetro θ são pouco dispersas, como convém que aconteça.

2.5.2 Enviesamento
Também será desejável que um estimador Θ̂ faculte valores que, em média coincidam com o valor
do parâmetro θ. Dito de outro modo, convém
  o valor esperado de Θ̂ seja igual ao verdadeiro valor de
θ. Matematicamente, é desejável que E Θ̂ = θ.
 
Definição 2.7 Um estimador Θ̂ para o parâmetro θ diz-se não enviesado (ou centrado) se E Θ̂ = θ.
   
Definição 2.8 O enviesamento de um estimador Θ̂ para o parâmetro θ é bias Θ̂ = E Θ̂ − θ.

Exemplo 2.5 Suponhamos que X é uma população com distribuição exponencial de parâmetros (λ, 1)
em que λ tem valor desconhecido.
Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) desta população, considerem-se os dois estimadores
para λ:

Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1

e analisemos o respectivo enviesamento:


  1
E Λ̂ = E (min (X1 , X2 , . . . , Xn )) = λ +
n

E (Λ∗ ) = E X̄ − 1 = E (X) − 1 = λ + 1 − 1 = λ
Relativamente ao enviesamento, ∗
  Λ é melhor
1
porque é centrado.
1
O enviesamento de Λ̂ é bias Λ̂ = λ + − λ = .
n n
 
Contudo o bias Λ̂ converge para zero quando a dimensão da amostra aumenta. Dizemos então
que Λ̂ é um estimador assintoticamente centrado.
 
Definição 2.9 Θ̂ é um estimador assintoticamente centrado para o parâmetro θ se lim E Θ̂ = θ.
n→+∞
2. Estimação Pontual 18

2.5.3 Eficiência e erro quadrático médio


Consideremos o erro padrão dos dois estimadores sugeridos no exemplo anterior para o parâmetro
λ.
  1   1
V Λ̂ = 2 , σ Λ̂ =
n n
1 1
V (Λ∗ ) = , σ (Λ∗ ) = √
n n
 
Relativamente ao erro padrão, Λ̂ ”parece”melhor porque σ Λ̂ ≤ σ (Λ∗ )
Repare que se usou a expressão ”parece melhor”. Vejamos porquê.
Quando comparamos estimadores que são centrados, preferimos o que tiver menor erro padrão, ou
seja o que tiver menor dispersão.
Quando nem todos os estimadores são centrados (como acontece no anterior exemplo), a com-
paração da sua qualidade deverá ser feita de outro modo.
Efectivamente, a propriedade que é desejável para um estimador Θ̂, é que possibilite estimativas
que se desviem pouco do parâmetro θ. Isto é, queremos que seja pequeno o
 2 
E Θ̂ − θ .

Definição 2.10 Define-se o erro quadrático médio do estimador pontual Θ̂ do parâmetro θ, por
   2 
EQM Θ̂ = E Θ̂ − θ .

Face a dois estimadores, não necessariamente centrados, devemos optar pelo que apresenta menor
erro quadrático médio.
Este processo engloba a comparação de estimadores centrados por utilização do seu erro padrão.
De facto,

Teorema 2.1
    h  i2
EQM Θ̂ = V Θ̂ + bias Θ̂ .

Portanto, quando dois estimadores são centrados, o seu enviesamento é nulo, e por isso a com-
paração do seu erro quadrático médio acaba por ser equivalente à comparação do seu erro padrão.

Definição 2.11 A eficiência de um estimador é o seu erro quadrático médio.

Definição 2.12 Dados dois estimadores Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que Θ̂ é mais
eficiente que Θ∗ se,
 
EQM Θ̂ < EQM (Θ∗ ) .

Definição 2.13 Dados dois estimadores centrados Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que
Θ̂ é mais eficiente que Θ∗ se,
 
V Θ̂ < V (Θ∗ ) .
2. Estimação Pontual 19

Exemplo 2.6 Para os estimadores

Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1

do parâmetro λ da população X ∼ E (λ, 1), o respectivo erro quadrático médio é


    h  i2  2
1 1 2
EQM Λ̂ = V Λ̂ + bias Λ̂ = 2+ = 2
n n n
1
EQM (Λ∗ ) = V (Λ∗ ) = porque Λ∗ é centrado
n
 
Para n ≥ 3, Λ̂ é mais eficiente do que Λ∗ porque EQM Λ̂ < EQM (Λ∗ )

2.5.4 Consistência
A consistência é outra propriedade importante dos estimadores. Um estimador é consistente se,
com o aumento da dimensão da amostra, aumenta a probabilidade da estimativa do parâmetro estar
próxima do seu verdadeiro valor.
Em termos formais,
Definição 2.14 O estimador Θ̂ do parâmetro θ é consistente se e só se, para qualquer δ > 0,
 

lim P Θ̂ − θ < δ = 1.
n→+∞

Para um estimador consistente, quanto maior for o tamanho da aumento, maior é a probabilidade
de se obterem estimativas numa vizinhança do valor do parâmetro.
Na prática poucas vezes se usa a definição para se analisar a consistência de um estimador.
Utilizam-se outros critérios de verificação dos quais apresentamos o seguinte:

Teorema 2.2 Se Θ̂ é um estimador de θ e


     h  i2 
lim EQM Θ̂ = lim V Θ̂ + bias Θ̂ =0
n→+∞ n→+∞

então Θ̂ é consistente.

Exemplo 2.7 Retomemos o exemplo 2.6. Os dois estimadores são consistentes porque
  2 1
lim EQM Λ̂ = lim =0 e lim EQM (Λ∗ ) = lim =0
n→+∞ n→+∞ n2 n→+∞ n→+∞ n

2.5.5 Propriedades de X̄, S 2 e P̂


Apresentamos na tabela abaixo, os estimadores mais usados para o valor médio, variância e pro-
porção, indicando também os respectivos valores médios e variâncias.
2. Estimação Pontual 20

Tabela 2.1: Tabela de estimadores para o valor médio, variância, desvio padrão e proporção

Parâmetro Estimador Valor médio Variância do


do estimador
  estimador
 
θ Θ̂ E Θ̂ V Θ̂
n
1X σ2
µ = E (X) X̄ = Xi µ
n n
i=1
n  
2 1 X 2 σ4 n−3
σ2 = V (X) S = Xi − X̄ σ2 α4 −
n−1 n n−1
i=1
K p (1 − p)
p = P (A) P̂ = p
n n

α4 = µ4 /σ 4 é o coeficiente de curtose que tem o valor 3 para a distribuição normal.


Capı́tulo 3

Estimação por Intervalo de Confiança

3.1 Introdução
Em muitas situações, uma estimação pontual de um parâmetro não fornece informação suficiente
sobre esse parâmetro.
Vejamos o caso do exemplo 2.2. Como se pretendia estimar µ ≡ E (X) e se adoptou o estimador
X̄, a estimativa pontual de µ, no médio de defeitos por painel, foi x = 6.2. Mas, é pouco provável
que o verdadeiro no médio de defeitos seja exactamente 6.2. Portanto é lógico que nos interroguemos
acerca da proximidade desta estimativa relativamente ao verdadeiro no médio, µ. Como se frisou na
secção anterior, o erro padrão (ou o erro quadrático médio, quando o estimador não é centrado) já
nos dará uma ideia da precisão da nossa estimativa. Outro tipo de abordagem passaria por preten-
dermos garantir que, para uma grande ”percentagem”de todas as amostras que pudessemos recolher,
a diferença em valor absoluto entre a média amostral X̄ e o valor médio µ, não ultrapasse um certo
valor a (que corresponde ao erro máximo que desejamos para a estimação de µ). Se interpretarmos
essa percentagem como a probabilidade de recolhermos uma amostra que cumpra o anterior requisito
e a representarmos por 1 − α, então poderı́amos equacionar o problema do seguinte modo:

P X̄ − µ ≤ a = 1 − α .

 Como X̄ −  µ ≤ a ⇔ X̄ − a ≤ µ ≤ X̄ + a, então o pretendı́amos encontrar era um intervalo

X̄ − a, X̄ + a que, com probabilidade 1 − α elevada, contivesse o valor médio µ.
Designarı́amos esse intervalo por intervalo de confiança 1 − α para µ e realizarı́amos assim uma
estimação de µ por intervalo de confiança 1 − α (ou estimação intervalar de µ).

Definição 3.1 Um intervalo de confiança 1 − α para um parâmetro θ (de valor desconhecido), é um


intervalo da forma

[L (X1 , X2 , . . . , Xn ) , U (X1 , X2 , . . . , Xn )]

onde L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são estatı́sticas que não dependem do valor de θ, e que
satisfazem

P (L (X1 , X2 , . . . , Xn ) ≤ θ ≤ U (X1 , X2 , . . . , Xn )) = 1 − α.

21
3. Estimação por Intervalo de Confiança 22

L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são denominados limites de confiança inferior e superior,


respectivamente, e (1 − α) é chamado coeficiente de confiança do intervalo.

Resta-nos agora dizer algo sobre o método geral de determinação destes intervalos. O método mais
usual e que iremos utilizar, é o método pivotal . Para o pormos em prática é necessário encontrarmos
ou conhecermos uma estatı́stica pivot.

Definição 3.2 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população cuja distribuição de-
pende de um parâmetro θ. Consideremos T ≡ T (X1 , X2 , . . . , Xn , θ) uma estatı́stica, função da amostra
aleatória e de θ (e eventualmente de outros parâmetros de valor conhecido). Se a distribuição de T
não depende de θ, ela diz-se uma estatı́stica pivot para θ.

Exemplo 3.1 Se (X1 , X2 , . . . , Xn ) for uma amostra aleatória de uma população X ∼ N µ, 52 , então

X̄ − µ
T =p ∼ N (0, 1)
52 /n

Podemos afirmar que T é uma estatı́stica pivot para µ, porque a distribuição de T é sempre N (0, 1),
qualquer que seja o valor de µ.

O método pivotal para determinação de um intervalo de confiança 1 − α para θ, consiste em:

• Conhecer (ou encontrar) uma estatı́stica pivot T ≡ T (X1 , X2 , . . . , Xn , θ) para θ;

• A partir da distribuição de T , determinar valores a1 e a2 , que satisfaçam;

P (a1 ≤ T ≤ a2 ) = 1 − α;

• Resolver as desigualdades

a1 ≤ T (X1 , X2 , . . . , Xn , θ) ≤ a2

em ordem a θ, de modo a que

a1 ≤ T (X1 , X2 , . . . , Xn , θ) ≤ a2 ⇔ L (X1 , X2 , . . . , Xn ) ≤ θ ≤ U (X1 , X2 , . . . , Xn ) ,

sendo L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) estatı́sticas não dependentes de θ;

• IC100(1−α)% (θ) ≡ [L (X1 , X2 , . . . , Xn ) , U (X1 , X2 , . . . , Xn )]


é um intervalo de confiança 1 − α para θ.

NOTAS IMPORTANTES:
• Para um coeficiente de confiança 1−α, fixo, existem diversas escolhas possı́veis para as constantes
a1 e a2 . Sempre que possı́vel devemos optar por usar aquelas que conduzem a um intervalo de
confiança de amplitude mı́nima.
3. Estimação por Intervalo de Confiança 23

• Quando a estatı́stica pivot tem uma distribuição simétrica em torno de zero, a melhor escolha
para a1 e a2 é:

a1 = −a2 e a2 ≡ a tal que P (−a ≤ T ≤ a) = 1 − α.

• Os coeficientes de confiança mais usados são 90%, 95% e 99%.

Podemos interpretar um intervalo de confiança pensando que, se infinitas amostras forem selec-
cionadas e um intervalo de confiança (1 − α) for calculado para cada uma delas, então 100 (1 − α)
desses intervalos contêm o verdadeiro valor de θ.
Esta situação é ilustrada na figura que se segue, que mostra diversos intervalos de confiança (1 − α)
para o parâmetro θ de uma população. Os pontos no centro dos intervalos indicam a estimativa pontual
de θ (isto é, θ̂). Repare que um dos 15 intervalos falha em conter o verdadeiro valor de θ. Se estes
fossem intervalos de 95% de confiança, de entre infinitos intervalos que calculássemos (com base em
infinitas amostras) apenas 5% deles não iriam conter o verdadeiro valor de θ.

θ
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a

Na prática, só temos uma amostra observada (x1 , x2 , . . . , xn ) para a qual determinamos um in-
tervalo de confiança [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]. Como este intervalo vai conter ou não o
verdadeiro valor do parâmetro θ, não é razoável associar uma probabilidade a este acontecimento
especı́fico. O que devemos afirmar é que o intervalo observado [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]
abrange o verdadeiro valor de θ com uma confiança de (1 − α). Esta afirmação tem uma interpretação
frequencista; isto é, nós não sabemos se, para uma amostra especı́fica, a afirmação é verdadeira, mas o
método usado para obter o intervalo [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )] permite afirmações correctas
100 (1 − α) das vezes.
A amplitude observada, u (x1 , x2 , . . . , xn ) − l (x1 , x2 , . . . , xn ), de um intervalo de confiança é uma
importante medida da qualidade da estimação do parâmetro. Em particular, a metade da amplitude do
intervalo, designada por precisão da estimação por intervalo de confiança, é um indicador da qualidade
da estimativa do parâmetro θ. Quanto maior for a amplitude de um intervalo de confiança, mais
confiança temos de que esse intervalo contem de facto o verdadeiro valor de θ. Por outro lado, quanto
maior for a amplitude do intervalo de confiança, (menor precisão da estimação) menos informação
temos acerca do verdadeiro valor de θ, uma vez que temos uma maior gama de valores possı́veis para
θ. A situação ideal reside num intervalo de pequena amplitude e com elevado coeficiente de confiança.
3. Estimação por Intervalo de Confiança 24

3.2 Estimação por intervalo de confiança do valor médio µ = E (X)


da população X
Apliquemos os conceitos sobre intervalo de confiança expostos na secção anterior.
Agora o parâmetro θ será o valor médio µ = E (X), e consideremos
n
1X X1 + X2 + . . . + X n
X= Xi = .
n n
i=1

o estimador deste parâmetro.


Deduzir um intervalo de confiança (1 − α) para µ, consiste em determinar os extremos L ≡
L (X1 , X2 , . . . , Xn ) e U ≡ U (X1 , X2 , . . . , Xn ) que verificam a igualdade

P (L ≤ µ ≤ U ) = 1 − α, 0 < α < 1.

Também de acordo com o que foi dito, será a partir de X e da sua distribuição de amostragem,
que poderemos deduzir os valores de L e de U.
Consideremos uma amostra aleatória (X1 , X2 , . . . , Xn ) que irá servir para a estimação de µ através
do seu estimador X. Podemos afirmar que o valor de µ oscila em torno de X, ou seja que µ poderá
assumir um valor dentro do intervalo
 
X − a, X + a .

Para que este intervalo tenha um coeficiente de confiança (1 − α) é necessário que se verifique

P X − a ≤ µ ≤ X + a = 1 − α, 0 < α < 1. (3.2.1)

ou seja que

P µ−a≤X ≤µ+a =1−α

Mas, qual é a distribuição de X̄?


Situação A Caso (X1 , X2 , . . . , Xn ) seja uma amostra aleatória de uma população X que tenha dis-
tribuição normal de valor médio µ (que se pretende estimar) e variância σ 2 (conhecida), então
2
sabemos que Xi ∼ N µ, σ e que são independentes.
 
σ2
Podemos então concluir que X ∼ N µ, , e portanto que
n

X −µ √ X −µ
Z=p = n ∼ N (0, 1) .
σ 2 /n σ

(ver resultado 2.4.4 da secção 2.4.1: Distribuições de amostragem de X).

Considerando a igualdade genérica (3.2.1)



P X − a ≤ µ ≤ X + a = 1 − α, 0 < α < 1,
3. Estimação por Intervalo de Confiança 25

vamos determinar o valor de a.


 √ √ 
  n √ X −µ n
P X −a≤µ≤X +a = P −a ≤ X − µ ≤ a = P − a≤ n ≤ a =
σ σ σ
 √ √   √   √ 
n n n n
= P − a≤Z≤ a =P Z≤ a −P Z ≤− a =
σ σ σ σ
√   √  √  √ 
n n n n
= Φ a −Φ − a =Φ a −1+Φ a =
σ σ σ σ
√ 
n
= 2Φ a − 1.
σ

Assim
 √ √ 
 n n
P X − a ≤ µ ≤ X + a = 1 − α ⇔ 2Φ a −1=1−α⇔Φ a = 1 − α/2 ⇔
σ σ

n σ
⇔ a = Φ−1 (1 − α/2) ⇔ a = √ Φ−1 (1 − α/2) .
σ n

Por simplicidade de notação, se representarmos Φ−1 (1 − α/2) por zα/2 , temos

Intervalo de confiança (1 − α) para o valor médio µ


População normal com variância σ 2 conhecida

σ σ
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n

Exemplo 3.2 O tempo que uma máquina leva a executar a sua tarefa em cada peça produzida
segue uma distribuição normal de desvio padrão igual a 3 segundos.
Pretendendo-se estimar por intervalo de 95% de confiança, o tempo médio de execução das peças,
recolheu-se uma amostra de tempos de execução de 25 peças, cuja média foi de 12 segundos.
Assim,

1 − α = 0.95 ⇒ α = 0.05 ⇒ 1 − α/2 = 0.975

zα/2 = z0.025 = Φ−1 (0.975) = 1.96


x = 12, σ = 3, n = 25

Intervalo de confiança 0.95 para µ


 
3 3
IC95% (µ) ≡ 12 − √ 1.96, 12 + √ 1.96 = [10.824, 13.176]
25 25

Podemos dizer com 95% de confiança , que o intervalo anterior inclui o verdadeiro tempo médio
de execução das peças produzidas pela máquina.
3. Estimação por Intervalo de Confiança 26

Situação B Admitamos que (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n ≥ 30, de uma
população X cuja distribuição não é normal ou é desconhecida, mas com variância σ 2 conhecida.
Seja µ o valor médio da população X, que queremos estimar.
Apesar de se conhecer o valor da variância σ 2 isso por si só não permite o conhecimento da
distribuição de X. Contudo se a amostra for grande, isto é se tiver uma dimensão n ≥ 30, por
aplicação do Teorema Limite Central, podemos afirmar que

X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
σ 2 /n σ

(ver resultado 2.4.5 da secção 2.4.1: Distribuições de amostragem de X).

Recorrendo agora ao método pivotal temos:


√ X −µ a
• Z= n ∼ N (0, 1) é uma estatı́stica pivot para µ.
σ
• P (−a ≤ Z ≤ a) ≈ 1 − α
Ora
P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =
= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1
pelo que

P (−a ≤ Z ≤ a) = 1 − α ⇔ 2Φ (a) − 1 = 1 − α ⇔ Φ (a) = 1 − α/2 ⇔ a = Φ−1 (1 − α/2) ≡ zα/2


√ X −µ σ σ
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
σ n n
h i
• IC100(1−α)% (µ) ≡ X − zα/2 √σn , X + zα/2 √σn

Intervalo de confiança (1 − α) para o valor médio µ


População não normal com 2
 variância σ conhecida  e n ≥ 30
σ σ
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n

Situação C Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com dis-
tribuição normal de valor médio µ (que se pretende estimar) e variância σ 2 desconhecida.
Relativamente á Situação A, o que agora se altera é o facto da variância σ 2 ser desconhecida.
Se a variância σ 2 é desconhecida, podemos de imediato pensar em a substituir pela variância
amostral, ou seja, por
n n
! !
2 1 X 2 1 X
2 2
S = Xi − X = Xi − nX .
n−1 n−1
i=1 i=1
3. Estimação por Intervalo de Confiança 27

Como resultado desta substituição, a distribuição de amostragem para X é

X −µ
T = √ ∼ tn−1
S/ n

(ver resultado 2.4.6 da secção 2.4.1: Distribuições de amostragem de X)

De novo, pelo método pivotal, temos


X −µ
• Estatı́stica pivot: T = √ ∼ tn−1
S/ n
• Porque a distribuição t é simétrica em torno de zero, com suporte R, é necessário encontrar
o valor a que verifica P (−a ≤ T ≤ a) = 1 − α.
P (−a ≤ T ≤ a) = P (T ≤ a) − P (T ≤ −a) = P (T ≤ a) − P (T ≥ a) =
= P (T ≤ a) − [1 − P (T ≤ a)] = 2P (T ≤ a) − 1
Então
P (−a ≤ T ≤ a) = 1 − α ⇔ 2P (T ≤ a) − 1 = 1 − α ⇔ P (T ≤ a) = 1 − α/2 ⇔
⇔ a = FT−1 (1 − α/2) ≡ tn−1:α/2


√ X −µ
−tn−1:α/2 ≤ T ≤ tn−1:α/2 ⇔ −tn−1:α/2 ≤ n ≤ tn−1:α/2 ⇔
S
S S
⇔ X − tn−1:α/2 √ ≤ µ ≤ X + tn−1:α/2 √
n n
h i
• IC100(1−α)% (µ) ≡ X − tn−1:α/2 √Sn , X + tn−1:α/2 √Sn

Nota:A substituição de σ por S, no intervalo da Situação A, pode introduzir erro no intervalo,


e como tal o novo intervalo permite a estimação de µ com a mesma confiança (1 − α) mas tem
uma maior amplitude.

Intervalo de confiança (1 − α) para o valor médio µ


População normal 2
 com variância σ desconhecida 
S S
IC100(1−α)% (µ) ≡ X − √ tn−1:α/2 , X + √ tn−1:α/2
n n

Exemplo 3.3 Uma amostra do peso de 8 animais alimentados com um determinado tipo de
ração, forneceu os seguintes valores (em kg):

4 6 4.5 4 5.6 6.2 5.8 6


3. Estimação por Intervalo de Confiança 28

Admitindo que o peso dos animais se comporta de acordo com uma distribuição normal, apresente
uma estimativa por intervalo de 90% de confiança para o peso médio dos animais alimentados
com este tipo de ração.
8
X 8
X
n=8 xi = 42.1 x2i = 227.69
i=1 i=1

42.1 1 
x= = 5.2625 s2 = 227.69 − 8 × 5.26252 = 0.8769657
8 7

2
s = + s = 0.9364644
1 − α = 0.9 ⇒ α = 0.1 ⇒ α/2 = 0.05 t7:0.05 = 1.9

Intervalo de confiança 0.9 para o peso médio dos animais


 
0.9364644 0.9364644
IC90% (µ) ≡ 5.2625 − √ × 1.9, 5.2625 + √ × 1.9 = [4.931409836, 5.593590164]
8 8

Situação D Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória de dimensão n ≥ 30, de uma


população X cuja distribuição não é normal e cuja variância σ 2 não é conhecida.
Relativamente á Situação B, o que agora se altera é o facto da variância σ 2 ser desconhecida.
Se a variância σ 2 é desconhecida, podemos de imediato pensar em a substituir pela variância
amostral, ou seja, por
n n
! !
2 1 X 2 1 X
2 2
S = Xi − X = Xi − nX .
n−1 n−1
i=1 i=1

Pelo resultado 2.4.7 da secção 2.4.1: Distribuições de amostragem de X, e considerações feitas


a seu propósito,

X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
2
S /n S

Assim, a aplicação do método pivotal conduz aos seguintes resultados:


√ X −µ a
• Estatı́stica pivot: Z =n ∼ N (0, 1)
S
• P (−a ≤ Z ≤ a) ≈ 1 − α

P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =


= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1
e assim

P (−a ≤ Z ≤ a) ≈ 1 − α ⇔ 2Φ (a) − 1 ≈ 1 − α ⇔ Φ (a) ≈ 1 − α/2 ⇔ a ≈ Φ−1 (1 − α/2) ≡ zα/2


√ X −µ S S
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
S n n
3. Estimação por Intervalo de Confiança 29

h i
• IC100(1−α)% (µ) ≡ X − zα/2 √Sn , X + zα/2 √Sn

Intervalo de confiança (1 − α) para o valor médio µ


População não normal com variância σ 2 desconhecida
 e n ≥ 30
S S
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n

Em resumo

Tabela 3.1: Intervalos de confiança para o valor médio

Intervalo de confiança (1 − α) para o valor


 médio µ 
σ σ
A População normal com σ 2 conhecida X − √ zα/2 , X + √ zα/2
 n n 
σ σ
B População não normal com σ 2 conhecida e n ≥ 30 X − √ zα/2 , X + √ zα/2
 n n 
S S
C População normal com σ 2 desconhecida X − √ tn−1:α/2 , X + √ tn−1:α/2
 n n 
2 S S
D População não normal com σ desconhecida e n ≥ 30 X − √ zα/2 , X + √ zα/2
n n

Figura 3.1: Intervalos de confiança para o valor médio: Situações A, B e D


3. Estimação por Intervalo de Confiança 30

Figura 3.2: Intervalos de confiança para o valor médio: Situação C

3.3 Estimação por intervalo de confiança da variância σ 2 = V (X) da


população X
Agora o parâmetro θ será a variância σ 2 = V (X), e consideramos o seu estimador
n
1 X 2
S2 = Xi − X̄ .
n−1
i=1

Seja uma amostra  aleatória (X1 , X2 , . . . , Xn ) da população X. Quando esta população X tem
distribuição N µ, σ 2 , a v.a.

(n − 1) S 2
σ2
tem distribuição do qui-quadrado com (n − 1) graus de liberdade (e podemos escrever de modo abre-
2
viado, (n−1)S
σ2
∼ χ2n−1 ).
A aplicação do método pivotal resulta em:
(n − 1) S 2
• Estatı́stica pivot: X 2 = ∼ χ2n−1
σ2
  
• P a1 ≤ X 2 ≤ a2 = 1 − α ⇔ P X 2 ≤ a2 − P X 2 ≤ a1 = 1 − α

 
Sejam p1 = P X 2 ≤ a1 e p2 = P X 2 ≥ a2 probabilidades tais que 1−(p1 + p2 ) = 1−α. Então
a1 ≡ χ2n−1:1−p1 e a2 ≡ χ2n−1:p2 são os quantis de probabilidades p1 e 1 − p2 , respectivamente, da
distribuição χ2n−1 .
Assim

P χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 = 1 − α


(n − 1) S 2 (n − 1) S 2 (n − 1) S 2
χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 ⇔ χ2n−1:1−p1 ≤ 2
≤ χ2n−1:p2 ⇔ 2 ≤ σ2 ≤ 2
σ χn−1:p2 χn−1:1−p1
3. Estimação por Intervalo de Confiança 31

 
 (n−1)S 2 (n−1)S 2
• IC100(1−α)% σ 2 ≡ χ2n−1:p
, χ2
2 n−1:1−p
1

A não simetria da distribuição do qui-quadrado levanta dificuldades na escolha dos valores das
probabilidades p1 e p2 que permitam obter um intervalo de confiança de amplitude mı́nima. Por isso,
e para simplificação do processo de determinação do intervalo, é habitual considerar-se p1 = p2 = α/2,
abdicando-se do objectivo de conseguir o intervalo de menor amplitude.
Adoptando esta estratégia:

a1 ≡ χ2n−1:1−α/2 e a2 ≡ χ2n−1:α/2

Intervalo de confiança (1 − α) para a variância σ 2


População normal com" valor médio desconhecido#
 (n − 1) S 2 (n − 1) S 2
IC100(1−α)% σ 2 ≡ ,
χ2n−1:α/2 χ2n−1:1−α/2

Figura 3.3: Intervalo de confiança para a variância

Exemplo 3.4 Considere uma amostra de 25 pessoas cuja altura média e desvio padrão são, respec-
tivamente, 172 e 5 centı́metros. Admitindo que a altura é uma variável com distribuição normal,
estimemos por intervalo de 90% de confiança, a variância e o desvio padrão da altura de todas as
pessoas.
Sabemos que s = 5 e portanto que s2 = 25. Para n = 25 e α = 10%,

χ224:0.95 = 13.848 e χ224:0.05 = 36.415.

A estimativa por intervalo de 90% de confiança para a variância populacional é


 
2
 24 × 25 24 × 25
IC90% σ ≡ , = [16.48, 43.33]
36.415 13.848
3. Estimação por Intervalo de Confiança 32

Uma estimativa por intervalo de 90% de confiança para o desvio padrão da população poderá ser
h√ √ i
IC90% (σ) ≡ 16.48, 43.33 = [4.06, 6.58]

3.4 Estimação por intervalo de confiança da proporção p de ocorrência


do acontecimento A
Suponhamos que, como resultado de uma experiência aleatória, queremos observar se ocorre ou
não um acontecimento A (sucesso). Para n realizações independentes da experiência, associemos n
variáveis aleatórias Xi , i = 1, . . . , n tais que

0 se não ocorre A
Xi =
1 se ocorre A
n
X
A v.a. K = Xi regista o total de ocorrências de A nas n experiências e tem distribuição
i=1
Binomial de parâmetros (n, p).
Consideremos o estimador de p,
K
P̂ = .
n

Para deduzirmos o intervalo de confiança para p, precisamos da distribuição de amostragem de P̂ .


Essa distribuição de amostragem é nP̂ ≡ K ∼ B (n, p). Contudo a distribuição Binomial não oferece
muita comodidade na determinação de intervalos de confiança. Os intervalos de confiança para p
mais habituais resultam de amostras ”grandes”, porque neste caso podemos usar o resultado 2.4.11
da secção 2.4.3, isto é podemos usar a estatı́stica pivot:

P̂ − p √ P̂ − p a
Z=q = nr   ∼ N (0, 1)
P̂ (1−P̂ )
n P̂ 1 − P̂

Método pivot:
√ P̂ − p a
• Estatı́stica pivot: Z = nr   ∼ N (0, 1)
P̂ 1 − P̂

• P (−a ≤ Z ≤ a) ≈ 1 − α

P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =


= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1

e assim

P (−a ≤ Z ≤ a) ≈ 1 − α ⇔ 2Φ (a) − 1 ≈ 1 − α ⇔ Φ (a) ≈ 1 − α/2 ⇔ a ≈ Φ−1 (1 − α/2) ≡ zα/2


3. Estimação por Intervalo de Confiança 33

√P̂ − p
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ nr   ≤ zα/2 ⇔
P̂ 1 − P̂
v   v  
u u
u P̂ 1 − P̂ u P̂ 1 − P̂
t t
⇔ P̂ − zα/2 ≤ p ≤ P̂ + zα/2
n n

 q q 
P̂ (1−P̂ ) P̂ (1−P̂ )
• IC100(1−α)% (p) ≡ P̂ − zα/2 n , P̂ + zα/2 n

Intervalo de confiança (1 − α) para a proporção p


 Amostras v  grandes  v  
u u
u P̂ 1 − P̂ u P̂ 1 − P̂
 t t 
IC100(1−α)% (p) ≡ 
P̂ − zα/2 , P̂ + zα/2 
n n 

Exemplo 3.5 Num inquérito telefónico destinado a estimar a proporção da população que tem acesso
à internet em casa, foram inquiridas 50 pessoas, das quais 32 afirmaram ter este serviço.
A estimativa por intervalo de 95% de confiança para a proporção da população é
" r r #
0.64 (1 − 0.64) 0.64 (1 − 0.64)
IC95% (p) ≡ 0.64 − 1.96 , 0.64 + 1.96 = [0.507, 0.773]
50 50

pois p̂ = 32/50 = 0.64, z0.05/2 = z0.025 = 1.96 e n = 50.


3. Estimação por Intervalo de Confiança 34

3.5 Outras distribuições de amostragem

3.5.1 Diferença de médias de amostras de duas populações, X̄ − Ȳ

Tabela 3.2: Distribuição de amostragem para a diferença de médias de amostras de duas populações

Situação Condições de aplicação


  Distribuição de X̄ − Ȳ
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22
X̄ − Ȳ − (µ1 − µ2 )
σ12 , σ22 conhecidas q 2 ∼ N (0, 1)
σ1 σ22
n1 + n2
 
B X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22
X̄ − Ȳ − (µ1 − µ2 )
σ12 = σ22 desconhecida q ∼ tn1 +n2 −2
Sp n11 + n12
C X ∼?, Y ∼?
X̄ − Ȳ − (µ1 − µ2 ) a
σ12 , σ22 conhecidas, n1 e n2 ≥ 30 q 2 ∼ N (0, 1)
σ1 σ22
n1 + n2
D X ∼?, Y ∼?
X̄ − Ȳ − (µ1 − µ2 ) a
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30 q 2 ∼ N (0, 1)
S1 S22
n1 + n2
2 (n1 − 1) S12 + (n2 − 1) S22
Sp =
n1 + n2 − 2

3.5.2 Quociente de variâncias amostrais de duas populações, S12 /S22

Tabela 3.3: Distribuição de amostragem para o quociente de variâncias de amostras de duas populações

Condições de aplicação Distribuição de S12 /S22


  σ22 S12
X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 ∼ F(n1 −1,n2 −1)
σ12 S22
µ1 , µ2 desconhecidos
3. Estimação por Intervalo de Confiança 35

3.5.3 Diferença de proporções amostrais de duas populações pˆ1 − pˆ2

Tabela 3.4: Distribuição de amostragem para a diferença de proporções amostrais de duas populações

Condições de aplicação Distribuição de pˆ1 − pˆ2


(pˆ − pˆ2 ) − (p1 − p2 ) a
n1 ≥ 30 e n2 ≥ 30 r 1 ∼ N (0, 1)
p1 (1 − p1 ) p2 (1 − p2 )
+
n1 n2
Capı́tulo 4

Teste de Hipóteses

4.1 Introdução
Nos capı́tulos 2 e 3 vimos como estimar pontualmente e por intervalo de confiança os parâmetros
de uma população, tendo dado particular relevo ao valor médio, à variância (e ao desvio padrão) e a
uma proporção.
Outro procedimento muito importante em inferência estatı́stica é o teste de hipóteses e que
consiste na averiguação da consistência dos dados amostrais com determinadas conjecturas que se
estabeleçam sobre a população. Por exemplo:
• Num determinado departamento pretende-se estudar o número, X, de faltas ao trabalho (de
cada funcionário) durante os 5 dias úteis de uma semana. X é uma população com distribuição
binomial de parâmetros (5, p) e o seu estudo passa pelo conhecimento do valor de p. Assim esta-
belecer conjecturas sobre a população é adiantar valores para p que correspondam a expectativas
que se tenham sobre X. Por exemplo, podemos perguntar: Será que p = P (falta num dia) ≤ 0.3
ou será que p = P (falta num dia) > 0.3?

• No controlo do processo de engarrafamento de refrigerante em latas de 33cl, podemos conjecturar:


Será que o volume médio de refrigerante por garrafa é igual a 33cl, µ = 33 (boas condições de
engarrafamento) ou será que o volume médio de refrigerante por garrafa é diferente de 33cl,
µ 6= 33 (más condições de engarrafamento).

• Será que o tempo de duração de um telemóvel de uma determinada marca, tem distribuição
exponencial?

Nos dois primeiros exemplos as conjecturas são feitas sobre o valor de parâmetros da população,
ou melhor dizendo sobre o valor dos parâmetros da distribuição da população X. No terceiro exemplo
a conjectura é feita sobre a própria distribuição da população X.
As conjecturas que se fazem sobre a população (quer seja sobre os seus parâmetros, quer seja sobre
a própria distribuição) designam-se por hipóteses.
Num teste de hipóteses existem sempre duas hipóteses: A hipótese nula representada por H0 e a
hipótese alternativa representada por H1 .
Nos exemplos atrás referidos as hipóteses são:

• H0 : p ≤ 0.3 vs H1 : p > 0.3

• H0 : µ = 33 vs H1 : µ 6= 33

36
4. Teste de Hipóteses 37

• H0 : X ∼ E (0, δ) vs H1 : X ≁ E (0, δ)

Os testes cujas hipóteses incidem sobre o valor dos parâmetros de um população dizem-se testes
paramétricos e quando não envolvem parâmetros dizem-se testes não-paramétricos. Nas exem-
plificações anteriores, os dois primeiros testes são paramétricos e o último é não-paramétrico.
A hipótese H0 do segundo exemplo é uma hipótese simples porque nela figura apenas um valor
para o parâmetro. O mesmo não acontece na hipótese H1 desse exemplo porque nela se adiantam
diversos valores para µ. Diz-se então que H1 é uma hipótese composta. Todas as hipóteses que figuram
nos dois outros exemplos são hipóteses compostas.
Num teste de hipóteses pretendemos verificar a validade da hipótese alternativa H1 e por isso é
habitual dizermos que vamos testar H1 . Depois de enunciada a hipótese H1 que se quer testar, define-
se a hipótese nula H0 como a hipótese complementar de H1 .
No exemplo sobre o número de faltas ao trabalho, considera-se grave que p = P (falta num dia) seja
superior a 30%. Se quisermos testar esta situação, estabelecemos a hipótese H1 : p > 0.3 e só depois
ficamos a saber a hipótese que a complementa é H0 : p ≤ 0.3.
O teste de uma hipótese H1 , consiste em aproveitar a informação contida na amostra e em verificar
a consistência dessa informação com a hipótese H0 , decidindo-nos então pela rejeição ou não rejeição
de H0 .
O processo estatı́stico num teste de hipóteses consiste em determinar a probabilidade de, com
os dados amostrais observados, a hipótese nula H0 ser falsa. Se essa probabilidade for elevada, fica
provada a validade de H1 . Se for pequena, não devemos rejeitar H0 porque os dados não suportam a
validade de H1 .
Neste procedimento, a hipótese nula H0 é considerada verdadeira até que se verifique que não existe
evidência estatı́stica que a suporte, devendo então ser rejeitada (aceitando como válida a hipótese
alternativa H1 ).

Em termos práticos, um teste de hipóteses consiste numa partição do conjunto de todas a amostras
que é possı́vel recolher, em dois subconjuntos, designados por região de rejeição (ou região crı́tica) e
região de aceitação.
Mas, como a decisão sobre a rejeição ou não rejeição da hipótese H0 é feita à custa da informação
amostral, podemos sempre cometer erros na decisão. Esses erros são: O erro de tipo I (ou erro de 1a
espécie) correspondente a decidirmos rejeitar a hipótese H0 , quando ela é verdadeira, e o erro de tipo
II (ou erro de 2a espécie) correspondente a não rejeitarmos a hipótese H0 , quando ela é falsa.
Decisão H0 verdadeira H0 falsa
Rejeitar H0 Decisão incorrecta Decisão correcta
Não rejeitar H0 Decisão correcta Decisão incorrecta
Existindo sempre a possibilidade de cometermos estes erros de decisão, podemos associar-lhes uma
probabilidade de ocorrerem. Essas probabilidades são:
γ = P (erro de tipo I) = P (Rejeitar H0 |H0 é verdadeira )
Ao valor máximo desta probabilidade dá-se o nome de nı́vel de significância (usualmente representado
por α).
Os nı́veis de significância mais usados são α = 0.1 = 10% para uma decisão pouco significante,
α = 0.05 = 5% para uma decisão significante e α = 0.01 = 1% para uma decisão altamente significante.
Ao erro de tipo II corresponde a probabilidade
β = P (erro de tipo II) = P (Não rejeitar H0 |H0 é falsa )
4. Teste de Hipóteses 38

A Q = 1 − β dá-se o nome de potência.


O teste óptimo será aquele em que as probabilidades, γ e β, têm um valor mı́nimo. Contudo, é
matematicamente impossı́vel minimizá-las simultaneamente. De facto, quando γ diminui, β aumenta
e vice-versa.
Na prática, os testes que realizamos incluem-se nos denominados testes de significância, ou seja
os testes em que o nı́vel de significância α (valor máximo de γ) é estabelecido por nós (e portanto tem
um valor fixo) e para os quais a função potência 1 − β tem valor máximo (ou equivalentemente, β tem
valor mı́nimo).

Passamos de seguida a apresentar a metodologia usual para a construção de um teste de hipóteses


para o parâmetro θ da população X.
Metodologia: Admitamos que Iθ é um intervalo de valores do parâmetro θ e que queremos testar
as hipóteses:

H0 : θ ∈ Iθ vs H1 : θ ∈
/ Iθ .

com um nı́vel de significância α.


A metodologia usual consiste em:

• Escolher um estimador para θ, T (X1 , X2 , . . . , Xn ), sendo (X1 , X2 , . . . , Xn ) uma amostra aleatória


da população X;

• Seleccionar uma estatı́stica de teste W ≡ W (X1 , X2 , . . . , Xn ), que quantifique a “distância”de


T (X1 , X2 , . . . , Xn ), aos valores de θ ∈ Iθ .
Estabelecer (ou conhecer) a distribuição de W , quando H0 é verdadeira.

• Encontrar a região de rejeição Rα , correspondente ao valores da estatı́stica de teste W que


expressem um “distância”a H0 significativamente grande, isto é que apontem para a não validade
de H0 .

• Face a uma amostra observada (x1 , x2 , . . . , xn ), calcular o valor observado da estatı́stica de teste
wobs = W (x1 , x2 , . . . , xn ) e decidir:

– Rejeitar H0 se wobs = W (x1 , x2 , . . . , xn ) ∈ Rα ;


– Não rejeitar H0 se wobs = W (x1 , x2 , . . . , xn ) ∈
/ Rα .

Para cada teste que a seguir expomos, iremos escolher a estatı́stica de teste W (X1 , X2 , . . . , Xn ),
determinar a região de rejeição Rα , para um nı́vel de significância α fixo, após o que será possı́vel
tomar uma decisão face a uma amostra recolhida.
Com a evolução das ferramentas de cálculo, é hoje possı́vel determinar probabilidades de modo
expedito e cómodo. Por isso, é agora usual associar e tomar decisões sobre um teste de hipóteses
através do conceito de p-value.
O p-value é uma probabilidade que mede até que ponto os dados amostrais sugerem a rejeição de
H0 e é especialmente importante quando o valor observado da estatı́stica de teste está muito próximo
da fronteira da região de rejeição e por isso não rejeitamos H0 por pouco.

Definição 4.1 Seja (x1 , x2 , . . . , xn ) a concretização de uma amostra aleatória (X1 , X2 , . . . , Xn ) e

wobs = W (x1 , x2 , . . . , xn )
4. Teste de Hipóteses 39

o valor observado da estatı́stica de teste. Designa-se por p-value (ou valor-p), a probabilidade de se
observarem valores da estatı́stica de teste tão ou mais desfavoráveis a H0 do que o observado wobs ,
admitindo que H0 é verdadeira.
Podemos ainda dizer que o p-value é o nı́vel de significância do teste, quando calculado com o valor
observado wobs da estatı́stica de teste (máximo da probabilidade do erro de tipo I, caso rejeitemos H0
com o valor wobs ).

NOTA: O p−value é uma medida da concordância entre a hipótese H0 e as amostras que possamos
recolher e que sejam tão ou mais favoráveis à rejeição de H0 . Quanto menor for o p − value, menor é
a consistência da validade de H0 . Assim:
• se p − value ≤ α, rejeitamos H0 ao nı́vel de significância α;

• se p − value > α, não rejeitamos H0 ao nı́vel de significância α


No que se segue, vamos abordar a metodologia de realização de testes de hipóteses paramétricos
para hipóteses do tipo a seguir expostos. Como tal consideremos X uma população caracterizada por
um parâmetro θ de valor desconhecido. As hipóteses que vamos considerar sobre o parâmetro θ são:
Teste bilateral: H0 : θ = θ0 vs H1 : θ 6= θ0

Teste unilateral esquerdo: H0 : θ ≥ θ0 vs H1 : θ < θ0

Teste unilateral direito: H0 : θ ≤ θ0 vs H1 : θ > θ0

Quando os testes são unilaterais, são importantes as seguintes observações:


• Quando na hipótese H0 figura uma desigualdade de ≤ ou ≥, o teste é realizado considerando
apenas a situação em que H0 mais se aproxima de H1 , isto é, quando em θ = θ0 . Assim a
decisão destes testes é equivalente à decisão que resulta quando se estabelece que a hipótese nula
é H0 : θ = θ0 .

• A observação anterior é corroborada pelo facto de, no teste das hipóteses


H0 : θ ≥ θ0 vs H1 : θ < θ0 ,
o nı́vel de significância α = max P (Rejeitar H0 |θ ) = P (Rejeitar H0 |θ = θ0 )
θ≥θ0
e, no caso do teste das hipóteses
H0 : θ ≤ θ0 vs H1 : θ > θ0 ,
α = max P (Rejeitar H0 |θ ) = P (Rejeitar H0 |θ = θ0 )
θ≤θ0

4.2 Teste de hipóteses para o valor médio


Nesta secção vamos dedicar a atenção exclusivamente a hipóteses que estabelecem conjecturas
sobre o valor médio E (X) = µ de uma população X.

4.2.1 Teste de hipóteses bilateral para o valor médio


Exemplo 4.1 Estudos sobre o custo de vida, realizados no mês de Janeiro de 2003, permitiram
concluir que o gasto semanal em alimentação de famı́lias com dois filhos, apresentava um valor médio
de 100 euros com um desvio padrão de 15 euros. No mês de Agosto do mesmo ano, pretendı́amos saber
4. Teste de Hipóteses 40

se tinham ocorrido alterações no gasto semanal médio em alimentação das mesmas famı́lias. Para
tal seleccionou-se uma amostra de gastos semanais em alimentação de 25 famı́lias (com 2 filhos), que
revelou uma média x = 108 euros.
Que conclusões podemos retirar acerca da alteração do gasto médio semanal em alimentação deste
tipo de famı́lias?
A população em estudo é X-gasto semanal em alimentação das famı́lias com 2 filhos, mas o
interesse primordial diz respeito a µ = E (X)-gasto médio semanal em alimentação das famı́lias com
2 filhos. A nossa questão reside em saber se µ permanece igual a 100 euros, µ = 100, ou, se em
Agosto, µ é diferente de 100 euros, µ 6= 100.
Queremos então testar a validade das hipóteses

H0 : µ = 100 vs H1 : µ 6= 100

A decisão acerca da validade de alguma destas hipóteses deverá ser feita à custa da informação que
a amostra fornecer. Uma vez que as hipóteses dizem respeito ao valor médio da população, devemos
considerar a informação que a amostra fornecer sobre µ. Mas já sabemos que a informação amostral
sobre µ, reside na estimativa de µ, ou seja, reside no valor da média de uma amostra de dimensão n,
n
1X
X= Xi
n
i=1

O valor de X vai-nos permitir decidir se µ 6= 100 ou se µ = 100, isto é, vai-nos permitir decidir
se rejeitamos H0 ou se não rejeitamos H0 . Como tal, só nos resta saber, quais os valores de X que
nos levam a rejeitar H0 ou a não rejeitar H0 . Em resumo, precisamos de uma regra de decisão.

Regra de decisão
Se X tiver um valor muito diferente (ou distante) de 100, é natural que se decida que µ 6= 100.

Podemos dizer que X é muito diferente de 100, se X − 100 for muito grande, ou seja se o valor de

X − 100 ultrapassar uma certa quantidade a (a > 0). Então

Rejeitamos µ = 100 se X − 100 > a (a > 0)

ou de modo equivalente

Rejeitamos H0 se X − 100 > a (a > 0)

No caso geral do teste de hipóteses bilateral

H0 : µ = µ0 vs H1 : µ 6= µ0

Rejeitamos H0 se X − µ0 > a (a > 0)

Neste exemplo, o que são os erros de decisão?


Admitamos as seguintes situações:

1. Em Agosto, o gasto médio semanal em alimentação permanece igual a 100 euros, µ = 100. Isto
é o que acontece na população, mas nós não sabemos porque não analisamos a população na
totalidade.
4. Teste de Hipóteses 41

Suponhamos que o acaso da amostragem, levava a que se obtivessem valores amostrais sobre
o gasto semanal em alimentação, muito elevados (muito pequenos).
Então X teria um valor
elevado (pequeno), e de tal modo elevado (pequeno) que X − 100 > a. Como consequência,
irı́amos decidir rejeitar H0 , ou seja, decidir que µ 6= 100.
A nossa decisão seria errada, porque (baseados na amostra) decidı́amos que µ 6= 100 e de facto
µ = 100. Estarı́amos a cometer um erro de tipo I, nomeadamente a rejeitar H0 : µ = 100,
quando H0 é verdadeira.

2. Em Agosto, o gasto médio semanal em alimentação sofreu uma alteração e passou a ter um
valor µ 6= 100. Isto é o que acontece na população, mas nós não sabemos porque não analisamos
a população na totalidade.
Suponhamos
que
a média amostral X exibia um valor não muito diferente de 100, de tal modo
que X − 100 ≤ a. Como consequência, irı́amos decidir não rejeitar H0 : µ = 100, ou seja,
decidir que o gasto médio semanal continuava igual a 100.
Esta decisão seria errada, porque (baseados na amostra) decidı́amos que µ = 100 e de facto
µ 6= 100. O erro cometido era um erro de tipo II, nomeadamente não rejeitar H0 , quando H0 é
falsa.

Probabilidade dos erros de decisão


As probabilidades dos erros de decisão são, neste caso

α = P (Rejeitar H0 |H0 verdadeira ) = P X − 100 > a |µ = 100 (nı́vel de significância)

β (µ) = P (Não rejeitar H0 |H0 falsa ) = P X − 100 ≤ a |µ 6= 100

NOTA: O teste que agora expomos, é um teste que minimiza β (µ), para cada α (nı́vel de sig-
nificância) que escolhermos.

Região de rejeição ou região crı́tica


Consideremos as hipóteses genéricas para um teste bilateral sobre o valor médio,

H0 : µ = µ0 vs H1 : µ 6= µ0

Já vimos que podemos



Rejeitar H0 se X − µ0 > a (a > 0)

Mas qual o valor de a?

Admitamos que escolhı́amos um nı́vel de significância α para o nosso teste. Então



α = P X − µ0 > a |µ = µ0

Trata-se de uma probabilidade cujo valor conhecemos, o que desconhecemos é o valor de a. Mas
se soubermos qual a distribuição da v.a. X, podemos trabalhar esta igualdade sobre probabilidades e
portanto deduzir o valor de a.
Suponhamos que a população goza das seguintes caracterı́sticas:
4. Teste de Hipóteses 42


X tem distribuição normal de valor médio µ e variância conhecida, σ 2 = V (X), X ∼ N µ, σ 2

Então a nossa amostra aleatória (X1 , . . . , Xn ) é constituı́da por v.a.’s com distribuição N µ, σ 2
 
σ2
e portanto X tem distribuição normal de valor médio µ e variância σ 2 /n, X ∼ N µ, , isto é
n
√ X −µ
Z= n ∼ N (0, 1).
σ
√ X − µ0
Quando H0 : µ = µ0 é verdadeira, Z = n ∼ N (0, 1)
σ sob H0
Agora já podemos determinar o valor de a.
   
 √ X − µ0 √ a √ a
α = P X − µ0 > a |µ = µ0 = P n > n = P |Z| > n √ =
σ σ n
 √ a  √ a  √ a √ a 
= P Z<− n +P Z > n =Φ − n +1−Φ n =
√ a σ √ a  σ √ aσ  √σ a 
= 1−Φ n +1−Φ n = 2 − 2Φ n =2 1−Φ n
σ σ σ σ
ou seja
√ a  α √ a  α σ
Φ n = 1 − ⇔ n = Φ−1 1 − = zα/2 ⇔ a = √ zα/2
σ 2 σ 2 n
Regra de decisão para um nı́vel de significância α
σ
Rejeitar H0 se X − µ0 > √ zα/2
n

ou de modo equivalente


√ X − µ0
Rejeitar H0 se n
> zα/2
σ

NOTAS:
• Repare que conseguimos deduzir o valor de a porque soubemos as caracterı́sticas da população
e portanto conseguimos saber qual a distribuição de X. Repare também que este conhecimento
das caracterı́sticas da população X corresponde à situação A descrita na secção 2.4.1.
√ X − µ0 √ X − µ0
• Z= n é a estatı́stica de teste e Z = n ∼ N (0, 1).
σ σ µ=µ0
   
• A região de rejeição, para um nı́vel de significância α, é Rα ≡ −∞, −zα/2 ∪ zα/2 , +∞ .
√ x − µ0
• A regra de decisão, para um nı́vel de significância α será a de rejeitar H0 caso zobs = n ∈
σ
Rα .

• Quanto ao p − value, ter-se-á

p − value = P (|Z| > |zobs | |H0 ) ,

com Z ∼ N (0, 1).


µ=µ0
4. Teste de Hipóteses 43

Exemplo 4.2 Continuação do exemplo 4.1


As hipóteses são

H0 : µ = 100 vs H1 : µ 6= 100

Sabemos que σ = 15 e que a amostra de n = 25 observações forneceu x = 108.


Pn
• Estimador de µ: X = i=1 Xi /n;

• Estatı́stica de teste: Z = 25 X−100
15 ∼ N (0, 1);
µ=100

• Região de rejeição para um nı́vel de significância α = 0.05:


R0.05 ≡ ]−∞, −c[ ∪ ]c, +∞[ com c tal que 0.05 = P (Z ∈ R0.05 )
P (Z ∈ R0.05 ) = P (|Z| > c) = 2P (Z > c)
0.05 = 2P (Z > c) ⇔ P (Z > c) = 0.025 ⇔ c = z0.025 = 1.96
Então R0.05 ≡ ]−∞, −1.96[ ∪ ]1.96, +∞[;

• Regra de decisão do teste, ao nı́vel de significância de 5%: Rejeitar H0 se zobs ∈ R0.05 ;

• Decisão,
√ ao nı́vel de 5% de significância:
zobs = 25 108−100
15 = 2.667 ∈ R0.05
Rejeitamos H0 ao nı́vel de significância de 5%, isto é, existe evidência estatı́stica para podermos
afirmar que existe alteração no gasto médio semanal no mês de Agosto.

Cálculo e decisão pelo p − value



Sendo zobs = 25 108−100
15 = 2.667,

p − value = P (|Z| > |2.667|) = 2P (Z > 2.667) = 2 (1 − P (Z ≤ 2.667)) = 2 (1 − 0.9962) = 0.0076

Dado que p − value < 0.05, decidimos rejeitar H0 : µ = 100, ao nı́vel de 5% de significância.

Outros testes de hipóteses bilaterais para o valor médio


Como foi dito na nota importante, a regra de decisão atrás
 deduzida dependeu do conhecimento
das caracterı́sticas da população X, nesse caso de X µ, σ 2 .
Quando esse conhecimento é diferente, a regra de decisão altera-se, mas a alteração depende
essencialmente da distribuição de amostragem que resulta para X. Recaı́mos então nas situações
expostas na secção 2.4.1 e portanto as regras de decisão para um teste bilateral para o valor médio µ,
com um nı́vel de significância α, vão ser:
4. Teste de Hipóteses 44

Tabela 4.1: Testes de hipóteses bilateral para o valor médio

H0 : µ = µ0 vs H1 : µ 6= µ0

Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição (c > 0)


 √ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
 √
C X ∼ N µ, σ 2 com σ 2 desconhecida T = n X−µ S
0
∼ tn−1 ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0

Figura 4.1: Teste bilateral para o valor médio: Situações A, B e D

Figura 4.2: Teste bilateral para o valor médio: Situação C


4. Teste de Hipóteses 45

Exemplo 4.3 Medições de acidez (pH) de amostras de chuva foram registadas em 12 locais de uma
região industrial:

5.1 5.0 3.8 4.8 3.6 4.7


4.3 4.4 4.5 4.9 4.7 4.8

Por estudos anteriores sabe-se que os registos de acidez da chuva nesta região têm distribuição
normal.
Poderemos concluir, com 5% de significância, que os nı́veis actuais de acidez média da chuva saem
fora do valor de controlo de 4.5 de acidez média na região?
Pretendemos testar, com α = 5%, as hipóteses

H0 : µ = 4.5 vs H1 : µ 6= 4.5

sendo µ o nı́vel de acidez média da chuva na região.


A amostra possibilita a seguinte informação:
54.6 2.35
n = 12 x = 12 = 4.55 s2 = 11 = 0.213637
Pn
• Estimador de µ: X = i=1 Xi /n;

• Estatı́stica de teste: T = 12 X−4.5
S ∼ t11 ;
µ=4.5

• Região de rejeição para um nı́vel de significância α = 0.05:


R0.05 ≡ ]−∞, −c[ ∪ ]c, +∞[ com c tal que 0.05 = P (T ∈ R0.05 )
P (T ∈ R0.05 ) = P (|T | > c) = 2P (T > c)
0.05 = 2P (T > c) ⇔ P (T > c) = 0.025 ⇔ c = t11:0.025 = 2.201
Então R0.05 ≡ ]−∞, −2.201[ ∪ ]2.201, +∞[;

• Regra de decisão do teste, ao nı́vel de significância de 5%: Rejeitar H0 se tobs ∈ R0.05 ;

• Decisão,
√ ao nı́vel de 5% de significância:
tobs = 12 √4.55−4.5
0.213637
= 0.3747 ∈
/ R0.05
Não rejeitamos H0 ao nı́vel de significância de 5%, isto é, não existe evidência estatı́stica para
podermos afirmar que os nı́veis actuais de acidez média saem fora do valor de controlo.

Cálculo e decisão pelo p − value


√ X − 4.5 √ 4.55 − 4.5
Sendo T = 12 ∼ t11 a estatı́stica de teste e tobs = 12 √ = 0.3747,
S µ=4.5 0.213637
p − value = P (|T | > |0.3747|) = 2P (T > 0.3747) = 2 × 0.3575 = 0.715

Dado que p − value > 0.05, decidimos não rejeitar H0 : µ = 4.5, ao nı́vel de 5% de significância.
4. Teste de Hipóteses 46

4.2.2 Teste de hipóteses unilateral direito para o valor médio


As hipóteses num teste bilateral sobre o valor médio µ conjecturam se o valor médio de uma
população X tem um valor µ0 ou se ocorreram alterações e o seu valor actual é diferente de µ0 . Mas,
por vezes tem mais interesse saber se essas alterações ocorreram no sentido do valor de µ ser agora
maior que µ0 .

H0 : µ ≤ µ0 vs H1 : µ > µ0

Veja-se o seguinte exemplo:


Exemplo 4.4 Anuncia-se que um novo tratamento é mais eficaz que o tratamento tradicional para
prolongar a vida de doentes em estado terminal sofrendo de cancro. O tratamento tradicional já é usado
à algum tempo e sabe-se que a sua aplicação provoca um tempo médio de 4.2 anos de sobrevivência
com um desvio padrão de 1.1 anos.
O novo tratamento foi administrado a 80 pacientes e os tempos registados de sobrevivência à doença
desde o começo do tratamento exibiram uma média amostral de 4.5 anos.
Será que esta informação corrobora o anúncio feito ao novo tratamento?
As conjecturas em causa são

H0 : µ ≤ 4.2 vs H1 : µ > 4.2

sendo µ o tempo médio de sobrevivência desde o inı́cio de um tratamento. 


Naturalmente a regra de decisão
 passa por rejeitarmos a hipótese H 0 : µ ≤ 4.2 se X − 4.2 for
muito grande, isto é se X − 4.2 > b com b > 0.
Mas qual a distribuição de X? Se considerarmos que o desvio padrão se mantém com o valor de
σ = 1.1 anos, estamos no caso da situação B da secção 2.4.1, porque não se conhece a distribuição da
população X-tempo de sobrevivência desde o inı́cio de um tratamento, mas conhece-se a sua variância
e tem-se uma amostra de dimensão n = 80 ≥ 30. Portanto podemos dizer que, quando µ = µ0 ≡ 4.2,
 
√ X − µ0 √ X − µ0 a
Z= n tem distribuição assintótica N (0, 1) Z= n ∼ N (0, 1)
σ σ µ=µ0

Então, para um nı́vel de significância α,


 
α = max P (Rejeitar H0 |H0 verdadeira ) = max P X − 4.2 > b |µ ≤ 4.2 = P X − 4.2 > b |µ = 4.2 =
µ
   
√ X − 4.2 √ b √ b
= P n > n ≈1−Φ n
σ σ σ
 
√ b √ b
Considerando α = 1 − Φ n ⇒ n = Φ−1 (1 − α) = zα
σ σ

Regra de decisão para um nı́vel de significância α


σ
Rejeitar H0 se X − 4.2 > √ zα
n

ou de modo equivalente

√ X − 4.2
Rejeitar H0 se n > zα
σ
4. Teste de Hipóteses 47

Como n = 80, x = 4.5, σ = 1.1 e, para α = 10%, z0.1 = Φ−1 (0.9) = 1.28

√ X − 4.2
n = 2.4393 > 1.28 = z0.1
σ
decidimos que a amostra corrobora o anúncio de que o novo tratamento prolonga a vida dos doentes,
com uma significância de 10% na decisão.
Se usarmos a metodologia proposta para a realização de um teste de hipótese, temos as seguintes
fases de resolução:
Pn
• Estimador de µ: X = i=1 Xi /n;

√ X − 4.2 a
• Estatı́stica de teste: Z = 80 ∼ N (0, 1);
σ µ=4.2

• Região de rejeição, para um nı́vel de significância α = 0.1: R0.1 ≡ ]c, +∞[, com c tal que
0.1 = P (Z ∈ R0.1 ).
0.1 = P (Z ∈ R0.1 ) ⇔ 0.1 = P (Z > c) ⇔ c = z0.1 = 1.28.
Então R0.1 ≡ ]1.28, +∞[

• Regra de decisão, para um nı́vel de significância α = 10%: Rejeitar H0 caso zobs ∈ ]1.28, +∞[;
√ 4.5 − 4.2
• Decisão ao nı́vel de 10% de significância: Como zobs = 80 = 2.4393 ∈ R0.1 , decidimos
1.1
rejeitar H0 , ao nı́vel de 10% de significância.

• Quanto ao p − value, ter-se-á

p − value ≈ P (Z > zobs ) = P (Z > 2.44) = 1 − 0.9927 = 0.0073,

Assim p − value < 0.1 (α) permite-nos decidir pela rejeição de H0 ao nı́vel de 10% de sig-
nificância.

NOTA IMPORTANTE: Repare que conseguimos deduzir a distribuição de amostragem da


estatı́stica de teste, porque estavam satisfeitas as condições referidas na situação situação B da secção
2.4.1 para a distribuição de amostragem de X.

Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:

Figura 4.3: Teste unilateral direito para o valor médio: Situações A, B e D


4. Teste de Hipóteses 48

Tabela 4.2: Testes de hipóteses unilateral direito para o valor médio

H0 : µ ≤ µ0 vs H1 : µ > µ0

Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição


 √ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]c, +∞[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]c, +∞[
µ=µ0
 √
C X ∼ N µ, σ 2 com σ 2 desconhecida T = n X−µ S
0
∼ tn−1 ]c, +∞[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]c, +∞[
µ=µ0

Figura 4.4: Teste unilateral direito para o valor médio: Situação C

4.2.3 Teste de hipóteses unilateral esquerdo para o valor médio


Mas também pode ter interesse saber se as alterações de µ ocorrem no sentido do seu valor ser
menor que µ0 .
H0 : µ ≥ µ0 vs H1 : µ < µ0
Vejamos o seguinte exemplo:
Exemplo 4.5 Num processo de fabrico de placas de vidro, produzem-se bolhas que se distribuem
aleatoriamente pelas placas. Com base na abundante informação recolhida pelo departamento de qual-
idade, a densidade média das bolhas estimava-se, até há pouco tempo, em 0.4 bolhas/m2 .
Recentemente fez-se uma tentativa de melhorar o processo produtivo, em particular no tocante ao
aparecimento deste tipo de defeito. Depois de serem introduzidas alguma alterações no processo de
fabrico, recolheu-se uma amostra constituı́da por 15 placas de 4.5 m2 , e registou-se o número de bol-
has em cada uma delas. A média da amostra foi de x = 0.317 bolhas/m2 e o desvio padrão amostral
foi de s = 0.2254 bolhas/m2 .
Verifiquemos, ao nı́vel de significância de 5%, se a densidade esperada de bolhas por m2 diminuiu.
Se µ representar a densidade média de bolhas/m2 , as hipóteses que estão em causa são:
H0 : µ ≥ 0.4 vs H1 : µ < 0.4
Face à presente hipótese
 nula H0 : µ ≥ 0.4, a regra de decisão mais
 natural passa por rejeitarmos
H0 : µ ≥ 0.4 se X − 0.4 for muito menor que 0, isto é se X − 0.4 < c com c < 0.
4. Teste de Hipóteses 49

Mas qual a distribuição de X? Se considerarmos que a distribuição da população X-no de bolhas/m2


tem distribuição normal, desconhecemos a sua variância e portanto estamos no caso da situação C
descrita na secção 2.4.1. Podemos dizer que, quando µ = µ0 = 0.4,
 
√ X − µ0 √ X − µ0
T = n tem distribuição tn−1 T = n ∼ tn−1
S S µ=µ0

Então, para um nı́vel de significância α,


 
α = max P (Rejeitar H0 |H0 verdadeira ) = max P X − 0.4 < c |µ ≥ 0.4 = P X − 0.4 < c |µ = 0.4 =
µ
 
√ X − 0.4 √ c  √ c
= P n < n =P T < n
S S S
 √ c √ c
Logo α = P T < n ⇒ n = tn−1:1−α = −tn−1:α
S S
Regra de decisão para um nı́vel de significância α
S
Rejeitar H0 se X − 0.4 < − √ tn−1:α
n

ou de modo equivalente

√ X − 0.4
Rejeitar H0 se n < −tn−1:α
S

Como n = 15, x = 0.317, s = 0.2254 e, para α = 5%, tn−1:α = t14:0.05 = 1.76


√ x − 0.4
n = −1.42617 > −1.76 = −t14:0.05
s
decidimos não rejeitar H0 ao nı́vel de significância de 5%, ou melhor dizendo, decidimos que a den-
sidade esperada de bolhas/m2 não parece diminuir, sendo de 5% a significância desta conclusão.
Usando a metodologia de realização de um teste de hipóteses, seguir-se-iam as seguintes deduções:
Pn
• Estimador de µ: X = i=1 Xi /n;

√ X − 0.4
• Estatı́stica de teste: T = 15 ∼ t14 ;
S µ=0.4

• Região de rejeição, para um nı́vel de significância α = 0.05: R0.05 ≡ ]−∞, −c[, com c tal que
0.05 = P (T ∈ R0.05 ).
0.05 = P (T ∈ R0.05 ) = P (T < −c) ⇔ 0.05 = P (T > c) ⇔ c = t14:0.05 = 1.76.
EntãoR0.05 ≡ ]−∞, −1.76[;

• Regra de decisão, para um nı́vel de significância α = 5%: Rejeitar H0 se tobs ∈ ]−∞, −1.76[;
√ 0.317 − 0.4
• Decisão ao nı́vel de 5% de significância: Como tobs = 15 = −1.42617 ∈
/ R0.05 ,
0.2254
decidimos não rejeitar H0 .
4. Teste de Hipóteses 50

• Quanto ao p − value, ter-se-á

p − value = P (T < tobs |µ = 0.4 ) = P (T < −1.42617) = P (T > 1.42617) = 0.0879,

com T ∼ t14 . Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel
µ=0.4
de 5% de significância.

Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:

Tabela 4.3: Testes de hipóteses unilateral esquerdo para o valor médio

H0 : µ ≥ µ0 vs H1 : µ < µ0

Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição


 √ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]−∞, c[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]−∞, c[
µ=µ0
 √
C X ∼ N µ, σ 2 com σ 2 desconhecida T = n X−µ S
0
∼ tn−1 ]−∞, c[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]−∞, c[
µ=µ0

Figura 4.5: Teste unilateral esquerdo para o valor médio: Situações A, B e D


4. Teste de Hipóteses 51

Figura 4.6: Teste unilateral esquerdo para o valor médio: Situação C

4.3 Teste de hipóteses para a variância


Nesta secção vamos dedicar a atenção exclusivamente a hipóteses que estabelecem conjecturas
sobre a variância σ 2 = V (X) de uma população X.
Os procedimentos e os conceitos são similares aos utilizados nas deduções dos testes para o valor
médio.
Os pressupostos a estabelecer sobre a experiência estatı́stica são:
1. Ter uma amostra aleatória (X1 , . . . , Xn ) de dimensão n da população X;

2. A população X ter uma distribuição normal com valor médio µ e variância σ 2 desconhecidas.
1 Pn 2
Para estimador de σ 2 vamos usar S 2 = i=1 Xi − X e, para estatı́stica de teste
n−1
(n − 1) S 2
X2 =
σ2
que quantificará a “distância”entre S 2 e σ 2 através de um quociente.

4.3.1 Teste de hipóteses bilateral para a variância


Consideremos as hipóteses

H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02

Naturalmente que devemos rejeitar a hipótese σ 2 = σ02 se a amostra nos fornecer uma estimativa
S2
S 2 muito ”diferente”de σ02 . Dito de outro modo, se o quociente 2 for muito pequeno ou se for muito
σ0
(n − 1) S 2
grande. Mas se isto acontecer, também o quociente deverá ser ”demasiado”pequeno ou
σ02
”demasiado”grande. Numa formulação matemática, deveremos rejeitar a hipótese de σ 2 = σ02 se,

(n − 1) S 2 (n − 1) S 2
< a ou > b.
σ02 σ02
4. Teste de Hipóteses 52

Mas qual o valor de a e de b?


Ora, quando σ 2 = σ02 , a estatı́stica de teste tem distribuição

(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02

(distribuição do qui-quadrado com (n − 1) graus de liberdade).


Então, para um nı́vel de significância α,
   
(n − 1) S 2 (n − 1) S 2
α = P (Rejeitar H0 |H0 verdadeira ) = P <a +P >b
σ02 σ02
Repartindo a probabilidade α em partes iguais para a cauda esquerda e direita da distribuição
χ2n−1 , tem-se

a = χ2n−1:1−α/2 e b = χ2n−1:α/2 .

Regra de decisão para um nı́vel de significância α


(n − 1) S 2 (n − 1) S 2
Rejeitar H0 se 2 < χ2n−1:1−α/2 ou se > χ2n−1:α/2
σ0 σ02
 
p-value=2 min P X 2 < x2obs , P X 2 > x2obs

Figura 4.7: Teste bilateral para a variância

4.3.2 Teste de hipóteses unilateral direito para a variância


Consideremos as hipóteses

H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02


4. Teste de Hipóteses 53

Naturalmente que devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa
S2 (n − 1) S 2
S 2 para a qual o quociente 2 é muito grande. Mas se isto acontecer, também o quociente
σ0 σ02
deverá ser ”demasiado”grande. Resumindo, deveremos rejeitar a hipótese de σ 2 ≤ σ02 se,

(n − 1) S 2
> a.
σ02

Mas qual o valor de a? Ora, quando σ 2 ≤ σ02 , a estatı́stica de teste

(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02

e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade) quando σ 2 = σ02 é verdadeira.
Então, para um nı́vel de significância α,
 
2 2
 (n − 1) S 2
α = P Rejeitar H0 σ = σ0 = P
>a
σ02
Isto implica que

a = χ2n−1:α .

Regra de decisão para um nı́vel de significância α


(n − 1) S 2
Rejeitar H0 se > χ2n−1:α
σ02

p-value=P X 2 > x2obs

Figura 4.8: Teste unilateral direito para a variância


4. Teste de Hipóteses 54

4.3.3 Teste de hipóteses unilateral esquerdo para a variância


Consideremos as hipóteses

H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02

Neste caso devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa S 2 para
S2 (n − 1) S 2
a qual o quociente 2 é muito pequeno. Mas se isto acontecer, também o quociente deverá
σ0 σ02
ser ”demasiado”pequeno. Deveremos então rejeitar a hipótese de σ 2 ≥ σ02 se,

(n − 1) S 2
< a.
σ02

Mas qual o valor de a? Ora, quando σ 2 ≥ σ02 , a estatı́stica de teste passará a ser

(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02

e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade). Então, para um nı́vel de
significância α,
 
(n − 1) S 2
α = P (Rejeitar H0 |H0 verdadeira ) = P <a
σ02
Isto implica que

a = χ2n−1:1−α .

Regra de decisão para um nı́vel de significância α


(n − 1) S 2
Rejeitar H0 se < χ2n−1:1−α
σ02

p-value=P X 2 < x2obs

Exemplo 4.6 A administração de uma SAD reclama que o investimento nas suas acções é seguro
e que o desvio padrão do preço das acções é inferior a 2 euros. Suponha que está interessado numa
eventual compra de acções desta SAD mas, antes de fazer a compra decide testar a veracidade das
afirmações da administração. Para tal escolheu aleatoriamente 30 dias dos últimos 3 anos e registou
o preço das acções. A amostra facultou um desvio padrão amostral de s = 1.70 euros.
Será que esta estimativa indica, ao nı́vel de 5% de significância, que a administração da SAD está
a dar informação verdadeiras?
Queremos testar

H0 : σ ≥ 2 vs H1 : σ < 2

que é equivalente a testar

H0 : σ 2 ≥ 4 vs H1 : σ 2 < 4.

A informação disponı́vel é:

n = 30 α = 0.05 s2 = 1.702 = 2.89


4. Teste de Hipóteses 55

Figura 4.9: Teste unilateral esquerdo para a variância

1 Pn 2
• Estimador de σ 2 : S 2 = n−1 i=1 Xi − X̄ ;
2
• Estatı́stica de teste: X 2 = 29 S4 ∼ χ229 , tendo admitido que o preço das acções tem distribuição
σ 2 =4
normal;
• Região de rejeição
 para um nı́vel de significância α = 0.05: R0.05 ≡ [0, c[, com c tal que 0.05 =
2
P X ∈ R0.05 .  
0.05 = P X 2 ∈ R0.05 ⇔ 0.05 = P X 2 < c ⇔ c = χ229:0.95 = 17.708.
Então R0.05 ≡ [0, 17.708[;
• Regra de decisão, com 5% de significância: Rejeitar H0 se x2obs ∈ [0, 17.708[;
2
• Decisão ao nı́vel de significância de 5%: x2obs = 29 1.70
4 = 20.953 ∈ / R0.05 , logo não rejeitamos
H0 com 5% de significância, isto é, não existe evidência estatı́stica para duvidar das afirmações
da administração da SAD.
• Quanto ao p − value, ter-se-á
 
p − value = P X 2 < x2obs σ 2 = 0.4 = P X 2 < 20.953 = 0.1319.
Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel de 5% de sig-
nificância.

4.4 Outros testes de hipóteses


Para outros testes de hipóteses usuais, limitamo-nos a apresentar os quadros resumos das es-
tatı́sticas de teste a utilizar e respectivas regiões de rejeição.

4.4.1 Teste de hipóteses para a proporção


Exemplo 4.7 Um comerciante admite que a possibilidade de um cliente adquirir pelo menos um
produto na sua loja é constante e de valor superior a 0.4. Durante um mês, contou o números de
4. Teste de Hipóteses 56

Tabela 4.4: Testes de hipóteses para a variância

H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
Condições de aplicação Estatı́stica teste Região rejeição (0 < c1 < c2 )
 (n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 [0, c1 [ ∪ ]c2 , +∞[
σ 2 =σ02
H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
 2
X ∼ N µ, σ 2 , µ desconhecido X2 = (n−1)S
σ02
∼ χ2n−1 [0, c[
σ 2 =σ02
H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
 (n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 ]c, +∞[
σ 2 =σ02

Tabela 4.5: Testes para a proporção, p

H0 : p = p0 vs H1 : p 6= p0
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
p0 (1−p0 ) p=p0
H0 : p ≥ p0 vs H1 : p < p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, c[
p0 (1−p0 ) p=p0
H0 : p ≤ p0 vs H1 : p > p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]c, +∞[
p0 (1−p0 ) p=p0

clientes que entraram na loja assim como os que fizeram alguma compra, tendo registado os valores
878 e 495, respectivamente. A informação recolhida permite corroborar as suas suspeitas?
As hipóteses a teste deverão ser
H0 : p ≤ 0.4 vs H1 : p > 0.4
que vamos testar com um nı́vel de significância α = 10%.
A informação disponı́vel é:
p̂ = 495/878 = 0.56 n = 878

• Estimador de p: P̂ =;
√ a
• Estatı́stica de teste: Z = 878 √ P̂ −0.4 ∼ N (0, 1);
0.4(1−0.4) p=0.4

• Região de rejeição para um nı́vel de significância α = 10%: R0.10 ≡ ]−∞, −c[ ∪ ]c, +∞[, com c
tal que 0.10 = P (Z ∈ R0.10 ).
0.10 = P (Z ∈ R0.10 ) ⇔ 0.10 = P (|Z| > c) ⇔ 0.10 = 2P (Z > c) ⇔ 0.05 = P (Z > c) ⇔
⇔ c = z0.05 = 1.28
Então R0.10 ≡ ]−∞, −1.28[ ∪ ]1.28, +∞[;
4. Teste de Hipóteses 57

• Regra de decisão ao nı́vel de significância de 10%: Rejeitar H0 se zobs ∈ ]−∞, −1.28[∪]1.28, +∞[;

• Decisão ao nı́vel de 10% de significância: zobs = 878 √0.56−0.4 = 9.68 ∈ R0.10 , logo rejeitamos
0.4(1−0.4)
H0 , ou seja, existe evidência estatı́stica para afirmar que a probabilidade de qualquer cliente fazer
uma compra é superior a 0.4, com uma significância de 10%.

• O p-value associado ao teste é: p − value = P (|Z| > |zobs |) = P (|Z| > 9.68) ≈ 0.

4.4.2 Teste de hipóteses para comparação do valor médio de duas populações

Tabela 4.6: Testes de hipóteses para comparação de dois valores médios

H0 : µ1 = µ2 vs H1 : µ1 6= µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
 
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2

2
∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
 
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, −c[ ∪ ]c, +∞[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30

H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição
2
 2

A X ∼ N µ1 , σ1 , Y ∼ N µ2 , σ2 Z = X̄−
r
2

2
∼ N (0, 1) ]−∞, c[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
 
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, c[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30
4. Teste de Hipóteses 58

H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição
 
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2

2
∼ N (0, 1) ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
 
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]c, +∞[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30

Exemplo 4.8 A FNN decidiu comprar fatos novos para os atletas. Adquiriu 6 fatos da marca mais
cara (Tipo A) e 7 da marca mais barata (TIPO B) e enviou-os para um laboratório, onde se registaram
os tempos de duração até romperem. Os registos, em horas, aparecem na tabela que se segue:

Tipo A: 1400 1725 1610 1605 1950 1575


Tipo B: 1615 1665 1730 1755 1632 1606 1790

Admitindo que o tempo de duração dos fatos para cada marca têm uma lei normal com a mesma
variância, poderá dizer, com uma significância de 5%, que as durações médias dos fatos das duas
marcas são idênticas?
Estime por intervalo de 95% de confiança a diferença entre as durações médias dos fatos de cada
marca.
As hipóteses a testar deverão ser

H0 : µ1 = µ2 vs H1 : µ1 6= µ2

que vamos testar com um nı́vel de significância α = 5%.


A informação amostral é:

n1 = 6 x̄ = 1644.17 s21 = 182.852 n2 = 7 ȳ = 1684.71 s22 = 73.372 s2p = 199469.5539

tn1 +n2 −2:α/2 = t11:0.025 = 2.201


Supondo que o tempo de duração dos fatos têm distribuição normal e que são iguais, temos:
X̄−
q Ȳ
• Estatı́stica de teste: T = 1
∼ t11 ;
Sp 6
+ 71 µ1 =µ2

• Região de rejeição para um nı́vel de significância α = 5%: R0.05 = ]−∞, −c[ ∪ ]c, +∞[, com c
tal que P (T ∈ R0.05 ) = 0.05.
P (T ∈ R0.05 ) = 0.05 ⇔ P (|T | > c) = 0.05 ⇔ 2P (T > c) = 0.05 ⇔ P (T > c) = 0.025 ⇔
⇔ c = t11:0.025 = 2.201.
Então R0.05 = ]−∞, −2.201[ ∪ ]2.201, +∞[;

• Regra de decisão ao nı́vel de 5% de significância:


Rejeitar H0 caso tobs ∈ ]−∞, −2.201[ ∪ ]2.201, +∞[;
4. Teste de Hipóteses 59

• Decisão: tobs = q 1644.17−1684.71 = 0.163 ∈


/ R0.05 , pelo que não existe evidência para se afirmar
199469.5539( 16 + 71 )
que os tempos médios são distintos, com uma significância de 5%.

O intervalo de confiança (1 − α) = 1 − 0.05 = 0.95 para µ1 − µ2 coincide com a região de não


rejeição do teste das hipóteses

H0 : µ1 = µ2 vs H1 : µ1 6= µ2

Assim, o intervalo de (1 − α) de confiança para µ1 − µ2 é


" r r #
1 1 1 1
IC95% (µ1 − µ2 ) ≡ X̄ − Ȳ − 2.201 Sp + , X̄ − Ȳ + 2.201 Sp +
6 7 6 7

e a estimativa para a diferença médias das durações dos fatos é


" r r #
1 1 1 1
1644.17 − 1684.71 − 2.201 × 446.62 + , 1644.17 − 1684.71 + 2.201 × 446.62 + =
6 7 6 7

= [−587.437, 506.357]
4. Teste de Hipóteses 60

4.5 Teste ao pressuposto da normalidade de uma população


O teste de ajustamento do qui-quadrado é uma técnica estatı́stica que permite testar se uma dada
v.a. ou população tem uma distribuição F preconizada.
Apresentaremos aqui, a aplicação deste teste à situação em que pretendemos saber se uma dada
população tem distribuição normal que, como vimos no capı́tulo 3 e na secção anterior, é uma in-
formação fundamental para o conhecimento da estatı́stica que é mais conveniente utilizar na dedução
do intervalo de confiança ou para a realização de um teste de hipóteses.
H0 : X tem distribuição normal vs H1 : X não tem distribuição normal
A resposta a este tipo de conjecturas sobre a distribuição da população X é importante porque
permitir-nos-á saber que tipo de situação, nomeadamente as que temos vindo a identificar como
situação A, B, C e D, devemos considerar para calcular intervalos de confiança e realizar testes de
hipóteses sobre valores médios e sobre variâncias.

Exemplo 4.9 Consideremos a amostra de medições da acidez (pH) da água da chuva apresentada
no exemplo 4.3. Nesse exemplo, admitimos que a população X-”Acidez (pH) da água da chuva”tinha
distribuição normal.
Vamos agora testar se este pressuposto se verifica ou não, ou seja vamos testar as hipóteses:
H0 : X tem distribuição normal vs H1 : X não tem distribuição normal
A nossa amostra era
5.1 5.0 3.8 4.8 3.6 4.7
4.3 4.4 4.5 4.9 4.7 4.8
a que se acrescentaram as seguintes observações, para efeitos de aplicação do teste:
4.6 5.0 4.2 4.6 4.4 5.0 4.7 4.2 4.0 3.9 4.0 4.3
4.6 4.2 4.8 4.2 4.2 4.4 5.5 4.6 4.4 4.0 4.5 4.8
A nova amostra com dimensão n = 36 apresenta uma média x = 4.49 e um desvio padrão amostral
s = 0.406.
Comecemos por agrupar em classes as observações amostrais. Para tal consideremos os seguintes
intervalos (denominados classes) para agrupamento dos dados: ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4],
]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e ]5.0, +∞[.
As frequências absolutas e relativas de observações em cada intervalo são:
Tabela de frequências
Classe Frequência absoluta Frequência relativa
i Ci Oi Fi
1 ]−∞, 3.8] 2 2/36=0.056
2 ]3.8, 4.0] 4 4/36=0.111
3 ]4.0, 4.2] 5 5/36=0.138
4 ]4.2, 4.4] 6 6/36=0.167
5 ]4.4, 4.6] 6 6/36=0.167
6 ]4.6, 4.8] 7 7/36=0.194
7 ]4.8, 5.0] 4 4/36=0.111
8 ]5.0, +∞[ 2 2/36=0.056
Totais 36 1
4. Teste de Hipóteses 61

A frequência relativa de uma classe é uma estimativa da probabilidade dessa classe.


Por exemplo, a frequência relativa 4/36 = 0.111 da classe ]3.8, 4.0] é uma estimativa da verdadeira
probabilidade desta classe, ou seja de P (3.8 < X ≤ 4.0). 
Ora, se a hipótese H0 : X tem distribuição normal, for verdadeira, isto é, se X ∼ N µ, σ 2 ,
p2 = P (C ∈ C2 ) = P (3.8 < X ≤ 4.0) = P (X ≤ 4.0) − P (X ≤ 3.8) =
   
4.0 − µ 3.8 − µ
= P Z≤ −P Z ≤ =
σ σ
   
4.0 − µ 3.8 − µ
= Φ −Φ
σ σ
que não podemos calcular porque desconhecemos o valor de µ e de σ.
Contudo, sabemos que os estimadores X e S fornecem boas estimativas para µ e para σ, respecti-
vamente. Portanto, podemos estimar a anterior probabilidade, substituindo µ por X e σ por S.
Assim
   
4.0 − x 3.8 − x
p2 = P (X ∈ C2 ) ≈ Φ −Φ =
s s
= Φ (−1.21) − Φ (−1.70) = 0.0691

Nota: Repare que, para o cálculo da probabilidade, fomos obrigados a usar as estimativas de 2
parâmetros.

Se repetirmos este raciocı́nio para as restantes classes, então as frequências relativas 2/36 = 0.056,
4/36 = 0.111, 5/36 = 0.138, 6/36 = 0.167, 6/36 = 0.167, 7/36 = 0.194, 4/36 = 0.111 e 2/36 = 0.056
das classes, respectivamente, ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4], ]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e
]5.0, +∞[, são estimativas das seguintes probabilidades (caso H0 seja verdadeira),
 
3.8 − x
p1 = P (X ∈ C1 ) = P (X ≤ 3.8) ≈ Φ = Φ (−1.70) = 0.0446
s
p2 = P (X ∈ C2 ) = 0.0691
   
4.2 − x 4.0 − x
p3 = P (X ∈ C3 ) = P (4.0 < X ≤ 4.2) ≈ Φ −Φ =
s s
= Φ (−0.71) − Φ (−1.21) = 0.1238
   
4.4 − x 4.2 − x
p4 = P (X ∈ C4 ) = P (4.2 < X ≤ 4.4) ≈ Φ −Φ =
s s
= Φ (−0.22) − Φ (−0.71) = 0.1748
   
4.6 − x 4.4 − x
p5 = P (X ∈ C5 ) = P (4.4 < X ≤ 4.6) ≈ Φ −Φ =
s s
= Φ (0.27) − Φ (−0.22) = 0.1945
   
4.8 − x 4.6 − x
p6 = P (X ∈ C6 ) = P (4.6 < X ≤ 4.8) ≈ Φ −Φ =
s s
= Φ (0.76) − Φ (0.27) = 0.1706
   
4.8 − x 5.0 − x
p7 = P (X ∈ C7 ) = P (4.8 < X ≤ 5.0) ≈ Φ −Φ =
s s
= Φ (1.26) − Φ (0.76) = 0.1181
 
5.0 − x
p8 = P (X ∈ C8 ) = P (X > 5.0) ≈ 1 − Φ = 1 − Φ (1.26) = 0.1045
s
4. Teste de Hipóteses 62


Acontece que, se a hipótese H0 : X ∼ N µ, σ 2 for verdadeira, a diferença entre a frequência
relativa e a probabilidade de cada classe, não deve ser muito grande.

Mas, se a hipótese H0 :X ∼ N µ, σ 2 não for verdadeira, a discrepância entre a frequência relativa
e a probabilidade de cada classe, poderá ser muito grande.

Resumindo, deveremos rejeitar H0 : X ∼ N µ, σ 2 , se o total das diferenças entre as frequências
relativas e as probabilidades de todas as classes for muito grande, isto é, se
k
X
(Fi − pi )2
i=1

for muito grande, onde k representa o total de classes consideradas.


Contudo, é mais cómodo trabalharmos com as frequências absolutas  Oi = nFi do que com a
2
frequências relativas, e como tal, deveremos rejeitar H0 : X ∼ N µ, σ , se

k
X
(Oi − npi )2
i=1

for muito grande.


A quantidade npi é designada por frequência esperada da classe i e representa-se por Ei = npi .
Na realidade, não é exactamente a soma
k
X
(Oi − Ei )2
i=1

que servirá para testarmos as nossas hipóteses, mas sim a soma


k
X (Oi − Ei )2
X2 =
Ei
i=1

que se designa por estatı́stica de teste do qui-quadrado.



Assim, rejeitaremos a hipótese H0 :X ∼ N µ, σ 2 , quando X 2 assumir valores demasiado elevados,
e portanto a região de rejeição do teste é:

Rα ≡ ]c, ∞[

sendo α o nı́vel de significância que associarmos à nossa decisão.


Escolhido esse nı́vel de significância α, o valor c será aquele torna válida a igualdade:
 
α = P X 2 ∈ Rα = P X 2 > c

e como tal precisamos de saber previamente qual a distribuição de amostragem da estatı́stica de teste
X 2.
Qual a distribuição de amostragem de X 2 ?
Quando H0 é verdadeira, X 2 tem distribuição do qui-quadrado com um número de graus de liber-
dade igual a (no classes − no parâmetros estimados − 1) = (k − 2 − 1) = (k − 3) graus de liberdade, e
escrevemos de modo abreviado,

X 2 ∼ χ2k−3
sobH0
4. Teste de Hipóteses 63

Então

α = P X 2 > c ⇔ c = χ2k−3:α

e a região de rejeição para um nı́vel de significância α é:


 
Rα ≡ χ2k−3:α , +∞

Resumindo,

Regra de decisão para um nı́vel de significância α


k
X (Oi − Ei )2
Rejeitar H0 se X 2 = > χ2k−3:α
Ei
i=1

Figura 4.10: Teste do qui-quadrado ao pressuposto de normalidade

Exemplo 4.10 Vamos agora concluir o nosso exemplo 4.9. Começamos por construir uma tabela
onde apresentamos as frequências absolutas e as frequências esperadas de cada classe.

Classe Frequência absoluta Frequência esperada


i Ci Oi Ei
1 ]−∞, 3.8] 2 1.6056
2 ]3.8, 4.0] 4 2.4876
3 ]4.0, 4.2] 5 4.4568
4 ]4.2, 4.4] 6 6.2829
5 ]4.4, 4.6] 6 7.0020
6 ]4.6, 4.8] 7 6.1416
7 ]4.8, 5.0] 4 4.2516
8 ]5.0, +∞[ 2 3.7620
Totais 36 36
4. Teste de Hipóteses 64

Antes de prosseguirmos no cálculo do valor observado da estatı́stica de teste X 2 , devemos fazer


um re-agrupamento das classes porque, numa boa prática deste teste, é usual exigir-se que todas as
classes tenham valores esperados superiores a 5, isto é,

Ei = npi > 5, 1 ≤ i ≤ k, sendo k o total de classes

Neste exemplo devemos aglutinar as classes 1,2 e 3, assim como as classes 7 e 8, sendo a frequência
esperada das novas classes igual às frequências das classes que se uniram.
A seguir apresentamos a tabela de frequências observadas e esperadas a que se adiciona uma última
coluna (opcional) com as parcelas da estatı́stica de teste do qui-quadrado.
Classe Frequência absoluta Frequência esperada
i Ci Oi Ei (Oi − Ei )2 /Ei
1 ]−∞, 4.2] 11 8.5500 0.7020
2 ]4.2, 4.4] 6 6.2829 0.0136
3 ]4.4, 4.6] 6 7.0020 0.1434
4 ]4.6, 4.8] 7 6.1416 0.1200
5 ]4.8, +∞[ 6 8.0136 0.5060
Totais 36 36 1.485

P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−2−1 ≡ χ22
sobH0
porque temos k = 5 classes e estimámos p = 2 parâmetros;

• Região de rejeição para um nı́vel de significância


 α = 5%:
R0.05 ≡ ]c, +∞[ com c tal que P X 2 ∈R = 0.05.
  0.05
P X 2 ∈ R0.05 = 0.05 ⇔ P X 2 > c = 0.05 ⇔ c ≡ χ22:0.05 = 5.99. Assim R0.05 ≡ ]5.99, +∞[;

• Regra de rejeição ao nı́vel de 5% de significância: Rejeitar H0 se x2obs ∈ ]5.99, +∞[;

• Decisão para 5% de significância: Como x2obs = 1.485 ∈


/ R0.05 , não existe evidência estatı́stica
para duvidar de que a população X-”acidez (pH) da água da chuva”, tem distribuição normal.

• p − value associado ao teste: p − value = P X 2 > 1.485 = 0.4759.

Vejamos outro exemplo, em que o número de parâmetros a estimar para o cálculo das frequências
esperadas, é diferente.

Exemplo 4.11 Para uma conveniente resolução do exemplo 4.1, precisarı́amos de verificar previa-
mente se a população X-“gasto semanal em alimentação (para famı́lias com dois filhos) em Agosto de
2003” tem distribuição normal com desvio padrão conhecido e de valor σ = 15 euros.
As nossas hipóteses são
 
H0 : X ∼ N µ, 152 vs H1 : X não tem distribuição N µ, 152

Se considerarmos uma amostra de gastos em alimentação de n = 40 famı́lias e o seu agrupamento


em classes exposto na tabela seguinte:
4. Teste de Hipóteses 65

Tabela de frequências
Classe Frequência observada
i Ci Oi
1 ]−∞, 75] 1
2 ]75, 85] 2
3 ]85, 95] 3
4 ]95, 105] 10
5 ]105, 115] 12
6 ]115, 125] 8
7 ]125, 135] 3
8 ]135, +∞[ 1
Totais 40

e sabendo que x = 108 euros, precisamos agora de calcular a frequência esperada de cada classe,
pressupondo que a hipótese H0 é verdadeira, ou seja, pressupondo que X ∼ N µ, 152 .
Para exemplificação, apresentamos o cálculo da frequência esperada da classe C3 = ]85, 95].

E3 = n × p3 = 40 × P (85 < X ≤ 95) =


= 40 × (P (X ≤ 95) − P (X ≤ 55)) =
    
95 − µ 85 − µ
= 40 × P Z ≤ −P Z ≤ =
15 15
    
95 − µ 85 − µ
= 40 × Φ −Φ
15 15
Mas, como desconhecemos o valor de µ, teremos de o substituir pela respectiva estimativa, x = 108.

Nota: Repare que para o cálculo das frequências esperadas, somos obrigados a usar a estimativa
de 1 parâmetro.

Então
    
95 − x 85 − x
E3 = n × p3 ≈ 40 × Φ −Φ =
15 15
= 40 × (Φ (−0.87) − Φ (−1.53)) = 40 × 0.1305 = 5.2200

Completando o cálculo das restantes frequências esperadas e considerando a estatı́stica do teste do


qui-quadrado,
7
X (Oi − Ei )2
X2 =
Ei
i=1

que (sob a validade de H0 : X ∼ µ, 152 ) terá agora distribuição do qui-quadrado com um número
de graus de liberdade igual a
(no classes − no parâmetros estimados − 1) = (7 − 1 − 1) = 5, obtém-se
4. Teste de Hipóteses 66

Classe Frequência observada Frequência esperada


i Ci Oi Ei (Oi − Ei )2 /Ei
1 ]−∞, 75] 1 0.556
2 ]75, 85] 2 6 1.948 7.724 0.3848
3 ]85, 95] 3 5.220
4 ]95, 105] 10 9.108 0.0874
5 ]105, 115] 12 10.356 0.2610
6 ]115, 125] 8 7.672 0.0140
6 ]125, 135] 3 3.704
4 5.140 0.2528
7 ]135, +∞[ 1 1.436
Totais 40 40 1.0000

P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−1−1 ≡ χ23
sobH0
porque temos k = 5 classes e estimámos p = 1 parâmetros;

• Região de rejeição para um nı́vel de significância


 α = 5%:
R0.05 ≡ ]c, +∞[ com c tal que P X 2 ∈R = 0.05.
  0.05
P X 2 ∈ R0.05 = 0.05 ⇔ P X 2 > c = 0.05 ⇔ c ≡ χ23:0.05 = 7.815. Assim R0.05 ≡ ]7.815, +∞[;

• Regra de rejeição ao nı́vel de 5% de significância: Rejeitar H0 se x2obs ∈ ]7.815, +∞[;

• Decisão para 5% de significância: Como x2obs = 1.0000 ∈


/ R0.05 , não existe evidência estatı́stica
para duvidar de que a população X-”gasto semanal em alimentação (para famı́lias com dois
filhos) em Agosto de 2003”, tem distribuição normal com desvio padrão conhecido e de valor
σ = 15 euros.

• p − value associado ao teste: p − value = P X 2 > 1.000 = 0.8013.

Estipulando um nı́vel de significância α = 0.05, temos χ25:0.05 = 11.07 e como

x2obs = 9.1798 < 11.07 = χ25:0.05

não existem razões para duvidar de que a população X-”gasto semanal em alimentação (para famı́lias
com dois filhos) em Agosto de 2003”, tem distribuição normal com desvio padrão conhecido e de valor
σ = 15 euros.

Nota: O teste do qui-quadrado para teste do ajustamento da distribuição de uma população, é


muito mais vasto do que o aqui exposto. Na realidade, pode ser usado para testar o ajustamento de
qualquer distribuição preconizada para uma v.a.. Para a sua utilização só precisamos de garantir que
a amostra seja ”suficientemente grande”.
Existem outros testes para testar a distribuição assumida para uma população (ou v.a.). Só a
tı́tulo de informação, não podemos deixar de referir o teste de Kolmogorov-Smirnov, particularmente
conveniente para testar a normalidade de uma população.
Capı́tulo 5

Regressão Linear Simples

5.1 Relação entre variáveis


A regressão linear é uma técnica estatı́stica que permite estudar a relação matemática entre uma
variável Y (chamada variável dependente) e uma ou mais variáveis x, w, . . . (chamadas variáveis in-
dependentes). Pretendemos estabelecer uma relação matemática que possibilite explicar o valor da
variável Y , uma vez conhecidos os valores das variáveis independentes x, w, . . ..
Evidentemente que, tratando-se de uma técnica estatı́stica, a relação a estudar entre a variável
dependente e as variáveis independentes é uma relação casuı́stica (ou imprecisa). Ou seja, uma relação
em que, para os mesmos valores das variáveis independentes, não é possı́vel dizer exactamente qual o
valor de Y .

Exemplo 5.1 Consideremos o seguinte conjunto de dados relativos ao volume mensal de vendas, Y
(em milhares de unidades), de uma marca de computadores, e ao número de anúncios, x, que passaram
diariamente na televisão em cada mês.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6
O diagrama de dispersão destes dados revela a existência de uma relação linear probabilı́stica.
4.5
4.0
3.5
Vendas

3.0
2.5
2.0

0 1 2 3 4

Anuncios

67
5. Regressão Linear Simples 68

5.2 Modelo de regressão linear simples


Quando existe apenas uma variável independente x e a sua relação probabilı́stica com a variável
dependente Y é uma relação linear, o modelo matemático implı́cito é expresso por:

Y |x = β0 + β1 x + E, (5.2.1)

e diz-se um modelo de regressão linear simples.


Dizemos que um modelo matemático é um modelo linear, quando este for linear nos parâmetros.
Por exemplo, o modelo matemático

Y |x = β0 + β1 x2 + E

também é um modelo linear. Mas o modelo matemático

Y |x = β0 + xβ1 + E

já não é um modelo linear porque, apesar de ser linear relativamente a β0 , já não o é relativamente a
β1 .
Por outro lado, o modelo 5.2.1 é um modelo de regressão simples porque nele consta apenas uma
variável independente. Por exemplo o modelo de regressão linear

Y |x = β0 + β1 x + β2 w + E,

é dito um modelo de regressão linear múltipla.


Analisemos com mais detalhe o modelo de regressão linear simples

Y |x = β0 + β1 x + E

A componente β0 + β1 x é a componente determinı́stica do modelo. A componente E expressa a


natureza aleatória do modelo.
Assim, um modelo estatı́stico de regressão linear simples fica completo se considerarmos que:
• β0 e β1 são os parâmetros do modelo (chamados coeficientes da regressão) a estimar;

• x é a variável independente (ou variável controlada);

• Y é a variável dependente (ou variável resposta) e trata-se de uma variável aleatória;

• E é o erro e trata-se de uma variável aleatória que se

– pressupõe ter distribuição normal de valor médio nulo e variância σ 2



E ∼ N 0, σ 2 .

β0 é a ordenada na origem e β1 é o declive da recta.

Nota: Y |x acaba por ser uma variável aleatória porque, sendo o erro E a componente aleatória,
então Y |x = β0 + β1 x + E é também variável aleatória.
5. Regressão Linear Simples 69


Evidentemente que, se E ∼ N 0, σ 2 , também Y |x tem distribuição normal com parâmetros:
E (Y |x ) = E (β0 + β1 x + E) = β0 + β1 x + E (E) = β0 + β1 x
V (Y |x ) = V (β0 + β1 x + E) = V (E) = σ 2
ou seja,

Y |x ∼ N β0 + β1 x, σ 2 .

Devemos também salientar que σ 2 é um parâmetro adicional do modelo que necessita ser estimado,
caso não se conheça o seu valor.

5.3 Método dos mı́nimos quadrados para estimar β0 e β1


Aceitando um modelo de regressão linear simples

Y |x = β0 + β1 x + E,

importa agora estimar a recta de regressão, ou seja encontrar estimadores para os parâmetros β0 e β1 .
Evidentemente que procuramos encontrar a recta que ”melhor”se ajuste a um conjunto de n
observações (x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn ) da variável controlada x e da variável resposta Y |x .
Assumimos que os erros aleatórios Ei , para cada par (xi , Yi ), são independentes seguindo todos a
mesma distribuição N 0, σ 2 :

Y |xi = β0 + β1 xi + Ei , Ei ∼ N 0, σ 2 independentes

Assim deveremos encontrar estimadores β̂0 e β̂1 dos coeficientes da recta de regressão β0 e β1 ,
respectivamente, para obtermos uma recta estimada

Ŷ |x = β̂0 + β̂1 x

De entre diversos métodos que existem para a dedução da recta ajustada, vamos aqui abordar o
intitulado método dos mı́ninos quadrados. Consiste este método, em determinar os estimadores β̂0 e
β̂1 , dos coeficientes de regressão, β0 e β1 , que conduzam a uma recta que se ajusta ao conjunto de
observações minimizando a soma do quadrado dos desvios entre cada observação de (xi , Yi ) e a recta
Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n.
Neste método, os desvios

Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi

são a diferença na vertical entre o valor da observação Yi e a sua estimativa de regressão Ŷi = β̂0 + β̂1 xi ,
entendendo-se por simplicidade de notação que Yi ≡ Y |xi e Ŷi ≡ Ŷ |xi .
A soma do quadrados de todos os desvios representar-se-á por SQE e encontrar os estimadores
β̂0 e β̂1 , ditos estimadores de mı́nimos quadrados de β0 e β1 , respectivamente, consiste em resolver o
problema
n
X n 
X 2 n 
X 2
minimizar SQE = Êi2 = Yi − Ŷi = Yi − β̂0 − β̂1 xi ,
i=1 i=1 i=1

em ordem a β̂0 e β̂1 .


5. Regressão Linear Simples 70

Demonstra-se que esta minimização é conseguida resolvendo, em ordem a β̂0 e β̂1 , o sistema de
equações
 n 
 X 
 ∂ 

 −2 Y − β̂ − β̂ x =0

 SQE = 0 
 i 0 1 i
∂ β̂0 ⇔ i=1
∂ n  


 SQE = 0  −2 X x Y − β̂ − β̂ x = 0


 i i 0 1 i
∂ β̂1 
i=1

As soluções deste sistema são:


 ! n !
 Xn Xn X



 n xi Yi − xi Yi


 i=1 i=1 i=1
 β̂1 =

 !2
Xn Xn
2
 n xi − xi

 i=1 i=1

 n n


 1X 1X
 β̂0 = n Yi − β̂1 xi


n
i=1 i=1

que podem ainda ser expressas por


SxY
β̂1 = e β̂0 = Ȳ − β̂1 x̄,
Sxx

considerando
n
1X
• x̄ = xi média das observações de x
n
i=1
n
1X
• Ȳ = Yi média da amostra aleatória de Y
n
i=1
n
X n
X
2
• Sxx = (xi − x̄) = x2i − nx̄2 soma de quadrados para x
i=1 i=1
n
X n
X
2
• SY Y = Yi − Ȳ = Yi2 − nȲ 2 soma de quadrados para Y
i=1 i=1
n
X n
X

• SxY = (xi − x̄) Yi − Ȳ = xi Yi − nx̄Ȳ soma de produtos cruzados para (x, Y )
i=1 i=1

A soma dos quadrados dos desvios pode ainda ser escrita


n  n 
X 2 X 2 S2
SQE = Yi − Ŷi = Yi − β̂0 − β̂1 x1 = SY Y − xY = SY Y − β̂12 Sxx .
Sxx
i=1 i=1

Dá-se o nome de recta de regressão de mı́nimos quadrados ao estimador da recta de regressão

Ŷ |x = β̂0 + β̂1 x.
5. Regressão Linear Simples 71

As estimativas desta recta para as observações x1 , x2 , . . . , xn da variável independente x serão

ŷi = b0 + b1 xi , i = 1, 2, . . . , n,

em que b0 e b1 são as estimativas de β̂0 e β̂1 , respectivamente, ou seja os valores observados destes
estimadores.
Nota: Só devemos usar esta recta para fazer previsão dos valores da variável resposta para valores
de x que estejam dentro do intervalo das observações obtidas para x.
Aos desvios

Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi

dá-se o nome de resı́duos e

êi = yi − ŷi = yi − b0 − b1 xi

serão os resı́duos observados.

5.4 Estimação da variância do erro σ 2 e qualidade do ajustamento


Uma vez obtida a recta de regressão de mı́nimos quadrados e com os valores que ela fornecer para
cada observação xi da variável controlada, os resı́duos

Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi , i = 1, . . . , n

podem servir para analisarmos a qualidade do ajustamento da recta.


O que a recta não consegue explicar sobre os valores de Y , é considerado observação do erro E e,
pode ser usado para estimarmos a variância desse erro. Assim sendo, os resı́duos também permitem
estimar a variância σ 2 .

5.4.1 Estimador para σ 2


Um estimador de σ 2 é
n n 2
SQE 1 X 2 1 X 2 S
Y Y − β̂1 Sxx
σ̂ 2 = = Yi − Ŷi = Yi − β̂0 − β̂1 xi =
n−2 n−2 n−2 n−2
i=1 i=1

Quando o erro E tem distribuição N 0, σ 2 ,
SQE
• σ̂ 2 = é um estimador centrado para σ 2
n−2
σ̂ 2 σ̂ 2
• (n − 2) tem distribuição do qui-quadrado com (n − 2) graus de liberdade, (n − 2) ∼ χ2n−2
σ2 σ2
5. Regressão Linear Simples 72

5.4.2 Qualidade do ajustamento


Quanto menores forem os valores dos resı́duos
Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi , i = 1, . . . , n
melhor é o ajustamento da recta de mı́nimos quadrados. Por esta razão podemos dizer que, quanto
menor for o valor da soma do quadrado dos resı́duos, SQE, melhor é o ajustamento.
Definição 5.1 Dá-se o nome de coeficiente de determinação a
2
SQE SY Y − β̂12 Sxx Sxx SxY
R2 = 1 − n =1− = β̂12 =
X 2 SY Y SY Y Sxx SY Y
Yi − Ȳ
i=1

e toma valores 0 ≤ R2 ≤ 1.
n
X 2
Nota: A soma de quadrados SY Y = Yi − Ȳ reflecte a variabilidade de Y quando não se
i=1
entra em linha de conta com a sua eventual relação com a variável x. Por outro lado, SQE reflecte a
variabilidade de Y quando é usado o modelo de regressão para explicar os valores de Y como resposta
a x. Por fim, SY Y − SQE mede a redução na variabilidade total de Y que se consegue ao usar x para
explicar a resposta Y . Então, ao dividirmos SY Y − SQE por SY Y , obtemos um estimador da redução
relativa da variabilidade ao usarmos o modelo para explicarmos Y como função linear de x.

n
X n 
X 2
2
SY Y = Yi − Ȳ = Yi − Ŷi + Ŷi − Ȳ =
i=1 i=1
Xn  2 Xn  2 n 
X  
= Yi − Ŷi + Ŷi − Ȳ + Yi − Ŷi Ŷi − Ȳ
|i=1 {z } |i=1 {z } |i=1 {z }
SQE SQR A
n 
X   Xn   
A = Yi − Ŷi Ŷi − Ȳ = Yi − Ŷi β̂0 + βˆ1 xi − Ȳ =
i=1 i=1
n 
X   n 
X 
= ˆ
Yi − Ŷi Ȳ − β̂1 x̄ + β1 xi − Ȳ = β̂1 Yi − Ŷi (xi − x̄) =
i=1 i=1
n 
X  n 
X 
= β̂1 Yi − β̂0 − β̂1 xi (xi − x̄) = β̂1 Yi − Ȳ + β̂1 x̄ − β̂1 xi (xi − x̄) =
i=1 i=1
Xn n
 2 X

= −β̂1 Yi − Ȳ (xi − x̄) + β̂1 (xi − x̄)2 =
|i=1 {z } |i=1 {z }
SxY Sxx
2
SxY
SxY
= − SxY + 2
Sxx = 0
Sxx Sxx
SY Y = SQE + SQR

Nota: O coeficiente de determinação assume valores compreendidos entre zero e um. Vejamos a
interpretação que pode ser dada a estes valores.
5. Regressão Linear Simples 73

n 
X 2
Se R2 = 1 ⇔ SQE = 0 ⇔ Yi − β̂0 − β̂1 xi =0
i=1
⇔ Yi = Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n
⇔ ajuste perfeito

Conclusão: R2 = 1 quando todas as observações estão sobre a recta de mı́nimos quadrados


(ajustamento perfeito).

Se R2 = 0 ⇔ SQE = SY Y ⇔ SY Y − β̂12 Sxx = SY Y


⇔ β̂1 = 0
⇔ a variável x não serve para explicar Y

Conclusão: R2 = 0 quando o modelo de regressão linear em x não tem utilidade ou seja, a


variável x não consegue explicar os valores de Y .

Em resumo: Quanto mais próximo R2 estiver de 1, maior o grau de importância de x na deter-


minação da variável resposta Y . Na prática, consideramos que o ajustamento é razoável se R2 ≥ 0.8

5.5 Distribuição de amostragem dos estimadores β̂0 e β̂1

5.5.1 Distribuição de amostragem de β̂1


Para a dedução da distribuição do estimador β̂1 para o coeficiente de regressão β1 , começamos por
o expressar de outro modo. Ora
SxY
β̂1 =
Sxx
mas como
n
X n
X n
X n
X
SxY = xi Yi − nx̄Ȳ = xi Yi − x̄ Yi = (xi − x̄) Yi ,
i=1 i=1 i=1 i=1

então
Pn
i=1 (xi − x̄) Yi
β̂1 = .
Sxx

Como as observações xi , i = 1, . . . , n são constantes, também Sxx o é, e portanto β̂1 não é mais
do que uma combinação linear de v.a.’s (Yi , i = 1, . . . , n) independentes e com distribuição normal.
5. Regressão Linear Simples 74

Consequentemente β̂1 tem distribuição normal, restando saber qual o correspondente valor médio e
variância.
   Pn  Pn Pn
i=1 (xi − x̄) Yi i=1 (xi − x̄) E (Yi ) (xi − x̄) (β0 + β1 xi )
E β̂1 = E = = i=1 =
Sxx Sxx Sxx
P P
β0 ni=1 (xi − x̄) + β1 ni=1 (xi − x̄) xi
= =
Sxx
Pn 2

β0 (nx̄ − nx̄) + β1 i=1 xi − x̄nx̄ Sxx
= = β1 = β1
Sxx Sxx

Logo β̂1 é estimador centrado para β1 .


   Pn  Pn Pn 2
i=1 (xi − x̄) Yi i=1 (xi − x̄) V (Yi ) i=1 (xi − x̄) σ
V β̂1 = V = 2
= 2
=
Sxx Sxx Sxx
Sxx σ2
= σ2 2 =
Sxx Sxx
Em resumo:
 
σ2
β̂1 ∼ N β1 ,
Sxx

Contudo, na maioria das aplicações, a variância σ 2 dos erros não é conhecida. Nestes casos,
SQE
podemos estimá-la por σ̂ 2 = . A substituição de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar
n−2
a seguinte distribuição para β̂1 :

β̂1 − β1 p β̂1 − β1
T = s = Sxx ∼ tn−2
σ̂ 2 σ̂
Sxx

(T tem distribuição t com (n − 2) graus de liberdade).

5.5.2 Distribuição de amostragem de β̂0


Para a dedução da distribuição do estimador β̂0 para o coeficiente de regressão β0 , recordemos que

β̂0 = Ȳ − β̂1 x̄

Como β̂1 tem distribuição normal e Ȳ também tem distribuição normal (é uma média aritmética de
v.a.’s com distribuição normal), então β̂0 tem distribuição normal. Resta saber qual o correspondente
valor médio e variância.
      1X n

E β̂0 = E Ȳ − β̂1 x̄ = E Ȳ − x̄E β̂1 = E (Yi ) − β1 x̄ =
n
i=1
n
1X
= (β0 + β1 xi ) − β1 x̄ = β0 + β1 x̄ − β1 x̄ = β0
n
i=1
5. Regressão Linear Simples 75

Logo β̂0 é estimador centrado para β0 .


        
V β̂0 = V Ȳ − β̂1 x̄ = V Ȳ + x̄2 V β̂1 − 2x̄cov Ȳ , β̂1 =
 
σ2 2 σ
2   σ2
2 σ
2 σ2 nx̄2
= + x̄ − 2x̄cov Ȳ , β̂1 = + x̄ = 1+ =
n Sxx n Sxx n Sxx
n
! ! n
σ2 2
 σ2 X
2 2 2 σ2 X 2
= Sxx + nx̄ = xi − nx̄ + nx̄ = xi
nSxx nSxx nSxx
i=1 i=1
   
SxY 1 
porque cov Ȳ , β̂1 = cov Ȳ , = cov Ȳ , SxY =
Sxx Sxx
n n
!
1 1X X
= cov Yi , (xi − x̄) Yi = pela independência de Yi
Sxx n
i=1 i=1
n n
1 X 1 X
= cov (Yi , (xi − x̄) Yi ) = (xi − x̄) cov (Yi , Yi )
nSxx nSxx
i=1 i=1
n n
1 X 1 X
= (xi − x̄) V (Yi ) = (xi − x̄) σ 2
nSxx nSxx
i=1 i=1
n
σ2 X σ2
= (xi − x̄) = (nx̄ − nx̄) = 0
nSxx nSxx
i=1

Em resumo: !
n
σ2 X 2
β̂0 ∼ N β0 , xi
nSxx
i=1

SQE
Sendo desconhecida a variância σ 2 dos erros, podemos estimá-la por σ̂ 2 = . A substituição
n−2
de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar a seguinte distribuição para β̂0 :
s
β̂0 − β0 nSxx β̂0 − β0
T =s P = Pn 2 ∼ tn−2
σ̂ 2 n x2 i=1 xi σ̂
i=1 i
nSxx

(T tem distribuição t com (n − 2) graus de liberdade)

5.6 Inferência sobre os parâmetros do modelo

5.6.1 Inferência sobre β1

Estimação de β1 por intervalo de confiança


β1 é o declive da recta de regressão e, como tal mede o grau de crescimento de Y relativamente aos
valores de x. Passamos a estudar a sua estimação pelos dois processos que conhecemos. A estimação
5. Regressão Linear Simples 76

pontual é feita pelo estimador


SxY
β̂1 =
Sxx
Passemos à estimação por intervalo de confiança (1 − α).
p β̂1 − β1
A estatı́stica pivot que devemos usar é: T = Sxx ∼ tn−2 .
σ̂
Dada a simetria em zero da distribuição t, podemos desde logo afirmar que:
!
 p β̂1 − β1
1 − α = P −tn−2:α/2 ≤ T ≤ tn−2:α/2 ⇔ 1 − α = P −tn−2:α/2 ≤ Sxx ≤ tn−2:α/2
σ̂
 s s 
σ̂ 2 σ̂ 2
⇔ 1 − α = P β̂1 − tn−2:α/2 ≤ β1 ≤ β̂1 + tn−2:α/2 
Sxx Sxx

Assim

Intervalo de  confiança (1 − α) para o declive β1


s s
σ̂ 2 σ̂ 2 
IC1−α (β1 ) ≡ β̂1 − tn−2:α/2 , β̂1 + tn−2:α/2
Sxx Sxx

Teste de hipóteses sobre β1


Já atrás dissemos que β1 é o declive da recta de regressão e, como tal mede o grau de crescimento
de Y relativamente aos valores de x. De particular importância é o caso em que β1 = 0. Quando tal
acontece, a variável x não é capaz de descrever os valores de Y . Assim o teste das hipóteses
H0 : β1 = 0 vs H1 : β1 6= 0
permite testar esta situação.
Mas o teste destas hipóteses incluı́-se no teste mais genérico das hipóteses
H0 : β1 = a vs H1 : β1 6= a
que passamos a deduzir.
p β̂1 − a
Quando H0 é verdadeira, a estatı́stica de teste é: T = Sxx ∼ tn−2
σ̂ β1 =a
A região de rejeição, para um nı́vel de significância α é definida por: Rα ≡ ]−∞, −c[∪]c, +∞[ , c > 0
Determinemos o valor de c:
α = P (T ∈ Rα ) = P (T < −c) + P (T > c) = P (T > c) + P (T > c) =
= 2P (T > c) ⇔ P (T > c) = α/2 ⇔ c = tn−2:α/2

Regra de decisão para um nı́vel de significância α


   
Rejeitar H0 se tobs ∈ Rα ≡ −∞, −tn−2:α/2 ∪ tn−2:α/2 , +∞

Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β1 , se bem que não têm
tanto interesse nas aplicações aos modelos de regressão linear simples.
5. Regressão Linear Simples 77

5.6.2 Inferência sobre β0

Estimação de β0 por intervalo de confiança


β0 é o ponto de intersecção da recta com o eixo das abcissas. A inferência sobre este parâmetro
não tem a mesma importância que tem a inferência sobre o declive β1 da recta de regressão. Mas
ainda assim, pode ser necessário estimar β0 por intervalo de confiança e realizar testes de hipóteses
sobre valores que deem respostas a questões de utilidade prática.
A estimação pontual é feita pelo estimador de mı́nimos quadrados,

β̂0 = Ȳ − β̂1 x̄

Passemos à estimação por intervalos


de confiança (1 − α).
β̂0 − β0 nSxx β̂0 − β0
A estatı́stica T = s P = Pn 2 ∼ tn−2 é uma estatı́stica pivot.
σ̂ 2 n
x2 i=1 xi σ̂
i=1 i
nSxx
Dada a simetria em zero da distribuição t, podemos desde logo afirmar que:
s !
 nSxx β̂0 − β0
1 − α = P −tn−2:α/2 ≤ T ≤ tn−1:α/2 ⇔ 1 − α = P −tn−2:α/2 ≤ Pn 2 ≤ tn−2:α/2
i=1 xi σ̂
 s P s P 
n 2 n 2
x x
⇔ 1 − α = P β̂0 − tn−2:α/2 σ̂ 2 i=1 i ≤ β0 ≤ β̂0 + tn−2:α/2 σ̂ 2 i=1 i 
nSxx nSxx

Assim

Intervalo
 de confiança (1 − α) para o declive β0 
s P s P
n 2 n 2
x x
IC1−α (β0 ) ≡ β̂0 − tn−2:α/2 σ̂ 2 i=1 i , β̂0 + tn−2:α/2 σ̂ 2 i=1 i 
nSxx nSxx

Teste de hipóteses sobre β0


Consideremos as hipóteses

H0 : β0 = a vs H1 : β0 6= a
s
nS β̂ − a
Quando a hipótese H0 é verdadeira, a estatı́stica de teste é: T = Pn xx 2 0 ∼ tn−2
i=1 xi σ̂ β0 =a
Para um nı́vel de significância α, a região de rejeição é definida por: Rα ≡ ]−∞, −c[∪]c, +∞[ , c > 0
e c fica determinado por:

α = P (T ∈ Rα ) = P (T < −c) + P (T > c) = P (T > c) + P (T > c) =


= 2P (T > c) ⇔ P (T > c) = α/2 ⇔ c = tn−2:α/2
5. Regressão Linear Simples 78

Regra de decisão para um nı́vel de significância α


   
Rejeitar H0 se tobs ∈ Rα ≡ −∞, −tn−2:α/2 ∪ tn−2:α/2 , +∞

Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β0 , aplicando o mesmo tipo
de conceitos e raciocı́nios que surgiram nas secções 4.2.2 e 4.2.3.

5.6.3 Inferência sobre σ 2

Estimação de σ 2 por intervalo de confiança


Num modelo de regressão linear simples

Y |x = β0 + β1 x + E,

o erro E é a componente aleatória que a componente determinı́stica β0 + β1 x não consegue explicar.


Os pressupostos estocásticos do modelo de regressão linear dizem-nos que

E ∼ N 0, σ 2 .

O que a recta não consegue explicar sobre os valores de Y , é considerado observação do erro E e,
pode ser usado para estimarmos a variância desse erro. O estimador para σ 2 já foi apresentado na
secção 5.4.1. Aı́ foi dito que, um estimador centrado de σ 2 é
n 2
2 SQE 1 X 2 S
Y Y − β̂1 Sxx
σ̂ = = Yi − β̂0 − β̂1 xi =
n−2 n−2 n−2
i=1

e, dado que o erro E tem distribuição N 0, σ 2 ,
σ̂ 2 σ̂ 2
(n − 2) tem distribuição do qui-quadrado com (n − 2) graus de liberdade, (n − 2) ∼ χ2n−2
σ2 σ2
Com esta distribuição de amostragem, podemos deduzir um intervalo de confiança (1 − α) para a
variância σ 2 e para o desvio padrão σ. Usando argumentos idênticos aos apresentados na secção 3.3,
 
σ̂ 2
1 − α = P χ2n−2:1−α/2 ≤ (n − 2) 2 ≤ χ2n−2:α/2 ⇔
σ
!
(n − 2) σ̂ 2 (n − 2) σ̂ 2
⇔ 1−α=P ≤ σ2 ≤ 2
χ2n−2:α/2 χn−2:1−α/2

Assim
Intervalo de confiança
" (1 − α) para #σ 2
 (n − 2) σ̂ 2 (n − 2) σ̂ 2
IC1−α σ 2 ≡ ,
χ2n−2:α/2 χ2n−2:1−α/2
5. Regressão Linear Simples 79

5.7 Estimação do valor esperado de Y para uma observação x0 da


variável controlada
O valor esperado de Y para uma observação x0 da variável controlada é

E (Y |x0 ) = β0 + β1 x0 .

que podemos querer estimar.


O estimador pontual para E (Y |x0 ) é naturalmente

Ŷ |x0 = β̂0 + β̂1 x0 .

e trata-se de um estimador centrado.


Quanto à sua variância, temos:
     
V Ŷ |x0 = V β̂0 + β̂1 x0 = V Ȳ − β̂1 x̄ + β̂1 x0 =
    
= V Ȳ + β̂1 (x0 − x̄) = V Ȳ + V β̂1 (x0 − x̄)2 =
!
2
σ2 σ2 2 1 (x0 − x̄)
= + (x0 − x̄) = σ 2 +
n Sxx n Sxx
 
omitindo-se a demonstração de que cov Ȳ , β̂1 = 0.
Como Ŷ |x0 = β̂0 + β̂1 x0 . é uma combinação linear de v.a.’s com distribuição normal, terá dis-
tribuição normal e por isso,

Ŷ |x0 − E (Y |x0 )
q 2
∼ N (0, 1)
σ n1 + (x0S−x̄)
xx

Como habitualmente não se conhece a variância σ 2 do erro E, é necessário preceder à sua estimação
usando o estimador σ̂ 2 . Neste caso, a distribuição de amostragem de Ŷ |x0 é
Ŷ |x0 − E (Y |x0 )
T =v ! ∼ tn−2
u 2
tσ̂ 2 1 + (x0 − x̄)
u
n Sxx

que permite deduzir um intervalo de confiança (1 − α) para E (Y |x0 ).

 Intervalo de confiança (1 − α) para E (Y |x0 ) 


s  s 
2 2
1 (x0 − x̄) 1 (x0 − x̄)
IC1−α (E (Y |x0 )) ≡ Ŷ |x0 − tn−2:α/2 σ̂ 2 + , Ŷ |x0 + tn−2:α/2 σ̂ 2 + 
n Sxx n Sxx

Nota: Só devemos fazer estimação de E (Y |x0 ) para valores x0 que estejam dentro do intervalo
das observações obtidas para x.
5. Regressão Linear Simples 80

5.8 Previsão do valor da variável resposta Y para um novo valor de


x0 da variável controlada
A previsão de uma nova resposta Y a um valor x0 da variável controlada tem um interesse evidente.
É importante frisar que a previsão do valor de Y é diferente da estimação do valor esperado de Y feita
na secção anterior. Recordemos que, ao considerar um valor x0 da variável independente, a resposta
num modelo de regressão linear é

Y |x0 = β0 + β1 x0 + E.

onde E ∼ N 0, σ 2 representa o erro aleatório
Por isso, na previsão de Y para um valor x0 , ou seja na estimação de Y |x0 parece necessário
estimar as componentes β0 + β1 x0 e E.
Ora a componente β0 + β1 x0 tem por estimador Ŷ |x0 = β̂0 + β̂1 x0 . Resta saber como estimar o
resı́duo que se obtém para o valor x0 . O estimador natural deste resı́duo é

Ê = Y |x0 − Ŷ |x0 .

Analisemos as caracterı́sticas deste estimador, mais propriamente o seu valor médio e a sua
variância.

     
E Ê = E Y |x0 − Ŷ |x0 = E (β0 + β1 x0 + E) − E β̂0 + β̂1 x0 = β0 + β1 x0 − β0 − β1 x0

     
V Ê = V Y |x0 − Ŷ |x0 = V (Y |x0 ) + V Ŷ |x0 =
!
  1 (x0 − x̄)2
= V (β0 + β1 x0 + E) + V Ŷ |x0 = σ2 + σ2 + =
n Sxx
!
2 1 (x0 − x̄)2
= σ 1+ +
n Sxx

onde ficam patentes duas fontes de variabilidade, uma respeitante ao erro E (na primeira parcela) e
outra relativa à estimação da resposta esperada Ŷ |x0 (segunda parcela).
Como Ê é uma combinação linear de v.a.’s com distribuição normal, então
!!
2
1 (x 0 − x̄)
Ê ∼ N 0, σ 2 1 + +
n Sxx
 
1 (x0 −x̄)2
Quando σ2 é desconhecida, podemos estimá-la usando o estimador V̂ (E) = σ̂ 2 1+ n + Sxx
e, neste caso a distribuição de

Ê − 0
r  
2
σ̂ 2 1 + n1 + (x0S−x̄)
xx

é uma distribuição t com (n − 2) graus de liberdade.


5. Regressão Linear Simples 81

Porque Ê = Y |x0 − Ŷ |x0 , podemos ainda dizer que


Y |x0 − Ŷ |x0
T =r   ∼ tn−2
2
1 (x −x̄)
σ̂ 2 1 + n + Sxx 0

obtendo-se assim uma estatı́stica pivot que permite a estimação por intervalo de confiança de Y |x0 .
Um intervalo de confiança (1 − α) para Y |x0 também se designa por intervalo de previsão (1 − α) ×
100% de uma resposta Y |x0 para um dado valor x0 .
A técnica já sobejamente conhecida de dedução de intervalos de confiança permite obter o seguinte
intervalo de previsão:

 Intervalo de confiança (1 − α) para Y |x0 


s  s 
2 2
1 (x0 − x̄) 1 (x0 − x̄)
IC1−α (Y |x0 ) ≡ Ŷ |x0 − tn−2:α/2 σ̂ 2 1 + + , Ŷ |x0 + tn−2:α/2 σ̂ 2 1 + + 
n Sxx n Sxx

Nota:

• Só devemos fazer estimação de Y |x0 para valores x0 que estejam dentro do intervalo das ob-
servações obtidas para x.

• O valor x0 para o qual se pretende prever a resposta Y |x0 deve ser diferente de qualquer outro
que figure na amostra que serve de suporte à estimação do modelo de regressão linear.

Exemplo 5.2 Retomemos o exemplo 5.1 e o conjunto de dados relativos ao volume de vendas mensal
(em milhares de unidades) de uma marca de computadores, Y e ao número de anúncios que passaram
diariamente na televisão em cada mês, x.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6

Comecemos por estimar a recta de mı́nimos quadrados. Para tal, vamos usar um método de
cálculo bastante rudimentar (que seria o que usarı́amos caso a nossa ferramenta de cálculo fosse
pouco evoluı́da).
P12 P12 P12 2 P12 2 P12
i=1 xi = 23 i=1 yi = 38.1 i=1 xi = 65 i=1 yi = 129.39 i=1 xi yi = 85.7
x̄ = 1.9167 ȳ = 3.175 Sxx = 20.9167 SY Y = 8.4225 SxY = 12.675
b0 = 2.013545817 b1 = 0.6059760956 SQE = 0.7417529885 σ̂ 2 = 0.07417529885

Assim a recta estimada é

ŷ |x = 2.013545817 + 0.6059760956 x

Se estivermos interessados em estimar o volume mensal esperado de vendas num mês em que
fossem exibidos 2.5 anúncios terı́amos uma estimativa pontual

ŷ |2.5 = 3.528486056 milhares de unidades


5. Regressão Linear Simples 82

4.5
4.0
3.5
Vendas

3.0
2.5
2.0

0 1 2 3 4

Anuncios

Verifiquemos agora a qualidade do ajuste, calculando o coeficiente de determinação, R2 :


Sxx
R2 = b21 = 0.9119319693
SY Y
revela um bom ajustamento do modelo de regressão linear ao conjunto de dados.

Podemos ainda testar se o número de anúncios que passam por mês, x, explicam significativamente
o volume de vendas. Trata-se de testar, ao nı́vel de 5% de significância, as hipóteses

H0 : β1 = 0 vs H1 : β1 6= 0

p β̂1 − 0
A estatı́stica de teste é: T = Sxx ∼ t10 .
σ̂ β1 =0
p β̂1
O valor observado da estatı́stica de teste T = Sxx é tobs = 10.17588237.
σ̂
Para α = 5%, t10:0.025 = 2.2281.
A regra de rejeição, para um nı́vel de significância α = 0.05 é R0.05 ≡ ]−∞, −2.2281[∪]2.2281, +∞[.
A nossa decisão será: Como tobs = 10.17588237 ∈ R0.05 decidimos rejeitar H0 , com 5% de sig-
nificância. Dito de outro modo, com 5% de significância, não existe evidência para afirmar que β1 = 0
e portanto podemos inferir que o número de anúncios que passam mensalmente é uma variável que
explica o volume de vendas para esse mês.

Embora não faça muito sentido neste exemplo, mas apenas com o objectivo de ilustrar, vamos
estimar por intervalo de 90% de confiança:

1. o volume esperado de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, E (Y |1.5 );

2. o volume de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, Y |1.5 .

Nas duas situações devemos considerar x0 = 1.5 e t10:0.05 = 1.812.


5. Regressão Linear Simples 83

1. Com Ŷ |1.5 = 2.013545817 + 0.6059760956 × 1.5 = 2.92250996, obterı́amos uma banda de valores
compreendidos entre o limite inferior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 − 1.812t0.07417529885 + = 2.773121167
12 20.9167

e o limite superior
v !
u
u 1 (1.5 − 1.9167)2
2.92250996 + 1.812t0.07417529885 + = 3.071898754
12 20.9167

ou seja o intervalo IC90% (E (Y |1.5 )) ≡ [2.773121167, 3.071898754] milhares de unidades de


vendas esperadas.

2. Com Ŷ |1.5 = 2.013545817 + 0.6059760956 × 1.5 = 2.92250996, obterı́amos um intervalo de


previsão a 90% com limite inferior
v !
u
u 1 (1.5 − 1.9167)2
2.92250996 − 1.812 0.07417529885 1 +
t + = 2.406893791
12 20.9167

e limite superior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 + 1.812t0.07417529885 1 + + = 3.43812613
12 20.9167

ou seja o intervalo IC90% (Y |1.5 ) ≡ [2.406893791, 3.43812613] milhares de unidades de vendas.

Por fim podemos ainda calcular os resı́duos observados


Tabela de resı́duos
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
êi -0.44 -0.32 -0.13 0.09 -0.23 0.26 0.27 0.37 0.28 -0.03 -0.11 -0.02

A esta amostra de resı́duos podı́amos aplicar um teste de ajustamento do qui-quadrado para uma
distribuição normal, de modo a testar a validade do pressuposto estocástico do modelo, segundo o qual,
estes resı́duos deverão ser observações do erro, ou seja, observações de uma v.a. E ∼ N 0, σ 2 .

Anda mungkin juga menyukai