Estatistica (Sebenta)

Probabilidades e Estatı́stica C
Estatı́stica
Maria de Fátima Miguens
Ano Lectivo 2009/2010

Conteúdo
1 Inferência Estatı́stica 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 População e amostra aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Estimação Pontual 9
2.1 Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Exemplo de estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Métodos para determinação de estimadores . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Erro de amostragem e distribuição de amostragem . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Distribuição de amostragem de X . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Distribuição de amostragem de S 2 . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Distribuição de amostragem de P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Erro padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Enviesamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Eficiência e erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.4 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.5 Propriedades de X̄, S 2 e P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Estimação por Intervalo de Confiança 21

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Estimação por intervalo de confiança do valor médio µ = E (X) da população X . . . 24
3.3 Estimação por intervalo de confiança da variância σ 2 = V (X) da população X . . . . 30
3.4 Estimação por intervalo de confiança da proporção p de ocorrência do acontecimento A 32
3.5 Outras distribuições de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.1 Diferença de médias de amostras de duas populações, X̄ − Ȳ . . . . . . . . . . 34
3.5.2 Quociente de variâncias amostrais de duas populações, S12 /S22 . . . . . . . . . . 34
3.5.3 Diferença de proporções amostrais de duas populações pˆ1 − pˆ2 . . . . . . . . . . 35
4 Teste de Hipóteses 36
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Teste de hipóteses para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Teste de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . 39
4.2.2 Teste de hipóteses unilateral direito para o valor médio . . . . . . . . . . . . . 46
4.2.3 Teste de hipóteses unilateral esquerdo para o valor médio . . . . . . . . . . . . 48
1
4.3 Teste de hipóteses para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Teste de hipóteses bilateral para a variância . . . . . . . . . . . . . . . . . . . . 51
4.3.2 Teste de hipóteses unilateral direito para a variância . . . . . . . . . . . . . . . 52
4.3.3 Teste de hipóteses unilateral esquerdo para a variância . . . . . . . . . . . . . . 54
4.4 Outros testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 Teste de hipóteses para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Teste de hipóteses para comparação do valor médio de duas populações . . . . 57
4.5 Teste ao pressuposto da normalidade de uma população . . . . . . . . . . . . . . . . . 60
5 Regressão Linear Simples 67

5.1 Relação entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.3 Método dos mı́nimos quadrados para estimar β0 e β1 . . . . . . . . . . . . . . . . . . . 69
5.4 Estimação da variância do erro σ 2 e qualidade do ajustamento . . . . . . . . . . . . . 71
5.4.1 Estimador para σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4.2 Qualidade do ajustamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5 Distribuição de amostragem dos estimadores β̂0 e β̂1 . . . . . . . . . . . . . . . . . . . 73
5.5.1 Distribuição de amostragem de β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5.2 Distribuição de amostragem de β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.6 Inferência sobre os parâmetros do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6.1 Inferência sobre β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6.2 Inferência sobre β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.6.3 Inferência sobre σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.7 Estimação do valor esperado de Y para uma observação x0 da variável controlada . . 79
5.8 Previsão do valor da variável resposta Y para um novo valor de x0 da variável controlada 80
Lista de Tabelas
2.1 Tabela de estimadores para o valor médio, variância, desvio padrão e proporção . . . . 20
3.1 Intervalos de confiança para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Distribuição de amostragem para a diferença de médias de amostras de duas populações 34
3.3 Distribuição de amostragem para o quociente de variâncias de amostras de duas pop-
ulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Distribuição de amostragem para a diferença de proporções amostrais de duas populações 35
4.1 Testes de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . . . . . 44

4.2 Testes de hipóteses unilateral direito para o valor médio . . . . . . . . . . . . . . . . . 48
4.3 Testes de hipóteses unilateral esquerdo para o valor médio . . . . . . . . . . . . . . . . 50
4.4 Testes de hipóteses para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5 Testes para a proporção, p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.6 Testes de hipóteses para comparação de dois valores médios . . . . . . . . . . . . . . . 57
3
Lista de Figuras
1.1 Função de probabilidade da população e da amostra . . . . . . . . . . . . . . . . . . . 7
3.1 Intervalos de confiança para o valor médio: Situações A, B e D . . . . . . . . . . . . . 29

3.2 Intervalos de confiança para o valor médio: Situação C . . . . . . . . . . . . . . . . . . 30
3.3 Intervalo de confiança para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Teste bilateral para o valor médio: Situações A, B e D . . . . . . . . . . . . . . . . . . 44

4.2 Teste bilateral para o valor médio: Situação C . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Teste unilateral direito para o valor médio: Situações A, B e D . . . . . . . . . . . . . 47
4.4 Teste unilateral direito para o valor médio: Situação C . . . . . . . . . . . . . . . . . . 48
4.5 Teste unilateral esquerdo para o valor médio: Situações A, B e D . . . . . . . . . . . . 50
4.6 Teste unilateral esquerdo para o valor médio: Situação C . . . . . . . . . . . . . . . . 51
4.7 Teste bilateral para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.8 Teste unilateral direito para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.9 Teste unilateral esquerdo para a variância . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.10 Teste do qui-quadrado ao pressuposto de normalidade . . . . . . . . . . . . . . . . . . 63
4
Capı́tulo 1
Inferência Estatı́stica
1.1 Introdução
A inferência estatı́stica é uma área de estudo dedicada ao desenvolvimento e aplicação de métodos
que possibilitem a tomada de decisões e a predição de quantidades desconhecidas numa população.
Este métodos utilizam a informação contida numa amostra seleccionada da população.
A inferência estatı́stica pode ser dividida em duas grandes áreas: estimação de parâmetros e testes
de hipóteses. Como exemplo de um problema sobre estimação de parâmetros, suponhamos que um
engenheiro pretende analisar a resistência de uma componente usada no chassis de um automóvel.
Sendo natural que a resistência varie de componente para componente, isto devido a diferenças que
podem ocorrer nos materiais e no processo de fabrico de cada componente assim, como nos métodos
de leitura da respectiva resistência, o engenheiro está apenas interessado em estimar a resistência
média deste tipo de componentes. Na prática, o engenheiro irá utilizar os dados de uma amostra de
resistências para determinar um número que de algum modo, considere ser uma boa avaliação (ou uma
predição) da verdadeira resistência média. Este número é denominado estimativa pontual. Veremos
também que é possı́vel estabelecer a precisão desta estimativa.
Consideremos a situação em que duas temperaturas de reacção, digamos t1 e t2 , podem ser uti-
lizadas num processo quı́mico. Um engenheiro conjectura que com t1 obterá, em média, resultados de
maior grandeza do que com t2 . O teste estatı́stico de hipóteses é uma ferramenta que permite resolver
questões deste tipo. Neste caso, a hipótese será que o resultado médio quando usada a temperatura
t1 é maior que o resultado médio quando usada a temperatura t2 . Repare que não é dado ênfase à
estimação dos resultados médios; em vez disso, a atenção é dirigida para a conclusão que se pode
retirar acerca da hipótese formulada sobre os resultados médios.
Começamos por definir amostra aleatória, conceito fundamental na inferência estatı́stica. Mais
tarde veremos o conceito de estimador e estimativa de um parâmetro, e finalmente iremos calcular
a precisão da estimativa de um parâmetro analisando as propriedades do estimador utilizado e/ou
determinando estimativas por intervalo de confiança.
1.2 População e amostra aleatória
1.2.1 População
Exemplo 1.1 Consideremos o conjunto de alunos da FCT/UNL e a informação acerca do número de
pessoas que compõem o respectivo agregado familiar. Admitamos que 5%, 9%, 40%, 30%, 10%, 5% e
5
1. Inferência Estatı́stica 6
1% dos alunos têm um agregado familiar constituı́do por 1, 2, 3, 4, 5, 6 e 7 pessoas, respectivamente. Se

formos escolher um aluno ao caso e registarmos o n.o de pessoas no seu agregado familiar, poderemos
obter um valor X−“n.o pessoas no agregado familiar”, com a seguinte função de probabilidade

1 2 3 4 5 6 7
X
0.05 0.09 0.40 0.30 0.10 0.05 0.01
Se o objectivo for estudar o n.o de pessoas que constituem o agregado familiar dos alunos da FCT/UNL,
esse objectivo consiste em estudar a v.a. X.
Esse estudo poderá passar pela estimação da função de probabilidade de X ou pela estimação do
n.o esperado de pessoas no agregado familiar de um aluno, ou pela estimação do desvio padrão de X,
etc.
No fundo o estudo incide sobre a v.a. X ou seja sobre a distribuição do n.o de elementos que
compõem o agregado familiar dos alunos da FCT/UNL.
Definição 1.1 Uma população consiste na totalidade das observações do fenómeno em estudo.
Em cada problema, a população pode ser pequena, grande ou infinita. O número de observações
na população é designado por dimensão da população. Por exemplo, o número de garrafas não com-
pletamente cheias produzidas por dia numa empresa de refrigerantes é uma população finita. As
observações obtidas por medição do nı́vel diário de monóxido de carbono é uma população infinita.
A estatı́stica dedica-se ao estudo da população, ou seja ao estudo da repartição de probabilidades
dos seus valores. Se representarmos por X o conjunto dos valores da população, estudar X será estudar
a sua repartição de probabilidades, será portanto estudar a sua distribuição.
Esse estudo poderá passar pela estimação da própria função de distribuição de X, ou pelo estimação
do valor de alguns dos parâmetros da distribuição que se admite ser a mais correcta para X.
Por exemplo, um engenheiro pode considerar que a população das resistências de um elemento
do chassis tem distribuição normal com valor médio µ e variância σ 2 . (Quando consideramos este
pressuposto, dizemos que temos uma população normal ou uma população normalmente distribuı́da.)
O seu objectivo é estimar a resistência média, µ, desse elemento do chassis.
1.2.2 Amostra
Na maioria das situações, é impossı́vel ou impraticável observar a totalidade da população. Por
exemplo, não seria viável estudar a resistência do elemento do chassis através da observação de todos
os elementos da população. Isso seria demasiado demorado e dispendioso. Além do mais, alguns (por
ventura todos) desses elementos não existiriam no momento em que se quer tirar uma conclusão acerca
da sua resistência média.
Assim, seleccionamos alguns elementos da população, e com o estudo das suas caracterı́sticas,
vamos tirar ilacções sobre as caracterı́sticas de toda a população.
Adoptando este procedimento, ficamos dependentes de um conjunto de observações da população,
para podermos tomar decisões acerca de toda a população.
Definição 1.2 Uma amostra é um conjunto de observações seleccionadas, ao acaso e segundo um
método pré-estabelecido, de uma população.
Exemplo 1.2 No estudo sobre o número X de pessoas que compõem o agregado familiar dos alunos
FCT/UNL, recolheu-se uma amostra de valores respeitantes a 50 alunos (seleccionados ao acaso). Na
tabela que se segue, resume-se a informação obtida:
Valores amostrais 1 2 3 4 5 6 7 Total

Frequência absoluta 2 6 18 14 6 3 1 50
Frequência relativa 0.04 0.12 0.36 0.28 0.12 0.06 0.02 1.00
O conjunto de frequências relativas desta amostra constitui uma estimativa da função de probabil-
idade de X.
Suponha que era possı́vel inquirir todos os alunos e como tal obter a função de probabilidade de X:

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
Figura 1.1: Função de probabilidade da população e da amostra

N.º pessoas / Agregado
0.5
Freq obs
0.4
0.3
0.2
0.1
0.0
1 2 3 4 5 6 7
N.º pessoas
Para que as nossas inferências sejam válidas, a amostra deve ser representativa da população. É
por vezes tentador, seleccionar elementos da população aplicando critérios na sua escolha, como por
exemplo, a comodidade da sua selecção. Estas atitudes podem introduzir uma tendência na amostra
provocando estimativas sub-avaliadas ou sobre-avaliadas. Para evitar estes problemas, devemos se-
leccionar uma amostra aleatória usando um mecanismo de escolha casual. Assim sendo, a selecção
de uma amostra deve ser resultado de uma experiência aleatória. Cada dado amostral é um valor
observado de uma variável aleatória. O modo como se distribuem as observações na população, isto é
a sua função de distribuição, determina a probabilidade de selecção de um dado.
Exemplo 1.3 Se de facto a função de probabilidade de X é

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
então será escolhido um aluno com o agregado constituı́do por 1 pessoa com probabilidade 0.05, um
aluno com 2 pessoas no agregado com probabilidade 0.09, etc.
Importa agora falarmos do conceito de amostra aleatória. Seja X a variável aleatória que representa
o resultado da selecção de uma observação da população e F a sua função de distribuição. Suponhamos
que cada observação amostral é obtida de modo independente, e nas mesmas condições. Isto é, as
observações amostrais são obtidas como se observássemos X, independentemente e sob as mesmas

condições, por n vezes. Seja Xi a variável aleatória que representa a i-ésima réplica. Então as
v.a.’s X1 , X2 , . . . , Xn , constituem uma amostra aleatória e os valores que se obtêm por concretização
desta amostra aleatória são representados por x1 , x2 , . . . , xn . As variáveis aleatórias que constituem a
amostra aleatória são independentes e têm todas a mesma função de distribuição F, uma vez que se
admite que cada observação amostral é obtida nas mesmas condições e na mesma população.
Exemplo 1.4 Se no estudo de X-“n.o de pessoas por agregado familiar dos alunos da FCT/UNL”,
optarmos por seleccionar ao acaso e com reposição, uma amostra de 3 alunos, então X1 representa
o n.o de pessoas do agregado familiar do 1o aluno que viermos a seleccionar. Claro que, se a função
de probabilidade de X for

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
então o n.o de pessoas do agregado familiar deste 1o aluno terá função de probabilidade

1 2 3 4 5 6 7
X1
0.05 0.09 0.4 0.3 0.1 0.05 0.01
O n.o de pessoas do agregado familiar do 2o aluno que viermos a seleccionar terá função de probabili-
dade

1 2 3 4 5 6 7
X2
0.05 0.09 0.4 0.3 0.1 0.05 0.01
e o n.o de pessoas do agregado familiar do 3o aluno que vir a escolhido terá função de probabilidade

1 2 3 4 5 6 7
X3
0.05 0.09 0.4 0.3 0.1 0.05 0.01
Se a escolha destes 3 alunos for perfeitamente casual e usarmos um método de amostragem com
reposição, então X1 , X2 e X3 são v.a.’s independentes e todas igualmente distribuı́das, com uma
distribuição idêntica à da população X.
Admitamos que, após a escolha dos alunos, se observaram os valores x1 = 5, x2 = 1 e x3 = 3. Isto
significa que a amostra aleatória (X1 , X2 , X3 ) foi concretizada na amostra observada (x1 , x2 , x3 ) =
(5, 1, 3).
Definição 1.3 Seja X uma população e (X1 , X2 , . . . , Xn ) uma amostra aleatória resultante da se-
lecção ao acaso e com reposição de n elementos de X. Então:
(a) X1 , X2 , . . . , Xn são variáveis aleatórias independentes;
(b) X1 , X2 , . . . , Xn são variáveis aleatórias identicamente distribuı́das, com distribuição igual à da

população X.
Capı́tulo 2
Estimação Pontual
2.1 Estatı́sticas
Muitas vezes o propósito da recolha da amostra consiste em obtermos informação acerca do valor
dos parâmetros da distribuição da população, caso tenham valor desconhecido. Essa informação é
obtida por estimação dos parâmetros, ou seja pela utilização de estatı́sticas adequadas ao tipo de
parâmetros em causa.
Por exemplo, o engenheiro ao considerar que a população das resistências de um elemento do
chassis tem distribuição normal, só pretende saber algo acerca da resistência média do elemento do
chassis, por isso só pretende estimar o valor médio µ desta distribuição normal. Precisa neste caso de
uma estatı́stica para estimar µ.
Suponhamos, por exemplo, que pretendemos chegar a uma conclusão acerca da proporção de
pessoas em Portugal que preferem, uma marca de refrigerante, em particular. Representemos por
p o valor desconhecido desta proporção. Sendo impraticável interrogar todos os portugueses para
determinarmos o verdadeiro valor de p, vamos inferir o seu valor à custa de uma amostra (de tamanho
conveniente) e usando a proporção observada p̂, de pessoas que nesta amostra preferem aquela marca
de refrigerante.
A proporção amostral, p̂, é calculada dividindo o número total de indivı́duos da amostra que
preferem a marca de refrigerante, pelo total de indivı́duos na amostra (dimensão da amostra). Assim,
p̂ é uma função dos valores observados na amostra. Mas como é possı́vel seleccionar muitas e variadas
amostras de uma população, o valor de p̂ poderá variar de amostra para amostra. Isto é, p̂ é uma
observação de uma variável aleatória P̂ que representa a proporção de pessoas que numa amostra
aleatória (X1 , X2 , . . . , Xn ) vierem a manifestar preferência pela marca de refrigerante. P̂ é uma
estatı́stica.
Definição 2.1 Uma estatı́stica é uma função das variáveis de uma amostra aleatória, ou seja, se
(X1 , X2 , . . . , Xn ) é uma amostra aleatória da população X e T : Rn −→ R é uma função, T ≡
T (X1 , X2 , . . . , Xn ) é uma estatı́stica.
Veremos mais tarde, alguns exemplos importantes de estatı́sticas. Uma vez que uma estatı́stica é
uma variável aleatória, necessariamente terá uma função de distribuição. A essa função de distribuição
é dado o nome de distribuição de amostragem da estatı́stica. A noção de distribuição de amostragem
é fundamental em inferência estatı́stica.
Uma secção importante da inferência estatı́stica aborda a denominada estimação pontual de
parâmetros tais como o valor médio de uma população ou como a variância de uma população. Quando
9
2. Estimação Pontual 10
se discutem problemas de inferência estatı́stica sobre parâmetros de uma população é habitual o uso
de letras gregas para na representação desses parâmetros. Por exemplo, µ para o valor médio de uma
população, σ para o desvio padrão de uma população.
O objectivo da estimação pontual de um parâmetro θ, consiste na atribuição de um valor numérico,
baseado na informação da amostra, que seja um valor plausı́vel para θ. Esse valor numérico será a
estimativa pontual do parâmetro.
Em geral, se X é uma população com função de distribuição F, caracterizada por um parâmetro θ
de valor desconhecido, e se (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n da população X,
então a estatı́stica Θ̂ = h (X1 , X2 , . . . , Xn ) é denominada estimador pontual de θ. Repare que Θ̂ é uma
variável aleatória, porque é função de variáveis aleatórias. Após uma amostra ter sido seleccionada,
Θ̂ toma um valor numérico particular θ̂ chamado estimativa pontual de θ.
Definição 2.2 Uma estimativa pontual do parâmetro θ de uma população é um único valor numérico
θ̂ de uma estatı́stica Θ̂, obtido pela observação (x1 , x2 , . . . , xn ) de uma amostra aleatória (X1 , X2 , . . . , Xn ).
Exemplo 2.1 Regressemos ao exemplo do n.o de pessoas por agregado familiar dos alunos da FCT/UNL.
Suponhamos que querı́amos saber qual o n.o médio de pessoas por agregado familiar destes alunos?
Se analisássemos toda a população, saberı́amos que X tem função de probabilidade

1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
e portanto saberı́amos que
µ = E (X) = 1 × 0.05 + 2 × 0.09 + . . . + 7 × 0.01 = 3.5 pessoas
Mas de facto, o que conhecemos é a amostra
Valores amostrais 1 2 3 4 5 6 7 Total
Frequência absoluta 2 6 18 14 6 3 1 50
e por isso, poderemos quando muito apresentar uma estimativa pontual de µ, usando a estatı́stica
n
1X
X= Xi . A estimativa pontual de µ resultaria em:
n
i=1
50
1 X 1 179
x= xi = (1 × 2 + 2 × 6 + 3 × 18 + . . . + 7 × 1) = = 3.58 pessoas
50 50 50
i=1
2.2 Exemplo de estatı́sticas

De entre os diversos parâmetros que caracterizam a distribuição de uma população X, o valor
médio, a variância, o desvio padrão e a proporção são os que mais frequentemente são estimados.
Por esta razão, apresentamos os estimadores mais comuns (e melhores de acordo com certos critérios
estatı́sticos que abordaremos mais tarde) para o valor médio,para a variância, para o desvio padrão
e para a proporção de uma população. Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória com
dimensão n, de X.
Estimador do valor médio µ de uma população X
n
1X X1 + X2 + . . . + X n
X= Xi =
n n
i=1
Estimador da variância σ 2 de uma população X

n 2 2 2
2 1 X 2 X1 − X + X2 − X + . . . + Xn − X
S = Xi − X =
n−1 n−1
i=1
que também pode ser escrito e determinado por

n
! !
1 X 2 1 2 2

S2 = Xi2 − nX = X1 + X22 + . . . + Xn2 − nX
n−1 n−1
i=1
Estimador do desvio padrão σ de uma população X

√
S = + S2
As estimativas pontuais destes parâmetros, representar-se-ão por x, s2 e s, respectivamente.
Estimador da proporção (ou probabilidade) p de realização de um acontecimento A

Se numa amostra de dimensão n, se observar K vezes o acontecimento A (sucesso), o estimador
de p é
K
P̂ =
n
e a estimativa de p é
k
p̂ = ,
n
quando se observa K = k.
Exemplo 2.2 O número de defeitos num painel metálico usado na construção de automóveis tem
distribuição de Poisson. Seleccionada uma amostra do n.o de defeitos em 10 paineis, obtiveram-se os
seguintes valores: (2, 7, 15, 8, 7, 6, 3, 7, 3, 4).
Se pretendermos estimar o parâmetro da distribuição da população, como sabemos que esta é
Poisson e o parâmetro da distribuição de Poisson coincide com o valor médio desta distribuição, o
problema resume-se à estimação do valor médio da população.
Assim, para a amostra obtida, a estimativa do parâmetro será:
2 + 7 + 15 + 8 + 7 + 6 + 3 + 7 + 3 + 4 62
x= = = 6.2
10 10
ou seja, estimamos que seja de 6.2 o no médio de defeitos por painel.
Exemplo 2.3 Admitamos que não se conhece a distribuição do n.o de defeitos por painel e se pretende
avaliar a dispersão desse n.o de defeitos. Se medirmos a dispersão através do desvio padrão, então
v ! !
u 10 10
√ u 1 X p X
2 2
s = s2 = t xi − 10 × 6.22 = 13.9(5) ≈ 3.74 xi = 510
10 − 1
i=1 i=1
é a sua estimativa pontual.

2.3 Métodos para determinação de estimadores
2.3.1 Método dos momentos

Definição 2.3 Dada uma população X e r ∈ N, define-se o nome de momento de ordem r, por
µ′r = E (X r ) ,
e o momento centrado de ordem r, por
µr = E [(X − E (X))]r .
Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) da população X, para estimadores destes momentos,
considerem-se
n
1X r
Mr′ = Xi ,
n
i=1
o estimador de µ′r , designado por momento amostral de ordem r e,

n
1X r
Mr = Xi − X̄ ,
n
i=1
o estimador de µr , designado por momento amostral centrado de ordem r.
Se X é uma população cuja distribuição depende de k parâmetros, θ1 , θ2 , . . . , θk , os respectivos

estimadores de momentos, Θ∗1 , Θ∗2 , . . . , Θ∗k , são as soluções do sistema de k equações a k incógnitas,


 E (X) = X̄

 2 = M2
µ


µ3 = M3

 ..


 .

µk = Mk
Exemplo 2.4 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com distribuição
U (a, b). Determinemos os estimadores de momentos, A∗ e B ∗ , dos parâmetros a e b, respectivamente.
a+b (b − a)2
Como sabemos, E (X) = e µ2 = V (X) = . Assim
2 12
(
a+b √
E (X) = X̄ 2 = X̄ a = X̄ − √ 3 M2
⇔ (b−a) 2 ⇔
V (X) = M2 = M2 b = X̄ + 3 M2
12
n n
1X 2 n − 1 1 X 2 n − 1 2
Repare que M2 = Xi − X̄ = Xi − X̄ = S .
n n n−1 n
i=1 i=1
 r
 3 (n − 1)
 A∗ = X̄ −
 S
Os estimadores de momentos para a e b são, r n .
 3 (n − 1)
 B ∗ = X̄ +
 S
n
2.4 Erro de amostragem e distribuição de amostragem

Já atrás foi dito que, se X é uma população com função de distribuição F, caracterizada por
um parâmetro θ de valor desconhecido, e se X1 , X2 , . . . , Xn é uma amostra aleatória de dimensão
n desta população, então a estatı́stica Θ̂ = h (X1 , X2 , . . . , Xn ) é denominada estimador pontual de
θ. Após a selecção de uma amostra, com valores (x1 , x2 , . . . , xn ), obtemos um valor particular θ̂ =
h (x1 , x2 , . . . , xn ) de Θ̂, chamado estimativa pontual de θ.
Definição 2.4 O erro de amostragem é a diferença entre a estimativa obtida através de uma amostra
e a estimativa que se obteria através da recolha de informação de toda a população (censo à população).
Repare que Θ̂ é uma variável aleatória, porque é função de variáveis aleatórias e como tal terá
uma distribuição. Essa distribuição não é mais do que a repartição probabilı́stica de todos os valores
observáveis de Θ̂, sendo estes todos os que se obteriam caso fosse realizável recolher todas as possı́veis
amostras de dimensão n.
Definição 2.5 A distribuição de um estimador pontual (ou estatı́stica) Θ̂ é designada por distribuição
de amostragem de Θ̂.
2.4.1 Distribuição de amostragem de X

Admitamos que X é uma população com valor médio µ ≡ E (X) e variância σ 2 ≡ V (X).
Se µ tiver valor desconhecido e o quisermos estimar através de uma a.a. (X1 , X2 , . . . , Xn ), podemos
considerar o estimador
n
1X
X= Xi
n
i=1
Valor médio e variância de X

Sendo X uma v.a., comecemos por determinar o seu valor médio e a sua variância
n
! n n
1X 1X 1X nµ
E X = E Xi = E (Xi ) = µ= =µ (2.4.1)
n n n n
i=1 i=1 i=1
n
! n n
1X 1 X 1 X 2 nσ 2 σ2
V X = V Xi = V (Xi ) = σ = = (2.4.2)
n n2 n2 n2 n
i=1 i=1 i=1
Observações:
• O valor esperado da distribuição da média amostral X coincide com o valor médio da população.
• A variância da distribuição da média amostral X é igual à variância da população dividida por

n.
Este resultado diz-nos que, quanto maior for o número de observações recolhidas, mais concen-
trados em torno de µ estarão os valores de X (ou seja, as estimativas de µ).
Também se conclui que a variância de X é proporcional à variância da população.
Passamos agora a apresentar a distribuição de amostragem de X que, como veremos depende do

conhecimento que temos sobre a população donde se extrai a amostra.
Situação A: X tem distribuição Normal com variância σ 2 conhecida

Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2 em que
σ 2 tem um valor conhecido.
Como X1 , X2 , . . . , Xn são v.a.’s i.i.d com distribuição N µ, σ 2 , então X ∼ N E X , V X ,
isto é

σ2
X ∼ N µ, (2.4.3)
n
e
X −µ √ X −µ
Z= √ ≡ n ∼ N (0, 1) (2.4.4)
σ/ n σ
Situação B: X tem distribuição desconhecida ou conhecida e não normal, com variância

σ 2 conhecida e n ≥ 30
Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição não normal ou
desconhecida, com variância σ 2 conhecida.
Mesmo nos casos em que é possı́vel deduzir a distribuição de X, essa distribuição não é “manejável”no
sentido da comodidade do cálculo de probabilidades.
Quando X tem uma distribuição desconhecida, é impossı́vel determinar a distribuição de X.
Pelas duas razões acima mencionadas, opta-se pela recolha de uma amostra de tamanho razoavel-
mente grande, normalmente de dimensão maior ou igual a 30, n ≥ 30, de modo a podermos invocar o
Teorema Limite Central e estabelecermos que
X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.5)
σ/ n σ
Situação C: X tem distribuição Normal com variância σ 2 desconhecida

Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2 em que
σ 2 tem um valor desconhecido.
Não conhecendo o valor de σ 2 , podemos começar por o estimar usando o estimador
n
1 X 2
S2 = Xi − X
n−1
i=1
.
Então, a estatı́stica (v.a.)
X −µ √ X −µ
T = √ ≡ n
S/ n S
tem distribuição t (ou t-Student) com n − 1 graus de liberdade, que se representa de modo abreviado
por tn−1 .
X −µ √ X −µ
T = √ ≡ n ∼ tn−1 (2.4.6)
S/ n S
Nota: A distribuição t é simétrica em torno de zero e o seu suporte é R.

Situação D: X tem distribuição desconhecida ou conhecida e não normal, com variância

σ 2 desconhecida e n ≥ 30
Admitamos que (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição não normal ou
desconhecida, com variância σ 2 desconhecida.
Mais uma vez o desconhecimento do valor de σ 2 leva a que o estimemos através de
n
2 1 X 2
S = Xi − X
n−1
i=1
.
Se considerarmos uma amostra de dimensão n ≥ 30, a estimativa de σ 2 é suficientemente precisa de
modo que o Teorema Limite Central e outras considerações fora do âmbito desta disciplina, permitem
estabelecer que
X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.7)
S/ n S
2.4.2 Distribuição de amostragem de S 2

Sendo importante estimar a variância de uma população X, podemos adoptar como seu estimador
n
2 1 X 2
S = Xi − X
n−1
i=1
.
Quanto à sua distribuição de amostragem, só existem resultados de utilização prática quando a
amostra provém de uma população com distribuição Normal. Assim, se (X1 , X2 , . . . , Xn ) é uma
a.a. de uma população X com distribuição N µ, σ 2 em que µ tem valor desconhecido, a estatı́stica
(v.a.)
(n − 1) S 2
X2 =
σ2
tem distribuição do Qui-Quadrado com n−1 graus de liberdade (que abreviadamente se escreve χ2n−1 ).
(n − 1) S 2
X2 = ∼ χ2n−1 (2.4.8)
σ2
Nota: A distribuição do Qui-quadrado é assimétrica e o seu suporte é [0, +∞[.
Observação: Quando (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2
em que µ tem valor conhecido, podemos estimar σ 2 através do estimador
n
1X
σ 2∗
= (Xi − µ)2 .
n
i=1
A sua distribuição de amostragem é
nσ 2
∗
∼ χ2n (2.4.9)
σ2
Contudo, esta situação não é muito frequente uma vez que, quando não se conhece a variância de
uma população, poucas vezes se conhece o seu valor médio.
2.4.3 Distribuição de amostragem de P̂

Seja X uma população que regista a ocorrência de um sucesso (observação de uma caracterı́stica
pretendida) através da atribuição do valor 1 caso se dê um sucesso e do valor 0 quando se dá um
insucesso.
Se p for a probabilidade de sucesso, então X tem distribuição Binomial de parâmetros (1, p).
Admitamos que p é desconhecido e que para a sua estimação se considera uma amostra (X1 , X2 , . . . , Xn )
da população X.PEsta amostra será constituı́da por zeros e uns.
Assim, K = ni=1 Xi dá-nos o total de sucessos em n observações.
O estimador natural de p é a proporção de sucessos na amostra, isto é:
n
1X K
P̂ = Xi ≡
n n
i=1
Vamos agora discutir

Pn a distribuição de P̂ . Sendo (X1 , X2 , . . . , Xn ) v.a.’s i.i.d com distribuição
B (1, p), então K = i=1 Xi ≡ nP̂ ∼ B (n, p).
Contudo, a distribuição Binomial não apresenta uma grande comodidade de cálculo de probabil-
idades quando estão em causa tratamentos estatı́sticos. Por isso, é habitual a recolha de amostras
de dimensão n ≥ 30 (consideradas suficientemente grandes) que permitam a aplicação do Teorema
Limite Central para se poder concluir que
K − np a
p ∼ N (0, 1)
np (1 − p)
e portanto que
P̂ − p a
Z=q ∼ N (0, 1) (2.4.10)
p(1−p)
n
Observações:
P
• Repare que P̂ = n1 ni=1 Xi não é mais do que a média de uma amostra (X1 , X2 , . . . , Xn ) de
uma população X ∼ B (1, p). Se entrarmos em linha de conta com o facto de µ ≡ E (X) = p
e σ 2 ≡ V (X) = p (1 − p), então o resultado 2.4.10 não é mais do que um caso particular do
resultado 2.4.5 (População não normal com variância conhecida e n ≥ 30).
• Relativamente à observação anterior, podemos ainda dizer que, se p tem um valor desconhecido,
também σ 2
≡ V (X) = p (1 − p) tem um valor desconhecido. O mais natural é considerar
P̂ 1 − P̂ para estimador de σ 2 = p (1 − p) e, o Teorema Limite Central em conjugação com
outros resultados aquém do âmbito desta disciplina, permitem concluir que
P̂ − p a
Z=q ∼ N (0, 1) (2.4.11)
P̂ (1−P̂ )
n
2.5 Propriedades dos estimadores

Como Θ̂ é uma variável aleatória, podemos falar do E Θ̂ , medida que expressa o valor esperado

de Θ̂, da V Θ̂ e do desvio padrão σ Θ̂ , quantidades estas que expressam a dispersão de Θ̂.
Estas medidas permitem estabelecer propriedades importantes para o estimador Θ̂.
2.5.1 Erro padrão

Definição 2.6 O erro padrão de um estimador pontual Θ̂ é o seu desvio padrão σ Θ̂
O estimador Θ̂ será tanto ”melhor”quanto menor for o seu erro padrão, porque nos informa de que
as estimativas do parâmetro θ são pouco dispersas, como convém que aconteça.
2.5.2 Enviesamento
Também será desejável que um estimador Θ̂ faculte valores que, em média coincidam com o valor
do parâmetro θ. Dito de outro modo, convém
o valor esperado de Θ̂ seja igual ao verdadeiro valor de
θ. Matematicamente, é desejável que E Θ̂ = θ.

Definição 2.7 Um estimador Θ̂ para o parâmetro θ diz-se não enviesado (ou centrado) se E Θ̂ = θ.

Definição 2.8 O enviesamento de um estimador Θ̂ para o parâmetro θ é bias Θ̂ = E Θ̂ − θ.
Exemplo 2.5 Suponhamos que X é uma população com distribuição exponencial de parâmetros (λ, 1)
em que λ tem valor desconhecido.
Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) desta população, considerem-se os dois estimadores
para λ:
Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1
e analisemos o respectivo enviesamento:

1
E Λ̂ = E (min (X1 , X2 , . . . , Xn )) = λ +
n

E (Λ∗ ) = E X̄ − 1 = E (X) − 1 = λ + 1 − 1 = λ
Relativamente ao enviesamento, ∗
Λ é melhor
1
porque é centrado.
1
O enviesamento de Λ̂ é bias Λ̂ = λ + − λ = .
n n

Contudo o bias Λ̂ converge para zero quando a dimensão da amostra aumenta. Dizemos então
que Λ̂ é um estimador assintoticamente centrado.

Definição 2.9 Θ̂ é um estimador assintoticamente centrado para o parâmetro θ se lim E Θ̂ = θ.
n→+∞
2.5.3 Eficiência e erro quadrático médio

Consideremos o erro padrão dos dois estimadores sugeridos no exemplo anterior para o parâmetro
λ.
1 1
V Λ̂ = 2 , σ Λ̂ =
n n
1 1
V (Λ∗ ) = , σ (Λ∗ ) = √
n n

Relativamente ao erro padrão, Λ̂ ”parece”melhor porque σ Λ̂ ≤ σ (Λ∗ )
Repare que se usou a expressão ”parece melhor”. Vejamos porquê.
Quando comparamos estimadores que são centrados, preferimos o que tiver menor erro padrão, ou
seja o que tiver menor dispersão.
Quando nem todos os estimadores são centrados (como acontece no anterior exemplo), a com-
paração da sua qualidade deverá ser feita de outro modo.
Efectivamente, a propriedade que é desejável para um estimador Θ̂, é que possibilite estimativas
que se desviem pouco do parâmetro θ. Isto é, queremos que seja pequeno o
2
E Θ̂ − θ .
Definição 2.10 Define-se o erro quadrático médio do estimador pontual Θ̂ do parâmetro θ, por
2
EQM Θ̂ = E Θ̂ − θ .
Face a dois estimadores, não necessariamente centrados, devemos optar pelo que apresenta menor
erro quadrático médio.
Este processo engloba a comparação de estimadores centrados por utilização do seu erro padrão.
De facto,
Teorema 2.1
h i2
EQM Θ̂ = V Θ̂ + bias Θ̂ .
Portanto, quando dois estimadores são centrados, o seu enviesamento é nulo, e por isso a com-
paração do seu erro quadrático médio acaba por ser equivalente à comparação do seu erro padrão.
Definição 2.11 A eficiência de um estimador é o seu erro quadrático médio.
Definição 2.12 Dados dois estimadores Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que Θ̂ é mais
eficiente que Θ∗ se,

EQM Θ̂ < EQM (Θ∗ ) .
Definição 2.13 Dados dois estimadores centrados Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que
Θ̂ é mais eficiente que Θ∗ se,

V Θ̂ < V (Θ∗ ) .
Exemplo 2.6 Para os estimadores
Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1
do parâmetro λ da população X ∼ E (λ, 1), o respectivo erro quadrático médio é

h i2 2
1 1 2
EQM Λ̂ = V Λ̂ + bias Λ̂ = 2+ = 2
n n n
1
EQM (Λ∗ ) = V (Λ∗ ) = porque Λ∗ é centrado
n

Para n ≥ 3, Λ̂ é mais eficiente do que Λ∗ porque EQM Λ̂ < EQM (Λ∗ )
2.5.4 Consistência
A consistência é outra propriedade importante dos estimadores. Um estimador é consistente se,
com o aumento da dimensão da amostra, aumenta a probabilidade da estimativa do parâmetro estar
próxima do seu verdadeiro valor.
Em termos formais,
Definição 2.14 O estimador Θ̂ do parâmetro θ é consistente se e só se, para qualquer δ > 0,

lim P Θ̂ − θ < δ = 1.
n→+∞
Para um estimador consistente, quanto maior for o tamanho da aumento, maior é a probabilidade
de se obterem estimativas numa vizinhança do valor do parâmetro.
Na prática poucas vezes se usa a definição para se analisar a consistência de um estimador.
Utilizam-se outros critérios de verificação dos quais apresentamos o seguinte:
Teorema 2.2 Se Θ̂ é um estimador de θ e

h i2
lim EQM Θ̂ = lim V Θ̂ + bias Θ̂ =0
n→+∞ n→+∞
então Θ̂ é consistente.
Exemplo 2.7 Retomemos o exemplo 2.6. Os dois estimadores são consistentes porque
2 1
lim EQM Λ̂ = lim =0 e lim EQM (Λ∗ ) = lim =0
n→+∞ n→+∞ n2 n→+∞ n→+∞ n
2.5.5 Propriedades de X̄, S 2 e P̂

Apresentamos na tabela abaixo, os estimadores mais usados para o valor médio, variância e pro-
porção, indicando também os respectivos valores médios e variâncias.
Tabela 2.1: Tabela de estimadores para o valor médio, variância, desvio padrão e proporção
Parâmetro Estimador Valor médio Variância do

do estimador
estimador

θ Θ̂ E Θ̂ V Θ̂
n
1X σ2
µ = E (X) X̄ = Xi µ
n n
i=1
n
2 1 X 2 σ4 n−3
σ2 = V (X) S = Xi − X̄ σ2 α4 −
n−1 n n−1
i=1
K p (1 − p)
p = P (A) P̂ = p
n n
α4 = µ4 /σ 4 é o coeficiente de curtose que tem o valor 3 para a distribuição normal.

Capı́tulo 3
Estimação por Intervalo de Confiança
3.1 Introdução
Em muitas situações, uma estimação pontual de um parâmetro não fornece informação suficiente
sobre esse parâmetro.
Vejamos o caso do exemplo 2.2. Como se pretendia estimar µ ≡ E (X) e se adoptou o estimador
X̄, a estimativa pontual de µ, no médio de defeitos por painel, foi x = 6.2. Mas, é pouco provável
que o verdadeiro no médio de defeitos seja exactamente 6.2. Portanto é lógico que nos interroguemos
acerca da proximidade desta estimativa relativamente ao verdadeiro no médio, µ. Como se frisou na
secção anterior, o erro padrão (ou o erro quadrático médio, quando o estimador não é centrado) já
nos dará uma ideia da precisão da nossa estimativa. Outro tipo de abordagem passaria por preten-
dermos garantir que, para uma grande ”percentagem”de todas as amostras que pudessemos recolher,
a diferença em valor absoluto entre a média amostral X̄ e o valor médio µ, não ultrapasse um certo
valor a (que corresponde ao erro máximo que desejamos para a estimação de µ). Se interpretarmos
essa percentagem como a probabilidade de recolhermos uma amostra que cumpra o anterior requisito
e a representarmos por 1 − α, então poderı́amos equacionar o problema do seguinte modo:

P X̄ − µ ≤ a = 1 − α .

Como X̄ − µ ≤ a ⇔ X̄ − a ≤ µ ≤ X̄ + a, então o pretendı́amos encontrar era um intervalo

X̄ − a, X̄ + a que, com probabilidade 1 − α elevada, contivesse o valor médio µ.
Designarı́amos esse intervalo por intervalo de confiança 1 − α para µ e realizarı́amos assim uma
estimação de µ por intervalo de confiança 1 − α (ou estimação intervalar de µ).
Definição 3.1 Um intervalo de confiança 1 − α para um parâmetro θ (de valor desconhecido), é um

intervalo da forma
[L (X1 , X2 , . . . , Xn ) , U (X1 , X2 , . . . , Xn )]
onde L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são estatı́sticas que não dependem do valor de θ, e que
satisfazem
P (L (X1 , X2 , . . . , Xn ) ≤ θ ≤ U (X1 , X2 , . . . , Xn )) = 1 − α.
21
3. Estimação por Intervalo de Confiança 22
L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são denominados limites de confiança inferior e superior,

respectivamente, e (1 − α) é chamado coeficiente de confiança do intervalo.
Resta-nos agora dizer algo sobre o método geral de determinação destes intervalos. O método mais
usual e que iremos utilizar, é o método pivotal . Para o pormos em prática é necessário encontrarmos
ou conhecermos uma estatı́stica pivot.
Definição 3.2 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população cuja distribuição de-
pende de um parâmetro θ. Consideremos T ≡ T (X1 , X2 , . . . , Xn , θ) uma estatı́stica, função da amostra
aleatória e de θ (e eventualmente de outros parâmetros de valor conhecido). Se a distribuição de T
não depende de θ, ela diz-se uma estatı́stica pivot para θ.

Exemplo 3.1 Se (X1 , X2 , . . . , Xn ) for uma amostra aleatória de uma população X ∼ N µ, 52 , então
X̄ − µ
T =p ∼ N (0, 1)
52 /n
Podemos afirmar que T é uma estatı́stica pivot para µ, porque a distribuição de T é sempre N (0, 1),
qualquer que seja o valor de µ.
O método pivotal para determinação de um intervalo de confiança 1 − α para θ, consiste em:
• Conhecer (ou encontrar) uma estatı́stica pivot T ≡ T (X1 , X2 , . . . , Xn , θ) para θ;
• A partir da distribuição de T , determinar valores a1 e a2 , que satisfaçam;
P (a1 ≤ T ≤ a2 ) = 1 − α;
• Resolver as desigualdades
a1 ≤ T (X1 , X2 , . . . , Xn , θ) ≤ a2
em ordem a θ, de modo a que
a1 ≤ T (X1 , X2 , . . . , Xn , θ) ≤ a2 ⇔ L (X1 , X2 , . . . , Xn ) ≤ θ ≤ U (X1 , X2 , . . . , Xn ) ,
sendo L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) estatı́sticas não dependentes de θ;
• IC100(1−α)% (θ) ≡ [L (X1 , X2 , . . . , Xn ) , U (X1 , X2 , . . . , Xn )]

é um intervalo de confiança 1 − α para θ.
NOTAS IMPORTANTES:
• Para um coeficiente de confiança 1−α, fixo, existem diversas escolhas possı́veis para as constantes
a1 e a2 . Sempre que possı́vel devemos optar por usar aquelas que conduzem a um intervalo de
confiança de amplitude mı́nima.
• Quando a estatı́stica pivot tem uma distribuição simétrica em torno de zero, a melhor escolha
para a1 e a2 é:
a1 = −a2 e a2 ≡ a tal que P (−a ≤ T ≤ a) = 1 − α.
• Os coeficientes de confiança mais usados são 90%, 95% e 99%.
Podemos interpretar um intervalo de confiança pensando que, se infinitas amostras forem selec-
cionadas e um intervalo de confiança (1 − α) for calculado para cada uma delas, então 100 (1 − α)
desses intervalos contêm o verdadeiro valor de θ.
Esta situação é ilustrada na figura que se segue, que mostra diversos intervalos de confiança (1 − α)
para o parâmetro θ de uma população. Os pontos no centro dos intervalos indicam a estimativa pontual
de θ (isto é, θ̂). Repare que um dos 15 intervalos falha em conter o verdadeiro valor de θ. Se estes
fossem intervalos de 95% de confiança, de entre infinitos intervalos que calculássemos (com base em
infinitas amostras) apenas 5% deles não iriam conter o verdadeiro valor de θ.
θ
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
Na prática, só temos uma amostra observada (x1 , x2 , . . . , xn ) para a qual determinamos um in-
tervalo de confiança [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]. Como este intervalo vai conter ou não o
verdadeiro valor do parâmetro θ, não é razoável associar uma probabilidade a este acontecimento
especı́fico. O que devemos afirmar é que o intervalo observado [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]
abrange o verdadeiro valor de θ com uma confiança de (1 − α). Esta afirmação tem uma interpretação
frequencista; isto é, nós não sabemos se, para uma amostra especı́fica, a afirmação é verdadeira, mas o
método usado para obter o intervalo [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )] permite afirmações correctas
100 (1 − α) das vezes.
A amplitude observada, u (x1 , x2 , . . . , xn ) − l (x1 , x2 , . . . , xn ), de um intervalo de confiança é uma
importante medida da qualidade da estimação do parâmetro. Em particular, a metade da amplitude do
intervalo, designada por precisão da estimação por intervalo de confiança, é um indicador da qualidade
da estimativa do parâmetro θ. Quanto maior for a amplitude de um intervalo de confiança, mais
confiança temos de que esse intervalo contem de facto o verdadeiro valor de θ. Por outro lado, quanto
maior for a amplitude do intervalo de confiança, (menor precisão da estimação) menos informação
temos acerca do verdadeiro valor de θ, uma vez que temos uma maior gama de valores possı́veis para
θ. A situação ideal reside num intervalo de pequena amplitude e com elevado coeficiente de confiança.
3.2 Estimação por intervalo de confiança do valor médio µ = E (X)

da população X
Apliquemos os conceitos sobre intervalo de confiança expostos na secção anterior.
Agora o parâmetro θ será o valor médio µ = E (X), e consideremos
n
1X X1 + X2 + . . . + X n
X= Xi = .
n n
i=1
o estimador deste parâmetro.

Deduzir um intervalo de confiança (1 − α) para µ, consiste em determinar os extremos L ≡
L (X1 , X2 , . . . , Xn ) e U ≡ U (X1 , X2 , . . . , Xn ) que verificam a igualdade
P (L ≤ µ ≤ U ) = 1 − α, 0 < α < 1.
Também de acordo com o que foi dito, será a partir de X e da sua distribuição de amostragem,
que poderemos deduzir os valores de L e de U.
Consideremos uma amostra aleatória (X1 , X2 , . . . , Xn ) que irá servir para a estimação de µ através
do seu estimador X. Podemos afirmar que o valor de µ oscila em torno de X, ou seja que µ poderá
assumir um valor dentro do intervalo

X − a, X + a .
Para que este intervalo tenha um coeficiente de confiança (1 − α) é necessário que se verifique

P X − a ≤ µ ≤ X + a = 1 − α, 0 < α < 1. (3.2.1)
ou seja que

P µ−a≤X ≤µ+a =1−α
Mas, qual é a distribuição de X̄?

Situação A Caso (X1 , X2 , . . . , Xn ) seja uma amostra aleatória de uma população X que tenha dis-
tribuição normal de valor médio µ (que se pretende estimar) e variância σ 2 (conhecida), então
2
sabemos que Xi ∼ N µ, σ e que são independentes.

σ2
Podemos então concluir que X ∼ N µ, , e portanto que
n
X −µ √ X −µ
Z=p = n ∼ N (0, 1) .
σ 2 /n σ
(ver resultado 2.4.4 da secção 2.4.1: Distribuições de amostragem de X).
Considerando a igualdade genérica (3.2.1)

P X − a ≤ µ ≤ X + a = 1 − α, 0 < α < 1,
vamos determinar o valor de a.

√ √
n √ X −µ n
P X −a≤µ≤X +a = P −a ≤ X − µ ≤ a = P − a≤ n ≤ a =
σ σ σ
√ √ √ √
n n n n
= P − a≤Z≤ a =P Z≤ a −P Z ≤− a =
σ σ σ σ
√ √ √ √
n n n n
= Φ a −Φ − a =Φ a −1+Φ a =
σ σ σ σ
√
n
= 2Φ a − 1.
σ
Assim
√ √
n n
P X − a ≤ µ ≤ X + a = 1 − α ⇔ 2Φ a −1=1−α⇔Φ a = 1 − α/2 ⇔
σ σ
√
n σ
⇔ a = Φ−1 (1 − α/2) ⇔ a = √ Φ−1 (1 − α/2) .
σ n
Por simplicidade de notação, se representarmos Φ−1 (1 − α/2) por zα/2 , temos
Intervalo de confiança (1 − α) para o valor médio µ

População normal com variância σ 2 conhecida

σ σ
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n
Exemplo 3.2 O tempo que uma máquina leva a executar a sua tarefa em cada peça produzida
segue uma distribuição normal de desvio padrão igual a 3 segundos.
Pretendendo-se estimar por intervalo de 95% de confiança, o tempo médio de execução das peças,
recolheu-se uma amostra de tempos de execução de 25 peças, cuja média foi de 12 segundos.
Assim,
1 − α = 0.95 ⇒ α = 0.05 ⇒ 1 − α/2 = 0.975
zα/2 = z0.025 = Φ−1 (0.975) = 1.96

x = 12, σ = 3, n = 25
Intervalo de confiança 0.95 para µ

3 3
IC95% (µ) ≡ 12 − √ 1.96, 12 + √ 1.96 = [10.824, 13.176]
25 25
Podemos dizer com 95% de confiança , que o intervalo anterior inclui o verdadeiro tempo médio
de execução das peças produzidas pela máquina.
Situação B Admitamos que (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n ≥ 30, de uma
população X cuja distribuição não é normal ou é desconhecida, mas com variância σ 2 conhecida.
Seja µ o valor médio da população X, que queremos estimar.
Apesar de se conhecer o valor da variância σ 2 isso por si só não permite o conhecimento da
distribuição de X. Contudo se a amostra for grande, isto é se tiver uma dimensão n ≥ 30, por
aplicação do Teorema Limite Central, podemos afirmar que
X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
σ 2 /n σ
(ver resultado 2.4.5 da secção 2.4.1: Distribuições de amostragem de X).
Recorrendo agora ao método pivotal temos:

√ X −µ a
• Z= n ∼ N (0, 1) é uma estatı́stica pivot para µ.
σ
• P (−a ≤ Z ≤ a) ≈ 1 − α
Ora
P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =
= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1
pelo que
P (−a ≤ Z ≤ a) = 1 − α ⇔ 2Φ (a) − 1 = 1 − α ⇔ Φ (a) = 1 − α/2 ⇔ a = Φ−1 (1 − α/2) ≡ zα/2
•
√ X −µ σ σ
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
σ n n
h i
• IC100(1−α)% (µ) ≡ X − zα/2 √σn , X + zα/2 √σn

População não normal com 2
variância σ conhecida e n ≥ 30
σ σ
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n
Situação C Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com dis-
tribuição normal de valor médio µ (que se pretende estimar) e variância σ 2 desconhecida.
Relativamente á Situação A, o que agora se altera é o facto da variância σ 2 ser desconhecida.
Se a variância σ 2 é desconhecida, podemos de imediato pensar em a substituir pela variância
amostral, ou seja, por
n n
! !
2 1 X 2 1 X
2 2
S = Xi − X = Xi − nX .
n−1 n−1
i=1 i=1
Como resultado desta substituição, a distribuição de amostragem para X é
X −µ
T = √ ∼ tn−1
S/ n
(ver resultado 2.4.6 da secção 2.4.1: Distribuições de amostragem de X)
De novo, pelo método pivotal, temos

X −µ
• Estatı́stica pivot: T = √ ∼ tn−1
S/ n
• Porque a distribuição t é simétrica em torno de zero, com suporte R, é necessário encontrar
o valor a que verifica P (−a ≤ T ≤ a) = 1 − α.
P (−a ≤ T ≤ a) = P (T ≤ a) − P (T ≤ −a) = P (T ≤ a) − P (T ≥ a) =
= P (T ≤ a) − [1 − P (T ≤ a)] = 2P (T ≤ a) − 1
Então
P (−a ≤ T ≤ a) = 1 − α ⇔ 2P (T ≤ a) − 1 = 1 − α ⇔ P (T ≤ a) = 1 − α/2 ⇔
⇔ a = FT−1 (1 − α/2) ≡ tn−1:α/2
•
√ X −µ
−tn−1:α/2 ≤ T ≤ tn−1:α/2 ⇔ −tn−1:α/2 ≤ n ≤ tn−1:α/2 ⇔
S
S S
⇔ X − tn−1:α/2 √ ≤ µ ≤ X + tn−1:α/2 √
n n
h i
• IC100(1−α)% (µ) ≡ X − tn−1:α/2 √Sn , X + tn−1:α/2 √Sn
Nota:A substituição de σ por S, no intervalo da Situação A, pode introduzir erro no intervalo,

e como tal o novo intervalo permite a estimação de µ com a mesma confiança (1 − α) mas tem
uma maior amplitude.

População normal 2
com variância σ desconhecida
S S
IC100(1−α)% (µ) ≡ X − √ tn−1:α/2 , X + √ tn−1:α/2
n n
Exemplo 3.3 Uma amostra do peso de 8 animais alimentados com um determinado tipo de
ração, forneceu os seguintes valores (em kg):
4 6 4.5 4 5.6 6.2 5.8 6

Admitindo que o peso dos animais se comporta de acordo com uma distribuição normal, apresente
uma estimativa por intervalo de 90% de confiança para o peso médio dos animais alimentados
com este tipo de ração.
8
X 8
X
n=8 xi = 42.1 x2i = 227.69
i=1 i=1
42.1 1
x= = 5.2625 s2 = 227.69 − 8 × 5.26252 = 0.8769657
8 7
√
2
s = + s = 0.9364644
1 − α = 0.9 ⇒ α = 0.1 ⇒ α/2 = 0.05 t7:0.05 = 1.9
Intervalo de confiança 0.9 para o peso médio dos animais

0.9364644 0.9364644
IC90% (µ) ≡ 5.2625 − √ × 1.9, 5.2625 + √ × 1.9 = [4.931409836, 5.593590164]
8 8
Situação D Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória de dimensão n ≥ 30, de uma

população X cuja distribuição não é normal e cuja variância σ 2 não é conhecida.
Relativamente á Situação B, o que agora se altera é o facto da variância σ 2 ser desconhecida.
Se a variância σ 2 é desconhecida, podemos de imediato pensar em a substituir pela variância
amostral, ou seja, por
n n
! !
2 1 X 2 1 X
2 2
S = Xi − X = Xi − nX .
n−1 n−1
i=1 i=1
Pelo resultado 2.4.7 da secção 2.4.1: Distribuições de amostragem de X, e considerações feitas

a seu propósito,
X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
2
S /n S
Assim, a aplicação do método pivotal conduz aos seguintes resultados:

√ X −µ a
• Estatı́stica pivot: Z =n ∼ N (0, 1)
S
• P (−a ≤ Z ≤ a) ≈ 1 − α
P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =

= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1
e assim
P (−a ≤ Z ≤ a) ≈ 1 − α ⇔ 2Φ (a) − 1 ≈ 1 − α ⇔ Φ (a) ≈ 1 − α/2 ⇔ a ≈ Φ−1 (1 − α/2) ≡ zα/2
•
√ X −µ S S
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
S n n
h i
• IC100(1−α)% (µ) ≡ X − zα/2 √Sn , X + zα/2 √Sn

População não normal com variância σ 2 desconhecida
e n ≥ 30
S S
IC100(1−α)% (µ) ≡ X − √ zα/2 , X + √ zα/2
n n
Em resumo
Tabela 3.1: Intervalos de confiança para o valor médio
Intervalo de confiança (1 − α) para o valor

médio µ
σ σ
A População normal com σ 2 conhecida X − √ zα/2 , X + √ zα/2
n n
σ σ
B População não normal com σ 2 conhecida e n ≥ 30 X − √ zα/2 , X + √ zα/2
n n
S S
C População normal com σ 2 desconhecida X − √ tn−1:α/2 , X + √ tn−1:α/2
n n
2 S S
D População não normal com σ desconhecida e n ≥ 30 X − √ zα/2 , X + √ zα/2
n n
Figura 3.1: Intervalos de confiança para o valor médio: Situações A, B e D

Figura 3.2: Intervalos de confiança para o valor médio: Situação C
3.3 Estimação por intervalo de confiança da variância σ 2 = V (X) da

população X
Agora o parâmetro θ será a variância σ 2 = V (X), e consideramos o seu estimador
n
1 X 2
S2 = Xi − X̄ .
n−1
i=1
Seja uma amostra aleatória (X1 , X2 , . . . , Xn ) da população X. Quando esta população X tem
distribuição N µ, σ 2 , a v.a.
(n − 1) S 2
σ2
tem distribuição do qui-quadrado com (n − 1) graus de liberdade (e podemos escrever de modo abre-
2
viado, (n−1)S
σ2
∼ χ2n−1 ).
A aplicação do método pivotal resulta em:
(n − 1) S 2
• Estatı́stica pivot: X 2 = ∼ χ2n−1
σ2

• P a1 ≤ X 2 ≤ a2 = 1 − α ⇔ P X 2 ≤ a2 − P X 2 ≤ a1 = 1 − α

Sejam p1 = P X 2 ≤ a1 e p2 = P X 2 ≥ a2 probabilidades tais que 1−(p1 + p2 ) = 1−α. Então
a1 ≡ χ2n−1:1−p1 e a2 ≡ χ2n−1:p2 são os quantis de probabilidades p1 e 1 − p2 , respectivamente, da
distribuição χ2n−1 .
Assim

P χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 = 1 − α
•
(n − 1) S 2 (n − 1) S 2 (n − 1) S 2
χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 ⇔ χ2n−1:1−p1 ≤ 2
≤ χ2n−1:p2 ⇔ 2 ≤ σ2 ≤ 2
σ χn−1:p2 χn−1:1−p1

(n−1)S 2 (n−1)S 2
• IC100(1−α)% σ 2 ≡ χ2n−1:p
, χ2
2 n−1:1−p
1
A não simetria da distribuição do qui-quadrado levanta dificuldades na escolha dos valores das
probabilidades p1 e p2 que permitam obter um intervalo de confiança de amplitude mı́nima. Por isso,
e para simplificação do processo de determinação do intervalo, é habitual considerar-se p1 = p2 = α/2,
abdicando-se do objectivo de conseguir o intervalo de menor amplitude.
Adoptando esta estratégia:
a1 ≡ χ2n−1:1−α/2 e a2 ≡ χ2n−1:α/2
Intervalo de confiança (1 − α) para a variância σ 2

População normal com" valor médio desconhecido#
(n − 1) S 2 (n − 1) S 2
IC100(1−α)% σ 2 ≡ ,
χ2n−1:α/2 χ2n−1:1−α/2
Figura 3.3: Intervalo de confiança para a variância
Exemplo 3.4 Considere uma amostra de 25 pessoas cuja altura média e desvio padrão são, respec-
tivamente, 172 e 5 centı́metros. Admitindo que a altura é uma variável com distribuição normal,
estimemos por intervalo de 90% de confiança, a variância e o desvio padrão da altura de todas as
pessoas.
Sabemos que s = 5 e portanto que s2 = 25. Para n = 25 e α = 10%,
χ224:0.95 = 13.848 e χ224:0.05 = 36.415.
A estimativa por intervalo de 90% de confiança para a variância populacional é

2
24 × 25 24 × 25
IC90% σ ≡ , = [16.48, 43.33]
36.415 13.848
Uma estimativa por intervalo de 90% de confiança para o desvio padrão da população poderá ser
h√ √ i
IC90% (σ) ≡ 16.48, 43.33 = [4.06, 6.58]
3.4 Estimação por intervalo de confiança da proporção p de ocorrência

do acontecimento A
Suponhamos que, como resultado de uma experiência aleatória, queremos observar se ocorre ou
não um acontecimento A (sucesso). Para n realizações independentes da experiência, associemos n
variáveis aleatórias Xi , i = 1, . . . , n tais que

0 se não ocorre A
Xi =
1 se ocorre A
n
X
A v.a. K = Xi regista o total de ocorrências de A nas n experiências e tem distribuição
i=1
Binomial de parâmetros (n, p).
Consideremos o estimador de p,
K
P̂ = .
n
Para deduzirmos o intervalo de confiança para p, precisamos da distribuição de amostragem de P̂ .

Essa distribuição de amostragem é nP̂ ≡ K ∼ B (n, p). Contudo a distribuição Binomial não oferece
muita comodidade na determinação de intervalos de confiança. Os intervalos de confiança para p
mais habituais resultam de amostras ”grandes”, porque neste caso podemos usar o resultado 2.4.11
da secção 2.4.3, isto é podemos usar a estatı́stica pivot:
P̂ − p √ P̂ − p a
Z=q = nr ∼ N (0, 1)
P̂ (1−P̂ )
n P̂ 1 − P̂
Método pivot:
√ P̂ − p a
• Estatı́stica pivot: Z = nr ∼ N (0, 1)
P̂ 1 − P̂
• P (−a ≤ Z ≤ a) ≈ 1 − α
P (−a ≤ Z ≤ a) = P (Z ≤ a) − P (Z ≤ −a) = Φ (a) − Φ (−a) =

= Φ (a) − [1 − Φ (a)] = 2Φ (a) − 1
e assim
P (−a ≤ Z ≤ a) ≈ 1 − α ⇔ 2Φ (a) − 1 ≈ 1 − α ⇔ Φ (a) ≈ 1 − α/2 ⇔ a ≈ Φ−1 (1 − α/2) ≡ zα/2

√P̂ − p
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ nr ≤ zα/2 ⇔
P̂ 1 − P̂
v v
u u
u P̂ 1 − P̂ u P̂ 1 − P̂
t t
⇔ P̂ − zα/2 ≤ p ≤ P̂ + zα/2
n n
q q
P̂ (1−P̂ ) P̂ (1−P̂ )
• IC100(1−α)% (p) ≡ P̂ − zα/2 n , P̂ + zα/2 n
Intervalo de confiança (1 − α) para a proporção p

 Amostras v grandes v 
u u
u P̂ 1 − P̂ u P̂ 1 − P̂
 t t 
IC100(1−α)% (p) ≡ 
P̂ − zα/2 , P̂ + zα/2 
n n 
Exemplo 3.5 Num inquérito telefónico destinado a estimar a proporção da população que tem acesso
à internet em casa, foram inquiridas 50 pessoas, das quais 32 afirmaram ter este serviço.
A estimativa por intervalo de 95% de confiança para a proporção da população é
" r r #
0.64 (1 − 0.64) 0.64 (1 − 0.64)
IC95% (p) ≡ 0.64 − 1.96 , 0.64 + 1.96 = [0.507, 0.773]
50 50
pois p̂ = 32/50 = 0.64, z0.05/2 = z0.025 = 1.96 e n = 50.

3.5 Outras distribuições de amostragem
3.5.1 Diferença de médias de amostras de duas populações, X̄ − Ȳ
Tabela 3.2: Distribuição de amostragem para a diferença de médias de amostras de duas populações
Situação Condições de aplicação

Distribuição de X̄ − Ȳ
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22
X̄ − Ȳ − (µ1 − µ2 )
σ12 , σ22 conhecidas q 2 ∼ N (0, 1)
σ1 σ22
n1 + n2

B X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22
X̄ − Ȳ − (µ1 − µ2 )
σ12 = σ22 desconhecida q ∼ tn1 +n2 −2
Sp n11 + n12
C X ∼?, Y ∼?
X̄ − Ȳ − (µ1 − µ2 ) a
σ12 , σ22 conhecidas, n1 e n2 ≥ 30 q 2 ∼ N (0, 1)
σ1 σ22
n1 + n2
D X ∼?, Y ∼?
X̄ − Ȳ − (µ1 − µ2 ) a
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30 q 2 ∼ N (0, 1)
S1 S22
n1 + n2
2 (n1 − 1) S12 + (n2 − 1) S22
Sp =
n1 + n2 − 2
3.5.2 Quociente de variâncias amostrais de duas populações, S12 /S22
Tabela 3.3: Distribuição de amostragem para o quociente de variâncias de amostras de duas populações
Condições de aplicação Distribuição de S12 /S22

σ22 S12
X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 ∼ F(n1 −1,n2 −1)
σ12 S22
µ1 , µ2 desconhecidos
3.5.3 Diferença de proporções amostrais de duas populações pˆ1 − pˆ2
Tabela 3.4: Distribuição de amostragem para a diferença de proporções amostrais de duas populações
Condições de aplicação Distribuição de pˆ1 − pˆ2

(pˆ − pˆ2 ) − (p1 − p2 ) a
n1 ≥ 30 e n2 ≥ 30 r 1 ∼ N (0, 1)
p1 (1 − p1 ) p2 (1 − p2 )
+
n1 n2
Capı́tulo 4
Teste de Hipóteses
4.1 Introdução
Nos capı́tulos 2 e 3 vimos como estimar pontualmente e por intervalo de confiança os parâmetros
de uma população, tendo dado particular relevo ao valor médio, à variância (e ao desvio padrão) e a
uma proporção.
Outro procedimento muito importante em inferência estatı́stica é o teste de hipóteses e que
consiste na averiguação da consistência dos dados amostrais com determinadas conjecturas que se
estabeleçam sobre a população. Por exemplo:
• Num determinado departamento pretende-se estudar o número, X, de faltas ao trabalho (de
cada funcionário) durante os 5 dias úteis de uma semana. X é uma população com distribuição
binomial de parâmetros (5, p) e o seu estudo passa pelo conhecimento do valor de p. Assim esta-
belecer conjecturas sobre a população é adiantar valores para p que correspondam a expectativas
que se tenham sobre X. Por exemplo, podemos perguntar: Será que p = P (falta num dia) ≤ 0.3
ou será que p = P (falta num dia) > 0.3?
• No controlo do processo de engarrafamento de refrigerante em latas de 33cl, podemos conjecturar:

Será que o volume médio de refrigerante por garrafa é igual a 33cl, µ = 33 (boas condições de
engarrafamento) ou será que o volume médio de refrigerante por garrafa é diferente de 33cl,
µ 6= 33 (más condições de engarrafamento).
• Será que o tempo de duração de um telemóvel de uma determinada marca, tem distribuição
exponencial?
Nos dois primeiros exemplos as conjecturas são feitas sobre o valor de parâmetros da população,
ou melhor dizendo sobre o valor dos parâmetros da distribuição da população X. No terceiro exemplo
a conjectura é feita sobre a própria distribuição da população X.
As conjecturas que se fazem sobre a população (quer seja sobre os seus parâmetros, quer seja sobre
a própria distribuição) designam-se por hipóteses.
Num teste de hipóteses existem sempre duas hipóteses: A hipótese nula representada por H0 e a
hipótese alternativa representada por H1 .
Nos exemplos atrás referidos as hipóteses são:
• H0 : p ≤ 0.3 vs H1 : p > 0.3
• H0 : µ = 33 vs H1 : µ 6= 33
36
4. Teste de Hipóteses 37
• H0 : X ∼ E (0, δ) vs H1 : X ≁ E (0, δ)
Os testes cujas hipóteses incidem sobre o valor dos parâmetros de um população dizem-se testes
paramétricos e quando não envolvem parâmetros dizem-se testes não-paramétricos. Nas exem-
plificações anteriores, os dois primeiros testes são paramétricos e o último é não-paramétrico.
A hipótese H0 do segundo exemplo é uma hipótese simples porque nela figura apenas um valor
para o parâmetro. O mesmo não acontece na hipótese H1 desse exemplo porque nela se adiantam
diversos valores para µ. Diz-se então que H1 é uma hipótese composta. Todas as hipóteses que figuram
nos dois outros exemplos são hipóteses compostas.
Num teste de hipóteses pretendemos verificar a validade da hipótese alternativa H1 e por isso é
habitual dizermos que vamos testar H1 . Depois de enunciada a hipótese H1 que se quer testar, define-
se a hipótese nula H0 como a hipótese complementar de H1 .
No exemplo sobre o número de faltas ao trabalho, considera-se grave que p = P (falta num dia) seja
superior a 30%. Se quisermos testar esta situação, estabelecemos a hipótese H1 : p > 0.3 e só depois
ficamos a saber a hipótese que a complementa é H0 : p ≤ 0.3.
O teste de uma hipótese H1 , consiste em aproveitar a informação contida na amostra e em verificar
a consistência dessa informação com a hipótese H0 , decidindo-nos então pela rejeição ou não rejeição
de H0 .
O processo estatı́stico num teste de hipóteses consiste em determinar a probabilidade de, com
os dados amostrais observados, a hipótese nula H0 ser falsa. Se essa probabilidade for elevada, fica
provada a validade de H1 . Se for pequena, não devemos rejeitar H0 porque os dados não suportam a
validade de H1 .
Neste procedimento, a hipótese nula H0 é considerada verdadeira até que se verifique que não existe
evidência estatı́stica que a suporte, devendo então ser rejeitada (aceitando como válida a hipótese
alternativa H1 ).
Em termos práticos, um teste de hipóteses consiste numa partição do conjunto de todas a amostras
que é possı́vel recolher, em dois subconjuntos, designados por região de rejeição (ou região crı́tica) e
região de aceitação.
Mas, como a decisão sobre a rejeição ou não rejeição da hipótese H0 é feita à custa da informação
amostral, podemos sempre cometer erros na decisão. Esses erros são: O erro de tipo I (ou erro de 1a
espécie) correspondente a decidirmos rejeitar a hipótese H0 , quando ela é verdadeira, e o erro de tipo
II (ou erro de 2a espécie) correspondente a não rejeitarmos a hipótese H0 , quando ela é falsa.
Decisão H0 verdadeira H0 falsa
Rejeitar H0 Decisão incorrecta Decisão correcta
Não rejeitar H0 Decisão correcta Decisão incorrecta
Existindo sempre a possibilidade de cometermos estes erros de decisão, podemos associar-lhes uma
probabilidade de ocorrerem. Essas probabilidades são:
γ = P (erro de tipo I) = P (Rejeitar H0 |H0 é verdadeira )
Ao valor máximo desta probabilidade dá-se o nome de nı́vel de significância (usualmente representado
por α).
Os nı́veis de significância mais usados são α = 0.1 = 10% para uma decisão pouco significante,
α = 0.05 = 5% para uma decisão significante e α = 0.01 = 1% para uma decisão altamente significante.
Ao erro de tipo II corresponde a probabilidade
β = P (erro de tipo II) = P (Não rejeitar H0 |H0 é falsa )
A Q = 1 − β dá-se o nome de potência.

O teste óptimo será aquele em que as probabilidades, γ e β, têm um valor mı́nimo. Contudo, é
matematicamente impossı́vel minimizá-las simultaneamente. De facto, quando γ diminui, β aumenta
e vice-versa.
Na prática, os testes que realizamos incluem-se nos denominados testes de significância, ou seja
os testes em que o nı́vel de significância α (valor máximo de γ) é estabelecido por nós (e portanto tem
um valor fixo) e para os quais a função potência 1 − β tem valor máximo (ou equivalentemente, β tem
valor mı́nimo).
Passamos de seguida a apresentar a metodologia usual para a construção de um teste de hipóteses

para o parâmetro θ da população X.
Metodologia: Admitamos que Iθ é um intervalo de valores do parâmetro θ e que queremos testar
as hipóteses:
H0 : θ ∈ Iθ vs H1 : θ ∈
/ Iθ .
com um nı́vel de significância α.

A metodologia usual consiste em:
• Escolher um estimador para θ, T (X1 , X2 , . . . , Xn ), sendo (X1 , X2 , . . . , Xn ) uma amostra aleatória

da população X;
• Seleccionar uma estatı́stica de teste W ≡ W (X1 , X2 , . . . , Xn ), que quantifique a “distância”de

T (X1 , X2 , . . . , Xn ), aos valores de θ ∈ Iθ .
Estabelecer (ou conhecer) a distribuição de W , quando H0 é verdadeira.
• Encontrar a região de rejeição Rα , correspondente ao valores da estatı́stica de teste W que

expressem um “distância”a H0 significativamente grande, isto é que apontem para a não validade
de H0 .
• Face a uma amostra observada (x1 , x2 , . . . , xn ), calcular o valor observado da estatı́stica de teste
wobs = W (x1 , x2 , . . . , xn ) e decidir:
– Rejeitar H0 se wobs = W (x1 , x2 , . . . , xn ) ∈ Rα ;

– Não rejeitar H0 se wobs = W (x1 , x2 , . . . , xn ) ∈
/ Rα .
Para cada teste que a seguir expomos, iremos escolher a estatı́stica de teste W (X1 , X2 , . . . , Xn ),
determinar a região de rejeição Rα , para um nı́vel de significância α fixo, após o que será possı́vel
tomar uma decisão face a uma amostra recolhida.
Com a evolução das ferramentas de cálculo, é hoje possı́vel determinar probabilidades de modo
expedito e cómodo. Por isso, é agora usual associar e tomar decisões sobre um teste de hipóteses
através do conceito de p-value.
O p-value é uma probabilidade que mede até que ponto os dados amostrais sugerem a rejeição de
H0 e é especialmente importante quando o valor observado da estatı́stica de teste está muito próximo
da fronteira da região de rejeição e por isso não rejeitamos H0 por pouco.
Definição 4.1 Seja (x1 , x2 , . . . , xn ) a concretização de uma amostra aleatória (X1 , X2 , . . . , Xn ) e
wobs = W (x1 , x2 , . . . , xn )
o valor observado da estatı́stica de teste. Designa-se por p-value (ou valor-p), a probabilidade de se
observarem valores da estatı́stica de teste tão ou mais desfavoráveis a H0 do que o observado wobs ,
admitindo que H0 é verdadeira.
Podemos ainda dizer que o p-value é o nı́vel de significância do teste, quando calculado com o valor
observado wobs da estatı́stica de teste (máximo da probabilidade do erro de tipo I, caso rejeitemos H0
com o valor wobs ).
NOTA: O p−value é uma medida da concordância entre a hipótese H0 e as amostras que possamos
recolher e que sejam tão ou mais favoráveis à rejeição de H0 . Quanto menor for o p − value, menor é
a consistência da validade de H0 . Assim:
• se p − value ≤ α, rejeitamos H0 ao nı́vel de significância α;
• se p − value > α, não rejeitamos H0 ao nı́vel de significância α

No que se segue, vamos abordar a metodologia de realização de testes de hipóteses paramétricos
para hipóteses do tipo a seguir expostos. Como tal consideremos X uma população caracterizada por
um parâmetro θ de valor desconhecido. As hipóteses que vamos considerar sobre o parâmetro θ são:
Teste bilateral: H0 : θ = θ0 vs H1 : θ 6= θ0
Teste unilateral esquerdo: H0 : θ ≥ θ0 vs H1 : θ < θ0
Teste unilateral direito: H0 : θ ≤ θ0 vs H1 : θ > θ0
Quando os testes são unilaterais, são importantes as seguintes observações:

• Quando na hipótese H0 figura uma desigualdade de ≤ ou ≥, o teste é realizado considerando
apenas a situação em que H0 mais se aproxima de H1 , isto é, quando em θ = θ0 . Assim a
decisão destes testes é equivalente à decisão que resulta quando se estabelece que a hipótese nula
é H0 : θ = θ0 .
• A observação anterior é corroborada pelo facto de, no teste das hipóteses

H0 : θ ≥ θ0 vs H1 : θ < θ0 ,
o nı́vel de significância α = max P (Rejeitar H0 |θ ) = P (Rejeitar H0 |θ = θ0 )
θ≥θ0
e, no caso do teste das hipóteses
H0 : θ ≤ θ0 vs H1 : θ > θ0 ,
α = max P (Rejeitar H0 |θ ) = P (Rejeitar H0 |θ = θ0 )
θ≤θ0
4.2 Teste de hipóteses para o valor médio

Nesta secção vamos dedicar a atenção exclusivamente a hipóteses que estabelecem conjecturas
sobre o valor médio E (X) = µ de uma população X.
4.2.1 Teste de hipóteses bilateral para o valor médio

Exemplo 4.1 Estudos sobre o custo de vida, realizados no mês de Janeiro de 2003, permitiram
concluir que o gasto semanal em alimentação de famı́lias com dois filhos, apresentava um valor médio
de 100 euros com um desvio padrão de 15 euros. No mês de Agosto do mesmo ano, pretendı́amos saber
se tinham ocorrido alterações no gasto semanal médio em alimentação das mesmas famı́lias. Para
tal seleccionou-se uma amostra de gastos semanais em alimentação de 25 famı́lias (com 2 filhos), que
revelou uma média x = 108 euros.
Que conclusões podemos retirar acerca da alteração do gasto médio semanal em alimentação deste
tipo de famı́lias?
A população em estudo é X-gasto semanal em alimentação das famı́lias com 2 filhos, mas o
interesse primordial diz respeito a µ = E (X)-gasto médio semanal em alimentação das famı́lias com
2 filhos. A nossa questão reside em saber se µ permanece igual a 100 euros, µ = 100, ou, se em
Agosto, µ é diferente de 100 euros, µ 6= 100.
Queremos então testar a validade das hipóteses
H0 : µ = 100 vs H1 : µ 6= 100
A decisão acerca da validade de alguma destas hipóteses deverá ser feita à custa da informação que
a amostra fornecer. Uma vez que as hipóteses dizem respeito ao valor médio da população, devemos
considerar a informação que a amostra fornecer sobre µ. Mas já sabemos que a informação amostral
sobre µ, reside na estimativa de µ, ou seja, reside no valor da média de uma amostra de dimensão n,
n
1X
X= Xi
n
i=1
O valor de X vai-nos permitir decidir se µ 6= 100 ou se µ = 100, isto é, vai-nos permitir decidir
se rejeitamos H0 ou se não rejeitamos H0 . Como tal, só nos resta saber, quais os valores de X que
nos levam a rejeitar H0 ou a não rejeitar H0 . Em resumo, precisamos de uma regra de decisão.
Regra de decisão
Se X tiver um valor muito diferente (ou distante) de 100, é natural que se decida que µ 6= 100.

Podemos dizer que X é muito diferente de 100, se X − 100 for muito grande, ou seja se o valor de

X − 100 ultrapassar uma certa quantidade a (a > 0). Então

Rejeitamos µ = 100 se X − 100 > a (a > 0)
ou de modo equivalente

Rejeitamos H0 se X − 100 > a (a > 0)
No caso geral do teste de hipóteses bilateral
H0 : µ = µ0 vs H1 : µ 6= µ0

Rejeitamos H0 se X − µ0 > a (a > 0)
Neste exemplo, o que são os erros de decisão?

Admitamos as seguintes situações:
1. Em Agosto, o gasto médio semanal em alimentação permanece igual a 100 euros, µ = 100. Isto
é o que acontece na população, mas nós não sabemos porque não analisamos a população na
totalidade.
Suponhamos que o acaso da amostragem, levava a que se obtivessem valores amostrais sobre
o gasto semanal em alimentação, muito elevados (muito pequenos).
Então X teria um valor
elevado (pequeno), e de tal modo elevado (pequeno) que X − 100 > a. Como consequência,
irı́amos decidir rejeitar H0 , ou seja, decidir que µ 6= 100.
A nossa decisão seria errada, porque (baseados na amostra) decidı́amos que µ 6= 100 e de facto
µ = 100. Estarı́amos a cometer um erro de tipo I, nomeadamente a rejeitar H0 : µ = 100,
quando H0 é verdadeira.
2. Em Agosto, o gasto médio semanal em alimentação sofreu uma alteração e passou a ter um
valor µ 6= 100. Isto é o que acontece na população, mas nós não sabemos porque não analisamos
a população na totalidade.
Suponhamos
que
a média amostral X exibia um valor não muito diferente de 100, de tal modo
que X − 100 ≤ a. Como consequência, irı́amos decidir não rejeitar H0 : µ = 100, ou seja,
decidir que o gasto médio semanal continuava igual a 100.
Esta decisão seria errada, porque (baseados na amostra) decidı́amos que µ = 100 e de facto
µ 6= 100. O erro cometido era um erro de tipo II, nomeadamente não rejeitar H0 , quando H0 é
falsa.
Probabilidade dos erros de decisão

As probabilidades dos erros de decisão são, neste caso

α = P (Rejeitar H0 |H0 verdadeira ) = P X − 100 > a |µ = 100 (nı́vel de significância)

β (µ) = P (Não rejeitar H0 |H0 falsa ) = P X − 100 ≤ a |µ 6= 100
NOTA: O teste que agora expomos, é um teste que minimiza β (µ), para cada α (nı́vel de sig-
nificância) que escolhermos.
Região de rejeição ou região crı́tica

Consideremos as hipóteses genéricas para um teste bilateral sobre o valor médio,
H0 : µ = µ0 vs H1 : µ 6= µ0
Já vimos que podemos

Rejeitar H0 se X − µ0 > a (a > 0)
Mas qual o valor de a?
Admitamos que escolhı́amos um nı́vel de significância α para o nosso teste. Então

α = P X − µ0 > a |µ = µ0
Trata-se de uma probabilidade cujo valor conhecemos, o que desconhecemos é o valor de a. Mas
se soubermos qual a distribuição da v.a. X, podemos trabalhar esta igualdade sobre probabilidades e
portanto deduzir o valor de a.
Suponhamos que a população goza das seguintes caracterı́sticas:

X tem distribuição normal de valor médio µ e variância conhecida, σ 2 = V (X), X ∼ N µ, σ 2

Então a nossa amostra aleatória (X1 , . . . , Xn ) é constituı́da por v.a.’s com distribuição N µ, σ 2

σ2
e portanto X tem distribuição normal de valor médio µ e variância σ 2 /n, X ∼ N µ, , isto é
n
√ X −µ
Z= n ∼ N (0, 1).
σ
√ X − µ0
Quando H0 : µ = µ0 é verdadeira, Z = n ∼ N (0, 1)
σ sob H0
Agora já podemos determinar o valor de a.

√ X − µ0 √ a √ a
α = P X − µ0 > a |µ = µ0 = P n > n = P |Z| > n √ =
σ σ n
√ a √ a √ a √ a
= P Z<− n +P Z > n =Φ − n +1−Φ n =
√ a σ √ a σ √ aσ √σ a
= 1−Φ n +1−Φ n = 2 − 2Φ n =2 1−Φ n
σ σ σ σ
ou seja
√ a α √ a α σ
Φ n = 1 − ⇔ n = Φ−1 1 − = zα/2 ⇔ a = √ zα/2
σ 2 σ 2 n
Regra de decisão para um nı́vel de significância α
σ
Rejeitar H0 se X − µ0 > √ zα/2
n

√ X − µ0
Rejeitar H0 se n
> zα/2
σ
NOTAS:
• Repare que conseguimos deduzir o valor de a porque soubemos as caracterı́sticas da população
e portanto conseguimos saber qual a distribuição de X. Repare também que este conhecimento
das caracterı́sticas da população X corresponde à situação A descrita na secção 2.4.1.
√ X − µ0 √ X − µ0
• Z= n é a estatı́stica de teste e Z = n ∼ N (0, 1).
σ σ µ=µ0

• A região de rejeição, para um nı́vel de significância α, é Rα ≡ −∞, −zα/2 ∪ zα/2 , +∞ .
√ x − µ0
• A regra de decisão, para um nı́vel de significância α será a de rejeitar H0 caso zobs = n ∈
σ
Rα .
• Quanto ao p − value, ter-se-á
p − value = P (|Z| > |zobs | |H0 ) ,
com Z ∼ N (0, 1).

µ=µ0
Exemplo 4.2 Continuação do exemplo 4.1

As hipóteses são
H0 : µ = 100 vs H1 : µ 6= 100
Sabemos que σ = 15 e que a amostra de n = 25 observações forneceu x = 108.

Pn
• Estimador de µ: X = i=1 Xi /n;
√
• Estatı́stica de teste: Z = 25 X−100
15 ∼ N (0, 1);
µ=100
• Região de rejeição para um nı́vel de significância α = 0.05:

R0.05 ≡ ]−∞, −c[ ∪ ]c, +∞[ com c tal que 0.05 = P (Z ∈ R0.05 )
P (Z ∈ R0.05 ) = P (|Z| > c) = 2P (Z > c)
0.05 = 2P (Z > c) ⇔ P (Z > c) = 0.025 ⇔ c = z0.025 = 1.96
Então R0.05 ≡ ]−∞, −1.96[ ∪ ]1.96, +∞[;
• Regra de decisão do teste, ao nı́vel de significância de 5%: Rejeitar H0 se zobs ∈ R0.05 ;
• Decisão,
√ ao nı́vel de 5% de significância:
zobs = 25 108−100
15 = 2.667 ∈ R0.05
Rejeitamos H0 ao nı́vel de significância de 5%, isto é, existe evidência estatı́stica para podermos
afirmar que existe alteração no gasto médio semanal no mês de Agosto.
Cálculo e decisão pelo p − value

√
Sendo zobs = 25 108−100
15 = 2.667,
p − value = P (|Z| > |2.667|) = 2P (Z > 2.667) = 2 (1 − P (Z ≤ 2.667)) = 2 (1 − 0.9962) = 0.0076
Dado que p − value < 0.05, decidimos rejeitar H0 : µ = 100, ao nı́vel de 5% de significância.
Outros testes de hipóteses bilaterais para o valor médio

Como foi dito na nota importante, a regra de decisão atrás
deduzida dependeu do conhecimento
das caracterı́sticas da população X, nesse caso de X µ, σ 2 .
Quando esse conhecimento é diferente, a regra de decisão altera-se, mas a alteração depende
essencialmente da distribuição de amostragem que resulta para X. Recaı́mos então nas situações
expostas na secção 2.4.1 e portanto as regras de decisão para um teste bilateral para o valor médio µ,
com um nı́vel de significância α, vão ser:
Tabela 4.1: Testes de hipóteses bilateral para o valor médio
H0 : µ = µ0 vs H1 : µ 6= µ0
Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição (c > 0)

√ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
√
C X ∼ N µ, σ 2 com σ 2 desconhecida T = n X−µ S
0
∼ tn−1 ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
µ=µ0
Figura 4.1: Teste bilateral para o valor médio: Situações A, B e D
Figura 4.2: Teste bilateral para o valor médio: Situação C

Exemplo 4.3 Medições de acidez (pH) de amostras de chuva foram registadas em 12 locais de uma
região industrial:
5.1 5.0 3.8 4.8 3.6 4.7

4.3 4.4 4.5 4.9 4.7 4.8
Por estudos anteriores sabe-se que os registos de acidez da chuva nesta região têm distribuição
normal.
Poderemos concluir, com 5% de significância, que os nı́veis actuais de acidez média da chuva saem
fora do valor de controlo de 4.5 de acidez média na região?
Pretendemos testar, com α = 5%, as hipóteses
H0 : µ = 4.5 vs H1 : µ 6= 4.5
sendo µ o nı́vel de acidez média da chuva na região.

A amostra possibilita a seguinte informação:
54.6 2.35
n = 12 x = 12 = 4.55 s2 = 11 = 0.213637
Pn
√
• Estatı́stica de teste: T = 12 X−4.5
S ∼ t11 ;
µ=4.5
• Região de rejeição para um nı́vel de significância α = 0.05:

R0.05 ≡ ]−∞, −c[ ∪ ]c, +∞[ com c tal que 0.05 = P (T ∈ R0.05 )
P (T ∈ R0.05 ) = P (|T | > c) = 2P (T > c)
0.05 = 2P (T > c) ⇔ P (T > c) = 0.025 ⇔ c = t11:0.025 = 2.201
Então R0.05 ≡ ]−∞, −2.201[ ∪ ]2.201, +∞[;
• Regra de decisão do teste, ao nı́vel de significância de 5%: Rejeitar H0 se tobs ∈ R0.05 ;
• Decisão,
√ ao nı́vel de 5% de significância:
tobs = 12 √4.55−4.5
0.213637
= 0.3747 ∈
/ R0.05
Não rejeitamos H0 ao nı́vel de significância de 5%, isto é, não existe evidência estatı́stica para
podermos afirmar que os nı́veis actuais de acidez média saem fora do valor de controlo.
Cálculo e decisão pelo p − value

√ X − 4.5 √ 4.55 − 4.5
Sendo T = 12 ∼ t11 a estatı́stica de teste e tobs = 12 √ = 0.3747,
S µ=4.5 0.213637
p − value = P (|T | > |0.3747|) = 2P (T > 0.3747) = 2 × 0.3575 = 0.715
Dado que p − value > 0.05, decidimos não rejeitar H0 : µ = 4.5, ao nı́vel de 5% de significância.
4.2.2 Teste de hipóteses unilateral direito para o valor médio

As hipóteses num teste bilateral sobre o valor médio µ conjecturam se o valor médio de uma
população X tem um valor µ0 ou se ocorreram alterações e o seu valor actual é diferente de µ0 . Mas,
por vezes tem mais interesse saber se essas alterações ocorreram no sentido do valor de µ ser agora
maior que µ0 .
H0 : µ ≤ µ0 vs H1 : µ > µ0
Veja-se o seguinte exemplo:

Exemplo 4.4 Anuncia-se que um novo tratamento é mais eficaz que o tratamento tradicional para
prolongar a vida de doentes em estado terminal sofrendo de cancro. O tratamento tradicional já é usado
à algum tempo e sabe-se que a sua aplicação provoca um tempo médio de 4.2 anos de sobrevivência
com um desvio padrão de 1.1 anos.
O novo tratamento foi administrado a 80 pacientes e os tempos registados de sobrevivência à doença
desde o começo do tratamento exibiram uma média amostral de 4.5 anos.
Será que esta informação corrobora o anúncio feito ao novo tratamento?
As conjecturas em causa são
H0 : µ ≤ 4.2 vs H1 : µ > 4.2
sendo µ o tempo médio de sobrevivência desde o inı́cio de um tratamento.

Naturalmente a regra de decisão
passa por rejeitarmos a hipótese H 0 : µ ≤ 4.2 se X − 4.2 for
muito grande, isto é se X − 4.2 > b com b > 0.
Mas qual a distribuição de X? Se considerarmos que o desvio padrão se mantém com o valor de
σ = 1.1 anos, estamos no caso da situação B da secção 2.4.1, porque não se conhece a distribuição da
população X-tempo de sobrevivência desde o inı́cio de um tratamento, mas conhece-se a sua variância
e tem-se uma amostra de dimensão n = 80 ≥ 30. Portanto podemos dizer que, quando µ = µ0 ≡ 4.2,

√ X − µ0 √ X − µ0 a
Z= n tem distribuição assintótica N (0, 1) Z= n ∼ N (0, 1)
σ σ µ=µ0
Então, para um nı́vel de significância α,

α = max P (Rejeitar H0 |H0 verdadeira ) = max P X − 4.2 > b |µ ≤ 4.2 = P X − 4.2 > b |µ = 4.2 =
µ

√ X − 4.2 √ b √ b
= P n > n ≈1−Φ n
σ σ σ

√ b √ b
Considerando α = 1 − Φ n ⇒ n = Φ−1 (1 − α) = zα
σ σ

σ
Rejeitar H0 se X − 4.2 > √ zα
n
√ X − 4.2
Rejeitar H0 se n > zα
σ
Como n = 80, x = 4.5, σ = 1.1 e, para α = 10%, z0.1 = Φ−1 (0.9) = 1.28
√ X − 4.2
n = 2.4393 > 1.28 = z0.1
σ
decidimos que a amostra corrobora o anúncio de que o novo tratamento prolonga a vida dos doentes,
com uma significância de 10% na decisão.
Se usarmos a metodologia proposta para a realização de um teste de hipótese, temos as seguintes
fases de resolução:
Pn
√ X − 4.2 a
• Estatı́stica de teste: Z = 80 ∼ N (0, 1);
σ µ=4.2
• Região de rejeição, para um nı́vel de significância α = 0.1: R0.1 ≡ ]c, +∞[, com c tal que
0.1 = P (Z ∈ R0.1 ).
0.1 = P (Z ∈ R0.1 ) ⇔ 0.1 = P (Z > c) ⇔ c = z0.1 = 1.28.
Então R0.1 ≡ ]1.28, +∞[
• Regra de decisão, para um nı́vel de significância α = 10%: Rejeitar H0 caso zobs ∈ ]1.28, +∞[;
√ 4.5 − 4.2
• Decisão ao nı́vel de 10% de significância: Como zobs = 80 = 2.4393 ∈ R0.1 , decidimos
1.1
rejeitar H0 , ao nı́vel de 10% de significância.
p − value ≈ P (Z > zobs ) = P (Z > 2.44) = 1 − 0.9927 = 0.0073,
Assim p − value < 0.1 (α) permite-nos decidir pela rejeição de H0 ao nı́vel de 10% de sig-
nificância.
NOTA IMPORTANTE: Repare que conseguimos deduzir a distribuição de amostragem da

estatı́stica de teste, porque estavam satisfeitas as condições referidas na situação situação B da secção
2.4.1 para a distribuição de amostragem de X.
Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:
Figura 4.3: Teste unilateral direito para o valor médio: Situações A, B e D

Tabela 4.2: Testes de hipóteses unilateral direito para o valor médio
H0 : µ ≤ µ0 vs H1 : µ > µ0
Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição

√ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]c, +∞[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]c, +∞[
µ=µ0
√
0
∼ tn−1 ]c, +∞[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]c, +∞[
µ=µ0
Figura 4.4: Teste unilateral direito para o valor médio: Situação C
4.2.3 Teste de hipóteses unilateral esquerdo para o valor médio

Mas também pode ter interesse saber se as alterações de µ ocorrem no sentido do seu valor ser
menor que µ0 .
H0 : µ ≥ µ0 vs H1 : µ < µ0
Vejamos o seguinte exemplo:
Exemplo 4.5 Num processo de fabrico de placas de vidro, produzem-se bolhas que se distribuem
aleatoriamente pelas placas. Com base na abundante informação recolhida pelo departamento de qual-
idade, a densidade média das bolhas estimava-se, até há pouco tempo, em 0.4 bolhas/m2 .
Recentemente fez-se uma tentativa de melhorar o processo produtivo, em particular no tocante ao
aparecimento deste tipo de defeito. Depois de serem introduzidas alguma alterações no processo de
fabrico, recolheu-se uma amostra constituı́da por 15 placas de 4.5 m2 , e registou-se o número de bol-
has em cada uma delas. A média da amostra foi de x = 0.317 bolhas/m2 e o desvio padrão amostral
foi de s = 0.2254 bolhas/m2 .
Verifiquemos, ao nı́vel de significância de 5%, se a densidade esperada de bolhas por m2 diminuiu.
Se µ representar a densidade média de bolhas/m2 , as hipóteses que estão em causa são:
H0 : µ ≥ 0.4 vs H1 : µ < 0.4
Face à presente hipótese
nula H0 : µ ≥ 0.4, a regra de decisão mais
natural passa por rejeitarmos
H0 : µ ≥ 0.4 se X − 0.4 for muito menor que 0, isto é se X − 0.4 < c com c < 0.
Mas qual a distribuição de X? Se considerarmos que a distribuição da população X-no de bolhas/m2

tem distribuição normal, desconhecemos a sua variância e portanto estamos no caso da situação C
descrita na secção 2.4.1. Podemos dizer que, quando µ = µ0 = 0.4,

√ X − µ0 √ X − µ0
T = n tem distribuição tn−1 T = n ∼ tn−1
S S µ=µ0

α = max P (Rejeitar H0 |H0 verdadeira ) = max P X − 0.4 < c |µ ≥ 0.4 = P X − 0.4 < c |µ = 0.4 =
µ

√ X − 0.4 √ c √ c
= P n < n =P T < n
S S S
√ c √ c
Logo α = P T < n ⇒ n = tn−1:1−α = −tn−1:α
S S
S
Rejeitar H0 se X − 0.4 < − √ tn−1:α
n
√ X − 0.4
Rejeitar H0 se n < −tn−1:α
S
Como n = 15, x = 0.317, s = 0.2254 e, para α = 5%, tn−1:α = t14:0.05 = 1.76

√ x − 0.4
n = −1.42617 > −1.76 = −t14:0.05
s
decidimos não rejeitar H0 ao nı́vel de significância de 5%, ou melhor dizendo, decidimos que a den-
sidade esperada de bolhas/m2 não parece diminuir, sendo de 5% a significância desta conclusão.
Usando a metodologia de realização de um teste de hipóteses, seguir-se-iam as seguintes deduções:
Pn
√ X − 0.4
• Estatı́stica de teste: T = 15 ∼ t14 ;
S µ=0.4
• Região de rejeição, para um nı́vel de significância α = 0.05: R0.05 ≡ ]−∞, −c[, com c tal que
0.05 = P (T ∈ R0.05 ).
0.05 = P (T ∈ R0.05 ) = P (T < −c) ⇔ 0.05 = P (T > c) ⇔ c = t14:0.05 = 1.76.
EntãoR0.05 ≡ ]−∞, −1.76[;
• Regra de decisão, para um nı́vel de significância α = 5%: Rejeitar H0 se tobs ∈ ]−∞, −1.76[;
√ 0.317 − 0.4
• Decisão ao nı́vel de 5% de significância: Como tobs = 15 = −1.42617 ∈
/ R0.05 ,
0.2254
decidimos não rejeitar H0 .
p − value = P (T < tobs |µ = 0.4 ) = P (T < −1.42617) = P (T > 1.42617) = 0.0879,
com T ∼ t14 . Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel
µ=0.4
de 5% de significância.
Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:
Tabela 4.3: Testes de hipóteses unilateral esquerdo para o valor médio
H0 : µ ≥ µ0 vs H1 : µ < µ0
Situação Conhecimento de X e da amostra Estatı́stica teste Região rejeição

√ X−µ0
A X ∼ N µ, σ 2 com σ 2 conhecida Z= n σ ∼ N (0, 1) ]−∞, c[
µ=µ0
√ X−µ0 a
B X ∼? com σ 2 conhecida e n ≥ 30 Z= n σ ∼ N (0, 1) ]−∞, c[
µ=µ0
√
0
∼ tn−1 ]−∞, c[
µ=µ0
√ X−µ0 a
D X ∼? com σ 2 desconhecida e n ≥ 30 Z= n S ∼ N (0, 1) ]−∞, c[
µ=µ0
Figura 4.5: Teste unilateral esquerdo para o valor médio: Situações A, B e D

Figura 4.6: Teste unilateral esquerdo para o valor médio: Situação C
4.3 Teste de hipóteses para a variância

Nesta secção vamos dedicar a atenção exclusivamente a hipóteses que estabelecem conjecturas
sobre a variância σ 2 = V (X) de uma população X.
Os procedimentos e os conceitos são similares aos utilizados nas deduções dos testes para o valor
médio.
Os pressupostos a estabelecer sobre a experiência estatı́stica são:
1. Ter uma amostra aleatória (X1 , . . . , Xn ) de dimensão n da população X;
2. A população X ter uma distribuição normal com valor médio µ e variância σ 2 desconhecidas.
1 Pn 2
Para estimador de σ 2 vamos usar S 2 = i=1 Xi − X e, para estatı́stica de teste
n−1
(n − 1) S 2
X2 =
σ2
que quantificará a “distância”entre S 2 e σ 2 através de um quociente.
4.3.1 Teste de hipóteses bilateral para a variância

Consideremos as hipóteses
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
Naturalmente que devemos rejeitar a hipótese σ 2 = σ02 se a amostra nos fornecer uma estimativa
S2
S 2 muito ”diferente”de σ02 . Dito de outro modo, se o quociente 2 for muito pequeno ou se for muito
σ0
(n − 1) S 2
grande. Mas se isto acontecer, também o quociente deverá ser ”demasiado”pequeno ou
σ02
”demasiado”grande. Numa formulação matemática, deveremos rejeitar a hipótese de σ 2 = σ02 se,
(n − 1) S 2 (n − 1) S 2
< a ou > b.
σ02 σ02
Mas qual o valor de a e de b?

Ora, quando σ 2 = σ02 , a estatı́stica de teste tem distribuição
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
(distribuição do qui-quadrado com (n − 1) graus de liberdade).


(n − 1) S 2 (n − 1) S 2
α = P (Rejeitar H0 |H0 verdadeira ) = P <a +P >b
σ02 σ02
Repartindo a probabilidade α em partes iguais para a cauda esquerda e direita da distribuição
χ2n−1 , tem-se
a = χ2n−1:1−α/2 e b = χ2n−1:α/2 .

(n − 1) S 2 (n − 1) S 2
Rejeitar H0 se 2 < χ2n−1:1−α/2 ou se > χ2n−1:α/2
σ0 σ02

p-value=2 min P X 2 < x2obs , P X 2 > x2obs
Figura 4.7: Teste bilateral para a variância
4.3.2 Teste de hipóteses unilateral direito para a variância

H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02

Naturalmente que devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa
S2 (n − 1) S 2
S 2 para a qual o quociente 2 é muito grande. Mas se isto acontecer, também o quociente
σ0 σ02
deverá ser ”demasiado”grande. Resumindo, deveremos rejeitar a hipótese de σ 2 ≤ σ02 se,
(n − 1) S 2
> a.
σ02
Mas qual o valor de a? Ora, quando σ 2 ≤ σ02 , a estatı́stica de teste
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade) quando σ 2 = σ02 é verdadeira.

2 2
(n − 1) S 2
α = P Rejeitar H0 σ = σ0 = P
>a
σ02
Isto implica que
a = χ2n−1:α .

(n − 1) S 2
Rejeitar H0 se > χ2n−1:α
σ02

p-value=P X 2 > x2obs
Figura 4.8: Teste unilateral direito para a variância

4.3.3 Teste de hipóteses unilateral esquerdo para a variância

H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Neste caso devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa S 2 para
S2 (n − 1) S 2
a qual o quociente 2 é muito pequeno. Mas se isto acontecer, também o quociente deverá
σ0 σ02
ser ”demasiado”pequeno. Deveremos então rejeitar a hipótese de σ 2 ≥ σ02 se,
(n − 1) S 2
< a.
σ02
Mas qual o valor de a? Ora, quando σ 2 ≥ σ02 , a estatı́stica de teste passará a ser
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade). Então, para um nı́vel de
significância α,

(n − 1) S 2
α = P (Rejeitar H0 |H0 verdadeira ) = P <a
σ02
Isto implica que
a = χ2n−1:1−α .

(n − 1) S 2
Rejeitar H0 se < χ2n−1:1−α
σ02

p-value=P X 2 < x2obs
Exemplo 4.6 A administração de uma SAD reclama que o investimento nas suas acções é seguro
e que o desvio padrão do preço das acções é inferior a 2 euros. Suponha que está interessado numa
eventual compra de acções desta SAD mas, antes de fazer a compra decide testar a veracidade das
afirmações da administração. Para tal escolheu aleatoriamente 30 dias dos últimos 3 anos e registou
o preço das acções. A amostra facultou um desvio padrão amostral de s = 1.70 euros.
Será que esta estimativa indica, ao nı́vel de 5% de significância, que a administração da SAD está
a dar informação verdadeiras?
Queremos testar
H0 : σ ≥ 2 vs H1 : σ < 2
que é equivalente a testar
H0 : σ 2 ≥ 4 vs H1 : σ 2 < 4.
A informação disponı́vel é:
n = 30 α = 0.05 s2 = 1.702 = 2.89

Figura 4.9: Teste unilateral esquerdo para a variância
1 Pn 2
• Estimador de σ 2 : S 2 = n−1 i=1 Xi − X̄ ;
2
• Estatı́stica de teste: X 2 = 29 S4 ∼ χ229 , tendo admitido que o preço das acções tem distribuição
σ 2 =4
normal;
• Região de rejeição
para um nı́vel de significância α = 0.05: R0.05 ≡ [0, c[, com c tal que 0.05 =
2
P X ∈ R0.05 .
0.05 = P X 2 ∈ R0.05 ⇔ 0.05 = P X 2 < c ⇔ c = χ229:0.95 = 17.708.
Então R0.05 ≡ [0, 17.708[;
• Regra de decisão, com 5% de significância: Rejeitar H0 se x2obs ∈ [0, 17.708[;
2
• Decisão ao nı́vel de significância de 5%: x2obs = 29 1.70
4 = 20.953 ∈ / R0.05 , logo não rejeitamos
H0 com 5% de significância, isto é, não existe evidência estatı́stica para duvidar das afirmações
da administração da SAD.

p − value = P X 2 < x2obs σ 2 = 0.4 = P X 2 < 20.953 = 0.1319.
Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel de 5% de sig-
nificância.
4.4 Outros testes de hipóteses

Para outros testes de hipóteses usuais, limitamo-nos a apresentar os quadros resumos das es-
tatı́sticas de teste a utilizar e respectivas regiões de rejeição.
4.4.1 Teste de hipóteses para a proporção

Exemplo 4.7 Um comerciante admite que a possibilidade de um cliente adquirir pelo menos um
produto na sua loja é constante e de valor superior a 0.4. Durante um mês, contou o números de
Tabela 4.4: Testes de hipóteses para a variância
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
Condições de aplicação Estatı́stica teste Região rejeição (0 < c1 < c2 )
(n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 [0, c1 [ ∪ ]c2 , +∞[
σ 2 =σ02
H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
2
X ∼ N µ, σ 2 , µ desconhecido X2 = (n−1)S
σ02
∼ χ2n−1 [0, c[
σ 2 =σ02
H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02
(n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 ]c, +∞[
σ 2 =σ02
Tabela 4.5: Testes para a proporção, p
H0 : p = p0 vs H1 : p 6= p0
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
p0 (1−p0 ) p=p0
H0 : p ≥ p0 vs H1 : p < p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, c[
p0 (1−p0 ) p=p0
H0 : p ≤ p0 vs H1 : p > p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]c, +∞[
p0 (1−p0 ) p=p0
clientes que entraram na loja assim como os que fizeram alguma compra, tendo registado os valores
878 e 495, respectivamente. A informação recolhida permite corroborar as suas suspeitas?
As hipóteses a teste deverão ser
H0 : p ≤ 0.4 vs H1 : p > 0.4
que vamos testar com um nı́vel de significância α = 10%.
A informação disponı́vel é:
p̂ = 495/878 = 0.56 n = 878
• Estimador de p: P̂ =;
√ a
• Estatı́stica de teste: Z = 878 √ P̂ −0.4 ∼ N (0, 1);
0.4(1−0.4) p=0.4
• Região de rejeição para um nı́vel de significância α = 10%: R0.10 ≡ ]−∞, −c[ ∪ ]c, +∞[, com c
tal que 0.10 = P (Z ∈ R0.10 ).
0.10 = P (Z ∈ R0.10 ) ⇔ 0.10 = P (|Z| > c) ⇔ 0.10 = 2P (Z > c) ⇔ 0.05 = P (Z > c) ⇔
⇔ c = z0.05 = 1.28
Então R0.10 ≡ ]−∞, −1.28[ ∪ ]1.28, +∞[;
• Regra de decisão ao nı́vel de significância de 10%: Rejeitar H0 se zobs ∈ ]−∞, −1.28[∪]1.28, +∞[;
√
• Decisão ao nı́vel de 10% de significância: zobs = 878 √0.56−0.4 = 9.68 ∈ R0.10 , logo rejeitamos
0.4(1−0.4)
H0 , ou seja, existe evidência estatı́stica para afirmar que a probabilidade de qualquer cliente fazer
uma compra é superior a 0.4, com uma significância de 10%.
• O p-value associado ao teste é: p − value = P (|Z| > |zobs |) = P (|Z| > 9.68) ≈ 0.
4.4.2 Teste de hipóteses para comparação do valor médio de duas populações
Tabela 4.6: Testes de hipóteses para comparação de dois valores médios
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição (c > 0)

A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2
Ȳ
2
∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30

C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, −c[ ∪ ]c, +∞[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30
H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição
2
2

A X ∼ N µ1 , σ1 , Y ∼ N µ2 , σ2 Z = X̄−
r
2
Ȳ
2
∼ N (0, 1) ]−∞, c[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
σ1 σ2 µ1 =µ2
n1 + n2
2

C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, c[
Sp n +n
µ1 =µ2
1 2
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
S1 S2 µ1 =µ2
n1 + n2
2
H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição

A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2
Ȳ
2
∼ N (0, 1) ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2

C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]c, +∞[
Sp n +n
µ1 =µ2
1 2
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
Exemplo 4.8 A FNN decidiu comprar fatos novos para os atletas. Adquiriu 6 fatos da marca mais
cara (Tipo A) e 7 da marca mais barata (TIPO B) e enviou-os para um laboratório, onde se registaram
os tempos de duração até romperem. Os registos, em horas, aparecem na tabela que se segue:
Tipo A: 1400 1725 1610 1605 1950 1575

Tipo B: 1615 1665 1730 1755 1632 1606 1790
Admitindo que o tempo de duração dos fatos para cada marca têm uma lei normal com a mesma
variância, poderá dizer, com uma significância de 5%, que as durações médias dos fatos das duas
marcas são idênticas?
Estime por intervalo de 95% de confiança a diferença entre as durações médias dos fatos de cada
marca.
As hipóteses a testar deverão ser
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
que vamos testar com um nı́vel de significância α = 5%.

A informação amostral é:
n1 = 6 x̄ = 1644.17 s21 = 182.852 n2 = 7 ȳ = 1684.71 s22 = 73.372 s2p = 199469.5539
tn1 +n2 −2:α/2 = t11:0.025 = 2.201

Supondo que o tempo de duração dos fatos têm distribuição normal e que são iguais, temos:
X̄−
q Ȳ
• Estatı́stica de teste: T = 1
∼ t11 ;
Sp 6
+ 71 µ1 =µ2
• Região de rejeição para um nı́vel de significância α = 5%: R0.05 = ]−∞, −c[ ∪ ]c, +∞[, com c
tal que P (T ∈ R0.05 ) = 0.05.
P (T ∈ R0.05 ) = 0.05 ⇔ P (|T | > c) = 0.05 ⇔ 2P (T > c) = 0.05 ⇔ P (T > c) = 0.025 ⇔
⇔ c = t11:0.025 = 2.201.
Então R0.05 = ]−∞, −2.201[ ∪ ]2.201, +∞[;
• Regra de decisão ao nı́vel de 5% de significância:

Rejeitar H0 caso tobs ∈ ]−∞, −2.201[ ∪ ]2.201, +∞[;
• Decisão: tobs = q 1644.17−1684.71 = 0.163 ∈

/ R0.05 , pelo que não existe evidência para se afirmar
199469.5539( 16 + 71 )
que os tempos médios são distintos, com uma significância de 5%.
O intervalo de confiança (1 − α) = 1 − 0.05 = 0.95 para µ1 − µ2 coincide com a região de não

rejeição do teste das hipóteses
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
Assim, o intervalo de (1 − α) de confiança para µ1 − µ2 é

" r r #
1 1 1 1
IC95% (µ1 − µ2 ) ≡ X̄ − Ȳ − 2.201 Sp + , X̄ − Ȳ + 2.201 Sp +
6 7 6 7
e a estimativa para a diferença médias das durações dos fatos é

" r r #
1 1 1 1
1644.17 − 1684.71 − 2.201 × 446.62 + , 1644.17 − 1684.71 + 2.201 × 446.62 + =
6 7 6 7
= [−587.437, 506.357]
4.5 Teste ao pressuposto da normalidade de uma população

O teste de ajustamento do qui-quadrado é uma técnica estatı́stica que permite testar se uma dada
v.a. ou população tem uma distribuição F preconizada.
Apresentaremos aqui, a aplicação deste teste à situação em que pretendemos saber se uma dada
população tem distribuição normal que, como vimos no capı́tulo 3 e na secção anterior, é uma in-
formação fundamental para o conhecimento da estatı́stica que é mais conveniente utilizar na dedução
do intervalo de confiança ou para a realização de um teste de hipóteses.
H0 : X tem distribuição normal vs H1 : X não tem distribuição normal
A resposta a este tipo de conjecturas sobre a distribuição da população X é importante porque
permitir-nos-á saber que tipo de situação, nomeadamente as que temos vindo a identificar como
situação A, B, C e D, devemos considerar para calcular intervalos de confiança e realizar testes de
hipóteses sobre valores médios e sobre variâncias.
Exemplo 4.9 Consideremos a amostra de medições da acidez (pH) da água da chuva apresentada
no exemplo 4.3. Nesse exemplo, admitimos que a população X-”Acidez (pH) da água da chuva”tinha
distribuição normal.
Vamos agora testar se este pressuposto se verifica ou não, ou seja vamos testar as hipóteses:
H0 : X tem distribuição normal vs H1 : X não tem distribuição normal
A nossa amostra era
5.1 5.0 3.8 4.8 3.6 4.7
4.3 4.4 4.5 4.9 4.7 4.8
a que se acrescentaram as seguintes observações, para efeitos de aplicação do teste:
4.6 5.0 4.2 4.6 4.4 5.0 4.7 4.2 4.0 3.9 4.0 4.3
4.6 4.2 4.8 4.2 4.2 4.4 5.5 4.6 4.4 4.0 4.5 4.8
A nova amostra com dimensão n = 36 apresenta uma média x = 4.49 e um desvio padrão amostral
s = 0.406.
Comecemos por agrupar em classes as observações amostrais. Para tal consideremos os seguintes
intervalos (denominados classes) para agrupamento dos dados: ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4],
]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e ]5.0, +∞[.
As frequências absolutas e relativas de observações em cada intervalo são:
Tabela de frequências
Classe Frequência absoluta Frequência relativa
i Ci Oi Fi
1 ]−∞, 3.8] 2 2/36=0.056
2 ]3.8, 4.0] 4 4/36=0.111
3 ]4.0, 4.2] 5 5/36=0.138
4 ]4.2, 4.4] 6 6/36=0.167
5 ]4.4, 4.6] 6 6/36=0.167
6 ]4.6, 4.8] 7 7/36=0.194
7 ]4.8, 5.0] 4 4/36=0.111
8 ]5.0, +∞[ 2 2/36=0.056
Totais 36 1
A frequência relativa de uma classe é uma estimativa da probabilidade dessa classe.

Por exemplo, a frequência relativa 4/36 = 0.111 da classe ]3.8, 4.0] é uma estimativa da verdadeira
probabilidade desta classe, ou seja de P (3.8 < X ≤ 4.0).
Ora, se a hipótese H0 : X tem distribuição normal, for verdadeira, isto é, se X ∼ N µ, σ 2 ,
p2 = P (C ∈ C2 ) = P (3.8 < X ≤ 4.0) = P (X ≤ 4.0) − P (X ≤ 3.8) =

4.0 − µ 3.8 − µ
= P Z≤ −P Z ≤ =
σ σ

4.0 − µ 3.8 − µ
= Φ −Φ
σ σ
que não podemos calcular porque desconhecemos o valor de µ e de σ.
Contudo, sabemos que os estimadores X e S fornecem boas estimativas para µ e para σ, respecti-
vamente. Portanto, podemos estimar a anterior probabilidade, substituindo µ por X e σ por S.
Assim

4.0 − x 3.8 − x
p2 = P (X ∈ C2 ) ≈ Φ −Φ =
s s
= Φ (−1.21) − Φ (−1.70) = 0.0691
Nota: Repare que, para o cálculo da probabilidade, fomos obrigados a usar as estimativas de 2
parâmetros.
Se repetirmos este raciocı́nio para as restantes classes, então as frequências relativas 2/36 = 0.056,
4/36 = 0.111, 5/36 = 0.138, 6/36 = 0.167, 6/36 = 0.167, 7/36 = 0.194, 4/36 = 0.111 e 2/36 = 0.056
das classes, respectivamente, ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4], ]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e
]5.0, +∞[, são estimativas das seguintes probabilidades (caso H0 seja verdadeira),

3.8 − x
p1 = P (X ∈ C1 ) = P (X ≤ 3.8) ≈ Φ = Φ (−1.70) = 0.0446
s
p2 = P (X ∈ C2 ) = 0.0691

4.2 − x 4.0 − x
p3 = P (X ∈ C3 ) = P (4.0 < X ≤ 4.2) ≈ Φ −Φ =
s s
= Φ (−0.71) − Φ (−1.21) = 0.1238

4.4 − x 4.2 − x
p4 = P (X ∈ C4 ) = P (4.2 < X ≤ 4.4) ≈ Φ −Φ =
s s
= Φ (−0.22) − Φ (−0.71) = 0.1748

4.6 − x 4.4 − x
p5 = P (X ∈ C5 ) = P (4.4 < X ≤ 4.6) ≈ Φ −Φ =
s s
= Φ (0.27) − Φ (−0.22) = 0.1945

4.8 − x 4.6 − x
p6 = P (X ∈ C6 ) = P (4.6 < X ≤ 4.8) ≈ Φ −Φ =
s s
= Φ (0.76) − Φ (0.27) = 0.1706

4.8 − x 5.0 − x
p7 = P (X ∈ C7 ) = P (4.8 < X ≤ 5.0) ≈ Φ −Φ =
s s
= Φ (1.26) − Φ (0.76) = 0.1181

5.0 − x
p8 = P (X ∈ C8 ) = P (X > 5.0) ≈ 1 − Φ = 1 − Φ (1.26) = 0.1045
s

Acontece que, se a hipótese H0 : X ∼ N µ, σ 2 for verdadeira, a diferença entre a frequência
relativa e a probabilidade de cada classe, não deve ser muito grande.

Mas, se a hipótese H0 :X ∼ N µ, σ 2 não for verdadeira, a discrepância entre a frequência relativa
e a probabilidade de cada classe, poderá ser muito grande.

Resumindo, deveremos rejeitar H0 : X ∼ N µ, σ 2 , se o total das diferenças entre as frequências
relativas e as probabilidades de todas as classes for muito grande, isto é, se
k
X
(Fi − pi )2
i=1
for muito grande, onde k representa o total de classes consideradas.

Contudo, é mais cómodo trabalharmos com as frequências absolutas Oi = nFi do que com a
2
frequências relativas, e como tal, deveremos rejeitar H0 : X ∼ N µ, σ , se
k
X
(Oi − npi )2
i=1
for muito grande.

A quantidade npi é designada por frequência esperada da classe i e representa-se por Ei = npi .
Na realidade, não é exactamente a soma
k
X
(Oi − Ei )2
i=1
que servirá para testarmos as nossas hipóteses, mas sim a soma

k
X (Oi − Ei )2
X2 =
Ei
i=1
que se designa por estatı́stica de teste do qui-quadrado.

Assim, rejeitaremos a hipótese H0 :X ∼ N µ, σ 2 , quando X 2 assumir valores demasiado elevados,
e portanto a região de rejeição do teste é:
Rα ≡ ]c, ∞[
sendo α o nı́vel de significância que associarmos à nossa decisão.

Escolhido esse nı́vel de significância α, o valor c será aquele torna válida a igualdade:

α = P X 2 ∈ Rα = P X 2 > c
e como tal precisamos de saber previamente qual a distribuição de amostragem da estatı́stica de teste
X 2.
Qual a distribuição de amostragem de X 2 ?
Quando H0 é verdadeira, X 2 tem distribuição do qui-quadrado com um número de graus de liber-
dade igual a (no classes − no parâmetros estimados − 1) = (k − 2 − 1) = (k − 3) graus de liberdade, e
escrevemos de modo abreviado,
X 2 ∼ χ2k−3
sobH0
Então

α = P X 2 > c ⇔ c = χ2k−3:α
e a região de rejeição para um nı́vel de significância α é:

Rα ≡ χ2k−3:α , +∞
Resumindo,

k
X (Oi − Ei )2
Rejeitar H0 se X 2 = > χ2k−3:α
Ei
i=1
Figura 4.10: Teste do qui-quadrado ao pressuposto de normalidade
Exemplo 4.10 Vamos agora concluir o nosso exemplo 4.9. Começamos por construir uma tabela
onde apresentamos as frequências absolutas e as frequências esperadas de cada classe.
Classe Frequência absoluta Frequência esperada

i Ci Oi Ei
1 ]−∞, 3.8] 2 1.6056
2 ]3.8, 4.0] 4 2.4876
3 ]4.0, 4.2] 5 4.4568
4 ]4.2, 4.4] 6 6.2829
5 ]4.4, 4.6] 6 7.0020
6 ]4.6, 4.8] 7 6.1416
7 ]4.8, 5.0] 4 4.2516
8 ]5.0, +∞[ 2 3.7620
Totais 36 36
Antes de prosseguirmos no cálculo do valor observado da estatı́stica de teste X 2 , devemos fazer

um re-agrupamento das classes porque, numa boa prática deste teste, é usual exigir-se que todas as
classes tenham valores esperados superiores a 5, isto é,
Ei = npi > 5, 1 ≤ i ≤ k, sendo k o total de classes
Neste exemplo devemos aglutinar as classes 1,2 e 3, assim como as classes 7 e 8, sendo a frequência
esperada das novas classes igual às frequências das classes que se uniram.
A seguir apresentamos a tabela de frequências observadas e esperadas a que se adiciona uma última
coluna (opcional) com as parcelas da estatı́stica de teste do qui-quadrado.
Classe Frequência absoluta Frequência esperada
i Ci Oi Ei (Oi − Ei )2 /Ei
1 ]−∞, 4.2] 11 8.5500 0.7020
2 ]4.2, 4.4] 6 6.2829 0.0136
3 ]4.4, 4.6] 6 7.0020 0.1434
4 ]4.6, 4.8] 7 6.1416 0.1200
5 ]4.8, +∞[ 6 8.0136 0.5060
Totais 36 36 1.485
P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−2−1 ≡ χ22
sobH0
porque temos k = 5 classes e estimámos p = 2 parâmetros;
• Região de rejeição para um nı́vel de significância

α = 5%:
R0.05 ≡ ]c, +∞[ com c tal que P X 2 ∈R = 0.05.
0.05
P X 2 ∈ R0.05 = 0.05 ⇔ P X 2 > c = 0.05 ⇔ c ≡ χ22:0.05 = 5.99. Assim R0.05 ≡ ]5.99, +∞[;
• Regra de rejeição ao nı́vel de 5% de significância: Rejeitar H0 se x2obs ∈ ]5.99, +∞[;
• Decisão para 5% de significância: Como x2obs = 1.485 ∈

/ R0.05 , não existe evidência estatı́stica
para duvidar de que a população X-”acidez (pH) da água da chuva”, tem distribuição normal.

• p − value associado ao teste: p − value = P X 2 > 1.485 = 0.4759.
Vejamos outro exemplo, em que o número de parâmetros a estimar para o cálculo das frequências
esperadas, é diferente.
Exemplo 4.11 Para uma conveniente resolução do exemplo 4.1, precisarı́amos de verificar previa-
mente se a população X-“gasto semanal em alimentação (para famı́lias com dois filhos) em Agosto de
2003” tem distribuição normal com desvio padrão conhecido e de valor σ = 15 euros.
As nossas hipóteses são

H0 : X ∼ N µ, 152 vs H1 : X não tem distribuição N µ, 152
Se considerarmos uma amostra de gastos em alimentação de n = 40 famı́lias e o seu agrupamento

em classes exposto na tabela seguinte:
Tabela de frequências
Classe Frequência observada
i Ci Oi
1 ]−∞, 75] 1
2 ]75, 85] 2
3 ]85, 95] 3
4 ]95, 105] 10
5 ]105, 115] 12
6 ]115, 125] 8
7 ]125, 135] 3
8 ]135, +∞[ 1
Totais 40
e sabendo que x = 108 euros, precisamos agora de calcular a frequência esperada de cada classe,
pressupondo que a hipótese H0 é verdadeira, ou seja, pressupondo que X ∼ N µ, 152 .
Para exemplificação, apresentamos o cálculo da frequência esperada da classe C3 = ]85, 95].
E3 = n × p3 = 40 × P (85 < X ≤ 95) =

= 40 × (P (X ≤ 95) − P (X ≤ 55)) =

95 − µ 85 − µ
= 40 × P Z ≤ −P Z ≤ =
15 15

95 − µ 85 − µ
= 40 × Φ −Φ
15 15
Mas, como desconhecemos o valor de µ, teremos de o substituir pela respectiva estimativa, x = 108.
Nota: Repare que para o cálculo das frequências esperadas, somos obrigados a usar a estimativa
de 1 parâmetro.
Então

95 − x 85 − x
E3 = n × p3 ≈ 40 × Φ −Φ =
15 15
= 40 × (Φ (−0.87) − Φ (−1.53)) = 40 × 0.1305 = 5.2200
Completando o cálculo das restantes frequências esperadas e considerando a estatı́stica do teste do

qui-quadrado,
7
X (Oi − Ei )2
X2 =
Ei
i=1

que (sob a validade de H0 : X ∼ µ, 152 ) terá agora distribuição do qui-quadrado com um número
de graus de liberdade igual a
(no classes − no parâmetros estimados − 1) = (7 − 1 − 1) = 5, obtém-se
Classe Frequência observada Frequência esperada

i Ci Oi Ei (Oi − Ei )2 /Ei
1 ]−∞, 75] 1 0.556
2 ]75, 85] 2 6 1.948 7.724 0.3848
3 ]85, 95] 3 5.220
4 ]95, 105] 10 9.108 0.0874
5 ]105, 115] 12 10.356 0.2610
6 ]115, 125] 8 7.672 0.0140
6 ]125, 135] 3 3.704
4 5.140 0.2528
7 ]135, +∞[ 1 1.436
Totais 40 40 1.0000
P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−1−1 ≡ χ23
sobH0
porque temos k = 5 classes e estimámos p = 1 parâmetros;
• Região de rejeição para um nı́vel de significância

α = 5%:
R0.05 ≡ ]c, +∞[ com c tal que P X 2 ∈R = 0.05.
0.05
P X 2 ∈ R0.05 = 0.05 ⇔ P X 2 > c = 0.05 ⇔ c ≡ χ23:0.05 = 7.815. Assim R0.05 ≡ ]7.815, +∞[;
• Regra de rejeição ao nı́vel de 5% de significância: Rejeitar H0 se x2obs ∈ ]7.815, +∞[;
• Decisão para 5% de significância: Como x2obs = 1.0000 ∈

/ R0.05 , não existe evidência estatı́stica
para duvidar de que a população X-”gasto semanal em alimentação (para famı́lias com dois
filhos) em Agosto de 2003”, tem distribuição normal com desvio padrão conhecido e de valor
σ = 15 euros.

• p − value associado ao teste: p − value = P X 2 > 1.000 = 0.8013.
Estipulando um nı́vel de significância α = 0.05, temos χ25:0.05 = 11.07 e como
x2obs = 9.1798 < 11.07 = χ25:0.05
não existem razões para duvidar de que a população X-”gasto semanal em alimentação (para famı́lias
com dois filhos) em Agosto de 2003”, tem distribuição normal com desvio padrão conhecido e de valor
σ = 15 euros.
Nota: O teste do qui-quadrado para teste do ajustamento da distribuição de uma população, é

muito mais vasto do que o aqui exposto. Na realidade, pode ser usado para testar o ajustamento de
qualquer distribuição preconizada para uma v.a.. Para a sua utilização só precisamos de garantir que
a amostra seja ”suficientemente grande”.
Existem outros testes para testar a distribuição assumida para uma população (ou v.a.). Só a
tı́tulo de informação, não podemos deixar de referir o teste de Kolmogorov-Smirnov, particularmente
conveniente para testar a normalidade de uma população.
Capı́tulo 5
Regressão Linear Simples
5.1 Relação entre variáveis

A regressão linear é uma técnica estatı́stica que permite estudar a relação matemática entre uma
variável Y (chamada variável dependente) e uma ou mais variáveis x, w, . . . (chamadas variáveis in-
dependentes). Pretendemos estabelecer uma relação matemática que possibilite explicar o valor da
variável Y , uma vez conhecidos os valores das variáveis independentes x, w, . . ..
Evidentemente que, tratando-se de uma técnica estatı́stica, a relação a estudar entre a variável
dependente e as variáveis independentes é uma relação casuı́stica (ou imprecisa). Ou seja, uma relação
em que, para os mesmos valores das variáveis independentes, não é possı́vel dizer exactamente qual o
valor de Y .
Exemplo 5.1 Consideremos o seguinte conjunto de dados relativos ao volume mensal de vendas, Y
(em milhares de unidades), de uma marca de computadores, e ao número de anúncios, x, que passaram
diariamente na televisão em cada mês.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6
O diagrama de dispersão destes dados revela a existência de uma relação linear probabilı́stica.
4.5
4.0
3.5
Vendas
3.0
2.5
2.0
0 1 2 3 4
Anuncios
67
5. Regressão Linear Simples 68
5.2 Modelo de regressão linear simples

Quando existe apenas uma variável independente x e a sua relação probabilı́stica com a variável
dependente Y é uma relação linear, o modelo matemático implı́cito é expresso por:
Y |x = β0 + β1 x + E, (5.2.1)
e diz-se um modelo de regressão linear simples.

Dizemos que um modelo matemático é um modelo linear, quando este for linear nos parâmetros.
Por exemplo, o modelo matemático
Y |x = β0 + β1 x2 + E
também é um modelo linear. Mas o modelo matemático
Y |x = β0 + xβ1 + E
já não é um modelo linear porque, apesar de ser linear relativamente a β0 , já não o é relativamente a
β1 .
Por outro lado, o modelo 5.2.1 é um modelo de regressão simples porque nele consta apenas uma
variável independente. Por exemplo o modelo de regressão linear
Y |x = β0 + β1 x + β2 w + E,
é dito um modelo de regressão linear múltipla.

Analisemos com mais detalhe o modelo de regressão linear simples
Y |x = β0 + β1 x + E
A componente β0 + β1 x é a componente determinı́stica do modelo. A componente E expressa a

natureza aleatória do modelo.
Assim, um modelo estatı́stico de regressão linear simples fica completo se considerarmos que:
• β0 e β1 são os parâmetros do modelo (chamados coeficientes da regressão) a estimar;
• x é a variável independente (ou variável controlada);
• Y é a variável dependente (ou variável resposta) e trata-se de uma variável aleatória;
• E é o erro e trata-se de uma variável aleatória que se
– pressupõe ter distribuição normal de valor médio nulo e variância σ 2

E ∼ N 0, σ 2 .
β0 é a ordenada na origem e β1 é o declive da recta.
Nota: Y |x acaba por ser uma variável aleatória porque, sendo o erro E a componente aleatória,
então Y |x = β0 + β1 x + E é também variável aleatória.

Evidentemente que, se E ∼ N 0, σ 2 , também Y |x tem distribuição normal com parâmetros:
E (Y |x ) = E (β0 + β1 x + E) = β0 + β1 x + E (E) = β0 + β1 x
V (Y |x ) = V (β0 + β1 x + E) = V (E) = σ 2
ou seja,

Y |x ∼ N β0 + β1 x, σ 2 .
Devemos também salientar que σ 2 é um parâmetro adicional do modelo que necessita ser estimado,
caso não se conheça o seu valor.
5.3 Método dos mı́nimos quadrados para estimar β0 e β1

Aceitando um modelo de regressão linear simples
Y |x = β0 + β1 x + E,
importa agora estimar a recta de regressão, ou seja encontrar estimadores para os parâmetros β0 e β1 .
Evidentemente que procuramos encontrar a recta que ”melhor”se ajuste a um conjunto de n
observações (x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn ) da variável controlada x e da variável resposta Y |x .
Assumimos que os erros aleatórios Ei , para cada par (xi , Yi ), são independentes seguindo todos a
mesma distribuição N 0, σ 2 :

Y |xi = β0 + β1 xi + Ei , Ei ∼ N 0, σ 2 independentes
Assim deveremos encontrar estimadores β̂0 e β̂1 dos coeficientes da recta de regressão β0 e β1 ,
respectivamente, para obtermos uma recta estimada
Ŷ |x = β̂0 + β̂1 x
De entre diversos métodos que existem para a dedução da recta ajustada, vamos aqui abordar o
intitulado método dos mı́ninos quadrados. Consiste este método, em determinar os estimadores β̂0 e
β̂1 , dos coeficientes de regressão, β0 e β1 , que conduzam a uma recta que se ajusta ao conjunto de
observações minimizando a soma do quadrado dos desvios entre cada observação de (xi , Yi ) e a recta
Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n.
Neste método, os desvios
Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi
são a diferença na vertical entre o valor da observação Yi e a sua estimativa de regressão Ŷi = β̂0 + β̂1 xi ,
entendendo-se por simplicidade de notação que Yi ≡ Y |xi e Ŷi ≡ Ŷ |xi .
A soma do quadrados de todos os desvios representar-se-á por SQE e encontrar os estimadores
β̂0 e β̂1 , ditos estimadores de mı́nimos quadrados de β0 e β1 , respectivamente, consiste em resolver o
problema
n
X n
X 2 n
X 2
minimizar SQE = Êi2 = Yi − Ŷi = Yi − β̂0 − β̂1 xi ,
i=1 i=1 i=1
em ordem a β̂0 e β̂1 .

Demonstra-se que esta minimização é conseguida resolvendo, em ordem a β̂0 e β̂1 , o sistema de
equações
 n
 X
 ∂ 

 −2 Y − β̂ − β̂ x =0

 SQE = 0 
 i 0 1 i
∂ β̂0 ⇔ i=1
∂ n


 SQE = 0  −2 X x Y − β̂ − β̂ x = 0


 i i 0 1 i
∂ β̂1 
i=1
As soluções deste sistema são:

 ! n !
 Xn Xn X



 n xi Yi − xi Yi


 i=1 i=1 i=1
 β̂1 =

 !2
Xn Xn
2
 n xi − xi

 i=1 i=1

 n n


 1X 1X
 β̂0 = n Yi − β̂1 xi


n
i=1 i=1
que podem ainda ser expressas por

SxY
β̂1 = e β̂0 = Ȳ − β̂1 x̄,
Sxx
considerando
n
1X
• x̄ = xi média das observações de x
n
i=1
n
1X
• Ȳ = Yi média da amostra aleatória de Y
n
i=1
n
X n
X
2
• Sxx = (xi − x̄) = x2i − nx̄2 soma de quadrados para x
i=1 i=1
n
X n
X
2
• SY Y = Yi − Ȳ = Yi2 − nȲ 2 soma de quadrados para Y
i=1 i=1
n
X n
X

• SxY = (xi − x̄) Yi − Ȳ = xi Yi − nx̄Ȳ soma de produtos cruzados para (x, Y )
i=1 i=1
A soma dos quadrados dos desvios pode ainda ser escrita

n n
X 2 X 2 S2
SQE = Yi − Ŷi = Yi − β̂0 − β̂1 x1 = SY Y − xY = SY Y − β̂12 Sxx .
Sxx
i=1 i=1
Dá-se o nome de recta de regressão de mı́nimos quadrados ao estimador da recta de regressão
Ŷ |x = β̂0 + β̂1 x.
As estimativas desta recta para as observações x1 , x2 , . . . , xn da variável independente x serão
ŷi = b0 + b1 xi , i = 1, 2, . . . , n,
em que b0 e b1 são as estimativas de β̂0 e β̂1 , respectivamente, ou seja os valores observados destes
estimadores.
Nota: Só devemos usar esta recta para fazer previsão dos valores da variável resposta para valores
de x que estejam dentro do intervalo das observações obtidas para x.
Aos desvios
Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi
dá-se o nome de resı́duos e
êi = yi − ŷi = yi − b0 − b1 xi
serão os resı́duos observados.
5.4 Estimação da variância do erro σ 2 e qualidade do ajustamento

Uma vez obtida a recta de regressão de mı́nimos quadrados e com os valores que ela fornecer para
cada observação xi da variável controlada, os resı́duos
Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi , i = 1, . . . , n
podem servir para analisarmos a qualidade do ajustamento da recta.

O que a recta não consegue explicar sobre os valores de Y , é considerado observação do erro E e,
pode ser usado para estimarmos a variância desse erro. Assim sendo, os resı́duos também permitem
estimar a variância σ 2 .
5.4.1 Estimador para σ 2

Um estimador de σ 2 é
n n 2
SQE 1 X 2 1 X 2 S
Y Y − β̂1 Sxx
σ̂ 2 = = Yi − Ŷi = Yi − β̂0 − β̂1 xi =
n−2 n−2 n−2 n−2
i=1 i=1

Quando o erro E tem distribuição N 0, σ 2 ,
SQE
• σ̂ 2 = é um estimador centrado para σ 2
n−2
σ̂ 2 σ̂ 2
• (n − 2) tem distribuição do qui-quadrado com (n − 2) graus de liberdade, (n − 2) ∼ χ2n−2
σ2 σ2
5.4.2 Qualidade do ajustamento

Quanto menores forem os valores dos resı́duos
Êi = Yi − Ŷi = Yi − β̂0 − β̂1 xi , i = 1, . . . , n
melhor é o ajustamento da recta de mı́nimos quadrados. Por esta razão podemos dizer que, quanto
menor for o valor da soma do quadrado dos resı́duos, SQE, melhor é o ajustamento.
Definição 5.1 Dá-se o nome de coeficiente de determinação a
2
SQE SY Y − β̂12 Sxx Sxx SxY
R2 = 1 − n =1− = β̂12 =
X 2 SY Y SY Y Sxx SY Y
Yi − Ȳ
i=1
e toma valores 0 ≤ R2 ≤ 1.
n
X 2
Nota: A soma de quadrados SY Y = Yi − Ȳ reflecte a variabilidade de Y quando não se
i=1
entra em linha de conta com a sua eventual relação com a variável x. Por outro lado, SQE reflecte a
variabilidade de Y quando é usado o modelo de regressão para explicar os valores de Y como resposta
a x. Por fim, SY Y − SQE mede a redução na variabilidade total de Y que se consegue ao usar x para
explicar a resposta Y . Então, ao dividirmos SY Y − SQE por SY Y , obtemos um estimador da redução
relativa da variabilidade ao usarmos o modelo para explicarmos Y como função linear de x.
n
X n
X 2
2
SY Y = Yi − Ȳ = Yi − Ŷi + Ŷi − Ȳ =
i=1 i=1
Xn 2 Xn 2 n
X
= Yi − Ŷi + Ŷi − Ȳ + Yi − Ŷi Ŷi − Ȳ
|i=1 {z } |i=1 {z } |i=1 {z }
SQE SQR A
n
X Xn
A = Yi − Ŷi Ŷi − Ȳ = Yi − Ŷi β̂0 + βˆ1 xi − Ȳ =
i=1 i=1
n
X n
X
= ˆ
Yi − Ŷi Ȳ − β̂1 x̄ + β1 xi − Ȳ = β̂1 Yi − Ŷi (xi − x̄) =
i=1 i=1
n
X n
X
= β̂1 Yi − β̂0 − β̂1 xi (xi − x̄) = β̂1 Yi − Ȳ + β̂1 x̄ − β̂1 xi (xi − x̄) =
i=1 i=1
Xn n
2 X

= −β̂1 Yi − Ȳ (xi − x̄) + β̂1 (xi − x̄)2 =
|i=1 {z } |i=1 {z }
SxY Sxx
2
SxY
SxY
= − SxY + 2
Sxx = 0
Sxx Sxx
SY Y = SQE + SQR
Nota: O coeficiente de determinação assume valores compreendidos entre zero e um. Vejamos a
interpretação que pode ser dada a estes valores.
n
X 2
Se R2 = 1 ⇔ SQE = 0 ⇔ Yi − β̂0 − β̂1 xi =0
i=1
⇔ Yi = Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n
⇔ ajuste perfeito
Conclusão: R2 = 1 quando todas as observações estão sobre a recta de mı́nimos quadrados

(ajustamento perfeito).
Se R2 = 0 ⇔ SQE = SY Y ⇔ SY Y − β̂12 Sxx = SY Y

⇔ β̂1 = 0
⇔ a variável x não serve para explicar Y
Conclusão: R2 = 0 quando o modelo de regressão linear em x não tem utilidade ou seja, a

variável x não consegue explicar os valores de Y .
Em resumo: Quanto mais próximo R2 estiver de 1, maior o grau de importância de x na deter-

minação da variável resposta Y . Na prática, consideramos que o ajustamento é razoável se R2 ≥ 0.8
5.5 Distribuição de amostragem dos estimadores β̂0 e β̂1
5.5.1 Distribuição de amostragem de β̂1

Para a dedução da distribuição do estimador β̂1 para o coeficiente de regressão β1 , começamos por
o expressar de outro modo. Ora
SxY
β̂1 =
Sxx
mas como
n
X n
X n
X n
X
SxY = xi Yi − nx̄Ȳ = xi Yi − x̄ Yi = (xi − x̄) Yi ,
i=1 i=1 i=1 i=1
então
Pn
i=1 (xi − x̄) Yi
β̂1 = .
Sxx
Como as observações xi , i = 1, . . . , n são constantes, também Sxx o é, e portanto β̂1 não é mais
do que uma combinação linear de v.a.’s (Yi , i = 1, . . . , n) independentes e com distribuição normal.
Consequentemente β̂1 tem distribuição normal, restando saber qual o correspondente valor médio e
variância.
Pn Pn Pn
i=1 (xi − x̄) Yi i=1 (xi − x̄) E (Yi ) (xi − x̄) (β0 + β1 xi )
E β̂1 = E = = i=1 =
Sxx Sxx Sxx
P P
β0 ni=1 (xi − x̄) + β1 ni=1 (xi − x̄) xi
= =
Sxx
Pn 2

β0 (nx̄ − nx̄) + β1 i=1 xi − x̄nx̄ Sxx
= = β1 = β1
Sxx Sxx
Logo β̂1 é estimador centrado para β1 .

Pn Pn Pn 2
i=1 (xi − x̄) Yi i=1 (xi − x̄) V (Yi ) i=1 (xi − x̄) σ
V β̂1 = V = 2
= 2
=
Sxx Sxx Sxx
Sxx σ2
= σ2 2 =
Sxx Sxx
Em resumo:

σ2
β̂1 ∼ N β1 ,
Sxx
Contudo, na maioria das aplicações, a variância σ 2 dos erros não é conhecida. Nestes casos,
SQE
podemos estimá-la por σ̂ 2 = . A substituição de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar
n−2
a seguinte distribuição para β̂1 :
β̂1 − β1 p β̂1 − β1
T = s = Sxx ∼ tn−2
σ̂ 2 σ̂
Sxx
(T tem distribuição t com (n − 2) graus de liberdade).
5.5.2 Distribuição de amostragem de β̂0

Para a dedução da distribuição do estimador β̂0 para o coeficiente de regressão β0 , recordemos que
β̂0 = Ȳ − β̂1 x̄
Como β̂1 tem distribuição normal e Ȳ também tem distribuição normal (é uma média aritmética de
v.a.’s com distribuição normal), então β̂0 tem distribuição normal. Resta saber qual o correspondente
valor médio e variância.
1X n

E β̂0 = E Ȳ − β̂1 x̄ = E Ȳ − x̄E β̂1 = E (Yi ) − β1 x̄ =
n
i=1
n
1X
= (β0 + β1 xi ) − β1 x̄ = β0 + β1 x̄ − β1 x̄ = β0
n
i=1
Logo β̂0 é estimador centrado para β0 .

V β̂0 = V Ȳ − β̂1 x̄ = V Ȳ + x̄2 V β̂1 − 2x̄cov Ȳ , β̂1 =

σ2 2 σ
2 σ2
2 σ
2 σ2 nx̄2
= + x̄ − 2x̄cov Ȳ , β̂1 = + x̄ = 1+ =
n Sxx n Sxx n Sxx
n
! ! n
σ2 2
σ2 X
2 2 2 σ2 X 2
= Sxx + nx̄ = xi − nx̄ + nx̄ = xi
nSxx nSxx nSxx
i=1 i=1

SxY 1
porque cov Ȳ , β̂1 = cov Ȳ , = cov Ȳ , SxY =
Sxx Sxx
n n
!
1 1X X
= cov Yi , (xi − x̄) Yi = pela independência de Yi
Sxx n
i=1 i=1
n n
1 X 1 X
= cov (Yi , (xi − x̄) Yi ) = (xi − x̄) cov (Yi , Yi )
nSxx nSxx
i=1 i=1
n n
1 X 1 X
= (xi − x̄) V (Yi ) = (xi − x̄) σ 2
nSxx nSxx
i=1 i=1
n
σ2 X σ2
= (xi − x̄) = (nx̄ − nx̄) = 0
nSxx nSxx
i=1
Em resumo: !
n
σ2 X 2
β̂0 ∼ N β0 , xi
nSxx
i=1
SQE
Sendo desconhecida a variância σ 2 dos erros, podemos estimá-la por σ̂ 2 = . A substituição
n−2
de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar a seguinte distribuição para β̂0 :
s
β̂0 − β0 nSxx β̂0 − β0
T =s P = Pn 2 ∼ tn−2
σ̂ 2 n x2 i=1 xi σ̂
i=1 i
nSxx
(T tem distribuição t com (n − 2) graus de liberdade)
5.6 Inferência sobre os parâmetros do modelo
5.6.1 Inferência sobre β1
Estimação de β1 por intervalo de confiança

β1 é o declive da recta de regressão e, como tal mede o grau de crescimento de Y relativamente aos
valores de x. Passamos a estudar a sua estimação pelos dois processos que conhecemos. A estimação
pontual é feita pelo estimador

SxY
β̂1 =
Sxx
Passemos à estimação por intervalo de confiança (1 − α).
p β̂1 − β1
A estatı́stica pivot que devemos usar é: T = Sxx ∼ tn−2 .
σ̂
Dada a simetria em zero da distribuição t, podemos desde logo afirmar que:
!
p β̂1 − β1
1 − α = P −tn−2:α/2 ≤ T ≤ tn−2:α/2 ⇔ 1 − α = P −tn−2:α/2 ≤ Sxx ≤ tn−2:α/2
σ̂
 s s 
σ̂ 2 σ̂ 2
⇔ 1 − α = P β̂1 − tn−2:α/2 ≤ β1 ≤ β̂1 + tn−2:α/2 
Sxx Sxx
Assim
Intervalo de  confiança (1 − α) para o declive β1

s s
σ̂ 2 σ̂ 2 
IC1−α (β1 ) ≡ β̂1 − tn−2:α/2 , β̂1 + tn−2:α/2
Sxx Sxx
Teste de hipóteses sobre β1

Já atrás dissemos que β1 é o declive da recta de regressão e, como tal mede o grau de crescimento
de Y relativamente aos valores de x. De particular importância é o caso em que β1 = 0. Quando tal
acontece, a variável x não é capaz de descrever os valores de Y . Assim o teste das hipóteses
H0 : β1 = 0 vs H1 : β1 6= 0
permite testar esta situação.
Mas o teste destas hipóteses incluı́-se no teste mais genérico das hipóteses
H0 : β1 = a vs H1 : β1 6= a
que passamos a deduzir.
p β̂1 − a
Quando H0 é verdadeira, a estatı́stica de teste é: T = Sxx ∼ tn−2
σ̂ β1 =a
A região de rejeição, para um nı́vel de significância α é definida por: Rα ≡ ]−∞, −c[∪]c, +∞[ , c > 0
Determinemos o valor de c:
α = P (T ∈ Rα ) = P (T < −c) + P (T > c) = P (T > c) + P (T > c) =
= 2P (T > c) ⇔ P (T > c) = α/2 ⇔ c = tn−2:α/2

Rejeitar H0 se tobs ∈ Rα ≡ −∞, −tn−2:α/2 ∪ tn−2:α/2 , +∞
Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β1 , se bem que não têm
tanto interesse nas aplicações aos modelos de regressão linear simples.
5.6.2 Inferência sobre β0
Estimação de β0 por intervalo de confiança

β0 é o ponto de intersecção da recta com o eixo das abcissas. A inferência sobre este parâmetro
não tem a mesma importância que tem a inferência sobre o declive β1 da recta de regressão. Mas
ainda assim, pode ser necessário estimar β0 por intervalo de confiança e realizar testes de hipóteses
sobre valores que deem respostas a questões de utilidade prática.
A estimação pontual é feita pelo estimador de mı́nimos quadrados,
β̂0 = Ȳ − β̂1 x̄
Passemos à estimação por intervalos

de confiança (1 − α).
β̂0 − β0 nSxx β̂0 − β0
A estatı́stica T = s P = Pn 2 ∼ tn−2 é uma estatı́stica pivot.
σ̂ 2 n
x2 i=1 xi σ̂
i=1 i
nSxx
Dada a simetria em zero da distribuição t, podemos desde logo afirmar que:
s !
nSxx β̂0 − β0
1 − α = P −tn−2:α/2 ≤ T ≤ tn−1:α/2 ⇔ 1 − α = P −tn−2:α/2 ≤ Pn 2 ≤ tn−2:α/2
i=1 xi σ̂
 s P s P 
n 2 n 2
x x
⇔ 1 − α = P β̂0 − tn−2:α/2 σ̂ 2 i=1 i ≤ β0 ≤ β̂0 + tn−2:α/2 σ̂ 2 i=1 i 
nSxx nSxx
Assim
Intervalo
 de confiança (1 − α) para o declive β0 
s P s P
n 2 n 2
x x
IC1−α (β0 ) ≡ β̂0 − tn−2:α/2 σ̂ 2 i=1 i , β̂0 + tn−2:α/2 σ̂ 2 i=1 i 
nSxx nSxx
Teste de hipóteses sobre β0

H0 : β0 = a vs H1 : β0 6= a
s
nS β̂ − a
Quando a hipótese H0 é verdadeira, a estatı́stica de teste é: T = Pn xx 2 0 ∼ tn−2
i=1 xi σ̂ β0 =a
Para um nı́vel de significância α, a região de rejeição é definida por: Rα ≡ ]−∞, −c[∪]c, +∞[ , c > 0
e c fica determinado por:
α = P (T ∈ Rα ) = P (T < −c) + P (T > c) = P (T > c) + P (T > c) =

= 2P (T > c) ⇔ P (T > c) = α/2 ⇔ c = tn−2:α/2

Rejeitar H0 se tobs ∈ Rα ≡ −∞, −tn−2:α/2 ∪ tn−2:α/2 , +∞
Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β0 , aplicando o mesmo tipo
de conceitos e raciocı́nios que surgiram nas secções 4.2.2 e 4.2.3.
5.6.3 Inferência sobre σ 2
Estimação de σ 2 por intervalo de confiança

Num modelo de regressão linear simples
Y |x = β0 + β1 x + E,
o erro E é a componente aleatória que a componente determinı́stica β0 + β1 x não consegue explicar.

Os pressupostos estocásticos do modelo de regressão linear dizem-nos que

E ∼ N 0, σ 2 .
O que a recta não consegue explicar sobre os valores de Y , é considerado observação do erro E e,
pode ser usado para estimarmos a variância desse erro. O estimador para σ 2 já foi apresentado na
secção 5.4.1. Aı́ foi dito que, um estimador centrado de σ 2 é
n 2
2 SQE 1 X 2 S
Y Y − β̂1 Sxx
σ̂ = = Yi − β̂0 − β̂1 xi =
n−2 n−2 n−2
i=1

e, dado que o erro E tem distribuição N 0, σ 2 ,
σ̂ 2 σ̂ 2
(n − 2) tem distribuição do qui-quadrado com (n − 2) graus de liberdade, (n − 2) ∼ χ2n−2
σ2 σ2
Com esta distribuição de amostragem, podemos deduzir um intervalo de confiança (1 − α) para a
variância σ 2 e para o desvio padrão σ. Usando argumentos idênticos aos apresentados na secção 3.3,

σ̂ 2
1 − α = P χ2n−2:1−α/2 ≤ (n − 2) 2 ≤ χ2n−2:α/2 ⇔
σ
!
(n − 2) σ̂ 2 (n − 2) σ̂ 2
⇔ 1−α=P ≤ σ2 ≤ 2
χ2n−2:α/2 χn−2:1−α/2
Assim
Intervalo de confiança
" (1 − α) para #σ 2
(n − 2) σ̂ 2 (n − 2) σ̂ 2
IC1−α σ 2 ≡ ,
χ2n−2:α/2 χ2n−2:1−α/2
5.7 Estimação do valor esperado de Y para uma observação x0 da

variável controlada
O valor esperado de Y para uma observação x0 da variável controlada é
E (Y |x0 ) = β0 + β1 x0 .
que podemos querer estimar.

O estimador pontual para E (Y |x0 ) é naturalmente
Ŷ |x0 = β̂0 + β̂1 x0 .
e trata-se de um estimador centrado.

Quanto à sua variância, temos:

V Ŷ |x0 = V β̂0 + β̂1 x0 = V Ȳ − β̂1 x̄ + β̂1 x0 =

= V Ȳ + β̂1 (x0 − x̄) = V Ȳ + V β̂1 (x0 − x̄)2 =
!
2
σ2 σ2 2 1 (x0 − x̄)
= + (x0 − x̄) = σ 2 +
n Sxx n Sxx

omitindo-se a demonstração de que cov Ȳ , β̂1 = 0.
Como Ŷ |x0 = β̂0 + β̂1 x0 . é uma combinação linear de v.a.’s com distribuição normal, terá dis-
tribuição normal e por isso,
Ŷ |x0 − E (Y |x0 )
q 2
∼ N (0, 1)
σ n1 + (x0S−x̄)
xx
Como habitualmente não se conhece a variância σ 2 do erro E, é necessário preceder à sua estimação
usando o estimador σ̂ 2 . Neste caso, a distribuição de amostragem de Ŷ |x0 é
Ŷ |x0 − E (Y |x0 )
T =v ! ∼ tn−2
u 2
tσ̂ 2 1 + (x0 − x̄)
u
n Sxx
que permite deduzir um intervalo de confiança (1 − α) para E (Y |x0 ).
 Intervalo de confiança (1 − α) para E (Y |x0 ) 

s s
2 2
1 (x0 − x̄) 1 (x0 − x̄)
IC1−α (E (Y |x0 )) ≡ Ŷ |x0 − tn−2:α/2 σ̂ 2 + , Ŷ |x0 + tn−2:α/2 σ̂ 2 + 
n Sxx n Sxx
Nota: Só devemos fazer estimação de E (Y |x0 ) para valores x0 que estejam dentro do intervalo
das observações obtidas para x.
5.8 Previsão do valor da variável resposta Y para um novo valor de

x0 da variável controlada
A previsão de uma nova resposta Y a um valor x0 da variável controlada tem um interesse evidente.
É importante frisar que a previsão do valor de Y é diferente da estimação do valor esperado de Y feita
na secção anterior. Recordemos que, ao considerar um valor x0 da variável independente, a resposta
num modelo de regressão linear é
Y |x0 = β0 + β1 x0 + E.

onde E ∼ N 0, σ 2 representa o erro aleatório
Por isso, na previsão de Y para um valor x0 , ou seja na estimação de Y |x0 parece necessário
estimar as componentes β0 + β1 x0 e E.
Ora a componente β0 + β1 x0 tem por estimador Ŷ |x0 = β̂0 + β̂1 x0 . Resta saber como estimar o
resı́duo que se obtém para o valor x0 . O estimador natural deste resı́duo é
Ê = Y |x0 − Ŷ |x0 .
Analisemos as caracterı́sticas deste estimador, mais propriamente o seu valor médio e a sua
variância.

E Ê = E Y |x0 − Ŷ |x0 = E (β0 + β1 x0 + E) − E β̂0 + β̂1 x0 = β0 + β1 x0 − β0 − β1 x0

V Ê = V Y |x0 − Ŷ |x0 = V (Y |x0 ) + V Ŷ |x0 =
!
1 (x0 − x̄)2
= V (β0 + β1 x0 + E) + V Ŷ |x0 = σ2 + σ2 + =
n Sxx
!
2 1 (x0 − x̄)2
= σ 1+ +
n Sxx
onde ficam patentes duas fontes de variabilidade, uma respeitante ao erro E (na primeira parcela) e
outra relativa à estimação da resposta esperada Ŷ |x0 (segunda parcela).
Como Ê é uma combinação linear de v.a.’s com distribuição normal, então
!!
2
1 (x 0 − x̄)
Ê ∼ N 0, σ 2 1 + +
n Sxx

1 (x0 −x̄)2
Quando σ2 é desconhecida, podemos estimá-la usando o estimador V̂ (E) = σ̂ 2 1+ n + Sxx
e, neste caso a distribuição de
Ê − 0
r
2
σ̂ 2 1 + n1 + (x0S−x̄)
xx
é uma distribuição t com (n − 2) graus de liberdade.

Porque Ê = Y |x0 − Ŷ |x0 , podemos ainda dizer que

Y |x0 − Ŷ |x0
T =r ∼ tn−2
2
1 (x −x̄)
σ̂ 2 1 + n + Sxx 0
obtendo-se assim uma estatı́stica pivot que permite a estimação por intervalo de confiança de Y |x0 .
Um intervalo de confiança (1 − α) para Y |x0 também se designa por intervalo de previsão (1 − α) ×
100% de uma resposta Y |x0 para um dado valor x0 .
A técnica já sobejamente conhecida de dedução de intervalos de confiança permite obter o seguinte
intervalo de previsão:
 Intervalo de confiança (1 − α) para Y |x0 

s s
2 2
1 (x0 − x̄) 1 (x0 − x̄)
IC1−α (Y |x0 ) ≡ Ŷ |x0 − tn−2:α/2 σ̂ 2 1 + + , Ŷ |x0 + tn−2:α/2 σ̂ 2 1 + + 
n Sxx n Sxx
Nota:
• Só devemos fazer estimação de Y |x0 para valores x0 que estejam dentro do intervalo das ob-
servações obtidas para x.
• O valor x0 para o qual se pretende prever a resposta Y |x0 deve ser diferente de qualquer outro
que figure na amostra que serve de suporte à estimação do modelo de regressão linear.
Exemplo 5.2 Retomemos o exemplo 5.1 e o conjunto de dados relativos ao volume de vendas mensal
(em milhares de unidades) de uma marca de computadores, Y e ao número de anúncios que passaram
diariamente na televisão em cada mês, x.
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6
Comecemos por estimar a recta de mı́nimos quadrados. Para tal, vamos usar um método de
cálculo bastante rudimentar (que seria o que usarı́amos caso a nossa ferramenta de cálculo fosse
pouco evoluı́da).
P12 P12 P12 2 P12 2 P12
i=1 xi = 23 i=1 yi = 38.1 i=1 xi = 65 i=1 yi = 129.39 i=1 xi yi = 85.7
x̄ = 1.9167 ȳ = 3.175 Sxx = 20.9167 SY Y = 8.4225 SxY = 12.675
b0 = 2.013545817 b1 = 0.6059760956 SQE = 0.7417529885 σ̂ 2 = 0.07417529885
Assim a recta estimada é
ŷ |x = 2.013545817 + 0.6059760956 x
Se estivermos interessados em estimar o volume mensal esperado de vendas num mês em que
fossem exibidos 2.5 anúncios terı́amos uma estimativa pontual
ŷ |2.5 = 3.528486056 milhares de unidades

4.5
4.0
3.5
Vendas
3.0
2.5
2.0
0 1 2 3 4
Anuncios
Verifiquemos agora a qualidade do ajuste, calculando o coeficiente de determinação, R2 :

Sxx
R2 = b21 = 0.9119319693
SY Y
revela um bom ajustamento do modelo de regressão linear ao conjunto de dados.
Podemos ainda testar se o número de anúncios que passam por mês, x, explicam significativamente
o volume de vendas. Trata-se de testar, ao nı́vel de 5% de significância, as hipóteses
H0 : β1 = 0 vs H1 : β1 6= 0
p β̂1 − 0
A estatı́stica de teste é: T = Sxx ∼ t10 .
σ̂ β1 =0
p β̂1
O valor observado da estatı́stica de teste T = Sxx é tobs = 10.17588237.
σ̂
Para α = 5%, t10:0.025 = 2.2281.
A regra de rejeição, para um nı́vel de significância α = 0.05 é R0.05 ≡ ]−∞, −2.2281[∪]2.2281, +∞[.
A nossa decisão será: Como tobs = 10.17588237 ∈ R0.05 decidimos rejeitar H0 , com 5% de sig-
nificância. Dito de outro modo, com 5% de significância, não existe evidência para afirmar que β1 = 0
e portanto podemos inferir que o número de anúncios que passam mensalmente é uma variável que
explica o volume de vendas para esse mês.
Embora não faça muito sentido neste exemplo, mas apenas com o objectivo de ilustrar, vamos
estimar por intervalo de 90% de confiança:
1. o volume esperado de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, E (Y |1.5 );
2. o volume de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, Y |1.5 .
Nas duas situações devemos considerar x0 = 1.5 e t10:0.05 = 1.812.

1. Com Ŷ |1.5 = 2.013545817 + 0.6059760956 × 1.5 = 2.92250996, obterı́amos uma banda de valores
compreendidos entre o limite inferior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 − 1.812t0.07417529885 + = 2.773121167
12 20.9167
e o limite superior
v !
u
u 1 (1.5 − 1.9167)2
2.92250996 + 1.812t0.07417529885 + = 3.071898754
12 20.9167
ou seja o intervalo IC90% (E (Y |1.5 )) ≡ [2.773121167, 3.071898754] milhares de unidades de

vendas esperadas.
2. Com Ŷ |1.5 = 2.013545817 + 0.6059760956 × 1.5 = 2.92250996, obterı́amos um intervalo de

previsão a 90% com limite inferior
v !
u
u 1 (1.5 − 1.9167)2
2.92250996 − 1.812 0.07417529885 1 +
t + = 2.406893791
12 20.9167
e limite superior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 + 1.812t0.07417529885 1 + + = 3.43812613
12 20.9167
ou seja o intervalo IC90% (Y |1.5 ) ≡ [2.406893791, 3.43812613] milhares de unidades de vendas.
Por fim podemos ainda calcular os resı́duos observados

Tabela de resı́duos
xi 4 1 3 0 2 4 2 3 1 2 0 1
êi -0.44 -0.32 -0.13 0.09 -0.23 0.26 0.27 0.37 0.28 -0.03 -0.11 -0.02
A esta amostra de resı́duos podı́amos aplicar um teste de ajustamento do qui-quadrado para uma
distribuição normal, de modo a testar a validade do pressuposto estocástico do modelo, segundo o qual,
estes resı́duos deverão ser observações do erro, ou seja, observações de uma v.a. E ∼ N 0, σ 2 .

Estatistica (Sebenta)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estatistica (Sebenta)

Diunggah oleh

Hak Cipta:

Format Tersedia

Probabilidades e Estatı́stica C

Ano Lectivo 2009/2010

3 Estimação por Intervalo de Confiança 21

5 Regressão Linear Simples 67

3.1 Intervalos de confiança para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1 Testes de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . . . . . 44

1.1 Função de probabilidade da população e da amostra . . . . . . . . . . . . . . . . . . . 7

3.1 Intervalos de confiança para o valor médio: Situações A, B e D . . . . . . . . . . . . . 29

4.1 Teste bilateral para o valor médio: Situações A, B e D . . . . . . . . . . . . . . . . . . 44

1.2 População e amostra aleatória

1% dos alunos têm um agregado familiar constituı́do por 1, 2, 3, 4, 5, 6 e 7 pessoas, respectivamente. Se

tabela que se segue, resume-se a informação obtida:

Valores amostrais 1 2 3 4 5 6 7 Total

Figura 1.1: Função de probabilidade da população e da amostra

Exemplo 1.3 Se de facto a função de probabilidade de X é

observações amostrais são obtidas como se observássemos X, independentemente e sob as mesmas

(a) X1 , X2 , . . . , Xn são variáveis aleatórias independentes;

(b) X1 , X2 , . . . , Xn são variáveis aleatórias identicamente distribuı́das, com distribuição igual à da

2.2 Exemplo de estatı́sticas

Estimador da variância σ 2 de uma população X

que também pode ser escrito e determinado por

Estimador do desvio padrão σ de uma população X

As estimativas pontuais destes parâmetros, representar-se-ão por x, s2 e s, respectivamente.

Estimador da proporção (ou probabilidade) p de realização de um acontecimento A

é a sua estimativa pontual.

2.3 Métodos para determinação de estimadores

2.3.1 Método dos momentos

e o momento centrado de ordem r, por

o estimador de µ′r , designado por momento amostral de ordem r e,

o estimador de µr , designado por momento amostral centrado de ordem r.

Se X é uma população cuja distribuição depende de k parâmetros, θ1 , θ2 , . . . , θk , os respectivos

2.4 Erro de amostragem e distribuição de amostragem

2.4.1 Distribuição de amostragem de X

Valor médio e variância de X

• A variância da distribuição da média amostral X é igual à variância da população dividida por

Passamos agora a apresentar a distribuição de amostragem de X que, como veremos depende do

Situação A: X tem distribuição Normal com variância σ 2 conhecida

Situação B: X tem distribuição desconhecida ou conhecida e não normal, com variância

Situação C: X tem distribuição Normal com variância σ 2 desconhecida

Nota: A distribuição t é simétrica em torno de zero e o seu suporte é R.

Situação D: X tem distribuição desconhecida ou conhecida e não normal, com variância

2.4.2 Distribuição de amostragem de S 2

A sua distribuição de amostragem é

2.4.3 Distribuição de amostragem de P̂

Vamos agora discutir

2.5 Propriedades dos estimadores

2.5.1 Erro padrão

e analisemos o respectivo enviesamento:

2.5.3 Eficiência e erro quadrático médio

Definição 2.11 A eficiência de um estimador é o seu erro quadrático médio.

Exemplo 2.6 Para os estimadores

do parâmetro λ da população X ∼ E (λ, 1), o respectivo erro quadrático médio é

Teorema 2.2 Se Θ̂ é um estimador de θ e

2.5.5 Propriedades de X̄, S 2 e P̂

Parâmetro Estimador Valor médio Variância do

α4 = µ4 /σ 4 é o coeficiente de curtose que tem o valor 3 para a distribuição normal.

Estimação por Intervalo de Confiança

Definição 3.1 Um intervalo de confiança 1 − α para um parâmetro θ (de valor desconhecido), é um

L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são denominados limites de confiança inferior e superior,

O método pivotal para determinação de um intervalo de confiança 1 − α para θ, consiste em:

• Conhecer (ou encontrar) uma estatı́stica pivot T ≡ T (X1 , X2 , . . . , Xn , θ) para θ;

• A partir da distribuição de T , determinar valores a1 e a2 , que satisfaçam;

em ordem a θ, de modo a que