Estatı́stica
Maria de Fátima Miguens
1 Inferência Estatı́stica 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 População e amostra aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Estimação Pontual 9
2.1 Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Exemplo de estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Métodos para determinação de estimadores . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Erro de amostragem e distribuição de amostragem . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Distribuição de amostragem de X . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Distribuição de amostragem de S 2 . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Distribuição de amostragem de P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Erro padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Enviesamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Eficiência e erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.4 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.5 Propriedades de X̄, S 2 e P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Teste de Hipóteses 36
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Teste de hipóteses para o valor médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Teste de hipóteses bilateral para o valor médio . . . . . . . . . . . . . . . . . . 39
4.2.2 Teste de hipóteses unilateral direito para o valor médio . . . . . . . . . . . . . 46
4.2.3 Teste de hipóteses unilateral esquerdo para o valor médio . . . . . . . . . . . . 48
1
4.3 Teste de hipóteses para a variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Teste de hipóteses bilateral para a variância . . . . . . . . . . . . . . . . . . . . 51
4.3.2 Teste de hipóteses unilateral direito para a variância . . . . . . . . . . . . . . . 52
4.3.3 Teste de hipóteses unilateral esquerdo para a variância . . . . . . . . . . . . . . 54
4.4 Outros testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.1 Teste de hipóteses para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2 Teste de hipóteses para comparação do valor médio de duas populações . . . . 57
4.5 Teste ao pressuposto da normalidade de uma população . . . . . . . . . . . . . . . . . 60
2.1 Tabela de estimadores para o valor médio, variância, desvio padrão e proporção . . . . 20
3
Lista de Figuras
4
Capı́tulo 1
Inferência Estatı́stica
1.1 Introdução
A inferência estatı́stica é uma área de estudo dedicada ao desenvolvimento e aplicação de métodos
que possibilitem a tomada de decisões e a predição de quantidades desconhecidas numa população.
Este métodos utilizam a informação contida numa amostra seleccionada da população.
A inferência estatı́stica pode ser dividida em duas grandes áreas: estimação de parâmetros e testes
de hipóteses. Como exemplo de um problema sobre estimação de parâmetros, suponhamos que um
engenheiro pretende analisar a resistência de uma componente usada no chassis de um automóvel.
Sendo natural que a resistência varie de componente para componente, isto devido a diferenças que
podem ocorrer nos materiais e no processo de fabrico de cada componente assim, como nos métodos
de leitura da respectiva resistência, o engenheiro está apenas interessado em estimar a resistência
média deste tipo de componentes. Na prática, o engenheiro irá utilizar os dados de uma amostra de
resistências para determinar um número que de algum modo, considere ser uma boa avaliação (ou uma
predição) da verdadeira resistência média. Este número é denominado estimativa pontual. Veremos
também que é possı́vel estabelecer a precisão desta estimativa.
Consideremos a situação em que duas temperaturas de reacção, digamos t1 e t2 , podem ser uti-
lizadas num processo quı́mico. Um engenheiro conjectura que com t1 obterá, em média, resultados de
maior grandeza do que com t2 . O teste estatı́stico de hipóteses é uma ferramenta que permite resolver
questões deste tipo. Neste caso, a hipótese será que o resultado médio quando usada a temperatura
t1 é maior que o resultado médio quando usada a temperatura t2 . Repare que não é dado ênfase à
estimação dos resultados médios; em vez disso, a atenção é dirigida para a conclusão que se pode
retirar acerca da hipótese formulada sobre os resultados médios.
Começamos por definir amostra aleatória, conceito fundamental na inferência estatı́stica. Mais
tarde veremos o conceito de estimador e estimativa de um parâmetro, e finalmente iremos calcular
a precisão da estimativa de um parâmetro analisando as propriedades do estimador utilizado e/ou
determinando estimativas por intervalo de confiança.
1.2.1 População
Exemplo 1.1 Consideremos o conjunto de alunos da FCT/UNL e a informação acerca do número de
pessoas que compõem o respectivo agregado familiar. Admitamos que 5%, 9%, 40%, 30%, 10%, 5% e
5
1. Inferência Estatı́stica 6
Se o objectivo for estudar o n.o de pessoas que constituem o agregado familiar dos alunos da FCT/UNL,
esse objectivo consiste em estudar a v.a. X.
Esse estudo poderá passar pela estimação da função de probabilidade de X ou pela estimação do
n.o esperado de pessoas no agregado familiar de um aluno, ou pela estimação do desvio padrão de X,
etc.
No fundo o estudo incide sobre a v.a. X ou seja sobre a distribuição do n.o de elementos que
compõem o agregado familiar dos alunos da FCT/UNL.
Definição 1.1 Uma população consiste na totalidade das observações do fenómeno em estudo.
Em cada problema, a população pode ser pequena, grande ou infinita. O número de observações
na população é designado por dimensão da população. Por exemplo, o número de garrafas não com-
pletamente cheias produzidas por dia numa empresa de refrigerantes é uma população finita. As
observações obtidas por medição do nı́vel diário de monóxido de carbono é uma população infinita.
A estatı́stica dedica-se ao estudo da população, ou seja ao estudo da repartição de probabilidades
dos seus valores. Se representarmos por X o conjunto dos valores da população, estudar X será estudar
a sua repartição de probabilidades, será portanto estudar a sua distribuição.
Esse estudo poderá passar pela estimação da própria função de distribuição de X, ou pelo estimação
do valor de alguns dos parâmetros da distribuição que se admite ser a mais correcta para X.
Por exemplo, um engenheiro pode considerar que a população das resistências de um elemento
do chassis tem distribuição normal com valor médio µ e variância σ 2 . (Quando consideramos este
pressuposto, dizemos que temos uma população normal ou uma população normalmente distribuı́da.)
O seu objectivo é estimar a resistência média, µ, desse elemento do chassis.
1.2.2 Amostra
Na maioria das situações, é impossı́vel ou impraticável observar a totalidade da população. Por
exemplo, não seria viável estudar a resistência do elemento do chassis através da observação de todos
os elementos da população. Isso seria demasiado demorado e dispendioso. Além do mais, alguns (por
ventura todos) desses elementos não existiriam no momento em que se quer tirar uma conclusão acerca
da sua resistência média.
Assim, seleccionamos alguns elementos da população, e com o estudo das suas caracterı́sticas,
vamos tirar ilacções sobre as caracterı́sticas de toda a população.
Adoptando este procedimento, ficamos dependentes de um conjunto de observações da população,
para podermos tomar decisões acerca de toda a população.
Definição 1.2 Uma amostra é um conjunto de observações seleccionadas, ao acaso e segundo um
método pré-estabelecido, de uma população.
Exemplo 1.2 No estudo sobre o número X de pessoas que compõem o agregado familiar dos alunos
FCT/UNL, recolheu-se uma amostra de valores respeitantes a 50 alunos (seleccionados ao acaso). Na
1. Inferência Estatı́stica 7
O conjunto de frequências relativas desta amostra constitui uma estimativa da função de probabil-
idade de X.
Suponha que era possı́vel inquirir todos os alunos e como tal obter a função de probabilidade de X:
1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
Freq obs
0.4
0.3
0.2
0.1
0.0
1 2 3 4 5 6 7
N.º pessoas
Para que as nossas inferências sejam válidas, a amostra deve ser representativa da população. É
por vezes tentador, seleccionar elementos da população aplicando critérios na sua escolha, como por
exemplo, a comodidade da sua selecção. Estas atitudes podem introduzir uma tendência na amostra
provocando estimativas sub-avaliadas ou sobre-avaliadas. Para evitar estes problemas, devemos se-
leccionar uma amostra aleatória usando um mecanismo de escolha casual. Assim sendo, a selecção
de uma amostra deve ser resultado de uma experiência aleatória. Cada dado amostral é um valor
observado de uma variável aleatória. O modo como se distribuem as observações na população, isto é
a sua função de distribuição, determina a probabilidade de selecção de um dado.
então será escolhido um aluno com o agregado constituı́do por 1 pessoa com probabilidade 0.05, um
aluno com 2 pessoas no agregado com probabilidade 0.09, etc.
Importa agora falarmos do conceito de amostra aleatória. Seja X a variável aleatória que representa
o resultado da selecção de uma observação da população e F a sua função de distribuição. Suponhamos
que cada observação amostral é obtida de modo independente, e nas mesmas condições. Isto é, as
1. Inferência Estatı́stica 8
Exemplo 1.4 Se no estudo de X-“n.o de pessoas por agregado familiar dos alunos da FCT/UNL”,
optarmos por seleccionar ao acaso e com reposição, uma amostra de 3 alunos, então X1 representa
o n.o de pessoas do agregado familiar do 1o aluno que viermos a seleccionar. Claro que, se a função
de probabilidade de X for
1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
então o n.o de pessoas do agregado familiar deste 1o aluno terá função de probabilidade
1 2 3 4 5 6 7
X1
0.05 0.09 0.4 0.3 0.1 0.05 0.01
O n.o de pessoas do agregado familiar do 2o aluno que viermos a seleccionar terá função de probabili-
dade
1 2 3 4 5 6 7
X2
0.05 0.09 0.4 0.3 0.1 0.05 0.01
e o n.o de pessoas do agregado familiar do 3o aluno que vir a escolhido terá função de probabilidade
1 2 3 4 5 6 7
X3
0.05 0.09 0.4 0.3 0.1 0.05 0.01
Se a escolha destes 3 alunos for perfeitamente casual e usarmos um método de amostragem com
reposição, então X1 , X2 e X3 são v.a.’s independentes e todas igualmente distribuı́das, com uma
distribuição idêntica à da população X.
Admitamos que, após a escolha dos alunos, se observaram os valores x1 = 5, x2 = 1 e x3 = 3. Isto
significa que a amostra aleatória (X1 , X2 , X3 ) foi concretizada na amostra observada (x1 , x2 , x3 ) =
(5, 1, 3).
Definição 1.3 Seja X uma população e (X1 , X2 , . . . , Xn ) uma amostra aleatória resultante da se-
lecção ao acaso e com reposição de n elementos de X. Então:
Estimação Pontual
2.1 Estatı́sticas
Muitas vezes o propósito da recolha da amostra consiste em obtermos informação acerca do valor
dos parâmetros da distribuição da população, caso tenham valor desconhecido. Essa informação é
obtida por estimação dos parâmetros, ou seja pela utilização de estatı́sticas adequadas ao tipo de
parâmetros em causa.
Por exemplo, o engenheiro ao considerar que a população das resistências de um elemento do
chassis tem distribuição normal, só pretende saber algo acerca da resistência média do elemento do
chassis, por isso só pretende estimar o valor médio µ desta distribuição normal. Precisa neste caso de
uma estatı́stica para estimar µ.
Suponhamos, por exemplo, que pretendemos chegar a uma conclusão acerca da proporção de
pessoas em Portugal que preferem, uma marca de refrigerante, em particular. Representemos por
p o valor desconhecido desta proporção. Sendo impraticável interrogar todos os portugueses para
determinarmos o verdadeiro valor de p, vamos inferir o seu valor à custa de uma amostra (de tamanho
conveniente) e usando a proporção observada p̂, de pessoas que nesta amostra preferem aquela marca
de refrigerante.
A proporção amostral, p̂, é calculada dividindo o número total de indivı́duos da amostra que
preferem a marca de refrigerante, pelo total de indivı́duos na amostra (dimensão da amostra). Assim,
p̂ é uma função dos valores observados na amostra. Mas como é possı́vel seleccionar muitas e variadas
amostras de uma população, o valor de p̂ poderá variar de amostra para amostra. Isto é, p̂ é uma
observação de uma variável aleatória P̂ que representa a proporção de pessoas que numa amostra
aleatória (X1 , X2 , . . . , Xn ) vierem a manifestar preferência pela marca de refrigerante. P̂ é uma
estatı́stica.
Definição 2.1 Uma estatı́stica é uma função das variáveis de uma amostra aleatória, ou seja, se
(X1 , X2 , . . . , Xn ) é uma amostra aleatória da população X e T : Rn −→ R é uma função, T ≡
T (X1 , X2 , . . . , Xn ) é uma estatı́stica.
Veremos mais tarde, alguns exemplos importantes de estatı́sticas. Uma vez que uma estatı́stica é
uma variável aleatória, necessariamente terá uma função de distribuição. A essa função de distribuição
é dado o nome de distribuição de amostragem da estatı́stica. A noção de distribuição de amostragem
é fundamental em inferência estatı́stica.
Uma secção importante da inferência estatı́stica aborda a denominada estimação pontual de
parâmetros tais como o valor médio de uma população ou como a variância de uma população. Quando
9
2. Estimação Pontual 10
se discutem problemas de inferência estatı́stica sobre parâmetros de uma população é habitual o uso
de letras gregas para na representação desses parâmetros. Por exemplo, µ para o valor médio de uma
população, σ para o desvio padrão de uma população.
O objectivo da estimação pontual de um parâmetro θ, consiste na atribuição de um valor numérico,
baseado na informação da amostra, que seja um valor plausı́vel para θ. Esse valor numérico será a
estimativa pontual do parâmetro.
Em geral, se X é uma população com função de distribuição F, caracterizada por um parâmetro θ
de valor desconhecido, e se (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n da população X,
então a estatı́stica Θ̂ = h (X1 , X2 , . . . , Xn ) é denominada estimador pontual de θ. Repare que Θ̂ é uma
variável aleatória, porque é função de variáveis aleatórias. Após uma amostra ter sido seleccionada,
Θ̂ toma um valor numérico particular θ̂ chamado estimativa pontual de θ.
Definição 2.2 Uma estimativa pontual do parâmetro θ de uma população é um único valor numérico
θ̂ de uma estatı́stica Θ̂, obtido pela observação (x1 , x2 , . . . , xn ) de uma amostra aleatória (X1 , X2 , . . . , Xn ).
Exemplo 2.1 Regressemos ao exemplo do n.o de pessoas por agregado familiar dos alunos da FCT/UNL.
Suponhamos que querı́amos saber qual o n.o médio de pessoas por agregado familiar destes alunos?
Se analisássemos toda a população, saberı́amos que X tem função de probabilidade
1 2 3 4 5 6 7
X
0.05 0.09 0.4 0.3 0.1 0.05 0.01
e portanto saberı́amos que
µ = E (X) = 1 × 0.05 + 2 × 0.09 + . . . + 7 × 0.01 = 3.5 pessoas
Mas de facto, o que conhecemos é a amostra
Valores amostrais 1 2 3 4 5 6 7 Total
Frequência absoluta 2 6 18 14 6 3 1 50
e por isso, poderemos quando muito apresentar uma estimativa pontual de µ, usando a estatı́stica
n
1X
X= Xi . A estimativa pontual de µ resultaria em:
n
i=1
50
1 X 1 179
x= xi = (1 × 2 + 2 × 6 + 3 × 18 + . . . + 7 × 1) = = 3.58 pessoas
50 50 50
i=1
Exemplo 2.2 O número de defeitos num painel metálico usado na construção de automóveis tem
distribuição de Poisson. Seleccionada uma amostra do n.o de defeitos em 10 paineis, obtiveram-se os
seguintes valores: (2, 7, 15, 8, 7, 6, 3, 7, 3, 4).
Se pretendermos estimar o parâmetro da distribuição da população, como sabemos que esta é
Poisson e o parâmetro da distribuição de Poisson coincide com o valor médio desta distribuição, o
problema resume-se à estimação do valor médio da população.
Assim, para a amostra obtida, a estimativa do parâmetro será:
2 + 7 + 15 + 8 + 7 + 6 + 3 + 7 + 3 + 4 62
x= = = 6.2
10 10
ou seja, estimamos que seja de 6.2 o no médio de defeitos por painel.
Exemplo 2.3 Admitamos que não se conhece a distribuição do n.o de defeitos por painel e se pretende
avaliar a dispersão desse n.o de defeitos. Se medirmos a dispersão através do desvio padrão, então
v ! !
u 10 10
√ u 1 X p X
2 2
s = s2 = t xi − 10 × 6.22 = 13.9(5) ≈ 3.74 xi = 510
10 − 1
i=1 i=1
µ′r = E (X r ) ,
µr = E [(X − E (X))]r .
Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) da população X, para estimadores destes momentos,
considerem-se
n
1X r
Mr′ = Xi ,
n
i=1
Exemplo 2.4 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com distribuição
U (a, b). Determinemos os estimadores de momentos, A∗ e B ∗ , dos parâmetros a e b, respectivamente.
a+b (b − a)2
Como sabemos, E (X) = e µ2 = V (X) = . Assim
2 12
(
a+b √
E (X) = X̄ 2 = X̄ a = X̄ − √ 3 M2
⇔ (b−a) 2 ⇔
V (X) = M2 = M2 b = X̄ + 3 M2
12
n n
1X 2 n − 1 1 X 2 n − 1 2
Repare que M2 = Xi − X̄ = Xi − X̄ = S .
n n n−1 n
i=1 i=1
r
3 (n − 1)
A∗ = X̄ −
S
Os estimadores de momentos para a e b são, r n .
3 (n − 1)
B ∗ = X̄ +
S
n
2. Estimação Pontual 13
Repare que Θ̂ é uma variável aleatória, porque é função de variáveis aleatórias e como tal terá
uma distribuição. Essa distribuição não é mais do que a repartição probabilı́stica de todos os valores
observáveis de Θ̂, sendo estes todos os que se obteriam caso fosse realizável recolher todas as possı́veis
amostras de dimensão n.
Definição 2.5 A distribuição de um estimador pontual (ou estatı́stica) Θ̂ é designada por distribuição
de amostragem de Θ̂.
Observações:
• O valor esperado da distribuição da média amostral X coincide com o valor médio da população.
X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.5)
σ/ n σ
X −µ √ X −µ
T = √ ≡ n ∼ tn−1 (2.4.6)
S/ n S
X −µ √ X −µ a
Z= √ ≡ n ∼ N (0, 1) (2.4.7)
S/ n S
(n − 1) S 2
X2 = ∼ χ2n−1 (2.4.8)
σ2
Nota: A distribuição do Qui-quadrado é assimétrica e o seu suporte é [0, +∞[.
Observação: Quando (X1 , X2 , . . . , Xn ) é uma a.a. de uma população X com distribuição N µ, σ 2
em que µ tem valor conhecido, podemos estimar σ 2 através do estimador
n
1X
σ 2∗
= (Xi − µ)2 .
n
i=1
nσ 2
∗
∼ χ2n (2.4.9)
σ2
Contudo, esta situação não é muito frequente uma vez que, quando não se conhece a variância de
uma população, poucas vezes se conhece o seu valor médio.
2. Estimação Pontual 16
e portanto que
P̂ − p a
Z=q ∼ N (0, 1) (2.4.10)
p(1−p)
n
Observações:
P
• Repare que P̂ = n1 ni=1 Xi não é mais do que a média de uma amostra (X1 , X2 , . . . , Xn ) de
uma população X ∼ B (1, p). Se entrarmos em linha de conta com o facto de µ ≡ E (X) = p
e σ 2 ≡ V (X) = p (1 − p), então o resultado 2.4.10 não é mais do que um caso particular do
resultado 2.4.5 (População não normal com variância conhecida e n ≥ 30).
• Relativamente à observação anterior, podemos ainda dizer que, se p tem um valor desconhecido,
também σ 2
≡ V (X) = p (1 − p) tem um valor desconhecido. O mais natural é considerar
P̂ 1 − P̂ para estimador de σ 2 = p (1 − p) e, o Teorema Limite Central em conjugação com
outros resultados aquém do âmbito desta disciplina, permitem concluir que
P̂ − p a
Z=q ∼ N (0, 1) (2.4.11)
P̂ (1−P̂ )
n
2. Estimação Pontual 17
O estimador Θ̂ será tanto ”melhor”quanto menor for o seu erro padrão, porque nos informa de que
as estimativas do parâmetro θ são pouco dispersas, como convém que aconteça.
2.5.2 Enviesamento
Também será desejável que um estimador Θ̂ faculte valores que, em média coincidam com o valor
do parâmetro θ. Dito de outro modo, convém
o valor esperado de Θ̂ seja igual ao verdadeiro valor de
θ. Matematicamente, é desejável que E Θ̂ = θ.
Definição 2.7 Um estimador Θ̂ para o parâmetro θ diz-se não enviesado (ou centrado) se E Θ̂ = θ.
Definição 2.8 O enviesamento de um estimador Θ̂ para o parâmetro θ é bias Θ̂ = E Θ̂ − θ.
Exemplo 2.5 Suponhamos que X é uma população com distribuição exponencial de parâmetros (λ, 1)
em que λ tem valor desconhecido.
Dada uma amostra aleatória (X1 , X2 , . . . , Xn ) desta população, considerem-se os dois estimadores
para λ:
Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1
Definição 2.10 Define-se o erro quadrático médio do estimador pontual Θ̂ do parâmetro θ, por
2
EQM Θ̂ = E Θ̂ − θ .
Face a dois estimadores, não necessariamente centrados, devemos optar pelo que apresenta menor
erro quadrático médio.
Este processo engloba a comparação de estimadores centrados por utilização do seu erro padrão.
De facto,
Teorema 2.1
h i2
EQM Θ̂ = V Θ̂ + bias Θ̂ .
Portanto, quando dois estimadores são centrados, o seu enviesamento é nulo, e por isso a com-
paração do seu erro quadrático médio acaba por ser equivalente à comparação do seu erro padrão.
Definição 2.12 Dados dois estimadores Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que Θ̂ é mais
eficiente que Θ∗ se,
EQM Θ̂ < EQM (Θ∗ ) .
Definição 2.13 Dados dois estimadores centrados Θ̂ e Θ∗ para o mesmo parâmetro θ, dizemos que
Θ̂ é mais eficiente que Θ∗ se,
V Θ̂ < V (Θ∗ ) .
2. Estimação Pontual 19
Λ̂ = min (X1 , X2 , . . . , Xn ) e Λ∗ = X̄ − 1
2.5.4 Consistência
A consistência é outra propriedade importante dos estimadores. Um estimador é consistente se,
com o aumento da dimensão da amostra, aumenta a probabilidade da estimativa do parâmetro estar
próxima do seu verdadeiro valor.
Em termos formais,
Definição 2.14 O estimador Θ̂ do parâmetro θ é consistente se e só se, para qualquer δ > 0,
lim P Θ̂ − θ < δ = 1.
n→+∞
Para um estimador consistente, quanto maior for o tamanho da aumento, maior é a probabilidade
de se obterem estimativas numa vizinhança do valor do parâmetro.
Na prática poucas vezes se usa a definição para se analisar a consistência de um estimador.
Utilizam-se outros critérios de verificação dos quais apresentamos o seguinte:
então Θ̂ é consistente.
Exemplo 2.7 Retomemos o exemplo 2.6. Os dois estimadores são consistentes porque
2 1
lim EQM Λ̂ = lim =0 e lim EQM (Λ∗ ) = lim =0
n→+∞ n→+∞ n2 n→+∞ n→+∞ n
Tabela 2.1: Tabela de estimadores para o valor médio, variância, desvio padrão e proporção
3.1 Introdução
Em muitas situações, uma estimação pontual de um parâmetro não fornece informação suficiente
sobre esse parâmetro.
Vejamos o caso do exemplo 2.2. Como se pretendia estimar µ ≡ E (X) e se adoptou o estimador
X̄, a estimativa pontual de µ, no médio de defeitos por painel, foi x = 6.2. Mas, é pouco provável
que o verdadeiro no médio de defeitos seja exactamente 6.2. Portanto é lógico que nos interroguemos
acerca da proximidade desta estimativa relativamente ao verdadeiro no médio, µ. Como se frisou na
secção anterior, o erro padrão (ou o erro quadrático médio, quando o estimador não é centrado) já
nos dará uma ideia da precisão da nossa estimativa. Outro tipo de abordagem passaria por preten-
dermos garantir que, para uma grande ”percentagem”de todas as amostras que pudessemos recolher,
a diferença em valor absoluto entre a média amostral X̄ e o valor médio µ, não ultrapasse um certo
valor a (que corresponde ao erro máximo que desejamos para a estimação de µ). Se interpretarmos
essa percentagem como a probabilidade de recolhermos uma amostra que cumpra o anterior requisito
e a representarmos por 1 − α, então poderı́amos equacionar o problema do seguinte modo:
P X̄ − µ ≤ a = 1 − α .
Como X̄ − µ ≤ a ⇔ X̄ − a ≤ µ ≤ X̄ + a, então o pretendı́amos encontrar era um intervalo
X̄ − a, X̄ + a que, com probabilidade 1 − α elevada, contivesse o valor médio µ.
Designarı́amos esse intervalo por intervalo de confiança 1 − α para µ e realizarı́amos assim uma
estimação de µ por intervalo de confiança 1 − α (ou estimação intervalar de µ).
[L (X1 , X2 , . . . , Xn ) , U (X1 , X2 , . . . , Xn )]
onde L (X1 , X2 , . . . , Xn ) e U (X1 , X2 , . . . , Xn ) são estatı́sticas que não dependem do valor de θ, e que
satisfazem
P (L (X1 , X2 , . . . , Xn ) ≤ θ ≤ U (X1 , X2 , . . . , Xn )) = 1 − α.
21
3. Estimação por Intervalo de Confiança 22
Resta-nos agora dizer algo sobre o método geral de determinação destes intervalos. O método mais
usual e que iremos utilizar, é o método pivotal . Para o pormos em prática é necessário encontrarmos
ou conhecermos uma estatı́stica pivot.
Definição 3.2 Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população cuja distribuição de-
pende de um parâmetro θ. Consideremos T ≡ T (X1 , X2 , . . . , Xn , θ) uma estatı́stica, função da amostra
aleatória e de θ (e eventualmente de outros parâmetros de valor conhecido). Se a distribuição de T
não depende de θ, ela diz-se uma estatı́stica pivot para θ.
Exemplo 3.1 Se (X1 , X2 , . . . , Xn ) for uma amostra aleatória de uma população X ∼ N µ, 52 , então
X̄ − µ
T =p ∼ N (0, 1)
52 /n
Podemos afirmar que T é uma estatı́stica pivot para µ, porque a distribuição de T é sempre N (0, 1),
qualquer que seja o valor de µ.
P (a1 ≤ T ≤ a2 ) = 1 − α;
• Resolver as desigualdades
a1 ≤ T (X1 , X2 , . . . , Xn , θ) ≤ a2
NOTAS IMPORTANTES:
• Para um coeficiente de confiança 1−α, fixo, existem diversas escolhas possı́veis para as constantes
a1 e a2 . Sempre que possı́vel devemos optar por usar aquelas que conduzem a um intervalo de
confiança de amplitude mı́nima.
3. Estimação por Intervalo de Confiança 23
• Quando a estatı́stica pivot tem uma distribuição simétrica em torno de zero, a melhor escolha
para a1 e a2 é:
Podemos interpretar um intervalo de confiança pensando que, se infinitas amostras forem selec-
cionadas e um intervalo de confiança (1 − α) for calculado para cada uma delas, então 100 (1 − α)
desses intervalos contêm o verdadeiro valor de θ.
Esta situação é ilustrada na figura que se segue, que mostra diversos intervalos de confiança (1 − α)
para o parâmetro θ de uma população. Os pontos no centro dos intervalos indicam a estimativa pontual
de θ (isto é, θ̂). Repare que um dos 15 intervalos falha em conter o verdadeiro valor de θ. Se estes
fossem intervalos de 95% de confiança, de entre infinitos intervalos que calculássemos (com base em
infinitas amostras) apenas 5% deles não iriam conter o verdadeiro valor de θ.
θ
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
Na prática, só temos uma amostra observada (x1 , x2 , . . . , xn ) para a qual determinamos um in-
tervalo de confiança [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]. Como este intervalo vai conter ou não o
verdadeiro valor do parâmetro θ, não é razoável associar uma probabilidade a este acontecimento
especı́fico. O que devemos afirmar é que o intervalo observado [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )]
abrange o verdadeiro valor de θ com uma confiança de (1 − α). Esta afirmação tem uma interpretação
frequencista; isto é, nós não sabemos se, para uma amostra especı́fica, a afirmação é verdadeira, mas o
método usado para obter o intervalo [l (x1 , x2 , . . . , xn ) , u (x1 , x2 , . . . , xn )] permite afirmações correctas
100 (1 − α) das vezes.
A amplitude observada, u (x1 , x2 , . . . , xn ) − l (x1 , x2 , . . . , xn ), de um intervalo de confiança é uma
importante medida da qualidade da estimação do parâmetro. Em particular, a metade da amplitude do
intervalo, designada por precisão da estimação por intervalo de confiança, é um indicador da qualidade
da estimativa do parâmetro θ. Quanto maior for a amplitude de um intervalo de confiança, mais
confiança temos de que esse intervalo contem de facto o verdadeiro valor de θ. Por outro lado, quanto
maior for a amplitude do intervalo de confiança, (menor precisão da estimação) menos informação
temos acerca do verdadeiro valor de θ, uma vez que temos uma maior gama de valores possı́veis para
θ. A situação ideal reside num intervalo de pequena amplitude e com elevado coeficiente de confiança.
3. Estimação por Intervalo de Confiança 24
P (L ≤ µ ≤ U ) = 1 − α, 0 < α < 1.
Também de acordo com o que foi dito, será a partir de X e da sua distribuição de amostragem,
que poderemos deduzir os valores de L e de U.
Consideremos uma amostra aleatória (X1 , X2 , . . . , Xn ) que irá servir para a estimação de µ através
do seu estimador X. Podemos afirmar que o valor de µ oscila em torno de X, ou seja que µ poderá
assumir um valor dentro do intervalo
X − a, X + a .
Para que este intervalo tenha um coeficiente de confiança (1 − α) é necessário que se verifique
P X − a ≤ µ ≤ X + a = 1 − α, 0 < α < 1. (3.2.1)
ou seja que
P µ−a≤X ≤µ+a =1−α
X −µ √ X −µ
Z=p = n ∼ N (0, 1) .
σ 2 /n σ
Assim
√ √
n n
P X − a ≤ µ ≤ X + a = 1 − α ⇔ 2Φ a −1=1−α⇔Φ a = 1 − α/2 ⇔
σ σ
√
n σ
⇔ a = Φ−1 (1 − α/2) ⇔ a = √ Φ−1 (1 − α/2) .
σ n
Exemplo 3.2 O tempo que uma máquina leva a executar a sua tarefa em cada peça produzida
segue uma distribuição normal de desvio padrão igual a 3 segundos.
Pretendendo-se estimar por intervalo de 95% de confiança, o tempo médio de execução das peças,
recolheu-se uma amostra de tempos de execução de 25 peças, cuja média foi de 12 segundos.
Assim,
Podemos dizer com 95% de confiança , que o intervalo anterior inclui o verdadeiro tempo médio
de execução das peças produzidas pela máquina.
3. Estimação por Intervalo de Confiança 26
Situação B Admitamos que (X1 , X2 , . . . , Xn ) é uma amostra aleatória de dimensão n ≥ 30, de uma
população X cuja distribuição não é normal ou é desconhecida, mas com variância σ 2 conhecida.
Seja µ o valor médio da população X, que queremos estimar.
Apesar de se conhecer o valor da variância σ 2 isso por si só não permite o conhecimento da
distribuição de X. Contudo se a amostra for grande, isto é se tiver uma dimensão n ≥ 30, por
aplicação do Teorema Limite Central, podemos afirmar que
X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
σ 2 /n σ
•
√ X −µ σ σ
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
σ n n
h i
• IC100(1−α)% (µ) ≡ X − zα/2 √σn , X + zα/2 √σn
Situação C Consideremos (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população X com dis-
tribuição normal de valor médio µ (que se pretende estimar) e variância σ 2 desconhecida.
Relativamente á Situação A, o que agora se altera é o facto da variância σ 2 ser desconhecida.
Se a variância σ 2 é desconhecida, podemos de imediato pensar em a substituir pela variância
amostral, ou seja, por
n n
! !
2 1 X 2 1 X
2 2
S = Xi − X = Xi − nX .
n−1 n−1
i=1 i=1
3. Estimação por Intervalo de Confiança 27
X −µ
T = √ ∼ tn−1
S/ n
•
√ X −µ
−tn−1:α/2 ≤ T ≤ tn−1:α/2 ⇔ −tn−1:α/2 ≤ n ≤ tn−1:α/2 ⇔
S
S S
⇔ X − tn−1:α/2 √ ≤ µ ≤ X + tn−1:α/2 √
n n
h i
• IC100(1−α)% (µ) ≡ X − tn−1:α/2 √Sn , X + tn−1:α/2 √Sn
Exemplo 3.3 Uma amostra do peso de 8 animais alimentados com um determinado tipo de
ração, forneceu os seguintes valores (em kg):
Admitindo que o peso dos animais se comporta de acordo com uma distribuição normal, apresente
uma estimativa por intervalo de 90% de confiança para o peso médio dos animais alimentados
com este tipo de ração.
8
X 8
X
n=8 xi = 42.1 x2i = 227.69
i=1 i=1
42.1 1
x= = 5.2625 s2 = 227.69 − 8 × 5.26252 = 0.8769657
8 7
√
2
s = + s = 0.9364644
1 − α = 0.9 ⇒ α = 0.1 ⇒ α/2 = 0.05 t7:0.05 = 1.9
X −µ √ X −µ a
Z=p = n ∼ N (0, 1)
2
S /n S
•
√ X −µ S S
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ n ≤ zα/2 ⇔ X − zα/2 √ ≤ µ ≤ X + zα/2 √
S n n
3. Estimação por Intervalo de Confiança 29
h i
• IC100(1−α)% (µ) ≡ X − zα/2 √Sn , X + zα/2 √Sn
Em resumo
Seja uma amostra aleatória (X1 , X2 , . . . , Xn ) da população X. Quando esta população X tem
distribuição N µ, σ 2 , a v.a.
(n − 1) S 2
σ2
tem distribuição do qui-quadrado com (n − 1) graus de liberdade (e podemos escrever de modo abre-
2
viado, (n−1)S
σ2
∼ χ2n−1 ).
A aplicação do método pivotal resulta em:
(n − 1) S 2
• Estatı́stica pivot: X 2 = ∼ χ2n−1
σ2
• P a1 ≤ X 2 ≤ a2 = 1 − α ⇔ P X 2 ≤ a2 − P X 2 ≤ a1 = 1 − α
Sejam p1 = P X 2 ≤ a1 e p2 = P X 2 ≥ a2 probabilidades tais que 1−(p1 + p2 ) = 1−α. Então
a1 ≡ χ2n−1:1−p1 e a2 ≡ χ2n−1:p2 são os quantis de probabilidades p1 e 1 − p2 , respectivamente, da
distribuição χ2n−1 .
Assim
P χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 = 1 − α
•
(n − 1) S 2 (n − 1) S 2 (n − 1) S 2
χ2n−1:1−p1 ≤ X 2 ≤ χ2n−1:p2 ⇔ χ2n−1:1−p1 ≤ 2
≤ χ2n−1:p2 ⇔ 2 ≤ σ2 ≤ 2
σ χn−1:p2 χn−1:1−p1
3. Estimação por Intervalo de Confiança 31
(n−1)S 2 (n−1)S 2
• IC100(1−α)% σ 2 ≡ χ2n−1:p
, χ2
2 n−1:1−p
1
A não simetria da distribuição do qui-quadrado levanta dificuldades na escolha dos valores das
probabilidades p1 e p2 que permitam obter um intervalo de confiança de amplitude mı́nima. Por isso,
e para simplificação do processo de determinação do intervalo, é habitual considerar-se p1 = p2 = α/2,
abdicando-se do objectivo de conseguir o intervalo de menor amplitude.
Adoptando esta estratégia:
a1 ≡ χ2n−1:1−α/2 e a2 ≡ χ2n−1:α/2
Exemplo 3.4 Considere uma amostra de 25 pessoas cuja altura média e desvio padrão são, respec-
tivamente, 172 e 5 centı́metros. Admitindo que a altura é uma variável com distribuição normal,
estimemos por intervalo de 90% de confiança, a variância e o desvio padrão da altura de todas as
pessoas.
Sabemos que s = 5 e portanto que s2 = 25. Para n = 25 e α = 10%,
Uma estimativa por intervalo de 90% de confiança para o desvio padrão da população poderá ser
h√ √ i
IC90% (σ) ≡ 16.48, 43.33 = [4.06, 6.58]
P̂ − p √ P̂ − p a
Z=q = nr ∼ N (0, 1)
P̂ (1−P̂ )
n P̂ 1 − P̂
Método pivot:
√ P̂ − p a
• Estatı́stica pivot: Z = nr ∼ N (0, 1)
P̂ 1 − P̂
• P (−a ≤ Z ≤ a) ≈ 1 − α
e assim
√P̂ − p
−zα/2 ≤ Z ≤ zα/2 ⇔ −zα/2 ≤ nr ≤ zα/2 ⇔
P̂ 1 − P̂
v v
u u
u P̂ 1 − P̂ u P̂ 1 − P̂
t t
⇔ P̂ − zα/2 ≤ p ≤ P̂ + zα/2
n n
q q
P̂ (1−P̂ ) P̂ (1−P̂ )
• IC100(1−α)% (p) ≡ P̂ − zα/2 n , P̂ + zα/2 n
Exemplo 3.5 Num inquérito telefónico destinado a estimar a proporção da população que tem acesso
à internet em casa, foram inquiridas 50 pessoas, das quais 32 afirmaram ter este serviço.
A estimativa por intervalo de 95% de confiança para a proporção da população é
" r r #
0.64 (1 − 0.64) 0.64 (1 − 0.64)
IC95% (p) ≡ 0.64 − 1.96 , 0.64 + 1.96 = [0.507, 0.773]
50 50
Tabela 3.2: Distribuição de amostragem para a diferença de médias de amostras de duas populações
Tabela 3.3: Distribuição de amostragem para o quociente de variâncias de amostras de duas populações
Tabela 3.4: Distribuição de amostragem para a diferença de proporções amostrais de duas populações
Teste de Hipóteses
4.1 Introdução
Nos capı́tulos 2 e 3 vimos como estimar pontualmente e por intervalo de confiança os parâmetros
de uma população, tendo dado particular relevo ao valor médio, à variância (e ao desvio padrão) e a
uma proporção.
Outro procedimento muito importante em inferência estatı́stica é o teste de hipóteses e que
consiste na averiguação da consistência dos dados amostrais com determinadas conjecturas que se
estabeleçam sobre a população. Por exemplo:
• Num determinado departamento pretende-se estudar o número, X, de faltas ao trabalho (de
cada funcionário) durante os 5 dias úteis de uma semana. X é uma população com distribuição
binomial de parâmetros (5, p) e o seu estudo passa pelo conhecimento do valor de p. Assim esta-
belecer conjecturas sobre a população é adiantar valores para p que correspondam a expectativas
que se tenham sobre X. Por exemplo, podemos perguntar: Será que p = P (falta num dia) ≤ 0.3
ou será que p = P (falta num dia) > 0.3?
• Será que o tempo de duração de um telemóvel de uma determinada marca, tem distribuição
exponencial?
Nos dois primeiros exemplos as conjecturas são feitas sobre o valor de parâmetros da população,
ou melhor dizendo sobre o valor dos parâmetros da distribuição da população X. No terceiro exemplo
a conjectura é feita sobre a própria distribuição da população X.
As conjecturas que se fazem sobre a população (quer seja sobre os seus parâmetros, quer seja sobre
a própria distribuição) designam-se por hipóteses.
Num teste de hipóteses existem sempre duas hipóteses: A hipótese nula representada por H0 e a
hipótese alternativa representada por H1 .
Nos exemplos atrás referidos as hipóteses são:
• H0 : µ = 33 vs H1 : µ 6= 33
36
4. Teste de Hipóteses 37
• H0 : X ∼ E (0, δ) vs H1 : X ≁ E (0, δ)
Os testes cujas hipóteses incidem sobre o valor dos parâmetros de um população dizem-se testes
paramétricos e quando não envolvem parâmetros dizem-se testes não-paramétricos. Nas exem-
plificações anteriores, os dois primeiros testes são paramétricos e o último é não-paramétrico.
A hipótese H0 do segundo exemplo é uma hipótese simples porque nela figura apenas um valor
para o parâmetro. O mesmo não acontece na hipótese H1 desse exemplo porque nela se adiantam
diversos valores para µ. Diz-se então que H1 é uma hipótese composta. Todas as hipóteses que figuram
nos dois outros exemplos são hipóteses compostas.
Num teste de hipóteses pretendemos verificar a validade da hipótese alternativa H1 e por isso é
habitual dizermos que vamos testar H1 . Depois de enunciada a hipótese H1 que se quer testar, define-
se a hipótese nula H0 como a hipótese complementar de H1 .
No exemplo sobre o número de faltas ao trabalho, considera-se grave que p = P (falta num dia) seja
superior a 30%. Se quisermos testar esta situação, estabelecemos a hipótese H1 : p > 0.3 e só depois
ficamos a saber a hipótese que a complementa é H0 : p ≤ 0.3.
O teste de uma hipótese H1 , consiste em aproveitar a informação contida na amostra e em verificar
a consistência dessa informação com a hipótese H0 , decidindo-nos então pela rejeição ou não rejeição
de H0 .
O processo estatı́stico num teste de hipóteses consiste em determinar a probabilidade de, com
os dados amostrais observados, a hipótese nula H0 ser falsa. Se essa probabilidade for elevada, fica
provada a validade de H1 . Se for pequena, não devemos rejeitar H0 porque os dados não suportam a
validade de H1 .
Neste procedimento, a hipótese nula H0 é considerada verdadeira até que se verifique que não existe
evidência estatı́stica que a suporte, devendo então ser rejeitada (aceitando como válida a hipótese
alternativa H1 ).
Em termos práticos, um teste de hipóteses consiste numa partição do conjunto de todas a amostras
que é possı́vel recolher, em dois subconjuntos, designados por região de rejeição (ou região crı́tica) e
região de aceitação.
Mas, como a decisão sobre a rejeição ou não rejeição da hipótese H0 é feita à custa da informação
amostral, podemos sempre cometer erros na decisão. Esses erros são: O erro de tipo I (ou erro de 1a
espécie) correspondente a decidirmos rejeitar a hipótese H0 , quando ela é verdadeira, e o erro de tipo
II (ou erro de 2a espécie) correspondente a não rejeitarmos a hipótese H0 , quando ela é falsa.
Decisão H0 verdadeira H0 falsa
Rejeitar H0 Decisão incorrecta Decisão correcta
Não rejeitar H0 Decisão correcta Decisão incorrecta
Existindo sempre a possibilidade de cometermos estes erros de decisão, podemos associar-lhes uma
probabilidade de ocorrerem. Essas probabilidades são:
γ = P (erro de tipo I) = P (Rejeitar H0 |H0 é verdadeira )
Ao valor máximo desta probabilidade dá-se o nome de nı́vel de significância (usualmente representado
por α).
Os nı́veis de significância mais usados são α = 0.1 = 10% para uma decisão pouco significante,
α = 0.05 = 5% para uma decisão significante e α = 0.01 = 1% para uma decisão altamente significante.
Ao erro de tipo II corresponde a probabilidade
β = P (erro de tipo II) = P (Não rejeitar H0 |H0 é falsa )
4. Teste de Hipóteses 38
H0 : θ ∈ Iθ vs H1 : θ ∈
/ Iθ .
• Face a uma amostra observada (x1 , x2 , . . . , xn ), calcular o valor observado da estatı́stica de teste
wobs = W (x1 , x2 , . . . , xn ) e decidir:
Para cada teste que a seguir expomos, iremos escolher a estatı́stica de teste W (X1 , X2 , . . . , Xn ),
determinar a região de rejeição Rα , para um nı́vel de significância α fixo, após o que será possı́vel
tomar uma decisão face a uma amostra recolhida.
Com a evolução das ferramentas de cálculo, é hoje possı́vel determinar probabilidades de modo
expedito e cómodo. Por isso, é agora usual associar e tomar decisões sobre um teste de hipóteses
através do conceito de p-value.
O p-value é uma probabilidade que mede até que ponto os dados amostrais sugerem a rejeição de
H0 e é especialmente importante quando o valor observado da estatı́stica de teste está muito próximo
da fronteira da região de rejeição e por isso não rejeitamos H0 por pouco.
wobs = W (x1 , x2 , . . . , xn )
4. Teste de Hipóteses 39
o valor observado da estatı́stica de teste. Designa-se por p-value (ou valor-p), a probabilidade de se
observarem valores da estatı́stica de teste tão ou mais desfavoráveis a H0 do que o observado wobs ,
admitindo que H0 é verdadeira.
Podemos ainda dizer que o p-value é o nı́vel de significância do teste, quando calculado com o valor
observado wobs da estatı́stica de teste (máximo da probabilidade do erro de tipo I, caso rejeitemos H0
com o valor wobs ).
NOTA: O p−value é uma medida da concordância entre a hipótese H0 e as amostras que possamos
recolher e que sejam tão ou mais favoráveis à rejeição de H0 . Quanto menor for o p − value, menor é
a consistência da validade de H0 . Assim:
• se p − value ≤ α, rejeitamos H0 ao nı́vel de significância α;
se tinham ocorrido alterações no gasto semanal médio em alimentação das mesmas famı́lias. Para
tal seleccionou-se uma amostra de gastos semanais em alimentação de 25 famı́lias (com 2 filhos), que
revelou uma média x = 108 euros.
Que conclusões podemos retirar acerca da alteração do gasto médio semanal em alimentação deste
tipo de famı́lias?
A população em estudo é X-gasto semanal em alimentação das famı́lias com 2 filhos, mas o
interesse primordial diz respeito a µ = E (X)-gasto médio semanal em alimentação das famı́lias com
2 filhos. A nossa questão reside em saber se µ permanece igual a 100 euros, µ = 100, ou, se em
Agosto, µ é diferente de 100 euros, µ 6= 100.
Queremos então testar a validade das hipóteses
H0 : µ = 100 vs H1 : µ 6= 100
A decisão acerca da validade de alguma destas hipóteses deverá ser feita à custa da informação que
a amostra fornecer. Uma vez que as hipóteses dizem respeito ao valor médio da população, devemos
considerar a informação que a amostra fornecer sobre µ. Mas já sabemos que a informação amostral
sobre µ, reside na estimativa de µ, ou seja, reside no valor da média de uma amostra de dimensão n,
n
1X
X= Xi
n
i=1
O valor de X vai-nos permitir decidir se µ 6= 100 ou se µ = 100, isto é, vai-nos permitir decidir
se rejeitamos H0 ou se não rejeitamos H0 . Como tal, só nos resta saber, quais os valores de X que
nos levam a rejeitar H0 ou a não rejeitar H0 . Em resumo, precisamos de uma regra de decisão.
Regra de decisão
Se X tiver um valor muito diferente (ou distante) de 100, é natural que se decida que µ 6= 100.
Podemos dizer que X é muito diferente de 100, se X − 100 for muito grande, ou seja se o valor de
X − 100 ultrapassar uma certa quantidade a (a > 0). Então
Rejeitamos µ = 100 se X − 100 > a (a > 0)
ou de modo equivalente
Rejeitamos H0 se X − 100 > a (a > 0)
H0 : µ = µ0 vs H1 : µ 6= µ0
Rejeitamos H0 se X − µ0 > a (a > 0)
1. Em Agosto, o gasto médio semanal em alimentação permanece igual a 100 euros, µ = 100. Isto
é o que acontece na população, mas nós não sabemos porque não analisamos a população na
totalidade.
4. Teste de Hipóteses 41
Suponhamos que o acaso da amostragem, levava a que se obtivessem valores amostrais sobre
o gasto semanal em alimentação, muito elevados (muito pequenos).
Então X teria um valor
elevado (pequeno), e de tal modo elevado (pequeno) que X − 100 > a. Como consequência,
irı́amos decidir rejeitar H0 , ou seja, decidir que µ 6= 100.
A nossa decisão seria errada, porque (baseados na amostra) decidı́amos que µ 6= 100 e de facto
µ = 100. Estarı́amos a cometer um erro de tipo I, nomeadamente a rejeitar H0 : µ = 100,
quando H0 é verdadeira.
2. Em Agosto, o gasto médio semanal em alimentação sofreu uma alteração e passou a ter um
valor µ 6= 100. Isto é o que acontece na população, mas nós não sabemos porque não analisamos
a população na totalidade.
Suponhamos
que
a média amostral X exibia um valor não muito diferente de 100, de tal modo
que X − 100 ≤ a. Como consequência, irı́amos decidir não rejeitar H0 : µ = 100, ou seja,
decidir que o gasto médio semanal continuava igual a 100.
Esta decisão seria errada, porque (baseados na amostra) decidı́amos que µ = 100 e de facto
µ 6= 100. O erro cometido era um erro de tipo II, nomeadamente não rejeitar H0 , quando H0 é
falsa.
NOTA: O teste que agora expomos, é um teste que minimiza β (µ), para cada α (nı́vel de sig-
nificância) que escolhermos.
H0 : µ = µ0 vs H1 : µ 6= µ0
Trata-se de uma probabilidade cujo valor conhecemos, o que desconhecemos é o valor de a. Mas
se soubermos qual a distribuição da v.a. X, podemos trabalhar esta igualdade sobre probabilidades e
portanto deduzir o valor de a.
Suponhamos que a população goza das seguintes caracterı́sticas:
4. Teste de Hipóteses 42
X tem distribuição normal de valor médio µ e variância conhecida, σ 2 = V (X), X ∼ N µ, σ 2
Então a nossa amostra aleatória (X1 , . . . , Xn ) é constituı́da por v.a.’s com distribuição N µ, σ 2
σ2
e portanto X tem distribuição normal de valor médio µ e variância σ 2 /n, X ∼ N µ, , isto é
n
√ X −µ
Z= n ∼ N (0, 1).
σ
√ X − µ0
Quando H0 : µ = µ0 é verdadeira, Z = n ∼ N (0, 1)
σ sob H0
Agora já podemos determinar o valor de a.
√ X − µ0 √ a √ a
α = P X − µ0 > a |µ = µ0 = P n > n = P |Z| > n √ =
σ σ n
√ a √ a √ a √ a
= P Z<− n +P Z > n =Φ − n +1−Φ n =
√ a σ √ a σ √ aσ √σ a
= 1−Φ n +1−Φ n = 2 − 2Φ n =2 1−Φ n
σ σ σ σ
ou seja
√ a α √ a α σ
Φ n = 1 − ⇔ n = Φ−1 1 − = zα/2 ⇔ a = √ zα/2
σ 2 σ 2 n
Regra de decisão para um nı́vel de significância α
σ
Rejeitar H0 se X − µ0 > √ zα/2
n
ou de modo equivalente
√ X − µ0
Rejeitar H0 se n
> zα/2
σ
NOTAS:
• Repare que conseguimos deduzir o valor de a porque soubemos as caracterı́sticas da população
e portanto conseguimos saber qual a distribuição de X. Repare também que este conhecimento
das caracterı́sticas da população X corresponde à situação A descrita na secção 2.4.1.
√ X − µ0 √ X − µ0
• Z= n é a estatı́stica de teste e Z = n ∼ N (0, 1).
σ σ µ=µ0
• A região de rejeição, para um nı́vel de significância α, é Rα ≡ −∞, −zα/2 ∪ zα/2 , +∞ .
√ x − µ0
• A regra de decisão, para um nı́vel de significância α será a de rejeitar H0 caso zobs = n ∈
σ
Rα .
H0 : µ = 100 vs H1 : µ 6= 100
• Decisão,
√ ao nı́vel de 5% de significância:
zobs = 25 108−100
15 = 2.667 ∈ R0.05
Rejeitamos H0 ao nı́vel de significância de 5%, isto é, existe evidência estatı́stica para podermos
afirmar que existe alteração no gasto médio semanal no mês de Agosto.
Dado que p − value < 0.05, decidimos rejeitar H0 : µ = 100, ao nı́vel de 5% de significância.
H0 : µ = µ0 vs H1 : µ 6= µ0
Exemplo 4.3 Medições de acidez (pH) de amostras de chuva foram registadas em 12 locais de uma
região industrial:
Por estudos anteriores sabe-se que os registos de acidez da chuva nesta região têm distribuição
normal.
Poderemos concluir, com 5% de significância, que os nı́veis actuais de acidez média da chuva saem
fora do valor de controlo de 4.5 de acidez média na região?
Pretendemos testar, com α = 5%, as hipóteses
H0 : µ = 4.5 vs H1 : µ 6= 4.5
• Decisão,
√ ao nı́vel de 5% de significância:
tobs = 12 √4.55−4.5
0.213637
= 0.3747 ∈
/ R0.05
Não rejeitamos H0 ao nı́vel de significância de 5%, isto é, não existe evidência estatı́stica para
podermos afirmar que os nı́veis actuais de acidez média saem fora do valor de controlo.
Dado que p − value > 0.05, decidimos não rejeitar H0 : µ = 4.5, ao nı́vel de 5% de significância.
4. Teste de Hipóteses 46
H0 : µ ≤ µ0 vs H1 : µ > µ0
ou de modo equivalente
√ X − 4.2
Rejeitar H0 se n > zα
σ
4. Teste de Hipóteses 47
Como n = 80, x = 4.5, σ = 1.1 e, para α = 10%, z0.1 = Φ−1 (0.9) = 1.28
√ X − 4.2
n = 2.4393 > 1.28 = z0.1
σ
decidimos que a amostra corrobora o anúncio de que o novo tratamento prolonga a vida dos doentes,
com uma significância de 10% na decisão.
Se usarmos a metodologia proposta para a realização de um teste de hipótese, temos as seguintes
fases de resolução:
Pn
• Estimador de µ: X = i=1 Xi /n;
√ X − 4.2 a
• Estatı́stica de teste: Z = 80 ∼ N (0, 1);
σ µ=4.2
• Região de rejeição, para um nı́vel de significância α = 0.1: R0.1 ≡ ]c, +∞[, com c tal que
0.1 = P (Z ∈ R0.1 ).
0.1 = P (Z ∈ R0.1 ) ⇔ 0.1 = P (Z > c) ⇔ c = z0.1 = 1.28.
Então R0.1 ≡ ]1.28, +∞[
• Regra de decisão, para um nı́vel de significância α = 10%: Rejeitar H0 caso zobs ∈ ]1.28, +∞[;
√ 4.5 − 4.2
• Decisão ao nı́vel de 10% de significância: Como zobs = 80 = 2.4393 ∈ R0.1 , decidimos
1.1
rejeitar H0 , ao nı́vel de 10% de significância.
Assim p − value < 0.1 (α) permite-nos decidir pela rejeição de H0 ao nı́vel de 10% de sig-
nificância.
Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:
H0 : µ ≤ µ0 vs H1 : µ > µ0
ou de modo equivalente
√ X − 0.4
Rejeitar H0 se n < −tn−1:α
S
√ X − 0.4
• Estatı́stica de teste: T = 15 ∼ t14 ;
S µ=0.4
• Região de rejeição, para um nı́vel de significância α = 0.05: R0.05 ≡ ]−∞, −c[, com c tal que
0.05 = P (T ∈ R0.05 ).
0.05 = P (T ∈ R0.05 ) = P (T < −c) ⇔ 0.05 = P (T > c) ⇔ c = t14:0.05 = 1.76.
EntãoR0.05 ≡ ]−∞, −1.76[;
• Regra de decisão, para um nı́vel de significância α = 5%: Rejeitar H0 se tobs ∈ ]−∞, −1.76[;
√ 0.317 − 0.4
• Decisão ao nı́vel de 5% de significância: Como tobs = 15 = −1.42617 ∈
/ R0.05 ,
0.2254
decidimos não rejeitar H0 .
4. Teste de Hipóteses 50
com T ∼ t14 . Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel
µ=0.4
de 5% de significância.
Para esta e outras situações referentes ao conhecimento da população e da amostra tem-se a tı́tulo
de resumo:
H0 : µ ≥ µ0 vs H1 : µ < µ0
2. A população X ter uma distribuição normal com valor médio µ e variância σ 2 desconhecidas.
1 Pn 2
Para estimador de σ 2 vamos usar S 2 = i=1 Xi − X e, para estatı́stica de teste
n−1
(n − 1) S 2
X2 =
σ2
que quantificará a “distância”entre S 2 e σ 2 através de um quociente.
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
Naturalmente que devemos rejeitar a hipótese σ 2 = σ02 se a amostra nos fornecer uma estimativa
S2
S 2 muito ”diferente”de σ02 . Dito de outro modo, se o quociente 2 for muito pequeno ou se for muito
σ0
(n − 1) S 2
grande. Mas se isto acontecer, também o quociente deverá ser ”demasiado”pequeno ou
σ02
”demasiado”grande. Numa formulação matemática, deveremos rejeitar a hipótese de σ 2 = σ02 se,
(n − 1) S 2 (n − 1) S 2
< a ou > b.
σ02 σ02
4. Teste de Hipóteses 52
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
a = χ2n−1:1−α/2 e b = χ2n−1:α/2 .
Naturalmente que devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa
S2 (n − 1) S 2
S 2 para a qual o quociente 2 é muito grande. Mas se isto acontecer, também o quociente
σ0 σ02
deverá ser ”demasiado”grande. Resumindo, deveremos rejeitar a hipótese de σ 2 ≤ σ02 se,
(n − 1) S 2
> a.
σ02
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade) quando σ 2 = σ02 é verdadeira.
Então, para um nı́vel de significância α,
2 2
(n − 1) S 2
α = P Rejeitar H0 σ = σ0 = P
>a
σ02
Isto implica que
a = χ2n−1:α .
Neste caso devemos rejeitar a hipótese σ 2 ≤ σ02 se a amostra nos fornecer uma estimativa S 2 para
S2 (n − 1) S 2
a qual o quociente 2 é muito pequeno. Mas se isto acontecer, também o quociente deverá
σ0 σ02
ser ”demasiado”pequeno. Deveremos então rejeitar a hipótese de σ 2 ≥ σ02 se,
(n − 1) S 2
< a.
σ02
Mas qual o valor de a? Ora, quando σ 2 ≥ σ02 , a estatı́stica de teste passará a ser
(n − 1) S 2
X2 = ∼ χ2n−1
σ02 σ 2 =σ02
e tem distribuição χ2n−1 (qui-quadrado com (n − 1) graus de liberdade). Então, para um nı́vel de
significância α,
(n − 1) S 2
α = P (Rejeitar H0 |H0 verdadeira ) = P <a
σ02
Isto implica que
a = χ2n−1:1−α .
Exemplo 4.6 A administração de uma SAD reclama que o investimento nas suas acções é seguro
e que o desvio padrão do preço das acções é inferior a 2 euros. Suponha que está interessado numa
eventual compra de acções desta SAD mas, antes de fazer a compra decide testar a veracidade das
afirmações da administração. Para tal escolheu aleatoriamente 30 dias dos últimos 3 anos e registou
o preço das acções. A amostra facultou um desvio padrão amostral de s = 1.70 euros.
Será que esta estimativa indica, ao nı́vel de 5% de significância, que a administração da SAD está
a dar informação verdadeiras?
Queremos testar
H0 : σ ≥ 2 vs H1 : σ < 2
H0 : σ 2 ≥ 4 vs H1 : σ 2 < 4.
1 Pn 2
• Estimador de σ 2 : S 2 = n−1 i=1 Xi − X̄ ;
2
• Estatı́stica de teste: X 2 = 29 S4 ∼ χ229 , tendo admitido que o preço das acções tem distribuição
σ 2 =4
normal;
• Região de rejeição
para um nı́vel de significância α = 0.05: R0.05 ≡ [0, c[, com c tal que 0.05 =
2
P X ∈ R0.05 .
0.05 = P X 2 ∈ R0.05 ⇔ 0.05 = P X 2 < c ⇔ c = χ229:0.95 = 17.708.
Então R0.05 ≡ [0, 17.708[;
• Regra de decisão, com 5% de significância: Rejeitar H0 se x2obs ∈ [0, 17.708[;
2
• Decisão ao nı́vel de significância de 5%: x2obs = 29 1.70
4 = 20.953 ∈ / R0.05 , logo não rejeitamos
H0 com 5% de significância, isto é, não existe evidência estatı́stica para duvidar das afirmações
da administração da SAD.
• Quanto ao p − value, ter-se-á
p − value = P X 2 < x2obs σ 2 = 0.4 = P X 2 < 20.953 = 0.1319.
Assim p − value > 0.05 permite-nos decidir pela não rejeição de H0 ao nı́vel de 5% de sig-
nificância.
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
Condições de aplicação Estatı́stica teste Região rejeição (0 < c1 < c2 )
(n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 [0, c1 [ ∪ ]c2 , +∞[
σ 2 =σ02
H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
2
X ∼ N µ, σ 2 , µ desconhecido X2 = (n−1)S
σ02
∼ χ2n−1 [0, c[
σ 2 =σ02
H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
(n−1)S 2
X ∼ N µ, σ 2 , µ desconhecido X2 = σ02
∼ χ2n−1 ]c, +∞[
σ 2 =σ02
H0 : p = p0 vs H1 : p 6= p0
Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
p0 (1−p0 ) p=p0
H0 : p ≥ p0 vs H1 : p < p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]−∞, c[
p0 (1−p0 ) p=p0
H0 : p ≤ p0 vs H1 : p > p0
Condições de aplicação Estatı́stica teste Região rejeição
√ a
X ∼ B (1, p), n ≥ 30 Z = n √ P̂ −p0 ∼ N (0, 1) ]c, +∞[
p0 (1−p0 ) p=p0
clientes que entraram na loja assim como os que fizeram alguma compra, tendo registado os valores
878 e 495, respectivamente. A informação recolhida permite corroborar as suas suspeitas?
As hipóteses a teste deverão ser
H0 : p ≤ 0.4 vs H1 : p > 0.4
que vamos testar com um nı́vel de significância α = 10%.
A informação disponı́vel é:
p̂ = 495/878 = 0.56 n = 878
• Estimador de p: P̂ =;
√ a
• Estatı́stica de teste: Z = 878 √ P̂ −0.4 ∼ N (0, 1);
0.4(1−0.4) p=0.4
• Região de rejeição para um nı́vel de significância α = 10%: R0.10 ≡ ]−∞, −c[ ∪ ]c, +∞[, com c
tal que 0.10 = P (Z ∈ R0.10 ).
0.10 = P (Z ∈ R0.10 ) ⇔ 0.10 = P (|Z| > c) ⇔ 0.10 = 2P (Z > c) ⇔ 0.05 = P (Z > c) ⇔
⇔ c = z0.05 = 1.28
Então R0.10 ≡ ]−∞, −1.28[ ∪ ]1.28, +∞[;
4. Teste de Hipóteses 57
• Regra de decisão ao nı́vel de significância de 10%: Rejeitar H0 se zobs ∈ ]−∞, −1.28[∪]1.28, +∞[;
√
• Decisão ao nı́vel de 10% de significância: zobs = 878 √0.56−0.4 = 9.68 ∈ R0.10 , logo rejeitamos
0.4(1−0.4)
H0 , ou seja, existe evidência estatı́stica para afirmar que a probabilidade de qualquer cliente fazer
uma compra é superior a 0.4, com uma significância de 10%.
• O p-value associado ao teste é: p − value = P (|Z| > |zobs |) = P (|Z| > 9.68) ≈ 0.
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição (c > 0)
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2
Ȳ
2
∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, −c[ ∪ ]c, +∞[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, −c[ ∪ ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30
H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição
2
2
A X ∼ N µ1 , σ1 , Y ∼ N µ2 , σ2 Z = X̄−
r
2
Ȳ
2
∼ N (0, 1) ]−∞, c[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]−∞, c[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]−∞, c[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30
4. Teste de Hipóteses 58
H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2
Situação Condições de aplicação Estatı́stica teste Região rejeição
A X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 Z = r X̄−
2
Ȳ
2
∼ N (0, 1) ]c, +∞[
σ1 σ µ1 =µ2
n1 + n2
2
σ12 , σ22
conhecidas
a
B X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
σ1 σ2 µ1 =µ2
n1 + n2
2
σ12 , σ22 conhecidas, n1 e n2 ≥ 30
C X ∼ N µ1 , σ12 , Y ∼ N µ2 , σ22 T = X̄−Ȳ
q
1 1
∼ tn1 +n2 −2 ]c, +∞[
Sp n +n
µ1 =µ2
1 2
σ12 = σ22 desconhecida
a
D X ∼?, Y ∼? Z= r X̄−Ȳ ∼ N (0, 1) ]c, +∞[
2
S1 S2 µ1 =µ2
n1 + n2
2
σ12 , σ22 desconhecidas, n1 e n2 ≥ 30
Exemplo 4.8 A FNN decidiu comprar fatos novos para os atletas. Adquiriu 6 fatos da marca mais
cara (Tipo A) e 7 da marca mais barata (TIPO B) e enviou-os para um laboratório, onde se registaram
os tempos de duração até romperem. Os registos, em horas, aparecem na tabela que se segue:
Admitindo que o tempo de duração dos fatos para cada marca têm uma lei normal com a mesma
variância, poderá dizer, com uma significância de 5%, que as durações médias dos fatos das duas
marcas são idênticas?
Estime por intervalo de 95% de confiança a diferença entre as durações médias dos fatos de cada
marca.
As hipóteses a testar deverão ser
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
• Região de rejeição para um nı́vel de significância α = 5%: R0.05 = ]−∞, −c[ ∪ ]c, +∞[, com c
tal que P (T ∈ R0.05 ) = 0.05.
P (T ∈ R0.05 ) = 0.05 ⇔ P (|T | > c) = 0.05 ⇔ 2P (T > c) = 0.05 ⇔ P (T > c) = 0.025 ⇔
⇔ c = t11:0.025 = 2.201.
Então R0.05 = ]−∞, −2.201[ ∪ ]2.201, +∞[;
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
= [−587.437, 506.357]
4. Teste de Hipóteses 60
Exemplo 4.9 Consideremos a amostra de medições da acidez (pH) da água da chuva apresentada
no exemplo 4.3. Nesse exemplo, admitimos que a população X-”Acidez (pH) da água da chuva”tinha
distribuição normal.
Vamos agora testar se este pressuposto se verifica ou não, ou seja vamos testar as hipóteses:
H0 : X tem distribuição normal vs H1 : X não tem distribuição normal
A nossa amostra era
5.1 5.0 3.8 4.8 3.6 4.7
4.3 4.4 4.5 4.9 4.7 4.8
a que se acrescentaram as seguintes observações, para efeitos de aplicação do teste:
4.6 5.0 4.2 4.6 4.4 5.0 4.7 4.2 4.0 3.9 4.0 4.3
4.6 4.2 4.8 4.2 4.2 4.4 5.5 4.6 4.4 4.0 4.5 4.8
A nova amostra com dimensão n = 36 apresenta uma média x = 4.49 e um desvio padrão amostral
s = 0.406.
Comecemos por agrupar em classes as observações amostrais. Para tal consideremos os seguintes
intervalos (denominados classes) para agrupamento dos dados: ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4],
]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e ]5.0, +∞[.
As frequências absolutas e relativas de observações em cada intervalo são:
Tabela de frequências
Classe Frequência absoluta Frequência relativa
i Ci Oi Fi
1 ]−∞, 3.8] 2 2/36=0.056
2 ]3.8, 4.0] 4 4/36=0.111
3 ]4.0, 4.2] 5 5/36=0.138
4 ]4.2, 4.4] 6 6/36=0.167
5 ]4.4, 4.6] 6 6/36=0.167
6 ]4.6, 4.8] 7 7/36=0.194
7 ]4.8, 5.0] 4 4/36=0.111
8 ]5.0, +∞[ 2 2/36=0.056
Totais 36 1
4. Teste de Hipóteses 61
Nota: Repare que, para o cálculo da probabilidade, fomos obrigados a usar as estimativas de 2
parâmetros.
Se repetirmos este raciocı́nio para as restantes classes, então as frequências relativas 2/36 = 0.056,
4/36 = 0.111, 5/36 = 0.138, 6/36 = 0.167, 6/36 = 0.167, 7/36 = 0.194, 4/36 = 0.111 e 2/36 = 0.056
das classes, respectivamente, ]−∞, 3.8], ]3.8, 4.0], ]4.0, 4.2], ]4.2, 4.4], ]4.4, 4.6], ]4.6, 4.8], ]4.8, 5.0] e
]5.0, +∞[, são estimativas das seguintes probabilidades (caso H0 seja verdadeira),
3.8 − x
p1 = P (X ∈ C1 ) = P (X ≤ 3.8) ≈ Φ = Φ (−1.70) = 0.0446
s
p2 = P (X ∈ C2 ) = 0.0691
4.2 − x 4.0 − x
p3 = P (X ∈ C3 ) = P (4.0 < X ≤ 4.2) ≈ Φ −Φ =
s s
= Φ (−0.71) − Φ (−1.21) = 0.1238
4.4 − x 4.2 − x
p4 = P (X ∈ C4 ) = P (4.2 < X ≤ 4.4) ≈ Φ −Φ =
s s
= Φ (−0.22) − Φ (−0.71) = 0.1748
4.6 − x 4.4 − x
p5 = P (X ∈ C5 ) = P (4.4 < X ≤ 4.6) ≈ Φ −Φ =
s s
= Φ (0.27) − Φ (−0.22) = 0.1945
4.8 − x 4.6 − x
p6 = P (X ∈ C6 ) = P (4.6 < X ≤ 4.8) ≈ Φ −Φ =
s s
= Φ (0.76) − Φ (0.27) = 0.1706
4.8 − x 5.0 − x
p7 = P (X ∈ C7 ) = P (4.8 < X ≤ 5.0) ≈ Φ −Φ =
s s
= Φ (1.26) − Φ (0.76) = 0.1181
5.0 − x
p8 = P (X ∈ C8 ) = P (X > 5.0) ≈ 1 − Φ = 1 − Φ (1.26) = 0.1045
s
4. Teste de Hipóteses 62
Acontece que, se a hipótese H0 : X ∼ N µ, σ 2 for verdadeira, a diferença entre a frequência
relativa e a probabilidade de cada classe, não deve ser muito grande.
Mas, se a hipótese H0 :X ∼ N µ, σ 2 não for verdadeira, a discrepância entre a frequência relativa
e a probabilidade de cada classe, poderá ser muito grande.
Resumindo, deveremos rejeitar H0 : X ∼ N µ, σ 2 , se o total das diferenças entre as frequências
relativas e as probabilidades de todas as classes for muito grande, isto é, se
k
X
(Fi − pi )2
i=1
k
X
(Oi − npi )2
i=1
Rα ≡ ]c, ∞[
e como tal precisamos de saber previamente qual a distribuição de amostragem da estatı́stica de teste
X 2.
Qual a distribuição de amostragem de X 2 ?
Quando H0 é verdadeira, X 2 tem distribuição do qui-quadrado com um número de graus de liber-
dade igual a (no classes − no parâmetros estimados − 1) = (k − 2 − 1) = (k − 3) graus de liberdade, e
escrevemos de modo abreviado,
X 2 ∼ χ2k−3
sobH0
4. Teste de Hipóteses 63
Então
α = P X 2 > c ⇔ c = χ2k−3:α
Resumindo,
Exemplo 4.10 Vamos agora concluir o nosso exemplo 4.9. Começamos por construir uma tabela
onde apresentamos as frequências absolutas e as frequências esperadas de cada classe.
Neste exemplo devemos aglutinar as classes 1,2 e 3, assim como as classes 7 e 8, sendo a frequência
esperada das novas classes igual às frequências das classes que se uniram.
A seguir apresentamos a tabela de frequências observadas e esperadas a que se adiciona uma última
coluna (opcional) com as parcelas da estatı́stica de teste do qui-quadrado.
Classe Frequência absoluta Frequência esperada
i Ci Oi Ei (Oi − Ei )2 /Ei
1 ]−∞, 4.2] 11 8.5500 0.7020
2 ]4.2, 4.4] 6 6.2829 0.0136
3 ]4.4, 4.6] 6 7.0020 0.1434
4 ]4.6, 4.8] 7 6.1416 0.1200
5 ]4.8, +∞[ 6 8.0136 0.5060
Totais 36 36 1.485
P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−2−1 ≡ χ22
sobH0
porque temos k = 5 classes e estimámos p = 2 parâmetros;
Vejamos outro exemplo, em que o número de parâmetros a estimar para o cálculo das frequências
esperadas, é diferente.
Exemplo 4.11 Para uma conveniente resolução do exemplo 4.1, precisarı́amos de verificar previa-
mente se a população X-“gasto semanal em alimentação (para famı́lias com dois filhos) em Agosto de
2003” tem distribuição normal com desvio padrão conhecido e de valor σ = 15 euros.
As nossas hipóteses são
H0 : X ∼ N µ, 152 vs H1 : X não tem distribuição N µ, 152
Tabela de frequências
Classe Frequência observada
i Ci Oi
1 ]−∞, 75] 1
2 ]75, 85] 2
3 ]85, 95] 3
4 ]95, 105] 10
5 ]105, 115] 12
6 ]115, 125] 8
7 ]125, 135] 3
8 ]135, +∞[ 1
Totais 40
e sabendo que x = 108 euros, precisamos agora de calcular a frequência esperada de cada classe,
pressupondo que a hipótese H0 é verdadeira, ou seja, pressupondo que X ∼ N µ, 152 .
Para exemplificação, apresentamos o cálculo da frequência esperada da classe C3 = ]85, 95].
Nota: Repare que para o cálculo das frequências esperadas, somos obrigados a usar a estimativa
de 1 parâmetro.
Então
95 − x 85 − x
E3 = n × p3 ≈ 40 × Φ −Φ =
15 15
= 40 × (Φ (−0.87) − Φ (−1.53)) = 40 × 0.1305 = 5.2200
P5
• Estatı́stica de teste: X 2 = i=1 (Oi − Ei )2 /Ei ∼ χ25−1−1 ≡ χ23
sobH0
porque temos k = 5 classes e estimámos p = 1 parâmetros;
não existem razões para duvidar de que a população X-”gasto semanal em alimentação (para famı́lias
com dois filhos) em Agosto de 2003”, tem distribuição normal com desvio padrão conhecido e de valor
σ = 15 euros.
Exemplo 5.1 Consideremos o seguinte conjunto de dados relativos ao volume mensal de vendas, Y
(em milhares de unidades), de uma marca de computadores, e ao número de anúncios, x, que passaram
diariamente na televisão em cada mês.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6
O diagrama de dispersão destes dados revela a existência de uma relação linear probabilı́stica.
4.5
4.0
3.5
Vendas
3.0
2.5
2.0
0 1 2 3 4
Anuncios
67
5. Regressão Linear Simples 68
Y |x = β0 + β1 x + E, (5.2.1)
Y |x = β0 + β1 x2 + E
Y |x = β0 + xβ1 + E
já não é um modelo linear porque, apesar de ser linear relativamente a β0 , já não o é relativamente a
β1 .
Por outro lado, o modelo 5.2.1 é um modelo de regressão simples porque nele consta apenas uma
variável independente. Por exemplo o modelo de regressão linear
Y |x = β0 + β1 x + β2 w + E,
Y |x = β0 + β1 x + E
Nota: Y |x acaba por ser uma variável aleatória porque, sendo o erro E a componente aleatória,
então Y |x = β0 + β1 x + E é também variável aleatória.
5. Regressão Linear Simples 69
Evidentemente que, se E ∼ N 0, σ 2 , também Y |x tem distribuição normal com parâmetros:
E (Y |x ) = E (β0 + β1 x + E) = β0 + β1 x + E (E) = β0 + β1 x
V (Y |x ) = V (β0 + β1 x + E) = V (E) = σ 2
ou seja,
Y |x ∼ N β0 + β1 x, σ 2 .
Devemos também salientar que σ 2 é um parâmetro adicional do modelo que necessita ser estimado,
caso não se conheça o seu valor.
Y |x = β0 + β1 x + E,
importa agora estimar a recta de regressão, ou seja encontrar estimadores para os parâmetros β0 e β1 .
Evidentemente que procuramos encontrar a recta que ”melhor”se ajuste a um conjunto de n
observações (x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn ) da variável controlada x e da variável resposta Y |x .
Assumimos que os erros aleatórios Ei , para cada par (xi , Yi ), são independentes seguindo todos a
mesma distribuição N 0, σ 2 :
Y |xi = β0 + β1 xi + Ei , Ei ∼ N 0, σ 2 independentes
Assim deveremos encontrar estimadores β̂0 e β̂1 dos coeficientes da recta de regressão β0 e β1 ,
respectivamente, para obtermos uma recta estimada
Ŷ |x = β̂0 + β̂1 x
De entre diversos métodos que existem para a dedução da recta ajustada, vamos aqui abordar o
intitulado método dos mı́ninos quadrados. Consiste este método, em determinar os estimadores β̂0 e
β̂1 , dos coeficientes de regressão, β0 e β1 , que conduzam a uma recta que se ajusta ao conjunto de
observações minimizando a soma do quadrado dos desvios entre cada observação de (xi , Yi ) e a recta
Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n.
Neste método, os desvios
são a diferença na vertical entre o valor da observação Yi e a sua estimativa de regressão Ŷi = β̂0 + β̂1 xi ,
entendendo-se por simplicidade de notação que Yi ≡ Y |xi e Ŷi ≡ Ŷ |xi .
A soma do quadrados de todos os desvios representar-se-á por SQE e encontrar os estimadores
β̂0 e β̂1 , ditos estimadores de mı́nimos quadrados de β0 e β1 , respectivamente, consiste em resolver o
problema
n
X n
X 2 n
X 2
minimizar SQE = Êi2 = Yi − Ŷi = Yi − β̂0 − β̂1 xi ,
i=1 i=1 i=1
Demonstra-se que esta minimização é conseguida resolvendo, em ordem a β̂0 e β̂1 , o sistema de
equações
n
X
∂
−2 Y − β̂ − β̂ x =0
SQE = 0
i 0 1 i
∂ β̂0 ⇔ i=1
∂ n
SQE = 0 −2 X x Y − β̂ − β̂ x = 0
i i 0 1 i
∂ β̂1
i=1
considerando
n
1X
• x̄ = xi média das observações de x
n
i=1
n
1X
• Ȳ = Yi média da amostra aleatória de Y
n
i=1
n
X n
X
2
• Sxx = (xi − x̄) = x2i − nx̄2 soma de quadrados para x
i=1 i=1
n
X n
X
2
• SY Y = Yi − Ȳ = Yi2 − nȲ 2 soma de quadrados para Y
i=1 i=1
n
X n
X
• SxY = (xi − x̄) Yi − Ȳ = xi Yi − nx̄Ȳ soma de produtos cruzados para (x, Y )
i=1 i=1
Ŷ |x = β̂0 + β̂1 x.
5. Regressão Linear Simples 71
ŷi = b0 + b1 xi , i = 1, 2, . . . , n,
em que b0 e b1 são as estimativas de β̂0 e β̂1 , respectivamente, ou seja os valores observados destes
estimadores.
Nota: Só devemos usar esta recta para fazer previsão dos valores da variável resposta para valores
de x que estejam dentro do intervalo das observações obtidas para x.
Aos desvios
êi = yi − ŷi = yi − b0 − b1 xi
e toma valores 0 ≤ R2 ≤ 1.
n
X 2
Nota: A soma de quadrados SY Y = Yi − Ȳ reflecte a variabilidade de Y quando não se
i=1
entra em linha de conta com a sua eventual relação com a variável x. Por outro lado, SQE reflecte a
variabilidade de Y quando é usado o modelo de regressão para explicar os valores de Y como resposta
a x. Por fim, SY Y − SQE mede a redução na variabilidade total de Y que se consegue ao usar x para
explicar a resposta Y . Então, ao dividirmos SY Y − SQE por SY Y , obtemos um estimador da redução
relativa da variabilidade ao usarmos o modelo para explicarmos Y como função linear de x.
n
X n
X 2
2
SY Y = Yi − Ȳ = Yi − Ŷi + Ŷi − Ȳ =
i=1 i=1
Xn 2 Xn 2 n
X
= Yi − Ŷi + Ŷi − Ȳ + Yi − Ŷi Ŷi − Ȳ
|i=1 {z } |i=1 {z } |i=1 {z }
SQE SQR A
n
X Xn
A = Yi − Ŷi Ŷi − Ȳ = Yi − Ŷi β̂0 + βˆ1 xi − Ȳ =
i=1 i=1
n
X n
X
= ˆ
Yi − Ŷi Ȳ − β̂1 x̄ + β1 xi − Ȳ = β̂1 Yi − Ŷi (xi − x̄) =
i=1 i=1
n
X n
X
= β̂1 Yi − β̂0 − β̂1 xi (xi − x̄) = β̂1 Yi − Ȳ + β̂1 x̄ − β̂1 xi (xi − x̄) =
i=1 i=1
Xn n
2 X
= −β̂1 Yi − Ȳ (xi − x̄) + β̂1 (xi − x̄)2 =
|i=1 {z } |i=1 {z }
SxY Sxx
2
SxY
SxY
= − SxY + 2
Sxx = 0
Sxx Sxx
SY Y = SQE + SQR
Nota: O coeficiente de determinação assume valores compreendidos entre zero e um. Vejamos a
interpretação que pode ser dada a estes valores.
5. Regressão Linear Simples 73
n
X 2
Se R2 = 1 ⇔ SQE = 0 ⇔ Yi − β̂0 − β̂1 xi =0
i=1
⇔ Yi = Ŷi = β̂0 + β̂1 xi , i = 1, . . . , n
⇔ ajuste perfeito
então
Pn
i=1 (xi − x̄) Yi
β̂1 = .
Sxx
Como as observações xi , i = 1, . . . , n são constantes, também Sxx o é, e portanto β̂1 não é mais
do que uma combinação linear de v.a.’s (Yi , i = 1, . . . , n) independentes e com distribuição normal.
5. Regressão Linear Simples 74
Consequentemente β̂1 tem distribuição normal, restando saber qual o correspondente valor médio e
variância.
Pn Pn Pn
i=1 (xi − x̄) Yi i=1 (xi − x̄) E (Yi ) (xi − x̄) (β0 + β1 xi )
E β̂1 = E = = i=1 =
Sxx Sxx Sxx
P P
β0 ni=1 (xi − x̄) + β1 ni=1 (xi − x̄) xi
= =
Sxx
Pn 2
β0 (nx̄ − nx̄) + β1 i=1 xi − x̄nx̄ Sxx
= = β1 = β1
Sxx Sxx
Contudo, na maioria das aplicações, a variância σ 2 dos erros não é conhecida. Nestes casos,
SQE
podemos estimá-la por σ̂ 2 = . A substituição de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar
n−2
a seguinte distribuição para β̂1 :
β̂1 − β1 p β̂1 − β1
T = s = Sxx ∼ tn−2
σ̂ 2 σ̂
Sxx
β̂0 = Ȳ − β̂1 x̄
Como β̂1 tem distribuição normal e Ȳ também tem distribuição normal (é uma média aritmética de
v.a.’s com distribuição normal), então β̂0 tem distribuição normal. Resta saber qual o correspondente
valor médio e variância.
1X n
E β̂0 = E Ȳ − β̂1 x̄ = E Ȳ − x̄E β̂1 = E (Yi ) − β1 x̄ =
n
i=1
n
1X
= (β0 + β1 xi ) − β1 x̄ = β0 + β1 x̄ − β1 x̄ = β0
n
i=1
5. Regressão Linear Simples 75
Em resumo: !
n
σ2 X 2
β̂0 ∼ N β0 , xi
nSxx
i=1
SQE
Sendo desconhecida a variância σ 2 dos erros, podemos estimá-la por σ̂ 2 = . A substituição
n−2
de σ 2 pelo seu estimador σ̂ 2 obriga-nos a considerar a seguinte distribuição para β̂0 :
s
β̂0 − β0 nSxx β̂0 − β0
T =s P = Pn 2 ∼ tn−2
σ̂ 2 n x2 i=1 xi σ̂
i=1 i
nSxx
Assim
Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β1 , se bem que não têm
tanto interesse nas aplicações aos modelos de regressão linear simples.
5. Regressão Linear Simples 77
β̂0 = Ȳ − β̂1 x̄
Assim
Intervalo
de confiança (1 − α) para o declive β0
s P s P
n 2 n 2
x x
IC1−α (β0 ) ≡ β̂0 − tn−2:α/2 σ̂ 2 i=1 i , β̂0 + tn−2:α/2 σ̂ 2 i=1 i
nSxx nSxx
H0 : β0 = a vs H1 : β0 6= a
s
nS β̂ − a
Quando a hipótese H0 é verdadeira, a estatı́stica de teste é: T = Pn xx 2 0 ∼ tn−2
i=1 xi σ̂ β0 =a
Para um nı́vel de significância α, a região de rejeição é definida por: Rα ≡ ]−∞, −c[∪]c, +∞[ , c > 0
e c fica determinado por:
Nota: Também se podem deduzir testes de hipóteses unilaterais sobre β0 , aplicando o mesmo tipo
de conceitos e raciocı́nios que surgiram nas secções 4.2.2 e 4.2.3.
Y |x = β0 + β1 x + E,
O que a recta não consegue explicar sobre os valores de Y , é considerado observação do erro E e,
pode ser usado para estimarmos a variância desse erro. O estimador para σ 2 já foi apresentado na
secção 5.4.1. Aı́ foi dito que, um estimador centrado de σ 2 é
n 2
2 SQE 1 X 2 S
Y Y − β̂1 Sxx
σ̂ = = Yi − β̂0 − β̂1 xi =
n−2 n−2 n−2
i=1
e, dado que o erro E tem distribuição N 0, σ 2 ,
σ̂ 2 σ̂ 2
(n − 2) tem distribuição do qui-quadrado com (n − 2) graus de liberdade, (n − 2) ∼ χ2n−2
σ2 σ2
Com esta distribuição de amostragem, podemos deduzir um intervalo de confiança (1 − α) para a
variância σ 2 e para o desvio padrão σ. Usando argumentos idênticos aos apresentados na secção 3.3,
σ̂ 2
1 − α = P χ2n−2:1−α/2 ≤ (n − 2) 2 ≤ χ2n−2:α/2 ⇔
σ
!
(n − 2) σ̂ 2 (n − 2) σ̂ 2
⇔ 1−α=P ≤ σ2 ≤ 2
χ2n−2:α/2 χn−2:1−α/2
Assim
Intervalo de confiança
" (1 − α) para #σ 2
(n − 2) σ̂ 2 (n − 2) σ̂ 2
IC1−α σ 2 ≡ ,
χ2n−2:α/2 χ2n−2:1−α/2
5. Regressão Linear Simples 79
E (Y |x0 ) = β0 + β1 x0 .
Ŷ |x0 − E (Y |x0 )
q 2
∼ N (0, 1)
σ n1 + (x0S−x̄)
xx
Como habitualmente não se conhece a variância σ 2 do erro E, é necessário preceder à sua estimação
usando o estimador σ̂ 2 . Neste caso, a distribuição de amostragem de Ŷ |x0 é
Ŷ |x0 − E (Y |x0 )
T =v ! ∼ tn−2
u 2
tσ̂ 2 1 + (x0 − x̄)
u
n Sxx
Nota: Só devemos fazer estimação de E (Y |x0 ) para valores x0 que estejam dentro do intervalo
das observações obtidas para x.
5. Regressão Linear Simples 80
Y |x0 = β0 + β1 x0 + E.
onde E ∼ N 0, σ 2 representa o erro aleatório
Por isso, na previsão de Y para um valor x0 , ou seja na estimação de Y |x0 parece necessário
estimar as componentes β0 + β1 x0 e E.
Ora a componente β0 + β1 x0 tem por estimador Ŷ |x0 = β̂0 + β̂1 x0 . Resta saber como estimar o
resı́duo que se obtém para o valor x0 . O estimador natural deste resı́duo é
Ê = Y |x0 − Ŷ |x0 .
Analisemos as caracterı́sticas deste estimador, mais propriamente o seu valor médio e a sua
variância.
E Ê = E Y |x0 − Ŷ |x0 = E (β0 + β1 x0 + E) − E β̂0 + β̂1 x0 = β0 + β1 x0 − β0 − β1 x0
V Ê = V Y |x0 − Ŷ |x0 = V (Y |x0 ) + V Ŷ |x0 =
!
1 (x0 − x̄)2
= V (β0 + β1 x0 + E) + V Ŷ |x0 = σ2 + σ2 + =
n Sxx
!
2 1 (x0 − x̄)2
= σ 1+ +
n Sxx
onde ficam patentes duas fontes de variabilidade, uma respeitante ao erro E (na primeira parcela) e
outra relativa à estimação da resposta esperada Ŷ |x0 (segunda parcela).
Como Ê é uma combinação linear de v.a.’s com distribuição normal, então
!!
2
1 (x 0 − x̄)
Ê ∼ N 0, σ 2 1 + +
n Sxx
1 (x0 −x̄)2
Quando σ2 é desconhecida, podemos estimá-la usando o estimador V̂ (E) = σ̂ 2 1+ n + Sxx
e, neste caso a distribuição de
Ê − 0
r
2
σ̂ 2 1 + n1 + (x0S−x̄)
xx
obtendo-se assim uma estatı́stica pivot que permite a estimação por intervalo de confiança de Y |x0 .
Um intervalo de confiança (1 − α) para Y |x0 também se designa por intervalo de previsão (1 − α) ×
100% de uma resposta Y |x0 para um dado valor x0 .
A técnica já sobejamente conhecida de dedução de intervalos de confiança permite obter o seguinte
intervalo de previsão:
Nota:
• Só devemos fazer estimação de Y |x0 para valores x0 que estejam dentro do intervalo das ob-
servações obtidas para x.
• O valor x0 para o qual se pretende prever a resposta Y |x0 deve ser diferente de qualquer outro
que figure na amostra que serve de suporte à estimação do modelo de regressão linear.
Exemplo 5.2 Retomemos o exemplo 5.1 e o conjunto de dados relativos ao volume de vendas mensal
(em milhares de unidades) de uma marca de computadores, Y e ao número de anúncios que passaram
diariamente na televisão em cada mês, x.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
xi 4 1 3 0 2 4 2 3 1 2 0 1
yi 4.0 2,3 3,7 2,1 3.0 4,7 3,5 4,2 2,9 3,2 1,9 2,6
Comecemos por estimar a recta de mı́nimos quadrados. Para tal, vamos usar um método de
cálculo bastante rudimentar (que seria o que usarı́amos caso a nossa ferramenta de cálculo fosse
pouco evoluı́da).
P12 P12 P12 2 P12 2 P12
i=1 xi = 23 i=1 yi = 38.1 i=1 xi = 65 i=1 yi = 129.39 i=1 xi yi = 85.7
x̄ = 1.9167 ȳ = 3.175 Sxx = 20.9167 SY Y = 8.4225 SxY = 12.675
b0 = 2.013545817 b1 = 0.6059760956 SQE = 0.7417529885 σ̂ 2 = 0.07417529885
ŷ |x = 2.013545817 + 0.6059760956 x
Se estivermos interessados em estimar o volume mensal esperado de vendas num mês em que
fossem exibidos 2.5 anúncios terı́amos uma estimativa pontual
4.5
4.0
3.5
Vendas
3.0
2.5
2.0
0 1 2 3 4
Anuncios
Podemos ainda testar se o número de anúncios que passam por mês, x, explicam significativamente
o volume de vendas. Trata-se de testar, ao nı́vel de 5% de significância, as hipóteses
H0 : β1 = 0 vs H1 : β1 6= 0
p β̂1 − 0
A estatı́stica de teste é: T = Sxx ∼ t10 .
σ̂ β1 =0
p β̂1
O valor observado da estatı́stica de teste T = Sxx é tobs = 10.17588237.
σ̂
Para α = 5%, t10:0.025 = 2.2281.
A regra de rejeição, para um nı́vel de significância α = 0.05 é R0.05 ≡ ]−∞, −2.2281[∪]2.2281, +∞[.
A nossa decisão será: Como tobs = 10.17588237 ∈ R0.05 decidimos rejeitar H0 , com 5% de sig-
nificância. Dito de outro modo, com 5% de significância, não existe evidência para afirmar que β1 = 0
e portanto podemos inferir que o número de anúncios que passam mensalmente é uma variável que
explica o volume de vendas para esse mês.
Embora não faça muito sentido neste exemplo, mas apenas com o objectivo de ilustrar, vamos
estimar por intervalo de 90% de confiança:
1. o volume esperado de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, E (Y |1.5 );
2. o volume de vendas num mês em que fossem exibidos diariamente 1.5 anúncios, Y |1.5 .
1. Com Ŷ |1.5 = 2.013545817 + 0.6059760956 × 1.5 = 2.92250996, obterı́amos uma banda de valores
compreendidos entre o limite inferior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 − 1.812t0.07417529885 + = 2.773121167
12 20.9167
e o limite superior
v !
u
u 1 (1.5 − 1.9167)2
2.92250996 + 1.812t0.07417529885 + = 3.071898754
12 20.9167
e limite superior
v !
u 2
u 1 (1.5 − 1.9167)
2.92250996 + 1.812t0.07417529885 1 + + = 3.43812613
12 20.9167
A esta amostra de resı́duos podı́amos aplicar um teste de ajustamento do qui-quadrado para uma
distribuição normal, de modo a testar a validade do pressuposto estocástico do modelo, segundo o qual,
estes resı́duos deverão ser observações do erro, ou seja, observações de uma v.a. E ∼ N 0, σ 2 .