Apontamentos Teóricos
de
Probabilidades e Estatı́stica
Jorge Gama
0
Capı́tulo 1
1.1 Introdução
Na Estatı́stica Descritiva descreveram-se e analisaram-se conjuntos de observações relativas a fenómenos aleató-
rios. Neste campo os conceitos estatı́sticos estabelecidos eram empı́ricos. Embora esse estudo seja importante,
é sem dúvida limitado quando se pretende analisar e interpretar ou tomar decisões no contexto dos fenómenos
em estudo.
Neste capı́tulo estudaremos as noções básicas da Teoria das Probabilidades, teoria esta que é o suporte sobre
a qual assenta a teoria da análise, interpretação e tomadas de decisão no contexto do estudo dos fenómenos
aleatórios, isto é, a Inferência Estatı́stica
A Teoria das Probabilidades (ou cálculo das probabilidades) pode caracterizar-se como o modelo matemático
das “regularidades”que se observam nas distribuições de frequências correspondentes aos fenómenos aleatórios
Todo o modelo matemático parte de determinadas propriedades básicas: os axiomas.
No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades é necessário introduzirmos/com-
preendermos determinados conceitos.
Um fenómeno diz-se aleatório quando o acaso interfere na ocorrência de um ou mais dos resultados nos
quais tal fenómeno se pode traduzir. Conjugando determinado número de condições, um resultado aleatório
pode ocorrer ou não. Assim, um fenómeno aleatório caracteriza-se fundamentalmente pelo seguinte:
Exemplos 1.1
1. Considere-se o lançamento ao ar de uma moeda e registo da face voltada para cima.
Observação 1.1 No caso de uma moeda perfeita, repetido o lançamento um número elevado de vezes
verifica-se aproximadamente o mesmo número de faces e coroas, isto é, pode prever-se qual a proporção
de faces e coroas num grande número de lançamentos (regularidade estatı́stica).
1
Notação 1.1 O espaço de resultados associado a uma dada experiência aleatória será designado por Ω. Qual-
quer resultado individual é designado por ω (ω ∈ Ω).
Observação 1.2 Os elementos de Ω podem ser números, sequências de números, atributos ou grupos de atri-
butos ou, ainda, uma combinação de elementos quantitativos e qualitativos.
Exemplos 1.2
1. No lançamento de uma moeda se designarmos por F a face e por C a coroa, o espaço de resultados é
Ω = {F, C}.
2. No lançamento de um dado de seis faces existem seis resultados possı́veis. Designando por j, com
j = 1, . . . , 6, o resultado que consiste na “aparição da face com o número j de pontos”, o espaço de re-
sultados é
Ω = {1, 2, 3, 4, 5, 6}.
3. No lançamento de uma moeda e de um dado, o espaço de resultados poderá ser descrito por:
Notação 1.2
Observações 1.3
2. Ao acontecimento formado por um único elemento ({ω}) damos a designação de acontecimento elemen-
tar.
ou, simplesmente,
Ω = {F F, F C, CF, CC} .
Acontecimentos elementares: {F F }, {F C}, {CF } e {CC}.
Outros acontecimentos:
A = {F C, CF } ≡ saı́da de exactamente uma face (ou de exactamente uma coroa);
B = {F F, F C} ≡ saı́da de face na 1a moeda;
C = {F C, CF, CC} ≡ saı́da de pelo menos uma coroa
Questões de Linguagem
Quando se diz que um acontecimento ocorre (se realiza) é porque se observou a ocorrência (realização)
de um seu elemento no contexto de uma experiência aleatória. Por exemplo, no lançamento de um dado de seis
faces, se a face voltada para cima era o elemento 2, então o acontecimento {1, 2, 3} ocorreu.
Sejam Ω um espaço de resultados e A e B acontecimentos de Ω.
2
1) A ocorrência (realização) de A implica a ocorrência de B se, e somente se, todo o elemento de A é elemento
de B. Escreve-se, então, A ⊂ B.
2) A e B são idênticos se, e somente se, a ocorrência de um implica a ocorrência do outro, isto é, A ⊂ B e
B ⊂ A. Escreve-se A = B.
3) Intersecção ou produto lógico de A por B é o acontecimento que ocorre se, e somente se, A e B ocorrem
simultaneamente. Representa-se este acontecimento por A ∩ B (ou AB).
4) Reunião entre os acontecimentos A e B é o acontecimento que ocorre se, e somente se, A ou B ocorre, isto
é, pelo menos um deles. Representa-se este acontecimento por A ∪ B.
5) A e B dizem-se incompatı́veis se, e somente se, a ocorrência de um deles implica a não ocorrência do outro,
isto é, A ∩ B = ∅.
Os acontecimentos A1 , A2 , . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai ∩ Aj = ∅, para
i 6= j.
6) Diferença entre B e A é o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A.
Representa-se por B \ A (ou B − A).
8) Diferença simétrica entre A e B é o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B,
isto é, ocorre um e um só dos acontecimentos, ou ainda, ocorre A ou B, mas não simultaneamente os dois.
Este acontecimento representa-se por A∆B e A∆B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B).
3
Proposições 1.1 Sejam Ω um espaço de resultados associado a uma dada experiência aleatória e
A, B, C ∈ Ω.
1. A operação reunião (resp. intersecção) é associativa:
A ∪ (B ∪ C) = (A ∪ B) ∪ C (A ∩ (B ∩ C) = (A ∩ B) ∩ C) .
A∪B =B∪A (A ∩ B = B ∩ A) .
3. A operação reunião (resp. intersecção) é distributiva relativamente à operação intersecção (resp. reunião):
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)) .
A∪A=A (A ∩ A = A) .
5. i) A ⊂ B ⇒ A ∪ B = B ii) A ⊂ B ⇒ A ∩ B = A.
6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅.
7. Leis de De Morgan:
i) A ∪ B = A ∩ B ii) A ∩ B = A ∪ B.
8. A \ B = A ∩ B.
9. A = A.
10. i) (A ∩ B) ∪ (A ∩ B) = A ii) (A ∩ B) ∩ (A ∩ B) = ∅.
4
3. P (A \ B) = P (A) − P (A ∩ B);
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B);
5. P (A ∪ B) ≤ P (A) + P (B);
6. A ⊆ B ⇒ P (A) ≤ P (B);
7. 0 ≤ P (A) ≤ 1;
8. P (A∆B) = P (A) + P (B) − 2P (A ∩ B);
9. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
P (Ω)
à n= 1 ⇔!
[
⇔ P {ωi } = 1
i=1
n
X
⇔ P ({ωi }) = 1
i=1
⇔ nP ({ωj }) = 1, para j = 1, . . . , n
1
⇔ P ({ωj }) = , para j = 1, . . . , n.
n
E para qualquer acontecimento A = {ωi1 , ωi2 , . . . , ωim }, obtemos, por processos análogos,
m
P (A) =
.
n
Isto é, a probabilidade de um acontecimento é o quociente entre o número de resultados (casos) favoráveis
à ocorrência do acontecimento e o número de resultados possı́veis considerados como equiprováveis (Regra
Clássica de Laplace):
no de casos favoráveis #A
P (A) = = .
no de casos possı́veis #Ω
P (A ∩ B)
P (A|B) =
P (B)
denomina-se probabilidade condicional (ou condicionada) de A (por B).
Observações 1.4
1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.
2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realização de B).
Teorema 1.3 Sejam A1 , A2 , . . . , An acontecimentos tais que P (A1 ∩ A2 ∩ . . . ∩ An−1 ) > 0. Então
5
Definição 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,
P (A ∩ B) = P (A) · P (B).
Teorema 1.4 Os acontecimentos A e B de probabilidade positiva são independentes se, e somente se,
P (A|B) = P (A) (ou P (B|A) = P (B)).
Definição 1.6 Os acontecimentos A1 , A2 , . . . , An são mutuamente independentes se, e somente se, para todos
os inteiros i1 , i2 , . . . , ik , satisfazendo as condições
Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hipótese
de equiprobabilidade.
Sejam:
E1 = “a carta retirada é 1 ou 4”;
E2 = “a carta retirada é 1 ou 3”;
E3 = “a carta retirada é 1 ou 2”.
1 1 1 1
Observe-se que P (E1 ) = P (E2 ) = P (E3 ) = e P (E1 ∩ E2 ) = = × = P (E1 ) · P (E2 ). Logo, E1 e E2
2 4 2 2
são independentes.
Analogamente, pode mostrar-se que E1 e E3 são independentes, assim como E2 e E3 . No entanto, os três
acontecimentos não são independentes, pois
1
P (E1 ∩ E2 ∩ E3 ) =
4
e
1 1 1 1
P (E1 ) · P (E2 ) · P (E3 ) = × × = .
2 2 2 8
Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1 , A2 , . . . , An acontecimentos mutuamente ex-
clusivos (Ai ∩ Aj = ∅, para i 6= j) e exaustivos (∪ni=1 Ai = Ω). Se P (Ai ) > 0, para i = 1, . . . , n, então, para
qualquer acontecimento B,
Observação 1.5 Quando os acontecimentos são mutuamente exclusivos e exaustivos é vulgar utilizar o termo
partição (de Ω) para os designar. Observe o diagrama seguinte:
6
Corolário 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Então, para qualquer acontecimento B,
P (B|Aj ) · P (Aj )
P (Aj |B) = n , i = 1, 2, . . . , n.
X
P (B|Ai ) · P (Ai )
i=1
Esta fórmula é conhecida por fórmula de Bayes ou fórmula das probabilidades à posteriori.
7
8
Capı́tulo 2
Definição 2.1 Seja Ω um espaço de resultados associado a uma dada experiência aleatória. Chama-se variável
aleatória (abreviadamente, v.a.) a uma função X : Ω −→ R tal que Ar = {ω ∈ Ω : X(ω) ≤ r}, com r ∈ R,
seja um acontecimento.
Notação 2.1 É usual representarem-se as variáveis aleatórias pelas últimas letras maiúsculas: X, Y , Z, W ,
X1 , X2 , . . . , Y1 , . . . .
O restrição imposta à função X tem como objectivo que o seu contradomı́nio seja um novo espaço de resul-
tados em que a cada um dos seus elementos associa-se uma probabilidade, calculável a partir das probabilidades
de ocorrência dos resultados iniciais.
As vantagens da utilização de variáveis aleatórias torna-se evidente em muitos casos que nos irão surgindo.
Uma dessas vantagens surge em inúmeros casos onde não interessa apreciar os elementos de Ω com todos os
pormenores de que se revestem, mas sim focarmos a nossa atenção na caracterı́stica numérica em estudo. Os
exemplos seguintes ilustram este ponto de vista.
Exemplos 2.1
1. O espaço de resultados associado ao lançamento de uma moeda três vezes pode ser definido por
9
1
P (X = 0) = P ({CCC}) =
8
3
P (X = 1) = P ({F CC, CCF, CF C}) =
8
3
P (X = 2) = P ({F F C, F CF, CF F }) =
8
1
P (X = 3) = P ({F F F }) =
8
A partir dos cálculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a
probabilidade de ocorrer pelo menos duas faces:
1
P (X ≥ 2) = P (X = 2) + P (X = 3) = .
2
Ou ainda, a probabilidade de ocorrer menos de 3 faces:
7
P (X < 3) = 1 − P (X = 3) = .
8
2. Considere-se uma população de empresas das quais se escolhe uma ao acaso. O espaço de resultados é
Ω = {ω1 , ω2 , . . . , ωn }, onde n é o número total de empresas na população. Consoante os objectivos do
estudo, diversas variáveis aleatórias podem ser definidas. Eis alguns exemplos:
Definição 2.2 Seja X uma v.a.. Chama-se à função FX (ou F) função de distribuição (cumulativa) (f.d.)
de X, se FX : R −→ [0, 1] tal que
FX (x) = P (X ≤ x),
para todo x ∈ R.
Teorema 2.2
1. 0 ≤ F (x) ≤ 1;
2. F (x) é não decrescente;
3. F (−∞) = lim F (x) = 0; F (+∞) = lim F (x) = 1;
x→−∞ x→+∞
4. Para valores x1 e x2 quaisquer, finitos, com x2 > x1 , tem-se P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 );
5. F (x) é contı́nua à direita, isto é, lim+ F (x) = F (a);
x→a
−
6. P (X = a) = F (a) − F (a ) = F (a) − lim F (x).
x→a−
Definição 2.3 Sejam X uma v.a. e D = {a : P (X = a) > 0} um conjunto, quando muito numerável, dos
pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se não
discreta quando P (X ∈ D) < 1.
10
Quando X é uma v.a. discreta existe um conjunto finito ou infinito numerável, D = {a1 , a2 , . . .}, tal que,
X
P (X ∈ D) = P (X = ai ) = 1,
i
P (X = ai ) > 0, i = 1, 2, . . . .
P (X ∈ E) = P (X ∈ E ∩ D) + P (X ∈ E ∩ D);
como E ∩ D ⊂ D e P (X ∈ D) = 0, vem,
X
P (X ∈ E) = P (X = ai ).
ai ∈E∩D
Definição 2.4 Seja X uma v.a. discreta. Chama-se função de probabilidade (f.p.) de X à função fX (ou
f ) definida por:
½
P (X = x) se x ∈ D
fX (x) =
0 se x ∈ D
Definição 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se contı́nua se
D = {a : P (X = a) > 0} = ∅
A esta função fX (x) chama-se função de densidade de probabilidade, (f.d.p.), ou simplesmente função
de densidade.
Observações 2.1
2. Atendendo às definições anteriores e aos axiomas das probabilidades mostra-se que toda a função de
probabilidade (resp. densidade) satisfaz as condições:
i) f (x) ≥ 0, ∀x ∈ R.
P R +∞
ii) i f (xi ) = 1 (resp. −∞ f (u) du = 1).
P
3. Se X é uma v.a. discreta, então FX (x) = {i: xi ≤x} fX (xi ).
0
4. Se X é uma v.a. contı́nua, então FX (x) = fX (x), excepto num conjunto finito ou infinito numerável de
pontos x de probabilidade nula.
Exemplos 2.2
1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A função de probabilidade desta v.a. é definida
por:
x 0 1 2 3
1 3 3 1
f (x)
8 8 8 8
11
E graficamente,
A sua função de distribuição é definida por:
0 se x < 0
1
se 0 ≤ x < 1
8 1
F (x) = 2 se 1 ≤ x < 2 ,
7
se 2 ≤ x < 3
8
1 se x ≥ 3
1 1 7
F (x) 0 1
8 2 8
E, graficamente,
E os seus gráficos:
Nota: O valor da probabilidade num intervalo corresponde a uma área entre o eixo das abcissas e o gráfico
de f , no intervalo considerado.
Definição 2.6 Uma v.a. discreta X diz-se constante se existe a ∈ R tal que P (X = a) = 1.
12
2.2 Medidas de Localização e Dispersão. Momentos
2.2.1 Medidas de Localização
Definição 2.7 Denomina-se média, esperança matemática ou valor esperado de uma v.a. X ao número,
caso exista, µX ou E(X) definido por:
P
i) E(X) = i xi f (xi ), se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}.
R +∞
ii) E(X) = −∞ xf (x) dx, se X é contı́nua.
Exemplos 2.3
2. Se
1
se 0 ≤ y ≤ 3
f (y) = 3
0 se y < 0 ∨ y > 3
é a função de densidade de probabilidade de uma v.a. Y , então
Z +∞ Z 0 Z 3 Z +∞
y 3
E(Y ) = yf (y) dy = y × 0 dy + dy + y × 0 dy = .
−∞ −∞ 0 3 3 2
Proposições 2.3 Sejam X e Y duas variáveis aleatórias, φ(X) uma função de X, e a e b constantes reais.
1. E(a) = a;
Outras medidas de localização de uma v.a., alternativas à média, são a mediana (ηX ) e a moda (mX ).
Definição 2.9 Seja X uma variável aleatória. A mediana de X é o valor de x que satisfaz as desigualdades,
1 1
P (X ≤ x) ≥ e P (X ≥ x) ≥ ,
2 2
e representa-se por ηX ou, simplesmente, η. Em termos da função de distribuição, a dupla desigualdade é
equivalente a
1 1
≤ F (x) ≤ + P (X = x).
2 2
13
Se X é contı́nua, a mediana é o valor x que satisfaz,
Z x
1
F (x) = f (u) du = .
−∞ 2
Se existir mais do que um valor que sirva para mediana, então toma-se para mediana
xmin + xmax
η= ,
2
onde xmin e xmax representam, respectivamente, o mı́nimo e o máximo do conjunto de soluções.
Podemos, a partir da ideia de mediana, definir parâmetros usando outros valores de probabilidade.
Definição 2.10 Dado qualquer número p, 0 < p < 1, define-se p-ésimo quantil de uma v.a. ou de uma
distribuição como o valor x que satisfaz as desigualdades,
P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1 − p,
isto é,
p ≤ F (x) ≤ p + P (X = x).
Se a v.a. é do tipo contı́nua, o quantil de ordem p é o número x que satisfaz a equação,
Z x
F (x) = p ou f (u) du = p.
−∞
Em particular, com p = s/4, s = 1, 2, 3, obtém-se os quartis, sendo o quartil de ordem 2 a mediana; com
p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obtém-se os percentis.
Definição 2.11 Chama-se moda de uma v.a. X, mX , a um valor da variável (caso exista) do seu contra-
domı́nio para o qual fX (função de probabilidade ou função de densidade de probabilidade de X) toma um valor
máximo.
Exemplos 2.4
2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor do
intervalo [0, 3] é uma moda.
1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, chama-se desvio absoluto médio à medida de
dispersão definida por X
δX = |xi − µX | · fX (xi ).
i
14
Outra quantidade de grande importância, que permite definir outra medida de dispersão, é a variância de
uma variável aleatória.
Definição 2.13
2
1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, a variância de X, σX ou Var(X), define-se por
X
Var(X) = (xi − µX )2 · fX (xi ).
i
£ ¤
Observação 2.2 É evidente que Var(X) = E (X − µX )2 .
Definição 2.14 Chama-se desvio padrão de uma v.a. X à medida de dispersão definida por
p
σ = Var(X).
2.2.4 Momentos
O valor esperado e a variância pertencem a uma famı́lia de parâmetros que se designam por momentos. Enquanto
o valor esperado pertence à subfamı́lia dos momentos ordinários (ou momentos na origem), a variância
pertence à subfamı́lia dos momentos centrados. Vejamos como se definem.
Observação 2.4 É evidente que o valor esperado é o momento ordinário de primeira ordem (µ01 = µ).
15
Definição 2.17 Chama-se momento centrado (na média) de ordem k ao parâmetro
X
µk = (xi − µX )k · fX (xi ),
i
16
2.2.5 Desigualdades Importantes para Momentos
Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma função de uma v.a. X. Se existir E[ϕ(X)], então,
para qualquer número real c > 0,
1
P (ϕ(X) ≥ c) ≤ E[ϕ(X)].
c
Corolário 2.7 Se X é uma v.a. não negativa e se existir E(X), então, para qualquer número real c > 0,
E(X)
P (X ≥ c) ≤ .
c
Corolário 2.8 Se X é uma v.a. e se existir E(X), então, para qualquer número real c > 0,
E(|X|)
P (|X| ≥ c) ≤ .
c
Corolário 2.9 Se X é uma v.a. e se existir E(|X|r ), para qualquer número real r > 0, então, para qualquer
número real c > 0,
E(|X|r )
P (|X| ≥ c) ≤ .
cr
Corolário 2.10 Se X é uma v.a. com média µ e variância σ 2 , finita, então, para qualquer número real t > 0,
1
P (|X − µ| ≥ tσ) ≤ .
t2
A desigualdade do corolário anterior, que, aliás como todas as outras, também se pode apresentar na forma
1
P (|X − µ| < tσ) ≥ 1 −
t2
é a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplicações.
Pois, observe-se que, para qualquer v.a. X, conhecidas a média e variância, a quantidade de probabilidade no
intervalo ]µ − tσ, µ + tσ[ nunca é inferior a 1 − 1/t2 , ou, o que é o mesmo, a quantidade de probabilidade fora
desse intervalo nunca é superior a 1/t2 . Esta desigualdade reforça a ideia da utilização de µ como medida de
localização e σ como medida de dispersão, permitindo empregar-se quando não se conhece a distribuição da
variável aleatória. Evidentemente, se a distribuição da variável for conhecida, a desigualdade passa a ter menos
interesse uma vez que pode calcular-se o valor exacto (ou pelo menos tão aproximado quanto se queira) de
P (|X − µ| < tσ). No entanto, neste caso a sua utilização pode permitir fazer um cálculo mais rápido.
17
Como é evidente, os momentos centrados de X são gerados pela f.g.m. da distribuição da v.a. X − µ:
³ ´
GX−µ (t) = E et(X−µ) = e−µt GX (t),
ou, equivalentemente,
GX (t) = eµt GX−µ (t).
Para a v.a. estandardizada U = (X − µ)/σ, tem-se
¡ ¢ ³ ´
GU (t) = E etU = E et(X−µ)/σ = e−µt/σ GX (t/σ),
ou
GX (t) = eµt GU (σt).
O teorema 2.11 não é a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificar
as distribuições para as quais existem:
Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, é única.
Exemplos 2.5
1. Considere-se a v.a. X cuja f.p. é definida por
½
p(1 − p)x−1 se x = 1, 2, . . .
f (x) =
0 o.v. de x
onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..
Resolução:
+∞
X
¡ ¢
GX (t) = E eXt = p(1 − p)x−1 ext
x=1
+∞
X
= p et (1 − p)x−1 e(x−1)t
x=1
+∞
X £ ¤x−1
= p et (1 − p)et
x=1
t 1
= pe
1 − (1 − p)et
desde que (1 − p)et < 1, isto é, quando t < − ln(1 − p).
Assim, resulta que
0 pet
GX (t) = 2
(1 − (1 − p)et )
e
0 1
E(X) = GX (0) = .
p
Para o cálculo da derivada de segunda ordem, observe-se primeiro que
0 GX (t)
GX (t) = .
1 − (1 − p)et
Logo,
0
00 GX (t) [1 − (1 − p)et ] + (1 − p)et GX (t)
GX (t) = 2
[1 − (1 − p)et ]
e
¡ ¢ 2−p
E X 2 = GX
00
(0) = .
p2
Consequentemente,
2−p 1 1−p
V ar(X) = − 2 = .
p2 p p2
18
2. Considere-se agora a v.a. Y com f.d.p. dada por:
½ −2y
2e se y ≥ 0
g(y) =
0 se y < 0
Resolução:
Z +∞
¡ ¢
GY (t) = E eY t = ety · 2e−2y dy
0
· ¸z
1 (t−2)y
= lim 2 · e
z→+∞ t−2 y=0
· ¸
2 (t−2)z
= lim e −1
t − 2 z→+∞
2
= (0 − 1)
t−2
2
=
2−t
Assim, por meio de uma aplicação Ω → Rn substitui-se o espaço de resultados pelo conjunto Rn .
Os conceitos abordados para uma variável aleatória (f.d., v.a. discretas, v.a. contı́nuas, f.p., f.d.p, etc...)
podem generalizar-se para uma variável aleatória n-dimensional. No entanto, grande parte de tal generalização
será feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatório (X, Y ), a
probabilidade de obter um ponto na região do plano R2 pelas desigualdades, X ≤ x, Y ≤ y,
P (X ≤ x, Y ≤ y) = P {ω : X(ω) ≤ x, Y (ω) ≤ y}
Definição 2.20 Chama-se função de distribuição da v.a. bidimensional (X, Y ) ou função de distri-
buição conjunta das v.a. X e Y a
F (x, y) = P (X ≤ x, Y ≤ y).
Teorema 2.13 Se F (x, y) é f.d. das v.a. X e Y e [x1 , x2 ] × [y1 , y2 ] é um intervalo de R2 , então
19
Teorema 2.14 Para qualquer f.d. F (x, y),
Teorema 2.15 Toda a f.d. F (x, y) é não decrescente em relação a cada variável.
Teorema 2.16 Toda a f.d. F (X, Y ) é contı́nua à direita em relação a cada variável,
Quando se trabalha com a distribuição conjunta das v.a. X e Y , pode interessar o cálculo da probabilidade
de se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse cálculo,
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),
as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta é o produto das distribuições marginais,
para todo o ponto (x, y) ∈ R2 . Pode mostrar-se que esta condição é necessária e suficiente para que se tenha
P (X ∈ E1 , Y ∈ E2 ) = P (X ∈ E1 )P (Y ∈ E2 ),
para quaisquer acontecimentos E1 e E2 definidos, respectivamente, no eixo dos xx e no eixo dos yy.
Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas funções U = φ(X) e V = ψ(Y ).
Então, as v.a. U e V são independentes.
Teorema 2.18 Se X e Y são variáveis aleatórias independentes e possuem valor esperado, então
Definição 2.21 As variáveis aleatórias X1 , X2 , . . . , Xn dizem-se independentes se para n números reais ar-
bitrários, x1 , x2 , . . . , xn ,
F (x1 , x2 . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
= P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn )
= F1 (x1 )F2 (x2 ) · · · Fn (xn ),
D = {(xi , yj ) : P (X = xi , Y = yj ) > 0} ,
se tem,
P [(X, Y ) ∈ D] = 1.
20
Agora, também podemos definir a função de probabilidade de (X, Y ),
½
> 0 se (x, y) ∈ D
f (x, y) = P (X = x, Y = y) ,
= 0 se (x, y) ∈ D
1. f (x, y) ≥ 0, ∀(x, y) ∈ R2 ;
X
2. f (xi , yj ) = 1;
(xi ,yj )∈D
X
3. P [(X, Y ) ∈ E] = f (xi , yj );
(xi ,yj )∈E∩D
X
4. F (x, y) = P (X ≤ x, Y ≤ y) = f (xi , yj ).
xi ≤x
yj ≤y
D = {(xi , yj ) : i, j = 1, 2, . . .} ,
por, X
f1 (xi ) = P (X = xi ) = f (xi , yj ), i = 1, 2, . . .
j
X
f2 (yj ) = P (Y = yj ) = f (xi , yj ), j = 1, 2, . . .
i
para todo (x, y) ∈ R2 , onde F (x, y) é a função de distribuição de (X, Y ). A função f (x, y) diz-se função de
densidade de probabilidade de (X, Y ) ou função de densidade de probabilidade conjunta das v.a. X
e Y e satisfaz a igualdade,
Z +∞ Z +∞
f (x, y) dxdy = 1.
−∞ −∞
∂ 2 F (x, y)
f (x, y) = .
∂x∂y
assim,
Z +∞
f1 (x) = F10 (x) = f (x, y) dy
−∞
21
é a função de densidade marginal de X. Analogamente,
Z +∞
0
f2 (y) = F2 (y) = f (x, y) dx,
−∞
22
Definição 2.24 Chama-se coeficiente de correlação entre X e Y ao parâmetro
Cov(X, Y ) Cov(X, Y )
ρ= p = ,
V ar(X)V arY σX σY
ou
µ11
ρ= √ .
µ20 µ02
Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y são v.a. conjuntamente distribuı́das com mo-
mentos de ordem 2 finitos, então
h i2 ¡ ¢ ¡ ¢
E(XY ) ≤ E X 2 E Y 2 ,
verificando-se a igualdade se, e somente se, para alguma constante t0 ,
P (t0 X = Y ) = 1.
|ρ| ≤ 1;
Corolário 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariância nula, então
Distribuições Condicionados
O conceito de distribuição condicionada é baseado no de probabilidade condicionada. Vamos somente estudar
o caso bidimensional e de uma forma abreviada.
No caso discreto, a probabilidade do acontecimento X = xi , condicionada pela realização do acontecimento
Y = yj , com P (Y = yj ) > 0, define-se por
P (X = xi , Y = yj )
P (X = xi |Y = yj ) = ,
P (Y = yj )
onde yj é um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yj condicionada
por X = xi . As notações utilizadas para estas funções de probabilidade são, no primeiro caso,
f (xi , yj )
f (xi |yj ) = ,
f2 (yj )
com yj fixo e i = 1, 2, . . .; no segundo caso
f (xi , yj )
f (yj |xi ) = ,
f1 (xi )
com xi fixo e j = 1, 2 . . ..
No caso contı́nuo, a função de distribuição de Y condicionada por X = x, simbolicamente, F (y|x) ou
Fy|x (y|x) é dada por
Ry Ry
−∞
f (x, v) dv f (x, v) dv
F (y|x) = R +∞ = −∞ .
f (x, v) dv f1 (x)
−∞
23
Derivando em ordem a y obtém-se a correspondente função de densidade de Y condicionada por X = x,
f (x, y)
f (y|x) = .
f1 (x)
f (x, y)
f (x|y) = .
f2 (y)
Vejamos agora o que se passa com os valores esperados destas distribuições condicionadas.
Definição 2.25 Considere-se a v.a. φ(X, Y ) função das v.a. X e Y . O valor esperado de φ(X, Y ) condicionado
por X = x, em sı́mbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] é definido, consoante se trate do
caso discreto ou contı́nuo, por X
E[φ(X, Y )|xi ] = φ(xi , yj )f (yj |xi ),
j
ou, por, Z +∞
E[φ(X, Y )|x] = φ(x, y)f (y|x).
−∞
ou Z +∞
E(Y |x) = yf (y|x) dy,
−∞
representa a média de Y condicionada por X = x, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (y|x). Fisicamente, E(Y |x) é o centro de gravidade da distribuição de probabilidade sobre a recta X = x.
Observe-se que E(Y |X) é uma v.a. função da v.a. X, que assume o valor E(Y |x) quando X assume o valor x.
Do mesmo modo, consoante se trate do caso discreto ou contı́nuo,
X
E(X|yj ) = xi f (xi |yj )
i
ou Z +∞
E(X|y) = xf (x|y) dx,
−∞
representa a média de X condicionada por Y = y, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (x|y) e E(X|Y ) é uma v.a. função da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.
24
Capı́tulo 3
Distribuições Teóricas
N
1 X
2. E(X) = xi ;
N i=1
N
à N
!2
1 X 2 1 X
3. V ar(X) = x − xi
N i=1 i N i=1
N +1 N2 − 1
Observação 3.1 Em particular, se xi = i, i = 1, 2, . . . N , E(X) = e V ar(X) = .
2 12
Definição 3.2 Uma v.a. X tem (segue) distribuição de Bernoulli de parâmetro p (0 ≤ p ≤ 1, fixo) se a
sua função de probabilidade é definida por
(
px (1 − p)1−x se x = 0 ∨ x = 1
fX (x) = .
0 se x ∈ R \ {0, 1}
Proposição 3.2 Se X é uma v.a. que tem distribuição de Bernoulli de parâmetro p, então
1. GX (t) = (1 − p) + p et ;
2. E(X) = p;
3. Var(X) = p(1 − p).
25
Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:
Definição 3.3 Uma v.a. X tem distribuição binomial de parâmetros N e p (com N ∈ N e 0 ≤ p ≤ 1),
abreviadamente escreve-se X ∼ B(x, N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. é tal que
(
N
Cx px (1 − p)N −x se x = 0, 1, 2, . . . , N
fX (x) = .
0 o.v.
Observações 3.2
1. É evidente que uma v.a. com distribuição binomial é uma v.a. discreta. Diz-se então que a distribuição
binomial é uma distribuição discreta.
Px
2. Se X ∼ B(N, p), então FX (x) = P (X ≤ x) = i=0 NCi pi (1 − p)N −i .
N
X
N N
3. Obviamente, Ci pi (1 − p)N −i = (p + (1 − p)) = 1.
i=0
2. E(X) = N p;
Exemplo 3.1 Considere-se a e.a.: Lançamento de um dado e registo do número de pontos obtidos.
Qual é a probabilidade de se obter duas vezes a face 3 em 6 lançamentos do dado?
Resolução: Defina-se
X = número de vezes que ocorre a face 3, em 6 lançamentos.
Então, X ∼ B(6, p), em que p = P (A) = 16 , com A = “saı́da da face 3”. Pretende-se calcular P (X = 2):
µ ¶2 µ ¶4
1 5
P (X = 2) = 6C2 ≈ 0.2009.
6 6
r
1 1 5 5 5
Observe-se ainda que E(X) = 6 × = 1, Var(X) = 6 × × = e σX = .
6 6 6 6 6
Definição 3.4 Uma v.a. X tem distribuição geométrica de parâmetro p, abreviadamente X ∼ Geo(p),
quando a sua f.p. for da forma
½
(1 − p)x−1 p se x = 1, 2 . . . ,
f (x) =
0 o.v. de x.
26
Teorema 3.5 Se X é uma v.a. tal que X ∼ Geo(p), então, para quaisquer inteiros positivos s e t,
Observação 3.3 Devido ao teorema anterior, é usual dizer-se que a distribuição geométrica não tem memória,
já que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar
mais t provas é exactamente igual à probabilidade de ter de esperar mais de t provas por um sucesso a partir
no momento inicial.
Definição 3.5 Uma v.a. X segue uma distribuição hipergeométrica de parâmetros M , N e p (simbolica-
mente X ∼ H(M, N, p), se a sua f.p. é definida por
Mp
Cx · MqCN −x
MC
se x ∈ N0 ∧ max(0, N − M q) ≤ x ≤ min(N, M p)
fX (x) = N ,
0 o.v. de x
com q = 1 − p.
1. E(X) = N p;
M −N
2. Var(X) = N p(1 − p) .
M −1
Observe-se que os valores esperados das distribuições B(N, p) e H(M, N, p) é o mesmo e as variâncias
apenas se distinguem pelo factor (M − N )/(M − 1). Quando M é grande comparado com N , naturalmente que
se esbate a diferença entre extracções com e sem reposição. Nesta situação, (M − N )/(M − 1) é próximo da
unidade e não surpreende o seguinte resultado:
isto é, a distribuição hipergeométrica H(M, N, p) aproxima-se da distribuição binomial B(N, p), para M grande.
Exemplo 3.2 De um grupo de 1000 habitantes de uma certa região há 2% que são proprietários das casas
que habitam. Se se colhe ao acaso uma amostra de 100 indivı́duos, com e sem reposição, são as seguintes as
probabilidades de obter x indivı́duos com casa própria:
100
a) com reposição: Cx (0.02)x (0.98)100−x ;
20
Cx · 980C100−x
b) sem reposição: 1000C
.
100
No quadro seguinte faz-se a comparação dos respectivos valores não se tendo ido além de x = 9, por motivos
óbvios.
27
x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02)
0 0.1326 0.1190
1 0.2707 0.2701
2 0.2734 0.2881
3 0.1823 0.1918
4 0.0902 0.0895
5 0.0353 0.0311
6 0.0114 0.0083
7 0.0031 0.0018
8 0.0007 0.0003
9 0.0002 0.0000
Quando N < M/10, a distribuição Binomial fornece já uma aproximação satisfatória da distribuição Hiper-
geométrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.
C1. O números de ocorrência registadas em diferentes intervalos de tempo (espaço) são independentes entre si.
C2. A distribuição do número de ocorrências em cada intervalo de tempo (espaço) é a mesma para todos os
intervalos.
C3. A probabilidade de se registar uma ocorrência num intervalo qualquer de dimensão (comprimento) ∆t,
∆P1 , é praticamente proporcional à dimensão do intervalo, isto é, ∆P1 ≈ λ · ∆t.
Definição 3.6 Uma v.a. X tem distribuição de Poisson de parâmetro λ > 0, simbolicamente X ∼ P oisson(λ),
se a sua f.p. é definida por −λ x
e λ
se x ∈ N0
fX (x) = x! .
0 o.v. de x
+∞ x
X λ
Observação 3.4 Sendo eλ = , então resulta de imediato que, se X ∼ P oisson(λ),
x=0
x!
+∞
X +∞ −λ x
X +∞ x
X
e λ λ
P (X = x) = = e−λ = e−λ eλ = 1.
x=0 x=0
x! x=0
x!
2. E(X) = λ;
3. Var(X) = λ;
28
A distribuição de Poisson foi descoberta quando este matemático estudava formas limite da distribuição
binomial. A forma como uma distribuição binomial pode ser aproximada por uma distribuição de Poisson é
dada por:
Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Então, quando N → +∞ e p é próximo de zero,
o
X ∼ P oisson(N p)
P (X > 1) = 1 − P (X = 0) − P (X = 1)
= 1 − 1000C0 (0.001)0 × (0.999)1000 − 1000C1 (0.001)1 × (0.999)999
= 0.264241087
e−1 10 e−1 11
P (X > 1) ≈ 1 − − = 0.2642411177
0! 1!
O erro é inferior a 3.1 × 10−8 .
P (Y > 1) = 1 − P (Y = 0) − P (Y = 1)
= 1 − 2000C0 (0.001)0 × (0.999)2000 − 2000C1 (0.001)1 × (0.999)1999
= 0.5941295533
e−2 20 e−2 21
P (Y > 1) ≈ 1 − − = 0.5939941503
0! 1!
O erro é inferior a 1.4 × 10−4 mas superior a 3.1 × 10−8 .
O interesse prático de aproximar uma distribuição binomial por uma de Poisson resulta de o cálculo da função
de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na última observação
e usando simulações, tal aproximação só é razoável quando N ≥ 30 e só tem interesse quando a distribuição
Binomial for assimétrica com N p < 5. De facto, veremos mais à frente que se a distribuição Binomial for
simétrica (ou quase simétrica), é mais prático aproximá-la por uma outra distribuição (a distribuição Normal).
A distribuição de Poisson na forma como foi definida serve essencialmente para interpretar fenómenos (como
os descritos anteriormente) num intervalo de tempo ou espaço de comprimento 1. Em geral, para um intervalo
[0, t], a função de probabilidade é dada por
e−λt (λt)x
P (X = x) = , x = 0, 1, 2, . . . ,
x!
isto é, X ∼ P oisson(λt).
29
Exemplo 3.4 Durante o horário de almoço (das 12h às 14h), o número médio de automóveis que chegam a
um parque de estacionamento é de 360. Qual a probabilidade de, durante um minuto, chegarem 2 automóveis?
λ = 360/120min. = 3/min..
Admitindo-se que a v.a. X = número de automóveis que chegam ao estacionamento por minuto, é tal que
X ∼ P oisson(3), então
e−3 32
P (X = 2) = ≈ 0.2240.
2!
Se fosse em 2 minutos, tinha-se Y ∼ P oisson(6) e
e−6 62
P (Y = 2) = ≈ 0.0446.
2!
Definição 3.7 Uma v.a. X, do tipo contı́nuo, tem distribuição Uniforme ou Rectangular no intervalo
limitado [a, b], simbolicamente X ∼ U (a, b), quando a sua f.d.p. é da forma,
1
se a ≤ x ≤ b
f (x) = b−a .
0 se x < a ∨ x > b
ebt − eat
1. GX (t) =
t(b − a)
a+b
2. E(X) =
2
(b − a)2
3. Var(X) =
12
30
3.7 Distribuição Exponencial
Definição 3.8 Uma v.a. X tem distribuição Exponencial (ou Exponencial Negativa) de parâmetro
λ > 0, abreviadamente X ∼ Exp(λ), se a sua f.d.p. é tal que
½
λ e−λx se x > 0
f (x) = .
0 se x ≤ 0
Definição 3.9 Uma v.a. X tem distribuição Normal com média µ e desvio padrão σ (ou de parâmetros µ
e σ), simbolicamente X ∼ N (µ, σ), se a sua f.d.p. é definida por
1 (x−µ)2
f (x) = √ e− 2σ2 , x ∈ R.
2πσ
Observação 3.6 O que distingue uma distribuição Normal de outra distribuição Normal é a sua média e o seu
desvio padrão.
Graficamente, a f.d.p. de uma v.a. com distribuição Normal é representada por uma curva em forma de
sino, ou curva normal:
Propriedades da Curva Normal:
• É simétrica relativamente à recta de equação x = µ. Assim, a média, moda e mediana são iguais;
Já sabemos que, nas distribuições contı́nuas, áreas limitadas entre a curva da f.d.p e o eixo dos xx, para um
dado intervalo de números reais, representa probabilidades. Assim, suponhamos que pretendemos calcular a
área limitada entre a curva normal e o eixo dos xx relativamente ao intervalo [a, b], isto é, pretendemos calcular
Z b Z b
1 (x−µ)2
P (a ≤ X ≤ b) = f (x) dx = √ e− 2σ 2 dx.
a σ 2π a
31
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1 0 1 2 3 4 5
f.d.p. da Dist. N(2,0.5)
Conhecidos µ e σ, o integral anterior envolve algumas dificuldades. E como futuramente teremos que calcular
com muita frequência probabilidades envolvendo a distribuição Normal, não é prático este sistema directo de
cálculo. Existem tabelas que nos permitem calcular, aproximadamente, probabilidades com a distribuição
Normal. No entanto, as tabelas existentes são para a distribuição Normal Estandardizada, isto é, a distribuição
normal com média 0 e desvio padrão 1. Então, é necessário seguir o seguinte procedimento para utilizar uma
tabela: suponhamos que pretendemos calcular P (a ≤ X ≤ b), com X ∼ N (µ, σ). Sabemos que
X −µ
Z= ∼ N (0, 1).
σ
Logo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P Z≤ −P Z <
σ σ
Se os valores estandardizados de a e b são positivos, então basta usar a tabela da função de distribuição
Normal estandardizada para encontrar o valor pretendido. Se algum deles é negativo, é necessário previamente
usar a simetria da distribuição:
P (Z ≤ z) = P (Z ≥ −z).
Caso se queira utilizar a tabela que dá os valores de P (0 ≤ Z ≤ z), com z > 0, o procedimento poderá ser o
seguinte:
• Se os valores estandardizados de a e b são positivos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ −P 0≤Z < .
σ σ
• Se o valor estandardizado de a é negativo e o valor estandardizado de b é positivo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ +P 0≤Z ≤− .
σ σ
• Se os valores estandardizados de a e b são negativos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶
b−µ a−µ
= P − ≤Z≤−
σ σ
µ ¶ µ ¶
a−µ b−µ
= P 0≤Z≤− −P 0≤Z <− .
σ σ
32
Exemplos 3.5
i) P (Z ≤ 0) = P (Z ≥ 0) = 0.5;
ii) P (z ≤ 2) = P (Z ≤ 0) + P (0 ≤ Z ≤ 2) = 0.5 + 0.4772 = 0.9772;
iii) P (Z ≤ −1) = P (Z ≥ 1) = 0.5 − P (0 ≤ Z < 1) = 0.5 − 0.3413 = 0.1587;
X − 3.4
2. Suponhamos que X ∼ N (3.4, 0.23). Então Z = ∼ N (0, 1) e
0.23
µ ¶
4 − 3.4
i) P (X > 4) = P Z> ≈ 0.5 − P (0 ≤ Z ≤ 2.61) = 0.0045;
0.23
ii) P (3.2 ≤ X ≤ 3.8) ≈ P (−0.87 ≤ Z ≤ 1.74) = P (0 ≤ Z ≤ 1.74) + P (0 ≤ Z ≤ 0.87) = 0.7669.
Vejamos agora alguma propriedades importantes da distribuição Normal que têm inúmeras aplicações.
Teorema 3.15 Se X1 , X2 , . . . , Xn são variáveis aleatórias independentes tais que Xi ∼ N (µi , σi ) e ai constan-
tes reais, com i = 1, 2, . . . , n, então a combinação linear
v
n n u n
X X uX
X= ai Xi ∼ N µ = ai µi , σ = t a2i σi2 .
i=1 i=1 i=1
o
Corolário
³ 3.17 (Teorema
´ de De Moivre-Laplace) Se X é uma v.a. tal que X ∼ B(N, p), então X ∼
p
N N p, N p(1 − p) , quando N → +∞.
Em termos práticos, o Teorema de De Moivre-Laplace significa que podemos aproximar uma distribuição
Binomial de parâmetros N e p pela distribuição Normal de média N p e desvio padrão N p(1 − p), quando N é
suficientemente grande.
Sendo a distribuição Binomial discreta e a distribuição Normal contı́nua, requer no cálculo de probabilidades
a necessidade de se proceder a uma correcção adequada, dita correcção de continuidade. A ideia consiste em
aproximar a área de rectângulos do histograma da distribuição Binomial por áreas debaixo da curva Normal.
Observe-se o seguinte gráfico.
33
o √
Por exemplo, se X ∼ B(32, 0.5), pelo Teorema de De Moivre-Laplace, X ∼ W ∼ N (16, 8), isto é,
X − 16 o W − 16
√ ∼Z= √ ∼ N (0, 1).
8 8
Se pretendermos calcular, aproximadamente, P (X = 18), basta procedermos da seguinte forma:
isto é,
X − Np o W − Np
p ∼Z= p ∼ N (0, 1),
N p(1 − p) N p(1 − p)
e fazendo-se a correcção de continuidade temos, por exemplo, que
à !
a − 0.5 − N p a + 0.5 − N p
P (X = a) ≈ P (a − 0.5 ≤ W ≤ a + 0.5) = P p ≤Z≤ p .
N p(1 − p) N p(1 − p)
Quanto à qualidade da aproximação tem-se o seguinte:
Daqui resulta uma regra, muitas vezes adoptada, que permite bons resultados. Diz o seguinte: a aproximação
da distribuição Binomial pela distribuição Normal é suficientemente boa desde que N ≥ 30 e N p ≥ 5.
Também é possı́vel aproximar uma distribuição de Poisson por uma distribuição Normal. Basta atender ao
seguinte teorema e proceder à correcção de continuidade, já que a distribuição de Poisson também é discreta.
quando λ → +∞.
Observação 3.7 Para λ ≥ 30 as aproximações são boas para a maioria das aplicações, sobretudo quando se
emprega a correcção de continuidade.
34
Capı́tulo 4
Amostragem
Definição 4.1 Chama-se população ao conjunto de todos os elementos sobre o qual irá incidir as observações
com o objectivo de o estudar estatisticamente. Cada elemento da população chama-se unidade estatı́stica.
Observações 4.1
1. Num estudo estatı́stico cada unidade estatı́stica perde toda a individualidade para só ser encarada na medida
em que contribui para a estrutura do conjunto (população).
2. Uma população pode ser finita ou infinita, conforme o número de elementos que a compõe seja finito ou
infinito.
Uma unidade estatı́stica de uma população ou amostra pode ser observada segundo uma dada caracterı́stica.
Em estatı́stica, é usual denominar-se essa caracterı́stica por atributo. Exemplos de atributos: idade, peso,
estado civil, altura, filiação partidária, nı́vel sócio-económico, etc.
Chamam-se modalidades às situações possı́veis em que se pode encontrar uma unidade estatı́stica, em
relação a um dado atributo.
Exemplos 4.1
Atributo Modalidades
Sexo masculino, feminino
Estado civil solteiro, casado, divorciado, viúvo
Observação 4.2 As modalidades de determinado atributo devem ser incompatı́veis e exaustivas, isto é, cada
unidade estatı́stica deve pertencer a uma e uma só das modalidades do atributo considerado.
Definição 4.3 Um atributo diz-se qualitativo se as suas modalidades não são mensuráveis. Caso contrário,
diz-se quantitativo. Aos atributos quantitativos dá-se também o nome de variáveis estatı́sticas.
Exemplos 4.2
35
Atributos qualitativos estado civil, cor, filiação partidária
Atributos quantitativos altura, peso, idade, durabilidade
Definição 4.4 O número de vezes que se repete uma modalidade de um dado atributo denomina-se de frequência
absoluta e representa-se por ni . No caso bidimensional, isto é, quando se considera, em conjunta, dois atri-
butos A e B, a frequência absoluta das modalidades i, do atributo A, e j, do atributo B representa-se por nij .
E as frequências absolutas marginais por ni· e n·j , respectivamente para a modalidade i, do atributo A, e j, do
atributo B.
O quociente entre uma frequência absoluta e o número total de observações (n), denomina-se frequência
relativa. No caso unidimensional, a frequência relativa da modalidade i representa-se por fi . No caso bidi-
mensional, a frequência relativa das modalidades i, do atributo A, e j, do atributo B, representa-se por fij . As
frequências relativas marginais representam-se por fi· e f·j .
• comodidade;
• tempo;
• económicas;
Assim, o estudo far-se-á incidir somente sobre uma amostra extraı́da da população. Consequentemente, a
partir dessa amostra espera-se poder inferir sobre a população, relativamente ao atributo em estudo. Para se
fazerem tais inferências é necessário escolher um método de amostragem apropriado. A amostragem pode
ser de dois tipos: aleatória e não aleatória; existindo vários métodos de se obter uma amostra para cada
um dos tipos de amostragem.
1. Método de Amostragem Aleatória Simples - Este método consiste em utilizar um processo que possi-
bilite a que toda a unidade estatı́stica tenha igual probabilidade de fazer parte da amostra. Por exemplo,
podia-se escrever o nome de cada indivı́duo em um, e um só papel, introduziam-se todos num saco e ex-
traı́amos, com reposição, apenas alguns nomes. O processo que se utiliza na extracção das bolas do totoloto
é também aleatório, mas não simples. Um pesquisador quando pretende obter uma amostra aleatória sim-
ples, não utiliza um saco, mas sim uma tabela de números aleatórios ou números aleatórios gerados por
computador.
2. Método de Amostragem Sistemática - Este método consiste em incluir na amostra as n-ésimas unidades
estatı́sticas de uma população.
36
- Homens de classe alta;
- Homens de classe média;
- Homens de classe baixa;
- Mulheres de classe alta;
- Mulheres de classe média;
- Mulheres de classe baixa.
Agora bastará obter amostras aleatórias simples em cada uma das subpopulações de acordo com a percen-
tagem que têm na população.
4. Método de Amostragem por Conglomerados (¿clustersÀ) - Este método consiste em escolher alea-
toriamente algumas áreas bem delineadas (conglomerados) onde se concentram caracterı́sticas encontradas
na população total e seguidamente obter amostras aleatórias dentro de cada um dos conglomerados. Este
método é essencialmente utilizado para reduzir os custos de grandes pesquisas.
1. Amostragem Acidental - Este método consiste em incluir na amostra somente as unidades estatı́sticas
convenientes, excluindo-se, então, as incovenientes.
2. Amostragem por Quotas - Este método consiste em incluir unidades estatı́sticas na amostra segundo
diversas caracterı́sticas da população (tais como: idade, sexo, nı́vel sócio-económico, etnia, etc...) e nas
mesmas proporções que figuram na população.
3. Amostragem por Julgamento ou Conveniência - Este método consiste em incluir na amostra as uni-
dades estatı́sticas que poderão proporcionar uma representatividade da população, de acordo com a lógica,
senso comum ou um julgamento equilibrado.
Definição 4.5 Seja X uma variável aleatória que representa uma caracterı́stica numérica de uma população
em estudo (abusivamente diremos, simplesmente, população X). Chama-se amostra aleatória (a.a.) a um
conjunto de n variáveis aleatórias, X1 , X2 , . . . , Xn , independentes e identicamente distribuı́das a X.
Observações 4.4
1. É usual representar-se uma amostra aleatória em forma de sequência ordenada (vector): (X1 , X2 , . . . , Xn ).
2. n é o número total (dimensão, tamanho) de observações realizadas na população.
3. Na amostragem aleatória simples admite-se que a amostragem é efectuada com reposição. Se a amostragem
não for feita com reposição, as variáveis X2 , X2 , . . . , Xn deixam de ser independentes. No entanto, quando
a dimensão da população tende para infinito e a dimensão da amostra se mantém finita, a dependência entre
as variáveis X1 , X2 , . . . , Xn tende a desaparecer. Quando a população for infinita, é indiferente realizar uma
amostragem aleatória com ou sem reposição. A amostragem aleatória é simples em qualquer dos casos.
4. A v.a. Xk (k = 1, 2, . . . , n), indica o valor numérico da caracterı́stica em estudo na população sobre o k-
ésimo elemento da amostra. Retirada a amostra, observam-se os valores de X1 , X2 , . . . , Xn ; de acordo com
a notação que tem vindo a adoptar-se, esses valores observados representam-se por x1 , x2 , . . . , xn . Embora o
termo amostra aleatória seja reservado para designar a amostra genérica, (X1 , X2 , . . . , Xn ), o mesmo aplica-
se, por vezes, para designar também a amostra particular, (x1 , x2 , . . . , xn ). Deve, porém, distinguir-se entre
as duas acepções em que o termo é utilizado.
37
Definição 4.6 Chama-se estatı́stica a uma função dos valores observados, isto é, uma função de uma a.a.
(X1 , X2 , . . . , Xn ), sem parâmetros desconhecidos.
Exemplos 4.3
Pn
Xi
1. X = i=1 (Média Amostral)
n
Pn
2. T1 = X1 + X2 + · · · + Xn = i=1 Xi
Pn
3. T2 = i=1 Xi2
Pn
X2
4. T3 = i=1 i
n
5. T4 = X1 · X2 · · · Xn
6. T5 = max(X1 , X2 , . . . , Xn )
n
1 X¡ ¢2
7. S 2 = Xi − X (variância amostral)
n i=1
n
1 X¡ ¢2
8. s2 = Xi − X (variância amostral corrigida)
n − 1 i=1
9. Suponha-se que na população X ∼ N (µ, σ), os parâmetros µ e σ são desconhecidos. Então não são es-
tatı́sticas as funções, Pn Pn Pn 2
i=1 (Xi − µ) i=1 Xi i=1 Xi
, , ,
σ σ σ2
pois dependem de µ e σ.
Cada estatı́stica é uma nova variável aleatória e terá uma distribuição de probabilidade que é designada por
distribuição amostral. A procura dessa distribuição amostral pode ser muito complicada. De qualquer modo,
no estudo que faremos, as diferentes propriedades serão dadas sem demonstração e com um único objectivo: a
aplicação.
Definição 4.7 Chama-se estimador a qualquer estatı́stica, Θ̂, usada para estimar um parâmetro, θ, (desco-
nhecido) da população ou uma função desse parâmetro. A um valor desse estimador, θ̂, chama-se estimativa.
A qualidade de um estimador de um parâmetro será melhor ou pior conforme certas propriedades que possua.
Não iremos fazer um estudo exaustivo dessas propriedades e utilizaremos somente o seguinte tipo de estimadores:
Definição 4.8 Diz-se que Θ̂ é estimador não-enviesado (ou cêntrico) do parâmetro θ se, e somente se,
E(Θ̂) = θ.
Observação 4.6 O enviesamento de um estimador Θ̂ define-se como a diferença entre o valor esperado do
estimador e o valor do parâmetro θ, isto é,
Enviesamento Θ̂ = E(Θ̂) − θ.
38
Como o não-enviesamento é uma propriedade importante, a utilização de um ou de outro estimador de um
parâmetro desconhecido pode depender desta propriedade. Observe-se o seguinte:
Teorema 4.1 Considere-se uma população X, com média µ e desvio padrão σ, e (X1 , . . . , Xn ) uma sua amostra
aleatória. Então
1. E(X) = µ;
σ2
2. V ar(X) = ;
n
n−1 2
3. E(S 2 ) = σ
n
4. E(s2 ) = σ 2 .
Observação 4.7 Na demonstração de 3. pode utilizar-se 2. e na demonstração de 4. pode utilizar-se 3., já
n
que s2 = n−1 S2.
O teorema anterior diz que a média amostral, X, é um estimador não-enviesado da média da população,
µ, e que a variância amostral corrigida, s2 é um estimador não-enviesado da variância da população, σ 2 . No
entanto, a variância amostral, S 2 , é um estimador enviesado da variância da população e, consequentemente,
utilizaremos sempre a variância amostral corrigida para estimar a variância da população.
donde resulta (
M̂ = X
1
Pn 2 1
Pn ¡ ¢2
Σ̂2 = M20 = n k=1 Xk2 − X = n k=1 Xk − X = S2
39
Em relação ao método que acabou de ser apresentado, note-se que ele admite variantes, sendo todas desi-
gnadas por método dos momentos: em vez de se definir o sistema com base nos momentos ordinários, pode
recorrer-se aos momentos centrados; em vez de se definir o sistema a partir dos r primeiros momentos (ordinários
ou centrados), pode recorrer-se a momentos de outras ordens.
Exemplo 4.5 O conteúdo, em litros, de garrafas de óleo segue uma distribuição normal. Se µ = 0.99 ` e
σ = 0.02 `, pretende-se calcular a probabilidade de o conteúdo médio numa amostra de 16 garrafas, seleccionadas
ao acaso, seja superior a 1 `.
Resolução: Sendo
X = capacidade de uma garrafa de óleo, em `
uma v.a. tal que X ∼ N (0.99, 0.02), então, pelo teorema 4.2, X ∼ N (0.99, 0.005). Logo,
µ ¶
1 − 0.99
P (X > 1) = P Z > = P (Z > 2) = 0.5 − P (0 ≤ Z ≤ 2) = 0.5 − 0.4772 = 0.0228.
0.005
Teorema 4.3 Sejam X1 e X2 duas variáveis aleatórias tais que X1 ∼ N (µ1 , σ1 ) e X2 ∼ N (µ2 , σ2 ). Se
(X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das nas popu-
lações X1 e X2 , respectivamente, então
s
σ 2 σ 2
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2
isto é,
X 1 − X 2 − (µ1 − µ2 )
Z= s ∼ N (0, 1).
σ13 σ22
+
n1 n2
Observação 4.9 O teorema anterior é consequência dos teoremas 4.2 e 3.15 e observe-se que: se as amostras
são independentes, então X 1 e X 2 são variáveis aleatórias independentes e
Observações 4.10
1. O teorema anterior é consequência directa do Teorema do Limite Central (teorema 3.16).
2. Nas condições do teorema σ 2 ≈ s2 . Assim, quando σ é desconhecido podemos usar s e, consequentemente,
X −µ o
Z= √ ∼ N (0, 1).
s/ n
40
Corolário 4.5 Seja X ∼ Bernoulli(p) e (X1 , . . . , Xn ) uma amostra aleatória extraı́da nesta população. Então
X −p o
Z=r ∼ N (0, 1),
p(1 − p)
n
quando n → +∞.
Teorema 4.6 Sejam X1 e X2 duas variáveis aleatórias de médias µ1 e µ2 e variâncias σ12 e σ22 , respectiva-
mente. Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das
nas populações X1 e X2 , respectivamente, então
s
σ 2 σ 2
o
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2
isto é,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1),
σ12 σ22
+
n1 n2
quando n1 → +∞ e n2 → +∞.
Observações 4.12
2. Nas condições do teorema σ12 ≈ s21 e σ22 ≈ s22 . Assim, quando σ1 e σ2 são desconhecidos podemos usar s1 e
s2 . Consequentemente,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1).
s21 s22
+
n1 n2
Corolário 4.7 Sejam X1 ∼ Bernoulli(p1 ) e X2 ∼ Bernoulli(p2 ). Se (X11 , . . . , X1n1 ) e (X21 , . . . , X2n2 ) são
amostras aleatórias, independentes, extraı́das nas populações X1 e X2 , respectivamente, então
quando n1 → +∞ e n2 → +∞.
e−x/2 x(n/2)−1
fX (x) = ¡ ¢ , n ∈ N, x ∈ R+ ,
2n/2 Γ n2
onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
0
41
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35
f.d.p. da Dist. do Qui-quadrado com n=10
Teorema 4.8 Sejam X1 , X2 , . . . , Xn v.a. independentes tais que Xi ∼ N (µi , σi ), (i = 1, . . . , n). Então a v.a.
Xn µ ¶2
Xi − µi
U= ∼ χ2n
i=1
σi
Observação 4.13 O termo “graus de liberdade” refere-se ao número de quadrados independentes na soma
anterior.
Corolário 4.9 Sejam a população X ∼ N (µ, σ) e (X1 , . . . , Xn ) uma amostra aleatória. Então
(n − 1)s02
U= ∼ χ2n−1 .
σ2
Distribuição t de Student
Definição 4.10 Uma v.a. X tem distribuição t de Student com n graus de liberdade (ou de parâmetro n),
simbolicamente X ∼ Tn , se a sua f.d.p. é definida por
¡ ¢ µ ¶− n+1
Γ n+1 2¡ ¢ x2 2
fX (x) = √ n 1 + , x ∈ R, n ∈ N,
nπΓ 2 n
onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
o
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
f.d.p. da Dist. t de Student com n=4
Teorema 4.10 Se as variáveis aleatórias X e Y são independentes tais que X ∼ N (0, 1) e Y ∼ χ2n , então
X
T =p ∼ Tn .
Y /n
42
Corolário 4.11 Se X é uma v.a. tal que X ∼ N (µ, σ) e (X1 , X2 , . . . , Xn ) é uma a.a., então o rácio de Student
X −µ
√
s/ n
X −µ
√ ∼ Tn−1 .
s/ n
(n − 1)s2
Y = ∼ χ2n−1 .
σ2
Logo, pelo teorema 4.10,
Z
T =p ∼ Tn−1 .
Y /(n − 1)
Dado que
√ √
n(X−µ) n(X−µ)
X −µ
T = q σ 2 = σ
s = √ ,
(n−1)s
σ s/ n
σ 2 (n−1)
então
X −µ
√ ∼ Tn−1 . ¤
s/ n
o
Teorema 4.12 Quando n → +∞, Tn ∼ N (0, 1).
Teorema 4.13 Sejam X1 e X2 duas variáveis aleatórias independentes tais que X1 ∼ N (µ1 , σ1 ) e
X2 ∼ N (µ2 , σ2 ), com σ1 = σ2 . Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias,
independentes, extraı́das nas populações X1 e X2 , respectivamente, então
X 1 − X 2 − (µ1 − µ2 )
T =s r ∼ Tn1 +n2 −2 .
(n1 − 1)s21 + (n2 − 1)s22 1 1
+
n1 + n2 − 2 n1 n2
Observação 4.15 O teorema anterior é consequência dos teoremas 4.3, 4.9, 4.10 e da aditividade da dis-
2
tribuição
Pn do Qui-Quadrado:
Pn Se as v.a. X1 , . . . , Xn são independentes e Xi ∼ χni , i = 1, . . . , n, então
2
i=1 Xi ∼ χm , com m = i=1 ni .
Distribuição F de Snedcor
Definição 4.11 Uma v.a. X tem distribuição F de Snedcor com m e n graus de liberdade (ou de parâmetros
m e n), simbolicamente X ∼ Fnm , quando a sua f.d.p. é definida por
¡ ¢ ³ ´m m−2
Γ m+n 2 ¡ ¢ m 2 x 2
fX (x) = ¡ ¢ ¡ ¢ m+n , x ∈ R+ .
Γ m2 Γ 2
n n 1+ m
n x
2
1 n
∼ Fm .
X
43
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10
f.d.p da Dist. F-Snedcor com m=4 e n=5
Teorema 4.15 Se as variáveis aleatórias X e Y são independentes tais que X ∼ χ2m e Y ∼ χ2n , então
X/m
U= ∼ Fnm .
Y /n
Corolário 4.16 Se (X11 , X12 , . . . , X1n1 ) é uma amostra aleatória extraı́da da população X1 ∼ N (µ1 , σ1 ),
(X21 , X22 , . . . , X2n2 ) é uma amostra aleatória extraı́da da população X2 ∼ N (µ2 , σ2 ) e ambas são indepen-
dentes, então
s21 σ22
∼ Fnn21−1
−1
.
s22 σ12
(n1 − 1)s21
∼ χ2n1 −1
σ12
e
(n2 − 1)s22
∼ χ2n2 −1 .
σ22
Logo, pelo teorema 4.15,
(n1 −1)s21
(n1 −1)σ12 s21 σ22
= ∼ Fnn21−1
−1
. ¤
(n2 −1)s22 s22 σ12
(n2 −1)σ22
44
Capı́tulo 5
Estimação Intervalar
Considere-se uma (ou duas populações) onde se pretende estimar um parâmetro (ou uma relação entre parâmetros).
A estimação intervalar consiste na determinação, a partir de uma estimativa pontual do(s) parâmetro(s), de um
intervalo onde o parâmetro (ou relação entre parâmetros) esteja com uma dada probabilidade λ. Temos assim
um intervalo de confiança a λ × 100% (ou com grau de confiança a λ × 100%) para o parâmetro (ou relação de
parâmetros).
Assim, no caso de o parâmetro ser a média (µ) (ou uma diferença de médias (µ1 −µ2 )), pretende-se determinar
números reais a e b, com a < b, tais que
µ ∈ [X − b, X − a]
(respectivamente,
µ1 − µ2 ∈ [X 1 − X 2 − b, X 1 − X 1 − a]).
em que
P (a ≤ X − µ ≤ b) = λ
(respectivamente,
P (a ≤ X 1 − X2 − (µ1 − µ2 ) ≤ b) = λ).
O cálculo de a e b depende das condições iniciais:
• a(s) distribuição(ões) da(s) população(ões) são conhecida(s) ou desconhecida(s);
• a(s) amostra(s) é(são) suficientemente grande(s);
e, tendo em conta estas condições, da escolha de uma variável aleatória (dita variável fulcral), e respectiva-
mente distribuição, que relaciona o(s) parâmetro(s) com o respectivo estimador (ver capı́tulo anterior). Para
cada caso, verifica-se ainda que existem uma infinidade de soluções para a e b. No entanto, em geral, como a
distribuição da variável fulcral é a distribuição Normal (ou aproximadamente normal) ou a distribuição t de
Student, mostra-se que a amplitude (comprimento) do intervalo de confiança, fixado o seu grau de confiança, é
mı́nimo quando a = −b.
No caso do parâmetro ser a variância (ou quociente de variâncias) pretende-se determinar a e b, com c < d,
tais que
" #
2 θ̂ θ̂
σ ∈ ,
b a
(ou
· ¸
σ12 1 1
∈ θ̂, θ̂ ),
σ22 b a
com uma probabilidade λ, onde θ̂ tem a ver com s2 (ou s21 /s22 ).
Para cada caso, verifica-se que existem uma infinidade de soluções para a e b. Sendo, em geral, a distribuição
da variável fulcral a distribuição do Qui-quadrado ou a distribuição F de Snedcor, mostra-se, também, que existe
45
uma única solução para a e b que minimiza a amplitude do intervalo de confiança, fixado o seu grau de confiança.
No entanto, este cálculo é bastante trabalhoso. Assim, na prática, por uma questão de comodidade os valores
de a e b são determinados pelas condições
1−λ 1−λ
P (U ≤ a) = , P (U ≥ b) = ,
2 2
onde U ∼ χ2m ou U ∼ Fnm .
Observe-se o quadro na página seguinte, onde está representado o intervalo de confiança para cada um dos
parâmetros em estudo, de acordo com a condições iniciais.
Quando queremos estudar variáveis que surjam naturalmente associadas, são necessários alguns cuidados.
As duas amostras, cada uma proveniente da sua população, em vez de serem independentes são emparelhadas,
isto é, as amostras são constituı́das por pares ordenados medindo a mesma grandeza. Nestes casos, poderá, em
muitas circunstâncias, originar uma situação mais favorável, porque se traduz numa redução da variabilidade,
já que
var(X1 − X2 ) = var(X1 ) + var(X2 ) − 2cov(X1 , X2 ).
Se as duas populações em estudo são normais, então o problema é reduzido ao caso de uma população normal,
que é dada pela diferença das suas iniciais.
46
PAR. CONDIÇÕES V.A. FULCRAIS/DIST. INTERVALOS DE CONFIANÇA OBS.
Quando se desconhece
População normal X −µ · ¸ a distribuição da po-
Z= σ σ
µ com variância co- σ ∼ N (0, 1) X − z√ ,X + z√ pulação, mas n é grande
√ n n
nhecida n (n ≥ 30), a distribuição
é aprox. normal.
Com n grande, po-
População normal X −µ · ¸ pulação normal ou não,
∼ Tn−1 s s
de variância desco- s X − t√ , X + t√ a distribuição é aprox.
√ n n
nhecida n normal.
p̂ − p o
" r r #
População de Ber- Z=r ∼ N (0, 1) 0.25 0.25 Para n grande.
p p(1 − p) p̂ − z , p̂ + z
noulli n n
n · ¸
2 2
(n − 1)s2 (n − 1)s (n − 1)s
σ2 População normal ∼ χ2n−1 ,
σ2 b a
Quando se desconhece
X 1 − X 2 − (µ1 − µ2 ) s s
Duas populações Z= s ∼ N (0, 1) a distribuição das po-
σ12 σ2 σ12 σ2
normais com vari- σ12 σ22 X 1 − X 2 − z + 2 , X1 − X2 + z + 2 pulações, mas n1 e n2
+ n1 n2 n1 n2
47
âncias conhecidas n1 n2 são grandes, a distri-
buição é aprox. normal.
Duas populações · q q
X 1 − X 2 − (µ1 − µ2 ) (n1 −1)s21 +(n2 −1)s22 1 1
normais com s ∼ Tn1 +n2 −2 X1 − X2 − t n1 +n2 −2 n1 + n2 ,
r ¸
µ1 − µ2 variâncias des- (n1 − 1)s21 + (n2 − 1)s22 1 1 q q
conhecidas mas + (n1 −1)s21 +(n2 −1)s22 1 1
n1 + n2 − 2 n1 n2 X1 − X2 + t n1 +n2 −2 n1 + n2
iguais
Duas populações
X 1 − X 2 − (µ1 − µ2 ) o s s
normais ou não, Z= s ∼ N (0, 1) s21 s22 s21 s22
com variâncias s21 s22 X 1 − X 2 − z + , X1 − X2 + z +
desconhecidas mas + n1 n2 n1 n2
n1 n2
n1 e n2 grandes
p̂1 − p̂2 − (p1 − p2 ) o r r
Z=s ∼ N (0, 1) · ¸
Duas populações de 0.25 0.25 0.25 0.25
p1 − p2 p1 (1 − p1 ) p2 (1 − p2 ) p̂1 − p̂2 − z + , p̂1 − p̂2 + z + Para n1 e n2 grandes
Bernoulli + n1 n2 n1 n2
n1 n2
· ¸
σ12 Duas populações 1 s21 1 s21
s21 σ22 −1 ,
∼ Fnn21−1
σ22 normais s22 σ12 b s22 a s22
48
Capı́tulo 6
Teste de Hipóteses
Para uma melhor compreensão de cada uma destas fases, iremos apresentá-las no contexto do problema
seguinte, que é um teste de hipótese do tipo paramétrico, isto é, um teste de hipótese onde a formulação das
hipóteses é feita para um parâmetro populacional desconhecido:
“Uma empresa tenciona importar um grande lote de instrumentos de precisão para posterior distribuição
no paı́s. Os fabricantes garantem que o respectivo peso médio é de 100 gramas. Sendo, no entanto, o peso
uma caracterı́stica importante na qualidade do produto, resolveu-se testar a garantia do fabricante. Para tal,
o departamento técnico da empresa importadora obteve uma amostra de 15 instrumentos, donde resultaram os
seguintes valores:
15
X 15
X ¡ ¢2
Xi = 1344 grs Xi − X = 3150 grs2
i=1 i=1
Admitindo que o peso é normalmente distribuı́do, diga qual a inferência a tirar, para um nı́vel de significância
de 1%.”.
Na resolução de um problema deste tipo é importante definir correctamente a caracterı́stica em estudo na
população, isto é, a variável aleatória, e saber quais os dados populacionais conhecidos (ou desconhecidos). No
problema em questão temos:
X = “peso de um instrumento de precisão, em gramas”.
X ∼ N (µ, σ), µ e σ desconhecidos.
i) Neste problema está em causa a afirmação dos fabricantes relativamente ao peso médio de um instrumento
por eles fabricado. Eles garantem que o peso médio de um instrumento de precisão é de 100 gramas. Assim,
temos a seguinte formulação de hipóteses:
H0 : µ = 100
HA : µ=6 100
49
A primeira (H0 ) é denominada por hipótese nula e a segunda (HA ) por hipótese alternativa. Em
geral, na formulação da hipótese nula é necessário ter-se um igual, podendo usar-se um dos sı́mbolos: =,
≤ ou ≥, pois um teste de hipótese paramétrico requer um valor a testar. A hipótese alternativa terá, no
contexto do problema, de ser complementar da hipótese nula, podendo usar-se um dos sı́mbolos: 6=, < ou
>.
ii) Para testarmos as hipóteses formuladas, necessitamos de uma estimativa pontual do parâmetro em estudo.
Para tal, é necessário recolher uma amostra aleatória na população em estudo. (Observe-se que, por razões
óbvias, somente faz sentido a recolha de uma amostra depois de estabelecidas as hipóteses a testar.) O
estimador em causa, no contexto do teste de hipóteses, é usualmente denominado de estatı́stica do teste
e terá uma distribuição amostral. No nosso problema, a estatı́stica do teste é X e como pretendemos testar
o valor expresso na hipótese nula, quando a população X segue uma distribuição normal de variância
desconhecida e a amostra recolhida é pequena (n=15), resulta
X − 100
T = √ ∼ T14
s/ n
p̂ − pˆ2 − (p1 − p2 )
q1
p1 (1−p1 )
n1 + p2 (1−p
n2
2)
transforma-se numa estatı́stica do teste quando se substitui p1 − p2 pelo valor a testar e, para estar de
acordo com a hipótese nula, p1 e p2 por
Pn1 Pn2
n1 p̂1 + n2 pˆ2 i=1 X1i + i=1 X2i
p̂ = = ,
n1 + n2 n1 + n2
que é a média ponderada dos sucessos observados conjuntamente nas duas amostras.
iii) Na definição da regra de decisão, que consiste em rejeitar ou não rejeitar a hipótese nula, é necessário
encontrar um valor (ou valores), dito crı́tico, que nos ajude nesta decisão. No nosso problema, rejeitamos
o valor 100 desde que uma estimativa da média esteja “afastada”deste valor. À partida, este afastamento
é muito relativo, o que nos leva a definir um critério de rejeição. De qualquer modo, ao se tomar a decisão
podemos cometer dois tipos de erro: rejeitar uma hipótese verdadeira (erro tipo I) ou não rejeitar uma
hipótese falsa (erro tipo II). Observe-se o quadro seguinte:
A probabilidade de se cometer um erro tipo I será designada por α. E de se cometer um erro tipo II por
β. Isto é,
P (Rejeitar H0 |H0 é verdadeira) = α
50
tipo II, e portanto, a potência do teste, 1 − β, dependem da forma como a hipótese alternativa se afasta
da hipótese nula. Só existe uma forma de diminuir um dos riscos α ou β sem aumentar o outro: aumentar
o número de dados amostrais com base nos quais é calculada a estatı́stica do teste. Em grande parte dos
problemas a resolver, em particular no que nos serve de exemplo, é especificado o nı́vel de significância, já
que o objectivo é a rejeição de H0 . Quando o nı́vel de significância é especificado à partida, permite-nos
encontrar um conjunto de valores assumidos pela estatı́stica do teste para os quais rejeitamos H0 . Este
conjunto é denominado por Região Crı́tica e, no contexto do problema que estamos a tratar, esta região
é do tipo bilateral, pois HA : µ > 100 ∨ µ < 100, sendo dada por
© ª
RC = tobs : tobs ≤ −tc ∨ tobs ≥ tc ,
(resp.
© ª
RC = tobs : tobs ≥ tc ).
89.6 − 100
tobs = √ ≈ −2.6853
15/ 15
Como este valor não pertence à região crı́tica, não rejeitamos H0 , isto é, não rejeitamos que um instrumento
de precisão tenha em média 100 gramas.
Em vez de termos especificado o nı́vel de significância, poderı́amos, a partir do valor do teste, encontrar
o nı́vel de significância, isto é, a probabilidade mı́nima que permita rejeitarmos H0 , se H0 é verdadeira. No
exemplo que temos vindo a tratar, um valor crı́tico que permita rejeitar H0 é, usando a tabela t de Student,
2.624 e o respectivo nı́vel de significância é 0.02. Assim, para o nı́vel de significância de 2% podemos rejeitar H0 ,
isto é, podemos rejeitar que um instrumento de precisão tenha em média 100 gramas. Nestas circunstâncias, a
garantia dada pelos fabricantes não está a ser respeitada.
Esta última abordagem sugere que se determine a probabilidade no extremo da cauda (ou caudas, no caso
bilateral) associada ao valor observado da estatı́stica do teste. A esta probabilidade chama-se valor-p do teste
e toma-se a decisão com base nessa probabilidade. Assim, no teste que temos vindo a explorar, o valor-p é dado
por
P (|T14 | ≥ | − 2.6853|),
e como se tem que
0.01 < P (|T14 | ≥ | − 2.6853|) < 0.02,
51
resulta a não rejeição da hipótese nula quando se toma α = 0.01 e a rejeição quando α = 0.02
Quando queremos estudar variáveis que surjam naturalmente associadas, o procedimento base é semelhante
ao adoptado durante o estudo da estimação intervalar (ver final do Capı́tulo 5).
52
Capı́tulo 7
Neste capı́tulo estudaremos dois testes, ditos do qui-quadrado, que não incidem explicitamente sobre um
parâmetro de uma ou mais populações.
Hipóteses:
H0 : A população segue a distribuição especificada
HA : A população não segue a distribuição especificada
Logo, pode mostrar-se, que uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é
k
X 2
(ni − npi )
i=1
npi
ou, equivalentemente,
Xk
n2i
−n
i=1
npi
e sob H0
k
X 2
(ni − npi ) o
∼ χ2k−ν−1 ,
i=1
npi
sempre que n ≥ 30 e npi ≥ 5, i = 1, 2, . . . , k, e ν representa o número de parâmetros desconhecidos da população
que há necessidade de estimar.
53
Analisando-se a estatı́stica do teste, verifica-se que a hipótese H0 poderá ser verdadeira se as diferenças entre
as frequências observadas e esperadas forem pequenas. Logo,
1. Se o valor da estatı́stica do teste for nulo, então as frequências observadas e esperadas coincidem e a hipótese
H0 é verdadeira.
2. Se o valor da estatı́stica do teste for positivo, então as frequências observadas e esperadas não coincidem.
Quanto maior for o valor do teste, (χ2obs ), maior será a discrepância entre as frequências observadas e
esperadas. Se essa discrepância for suficientemente grande, rejeita-se H0 .
Exemplo 7.1 Uma máquina de lavar roupa é vendida em cinco cores: A1 = verde, A2 = castanho,
A3 = vermelha, A4 = azul e A5 = branco. Num estudo de mercado para apreciar a popularidade das várias
cores analisou-se uma amostra aleatória de 300 vendas recentes com o seguinte resultado:
Pretende ensaiar-se a hipótese de que os consumidores não manifestam tendência para preferir qualquer das
cores,
H0 : p1 = p2 = p3 = p4 = p5 = 0.2.
Os cálculos necessários para o teste encontram-se no quadro seguinte:
Classes A1 A2 A3 A4 A5 TOTAL
ni 88 65 52 40 55 300
npi 60 60 60 60 60 300
(ni − npi )2 /npi 13.07 0.42 1.07 9.67 0.42 21.65
Para α = 0.05 e para 4 graus de liberdade, RC = [9.49, +∞[. Como se obteve um valor do teste
Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes
54
r X
X s
nij = n
i=1 j=1
A hipótese H0 é verdadeira se pij = pi· p·j , para i = 1, . . . , r e j = 1, . . . , s. Mas estes valores são, obviamente,
nij
desconhecidos. Logo, o teste irá consistir em comparar o estimador de pij , p̂ij = , com o estimador de pi· p·j ,
n
ni· n·j ni· n·j
p̂i· p̂·j = · , ou, equivalentemente, comparar nij com np̂i· p̂·j = .
n n n
Uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é
Xr X s 2
(nij − np̂i· p̂·j )
i=1 j=1
np̂i· p̂·j
ou, equivalentemente,
r X
X s
n2ij
− n,
i=1 j=1
np̂i· p̂·j
e, sob H0
Xr X s 2
(nij − np̂i· p̂·j ) o 2
∼ χ(r−1)(s−1) ,
i=1 j=1
np̂i· p̂·j
sempre que n ≥ 30 e np̂i· p̂·j ≥ 5, para i = 1, . . . , r e j = 1, . . . , s.
À semelhança do teste de ajustamento, o teste de independência tem sempre uma região crı́tica unilateral
direita.
Para facilitar a análise e cálculos num teste de independência é usual utilizarem-se as tabelas de con-
tigência seguinte:
nij B1 B2 ··· Bs ni· np̂i· p̂·j B1 B2 ··· Bs ni·
A1 n11 n12 ··· nis n1· A1 np̂1· p̂·1 np̂1· p̂·2 ··· np̂1· p̂·s n1·
A2 n21 n22 ··· n2s n2· A2 np̂2· p̂·1 np̂2· p̂·2 ··· np̂2· p̂·s n2·
.. .. .. .. .. .. .. .. .. ..
. . . ··· . . . . . ··· . .
Ar nr1 nr2 ··· nrs nr· Ar np̂r· p̂·1 np̂r· p̂·2 ··· np̂r· p̂·s nr·
n·j n·1 n·2 ··· n·s n n·j n·1 n·2 ··· n·s n
ni· n·j
sendo np̂i· p̂·j = .
n
55
Exemplo 7.2 M. um corrector de bolsa, crê que quando a actividade da bolsa é fraca durante a manhã, tende
também a ser fraca durante a tarde. Em consequência, M. está a pensar em tirar, ocasionalmente, a tarde livre
quando a actividade da bolsa for fraca durante a manhã. Registou então o volume de negócios, durante 80 dias,
nos perı́odos da manhã e da tarde e classificou-os na seguinte tabela:
Manhã Tarde
Fraca Activa
Fraca 13 7
Activa 31 29
Pretendemos ensaiar se a actividade da bolsa de manhã é independente da actividade de tarde, para um nı́vel
de significância de 5%. Assim, sendo os atributos, e respectivas modalidades,
pretende ensaiar-se
Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes
H0 : Existe homogeneidade
HA : Não existe homogeneidade
56
Apêndice A
Técnicas de Contagem