Probabilidades-AUTOR JORGE GAMA

UNIVERSIDADE DA BEIRA INTERIOR
Apontamentos Teóricos
de
Probabilidades e Estatı́stica
Jorge Gama
Ano Lectivo 2005/2006
0
Capı́tulo 1
Teoria das Probabilidades
1.1 Introdução
Na Estatı́stica Descritiva descreveram-se e analisaram-se conjuntos de observações relativas a fenómenos aleató-
rios. Neste campo os conceitos estatı́sticos estabelecidos eram empı́ricos. Embora esse estudo seja importante,
é sem dúvida limitado quando se pretende analisar e interpretar ou tomar decisões no contexto dos fenómenos
em estudo.
Neste capı́tulo estudaremos as noções básicas da Teoria das Probabilidades, teoria esta que é o suporte sobre
a qual assenta a teoria da análise, interpretação e tomadas de decisão no contexto do estudo dos fenómenos
aleatórios, isto é, a Inferência Estatı́stica
A Teoria das Probabilidades (ou cálculo das probabilidades) pode caracterizar-se como o modelo matemático
das “regularidades”que se observam nas distribuições de frequências correspondentes aos fenómenos aleatórios
Todo o modelo matemático parte de determinadas propriedades básicas: os axiomas.
No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades é necessário introduzirmos/com-
preendermos determinados conceitos.
Um fenómeno diz-se aleatório quando o acaso interfere na ocorrência de um ou mais dos resultados nos
quais tal fenómeno se pode traduzir. Conjugando determinado número de condições, um resultado aleatório
pode ocorrer ou não. Assim, um fenómeno aleatório caracteriza-se fundamentalmente pelo seguinte:
a) Pode ser repetido inúmeras vezes em idênticas condições.

b) Não se pode afirmar qual o resultado da realização de uma repetição antes da sua realização.
c) Apesar de os resultados das experiências se mostrarem irregulares, verifica-se que os resultados obtidos ao
cabo de uma longa repetição da experiência apresentam regularidade estatı́stica
Exemplos 1.1
1. Considere-se o lançamento ao ar de uma moeda e registo da face voltada para cima.
Observação 1.1 No caso de uma moeda perfeita, repetido o lançamento um número elevado de vezes
verifica-se aproximadamente o mesmo número de faces e coroas, isto é, pode prever-se qual a proporção
de faces e coroas num grande número de lançamentos (regularidade estatı́stica).
2. Lançamento de um dado e registo do número de pontos obtidos.

3. Extracção de uma carta de um baralho e registo das suas caracterı́sticas.
4. Selecção ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais.
5. Observação do sexo de um recém-nascido numa série de nascimentos.
1.2 Espaço de Resultados

Definição 1.1 O conjunto de todos os resultados possı́veis associados a uma experiência aleatória denomina-
se espaço de resultados (ou espaço-amostra, ou espaço amostral, ou espaço universal, ou, ainda, espaço
fundamental)
1
Notação 1.1 O espaço de resultados associado a uma dada experiência aleatória será designado por Ω. Qual-
quer resultado individual é designado por ω (ω ∈ Ω).
Observação 1.2 Os elementos de Ω podem ser números, sequências de números, atributos ou grupos de atri-
butos ou, ainda, uma combinação de elementos quantitativos e qualitativos.
Exemplos 1.2
1. No lançamento de uma moeda se designarmos por F a face e por C a coroa, o espaço de resultados é
Ω = {F, C}.
2. No lançamento de um dado de seis faces existem seis resultados possı́veis. Designando por j, com
j = 1, . . . , 6, o resultado que consiste na “aparição da face com o número j de pontos”, o espaço de re-
sultados é
Ω = {1, 2, 3, 4, 5, 6}.
3. No lançamento de uma moeda e de um dado, o espaço de resultados poderá ser descrito por:
Ω = {F 1, F 2, F 3, F 4, F 5, F 6, C1, C2, C3, C4, C5, C6}.
1.3 Acontecimentos Aleatórios

Definição 1.2 Os subconjuntos de Ω designam-se por acontecimentos.
Notação 1.2
1. Os acontecimentos serão designados por letras maiúsculas (A, B, C, . . . , A1 , A2 , . . . ).
2. Representaremos por P(Ω) as partes de Ω, isto é, o conjunto de todos o acontecimentos de Ω.
Observações 1.3
1. Obviamente, Ω é um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).
2. Ao acontecimento formado por um único elemento ({ω}) damos a designação de acontecimento elemen-
tar.
3. O acontecimento ∅ denomina-se de acontecimento impossı́vel ( ∅ ∈ P(Ω)).
Exemplo 1.3 No lançamento de duas moedas
Ω = {(F, F ), (F, C), (C, F ), (C, C)}
ou, simplesmente,
Ω = {F F, F C, CF, CC} .
Acontecimentos elementares: {F F }, {F C}, {CF } e {CC}.
Outros acontecimentos:
A = {F C, CF } ≡ saı́da de exactamente uma face (ou de exactamente uma coroa);
B = {F F, F C} ≡ saı́da de face na 1a moeda;
C = {F C, CF, CC} ≡ saı́da de pelo menos uma coroa
1.3.1 Principais Conceitos da Álgebra de Acontecimentos

Como, por definição, os acontecimentos são conjuntos, podemos concluir que existe paralelismo entre a álgebra
dos conjuntos e a álgebra dos acontecimentos. Assim, podemos usar os sı́mbolos: ⊂, ⊃, ⊆, ⊇, =, ∪, ∩, \, etc.
Questões de Linguagem
Quando se diz que um acontecimento ocorre (se realiza) é porque se observou a ocorrência (realização)
de um seu elemento no contexto de uma experiência aleatória. Por exemplo, no lançamento de um dado de seis
faces, se a face voltada para cima era o elemento 2, então o acontecimento {1, 2, 3} ocorreu.
Sejam Ω um espaço de resultados e A e B acontecimentos de Ω.
2
1) A ocorrência (realização) de A implica a ocorrência de B se, e somente se, todo o elemento de A é elemento
de B. Escreve-se, então, A ⊂ B.
2) A e B são idênticos se, e somente se, a ocorrência de um implica a ocorrência do outro, isto é, A ⊂ B e
B ⊂ A. Escreve-se A = B.
3) Intersecção ou produto lógico de A por B é o acontecimento que ocorre se, e somente se, A e B ocorrem
simultaneamente. Representa-se este acontecimento por A ∩ B (ou AB).
4) Reunião entre os acontecimentos A e B é o acontecimento que ocorre se, e somente se, A ou B ocorre, isto
é, pelo menos um deles. Representa-se este acontecimento por A ∪ B.
5) A e B dizem-se incompatı́veis se, e somente se, a ocorrência de um deles implica a não ocorrência do outro,
isto é, A ∩ B = ∅.
Os acontecimentos A1 , A2 , . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai ∩ Aj = ∅, para
i 6= j.
6) Diferença entre B e A é o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A.
Representa-se por B \ A (ou B − A).
7) Quando A ⊂ B, B \ A é o acontecimento complementar de A em relação a B.

Em particular, Ω\A designa-se por acontecimento complementar (contrário) de A e ocorre se, e somente
se, A não ocorre. É usual representar-se por A.
Nota: A ∩ A = ∅ e A ∪ A = Ω.
8) Diferença simétrica entre A e B é o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B,
isto é, ocorre um e um só dos acontecimentos, ou ainda, ocorre A ou B, mas não simultaneamente os dois.
Este acontecimento representa-se por A∆B e A∆B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B).
3
Proposições 1.1 Sejam Ω um espaço de resultados associado a uma dada experiência aleatória e
A, B, C ∈ Ω.
1. A operação reunião (resp. intersecção) é associativa:
A ∪ (B ∪ C) = (A ∪ B) ∪ C (A ∩ (B ∩ C) = (A ∩ B) ∩ C) .
2. A operação reunião (resp. intersecção) é comutativa:
A∪B =B∪A (A ∩ B = B ∩ A) .
3. A operação reunião (resp. intersecção) é distributiva relativamente à operação intersecção (resp. reunião):
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)) .
4. A operação reunião (resp. intersecção) é idempotente:
A∪A=A (A ∩ A = A) .
5. i) A ⊂ B ⇒ A ∪ B = B ii) A ⊂ B ⇒ A ∩ B = A.
6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅.
7. Leis de De Morgan:
i) A ∪ B = A ∩ B ii) A ∩ B = A ∪ B.
8. A \ B = A ∩ B.
9. A = A.
10. i) (A ∩ B) ∪ (A ∩ B) = A ii) (A ∩ B) ∩ (A ∩ B) = ∅.
1.4 Axiomas da Teoria das Probabilidades

Definição 1.3 Seja Ω um espaço de resultados associado a uma dada experiência aleatória. Chama-se proba-
bilidade a uma função P : P(Ω) −→ R que satisfaz os seguintes axiomas:
(A1) P (A) ≥ 0; para todo o acontecimento A.
(A2) P (Ω) = 1;
(A3) Se A1 , A2 , A3 , . . . , são acontecimentos mutuamente exclusivos, isto é, Ai ∩ Aj = ∅, para i 6= j, então
 
[ X
P  Ai  = P (Ai ) .
i≥1 i≥1
Proposições 1.2 Sejam Ω um espaço de resultados e A, B e C três acontecimentos, quaisquer.

¡ ¢
1. P A = 1 − P (A);
2. P (∅) = 0;
4
3. P (A \ B) = P (A) − P (A ∩ B);
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B);
5. P (A ∪ B) ≤ P (A) + P (B);
6. A ⊆ B ⇒ P (A) ≤ P (B);
7. 0 ≤ P (A) ≤ 1;
8. P (A∆B) = P (A) + P (B) − 2P (A ∩ B);
9. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
1.5 Espaços de Resultados Finitos. Definição Clássica de Probabi-

lidade
Suponhamos que o espaço de resultados Ω é finito. Então Ω = {ω1 , ω2 , . . . , ωn }. Vamos admitir a hipótese de
equiprobabilidade, isto é, vamos admitir que
P ({ω1 }) = P ({ω2 }) = · · · = P {ωn }).

1
Assim, podemos deduzir que o valor comum destas probabilidades é n. De facto tem-se
P (Ω)
Ã n= 1 ⇔!
[
⇔ P {ωi } = 1
i=1
n
X
⇔ P ({ωi }) = 1
i=1
⇔ nP ({ωj }) = 1, para j = 1, . . . , n
1
⇔ P ({ωj }) = , para j = 1, . . . , n.
n
E para qualquer acontecimento A = {ωi1 , ωi2 , . . . , ωim }, obtemos, por processos análogos,
m
P (A) =
.
n
Isto é, a probabilidade de um acontecimento é o quociente entre o número de resultados (casos) favoráveis
à ocorrência do acontecimento e o número de resultados possı́veis considerados como equiprováveis (Regra
Clássica de Laplace):
no de casos favoráveis #A
P (A) = = .
no de casos possı́veis #Ω
1.6 Probabilidades Condicionadas. Independência

Definição 1.4 Sejam Ω um espaço de resultados e A e B dois acontecimentos, em que P (B) > 0. A nova
função
P (A ∩ B)
P (A|B) =
P (B)
denomina-se probabilidade condicional (ou condicionada) de A (por B).
Observações 1.4
1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.
2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realização de B).
Teorema 1.3 Sejam A1 , A2 , . . . , An acontecimentos tais que P (A1 ∩ A2 ∩ . . . ∩ An−1 ) > 0. Então
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ).
5
Definição 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,
P (A ∩ B) = P (A) · P (B).
Dois acontecimentos são independentes se a probabilidade da ocorrência de um não afecta a probabilidade

da ocorrência do outro. O teorema seguinte justifica esta afirmação.
Teorema 1.4 Os acontecimentos A e B de probabilidade positiva são independentes se, e somente se,
P (A|B) = P (A) (ou P (B|A) = P (B)).
Definição 1.6 Os acontecimentos A1 , A2 , . . . , An são mutuamente independentes se, e somente se, para todos
os inteiros i1 , i2 , . . . , ik , satisfazendo as condições
1 ≤ i1 < i2 < i3 < · · · < ik ≤ n,

se tem
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).
Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hipótese
de equiprobabilidade.
Sejam:
E1 = “a carta retirada é 1 ou 4”;
E2 = “a carta retirada é 1 ou 3”;
E3 = “a carta retirada é 1 ou 2”.
1 1 1 1
Observe-se que P (E1 ) = P (E2 ) = P (E3 ) = e P (E1 ∩ E2 ) = = × = P (E1 ) · P (E2 ). Logo, E1 e E2
2 4 2 2
são independentes.
Analogamente, pode mostrar-se que E1 e E3 são independentes, assim como E2 e E3 . No entanto, os três
acontecimentos não são independentes, pois
1
P (E1 ∩ E2 ∩ E3 ) =
4
e
1 1 1 1
P (E1 ) · P (E2 ) · P (E3 ) = × × = .
2 2 2 8
Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1 , A2 , . . . , An acontecimentos mutuamente ex-
clusivos (Ai ∩ Aj = ∅, para i 6= j) e exaustivos (∪ni=1 Ai = Ω). Se P (Ai ) > 0, para i = 1, . . . , n, então, para
qualquer acontecimento B,
P (B) = P (B|A1 ) · P (A1 ) + P (B|A2 ) · P (A2 ) + · · · + P (B|An ) · P (An )

Xn
= P (B|Ai ) · P (Ai ).
i=1
Observação 1.5 Quando os acontecimentos são mutuamente exclusivos e exaustivos é vulgar utilizar o termo
partição (de Ω) para os designar. Observe o diagrama seguinte:
Observe ainda que B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ . . . ∪ (B ∩ An ).
6
Corolário 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Então, para qualquer acontecimento B,
P (B) = P (B|A) · P (A) + P (B|A) · P (A).
Teorema 1.7 (Teorema de Bayes) Sejam A1 , A2 , . . . , An acontecimentos mutuamente exclusivos e exausti-

vos. Se P (Ai ) > 0, para i = 1, . . . , n, e B é um acontecimento tal que P (B) > 0, então
P (B|Aj ) · P (Aj )
P (Aj |B) = n , i = 1, 2, . . . , n.
X
P (B|Ai ) · P (Ai )
i=1
Esta fórmula é conhecida por fórmula de Bayes ou fórmula das probabilidades à posteriori.
7
8
Capı́tulo 2
Variáveis Aleatórias Reais.

Distribuições de Probabilidade
2.1 Definição de Variável Aleatória

É sabido que numa experiência aleatória o espaço de resultados, Ω, pode ter ou não carácter quantitativo. Por
exemplo, no lançamento de uma moeda o espaço de resultados que lhe está associado tem carácter qualitativo,
mas se no lançamento de três moedas estivermos interessados no número de faces, o espaço de resultados que
lhe está associado já tem carácter quantitativo.
A aplicação de procedimentos estatı́sticos passa, correntemente, pela atribuição de um número real a cada
elemento ω ∈ Ω. Essa atribuição pode ser até puramente convencional. No entanto, esta atribuição terá que ser
feita com cuidado por forma a podermos calcular a probabilidade de ocorrência de valores em intervalos reais.
Daı́ a definição seguinte.
Definição 2.1 Seja Ω um espaço de resultados associado a uma dada experiência aleatória. Chama-se variável
aleatória (abreviadamente, v.a.) a uma função X : Ω −→ R tal que Ar = {ω ∈ Ω : X(ω) ≤ r}, com r ∈ R,
seja um acontecimento.
Notação 2.1 É usual representarem-se as variáveis aleatórias pelas últimas letras maiúsculas: X, Y , Z, W ,
X1 , X2 , . . . , Y1 , . . . .
O restrição imposta à função X tem como objectivo que o seu contradomı́nio seja um novo espaço de resul-
tados em que a cada um dos seus elementos associa-se uma probabilidade, calculável a partir das probabilidades
de ocorrência dos resultados iniciais.
As vantagens da utilização de variáveis aleatórias torna-se evidente em muitos casos que nos irão surgindo.
Uma dessas vantagens surge em inúmeros casos onde não interessa apreciar os elementos de Ω com todos os
pormenores de que se revestem, mas sim focarmos a nossa atenção na caracterı́stica numérica em estudo. Os
exemplos seguintes ilustram este ponto de vista.
Exemplos 2.1
1. O espaço de resultados associado ao lançamento de uma moeda três vezes pode ser definido por
Ω = {F F F, F F C, F CF, F CC, CCC, CCF, CF F, CF C}.
Considere-se a seguinte variável aleatória:

X = número de faces.
Esta variável aleatória tem como contradomı́nio Ω0 = {0, 1, 2, 3} e, admitindo-se a hipótese de equiprobabili-
dade,
9
1
P (X = 0) = P ({CCC}) =
8
3
P (X = 1) = P ({F CC, CCF, CF C}) =
8
3
P (X = 2) = P ({F F C, F CF, CF F }) =
8
1
P (X = 3) = P ({F F F }) =
8
A partir dos cálculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a
probabilidade de ocorrer pelo menos duas faces:
1
P (X ≥ 2) = P (X = 2) + P (X = 3) = .
2
Ou ainda, a probabilidade de ocorrer menos de 3 faces:
7
P (X < 3) = 1 − P (X = 3) = .
8
2. Considere-se uma população de empresas das quais se escolhe uma ao acaso. O espaço de resultados é
Ω = {ω1 , ω2 , . . . , ωn }, onde n é o número total de empresas na população. Consoante os objectivos do
estudo, diversas variáveis aleatórias podem ser definidas. Eis alguns exemplos:
X1 = número de empregados de uma empresa;

X2 = capital social de uma empresa;
X3 = volume anual de vendas de uma empresa.
Proposição 2.1 Sejam Ω um espaço de resultados, X : Ω −→ R e Y : Ω −→ R duas variáveis aleatórias, e

c ∈ R. Então,
i) X + Y é uma variável aleatória;
ii) c · X é uma variável aleatória;
iii) X · Y é uma variável aleatória.
Definição 2.2 Seja X uma v.a.. Chama-se à função FX (ou F) função de distribuição (cumulativa) (f.d.)
de X, se FX : R −→ [0, 1] tal que
FX (x) = P (X ≤ x),
para todo x ∈ R.
A f.d., F (x), de uma v.a. X goza das seguintes propriedades:
Teorema 2.2
1. 0 ≤ F (x) ≤ 1;
2. F (x) é não decrescente;
3. F (−∞) = lim F (x) = 0; F (+∞) = lim F (x) = 1;
x→−∞ x→+∞
4. Para valores x1 e x2 quaisquer, finitos, com x2 > x1 , tem-se P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 );
5. F (x) é contı́nua à direita, isto é, lim+ F (x) = F (a);
x→a
−
6. P (X = a) = F (a) − F (a ) = F (a) − lim F (x).
x→a−
Definição 2.3 Sejam X uma v.a. e D = {a : P (X = a) > 0} um conjunto, quando muito numerável, dos
pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se não
discreta quando P (X ∈ D) < 1.
10
Quando X é uma v.a. discreta existe um conjunto finito ou infinito numerável, D = {a1 , a2 , . . .}, tal que,
X
P (X ∈ D) = P (X = ai ) = 1,
i
P (X = ai ) > 0, i = 1, 2, . . . .
Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termos

de uma soma ou série de parcelas do tipo P (X = ai ), com ai ∈ D. De facto, com E ⊂ R,
P (X ∈ E) = P (X ∈ E ∩ D) + P (X ∈ E ∩ D);
como E ∩ D ⊂ D e P (X ∈ D) = 0, vem,
X
P (X ∈ E) = P (X = ai ).
ai ∈E∩D
Esta propriedade torna útil a seguinte definição:
Definição 2.4 Seja X uma v.a. discreta. Chama-se função de probabilidade (f.p.) de X à função fX (ou
f ) definida por:
½
P (X = x) se x ∈ D
fX (x) =
0 se x ∈ D
Definição 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se contı́nua se
D = {a : P (X = a) > 0} = ∅
e existe uma função não negativa, fX (x) ≥ 0 (ou f ), tal que

Z x
FX (x) = fX (u) du.
−∞
A esta função fX (x) chama-se função de densidade de probabilidade, (f.d.p.), ou simplesmente função
de densidade.
Observações 2.1
1. Mostra-se que, se D = {a : P (X = a) > 0} = ∅, então F (x) não apresenta descontinuidades.
2. Atendendo às definições anteriores e aos axiomas das probabilidades mostra-se que toda a função de
probabilidade (resp. densidade) satisfaz as condições:
i) f (x) ≥ 0, ∀x ∈ R.
P R +∞
ii) i f (xi ) = 1 (resp. −∞ f (u) du = 1).
P
3. Se X é uma v.a. discreta, então FX (x) = {i: xi ≤x} fX (xi ).
0
4. Se X é uma v.a. contı́nua, então FX (x) = fX (x), excepto num conjunto finito ou infinito numerável de
pontos x de probabilidade nula.
Exemplos 2.2
1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A função de probabilidade desta v.a. é definida
por:
x 0 1 2 3
1 3 3 1
f (x)
8 8 8 8
11
E graficamente,
A sua função de distribuição é definida por:

 0 se x < 0

 1

 se 0 ≤ x < 1

 8 1
F (x) = 2 se 1 ≤ x < 2 ,

 7
se 2 ≤ x < 3

 8


 1 se x ≥ 3
ou, em forma de tabela,
x x<0 0≤x<1 1≤x<2 2≤x<3 x≥3
1 1 7
F (x) 0 1
8 2 8
E, graficamente,
Nota: O gráfico da função de distribuição de uma variável discreta é sempre em escada.

2. Seja Y uma v.a. cuja função de distribuição é definida por


 0 se y < 0



 y
F (y) = se 0 ≤ y < 3 .

 3




1 se y ≥ 3
Então, a sua função de densidade pode ser definida por


 1
 se 0 ≤ y ≤ 3
f (y) = 3 .


0 se y < 0 ∨ y > 3
E os seus gráficos:
Nota: O valor da probabilidade num intervalo corresponde a uma área entre o eixo das abcissas e o gráfico
de f , no intervalo considerado.
Definição 2.6 Uma v.a. discreta X diz-se constante se existe a ∈ R tal que P (X = a) = 1.
12
2.2 Medidas de Localização e Dispersão. Momentos
2.2.1 Medidas de Localização
Definição 2.7 Denomina-se média, esperança matemática ou valor esperado de uma v.a. X ao número,
caso exista, µX ou E(X) definido por:
P
i) E(X) = i xi f (xi ), se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}.
R +∞
ii) E(X) = −∞ xf (x) dx, se X é contı́nua.
Exemplos 2.3
1. Considerando novamente o exemplo 1 dos Exemplos 2.1,

1 3 3 1 3
E(X) = 0 × +1× +2× +3× = .
8 8 8 8 2
2. Se 
 1
 se 0 ≤ y ≤ 3
f (y) = 3


0 se y < 0 ∨ y > 3
é a função de densidade de probabilidade de uma v.a. Y , então
Z +∞ Z 0 Z 3 Z +∞
y 3
E(Y ) = yf (y) dy = y × 0 dy + dy + y × 0 dy = .
−∞ −∞ 0 3 3 2
Definição 2.8 Seja X uma v.a. e φ(X) uma função de X.

P
1. E(φ(X)) = i φ(xi )fX (xi ), se X é discreta;
R +∞
2. E(φ(X)) = −∞ φ(x)fX (x) dx, se X é contı́nua.
Proposições 2.3 Sejam X e Y duas variáveis aleatórias, φ(X) uma função de X, e a e b constantes reais.
1. E(a) = a;
2. E(a φ(X)) = a E(φ(X));
3. E(a X + b Y ) = a E(X) + b E(Y ).
Outras medidas de localização de uma v.a., alternativas à média, são a mediana (ηX ) e a moda (mX ).
Definição 2.9 Seja X uma variável aleatória. A mediana de X é o valor de x que satisfaz as desigualdades,
1 1
P (X ≤ x) ≥ e P (X ≥ x) ≥ ,
2 2
e representa-se por ηX ou, simplesmente, η. Em termos da função de distribuição, a dupla desigualdade é
equivalente a
1 1
≤ F (x) ≤ + P (X = x).
2 2
13
Se X é contı́nua, a mediana é o valor x que satisfaz,
Z x
1
F (x) = f (u) du = .
−∞ 2
Se existir mais do que um valor que sirva para mediana, então toma-se para mediana
xmin + xmax
η= ,
2
onde xmin e xmax representam, respectivamente, o mı́nimo e o máximo do conjunto de soluções.
Podemos, a partir da ideia de mediana, definir parâmetros usando outros valores de probabilidade.
Definição 2.10 Dado qualquer número p, 0 < p < 1, define-se p-ésimo quantil de uma v.a. ou de uma
distribuição como o valor x que satisfaz as desigualdades,
P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1 − p,
isto é,
p ≤ F (x) ≤ p + P (X = x).
Se a v.a. é do tipo contı́nua, o quantil de ordem p é o número x que satisfaz a equação,
Z x
F (x) = p ou f (u) du = p.
−∞
O quantil de ordem p será representado por ζp .
Em particular, com p = s/4, s = 1, 2, 3, obtém-se os quartis, sendo o quartil de ordem 2 a mediana; com
p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obtém-se os percentis.
Definição 2.11 Chama-se moda de uma v.a. X, mX , a um valor da variável (caso exista) do seu contra-
domı́nio para o qual fX (função de probabilidade ou função de densidade de probabilidade de X) toma um valor
máximo.
Exemplos 2.4
1. No contexto do exemplo 1. dos Exemplos 2.1,

1+2 3
ηX = =
2 2
e tem duas modas (bimodal), m1 = 1 e m2 = 2.
Nota: No caso de variáveis aleatórias discretas, existe alguma bibliografia que considera para moda o ponto
médio dos valores adjacentes da variável que maximizam a função de probabilidade.
2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor do
intervalo [0, 3] é uma moda.
2.2.2 Medidas de Dispersão

Definição 2.12
1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, chama-se desvio absoluto médio à medida de
dispersão definida por X
δX = |xi − µX | · fX (xi ).
i
2. Se X é uma v.a. contı́nua, o desvio absoluto médio define-se por

Z +∞
δX = |x − µX | · fX (x) dx.
−∞
14
Outra quantidade de grande importância, que permite definir outra medida de dispersão, é a variância de
uma variável aleatória.
Definição 2.13
2
1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, a variância de X, σX ou Var(X), define-se por
X
Var(X) = (xi − µX )2 · fX (xi ).
i
2. Se X é uma v.a. contı́nua, a variância define-se por

Z +∞
Var(X) = (x − µX )2 · fX (x) dx.
−∞
£ ¤
Observação 2.2 É evidente que Var(X) = E (X − µX )2 .
Proposições 2.4 Se X é uma v.a., então

2
1. Var(X) = E(X 2 ) − [E(X)] (fórmula de Köenigs).
2. Var(aX) = a2 Var(X), com a uma constante real.
P R +∞
Observação 2.3 E(X 2 ) = i x2i fX (xi ), se X é uma v.a. discreta, ou E(X 2 ) = −∞
x2 fX (x) dx, se X é uma
v.a. contı́nua.
À custa da variância define-se outra medida de dispersão.
Definição 2.14 Chama-se desvio padrão de uma v.a. X à medida de dispersão definida por
p
σ = Var(X).
2.2.3 Variáveis Estandardizadas

Definição 2.15 Seja X uma v.a. com média µ e desvio padrão σ. A v.a.
X −µ
Z=
σ
diz-se normalizada ou estandardizada.
X −µ
Proposição 2.5 A v.a. Z = tem média 0 e desvio padrão 1.
σ
A estandardização de uma v.a. permite uma mudança de escala e observe-se que uma v.a. estandardizada
não tem unidades. Desta forma, é possı́vel comparar as distribuições de variáveis aleatórias distintas.
2.2.4 Momentos
O valor esperado e a variância pertencem a uma famı́lia de parâmetros que se designam por momentos. Enquanto
o valor esperado pertence à subfamı́lia dos momentos ordinários (ou momentos na origem), a variância
pertence à subfamı́lia dos momentos centrados. Vejamos como se definem.
Definição 2.16 Chama-se momento ordinário de ordem k ao parâmetro

X
µ0k = xki · fX (xi ),
i
se X é uma v.a. discreta, ou Z +∞

µ0k = xk · fX (x) dx,
−∞
se X é uma v.a. contı́nua.
Observação 2.4 É evidente que o valor esperado é o momento ordinário de primeira ordem (µ01 = µ).
15
Definição 2.17 Chama-se momento centrado (na média) de ordem k ao parâmetro
X
µk = (xi − µX )k · fX (xi ),
i
se X é uma v.a. discreta, ou Z +∞

µk = (x − µX )k · fX (x) dx,
−∞
se X é uma v.a. contı́nua.
Observação 2.5 Repare-se que a variância é o momento centrado de segunda ordem (µ2 = σ 2 ).
Existem expressões que relacionam os momentos ordinários com os momentos centrados. De facto, qualquer
momento centrado de ordem k pode exprimir-se em função dos momentos ordinários de ordem não superior a
k e vice-versa:
k
X k
X
µk = (−1)ikCi (µ01 )i µ0k−1 e µ0k = k
Ci (µ01 )i µk−i .
i=0 i=0
Observe-se que, na primeira expressão fazendo-se k = 2, obtém-se a fórmula de Köenigs.
Além dos momentos já definidos, existem outros momentos centrados (centrados em outro parâmetros) e
ainda os momentos absolutos ordinários ou centrados. O desvio absoluto médio é o momento absoluto centrado
(na média) de primeira ordem.
Todos os parâmetros definidos (caso existam) caracterizam uma distribuição. Para que duas distribuições
sejam iguais é necessário que tenham a mesma sequência de momentos. No entanto, esta condição não é
suficiente, pois uma sequência de momentos não determina univocamente uma distribuição. Para que tal suceda,
é necessário garantir a existência de uma função que é designada por função geradora de momentos. Este
assunto será abordado na subsecção seguinte.
Na prática, raramente são calculados momentos de ordem superior a 4, pois tais momentos são de difı́cil
caracterização. No entanto, a igualdade de momentos não superiores a 4 é suficiente para que duas distribuições
sejam aproximadamente iguais. Vejamos algumas utilizações destes momentos.
Uma v.a. X é simétrica ou possui uma distribuição simétrica, se existe um número a tal que, para todo o
x, P (X < a − x) = P (X > a + x), isto é,
F (a − x) − P (X = a − x) = 1 − F (a + x).
O ponto a é chamado centro de simetria. Se a v.a. é do tipo contı́nuo, deduz-se da igualdade anterior que a sua
f.d.p., nos pontos onde é contı́nua, satisfaz a equação,
f (a − x) = f (a + x).
Se a v.a. é do tipo discreto, os pontos de salto e as correspondentes probabilidades dispõem-se simetricamente
em relação a a.
Quando uma distribuição é simétrica é fácil concluir que os momentos centrados na média de ordem ı́mpar
são nulos. Assim, desejando-se caracterizar a assimetria por meio de um parâmetro, parece natural a utilização
de um desses momentos, preferivelmente o de ordem 3, µ3 . Como este momento é de terceira ordem em termos
da unidade original, leva a que se utilize para medida de assimetria o parâmetro
µ3
γ1 = 3
σ
ou
µ2
β1 = 33 = γ12 .
µ2
Quando a assimetria é positiva (ramo esquerdo mais abrupto) são os desvios positivos que predominam no
cálculo de µ3 , que, por esse facto, leva a que γ1 > 0. A assimetria negativa caracteriza-se por γ1 < 0.
Outra função de momentos com algum interesse é,
µ4
β2 = 2 ,
µ2
que é usado para medir o excesso de Kurtosis da distribuição, conceito associado com o achatamento da f.d.p.
ou f.p. na zona central da distribuição. Costuma usar-se como meio de comparação a distribuição Normal
estandardizada (que estudaremos no capı́tulo seguinte). Nesta distribuição µ4 = 3 e µ2 = 1. Assim, em vez de
β2 , usa-se por vezes,
γ2 = β2 − 3.
16
2.2.5 Desigualdades Importantes para Momentos
Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma função de uma v.a. X. Se existir E[ϕ(X)], então,
para qualquer número real c > 0,
1
P (ϕ(X) ≥ c) ≤ E[ϕ(X)].
c
Corolário 2.7 Se X é uma v.a. não negativa e se existir E(X), então, para qualquer número real c > 0,
E(X)
P (X ≥ c) ≤ .
c
Corolário 2.8 Se X é uma v.a. e se existir E(X), então, para qualquer número real c > 0,
E(|X|)
P (|X| ≥ c) ≤ .
c
Corolário 2.9 Se X é uma v.a. e se existir E(|X|r ), para qualquer número real r > 0, então, para qualquer
número real c > 0,
E(|X|r )
P (|X| ≥ c) ≤ .
cr
Corolário 2.10 Se X é uma v.a. com média µ e variância σ 2 , finita, então, para qualquer número real t > 0,
1
P (|X − µ| ≥ tσ) ≤ .
t2
A desigualdade do corolário anterior, que, aliás como todas as outras, também se pode apresentar na forma
1
P (|X − µ| < tσ) ≥ 1 −
t2
é a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplicações.
Pois, observe-se que, para qualquer v.a. X, conhecidas a média e variância, a quantidade de probabilidade no
intervalo ]µ − tσ, µ + tσ[ nunca é inferior a 1 − 1/t2 , ou, o que é o mesmo, a quantidade de probabilidade fora
desse intervalo nunca é superior a 1/t2 . Esta desigualdade reforça a ideia da utilização de µ como medida de
localização e σ como medida de dispersão, permitindo empregar-se quando não se conhece a distribuição da
variável aleatória. Evidentemente, se a distribuição da variável for conhecida, a desigualdade passa a ter menos
interesse uma vez que pode calcular-se o valor exacto (ou pelo menos tão aproximado quanto se queira) de
P (|X − µ| < tσ). No entanto, neste caso a sua utilização pode permitir fazer um cálculo mais rápido.
2.2.6 Função Geradora de Momentos

No intuito de caracterizar uma distribuição é possı́vel, em muitos casos, obter uma função que permite gerar
todos os momentos em relação à origem.
Definição 2.18 Define-se função geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo o
valor esperado de eXt , caso exista, e representa-se por
¡ ¢
GX (t) = E eXt .
Diz-se que a função geradora de momentos existe se existir uma constante positiva, a, para a qual GX (t)
seja finita para |t| < a. Observe-se, a partir da definição, que GX (0) = 1; a existência numa vizinhança de t = 0
depende da distribuição de X.
Teorema 2.11 Se a f.g.m. é definida para |t| < a, com a > 0, então
G (k) (0) = µ0k , k = 1, 2, 3, . . . .
Consequentemente, se G(t) existe numa vizinhança de 0, G(t) pode desenvolver-se, de uma única forma, em
série de MacLaurin,
G 00 (0)t2
G(t) = 1 + G 0 (0) + + ···
2!
+∞
X ¡ ¢ tk
= E Xk
k!
k=0
+∞
X tk
= µ0k
k!
k=0
17
Como é evidente, os momentos centrados de X são gerados pela f.g.m. da distribuição da v.a. X − µ:
³ ´
GX−µ (t) = E et(X−µ) = e−µt GX (t),
ou, equivalentemente,
GX (t) = eµt GX−µ (t).
Para a v.a. estandardizada U = (X − µ)/σ, tem-se
¡ ¢ ³ ´
GU (t) = E etU = E et(X−µ)/σ = e−µt/σ GX (t/σ),
ou
GX (t) = eµt GU (σt).
O teorema 2.11 não é a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificar
as distribuições para as quais existem:
Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, é única.
Exemplos 2.5
1. Considere-se a v.a. X cuja f.p. é definida por
½
p(1 − p)x−1 se x = 1, 2, . . .
f (x) =
0 o.v. de x
onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..
Resolução:
+∞
X
¡ ¢
GX (t) = E eXt = p(1 − p)x−1 ext
x=1
+∞
X
= p et (1 − p)x−1 e(x−1)t
x=1
+∞
X £ ¤x−1
= p et (1 − p)et
x=1
t 1
= pe
1 − (1 − p)et
desde que (1 − p)et < 1, isto é, quando t < − ln(1 − p).
Assim, resulta que
0 pet
GX (t) = 2
(1 − (1 − p)et )
e
0 1
E(X) = GX (0) = .
p
Para o cálculo da derivada de segunda ordem, observe-se primeiro que
0 GX (t)
GX (t) = .
1 − (1 − p)et
Logo,
0
00 GX (t) [1 − (1 − p)et ] + (1 − p)et GX (t)
GX (t) = 2
[1 − (1 − p)et ]
e
¡ ¢ 2−p
E X 2 = GX
00
(0) = .
p2
Consequentemente,
2−p 1 1−p
V ar(X) = − 2 = .
p2 p p2
18
2. Considere-se agora a v.a. Y com f.d.p. dada por:
½ −2y
2e se y ≥ 0
g(y) =
0 se y < 0
Pretende-se determinar E(Y ) a partir da f.g.m. de Y .
Resolução:
Z +∞
¡ ¢
GY (t) = E eY t = ety · 2e−2y dy
0
· ¸z
1 (t−2)y
= lim 2 · e
z→+∞ t−2 y=0
· ¸
2 (t−2)z
= lim e −1
t − 2 z→+∞
2
= (0 − 1)
t−2
2
=
2−t
sempre que t < 2. Logo, ¯

2 ¯ 1
E(X) = GY0 (t)|t=0 = ¯ = .
(2 − t)2 ¯t=0 2
2.3 Vectores Aleatórios

Quando se pretende estudar inúmeras situações, no estudo probabilı́stico ou estatı́stico, envolvendo n propri-
edades ou caracterı́sticas quantitativas dos elementos ω do espaço de resultados Ω, faz-se corresponder a cada
um desses elementos um ponto (x1 , x2 , . . . , xk ) ∈ Rn . Isto é,
ω −→ (X1 (ω), X2 (ω), . . . , Xn (ω)) .
Assim, por meio de uma aplicação Ω → Rn substitui-se o espaço de resultados pelo conjunto Rn .
Definição 2.19 Se para cada ponto (x1 , x2 , . . . , xn ) ∈ Rn , o conjunto de Ω,
{ω : X1 (ω) ≤ x1 , X2 (ω) ≤ x2 , . . . , Xn (ω) ≤ xn }
é um acontecimento, diz-se que

X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω)) ,
ou, simplesmente,
X = (X1 , X2 , . . . , Xn ) ,
é um vector aleatório ou uma variável aleatória n-dimensional.
Os conceitos abordados para uma variável aleatória (f.d., v.a. discretas, v.a. contı́nuas, f.p., f.d.p, etc...)
podem generalizar-se para uma variável aleatória n-dimensional. No entanto, grande parte de tal generalização
será feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatório (X, Y ), a
probabilidade de obter um ponto na região do plano R2 pelas desigualdades, X ≤ x, Y ≤ y,
P (X ≤ x, Y ≤ y) = P {ω : X(ω) ≤ x, Y (ω) ≤ y}
existe sempre, por definição e podemos introduzir a seguinte
Definição 2.20 Chama-se função de distribuição da v.a. bidimensional (X, Y ) ou função de distri-
buição conjunta das v.a. X e Y a
F (x, y) = P (X ≤ x, Y ≤ y).
Teorema 2.13 Se F (x, y) é f.d. das v.a. X e Y e [x1 , x2 ] × [y1 , y2 ] é um intervalo de R2 , então
P (x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 ) = F (x2 , y2 ) + F (x1 , y1 ) − F (x1 , y2 ) − F (x2 , y1 )
19
Teorema 2.14 Para qualquer f.d. F (x, y),
F (−∞, y) = F (x, −∞) = 0 e F (+∞, +∞) = 1.
Teorema 2.15 Toda a f.d. F (x, y) é não decrescente em relação a cada variável.
Teorema 2.16 Toda a f.d. F (X, Y ) é contı́nua à direita em relação a cada variável,
F (x+ , y) = F (x, y) = F (x, y + ).
Quando se trabalha com a distribuição conjunta das v.a. X e Y , pode interessar o cálculo da probabilidade
de se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse cálculo,
P (X ≤ x) = P (X ≤ x, Y ≤ +∞) = lim F (x, y) = F (x, +∞),

y→+∞
conduz à definição de F1 (x) = F (x, +∞), distribuição marginal da v.a. X.

Analogamente,
P (Y ≤ y) = P (X ≤ +∞, Y ≤ y) = lim F (x, y) = F (+∞, y),
x→+∞
define a distribuição marginal da v.a. Y , F2 (y)

Se os acontecimentos, X ≤ x e Y ≤ y, são independentes, então resulta
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),
as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta é o produto das distribuições marginais,
F (x, y) = F1 (x)F2 (y),
para todo o ponto (x, y) ∈ R2 . Pode mostrar-se que esta condição é necessária e suficiente para que se tenha
P (X ∈ E1 , Y ∈ E2 ) = P (X ∈ E1 )P (Y ∈ E2 ),
para quaisquer acontecimentos E1 e E2 definidos, respectivamente, no eixo dos xx e no eixo dos yy.
Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas funções U = φ(X) e V = ψ(Y ).
Então, as v.a. U e V são independentes.
Teorema 2.18 Se X e Y são variáveis aleatórias independentes e possuem valor esperado, então
E(X · Y ) = E(X) · E(Y ).
O conceito de independência generaliza-se facilmente a um número finito (ou numerável) de v.a. X1 , X2 , . . . , Xn .
Definição 2.21 As variáveis aleatórias X1 , X2 , . . . , Xn dizem-se independentes se para n números reais ar-
bitrários, x1 , x2 , . . . , xn ,
F (x1 , x2 . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
= P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn )
= F1 (x1 )F2 (x2 ) · · · Fn (xn ),
onde F é a função de distribuição conjunta das v.a. X1 , X2 , . . . , Xn e F1 , F2 , . . . , Fn as respectivas funções de

distribuição marginais.
Vectores Aleatórios Discretos

Definição 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto finito ou numerável
D = {(xi , yj ) : P (X = xi , Y = yj ) > 0} ,
se tem,
P [(X, Y ) ∈ D] = 1.
20
Agora, também podemos definir a função de probabilidade de (X, Y ),
½
> 0 se (x, y) ∈ D
f (x, y) = P (X = x, Y = y) ,
= 0 se (x, y) ∈ D
e tem as seguintes propriedades:
1. f (x, y) ≥ 0, ∀(x, y) ∈ R2 ;
X
2. f (xi , yj ) = 1;
(xi ,yj )∈D
X
3. P [(X, Y ) ∈ E] = f (xi , yj );
(xi ,yj )∈E∩D
X
4. F (x, y) = P (X ≤ x, Y ≤ y) = f (xi , yj ).
xi ≤x
yj ≤y
As f.p. marginais são definidas, com
D = {(xi , yj ) : i, j = 1, 2, . . .} ,
por, X
f1 (xi ) = P (X = xi ) = f (xi , yj ), i = 1, 2, . . .
j
X
f2 (yj ) = P (Y = yj ) = f (xi , yj ), j = 1, 2, . . .
i
sendo, evidentemente, f1 (x) = 0, se (x, yj ) 6∈ D, e f2 (y) = 0, se (xi , y) 6∈ D.

As v.a. X e Y são independentes quando discretas se, e somente se,
f (xi , yj ) = f1 (xi )f2 (yj ),
para todo o ponto (xi , yj ) ∈ D.
Vectores Aleatórios Contı́nuos

Definição 2.23 Uma v.a. bidimensional, (X, Y ), é do tipo contı́nuo se existir uma função não negativa, f (x, y),
tal que Z Z x y
F (x, y) = f (u, v) dudv,
−∞ −∞
para todo (x, y) ∈ R2 , onde F (x, y) é a função de distribuição de (X, Y ). A função f (x, y) diz-se função de
densidade de probabilidade de (X, Y ) ou função de densidade de probabilidade conjunta das v.a. X
e Y e satisfaz a igualdade,
Z +∞ Z +∞
f (x, y) dxdy = 1.
−∞ −∞
Se a f.d.p. f (x, y) for contı́nua no ponto (x, y) tem-se
∂ 2 F (x, y)
f (x, y) = .
∂x∂y
Por definição de f.d. marginal da v.a. X tem-se,

Z x Z +∞
F1 (x) = F (x, +∞) = f (u, v) dudv;
−∞ −∞
assim,
Z +∞
f1 (x) = F10 (x) = f (x, y) dy
−∞
21
é a função de densidade marginal de X. Analogamente,
Z +∞
0
f2 (y) = F2 (y) = f (x, y) dx,
−∞
é a função de densidade marginal de Y .

A generalização destes conceitos para uma v.a. n-dimensional é imediata.
Seja (X, Y ) uma v.a. bidimensional. O valor esperado

µ0rs = E(X r Y s ),
se existir, define um momento de ordem r + s em relação à origem.
Assim, existindo os momentos de ordem 1, tem-se
µ010 = E(X) e µ001 = E(Y ),
sendo os centros de gravidade das distribuições marginais de X e Y , respectivamente.
Existindo os momento de ordem 2, temos
µ020 = E(X 2 ), µ011 = E(XY ), µ002 = E(Y 2 ).
Para os momentos centrados, o valor esperado
µrs = E [(X − µX )r (Y − µY )s ] ,
se existir, define um momento de ordem r + s em relação à média.
Para os momentos de ordem 1, tem-se µ10 = 0 = µ01 , e para os de ordem 2,
µ20 = V ar(X), µ02 = V ar(Y ), µ11 = E [(X − µX )(Y − µY )] ;
µ11 , que se representa também por Cov(X, Y ), designa-se por covariância entre X e Y . Observe-se que
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Como consequência desta expressão e do teorema 2.18 temos o seguinte
Teorema 2.19 Se as v.a. X e Y são independentes, então Cov(X, Y ) = 0.
O interesse da covariância advém da seguinte interpretação: considere-se o centro de gravidade da distribuição

conjunta de X e Y , (µX , µY ), como origem de novos eixos coordenados. Observe a figura
Tem-se, em relação ao novo sistema de eixos, que (x − µX )(y − µY ) > 0, no 1o e 3o quadrantes,

(x − µX )(y − µY ) < 0, no 2o e 4o quadrantes. Assim, se X e Y variam no mesmo sentido, existe probabi-
lidade elevada para que os valores de X acima da média estejam associados com valores de Y acima da média e
para os valores de X abaixo da média estejam associados com valores de Y abaixo da média, isto é, predominam
os pontos no 1o e 3o quadrantes e a covariância sai positiva e relativamente grande. Por outro lado, X e Y
variam em sentido contrário se existe probabilidade elevada para que os valores de X acima da média estejam
associados com valores de Y abaixo da média e para valores de X abaixo da média estejam associados com
valores de Y acima da média. Neste caso, predominam os pontos no 2o e 4o quadrantes e a covariância sai
negativa e relativamente grande em valor absoluto.
A covariância depende das unidades em que se exprimem as v.a. X e Y . Ora, é desejável introduzir um
parâmetro que caracterize a associação entre as variáveis X e Y sem depender dessas unidades.
22
Definição 2.24 Chama-se coeficiente de correlação entre X e Y ao parâmetro
Cov(X, Y ) Cov(X, Y )
ρ= p = ,
V ar(X)V arY σX σY
ou
µ11
ρ= √ .
µ20 µ02
Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y são v.a. conjuntamente distribuı́das com mo-
mentos de ordem 2 finitos, então
h i2 ¡ ¢ ¡ ¢
E(XY ) ≤ E X 2 E Y 2 ,
verificando-se a igualdade se, e somente se, para alguma constante t0 ,
P (t0 X = Y ) = 1.
Teorema 2.21 O valor absoluto do coeficiente de correlação nunca exceda a unidade,
|ρ| ≤ 1;
além disso, ρ = ±1 quando e só quando, com probabilidade um,

(Y − µY ) (X − µX )
=± .
σY σX
Resumindo, se as v.a. X e Y são independentes, ρ = 0; se X e Y são linearmente independentes (com
probabilidade um), ρ = ±1; nos outros casos, os valores mais ou menos elevados de |ρ| traduzem o menor
ou maior afastamento entre duas rectas que delimitam a região do plano onde se concentram com elevada
probabilidade os valores de (X, Y ). Voltaremos a este assunto no último capı́tulo destes apontamentos.
Teorema 2.22 Se as v.a. X e Y possuem segundos momentos finitos, então
V ar(X ± Y ) = V ar(X) ± 2Cov(X, Y ) + V ar(Y ).
Corolário 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariância nula, então
V ar(X ± Y ) = V ar(X) + V ar(Y ).
Distribuições Condicionados
O conceito de distribuição condicionada é baseado no de probabilidade condicionada. Vamos somente estudar
o caso bidimensional e de uma forma abreviada.
No caso discreto, a probabilidade do acontecimento X = xi , condicionada pela realização do acontecimento
Y = yj , com P (Y = yj ) > 0, define-se por
P (X = xi , Y = yj )
P (X = xi |Y = yj ) = ,
P (Y = yj )
onde yj é um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yj condicionada
por X = xi . As notações utilizadas para estas funções de probabilidade são, no primeiro caso,
f (xi , yj )
f (xi |yj ) = ,
f2 (yj )
com yj fixo e i = 1, 2, . . .; no segundo caso
f (xi , yj )
f (yj |xi ) = ,
f1 (xi )
com xi fixo e j = 1, 2 . . ..
No caso contı́nuo, a função de distribuição de Y condicionada por X = x, simbolicamente, F (y|x) ou
Fy|x (y|x) é dada por
Ry Ry
−∞
f (x, v) dv f (x, v) dv
F (y|x) = R +∞ = −∞ .
f (x, v) dv f1 (x)
−∞
23
Derivando em ordem a y obtém-se a correspondente função de densidade de Y condicionada por X = x,
f (x, y)
f (y|x) = .
f1 (x)
Analogamente, define-se função de densidade de X condicionada por Y = y,
f (x, y)
f (x|y) = .
f2 (y)
Vejamos agora o que se passa com os valores esperados destas distribuições condicionadas.
Definição 2.25 Considere-se a v.a. φ(X, Y ) função das v.a. X e Y . O valor esperado de φ(X, Y ) condicionado
por X = x, em sı́mbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] é definido, consoante se trate do
caso discreto ou contı́nuo, por X
E[φ(X, Y )|xi ] = φ(xi , yj )f (yj |xi ),
j
ou, por, Z +∞
E[φ(X, Y )|x] = φ(x, y)f (y|x).
−∞
Define-se E[φ(X, Y )|y] de modo análogo.
Em particular, consoante se trate do caso discreto ou contı́nuo,

X
E(Y |xi ) = yj f (yj |xi )
j
ou Z +∞
E(Y |x) = yf (y|x) dy,
−∞
representa a média de Y condicionada por X = x, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (y|x). Fisicamente, E(Y |x) é o centro de gravidade da distribuição de probabilidade sobre a recta X = x.
Observe-se que E(Y |X) é uma v.a. função da v.a. X, que assume o valor E(Y |x) quando X assume o valor x.
Do mesmo modo, consoante se trate do caso discreto ou contı́nuo,
X
E(X|yj ) = xi f (xi |yj )
i
ou Z +∞
E(X|y) = xf (x|y) dx,
−∞
representa a média de X condicionada por Y = y, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (x|y) e E(X|Y ) é uma v.a. função da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.
Proposições 2.24 Existindo os valores esperados respectivos,

1. E(c|X) = c, onde c é uma constante;
2. E[mφ(Y ) + c|X] = mE[φ(Y )|X] + c;
3. E[φ1 (Y ) + φ2 (Y )|X] = E[φ1 (Y )|X] + E[φ2 (Y )|X];
4. E[φ1 (X)φ2 (Y )|X] = φ1 (X)E[φ2 (Y )|X];
5. E[φ(Y )] = E [E (φ(Y )|X)];
6. E(Y ) = E[E(Y |X)];

7. Se Y ≥ 0, E(Y |X) ≥ 0;
8. Se Y1 ≥ Y2 , E(Y1 |X) ≥ E(Y2 |X).
24
Capı́tulo 3
Distribuições Teóricas
3.1 Distribuição Uniforme Discreta em N Pontos

Definição 3.1 A v.a. X diz-se que tem uma distribuição uniforme discreta em N pontos quando a
respectiva f.p. é da forma
1
f (xi ) = P (X = xi ) = , i = 1, 2, . . . , N.
N
Proposição 3.1 Se X é uma v.a. com distribuição uniforme em N pontos, então
N
1 X txi
1. GX (t) = e ;
N i=1
N
1 X
2. E(X) = xi ;
N i=1
N
Ã N
!2
1 X 2 1 X
3. V ar(X) = x − xi
N i=1 i N i=1
N +1 N2 − 1
Observação 3.1 Em particular, se xi = i, i = 1, 2, . . . N , E(X) = e V ar(X) = .
2 12
3.2 Distribuição Binomial

A distribuição Binomial é um modelo probabilı́stico que permite o estudo de experiências aleatórias onde importa
a contagem do número de vezes que ocorre um determinado acontecimento. A utilização deste modelo requer
que as provas (experiências) sejam de Bernoulli, isto é, uma sequência de experiências aleatórias independentes
em cada umas das quais se observa a realização ou não realização de um acontecimento A com probabilidade p,
constante. A ocorrência de A constitui um sucesso e a ocorrência de A um insucesso.
No caso em que se considera uma única prova de Bernoulli, a respectiva distribuição de probabilidade é
definida da seguinte forma:
Definição 3.2 Uma v.a. X tem (segue) distribuição de Bernoulli de parâmetro p (0 ≤ p ≤ 1, fixo) se a
sua função de probabilidade é definida por
(
px (1 − p)1−x se x = 0 ∨ x = 1
fX (x) = .
0 se x ∈ R \ {0, 1}
Proposição 3.2 Se X é uma v.a. que tem distribuição de Bernoulli de parâmetro p, então
1. GX (t) = (1 − p) + p et ;
2. E(X) = p;
3. Var(X) = p(1 − p).
25
Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:
Definição 3.3 Uma v.a. X tem distribuição binomial de parâmetros N e p (com N ∈ N e 0 ≤ p ≤ 1),
abreviadamente escreve-se X ∼ B(x, N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. é tal que
(
N
Cx px (1 − p)N −x se x = 0, 1, 2, . . . , N
fX (x) = .
0 o.v.
Observações 3.2
1. É evidente que uma v.a. com distribuição binomial é uma v.a. discreta. Diz-se então que a distribuição
binomial é uma distribuição discreta.
Px
2. Se X ∼ B(N, p), então FX (x) = P (X ≤ x) = i=0 NCi pi (1 − p)N −i .
N
X
N N
3. Obviamente, Ci pi (1 − p)N −i = (p + (1 − p)) = 1.
i=0
Proposição 3.3 Se X é uma v.a. tal que X ∼ B(N, p), então

N
1. GX (t) = [(1 − p) + p et ] ;
2. E(X) = N p;
3. Var(X) = N p(1 − p).
Exemplo 3.1 Considere-se a e.a.: Lançamento de um dado e registo do número de pontos obtidos.
Qual é a probabilidade de se obter duas vezes a face 3 em 6 lançamentos do dado?
Resolução: Defina-se
X = número de vezes que ocorre a face 3, em 6 lançamentos.
Então, X ∼ B(6, p), em que p = P (A) = 16 , com A = “saı́da da face 3”. Pretende-se calcular P (X = 2):
µ ¶2 µ ¶4
1 5
P (X = 2) = 6C2 ≈ 0.2009.
6 6
r
1 1 5 5 5
Observe-se ainda que E(X) = 6 × = 1, Var(X) = 6 × × = e σX = .
6 6 6 6 6
3.3 Distribuição Geométrica

Para a distribuição binomial, o número de provas de Bernoulli era fixo. Agora, tomaremos uma sucessão infinita
de provas de Bernoulli. A probabilidade de sucesso é p, constante de prova para prova, e uma variável aleatória
com distribuição geométrica representará o número de provas de Bernoulli, independentes, de parâmetro p, até
à ocorrência do primeiro sucesso. Assim,
Definição 3.4 Uma v.a. X tem distribuição geométrica de parâmetro p, abreviadamente X ∼ Geo(p),
quando a sua f.p. for da forma
½
(1 − p)x−1 p se x = 1, 2 . . . ,
f (x) =
0 o.v. de x.
Proposição 3.4 Se X é uma v.a. tal que X ∼ Geo(p), então

1
1. GX (t) = p et ;
1 − (1 − p)et
1
2. E(X) = ;
p
1−p
3. V ar(X) = .
p2
26
Teorema 3.5 Se X é uma v.a. tal que X ∼ Geo(p), então, para quaisquer inteiros positivos s e t,
P (X > s + t|X > s) = P (X > t).
Observação 3.3 Devido ao teorema anterior, é usual dizer-se que a distribuição geométrica não tem memória,
já que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar
mais t provas é exactamente igual à probabilidade de ter de esperar mais de t provas por um sucesso a partir
no momento inicial.
3.4 Distribuição Hipergeométrica

Vimos que a distribuição binomial é o modelo teórico adequado para estudar as propriedades dos esquemas
probabilı́sticos do seguinte tipo: Considere-se um conjunto (população) finito constituı́do por M elementos de
dois tipos (digamos, A e B) nas proporções p e q = 1−p, do qual se retira ao acaso e com reposição N elementos;
qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 ≤ x ≤ N ?
Observe-se que, no esquema anterior, a extracção de um determinado elemento não depende de uma
extracção anterior, já que existe reposição desse elemento. Assim, as sucessivas provas (extracções) são inde-
pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposição (ou em bloco)
a independência deixa de existir, pois a probabilidade de ocorrência de cada um dos resultados possı́veis não se
mantém constante de prova para prova. Então, passaremos a ter um modelo probabilı́stico diferente do binomial
que se define da seguinte forma:
Definição 3.5 Uma v.a. X segue uma distribuição hipergeométrica de parâmetros M , N e p (simbolica-
mente X ∼ H(M, N, p), se a sua f.p. é definida por
 Mp
 Cx · MqCN −x
MC
se x ∈ N0 ∧ max(0, N − M q) ≤ x ≤ min(N, M p)
fX (x) = N ,

0 o.v. de x
com q = 1 − p.
Proposição 3.6 Se X é uma v.a. tal que X ∼ H(M, N, p), então
1. E(X) = N p;
M −N
2. Var(X) = N p(1 − p) .
M −1
Observe-se que os valores esperados das distribuições B(N, p) e H(M, N, p) é o mesmo e as variâncias
apenas se distinguem pelo factor (M − N )/(M − 1). Quando M é grande comparado com N , naturalmente que
se esbate a diferença entre extracções com e sem reposição. Nesta situação, (M − N )/(M − 1) é próximo da
unidade e não surpreende o seguinte resultado:
Teorema 3.7 Com N e p fixos,

Mp
Cx · MqCN −x
lim MC
= NCx px q N −x ,
M →+∞ N
isto é, a distribuição hipergeométrica H(M, N, p) aproxima-se da distribuição binomial B(N, p), para M grande.
Exemplo 3.2 De um grupo de 1000 habitantes de uma certa região há 2% que são proprietários das casas
que habitam. Se se colhe ao acaso uma amostra de 100 indivı́duos, com e sem reposição, são as seguintes as
probabilidades de obter x indivı́duos com casa própria:
100
a) com reposição: Cx (0.02)x (0.98)100−x ;
20
Cx · 980C100−x
b) sem reposição: 1000C
.
100
No quadro seguinte faz-se a comparação dos respectivos valores não se tendo ido além de x = 9, por motivos
óbvios.
27
x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02)
0 0.1326 0.1190
1 0.2707 0.2701
2 0.2734 0.2881
3 0.1823 0.1918
4 0.0902 0.0895
5 0.0353 0.0311
6 0.0114 0.0083
7 0.0031 0.0018
8 0.0007 0.0003
9 0.0002 0.0000
Quando N < M/10, a distribuição Binomial fornece já uma aproximação satisfatória da distribuição Hiper-
geométrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.
3.5 Distribuição de Poisson

A distribuição de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fenómenos
aleatórios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-
mercado) ou no espaço (por exemplo, os defeitos de isolamento registado ao longo de um cabo eléctrico ou os
defeitos de acabamento numa placa de vidro).
Uma v.a. discreta que represente o número de ocorrências de uma dado acontecimento por unidade de tempo
(ou espaço) seguirá uma distribuição de Poisson se verificar as seguintes condições:
C1. O números de ocorrência registadas em diferentes intervalos de tempo (espaço) são independentes entre si.
C2. A distribuição do número de ocorrências em cada intervalo de tempo (espaço) é a mesma para todos os
intervalos.
C3. A probabilidade de se registar uma ocorrência num intervalo qualquer de dimensão (comprimento) ∆t,
∆P1 , é praticamente proporcional à dimensão do intervalo, isto é, ∆P1 ≈ λ · ∆t.
Nestas condições, temos a definição seguinte:
Definição 3.6 Uma v.a. X tem distribuição de Poisson de parâmetro λ > 0, simbolicamente X ∼ P oisson(λ),
se a sua f.p. é definida por  −λ x
 e λ
se x ∈ N0
fX (x) = x! .

0 o.v. de x
+∞ x
X λ
Observação 3.4 Sendo eλ = , então resulta de imediato que, se X ∼ P oisson(λ),
x=0
x!
+∞
X +∞ −λ x
X +∞ x
X
e λ λ
P (X = x) = = e−λ = e−λ eλ = 1.
x=0 x=0
x! x=0
x!
Proposição 3.8 Se X é uma v.a. tal que X ∼ P oisson(λ), então
1. GX (t) = eλ(e −1)

t
;
2. E(X) = λ;
3. Var(X) = λ;
Teorema 3.9 Se as v.a. Xi , para i = 1, 2, . . . , n, são independentes e Xi ∼ P oisson(λi ), i = 1, 2, . . . , n, então

n
Ã n !
X X
X= Xi ∼ P oisson λi .
i=1 i=1
28
A distribuição de Poisson foi descoberta quando este matemático estudava formas limite da distribuição
binomial. A forma como uma distribuição binomial pode ser aproximada por uma distribuição de Poisson é
dada por:
Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Então, quando N → +∞ e p é próximo de zero,
o
X ∼ P oisson(N p)
Observação 3.5 A qualidade da aproximação depende de N , λ e x. Em geral:
1. Fixados λ e x, melhora quando N aumenta;
2. Fixados N e x, melhora quando λ se aproxima de zero;
3. Fixados N e λ, piora quando x se afasta de λ.
Convém ainda referir que, quando N → +∞ e, simultaneamente, p → 0 de forma que N p → λ, a qualidade de

aproximação piora.
Exemplo 3.3 Seja X ∼ B(1000, 0.001). Sabemos, por exemplo, que
P (X > 1) = 1 − P (X = 0) − P (X = 1)
= 1 − 1000C0 (0.001)0 × (0.999)1000 − 1000C1 (0.001)1 × (0.999)999
= 0.264241087
e aproximando pela distribuição de Poisson:

o
X ∼ P oisson(1)
e−1 10 e−1 11
P (X > 1) ≈ 1 − − = 0.2642411177
0! 1!
O erro é inferior a 3.1 × 10−8 .
Seja Y ∼ B(2000, 0.001).
P (Y > 1) = 1 − P (Y = 0) − P (Y = 1)
= 1 − 2000C0 (0.001)0 × (0.999)2000 − 2000C1 (0.001)1 × (0.999)1999
= 0.5941295533
e aproximando pela distribuição de Poisson:

o
Y ∼ P oisson(2)
e−2 20 e−2 21
P (Y > 1) ≈ 1 − − = 0.5939941503
0! 1!
O erro é inferior a 1.4 × 10−4 mas superior a 3.1 × 10−8 .
O interesse prático de aproximar uma distribuição binomial por uma de Poisson resulta de o cálculo da função
de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na última observação
e usando simulações, tal aproximação só é razoável quando N ≥ 30 e só tem interesse quando a distribuição
Binomial for assimétrica com N p < 5. De facto, veremos mais à frente que se a distribuição Binomial for
simétrica (ou quase simétrica), é mais prático aproximá-la por uma outra distribuição (a distribuição Normal).
A distribuição de Poisson na forma como foi definida serve essencialmente para interpretar fenómenos (como
os descritos anteriormente) num intervalo de tempo ou espaço de comprimento 1. Em geral, para um intervalo
[0, t], a função de probabilidade é dada por
e−λt (λt)x
P (X = x) = , x = 0, 1, 2, . . . ,
x!
isto é, X ∼ P oisson(λt).
29
Exemplo 3.4 Durante o horário de almoço (das 12h às 14h), o número médio de automóveis que chegam a
um parque de estacionamento é de 360. Qual a probabilidade de, durante um minuto, chegarem 2 automóveis?
Resolução: A taxa média de chegadas por minuto é
λ = 360/120min. = 3/min..
Admitindo-se que a v.a. X = número de automóveis que chegam ao estacionamento por minuto, é tal que
X ∼ P oisson(3), então
e−3 32
P (X = 2) = ≈ 0.2240.
2!
Se fosse em 2 minutos, tinha-se Y ∼ P oisson(6) e
e−6 62
P (Y = 2) = ≈ 0.0446.
2!
3.6 Distribuição Uniforme

Com o estudo da Distribuição Uniforme inicia-se o estudo das distribuições contı́nuas.
Definição 3.7 Uma v.a. X, do tipo contı́nuo, tem distribuição Uniforme ou Rectangular no intervalo
limitado [a, b], simbolicamente X ∼ U (a, b), quando a sua f.d.p. é da forma,

 1
se a ≤ x ≤ b
f (x) = b−a .

0 se x < a ∨ x > b
É fácil encontrar a respectiva função de distribuição. Esta é dada por



 0 se x < a
 x−a
F (x) = se a ≤ x ≤ b .

 b−a

1 se x > b
Observe os gráficos seguintes:
Proposição 3.11 Se X é uma v.a. tal que X ∼ U (a, b), então
ebt − eat
1. GX (t) =
t(b − a)
a+b
2. E(X) =
2
(b − a)2
3. Var(X) =
12
30
3.7 Distribuição Exponencial
Definição 3.8 Uma v.a. X tem distribuição Exponencial (ou Exponencial Negativa) de parâmetro
λ > 0, abreviadamente X ∼ Exp(λ), se a sua f.d.p. é tal que
½
λ e−λx se x > 0
f (x) = .
0 se x ≤ 0
Teorema 3.12 Se X é uma v.a. tal que X ∼ Exp(λ), então

λ
1. GX (t) = ;
λ−t
1
2. E(X) = ;
λ
1
3. V ar(X) = .
λ2
Teorema 3.13 Seja X uma v.a. tal que X ∼ Exp(λ). Então a v.a. X ”não tem memória”, isto é,
P (X > s + t|X > s) = P (X > t).
3.8 Distribuição Normal

A distribuição Normal (ou de Gauss) é a distribuição mais importante, não só do ponto de vista teórico,
mas também do ponto de vista prático. Esta importância irá sendo evidenciada ao longo do curso à medida
que forem introduzidas no nosso estudo as suas propriedades. Pode, desde já, avançar-se que existem muitas
variáveis aleatórias obedecendo exactamente a esta lei de probabilidade ou então variáveis aleatórias que não
tendo distribuição Normal, aproximam-se muito de uma distribuição Normal.
Historicamente, esta lei de probabilidade foi descoberta por De Moivre, em 1733, no decurso de investigações
sobre o limite da distribuição Binomial.
Definição 3.9 Uma v.a. X tem distribuição Normal com média µ e desvio padrão σ (ou de parâmetros µ
e σ), simbolicamente X ∼ N (µ, σ), se a sua f.d.p. é definida por
1 (x−µ)2
f (x) = √ e− 2σ2 , x ∈ R.
2πσ
Observação 3.6 O que distingue uma distribuição Normal de outra distribuição Normal é a sua média e o seu
desvio padrão.
Teorema 3.14 Se X é uma v.a, tal que, X ∼ N (µ, σ), então

σ 2 t2
GX (t) = eµt+ 2 .
Graficamente, a f.d.p. de uma v.a. com distribuição Normal é representada por uma curva em forma de
sino, ou curva normal:
Propriedades da Curva Normal:
• É simétrica relativamente à recta de equação x = µ. Assim, a média, moda e mediana são iguais;
• Tem dois pontos de inflexão: pontos de abcissas µ − σ e µ + σ;
• A recta de equação y = 0 é uma assı́mptota horizontal, quando x → ±∞;
Já sabemos que, nas distribuições contı́nuas, áreas limitadas entre a curva da f.d.p e o eixo dos xx, para um
dado intervalo de números reais, representa probabilidades. Assim, suponhamos que pretendemos calcular a
área limitada entre a curva normal e o eixo dos xx relativamente ao intervalo [a, b], isto é, pretendemos calcular
Z b Z b
1 (x−µ)2
P (a ≤ X ≤ b) = f (x) dx = √ e− 2σ 2 dx.
a σ 2π a
31
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1 0 1 2 3 4 5
f.d.p. da Dist. N(2,0.5)
Conhecidos µ e σ, o integral anterior envolve algumas dificuldades. E como futuramente teremos que calcular
com muita frequência probabilidades envolvendo a distribuição Normal, não é prático este sistema directo de
cálculo. Existem tabelas que nos permitem calcular, aproximadamente, probabilidades com a distribuição
Normal. No entanto, as tabelas existentes são para a distribuição Normal Estandardizada, isto é, a distribuição
normal com média 0 e desvio padrão 1. Então, é necessário seguir o seguinte procedimento para utilizar uma
tabela: suponhamos que pretendemos calcular P (a ≤ X ≤ b), com X ∼ N (µ, σ). Sabemos que
X −µ
Z= ∼ N (0, 1).
σ
Logo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P Z≤ −P Z <
σ σ
Se os valores estandardizados de a e b são positivos, então basta usar a tabela da função de distribuição
Normal estandardizada para encontrar o valor pretendido. Se algum deles é negativo, é necessário previamente
usar a simetria da distribuição:
P (Z ≤ z) = P (Z ≥ −z).
Caso se queira utilizar a tabela que dá os valores de P (0 ≤ Z ≤ z), com z > 0, o procedimento poderá ser o
seguinte:
• Se os valores estandardizados de a e b são positivos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ −P 0≤Z < .
σ σ
• Se o valor estandardizado de a é negativo e o valor estandardizado de b é positivo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ +P 0≤Z ≤− .
σ σ
• Se os valores estandardizados de a e b são negativos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶
b−µ a−µ
= P − ≤Z≤−
σ σ
µ ¶ µ ¶
a−µ b−µ
= P 0≤Z≤− −P 0≤Z <− .
σ σ
32
Exemplos 3.5
1. Suponhamos que Z ∼ N (0, 1). Então
i) P (Z ≤ 0) = P (Z ≥ 0) = 0.5;
ii) P (z ≤ 2) = P (Z ≤ 0) + P (0 ≤ Z ≤ 2) = 0.5 + 0.4772 = 0.9772;
iii) P (Z ≤ −1) = P (Z ≥ 1) = 0.5 − P (0 ≤ Z < 1) = 0.5 − 0.3413 = 0.1587;
X − 3.4
2. Suponhamos que X ∼ N (3.4, 0.23). Então Z = ∼ N (0, 1) e
0.23
µ ¶
4 − 3.4
i) P (X > 4) = P Z> ≈ 0.5 − P (0 ≤ Z ≤ 2.61) = 0.0045;
0.23
ii) P (3.2 ≤ X ≤ 3.8) ≈ P (−0.87 ≤ Z ≤ 1.74) = P (0 ≤ Z ≤ 1.74) + P (0 ≤ Z ≤ 0.87) = 0.7669.
Vejamos agora alguma propriedades importantes da distribuição Normal que têm inúmeras aplicações.
Teorema 3.15 Se X1 , X2 , . . . , Xn são variáveis aleatórias independentes tais que Xi ∼ N (µi , σi ) e ai constan-
tes reais, com i = 1, 2, . . . , n, então a combinação linear
 v 
n n u n
X X uX
X= ai Xi ∼ N µ = ai µi , σ = t a2i σi2  .
i=1 i=1 i=1
Teorema 3.16 (Teorema do Limite Central) Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes e

identicamente
Pn distribuı́das com média µ e variância σ2 (finitos). Se
Yn = i=1 Xi , então
Yn − nµ o
√ ∼ N (0, 1),
σ n
o √
isto é, Yn ∼ N (nµ, σ n), quando n → +∞.
o
Corolário
³ 3.17 (Teorema
´ de De Moivre-Laplace) Se X é uma v.a. tal que X ∼ B(N, p), então X ∼
p
N N p, N p(1 − p) , quando N → +∞.
Em termos práticos, o Teorema de De Moivre-Laplace significa que podemos aproximar uma distribuição
Binomial de parâmetros N e p pela distribuição Normal de média N p e desvio padrão N p(1 − p), quando N é
suficientemente grande.
Sendo a distribuição Binomial discreta e a distribuição Normal contı́nua, requer no cálculo de probabilidades
a necessidade de se proceder a uma correcção adequada, dita correcção de continuidade. A ideia consiste em
aproximar a área de rectângulos do histograma da distribuição Binomial por áreas debaixo da curva Normal.
Observe-se o seguinte gráfico.
33
o √
Por exemplo, se X ∼ B(32, 0.5), pelo Teorema de De Moivre-Laplace, X ∼ W ∼ N (16, 8), isto é,
X − 16 o W − 16
√ ∼Z= √ ∼ N (0, 1).
8 8
Se pretendermos calcular, aproximadamente, P (X = 18), basta procedermos da seguinte forma:
P (X = 18) ≈ P (17.5 ≤ W ≤ 18.5) ≈ P (0.53 ≤ Z ≤ 0.88) ≈ 0.3106 − 0.2019 = 0.1087,

que não se afasta muito do valor dado pela distribuição B(32, 0.5) que é, com dez casas decimais,
P (X = 18) = 32C18 (0.5)32 ≈ 0, 1097646542.

Em geral, se X ∼ B(N, p), pelo Teorema de De Moivre-Laplace
³ p ´
o
X ∼ W ∼ N µ = N p, σ = N p(1 − p) ,
isto é,
X − Np o W − Np
p ∼Z= p ∼ N (0, 1),
N p(1 − p) N p(1 − p)
e fazendo-se a correcção de continuidade temos, por exemplo, que
Ã !
a − 0.5 − N p a + 0.5 − N p
P (X = a) ≈ P (a − 0.5 ≤ W ≤ a + 0.5) = P p ≤Z≤ p .
N p(1 − p) N p(1 − p)
Quanto à qualidade da aproximação tem-se o seguinte:
1. fixados p, a e b, melhora quando N aumenta;

1
2. fixados N , a e b, melhora quando p está próximo de 2 e piora quando p se aproxima de 0 ou de 1;
3. para um dado N e fixado p, melhora quando a e b estão próximos de zero, o que significa que x está próximo
de N p.
Daqui resulta uma regra, muitas vezes adoptada, que permite bons resultados. Diz o seguinte: a aproximação
da distribuição Binomial pela distribuição Normal é suficientemente boa desde que N ≥ 30 e N p ≥ 5.
Também é possı́vel aproximar uma distribuição de Poisson por uma distribuição Normal. Basta atender ao
seguinte teorema e proceder à correcção de continuidade, já que a distribuição de Poisson também é discreta.
Teorema 3.18 Seja X uma v.a. tal que X ∼ P oisson(λ). Então

³ √ ´
o
X ∼ N λ, λ ,
quando λ → +∞.
Observação 3.7 Para λ ≥ 30 as aproximações são boas para a maioria das aplicações, sobretudo quando se
emprega a correcção de continuidade.
34
Capı́tulo 4
Amostragem
4.1 Métodos de Amostragem

A estatı́stica pode ser definida como uma disciplina que tem por objecto fundamental a recolha, a compilação,
a análise e a interpretação de dados. Para a clarificação do significado de análise e interpretação de dados,
convém distinguir estatı́stica descritiva e inferência estatı́stica. A primeira tem como objectivo sintetizar
e representar de um a forma compreensı́vel a informação contida num conjunto de dados (construção de tabe-
las, de gráficos e cálculo de medidas que representem convenientemente a informação contida nos dados). A
inferência estatı́stica tem objectivos mais ambiciosos que a estatı́stica descritiva e, naturalmente, os métodos
e técnicas requeridos são mais sofisticados. Com base na análise de um conjunto limitado de dados (uma
amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a população). Neste e
nos próximos capı́tulos pretende-se estudar a inferência estatı́stica. No entanto, também abordaremos alguns
conceitos elementares de estatı́stica descritiva, que poderão ser úteis.
Definição 4.1 Chama-se população ao conjunto de todos os elementos sobre o qual irá incidir as observações
com o objectivo de o estudar estatisticamente. Cada elemento da população chama-se unidade estatı́stica.
Observações 4.1
1. Num estudo estatı́stico cada unidade estatı́stica perde toda a individualidade para só ser encarada na medida
em que contribui para a estrutura do conjunto (população).
2. Uma população pode ser finita ou infinita, conforme o número de elementos que a compõe seja finito ou
infinito.
Definição 4.2 Chama-se amostra de uma população a qualquer seu subconjunto.
Uma unidade estatı́stica de uma população ou amostra pode ser observada segundo uma dada caracterı́stica.
Em estatı́stica, é usual denominar-se essa caracterı́stica por atributo. Exemplos de atributos: idade, peso,
estado civil, altura, filiação partidária, nı́vel sócio-económico, etc.
Chamam-se modalidades às situações possı́veis em que se pode encontrar uma unidade estatı́stica, em
relação a um dado atributo.
Exemplos 4.1
Atributo Modalidades
Sexo masculino, feminino
Estado civil solteiro, casado, divorciado, viúvo
Observação 4.2 As modalidades de determinado atributo devem ser incompatı́veis e exaustivas, isto é, cada
unidade estatı́stica deve pertencer a uma e uma só das modalidades do atributo considerado.
Definição 4.3 Um atributo diz-se qualitativo se as suas modalidades não são mensuráveis. Caso contrário,
diz-se quantitativo. Aos atributos quantitativos dá-se também o nome de variáveis estatı́sticas.
Exemplos 4.2
35
Atributos qualitativos estado civil, cor, filiação partidária
Atributos quantitativos altura, peso, idade, durabilidade
Observação 4.3 Os atributos quantitativos podem ser contı́nuos ou discretos.
Definição 4.4 O número de vezes que se repete uma modalidade de um dado atributo denomina-se de frequência
absoluta e representa-se por ni . No caso bidimensional, isto é, quando se considera, em conjunta, dois atri-
butos A e B, a frequência absoluta das modalidades i, do atributo A, e j, do atributo B representa-se por nij .
E as frequências absolutas marginais por ni· e n·j , respectivamente para a modalidade i, do atributo A, e j, do
atributo B.
O quociente entre uma frequência absoluta e o número total de observações (n), denomina-se frequência
relativa. No caso unidimensional, a frequência relativa da modalidade i representa-se por fi . No caso bidi-
mensional, a frequência relativa das modalidades i, do atributo A, e j, do atributo B, representa-se por fij . As
frequências relativas marginais representam-se por fi· e f·j .
Em geral, a estudo estatı́stico de uma população, relativamente a um dado atributo (caracterı́stica em

estudo), não se realiza sobre todas as unidades estatı́sticas dessa população, devido a diversas razões. Razões
tais como
• comodidade;
• tempo;
• económicas;
• impossibilidade de observar todas as unidades estatı́sticas.
Assim, o estudo far-se-á incidir somente sobre uma amostra extraı́da da população. Consequentemente, a
partir dessa amostra espera-se poder inferir sobre a população, relativamente ao atributo em estudo. Para se
fazerem tais inferências é necessário escolher um método de amostragem apropriado. A amostragem pode
ser de dois tipos: aleatória e não aleatória; existindo vários métodos de se obter uma amostra para cada
um dos tipos de amostragem.
4.1.1 Métodos de Amostragem Aleatória (Casual)

Nesta amostragem, ao contrário da não aleatória, toda a unidade estatı́stica tem igual probabilidade de fazer
parte da amostra. Assim, consegue evitar-se qualquer enviesamento de selecção, isto é, afasta-se qualquer
tendência sistemática para sub-representar ou sobrerrepresentar na amostra alguns elementos da população.
Nestas circunstâncias, todas as unidades estatı́sticas têm previamente que ser identificadas, exigindo, em geral,
a elaboração de uma lista com todas as unidades estatı́sticas da população, o que nem sempre é fácil.
1. Método de Amostragem Aleatória Simples - Este método consiste em utilizar um processo que possi-
bilite a que toda a unidade estatı́stica tenha igual probabilidade de fazer parte da amostra. Por exemplo,
podia-se escrever o nome de cada indivı́duo em um, e um só papel, introduziam-se todos num saco e ex-
traı́amos, com reposição, apenas alguns nomes. O processo que se utiliza na extracção das bolas do totoloto
é também aleatório, mas não simples. Um pesquisador quando pretende obter uma amostra aleatória sim-
ples, não utiliza um saco, mas sim uma tabela de números aleatórios ou números aleatórios gerados por
computador.
2. Método de Amostragem Sistemática - Este método consiste em incluir na amostra as n-ésimas unidades
estatı́sticas de uma população.
3. Método de Amostragem Estratificada - Este método consiste em dividir a população em subgrupos

(subpopulações) mais homogéneos (estratos) dos quais são extraı́das amostras aleatórias simples, que depois
se juntam para se obter uma amostra da população.
Exemplo: Suponhamos que se pretende estudar o salário mensal dos indivı́duos de certa população. Como
esta caracterı́stica varia com o sexo do indivı́duo e a sua classe social, podı́amos estratificar a população com
base nestes atributos, obtendo-se assim subpopulações homogéneas. Dado que as modalidades (situações
possı́veis em que se pode encontrar uma unidade estatı́stica, em relação a um dado atributo) do atributo
sexo são masculino e feminino e das classes sociais podiam ser alta, média e baixa, então pode-se obter as
seguintes subpopulações:
36
- Homens de classe alta;
- Homens de classe média;
- Homens de classe baixa;
- Mulheres de classe alta;
- Mulheres de classe média;
- Mulheres de classe baixa.
Agora bastará obter amostras aleatórias simples em cada uma das subpopulações de acordo com a percen-
tagem que têm na população.
4. Método de Amostragem por Conglomerados (¿clustersÀ) - Este método consiste em escolher alea-
toriamente algumas áreas bem delineadas (conglomerados) onde se concentram caracterı́sticas encontradas
na população total e seguidamente obter amostras aleatórias dentro de cada um dos conglomerados. Este
método é essencialmente utilizado para reduzir os custos de grandes pesquisas.
4.1.2 Métodos de Amostragem Não Aleatória (Não Casual)

Quando não haja preocupação de rigor na representatividade da amostra (por exemplo, na realização de es-
tudos pilotos ou de análises preliminares), podem utilizar-se métodos de amostragem não aleatórios (ou não
probabilı́sticos), que não permitem definir com rigor as probabilidades de inclusão dos diferentes elementos da
população na amostra. Estes métodos são mais expeditos e mais económicos do que os aleatórios.
1. Amostragem Acidental - Este método consiste em incluir na amostra somente as unidades estatı́sticas
convenientes, excluindo-se, então, as incovenientes.
2. Amostragem por Quotas - Este método consiste em incluir unidades estatı́sticas na amostra segundo
diversas caracterı́sticas da população (tais como: idade, sexo, nı́vel sócio-económico, etnia, etc...) e nas
mesmas proporções que figuram na população.
3. Amostragem por Julgamento ou Conveniência - Este método consiste em incluir na amostra as uni-
dades estatı́sticas que poderão proporcionar uma representatividade da população, de acordo com a lógica,
senso comum ou um julgamento equilibrado.
4.2 Amostragem Aleatória. Distribuições Amostrais

Em todo o estudo que fizermos até ao fim deste capı́tulo e capı́tulos seguintes somente consideraremos amostra-
gem aleatória simples. De acordo com o método de Amostragem simples, formaliza-se uma amostra aleatória
da seguinte forma:
Definição 4.5 Seja X uma variável aleatória que representa uma caracterı́stica numérica de uma população
em estudo (abusivamente diremos, simplesmente, população X). Chama-se amostra aleatória (a.a.) a um
conjunto de n variáveis aleatórias, X1 , X2 , . . . , Xn , independentes e identicamente distribuı́das a X.
Observações 4.4
1. É usual representar-se uma amostra aleatória em forma de sequência ordenada (vector): (X1 , X2 , . . . , Xn ).
2. n é o número total (dimensão, tamanho) de observações realizadas na população.
3. Na amostragem aleatória simples admite-se que a amostragem é efectuada com reposição. Se a amostragem
não for feita com reposição, as variáveis X2 , X2 , . . . , Xn deixam de ser independentes. No entanto, quando
a dimensão da população tende para infinito e a dimensão da amostra se mantém finita, a dependência entre
as variáveis X1 , X2 , . . . , Xn tende a desaparecer. Quando a população for infinita, é indiferente realizar uma
amostragem aleatória com ou sem reposição. A amostragem aleatória é simples em qualquer dos casos.
4. A v.a. Xk (k = 1, 2, . . . , n), indica o valor numérico da caracterı́stica em estudo na população sobre o k-
ésimo elemento da amostra. Retirada a amostra, observam-se os valores de X1 , X2 , . . . , Xn ; de acordo com
a notação que tem vindo a adoptar-se, esses valores observados representam-se por x1 , x2 , . . . , xn . Embora o
termo amostra aleatória seja reservado para designar a amostra genérica, (X1 , X2 , . . . , Xn ), o mesmo aplica-
se, por vezes, para designar também a amostra particular, (x1 , x2 , . . . , xn ). Deve, porém, distinguir-se entre
as duas acepções em que o termo é utilizado.
37
Definição 4.6 Chama-se estatı́stica a uma função dos valores observados, isto é, uma função de uma a.a.
(X1 , X2 , . . . , Xn ), sem parâmetros desconhecidos.
Exemplos 4.3
Pn
Xi
1. X = i=1 (Média Amostral)
n
Pn
2. T1 = X1 + X2 + · · · + Xn = i=1 Xi
Pn
3. T2 = i=1 Xi2
Pn
X2
4. T3 = i=1 i
n
5. T4 = X1 · X2 · · · Xn
6. T5 = max(X1 , X2 , . . . , Xn )
n
1 X¡ ¢2
7. S 2 = Xi − X (variância amostral)
n i=1
n
1 X¡ ¢2
8. s2 = Xi − X (variância amostral corrigida)
n − 1 i=1
9. Suponha-se que na população X ∼ N (µ, σ), os parâmetros µ e σ são desconhecidos. Então não são es-
tatı́sticas as funções, Pn Pn Pn 2
i=1 (Xi − µ) i=1 Xi i=1 Xi
, , ,
σ σ σ2
pois dependem de µ e σ.
Observação 4.5 Pode mostrar-se que

n
X n
¡ ¢2 X 2
Xi − X = Xi2 − nX .
i=1 i=1
Cada estatı́stica é uma nova variável aleatória e terá uma distribuição de probabilidade que é designada por
distribuição amostral. A procura dessa distribuição amostral pode ser muito complicada. De qualquer modo,
no estudo que faremos, as diferentes propriedades serão dadas sem demonstração e com um único objectivo: a
aplicação.
4.3 Estimação Pontual

Quando se inicia o estudo da Inferência Estatı́stica é-se levado com demasiada frequência a pensar em termos
analógicos. Assim, se por exemplo, para Pa população X se tem µ = E(X), 2isto P é, se µ é a média da população,
julga-se que a média da amostra, X = Xi /n, e a variância da amostra, s = (Xi − X)2 /n, são as melhores
estatı́sticas para estabelecer inferências sobre µ e σ 2 . Essa atitude, de certo modo intuitiva, é válida em muitos
casos, mas não pode generalizar-se. Muitas vezes conduzem a maus resultados.
Definição 4.7 Chama-se estimador a qualquer estatı́stica, Θ̂, usada para estimar um parâmetro, θ, (desco-
nhecido) da população ou uma função desse parâmetro. A um valor desse estimador, θ̂, chama-se estimativa.
A qualidade de um estimador de um parâmetro será melhor ou pior conforme certas propriedades que possua.
Não iremos fazer um estudo exaustivo dessas propriedades e utilizaremos somente o seguinte tipo de estimadores:
Definição 4.8 Diz-se que Θ̂ é estimador não-enviesado (ou cêntrico) do parâmetro θ se, e somente se,
E(Θ̂) = θ.
Observação 4.6 O enviesamento de um estimador Θ̂ define-se como a diferença entre o valor esperado do
estimador e o valor do parâmetro θ, isto é,
Enviesamento Θ̂ = E(Θ̂) − θ.
38
Como o não-enviesamento é uma propriedade importante, a utilização de um ou de outro estimador de um
parâmetro desconhecido pode depender desta propriedade. Observe-se o seguinte:
Teorema 4.1 Considere-se uma população X, com média µ e desvio padrão σ, e (X1 , . . . , Xn ) uma sua amostra
aleatória. Então
1. E(X) = µ;
σ2
2. V ar(X) = ;
n
n−1 2
3. E(S 2 ) = σ
n
4. E(s2 ) = σ 2 .
Observação 4.7 Na demonstração de 3. pode utilizar-se 2. e na demonstração de 4. pode utilizar-se 3., já
n
que s2 = n−1 S2.
O teorema anterior diz que a média amostral, X, é um estimador não-enviesado da média da população,
µ, e que a variância amostral corrigida, s2 é um estimador não-enviesado da variância da população, σ 2 . No
entanto, a variância amostral, S 2 , é um estimador enviesado da variância da população e, consequentemente,
utilizaremos sempre a variância amostral corrigida para estimar a variância da população.
4.4 Métodos de Estimação

Existem vários métodos que permitem estimar um parâmetro desconhecido de uma população, entre os quais:
Método dos Momentos, Método da Máxima Verosimilhança e Método dos Mı́nimos Quadrados. Nesta disciplina
iremos somente estudar o Método dos Momentos.
4.4.1 Método dos Momentos

Este método, de fácil implementação, consiste em igualar os momentos populacionais aos momentos amostrais.
Assim, considere-se uma população representada pela variável aleatória X com distribuição de probabilidade
conhecida a menos de r parâmetros, θ1 , θ2 , . . . , θr (por exemplo, se X ∼ N (µ, σ), os parâmetros µ e σ podem
ser desconhecidos). Em geral, os momentos populacionais ordinários são funções conhecidas dos parâmetros a
estimar, que expressaremos da seguinte forma:
µ0i = µ0i (θ1 , θ2 , . . . , θr ).

Seja X1 , X2 , . . . , Xn uma amostra aleatória extraı́da na população X e representem-se os momentos amostrais
ordinários por
n
1X
Mi0 = (Xk )i .
n
k=1
Observe-se que estes momentos são variáveis aleatórias, ao contrário do que acontecia durante o estudo da
Estatı́stica Descritiva.
Então, de acordo com o Método dos Momentos, os estimadores Θ̂1 , Θ̂2 , . . . , Θ̂r dos parâmetros θ1 , θ2 , . . . , θr
são obtidos a partir da resolução do seguinte sistema de equações nas incógnitas θ1 , θ2 , . . . , θr :
Mi0 = µ0i (θ1 , θ2 . . . , θr ).

Tais estimadores podem ser designados abreviadamente por estimadores M
Exemplo 4.4 Seja (X1 , . . . , Xn ), uma a.a. extraı́da numa população normal de média µ e variância σ 2 , des-
conhecidos. Pretende-se determinar, usando o Método dos Momentos, os estimadores M̂ e Σ̂2 de µ e σ 2 ,
respectivamente. Logo, tem-se o sistema
½
M10 = X P= µ01 (µ, σ) = E(X) = µ
1 n
M2 = n k=1 Xk2 = µ04 = σ 2 + µ9
0
donde resulta (
M̂ = X
1
Pn 2 1
Pn ¡ ¢2
Σ̂2 = M20 = n k=1 Xk2 − X = n k=1 Xk − X = S2
39
Em relação ao método que acabou de ser apresentado, note-se que ele admite variantes, sendo todas desi-
gnadas por método dos momentos: em vez de se definir o sistema com base nos momentos ordinários, pode
recorrer-se aos momentos centrados; em vez de se definir o sistema a partir dos r primeiros momentos (ordinários
ou centrados), pode recorrer-se a momentos de outras ordens.
4.5 Distribuição de um Estimador

Teorema 4.2 Seja X uma v.a. tal que X ∼ N (µ, σ) e (X1 , . . . , Xn ) uma amostra aleatória extraı́da na po-
pulação X. Então µ ¶
σ
X ∼ N µ, √ ,
n
√
isto é, X é uma v.a. com distribuição normal de média µ e desvio padrão σ/ n.
Observação 4.8 O teorema anterior é consequência directa do teorema 3.15
Exemplo 4.5 O conteúdo, em litros, de garrafas de óleo segue uma distribuição normal. Se µ = 0.99 ` e
σ = 0.02 `, pretende-se calcular a probabilidade de o conteúdo médio numa amostra de 16 garrafas, seleccionadas
ao acaso, seja superior a 1 `.
Resolução: Sendo
X = capacidade de uma garrafa de óleo, em `
uma v.a. tal que X ∼ N (0.99, 0.02), então, pelo teorema 4.2, X ∼ N (0.99, 0.005). Logo,
µ ¶
1 − 0.99
P (X > 1) = P Z > = P (Z > 2) = 0.5 − P (0 ≤ Z ≤ 2) = 0.5 − 0.4772 = 0.0228.
0.005
Teorema 4.3 Sejam X1 e X2 duas variáveis aleatórias tais que X1 ∼ N (µ1 , σ1 ) e X2 ∼ N (µ2 , σ2 ). Se
(X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das nas popu-
lações X1 e X2 , respectivamente, então
 s 
σ 2 σ 2
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2
isto é,
X 1 − X 2 − (µ1 − µ2 )
Z= s ∼ N (0, 1).
σ13 σ22
+
n1 n2
Observação 4.9 O teorema anterior é consequência dos teoremas 4.2 e 3.15 e observe-se que: se as amostras
são independentes, então X 1 e X 2 são variáveis aleatórias independentes e
E(X 1 − X 2 ) = E(X 1 ) − E(X 2 ) = µ1 − µ2 ,

σ12 σ2
V ar(X 1 − X 2 ) = V ar(X 1 ) + V ar(X 2 ) = + 2.
n1 n2
Teorema 4.4 Se X é uma v.a. de média µ e desvio padrão σ e (X1 , . . . , Xn ) é uma amostra aleatória extraı́da
na população X, então
X −µ o
Z= √ ∼ N (0, 1),
σ/ n
quando n → +∞.
Observações 4.10
1. O teorema anterior é consequência directa do Teorema do Limite Central (teorema 3.16).
2. Nas condições do teorema σ 2 ≈ s2 . Assim, quando σ é desconhecido podemos usar s e, consequentemente,
X −µ o
Z= √ ∼ N (0, 1).
s/ n
40
Corolário 4.5 Seja X ∼ Bernoulli(p) e (X1 , . . . , Xn ) uma amostra aleatória extraı́da nesta população. Então
X −p o
Z=r ∼ N (0, 1),
p(1 − p)
n
quando n → +∞.
Observação 4.11 No contexto de uma população de Bernoulli, X é a proporção de sucessos observados e é

vulgar representar-se por p̂.
Teorema 4.6 Sejam X1 e X2 duas variáveis aleatórias de médias µ1 e µ2 e variâncias σ12 e σ22 , respectiva-
mente. Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das
nas populações X1 e X2 , respectivamente, então
 s 
σ 2 σ 2
o
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2
isto é,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1),
σ12 σ22
+
n1 n2
quando n1 → +∞ e n2 → +∞.
Observações 4.12
1. O teorema anterior é consequência dos teoremas 3.16 e 3.15.
2. Nas condições do teorema σ12 ≈ s21 e σ22 ≈ s22 . Assim, quando σ1 e σ2 são desconhecidos podemos usar s1 e
s2 . Consequentemente,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1).
s21 s22
+
n1 n2
Corolário 4.7 Sejam X1 ∼ Bernoulli(p1 ) e X2 ∼ Bernoulli(p2 ). Se (X11 , . . . , X1n1 ) e (X21 , . . . , X2n2 ) são
amostras aleatórias, independentes, extraı́das nas populações X1 e X2 , respectivamente, então
p̂1 − p̂2 − (p1 − p2 ) o

Z=s ∼ N (0, 1).
p1 (1 − p1 ) p2 (1 − p2 )
+
n1 n2
quando n1 → +∞ e n2 → +∞.
4.5.1 Distribuições Amostrais Relacionadas com a Distribuição Normal

Distribuição do Qui-Quadrado
Definição 4.9 Diz-se que uma v.a. X tem distribuição do χ2 (qui-quadrado) com n graus de liberdade (ou de
parâmetro n), simbolicamente X ∼ χ2n , se a sua f.d.p. é definida por
e−x/2 x(n/2)−1
fX (x) = ¡ ¢ , n ∈ N, x ∈ R+ ,
2n/2 Γ n2
onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
0
41
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35
f.d.p. da Dist. do Qui-quadrado com n=10
Teorema 4.8 Sejam X1 , X2 , . . . , Xn v.a. independentes tais que Xi ∼ N (µi , σi ), (i = 1, . . . , n). Então a v.a.
Xn µ ¶2
Xi − µi
U= ∼ χ2n
i=1
σi
Observação 4.13 O termo “graus de liberdade” refere-se ao número de quadrados independentes na soma
anterior.
Corolário 4.9 Sejam a população X ∼ N (µ, σ) e (X1 , . . . , Xn ) uma amostra aleatória. Então
(n − 1)s02
U= ∼ χ2n−1 .
σ2
Distribuição t de Student
Definição 4.10 Uma v.a. X tem distribuição t de Student com n graus de liberdade (ou de parâmetro n),
simbolicamente X ∼ Tn , se a sua f.d.p. é definida por
¡ ¢ µ ¶− n+1
Γ n+1 2¡ ¢ x2 2
fX (x) = √ n 1 + , x ∈ R, n ∈ N,
nπΓ 2 n
onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
o
Observação 4.14 A distribuição t de Student é simétrica. Quando n = 4, é parecida com a distribuição

Normal estandardizada.
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
f.d.p. da Dist. t de Student com n=4
Teorema 4.10 Se as variáveis aleatórias X e Y são independentes tais que X ∼ N (0, 1) e Y ∼ χ2n , então
X
T =p ∼ Tn .
Y /n
42
Corolário 4.11 Se X é uma v.a. tal que X ∼ N (µ, σ) e (X1 , X2 , . . . , Xn ) é uma a.a., então o rácio de Student
X −µ
√
s/ n
tem distribuição t de Student com n − 1 graus de liberdade, isto é,
X −µ
√ ∼ Tn−1 .
s/ n
Dem.: Sabemos que

√
X −µ n(X − µ)
Z= √ = ∼ N (0, 1)
σ/ n σ
e
(n − 1)s2
Y = ∼ χ2n−1 .
σ2
Logo, pelo teorema 4.10,
Z
T =p ∼ Tn−1 .
Y /(n − 1)
Dado que
√ √
n(X−µ) n(X−µ)
X −µ
T = q σ 2 = σ
s = √ ,
(n−1)s
σ s/ n
σ 2 (n−1)
então
X −µ
√ ∼ Tn−1 . ¤
s/ n
o
Teorema 4.12 Quando n → +∞, Tn ∼ N (0, 1).
Teorema 4.13 Sejam X1 e X2 duas variáveis aleatórias independentes tais que X1 ∼ N (µ1 , σ1 ) e
X2 ∼ N (µ2 , σ2 ), com σ1 = σ2 . Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias,
independentes, extraı́das nas populações X1 e X2 , respectivamente, então
X 1 − X 2 − (µ1 − µ2 )
T =s r ∼ Tn1 +n2 −2 .
(n1 − 1)s21 + (n2 − 1)s22 1 1
+
n1 + n2 − 2 n1 n2
Observação 4.15 O teorema anterior é consequência dos teoremas 4.3, 4.9, 4.10 e da aditividade da dis-
2
tribuição
Pn do Qui-Quadrado:
Pn Se as v.a. X1 , . . . , Xn são independentes e Xi ∼ χni , i = 1, . . . , n, então
2
i=1 Xi ∼ χm , com m = i=1 ni .
Distribuição F de Snedcor
Definição 4.11 Uma v.a. X tem distribuição F de Snedcor com m e n graus de liberdade (ou de parâmetros
m e n), simbolicamente X ∼ Fnm , quando a sua f.d.p. é definida por
¡ ¢ ³ ´m m−2
Γ m+n 2 ¡ ¢ m 2 x 2
fX (x) = ¡ ¢ ¡ ¢ m+n , x ∈ R+ .
Γ m2 Γ 2
n n 1+ m
n x
2
Teorema 4.14 Se a v.a. X é tal que X ∼ Fnm , então
1 n
∼ Fm .
X
43
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10
f.d.p da Dist. F-Snedcor com m=4 e n=5
Teorema 4.15 Se as variáveis aleatórias X e Y são independentes tais que X ∼ χ2m e Y ∼ χ2n , então
X/m
U= ∼ Fnm .
Y /n
Corolário 4.16 Se (X11 , X12 , . . . , X1n1 ) é uma amostra aleatória extraı́da da população X1 ∼ N (µ1 , σ1 ),
(X21 , X22 , . . . , X2n2 ) é uma amostra aleatória extraı́da da população X2 ∼ N (µ2 , σ2 ) e ambas são indepen-
dentes, então
s21 σ22
∼ Fnn21−1
−1
.
s22 σ12
Dem.: Sabemos que
(n1 − 1)s21
∼ χ2n1 −1
σ12
e
(n2 − 1)s22
∼ χ2n2 −1 .
σ22
Logo, pelo teorema 4.15,
(n1 −1)s21
(n1 −1)σ12 s21 σ22
= ∼ Fnn21−1
−1
. ¤
(n2 −1)s22 s22 σ12
(n2 −1)σ22
44
Capı́tulo 5
Estimação Intervalar
Considere-se uma (ou duas populações) onde se pretende estimar um parâmetro (ou uma relação entre parâmetros).
A estimação intervalar consiste na determinação, a partir de uma estimativa pontual do(s) parâmetro(s), de um
intervalo onde o parâmetro (ou relação entre parâmetros) esteja com uma dada probabilidade λ. Temos assim
um intervalo de confiança a λ × 100% (ou com grau de confiança a λ × 100%) para o parâmetro (ou relação de
parâmetros).
Assim, no caso de o parâmetro ser a média (µ) (ou uma diferença de médias (µ1 −µ2 )), pretende-se determinar
números reais a e b, com a < b, tais que
µ ∈ [X − b, X − a]
(respectivamente,
µ1 − µ2 ∈ [X 1 − X 2 − b, X 1 − X 1 − a]).
em que
P (a ≤ X − µ ≤ b) = λ
(respectivamente,
P (a ≤ X 1 − X2 − (µ1 − µ2 ) ≤ b) = λ).
O cálculo de a e b depende das condições iniciais:
• a(s) distribuição(ões) da(s) população(ões) são conhecida(s) ou desconhecida(s);
• a(s) amostra(s) é(são) suficientemente grande(s);
e, tendo em conta estas condições, da escolha de uma variável aleatória (dita variável fulcral), e respectiva-
mente distribuição, que relaciona o(s) parâmetro(s) com o respectivo estimador (ver capı́tulo anterior). Para
cada caso, verifica-se ainda que existem uma infinidade de soluções para a e b. No entanto, em geral, como a
distribuição da variável fulcral é a distribuição Normal (ou aproximadamente normal) ou a distribuição t de
Student, mostra-se que a amplitude (comprimento) do intervalo de confiança, fixado o seu grau de confiança, é
mı́nimo quando a = −b.
No caso do parâmetro ser a variância (ou quociente de variâncias) pretende-se determinar a e b, com c < d,
tais que
" #
2 θ̂ θ̂
σ ∈ ,
b a
(ou
· ¸
σ12 1 1
∈ θ̂, θ̂ ),
σ22 b a
com uma probabilidade λ, onde θ̂ tem a ver com s2 (ou s21 /s22 ).
Para cada caso, verifica-se que existem uma infinidade de soluções para a e b. Sendo, em geral, a distribuição
da variável fulcral a distribuição do Qui-quadrado ou a distribuição F de Snedcor, mostra-se, também, que existe
45
uma única solução para a e b que minimiza a amplitude do intervalo de confiança, fixado o seu grau de confiança.
No entanto, este cálculo é bastante trabalhoso. Assim, na prática, por uma questão de comodidade os valores
de a e b são determinados pelas condições
1−λ 1−λ
P (U ≤ a) = , P (U ≥ b) = ,
2 2
onde U ∼ χ2m ou U ∼ Fnm .
Observe-se o quadro na página seguinte, onde está representado o intervalo de confiança para cada um dos
parâmetros em estudo, de acordo com a condições iniciais.
Quando queremos estudar variáveis que surjam naturalmente associadas, são necessários alguns cuidados.
As duas amostras, cada uma proveniente da sua população, em vez de serem independentes são emparelhadas,
isto é, as amostras são constituı́das por pares ordenados medindo a mesma grandeza. Nestes casos, poderá, em
muitas circunstâncias, originar uma situação mais favorável, porque se traduz numa redução da variabilidade,
já que
var(X1 − X2 ) = var(X1 ) + var(X2 ) − 2cov(X1 , X2 ).
Se as duas populações em estudo são normais, então o problema é reduzido ao caso de uma população normal,
que é dada pela diferença das suas iniciais.
46
PAR. CONDIÇÕES V.A. FULCRAIS/DIST. INTERVALOS DE CONFIANÇA OBS.
Quando se desconhece
População normal X −µ · ¸ a distribuição da po-
Z= σ σ
µ com variância co- σ ∼ N (0, 1) X − z√ ,X + z√ pulação, mas n é grande
√ n n
nhecida n (n ≥ 30), a distribuição
é aprox. normal.
Com n grande, po-
População normal X −µ · ¸ pulação normal ou não,
∼ Tn−1 s s
de variância desco- s X − t√ , X + t√ a distribuição é aprox.
√ n n
nhecida n normal.
p̂ − p o
" r r #
População de Ber- Z=r ∼ N (0, 1) 0.25 0.25 Para n grande.
p p(1 − p) p̂ − z , p̂ + z
noulli n n
n · ¸
2 2
(n − 1)s2 (n − 1)s (n − 1)s
σ2 População normal ∼ χ2n−1 ,
σ2 b a
  Quando se desconhece
X 1 − X 2 − (µ1 − µ2 ) s s
Duas populações Z= s ∼ N (0, 1) a distribuição das po-
σ12 σ2 σ12 σ2
normais com vari- σ12 σ22 X 1 − X 2 − z + 2 , X1 − X2 + z + 2 pulações, mas n1 e n2
+ n1 n2 n1 n2
47
âncias conhecidas n1 n2 são grandes, a distri-
buição é aprox. normal.
Duas populações · q q
X 1 − X 2 − (µ1 − µ2 ) (n1 −1)s21 +(n2 −1)s22 1 1
normais com s ∼ Tn1 +n2 −2 X1 − X2 − t n1 +n2 −2 n1 + n2 ,
r ¸
µ1 − µ2 variâncias des- (n1 − 1)s21 + (n2 − 1)s22 1 1 q q
conhecidas mas + (n1 −1)s21 +(n2 −1)s22 1 1
n1 + n2 − 2 n1 n2 X1 − X2 + t n1 +n2 −2 n1 + n2
iguais
Duas populações
X 1 − X 2 − (µ1 − µ2 ) o  s s 
normais ou não, Z= s ∼ N (0, 1) s21 s22 s21 s22 
com variâncias s21 s22 X 1 − X 2 − z + , X1 − X2 + z +
desconhecidas mas + n1 n2 n1 n2
n1 n2
n1 e n2 grandes
p̂1 − p̂2 − (p1 − p2 ) o r r
Z=s ∼ N (0, 1) · ¸
Duas populações de 0.25 0.25 0.25 0.25
p1 − p2 p1 (1 − p1 ) p2 (1 − p2 ) p̂1 − p̂2 − z + , p̂1 − p̂2 + z + Para n1 e n2 grandes
Bernoulli + n1 n2 n1 n2
n1 n2
· ¸
σ12 Duas populações 1 s21 1 s21
s21 σ22 −1 ,
∼ Fnn21−1
σ22 normais s22 σ12 b s22 a s22
48
Capı́tulo 6
Teste de Hipóteses
Um outro procedimento muito importante na Inferência Estatı́stica consiste em verificar a compatibilidade de

dados amostrais (ou estimativas obtidas a partir destes dados) com determinadas populações (ou valores fixados
para parâmetros populacionais). Este procedimento - Teste de Hipóteses - leva, necessariamente, a uma de
duas respostas possı́veis para uma dada questão: afirmativa ou negativa. No entanto, como este procedimento
parte de dados amostrais, corre-se o risco de errar. Uma caracterı́stica do teste de hipóteses é, justamente, a de
permitir controlar ou minimizar tal risco.
A metodologia deste procedimento pode ser dividida em quatro fases:
i) Formulação das hipóteses.
ii) Identificação da estatı́stica do teste e respectiva distribuição.
iii) Definição da regra de decisão, com especificação do nı́vel de significância.
iv) Cálculo do valor do teste e tomada de decisão.
Para uma melhor compreensão de cada uma destas fases, iremos apresentá-las no contexto do problema
seguinte, que é um teste de hipótese do tipo paramétrico, isto é, um teste de hipótese onde a formulação das
hipóteses é feita para um parâmetro populacional desconhecido:
“Uma empresa tenciona importar um grande lote de instrumentos de precisão para posterior distribuição
no paı́s. Os fabricantes garantem que o respectivo peso médio é de 100 gramas. Sendo, no entanto, o peso
uma caracterı́stica importante na qualidade do produto, resolveu-se testar a garantia do fabricante. Para tal,
o departamento técnico da empresa importadora obteve uma amostra de 15 instrumentos, donde resultaram os
seguintes valores:
15
X 15
X ¡ ¢2
Xi = 1344 grs Xi − X = 3150 grs2
i=1 i=1
Admitindo que o peso é normalmente distribuı́do, diga qual a inferência a tirar, para um nı́vel de significância
de 1%.”.
Na resolução de um problema deste tipo é importante definir correctamente a caracterı́stica em estudo na
população, isto é, a variável aleatória, e saber quais os dados populacionais conhecidos (ou desconhecidos). No
problema em questão temos:
X = “peso de um instrumento de precisão, em gramas”.
X ∼ N (µ, σ), µ e σ desconhecidos.
i) Neste problema está em causa a afirmação dos fabricantes relativamente ao peso médio de um instrumento
por eles fabricado. Eles garantem que o peso médio de um instrumento de precisão é de 100 gramas. Assim,
temos a seguinte formulação de hipóteses:
H0 : µ = 100
HA : µ=6 100
49
A primeira (H0 ) é denominada por hipótese nula e a segunda (HA ) por hipótese alternativa. Em
geral, na formulação da hipótese nula é necessário ter-se um igual, podendo usar-se um dos sı́mbolos: =,
≤ ou ≥, pois um teste de hipótese paramétrico requer um valor a testar. A hipótese alternativa terá, no
contexto do problema, de ser complementar da hipótese nula, podendo usar-se um dos sı́mbolos: 6=, < ou
>.
ii) Para testarmos as hipóteses formuladas, necessitamos de uma estimativa pontual do parâmetro em estudo.
Para tal, é necessário recolher uma amostra aleatória na população em estudo. (Observe-se que, por razões
óbvias, somente faz sentido a recolha de uma amostra depois de estabelecidas as hipóteses a testar.) O
estimador em causa, no contexto do teste de hipóteses, é usualmente denominado de estatı́stica do teste
e terá uma distribuição amostral. No nosso problema, a estatı́stica do teste é X e como pretendemos testar
o valor expresso na hipótese nula, quando a população X segue uma distribuição normal de variância
desconhecida e a amostra recolhida é pequena (n=15), resulta
X − 100
T = √ ∼ T14
s/ n
Em geral, a identificação da estatı́stica do teste e respectiva distribuição amostral depende do parâmetro

em estudo, dos dados conhecidos (desconhecidos) da população e do tamanho da amostra (ou amostras).
Cada uma das variáveis fulcrais utilizadas nos intervalos de confiança transformam-se numa estatı́stica
do teste quando se substitui o parâmetro populacional em estudo pelo valor a testar, que se encontra na
hipótese nula. No caso da diferença de proporções, sendo a hipótese nula p1 = p2 (ou p1 ≤ p2 ou p1 ≥ p) )
a variável
p̂ − pˆ2 − (p1 − p2 )
q1
p1 (1−p1 )
n1 + p2 (1−p
n2
2)
transforma-se numa estatı́stica do teste quando se substitui p1 − p2 pelo valor a testar e, para estar de
acordo com a hipótese nula, p1 e p2 por
Pn1 Pn2
n1 p̂1 + n2 pˆ2 i=1 X1i + i=1 X2i
p̂ = = ,
n1 + n2 n1 + n2
que é a média ponderada dos sucessos observados conjuntamente nas duas amostras.
iii) Na definição da regra de decisão, que consiste em rejeitar ou não rejeitar a hipótese nula, é necessário
encontrar um valor (ou valores), dito crı́tico, que nos ajude nesta decisão. No nosso problema, rejeitamos
o valor 100 desde que uma estimativa da média esteja “afastada”deste valor. À partida, este afastamento
é muito relativo, o que nos leva a definir um critério de rejeição. De qualquer modo, ao se tomar a decisão
podemos cometer dois tipos de erro: rejeitar uma hipótese verdadeira (erro tipo I) ou não rejeitar uma
hipótese falsa (erro tipo II). Observe-se o quadro seguinte:
Situação Real (desconhecida)

Decisão H0 verdadeira H0 falsa
Não rejeitar H0 Decisão correcta Erro Tipo II
Rejeitar H0 Erro Tipo I Decisão correcta
A probabilidade de se cometer um erro tipo I será designada por α. E de se cometer um erro tipo II por
β. Isto é,
P (Rejeitar H0 |H0 é verdadeira) = α
P (Não Rejeitar H0 |H0 é falsa) = β.
A α chama-se nı́vel de significância do teste e a 1 − β a potência do teste.

Se rejeitarmos H0 , com um nı́vel de significância α, podemos aceitar HA com uma confiança 1 − α. O
valor de α diminui se β aumenta (e vice-versa). Por outro lado, a probabilidade de se cometer um erro do
50
tipo II, e portanto, a potência do teste, 1 − β, dependem da forma como a hipótese alternativa se afasta
da hipótese nula. Só existe uma forma de diminuir um dos riscos α ou β sem aumentar o outro: aumentar
o número de dados amostrais com base nos quais é calculada a estatı́stica do teste. Em grande parte dos
problemas a resolver, em particular no que nos serve de exemplo, é especificado o nı́vel de significância, já
que o objectivo é a rejeição de H0 . Quando o nı́vel de significância é especificado à partida, permite-nos
encontrar um conjunto de valores assumidos pela estatı́stica do teste para os quais rejeitamos H0 . Este
conjunto é denominado por Região Crı́tica e, no contexto do problema que estamos a tratar, esta região
é do tipo bilateral, pois HA : µ > 100 ∨ µ < 100, sendo dada por
© ª
RC = tobs : tobs ≤ −tc ∨ tobs ≥ tc ,
onde tc é denominado de valor crı́tico.

Se fosse HA : µ < µ0 (resp. HA : µ > µ0 ) a região crı́tica era do tipo unilateral esquerda (resp.
unilateral direita) e era dada por
© ª
RC = tobs : tobs ≤ tc ,
(resp.
© ª
RC = tobs : tobs ≥ tc ).
O valor crı́tico é determinado da seguinte forma:
P (Rejeitar H0 |H0 verdadeira) = α ⇔

⇔ P (X ∈ RC1 |µ = µ0 ) = 0.01
µ ¶
X − µ0 X − µ0
⇔ P √ ≤ −tc ∨ √ ≥ tc = 0.01
s/ n s/ n
⇔ P (T14 ≤ −tc ∨ T14 ≥ tc ) = 0.01
⇔ P (T14 ≥ tc ) = 0.005
(onde RC1 é a região crı́tica de valores não estandardizados)

e consultando-se uma tabela t de Student, obtemos para tc o valor 2.977.
iv) Depois de determinada a região crı́tica, podemos decidir a rejeição ou não rejeição de H0 . Para tal, temos
que calcular o valor do teste, isto é, o valor dado pela estatı́stica do teste calculado a partir da amostra(s)
recolhida(s). No nosso exemplo, o valor do teste é
89.6 − 100
tobs = √ ≈ −2.6853
15/ 15
Como este valor não pertence à região crı́tica, não rejeitamos H0 , isto é, não rejeitamos que um instrumento
de precisão tenha em média 100 gramas.
Em vez de termos especificado o nı́vel de significância, poderı́amos, a partir do valor do teste, encontrar
o nı́vel de significância, isto é, a probabilidade mı́nima que permita rejeitarmos H0 , se H0 é verdadeira. No
exemplo que temos vindo a tratar, um valor crı́tico que permita rejeitar H0 é, usando a tabela t de Student,
2.624 e o respectivo nı́vel de significância é 0.02. Assim, para o nı́vel de significância de 2% podemos rejeitar H0 ,
isto é, podemos rejeitar que um instrumento de precisão tenha em média 100 gramas. Nestas circunstâncias, a
garantia dada pelos fabricantes não está a ser respeitada.
Esta última abordagem sugere que se determine a probabilidade no extremo da cauda (ou caudas, no caso
bilateral) associada ao valor observado da estatı́stica do teste. A esta probabilidade chama-se valor-p do teste
e toma-se a decisão com base nessa probabilidade. Assim, no teste que temos vindo a explorar, o valor-p é dado
por
P (|T14 | ≥ | − 2.6853|),
e como se tem que
0.01 < P (|T14 | ≥ | − 2.6853|) < 0.02,
51
resulta a não rejeição da hipótese nula quando se toma α = 0.01 e a rejeição quando α = 0.02
Quando queremos estudar variáveis que surjam naturalmente associadas, o procedimento base é semelhante
ao adoptado durante o estudo da estimação intervalar (ver final do Capı́tulo 5).
52
Capı́tulo 7
Testes Não Paramétricos
Neste capı́tulo estudaremos dois testes, ditos do qui-quadrado, que não incidem explicitamente sobre um
parâmetro de uma ou mais populações.
7.1 Teste de Ajustamento (Teste de Aderência)

Este teste aplica-se quando se pretende ensaiar hipóteses relativas à distribuição de uma população em estudo.
Este teste consiste em comparar as frequência observadas numa amostra e as frequências que seriam de esperar
se a população em estudo seguisse a distribuição especificada. Assim, pretende-se ensaiar
Hipóteses:
H0 : A população segue a distribuição especificada
HA : A população não segue a distribuição especificada
para um nı́vel de significância α.

Recolhida uma amostra aleatória de tamanho n e classificando estes dados de acordo com as modalidades
A1 , A2 , . . . , Ak do atributo qualitativo ou quantitativo em estudo, necessitamos dos seguintes elementos para a
construção da estatı́stica do teste, para cada i = 1, 2, . . . , k:
ni = frequência absoluta (observada) da modalidade Ai

Xk
ni = n
i=1
pi = P (Ai ) = probabilidade de ocorrência de Ai , quando a distribuição da população é a especificada
Xk
pi = 1
i=1
npi = frequência absoluta esperada da modalidade Ai , quando a distribuição da população é a especificada
Logo, pode mostrar-se, que uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é
k
X 2
(ni − npi )
i=1
npi
Xk
n2i
−n
i=1
npi
e sob H0
k
X 2
(ni − npi ) o
∼ χ2k−ν−1 ,
i=1
npi
sempre que n ≥ 30 e npi ≥ 5, i = 1, 2, . . . , k, e ν representa o número de parâmetros desconhecidos da população
que há necessidade de estimar.
53
Analisando-se a estatı́stica do teste, verifica-se que a hipótese H0 poderá ser verdadeira se as diferenças entre
as frequências observadas e esperadas forem pequenas. Logo,
1. Se o valor da estatı́stica do teste for nulo, então as frequências observadas e esperadas coincidem e a hipótese
H0 é verdadeira.
2. Se o valor da estatı́stica do teste for positivo, então as frequências observadas e esperadas não coincidem.
Quanto maior for o valor do teste, (χ2obs ), maior será a discrepância entre as frequências observadas e
esperadas. Se essa discrepância for suficientemente grande, rejeita-se H0 .
Consequentemente, neste teste, a região crı́tica é sempre unilateral direita:

© ª £ £
RC = χ2obs : χ2obs ≥ χ2c = χ2c , +∞
Exemplo 7.1 Uma máquina de lavar roupa é vendida em cinco cores: A1 = verde, A2 = castanho,
A3 = vermelha, A4 = azul e A5 = branco. Num estudo de mercado para apreciar a popularidade das várias
cores analisou-se uma amostra aleatória de 300 vendas recentes com o seguinte resultado:
Verde Castanho Vermelho Azul Branco TOTAL

88 65 52 40 55 300
Pretende ensaiar-se a hipótese de que os consumidores não manifestam tendência para preferir qualquer das
cores,
H0 : p1 = p2 = p3 = p4 = p5 = 0.2.
Os cálculos necessários para o teste encontram-se no quadro seguinte:
Classes A1 A2 A3 A4 A5 TOTAL
ni 88 65 52 40 55 300
npi 60 60 60 60 60 300
(ni − npi )2 /npi 13.07 0.42 1.07 9.67 0.42 21.65
Para α = 0.05 e para 4 graus de liberdade, RC = [9.49, +∞[. Como se obteve um valor do teste
χ2obs = 21.65 > 9.49,

a hipótese H0 é nitidamente de rejeitar: os dados não são compatı́veis com H0 , para um nı́vel de significância
de 5%.
7.2 Testes de Associação

7.2.1 Teste de Independência
Com este teste pretende ensaiar-se se dois atributos A e B, qualitativos ou quantitativos, com modalidades
A1 , A2 , . . . , Ar e B1 , B2 , . . . , Bs , respectivamente, são independentes, isto é, se
P (Ai ∩ Bj ) = P (Ai ) · P (Bj ) , i = 1, . . . , r, j = 1, . . . , s.

Assim:
Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes

Dada uma amostra aleatória de tamanho n, considerem-se os seguintes elementos, para i = 1, . . . , r e
j = 1, . . . , s:
nij = frequência absoluta das modalidades Ai e Bj
54
r X
X s
nij = n
i=1 j=1
pi· = P (Ai ) = probabilidade de ocorrência da modalidade Ai

r
X
pi· = 1
i=1
p·j = P (Bj ) = probabilidade de ocorrência da modalidade Bj

s
X
p·j = 1
j=1
pij = P (Ai ∪ Bj ) = probabilidade de ocorrência simultânea das modalidades Ai e Bj

r X
X s
pij = 1
i=1 j=1
ni· = frequência absoluta da modalidade Ai , qualquer que seja a modalidade Bj

r
X
ni· = n
i=1
n·j = frequência absoluta da modalidade Bj , qualquer que seja a modalidade Ai
s
X
n·j = n
j=1
A hipótese H0 é verdadeira se pij = pi· p·j , para i = 1, . . . , r e j = 1, . . . , s. Mas estes valores são, obviamente,
nij
desconhecidos. Logo, o teste irá consistir em comparar o estimador de pij , p̂ij = , com o estimador de pi· p·j ,
n
ni· n·j ni· n·j
p̂i· p̂·j = · , ou, equivalentemente, comparar nij com np̂i· p̂·j = .
n n n
Uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é
Xr X s 2
(nij − np̂i· p̂·j )
i=1 j=1
np̂i· p̂·j
r X
X s
n2ij
− n,
i=1 j=1
np̂i· p̂·j
e, sob H0
Xr X s 2
(nij − np̂i· p̂·j ) o 2
∼ χ(r−1)(s−1) ,
i=1 j=1
np̂i· p̂·j
sempre que n ≥ 30 e np̂i· p̂·j ≥ 5, para i = 1, . . . , r e j = 1, . . . , s.
À semelhança do teste de ajustamento, o teste de independência tem sempre uma região crı́tica unilateral
direita.
Para facilitar a análise e cálculos num teste de independência é usual utilizarem-se as tabelas de con-
tigência seguinte:
nij B1 B2 ··· Bs ni· np̂i· p̂·j B1 B2 ··· Bs ni·
A1 n11 n12 ··· nis n1· A1 np̂1· p̂·1 np̂1· p̂·2 ··· np̂1· p̂·s n1·
A2 n21 n22 ··· n2s n2· A2 np̂2· p̂·1 np̂2· p̂·2 ··· np̂2· p̂·s n2·
.. .. .. .. .. .. .. .. .. ..
. . . ··· . . . . . ··· . .
Ar nr1 nr2 ··· nrs nr· Ar np̂r· p̂·1 np̂r· p̂·2 ··· np̂r· p̂·s nr·
n·j n·1 n·2 ··· n·s n n·j n·1 n·2 ··· n·s n
ni· n·j
sendo np̂i· p̂·j = .
n
55
Exemplo 7.2 M. um corrector de bolsa, crê que quando a actividade da bolsa é fraca durante a manhã, tende
também a ser fraca durante a tarde. Em consequência, M. está a pensar em tirar, ocasionalmente, a tarde livre
quando a actividade da bolsa for fraca durante a manhã. Registou então o volume de negócios, durante 80 dias,
nos perı́odos da manhã e da tarde e classificou-os na seguinte tabela:
Manhã Tarde
Fraca Activa
Fraca 13 7
Activa 31 29
Pretendemos ensaiar se a actividade da bolsa de manhã é independente da actividade de tarde, para um nı́vel
de significância de 5%. Assim, sendo os atributos, e respectivas modalidades,
A = Actividade da bolsa durante a manhã

A1 = Fraca
A2 = Activa
B = Actividade da bolsa durante a tarde

B1 = Fraca
B2 = Activa
pretende ensaiar-se
Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes
Usando-se uma tabela de contigência
nij / np̂i· p̂·j B1 B2 ni·

A1 13 / 11 7/9 20
A2 31 / 33 29 / 27 60
n·j 44 36 n =80
ni· n·j
sendo np̂i· p̂·j = , resulta que
n
133 72 312 292
χ2obs = + + + − 80 ≈ 1.0774.
11 9 33 27
Como, para α = 0.05 e 1 grau de liberdade, RC = [3.84, +∞[, então não se rejeita H0 , isto é, não se rejeita
que as actividades da bolsa de manhã e de tarde sejam independentes. Em princı́pio, o corrector não deve tirar,
ocasionalmente, a tarde livre.
7.2.2 Teste de Homogeneidade

Este teste consiste em ensaiar se as proporções relativas às modalidades de um atributo B, para a mesma
modalidade de um atributo A, (Ai ), isto é, as proporções pi1 , pi2 , . . . , pis , podem ser iguais (homogéneas). Este
teste é muito utilizado quando uma amostra aleatória é dividida em grupos não aleatórios (exemplo: se n = 100
e formarmos dois grupos, n·1 = 50 e n·2 = 50). Por esta razão, é um teste muito utilizado em Biologia, no
sentido em que se pretende comparar dois grupos, sendo um de controlo.
O teste é igual ao de independência, sendo as hipóteses formuladas:
H0 : Existe homogeneidade
HA : Não existe homogeneidade
56
Apêndice A
Técnicas de Contagem
A.1 Arranjos Completos de n Elementos Tomados p a p

Definição A.1 Seja C um conjunto finito. As sequências do conjunto
C p = {(c4 , c2 , . . . , cp ) : ci ∈ C, i = 1, 2, . . . , p}
chamam-se arranjos com repetição ou arranjos completos.
O número de arranjos com repetição de n elementos p a p é designado por n A0p ou A0n,p , onde n = #C.
n
Proposição A.1 A0p = np
Observação A.1 Na demonstração da proposição anterior utiliza-se o seguinte:
# (B1 × B2 × · · · × Bm ) = #B1 · #B2 · · · #Bm .
Isto é, o cardinal do produto cartesiano de m conjuntos é igual ao produto dos cardinais desses conjuntos.
A.2 Arranjos Sem Repetição de n Elementos Tomados p a p

Definição A.2 Chamam-se arranjos sem repetição ou arranjos simples às sequências constituı́das por
elementos todos distintos.
O número de arranjos simples de n elementos p a p é designado por n Ap ou An,p .
Em particular, se n = p, os arranjos simples denominam-se por permutações e n An = Pn .
n n!
Proposição A.2 Ap = n × (n − 1) × (n − 2) × · · · × (n − p + 1) =
(n − p)!
Observações A.2
1. Obviamente, nos arranjos simples n ≥ p.
2. Não esquecer que, por definição,
½
n × (n − 1) × · · · × 2 × 1 se n ∈ N \ {1},
n! =
1 se n = 1,
e, por convenção, 0! = 1. Assim, Pn = n!.
A.3 Combinações de n Elementos Tomados p a p

Definição A.3 Seja A um conjunto com n elementos. Chamam-se combinações desses n elementos p a p a
todos os subconjuntos desses ¡de¢ p elementos que é possı́vel considerar em A.
Designam-se por n Cp ou np o número total de combinações de n elementos p a p.
Observação A.3 Repare-se que abc e acb são arranjos simples distintos, mas a mesma combinação. Isto é,
nos arranjos tem-se em conta a ordem, mas não nas combinações.
n
n Ap n!
Proposição A.3 Cp = = , com n ≥ p.
Pp p!(n − p)!

Probabilidades-AUTOR JORGE GAMA

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Probabilidades-AUTOR JORGE GAMA

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSIDADE DA BEIRA INTERIOR

Ano Lectivo 2005/2006

Teoria das Probabilidades

a) Pode ser repetido inúmeras vezes em idênticas condições.

2. Lançamento de um dado e registo do número de pontos obtidos.

1.2 Espaço de Resultados

Ω = {F 1, F 2, F 3, F 4, F 5, F 6, C1, C2, C3, C4, C5, C6}.

1.3 Acontecimentos Aleatórios

1. Os acontecimentos serão designados por letras maiúsculas (A, B, C, . . . , A1 , A2 , . . . ).

2. Representaremos por P(Ω) as partes de Ω, isto é, o conjunto de todos o acontecimentos de Ω.

1. Obviamente, Ω é um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).

3. O acontecimento ∅ denomina-se de acontecimento impossı́vel ( ∅ ∈ P(Ω)).

Exemplo 1.3 No lançamento de duas moedas

Ω = {(F, F ), (F, C), (C, F ), (C, C)}

1.3.1 Principais Conceitos da Álgebra de Acontecimentos

7) Quando A ⊂ B, B \ A é o acontecimento complementar de A em relação a B.

2. A operação reunião (resp. intersecção) é comutativa:

4. A operação reunião (resp. intersecção) é idempotente:

1.4 Axiomas da Teoria das Probabilidades

Proposições 1.2 Sejam Ω um espaço de resultados e A, B e C três acontecimentos, quaisquer.

1.5 Espaços de Resultados Finitos. Definição Clássica de Probabi-

P ({ω1 }) = P ({ω2 }) = · · · = P {ωn }).

1.6 Probabilidades Condicionadas. Independência

P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ).

Dois acontecimentos são independentes se a probabilidade da ocorrência de um não afecta a probabilidade

1 ≤ i1 < i2 < i3 < · · · < ik ≤ n,

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).

P (B) = P (B|A1 ) · P (A1 ) + P (B|A2 ) · P (A2 ) + · · · + P (B|An ) · P (An )

Observe ainda que B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ . . . ∪ (B ∩ An ).

P (B) = P (B|A) · P (A) + P (B|A) · P (A).

Teorema 1.7 (Teorema de Bayes) Sejam A1 , A2 , . . . , An acontecimentos mutuamente exclusivos e exausti-

Variáveis Aleatórias Reais.

2.1 Definição de Variável Aleatória

Ω = {F F F, F F C, F CF, F CC, CCC, CCF, CF F, CF C}.

Considere-se a seguinte variável aleatória:

X1 = número de empregados de uma empresa;

Proposição 2.1 Sejam Ω um espaço de resultados, X : Ω −→ R e Y : Ω −→ R duas variáveis aleatórias, e

A f.d., F (x), de uma v.a. X goza das seguintes propriedades:

Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termos

Esta propriedade torna útil a seguinte definição:

e existe uma função não negativa, fX (x) ≥ 0 (ou f ), tal que

1. Mostra-se que, se D = {a : P (X = a) > 0} = ∅, então F (x) não apresenta descontinuidades.

ou, em forma de tabela,

x x<0 0≤x<1 1≤x<2 2≤x<3 x≥3

Nota: O gráfico da função de distribuição de uma variável discreta é sempre em escada.

Então, a sua função de densidade pode ser definida por

1. Considerando novamente o exemplo 1 dos Exemplos 2.1,

Definição 2.8 Seja X uma v.a. e φ(X) uma função de X.

2. E(a φ(X)) = a E(φ(X));

3. E(a X + b Y ) = a E(X) + b E(Y ).

O quantil de ordem p será representado por ζp .

1. No contexto do exemplo 1. dos Exemplos 2.1,

2.2.2 Medidas de Dispersão

2. Se X é uma v.a. contı́nua, o desvio absoluto médio define-se por

2. Se X é uma v.a. contı́nua, a variância define-se por

Proposições 2.4 Se X é uma v.a., então

À custa da variância define-se outra medida de dispersão.

2.2.3 Variáveis Estandardizadas

Definição 2.16 Chama-se momento ordinário de ordem k ao parâmetro

se X é uma v.a. discreta, ou Z +∞

se X é uma v.a. contı́nua.

se X é uma v.a. discreta, ou Z +∞

2.2.6 Função Geradora de Momentos

Pretende-se determinar E(Y ) a partir da f.g.m. de Y .