0 Petrehus Si Popescu Lectii Prob Stat II

UNIVERSITATEA TEHNICA DE CONSTRUCTII
BUCURESTI

CATEDRA DE MATEMATICA

Viorel PETREHU Sever-Angel POPESCU

PROBABILITI
I
STATISTIC

(teorie, exemple, probleme)

BUCURETI 1997
Cuprins
Cuvnt nainte v
I Probabilit ati 1
1 Denitia probabilit atii 2
1.1 Denitia clasic a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Denitia axiomatic a a probabilit atii . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Probabilit ati conditionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Variabile aleatoare simple 14
2.1 Denitie si propriet ati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Spatiul de probabilitate produs . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 o Cmpuri de probabilitate 24
3.1 Variabile aleatoare pe o cmpuri de probabilitate . . . . . . . . . . . . . . . . 25
3.2 Media unei variabile aleatoare oarecare . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Functia de repartitie
densitatea de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Integrala Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5 Media si functia de repartitie . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.7 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
i
CUPRINS ii
4 Legi clasice 43
4.1 Repartitia binomial a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Repartitia Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Repartitia uniform a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Repartitia Normal a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5 Repartitia exponential a negativ a . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.6 Repartitia Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.7 Repartitia X
2
(hi p atrat) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.8 Repartitia Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.9 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.10 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 Legi limit a 60
5.1 Legea numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Teoreme limit a central a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 Dependenta ntre variabilele aleatoare 72
6.1 Coecientul de corelatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Variabile aleatoare bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3 Functia de repartitie conditionat a . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.4 Distributia sumei si ctului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.4.1 Distributia sumei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.4.2 Distributia ctului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.5 Distributia Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.6 Distributia Snedecor-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.7 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7 Procese aleatoare 89
7.1 Procese Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.2 Procese Markov discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.3 Procese de nastere si moarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.3.1 Model de asteptare cu o singur a statie de deservire si un num ar mare
de unit ati ce au nevoie de serviciile statiei
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.3.2 Model de asteptare cu o singur a statie
iar num arul de unit ati care au nevoie de serviciile statiei este limitat la
o valoare dat a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
CUPRINS iii
7.3.3 Model de asteptare cu n statii de deservire si cu N unit ati ce trebuie
deservite (1<n<N) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.4 Procese aleatoare stationare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.5 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
II Statistic a 106
8 Statistica descriptiv a 107
8.1 Statistica unei variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 Statistica a dou a variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.3 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9 Statistici. Estimarea parametrilor 118
9.1 Principiul verosimilit atii maxime . . . . . . . . . . . . . . . . . . . . . . 125
9.2 Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . 129
9.3 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
10 Intervale de ncredere 132
10.1 Intervale de ncredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . 133
10.1.1 Dispersia este cunoscut a . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.1.2 Dispersia este necunoscut a . . . . . . . . . . . . . . . . . . . . . . . . 135
10.2 Intervale de ncredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . 136
10.3 Intervale de ncredere pentru ctul a dou a dispersii . . . . . . . . . . . . . . . . 137
10.4 Intervale de ncredere n cazul unor selectii mari . . . . . . . . . . . . . . . . . 138
10.5 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
10.6 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.7 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
11 Ipoteze statistice. Teste statistice 144
11.1 Ipoteze si testarea lor . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
11.1.1 Testul 2 privind media unei populatii normale cu dispersia cunoscuta o
2
146
11.1.2 Testul 1 privind media unei populatii normale cu dispersia estimata
prin estimatorul nedeplasat o
t2
. . . . . . . . . . . . . . . . . . . . . . 152
11.1.3 Test pentru proportia de succese . . . . . . . . . . . . . . . . . . . . . 154
11.1.4 Testul T pentru compararea a dou a esantioane . . . . . . . . . . . . . 155
11.2 Tipuri de erori. Reguli de decizie . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.3 Puterea unui test statistic . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
11.4 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
11.5 Exercitii rezolvate (mai dicile) . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.6 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
CUPRINS iv
12 Testul neparametric
2
174
12.1 Principiul testului
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
12.1.1 Teste asupra formei unei distributii . . . . . . . . . . . . . . . . . . . . 179
12.1.2 Teste de independent a . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.1.3 Teste de omogenitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
12.2 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
12.3 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
12.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
13 Alte teste neparametrice 190
13.1 Testul de concordant a Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 190
13.2 Testul lungimilor (secventelor) . . . . . . . . . . . . . . . . . . . . . . . . . . 192
13.3 Testul lui Wilcoxon I (cazul observatiilor necuplate) . . . . . . . . . . . . . . 194
13.4 Testul semnelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
13.5 Testul lui Wilcoxon II (cazul observatiilor cuplate) . . . . . . . . . . . . . . . . 196
13.6 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
14 Analiza dispersiei si analiza regresiei 200
14.1 Analiza dispersiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
14.2 Analiza regresiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
14.2.1 Metoda celor mai mici p atrate (C. F. Gauss) . . . . . . . . . . . . . . 204
14.2.2 Conditiile GaussMarkov pentru metoda celor mai mici p atrate . . . . 205
14.2.3 M asura deviatiei la metoda celor mai mici p atrate . . . . . . . . . . . 207
14.2.4 Intervale de ncredere si teste pentru ,
0
si ,
1
. . . . . . . . . . . . . . 210
Cuvnt nainte
Cursul de fat a a fost scris n perioada 1996-1997 de c atre Viorel Petrehus (partea I, probabil-
it ati) si Angel Popescu (partea a II-a, statistic a) pentru studentii anului II din Universitatea
Tehnic a de Constructii Bucuresti si a ap arut n 1997 multiplicat n atelierele universit atii. El
a fost gndit n 14 lectii, cte una pe s apt amn a, pe parcursul unui semestru. Fiecare lectie
se ncheie cu exercitii.
Autorii sunt recunosc atori tuturor celor care au contribuit cu observatiile lor la buna
organizare a materialului prezentat.
Autorii
v
Partea II
Statistic a
106
Lectia 8
Statistica descriptiv a
In cele ce urmeaz a vom ncerca s a explic am ce este statistica, cum difer a ea de teoria probabil-
it atilor, ce o leag a de aceasta, care sunt p artile ei componente si cum ncepe demersul practic
ntr-o problem a de statistic a (adic a vom spune cteva cuvinte despre statistica descriptiv a).
Atunci cnd omul nu a mai putut intui a nceput s a masoare. M asur atorile si obser-
vatiile au devenit prima treapt a spre ntelegerea legilor naturii. Dar, n acest fel, omul nu
mai poate s a cunoasc a direct realitatea, el poate numai s a o aproximeze succesiv prin modele
zice si apoi prin modele matematice. Dar aceste modele nu descriu exact Realitatea. Ele o
aproximeaz a si apar asa numitele erori. Unele erori sunt previzibile, altele ns a sunt ntm-
pl atoare (aleatoare). Aceste ultime erori (aleatoare) au si ele legile lor de manifestare. Apar
deci fenomenele aleatoare descrise prin variabilele aleatoare. Teoria probabilit atilor pleac a de
la ipoteza c a se cunosc exact aceste variabile aleatoare (prin functiile de probabilitate, prin
functiile de repartitie, prin functiile caracteristice, etc.). Statistica pleac a de la m asurato-
rile brute si caut a s a reg aseasc a modelul probabilistic teoretic exact care se a a n spatele
acestor m asuratori. Partea empiric a a statisticii care se ocup a de prelucrarea datelor obt-
inute prin m asuratori sau observatii se numeste statistica descriptiva. Aparatul matematic al
teoriei probabilit atilor, pus n functiune pentru a studia si interpreta aceste date, n dorinta
de a recupera modelul probabilistic real, care guverneaz a fenomenul m asurat sau observat,
formeaz a inferenta statistica. Dup a ce cercet atorul cap at a informatii sucient de clare despre
fenomenul probabilistic studiat, el va trebui s a actioneze optim potrivit acestor informatii.
Apare deci teoria deciziei statistice, care este o ramur a important a a statisticii.
8.1 Statistica unei variabile
Multimea de obiecte studiat a se numeste populatie. Un obiect separat dintr-o populatie
dat a se numeste individ sau membru al populatiei. Tr as atura comun a a tuturor membrilor
populatiei care ne intereseaz a n studiul nostru se numeste caracteristica. Caracteristicile
pot cantitative (naltime, greutate, not a la examen, abscisa unui punct n plan, etc...) sau
107
LEC TIA 8. STATISTICA DESCRIPTIV
A 108
calitative (culoarea ochilor, sex, loc de nastere, etc...). Oricum statistica lucreaz a cu numere,
caracteristicilor calitative li se atasaz a coduri numerice.
Exemplul 8.1 Ne intereseaza statistica ploilor n Bucuresti pe anul 1995, zilnic. Aici popu-
latia este multimea zilelor din anul 1995, un individ al populatiei este o zi anume din acest an,
de exemplu 3 ianuarie, iar caracteristica calitativa este faptul ca a plouat sau nu n acea zi.
Daca a plouat punem 1 si daca nu, putem 0. Numerele 1 si 0 reprezinta coduri n statistica
respectiva.
Presupunem n continuare c a avem numai caracteristici cantitative ale unor populatii, mai
exact avem multimi brute de numere reale, sau tabele de numere reale. Privim aceste numere
atasate unei populatii ca ind valori ale unei variabile aleatoare X. Vom spune pe scur: e
populatia X.
Exemplul 8.2 O masina produce piese cilindrice ne, cu diametru standard xat c= 3 cm.
Fiecare piesa are o abatere de la acest diametru, masurata n microni. Aceste abateri formeaza
o populatie n sensul de mai sus, mai bine zis valorile unei variabile aleatoare X. Noi nu
putem sa precizam de la nceput ce abatere va avea o piesa luata la ntmplare, dar putem
face o selectie de n piese si putem masura abaterile lor: r
1
. r
2
. .... r
a
. Fiecare r
i
reprezinta
o valoare a v.a. X care, teoretic vorbind, are o densitate de probabilitate j(r) si o functie de
repartitie 1(r).
Denitia 8.3 O mul time de n observa tii independente asupra unei caracteristici numerice X
a unei popula tii P, care ne da n valori r
1
. r
2
. ...r
a
, se nume ste selec tie de volum n. Sirul de
valori (r
i
)
1ia
l vom numi serie statistica discreta.
In exemplul de mai sus facem o selectie de volum n din multimea pieselor si construim asa
numita functie de repartitie empirica 1
+
a
(r).
Denitia 8.4 Se nume ste func tie de reparti tie empirica asociata unei variabile aleatoare X
si unei selec tii r
1
. r
2
. .... r
a
.func tia 1
+
a
: 1 1
1
+
a
(r) =
nr. de valori r
)
< r
:
=
/
a
:
Teorema de mai jos pune n evident a c a functiile de repartitie empirice aproximeaz a orict
de bine functia real a de repartitie.
Teorema 8.5 Fie P o populatie statistica si X variabila aleatoare atasata ei cu functia de
repartitie 1(r). Pentru o selectie de volum :: {r
1
. r
2
. .... r
a
construim ca mai sus functia
de repartitie empirica 1
+
a
(r). Atunci
Pr o/ [ 1(r) 1
+
a
(r) [_ c 0
cnd : . pentru orice c 0, xat. Altfel spus 1
+
a
(r) 1(r) n probabilitate.
A 109
Demonstratie S a not am cu j =ProbX < r = 1(r), si cu 1
+
a
(r) =
I
x
a
(vezi denitia de
mai sus). Not am cu j
1
. .... j
a
v.a. construite astfel: j
)
are valoarea 1 dac a r
)
< r si 0 n caz
contrar. Variabilele j
1
. ...j
a
sunt independente (ca valori ale unor observatii independente) si
au distributia
_
1 0
p 1-p
_
Avem `(j
i
) = j. 1(j
i
) = j(1 j). Este clar c a v.a. 1
a
=
j
1
++j
n
a
are media j si dispersia
1(1
a
) =
1
:
2
(1(j
1
) +... +1(j
a
)) =
j(1 j)
:
(a se vedea propriet atile mediei si dispersiei, Lectia 2). Aplic am acum inegalitatea lui Cebsev
lui 1
a
si g asim c a
Prob([ 1
+
a
(r) 1(r) [_ c)
= Prob([1
a
j[ _ c) _
1(1
a
)
c
2
=
j
2
(1 j)
2
:c
2
Cum partea dreapt a tinde la 0 cnd : rezult a c a 1
+
a
(r) 1(r) n probabilitate,
cnd : .
QED.
In urma oric arei selectii de volum : dintr-o populatie de numere se obtine un sir nit de
: numere numit serie statistica (de volum :). Cum construim o densitate de probabilitate
empiric a? Pentru a r aspunde la aceast a ntrebare grup am termenii unei serii statistice n
intervale disjuncte: I
1
,I
2
,...,I
I
, dup a criterii mai mult sau mai putin subiective. Asociem
ec arui interval I
)
mijlocul lui, M
)
. Punctului M
)
i asociem frecventa relativa a v.a. empirice
pe intervalul I
)
, adic a ctul dintre num arul :
)
al acelor r
i
care se a a n I
)
si : (volumul
ntregii selectii): :
)
,:. Este clar c a n felul acesta obtinem o v.a.

A
a
_
r
)
:
)
,:
_
, = 1. 2. .... /,
unde r
)
este abscisa punctului M
)
. Gracul functiei de probabilitate al v.a.

A
a
se numeste
histograma asociat a selectiei r
1
. .... r
a
si mp artirii n intervale I
1
,...,I
I
. Dac a unim printr-
o linie poligonal a punctele de coordonate ( r
)
. :
)
,:) obtinem un poligon al frecventelor ce
aproximeaz a de fapt gracul functiei densitate de probabilitate al v.a. X pe un interval nit
(I
1
'I
2
' 'I
I
) care contine numerele r
1
,...,r
a
.
Pentru o selectie dat a r
1
. .... r
a
se introduc diferiti indicatori empirici care dau anumite
informatii despre ntreaga populatie.
Denitia 8.6 Fie r
1
. r
2
. ..r
a
o selec tie de volum n.
i) :
+
=
a
1
+a
2
+..a
n
a
se nume ste media empirica.
ii) :
+
v
=
a
k
1
+a
k
2
+..+a
k
n
a
se nume ste momentul empiric de ordinul r.
iii) j
+
I
=
(a
1
n
)
k
+(a
2
n
)
k
+...+(a
n
n
)
k
a
se nume ste momentul empiric centrat de ordin k.
A 110
iv) o
+2
=D
+
= o
+2
=
(a
1
n
)
2
+(a
2
n
)
2
+...+(a
n
n
)
2
a
se nume ste dispersia empirica sau vari-
an ta empirica. o
+
se nume ste devia tia standard.
v) o
t+2
=
(a
1
n
)
2
+(a
2
n
)
2
+...+(a
n
n
)
2
a1
se nume ste dispersia empirica modicata.
vi) Valoarea c 1 astfel ca numarul de valori r
i
_ c este egal cu numarul de valori
r
i
_ c, se nume ste mediana. Daca exista mai multe asemenea valori pentru c, atunci ele
formeaza un interval si mediana este prin deni tie mijlocul acestui interval.
vii) Valoarea r
i
cu frecven ta maxima de apari tie se nume ste modul selec tiei. (este posibil
sa nu e unic)
viii) Se nume ste prima cvartila a selec tiei, cel mai mic r astfel ca numarul de valori r
)
_ r
sa e _
1
4
: . A treia cvartila este cea mai mica valoare r
i
astfel ca numarul de valori r
)
_ r
i
sa e _
3
4
:. Analog se dene ste a p-a cuantila de ordin q ca cea mai mica valoare r
i
astfel
ca numarul de valori r
)
_ r
i
sa e _
j
q
:.
Observatia 8.7 In cazul cnd datele sunt grupate pe intervale, deni tiile de mai sus se
refera la mijloacele intervalelor, ecare mijloc ind considerat de attea ori cte valori se aa
n el.
In general daca o valoare r
i
se repeta atunci vom nota cu :
i
numarul de apari tii, si
cu ,
i
=
a
i
a
frecven ta relativa. Formulele de mai sus pot scrise :
+
=
P
a
i
a
i
a
=

,
i
r
i
,
o
+2
=

,
i
(r
i
:
+
)
2
, etc. Insumarea se face acum numai dupa valorile r
i
distincte. Seria
statistica o vom nota n acest caz (r
i
. :
i
)
1ij
, punnd n eviden ta de cte ori apare ecare
valoare.
Media si mediana descriu centrul valorilor de selec tie iar dispersia este o masura a
mpra stierii acestor valori n jurul centrului. Modul indica n ce zona sunt cele mai probabile
valori. Cuantilele indica n ce zone se aa un anumit procent de valori.
Propozitia 8.8 Urmatoarele formule au loc:
o
+2
=
:
r
2
i
(
r
i
)
2
:
2
(8.1)
o
+t 2
=
:
r
2
i
(
r
i
)
2
:(: 1)
(8.2)
o
+t 2
=
r
2
i
: 1

_
:
: 1
_
:
+2
(8.3)
Demonstratie. Sunt calcule simple l asate ca exercitiu.
Observatia 8.9 In general n calcule nu utilizam nota tiile m
+
. 1
+
. etc. ci m, D, ... Am intro-
dus aici nota tiile m
+
. 1
+
. .. pentru a le distinge de m=media teoretica, D=dispersia teoretica,
etc., care se vor introduce n lec tia urmatoare.
A 111
Exemplul 8.10 O rma este interesata de timpul mediu al convorbirilor telefonice si de
distributia acestor timpi fata de timpul mediu (dispersia) pe durata a 40 convorbiri telefonice
consecutive. Timpii s-au rotunjit n minute si rezultatul sondajului a dat urmatorii timpi: 4,
6, 4, 4, 7, 2, 3, 1, 2, 1, 1, 4, 9, 8, 11, 12, 3, 2, 1, 1, 3, 9, 4, 5, 7, 7, 9, 10, 10, 1, 2, 2, 3, 11,
12, 10, 1, 1, 3, 4. Sa se faca si o histograma a frecventelor relative si un grac al functiei de
repartitie pentru acest sondaj.
Solutie Facem mai nti urm atorul tabel :
timpi de numarul frecv. relativa frecv. cumulata
convorbire t
i
convorbirilor :
i
,
i
= :
i
,: 1
(t
i
)
1 min 8 8,40 8,40
2 min 5 5,40
8
40
+
5
40
=
13
40
3 min 5 5,40
8
40
+
5
40
+
5
40
=
18
40
4 min 6 6,40 24,40
5 min 1 1,40 25,40
6 min 1 1,40 26,40
7 min 3 3,40 29,40
8 min 1 1,40 30,40
9 min 3 3,40 33,40
10 min 3 3,40 36,40
11 min 2 2,40 38,40
12 min 2 2,40 40,40 = 1
media convorbirilor este
:
+
=

t
i
:
i
,: =
1
:
t
i
,
i
=
1
40
(1 8 + 2 5 + 3 5 + 4 6 + 5 1 + +6 1
+7 3 + 8 1 + 9 3 + 10 3 + 11 2 + 12 2)
= 5
dispersia empiric a este
(t
i
:
+
)
2
:
i
,:
=
_
1
40
(1 :
+
)
2
8 + (2 :
+
)
2
5 + (3 :
+
)
2
5 + + (12 :
+
)
2
2
_
= 13. 179
mediana este 4, prima cvartil a este 2, a treia cvartil a este 8,25, modul este 1.
histograma frecven telor este
A 112
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12
histograma frecven telor cumulate este:
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12
Exemplul 8.11 Se da o selectie de 150 de numere r
1
. r
2
. .... r
150
cu media de selectie
:=102, 42. Aceste numere se grupeaza n 8 intervale [81. 5; 87. 5). [87. 5; 93. 5). .... [123. 5; 129. 5),
de lungime 6 unitati. Ele se repartizeaza n aceste intervale dupa cum urmeaza: n primul
interval avem 2 numere (:
1
=2), n al doilea 23 de numere (n
2
=23), f
3
=22, n
4
=65, n
5
=20,
n
6
=10, n
7
=0, n
8
=8.a) Sa se calculeze media selec tiei. b) Sa se calculeze dispersia selectiei.
Solutie a) este l asat ca exercitiu; se g aseste :
+
= 102. 42.
b) Se face urm atorul tabel de calcule:
A 113
r
)
(ni)|cc&| iat.)
:
)
r
)
:
+
(r
)
:
+
)
2
(r
)
:
+
)
2
:
)
84. 5 2 17. 92 321. 1264 642. 2528
90. 5 23 11. 92 142. 0864 3267. 9872
96. 5 22 5. 92 35. 0464 771. 0208
102. 5 65 0. 08 0. 0064 0. 4160
108. 5 20 6. 08 36. 9664 739. 3280
114. 5 10 12. 08 145. 9264 1459. 2640
120. 5 0 18. 08 326. 8864 0. 0006
126. 5 8 24. 08 579. 8464 4638. 7712
__________
11519. 0400
G asim S
+2
=
P
(a
j
n)
2
a
j
a
=
11519,04
150
= 76. 79. Pentru vericare putem folosi formula S
+2
=
P
a
2
j
a
j
a
:
+2
care este mai comod a, dar cere o coloan a separat a cu calculul lui r
2
)
.
8.2 Statistica a dou a variabile
S a presupunem c a avem dou a caracteristici numerice care se urm aresc, de exemplu n altimea
si greutatea. Prin testare se g aseste urm atoarea situatie: r
i
sunt greut atile,
)
sunt n altimile
observate (grupate pe intervale), iar la ntret aierea coloanei i cu linia j se a a num arul de
cazuri observate, n
i,)
.
a
i
j
j
43 48 53 58 :
.,)
152 20 8 2 0 30
157 2 18 1 4 25
162 0 1 10 4 15
167 0 1 4 15 20
:
i,.
22 28 16 23 N=80
Not am o asemenea serie de observatii prin (r
i
.
)
. :
i,)
)
1ij
1)q
. Avem de exemplu la x
2
=48
si y
1
=152 un num ar de n
2,1
=8 cazuri nregistrate.
Se denesc urm atoarele m arimi:
i) :
i,.
=

)
:
i,)
, :
.,)
=

i
:
i,)
, N=
i,)
:
i,)
. Seria (r
i
. :
i,.
) se numeste seria marginal a n
x, iar seria (
)
. :
.,)
) se numeste seria marginal a n y. ,
i,.
=
a
i;:
.
si ,
.,)
=
a
:;j
.
se numesc frecvente
marginale, iar ,
i,)
=
a
i;j
.
se numeste frecventa dubl a.
ii) :
+
a
=
P
i;j
a
i;j
a
i
.
=
P
i
a
i;:
a
i
.
si :
+
j
=
P
i;j
a
i;j
j
j
.
=
P
j
a
:;j
j
j
.
se numesc medii marginale.
ii)
o
+2
a
=
i,)
:
i,)
(r
i
:
+
a
)
2
`
=
i
:
i,.
(r
i
:
+
a
)
2
`
=
i
:
i,.
r
2
i
`
:
+2
a
A 114
si
o
+2
j
=
i,)
:
i,)
(
)
:
+
j
)
2
`
=
)
:
.,)
_
)
:
+
j
_
2
`
=
)
:
.,)
2
)
`
:
+2
j
se numesc dispersii (variante) marginale.
iv) Covarianta seriei este num arul
co(r. ) =
i,)
:
i,)
(r
i
:
+
a
)
_
)
:
+
j
_
`
=
i,)
:
i,)
r
i
)
`
:
+
a
:
+
j
.
v) Coecienrtul de corelatie liniar a al seriei este j
a,j
=
cc(a,j)
o
x
o
y
.
In cazul de mai sus g asim
:
+
a
=
22 43 + 28 48 + 16 53 + 23 58
80
= 49. 438;
:
+
j
=
30 152 + 25 157 + 15 162 + 20 167
80
= 157. 313;
o
+2
a
=
22 (43 49. 438)
2
+ 28 (48 49. 438)
2
+
+16 (53 49. 438)
2
+ 23 (58 49. 438)
2
80
= 28. 246;
o
+2
j
30 (152 157. 313)
2
+ 25 (157 157. 313)
2
+
+15 (162 157. 313)
2
+ 20 (167 157. 313)
2
80
= 26. 465;
co(r. ) =
20 (43 49. 438) (152 157. 313)+
+8 (48 49. 38) (152 157. 313)+
... + 15 (58 49. 438) (167 157. 313)
80
= 18. 926;
j
a,j
=
18. 926
_
28. 246 26. 465
= 0. 692.
Reprezentarea grac a a datelor se face prin discuri pline: n punctul (r
i
.
)
) se pune un
disc cu aria proportional a cu num arul de observatii care au dat greutatea r
i
si n altimea
)
.
Se obtine histograma:
A 115
42.5 45 47.5 50 52.5 55 57.5
152.5
155
157.5
160
162.5
165
167.5
( dreapta nu face parte din histograma; vezi n continuare)
Doua selectii de acelasi volum : din doua populatii diferite, r
1
. .... r
a
si
1
. ....
a
se
zic corelate prin functia = ,(r) daca
I
= ,(r
I
), pentru / = 1. 2. .... :.
Dac a ,(r) = cr + /, corelatia se zice liniara. Am v azut n lectia 6 c a j
a,j
= 1 este
echivalent cu faptul c a punctele (r
i
.
)
) sunt de-a lungul unei drepte. Dac a
j
a,j
este apropiat
de 1 atunci datele (r
i
.
)
) sunt aproximativ pe o dreapt a = cr+/. Relu am aici, n varianta
folosit a n aplicatii acest lucru.
Teorema 8.12 Fie (r
i
.
)
. :
i,)
)
1ij
1)q
o selec tie dubla. Atunci:
a) 1 _ j
a,j
_ 1 si semnul egal apare daca si numai daca punctele (r
i
.
)
), pentru :
i,)
,= 0.
sunt coliniare.
b) Ecua tia dreptei = cr+/, unde coecien tii c. / sunt determina ti de condi tia ca expresia
(c. /) =

(a
i
,j
j
)=cbccvot
(
)
cr
i
/)
2
=

i,)
:
i,)
(
)
cr
i
/)
2
sa e minima, este:
=
co(r. )
o
+2
a
(r :
+
a
) +:
+
j
(8.4)
Aceasta dreapta se nume ste dreapta de regresie a lui y n x.
Demonstratie.
a) Deoarece :
i,)
_ 0, atunci expresia 1 =

i,)
:
i,)
_
t(
)
:
+
j
) + (r
i
:
+
a
)
_
2
este pozitiv a
pentru orice t 1. Ridicnd la p atrat, g asim: t
2
o
+2
j
+2co (r. ) t+o
+2
a
_ 0 pentru orice t 1.
Prin urmare = 4co
2
(r. ) 4o
+2
j
o
+2
a
_ 0. Prin mp artire cu o
+2
a
o
+2
j
g asim j
2
a,j
_ 1, adic a
1 _ j
a,j
_ 1. Dac a j = 1 atunci = 0 deci exist a t
0
astfel ca 1 = 0, deci ecare parantez a
A 116
este egal a cu 0, deci pentru orice i. ,, pentru care :
i,)
,= 0 avem t
0
_
)
:
+
j
_
+ r
i
:
+
a
= 0,
deci punctele (r
i
.
)
) cu :
i,)
,= 0 sunt coliniare.
b)
0(o,b)
0o
= 0.
0(o,b)
0b
= 0 formeaz a un sistem liniar n c si / cu solutiile c =
cc(a,j)
o
2
x
,
/ = :
+
j
c:
+
a
.
QED.
Analog se determin a dreapta de regresie a lui x n y. Cele dou a drepte sunt distincte. Ele
coincid doar dac a datele (r
i
.
)
) sunt coliniare. In cazul de mai sus g asim = 0. 67r+124. 188,
dreapt a care este reprezentat a pe histograma datelor.
Dac a ,(r) = cr
2
+/r+c, corelatia se zice parabolica. Coecientii se determin a din conditia
ca (c. /. c) =

i,)
:
i,)
(
)
cr
2
i
/r
i
c)
2
s a e minim a.
Dac a ,(r) = cc
ba
, corelatia se zice exponentiala si se reduce prin logaritmare tot la o
corelatie liniar a: ln (, (r)) = ln (c) +/r. Coecientii c = ln (c) si / se determin a din conditia
ca (c. /) =

i,)
:
i,)
(ln (
)
) c /r
i
)
2
s a e minim a.
Dac a ,(r) = cr
b
, atunci avem prin logaritmare ln(,(r)) = ln(c) +/ ln (r), si, la fel ca mai
sus se deduc coecientii c = ln (c) si / din conditia (c. /) =

i,)
:
i,)
(ln(
)
) c / ln(r
i
))
2
s a e minim a.
In multe situatii pentru ecare r
i
avem doar o valoare pe care o not am
i
, deci valorile
(r
i
.
i
) sunt pe gracul unei functii. Determinarea unei functii care ajusteaz a datele respective
prin metoda celor mai mici patrate const a n propunerea unui model de functie, ,(r. c. /. ..).
si determinarea parametrilor c. /. .. din conditia (c. /. ..) =

i
(
i
, (r
i
. c. /. ..))
2
s a e
minim a.
8.3 Exercitii
1. S-a facut un sondaj preelectoral pe un esantion de 100 persoane. Am notat cu A, B, C,
D, E candidatii, cu F raspunsul nedecis si cu G raspunsul nu intentionez sa votez. Sa se
construiasca o histograma cu functia de distributie si alta histograma cu functia de repartitie
(frecventa cumulata) pentru acest sondaj daca raspunsurile sunt date n urmatorul tabel: C,
A, A, B, E, F, F, C, C, C, A, B, A, A, A, E, F, A, B, G, D, B, B, C, F, G, G, D, D, D,
B, A, B, B, B, F, G, B, C, A, E, C, C, D, G, A, A, E, E, E, C, D, D, E, G, G, A, B, B,
A, F, F, G, G, G, G, A, A, A, B, B, C, C, A, A, D, D, E, F, G, A, B, C, C, D, A, E, F,
A, B, F, G, A, B, C, D, A, A, B, E.
Solutie Aici trebuie mai nti s a codic am numeric literele (optiunile electoratului) A, B,
C, D, F, G. De exremplu, propunem urm atoarea codicare:
G0
F1
A4
B5
C6
A 117
D7
2. Doua grupe de 10 studenti A si B au obtinut urmatoarele note la examenul de statistica:
A : 8, 5, 6, 6, 7, 9, 4, 3, 5, 6
B : 9, 6, 7, 8, 6, 10, 5, 4, 6 ,7.
Sa se gaseasca cea mai buna corelatie liniara ntre cele doua selectii. Sa se gaseasca val-
oarea deviatiei patratice. Sa se faca acelasi lucru pentru o corelatie de tip parabolic si sa se
compare deviatiile patratice.
3. Fie selectia {0, 1, -1, -1, -2, 1, 1, -1, 2, 3, 1, 4, 3, -1, 0, 0, 3, -1, -2, -2} dintr-o
populatie anume. Fie X v.a. care guverneaza populatia. Sa se aproximeze cu ajutorul selec-
tiei numarul 1(0 _X_ 2). Se cere gracul functiei de repartitie pentru aceasta selectie si o
histograma a frecventelor.
4. S-a facut un sondaj asupra pretului (n centi) galonului de benzina premium asupra a
30 statii luate la ntmplare. De aici a rezultat selectia: 65, 58, 64, 68 , 52, 48, 59, 59, 56, 63,
61, 66, 52, 57, 60, 62, 55, 55, 64, 71, 61, 63, 46, 53, 60, 57, 58, 57, 54, 58. Se cere gracul
poligonului de frecventa (relativa) daca: a) grupam datele n intervale de lungime 3, cu 60
centrul unui asemenea interval; b) grupam datele n intervale de lungime 5, cu 60 ca centru al
unui asemenea interval. Calculati pentru aceste grupari media si dispersia de selectie. Gasiti
gracul functiilor de repartitie empirice.
5. La un concurs 12 studenti au obtinut urmatorele punctaje: 18, 15, 19, 27, 13, 30, 24,
11, 5, 16, 17, 20. Calculati media, mediana, deviatia standard si deviatia absoluta medie.
Construiti functia empirica de frecventa cumulata (f. de repartitie) si interpretati rezultatele
obtinute.
Lectia 9
Statistici. Estimarea parametrilor
Amintim c a o populatie P este o multime de obiecte din care se fac selectii nite (de volum
: < ). Populatia se poate identica cu multimea tuturor observatiilor potentiale pe care
le putem face asupra obiectelor ei. Pentru ecare obiect al selectiei se testeaz a valoarea unei
caracteristici numerice, X. Admitem c a pe P exist a o probabilitate si c a X este o variabil a
aleatoare. Distributia (functia de repartitie) a v.a. X se numeste distributia populatiei dupa
caracteristica X.
Exemplul 9.1 Intr-o magazie grul este amestecat cu neghina. Popula tia P este aici totali-
tatea boabelor din magazie ( cteva sute de milioane). Fie A : 1 1,
A(/o/) =
_
1 daca e grau
0 daca e neghina
Probabilitatea j ca un bob sa e de tip A este denita prin:
j() =
nr. de boabe de tipul A
nr. de boabe din magazie
. 1
Aici j nu se poate determina experimental exact din cauza numarului mare de boabe, dar
teoretic p exista. Valoarea medie a lui X nmul tita cu 100 este procentul de boabe de gru din
magazie, lucru important.
Exemplul 9.2 Sa presupunem ca mai multe persoane, sau aceea si persoana n mai multe
rnduri, masoara independent o lungime, de aproximativ 1 km folosind o ruleta de 2 m.
Evident ca se vor ob tine rezultate diferite datorita unei game largi de cauze incontrolabile.
Putem n acest caz considera P ca mul timea tuturor complexelor de cauze necontrolabile care
inuen teaza rezultatul masuratorii sau putem considera P ca mul timea tuturor masuratorilor
posibile. Oricum P nu este o mul time pe care o putem explicita ca n cazul precedent. Admitem
nsa ca pe P exista o probabilitate iar o masuratoare nseamna o manifestare a unui complex
. de cauze necontrolabile care conduc la un rezultat A(.) , n cazul nostru A ind o lungime.
118
LEC TIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 119
Prin urmare caracteristica lungime apare ca o func tie A : 1 1. Admitem ca A este o
variabila aleatoare, adica (vezi lec tiile 2, 3) . 1[ A(.) < : 1 este o mul time pe care
este denita probabilitatea j.
Statistica Matematic a se ocup a, printre altele, cu problema determin arii repartitiei unei
variabile aleatoare X ca n exemplele de mai sus, prin experimente. In general n experimente
conduc la n valori numerice r
1
. ...r
a
. Ce operatii trebuie f acute cu valorile r
1
. ...r
a
pentru a
g asi caracteristici ale lui X si ce ncredere putem avea n rezultatele obtinute?
In continuare prezent am felul n care putem considera rezultatele r
1
. r
2
. .. r
a
ale lui A n
n experiente independente ca valori a n variabile aleatoare independente A
1
. A
2
. ... A
a
. La o
prim a lectur a se poate s ari peste aceast a parte, remarcndu-se doar concluziile.
Fie P ca mai nainte spatiul probabilizat al cauzelor incontrolabile, e 1(1) oalgebra
submultimilor lui P pentru care e denit a o probabilitatea p. Not am 1
o
sirurile de elemente
din 1. Deci . 1
o
dac a si numai dac a . = (.
I
)
I.
si pentru orice k, .
I
1. Urm atoarele
submultimi ale lui 1
o
:
=
1
2
...
a
1 1 ... (9.1)
= (.
I
)
I.
[ .
I

I
pentru 1 _ / _ :
unde
I
pentru orice k, se numesc paralelipipede. Aici n nu este xat ci poate orice
num ar natural. Fie
o
submultimile lui 1
o
care sunt reuniuni nite de paralelipipede.
Se arat a c a aceaste multimi formeaz a o algebr a. Pe aceast a algebr a putem deni o unic a
probabilitate j
t
astfel ca pentru paralelipipede s a avem:
j
t
() = j (
1
) j (
2
) ...j (
a
) (9.2)
unde p este probabilitatea pe P. Denitia seam an a cu denitia volumului unui paralelipiped
n functie de lungimile laturilor sale. Asemenea probabilit ati nu sunt suciente pentru nevoile
de calcul. E nevoie de o proprietate de continuitate de genul: 1
1
1
2
...1
I
... cu
1 = '
I=1,o
1
I
implic a j (1) = lim
ao
j (1
I
). Constructia unei astfel de probabilit ati pe1
o
se
realizeaz a astfel:
a) Se extinde
o
la cea mai mic a o algebr a (deci algebr a de multimi nchis a si la reuniuni
num arabile) notat a
(o)
b) Probabilitatea j
t
denit a pe
o
ese extinde unic la o o probabilitate pe
(o)
notat a
j
(o)
Probabilitatea j
(o)
se numeste probabilitate produs. Detaliile de constructie nu fac obiec-
tul acestui curs. Putem remarca asem anarea constructiei probabilit atii produs cu a volumului
corpurilor plecnd de la lungime. Asa cum n afar a de reuniuni nite de paralelipipede exist a
si alte corpuri cu volum, tot asa apar n
(o)
si alte multimi care au probabilitate, n afar a
de reuniunile nite de tipul (9.1).
Denitia 9.3 Mul timea 1
o
mpreuna cu
(o)
1 (1
o
) si cu probabilitatea j
(o)
:
(o)
1 se nume ste produsul innit al cmpului de probabilitate (1. . j).

Observatia 9.4 In lec tia 2 am introdus produsul nit al unor cmpuri de probabilitate. Fa ta
de cazul considerat acolo, aici avem doua lucruri n plus:
a) pentru a avea o o probabilitate pe produs trebuie extinsa algebra de mul timi formata din
reuniuni nite de mul timi paralelipipedice la o o algebra
b) Am luat n considera tie o innitate de factori n produs .
Observatia 9.5 In principiu nu e nevoie de o cunoa stere detaliata a produsului de cmpuri
de probabilitate. Este sucient sa stim ca el exista si ca probabilitatea unei mul timi paralelip-
ipedice este produsul probabilita tilor factorilor (formula 9.2).
Fie acum A o v.a. pe 1, A : 1 1. In aceste conditii pe 1
o
avem un sir de v.a. denite
prin:
A
i
: 1
o
1. A
i
(.) = A
i
_
(.
I
)
I.
_
= A (.
i
)
pentru orice i `. Prin urmare A
i
aplicat a unui sir este valoarea lui A pe componenta a i a
sirului . = (.
I
)
I.
1
o
. Aceste v.a. sunt independente si la fel distribuite (adic a au aceeasi
functie de repartitie, deci aceleasi caracteristici numerice). Pe produsul nit 1
a
= 1 1...1
avem n mod analog variabilele aleatoare A
i
denite prin formula de mai sus dar cu . 1
a
.
Ele sunt independente si la fel distribuite.
In concluzie, mai multe masuratori ale unei marimi apar n statistica astfel:
a) Urmarim o componenta numerica a unui fenomen, sa zicem notata cu A.
b) Acea caracteristica depinde de o seama de factori dintr-o mul time P, n general neex-
plicita.
c) Admitem ca pe P exista o probabilitate p, iar X:P1 este o variabila aleatoare.
d) Prin n experien te independente gasim pentru A valorile r
1
. r
2
. ...r
a
.
e) r
1
. r
2
. ...r
a
apar ca valorile a n variabile aleatoare A
1
. A
2
. ...A
a
denite pe spa tiul
produs 1
a
sau pe 1
o
. Aceste v.a. sunt independente si la fel distribuite ca X. Vom numi
A
1
. A
2
. ...A
a
variabile aleatoare de selec tie asociate lui X. X
i
reprezinta rezultatul experien tei
i. In cele ce urmeaza vom considera toate variabilele X
i
denite pe aceea si mul time P
o
.
Ne ocup am n continuare de operatiile pe care le facem cu rezultatele r
1
. r
2
. ...r
a
pentru a
obtine caracteristici ale variabilei aleatoare X. Vom folosi doar acele operatii n care multimea
P, care nu este explicit a, nu intervine efectiv. Probabilitatea pe 1
o
o vom nota uneori cu
Prob alteori cu p.
Denitia 9.6 Se nume ste statistica un sir (G
a
)
a.
de variabile aleatoare G
a
: 1
o
1.
Toate statisticile utilizate de noi vor de forma urmatoare:
i) se da un sir de func tii q
a
: 1
a
1
ii) avem o v.a. A : 1 1
Fie A
1
, A
2
,...A
a
,... variabilele aleatoare asociate. Denim statistica:
q
a
(A
1
. A
2
. ...A
a
) : 1
o
1
, astfel
q
a
(A
1
. A
2
. ..A
a
) (.) = q
a
(A
1
(.) . A
2
(.) . ...A
a
(.)) pentru . 1
o
Uneori vom folosi termenul de statistica pentru sirul de variabile aleatoare construite mai sus
pe 1
o
.
Exemple de statistici frecvent folosite
Fie X o v.a. cu functia de repartitie 1 : 1 1, si A
1
. A
2
. ...A
a
variabilele de selectie
asociate. Vom folosi urm atoarele notatii:
a1) m=
_
o
o
rd1 (r) = media lui X (Lectia 3)
b1) M(A
1
. A
2
. ...A
a
) =

A
(a)
=
A
1
+A
2
+...+A
n
a
: 1
o
1. o v.a. numit a media de selec tie.
Uneori o vom nota cu

A
(a)
pentru a pune n evident a dependenta de n, alteori o vom nota
simplu

A. Astfel,
c1) m
+
= :
+
(r
1
. r
2
. ...r
a
) =
a
1
+a
2
+...+a
n
a
este valoarea mediei de selectie pentru rezultatele
r
1
. r
2
. ...r
a
obtinute n cele n experiente, numit a si media empirica (Lectia 8).
ak) :
I
=
_
o
o
r
I
d1 (r) =momentul de ordin k al lui X (Lectia 3)
bk) M
I
(A
1
. A
2
. ...A
a
) =
A
k
1
+A
k
2
+...+A
k
n
a
. o v.a. numit a momentul de selec tie de ordin k.
ck) m
+
I
= :
+
I
(r
1
. r
2
. ...r
a
) =
a
k
1
+a
k
2
+...+a
k
n
a
=momentul empiric de ordin k (Lectia 8)
ak0) j
I
=
_
o
o
(r :)
I
d1 (r) = momentul centrat de ordin k al lui X (Lectia 3)
bk0) M
0I
(A
1
. A
2
. ...A
a
) =
(
A
1

A
)
k
+
(
A
2

A
)
k
+...+
(
A
n

A
)
k
a
: 1
o
1. o v.a. numit a mo-
mentul centrat de ordin k.
ck0) j
+
I
= j
+
I
(r
1
. r
2
...r
a
) =
(a
1
n
)
k
+(a
2
n
)
k
+...+(a
n
n
)
k
a
=momentul centrat de ordin k,
empiric (Lectia 8).
a20) D=o
2
=
_
o
o
(r :)
2
d1 (r) = dispersia lui X (Lectia 3).
b20) D(A
1
. ...A
a
) = o
2
(A
1
. ...A
a
) =
(
A
1

A
)
2
+
(
A
2

A
)
2
+...+
(
A
n

A
)
2
a
:P
o
1. o v.a. nu-
mita dispersia de selec tie.
o
t2
(A
1
. A
2
. ...A
a
) =
_
A
1

A
_
2
+
_
A
2

A
_
2
+... +
_
A
a

A
_
2
: 1
: 1
o
1
se numeste dispersia de selec tie modicata.
c20) :
+2
=D
+
= 1
+
(r
1
. r
2
. ...r
a
) =
(a
1
n
)
2
+(a
2
n
)
2
+...+(a
n
n
)
2
a
= dispersia empirica de
selec tie (Lectia 8), iar :
t+2
=
(a
1
n
)
2
+(a
2
n
)
2
+...+(a
n
n
)
2
a1
se numeste dispersia empirica mod-
icata.
E de asteptat ca v.a. de selectie de mai sus s a aproximeze ntr-un fel sau altul marimile
corespunz atoare ale variabilei X.
Propozitia 9.7 Avem rela tia
o
2
(A
1
. A
2
. .... A
a
) = `
2
(A
1
. A
2
. .... A
a
) A
2
(9.3)
Demonstratie
o
2
(A
1
. A
2
. .... A
a
) =
1
:
_
A
i
A
_
2
=
1
:
_
A
2
i
2AA
i
+A
2
_
=
1
:
A
2
i

2
:
A
A
i
+
1
:
:A
2
=
1
:
A
2
i
2 A A +A
2
= `
2
(A
1
. A
2
. .... A
a
) A
2
QED.
Fie X o v.a. si A
1
. A
2
. .... A
a
... variabilele de selectie asociate. Fie de asemenea A 1.
Denitia 9.8 Se nume ste estimator sau func tie de estima tie pentru A, o statistica (q
a
)
a.
astfel ca pentru orice c 0 sa avem:
lim
ao
Prob( [q
a
(A
1
. A
2
. ...A
a
) [ c) = 0
Cu alte cuvinte, c 0 ind dat, pentru valori mari ale lui n este foarte putin probabil ca
variabila aleatoare q
a
(A
1
. A
2
. ...A
a
) s a ia valori n afara intervalului [c. +c], adic a este
foarte putin probabil ca num arul
q
a
(r
1
. r
2
. ...r
a
) s a e n afara intervalului [c. +c]. In aceste conditii, dup a un num ar de
n experiente, consider am pe q
a
(r
1
. r
2
. ...r
a
) ca o aproximatie bun a pentru A. Este posibil s a
ne nsel am, dar probabilitatea de a ne nsela este mic a, pentru n mare. Statistica nu ne ofer a
r aspunsuri sigure ci doar aproximatii n care putem avea un grad mai mic sau mai mare de
ncredere. Se accept a acele aproximatii n care avem un grad mai mare de ncredere.
Denitia 9.9 O statistica (q
a
(A
1
. ...A
a
))
a.
se nume ste corecta sau deplasata relativ la val-
oarea A daca avem:
1) lim
ao
M(q
a
(A
1
. A
2
. .... A
a
)) = .
2) lim
ao
1(q
a
(A
1
. A
2
. .... A
a
)) = 0.
si se numeste absolut corecta sau nedeplasata dac a n plus M(q
a
(A
1
. A
2
. .... A
a
)) = .
Conditiile 1) si 2) din denitia de mai sus pun n evident a situatii n care o statistic a
oarecare (q
a
)
a.
este un estimator pentru o valoare A. Teorema de mai jos pune n evident a
importanta conditiilor din denitia anterioar a.
Teorema 9.10 Daca statistica (q
a
(A
1
. A
2
. .... A
a
))
a.
este corecta relativ la A atunci ea este
un estimator al lui A, adica pentru orice c 0 avem
lim
ao
1:o/([q
a
(A
1
. A
2
. ...A
a
) [ c) = 0.
Demonstratie. Conform cu inegalitatea lui Cebsev (Lectia 5) pentru un c 0 avem:
Prob([q
a
(A
1
. A
2
. ...A
a
) ` (q
a
(A
1
. A
2
. ...A
a
))[c)_
_
1(j
n
(A
1
,A
2
,...A
n
))
c
2
Acum tinnd seama de 1) si 2) din denitia corectitudinii rezult a
1:o/([q
a
(A
1
. A
2
. ...A
a
) [ c) 0
cnd : , deci statistica (q
a
(A
1
. A
2
. .... A
a
))
a.
este un estimator al lui A.
QED.
Ar at am acum c a functiile de selectie introduse cu ocazia notatiilor precedente sunt esti-
matori pentru valorile corespunz atoare ale variabilei X.
Teorema 9.11 a) Statistica media de selectie:
q
a
(A
1
. A
2
. .... A
a
) =

A
(a)
= (A
1
+A
2
+ +A
a
) ,:
estimeaza media : =M(X) a v.a. X absolut corect.
b) Statistica
/
a
(A
1
. A
2
. .... A
a
) =
1
:
A
v
i
estimeaza absolut corect momentul de ordin :, :
v
, al v.a. X.
c) Statistica
o
2
(A
1
. A
2
. .... A
a
) =
1
:
_
A
i
A
(a)
_
2
estimeaza corect dar nu absolut corect dispersia v.a. X, o
2
=D(X).
d) S
t 2
(A
1
. A
2
. .... A
a
) =
1
a1
a
i=1
_
A
i
A
(a)
_
2
, adica dispersia de selectie modicata, aprox-
imeaza absolut corect dispersia v.a. X.
Demonstratie Trebuie vericate conditiile 1 si 2 din denitia statisticii corecte.
a) Veric am 1): M(q
a
)=
1
a
M(X
i
)=
1
a
: : = : =M(X).
Veric am 2): D(q
a
)=
1
a
2
D(X
i
)=
1(A)
a
, deoarece A
1
. A
2
. .... A
a
sunt independente. Prin
urmare D(q
a
)0, cnd : .
b) Veric am 1): M(/
a
)=
1
a
M(X
v
i
)=
1
a
: :
v
= :
v
Veric am 2): D(/
a
)=
1
a
2
D(X
v
i
)=
1
a
D(X
v
)0, cnd : . Retinem formula:
D(X
(n)
= D(X),n (9.4)
c) ncerc am s a veric am 1):
`
_
o
2
(A
1
. A
2
. .... A
a
)
_
din 9.3
= `
_
M
2
(A
1
. A
2
. .... A
a
) A
2
(a)
_
= ` (M
2
(A
1
. A
2
. .... A
a
))
1
:
2
`
_
_
A
i
_
2
_
= `(A
2
)
1
:
2
`
__
A
i
__
A
)
__
= `(A
2
)
1
:
2
`
_
A
2
i
_
1
:
2
`
_
i,=)
A
i
A
)
_
= `(A
2
)
:
:
2
`
_
A
2
_
1
:
2
i,=)
` (A
i
A
)
)
A
i
,A
j
iaocjcaocatc.
=
: 1
:
`(A
2
)
1
:
2
:(: 1)`(A)
2
=
: 1
:
_
M(X
2
) M(X)
2
_
=
: 1
:
1(A) 1(A)
Prin urmare S
2
nu estimeaz a absolut corect dispersia v.a. X. Retinem formula deja g asit a:
M
_
S
2
(X
1
. X
2
. .... X
n
)
_
=
n 1
n
D(X) (9.5)
E clar c a ` (o
t2
(A
1
. A
2
. .... A
a
)) = 1(A).
Veric am 2): l as am ca exercitiu pentru cititor vericarea formulei
1(o
t 2
) =
1
:
_
:
4
: 3
: 1
[D(X)]
2
_
(9.6)
unde :
4
este momentul de ordin 4 al v.a. X.
Se vede clar de aici c a D(S
t 2
)0, cnd : . De asemenea 1(o
2
) =
_
a1
a
_
2
1(o
t2
)
0 cnd : .
QED.
Observatia 9.12 In practica se foloseste S
t 2
n locul lui S
2
deoarece da rezultate mai bune
dupa cum ne arata teorema 2. Totusi formula (9.6) ne spune ca pentru : sucient de mare
si statistica S
2
poate folosita ca estimator al dispersiei v.a. X. Din denitia lui S
t 2
si din
formula (9.6) gasim formula utila:
1(o
2
) =
(: 1)
2
:
3
_
:
4
: 3
: 1
[D(X)]
2
_
(9.7)
Exercitiul 9.13 Fie selectia {0, 1, 1, 0, 1, 1, 2, 0, 0, 2}. Sa se estimeze absolut corect
dispersia populatiei din care provine aceasta selectie.
Solutie. Media este estimat a absolut corect de media empiric a :
+
= 8,10 = 0. 8.
Dispersia este estimat a absolut corect de dispersia modicat a empiric a
:
t *2
=
1
9
[(0 0. 8)
2
+ (1 0. 8)
2
+ (1 0. 8)
2
+ (0 0. 8)
2
+ (1 0. 8)
2
+(1 0. 8)
2
+ +2 0. 8)
2
+ (0 0. 8)
2
+ (0 0. 8)
2
+ (2 0. 8)
2
]
= 0. 56
Observatia 9.14 Deoarece dispersia se mai numeste si varian ta vom folosi si noi uneori
varian ta de selectie pentru dispersia de selectie.
9.1 Principiul verosimilit atii maxime
Presupunem c a P este o populatie unde se urm areste caracteristica numeric a A. care este o
variabil a aleatoare cu densitatea de probabilitate ,(r; o), o ind un parametru necunoscut.
Cunoastem doar forma matematic a a functiei ,(r; o). De exemplu dac a stim c a A este
o v.a. normal a cu media o, necunoscut a dar cu dispersia o
2
cunoscut a, atunci ,(r; :) =
1
_
2o
c
(xm)
2
2
2
.
Pentru determinarea lui o facem o selectie care d a rezultatele r
1
. .... r
a
si ncerc am pe
baza lor s a estim am pe o. Deoarece v.a. de selectie A
1
. .... A
a
sunt independente, proba-
bilitatea ca A
1
s a ia valoari n intervalul [r
1
. r
1
+ dr
1
), A
2
s a ia valori n [r
2
. r
2
+ dr
2
), ...,
A
a
s a ia valori n [r
a
. r
a
+ dr
a
) este dat a de ,(r
1
; o) ,(r
2
; o) ,(r
a
; o)dr
1
dr
2
...dr
a
=
1(r
1
. .... r
a
; o) dr
1
dr
2
....dr
a
. Aceast a functie 1 se numeste functia de verosimilitate si va
folosit a pentru estimarea lui o.
Dac a A ia valori discrete, atunci ,(r. o) este probabilitatea ca A s a ia valoarea r. De
exemplu, n cazul distributiei Poisson, ,(r; o) = c
0
0
x
a!
, cu r N, reprezint a probabilitatea ca
A = r, iar o este parametrul necunoscut ( pe care urmeaz a s a-l estim am!). Probabilitatea ca n
: selectii independente s a se obtin a rezultatele r
1
. r
2
. ...r
a
este , (r
1
. o), (r
2
. o) ..., (r
a
. o) =
1(r
1
. r
2
. ...r
a
; o) care se numeste si n acest caz functia de verosimilitate.
Functia 1 este determinat a de volumul selectiei : si depinde de o. Metoda verosimilt atii
maxime const a n urm atorul principiu (axiom a): valoarea cea mai verosimila (cea mai
potrivita n acest sens!) a parametrului o este aceea pentru care func tia 1(r
1
. .... r
a
; o) este
maxima. Dup a cum stim de la Analiza matematic a, aceast a cerint a are loc dac a avem:
J1(r
1
. .... r
a
; o)
Jo
= 0 (9.8)
adic a o este un punct crirtic pentru 1(r
1
. .... r
a
; o).
Ecuatia (9.8) n practic a se dovedeste dicil a. De aceea cel mai des se foloseste observa-
tia: 1(r
1
. .... r
a
; o) este maxim a dac a si numai dac a ln 1(r
1
. .... r
a
; o) este maxim a (functia
logaritmic a este strict cresc atoare). Deci (9.8) este echivalent a cu :
J ln 1(r
1
. .... r
a
; o)
Jo
= 0 (9.9)
care poart a numele de ecuatie a verosimilitatii maxime. Rezolv am ecuatia (9.9), sau ecuatia
(9.8) si g asim o =
a
(r
1
. ...r
a
). Ca estimator (functie de estimare) pentru o lu am variabila
aleatoare
a
(A
1
. A
2
. ...A
a
). care, pentru selectia r
1
. r
2
. ...r
a
d a rezultatul
a
(r
1
. r
2
. ...r
a
).
Se poate demonstra ca n condi tii foarte generale, pentru selec tii mari, statistica (A
1
. A
2
. ...A
a
)
ob tinuta prin metoda verosimilita tii maxime, are o distribu tie aproximativ normala, cu media
egala cu o=valoarea adevarata a parametrului si dispersia
1() =
1
:
_
o
o
_
0
2
ln()(a,0))
00
2
_
, (r; o) dr
=
1
:
_
o
o
_
0 ln )(a;0)
0 0
_
2
, (r; o) dr
Daca distribu tia este discreta atunci integralele din formula precedenta devin sume.
Exemplul 9.15 Presupunem ca populatia are distributia Poisson (cazul evenimentelor rare).
Functia de probabilitate este ,(/; `) = c
A
A
k
I!
, / =0, 1, 2, .... Ne intereseaza sa es-
timam parametrul ` prin metoda verosimilitatii maxime. Pentru aceasta facem o selectie
r
1
. r
2
. .... r
a
0. 1. 2. ....
1(r
1
. .... r
a
; `) = ,(r
1
; `) ,(r
2
; `) ,(r
a
; `) = c
aA
`
P
a
k
r
1
!r
2
!...r
a
!
ln 1(r
1
. .... r
a
; `) = :` +
_
r
I
_
ln `
ln (r
I
!)
0 ln 1
0A
= 0 ne furnizeaza ` =
P
a
k
a
, deci un estimator pentru ` este
a
(A
1
. ..A
a
) =
A
1
+A
2
+...A
n
a
adica media de selectie. Deoarece ` este media lui A (variabila
Poisson),
a
este un estimator absolut corect pentru `.
Este el oare si cel mai ecient, n sensul c a are dispersia cea mai mic a? Este greu de
r aspuns la aceast a ntrebare. Totusi avem un rezultat puternic care face oarecare lumin a:
Teorema 9.16 (Rao-Cramer) Daca statistica q
a
(A
1
. .... A
a
) da un estimator ecient (cu
dispersia minima , n multimea tuturor estimatorilor absolut corecti pentru o), atunci
1(q
a
(A
1
. .... A
a
)) =
1
:
o
_
o
_
0 ln )(a;0)
0 0
_
2
,(r; o)dr
sau
1(q
a
(A
1
. .... A
a
)) =
1
:
o
a=0
_
0 ln )(a;0)
0 0
_
2
,(r; o)
(9.10)
daca distribu tia este cu valori discrete.
F ar a demonstratie.
Ne ntoarcem la exemplul anterior. Stim c a 1(
a
) = 1
_
P
A
k
a
_
=
1(A)
a
=
A
a
. ,(r. `) =
c
A
x
a!
, deci
0 ln )(a,A))
0A
= 1 +
a
A
. De aici rezult a
o
a=0
_
J ln , (r. `)
J`
_
2
, (r. `)
=
o
a=0
_
1 2
r
`
+
r
2
`
2
_
c
A
`
a
r!
= c
A
_
_
_
_
_
_
o
a=0
`
a
r!
. .
=c
2
o
a=1
`
a1
(r 1)!
. .
=c
+
o
a=1
`
a2
(r 1)!
(r 1 + 1)
. .
=c
+
1
_
_
_
_
_
_
=
1
`
Prin urmare
1
a
1
P
x=0
(
@ ln f(x;)
@
)
2
)(a;A)
=
A
a
= 1(
a
). Rezult a din teorema Rao-Cramer c a statistica
medie de selectie este si un estimator ecient pentru `. Putem spune acum c a ` = (
r
I
) ,:
este o estimatie foarte bun a n toate sensurile.
Exemplul 9.17 Sa se estimeze parametrul j al unei distribu tii Bernoulli
_
1 0
j 1 j
_
prin metoda verosimilita tii maxime.
Solutie.
, (r. j) =
_
j dac a x=1
1 j dac a x=0
Functia de verosimilitate este 1(r
1
. r
2
. ...r
a
) = j
a
1
(1 j)
aa
1
unde :
1
este num arul de real-
iz ari ale lui 1.
0 ln 1
0j
= 0 devine
0(a
1
ln j+(aa
1
) ln(1j))
0j
= 0 adic a
a
1
j

aa
1
1j
= 0 care are solutia
j =
a
1
a
. Valoarea :
1
este valoarea variabilei A
1
+ A
2
+ ... + A
a
, unde A
i
este variabila de
selectie a c arei valoare este 1 dac a la experienta i se obtine rezultatul 1 si are valoarea 0 n
caz contrar. Prin urmare statistica ce estimeaz a parametrul p este
T =
A
1
+A
2
+... +A
a
:
care este chiar media de selectie. La fel ca n cazul repartitiei Poisson se arat a c a
1(T) =
j
:
=
1
:
1
a=0
_
0 ln ) (a;j)
0j
_
2
, (r; j)
=
1
:
_
_
0 ln (1j)
0j
_
2
(1 j) +
_
0 ln j
0j
_
2
j
_
deci estimarea lui j este absolut corect a (exercitiu).
Dac a avem de estimat mai multi parametri o
1
. o
2
. ..o
j
, stiind c a densitatea de probabilitate
a variabilei aleatoare A este , (r; o
1
. ...o
j
), atunci n mod analog cu cazul unui singur para-
metru, principiul verosimilit atii maxime spune c a n urma a n experiente independente care
dau rezultatele r
1
. r
2
. ...r
a
, se aleg pentru parametri acele valori care maximizeaz a functia
de verosimilitate 1(r
1
. ..r
a
; o
1
. ..o
j
) = , (r
1
; o
1
. o
2
. ...o
j
) , (r
2
; o
1
. ..o
j
) .., (r
a
; o
1
. o
2
. ..o
j
) sau
ceea ce este acelasi lucru acele valori care maximizeaz a ln 1(r
1
. r
2
. ..r
a
; o
1
. ...o
j
). Aceasta
implic a:
_
_
0 ln 1(a
1
,a
2
,..a
n
;0
1
,...0
p
)
00
1
= 0
0 ln 1(a
1
,a
2
,..a
n
;0
1
,...0
p
)
00
2
= 0
.....
0 ln 1(a
1
,a
2
,..a
n
;0
1
,...0
p
)
00
p
= 0
(9.11)
Exemplul 9.18 Sa presupunem ca v.a. A are o distribu tie normala cu
, (r; :; o) =
1
_
2o
c
(xm)
2
2
2
. In acest caz avem ln 1 =
a
2
ln (2:) :ln o
P
(a
i
n)
2
2o
2
. Sistemul
(9.11) devine:
_
1
o
2
(r
i
:) = 0
a
o
+
P
(a
i
n)
2
o
3
= 0
care are ca solu tii : =
P
a
i
a
= :
+
(r
1
. ..r
a
) si o =
_
P
i
(a
i
n
)
2
a
.
Stim din aceast a lectie c a M(A
1
. A
2
. ...A
a
) =

A
(a)
=
A
1
+A
2
+...+A
n
a
si D(A
1
. ...A
a
) =
(
A
1

A
)
2
+
(
A
2

A
)
2
+...+
(
A
n

A
)
2
a
sunt estimatii corecte pentru media si dispersia unei variabile
aleatoare, n cazul nostru pentru : si o
2
.
9.2 Metoda momentelor (K. Pearson)
Dat a selectia r
1
. .... r
a
noi putem calcula momentul de ordin / al selectiei: :
+
I
=
P
i
a
k
i
a
,
pentru orice / =0, 1, 2, .... Obtinem astfel estimatori pentru medie, dispersie ,momente de
diferite ordine. Functia caracteristic a A
c
(t) are toate derivatele n t = 0 date de A
(I)
c
(0) =
i
I
`
I
(A). Prin urmare n conditii foarte generale, care asigur a c a A
c
(t) este analitic a (se
poate dezvolta n serie convergent a de puteri n jurul oric arui punct), rezult a c a momentele
`
I
(A) determin a pe A
c
(t) care la rndul ei determin a repartitia lui A (vezi Lectia 3).
Aceast a observatie a fost folosit a de K. Pearson pentru a g asi estimatori pentru parametrii
unei legi de probabilitate.
Fie j (r; o
1
. o
2
. ...o
j
) densitatea de probabilitate a v.a. A, unde parametrii o
1
. ...o
j
sunt
necunoscuti. Exist a relatiile::
I
=
_
o
o
j (r; o
1
. o
2
. ...o
j
) r
I
dr pentru orice k. Am v azut c a :
I
este estimat de :
+
I
. Egalnd valoarea teoretic exact a cu estimarea practic a, :
I
= :
+
I
, adic a:
_
_
o
o
r
I
j (r; o
1
. o
2
. ...o
j
) dr =
i=a
i=1
r
I
i
:
(9.12)
pentru k=1,2,...p, obtinem un sistem care d a prin rezolvare o
I
=
a
(r
1
. r
2
. ...r
a
), pentru
k=1,2,..p.
Ca estimatori pentru o
I
se iau v.a.
I
(A
1
. A
2
. ...A
a
).
Dac a v.a. A este dicret a atunci integrala dim (9.12) devine sum a, la fel ca n cazul metodei
verosimilit atii maxime.
Exemplul 9.19 Fie v.a. cu densitatea j (r; `) =
1
(A)
r
A1
c
a
, pentru ` 0 r 0. Aici
parametrul este `. Se cere o metoda de a estima pe ` prin selec tii. Daca folosim metoda
momentelor gasim
_
o
0
r
1
(`)
r
A1
c
a
dr =
r
1
+r
2
+...r
a
:
adica ` =
a
1
+a
2
+...a
n
a
.
Exemplul 9.20 Densitatea de probabilitate a unei v.a. X are forma:
, (r; c; /; c) =
_
c + 2/r. r [0. c]
0. n rest
Rezultatele unei selectii de volum n=3 dau pentru X valorile {r
1
. r
2
. r
3
}={-1,0,1} . S a se
estimeze papametrii c. /. c prin metoda momentelor.
Mai nti punem conditia ca
o
_
o
, (r; c; /; c) dr = 1, de unde g asim relatia:
cc +/c
2
= 1 (9.13)
Calcul am acum media v.a. X:
`(A) =
c
_
0
r(c + 2/r)dr =
cc
2
2
+
2/c
3
3
(9.14)
momentul de ordin 2:
`
2
(A) =
c
_
0
r
2
(c + 2/r)dr =
cc
3
3
+
2/c
4
4
(9.15)
Momentele de selectie :
+
1
=(-1+0+1)/3=0 si :
+
2
=
_
(-1)
2
+0
2
+1
2
_
/3=2/3 vor estima pe
`(A) si pe `
2
(A). Deci vom obtine sistemul nelinear de ecuatii:
_
_
_
cc +/c
2
= 1
oc
2
2
+
2bc
2
3
= 0
oc
3
3
+
2bc
4
4
=
2
3
(9.16)
In general rezolvarea acestor sisteme (care se obtin folosind metoda momentelor) este
foarte complicat a. Din ecuatia a doua g asim c =
3o
4b
. nlocuim expresia lui c n prima si n
ultima ecuatie si g asim:
3o
2
4b
+
9o
2
16b
= 1
9o
4
64b
3
+
81o
4
512b
3
=
2
3
(9.17)
Din prima ecuatie a sistemului (9.17) g asim / =
3o
2
16
. Inlocuim expresia lui / n ecuatia
a doua si g asim c a 2c
2
= 8, lucru imposibil. Concluzia este c a selectia {-1,0,1} nu poate
pentru variabila X. Sodajul respectiv este eronat sau X nu are densitatea de probabilitate
propus a. De altfel, examinnd cu atentie rezultatele sondajului vedem c a valoarea -1 n
principiu nu ar trebuit s a se obtin a deoarece X are densitatea pozitiv a pe [0,c].
9.3 Exercitii
1. Pentru o selectie de volum : dintr-o distributie exponentiala( j(t) = `c
At
, daca t _ 0 si 0
n rest) cu parametrul `, sa se gaseasca un estimator pentru ` folosind metoda verosimilitatii
maxime. Presupunem ca j (t) este densitatea de probabilitate a duratei dintre doua sosiri
succesive la o staie de benzina. Se cronometreaza 11 sosiri si se gasesc urmatorii timpi ntre
ele 4, 3, 6, 1, 1, 4, 2, 6, 1, 3. Calculati prin metoda verosimilitatii maxime pe ` .
2. Consideram o selectie de volum n dintr-o populatie cu distributia gama ( ,(t) =
`(`t)
v1
c
At
1
(v1)!
, daca t _ 0 si 0 n rest). Gasiti un estimator pentru ` prin metoda
verosimilitatii maxime si un altul prin metoda momentelor.
3. Viata unui bec electric, masurata n numarul de ore de functionare continua pna cnd
se arde, se presupune uniform distribuita cu parametrii c si /:
,(r) =
_
1,(/ c) . c _ r _ /
0 . n rest.
Se face o selectie de : becuri si se noteaza cu r
1
. .... r
a
timpii de functionare ai acestora
pna cnd se ard. Determinati estimatori pentru c si / prin metoda momentelor.
4. Functia de probabilitate a v.a. X este data de
,(r) =
_
2b(cba)
c
2
. dac a 0 _ r _
c
b
0. n rest
. Stim ca media M(X)=
c
3b
si o
2
A
=
c
2
18b
2
.
i) daca c=3, este oare media de selectie M a unui esantion de volum : un estimator
nedeplasat pentru parametrul b?
ii) daca b=1/3, este M un estimator pentru c? (P( [M-c[ < c) 1, cnd : ). Indi-
catie: folositi inegalitatea lui Cebsev sau teoria din aceasta lec tie.
5. Fie statistica q (A
1
. A
2
. .... A
a
) = c
1
A
1
+ c
2
A
2
+ + c
a
A
a
, cu c
1
. .... c
a
R. Cum
trebuie sa e numerele c
1
. .... c
a
, astfel nct q sa e un estimator nedeplasat pentru media m
a populatiei? Indicatie: cereti M( q)=m.
6. Daca q (A
1
. A
2
. .... A
a
) este un estimator nedeplasat pentru parametrul o, este adevarat
ca si q
2
este un estimator nedeplasat pentru o
2
?
7. Greutatea unor utilaje produse de o rma este distribuita normal cu dispersia cunoscuta
o
2
A
, dar cu media : necunoscuta. Fie statisticile
G=
(X
1
+X
2
+X
3
+X
4
+...+X
n
)
a
si H=(X
1
+2X
2
+3X
3
+4X
4
+... + nX
a
)
2
a(a+1)
, : `.
a) Sa se arate ca G si H sunt estimatori nedeplasa ti pentru m.
b) Care estimator are dispersia mai mica?
Lectia 10
Intervale de ncredere
Denitia 10.1 Fie P o populatie, o un parametru al ei si q = q (A
1
. .... A
a
), / = / (A
1
. .... A
a
)
doua statistici astfel nct q (A
1
. .... A
a
) _ / (A
1
. .... A
a
), adica oricare ar selectia r
1
. .... r
a
sa avem ca q (r
1
. .... r
a
) _ / (r
1
. .... r
a
). Spunem ca intervalul [q. /] este un interval de n-
credere pentru parametrul o , de nivel de ncredere c daca avem relatia:
1:o/ q _ o _ / _ c (10.1)
Num arul =1c se mai numeste prag de ncredere. De obicei c se
exprim a n procente, de exemplu pentru c=0,95 putem scrie c=95%.
Cerinta (10.1) trebuie nteleas a astfel: dac a dup a un num ar mare de selectii r
1
. .... r
a
, s a
zicem N, K dintre ele dau intervale [q(r
1
. r
2
..r
a
). /(r
1
. r
2
. ...r
a
)] cu proprietatea c a o [q. /]
(pentru ecare selectie xat a, intervalul devine interval obisnuit, numeric), atunci K/N_ c.
Altfel spus, intervalele [q. /] acoper a pe o n proportie de cel putin c %(de exemplu ,dac a
c = 1,5 = 20,100, c = 20%).
Denitia 10.2 Pentru un c, un interval de ncredere [q
c
. /
c
] de lungime minima, astfel
nct Probq
c
_ o _ /
c
= c, se zice interval de ncredere ecient, relativ la ncrederea c.
Pentru calculele urm atoare vom avea nevoie de teorema:
Teorema 10.3 Fie A o v.a. normala, de tip ` (:. o). Fie A
1
. A
2
. ...A
a
variabilele de
selec tie asociate cu A. Atunci avem:
a) Variabila

A =
A
1
+A
2
+...+A
n
a
este de tipul `
_
:.
o
_
a
_
.
b) Variabila
_
A
1
n
o
_
2
+
_
A
2
n
o
_
2
+ ... +
_
A
n
n
o
_
2
este de tip H (:) adica este o variabila
2
standard cu n grade de libertate.
c) Variabila
_
A
1

A
o
_
2
+
_
A
2

A
o
_
2
+... +
_
A
n

A
o
_
2
este de tip H (: 1) adica este de tip
2
cu n-1 grade de libertate si este independenta fa ta de variabila

A.
132
LEC TIA 10. INTERVALE DE NCREDERE 133
d) Variabila
_
(: 1) :

An
q
(
A
1

A
)
2
+
(
A
2

A
)
2
+...+
(
A
n

A
)
2
este de tip Student cu n-1 grade de
libertate.
Demonstratie. a) Aceast a armatie este demonstrat a n lectia 4, sectiunea Repartitia
normal a.
b) Deoarece
_
A
i
n
o
_
sunt normale de tip ` (0. 1) si independente, armatia de la acest
punct rezult a din lectia 4, sectiunea Distributia
2
.
c) Faptul c a

A si
_
A
1

A
o
_
2
+
_
A
2

A
o
_
2
+ ... +
_
A
n

A
o
_
2
sunt independente nu se demon-
streaz a n acest curs. Acum scriem c a A
i
: =
_
A
i

A
_
+
_

A :
_
, de unde
(A
i
:)
2
=
_
A
i

A
_
2
+
_

A :
_
2
+ 2(

A :)
_
A
i

A
_
. Dar
_
A
i

A
_
= 0, deoarece
A =
1
a
A
i
. Prin urmare
_
A
i
:
o
_
2
=

_
A
i

A
o
_
2
+
:(

A :)
2
o
2
=
_
A
i

A
o
_
2
+
_

A :
o,
_
:
_
2
Membrul stng este de tip H (:), iar n membrul doi avem o sum a de v.a. independente, dintre
care a doua este de tip H (1) ind p atratul unei v.a. normale, de tip ` (0. 1) (vezi lectia 4).
Prin urmare am g asit
2
(a)
=? +
2
(1)
.Comparnd aceast a relatie cu
2
(j+q)
=
2
(j)
+
2
(q)
, unde
indicii de jos indic a num arul de grade de libertate (vezi lectia 4), g asim c a

_
A
i

A
o
_
2
este
de tip
2
(a1)
.
d) Conform cu lectia 6, sectiunea Distributia Student, variabila aleatoare
An
o
_
a
_
P
X
i
2
a1
=
_
(: 1) :

A :
_
_
A
1

A
_
2
+
_
A
2

A
_
2
+... +
_
A
a

A
_
2
ind de tipul
)
_
g
n1
. cu , de tipul ` (0. 1) si q de tipul H (: 1) = H (: 1. 1) , rezult a c a
are o distributie Student cu : 1 grade de libertate.
QED.
10.1 Intervale de ncredere pentru medie
S a consider am o caracteristic a numeric a A care are o disribu tie normala de medie : si
dispersie o
2
. Dac a n urma unei selectii de volum : s-au obtinut rezultatele r
1
. r
2
. ...r
a
pentru A. atunci, conform celor ar atate n lectia trecut a valoarea
a
1
+a
2
+..a
n
a
este o estimare
bun a pentru : iar
(a
1
a)
2
+(a
2
a)
2
+...(a
n
a)
2
a
este o estimare bun a pentru o
2
. Ce ncredere putem
avea n aceste estim ari? In continuare vom da un r aspuns la aceast a ntrebare?
10.1.1 Dispersia este cunoscut a
S a consider am cazul cnd dispersia o
2
este cunoscut a. Valorile r
1
. r
2
. ...r
a
sunt valorile vari-
abilelor aleatoare de selectie, independente, A
1
. A
2
. ...A
a
, care au aceeasi distributie normal a
ca A. Deoarece variabila

A =
A
1
+A
2
+...A
n
a
este normal a cu media : si dispersia
o
2
a
rezult a c a
variabila 2 =

An
o
_
a
este normal a cu media 0 si dispersia 1. Ca urmare:
1 (c _ 2 _ c) = (c) (c) = 2(c)
Dac a nlocuim pe 2 cu
X
1
+X
2
+:::X
n
n
n
o
_
a
g asim:
1
_
A
1
+A
2
+... +A
a
:
c
o
_
:
_ : _
A
1
+A
2
+... +A
a
:
+c
o
_
:
_
= 2(c)
Prin urmare intervalul intervalul
_
a
1
+a
2
+...a
n
a
c
o
_
a
.
a
1
+a
2
+...a
n
a
+c
o
_
a
_
este un interval de n-
credere pentru : cu nivelul de ncredere 2(c). Introducnd pragul de ncredere , avem
1 = 2(c) sau (c) =
1.
2
. Am demonstrat deci:
Propozitia 10.4 Fie X o variabila normala de dispersie cunoscuta o
2
si de medie : ne-
cunoscuta. Daca (0. 1) si c R
+
, atunci, la selectii de volum :, o conditie sucienta
ca intervalul
_
A c
o
_
a
. A +c
o
_
a
_
sa e interval de ncredere de nivel 1 pentru media :,
este ca c sa verice ecua tia (c) _
1
2
(1 ).
QED.
Observatia 10.5 La acela si prag de ncredere , cre sterea volumului : de selec tie conduce la
un interval de ncredere mai scurt.
Exemplul 10.6 Fie P o populatie normala de varianta (dispersie) cunoscuta o
2
si de medie
: necunoscuta (de estimat). Consideram selectii de volum xat :. Vom gasi un interval de
ncredere,de nivel de ncredere 95% pentru medie, daca alegem astfel pe c nct (c) _
1
2
95
100
.
Din tabelul pentru gasim c _ 1. 96. Deci un interval de ncredere de nivel 95% va de
forma:
_
A 1. 96
o
_
:
. A + 1. 96
o
_
:
_
.
Exemplul 10.7 O rma produce piese cilindrice de diametru c =10 mm. Abaterile de la
acest diametru impus respecta o lege normala de variatie (dispersie) egala cu 0,04 mm (prac-
tica a aratat acest lucru). Se face un sondaj pe 100 de piese si se gaseste ca media de selectie
(empirica) este de 10,01 mm. Sa se gaseasca un interval de estimatie pentru media reala cu
nivelul de ncredere de 90%.
Solutie Aici :=100, o=0,2, A
(100)
=0,01, (1-)=0,90, deci =0,10. Din tabelul functiei
g asim (c) _
90
2100
= 0. 45 pentru c _ 1. 65. Deci, un interval de estimatie pentru media
real a este:
_
10. 01 1. 65
0,2
10
. 10. 01 + 1. 65
0,2
10
= [9. 977. 10. 043].

Ce informatie obtine de aici produc atorul? El este sigur n proportie de 90% c a abaterea
medie de la diametru real c =10 mm este de cel mult 0,043 mm.
10.1.2 Dispersia este necunoscut a
Am v azut pn a acum c a dac a dispersia unei populatii normale este cunoscut a putem estima
prin intervale de ncredere media populatiei cu ajutorul v.a. normale standard 2 =

An
o
_
a
,
unde A este media de selectie, iar : este media real a a populatiei.
Dac a media : nu este cunoscut a atunci putem folosi punctul d) al teoremei precedente
care spune c a variabila
1 =
_
(: 1) :

A :
_
_
A
1

A
_
2
+
_
A
2

A
_
2
+... +
_
A
a

A
_
2
=
_
: 1

A :
o
are o distributie Student cu n-1 grade de libertate. Aici utilizat notatia (vezi lectia 9) o
2
=
(
A
1

A
)
2
+
(
A
2

A
)
2
+...+
(
A
n

A
)
2
a
. Asa cum se vede n lectia 4, densitatea de probabilitate este
simetric a fat a de x=0, deci pentru functia de repartitie 1 (t) avem relatia 1(t) = 1 1(t).
Aceast a observatie ne ajut a s a folosim tabelul II pentru g asirea cuantilelor corespunz atoare
acestei distributii. Pe coloana din stnga a tabelului avem gradele de libertate i = : 1 (:
volumul selectiei), pe prima linie orizontal a avem valorile functiei F(t) de la 0,60 pn a la 0,999.
Fie de aat la i = : 1 = 4 valoarea lui a astfel ca F(c)=0,40. Avem 1-F(c)=F(c)=0,60
si pentru 0,60 avem cuantila n tabel: c=0,271. Deci c = 0. 271.
S a punem aceste rezultate n urm atoarea propozitie:
Propozitia 10.8 Fie P o populatie normala cu media : si dispersia o
2
necunoscute. Pentru
orice n, pentru un prag (0. 1) si c R
+
, o conditie sucienta ca intervalul
_
A c
S
_
a1
; A +c
S
_
a1
_
sa e interval de ncredere de nivel 1 (sau de prag ) pentru media :, este ca c sa e cuan-
tila de ordin 1 ,2 a distributiei Student cu :1 grade de libertate (adica 1 (c) = 1 ,2).
Demonstratie. Relatia 1
_
A c
S
_
a1
_ : _ A +c
S
_
a1
_
= 1 se mai poate scrie
1
_
c _
_
: 1

A :
o
_ c
_
= 1 .
:cn 1 (c _ 1 _ c) = 1
Dar
1 (c _ 1 _ c) = 1(c) 1(c) =
1(c) 1 +1(c) = 21(c) 1 = 2 (1 ,2) 1 = 1
QED.
Exemplul 10.9 Presupunem ca n exemplul precedent nu cunoastem dispersia 0,04 mm si
ca o estimam cu formula o
2
=
(
A
1

A
)
2
+
(
A
2

A
)
2
+...+
(
A
n

A
)
2
a
gasind-o ca ind egala cu 0,09
mm. Avem 1 (,2) = 0. 95, : = 100, o = 0. 3 (n cazul nostru). Cuantila corespunzatoare
lui 0,95 o gasim din tabelul cu distribu tia Student. La i = : 1 = 99 nu gasim date dar
putem folosi linia lui i = 120, deoarece cuantilele vecine difera putin unele de altele (pentru
acelasi prag binenteles). Aici gasim c=1,1658. Cu acest c gasit, intervalul de ncredere va :
_
10,01-1,658
0,3
_
99
; 10,01+1,658
0,3
_
99
_
, adica [9,9798,10,0599]. Sa observam ca c=1,65 pentru
situatia cnd am folosit v.a. Z si c=1,658 pentru situatia cnd am folosit v.a. T. Acest lucru
se explica, deoarece pentru : mare (mai mare ca 40), n cazul nostru 100, cele doua cuantile
difera foarte putin.
10.2 Intervale de ncredere pentru dispersie
Dac a media : a variabilei aleatoare A este cunoscut a, atunci putem folosi punctul b) al
teoremei precedente care spune c a variabila
_
A
1
n
o
_
2
+
_
A
2
n
o
_
2
+ ... +
_
A
n
n
o
_
2
este de tip
H (:) iar dac a media : nu este cunoscut a putem folosi punctul c) al teoremei, anume c a
variabila aleatoare
_
A
1

A
o
_
2
+
_
A
2

A
o
_
2
+... +
_
A
n

A
o
_
2
este de tip H (: 1), n scopul de a
determina intervale de ncredere pentru dispersie.
:o
2
o
2
=
2
(a1)
(10.2)
adic a
aS
2
o
2
este v.a
2
cu : 1 grade de libertate. Dac a n loc de o
2
se foloseste estimatorul
nedeplasat o
t 2
se obtine formula
(: 1)o
t 2
o
2
=
2
(a1)
(10.3)
Teorema 10.10 Fie (0. 1). Un interval de ncredere de nivel 100(1 ) procente pentru
dispersia o
2
a unei populatii normale cu media cunoscuta :, n cazul selectiilor de volum :
, este
_
(: 1)o
t 2
/
.
(: 1)o
t 2
c
_
(10.4)
unde c este cuantila de ordin ,2 si / este cuantila de ordin 1(,2) a distributiei
2
cu :1
grade de libertate.
Demonstratie Not am cu 1(t) functia de repartitie a v.a.
2
(a1)
. Avem 1(c) = ,2 si
1(/) = 1 (,2). Atunci 1
_
c _
(a1)S
0 2
o
2
_ /
_
= 1(/) 1(c) = 1 (,2) (,2) = 1 .
Dar, din c _
(a1)S
0 2
o
2
_ / g asim c a
(a1)S
0 2
b
_ o
2
_
(a1)S
0 2
o
. Prin urmare, intervalul din
(10.4) acoper a pe o
2
cu probabilitatea 1 .
QED.
Exemplul 10.11 Media erorilor de masurare a lungimilor unor baghete metalice este de 3
mm. Presupunem ca aceste erori respecta legea normala cu media 3 mm si dispersia necunos-
cuta. Se face o selectie de volum 4: {-1, 4, 4, 1}. Se cere un interval de estimatie pentru o
2
cu pragul de ncredere de 90%.
Solutie n cazul nostru aplic am Teorema 10.9 cu 1- =0,90, deci =0,10. C aut am cuan-
tilele pentru ,2 =0,05 si 1-(,2)=0,95, cnd :-1=3 (grade de libertate). G asimc=0,351846 si
/=7,81473 n Tabelul III. Calcul am acum S
t 2
=
1
3
((1 3)
2
+ (4 3)
2
+ (4 3)
2
+ (1 3)
2
) =
22
3
. Intervalul va deci
_
22
7,81
;
22
0,35
_
= [2,81;62,85]. Se observ a c a intervalul este destul de mare,
deci precizia pentru o
2
este mic a, chiar dac a apare cu probabilitate mare!
10.3 Intervale de ncredere pentru ctul a dou a dispersii
Fie acum dou a populatii distincte, normal distribuite. Facem o selectie de volum :
1
din prima
populatie si o selectie de volum :
2
din a doua populatie. Stim din formula (10.3) c a
(:
1
1)o
t 2
1
o
2
1
=
2
(a
1
1)
(10.5)
(:
2
1)o
t 2
2
o
2
2
=
2
(a
2
1)
unde o
1
. o
t 2
1
si o
2
. o
t 2
2
sunt dispersiile si dispersiile de selectie modicate pentru cele dou a
populatii. Not am cu i
1
= :
1
1 si cu i
2
= :
2
1. Not am cu 1 (de la Fischer) v.a.
o
t 2
1
,o
2
1
o
t 2
2
,o
2
2
=
_
2
(i
1
)
,i
1
_
_
2
(i
2
)
,i
2
_ (10.6)
Aceast a v.a. are o densitate de probabilitate ce depinde de doi parametri i
1
si i
2
iar formula
ei este complicat a din punct de vedere matematic (vezi lectia 4). Ea apare ca un ct de v.a.
2
, nmultit cu un num ar care depinde de i
1
si i
2
, adic a i
2
,i
1
. Vom mai nota o asemenea
variabil a 1
i
1
,i
2
pentru a pune n evident a cei doi parametri de care depinde. Tabelul IV ne
furnizeaz a fractilele acestei distributii numai pentru ordinele 0,95; 0,975 si 0,99. Pe coloane
apar valorile parametrului i
1
si pe linii apar valorile parametrului i
2
. De exemplu, pentru
:
1
= 10. :
2
= 6. i
1
= 9. i
2
= 5. presupunem c a dup a selectie am obtinut 1=7. Ne uit am la
cuantila de ordin 0,95 si g asim valoarea 3,48. Valoarea selectiei, 7, este mai mare dect 3,48,
deci cade n partea opus a, adic a n partea cu probabilitatea 5%. Prin urmare inferenta
noastr a asupra ctului
S
0 2
1
S
0 2
2
nu este adev arat a cu 95% probabilitate. n practic a este util a
relatia:
1
_
1
(i
1
;i
2
)
_ c
_
= 1
_
1
(i
2
;i
1
)
_
1
c
_
(10.7)
Aici 1
(i
2
;i
1
)
se numeste inversa v.a. 1
(i
1
;i
2
)
.
Din aceste observatii rezult a imediat:
Teorema 10.12 Avem rela tia
1
_
co
t 2
2
o
t 2
1
_
o
2
2
o
2
1
_
/o
t 2
2
o
t 2
1
_
= 1
_
c _
o
t 2
1
,o
2
1
o
t 2
2
,o
2
2
_ /
_
=
1
i
1
,i
2
(/) 1
i
1
,i
2
(c) = 1
daca a si b sunt alese astfel ca 1
i
1
,i
2
(/) = 1
.
2
si 1 (c) =
.
2
. In aceste condi tii un interval
de ncredere pentru
o
2
1
o
2
2
, cu nivelul de ncredere (1 ) este
_
oS
0 2
2
S
0 2
1
.
bS
0 2
2
S
0 2
1
_
.
QED.
10.4 Intervale de ncredere n cazul unor selectii mari
Dac a ,(r. o) este densitatea de probabilitate a variabilei aleatoare A atunci din
_
o
o
,(r. o)dr =
1 rezult a prin derivare n raport cu o c a
_
o
o
0)
00
(r. o) do = 0 sau
_
0 ln()(a,0))
00
,(r. o)dr = 0.
Deci variabila aleatoare
0 ln()(a,0))
00
are media 0 si dispersia
_
o
o
_
0 ln()(a,0))
00
_
2
,(r. o)dr. Pre-
supunnd c a dispersia este nit a , rezult a din legea limit a central a (vezi lectia 5) c a pentru :
mare, variabila aleatoare
0 ln()(A
1
,0))
00
+
0 ln()(A
1
,0))
00
+... +
0 ln()(A
1
,0))
00
_
:
_
o
o
_
0 ln()(a,0))
00
_
2
,(r. o)dr
unde A
1
, A
2
,... A
a
sunt variabilele de selectie asociate cu A, are o distributie aproximativ
normal a cu media 0 si dispersia 1. Avem deci:
Pr o/
_
_
_
_
c <
0 ln()(A
1
,0))
00
+
0 ln()(A
1
,0))
00
+... +
0 ln()(A
1
,0))
00
_
:
_
o
o
_
0 ln()(a,0))
00
_
2
,(r. o)dr
< /
_
_
_
_
t
_
b
o
1
_
2:
c
x
2
2
dr (10.8)
Un interval de ncredere pentru o.cu nivelul de ncredere c, se poate obtine pentru n mare
astfel:
- Se determin a prin n experiente independente valorile r
1
,.. r
a
pentru A
1
,.. A
a
.
- Se determin a a si b astfel ca
_
b
o
1
_
2
c
x
2
2
dr = c.
- Din formula 10.8 rezult a c a multimea valorilor o care veric a inegalitatea
c <
0 ln()(A
1
,0))
00
+
0 ln()(A
1
,0))
00
+... +
0 ln()(A
1
,0))
00
:
_
_
o
o
_
0 ln()(a,0))
00
_
2
,(r. o)dr
< /
este o multime de ncredere pentru o cu ncrederea c. In unele cazuri aceast a multime este
un interval.
10.5 Rezumat
1. Fie 0. (0. 1). Vom numi interval de ncredere de prag (sau de nivel de ncredere
1 ) pentru parametrul ` dou a statistici
1
= ,
1
(A
1
. .... A
a
) si
2
= ,
2
(A
1
. .... A
a
) astfel
nct 1(
1
_ ` _
2
) _ 1 .
Pentru selectii efective r
1
. .... r
a
. vom nota valoarea statisticii
1
cu

`
1
si a statisticii
2
cu

`
2
. Intervalul numeric
_
`
1
.
`
2
_
este considerat nc a ca interval de ncredere de nivel 1
(se mai spune de prag ) pentru parametrul estimat `.
2. Dac a exist a dou a statistici 1 = , (A
1
. .... A
a
) si 2 = q (A
1
. .... A
a
) astfel nct v.a.
1 =
Y j
Z
s a e normal a redus a sau Student cu d grade de libertate si t
.
un num ar pozitiv
astfel nct P([T[ t
.
) _ , atunci [1 t
.
[Z[ . 1 +t
.
[Z[] este un interval de ncredere de prag
pentru media j, adic a:
1 (1 t
.
[Z[ _ j _ 1 +t
.
[Z[) _ 1
Fie acum de estimat o
2
a v.a. X. Presupunem c a am g asit o statistic a Y a.. T=
Y
o
2
are
distributia
2
cu d grade de libertate si e dou a numere t
t
.
si t
tt
.
astfel nct P(1 _ t
t
.
) _
.
2
si P(1 _ t
tt
.
) _
.
2
. Atunci
_
Y
t
0
"
.
Y
t
00
"
_
este un interval de ncredere pentru o
2
de prag :
P
_
Y
t
0
"
_ o
2
_
Y
t
00
"
_
_ 1 .
Se alege Y a.. s a aib a ct mai multe grade de libertate.
FORMULE UTILIZATE FRECVENT
In formulele de mai jos nivelul de ncredere este 1 , iar rezultatele a :
m asur atori independente ale unei caracteristici numerice cu distributie normal a
sunt r
1
. r
2
. ...r
a
.
1. Un interval de ncredere pentru media : a unei variabile aleatoare normale,
dac a se cunoaste dispersia o
2
este:
_
r
1
+r
2
+...r
a
:
c
o
_
:
.
r
1
+r
2
+...r
a
:
+c
o
_
:
_
unde c se alege astfel ca (c) = 0. 5
.
2
.
2. Un interval de ncredere pentru media : a unei v.a. normale, dac a nu se
cunoaste dispersia, este:
_
:
+
c
:
+
_
: 1
. :
+
+c
:
+
_
: 1
_
unde :
+
=
a
1
+a
2
+...a
n
a
, :
+
=
_
(a
1
n
)
2
+(a
2
n
)
2
+...(a
n
n
)
2
a
, iar c se alege astfel ca 1 (c) =
1
.
2
, 1 ind functia de repartitie a unei variabile Student cu : 1 grade de
libertate.
3. Un interval de ncredere pentru dispersia o
2
a unei v.a. normale este:
_
(r
1
:
+
)
2
+... + (r
a
:
+
)
2
/
.
(r
1
:
+
)
2
+... + (r
a
:
+
)
2
c
_
unde 1 (c) =
.
2
. iar 1 (/) = 1
.
2
, 1 ind functia de repartitie a unei variabile
2
cu
: 1 grade de libertate.
4. Un interval de ncredere pentru ctul dispersiilor
o
2
2
o
2
1
a dou a v.a. indepen-
dente este:
_
_
c
P
n
2
i=1
(j
i
n
0
)
2
a
2
1
P
n
1
i=1
(a
i
n
)
2
a
1
1
. /
P
n
2
i=1
(j
i
n
0
)
2
a
2
1
P
n
1
i=1
(a
i
n
)
2
a
1
1
_
_
unde :
+
=
a
1
+a
2
+...a
n
1
a
1
, :
t+
=
j
1
+j
2
+...j
n
2
a
2
, :
1
si :
2
sunt volumele celor dou a selectii,
i
1
= :
1
1, i
2
= :
2
1, iar c si / sunt alese astfel ca 1
.
2
= 1
i
1
,i
2
(/) ,
.
2
= 1
i
1
,i
2
(c)
10.6 Exercitii rezolvate
1. Atunci cnd se nasc 2 copii simultan (gemeni) probabiliatea ca ei sa e gemeni adevarati
este `. Se presupune ca:
a) 2 gemeni adevarati au ntotdeauna acelasi sex si probabilitatea ca ei sa e baieti este
1
2
;
b) 2 gemeni falsi au sexe diferite si probabilitatea ca unul dintre ei sa baiat este
1
2
;
i)n cursul nasterii a 2 gemeni se considera evenimentele: A= (2 baieti); B= (2 fete);
C= (1 baiat si 1 fata). Calculati n functie de ` probabilitatile j(A), j(B), j(C).
ii) n cursul a 1000 de nasteri se realizeaza evenimentul C de 328 de ori. Dati pentru `
un interval de ncredere de prag =0,05.
iii) Observam acum : nasteri de gemeni si notam cu Y
C
numarul de realizari ale eveni-
mentului C. Ce lege guverneaza v.a. Y
C
? Deniti cu ajutorul lui Y
C
un esantion nedeplasat
Z pentru `. Calculati varianta lui Z. Dati pentru : mare o conditie independenta de ` si
sucienta pentru a putea deni cu ajutorul lui Z un interval de ncredere de prag =0,05 a
carui lungime sa e mai mica dect un c R , dat. Caz particular c =
1
100
.
Solutie i) Not am cu V evenimentul: << gemeni adev arati si cu F: << gemeni falsi
. Atunci A=(AV)'(AF) si j(A)=j(V)j
\
(A)+j(F)j
1
(A)=`
1
2
+ (1 `)
1
4
=
A+1
4
. La
fel j(B)=
A+1
4
si j(C)=
1A
2
.
ii) Fie X v.a. care are valoarea 1, dac a se realizeaz a evenimentul C, si 0 altfel. Este
clar c a M(X)=j=
1A
2
. X =
1
a
1
C
=
328
1000
= 0. 328. Cum X=X
i
, avem c a X
2
i
=X
i
, deci
S
2
=
1
a
i
X
2
i
(X)
2
= X
_
1 X
_
. Cum T=
XM(X)
_
S
2
a
este practic normal a redus a, egalitatea
P([T[ _ 1. 96) = 0. 05 d a pentru j intervalul de ncredere cerut: X1. 96
S
_
a
_ j _ X+1. 96
S
_
a
,
sau 0. 299 _
1A
2
_ 0. 357. De aici rezult a intervalul de ncredere c autat pentru `: 0. 286 _
` _ 0. 402.
iii) Y
C
este binomial a cu j=
1A
2
. Avem deci M(Y
C
)=
a(1A)
2
si D(Y
C
)=
a(1A
2
)
4
. Egalitatea
` = 1
2
a
M(Y
C
) d a pentru ` estimatorul nedeplasat Z=1-
2
a
Y
C
de dispersie
4
a
2
D(Y
C
)=
1A
2
a
.
Cnd : , Y
C
este practic gaussian a (normal a), deci si Z este la fel. Consider am
deci T=
ZA
q
(
1A
2
)
a
care este gaussian a redus a. Egalitatea P([T[ _ 1. 96) = 0. 05 ne per-
mite s a scriem P
_
[Z `[ _ 1. 96
_
_
1 `
2
_
,:
_
= 0. 05, si cum
_
_
1 `
2
_
,: _
_
1,: avem
P([Z `[ _ 1. 96,
_
:) < 0. 05, de unde Z-
1,96
_
a
_ ` _Z+
1,96
_
a
. Lungimea lui va mai mic a
dect c atunci cnd c _
21,96
_
a
, sau : _
_
3,92
o
_
2
. Pentru c =
1
100
g asim : _ 153664.
2. Se masoara forta de compresiune X (n Kg/cm
3
) a cimentului din care sunt confec-
tionati cilindri mici, limita de la care ei se sparg. Pentru :=10 cilindri se observa urmatoarele
presiuni:
19,6 19,9 20,4 19,8 20,5
21,0 18,5 19,7 18,4 19,4
Presupunem ca X are o lege gaussiana (normala).
i) Dati un interval de ncredere de prag = 0. 1 pentru M(X).
ii) Dati o estimare nedeplasata o
2
pentru varianta o
2
a v.a. X, gasiti apoi un interval de
ncredere de prag 0,1 pentru o
2
.
iii) Presupunem ca o
2
=0,69. Gasiti pentru M(X) un nou interval de ncredere de prag
0,1. Comparati cu rezultatul de la 1).
Solutie i) Calcul am X = 19. 72 si :S
2
= 6. 0960. T=
XM(X)
_
S
2
(a1)
este o v.a. Student cu
: 1 = 9 grade de libertate, avem P([T[ t
.
) = 0. 1 pentru t
.
= 1. 833. Intervalul de
ncredere cerut este deci Xt
.
S
_
a1
_M(X)_ X +t
.
S
_
a1
, sau 19. 243 _M(X)_ 20. 197.
ii) O estimatie nedeplasat a a lui o
2
este o
2
=
aS
2
a1
= 0. 6773. Pe de alt a parte stim c a U=
aS
2
o
2
are distributia
2
(Pearson) cu : 1 = 9 grade de libertate. Avem deci P(U t
t
.
) = 0. 05
pentru t
tt
.
= 3. 33. De aici g asim pentru o
2
intervalul de ncredere:
aS
2
t
0
"
_ o
2
_
aS
2
t
00
"
, adic a
0. 36 _ o
2
_ 1. 83.
iii) Dac a stim dispersia o
2
= 0. 69 putem folosi faptul c a A este gaussian a N
_
j.
o
2
a
_
si deci
T
t
=
XM(X)
_
o
2
a
este gaussian a redus a. Egalitatea P([T
t
[ t
t
.
) = 0. 1 ne conduce la t
t
.
= 1. 6449.
Prin urmare, g asim un interval de ncredere de prag
1
10
pentru M(X): Xt
t
.
_
o
2
,: _M(X)_
X + t
t
.
_
o
2
,:, sau 19. 287 _M(X)_ 20. 153. Acest interval este mai mic dect acela g asit la
1) deoarece acum avem dispersia dat a.
10.7 Exercitii
1. Notam cu X vrsta n ani la care un om devine bunic. Presupunem ca X are distributia
normala cu varianta 225. 9 persoane luate la nmplare au declarat ca au devenit bunici la:
42, 56, 68, 56, 48, 36, 45, 71 si 64 ani.
a) Calculati media si dispersia de selectie.
b) Gasiti un interval de ncredere de 80% pentru medie.
c) Gasiti un interval de ncredere de 95% pentru medie.
2. n cadrul unui proces de estimare a mediei unei populatii oarecare, un statistician vrea
ca probabilitatea ca media de selectie sa difere de media adevarata cu mai pu tin de 0,2o sa
e mai mare de 0,95.
a) Ce volum de selectie trebuie sa foloseasca?
b) Daca volumul de selectie este 100, care este marja de aproximare (n o unitati) a mediei
reale cu media de selectie, pentru ca sa se obtina un prag de ncredere de 0,95?
c) Daca se stie ca popula tia este normala care trebuie sa e volumul de selec tie ca Pr o/
_

A :
_ 0. 2 o
_
_
0. 95 ?
3. Fie distributia student T cu 12 grade de libertate.
a) gasiti fractile pentru 0,10; 0,60 si 0,95.
b) gasiti media si dispersia.
c) P(T<-0,695).
d)P(-2,179<T<1,356).
4. Fie distributia T cu 6 grade de libertate.
a) gasiti P(T_ 1).
b) gasiti fractila pentru 0,20.
5. Fie P o populatie distribuita normal. Se face selectia: -2, -1, 0, 0, 1, 2, 2, 3, 0. Sa
se gaseasca un interval de ncredere pentru media populatiei cu pragul de ncredere de 80%,
folosind distributia T.
6. Dintr-un lot de 100 piese, 4 sunt gasite defecte. Presupunem ca procesul de productie
se comporta ca un proce de tip Bernoulli. Determinati intervale de ncredere de 95% si de
99% pentru probabilitatea ca lund o piesa la ntmplare ea sa e defecta.
7. Se urmareste indicatorul Dow-Jones (indicator la bursa americana) la stocurile indus-
triale de la o zi la alta. Se presupune ca acesta variaza dupa o distributie normala. Se face
un sondaj pe parcursul a 81 de zile si se obtine o medie de selectie de 0,20 si o dispersie de
selectie de 1,50. Gasiti un interval de ncredere pentru medie de 90%.
8. Dintr-o populatie noramla ( :=24, o
2
=9) se ia un esantion de volum 8. Notam cu W
suma patratelor celor 8 valori standardizate
_
2
2
i
=
_
A
i
n
o
_
2
_
. Gasiti: a) P(W_20,09); b)
P(2,73<W<5,07); c) P(W2,18).
11. Pentru distributia 1 cu 5 grade de libertate la numarator si cu 8 grade de libertate la
numitor, gasiti : a) fractilele de ordin 0,025 si 0,99; b) P( 1 _3,69); c) P( 1 _1,22).
12. Durata de via ta a unui bec electric este o variabila aleatoare normala. Testul pe 16
becuri a aratat o valoare medie de via ta de 3000 ore si o abatere standard o
+
= 20. Sa se
determine intervale de ncredere pentru medie si abatere standard cu pragul de risc = 0. 1.
13. Un producator de rulmen ti pretinde ca diametrul mediu al rulmen tilor, n mm este de
10 mm cu o dispersie de 10
4
. Admitem ca diametrul este o v.a. normala. Pe un lot de 20
rulmen ti masura ti s-a gasit ca diametrul mediu 9. 98 mm si o dispersie empirica 0. 0002. Sa
se determine intervale de ncredere pentru diametrul mediu si dispersie cu ncrederea 0. 99.
Valorile pretinse de fabricant se aa n aceste intervale?
Lectia 11
Ipoteze statistice. Teste statistice
11.1 Ipoteze si testarea lor
n continuare vom face ipoteze asupra parametrilor unor populatii, stiind n prealabil clasa
de distributii din care fac parte (de exemplu: normal a, Bernoulli, Poisson, etc.). Vom folosi
rezultatele obtinute n Lectia 10 asupra estim arii prin intervale de ncredere a unor parametri
remarcabili pentru distributii cunoscute (media si dispersia pentru populatii normale, de
exemplu).
O ipotez a statistic a este o ipotez a f acut a asupra unor nsusiri statistice ale unei populatii
P.Ea este simpla, dac a se refer a la ntreaga informatie care determin a distributia populatiei,
de exemplu ipoteza:
H: populatia este normal a de medie :=10 si dispersie o
2
=225, sau
H: populatia este Bernoulli cu j=0,3.
Ipoteza poate compusa dac a se refer a numai la o parte din informatiiile ce ar putea
determina distributia populatiei. Iat a un exemplu de distributie compus a:
H: populatia este normal a de medie 40, sau
H: populatia este Poisson (nu facem nici o ipotez a asupra mediei `).
In cazul ipotezelor compuse, ceilalti parametrii care impreuna cu cei testati ar duce la
determinarea completa a distributiei, se estimeaza dintr-o selectie (sau mai multe) facuta
asupra populatiei.
O ipotez a poate exacta,de exemplu ipoteza H: media populatiei Poisson este `=3, sau
poate inexacta: H: media populatiei normale este : _ 5.
n aparent a noi lucrm cu o singur a ipotez a H. De fapt lucr am cu dou a ipoteze: H=H
0
si
H
1
, ipoteza contrar a ipotezei H
0
. n cele ce urmeaz a vom considera dou a ipoteze alternative
H
0
si H
1
. Nu intotdeauna ipoteza H
1
reprezinta negatia logica obisnuita a ipotezei H
0
. De
exemplu, H
0
: media populatiei este m=30, H
1
: media populatiei s-a micsorat, adica este
m<30.
Operatia de comparare a dou a ipoteze statistice n lumina informatiilor furnizate de selectie
144
LEC TIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 145
se numeste test statistic. Dac a testul statistic se refer a la unul sau mai multi parametri ce apar
n legea ce deneste populatia spunem c a testul este parametric. Dintre cele dou a ipoteze H
0
si H
1
, una dintre ele, notat a cu H
0
, ocup a locul central: test am pe H
0
mpotriva alternativei
H
1
. La nalul test arii statisticianul, e accept a pe H
0
, e c a respinge pe H
0
n favoarea ipotezei
H
1
. Oricum el trebuie s a ia o decizie. Fiecare test statistic implic a o statistic a de selectie,
adic a o functie continu a de tipul q (A
1
. .... A
a
), unde : este volumul selectiei, iar A
1
. .... A
a
sunt variabilele de selectie. Anumite valori ale statisticii conduc la acceptarea ipotezei H
0
,
alte valori ale ei conduc la respingerea acestei ipoteze. Vom vorbi deci de un domeniu de
respingere (de neacceptare). Regula de decizie este dat a de fapt de specicarea domeniului
de respingere al ipotezei H
0
, deoarece se consider a c a domeniul complementar domeniului de
respingere este exact domeniul de acceptare pentru ipoteza H
0
.
Mai exact, daca ipoteza H
0
, numita si ipoteza nula, este adevarata atunci, in urma unei
selectii concrete, este foarte probabil ca valoarea calculata pentru v.a. q (A
1
. .... A
a
) sa se
gaseasca intr-un interval de probabilitate mare. Acest lucru se intampla deoarece statistica
q (A
1
. .... A
a
) are o repartitie bine determinata de ipoteza H
0
si eventual de unele estimari
facute in urma selectiei concrete ce apare in problema. Deci noi trebuie sa stabilim o zona de
acceptare, adica o submultime A din R a.i. probabilitatea ca o valoare a v.a. q (A
1
. .... A
a
) sa
apartina multimii A sa e destul de mare (de obicei se ia ca ind _ 0. 9). Multimea RA
se zice zona de respingere si probabilitatea ca v.a. q (A
1
. .... A
a
) sa ia o valoare in RA
este foarte mica (_ 0. 1). Numarul = j:o/ (q (A
1
. .... A
a
) R) se numeste prag de
semnicatie pentru testul pe care il vom constitui, iar statistica q (A
1
. .... A
a
) este o v.a. care
depinde de v.a. de selectie A
1
. .... A
a
si este legata de ipoteza H
0
. De exemplu, daca H
0
se
refera la media populatiei, q (A
1
. .... A
a
) va media de selectie standardizata, adica 2 =
An
o
_
a
,
unde : este media ce rezulta din ipoteza H
0
, o este deviatia standard (presupusa cunoscuta),
: este volumul selectiei, iar A = (A
1
+A
2
+ +A
a
) ,:, este v.a. media de selectie. Ipoteza
alternativa, H
1
este ipoteza ce rezulta natural in urma negarii ipotezei H
0
. De exemplu, daca
H
0
este ": = 30" si noi stim sigur ca media nu poate sa creasca in urma experimentului
ce apare in problema, atunci H
1
va ": < 30". Daca nu stim nimic despre modul in care
se schimba media, este natural sa consideram ipoteza alternativa ca ind ": ,= 30", adica
": < 30" sau ": 30". Iata deci cum functioneaza in general un test parametric referitor
la parametrul o al unei populatii P:
1) construim ipotezele H
0
(ipoteza nula) si H
1
(ipoteza alternativa) asupra parametrului
o.
2) construim v.a. q (A
1
. .... A
a
) care are o distributie (repartitie) cunoscuta daca consid-
eram pe H
0
adevarata.
3) precizam pragul de semnicatie pentru v.a. q (A
1
. .... A
a
) ( este mic, _ 0. 1).
4) reprezentam grac (schematic si nu exact) zonele de respingere si respectiv de acceptare,
j(q) =densitatea de probabilitate a v.a. q.
Zona tipica de respingere a unui test
Aria hasurata este ,2 +,2 = = j:o/(q sa ia valori in zona de respingere).
5) calculam q
co|c.
= q (r
1
. .... r
a
) pentru valorile efective ale unei selectii furnizate de prob-
lema. Daca q
co|c
zonei de acceptare vom spune ca acceptam ipoteza H
0
cu pragul de
semnicatie . Daca q
co|c
zonei de respingere acceptam ipoteza alternativa H
1
cu pragul
de semnicatie .
11.1.1 Testul 2 privind media unei populatii normale cu dispersia
cunoscuta o
2
Vrem sa testam ipoteza:
H
0
: : = :
0
, :
0
specicat (: este media populatiei)
H
1
: : ,= :
0
Consideram statistica 2 =
An
0
o
_
a
. Stim ca 2 este o v.a. normala redusa (are media 0 si
dispersia 1), pentru : mare. Aici o este precizat de problema.
Fie (0; 0. 1] pragul de semnicatie ales ( = 0. 05; 0. 01. etc.)

Zona de respingere pentru un test bilateral
Calculam pe 2
.2
ca ind cuantila de ordin ,2, adica 1(2
.2
) = 1 ,2 (vezi TABELUL
I)
calculam 2
co|c
=
An
0
o
_
a
pentru selectia din problema.
Daca [2
co|c
[ _ 2
c2
, acceptam ipoteza H
0
cu pragul de semnicatie .
Daca [2
co|c
[ 2
c2
, respingem ipoteza H
0
(acceptam H
1
) cu pragul de semnicatie .
Exemplul 11.1 Testati cu un prag (nivel) de semnicatie de 5% daca o selectie de volum 1,
r
1
= 172 provine dintr-o populatie normala cu media : = 150 si dispersia xata (cunoscuta)
o
2
= 100.
Solutie H
0
: : = 150; H
1
: : ,= 150; 2 =
An
o
_
a
=
An
o
, deoarece : = 1 si A = A
1
= A.
1(2
0,025
) = 1 0. 025 = 0. 975.
Deci, din TABELUL I gasim ca 2
0,025
(cuantila de ordin 0,025) este 1,96.
2
co|c
=
172150
10
= 2. 2. Deoarece [2
co|c
[ 1. 96 respingem H
0
(acceptam H
1
) cu pragul de
semnicatie de 5%. Adica este putin probabil ca selectia sa provina dintr-o populatie normala
cu media : = 150 si dispersia o
2
= 100.
Aici am folosit un test bilateral (zona de respingere este simetrica fata de origine, adica
are 2 cozi) deoarece pentru H
1
. : poate tot asa de bine < 150 sau 150.
Exemplul 11.2 Testati cu un prag de semnicatie = 1% daca selectia de volum 1, r
1
= 54,
a fost facuta dintr-o populatie normala cu media : = 65 si dispersia o
2
= 30, sau daca media
este mai mica decat 65.
Solutie H
0
: : = 65; H
1
: : < 65. Vom avea deci un test unilateral (la stanga, cu o
singura coada).2 =
An
o
_
a
=
An
o
.
Zona de respingere pentru un test unilateral
Deoarece in tabelele statistice se dau numai valorile functiei de repartitie normala, F(.),
pentru . _ 0, va trebui sa folosim proprietatile de simetrie ale densitatii de probabilitate j(.).
Avem ca P(2 < 2
0,01
) =F(2
0,01
) = 0. 01. Deci F(2
0,01
) =P(2 < 2
0,01
) = 1P(2 < 2
0,01
) =
1 0. 01 = 0. 99, deci, din TABELUL I gasim ca 2
0,01
= 2. 33, adica 2
0,01
= 2. 33.
Calculam 2
co|c
=
5465
_
30
= 2. 01. Cum 2. 01 2. 33 vom accepta ipoteza H
0
cu pragul
de semnicatie de 1%. Cum pragul este mic si 2
co|c
este foarte aproape de valoarea critica
2. 33 statisticianul are dubii serioase asupra rezultatului si va trebui sa considere si alta
selectie si sa foloseasca un test cu semnicatie mai mare, de exemplu de 5% pentru a mai
sigur de concluzia pe care o da.
Exemplul 11.3 Din 100 de seminte plantate 83 au germinat. Folositi aproximarea distrib-
utiei binomiala cu o distribatie normala pentru a testa pretentia comerciantului ca 90% din
seminte germineaza. Folositi doua teste: unul cu pragul de semnicatie de 5%, altul cu pragul
de 1%.
Solutie Fie A v.a. care numara cate seminte au germinat din cele :. A ~ 1i:(:. j),
unde : = 100.
H
0
: j = 0. 9 (rata de germinare este de 90%).
H
1
: j < 0. 9 (rata de germinare este mai mica de 90%).
Vom avea deci un test unilateral, deoarece este putin probabil ca vanzatorul sa sustina o
rata de germinare mai mica decat aceea reala.
Pentru pragul = 0. 05 avem:
P(2 < 2
0,05
) = 0. 05; deci P(2 < 2
0,05
) = 0. 95 =F(2
0,05
).
Din TABELUL I gasim ca 2
0,05
= 1. 65, deci 2
0,05
= 1. 65.
Cum H
0
: A ~ 1i:(100; 0. 9) avem ca A ~N(:j. :j) =N(90. 9), deci 2
co|c
=
Aaj
_
ajq
=
8390
3
= 2. 33.
Dar 2
co|c
= 2. 33 < 1. 65 si deci va trebui sa resping H
0
cu pragul de 5%. Adica
fabricantul de seminte... minte!
Pentru pragul = 0. 01. c(2
0,01
) 0. 99, deci 2
0,01
= 2. 32, sau 2
0,01
= 2. 32.
Cum 2
co|c
= 2. 33 < 2. 32, dar aproape insensibil mai mic, testul in acst caz nu poate
concludent deoarece valoarea calculata 2
co|c
este prea aproape de valoarea critica 2. 32. Prin
urmare, fabricantul... minte, dar nu minte prea mult! Este nevoie de alte solutii pentru a
capata o certitudine mai mare.
Exemplul 11.4 O masina produce benzi elastice cu tensiuni de rupere normal distribuite cu
media : = 45` si o = 4. 36`. Intr-o zi s-a facut o selectie de volum 50 si s-a gasit media
selectiei r = 43. 46`. Testati cu un prag de semnicatie de 5% daca acest lucru indica sau
nu o schimbare a mediei tensiunilor de rupere.
Solutie H
0
: : = 45 (media nu s-a schimbat)
H
1
: : ,= 45 (media s-a schimbat)-test bilateral!
A ~N
_
:.
o
2
a
_
, : = 45N; o = 4. 36; : = 50.
2
co|c
=
an
o
_
a
=
43,4645
43,36
_
50
= 2. 4975 < 1. 96. Prin urmare respingem ipoteza H
0
cu
pragul de semnicatie de 5%.
Un interval de incredere de nivel 95% pentru medie este r 1. 96
o
_
a
= (42. 25; 44. 67).
Vedem ca 45 , (42. 25; 44. 67). Cea mai mica valoare a lui o astfel incat 45 sa e in intervalul
de incredere r 1. 96
o
_
a
este o = 5. 56 (vezi ecuatia 43. 46 + 1. 96
o
_
50
= 45).
Exemplul 11.5 Tensiunea de rupere a unor cabluri produse de o fabrica este normal dis-
tribuita cu media 6000N si deviatia standard o = 150N. Gasiti probabilitatea ca un cablu luat
la intamplare se aiba tensiunea de rupere 6200N.
S-a modicat procesul de productie si media tensiunilor de rupere se modica. Se aleg
6 cabluri la intamplare dupa aceasta modicare, se testeaza si se gaseste o medie de rupere
r = 5920N. Testati cu un prag de 5% daca dupa modicare media tensiunilor s-a micsorat.
Gasiti o constanta C a.i. noi sa putem spune cu un nivel de incredere de 90% ca media de
rupere este mai mare decat C.
Solutie A ~N(6000. 150
2
); P(A 6200) =P
_
An
o

6200n
o
_
=P(2 1. 333) = 1P(2 _ 1. 333) =
1F(1. 333) = 1 0. 90 = 0. 1.
r = 5920N; H
0
: : = 6000N; H
1
: : < 6000N;
A ~N
_
:.
o
2
a
_
=N
_
6000.
150
2
6
_
;
2
co|c
=
an
o
_
a
=
59206000
150
_
6
= 1. 306 1. 65, deci acceptam ipoteza H
0
cu pragul de
semnicatie 5%.
Trebuie sa gasim C a.i. P(C < : < ) = 0. 9, sau P(C :) = 0. 9, sau inca
P
_
AC
o
_
6

An
o
_
6
= 2
_
= 0. 9. Deci F
_
AC
o
_
6
2
_
= 0. 9 si de aici gasim ca
AC
o
_
6
= 2
0,9
=
1. 29. Prin urmare C= r 1. 29
150
_
6
.
Exemplul 11.6 O distributie normala se crede a avea media 50. Se face o selectie de volum
100 si se gaseste o medie de 52,6 si o deviatie standard de selectie de 14,5. Testati cu nivelul
de 5% daca media populatiei a crescut.
Solutie Fie : media reala si o
2
dispersia reala a populatiei. r = 52. 6, iar : =
_
:
2
=
14. 5,
unde :
2
=
1
a
(r r)
2
.
H
0
: : = 50 (nu exista o schimbare a mediei)
H
1
: : 50 (media populatiei a crescut)
A ~N
_
:.
o
2
a
_
. Estimam pe o
2
cu o
2
=
ac
2
a1
- :
2
, deoarece : = 100 este considerat mare
(100 30). Folosim deci statistica 2 =
An
b o
_
a
si calculam 2
co|c
=
52,650
14,5
_
100
= 1. 793.
Cum 2
co|c
= 1. 793 1. 645, vom respinge H
0
, adica acceptam H
1
cu pragul de semnicatie
de 5%. Deci acceptam ca mesia a crescut cu pragul de semnicatie de 5%.
11.1.2 Testul 1 privind media unei populatii normale cu dispersia
estimata prin estimatorul nedeplasat o
/2
Ipoteza nula H
0
: : = :
0
se refera la o populatie normala careia nu ii cunoastem dispersia.
Aceasta se va estima e prin estimatorul deplasat o
2
=
1
a
(r r)
2
, e prin estimatorul
nedeplasat o
2
=
1
a1
(r r)
2
. Daca volumul selectiei : este mare (: _ 30) atunci
o
2
- o
2
si jntc: folosi ca statistica pentru un test de semnicatie, statistica 2 (vezi
Exemplul 11.1.6). Daca insa volumul selectiei este mic nu mai putem folosi aceasta statistica
ci este indicat sa folosim statistica Student cu : 1 grade de libertate, 1 =
An
0
S
=
_
a
, unde
o
=
_
o
2
.
In rest, testul lucreaza exact ca testele de la 11.1.1.
Exemplul 11.7 Se testeaza rezistenta in ohmi pentru 5 bucati de cablu si se gasesc valorile:
1,51; 1,49; 1,54; 1,52; 1,54. Daca cablul ar din argint pur,rezistenta lui ar de 1,5 ohmi.
Daca argintul nu este pur, rezistenta creste. Testati cu un nivel de semnicatie de 5% faptul
ca argintul din cablu nu este pur.
Solutie H
0
: : = 1. 5 ohmi.
H
1
: : 1. 5 ohmi (test unilateral)
Deoarece esantionul selectiei este mic (: = 5) vom folosi statistica student 1 =
An
S
=
_
a
=
An
S
_
a1
, cu : 1 = 4 grade de libertate.
F(T
0,05
) =P(T<T
0,05
) = 0,95. Din TABELUL II, pentru i = 4 grade de libertate gasim
ca T
0,05
= 2. 132.
T
co|c
=
an
S
_
a1
=
1,521,50
0,0192
= 2. 105, deoarece r =
7,6
5
= 1. 52, iar o
2
=
1
a
(r r)
2
=
0,0018
5
= 0. 00036, sau o = 0. 019.
Deoarece T
co|c
< 2. 132, valoarea critica a testului, atunci trebuie sa acceptam ipoteza H
0
cu nivelul de semnicatie 5%.
Exemplul 11.8 Se fac 8 observatii dintr-o populatie normala si gasim r = 4. 65 si
(r r)
2
=
0. 74. Testati cu nivelul de semnicatie de 2% daca media distributiei este 4,3.
Solutie H
0
: : = 4. 3
H
1
: : ,= 4. 3 (test bilateral)
T=
An
S
_
a1
; T
co|c
=
4,654,3
0;74
8
p
7
= 3. 05.
Cum T
co|c
2. 998, resping H
0
cu nivelul de semnicatie de 2%.
11.1.3 Test pentru proportia de succese
Sa notam cu P
c
=(numarul de realizari ale evenimentului A din : incercari),:, adica proportia
de realizari a evenimentului A, cu A v.a.
_
1 0
j
_
, unde = 1 j, iar j este probabilitatea
teoretica pentru a se realiza evenimentul A la o incercare. Daca punemA
1
= A
2
= = A
a
=
A, este clar ca P
c
este chiar A =
A
1
+A
2
++A
n
a
. Pentru : mare, stim ca A ~N(M(P
c
) . D(P
c
)),
dar M(P
c
) =M
_
A
_
= j, D(P
c
) =D
_
A
_
=
1(A)
a
=
jj
2
a
=
jq
a
. Deci
P
c
=proportia de succese~N
_
j.
jq
a
_
. Fie 2 =
P
s
j
_
pq
n
~N(0. 1). Testul proportiei de
succese se realizeaza cu ajutorul statisticii 2 dupa cum se va vedea in exemplul urmator.
Exemplul 11.9 La o universitate americana senatul sustine ca nu se face discriminare sexu-
ala la admitere. Se aleg 500 studenti si se gasesc 267 baieti. Testati cu nivelul de semnicatie
5% daca senatul universitatii spune adevarul sau nu.
Solutie H
0
: j = 0. 5=probabilitatea ca un student sa e baiat;
H
1
: j ,= 0. 5 (test bilateral)
2 =
P
s
j
_
pq
n
; .
co|c
=
267
500
0,5
_
0;50;5
500
= 1. 52.
Cum .
co|c
= 1. 52 < 1. 96, acceptam ipoteza H
0
cu pragul de semnicatie de 5%. Prin
urmare este foarte probabil ca senatul sa spuna adevarul.
Exemplul 11.10 ([Hays], pag. 447) Un producator de frigidere pretinde ca temperatura
medie n compartimentul de congelare este de 10 grade Fahrenheit (aproximativ -12,3 grade
Celsius). Vrem sa vedem adevarul acestei armatii si facem ipotezele: H
0
: : _ 10 (ipoteza
nula), versus H
1
: : = 10 (ipoteza alternativa). Facem un sondaj pe un lot de 16 frigidere
alese la ntmplare si masuram temperaturile n congelatoarele acestora. Gasim ca media
selectiei este 10,24 grade, iar dispersia de selectie modicata (nedeplasata) este de o
t 2
=0,36.
Presupunem ca distributia temperaturilor este normala (deoarece apare un fenomen de repar-
titie de erori). Cum dispersia este calculata tot din selectie folosim v.a. de selectie 1.
Calculam t =
10,2410
0,64
= 1. 6.Vrem sa folosim statistica T cu pragul de semnicatie de 5%
pentru a vedea daca producatorul are dreptate sau nu.Testul va unilateral deoarece zona de
respingere este data de : 10. T
0,95
= 1. 753 pentru 15 grade de libertate,dupa cum se poate
constata in TABELUL II. T
co|c
= 1. 6 < 1. 753. Prin urmare acceptam ipoteza H
0
cu pragul
de 5%.
Observatia 11.11 a) n exemplul de mai sus regiunea de respingere este: : 10, concen-
trata ntr-o singura directie, adica la dreapta lui 10. Un astfel de test se zice directional (sau
unilateral).
b) Daca vrem sa testam o ipoteza despre dispersia unei populatii: H
0
: o
2
= o
2
0
, unde o
0
este data, va trebui sa utilizam testul
2
(vezi Lectia 12). Aici H
1
: o
2
,= o
2
0
, si c este dat.
Cele doua (c si H
1
) descriu regiunea de respingere. Statistica folosita este
2
(a1)
=
(a1)S
0 2
o
2
0
,
unde (: 1) reprezinta numarul gradelor de libertate. Se urmeaza apoi aceeasi cale ca si n
cazul mediei (vezi Rezumatul si exemplele date acolo).
11.1.4 Testul T pentru compararea a dou a esantioane
Fie r
1
. .... r
a
si r
t
1
. .... r
t
n
dou a esantioane. H
0
:<<cele dou a esantioane provin din aceeasi
populatie.
Fie c (0,1) un prag de semnicatie. Not am cu 1
i
=
AA
0
S
0
_
an
a+n
, unde A = (
r
i
) ,:,
A
t
= (
r
t
i
) ,:, o
t 2
=
1
i
_
_
r
i
A
_
2
+
_
r
t
i
A
t
_
2
_
, iar i = : + :2. R. A. Fisher
a ar atat c a 1
i
tinde c atre o repartitie Student cu i grade de liberate. Calcul am 1
i
. G asim
cuantila de ordin 1c,2 n Tabelul corespunz ator lui 1 pentru i grade de libertate si o not am
cu 1
c2
. Testul functioneaz a astfel:
Dac a [1
i
[ 1
c2
atunci vom respinge ipoteza H
0
cu pragul de semnicatie c.
Dac a [1
i
[ _ 1
c2
atunci vom accepta ipoteza H
0
Exemplul 11.12 (R. A. Fisher) 8 ghivece cu re de orez au fost supuse la descarcari
electrice. Altele 9 au fost ferite de descarcari. Rezultatul recoltei a fost (numar de spice):
Izolate: 17, 27, 18, 25, 27, 29, 27, 23, 17;
Electrizate: 16, 16, 20, 16, 20, 17 ,15, 21.
Sa se testeze ipoteza H
0
:<<electricitatea inuenteaza cresterea orezului.
11.2 Tipuri de erori. Reguli de decizie
Vom incepe cu un exemplu.
Exemplul 11.13 ([Hays], pag. 404) Un economist are doua ipoteze asupra implicatiilor
ce deriva din cresterea impozitelor la un anumit moment dat. Prima ipoteza este ca dupa
aceasta crestere 80% din populatie va trebui sa- si reduca economiile. A doua ipoteza este ca
numai 40% din populatie va trebui sa faca acest lucru. Cum s-ar putea aa care ipoteza este
adevarata?
Solutie. S-ar putea ca nici una dintre cele dou a ipoteze s a nu e adev arat a. Totusi, aici,
noi vom considera c a sigur una ditre ele este adev arat a. Vom nota:
H
0
: j=0,8
H
1
: j=0,4, unde j este proportia de consumatori care urmeaz a s a-si reduc a economiile
datorit a cresterii impozitelor. Iat a c a impozitele au crescut si economistul nostru vrea s a vad a
care dintre cele dou a ipoteze ale sale (ecare are n spatele ei rationamente si teorii economice
sosticate) este adev arat a. Pentru aceasta face un sondaj pe un esantion de : consumatori.
Deoarece ecare din consumatori spune DA sau NU (si-a redus sau nu si-a redus economiile)
avem un proces de tip Bernoulli cu : dat si j dat. Pentru H
0
trebuie s a consider am j=0,8, iar
pentru H
1
trebuie s a consider am j=0,4. Presupunem, pentru usurint a, c a :=10. Not am cu
: num arul acelor consumatori care au r aspuns cu DA (dintre cei : chestionati). Statistica de
seletie care poate comparat a cu j este 1,:, unde 1 este v.a. ce pate lua valorile :: 0,1,...,:.
Valorile teoretice pe care le poate lua 1,: si probabilit atile lor le g asim n urm atorul tabel
(am folosit distributia binomial a, vezi Tabelul V):
: :,:
1 (:,: [ j = 0. 8)
aprox. 4 zecimale
1 (:,: [ j = 0. 4)
aprox. 4 zecimale
0 0 0 0. 006
1 0. 1 0 0. 040
2 0. 2 0 0. 121
3 0. 3 0. 001 0. 215
4 0. 4 0. 006 0. 251
5 0. 5 0. 026 0. 2
6 0. 6 0. 088 0. 111
7 0. 7 0. 201 0. 042
8 0. 8 0. 302 0. 011
9 0. 9 0. 268 0. 002
10 1 0. 107 0. 0001
(11.1)
S a presupunem c a statisticianul are datele de selectie ale sondajului, are deci raportul
1,: calculat din sondaj. El are nevoie de o REGUL DE DECIZIE pentru a putea alege
H
0
sau H
1
. Exist a foarte multe posibilit ati de a construi astfel de reguli de decizie. Unele
sunt mai bune, altele nu sunt asa de bune. Vom alege acum urm atoarea regul a: <<Dac a
1,: <0,8, alegem H
1
; dac a 1,: _0,8, alegem H
0
(REGULA 1).
Ce se poate ntmpla dup a ce statisticianul a folosit aceast a regul a?
El poate gresi sau nu. S a calcul am probabilit atile n toate cele patru cazuri care pot s a
apar a:
Situatia reala
H
0
H
1
Decizia H
0
corect eroare II
luata H
1
eroare I corect
(11.2)
De exemplu, s a presupunem c a din selectie am obtinut 1,: _0,8 si totusi n realitate
j=0,4. Deci am ales H
0
si totusi H
1
este adev arat a. Apare al doilea tip de eroare (eroare II).
S a calcul am probabiltatea acestei erori (folosind tabelul de mai sus):
1 (1,: _ 0,8 [ j=0,4)
= 1 (1,:=0,8 [ j=0,4) +1 (1,:=0,9 [ j=0,4) +1 (1,:=1 [ j=0,4)
= 0. 011 + 0. 002 + 0. 0001 - 0. 013.
Primul tip de eroare (eroare I) apare dac a alegem H
1
si totusi H
0
este adev arat a. Proba-
bilitatea acesteia este:
1 (1,: < 0,8 [ j=0,8)
= +0 + 0 + 0. 001 + 0. 006 + 0. 026 + 0. 088 + 0. 201 = 0. 322.
Cele dou a situatii corecte au urm atoarele probabilit ati:
P(1,: _ 0,8 [ j=0,8) =0,677,
P(1,: < 0,8 [ j=0,4) =0,987.
Punem aceste rezultate n urm atorul tabel:
Situatia reala
H
0
H
1
Decizia H
0
0,677 0,013
luata H
1
0,323 0,987
(11.3)
Ce spune acest tabel? Dac a dup a selectie 1,: <0,8, este foarte probabil ca j=0,4. Oricum
este mai probabil acest lucru dect faptul c a 1,: _0,8 si j=0,8. Este foarte putin probabil
s a gresim cu aceast a regul a de decizie, deoarece 0,323+0,013<0,677+0,987.
Iat a o alt a regul a de decizie: <<Dac a 1,: <0,6, alegem H
1
; dac a 1,: _0,6, alegem
H
0
(REGULA 2). Tabelul corespunz ator acestei reguli este urm atorul:
Situatia reala
H
0
H
1
Decizia H
0
0,966 0,116
luata H
1
0,034 0,834
(11.4)
Este clar c a dintre cele dou a reguli de decizie este mai bun a a doua regul a deoarece
probabilit atile de eroare sunt mici.
n prima regul a de decizie valoarea lui 1,:=0,8 (care face trecerea de la zona ipotezei H
0
la zona ipotezei H
1
) se numeste valoarea critica a lui 1,: (adic a a statisticii 1,:).
Pentru a doua regul a de decizie valoarea critic a a statisticii 1,: este 0,6.
n general, frontiera dintre domeniul de acceptare D si domeniul de respingere 1,
formeaz a multimea de puncte n care statistica de testare q (A
1
. .... A
a
) ia valoarea critica
C
0
.
n gura urm atoare avem reprezentarea grac a a domeniului de acceptare D pentru ipoteza
H
0
, a domeniului de respingere 1 pentru ipoteza H
0
si a multimii punctelor de valoare
critic a pentru urm atoarea regul a de decizie: <<Dac a q (A
1
. .... A
a
) _C
0
, accept a H
0
; dac a
q (A
1
. .... A
a
) <C
0
, accept a H
1
. Aici C
0
este valoarea critic a a testului.
Regiunea de acceptare si regiunea de respingere a unui test
Desigur c a statistica q (A
1
. .... A
a
) este aleas a astfel nct s a e o leg atur a natural a ntre ea
si ipotezele H
0
si H
1
. Se consider a, de asemenea, c a H
0
si H
1
se exclud reciproc
_
1 1 = O
_
.
Vom presupune n continuare c a H
0
este ipoteza care se testeaza. Statisticianul poate face
dou a tipuri de erori:
Eroare de tipul I dac a respinge H
0
, ea ind adev arat a;
Eroare de tipul II dac a accept a H
0
, ea neind neadev arat a.
Not am cu c = 1(eroare de tipul I)= 1(respinge H
0
[H
0
este adev arat a);
, = 1(eroare de tipul II)= 1(accept a H
0
[H
0
este fals a).
Tabelele (11.3) si (11.4) din Exemplul 11.1 se generalizeaz a la urm atorul tabel:
Situatia reala
H
0
H
1
Decizia Accept H
0
1-c ,
luata Resping H
0
c 1-,
(11.5)
Orice regul a de decizie are un cuplu de numere (c. ,).
Idealul ar ca c si , s a e 0, sau foarte mici.
Dintre dou a reguli de decizie cu(c
1
. ,
1
) si (c
2
. ,
2
) astfel nct c
1
_ c
2
, ,
1
_ ,
2
, vom
elimina pe cea de-a doua. Spunem c a regula de decizie cu (c
1
. ,
1
) domina (este mai tare)
regula de decizie cu (c
2
. ,
2
). n cazul Exemplului 11.1 cele dou a reguli nu se pot compara,
ele nu se domin a una pe alta.
O regul a de decizie dominat a de o alt a regul a de decize se zice inadmisibila.
Vom da acum un exemplu de regul a de decizie inadmisibil a: <<Dac a 1,: (; 0. 2) '
(0. 8; ), alegem H
1
; dac a 1,: [0. 2; 0. 8], alegem H
0
(REGULA III).
Tabelul corespunz ator ei este:
Situatia reala
H
0
H
1
Decizia Accept H
0
0,625 0,952
luata Resping H
0
0,375 0,048
(11.6)
Aici c
2
=0,375, ,
2
=0,952. Cum c
1
=0,323 si ,
1
=0,013 erau probabilitatile de eroare pentru
prima regul a, rezult a c a regula <<Dac a 1,: (; 0. 2) ' (0. 8; ), alegem H
1
; dac a
1,: [0. 2; 0. 8], alegem H
0
(REGULA III) este inadmisibil a deoarece este dominat a de
prima regul a de decizie. Nu vom lucra niciodat a cu reguli de decizie despre care stim c a sunt
inadmisibile. Dac a se analizeaz a ndeaproape regula <<Dac a 1,: (; 0. 2) ' (0. 8; ),
alegem H
1
; dac a 1,: [0. 2; 0. 8], alegem H
0
(REGULA III) se constat a c a ea contrazice
chiar bunul simt probabilistic (De ce?).
n general statisticianul este interesat de modul in care variaza probabilitatile de eroare
c si , atunci cnd el schimba legea de decizie. Evident c a pentru orice statistica de testare
q (A
1
. .... A
a
) si pentru orice lege de decizie xat a avem un csi un , bine determinati. P astr am
statistica de testare xat a si variem legile de decizie. Se obtine un domeniu al probabilitatilor
de eroare (un domeniu de risc) dac a c se consider a abscisa si , ordonata punctului (c,,)
vezi gura urm atoare:
Domeniul probabilit atilor de eroare
Curba groas a

1 din gura anterioar a este curba corespunz atoare tuturor cuplurilor (c,,)
care deriv a din decizii bune sau admisibile. Oricare alt punct (c
1
,,
1
) din domeniul de
risc care nu se a a pe curba

1 provine dintr-o decizie inadmisibil a, deoarece aceasta este
dominat a de decizia corespunz atoare punctului (c
2
,,
2
) de pe curba

1 si aat la intersectia
dintre aceast a curb a si segmentul OM.
Experienta arat a c a dac a volumul de selectie : creste, atunci curba

1 se apropie de
origine, adic a riscul devine mai mic cel putin pentru deciziile admisibile (deoarece precizia de
predictie asupra populatiei creste odat a cu :).
Singura problem a care r amne pentru statistician este aceea legat a de alegerea regulii de
decizie admisibile. Aici intervine negocierea ntre cazurile c mare, , mic, sau invers, c
mic, , mare, (c,,)

1.
Situatia neutr a este aceea cnd c=,. n practic a aceast a negociere depinde de factori
subiectivi sau obiectivi dar.
Din punct de vedere istoric ipoteza H
0
se numeste ipoteza nula (nevinov atia prezumtiv a
n cazul unui acuzat!), iar ipoteza H
1
se zice ipoteza alternativa(vinov atia acuzatului). n
practic a, num arul c (notat uneori si cu ) se d a ca ind 0,05 sau 0,01 (rareori se utilizeaz a
alt a valoare). c reprezint a probabilitatea de a respinge H
0
cu toate c a H
0
este adev arat a.
Presupunem c a H
0
este adev arat a si alegem asa numita regiune (domeniu) de respingere
n concordant a cu ipoteza H
1
. S a not am domeniul de respingere cu 1c: = acele valori ale
statisticii de testare q (A
1
. .... A
a
) pentru care H
1
este adevarata. G asim multimea 1c: din
ipoteza:
1 (q (A
1
. .... A
a
) 1c: [ H
0
=adev arat a) = c(dct)
Dac a la o selectie de volum :: A
1
. .... A
a
. valoarea v.a. q (A
1
. .... A
a
) 1c:, spunem c a
ipoteza H
1
este adevarata cu pragul de semnicatie c(cu conditia ca c s a e mic, ca mai sus).
Vom da acum cteva exemple de testare a unor ipoteze statistice n lumina celor spuse
mai sus.
Exemplul 11.14 ([Hays], pag. 415) Un muncitor poate sa realizeze A piese pe ora.
Dupa ndelungate cercetari statistice s-a stabilit ca A este o v.a. normala cu media :=138 si
deviatia standard o=20. Un inginer pretinde ca poate aduce o inovatie n procesul de productie
astfel nct sa ridice media la :=142 piese pe ora, fara a perturba normalitatea v.a. A si pe
o. Este chemat un statistician sa testeze pretentia inginerului.
Solutie Introducem dou a ipoteze:
H
0
: :=138
H
1
: :=142
Facem o selectie de 100 muncitori care lucreaz a cte o or a ecare. Alegem pragul de
semnicatie c=0,05=P(respingem H
0
[H
0
este adev arat a). Vrem acum s a g asim regiunea de
respingere n acest caz concret. Stim c a un estimator bun pentru media : este media de
selectie A = (A
1
+A
2
+ +A
a
) ,:, care este normal distribuit a cu media : si deviatia
standard (pentru selectia noastr a :=100) o
A
= 20,
_
100 = 2. Chiar dac a ipoteza de nor-
malitate a v.a. X nu este ntrutotul adev arat a (sau chiar fals a!), deoarece :=100 este mare,
din teorema limit a central a, rezult a c a A este distribuit a normal. Dac a H
0
este adev arat a,
atunci A este normal distribuit a cu media 138 si deviatia standard 2, pe cnd, dac a H
1
este
adev arat a, :=142 si deviatia standard tot egal a cu 2. Vedem de aici c a valorile mari ale v.a.
A favorizeaz a ipoteza H
1
, iar valorile mici ale v.a. A favorizeaz a ipoteza H
0
.
Regiunea de respingere va deci de forma: <<Respinge H
0
dac a A _ C . Aici C
reprezint a valoarea critic a a regulii de decizie: <<Dac a A < C, alegem H
0
; dac a A _ C,
alegem H
1
.
Vrem acum s a determin am valoarea critic a C a statisticii A dac a stim pe c=0,05. Scriem
c a c =P(respinge H
0
[H
0
=adev arat a)=P(A _ C [ :=138)=0,05. Dar P(A _ C [ :=138)=
P
_
2 _
C138
2
_
, unde 2 =
A138
2
este v.a. standard normal a cu media 0 si cu deviatia standard
1. Vrem ca P
_
2 _
C138
2
_
= 0. 05 = 1 1
_
C138
2
_
, unde 1(.) este functia de repartitie
(functia de distributie cumulat a) a v.a. normale stanard 2. Din Tabelul I g asim c a
C138
2
este 1,65, adic a cuantila de ordin 1-0,05=0,95 a v.a. 2. De aici rezult a c a punctul critic
C=141,30. Acum putem calcula si probabilitatea
, = 1(ccccjt H
0
[ H
1
= cdc c:ct c) = 1(A < 141. 30 [ : = 142)
= 1
_
2 <
141. 30 142
2
_
= 1 (2 < 0. 35) = 1(0. 35) = 1 1(0. 35) = 0. 36.
Tabelul corespunz ator regulii de decizie de mai sus este:
Situatia reala
H
0
H
1
Decizia Accept H
0
0,95 0,36
luata Resping H
0
c=0,05 0,64
(11.7)
Dac a din calcule A < 141. 30, atunci alegem H
0
, adic a r amnem la vechiul procedeu de
lucru.
S a coment am putin rezultatele din tabelul (11.7). c=0,05 , chiar dac a A _ 141. 30, adic a
aleg H
1
si resping H
0
, probabilitatea de eroare n cazul cnd H
0
este adev arat a, este foarte
mic a. Prin urmare, dac a alegem noul procedeu si-l nlocuiesc cu primul (primul ind mai
bun) riscul este mai mic, aproape zero. Totusi, dac a alegem H
0
(A < 141. 30) r amnem la
vechiul procedeu n timp ce noul procedeu este mai bun, riscul este mai mare: ,=0,36.
Statisticianul vrea s a micsoreze si acest risc , f ar a ns a a m ari pe c=0,05 (putem micsora
pe , dac a reducem valoarea critic a la 140, de exemplu; dar, n acest caz creste si c). Teoretic
stim c a c si , se micsoreaz a dac a m arim volumul selectiei.
Vom m ari pe : la 400. n acest caz deviatia standard a v.a. A devine o
A
= 20,
_
400 = 1.
Determin am valoarea critic a ca mai sus si g asim C = 139. 65. n acest caz
, = 1(ccccjt c H
0
[ H
1
= cdc c:ct c) = 1(A < 139. 65 [ : = 142)
= 1
_
2 <
139. 65 142
1
_
= 1 (2 < 2. 35) = 0. 01.
Iat a deci c a am redus pe , de la 0,36 (cnd :=100) la 0,01 (cnd :=400).
Acum statiticianul poate s a r aspund a cu riscuri foarte mici (c. , mici) dac a este bine s a
schimb am procedeul de producere al pieselor (accept H
1
si resping H
0
) sau, dimpotriv a, s a
lucr am dup a acelasi procedeu (accept H
0
si resping H
1
).
n primul caz pot gresi cu 5%, iar n al doilea caz cu 1%. Facem deci un sondaj de 400
muncitori/or a. Calcul am A si vedem dac a A < 139. 65 sau A _ 139. 65.
Observatia 11.15 Pentru valoarea critica C=141,30, regiunea de respingere este [141,30;),
pe cnd pentru valoarea critica C=139,65, regiunea de respingere este [139,65;).
11.3 Puterea unui test statistic
Fie o un parametru al unei populatii si ipoteza: H
0
: o = o
0
Pentru o regiune de respingere dat a si pentru o valoare particular a a lui o, de exemplu o
1
,
putem calcula P(resping H
0
[ o = o
1
). Dar, dac a o
1
= o
0
, aceast a ultim a probabilitate este
chiar c. Dac a o
1
,= o
0
not am cu H
1
: o = o
1
si probabilitatea de mai sus devine P(resping
H
0
[H
1
=adev arat a)=1-P(accept a H
0
[H
1
=adev arat a)=1-,.
Denitia 11.16 Numarul P(resping H
0
[ o = o
1
), calculat mai sus, se numeste puterea
testului ipotezei H
0
contra alternativei H
1
.
n Exemplul 11.2 puterea testului H
0
: : = 138 contra alternativei H
1
: : = 142 este
egal a cu 1-,=1-0,36=0,64, dac a regiunea de respingere este [141,30;). Un test este cu att
mai puternic cu ct ipoteza H
0
: o = o
0
este mai departe dect valoarea real a a lui o,
H
1
: o = o
1
. Mai mult, 1-, mare nseamn a , mic, adic a un test este cu att mai puternic
cu ct este mai putin probabil s a accept H
0
cnd ea de fapt nu este adev arat a. S a amintim
c a noi alegem c foarte mic. Acest c determin a zona de respingere (regiunea de respingere).
Pentru aceast a zon a de respingere determin am pe , dac a stim pe o
1
. Prin urmare puterea
unui test 1-, depinde de o
1
. Ea va maxim a pentru acel o
1
pentru care riscul de a accepta
pe H
0
cnd ea este fals a, comparativ cu H
1
, este minim (aici H
1
este considerat a adev arat a!).
Exemplul 11.17 Sa reluam exemplul anterior ntr-un cadru mai general. Presupunem ca
vrem sa studiem media unei populatii si facem ipoteza nula (initiala, sau de baza): H
0
: : =
:
0
, si ipoteza alternativa: H
1
: : = :
1
. Presupunem ca :
1
:
0
si ca v.a. media de selectie
A = (A
1
+A
2
+ +A
a
) ,: este normala (pentru : mare A poate considerata normala)
cu deviatia standard o
A
cunoscuta. Deoarece valorile mari ale v.a. A favorizeaza H
1
si
valorile mici ale v.a. A favorizeaza H
0
, este natural sa cautam zona de respingere de forma
A _ C, unde C este valoarea critica a regulii de decizie:<<respinge H
0
, daca A _ C; accepta
H
0
, daca A < C . Ca si n exemplul 11.2 gasim ca pentru pentru c=0,05 valoarea critica
C = :
0
+1. 65o
A
. Acum putem calcula puterea acestui test pentru orice valoare data lui :
1
.
De exemplu, daca :
1
= :
0
+o
A
puterea testului este P(respinge H
0
[ : = :
0
+o
A
)=P(A _
:
0
+ 1. 65o
A
[ : = :
0
+o
A
)=P
_
2 _
(n
0
+1,65o
X
)(n
0
+o
X
)
o
X
_
=P(2 _ 0. 65)=0,26.
Daca :
1
= :
0
+ 3o
A
, puterea testului creste: P(respinge H
0
[ : = :
0
+ 3o
A
)=P(2 _
1. 35)= 0,91. Aceasta ultima valoare este mare, deci, daca cumva media : = :
0
+ 3o
A
,
atunci testul de mai sus poate detecta acest lucru cu o probabiltate de 0,91.
Numim curba de putere a testului de mai sus gracul functiei de putere P(A _ :
0
+
1. 65o
A
[ : = :
1
), ca functie de variabila :
1
. S a o not am cu j(:
1
).
Dou a teste se pot compara si putem spune care dintre ele este mai tare. Mai mult, n
anumite conditii putem alege testul cel mai puternic. Noi ns a nu ne ocup am aici de aceste
lucruri. n cadrul rezumatului vom lucra cu functia j(:
1
) si vom construi cel mai puternic
test n sensul precizat acolo. Ne limit am la analiza functiei de putere din gura urm atoare:
Curba de putere depinde de alegerea pragului de semnicatie c. Este natural ca pentru c
mai mare puterea testului s a creasc a, dup a cum se vede n gur a. De asemenea, dac a m arim
volumul de selectie :, puterea testului creste pentru valori :
1
:
0
si scade pentru valori
:
1
< :
0
(de ce?).
n exemplele 2 si 3 s-a testat media n cazul cnd dispersia populatiei era cunoscut a.
Putem observa c a dac a micsor am dispersia, puterea testului creste. Pe baza teoriei intervalelor
de ncredere (Lectia 10) se pot construi teste parametrice n care si dispersia este necunoscut a.
11.4 Rezumat
Partea teoretica
Fie X un model statistic pentru o populatie P, model care depinde de un parametru o .
Fie H o submultime specicat a n . Ea va numit a ipotez a. Fie K=H. Spunem c a:
H se realizeaz a dac a o H (prin natura lucrurilor)
H nu se realizeaz a dac a o K.
n Lectia 11 am notat H cu H
0
si K cu H
1
.
S a not am cu spatiul tuturor observatiilor pe care le vom face asupra populatiei P (spatiul
de selectie). Pentru ecare o avem o distributie j
0
pentru X. Dac a pentru un sondaj
. , g asim c a o H, spunem c a accept am ipoteza H, dac a o K spunem c a respingem
ipoteza H. Spatiul de selectie se mparte n dou a p arti distincte: =A'R, unde A este zona
de acceptare a ipotezei H, adic a A=. [ o H, iar R=. [ o K este zona de
respingere a ipotezei H.
S a not am cu j
0
(R) = ,
0
=probabilitatea de a respinge ipoteza H cnd de fapt o este bine
ales de natur a. Se zice eroare de primul tip respingerea ipotezei H cnd ea este adev arat a:
o H si . R. Ea are probabilitatea ,
0
.
Se zice eroare de al doilea tip acceptarea ipotezei H cnd ea de fapt nu este adev arat a:
o H si . A. Testul are pragul dac a ,
0
_ , (\) o H. Functia o ,
0
, o K se zice
puterea testului .
Pentru a face un test se alege o statistic a Y care este mic a cnd H se realizeaz a si este
mai mare cnd H nu se realizeaz a. Se alege un num ar . Regiunea de respingere este de
forma: Resping H==Y_ . Testul este de prag dac a o H implic a j
0
(Y _ ) _ . Dac a
nu se d a dinainte pragul , se observ a valorile ale statisticii Y si maximul probabilit atii
j
0
(Y _ ) cnd o H. Dac a acest maxim este mic se respinge ipoteza H. Dac a acest maxim
este mare se accept a ipoteza H.
Partea practica
1) Test asupra mediei : a unei populatii normale cu dispersia cunoscuta o
2
2 =
An
o
_
a
~ ` (0. 1) ; H
0
: : = :
0
; H
1
: : ,= :
0
(test bilateral), sau H
1
: : :
0
(sau
: < :
0
) (test unilateral)
2) Test asupra mediei : cu dispersia o
2
necunoscuta ( : _ 30)
Se estimeaza o
2
cu o
2
=
1
a
(r r)
2
si se foloseste statistica 2 =
An
S
_
a
~ ` (0. 1). H
0
si
H
1
apar exact ca la 1).
3) Test asupra mediei : cu dispersia o
2
necunoscuta ( : _ 30)
Se estimeaza o
2
cu o
2
=
1
a1
(r r)
2
=
aS
2
a1
si se foloseste statistica 1 =
An
S
_
a1
_
=
An
S
=
_
a
_
~
t (: 1)- distributia Student cu : 1 grade de libertate. H
0
si H
1
4) Test pentru proportia de succese
1
c
~ `
_
j.
jq
a
_
. = 1 j. 2 =
1
s
j
_
pq
n
~ ` (0. 1). H
0
si H
1
5) Erori de tipul I si erori de tipul II
Situatia reala Concluzia noastra
(1) H
0
este adevarata Acceptam H
0
Decizie corecta
(2) H
0
este adevarata Respingem H
0
Decizie falsa Eroare I
(3) H
0
este falsa Acceptam H
0
Decizie falsa Eroare II
(4) H
0
este falsa Respingem H
0
Decizie corecta
c = 1(Eroare de tipul I)= 1(resping H
0
[ H
0
= adevarata)
, = 1(Eroare de tipul II)= 1(accept H
0
[ H
1
= adevarata)
11.5 Exercitii rezolvate (mai dicile)
1.Fie X o v.a. Poisson de medie `. Consideram ipoteza H: ` _ 0. 5. Fie X
1
,...,X
20
un
esantion din X si punem Y=X
1
+X
2
+ +X
20
. Deniti cu ajutorul lui Y (care are tot o
distributie Poisson) cel mai puternic test posibil de prag 0,05. Pentru aces test determinati:
1) Probabilitatea erorii de primul tip pentru ` = 0. 3.
2) Probabilitatea erorii de al doilea tip pentru ` = 0. 8.
Presupunem ca gasim Y=20. Cu ce prag se poate accepta H?
Solutie. Cum Y=20X este natural s a consider am un test de forma: Respinge H==Y_ .
Cnd H se veric a, cea mai mare probabilitate de a respinge H se obtine pentru ` = 0. 5.
n acest caz Y este Poisson de parametru 20 0. 5 = 10. Tabelul arat a ca P(Y_ )_ 0. 05
pentru _ 16. Testul cerut se obtine pentru cel mai mic posibil (pentru a avea puterea
maxim a). Deci testul este: Respinge H==Y_ 16. Pentru ` = 0. 3, Y este Poisson de
parametru 20 0. 3 = 6 si probabiliatea erorii de primul tip este P(Y_ 16)=0,0005. Pentru
` = 0. 8, Y este Poisson de parametru 20 0. 8 = 16 si probabilitatea erorii de al doilea tip
este P(Y_ 15)=0,4667.
Presupunem c a Y=20. Maximul lui P(Y_ 20), cnd H este vericat a, se obtine pentru ` =
0. 5. n acest caz Y este Poisson de parametru 10. Se g aseste n acest caz P(Y_ 20)=0,0035
si trebuie s a accept am ipoteza pentru un prag _ 0. 0035.
2.Fie X o v.a. gaussiana de dispersie 1 si de medie 0 sau 1. Vrem sa testam ipoteza H:
M(X)=0 contra alternativei M(X)=1 cu un prag = 0. 05. Se ia pentru acesta un esantion
de volum :.
1) Deniti un test (cel mai puternic posibil).
2) Plecnd de la ce valoare a lui : testul obtinut va avea puterea _ 0. 9?
Solutie. Consider am un test de forma: Respinge H== X _ . Fie ` =M(X). Vari-
abila aleatoare T=
_
:
_
X`
_
este gaussian a redus a. n tabele g asim P(T_ t)=0,05 pentru
t=1,6449. P(T_ n)=0,05 pentru n=1,2816.
1) : este considerat x. S a g asim astfel nct testul s a e de prag . Dac a H se veric a,
` = 0 si T=
_
: X. Testul va avea pragul dac a P(X _ )_ , sau P(T_
_
:)_ , adic a
_
: _ t. Testul va cel mai puternic dac a =
t
_
a
, deci avem testul:
Respinge H==X _
1,6449
_
a
.
2) Presupunem c a H nu se veric a, adic a ` = 1 si T=
_
:X
_
:. Se comite o eroare de
al doilea tip pentru X _ sau T_
_
:
_
: = t
_
:. Puterea testului va deci _ 0. 9
dac a P(T_ t
_
:), sau t
_
: < n, deci
_
: t n = 2. 9265. Cel mai mic : pentru care
puterea testului este _ 0. 9 este : = 9.
3. Fie X pretul aceluiasi articol luat la ntmplare din 15 magazine. Gasim tabelul acestor
preturi n $:
42,7 42,6 43,0 43,5 42,8
43,1 43,6 42,9 41,6 42,8
42,9 43,2 42,6 43,1 43,1
.
a) Se poate admite ipoteza M(X)=43,0?
b) Se poate admite ipoteza D(X)=0,1? n ambele cazuri se ia pragul = 0. 05 si se
considera legea gaussiana pentru X.
Solutie. 1) Avem c a : = 15, X = 42. 9, S
2
= 0. 2. De aici deducem c a [T
0
[ =
[
X43
[
_
S
2
(a1)
=
0. 8366. O variabil a aleatoare cu : 1=14 grade de libertate are o probabilitate de cel putin
0,40 pentru a lua o astfel de valoare. Ipoteza M(X)=43 este perfect acceptabil a.
2) O estimare nedeplasat a pentru o
2
=D(X) este
a
a1
S
2
= 0. 21. Aceast a valoare este
dublul valorii testate 0,1. Vrem s a vedem dac a nu cumva ea este prea mare. Pentru aceasta
folosim faptul c a
aS
2
o
2
are o distributie
2
(Pearson) cu : 1 grade de libertate. G asim c a
aS
2
0,1
= 30. Dar
2
cu 14 grade de libertate are o probabilitate < 0. 01 pentru a lua o astfel de
valoare ridicat a. Cu pragul 0,05 va trebui deci s a respingem ipoteza o
2
= 0. 1.
4. ntr-un oras A, 300 de locuitori din 1500 interogati declara ca nu s-au uitat niciodata
la TV. ntr-un alt oras B, 320 din 1800 declara acelasi lucru. Ce credeti despre ipoteza H:
proportia de locuitori care nu se uita la TV este aceeasi n ambele orase. (pragul 0,05).
Solutie Vom accepta pentru cele dou a v.a. X si Y ce reprezint a num arul acelora care nu
se uit a deloc la TV c a au o distributie uniform a. Presupunem c a X
1
,...,X
1500
si Y
1
,...,Y
1800
sunt independente. Avem c a : = 1500, : = 1800, X =
300
1500
= 0. 2, Y =
320
1800
= 0. 172;
S
2
X
=
1
n
X
2
i
X
2
= X
_
1 X
_
, S
2
Y
= Y
_
1 Y
_
; [T
0
[ =
[
YX
[
_
1
m
S
2
X
+
1
n
S
2
Y
= 1. 61.
O variabil a gaussian a redus a are o probabilitate mai mare dect 0,1 pentru a lua o valoare
att de mare. Prin urmare, la pragul de 0,05 ipoteza H se accept a.
5. Pentru a masura o masa j putem folosi doua procedee A si B. Rezultatul masuratorii lui
j prin procedeul A este o v.a. gaussiana X cu media j si cu dispersia o
2
X
. Prin procedeul B,
avem o variabila gaussiana Y cu media j si dispersia o
2
Y
. S-au facut 8 masuri independente
pentru j prin procedeul A care au condus, la o dispersie de selectie empirica egala cu 0,24.
S-au facut apoi 12 masuratori independente pentru aceeasi masa j prin procedeul B si s-a
obtinut dispersia de selectie 0,08. Ce credeti despre ipoteza H: cele doua procedee A si B au
aceeasi precizie? (prag = 0. 05)
Solutie. Testul se refer a la ipoteza H: o
2
X
= o
2
Y
, cu : = 8, : = 12, S
2
X
= 0. 24, S
2
Y
= 0. 08.
De aici s-ar putea crede c a o
2
X
o
2
Y
. Vrem s a vedem dac a nu cumva raportul
S
2
X
S
2
Y
nu este prea
mare (relativ la pragul ) pentru ca ipoteza H s a e vericat a.
Stim c a variabilele aleatoare
nS
2
X
o
2
X
si
aS
2
Y
o
2
Y
sunt
2
cu : 1 = 7 si respectiv : 1 = 11
grade de libertate. Dac a cumva ipoteza H ar vericat a v.a. U=
nS
2
X
(n1)
aS
2
Y
(a1)
ar avea o
distributie F (Fisher-Snedecor) cu
_
:1
: 1
_
=
_
7
11
_
grade de libertate. n cazul nostru
U=
80,247
120,0811
= 3. 14.
Se vede din cercetarea direct a a tabelului pentru distributia F c a probabilitatea ca v.a.
acesta s a ia o astfel de valoare este ceva mai mic a dect 0,05. Vom deci obligati s a respingem
ipoteza c a o
2
X
este cu mult mai mare dect o
2
Y
. Totusi nu putem avea mare certitudine c a o
2
X
=o
2
Y
.
11.6 Exercitii propuse
1. Se arunca o moneda de 64 de ori. Testati la un nivel de semnicatie de 5% daca moneda
este corecta, sau daca moneda este contrafacuta in favoarea capului, sau daca
a) apare capul de 38 ori;
b) apare capul de 42 ori.
R: a) z=1,5, corecta; b) z=2,5, contrafacuta.
2. Un producator de hrana pentru caini pretinde ca 8 din 10 caini prefera hrana produsa
de el hranei produse de alti producatori. Se aleg 120 de caini si se gasesc 88 care sa prefere
aceasta hrana. Testati cu un nivel de 5% daca pretentia producatorului este corecta.
R: z=-1,826, armatia producatorului se respinge.
3. O masina produce componente a caror greutati variaza dupa o lege normala cu greutatea
medie de 15,4 g si cu deviatia standard o = 2. 3 g. Masina s-a uzat cu timpul si se banuieste
ca greutatea medie a pieselor produse de ea s-a micsorat. Se face o selectie aleatoare de 81
de piese si se gaseste ca masa medie a lor r = 15 g. Oare acest lucru ne indreptateste pe
noi sa credem cu un nivel de semnicatie de 5% ca greutatea medie a pieselor s-a micsorat?
Presupunem ca deviatia standard o nu s-a schimbat.
R: z=-1,565, Nu.
4. Un producator de castet audio pretinde ca o caseta care dureaza 90 min. de obicei,
dureaza de fapt 92 min. in medie cu deviatia standard o = 1. 8 min. Se selecteaza 36 de benzi
si se incearca. Cel care verica casetele respinge pretentia producatorului la un nivel de 5%
si spune ca media de timp al unei casete este mai mica decat 92 min. Ce puteti spune despre
valoarea mediei de selectie pe care a cercetat-o statisticianul, valoare care l-a condus la decizia
luata?
R: r < 91. 51 min.
5. Dupa un sondaj facut asupra a 300 de studen ti s-a gasit ca 35% fumeaza. Se poate resp-
inge ipoteza H
0
: j = 0. 4 n favoarea ipotezei H
1
: j ,= 0. 4 la un prag de semnica tie de 0,05?
6. Un esantion de volum 25 a fost extras dintr-o populatie normala, A ~ N(:. 4). Media
de selectie r este 10,72. Fie ipoteza nula H
0
: : = 10 si ipoteza alternativa: a) H
1
: : 10;
b) H
1
: : ,= 10. Gasiti in ambele cazuri nivelul de semnicatie la acre trebuie sa respingem
ipoteza nula in favoarea ipotezei alternative.
R: a) _ 3. 59%; b) _ 7. 18%.
7. Un producator de becuri sustine ca media de viata a unui bec electric produs de el este
de 2000 de ore. Se iau 64 de becuri la intamplare si se testeaza viata lor in ore, r.
Se obtine

r = 127808,

(r r)
2
= 9694. 6. Oare la un nivel de semnicatie de 2%
putem spune ca producatorul si-a supraestimat produsul? Presupunem ca durata de viata a
unui bec are distributia normala.
R: : = 64 30 este mai mare; deci estimam o cu o = o =
_
(r r)
2
,:.
Folosim statistica 2 =
An
b o
_
a
si gasim .
co|c
= 1. 95 (test unilateral). Producatorul nu si-a
supraestimat produsul la nivelul de 2%.
8. Dintr-o populatie normala A se extrage un esantion de volum 40 cu

r = 24 si
r
2
= 596. Testati (test bilateral) la nivelul de semnicatie de 5% daca media populatiei
este 0 (estimati o cu o).
R: . = 0. 995. Se accepta armatia.
9. La un examen se analizeaza punctajul r obtinut de ecare candidat in parte. Se aleg 250
de candidati si gasim ca

r = 11872 si

r
2
= 646193. Gasiti un interval de incredere de
nivel 90% pentru media :. Testati ipoteza H
0
: : = 49. 5 impotriva ipotezei H
1
: : < 49. 5
cu nivelul de semnicatie c% si gasiti c a.i. H
0
sa e respinsa.
R: (45. 6; 49. 4) ; c 4.
10. Un esantion de volum 8 dintr-o populatie normala are r = 4. 65,

(r r)
2
= 0. 74.
Testati la un nivel de semnicatie de 2% daca media distributiei este 4,3.
R: Folositi statistica T=
An
S
_
a1
t(: 1), deoarece esantionul este mic (8 < 30);
t
co|c
= 3. 05 (test bilateral). Respingem armatia.
11. O masina produce ace de otel de lungume 2 cm. Se face o selectie de 10 ace si se
gaseste: 1,98; 1,96; 1,99; 2,00; 2,01; 1,95; 1,97; 1,96; 1,97; 1,99. Presupunand ca lungimile
acelor sunt normal distribuite, testati cu 1% daca masina functioneaza bine sau nu.
R: : = 10 < 30; folosim deci statistica T; t
co|c
= 3. 601. Nu functioneaza bine.
12. Se aleg 8 femei la intamplare si li se masoara nivelul de colesterol: 3,1; 2,8; 1,5; 1,7;
2,4; 1,9; 3,3; 1,6.
Vrem sa testam daca nivelul mediu de colesterol este 3,1.
a) Presupunand ca selectia face parte dintr-o populatie normala aratati de ce testul T este
cel mai potrivit.
b) Aplicati testul asupra mediei 3,1 si gasiti cu nivelul de semnicatie de 2% daca media
3,1 este corecta sau nu.
c) Fasiti un interval de incredere de 90% pentru nivelul mediu al colesterolului.
R: b) Resping H
0
(m=3,1); c) (1,81;2,72).
13. Teoria prezice realizarea unui eveniment A cu probabilitatea p=0,4. Se experimenteaza
realizarea evenimentului A de 400 de ori. Din cele 400 de incercari A se realizeaza de 140 de
ori. Testati cu nivelul de semnicatie de 1% daca p este mai mica sau nu decat 0,4.
R: Se modeleaza cu proportia de succese: P
c
~ `
_
j.
jq
a
_
; Z=
1
s
j
_
pq
n
; .
co|c
= 2. 04. Nu.
14. Se cerceteaza proportia de studenti care au un calculator personal. Din 200 de studenti,
143 au un calculator personal. Testati cu un nivel de 5% ipoteza H
0
:p=75% (probabilitatea
ca un student sa aiba un calculator) contra ipotezei H
1
: probabilitatea p este mai mica decat
75%.
R: z
co|c
= 1. 143. Se accepta.
15. Gasiti probabilitatile erorilor de tipul I si celor de tipul II in testarea urmatoarelor
ipoteze. Se stie ca o cutie poate sa contina e (H
0
) 10 jetoane albe si 90 negre, e (H
1
) 50
jetoane albe si 50 negre. Pentru a testa ipoteza H
0
impotriva ipotezei H
1
se aleg 4 jetoane
din cutie fara a le pune inapoi. Daca toate 4 jetoane sunt negre, accept H
0
. Altfel, o resping
(regula de decizie a testului).
Indicatie H
0
: cutia contine 10 jetoane albe si 90 negre.
H
1
: cutia contine 50 jetoane albe si 50 negre.
P(Eroare I)=P(resping H
0
[ H
0
este adevarata)=P(cel putinun jetoneste alb[in cutie sunt
10 albe si 90 negre)=1-P(toate 4 sunt negre[in cutie sunt 10 albe si 90 negre)=1
90
100
89
99
88
98
87
97
=
1 0. 652 = 0. 348.
P(Eroare II)=0. 059.
16. Pentru datarea specimenelor arheologice se foloseste faptul ca aceste specimene emit
particule radioactive. Numarul de particule emise in : minute are o distributie Poiison cu
parametrul :`, unde ` este un parametru ce depinde de varsta specimenului.
Se fac doua ipoteze asupra varstei unui specimen
H
0
: specimenul este de 7000 de ani ( ` = 0. 1)
H
1
: specimenul este de 15000 de ani ( ` = 4. 0)
S-a decis sa se contorizeze numarul A al particulelor radioactive emise in : minute de
specimen si
Acceptam H
0
. daca A _ 1 (respingem H
1
)
Acceptam H
1
. daca A _ 2 (respingem H
0
)
Daca : = 1. se cere: a) P(resping H
0
[ H
0
=adevarata) si b) P(resping H
1
[ H
1
=adevarata).
Presupunem acum ca P(resping H
1
[ H
1
=adevarata)_ 0. 001; aratati ca numarul minim
de minute complete necesare inregistrarii este de 3 minute.
Pentru acest numar de 3 minute sa se calculeze P(resping H
0
[ H
0
=adevarata).
Indicatie A ~ 1o (:`). Daca : = 1. A ~ 1o (`) si a) P(resping H
0
[ H
0
=adevarata)=P( A _
2 [ A ~ 1o (1. 0)). P(A _ 2) = 1P(A = 0) P(A = 1) = 1 c
1
c
1
= 1 2c
1
=
1 0. 736 = 0. 264. Deci P(resping H
0
[ H
0
= adevarata)= 0. 246.
b) P(resping H
1
[ H
1
=adevarata)=P(A _ 1 [ A ~ 1o (4)) = 5c
4
= 0. 092. Daca P(resping
H
1
[ H
1
=adevarata)_ 0. 001. atunci P(A _ 1 [ A ~ 1o (4:)) _ 0. 01. Daca A ~ 1o (4:) .
atunci 1 (A _ 1) = c
4a
(1 + 4:) _ 0. 001 si gasim : = 3 si P(resping H
0
[ H
0
=adevarata)=
1 (A _ 2 [ A ~ 1o (3 1)) = 1 4c
3
= 0. 801.
17. Se fac doua ipoteze asupra functiei densitate de probabilitate pentru o v.a. A.
H
0
: , (r) =
_
1
4
(r + 1) . 0 < r < 2
0. c|t,c|
H
1
: , (r) =
_
1
4
r
3
. 0 < r < 2
0. c|t,c|
Se construieste urmatorul test. Se face o singura observatie asupra v.a. A si daca A <
/. cu / dat, 0 < / < 2. atunci H
0
se accepta. Altfel H
1
se accepta: a) Gasiti / a.i.
P(Eroare I ) = 0. 1. b) Cu valoarea lui / de la a) gasiti P(Eroare II )
Indicatie Faceti gracele pentru f (r) in ecare din cazurile H
0
si H
1
. P(accept H
1
[
H
0
=adevarata)= 0. 1 implica P
_
A _ / [ , (r) =
1
4
(r + 1)
_
= 0. 1 sau
_
2
I
1
4
(r + 1) dr = 0. 1,
de unde / = 1. 86.
P(Eroare II ) = 1
_
A < 1. 86 [ , (r) =
1
4
r
3
_
=
_
1,86
0
1
4
r
3
dr = 0. 748.
18. Dintr-o populatie normala N(:. 36) se ia un esantion de volum 100. Un cercetator
vrea sa testeze ipotezele H
0
: : = 65, H
1
: : 65. El decise sa foloseasca urmatoarea regula
de decizie:
accept H
0
daca media de selectie r _ 66. 5
resping H
0
daca r 66. 5.
a) Gasiti P(Eroare I ) ; b) Daca el foloseste alternativa H
1
: : = 67. 9. gasiti P(Eroare II ) .
c) Ce valoare critica trebuie sa considere el pentru media de selectie daca vrea ca P(Eroare I ) =P(Eroare II )?
Indicatie a) Sub H
0
avem: A ~ `
_
65.
36
100
_
. El respinge H
0
daca r 66. 5. adica
1
_
A 66. 5
_
= 1 (2 2. 5) = 0. 00621. Deci P(Eroare I ) = 0. 00621.
b) Daca el considera H
1
: : = 67. 9. atunci sub H
1
avem ca A ~ `
_
67. 9.
36
100
_
si
P(Eroare II ) = 1 (accept H
0
[ H
1
este adevarata) = 1
_
A _ 66. 5 [ : = 67. 9
_
. 1
_
A _ 66. 5 [ : = 67. 9
_
=
1 (2 _ 2. 333) = 0. 00982.
c) P
_
A r [ H
0
este adevarata
_
= 1
_
A _ r [ H
1
este adevarata
_
. deci r se aa la mi-
jlocul segmentului [65; 67. 9], adica r = 66. 45.
19. Ingredientele care se amesteca pentru a forma betonul au asemenea proportii incat
rezistenta medie la rupere sa e de 2000N. Daca rezistenta medie la rupere cade sub 1800N
atunci compozitia trebuie schimbata. Distributia rezistentei de rupere este normal distribuita
cu deviatia standard de 200N.
Se iau esantioane pentru a se cerceta ipotezele:
H
0
: : = 2000`
H
1
: : = 1800`
Cate esantioane trebuie testate pentru ca sa avem:
P(Eroare I ) = c = 0. 05 si
P(Eroare II ) = , = 0. 1.
Indicatie Sub H
0
avem ca A ~ ` (2000. 200
2
) . deci A ~ `
_
2000.
200
2
a
_
Daca 2
c
este cuantila ce corespunde lui c = 0. 05. avem ca 2
c
= 1. 645 si valoarea
corespunzatoare a lui A este c = 2000 1. 645
_
200
_
a
_
. Sub H
1
. A ~ `
_
1800.
200
2
a
_
. deci,
pentru 2
o
= 1. 282 (, = 0. 1) avem ca / = 1800 + 1. 282
_
200
_
a
_
. Din c = / gasim : = 8. 57.
deci vom lua 9 probe.
20. Se aleg aleator esantioane de 400 seminte dintr-un anumit sortiment. Probabilitatea
ca o seminta sa germineze este egala cu c. Sa notam cu A v.a. ce reprezinta numarul de
seminte care au germinat din totalul semintelor dintr-un esantion.
Folositi o aproximare convenabila a modelului probabilistic cu un model normal pentru a
determina:
a) P(A _ 340 [ c = 0. 9)
b) P(A _ 340 [ c = 0. 8)
c) Controlorul de calitate al semintelor stie ca c este e 0. 8. e 0. 9. Sa presupunem
ca, de fapt, din totalul de 400 de semninte dintr-un esantion au germinat numai r. Con-
trolorul decide ca valoarea lui c este 0. 8 daca
2 = P(A _ r [ c = 0. 8) P(A _ r [ c = 0. 9)
este pozitiv. Altfel el decide ca c = 0. 9. Gasiti care este decizia controlorului pentru ecare
dintre cazurile r = 330. r = 340. r = 350.
R: a) 0,000577; b)0,00738; c)0,8; 0,8; 0,9.
Lectia 12
Testul neparametric
2
12.1 Principiul testului
2
Vom introduce acest test prin analiza atent a a unui exemplu.
Exemplul 12.1 (ctiv) S-a facut un sondaj ntr-un oras din Romnia pe un esantion de
200 de tineri barbati de 27 de ani, n 1985, asupra situatiei pregatirii lor scolare. Ei au fost
mpartiti n 6 categorii dupa cum urmeaza:
1. cu studii superioare terminate;
2. cu studii superioare neterminate dar ncepute;
3. cu liceul de 12 ani terminat;
4. cu liceul de 12 ani neterminat dar nceput;
5. cu scoala generala de 8 ani terminata;
6. cu scoala generala de 8 ani nceputa si neterminata.
Acelasi sondaj se repeta (n aceleasi conditii) n 1995. Vom nota cu ,
c,)
. , = 1. 2. .... 6
frecventa (absoluta) observata n 1995 pentru categoria , din cele 6 expuse mai sus. Vom
nota cu ,
c,)
frecventa (sperata, la care ne asteptam si n 1995!) gasita n 1985. Iata tabelul
cu cele doua sondaje:
categoria , Frecventa observata n 1995, ,
c,)
Frecventa observata n 1985, ,
c,)
1 35 36
2 40 34
3 83 64
4 16 26
5 26 34
6 0 6
_________________________ _________________________
200 200
174
LEC TIA 12. TESTUL NEPARAMETRIC
2
175
Facem urmatoarea ipoteza statistica (inferenta statistica) H
0
:<<distributia populatiei n
1995 este aceeasi cu distributia populatiei din 1985.
Este natural (de ce?) ca discrepanta sau deviatia dintre cele dou a situatii s a o m a-
sur am prin suma
6
)=1
(,
c,)
,
c,)
)
2
,
c,)
(12.1)
Se arat a (Teorema lui K. Pearson) c a pentru : mare (cel putin 20-25), n cazul nostru
:=200, aceast a sum a tinde c atre valoarea distributiei
2
cu 6-1 grade de libertate n ipoteza c a
H
0
este adev arat a: avem aceiasi distributie, adic a distributiile celor dou a sondaje concord a. n
general, dac a am repartizat elementele din selectie n J clase, pentru un volum mare (: _ 25)
suma (12.1) cu J n loc de 6, este aproximativ egal a cu valoarea distributiei
2
cu J 1 grade
de libertate.
Ipoteza H
0
are sanse s a e adev arat a dac a valoarea sumei (12.1) este mic a. G asim
2
=
(35 36)
2
36
+
(40 34)
2
34
+ +
(0 6)
2
6
= 18. 46
C aut am n Tabelul III pe linia corespunz atoare i = 5 (grade de libertate) si g asim c a
16,7496_18.46_20,515.
Dar
1(16. 7496 _
2
_ 20. 515)
= 1(20. 515) 1(16. 7496) = 0. 999 0. 995 = 0. 004
deci extrem de mic a. Prin urmare, este foarte putin probabil ca cele dou a distributii s a
concorde. Deci se respinge ipoteza H
0
cu probabilitatea 1-0,004=0,986.
Retinem din Exemplul 1 c a ori de cte ori vrem s a facem o ipotez a asupra probabilit atii ca
dou a distributii s a concorde putem folosi testul
2
, adic a metodologia din 12.1, cu conditia
ca num arul observatiilor s a e mare (: _ 25), grupele de divizare ale sondajului s a e disjuncte
si num arul lor / s a respecte urm atoarele reguli:
25 < : _ 100. / (10. 15)
100 < : < 200. / (15. 18)
200 _ : < 400. / (18. 20)
400 _ : < 1000. / (25. 30)
1000 _ : < 2000. / (35. 40)
Aceste reguli au fost deduse din practic a si nu teoretic.
2
176
Prezent am acum situatia general a n care putem utiliza testul de concordanta
2
. Facem
urm atoarea ipotez a: H
0
:<<Presupunem c a populatia P are o functie de probabilitate q(r),
specicat a (de exemplu normal a cu : = 0 si o = 2).
Vrem s a folosim testul
2
pentru a m asura ct a dreptate avem s a presupunem acest
lucru pornind de la un sondaj de volum :: r
1
. r
2
. .... r
a
din populatia P. Dup a regulile de
mai sus mp artim datele r
1
. r
2
. .... r
a
n J grupe disjuncte. Not am cu i
)
frecventa absolut a n
grupa ,(num arul acelor r
i
care se a a n grupa ,). Not am cu j
)
probabilitatea teoretic a
(obtinut a cu ajutorul functiei de probabilitate q(r). sau cu ajutorul functiei de repartitie
corespunz atoare G(r)) ca un element r din populatia P s a se ae n grupa ,. Atunci frecventa
teoretic a este :j
)
, si suma care m asoar a deviatia din formula (12.1) devine:
d =
J
)=1
(i
)
:j
)
)
2
:j
)
(12.2)
Calcul am acest num ar d. Privim Tabelul III si ncerc am s a estim am probabilitatea ca
2
s a aib a valoarea d. De obicei se xeaz a un prag de semnicatie c (0. 1). Se caut a cuantila
2
c
corespunz atoare acestui prag, adic a acea valoare a lui
2
astfel nct functia de repartitie
a lui
2
s a aib a valoarea c. Cum P(
2
_
2
c
) = c, din denitia functiei de repartitie, vom
face urm atorul rationament:
dac a d _
2
c
, vom accepta ipoteza H
0
(distributia populatiei este de forma prescris a) cu
pragul de semnicatie c.
dac a d <
2
c
, vom respinge ipoteza H
0
Acesta este testul de concordant a
2
. De obicei c se ia mic: c=0,05; 0,01; 0,001.
Exemplul 12.2 Se fac 500 de masuratori asupra erorilor date de un aparat de masura de la
bordul unui avion. Ele se mpart n 8 intervale consecutive. Freventele absolute cu care apar
aceste erori pe un interval sunt date n urmatorul tabel:
I
)
: [4; 3) [3; 2) [2; 1) [1; 0) [0; 1) [1; 2) [2; 3) [3; 4)
i
)
: 6 25 72 133 120 88 46 10
Utiliznd testul
2
sa se verice cu pragul de semnictie c = 0. 95 daca distributia erorilor
este normala cu media estimata la : = 0. 168 si dispersia estimata la o
2
= 1448
2
.
Solutie Aici avem un exemplu mai complicat deoarece cei doi parametri au deja estim ari
date. Vomavea mereu dou a relatii de leg atur a: 0. 168 =
1
500
r
i
si 1448
2
=
1
500
(r
i
0. 168)
2
.
Deci numarul gradelor de libertate va sc adea cu doi. Prin urmare
2
va avea 8-1-2=5
grade de libertate.
Calcul am probabilitatea teoretic a pe ecare interval [r
i
. r
i+1
):
j
)
=
_
r
)+1
:
o
_
_
r
)
:
o
_
2
177
, unde este functia lui Laplace. G asim pentru :j
)
urm atoarele valori (corespunz atoare
intervalelor precizate deja n tabelul de mai sus): 6,2; 26,2; 71,2; .122,2; 131,8; 90,5; 32,8;
10,5. Calcul am d =
8
)=1
(
j
aj
j
)
2
aj
j
= 3. 94.
Cuantila
2
0,95
pentru 5 grade de libertate este 11,0705 (vezi Tabelul III). Deci P(
2
_
11. 0705)=0,95,adic a P(
2
11. 0705)=0,05.
Cum d = 3. 94 < 11. 0705 accept am ipoteza de normalitate cu probabilitatea 0,95 (adic a
cu 95%), sau cu pragul c = 0. 05.
Vom prezenta acum testul
2
(se citeste chi p atrat sau chi doi) dintr-un punct de vedere
mai general.
Fie evenimentele A
1
.A
2
. ....A
v
cu probabilitatea j
i
=P(A
i
), i = 1. :, cunoscute mai
mult sau mai putin. Putem cere ca

j
i
= 1, adic a A
1
.A
2
. ....A
v
s a e o descompunere a
evenimentului singur. n esent a testul
2
si propune s a testeze o ipotez a oarecare H privind
probabilit aile j
1
. .... j
v
. Se fac sondaje de volum mare pentru ecare A
i
, i = 1. :. Se noteaz a
cu Y
i
num arul acelor probe care sunt favorabile evenimentului A
i
.
Cazul I Se dau numerele j
t
1
. j
t
2
. .... j
t
v
_ 0 cu

j
t
i
= 1 si se consider a ipoteza H: j
1
= j
t
1
,
j
2
= j
t
2
. .... j
v
= j
t
v
(problem a de concordant a). Dac a H este adev arat a statistica (Helmert-
Pearson)
1 =

1iv
(Y
i
:j
t
i
)
2
:j
t
i
=
_
i
Y
2
i
:j
t
i
_
: (12.3)
are practic (adic a pentru : mare) distributia
2
cu : 1 grade de libertate. Pentru a ar ata
ultima egalitate n (12.3) am folosit egalit atile

Y
i
= : si

j
i
= 1. Testul const a n a
respinge ipoteza H dac a T ia o valoare semnicativ prea mare relativ la
2
(vezi exemplul
12.1). De exemplu dac a se dau v.a. X si legea Q cunoscut a, pentru a testa dac a H: X are
distributia Q, descompunem dreapta real a R n subintervale disjuncte: R =A
1
'A
2
' 'A
v
,
consider am evenimentele (X A
i
)
i=1,v
si punem j
t
i
=Q(A
i
).
Cazul II Fie acum : functii pozitive ,
1
(r
1
. .... r
c
) . .... ,
v
(r
1
. .... r
c
) de variabile r
1
. .... r
c
cu : < :, astfel nct ,
1
(r
1
. .... r
c
) + + ,
v
(r
1
. .... r
c
) = 1. Consider am ipoteaza H: Exist a
numerele `
1
. .... `
c
(estimate printr-un procedeu oarecare) astfel nct j
i
= ,
i
(`
1
. .... `
c
) pentru
1 _ i _ :. Dac a H este adev arat a se pot deni (plecnd de la valorile Y
1
. ....Y
v
) estimatori
convenabili pentru `
1
. .... `
c
. Fie

`
1
= q
i
(Y
1
. .... Y
v
), 1 _ i _ :, un estimator pentru `
i
. De
aici g asim estimtori convenabili ai probabilit atilor j
i
: j
i
= ,
i
_
`
1
. ....
`
c
_
pentru 1 _ i _ :.
Statisica
1 =

1iv
(Y
i
: j
i
)
2
: j
i
=
_
i
Y
2
i
: j
i
_
: (12.4)
are practic o distributie
2
cu : : 1 grade de libertate (apar nc a : leg aturi datorit a
relatiilor de estimare). Testul const a n a respinge ipoteza H dac a T ia o valoare semnicativ
2
178
prea mare relativ la
2
(vezi Exemplul 2). Se pune acum problema de a g asi estimtori buni
pentru `
1
. .... `
a
. Iat a cteva reguli bazate pe ns asi denitia formulei de deviatie (Helmert-
Pearson) dat a n (12.1) si (12.2) si pe alte notiuni ce apar n Lectia 9.
Regula I (
2
minim) Se iau pentru

`
1
. ....
`
c
acele functii de Y
1
. ....Y
v
care minimizeaz a
expresia (deviatia):
d =

i
(Y
i
: j
i
)
2
: j
i
= min (12.5)
adic a acele

`
1
. ....
`
c
care veric a ecuatiile diferentiale.
1iv
Y
2
i
j
2
i
J j
i
`
`
)
= 0. 0 _ , _ : (12.6)
Se pune conditia grad d
_
`
1
. ....
`
c
_
= 0si se foloseste faptul c a
i
0b j
i
0
b
A
j
= 0.deoarece
)
j
)
=
1.
Regula II (verosimilitatea maxim a) Dup a un rationament asem an ator cu acela din
Lectia 9 (Principiul verosimilit atii maxime) se deduce c a

`
1
. ....
`
a
trebuie s a verice ecuatiile
diferentiale:
1iv
Y
i
j
i

J j
i
J
`
)
= 0 (12.7)
pentru 1 _ , _ :.
Regula III n locul formulelor (12.6) se pot folosi formulele:
1iv
j
i
Y
i

J j
i
J
`
)
= 0 (12.8)
pentru 1 _ , _ :
(
2
minim modicat).
Aceast a distributie att de folosit a are pentru diverse valori ale lui n, densit atile ca n
gracul urm ator:
2
179
5 10 15 20 25 30
0.025
0.05
0.075
0.1
0.125
0.15
0.175
Densit atile
2
pentru n=4, 6, 8, 10, 12, 14, 16, 18, 20
S a aplic am acum cele de mai sus la cteva tipuri de probleme.
12.1.1 Teste asupra formei unei distributii
Fie P=Q(`
1
. .... `
c
) o familie de legi pe R care depinde de : parametrii `
1
. .... `
c
si X o v.a.
aleatoare. Pentru a testa ipoteza: H: X se supune unei anume legi din familia P, mp artim
pe R n : subintervale: R =A
1
' 'A
v
, si punem ,
i
(`
1
. .... `
c
) =Q(`
1
. .... `
c
) (A
i
).
Exemplul 12.3 Fie X o v.a. ce poate lua valorile 0, 1, 2,..., /,.... Testam ipoteza: H: X se
supune unei legi Poisson.
Familia legilor Poisson depinde de un singur parametru ` 0. Ca estimator bun pentru
` se alege

`= media de selectie (eventual dup a grupaje convenabile). Avem : = 1 n acest
caz.
Exemplul 12.4 Vrem sa testam pentru o v.a. X continua urmatoarea ipoteza H: X se supune
unei legi gaussiene. Aici P este familia N(j. o
2
) care depinde de doi parametri: j si o
2
. Dupa
cum stim este convenabil sa estimam media j cu media de selectie si pe o
2
cu S
t 2
. Aici : = 2.
12.1.2 Teste de independent a
Fie X si Y dou a v.a. denite pe aceeasi categorie de probe. Pentru a testa ipoteza H: X si
Y sunt independente, se descompune R n dou a partitii: R =E
1
' 'E
o
=F
1
' 'F
b
si
consider am cele : = c / evenimente: XE
i
si YF
)
, pentru 1 _ i _ c, 1 _ , _ /.
2
180
Se face un num ar mare de sondaje independente de tipul (X
1
,Y
1
),... (X
a
. Y
a
). Not am cu
N
i)
num arul realiz arilor XE
i
si YF
)
. Se introduc statisticile
N
i
=

1)b
`
i)

N
)
=

1io
`
i)
(12.9)
1 = :
i,)
_
N
i)
1
a
N
i
N
)
_
2
N
i
N
)
= :
__
i,)
N
2
i)
N
i
N
)
_
1
_
(12.10)
Dac a H este adev arat a, T se supune practic unei legi
2
cu (c1)(/1) grade de libertate.
Testul const a n a respinge ipoteza H dac a T ia o valoare semnicativ prea mare relativ la
2
. Dac a ipoteza H este vericat a num arul j
i)
=
1
a
2
N
i
N
)
este un estimator bun pentru
probabilitatea j
i)
=P(X E
i
si Y F
)
).
12.1.3 Teste de omogenitate
Se consider a t variabile aleatoare X
1
. ....X
t
. Pentru a testa ipoteza H: X
1
. ....X
t
satisfac aceeasi
lege, se face partitia R =A
1
'A
2
' 'A
v
, pentru ecare i se ia un esantion (X
i1
. .... X
ia
i
) de
volum mare, r
i
X
i
, : = :
1
+ +:
i
, v.a. X
11
. ....X
ia
i
ind considerate independente. Pentru
1 _ i _ t se noteaz a Y
i)
num arul de indici / astfel nct X
iI
A
)
. Se introduc statisticile
Y
)
=

1it
Y
i)
1 =

1it
1ir
_
Y
i)
a
i
a

Y
)
_
2
a
i
a

Y
)
= :
_
i,)
Y
2
i)
:
i
Y
)
1
_
. (12.11)
Dac a H este adev arat a, T se supune practic unei legi
2
cu (t 1) (: 1) grade de liber-
tate. Testul const a n a respinge H atunci cnd T ia o valoare semnicativ mare relativ la
2
.
Dac a H este adev arat a j
)
=
1
a
Y
)
este un estimator bun pentru P(X
i
A
)
) si nici nu depinde
de i. Dac a : = 2 (12.10) devine
1 =
:
2
Y
1
Y
2
i
Y
2
i1
:
i
:
Y
1
Y
2
(12.12)
Exemplul 12.5 Teoria lui Mendel asupra ereditatii ne previne ca daca crestem 2 tipuri de
plante va trebui sa obtinem produse de tipul A, B, C, D n proportie de 9, 3, 3 si 1. Dupa
experiente se observa ca s-au obtinut 154 produse de tipul A, 44 de tip B, 63 de tip C si 21
de tip D. Ce parere aveti n acest caz de teoria lui Mendel (prag = 0. 05)?
Solutie Aici evenimentele A
1
, A
2
, A
3
, A
4
sunt A, B, C si D. Teoria lui Mendel prevede c a
j
1
=
9
16
, j
2
=
3
16
, j
3
=
3
16
, j
4
=
1
16
(deoarece 9+3+3+1=16). Suntem n Cazul I al testului
2
2
181
cu: j
t
1
=
9
16
, j
t
2
=
3
16
, j
t
3
=
3
16
, j
t
4
=
1
16
. Experientele conduc la , Y
1
= 154, Y
2
= 44, Y
3
= 63,
Y
4
= 21, : = 154 + 44 + 63 + 21 = 282.
Dac a U este variabila
2
cu :1 = 3 grade de libertate, avem c a P(U_ 7. 81)=0,05. Testul
de prag 0,05 se scrie: Respinge H==
2
_ 7. 81. n cazul nostru avem :j
t
1
, :j
t
2
= :j
t
3
= 53,
:j
t
4
= 18 si
2
=
(154 159)
2
159
+
(44 53)
2
53
+
(63 53)
2
53
+
(21 18)
2
18
= 4. 06 < 7. 81
. Se accept a deci teoria lui Mendel ca ind adev arat a cu 0,95=1-0,05.
Exemplul 12.6 Fie j probabilitatea pentru ca o piesa din echipamentul fabricat de o anumita
masina sa aiba defecte. Vrem sa testam ipoteza H: j = 0. 2. Pentru aceasta luam 100 de piese
si constatam ca 22 dintre ele au defecte. Care este probabilitatea, daca ipoteza este adevarata,
pentru ca
2
sa aiba o valoare mare? Cum interpretati acest lucru?
Solutie Aici A
1
=succes si A
2
=esec. Fie j
1
= j =P(A
1
) si j = 1 j = =P(A
2
). Vom
avea j
t
1
= j
t
si j
t
2
=
t
= 1 j
t
. Fie Y
1
=num arul de succese n cursul a : ncerc ari(=Y) si
Y
2
=:Y. Avem
1 =
(Y:j
t
)
2
:j
t
+
[: Y:(1 j
t
)]
2
:(1 j
t
)
=
(Y:j
t
)
2
:j
t
t
= 2
2
unde Z=
Yaj
0
_
aj
0
q
0
. Testul
2
cap at a deci urm atoarea form a: Respinge H==(T _ ) . sau dac a
[Z[ _
_
. Se stie c a dac a H este adev arat a Z este practic gaussian a redus a (teorema limit a
central a).
Aplicatie numeric a: j
t
= 0. 2, : = 100, Y= 22. Valoarea lui Z
2
este Z
2
=
(2220)
2
1000,20,8
=
1
4
.
Probabilitatea ca variabila gaussian a redus a s a ia o valoare absolut a
_
1
4
= 0. 5 este 0,616.
Se accept a deci aceast a ipotez a H.
Exemplul 12.7 O v.a. X ia numai valorile 0, 1, 2, 3 ,4. Vrem sa testam daca aceasta v.a.
se spune legii binomiale cu j =
1
3
si : = 4 (numarul de probe). S-au facut pentru aceasta 324
ncercari independente care au condus la urmatoarele rezultate, ,
i
ind frecventa absoluta a
valorii i:
i 0 1 2 3 4
,
i
67 122 94 38 3
Ce concluzie trageti?
Solutie Fie A
i
evenimentul: X=i; P(A
i
)=C
i
4

_
1
3
_
i
_
2
3
_
4i
, pentru 0 _ i _ 4. Avem
deci j
t
0
=
16
81
; j
t
1
=
32
81
; j
t
2
=
24
81
; j
t
3
=
8
81
; j
t
4
=
1
81
; Y
0
= 67; Y
1
= 122; Y
2
= 94; Y
3
= 38;
Y
4
= 3. Deoarece Y
4
este mic se grupeaz a A
3
cu A
4
si g asim A
0
, A
1
, A
2
si B=(A
3
' A
4
) cu
j
t
0
, j
t
1
, j
t
2
si
t
= j
t
3
+j
t
4
. Experienta a condus la Y
0
, Y
1
, Y
2
si Z=Y
3
+Y
4
. Se obtine
2
=1,15.
Probabilitatea ca
2
cu 4-1=3 grade de libertate s a ia o valoare de aceast a m arime este 0. 1.
Deci ipoteza se accept a.
2
182
Exemplul 12.8 Gazul de esapament al unui motor contine particule solide. Se considera
ipoteza H: numarul X al acestor particule continut ntr-un volum mic V de gaz se supune
unei legi Poisson. Pentru a testa aceasta ipoteza luam 400 esantioane de acelasi volum V
si se gasesc 1872 de particule reprezentate dupa urmatorul tabel (:
i
reprezinta numarul de
esantione care au continut i particule):
i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
:
i
0 20 43 53 86 70 54 37 18 10 5 2 2 0 0
Aceste rezultate permit oare s a accept am ipoteza H?
Solutie X =
1
a
i:
i
=
1872
400
= 4. 68. Se grupeaz a clasele corespunz atoare lui i = 0 si
i = 1, ct si clasele corespunz atoare lui i _ 10. Se obtin n nal 10 clase numerotate de la 1
la 10 care au probabilit atile estimate prin j
i
:
j
i
= c
4,68
(1 + 4. 68), j
i
= c
4,68
(4,68)
i
i !
, pentru 2 _ i _ 9, j
i
=
4,68
i
j
i1
, pentru
3 _ i _ 9.
si j
10
= 1

1i9
j
i
. Avem urm atorul tabel:
i Y
i
j
i
: j
1
(Y
i
ab j
i
)
2
ab j
i
0 sau 1 20 0,0527 21,1 0,0552
2 43 0,1016 40,6 0,1372
3 53 0,1585 63,4 1,7060
4 86 0,1855 74,2 1,8764
5 70 0,1736 69,4 0,0044
6 54 0,1354 54,1 0,0004
7 37 0,0905 36,2 0,0176
8 18 0,0529 21,1 0,4720
9 10 0,0275 11,0 0,0908
_ 10 9 0,0218 8,7 0,0152
4,3772
Deci suma termenilor de pe ultima coloan a este chiar
2
- 4. 38. Probabilitatea pentru
ca o variabil a
2
cu : : 1 = 10 1 1 = 8 grade de libertate s a e _ 4. 38 este 0. 1.
Prin urmare H se va accepta.
Exemplul 12.9 Vrem sa examinam daca aptitudinile manuale ale unui individ sunt inde-
pendente de vedere. Pentru aceasta se denesc 2 caractere X si Y:X ia valorile 1, 2 sau 3 care
corespund faptului ca individul este mai abil cu mna stnga, la fel de abil cu ambele mini,
sau mai abil cu mna dreapta. Y ia valorile 1, 2 sau 3 dupa cum individul vede mai bine cu
ochiul stng, cu ambii ochi sau vede mai bine cu ochiul drept. Facem deci ipoteza ca X si Y
sunt v.a. independente. n tabelul urmator avem rezultatele observatiilor facute asupra a 413
2
183
persoane. De exemplu, am gasit 20 persoane cu X=2 si Y=3, etc.
Y 1 2 3
X
1 34 62 28
2 27 28 20
3 57 105 52
.
Solutie Cu notatiile din Aplicatia 2 din aceast a lectie avem
N
1
= 34 + 62 + 28 = 124
N
2
= 75.
N
3
= 214
N
1
= 34 + 27 + 57 = 118
N
2
= 196.
N
3
= 52i: = 34 + 62 + + 52 = 413.
Pentru numerele
1
a
N
i
N
)
avem tabelul:
, 1 2 3
i
1 35 59 30
2 21 35 18
3 61 101 52
si
2
=
(3435)
2
35
+ +
(5252)
2
52
= 3. 5. Cum v.a.
2
are (c 1) (/ 1) = 2 2 = 4 grade de
libertate, ipoteza de independent a se accept a (vezi Tabelul ?).
Exemplul 12.10 Inteligenta unui copil se claseaza n 6 nivele: de la A foarte slaba, pna
la F foarte buna. S-au clasat 1725 copii la ntmplare alesi din 8 scoli numerotate de la 1
la 8 si s-au obtinut rezultate urmatoare:
2
184
nivelul A B C D E F
scoala
1 6 18 36 43 39 4
2 14 25 52 87 54 13
3 1 8 37
4 14 19 60 94 73 12
5 33 69 132 187 85 14
6 45 50 69 72 66 15
7 6 20 8 9 1
8 18 32 37 36 12
Aceste rezultate ne permit oare s a accept am ipoteza dup a care repartitia nivelelor de
inteligenta este aceeasi n oricare dintre scoli?
Solutie Este vorba despre un test de omogenitate (vezi Aplicatia 3). Aici t = 8, : = 6,
numerele Y
i)
se a a n tabel la intersectia liniei i cu coloana ,, de exemplu Y
23
= 52. Avem
:
1
= 6+18+36+43+39+4 = 146, :
2
= 243, :
3
= 46, :
4
= 272, :
5
= 520, :
6
= 317, :
7
= 44,
:
8
= 135. La fel

Y
1
= 6 + 14 + 14 + 33 + 44 + 18 = 130,

Y
2
= 219,

Y
3
= 407,

Y
4
= 535,
Y
5
= 375,

Y
6
= 59. Calcul am acum numerele
Y
2
11
a
1
e
Y
1
= 0. 001897,...,
Y
2
85
a
8
e
Y
5
= 0. 002844 si
suma lor

i,)
Y
2
ij
a
i
e
Y
j
= 1. 0784. De aici g asim c a
2
= 1725 (1. 0784 1) = 135. Variabila
aleatoare
2
cu (t 1)(: 1) = 35 grade de libertate are o probabilitate mai mic a dect 0,001
ca s a e _ 135. Deci ipoteza va trebui categoric respins a.
12.2 Rezumat
Fie X o v.a. ce guverneaz a populatia P. Nu cunoastem legea statistic a a v.a. X si vrem
s a test am dac a aceast a lege este o lege cunoscut a Q (dat a). Pentru aceasta consider am un
esantion de volum : (: _ 25): r
1
. r
2
. .... r
a
. Grup am aceste date n intervale J
1
. J
2
. .... J
v
astfel nct J
i
J
)
= c, pentru i ,= , si J
1
' J
2
' ' J
v
= R s a ia valoarea n intervalul J
i
.
Este clar c a nu cunoastem aceste j
i
-uri. Stim doar c a

j
i
= 1. Fie j
t
i
probabilitatea ca v.a.
X s a ia valoarea n intervalul J
i
dac a am presupune c a X are legea Q. Aceste numere se pot
calcula folosind tabelele distributiei cunoscute Q. Not am cu Y
i
num arul acelor r
)
-uri care se
a a n intervalul J
i
. Y
i
este de fapt frecventa absolut a empiric a de selectie pe intervalul J
i
.
Frecventa absolut a teoretic a (potrivit legii Q) pe intervalul J
i
este egal a cu :j
t
i
. Ipoteza pe
care o facem este urm atoarea: H: j
i
= j
t
i
, (\) i = 1. :.
Construim acum statistica Helmert-Pearson: T=
v
i=1
(
Y
i
aj
0
i
)
2
aj
0
i
. Ea m asoar a deviatia legii
reale a v.a. X de la legea presupus a Q. Pentru : mare T tinde s a aib a distributia
2
(Pearson)
cu : 1 grade de libertate dac a cumva X ar avea ntr-adev ar legea de distributie Q.
Calcul am num arul T n cazul nostru si l not am cu
+
.
2
185
Fie acum c (0. 1) (de odicei c se ia mic c =0,05; 0,01; 0,001), un num ar real dat pe
care l vom numi prag de semnicatie.
Fie
2
c
cuantila de ordin c pentru v.a.
2
, adic a aceea valoare pentru care P(
2
<
2
c
)=c
(vezi gura )
Testul
2
functioneaz a astfel:
Daca valoarea calculata din selectie
+

2
c
vom accepta ipoteza H cu pragul de
semnicatie c, adic a este foarte probabil ca ipoteza s a e adev arat a.
Daca valoarea calculata
+
_
2
c
vom respinge ipoteza H cu pragul de semnicatie
c.
Aceasta este testul
2
simplu (Cazul I)
Dac a ns a legea Q are : parametri de estimat tot din selectie, atunci va trebui s a micsor am
num arul gradelor de libertate cu :, adic a s a avem : : 1 grade de libertate, deoarece apar
: + 1 leg aturi:

j
i
= 1 si cele : leg aturi de estimare.
12.3 Exercitii rezolvate
1. Se arunca 4 monede simultan de 160 de ori. Se observa de ecare data de cate ori a aparut
capul.
r =de cate ori poate sa apara capul,
cand aruncam o data cele 4 monede
0 1 2 3 4
, =de cate ori s-a realizat r in cele 160
de aruncari r in cele 160 de aruncari
5 35 67 41 12
Sa se testeze ipoteza H
0
: monedele nu sunt falsicate, cu pragul de 5%.
Solutie Fie A v.a. care ia valorile r = de cate ori apare capul cand aruncam o data
cele 4 monede (sau de 4 ori aceeasi moneda). Avem ca:
2
186
1(A = r) = C
a
4

_
1
2
_
a
_
1
2
_
4a
=
_
1
2
_
4
C
a
4
.
Prin urmare frecventa absoluta sperata (daca presupunem H
0
adevarata) de aruncari pen-
tru r este 1601 (A = r) . Obtinem deci urmatorul tabel:
r 0 1 2 3 4
1 (A = r) 1/16 4/16 6/16 4/16 1/16
1
i
=fr. abs. sperata cand r = i
sperata cand r = i
10 40 60 40 10
C
i
=fr. abs.
observata cand r = i
5 35 67 41 12
(O
i
1
i
)
2
1
i
2,5 0,625 0,817 0,025 0,4
Folosim testul
2
cu i =5 clase-1 restrictie (
C
i
= 160) =4 grade de libertate.
Avem deci
2
co|c
=
5
i=1
(O
i
1
i
)
2
1
i
= 4. 365 <
2
0,05
(4) = 9. 49. Prin urmare acceptam H
0
cu
pragul de 95%.
2. La o fabrica de caramizi se aleg 500 de pachete de cate 5 caramizi la intervale regulate
de-a lungul unei saptamani si se numara de ecare data cate caramizi defecte sunt in ecare
pachet. S-au obtinut urmatoarele rezultate:
r =nr.de caramizi defecte
intr-un singur pachet
0 1 2 3 4 5
, =nr. de pachete care
au avut r caramizi defecte
170 180 120 20 8 2
Testati cu ajutorul testului
2
cu nivelul de semnicatie 5% daca numarul caramizilor
defecte urmeaza legea binomiala.
Solutie Deoarece in legea binomiala Bin(: = 5; j) nu stim pe j. trebuie sa-l estimam din
esantion:
:j = r =
P
)a
P
)
= 1. 044. deci j = 0. 2088.
Am presupus ca H
0
: legea este binomiala este adevarata. Atunci v.a. A = nr.
caramizilor defecte intr-un esantion de 5 caramizi va binomiala cu : = 5 si j = 0. 2088 =
probabilitatea ca o caramida luata la intamplare sa e defecta. Avem ca frecventa absoluta
sperata de i caramizi defecte este 1
i
= 500 1 (A = i) = 500 C
i
5
(0. 2088)
i
(0. 7912)
5i
,
unde 0,7912=1-0,2088, iar i = 0. 1. 2. 3. 4. 5. Cum 1
4
= 4 si 1
5
= 0. clasele 1
3
. 1
4
. si 1
5
le
cumulam intr-o singura clasa renotata cu 1
3
(r _ 3) . La fel, cumulam pe C
3
= 20. C
4
= 8 si
C
5
= 2 intr-o noua clasa C
3
(r _ 3). Obtinem deci urmatorul tabel:
r 0 1 2 r _ 3
1
i
=fr. abs. sperata cand r = i.
daca acceptam legea binomiala
155 205 108 32
C
i
=fr. abs. observata cand r = i.
data in datele problemei
170 180 120 30
(O
i
1
i
)
2
1
i
1,452 3,049 1,333 0,125
2
187
Folosim testul
2
cu i = 4 clase-2 restrictii(
C
i
= 500 si r = 1. 044 este impus prin
estimare)= 2 grade de libertate.
Avem deci
2
co|c
= 5. 959 =
4
i=1
(O
i
1
i
)
2
1
i
<
2
0,05
(2) = 5. 99. Acceptam deci ipoteza H
0
(repar-
titia este binomiala) cu pragul de semnicatie 5%. Avem o oarecare neincredere deoarece 5,959
este prea aproape de valoarea critica 5,99. Se indica sa se repete experienta pentru mai multa
siguranta.
3. In 100 de meciuri o echipa de fotbal a inscris goluri dupa cum urmeaza:
r =nr. de goluri
inscrise intr-un meci
0 1 2 3 4 5 6 7
, =nr. de meciuri in care
echipa a inscris r goluri
14 18 29 18 10 7 3 1
Testati cu
2
cu 5% daca golurile inscrise se repartizeaza dupa o lege Poisson.
Solutie Deoarece nu cunoastem pe ` in legea lui Poisson 1o (`) . il vom estima din media
de selectie:
r =
P
)a
P
)
=
230
100
= 2. 3. deci ` - r = 2. 3.
1 (A = r) =
c
2;3
(2,3)
x
a!
. r = 0. 1. 2. ....
Calculam 1
i
= 1001 (A = i) = frecventa absoluta sperata (teoretica) a i goluri inscrise
de echipa in cele 100 de meciuri. Aici 1 (A = i) este probabilitatea ca echipa sa inscrie i
goluri intr-un singur meci. Folosim testul
2
cu i = 6 clase - 2 restrictii (
C
i
= 100 si
r = 2. 3 este impus)=4 grade de libertate. Teoretic avem 9 clase: 1
0
. 1
1
...., 1
7
. 1
8
(i _ 8).
Cum 1
5
= 5. 4; 1
6
= 2. 1; 1
7
= 0. 7. 1
8
= 0. 2. cumulam clasele 1
5
. 1
6
. 1
7
si 1
8
intr-una
singura, desemnata tot cu 1
5
= 8. 4. Vom obtine tabelul:
r 0 1 2 3 4 5
1
i
10,0 23,1 26,5 20,3 11,7 8,4
C
i
14 18 29 18 10 11
(O
i
1
i
)
2
1
i
1,6 1,126 0,236 0,261 0,247 0,805
Folosim deci testul
2
cu 4 grade de libertate. Cum
2
co|c
=
5
i=0
(O
i
1
i
)
2
1
i
= 4. 275 <
2
0,05
(4) = 9. 49 vom accepta ipoteza H
0
: distributia golurilor urmeaza o lege Poisson cu
nivelul de incredere de 95%.
12.4 Exercitii
1. Se testeaza greutatea unui grup de 50 de barbati si se obtin valorile (n Kg):
2
188
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
86 84 75 81 68 63 62 75 76 77
73 65 88 87 60 62 71 78 85 72
Folositi testul
2
pentru a decide cu pragul de c=0,90 daca populatia este normala cu
media 75 si dispersia 625. Faceti acelasi lucru dar cu media si dispersia estimate din selectie.
mpartiti esantionul n zece intervale.
2. Se urmaresc accidentele mortale pe o portiune dintr-un drum national timp de 100 sap-
tamni. Timp de 45 de saptamni nu a fost nici un accident mortal. n 29 de saptamni s-a
produs un accident, n 17 saptamni 2 accidente, iar n 9 saptamni au avut loc 3 accidente.
Folositi testele
2
si K-S pentru a vedea, cu pragul c=0,90, daca distributia accidentelor
urmeaza modelul Poisson sau nu. Parametrul se estimeaza din selectie.
3. Se considera o prisma care are ca baze doua triunghiuri echilaterale B
1
si B
2
si ca fete
laterale A
1
, A
2
si A
3
. Se arunca prisma de 500 de ori si se constata ca prisma a cazut de :
Y
1
= 111 ori pe fata A
1
Y
2
= 113 ori pe fata A
2
Y
3
= 118 ori pe fata A
3
Z
1
= 81 ori pe fata B
1
Z
2
= 77 ori pe fata B
2
. Testati ipoteza dupa care cele 3 fete laterale si cele 2 baze au
aceeasi probabilitate
1
5
(pragul = 0. 05 si = 0. 01).
Indicatie. Avem Cazul I: : = 5 si j
t
1
= j
t
2
= = j
t
5
=
1
5
. Gasim
2
=15,04. Analiznd
tabelul vedem ca trebuie sa respingem ipoteza pentru cele doua praguri.
4. Vrem sa testam ipoteza H dupa care o anumita v.a. X este gaussiana cu media 1,1 si
dispersia 0,2. S-au facut 1000 de probe independente care au condus la rezultatele urmatoare:
0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
26 51 107 168 200 193 138 80 29 8
adica X a luat de 26 de ori o valoare mai mica dect 0,6 si de 51 de ori o valoare cuprinsa
n intervalul [0. 6; 0. 7), etc. Testati ipoteza H cu pragurile = 0. 05, = 0. 01 si = 0. 001.
Indicatie Se partitioneaza R dupa cum indica problema. Se gaseste
2
= 13. 97. Folosim
tabelul distributiei
2
cu 101 = 9 grade de libertate. Ipoteza trebuie respinsa cu pragul 0,05
si 0,01, dar trebuie sa o acceptam cu pragul 0,001.
5. Se testeaza ipoteza dupa care culoarea ochilor este independenta de culoarea parului.
Pentru aceasta se introduc 2 caractere X si Y:
2
189
X ia valorile 1, 2, 3, 4 dupa cum ochii sunt albastri, gri sau bruni.
Y ia valorile 1, 2, 3, 4 dupa cum parul este blond, brun, negru sau roscat. Se testeaza un
numar de persoane si rezultatele le gasim n tabelul urmator:
Y 1 2 3 4
X
1 1768 807 189 47
2 946 1387 746 53
3 1125 438 288 16
.
Indicatie Aici (c 1)(/ 1) = 2 3 = 6 si
2
= 1075. Chiar cu pragul de = 0. 001
ipoteza nu este acceptabila.
6. Un articol de calitatile A, B sau C poate fabricat dupa 2 metode numerotate cu 1 si
2. Se examineaza 100 de articole si se gaseste tabelul:
A B C
1 20 19 11
2 12 31 7
. Putem accepta oare ipoteza ca, calitatea articolului nu depinde de modul sau de fabricare
(se ia = 0. 1 si = 0. 01)?
Indicatie. Este vorba de un test de omogenitate cu : = 3 si t = 2. Avem ca
2
= 5. 77
pentru o variabila aleatoare
2
cu 2 grade de libertate. Cu pragul de 0,1 trebuie sa respingem
ipoteza, dar cu pragul de 0,01 trebuie sa o acceptam.
Lectia 13
Alte teste neparametrice
13.1 Testul de concordant a Kolmogorov-Smirnov
Acest test este din multe puncte de vedere mai bun dect testul
2
. El se aplic a bine si
pentru esantioanele mici (: _ 25). Dac a pentru testul
2
trebuia s a grup am datele, pentru
testul K-S nu este nevie dect s a calcul am functia de repartitie empiric a asociat a selectiei
efectuate. El poate utilizat bine si pentru a compara dou a distributii.
Presupunem c a populatia P are ca functie de repartitie teoretic a functia F
T
(r). Efectu am
un sondaj de volum :: r
1
. .... r
a
si not am cu F
S
(r) functia de repartitie empiric a asociat a
acestui sondaj (vezi Lectia 8). Pentru a m asura deviatia functiei F
T
(r) de la functia F
S
(r) se
introduce statistica lui Kolmogorov: D=max
a
[F
S
(r)-F
T
(r)[. Dac a populatia P are ntr-adev ar
repartitia F
T
(r) atunci se cunoaste distributia v.a. D (vezi Tabelul XIX). Pe prima coloan a
n acest tabel avem volumul de selectie. Pe prima linie orizontal a avem 5 valori ale pragului
de semnicatie: c =0,80; 0,85; 0,90; 0,95 si 0,99.
Tabelul XIX este construit pe baza teoremei lui A. N. Kolmogorov:
Teorema 13.1 Fie X o v.a., F
T
(r) functia ei de repartitie considerata continua si F
a
(r) o
functie empirica de repartitie asociata unei selectii de volum ::r
1
. .... r
a
. dintr-o populatie
cu v.a. X. Atunci avem relatia
lim
ao
1
_
1 _
`
_
:
_
= 1(`) =
o
o
(1)
I
exp
_
2/
2
`
2
_
(13.1)
pentru orice ` 0.
Gracul functiei 1 (`) apare n gura urm atoare:
190
LEC TIA 13. ALTE TESTE NEPARAMETRICE 191
0.5 1 1.5 2
0.2
0.4
0.6
0.8
1
Gracul functiei 1 (`)
Exemplul 13.2 Se face sondajul {-2, -1, -1, 0, 0, 1, 2, 2} dintr-o populatie P. Sa se testeze
cu testul K-S daca populatia este normala cu media 0 si dispersia 2 (date si nu estimate!) cu
pragul de semnicatie c =0,80.
Solutie Trebuie s a construim functia de repartitie empiric a, F
S
(r) notat a de noi cu
F
+
a
(r) n Lectia 8.
1
S
(r) =
_
_
0. r _ 2
1
8
. r (2. 1]
3
8
. r (1. 0]
5
8
. r (0. 1]
6
8
. r (1. 2]
1 . r 2
Deoarece P(X< r)=F
T
(r) si cum v.a.
A
o
=
A
_
2
este normal a redus a (de tipul N(0,1))
avem c a P(X< r)=P
_
A
o
<
a
o
_
=
_
a
o
_
. Deci F
T
(r) =
_
a
o
_
, unde este functia lui Laplace
tabelat a n Tabelul I. Prin urmare va trebui s a calcul am
_
a
_
2
_
n punctele r =-2, -1, 0, 1,
2. Cum () = 1 (), r amne numai (deoarece (0) = 0. 5) s a calcul am din Tabelul I
_
2
_
2
_
= (
_
2) = (1. 41) = 0. 92 si
_
1
_
2
_
=
_
_
2
2
_
= (0. 70) = 0. 75. Prin urmare
2
_
2
_
= 1 0. 92 = 0. 08 si
_
1
_
2
_
= 1 0. 75 = 0. 25. Calcul am acum diferentele
dintre F
S
(r) si F
T
(r) pe ecare interval ce apare n denitia functiei F
S
(r). G asim
r 2 1 0 1 2
F
S
(r) 0 0
1
8
3
8
5
8
6
8
1
F
T
(r) 0 0. 08 0. 25 0. 5 0. 75 0. 92 1
F
S
(r) F
T
(r) 0 0. 08 0. 125 0. 125 0. 125 0. 170 0
.
Prin urmare D=max [F
S
(r)-F
T
(r)[ = 0. 170. Cuantila pentru c = 0. 80 si : = 8 (din
Tabelul XIX) este D
c
= 0. 358. Cum P(D< 0. 358)=0,80 rezult a c a putem accepta ipoteza c a
populatia P este normal a cu pragul de semnicatie 80% (deoarece 0,170<0,358).
Observatia 13.3 Acest test se poate aplica cnd avem de comparat doua distributii: D=max [F
S
1
(r)-F
S
2
(r)[,
etc.,unde cele doua functii empirice de repartitie care apar corespund celor doua distributii.
Exercitiul 13.4 Folositi testul K-S pentru exemplul 12.1
13.2 Testul lungimilor (secventelor)
Fie X si Y dou a variabile aleatoare. Vrem s a test am urm atoarea ipotez a:
H: X si Y au aceeasi lege de distributie.
Pentru aceasta consider am un esantion de volum : al v.a. X:(X
1
. .... X
n
) si un esantion
de volum : al v.a. Y:(Y
1
. .... Y
2
). Consider am acum sirul de : + : variabile aleatoare
(X
1
. .... X
n
. Y
1
. .... Y
a
). Presupunem c a ele sunt independente. Dac a X si Y ar avea aceeasi
lege de distributie am putea amesteca oricum aceste variabile si rationamentele noastre nu
s-ar schimba la trecerea de la (X
1
. .... X
a
) la (Y
1
. .... Y
n
).
Introducem urm atoarea v.a. R. Facem cte o selectie de volum : din X: r
1
. .... r
n
si
de volum : din Y:
1
. ....
a
consider am sirul de numere r
1
. .... r
n
.
1
. ....
a
. Asez am acum
aceste numere n ordinea cresc atoare si nu ne intereseaz a dect faptul c a ele sunt din X sau
din Y. Vom nota o astfel de situatie sub forma: .=XXYXYYYXXXXYY. Aici := num arul
X-lor, adic a :=7, := num arul Y-lor, adic a :=6. n sirul . cel mai mic num ar din sirul
r
1
. .... r
n
.
1
. ....
a
, este din (r
1
. .... r
n
).urm atorul n ordine cresc atoare este tot din acest
sir,al treilea n ordine cresc atoare este din (
1
. ....
a
),etc. Cel mai mare num ar din . este din
(
1
. ....
a
). Dac a cumva r
i
1
= r
i
2
le asez am unul dup a altul n orice ordine, etc.
Vom numi secventa (lungime) n sirul . orice subsir format numai din X sau numai din
Y. De exemplu n . avem urm atoarele secvente:
XX Y X YYY XXXX YY
___ _ _ ____ _____ __
S1 S2 S3 S4 S5 S6
Prima secventa este S1: XX
A doua secventa este S2: Y
A treia secventa este S3: X
.
.
.
.
.
.
A sasea secvent a este S6: YY.
Pentru selectia noastr a v.a. R ia valoarea 6, adic a num arul secventelor de X-si sau de Y-ci
care apar dup a rearanjarea n ordine cresc atoare a esantionului (r
1
. .... r
n
.
1
. ....
a
).
Dac a ipoteza H este adev arat a, functia de repartitie a v.a. R, F(r)=P(R _ r) se calculeaz a
tinnd seama de urm atoarele observatii de natur a combinatoric a:
Dac a de exemplu : _ :,
1(1 = 2:) =
2
C
n
n+a
C
s1
n1
C
s1
n1
. jc:t:n 1 _ : _ :;
1(1 = 2: + 1) =
1
C
n
n+a
[C
s
n1
C
s1
n1
+C
s
a1
C
s1
a1
]. jc:t:n 1 _ : _ :;
1(1 = 2:+ 1) =
1
C
n
n+a
C
n
a1
. dcc c : < :;
1(1 = :) = 0
n toate celelalte cazuri r amase.
Se demonstreaz a c a statistica v.a. R este asimptotic a (:. : mari) gaussian a cu
`(1) = 1 +
2::
:+:
. 1(1) =
2::(2:: ::)
(:+:)
2
(:+: 1)
(13.2)
S a not am cu
1 =
R-M(R)
_
D(R)
(13.3)
Variabila T tinde c atre o v.a. gaussian a redus a.
Un test de preg c se construieste astfel:
Fie : cel mai mare ntreg r astfel nct F(r)_ c.
Testul va : Respinge H==R
+
_ :, unde R
+
este valoarea efectiv a a v.a. R obtinut a
din sondaje (= num arul secventelor). Pragul este c si acest test este cel mai puternic pentru
acest prag.
Desigur c a am putea construi si alte teste plecnd de la formula (13.3) n analogie cu
testele de semnicatie sau ca testul
2
. Pentru : si :mici se calculeaz a direct F(r) dup a
formulele (13.1), iar pentru : si : mari se foloseste (13.3).
Exemplul 13.5 Se cntaresc 10 mere de doua calitati A si B si se gasesc urmatoarele rezul-
tate (n grame):
A: 192 197 207 182 191
B: 212 201 209 214 203
Ne permit oare aceste rezultate sa respingem ipoteza H: greutatea unui mar urmeaza aceeasi
lege de distributie indiferent de calitatea lui A sau B (cu pragul c=0,05)? Calculati proba-
bilitea erorii de primul tip pentru acest test. Utilizati si aproximarea gaussiana si comparati
rezultatele.
Solutie Aici avem : = : = 5; C
n
n+a
= 252. S a not am
N(r)= C
n
n+a
P(R=r)=225P(R=r). Avem N(2s)=2
_
C
s1
4
_
2
, pentru 1_s_5,
N(2s+1)=2C
s1
4
C
s1
4
, pentru 1_s_4 si N(r)=0 n celelalte cazuri. Deducem de
aici legea de distributie pentru v.a. R:
r 2 3 4 5 6 7 8 9 10
252 P(R=r) 2 8 32 48 72 48 32 8 2
.
C aut am cel mai mare r cu F(r)_0,05, sau 252 F(r)_ 12. 60. Cum avem 252 F(r)=
ia
N(i),
g asim c a 252 F(2)=2; 252 F(3)=10; 252 F(4)=42.
Cel mai mare r este deci 3 si testul devine: Respinge H==R
+
<3. Probabilitatea erorii de
primul tip pentru acest test este P(R_3)=F(3)=
10
252
=0,0397. S a utiliz am acum aproximarea
gaussian a estimnd M(R) si D(R) direct din selectie.
`(1) = 1 +
2 5 5
5 + 5
= 6.
1(1) =
2 5 5 40
10 9
= 2. 222.
Avem c a
1(1 _ 3. 5) = 1
_
R6
_
2. 222
_
2. 5
_
2. 222
_
= 0. 047
S a observ am c a rezulatele sunt comparabile chiar dac a : si : si sunt mici.
n exemplul nostru .=XXXXYYXYYY, deoarece selectia ordonat a este:
182 191 192 197 201 203 207 209 212 214
.
Avem deci 4 secvente. Cum R
+
= 4 3 va trebui s a accept am ipoteza H cu pragul c=0,05.
13.3 Testul lui Wilcoxon I (cazul observatiilor necu-
plate)
Denitia 13.6 Fie X si Y doua v.a. Variabila aleatoare Y se zice stochastic superioara v.a.
X daca (\) . R avem ca P(Y_ .)_P(X_ .), cu inegalitate stricta cel putin pentru un
. = .
1
. Presupunem ca avem alternativele:
sau X si Y au aceeasi lege
sau Y este stochastic superioar a lui X.
Fie ipoteza H: Xsi Y au aceeasi lege. Ca si la testul secventelor construim sirul .=XXYX...,
de exemplu .=XYXXYYXYY. Statistica lui Wilcoxon T este v.a. care are ca valoare T=
suma numerelor care arat a locurile pe care le ocup a X n sirul .. Aici avem T=1+3+4+7=15.
Testul este de forma: Respinge H==T_ t, unde t este valoarea lui T din selectie. Dac a H
este vericat a, P(T_ t)=
1
C
m
m+n
nmultit cu num arul probelor favorabile relatiei T_ t (pentru
: si : mici se poate calcula direct F(t) ). Aici lucr am cu selectiile X
1
. ....X
n
.Y
1
. ....Y
a
. Dac a
: si : sunt mari, T este aproape gaussian a cu:
`(1) =
:(:+: + 1)
2
1(1) =
::(:+: + 1)
12
(13.4)
Exemplul 13.7 Se ncearca un tratament mediacl nou asupra unui grup de persoane de aceesi
vrsta, bolnave grav cu o maladie de tip cardiac. S-a notat timpul (n ani) dupa care aceste
persoane tratate mai traiau nca, ct si timpul dupa care alte persoane de aceeasi vrsta,
bolnave de aceeasi boala, dar netratate, mai traiau. S-au obtinut urmatoarele rezultate:
Tratate: 1. 2 6. 3 6. 5 7. 8 11. 2 15. 6
Netratate: 0. 4 3. 5 4. 8 6. 7
Testati ipoteza H potrivit careia tratamentul nu prelungeste viata unui bolnav (prag 0,05).
Solutie Aplic am testul lui Wilcoxon. X este v.a. care exprim a durata de viat a a unui
bolnav netratat si Y a unui bolnav tratat. Este clar c a v.a. Y este stochastic superioar a
v.a. X. Ordon am cresc ator sirul r
1
. .... r
n
.
1
. ....
a
si g asim .=XYXXYYXYYY. Aici
T=1+3+4+7=15. Avem :=4 si :=6. S a num ar am cazurile favorabile conditiei T_15. Un
caz l avem mai sus: (1, 3, 4, 7), adic a am asezat ntr-un sir pozitiile lui X n .. Cazurile
favorabile vor : (1, 2, 3, 4), (1, 2, 3, 5), (1, 2, 3, 6), (1, 2, 3, 7), (1, 2, 3, 8), (1, 2, 3, 9), (1, 2,
4, 5), (1, 2, 4, 6), (1, 2, 4, 7), (1, 2, 4, 8), (1, 2, 5, 6), (1, 2, 5, 7), (1, 3, 4, 5), (1, 3, 4, 6), (1,
3, 4, 7) si (1, 3, 5, 6). Sunt n total 16 posibilit ati favorabile. Num arul tuturor posibilit atilor
este C
4
10
= 210 (= num arul modurilor n care putem aseza patru litere X ntr-un sir de10
litere X si Y). Dac a H ar adev arat a ar trebui s a avem P(T_15)=
16
210
=0,076. Prin urmare,
cum 0,0760,05 trebuie s a accept am ipoteza H cu pragul 0,05 si trebuie s a o respingem cu
pragul 0,1.
13.4 Testul semnelor
Presupunem c a avem dou a dou a v.a. X si Y denite pe aceeasi categorie de probe, ast-
fel nct P(X=Y)=0. Vrem s a test am ipoteza: H: P(YX)_P(XY) contra ipotezei K:
P(YX)<P(XY).
Pentru aceasta se fac : observatii independente (X
1
,Y
1
),..., (X
a
,Y
a
) ale v.a. (X,Y). Se
noteaz a cu V num arul acelor cupluri (X
i
,Y
i
) pentru care Y
i
<X
i
. Testul este de forma:
Respinge H==V_ , unde este valoarea lui V din sondajul respectiv.
Dac a H este adev arat a cea mai mare valoare posibil a pentru P(V_ ) se obtine dac a
presupunem c a V satisface legea lui Bernoulli B
_
:.
1
2
_
.
Exemplul 13.8 O rma vrea sa testeze un nou ingredient adaogat unei creme antisolare. Se
fac testari pe 7 voluntari si pe spatele ecaruia se aplica crema antisolara astfel: pe jumatatea
superioara se aplica crema veche, iar pe jumatatea inferioara se aplica crema cu ingredientul
respectiv. Se expun la soare cei 7 voluntari si se observa masura n care pielea lor se nnegreste.
Se obtine tabelul urmator:
Voluntarul nr. 1 2 3 4 5 6 7
crema veche 42 51 31 61 44 55 48
crema noua 38 53 36 52 33 49 36
.
Solutie Not am cu Y v.a. corespunz atoare nnegririi pielii cu vechea crem a si cu X v.a.
pentru noua crem a, deoarece se presupune c a prin ad aogarea ingredientului valorile lui X vor
n general mai mici dect cele ale lui Y. Avem :=7. Aplic am testul semnelor. Num arul
cuplurilor (X,Y) pentru care Y<X este V=2. Dac a H este adev arat a V are o distributie
B
_
7.
1
2
_
si deci
1(\ _ 2) =
_
1
2
_
7
_
C
0
7
+C
1
7
+C
2
7
=
29
128
= 0. 23 0. 1
Este deci foarte probabil s a g asim pentru V valori mai mari dect 2. Prin urmare, cu acest
test al semnelor (V reprezint a cte semne + avem n diferenta X-Y) ipoteza H trebuie
acceptat a (cu pragul 0,1).
13.5 Testul lui Wilcoxon II (cazul observatiilor cuplate)
Fie X, Y dou a v.a. denite pe aceeasi ctegorie de probe. Fie Z=Y-X. Vrem s a test am ipoteza
H: Z este o variabil a aleatoare simetric a, adic a are aceeasi lege ca si v.a. -Z, contra ipotezei
K: Z este stochastic superioar a lui -Z. S a observ am c a cele 2 ipoteze nu sunt contrare si deci
nu acoper a gama de posibilit ati.
Pentru aceasta facem : observatii independente (X
1
,Y
1
),...,(X
a
,Y
a
) ale v.a. (X,Y). Aran-
j am apoi n ordinea cresc atoare a modulelor lor diferentele Z=YXsi nu retinem dect semnele
lor. G asim de exemplu .=( + + + + +). Not am cu W suma numerelor ce exprim a
pozitia semnelor minus. n cazul nostru W=1+2+3+5=11. Testul are forma urm atoare:
Respinge H==W_ n, unde n este valoarea v.a. W obtinut a din sondaj.
Dac a H este adev arat a, multimea a celor 2
a
posibilit ati pentru semnul este nzestrat a
cu legea uniform a (este unica lege probabilistic a pe o multime nit a de evenimente, care face
ca aceste evenimente s a e egal probabile). Dac a : nu este prea mare legea W se obtine prin
num ararea direct a a cazurilor favorabile. Dac a : este mare W este aproximativ gaussian a cu:
`(\) =
:(: + 1)
4
i1(\) =
:(: + 1) (2: + 1)
24
(13.5)
Exemplul 13.9 Reluam exemplul 13.6 si vrem sa-i aplicam testul Wilcoxon II (c=0,1).
Ordon am valorile v.a. YX n ordinea cresc atoare a valorilor lor absolute: 2, 4, 5, 6,
9, 11, 12. G asim sirul de semne .=( + + + + +). Suma indicilor cu semnul minus este
W=1+3=4. Num arul cazurilor posibile este 2
7
=128. Aici n=4. Cazurile favorabile (W_4)
sunt: (+ + + + + + +), ( + + + + + +), (+ + + + + +), (+ + + + + +), (+ + +
+ + +), ( + + + + +), ( + + + + +), adic a 7. De aici avem c a P(W_4)=
7
128
=0,054.
Cu pragul 0,1 va trebui s a respingem ipoteza H.
Observatia 13.10 Daca comparam rezultatul obisnuit cu acela din Exemplul 13.6 aparent
gasim o contradictie. Aceasta se explica deoarece n testul semnelor nu tinem seama dect
de numarul semnelor minus si nu de pozitia lor n sirul .. n testul lui Wilcoxon se tine
seama ca aceste semne sunt plasate la nceput, si nu oriunde n sirul .. Acest lucru face ca
valoarea V sa e n general mult mai mare dect valoarea W. De aici apare clar ca rezultatul
testului Wilcoxon II sr trebui sa e mai demn de crezut de rma dect rezultatul testului
semnelor. Comparatia dintre cele doua teste se face de obicei de la caz la caz si se interpreteaza
rezultatul potrivit situatiei particulare studiate. Evident ca aici, pentru rma, este convenabil
testul Wilcoxon II si nu testul semnelor, care nu pare concludent. n plus, n testul Wilcoxon
II se presupune ceva n plus de la nceput (K nu este aplternativa ipotezei H).
13.6 Exercitii
1. Se dau doua esantioane independente de volum 20 din v.a. X si Y:
X: 147 193 238 225 252 143 178 209
259 263 226 179 253 262 181 169
210 233 248 194
Y: 240 254 192 157 168 170 207 222
201 215 217 243 172 183 197 241
182 163 173 167
Cu ecare din pragurile c=0,05; c=0,1, testati ipoteza H: X si Y au aceeasi lege,
1) cu testul lungimilor;
2) cu testul Wilcoxon I.
Explicati eventualele contradictii.
Indicatie 1) R=15. Prin aproximarea gaussian a pentru c=0,05 g asim
P(R _ 15)
~
= 0,0388
Se respinge deci H.
2. Suma indicilor lui X este T=462. Folosim aproximarea gaussiana pentru c=0,05 si
gasim
P(T _ 462) 0,5 , deci ipoteza H se accepta. Aici trebuie sa respingem H deoarece se vede
clar ca cele doua legi sunt departe una de alta. Testul Wilcoxon I nu a mers deoarece
nerealizarea lui H==Y este stochastic superioara lui X, lucru evident neadevarat, din sondaj.
Deci trebuie sa acceptam pe H, dar cu rezerve. Probabil ca cele doua legi nu sunt aceleasi dar
se ntrepatrund.
3. Se testeaza un medicament nou pe un lot de 13 soareci si se obtin urmatoarele rezultate
relative la o anumita analiza (mare nseamna nrautatirea starii individului):
soareci netratati: 45 88 16 6 28 122 62 13
soareci tratati: 23 104 2 9 30
Folositi testul lui Wilcoxon I pentru a testa ipoteza H: medicamentul nu da rezultate. (prag
c=0,05 si c=0,1).
Indicatie. Se foloseste aproximarea gaussian a si se g aseste c a P(T_30)-0,255. Ipoteza se
accept a.
4. Douazeci de stupi cu albine se lasa pe aceeasi perioada a anului n doua zone diferite A
(zece stupi) si B (zece stupi) timp de 20 de ani. Se observa cte kilograme de miere se obtin
de la ei n ecare an n cele 2 zone:
Anul A B Anul A B
1 68,3 72,5 11 32,2 31,9
2 60,1 56,0 12 63,3 58,1
3 52,2 55,8 13 54,2 52,7
4 41,7 39,2 14 47,0 46,2
5 32,0 31,4 15 91,9 90,2
6 30,9 35,5 16 56,1 55,4
7 39,3 39,2 17 79,6 75,1
8 42,0 41,1 18 81,2 86,6
9 37,7 43,3 19 78,4 75,3
10 33,5 31,7 20 46,6 43,8
Sa se testeze cu testul semnelor, apoi cu testul Wilcoxon II ( c=0,05) ipoteza: H: cele doua
zone melifere A si B sunt tot att de productive.
Indicatie. Fie X v.a. ce m asoar a greutatea mierii provenit a din zona A si Y v.a. core-
spunz atoare zonei B.
Testul semnelor Z=YX conduce la legea binomial a B
_
20.
1
2
_
si deci
P(V _ 4)=0,00591 < 0,05
, lucru ce conduce la respingerea ipotezei H.
Testul Wilcoxon II conduce la W=71. Aproxim am W cu legea gaussian a si g asim
P(W_ 71)=P
_
W105
_
717. 5
_ 1,27
_
=0,102 0,05
, deci ipoteza H se accept a n aces caz. Deoarece avem putine minusuri (doar 4) vom
prefera testul Wilcoxon II. Consider am numai o pur a ntmplare c a avem putine minusuri.
n general, cnd num arul minusurilor n testul semnelor este mic, nu putem s a ne baz am pe
acest test.El este slab n acest caz.
Lectia 14
Analiza dispersiei si analiza regresiei
14.1 Analiza dispersiei
Vom analiza aici cea mai simpl a problem a dispersional a.
Problem a Se consider a : variabile aleatoare gaussiene X
1
,...,X
c
de aceeasi dispersie ne-
cunoscut a o
2
. Se noteaz a cu :
i
=M(X
i
). Vrem s a test am urm atoarea ipotez a: H: :
1
= :
2
=
= :
c
, adic a toate v.a. au aceeasi medie.
Presupunem c a avempentru ecare i = 1. .... : cte un esantion de volum:
i
:X
i
1
.X
i
2
. ....X
i
n
i
,
al v.a. X
i
. Presupunem c a toate cele : = :
1
+:
2
+ +:
c
v.a. X
11
,...,X
ca
s
sunt independente.
Not am cu
X
i
=
_
1
:
i
X
i
1
+ + X
i
n
i
_
. pentru i=1,...,s (14.1)
X =
1
:
1ic
1jn
i
A
i)
=

1ic
:
i
:
X
i
(14.2)
Q
A
=

1ic
:
i
_
X
i
X
_
2
=
_

1ic
:
i
X
2
i
_
:X
2
(14.3)
Q
R
=

1ic
1jn
i
_
X
i)
X
i
_
2
=
_
_
_
_

1ic
1jn
i
X
2
i)
_
_
_
_

1ia
:
i
X
2
i
. (14.4)
Se stie c a statistica Q
R
/o
2
se spune unei legi Pearson cu : : grade de libertate si c a
variabila aleatoare.
200
LEC TIA 14. ANALIZA DISPERSIEI SI ANALIZA REGRESIEI 201
U
i)
=
_
(a
i
+a
j
)(ac)
a
i
a
j
[
X
i
X
j
(n
i
n
j
)
]
_
Q
R
are o distributie Student cu : : grade de liberate
pentru orice i. , ca mai sus.
De asemenea, statistica W=
(ac)Q
A
(c1)Q
R
se supune unei legi FisherSnedecor (distributia F)
cu
_
: 1
: :
_
grade de libertate, dac a ipoteza H este adev arat a .
Aceast a ultim a observatie va constitui esenta testului urm ator: Respinge H==W_ n,
unde n este cel mai mare num ar astfel nct P(FS_ n)_ c, unde FS este v.a. Fisher
Snedecor cu
_
: 1
: :
_
grade de libertate, iar c este un prag de semnicatie, considerat mic,
de exemplu c=0,05; 0,1; etc. Este posibil ca n tabele s a g asim cuantilele de ordin 0,95; 0,9;
etc. Se trece atunci la probabilitatea evenimentului contrar, etc.
Dac a datele X
i)
sunt mari se nlocuiesc acestea cu datele cX
i)
+ /, unde c ,= 0, / R
sunt alese astfel nct numerele cX
i)
+ / s a devin a mici. Prin aceast a schimbare v.a. U
i)
si
W nu se modic a, deci testul decurge exact ca mai sus pentru noile date.
Exemplul 14.1 Pe patru soluri diferite A
1
, A
2
, A
3
, A
4
se planteaza orz. Se fac selectii
de volume diferite din tulpini de orz ajunse la maturitate din cele patru soluri si se noteaza
lungimea acestora (n cm):
A
1
A
2
A
3
A
4
380 350 354 376
376 358 360 344
360 356 362 342
368 376 352 372
372 338 366 374
366 342 372 360
374 366 362
382 350 344
344 342
364 358
351
348
348
Se noteaza cu X
i
lungimea aleatoare a unei tulpini de orz de pe terenul A
i
. Se presupune ca
X
i
sunt gaussiene cu aceeasi dispersie o
2
. Fie pragul c=0,05.
1) Testati ipoteza H: X
1
, X
2
, X
3
, X
4
au aceeasi medie.
2) Testati ipoteza H: X
2
, X
3
si X
4
au aceeasi medie.
Solutie Deoarece datele sunt mari le centr am cu ajutorul transform arii Z
i
=X
i
330. Obtinem
un nou tabel:
A
1
A
2
A
3
A
4
50 20 24 46
46 28 30 14
30 26 32 12
38 46 22 42
42 8 36 44
36 12 42 30
44 36 32
52 20 14
14 12
34 28
21
18
18
1) Folosim o analiz a dispersional a pentru a testa ipoteza H. Aici avem :=4, :
1
=8,
:
2
=10, :
3
=13, :
4
=6, :=8+10+13+6=37; :
1
Z
1
=338; :
2
Z
2
=244; :
3
Z
3
=188; :Z=:
1
Z
1
+ +
:
4
Z
4
=1099.
Prin urmare

1i4
:
i
Z
2
i
=34449, :Z
2
=32640, deci Q
A
=1809. Cum

i,)
Z
2
i)
=38229, avem
Q
R
=3780. De aici W=5,26.
Probabilitatea ca o v.a. FisherSnedecor cu
_
3
33
_
grade de libertate s a ia o valoare
asem an atoare lui W este inferioar a lui 0,01. Prin urmare ipoteza H se respinge.
2) n acest caz :
t
=3, :
t
=:
2
+ :
3
+ :
4
=29, Q
t
A
=199; Q
t
R
=3400 si W
t
=0,76. Aceast a
valoare a lui W
t
este prea mic a, deci ipoteza se accept a n acest caz
14.2 Analiza regresiei
Fie X si Y dou a variabile aleatoare si X
1
,...,X
a
,Y
1
,...,Y
a
v.a. de selectie de acelasi volum :.
Se pune problema de a studia legatura (dac a exist a) dintre cele dou a v.a. X si Y numai din
analiza unor cupluri de selectie de tipul r
1
. .... r
a
.
1
. ....
a
. Este posibil ca cele dou a
v.a. s a nu e corelate, adic a coecientul de corelatie j
XY
=
cov(X,Y)
o
X
o
Y
=
M
((
XX
)(
YY
))
o
X
o
Y
s a e
zero. Acest lucru nu nseamn a c a nu poate exista o relatie functional a de forma F(X,Y)=0
ntre v.a. X si Y. Aceast a egalitate poate s a nu e determinist a. Sau poate s a e astfel,dar
noi s a nu putem descrie matematic aceast a functie de leg atur a. n Lectia 6 s-a ar atat c a
X si Y sunt legate ntre ele printro relatie liniar a: Y=cX+/, sau X=cX+d, dac a si numai
dac a j
XY
=1. De regul a noi facem sondaje n urma c arora estim am coecientul de corelatie
printro formul a empiric a de forma:
j
+
XY
=
a
i=1
(r
i
x) (
i
)
: o
+
a
o
+
j
(14.5)
unde x=:
+
a
=
n
P
i=1
a
i
a
si y=:
+
j
=
n
P
i=1
j
i
a
, o
+
a
=
_
P
(a
i
a)
2
a
, o
+
j
=
_
P
(j
i
j)
2
a
.
Dac a j
+
XY
se apropie de +1 sau de 1 putem spera ca X si Y s a e corelate liniar. Dac a
nu, se continu a investigatia prin analize mai ne.
S a ncepem prin a examina urm atorul exemplu:
Exemplul 14.2 Ne intereseaza care este legatura ntre numarul de ore afectate de un student
de inteligenta medie studiului Analizei matemetice (lunar) si rezultatele obtinute de acesta la
examen. n urma unui sondaj efectuat pe 10 studenti sau obtinut urmatoarele rezultate:
Student Nr. ore: r Nota:
1 5 4
2 7 4
3 8 5
4 10 5
5 13 6
6 15 6
7 16 7
8 17 9
9 20 9
10 30 10
Punem ntr-un grac aceste date:
5 10 15 20 25 30
6
8
10
Dreapta de regresie
Se pune problema daca aceste puncte sunt foarte apropiate de o dreapta. Mai exact, sa
notam cu (r
i
.
i
), i = 1. : valorile obtinute dintr-un sondaj pentru v.a. X si Y. Exista /
0
. /
1

R astfel nct diferentele c
i
=
i
/
0
/
1
r
i
sa e mici? Care sunt cei mai buni
/
0
si /
1
care sa faca acest lucru? Sau poate exista /
0
. /
1
. .... /
I
astfel nct diferentele c
i
=
i
/
0
/
1
r
i
/
2
r
2
i
/
I
r
I
i
sa e mici pentru orice i = 1. :?
Denitia 14.3 Ecuatia
i
= ,
0
+,
1
r
i
+c
i
. i = 1. : (14.6)
se numeste model de regresie simpla (sau liniara), iar ecuatia
i
= ,
0
+,
1
r
i
+,
2
r
2
i
+ +,
I
r
I
i
+c
i
(14.7)
unde i = 1. : , se numeste model de regresie multipla.
De exemplu, pentru / = 2 se numeste regresie parabolica, etc.
Noi ne vom ocupa aici n exclusivitate cu regresia liniar a (simpl a). Vom interpreta
i
ca
ind valorile unei v.a.. La fel vom interpreta valorile erorilor c
i
. De asemenea vom interpreta
,
0
si ,
1
ca ind valorile unor v.a. pe care le vom determina prin metoda celor mai mici
p atrate.
14.2.1 Metoda celor mai mici p atrate (C. F. Gauss)
Dac a vrem s a aproxim am
i
- ,
0
+,
1
r
i
eroarea comis a este c
i
, i = 1. :. Vom pune conditia
ca suma p atratelor erorilor c
i
s a e minim a:
o =
a
i=1
c
2
i
=
a
i=1
(
i
,
0
,
1
r
i
)
2
= minim a. (14.8)
(vezi si Lectia 8). Este usor de ar atat c a S=S(,
0
. ,
1
) are un singur minim pentru ,
0
= /
0
,
,
1
= /
1
, unde /
0
si /
1
reprezint a solutia sistemului liniar
JS
J,
0
= 2
a
i=1
(
i
,
0
,
1
r
i
) = 0 (14.9)
JS
J,
1
= 2
a
i=1
(
i
,
0
,
1
r
i
) r
i
= 0 (14.10)
Not am cu = :
1
a
i=1
i
si cu r = :
1
a
i=1
r
i
.
Atunci, din (14.9) rezult a c a :
/
0
= /
1
r (14.11)
Dar /
0
si /
1
veric a si (14.10):
a
i=1
1
r
i
:/
0
/
1
a
i=1
r
2
i
= 0 (14.12)
(14.11) si (14.12) ne conduc la expresia lui /
1
:
/
1
=
_
a
i=1
i
r
i
:r
_
_
a
i=1
r
2
i
:r
2
_
(14.13)
Nu este greu de ar atat c a /
1
se mai poate scrie sub form a centrat a:
/
1
=
a
i=1
(
i
) (r
i
r)
a
i=1
(r
i
r)
2
=
co (r. )
o
+2
a
(14.14)
Cu acest a expresie a lui /
1
venim n (14.11) si g asim
/
0
= r
a
i=1
(
i
) (r
i
r)
a
i=1
(r
i
r)
2
= r
co (r. )
o
+2
a
(14.15)
(Vezi si formulele corespunz atoare din Lectia 8). n exemplul 14.2 metoda celor mai mici
p atrate ne d a /
0
= 2. 621, /
1
= 0. 274, = /
0
+ /
1
r ind dreapta cea mai apropiat a de norul
de puncte respectiv(vezi gura Dreapta de regresie).
14.2.2 Conditiile GaussMarkov pentru metoda celor mai mici
p atrate
Conditiile GaussMarkov sunt conditii naturale care se impun v.a. c
i
, i = 1. :. Prima conditie
cere ca media v.a. c
i
s a e zero:
`(c
i
) = 0. pentru orice i = 1. : (14.16)
S a observ am c a oricum
a
i=1
c
i
=0, deci
a
i=1
M(c
i
)=0, n general.
Figura urm atoare ne arat a un caz n care nu are loc (14.16).
-4 -2 2 4
5
10
15
20
25
Un caz n care nu este ndeplinit a prima conditie Gauss-Markov
A doua conditie GaussMarkov cere ca dispersiile v.a. c
i
s a e constante, adic a
1(c
i
) = o
2
=constant a, dar necunoscut a
Figura urm atoare ne prezint a o situatie n care nu are loc (14.17) deoarece D(c
i
) cresc
odat a cu cresterea iurilor.
x
y
Un caz n care nu este ndeplinit a a doua conditie Gauss Markov
Uneori chiar un singur punct poate s a fac a condtiile (14.16) sau (14.17) neadev arate.
Dac a observatiile noastre sunt corelate unele cu altele nu putem face mai trziu aprecieri
pertinente asupra lor. De aceea vom micsora num arul acestor observatii pn a cnd acestea
vor deveni necorelate.
Ultima conditie GaussMarkov se refer a tocmai la acest lucru. Se cere ca cov (c
i
. c
)
) = 0.
Cum M(c
i
)=M(c
)
)=0, r amne doar conditia:
`(c
i
c
)
) = 0. pentru orice i ,= ,. (14.17)
Denitia 14.4 Metoda celor mai mici patrate se spune ca este o metoda buna daca variabilele
aleatoare erori, c
i
, i=1, 2,..., : ndeplinesc cele trei conditii GaussMarkov (14.16), (14.17)
si (14.18).
14.2.3 M asura deviatiei la metoda celor mai mici p atrate
Am v azut mai sus c a S=
a
i=1
c
2
i
m asoar a deviatia adev aratelor
i
de la valorile estimate prin
metod a ,
i
= /
0
+ /
1
r
i
, deoarece c
i
=
i

i
. Cum nu se doreste ca m asura deviatiei s a
depind a de unitatea de m asur a, se lucreaz a cu alt a m arime, oarecum relativ a.
Denitia 14.5 Fie modelul de regresie liniara
i
= ,
0
+,
1
r
i
+c
i
, i = 1. 2. .... :.
a) Daca ,
0
,= 0 se ia ca masura a deviatiei expresia: R
2
= 1
a
i=1
c
2
i
i=1
(
i
)
2
.
b) Daca ,
0
= 0 se ia ca masura a deviatiei expresia: R
2
= 1
a
i=1
c
2
i
i=1
2
i
.
Media si varianta v.a. /
0
si /
1
S a interpret am acum pe
i
si pe c
i
ca variabile aleatoare, pe ,
0
si ,
1
ca niste constante
(parametri), iar pe /
0
si /
1
ca variabile aleatoare care iau diferite valori la ecare selectie n
parte.
Teorema 14.6 Fie modelul de regresie liniara
i
= ,
0
+ ,
1
r
i
+ c
i
, i = 1. : n care v.a. c
i
,
i = 1. : verica cele 3 condi tii GaussMarkov. Atunci avem relatiile
`(/
0
) = ,
0
1(/
0
) = o
2
_
_
:
1
+
r
2
a
i=1
(r
i
r)
2
_
_
`(/
1
) = ,
1
1(/
1
) = o
2
i=1
(r
i
r)
2
(14.18)
Demonstratie Deoarece
a
i=1
(r
i
r) = 0 rezult a c a
a
i=1
(
i
) (r
i
r) =
a
i=1
i
(r
i
r) (14.19)
Din (14.20) si (14.14) rezult a c a
/
1
=
a
i=1
c
i
i
. unde (14.20)
c
i
= (r
i
r)
a
i=1
(r
i
r)
Cu aceste notatii avem:
a
i=1
c
i
= 0
a
i=1
c
i
r
i
=
a
i=1
c
i
(r
i
r) = 1 , de unde
a
i=1
c
2
i
=
1
a
i=1
(r
i
r)
2
De aici, aplicnd operatorul de medie relatiei (14.21) n care
i
= ,
0
+,
1
r
i
+c
i
g asim:
`(/
1
) =
a
i=1
c
i
`(
i
) = ,
0
a
i=1
c
i
. .
=0
+,
1
a
i=1
c
i
r
i
. .
=1
+
c
i
` (c
i
)
. .
=0
= ,
1
(14.21)
Calcul am acum D(/
1
):
1(/
1
) =
a
i=1
c
2
i
1(
i
) =
_
a
i=1
c
2
i
_
o
2
=
o
2
a
i=1
(r
i
r)
2
(14.22)
Acum, deoarece M()=
n
P
i=1
A(j
i
)
a
=,
0
+,
1
r, rezult a c a
`(/
0
) = ` ( /
1
r) = ,
0
+,
1
r r`(/
1
) = ,
0
(14.23)
Calcul am acum D(/
0
):
/
0
= :
1
a
i=1
i
r
a
i=1
c
i
i
=
a
i=1
(:
1
rc
i
)
i
, deci
1(/
0
) =
a
i=1
_
:
1
rc
i
2
1(
i
)
= o
2
a
i=1
_
:
2
2:
1
rc
i
+r
2
c
2
i
= o
2
_
_
:
1
+
r
2
a
i=1
(r
i
r)
2
_
_
deoarece
a
i=1
c
i
= 0.
n cazul n care ,
0
= 0, avem direct din
0S
0o
1
= 0 c a
/
1
=
a
i=1
i
r
i
a
i=1
r
2
i
c
i
=
i
/
1
r
i
(14.24)
_
n general
a
i=1
c
i
,= 0
_
.
nlocuim n (14.25) pe
i
cu ,
1
r
i
+c
i
si g asim c a
/
1
=
,
1
a
i=1
r
2
i
a
i=1
r
2
i
+
a
i=1
c
i
r
i
a
i=1
r
2
i
= ,
1
+
a
i=1
c
i
r
i
a
i=1
r
2
i
(14.25)
De aici rezult a c a
1(/
1
) = o
2
a
i=1
r
2
i
_
a
i=1
r
2
i
_
2
=
o
2
a
i=1
r
2
i
si c a M(/
1
)=,
1
, deoarece M(c
i
)=0, pentru orice i = 1. :.
Corolarul 14.7 Cu formele de mai sus, rezulta din Teorema 14.6 ca /
0
este un estimator
nedeplasat al parametrului ,
0
si ca /
1
este un estimator nedeplasat al parametrului ,
1
.
Formulele (14.19) arat a c a D(/
0
) si D(/
1
) contin pe o
2
care este necunoscut. De obicei o
2
se estimeaz a cu estimatorul nedeplasat (vericarea nu este simpl a!)
:
2
= (: 1)
1
a
i=1
c
2
i
(14.26)
14.2.4 Intervale de ncredere si teste pentru ,
0
si ,
1
Presupunem c a avem modelul de regresie liniar a:
i
= ,
0
+,
1
r
i
+ c
i
, i = 1. :, unde (
i
) si
(c
i
) sunt v.a., iar ,
0
si ,
1
sunt considerati parametri statistici care au fost estimati mai sus
prin /
0
si /
1
.
Presupunem c a acest model ndeplineste conditiile GaussMarkov. De asemenea facem
presupunerea c a v.a. (c
i
) au o distributie normal a N(0,o
2
). Atunci rezult a (vezi Lectia 4) c a
(
i
) au o distributie normal a N(,
0
+,
1
r
i
, o
2
). Cum /
0
si /
1
sunt combinatii liniare de (
i
)-uri
rezult a c a si ele sunt v.a. cu mediile si dispersiile date n formula (14.19).
Se poate ar ata c a v.a.
_
/
)
,
)
_
_
D(/
)
) este o v.a. Student cu : 2 grade de liberate,
pentru , = 0. 1 (dac a ,
0
,= 0).
Folosim acum teoria testelor de semnicatie si g asim c a intervalul
_
/
)
_
D(/
)
)T
a2,c2
/
)
+
_
D(/
)
)T
a2,c2
_
este un interval de ncredere pentru ,
)
, ,=0,1, de (1c)100 procente. Aici T
a2
. c,2 este
cuantila de ordin c,2 a distributiei Student cu :2 grade de libertate.
n lumina rezultatelor de mai sus vom studia pe scurt urm atoarea situatie.
Fie X
1
, X
2
,..., X
a
variabile aleatoare gaussiene independente cu aceeasi dispersie o
2
astfel
nct s a existe dou a constante c, / cu proprietatea: M(X
i
)=c +/t
i
, 1_ i _ :.
Ca si mai sus (nlocuim pe Y
i
cu M(X
i
)!) introducem urm atoarele notatii:
t =
1
:
a
i=1
t
i
; X =
1
:
a
i=1
A
i
o
2
t
=
1
:
a
i=1
_
t
i
t
_
2
=
1
:
i
t
2
i
t
2
;
o
2
X
=
1
:
i
_
X
i
X
_
2
=
1
:
a
i=1
A
i
X
2
o
2
tX
=
1
:
i
_
t
i
t
_ _
X
i
X
_
=
1
:
i
t
i
A
i
tX
Statisticile (care dau estimatori pentru c si /):

/ =S
2
tX
S
2
t
si c=Xt
/ sunt v.a. gaussiene

cu M(
/)=b,
`(c) = c. 1(c) =
o
2
:
_
1 +
t
2
S
2
t
_
. 1(
/) =
o
2
:S
2
t
(vezi Teorema 1). Se poate ar ata c a statistica
j
2
tX
=
1
:
i
_
A
i
c
/t
i
_
2
=
S
2
t
S
2
X
_
S
2
tX
_
2
S
2
t
= o
2
X
/o
2
tX
este independent a de statisticile c si

/. Se poate ar ata de asemenea c a
a
o
2
j
2
tX
se supune unei
legi Pearson (
2
) cu :2 grade de libertate. Aceast a observatie ne permite s a construim un
test de semnicatie si un nou tip de intervale de ncredere pentru parametrii c si /.
Mai mult, se poate ar ata c a statisticile
1 =
_
S
2
t
_
/ /
_
_
1
a2
j
2
tX
=
_
: 2S
2
t
_
/ /
_
_
S
2
t
S
2
X
_
S
2
tX
_
2
si
l =
_
:(: 2)S
2
t
(c c)
_
i
t
2
i
_
S
2
t
S
2
X
_
S
2
tX
_
2
=
_
S
2
t
(c c)
_
1
a2
j
2
tX
_
S
2
t
+t
2
_
satisfac legea Student cu :2 grade de libertate. Si ele pot folosite pentru cei doi
parametri c si /.
Exemplul 14.8 Un biolog studiaza cresterea unei specii de plante, pe mai multe exemplare,
ntrun interval de timp dat. La nceputul perioadei planta avea (n mm) naltimea initiala t.
La sfrsitul perioadei ea a avut naltimea X. S-au facut 10 probe:
t 57 60 52 49 56 46 51 63 49 57
X 86 93 77 67 81 70 71 91 67 82
1) Gasiti estimatori punctuali pentru c, / si o
2
.
2) Estimati naltimea unei plante la sfrsitul perioadei daca initial ea a avut 52 mm.
3) Dati pentru / un interval de ncredere de 95%.
Solutie 1) Folosim formulele de mai sus si g asim: :=10; :t=540; :X=785;
10
i=1
t
2
i
=29426;
i
X
2
i
=62459;

i
t
i
X
i
=42836; t=54; X=78,5; :S
2
t
=266; :S
2
tX
=446; :S
2
X
=836,5. De aici se
g aseste pentru / estimarea
/=1,677 si pentru c, c=12,06.

Dar :j
2
tX
=88,5. Folosim acum faptul c a
aj
2
tX
o
2
se supune unei legi Pearson cu :2=8 grade
de libertate. Pentru o
2
avem estimarea o
2
=
aj
2
tX
8
=11,06.
2) O plant a cu t=52 la nceputul perioadei, va avea la sfrsitul duratei lungimea c+52
/=75,14.
3) Dac a Y=
/ si Z=
_
j
2
tX
S
2
t
(a2)
, v.a. T=
Yb
Z
se supune unei legi Student cu :2=8 grade
de libertate. Avem deci c a P([T[ t
.
)=0,05 (=95%) pentru t
.
=2,306. Se obtine de aici un
interval de ncredere de prag 95% pentru /:

/ t
.
[Z[ _ / _
/ + t
.
[Z[. Dar Z=
_
aj
2
tX
a(a2)S
2
t
si
deci t
.
[Z[=0,47. G asim n nal intervalul 1,207_ / _2,147.

Bibliografie

1. Alain Cambrouze Probabilite et Ststistique, Press Universitaires de France,
1993
2. G. Ciucu, v. Craiu Introducere n Teoria Probabilitilor i Statistica
Matematic, Editura Didactic i Pedagogic, Bucureti, 1971
3. Harald Cramer Mathematical Methods of Statistics, Princenton University
Press, 1946
4. W. Feller - An Introduction to Probability and Its Applications, vol I, John
Wiley&Sons, Inc. 1960
5. B.V.Gnedenko The Theory of Probability, Mir, Moscow, 1969
6. M. Iosifescu, Gh. Mihoc, R. Theodorescu Teoria Probabilitilor i Statistic
Matematic, Editura Tehnic, Bucureti, 1969
7. P. Jacquard Probabilite et Statistique, Masson, Paris, 1973
8. A. Krief, S. Levi Calcul des Probabilits, Herman, Paris, 1982
9. D. Lungu, D. Ghiocel Metode Probabilistice in Calculul Construciilor, Ed.
Tehnic, Bucureti, 1982
10. Ashis Sen, Muni Srivastava Regression Analysis: Theory, Methods and
Applications, Springer Texts in Statistics, Springer Verlag, New-York, 1990
11. H. Ventsel Thorie des Probabilits, Editions Mir, Moscou, 1973
12. R.L. Winkler, W.L.Hays Statistics, Holt, Reinart and Winston, New-York, 1975

0 Petrehus Si Popescu Lectii Prob Stat II

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

0 Petrehus Si Popescu Lectii Prob Stat II

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSITATEA TEHNICA DE CONSTRUCTII

1 se nume ste produsul innit al cmpului de probabilitate (1. . j).

= [9. 977. 10. 043].

LEC TIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 147

/ sunt v.a. gaussiene

/=1,677 si pentru c, c=12,06.

Anda mungkin juga menyukai