Statistic Aplicat
exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite
n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-
larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via; pentru selectarea unor noi specii;
n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n nvmnt; sau pentru a studia efectele nclzirii globale;
n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp, n Medicin, pentru testarea unor noi medicamente sau vaccinuri; n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate; n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei; n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie) poate populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor unei colectiviti poate fcut att numeric (media, dispersia, mediana, cuantile, tendine etc), ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc. Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag
informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea, partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea ar ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de programe pentru efectuarea calculelor, n versiunea 7.1. Acest software este introdus i dezvoltat de compania The MathWorks (vezi [9]).
Matlab
Matlab
Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie. Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit pentru analiza acestora. n general, date culese de noi pot potrivite ntr-un model statistic prin care Data observat = f (x, ) + eroare de aproximare, (1.1) unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese. Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur comun. Aceasta poate nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracteristici numerice ale colectivitii. Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem trage o concluzie n ceea ce privete variabila colectivitii. O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)
din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat. Spre exemplu, dac dorim s facem o prognoz a cine va noul preedinte la alegerile din toamn, eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se face, n general, fr repetiie, dar l putem considera a o selecie repetat, n vederea aplicrii testelor statistice. Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai
ans de a alei. Aceast metod mininimizeaz riscul de a prtinitor sau favorabil unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de vedere al trsturii studiate.
selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea
numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele 10 din list).
selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-
plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s poata reprezentat n selecie. Alegerea poate facut i n funcie de mrimea ecrui grup ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane, proporional cu numrul de persoane din ecare jude). anumite straturi (nu din toate). de pe o encefalogram).
selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii. selecie de judecat: cine face selecia decide cine ramne sau nu n selecie. selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai
mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare
gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor ntregii ri, ntr-o scar mult mai mic).
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.
Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele de selecie obinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte x1 , x2 , . . . , xr , r n, atunci ele pot grupate ntr-un aa-numit tabel de frecvene (vezi exemplul din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x1 f1 x2 f2 ... ... xr fr
unde fi este frecvena apariiei valorii xi , (i = 1, 2, . . . , r), i se va numi distribuia empiric de selecie a lui X . Aceste frecvene pot absolute sau de relative. Un tabel de frecvene (sau o distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.
Tabela 1.1: Tabel cu frecvene pentru date discrete. Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul: valori pentru variabile, frecvene sau frecvene relative. n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret.
Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena
relativ) Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit capul, i spune pacientului: "Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce contracteaz aceast boal, doar unul scap." Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun: "Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!" (2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii. Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 ) f1 [a1 , a2 ) f2 ... ... [ar1 , ar ) fr
sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip continuu de mai sus n tablou de distribuie:
[0, 1) 14
1 Gyrgy
[1, 2) 17
[2, 3) 21
[3, 4) 18
[4, 5) 16
[5, 6) 14
(1.2)
[a0 , a1 ) [a1 , a2 )
. . .
f1 f2
. . .
x1 x2
. . .
[ar1 , ar )
fr
xr
Tabela 1.3: Tabel cu frecvene pentru date continue. Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate scris i sub forma:
data :
x1 f1 x2 f2 ... ... xr fr
unde
xi = ai 1 + ai este elementul de mijloc al clasei [ai1 , ai ); 2
r
f i = n.
Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor care au fost selecionate pentru studiu. Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat a unei clase este suma frecvenelor tuturor claselor cu valori mai mici. Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1 t1 x2 t2 ... ... xn tn ,
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
Total
Tabela 1.4: Tabel cu frecvene pentru rata somajului. unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).
(10) Pentru statisticienii, deviaiile sunt considerate a normale. (9) Statisticienii lucreaz discret i continuu. (8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit. (7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%. (6) Normalitatea nu este o condiie sine qua non. (5) Suntem semnicativ diferii. (4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva. (3) Statistica este arta de a nu nevoit s spui vreodat c ai greit. (2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n ghea i s spun c, n medie, se simte bine. (1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne omer.
0.6
0.4
0.2
10
Matlab
Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type' se refer la tipul de linie folosit; poate linie continu (n mod implicit), punctat (:) sau de tip linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')
10
Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem leaf
10 9 8 7 6 5 4 3 2 1 0
2 1 3 1 0 1 4 8
6 5 5 2 3 4 9
6 7 2 5 8
8 779 488 9
11
Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia . n capitolul urmtor vom
Matlab
Figura 2.3: Reprezentrile cu bare. prezenta o scurt introducere n . Pentru mai multe detalii, se poate consulta ghidul online de utilizare [9]. Comenzile uzuale pentru reprezentarea cu bare sunt:
Matlab
Matlab
% % % % %
deseneaza vectorul Y vs. vectorul X deseneaza pe orizontala vectorul Y vs. vectorul X deseneaza vectorul X vs. 1:N (N este lungimea lui X); deseneaza vectorul Y prin bare 3D w este latimea barelor, 'style' este modul reprezentarii
Mai sus,
alturat), sau
'style' poate una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate 'stacked' (bare suprapuse).
(1) Comanda care produce primul grac din Figura 2.3 este:
Exemplu 2.1
[2:10],
iar vectorul
12
Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din
Tabelul 2.1:
X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z']; subplot(1,3,1); bar3(M, 0.75, 'detached') subplot(1,3,2); bar3(M, 0.75, 'grouped') subplot(1,3,3); bar3(M, 0.75, 'stacked')
Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson cuvintele greceti
histos (gr.,
ridicat n sus) i
gramma (gr.,
2 n
1895.
desen, nregistrare). O
histogram
form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot aprea bare de nalime zero ce arat a spaiu liber) i ariile barelor sunt proporionale cu frecvenele corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este
2 Karl
13
Tabela 2.2: Tabel cu nlimile plantelor. Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei se mai numesc i
densiti de frecven.
=k
n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac: frecvena limea clasei
nlimea
k = factor
de proporionalitate.
Comenzile
Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul
X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ... 5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor hist(X,C); % deseneaza 6 histograme axis([-1 31 0 30]) % fixeaza axele
2.2
S presupunem c altcineva ar grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu sunt echidistante (vezi Tabelul 2.4). n Tabelul 2.4, datele din ultimele dou clase au fost cumulate ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea
14
Conform cu
regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei corespunztoare, deoarece limea acesteia este dublul limii celorlalte. n general, pentru a construi o histogram, vom avea n vedere urmtoarele:
20.
frecvene).
Observaia 2.2
[20, )),
lui precedent.
(1)
Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este
atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-
(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea utiliza alte valori. Spre exemplu, s considerm clasa ce au nlimea cuprins ntre i
[15, 20).
15cm
20cm.
15
20
sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast
14.5cm
(inclusiv) i
putea face referire la aceste valori ca ind valorile reale ale clasei, numite
frontierele clasei.
20.5cm
(exclusiv).
Am
n cazul n
care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i
15
[15, 20),
aceasta are frontierele
14.5 - 20.5,
limea
i densitatea
17 6 .
Tabela 2.4: Tabel cu nlimile plantelor. Tabela 2.5: Histograme pentru datele din Tabelul 2.4. nlimea (n cm)
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
frontierele
17.5 25.5 24.5 35.5 34.5 45.5 44.5 55.5 54.5 65.5
pie charts),
este
en.,
ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n
pie(X ).
T = [10 11.11 15.56 25.55 22.22 15.56]; pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})
pie3(x)
din
16
16%
11%
22% 16%
26%
Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note
17
experien aleatoare
(sau
experiment aleator)
experimentul determinist,
semnicnd
un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ, observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete zultatul potenial al unei experiene aleatoare se numete duble
eveniment aleator.
prob.
Re-
(6, 6)
la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete
pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete
elementar.
Fie
o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element
al lui
l vom nota cu
Vom numi
evenimentul sigur, acel eveniment care se poate realiza n urma Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.
A, B, C, . . . .
Prin
nu se realizeaz. Avem:
Ac vom nota Ac = \ A.
A,
Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de
litate.
probabi-
n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic
(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene relative) sau utiliznd deniia axiomatic (Kolmogorov).
Probabilitatea clasic
este denit doar pentru cazul n care experiena aleatoare are un numr nit de
cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i numrul cazurilor egal posibile ale experimentului aleator.
Exemplu 3.1
Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri
ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor elemente. Cazurile favorabile sunt cele din mulimea elemente. Probabilitatea apariiei unei duble este
{(i, j ); i, j = 1, 6}, care are 36 de {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6 6 1 P = 36 =6 .
Sunt ns foarte multe cazuri n care deniia clasic nu mai poate utilizat. Spre exemplu, n cazul n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.
acesta s se
situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor
Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.
3 Pierre-Simon,
18
S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul aleator
puncte).
ori n
probe independente).
de realizare
n cele
N (A) N
se va numi
frecven relativ.
Notm cu
fN (A)
B = .
P (A).
Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor
relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4). n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov
Deniia 3.2
(a)
Numim
astfel nct:
Propoziia 3.3
(c) implic
n
(c') dac
(Ai )i=1, n F ,
atunci
Ai F .
i=1
(3.1)
Deniia 3.4
Numim
algebr
sau
cmp
(sau
corp borelian)
o colecie
astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem
(c') dac
(An )nN F ,
atunci
An F ;
n=1
(nchidere
la reuniune numrabil)
(3.2)
Exemplu 3.5
(2)
(1) = R i F = {A; A R} este o algebr; F = {, } este o algebr; c (3) Dac A , F = {A, A , , } este o algebr; (4) Dac A R, atunci mulimea tuturor prilor lui A, P (A), formeaz o -algebr. (5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F ) msurabil. Elementele unei -algebre se numesc mulimi msurabile.
se numete
spaiu
4 Andrei
19
.
Numim
Deniia 3.6
algebr
Fie
algebr generat de F
ce conine
F.
O notm prin
(F )
i este, de fapt,
(F ) =
AF
A.
(3.3)
Dac Dac
-algebr Borel5 , notat B (E ), -algebra mic -algebr ce conine deschiii lui E . este -algebra generat de cuburile deschise
Rd .
O mulime
Deniia 3.7
proprietile:
O funcie
P : (, F ) R,
AF
numrul real
P (A),
cu
P (A) 0, A F ; P () = 1; P (A B ) = P (A) + P (B ), A, B F , A B = ,
(, F )
nzestrat cu
se numete
Observaia 3.8
(c)
dac
(An )nN F
Aj = , i = j )
P(
nN
An ) F
, atunci
P(
nN
An ) =
nN
P (An ).
( aditivitate)
iar
(3.4)
(, F , P )
se va numi
cmp
Observaia 3.9
(1) Fie
o mulime cu
elemente,
F = P () A
A .
Atunci
P ( A) =
denete o msur de probabilitate pe
card card
(3.5)
F (probabilitatea n sens clasic). (b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur pe spaiul msurabil (, F ), iar tripletul (, F , P ) se va numi spaiu cu msur. O probabilitate este astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
(2) n cazul n care condiia Spunem c o proprietate
pentru care
P (A) = 0.
P -nul.
5 Flix
20
Cmp de probabilitate
Principalul concept al teoriei probabilitilor este proprieti: (i) (ii)
n cele ce
cu urmtoarele
este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment ndeplinite urmtoarele condiii:
stochastic);
(iii)
P : F R e o funcie satisfcnd condiiile: (P1 ) P () = 1; (P2 ) A F , P (A) 0; (P3 ) (An )nN , An Am = , n = m, avem P (
nN
An ) =
nN
P (An ).
F se numesc evenimente iar sunt elemente de prob. A F , cu A -algebr, o vom numi sub- -algebr a lui F . (iii) A F , P (A) se va numi probabilitatea lui A. (iv) Dac P (A) = 0, atunci A se va numi mulime P -nul. (v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui (ii) O mulime Dat ind un ir
Terminologie:
(An )nN
denim
lim inf An =
n n=1 mn
Am
lim sup An =
n n=1 mn
Am .
(3.6)
n general,
(An )nN
(3.7)
Observaia 3.10
toate
lim inf An
n
An
lim sup An
n
A1 , A2 , . . . .
[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale intervalului [a, b], i.e., oricare ar dou subintervale de aceeai lungime, este la fel de probabil ca punctul
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un numr mare de puncte, acestea vor repartizate aproximativ uniform n
[a, b],
n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea
21
[a, b] este dependent de lungimea acelui subinterval i nu de
[a, b].
Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile. Dac
[a, b]
[c, d] [a, b]
[c, d]
este
P ( A) =
n particular, dac
x (c, d),
cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib probabilitatea nul, far ca el s e evenimentul imposibil
. D, astfel ca s nu existe
puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul D . D D este aria aria D n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.
Probabiliti condiionate
Fie spaiul probabilistic (, F , P ) i A, B F , cu P (B ) > 0. Denim probabilitatea evenimentului A condiionat de realizarea evenimentului B , notat P (A|B ) sau PB (A), prin:
PB (A) =
P (A B ) . P (B )
(3.8)
Observaia 3.11 PB (A) astfel denit va o probabilitate pe F , iar tripletul (, F , PB ) este un cmp
de probabilitate.
Propoziia 3.12
P (Bi ) > 0, i I .
(a)
(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
P (A) =
iI
Atunci
(3.9)
(b)
(formula lui
, i I.
(3.10)
(c) Dac
B1 , B2 , . . . , Bn F , P (B1 B2
astfel nct
P (B1
B2
Bn ) > 0,
atunci:
Bn1 (Bn ).
(3.11)
6 Thomas
22
Variabile aleatoare
Din punct de vedere euristic, o
variabil aleatoare
zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului
X, Y, Z
Fie
sau
, ,
i altele.
O funcie
(, F , P ) un cmp de probabilitate i (E, E ) un spaiu msurabil. X : (, F , P ) (E, E ) se numete variabil aleatoare (v.a.)
pentru orice
dac (3.12)
B E , X 1 (B ) F
(mai spunem c
este o funcie
Fmsurabil).
n particular, dac:
atunci
este o
atunci
este
atunci
matrice aleatoare.
pentru ca
{(, x], x R}
genereaz
B (R),
X : (, F , P ) R
x R, { | X ( ) x} F .
Vom utiliza notaiile
{X x} = { | X ( ) x}
not
not
i, n general,
{X B } = { | X ( ) B }
Dac
X : (, F , P ) Rd
F (X ) = {X 1 (B ), B Bd }
este o a lui Dac
algebr, denumit algebra generat de v.a. X . F astfel nct X este msurabil. (Xn )nN
este un ir de v.a. reale astfel nct
Astfel,
Xk ( ) X ( ),
atunci
Xi : (, F , P ) (E, E ), (i I ) o familie de v.a.. Denim algebra generat de notat (Xi , i I ), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie
familia
{Xi , i N},
Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim poate lua o mulime continu de valori (un interval nit sau innit din
continuu).
R),
i le
Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii
ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui activ nanciar ntr-o perioad bine determinat. O v.a. discret
X ( ) =
i J
xi Ai ( ), , J N.
(3.14)
23
A,
iar
Ak = X 1 ({xk }). Ai
Observm cu uurin c
Ai =
i=1
Aj = , i = j.
tablou de repartiie:
xi pi ,
(3.15)
X:
n
unde
pi = P (X = xi ), i J N,
i=1
pi = 1.
real se numete
de tip continuu
(a) (b)
R
dac exist
f : Rd R
condiiile:
f (x) 0,
a.s.
f (x) dx = 1 PX (B ) =
B
(c)
Funcia
f (x) dx,
B F .
se numete
n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale unei variabile aleatoare
Repartiia
Repartiia
prin (sau
legea,
sau
distribuia)
lui
Bd , PX : Bd [0, 1],
dat
PX (B ) = P (X B ), B Bd .
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:
(3.16)
PX (B ) =
j J
unde
P (Aj )xj (B ),
(3.17)
a (B ) =
Repartiia unei v.a.
1, 0,
dac
aB
n rest
PX (B ) =
B
f (x) dx,
B Bd ,
(3.18)
24
X.
n limba englez, pentru repartiie se folosesc termenii:
f (x)
funcie de repartiie
o funcie
F : R [0, 1],
dat prin
F (x) = P (X x).
Astfel, Dac
(, x].
F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:
F (y ), x, y R, x y );
y x
F (y ) = F (x), x R);
lim F (x) = 0
lim F (x) = 1.
n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia ntr-un punct
este:
F (x) =
{i; xi x}
Dac
pi .
(3.19)
F (x) =
f (t) dt,
x R.
(3.20)
Observaia 3.13
Funcia caracteristic
Numim
o funcie
X : R C,
ei t xk pk ,
dac
X=
k J
xk Ak , (X =
X (t) =
R
Aici,
dac
X=
25
ti , tj R, zi , zj C
avem
X (ti tj )zi z j 0.
i, j =1
X ( ) =
i J
xi Ai ( ), , Ai F , J N.
o funcie
Numim
funcie de
f : R R,
denit prin
pi = P (Ai ), i J.
similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le satisface funcia de probabilitate sunt:
f (xi ) = 1.
i=1
Media
Deniia 3.14
Dac
X ( ) =
iJ
xi Ai ( ), , J N,
atunci
media
(3.21)
E(X ) =
i J
xi P (Ai ).
Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media (teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:
E(X ) =
R
xf (x)dx,
(dac
(3.22)
Observaia 3.16 Deniia mediei poate dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.
26
cu
Pasul 1:
O v.a.
X ( ) =
i=1
xi Ai ( )
se numete
v.a. simpl.
n
denim
media (notat cu
E(X ))
astfel:
E(X ) =
not
X ( ) dP ( ) =
i=1
xi P (Ai ). Xn : R, (n N)
de v.a. simple astfel
Pasul 2:
nct
Dac
X :R
X 0,
atunci exist un ir
0 X1 ( ) Xn ( ) X ( ),
i
n
Denim
lim Xn ( ) = X ( ).
Pasul 3:
Fie
X:R
o v.a.. Atunci
X=
X+
X ,
unde
X + ( ) = max{X ( ), 0},
n acest caz denim
X ( ) = max{X ( ), 0} = (X )+ ( ).
media lui X ,
este o
v.a. integrabil.
E(X + )
E(X )
Dac
X = X1 + iX2 : C,
prin
X = (X1 , X2 , . . . , Xd )T : Rd ,
prin
Propoziia 3.17
Atunci
Fie
X : Rd
i o funcie msurabil
g : Rd R.
E(g (X )) =
n particular, dac
g:RR
E(X ) =
X ( ) dP ( ) =
R
xf (x) dx,
i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15. Relaia anterioar se mai numete i pe mulimea
formula de transport
R.
27
X
este o v.a. discret,
Deniia 3.18
denim
Dac
X ( ) =
i J
xi Ai ( ), , J N, cu media E(X ) = m,
dispersia lui X
ca ind:
D 2 (X ) =
i J
(xi m)2 pi ,
unde
pi = P (Ai ), i J.
(3.23)
Deniia 3.19
E(X ) = m R).
Fie
X : R
o v.a.
de tip continuu pentru care media poate denit (exist (sau variana lui
X)
cantitatea
D2 (X ) = E[(X m)2 ] =
R
(3.24)
D2 (X )
sau
2.
Observaia 3.20
2 =
(X ( ) m)2 dP ( ).
Numim
28
pseudo-aleatoare.
Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
Putem face abstracie de modul programat de generare ale acestor numere i
Funcia
[0, 1].
De exemplu, comanda X =
simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul numr aleator repartizat
B (1, 0.5).
B (10, 0.5)
(simularea a
rand(m, n)
Comanda
mn
componente repartizate
a + (b a) rand
Folosind comanda
zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniializarea lui, putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state', 'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,
rand('state', 125)
xeaz generatorul la starea
125.
29
(a, b)
nelegem
Observaia 4.1
(a, b),
Matlab:
[2, 3],
produse de comanda
hist(5*rand(1e4,1)-2,100)
Funcia
randn(m, n)
mn
componente repartizate
Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:
randn(method, s)
unde unde sau
method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state' 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
m + randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul
Comanda
30
200
150
100
50
10
Matlab
legernd(<param>, m, n)
random('lege',
<param>, m, n).
Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu numere aleatoare ce urmeaz repartiia din Figura 6.1. De exemplu,
lege.
n loc de
100, 10);
100 10
componente repartizate
N (5, 0.2).
200 50
componente repartizate
P (0.01).
randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. generate de parametri Comanda deschide o interfa
grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele
Matlab pot exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
10000
de numere ce urmeaz repartiia lognormal de i
=2
= 0.5
31
Comanda X = (rand < 0.5); simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul numr aleator repartizat
B (1, 0.5)
sum (rand(30,1)<0.5)
30
aruncri ale unei monede ideale).
B (30, 0.5)
(simularea a
round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim
sum(round(rand(30,1)))
Exemplu 4.2
32
stema
i s deseneze o gur care s justice
function moneda(N,p); x = rand(1, N); V = (x < p); Sn = cumsum(V); A = 1:N; Fn = Sn./A; semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); axis([0 N 0 1]); title('moneda') xlabel('aruncari');ylabel('probabilitatea')
moneda 1 1 5/6 3/4 probabilitatea probabilitatea
% % % % % % % % % %
functia moneda.m aruncam moneda valoarea de adevar a lui (x<p) suma cumulata vectorul nr de aruncari frecventa relativa a stemei reprezinta grafic Fn axele numele figurii numele axelor
zar
0.5
0.5
1/4 1/6 0 0
10
10 10 aruncari
10
10
10
10 10 aruncari
10
10
Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,
moneda(1e5,0.5),
al funciei s e diferit de
0.5.
Simularea n
de tip discret
3
rezultate posibile,
a, b
c,
cu probabilitile de
0.5, 0.2
0.3.
X:
Pentru a modela aceast variabil aleatoare n un numr
din intervalul
[0, 1].
Dac
x < 0.5,
33
b
s-a realizat. Altfel, rezultatul v.a.
este
c.
repet de multe ori, atunci rezultatele pot folosite n estimarea probabilitilor de realizare a variabilei aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale probabilitilor, deci putem spune c am aproximat variabila aleatoare n
Matlab, scriem:
X.
syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem apariia unei fee cu
1, 2, 3, 4, 5
sau n
6 6
puncte.
convenabil problema. Vom considera c punctele din intervalul posibile i mprim intervalul
[0, 1]
(0,
1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6
corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n
Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la Matlab
ntmplare" din intervalul
[0, 1]
2 3 (6 , 6 ).
Aadar, comanda
simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele aceast comanda i scrie
Exemplu 4.3
Dorim s simuleze n
babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).
function dice(N); % functia dice.m u = rand(1, n); % probabilitatea aparitiei fetei Z1 = (u < 3/6 & u > 2/6); % aparitia fetei freq = cumsum(Z1)./(1:n); % frecventa relativa subplot(1,2,2); % activeaza fereastra din stanga semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:'); axis([0 n 0 1]); % axele title('zar') % numele figurii xlabel('aruncari');ylabel('probabilitatea')
Fiierul
dice.m simuleaz aruncarea unui zar dice(1e5) produce gracul din Figura 4.4(b).
corect de un numr
de ori.
34
1940.
1946,
S. Ulam
tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis metodei. Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate vzut ca un proces stochastic este un candidat n a modelat prin metoda MC.
I=
a
f (x) dx.
(4.1)
n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient dect alte metode de aproximare cnd dimensiunea spaiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:
Varianta 1
funciei
f 0.
Dac
atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul
ntr-un dreptunghi
d > sup f .
[a, b]
A,
c un punct
rand
f (x).
Facem urmtoarea
un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
f (x).
Matlab)
Repetm
Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va aproximat de frecvena relativ a realizrii evenimentului, adic
P
Pe de alt parte, probabilitatea teoretic este
f (N ) . N I ,
P =
8 Nicholas 7 Stanislaw
aria dreptunghi
Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina Constantine Metropolis (1915 1999), zician grec
35
f (N ) . N
I
bun.
aria dreptunghi
(4.2)
Exemplu 4.4
I=
2
ex dx.
Soluie:
Generm
106
[2, 5] [0, 1]
Urmtoarea funcie
% % % %
functia integrala.m genereaza N numere aleatoare in [2, 5] [0, 1] 2 numar punctele aflate sub graficul functiei ex formula (4.2)
I = 1.7675.
integrala(1e6),
ne furnizeaz rezultatul
Varianta 2
I = (b a)
a
unde
f (x)h(x) dx,
(4.3)
h(x) =
Funcia rescrie
1 ba 0
, ,
dac
x [a, b],
altfel.
h(x)
X U [a, b],
I = (b a)E(f (X )).
Folosind legea slab a numerelor mari, putem aproxima
prin:
I
unde
ba N
f (Xk ),
k=1
(4.5)
Xk
U [a, b].
f (x) dx,
V
unde
V Rn .
36
Exemplu 4.5
Soluie:
Codul
estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))
Exemplu 4.6
Evalund integrala
I=
0
ex dx e. (e = I + 1).
Soluie:
estimate = mean(exp(rand(10^6,1))) + 1
% e 2.7183
darts
n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit, ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct, dac nu - nu ctigai nimic. Repetm jocul de un numr puncte acumulate, s zicem c acest numr este
N .
S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are aceeai ans de a intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem c de ecare dat cnd aruncai sgeata, ea se nnge n tabl. Se cere s se aproximeze valoarea lui care s simuleze experimentul.
Matlab
Soluie:
S notm cu
A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat N frecvenelor relative, adic lim . n N P (A) =
aria disc aria perete
Pe de alt parte,
= 4.
prin
Funcia lui
Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
metoda Monte Carlo.
N N
(pentru N
1).
(4.6)
este o
37
function Pi = darts(N) % numar de aruncari theta = linspace(0,2*pi,N); % genereaza vectorul theta x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese Prob = S/N; % frecventa relativa approxpi = 4*Prob; % aproximarea lui pi axis([0 1 0 1]); % deseneaza axele title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,
darts(2000),
38
Momente
Pentru o v.a. cu
X
i
de tip discret,
X ( ) =
iJ
xi Ai ( ), , J N,
E(X ) = m
pi = P (Ai ), i J , xk i pi
iJ
k (X ) = E(X k ) = k (X ) = E(|X | ) =
k
k ); k ); k ); k );
|xi |k pi
i J
k (X ) = E((X m)k ) =
i J
k (X ) = E(|X m| ) =
Pentru o v.a.
m = E(X ) < ,
denim momentele:
k (X ) = E(X k ) =
R
xk f (x) dx =
X k dP |X |k dP
k ); k );
k (X ) = E(|X |k ) =
R
|x|k f (x) dx =
k (X ) = E((X m)k ) =
R
(x m)k f (x) dx =
(X m)k dP |X m|k dP
k (X ) = E(|X m|k ) =
R
|x m|k f (x) dx =
Cuantile
Fie o v.a.
cu funcia de repartiie
F (x).
Deniia 5.1
Pentru
(0, 1),
denim
cuantila de ordin
valoarea
F (x ) = P (X x ) = .
Observaia 5.2
(1)
de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea aria haurat este chiar
39
(2)
n cazul n care
este o variabil aleatoare discret, atunci (5.1) nu poate asigurat pentru orice
.
(3)
F (x) = ,
mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( = j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
Cazuri particulare de cuantile:
pentru care
O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.
r (X + Y ) cr (r (X ) + r (Y )),
unde
cr = 1
pentru
r (0, 1]
cr = 2r1
pentru
r > 1.
(r (X ))1/r (s (Y ))1/s , 0 r s;
(Lyapunov 9 ) (H lder10 );
E|XY | (E|X |r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1; (E|X + Y |r )1/r (E|X |r )1/r + (E|Y |r )1/r ; g:RR
convex. Atunci avem atunci avem:
(M inkowski11 ) (Jensen12 )
(e) Fie
(f ) Dac
a > 0, p N ,
P ({|X | a})
10 Otto 9 Aleksandr
p (X ) ; ap
(M arkov 13 )
Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev Ludwig Hlder (1859 1937), matematician german 11 Hermann Minkowski (1864 1909), matematician german 12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez 13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev
40
i
p=2
obinem:
P ({|X m| a})
Dac n inegalitatea lui Cebev lum
2 . a2 k N,
(Cebev14 )
atunci obinem:
(5.2)
a = k ,
unde
P ({|X m| k })
sau, echivalent:
1 , k2
(5.3)
P ({|X m| < k }) 1
n cazul particular
1 . k2
(5.4)
k = 3,
obinem
regula celor 3 :
P ({|X m| 3 }) 1 0.1. 9 8 , 9 [m 3, m + 3 ].
(5.5)
sau
se a n intervalul
X,
de medie
i dispersie
2.
Deniia 5.3
mat).
Variabila aleatoare
X =
X m
se numete
(sau nor-
E(X ) = 0,
D 2 (X ) = 1 .
<sau
<sau
negativ> corelate).
X, Y v.a. cu X + Y , obinem:
mX , m Y
i dispersiile
2 , X
2. Y
14 Pafnuty
41
corelaia
(sau
Deniia 5.4
cov(X,
Denim
covariana) v.a. X
Y,
Y ),
cantitatea
Proprietatea 5.5
D2 (X + Y ) = D2 (X ) + D2 (Y ) + 2
cov(X,
Y ).
(5.6)
lui
Y ),
atunci
(b) cov(X, Y ) = cov(Y, X ) = E[(X mX )(Y mY )] = E(XY ) mX mY . (c) cov(X, X ) = D2 (X ), pentru orice v.a. X . (d) cov(X + Y, Z ) = cov(X, Z ) + cov(Y, Z ), pentru orice v.a. X, Y, Z . (e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat. Y,
pentru care presupunem c variaiile i
Fie v.a.
standardizate,
X mX X= X
Se numete
Y mY Y = Y
2 X
2 Y
Deniia 5.6
dizate
Y.
Notm astfel:
Y)=
cov(X,
Y)
X Y
(5.7)
Observaia 5.7
zrile celeilalte
(a)
Dac
(X, Y ) = 0. (b) (c) 1 (X, Y ) 1, pentru orice v.a. X Dac Y = aX + b (a, b R), atunci (X, Y ) = +1, 1,
dac dac i
Y.
a = 1; a = 1.
Independena
Conceptul de independen a v.a. sau a evenimentelor este foarte important din punctul de vedere al Independena este unul
calculului probabilitilor evenimentelor compuse din evenimente mai simple. n teoria din urm.
dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent
Deniia 5.8
(1)
Fie
(, F , P )
un cmp de probabilitate,
A, B F
Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou i B = mine mergem la plaj sunt dependente. (2) S presupunem c evenimentul B satisface relaia P (B ) > 0. Vom spune c evenimentele A i B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic probabilitatea condiionat
P (A| B ) = P (A),
(5.8)
42
P (A B ) = P (A). P (B )
P (A
B ) = P (A) P (B ). P (B ),
Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru denim independen a dou evenimente arbitrare astfel: Dou evenimente,
A, B F
se numesc
Deniia 5.9
submulime
(i) Evenimentele
{i1 , i2 , . . . , ik }
a mulimii
A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare {1, 2, . . . , n} avem Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
sunt (5.10)
P (Ai1
(ii) Spunem c evenimentele evenimente,
Ai1
A1 , A2 , . . . , An
Ai
Aj ,
P (Ai
(iii) n general, evenimentele
independente dac
(5.12)
Aj ) =
j J
P (Aj ),
pentru orice
J I, J nit.
Independen dou cte dou a evenimentelor nu implic independena n ansamblu.
Observaia 5.10
stema",
S exemplicm considernd urmtoarea experien. Considerm aruncarea a dou monede ideale. Fie
evenimentul ca "doar la o
moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele independente dou cte dou, deoarece:
A, B
sunt
P (A
1 C ) = P (A) P (C ) = ; 4
P (B
1 C ) = P (B ) P (C ) = ; 4
P (A
1 B ) = P (A) P (B ) = . 4
Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din relaia
0 = P (A
1 C ) = P (A) P (B ) P (C ) = . 8
Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente
Aj Mj ,
P(
j J
Aj ) =
j J
P (Aj ).
(5.13)
43
(Xi )iI : (, F ) R, (I N), sunt independente (n ansamblu) Xi , { (Xi )}iI , formeaz o familie de corpuri independente. : (, F ) R, (I N), sunt independente dou cte dou dac oricare ar
Deniia 5.12
dac (2)
(1)
Spunem c v.a.
corpurile
generate de
Spunem c v.a.
(Xi )iI
dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).
Observaia 5.13
Pentru orice
k2
B1 , B2 , . . . , Bk Bd ,
avem: (5.14)
P {X1 B1 }
{X2 B2 }
Exemplu 5.14
X2 ,
din mulimea
S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu Aadar,
v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt
{1, 2, 3, 4, 5, 6}.
Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
P {X1 = i}
{X2 = j }
i, j {1, 2, 3, 4, 5, 6},
X2
Teorema 5.15
(i) (ii) (iii) (iv )
{X1 , X2 , . . . , Xn },
Xi : (, F ) R, i = 1, n.
X1 , X2 , . . . , Xn
P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ; F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R; (X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(5.15)
Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:
Teorema 5.16
Dac
X1 , X2 , . . . , Xn
E(|Xk |) < , k = 1, 2, . . . , n,
atunci
E(|X1 X2 . . . Xn |) <
i: (5.16)
Teorema 5.17
Dac
X1 , X2 , . . . , Xn
D2 (Xk ) < , k = 1, 2, . . . , n,
atunci
D2 (X1 + X2 + . . . + Xn ) <
i: (5.17)
44
(, F , P )
un cmp de probabilitate i
Xn , X : R
i dispersia
2 nite.
Deniia 5.18
(1)
Spunem c: (notat
Xn X )
n
a.s.
dac
P ( lim Xn = X ) = 1,
echivalent cu relaia
0 F , P (0 ) = 1,
(2)
astfel nct
lim Xn ( ) = X ( ), 0 .
dac
Xn converge n probabilitate la X
(notat
Xn X ),
prob
(notat
Xn X ),
Lr
dac
lim
|Xn ( ) X ( )|r dP ( ) = 0,
echivalent cu
(4)
Xn converge n repartiie
n
la
(notat
n R rep
lim
X, sau Xn X )
continu i mrginit.
(5)
FX .
(6)
Xn X
a.s.
implic
Xn X.
prob
implic
Xn X
prob
prob
(c) (d)
Xn X
implic
Xn X.
45
f (x))
se introduc n
pdf('LEGE', x, <param>)
Funcia de repartiie
LEGEpdf(x, <param>).
F (x)
cdf,
astfel:
cdf('LEGE', x, <param>)
sau
LEGEcdf(x, <param>).
F 1 (y ),
se introduce cu comanda
icdf,
astfel:
icdf('LEGE', y, <param>)
n comenzile de mai sus, iar
sau
LEGEinv(y, <param>).
<param>
LEGE poate oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y ),
Observaia 6.1
tiiei. Pentru un
Fie X x R,
F (x, )
funcia sa de repartiie,
P (X x) = F (x)
o putem scrie astfel n
Matlab:
cdf('numele repartiiei lui X',x,).
(6.1)
Matlab a probabilitii P (X < x). Dac repartiia considerat Matlab este tot (6.1), deoarece n acest caz
X N (5, 2),
atunci
P (X < x) =
P (X [x]) , x nu e ntreg P (X m 1) , x = m Z,
46
x.
atunci
[x]
De exemplu, dac
X B (10, 0.3),
Matlab.
B (n, p) B N (n, p)
P () U (n)
repartiia normal
N (, )
repartiia uniform continu repartiia exponenial repartiia repartiia repartiia repartiia repartiia repartiia repartiia
U (a, b) exp() Gamma (a, ) Beta (m, n) lognormal log N (, ) 2 ( n ) student t(n) Fisher F (m, n) Weibull W bl(k, )
Matlab
X
este variabila aleatoare ce reprezint
100
de ori, iar
numrul de fee cu stema aprute. Care este probabilitatea de a obine exact S se calculeze
52
de steme?
P (45 X 55).
Soluie:
B (100, 0.5),
(a)
Avem de calculat
P = P (X = 52).
ns
FX
X.
Atunci,
=
k=45
Codul
47
Exerciiu 6.2
puin
Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit
20 de minute.
Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel
15
Soluie:
este:
Notm cu
FT
T exp(),
unde
= 20.
P (T 15),
care
47.24%
anse.
Exerciiu 6.3
sunt femei.
20%
La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a i se premiaz posesorii. (i) (ii) (iii) Care este probabilitatea ca mcar
7 bilete de intrare
Care este probabilitatea ca nicio femeie s nu ctige la tombol? Dac selecia biletelor ctigtoare ar fost realizat prin alegerea a
n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn aceleai.
Soluie:
(i) n
Fie
spectatori. Atunci
Matlab, Matlab,
P1 = 1-binocdf(2,7,0.2).
0 p0 (1 C7
(ii) n
P (X = 0) =
p)7
= 0.2097.
P2 = binopdf(0,7,0.2).
X
nu ar mai o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie
Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
ntr-o anumit or s intre n magazin cel puin
tiind c numrul
clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca
15 clieni? (b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind aproximarea cu repartiia normal.
Soluie:
(b) n
10
P2 = P (
k=1
Xk 200) = 1 P (
k=1
Xk < 199) = 1 F
Xk (199) = 0.5094,
unde
Xk P (200).
k=1
48
Exerciiu 6.4
(ii)
(i)
n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai
probabil: s ctigi
partide din
4,
sau s ctigi
partide din
8?
Justicai rspunsul.
Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem
49
(, F , P )
un cmp de probabilitate i
X : (, F , P ) R
ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui ir de v.a., vedere probabilistic) ca i
(Xn )nN : (, F , P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.
Deniia 7.1
Variabilele aleatoare
X1 , X2 , . . . , Xn , . . .
se numesc
identic repartizate
x R.
(7.1)
Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de variabile aleatoare i pierde caracterul aleator. Teoremele limit clasice descriu comportarea asimptotic a sumei Spunem c irul
Sn =
k=1
Xk ,
potrivit normalizat.
(Xn )n
urmeaz
n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.
(Xn )nN
(i) (ii)
toate
atunci
(i.e.,
2 (Xn ) < );
Sn E(Sn ) prob 0, n
Pentru orice
cnd
n . Sn , n
Demonstraie.
avem:
a>0 Sn n
P(
Sn E n
1 2 D a2
Sn n
1 1 2 D (Sn ) 0, a2 n2
cnd
n .
50
Xn
sunt independente stochastic i identic repartizate, cu
Observaia 7.3
m, n N,
n plus, dac
E(Xn ) =
Sn prob m. n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor, media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea lui
m,
este
P (A) = p.
Se fac
din cele
experiene atunci,
pentru orice
> 0,
avem:
lim P N
N p < = 1. N p.
i se obin
Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea dac se efectueaz o selecie de volum mare apropiat de
1,
Demonstraie.
o variabil aleatoare
Xi ,
astfel nct
Xi =
Observm c
1, 0,
evenimentul
s-a realizat;
evenimentul
nu s-a realizat.
Xi B (1, p).
n
D2 (N ) = N p(1 p).
N , N
obinem:
P
echivalent cu
N N E N N P
< 1
D2
N N 2
N p(1 p) p < 1 , N N 2
Teorema 7.5
Dac
(Hincin
15 )
Xn , n 1,
(Xn )n
prob
1 n
unde
n k=1
Xk m, (n ),
(7.3)
m = E(Xn ), n N .
15 Aleksandr
51
(legea tare a numerelor mari)
adic:
Teorema 7.6
Dac notm cu
(Kolmogorov)
(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < . m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari, 1 n
n
Xk m, (n ).
k=1
a.s
(7.4)
Observaia 7.7
Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:
X1 + X2 + + Xn =m n n lim
= 1.
Teorema 7.8
Dac v.a.
(TLC)
(Xn )nN
2 = D2 (X1 )
nite, atunci:
Xk nm
k=1
Y N (0, 1),
n .
Observaia 7.9
independente stochastic i
Sn =
este o v.a. de repartiie
Sn nm n
n
(7.5)
N (0, 1). X= 1 n Xk
k=1 n
este aproximativ normal
N (m, ). n
Zn =
not
Xk nm .
k=1
n
unde
(7.6)
(x)
lim P
Sn nm b n
1 = 2
b a
ex
2 /2
dx = (b) (a).
(7.7)
(b) Dac
m = 0, 2 = 1,
1 n
Xk Y N (0, 1),
k=1
pentru
n .
timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar aproximarea repartiiei normale cu repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui jos).
de Moivre-Laplace de mai
52
{Xk }k
aplicabil?
Dac
sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice
n N .
{Xk }k
aproximarea cu repartiia normal dei, dac repartiia lui bun i pentru un numr
mai mic de
30.
(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.
Teorema 7.10
(de Moivre
16 - Laplace)
repartizate
Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:
B (1, p)
i e
Sn =
lim P
Sn np a b npq
1 = 2
b a
ex
2 /2
dx.
(q = 1 p)
(7.8)
Demonstraie.
E(Sn ) = np
D2 (Sn ) = npq.
Observaia 7.11
(1)
np
i dispersia
npq .
n practic,
np 5
n(1 p) 5;
Pentru
ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a
P (X k )
unde
k np npq
(7.9)
1 (x) = 2
partiiei normale standard:
y2 2
dy,
x R.
De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea re-
P (X = k )
unde
1 npq
k np npq
(7.10)
(x) =
P (X k )
16 Abraham
k+ 1 np 2 npq
(7.11)
53
1 2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare
P (X = k ) = P (k = P
(2)
k+ 1 np 2 npq
2)
cu una
P (X k )
i
k+
1 2
(7.12)
P (X = k )
sau
, k
1 2
(7.13)
P (X = k )
k+
1 2
(7.14)
fX (x).
g (x)
g (X ).
Y = g (X ) denete o alt variabil aleatoare. Dorim notm cu DY = {x R; g (x) y }. Putem scrie: ( = {X DY }).
not
{Y y } = {g (X ) y } = { , X ( ) DY }
Atunci,
FY (y ) = P (X DY ), =
DY
Dac
fX (x) dx.
(7.15)
g (x)
este bijectiv i
densitatea de repartiie a
not
fY (y ) = fX (h(y ))
dh(y ) . dy
(7.16)
54
Exemplu 7.12
Dac
Considerm funcia
g (x) = ax + b, a = 0. fX (x)
este densitatea de repartiie a unei variabile aleatoare continue
X,
atunci densitatea de
Y = g (X )
este
fY (y ) =
Alternativ, putem calcula densitatea lui Notm cu
1 fX |a|
yb a
FY (y )
g (X ) astfel: Y i cu fY (y ) , , a > 0;
FY (y ) = P (aX +b y ) =
P P
yb X a yb X a
yb a = yb a < 0; 1 FX a
FX
, ,
a > 0; a < 0;
Dac
FX
fY (y ) =
dFY (y ) 1 = fX dy |a|
yb a
Fie
este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie, Atunci, variabila aleatoare
aleatoare repartizat
U (0, 1). FY
Demonstraie.
a lui
Notez cu
Y.
FY
X.
Avem succesiv:
Propoziia 7.14
{U1 , U2 , . . . , Un } sunt 1 (U ), F 1 (U ), . . . , variabile aleatoare independentic stochastic i identic repartizate U (0, 1), atunci {F 1 2 1 F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie
55
100
de ori, iar
52
de steme?
P (45 X 55).
Soluie:
B (100, 0.5),
(a)
Avem de calculat
P = P (X = 52).
ns
0.0737.
P =
(b) Notm cu
50 52 + 1 2 25
52 1 50 2 25
0.0736. X.
Atunci,
FX
=
k=45
P (45 X 55)
Codul
55 + 1 50 2 25
45 1 50 2 25
= 0.7287.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta P1 = 1/5*normpdf(2/5) % solutia aproximativa 1 P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa
56
Exerciiu 8.1
este punctul
Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,
0.5,
independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.
0.5, 100 de
Soluie:
S atribuim
Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N). X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se 2 calculeaz cu uurin, E(X ) = 0 i D (X ) = 1. Suntem interesai s am ce se ntmpl dup 100 de
Fie
Sn =
i=1 n
Xi .
Atunci,
E(Sn ) =
i=1
deoarece Pentru
E(Xi ) = 0
D2 (Sn ) =
i=1
D2 (Xi ) = n, n).
{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0, n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)): P (|S100 | 2) = P (2 S100 2) 2+
1 2
10
2 + 1 2 0 10
= 0.1583.
57
n frecvena absolut de apariie
Exerciiu 8.2
P
Determinai
prin dou metode: (i) (ii) Folosind inegalitatea lui Cebev; Folosind Teorema limit central.
Soluie:
(i) Observm c variabila aleatoare
de unde
E(n ) =
n 2 i
D2 (n ) =
n 4 . Aadar,
D2 (
n 1 )= . n 4n
Gsim c:
a = 0.1.
P
Impunem condiia
=1
25 . n
1
de unde obinem c (ii) Cutm
25 0.98, n
n 1250
astfel nct
P 0.1
Ne ateptm ca valoarea lui
(8.1)
n 0.5 0.1 0.98 = P 0.1 n n n 0.5n n = P 0.1 0.1 0.5 0.5 0.5 n n n = 5 5 n n n = 1 = 2 5 5 5
de unde
1 0.99
pentru repartiia normal
n 5
= 0.99
n 5
(cuantila de ordin n
n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.
58
25%
Exerciiu 8.3
puin
companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel valorile
0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre 20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
S notm cu
Soluie:
votani (din
P 0.2
echivalent cu
n 0.3 0.97, n
P
(i) Observm c variabila aleatoare
n 4 i
D2 (n ) =
3n 16 . Aadar,
P
Impunem condiia
=1
75 . n
1
de unde obinem c (ii) Cutm
75 0.97, n
n 2500
astfel nct
P 0.05
Ne ateptm ca valoarea lui
(8.2)
Atenie, aici s-a strecurat o greeal n soluia de la seminar! 2 Acolo, s-a mprit la D (n ), n loc de
D(n )
0.97 = P 0.05
n 0.25 0.05 n n n 0.25n n 0.05 4 = P 0.05 4 4 3 3 3n n n = 0.2 0.2 3 3 n n n 1 0.2 = 2 0.2 = 0.2 3 3 3
i
de unde
0.2
n 3
= 0.985
0.2
n 3
de ordin
0.985
n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.
59
i o caracteristic a ei,
X,
F.
Dup cum am vzut anterior, datele statistice pot prezentate ntr-o form grupat (descrise prin tabele de frecvene) sau pot negrupate, exact aa cum au fost culese n urma observrilor. acestora, pot utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.
ce
{x1 , x2 , . . . , xn },
denim:
x =
ca ind
1 n
xi ,
i=1
media empiric.
Dac
{x1 , x2 , . . . , xN }
observaii (
1 = N
se numete putea folosi
xi
i=1
a ntregii
{x1 , x2 , . . . , xN },
i,
cantitatea
. di = xi x se
numete
deviaia fa de medie.
(xi x) = 0.
i=1
se denesc astfel:
xk i
i=1
(pentru selecie).
60
1 p
p = 0,
denim
1 x p = n
xp i
i=1
(pentru selecie),
(9.1)
formula generalizat a mediilor. Pentru p = 1, obinem media empiric (aritmetic) (x ), pentru p = 1, obinem media armonic (x (h) ), pentru p = 2 avem media ptratic (x (q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de
x (g) =
atunci relaia dintre aceste medii este:
x1 x2 . . . xn ,
x (h) x (g) x x (q ) .
Pentru ntreaga colectivitate, momentele de ordin
sunt
mk =
Pentru ecare
1 N
xk i,
i=1
(k N ).
se denesc astfel:
(xi x)k ,
i=1
pentru selecie,
1 k = N
( x i ) k ,
i=1
pentru populaie.
{x1 , x2 , . . . , xn },
denim
dispersia empiric:
1 n1
n
Pentru o selecie
s2 =
(xi x )2
i=1
1 [ n1
x2 x)2 ] . i n(
i=1
N , dispersia populaiei 2 = 1 N
N
(xi )2 .
i=1
Observaia 9.1
Cantitatea
i=1 2 vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot 2 folosite ca estimatori ai dispersiei populaiei, .
1 n
(xi x )2
Vom
61
{x1 , x2 , . . . , xn },
denim
s=
Pentru ntreaga populaie de volum
1 n1
(xi x )2 .
i=1
este denit prin cantitatea
( x i ) 2 .
i=1
amplitudinea (en.,
xmax xmin .
(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie, o selecie
{x1 , x2 , . . . , xn }, scorul Z
Pentru
z=
Pentru o populaie, scorul
xx . s x .
este:
z=
(de selecie):
n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric covsel 1 = n1
n
(xi x )(yi y ).
i=1
(9.2)
covpop =
1 N
(xi x )(yi y ).
i=1
(9.3)
covpop , x y
: R [0, 1], Fn
Fn (x) =
card{i;
xi x} . n
(9.4)
62
Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic (vezi Figura 9.1).
Propoziia 9.2
cu
Fie
F (x)
funcia de repartiie
o colectivitate statistic i X o caracteristic a sa, ce se dorete a studiat. Notez X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim empiric, Fn (x). Atunci:
Fn (x) F (x), prob
cnd
n ,
x R.
Demonstraie.
Notez cu
evenimentul
{X x} i cu p = P (A). A este
card{i;
Se fac
n = n
xi x} = Fn (x). n
Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.
Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac i negativ (sau la stnga) dac
3 2
3/2
1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0 1 < 0. Vom avea:
N
n1/2 1 = (
i=1 i=1 n
(xi x)3
(pentru selecie) i
(xi x) )
2 3/2
3 1 = 3 =
(xi )3
i=1
(pentru populaie).
63
(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
K=
Avem astfel:
4 3. 2 2
n K= (
i=1
i
(xi x)4
i=1 n
3
2 2
(pentru selecie)
(xi x) )
K=
4 1 3= 4 n 4
(xi )4 3
i=1
(pentru populaie),
Este o msur a boltirii distribuiei (al patrulea moment standardizat). c indicele kurtosis al distribuiei normale s e egal cu
K = 0, leptocurtic
Gauss. Pentru
pentru
K>0
sau
platocurtic
pentru
0. Vom avea o repartiie mezocurtic pentru K < 0. Un indice K > 0 semnic faptul c,
Termenul
(3)
apare pentru
n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui
K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.
pri
n = 2,
prin
x0.5
sau
Me.
x0.5 =
Dac
n= n= 3).
se numete numete
cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic. Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de 99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
unei anumite observaii fa de restul datelor.
n = 4,
cuantilele se numesc
cuartile
(sunt n numr de
x0.25
sau
Q1 ,
valoarea modal)
cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care l conine, numit
clasa modal.
6,
[35, 45).
Un set de date poate avea mai multe module. Dac apar dou
trimodal etc.
bimodal,
1 3
5 6
3 2
1 4
4 6
2 5
nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.
64
X.
{x1 , x2 , . . . , xn }
{f1 , f2 ,
. . . , fn },
cu
fi = n,
i=1
denim:
x f =
1 n
xi fi ,
i=1 n
1 s2 = n1
fi (xi x f )2 =
i=1
1 n1
x2 2 i fi n x f
i=1
dispersia empiric,
s=
s2 ,
Formule similare se pot da i pentru msurile descriptive ale ntregii populaii. Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se determin mai nti clasa ce conine mediana (numit mediana este:
clas median),
Me = l +
unde:
n 2
FM e c, fM e FM e
este suma frecvenelor pn
fM e
Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas modal), iar modul va calculat dup formula:
M od = l +
unde
d1 c, d1 + d2 c
este limea clasei
d1
d2
sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei
Observaia 9.3
n
S considerm urmtoarea problem. La brutria din col a fost adus o main nou de
fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie
m = 400 de grame.
Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare) pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de volum
n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n 1 n
n
x=
Intuitiv, ar de ateptat ca acest
xi .
i=1
produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care
65
Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul
x m.
de pini ales, adic, dac am ales alte pini i calculat media maselor lor, am obinut din nou o valoarea foarte apropiat de
m.
mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.
mean(x) geomean(x) harmmean(x) quantile(x,alpha) iqr(x) median(x) std(x), var(x) range(x) mode(x) zscore(x) moment(x,k) sort(x) max(x), min(x) skewness(x) kurtosis(x) prctile(x,p) cdfplot(x) cov(x,y) corrcoef(x,y) LEGEstat(<param>)
% media valorilor elementelor lui x; % media geometric a elementelor lui x; % media armonic a elementelor lui x; % cuantila de ordin a vectorului x; % distana intercuantilic, x0.75 x0.25 ; % valoarea median a lui x; % deviaia standard i dispersia valorilor lui x; % amplitudinea (range) vectorului x; % modul lui x; % realizeaz scorul elementelor lui x; % momentul de ordin k al lui x; % sorteaza crescator elementele vectorului x; % maximum i minimum pentru elementele lui x; % skewness pentru elementele lui x; % kurtosis pentru elementele lui x; % percentilele de ordin p ale lui x; % reprezint grac funcia de repartiie empiric a lui x; % covariana dintre x i y ; % coecientul de corelaie dintre x i y ; % aeaz media i dispersia pentru LEGE(<param>);
66
n p0
e k . k!
(10.1)
=np
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
albastru)
i Poisson (
rou)
n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); % a si b sunt valorile din problema celor 3 x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])
67
Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov) Exemplu 10.2
1 e x , x>
0, iar F 1 este:
X exp().
F : R [0, 1],
F (x) =
F 1 (u) =
Atunci, dac
{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem 1 F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
n Figura 10.2, am reprezentat grac o dou selecii de volum
{F 1 (u1 ),
una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia
exprnd.
Funcia
prezentat mai jos. Apelarea funciei se face prin tastarea n fereastra de lucru n
function expsel(lambda) % functia expsel.m % generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator Y = sort(-lambda*log(1-rand(150,1)), 'descend'); plot(Y, 'bo'); hold on % desenez selectia si retin figura % generez 150 de numere cu exprnd si le ordonez descrescator Z = sort(exprnd(lambda, 150,1), 'descend'); plot(Z, 'r*') % desenez Z cu rosu legend('metoda functiei inverse','generare cu exprnd')
Exerciiu 10.1
i simulai n
Considerm v.a.
X U 2,
Y = tan X
68
floor(x)
este
x.
Astfel, comenzile
floor(11*rand(20,1)); ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face rotunjirea la numrul ntreg aat la dreapta lui x. Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui , respectiv, n direcia lui zero.
genereaz ecare cte dou funcii este ca Pentru generarea de numere ntregi n
populatie.
tea s controlm dac selecia este sau selecia obinut este una repetat, iar este una nerepetat. De exemplu, comanda
populatie este n (comanda a doua), atunci se realizeaz o {1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci dac variabila replace este false sau 0, atunci selecia obinut
randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de
10
50
100:
66
Vectorul
72
50
68
88
74
82
80
94
76
dat de
X = randperm(n)
este o permutare aleatoare a elementelor mulimii
{1, 2, . . . , n}. 20
de case, vndute ntr-o
Exerciiu 10.2
69
113 60.5 340.5 130 79 475.5 90 100 175.5 100 111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ?
Soluie:
50 60.5 70 75 79 89 90 100 100 100 111.5 113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor Q1 = 84, cuartila superioar d = Q3 Q1 = 56.
Amplitudinea este inferioar este este este
525
154.15, mediana este 105.75, modul este 100, cuartila Q3 = 140, Q2 = M e i distana intercuartilic este
Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume
mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care
setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n
Matlab,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ... 111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(X); m = mean(X); Me = median(X); Mo = mode(X); Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;
Exerciiu 10.3
Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,
Soluie:
x =
Amplitudinea este
a = 30.
Media este
Dispersia este:
s2 =
1 ( (x2 f ) n x 2 ) n1 1 = (2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 ) 69 = 37.06. [10, 15). 35
Deoarece n clasele anterioare ([0,
5)
[5, 10))
se a deja
5 + 13 = 18
date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este mai mare dect nlimea a de plante i mai mic dect nlimea a alte
35
de plante), va trebui
s determinm acea valoare din clasa median ce este mai mare dect alte
17
70
17 23 dintre valorile clasei mediane. n concluzie, valoarea
M e = 10 +
Clasa modal este cele
17 5 = 13.6957. 23 12.5.
[10, 15),
Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre
70
18
valori, adic
Q1 = 10.
Implementarea n
Matlab:
x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);
Exerciiu 10.4
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative. (b) Gsii media empiric, mediana i deviaia standard empiric. (c) Reprezentai prin bare rezultatele din tabelul de frecvene. (d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente. (e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s avut cel puin dou accidente.
Soluie:
(a) Tabelul de frecvene este Tabelul 10.1. numrul frecv. abs. frecv. rel.
0 7 0.1346
1 9 0.1731
2 14 0.2692
3 12 0.2308
4 10 0.1923
52
x=
i=1
(c)
xi = 2.1731,
s=
1 51
52
(xi x )2 = 1.3094,
i=1 (x) Fn
M e = 2.
sunt reprezentate n Figura
Fn (x) = P (X x) =
0, 7, 52 16 ,
52 30 52 , 42 52 , 1,
x < 0; dac x [0, dac x [1, dac x [2, dac x [3, dac x 4.
dac
71
(e)
este:
P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul
16 = 0.6923. 52
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice
Exerciiu 10.5
este
Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-
x = 7.24
i deviaia standard
s = 0.7.
Media ta
8.45.
Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,
s,
Soluie:
Calculm scorul
Z.
Avem:
z=
72
Deniia 11.1
numi (sau
Numim
colectivitate statistic
(sau
populaie)
o mulime nevid
indivizi
(sau
uniti statistice).
Vom nota cu
o unitate statistic.
atunci numrul
volumul populaiei).
volumul colectivitii
Studiem populaia
X.
Problema esenial
a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmeaz caracteristica asupra colectivitii variabila
X.
Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii
Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte
X.
Vom numi
Deniia 11.2
sondaj) o subcolectivitate a colectivitii cercetate . Numrul volumul seleciei (sondajului). Seleciile pot repetate sau nerepetate. O selecie se numete repetat (sau bernoullian) dac dup examinarea individului acesta se reintroduce n colectivitate; n caz contrar avem o selecie nerepetat. n practic, volumul colectivitii
(sau elementelor seleciei poart numele de
selecie
este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate considerat ca
ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din colectivitatea statistic.
Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare mai detaliat, se poate consulta [11]). Considerm spaiul msurabil o selecie repetat de volum mulime
(, F ), n.
unde
Caracteristica
(, F ).
n ori".
multiplicat de
Construim astfel:
(n) = ,
produs cartezian de
F (n) = F F F ,
va
(n)
(n) = (1 , 2 , . . . , n ),
numit
Cuplul
((n) , F (n) )
se numete
n.
Xi : (n) R,
Xi ( (n) ) = X (i ),
i = 1, n.
73
((n) , F (n) ),
sunt independente stochastic (pentru c v.a.
{X (i )}i=1, n
veric usor c
FX
(se
volum n.
Vom numi
Vom numi Xi , i = 1, n, variabile aleatoare de selecie repetat de vector de selecie repetat de volum n, vectorul Y , astfel nct:
Pentru un
(n)
Vom nota cu
Ln = Y ((n) ) Rn ,
i-l vom numi
Elementele lui
Ln
(xi = Xi ( (n) ),
pentru
(n)
xat,
i = 1, 2, . . . , n).
Deniia 11.3
Vom numi
unde
este o funcie
g : Rn R
msurabil (i.e.,
B B (R),
g 1 (B ) B (Rn )).
Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei statistici se mai numete i
Notaii:
Sn (X ),
Valoarea numeric
S (X, (n) ),
S (X, n),
S (X1 , X2 , . . . , Xn ).
Sn (x) = g (x1 , x2 , . . . , xn )
se numete
xat.
Observaia 11.4
asimptotice a lui
(n) .
Teoria pro-
babilitilor ne ofer procedee de determinare att a repartiiei exacte a lui al seleciei. n general, dac se lucreaz cu selecii de volum redus (n trebui s e cunoscut este repartiia limit a
Sn (X ). Repartiia exact este acea repartiie ce poate determinat pentru orice volum < 30), atunci repartiia exact ar
Sn (X ),
ct i a repartiiei
a priori,
Repartiia asimptotic
Sn (X )
cnd
n ,
n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:
n probleme de estimare punctual a parametrilor; n obinerea intervalelor de ncredere pentru un parametru necunoscut; ca o statistic test pentru vericarea ipotezelor statistice.
74
Exemple de statistici
Fie
(, F )
o colectivitate statistic i
a priori i le vom numi funcii teoretice (densitate de repartiie teoretic, funcie de probabilitate teoretic sau funcie de repartiie teoretic). Dac se cunoate f (x), atunci putem 2 2 determina = E(X ) i = D (X ), dac acestea exist, i le vom numi medie teoretic i dispersie teoretic. n cazul n care una sau mai multe caracteristici teoretice corespunztoare lui X nu ne sunt a priori
cunoscute sau necunoscute cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate. S considerm
(n)
Xi , i = 1, n,
variabilele
Media de selecie
(mean)
Deniia 11.5
Numim
Xi ( (n) ),
i=1
(n) (n) .
(11.1)
Pentru un
(n)
xat, s notm cu
toare de selecie
{x1 , x2 , . . . , xn } valorile de selecie corespunztoare variabilelor {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecie pentru un (n) xat este: 1 x= n
n
alea-
xi
i=1
(media
empiric).
Propoziia 11.6
E(X ) = E(X ), 1 n
n a.s.
D 2 (X ) =
D2 (X ) ; n
cnd
(11.2)
Xi E(X ),
i=1
n .
(conform LTNM)
(11.3)
Observaia 11.7
(1)
X=
1 n
Xi .
i=1
(11.4)
Pentru simplitatea formulelor, de acum nainte vom face abstraie de dependena de se va subnelege. (2)
(n)
n formule, care
Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie
dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de selecie pentru variabile de selecie ntr-o colectivitate oarecare.
75
Momente de selecie
Deniia 11.8
Numim
Xik .
i=1
pentru un
(n)
xat este:
k (x) =
n cazul particular
1 n
xk i
i=1
(moment
k ).
k = 1,
avem:
1 (X ) = X.
Propoziia 11.9
Pentru oricare
xat,
k N ,
avem:
E(k (X )) D2 (k (X )) 1 n
n
= =
a.s.
E(X k ) = k (X ), D2 (X k ) , n
cnd
(momente
X)
Xik k (X ),
i=1
n .
Deniia 11.10
Numim
[Xi X ]k .
i=1
pentru un
(n)
xat este:
k (x) =
1 n
[xi x]k
i=1
(moment
k ).
Propoziia 11.11
1 n
n
Pentru oricare
xat,
k N ,
avem:
E(k (X )) (Xi X )k
i=1
=
a.s.
E([X ]k ) = k (X ),
cnd
(momente
X)
k (X ),
n .
76
(var)
Dispersie de selecie
Deniia 11.12
Numim
[Xi X ]2 .
i=1
d2 (X ), 1 n
n
(n)
xat este:
d2 (x) =
[xi x]2
i=1
(dispersia
empiric).
(11.5)
d2 (X )
se utilizeaz statistica
d2 (X ),
denit prin:
d2 (X )
Aceasta se mai numete i
1 = n1
[Xi X ]2 .
i=1
xat este:
(11.6)
s =
d2 (x)
1 = n1
[xi x]2
i=1
(dispersia
empiric modicat).
d2 (X )
Propoziia 11.13
E(d2 (X )) =
n1 2 D (X ), n
prob
2 E(d2 (X )) = D (X )
cnd
(11.7) (11.8)
2 d2 (X ) D (X ),
n .
Observaia 11.14
d2 (X )
(ii) selecie
(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica
d2 (X )
devine:
d2 (X ) =
1 n
[Xi ]2 .
i=1
(cdfplot)
Deniia 11.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selecie repetat de volum n. de repartiie de selecie (repetat de volum n), funcia
Fn : R (n) [0, 1], Fn (x, (n) ) =
Numim
funcie
n(x) , n
77
reprezint numrul de elemente din selecie mai mici sau egale cu
x.
Fn (x) =
1 n
(, x] (Xi ),
i=1
x R,
unde
A. B (n, F (x)).
(n) ) este o variabil aleatoare repartizat binomial Pentru un x R xat, Fn ( ( n ) ( n ) (x) ia valorile: Pentru ecare xat, Fn Fn (x) =
card
{i, xi x} , n
Propoziia 11.16
x R;
(x) Fn
n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui amintim doar cteva dintre ele.
de
F (x).
Mai jos,
Propoziia 11.17
Fn (x) F (x), x n
a.s.
xat n
R.
Demonstraie.
Propoziia 11.18
Pentru
n N sucient de mare,
R.
Demonstraie.
o caracteristic,
(x) funcia F (x) funcia sa de repartiie i Fn volum n. Atunci Fn (x) converge uniform la F (x),
cu probabilitatea
1.
{X1 , X2 , . . . , Xn }
78
X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n. i o vom nota prin x(i) , pentru orice i =
1, 2, . . . , n. Statistica X(1)
se numete
Statistica
X(n)
se numete
x1 = 8,
atunci
x2 = 7,
x3 = 9,
x4 = 5,
x5 = 3,
x(1) = 3,
Dac
x(2) = 5,
2
x(3) = 7, X(m)
par.
x(4) = 8, X(m+1) .
x(5) = 9.
1 X=2 (X(m) + X(m+1) ),
n = 2m + 1,
atunci
X(m) = X( n+1 ) = X ,
n = 2m,
amplitudinea (range) seleciei ca ind statistica A = X(n) X(1) . deviaiile extreme ale seleciei.
F (x)
este funcia de repartiie a seleciei date i
Statisticile
X(n) X
X(1) X
Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente. S presupunem c
f (x)
Propoziia 11.21
Pentru un
k 1, n
n
X(k)
este:
FX(k) (x) =
j =k
j Cn F (x)j [1 F (x)]nj ,
pentru orice
x R.
Demonstraie.
Avem succesiv:
k k
nu depesc pe
x})
ncercri})
=
j =k n
j Cn [P (X x)]j [1 P (X x)]nj
=
j =k
j Cn F (x)j [1 F (x)]nj ,
pentru orice
x R.
n particular, pentru
k = 1,
obinem c funcia de repartiie a celui mai mic element al seleciei: pentru orice
x R.
79
pentru orice
x R.
o colectivitate statistic i
{X1 , X2 , . . . , Xn } variabile aleatoare de selecie repetat de volum n. n cele mai X urmeaz o repartiie normal (gaussian). De regul, dac volumul populaiei este mic (n < 30), atunci considerm doar populaii normale, iar pentru n > 30 putem considera orice tip
vedere statistic. Fie multe cazuri practice, de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Xi N (, ), i = 1, 2, . . . , n,
atunci statistica
satisface:
XN
, n
(n N ) N (, )
Demonstraie.
funcia (11.10)
caracteristic este:
(t) = ei t 2
Folosind proprietile funciei caracteristice i relaia
aX (t) = X (at),
obinem c funcia caracteristic a lui
este:
X (t) =
k=1
adic
t n
2 t2 2 n2
= e
it
1 2
t2
N (,
). n
Propoziia 11.23
Dac
Xi N (, ), i = 1, 2, . . . , n Z=
X N (0, 1). n
{X1 , X2 , . . . , Xn }, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiie dat, n sucient de mare, statistica X satisface: XN , n . (n > 30)
80
Demonstraie.
Observaia 11.25
gaussian.
Dac
Propoziia 11.26
i = 1, n,
Dac
i N (i , i )
n
ai R,
=
i=1
ai i
n
satisface proprietatea:
2 . a2 i i
N
i=1
ai i ,
i=1
Demonstraie.
[Exerciiu!]
Propoziia 11.27
proprietatea:
Fie
Atunci statistica
Y N
ai i ,
i=1
2 i a2 i ni i=1
Demonstraie.
toare,
Deoarece
i N (i , i ),
i ,
satisface:
i N
i i , ni
. {1 , 2 , . . . , n },
obinem con-
n1
N (1 , 1 )
i o selecie de volum
n2
dintr-
N (2 , 2 ),
Notm cu
i,
1 2 N 1 2 ,
2 1
n1
2 2
n2
Demonstraie.
Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-
abile aleatoare,
2 ,
iar
a1 = 1, a2 = 1.
81
Concluzia propoziiei anterioare se mai poate scrie astfel:
Observaia 11.29
(1)
Z=
(1 2 ) (1 2 )
2 1 n1
2 2 n2
N (0, 1).
(2)
pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm cte o selecie repetat, de volume strungul nti i
n1 ,
respectiv,
n2
n2
de de
selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale celor dou medii de selecie. Aceasta ne va deosebit de util, spre exemplu, n vericarea ipotezei c masele medii ale pieselor produse de cele dou strunguri coincid.
82
(12.1)
(12.2)
n.
Pentru aceasta, va
m=n
random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune
50.
coloan a sa corespunde unei variabile aleatoare de selecie de volum valori ale sale obinute la o observaie. n total, avem aleatoare de selecie. Aadar, am generat repartiia
50,
50
de
50
50
50 de 50, ce
variabile urmeaz
N (100, 6).
Exerciii rezolvate
Exerciiu 12.1
o caracteristic
X N (100, 0.65).
1000
dintre acestea.
X.
Un baton este declarat rebut dac masa sa este sub procentul de rebuturi avute.
102
de grame. Calculai
Soluie:
urmeaz repartiia
11.22). Aadar,
X = 100,
Probabilitatea
X 0.02.
este
P2 = P {X < 98}
{X > 102}
r = P2 100% 0.2091%,
83
1000
de batoane.
rebuturi la
mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei X = normrnd(mu, sigma, n,n); % am generat selectia de volum n Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie m = mean(Xbar); s = std(Xbar); % media si deviatia standard P1 = normcdf(102, mu, S) - normdf(98, mu, S); P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma); rebut = P2*100;
Exerciiu 12.2
f (x) =
s-a efectuat o selecie repetat de volum unde
n = 100.
P (X < 0.65),
Soluie:
Se observ cu uurin c
f (x)
msurabil, nenegativ i
f (x) dx =
R 0
Pentru a calcula probabilitatea cerut, avem nevoie de
2 x dx = 1. E(X )
1
i
D2 (X ).
Avem:
E(X ) =
R
x f (x) dx =
0
2 2 x2 dx = , 3 1 4 = . 9 18
x2 f (x) dx
este
XN
2 1 , 3 18 100
Exerciiu 12.3
nem o sum de
200
20%
dintre cazuri?
Soluie:
X
84
ca o sum de
cel puin
20%
39
P = P (X 40) = 1 P (X 39) = 1
k=0
n
Matlab,
; Distana
1 - binocdf(39,200,1/6)
X
Exerciiu 12.4
este
la care o sunt aruncate mingile de tenis de ctre o main automat de servit Media distanei este necunoscut, dar deviaia standard
1.2 m. P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X )). E(X ) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X . Calculai P (X 18). X 18 2 Stabilii repartiia variabilei aleatoare Z = i calculai probabilitatea P (Z 20). 1.2
(a)
(a) tiind c
(b) S presupunem c
(c)
X N (, 1.2).
Din
P (X 20) = 0.95
obinem c
X 20 1.2 1.2
Aadar,
20 1.2
de unde (b)
EX = = 18.0262 18.
. Obinem c:
(= 1
Z N (0, 1)
chi2cdf(20,1)).
85
i o caracteristic a sa,
X,
{X1 , X2 , . . . , Xn }
n.
cedent, n cele mai multe cazuri practice variabila aleatoare n acest caz, media de selecie
X=
1 n
Xi
i=1
XN
pentru orice
, n
, n 30, 30
i
(13.1)
n N .
Totui, dac
nu este o v.a.
normal repartizat i
atunci repartiia
asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect normal repartizat, atunci putem spune doar c
n 30.
nu este neaprat
E(X ) =
fr a putea preciza care este repartiia lui
D 2 (X ) = n
Aici
N n , N 1 , N > n.
X.
Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Propoziia 13.1
Xi
H =
i=1
2 Xk 2 (n).
Demonstraie.
S notm cu
X 2,
unde
f (x)
relaia (30.2) cu
= 0.
G( y )
X2
i cu
g (y )
G(y ) = P (X 2 y ) =
de unde
0 , P ( y X y ) , , + f ( y )] , , , y 0; y > 0.
y 0; y > 0, y 0; y > 0,
g (y ) = G (y ) =
1 2 y [f ( y )
1 y f ( y)
86
X2
va :
2
X 2 (t) = E ei t X
1 = 2
1
y 2 eity
2 y 2
dy
= (1 2it) 2 .
Deoarece variabilele aleatoare
{Xi }i
n
2 Xi
H 2 (t) = E(eit
n
)=
i=1
E eitXi
n
=
i=1
X 2 (t) = (1 2it) 2 .
i
X 2 2 (1).
Observaia 13.2
Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
Fie
Xi N (, ),
pentru
H2 =
1 2
(Xi )2 2 (n).
i=1
Demonstraie.
Pentru ecare
i = 1, 2, . . . , n,
Yi =
Conform Propoziiei 11.23, avem variabilele aleatoare
Xi .
rezultatul propoziiei 13.1 pentru
Lema 13.4
X +Y
Dac
2 ( n
X 2 ( n )
Demonstraie.
Lema 13.5
volum
Fie X caracteristica unei colectiviti statistice N (, ), X d2 (X ) dispersia de selecie repetat. Atunci, statisticile
X
n
n (X )
n1 2 1 d (X ) = 2 2
(Xi X )2
i=1
87
Demonstraie.
Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-
Propoziia 13.6
Fie
X N (, )
{X1 , X2 , . . . , Xn }
vari-
n.
Atunci statistica
1 = 2
2
(Xi X )2 2 (n 1).
i=1
Demonstraie.
Putem scrie:
1 2
(Xi )2
i=1 n
=
sau,
1 2
(Xi X )2 +
i=1
n ( X ) 2 2
(13.2)
Zi2
i=1
unde:
n1 2 2 d (X ) + Z , 2 X
n
(13.3)
Zi =
Xi N (0, 1)
Z=
N (0, 1).
Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-
2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat 2 2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z n1 2 i d (X ) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei. 2
zat
Observaia 13.7
n1 2 d (X ) 2 (n 1), 2
unde
(13.4)
d2 (X )
Lema 13.8
Dac
X N (0, 1) i Y 2 (n),
atunci statistica
T =
X
Y n
t (n).
Demonstraie.
Fie
f (x)
g (y )
X,
respectiv,
Y.
Avem:
x2 1 f (x) = e 2 , x R, 2 n 1 y y 2n e 2 , y > 0; 2 2 ( n g (y ) = 2) 0 , y 0.
88
(X, Y )
este:
x2 +y
(x, y ) R (0, ).
x t = v = y,
y n
n vectorul
(T, Y ).
t2
v , n
(t, v ) R (0, ).
este:
k1 (t) =
0
k (t, v ) dv n+1 2 n n 2 t2 1+ n
n+1 2
t R,
t(n).
n,
ce
Propoziia 13.9
Dac
X t(n 1). d (X ) n1
grade de libertate, iar
(Aici,
t(n 1)
(n 1)
d (X ) =
d2 (X ) ).
Demonstraie.
X=
X
n
N (0, 1)
Y =
n1 2 d (X ) 2 (n 1). 2
a priori.
{X0 , X1 , . . . , Xn } X0
N (0, 1),
T =
2 +X 2 + ... +X 2 X1 n 2 n
t (n).
89
Demonstraie.
Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum colectivitate
n1
N (1 , 1 )
i o selecie de volum
N (2 , 2 ), cele dou selecii ind alese independent una de cealalt. Notm 2 (X ), d2 = d2 (X ) mediile de selecie i dispersiile de selecie corespunztoare seleciilor d2 = d 1 2 1 2
Atunci statistica
n2 dintr-o cu 1 , 2 i
alese.
T =
(1 2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2).
Demonstraie.
U=
(1 2 ) (1 2 )
1 n1
1 n2
Se veric cu uurin c
U N (0, 1).
V =
Conform relaiei (13.4), avem c
2 (n2 1). Deoarece aceste dou 2 statistici sunt independente, atunci c suma lor, statistica V , satisface V (n1 + n2 2). Concluzia propoziiei rezult prin simpla aplicare a Lemei 13.8 variabilelor aleatoare U i V .
(n1 1) d2 1 2
(n2 1) d2 2 2
Propoziia 13.13
aleatoare
Dac
X 2 (m) i Y 2 (n) sunt variabile aleatoare independente, atunci variabila F = n X F (m, n). m Y X
i, respectiv,
Demonstraie.
Fie
f (x)
g (y )
Y.
Avem:
m 1 x e 2 x 2 m 2 ( m ) 2 f (x) = 2 0 n 1 y y 2n e 2 2 2 ( n g (y ) = 2) 0
este:
Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului
h(x, y ) = f (x)g (y ) =
x 2 1 y 2 1 e 2
m+n 2
x+y 2
m 2
n 2
t = n x m y : v = y,
90
(F, Y ).
k (u, v ) =
m n
m 2
u 2 1 v 2
m+n 2
m+n 1 2
e 2 (1+ n
n 2
u)
m 2
este:
k1 (u) = =
0 m n
k (u, v ) dv
+n m2 m m u 2 1 1 + u n n m 2 2
m 2 +n m2
u > 0,
F (m, n).
Propoziia 13.14
N (0, 1),
Dac
{X1 , X2 , . . . , Xm+n }
F =
2 + X2 + . . . + X2 n X1 m 2 2 2 2 m Xm + X + . . . + X m+n +1 m+2
F (m, n).
Demonstraie.
X1 N (1 , 1 )
X2 N (2 , 2 )
n1 ,
respectiv,
n2 ,
i considerm
2 d2 2 = d2 (X2 )
F =
2 d2 2 1 F (n1 1, n2 1). 2 d2 1 2
Demonstraie.
Rescriem
n forma echivalent:
F =
unde
n 2 1 2 1 , n 1 1 2 2 2 2 = 1 2 2
n2
2 1 = {X1 i }i=1, n1
ztoare. i
1 2 1
n1
(X1 i X1 )2 ,
i=1
(X2 j X2 )2 ,
j =1
{X2 i }i=1, n2
n1 ,
respectiv,
n2 ,
ce urmeaz
X1 ,
respectiv,
X2 .
Statisticile
X1
X2
2 2 1 (n1 1),
2 2 2 (n2 1).
91
a priori.
sunt cunoscute
F1 =
unde
2 d2 2 1 2 d2 F (n1 , n2 ), 1 2
d2 1
d2 2
2 1
1 = 2 1
n1
(X1 i 1 ) (n1 ),
i=1
2 2
1 = 2 2
n2
(X2 j 2 )2 2 (n2 ).
j =1
Demonstraie.
i 13.14.
Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3
92
1400
ore,
cu deviaia standard de
200
B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu (a) 160 de ore; (b) 250 de ore; mai mare dect timpul mediu de funcionare ale becurilor produse de B ? (c) Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e cuprins ntre 1375 de ore i 1425 de ore? (d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins ntre 1375 de ore i 1425 de ore?
Notm cu
T1
T2
T1 = 1400, T1 = 200
Pentru o selecie de volum
T2 = 1200, T2 = 100.
n = 125
este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:
200 T1 N (1400, ) 5 5
100 T2 N (1200, ). 5 5
T1 T2 N (200, 20).
(a) Probabilitatea cerut este:
93
Exerciiu 14.2
n
t = 0,
6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat 510 i deviaia standard 10, iar viteza celui de-al doilea avion este normal repartizat, cu media 500 i deviaia standard 10. (a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l ajuns pe primul? (b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel mult 5km.
primul avion are un avans de
km/h)
Notm cu
v1
v2
v1 N (510, 10)
Dup
v2 N (500, 10). 4
pentru ecare v.a.), mediile de selecie for
satisface:
v1 N (510, 5)
v2 N (500, 5).
v1 v2 N (10, 5 2).
(a) Evenimentul ca, dup
4 ore de zbor, al doilea avion s nu l ajuns pe primul este {4v1 4v2 +6 > 0}.
3 3 3 P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( ) 2 2 2 = 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b) Evenimentul ca, dup
5km
este
Exerciiu 14.3
Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-
10
minute.
persoane ce ateapt s
e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se calculeze probabilitatea de a atepta mai puin de
50
de minute.
94
Exerciiu 14.4
ca din (b) (c)
Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea
20
de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?
Notm cu
Sn
aruncri.
Calculai probabilitatea
Exerciiu 14.5
proprieti:
2 2 E[d2 (X )] = D (X ), E[d (X )] =
n1 2 D (X ), n N . n
95
a unei
X U (0, 1); X P ()
sau
X N (, );
priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.
(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut
X care urmeaz repartiia dat de funcia de probabilitate (sau f (x, ), unde este un parametru necunoscut. n general, acest parametru poate p un vector ( R ), ale crui componente sunt parametrii repartiiei lui X . Mai sus, f este funcia de probabilitate dac variabila aleatoare X este de tip discret, iar f este densitatea de repartiie a lui X ,
S presupunem c avem caracteristica densitate de repartiie) dac este o variabil aleatoare de tip continuu. Scopul teoriei estimaiei este de a evalua parametrii de care depinde bazndu-ne pe rezultatele teoretice prezentate n capitolele anterioare. Fie
f,
{X1 , X2 , . . . , Xn }
Presupunem totodat c
= E(X )
2 i
n, ce urmeaz = D2 (X ).
X.
Deniia 15.1
(1)
Se numete
funcie de estimaie
(punctual) sau
estimator
al lui
o funcie de
selecie (statistic)
= (X1 , X2 , . . . , Xn ),
cu ajutorul creia dorim s l aproximm pe este aceast aproximaie. (2) O statistic
este
un
dac
Altfel, spunem c
este
un
Astfel,
) b(,
prin
96
Exemplu 15.2
d2 (X )
1 = n1
[Xi X ]2
i=1
2 = D2 (X ),
1 d (X ) = n
2
este un estimator deplasat pentru
[Xi X ]2
i=1
2 = D2 (X ),
deplasarea ind
b(s2 , 2 ) = {x1 , x2 , . . . , xn }
2 . n
[Exerciiu!]
(3)
Dac
(x1 , x2 , . . . , xn ) i
se numete
estimaie
a lui
Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat. Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu precizarea variabilelor de care depind. vom face diferena ntre ele prin
(4) Numim
pentru (en., mean squared error) cantitatea eroare n medie ptratic a unui estimator ) = E MSE(,
2
Observaia 15.3
E
Putem scrie:
= E
E( ) + E( )
) + 2E = D 2 (
E( )] [E( )
+E
) E(
) + 0 + (b(, ))2 . = D 2 (
Aadar,
MSE
1
i
). D2 (
(5) Fie
Atunci, valoarea
1 , ) MSE( 2 , ) MSE(
se numete
1 n raport cu 2 . Vom spune c un estimator eciena relativ (en., relative eciency) a lui 1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i 1 , ) < MSE( 2 , ) pentru mcar un . MSE(
se numete estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator (6) Un estimator nedeplasat nedeplasat pentru
pentru , , ,
avem
notat cu
) D2 ( ). D2 (
97
este un
pentru
estimator consistent
dac cnd
prob (X1 , X2 , . . . , Xn ) ,
n acest caz, valoarea numeric a estimatorului,
n .
.
(8) Estimatorul
pentru
este un
) = ; E( ) = 0. lim D2 (
n
(x1 , x2 , . . . , xn ),
se numete
. pentru
este un
(9) Estimatorul
) = ; lim E(
) = 0. lim D2 (
se numete
(x1 , x2 , . . . , xn ),
Propoziia 15.4
Demonstraie.
2 Statistica d (X ) este un estimator absolut corect pentru 2 d (X ) este un estimator corect, dar nu absolut corect, pentru D2 (X ).
2 = D2 (X ),
[Exerciiu!]
iar statistica
Se arat c:
E(d2 (X )) = E D2 (d2 (X )) =
i
1 n1
[Xi X ]2
i=1
= D2 (X ),
4 n3 2 0, n n(n 1) 2
n
cnd
n .
E(d2 (X )) = E
1 n
[Xi X ]2
i=1
n1 2 n D (X ) D2 (X ), n n .
D2 (d2 (X )) 0,
cnd
Propoziia 15.5
Demonstraie.
Dac
este
2 | }) 1 D () , > 0. P ({| 2
innd cont c
(15.1)
) = 0 lim D2 (
98
un
estimator pentru
Observaia 15.6
Fie
2 matorul pentru .
De exemplu, s presupunem c
X N (0, 1)
i avem urmtoarele
20
X:
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056 0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944 0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X . 2 2 (pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1 2 2 (vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia 2 2
Un estimator absolut corect pentru media teoretic a lui dat avem c
X 1.4
iar
X
2
= 0.027.
Aadar, n general X 2
= X
Observaia 15.7
Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.
De
din repartiia
P oisson P () X
i
d2 (X ).
Dac utilizm inegalitatea lui
Se pune problema:
Cebev n forma (15.1), atunci ar resc ca "cel mai bun estimator" s e cel de dispersie minim.
(10) Se numete
funcie de verosimilitate
L(X1 , X2 , . . . , Xn ; ) =
k=1
Pentru aleator (11)
f (Xk , ).
este densitatea de repartiie pentru vectorul
volum
n (informaie Fisher)
In () = E
ln L(X1 , X2 , . . . , Xn ; )
(15.2)
f . Considerm
18 Harald
17 Calyampudi
Radhakrishna Rao (1920 ), statistician indian Cramr (1893 1985), matematician i statistician suedez
99
pentru
se numete
estimator ecient
dac
) = 1, e(
adic
) = I 1 (). D 2 ( n
Propoziia 15.9
Media de selecie
X E(X ).
[Exerciiu!]
pentru se numete estimator sucient (exhaustiv) dac densitatea vectorului V = (X1 , X2 , . . . , Xn ), adic L(x1 , x2 , . . . , xn ; ), se poate scrie n forma:
(14) Un estimator corect
g : Rn R+
iar funcia
depinde de observaii doar prin intermediul lui toat informaia relevant despre
(x).
h : R R R+
Funciile
practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine
Media de selecie
E(X ).
[Exerciiu!]
2 ;
f (x; )
(unde
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn }
n.
100
estimator de verosimilitate maxim (maximum likelihood estimator) pentru
pentru care se obine maximumul funciei de verosimilitate,
Deniia 15.12
o statistic
(1) Numim
= (X1 , X2 , . . . , Xn )
L(X1 , X2 , . . . , Xn ; ) =
k=1
(2)
f (Xk , ).
maxim pentru .
estimaie de verosimilitate
Observaia 15.13
Nu este necesar ca
.
Dac
L(X1 , X2 , . . . , Xn ; ) = 0, k
care este echivalent cu urmtorul sistem:
k = 1, 2, . . . , p,
(15.6)
ln L(X1 , X2 , . . . , Xn ; ) = k
n i=1
ln f (Xi ; ) = 0, k
k = 1, 2, . . . , p.
(15.7)
Exemplu 15.14
Soluie:
X N (, ).
X N (, )
este
(x)2 1 f (x, , ) = e 22 , x R. 2
sunt
nota
(Xk )k=1, n .
L(X1 , X2 , . . . , Xn ; , ) =
k=1
f (Xk , , )
n
=
Astfel,
n (2 ) 2 1 n n (2 ) 2
k=1 n e
(Xk )2 2 2
ln L(X1 , X2 , . . . , Xn ; , ) = ln
1 2 2
i
(Xk )2 .
k=1
L 1 = 2
(Xk ) = 0;
k=1 n
L n 1 = + 3
(Xk )2 = 0.
k=1
101
> 0)
este
1 n
Xk = X,
k=1
1 n
(Xk X )2 = d(X ).
k=1
(15.8)
Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta este:
2L H (, ) = = 2 3
n 2
n
2 3 n 2
(Xk )
n
k=1
(Xk )
k=1
3 1 n 2
(Xk )2
k=1
Acum calculm
H ( , ). 2L |= , = = n 2 0 0 2n , 2
H ( , ) =
care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic
det(H ( , ) I2 ) = 0,
sunt
1 =
Deci, estimatorii
n <0 2
2 =
2n < 0. 2
=X
= d(X ). d(X )
Observaia 15.15
(adic,
f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri p = E(X p ) < ). Dorim s gsim estiPentru aceasta, efectum observaii asupra
x1 , x2 , . . . , xn .
Fie
estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele iniiale teoretice respective, ale lui Aceasta nseamn c avem de rezolvat un sistem de ecuaii n care necunoscutele sunt parametrii ce urmeaz a estimai.
102
soluia
Deniia 15.16
Numim estimator (punctual) pentru obinut prin metoda momentelor 1 , 2 , . . . , p ) (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p) a sistemului: = (
1 (X1 , X2 , . . . , Xn ) = 1 (X ), 2 (X1 , X2 , . . . , Xn ) = 2 (X ),
. . .
(15.9)
p (X1 , X2 , . . . , Xn ) = p (X ),
unde
k (X1 , X2 , . . . , Xn )
k
n
pentru
X,
k (X1 , X2 , . . . , Xn ) =
i
1 n
Xik ,
i=1
k (X )
(care depind de
),
adic:
k = E(X k ),
O
k = 1, 2, . . . , p.
sunt
Observaia 15.17
Aceasta metod este fundamentat teoretic pe faptul c momentele de selecie sunt Metoda nu poate aplicat
estimatori absolut coreci pentru momentele teoretice corespunztoare. repartiiilor care nu admit medie (e.g., repartiia Cauchy).
Exemplu 15.18
Fie
X U (a, b)
a<b
Soluie:
Dac
X U (a, b),
atunci
E(X ) =
de unde
a+b , 2
D2 (X ) =
(b a)2 , 12 a2 + ab + b2 . 3
(15.10)
1 =
1 n
Xi ,
i=1
2 = ( a, b)
1 n
Xi2 .
i=1
a urmtorului sistem:
a + b = 2 1 a b = 4 2 1 3 2 .
103
b = 1 +
a = 1
Fcnd calculele i innd cont c
2 2 1;
2 2 1. a
i, respectiv,
1 = X ,
b:
a =X
unde
3 S;
b=X+
n
3 S,
X=
Estimaiile punctuale pentru
1 n
Xi
i=1
S=
1 n
(Xi X )2 .
i=1
sunt:
a =
1 n
xi
i=1
3 n
(xi x)2 ,
i=1
1 b= n
xi +
i=1
3 n
(xi x)2
i=1
Yi , i = 1, n
Fie
= ( 1 , 2 , . . . , p )
Yi
Yi =
j =1
sau, scris sub form matriceal:
xij j + i ,
i = 1, 2, . . . , n,
(15.11)
Y = X + ,
Variabilele aleatoare
X = (xij ) Rnp .
E(i ) = 0 D2 (i ) = 2 , i = 1, 2, . . . , n; i = j.
(15.12) astfel nct suma ptratelor erorilor
cov (i , j ) = 0,
Yi
2 xij j .
min
i=1
2 i = min
i=1
j =1
mai mici ptrate este soluia sistemului:
Astfel, un estimator
j = 1, 2, . . . , p,
echivalent,
xik xij j =
i=1 j =1 i=1
xik Yi ,
k = 1, 2, . . . , p.
104
X X = X Y,
de unde gsim c estimatorul
este
= (X X)
X Y.
Exemplu 15.19
Fie
n. teoretic ,
Statistica
min
i=1
(Xi )2 .
(15.13)
Soluie:
Deoarece
Xi = + i ,
cu
i = 1, 2, . . . , n,
(15.14)
adic
(Xi )2 = 0,
i=1 n
1 n
Xi .
i=1
X , X (),
k
n clase, astfel:
X () =
i=1
Construim evenimentele
Oi ,
Oi
Oj = , i = j.
Ai = { (n) (n) ; X (i ) Oi },
Se observ cu uurin c
i = 1, 2, . . . , k.
(n) =
i=1
Notm cu
Ai ,
Ai
Aj = , i = j.
pi ( ) = P (n) (Ai ),
i = 1, 2, . . . , k,
105
Oi .
Atunci,
pi ( ) = 1.
i=1
Mai facem urmtoarele notaii:
ni = frecvena absolut a evenimentului Ai n orice selecie repetat de Ni = variabilele aleatoare de selecie corespunztoare lui ni (i = 1, k ).
Vectorul aleator
volum
n;
Observaia 15.20
metri
N = (N1 , N2 , . . . , Nk )
pi ( ), i = 1, k .
Statistica
Deniia 15.21
se numete
pentru
dac
min
i=1
[Ni n pi ( )]2 n pi ( )
Propoziia 15.22
k i=1
106
, x > 0; , x 0.
Fixm
= 30.
Determinai timpul mediu necesar rezolvrii testului. Calculai probabilitatea ca un student (ales la ntmplare) s aib nevoie de mai mult de o or i
Exerciiu 16.2
5 2 1
7 3 6
8 4 11
9 15 12
10 16 13
18 17 14
Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare de puncte va ctiga jocul. independente. (a) (b) (c) (d) Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase. Un astfel de joc poate repetat de mai multe ori, n condiii identice i
1 RON.
Determinai ctigul mediu pe care l poate avea Pcal dup Calculai probabilitatea ca, dup
60
de jocuri (aruncri).
60
10 RON.
Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va aproape sigur (cu
0.99)
Estimaii prin
mle.
Formatul general al funciei este:
Matlab
Matlab folosind funcia
10 RON.
este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a estimat punctual; este variabila de memorie pentru intervalul (intervalele) de ncredere ce va estimat;
pCI
107
este un vector ce conine datele ce urmeaz a analizate; este parte din formatul comenzii iar
distribution
6.1;
lege
nume_i/val_i
alpha
Matlab
= 0.005;
ntrials
(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-
perimentului.
Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:
unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru estimarea punctual i un interval de ncredere pentru
LEGEfit(X,alpha)
unde, n locul cuvntului i
alpha
LEGE
observaiile
Exerciiu 16.3
parametrului
P ().
108
urmeaz c
Soluie:
Deoarece
X P (),
E(X ) = D2 (X ) = . 1 = n
n n
Atunci,
1 E(X ) = E n D 2 (X ) = 1 2 D n2
n
Xi
i=1
E(Xi )
i=1
1 = ( n
n
) = ,
i=1
Xi
i=1
1 n2
D2 (Xi )
i=1
1 ( n2
) =
i=1
0, n
cnd
n . .
Funcia
Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul de probabilitate este
f (x, ) = e
de unde
x , x N, x!
ln f (x, ) x = 1 + .
2
In () = n E
ln f (X, ) X X2 + 2
= nE 1 2
Se observ c
=n X
12
1 + 2 (2 + )
n .
D2 (X ) In () = 1,
Fie
deci estimatorul
pentru
este ecient.
Exerciiu 16.4
Xi B (1, p), i = 1, n
n
= nX =
i=1
S se arate c
Xi ,
numrul de succese n
incercri.
este
p.
Soluie:
L(x1 , x2 , . . . , xn ; p) =
pxi (1 p)1xi
i=1 n n
xi
i=1
g (x) 1
Exerciiu 16.5
S presupunem c aruncm o moned despre care nu tim dac este sau nu corect
0.5).
Fie
variabila aleatoare ce
reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar
pro-
80
de aruncri ale
dac nu a aprut):
109
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(1) S se gseasca un estimator absolut corect pentru din
Matlab.
p,
folosind funciile
mle
binofit
Soluie:
este Bernoulli,
B (1, p).
Astfel,
E(X ) = p,
Un estimator absolut corect pentru medie este
deoarece
E(X ) = E(X )
n
Aadar, pentru selecia dat, valoarea (2) Utiliznd funciile
D2 (X ) =
x=
k=1
xk = 0.5125.
Matlab astfel:
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:
p = 0.5125
pCI =
0.3981 0.6259
binofit,
[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p = 0.5125
Exerciiu 16.6
X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. atunci estimm parametrii si astfel: normale
N (, ),
110
U (a, b),
111
17 Statistic Aplicat (C9) Estimarea parametrilor prin intervale de ncredere (o singur populaie)
S considerm o caracteristic
f (x, ),
cu
parametru
efectum
x1 , x2 , . . . , xn . (x1 , x2 , . . . , xn ). ns, o (x1 , x2 , . . . , xn ) fa de valoarea estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului, fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s ne indice c aceasta este de masa medie este
500
500g10g. . n, X1 , X2 , . . . , Xn ,
ce urmeaz repartiia lui
Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare, s gsim valoarea real a lui S considerm o selecie repetat de volum posibil a parametrului necunoscut.
X.
Dorim s
etc) valoarea
Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator
(, ),
astfel nct
P ( < < ) = 1 ,
unde Pentru o observaie
(17.1)
(X1 , X2 , . . . , Xn ) (n)
(X1 , X2 , . . . , Xn )
x1 , x2 , . . . , xn ,
(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete
pentru
de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul desprinzndu-se din context. Valoarea
Observaia 17.2
depind de
Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:
S notm cu
S (X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg (s) aceast repartiie. Se determin apoi valorile s1 i s2 (care
s2
),
astfel nct
g (s) ds = 1 .
(17.2)
112
,
relaia (17.2) determin un interval aleator
depinde de
(, )
ce satisface (17.1).
Cu ct sau
Dei ansele
99.99%
par a foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime
conteaz. De exemplu, s presupunem c ntr-un an calendaristic un eveniment are ansa de n ecare zi a anului n tot decursului acestui an este de ecare zi ar fost de
realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze
99.99%,
mare generat de o diferen iniial foarte mic. Intervalul de ncredere pentru valoarea real a unui parametru nu este unic. cellalt capt. n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale. Dac ni se dau condiii
suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la
Z=
X N (0, 1) n ( z1 , z 2 )
(conform Propoziiei
11.23).
(17.3)
: R [0, 1]
este
y2 2
dy.
(17.5)
De ndat ce intervalul
( z1 , z 2 )
P ( z1 <
X < z2 ) = 1 , n = 1 , (1 ) .
este
echivalent cu
X z2 < < X z1 n n
cu nivelul de semnicaie
(, ) =
X z2 , n z1
i
X z1 n
z2 .
113
, atunci alegem (z1 , z2 ) ca ind interval z1 = z2 (vezi Observaia 17.3), de unde:
(1)
xat.
(z2 ) (z2 ) = 1 .
Tinnd cont c
(z ) = 1 (z ),
(z2 ) = 1
de unde gsim pe Aadar,
, 2
. z1 2
z2
2 , i anume
z1 = z1 , 2
i intervalul de ncredere pentru media teoretic
z2 = z1 , 2
cnd
(, ) =
, X z1 2 n
X + z1 2 n
(17.6)
(2)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul aleator
(z1 , z2 )
de forma
(, z2 ).
z2 = z1 .
(, ) =
X z1 , n
(3)
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul aleator
(z1 , z2 )
de forma
(z1 , ).
z1 = z = z1 .
(, ) =
X + z1 n
Observaia 17.3
lungime este
n cazul
(1)
l = (z2 z1 ). n
min
z2
( z2 z1 ) n
g (z ) dz = 1 ,
z1
114
N (0, 1).
z2
L(z1 , z2 ; ) = (z2 z1 ) + n
Dorim s am
g (z ) dz.
z1
sunt soluiile sistemului:
(17.7)
z1
z2
ce realizeaz
de unde
Deoarece funcia
z1 = z2
(ce nu convine) i
z1 = z2 .
Observaia 17.4
aceasta nseamn
(1)
n cazul n care volumul seleciei este mare (de cele mai multe ori n practic, metoda de determinare a unui interval de ncredere prezentat mai sus se
n 30) n
poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin faptului c, pentru caracteristicii mare, statistica
urmeaz repartiia
N (0, 1)
(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul Spre exemplu, dac selecia de volum
(, ) =
X z1 2 n
N n , N 1
X + z1 2 n
N n N 1
(17.8)
X N (, )),
mai puin
este statistica
d (X ),
dat prin
d (X ) =
Pentru a estima media teoretic necunoscut
1 n1
(Xi X )2 .
i=1
T =
X t(n 1), d (X ) n
(conform Propoziiei
13.9).
(17.9)
n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai sus:
115
,
atunci intervalul de ncredere pentru
(1)
cnd
(, ) =
d (X ) X t1 , ; n1 2 n
d (X ) X + t1 ; n1 2 n
(17.10)
(2)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere este:
(, ) =
d (X ) X t1; n1 , n
(3)
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:
(, ) =
Aici, prin
d (X ) X t; n1 n
.
grade de libertate.
t; n1
pentru repartiia
cu
(n 1)
Observaia 17.5
Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-
n este mare, atunci va o diferen foarte mic ntre valorile z1 2 i t1 ; n1 , de aceea am putea folosi z1 n locul valorii t1 ; n1 . Mai mult, pentru un n mare (n 30), 2 2 2 intervalele de ncredere obinute mai sus rmn aceleai pentru orice form a repartiiei caracteristicii X ,
vitate gaussian de volum Cnd nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare, un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:
n mic.
(, ) =
X z1 2
d (X ) , n
X + z1 2
d (X ) n
(17.11)
1 d (X ) = n
2
[Xi ]2 .
i=1
n 2 1 d (X ) = 2 2
(Xi )2 2 (n),
i=1
P 2 1 <
unde aici
n 2 2 2 d (X ) < 2 2 = Gn (2 ) Gn (1 ) = 1 , 2 2
cu
Gn (x)
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim c intervalul de ncredere pentru
2,
116
(1)
( 2 , 2 ) =
n d2 (X ) , 2 1 ; n
2
n d2 (X ) 2 ;n
2
(17.12)
(2)
( 2 , 2 ) =
n d2 (X ) , 2 ; n
+ ;
(17.13)
(3)
( 2 , 2 ) =
n d2 (X ) 2 1; n 2
cu
(17.14)
unde prin
2 ; n
pentru repartiia
grade de libertate.
X N (, ) o caracteristic a unei populaii studiate, pentru care nu cunoatem media sau dispersia. De exemplu, X reprezint timpul de producere a unei reacii chimice. Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie . 2 2 Pentru estimarea punctual a lui cnd media este necunoscut folosim statistica d (X ) denit prin d2 (X ) = 1 n1
n
[Xi X ]2 .
i=1
n1 2 1 d (X ) = 2 2
(Xi X )2 2 (n 1),
i=1
P
unde
2 1 <
n1 2 d (X ) < 2 2 2
2 = Gn1 (2 2 ) Gn1 (1 ) = 1 ,
Gn1 (x)
cu
(n 1)
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de ncredere pentru
este:
(1)
( 2 , 2 ) =
unde prin
(n 1)d2 (X ) , 2 1 ; n1
2
(n 1)d2 (X ) 2 ; n1
2
, (n 1)
(17.15)
2 ; n1
pentru repartiia
cu
grade de libertate.
117
(2)
( 2 , 2 ) =
(n 1)d2 (X ) , 2 ; n1
+ ;
(17.16)
(3)
( 2 , 2 ) =
(n 1)d2 (X ) 2 1; n1
(17.17)
Observaia 17.6
proporie a populaiei vom nelege procentul din ntreaga colectivitate proporie de selecie nelegem procentajul din valorile de
p). p
(e.g., numrul de Dorim s construim un interval
ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti dintr-o anumit facultate). Pe de alt parte, prin de selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare
40 X
de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu
p),
Fie
iar proporia de selecie este o statistic (pe care o notm aici prin
steme aprute la aruncarea unei monede ideale, caz n care de ncredere pentru proporia populaiei,
p = 0.5).
p.
p=p=
Printr-un "volum mare" vom nelege un variabilei aleatoare
X . n n 30, n p > 5 i n (1 p) > 5. Media D2 (X ) = np(1 p). Putem scrie pe X ca B (1, p).
Pentru un volum
ce satisface:
este
n
ind
E(X ) = np,
X=
i=1
Xi , X
unde
Xi
mare, variabila
aleatoare
{Xi }i ):
X np n p (1 p)
X n
p (1 p) n
pp p (1 p) n
N (0, 1).
p,
de forma:
p z1 2
Deoarece
p (1 p) , n
p + z1 2
p (1 p) n
.
Valoarea
(17.18)
nu este
(17.19)
se numete
prin intervalul
118
Observaia 17.7
n N,
de regul ncredere este:
Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau
n < 0.05N )
Dac selecia
astfel nt
n 0.05N ), N n N 1
atunci intervalul de
p z1 2
p (1 p) n
N n , N 1
p + z1 2
p (1 p) n
(17.20)
119
Matlab
250g
de nghe-
O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s Desigur, este practic imposibil s umplem ecare cup cu exact
= 250g.
at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa necunoscut i dispersia cunoscut, ntmplare
= 3g. Pentru a verica dac maina este ajustat bine, se aleg la 30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,
. . . , x30
252 247
Se tie c un estimator absolut corect pentru masa medie este media de selecie, Se cere s se gseasc un interval de ncredere pentru
cu nivelul de conden
Soluie:
este:
(, ) =
Urmtorul cod
, x z1 2 n
x + z1 2 n
n=30; sigma=3; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; z = icdf('norm',1-alpha/2,0,1); % cuantila de ordin 1-alpha/2 pentru normala m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.659, 251.478).
Observaia 18.2
ncredere cnd
ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de
Exemplu 18.3
S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul
120
este:
(, ) =
Urmtorul cod
d (X ) x t1 , ; n1 2 n
d (X ) x + t1 ; n1 2 n
n=30; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; dev = std(X); % deviatia standard de selectie t = icdf('t',1-alpha/2,n-1); % cuantila de ordin 1-alpha/2 pentru t(n-1) m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.572, 251.561).
Observaia 18.4
predenite).
A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-
Matlab
Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd
normfit
121
, (mCI),
m = 250.0667
s =
2.9704
Observaia 18.6
= 0.01)
S presupunem c facem
30
Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu care valoarea estimat este acoperit de intervalul de ncredere este
1%.
Exemplu 18.7
nscrii, doar conden de
100 de studeni
67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o 95% s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67 = 0.05, n > 30, p = 100 = 0.67, np = 67 > 5 i n(1 p) = 33 > 5. informaie despre N (numrul total de studeni nscrii), putem presupune c
Soluie:
Deoarece nu ni se d vreo
122
0.67 z0.975
0.67 + z0.975
= (59.27%, 74.73%).
Exemplu 18.8
Dintr-o selecie de
200
de elevi,
65%
puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva coal ce dein cel puin un telefon mobil, la nivelul de semnicaie
= 0.05.
folosind (17.20) i gsim c un
Soluie:
interval de
Deoarece este
n 0.05N ,
0.65 1.96
0.65 + 1.96
= (58.93%, 71.07%).
Observaia 18.9
p
Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei
E,
p,
z1 2 E
, p(1 p)
(18.1)
este maxim
n=
1 4
i
z1 2 E 40%
Exemplu 18.10
35%
mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce fumeaz, cu o eroare de estimare maxim de
0.5%.
= 0.1. 50%).
Soluie:
p = 0.4
40%,
Cuantila este
z0.95 = 1.28.
n
2
este:
n = 0.4(1 0.4)
1.64 0.005
= 25820.
Exemplu 18.11
100g
35
100.12; 99.92; 100.1; 99.89; 100.15; 99.9; 99.76; 100.1; 99.24; 100.12; 98.63; 99.03;
100.07; 99.88; 100.11; 99.90; 99.97; 100.2; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89; 98.68.
123
= 0.05)
pentru deviaia standard masei batoanelor produse de res-
Soluie:
d2 (x).
Avem:
d2 (x) =
Din tabele, sau utiliznd
1 35
35
( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:
Exemplu 18.12
de nicotin de
= 0.05) pentru deviaia standard a coninutului de de 24 de buci are deviaia standard a coninutului
Soluie:
Mai nti,
Matlab, gsim:
2 0.975; 24 = 39.3641;
2 0.025; 24 = 12.4012.
( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:
Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este
124
Param.
Ali param.
X z1 2 2
cunoscut
, n
X + z1 2
, n
X z1 , X t1 ; n1 2
+
n d (X ) n
X + z1
d (X ) , n
X + t1 ; n1 2
, n
2
necunoscut
X t1; n1 ,
d (X ) n
X t; n1
n d2 (X ) , 2 1 ; n
2
n d2 (X ) 2 ;n
2
cunoscut
n d2 (X ) , 2 ; n
+
n d2 (X ) 2 1; n (n1) d2 (X ) 2 ; n1
2
,
(n1) d2 (X ) , 2 1 ; n1
2
necunoscut
(n1) d2 (X ) , 2 ; n1
, p
2 1 2 / 2
(n1) d2 (X ) 2 1; n1
mare
p z1 2
p (1p) , n
p + z1 2
p (1p) n
necunoscui
1 , 2
1 2 1 2 1 2 p1 p2
2, 2 1 2 cunoscui
necunoscui
d2 d2 1 1 , f n1 1, n2 1; 2 2 fn1 1, n2 1; 1 2 d2 d 2 2
2 1
2
2 = 2 1 2 2 = 2 1 2
necunoscui
X1 X2 z1
2 2
2 1
2 2
n1 , n 2
mari
p2 (1p2 ) , n2
p1 p2 + z1 2
p1 (1p1 ) n1
p2 (1p2 ) n2
d(X1 , X2 )
am notat:
d(X1 , X2 ) =
n1 + n2 2 1 1 n1 + n2
1 2
125
19 Statistic Aplicat (C10) Estimarea parametrilor prin intervale de ncredere (dou populaii)
Interval de ncredere pentru diferena mediilor
Fie
X1
X2
N (1 , 1 ),
respectiv,
N (1 , 1 ),
pentru care nu
n1 ,
notat prin
(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin
d2 1
1 = n1 1
n1
(X1k X1 )
i=1
d2 2
1 = n2 1
n2
(X2k X2 )2 .
i=1
Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau la baza construirii intervalului. Putem avea urmtoarele trei cazuri:
(1) dispersiile
2 1
2 2
sunt cunoscute
a priori.
Alegem statistica
Z=
(X1 X2 ) (1 2 )
2 2 1 + 2 n1 n2
N (0, 1).
(conform Propoziiei
11.27).
(19.1)
X1 X2 z1
2
2 1
n1
2 2
n2
X1 X2 + z1 2
2 1
n1
2 2
n2
(2) dispersiile
2 = 2 = 2 1 2
i necunoscute. Pentru a gsi un interval de ncredere pentru diferena (vezi Propoziia 13.12):
T =
(X1 X2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2),
(19.2)
1 2
este:
X1 X2 t1 ; n
2 1 +n2 2
n1 + n2 2 1 1 n1 + n2 n1 + n2 2 1 1 n1 + n2
1 2
,
1 2
X1 X2 + t1 ; n1 +n2 2 2
126
necunoscute. Pentru un interval de ncredere pentru
2 = 2, 1 2
1 2 ,
alegem statistica
T =
(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2
t(N ),
(19.3)
unde
N=
s2 s2 1 + 2 n1 n2 s2 1 n1
2
1 + n1 1
s2 2 n2
2 1 n2 1 1 2
2 2 2 s2 1 = d (x1 ), s2 = d (x2 ) .
(19.4)
la nivelul de semnicaie
este:
X1 X2 t1 ; N
2
d2 d2 1 + 2 , n1 n2
X1 X2 + t1 ;N 2
2 d2 d 1 + 2 . n1 n2
Observaia 19.1
n mare (n 30), intervalele de ncredere obinute mai sus X , nu neaprat pentru una gaussian.
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),
pentru care nu
se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum urmeaz repartiia lui repartiia lui dispersiilor,
n1
ce
X1 ,
n2
ce urmeaz
X2 .
2 1 / 2 2
considerm statistica
F =
2 d2 2 1 F (n1 1, n2 1), 2 d2 1 2
(19.5)
(f1 , f2 )
astfel nct
Fn, m
Alegem:
f1 = f , n1 1, n2 1 2
unde
fn, m;
pentru repartiia
(n, m)
grade de libertate.
d2 1 f 2 , n1 1, n2 1 , d2 2
d2 1 f1 , n1 1, n2 1 . 2 d2 2
(19.6)
127
X1
Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii considerate. Presupunem c este dat de
a unei populaii statistice i c legea sa de probabilitate cum precizam n capitolul anterior, aceast funcie poate
specicat (adic i cunoatem forma, dar nu i parametrul asupra acestui parametru, sau sale. S presupunem c
),
(xk )k=1, n
X.
Deniia 19.2
(2) O (3)
(1) Numim
ipotez statistic
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
ipotez neparametric
X
f (x, ).
De exemplu, Dac
ipotez parametric
mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element, avem de-a face cu o (4) O
priori a adevrat.
ipotez parametric simpl. Altfel, avem o ipotez parametric compus. ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate i o presupunem a
Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist O
suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus nevinovat, pn se gsesc dovezi care s ateste o vin".
ipotez alternativ
128
(H0 )
iar o ipotez alternativ (bilateral) poate
= 250 grame,
(H1 )
n general, pentru teste parametrice considerm
= 250 grame.
A = A0
i spunem c
A1 , A 0
A1 =
(H0 )
iar
A0
(H1 )
(5) A
A1
testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:
ipoteza nul se respinge ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)
semnicativ din punct de vedere statistic dac este improbabil ca diferen semnicativ dac exist suciente dovezi statistice pentru a dovedi diferena, i nu datorit faptului c diferena ar mare. Numim nivel de semnicaie probabilitatea de a respinge ipoteza nul cnd, de fapt, aceasta este adevrat. n general,
(6) n Statistic, un rezultat se numete el s se realizat datorit ansei. ntre dou valori exist o Vom numi
regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule. o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac
P ((x1 , x2 , . . . , xn ) U | H0
Dac putem scrie regiunea critic sub forma admis)
etc.
Matematic,
= .
se numete
Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate
(i) (ii)
(x1 , x2 , . . . , xn ) U , (x1 , x2 , . . . , xn ) U ,
(H0 ) (H0 )
(H1 )
este acceptat);
false positive)
respingnd o ipotez (n realitate) adevrat. Se mai numete i acestei erori este nivelul de semnicaie, adic:
Probabilitatea
= P ((x1 , x2 , . . . , xn ) U | H0
admis).
129
false negative) este eroarea care se poate risc de genul al (II)-lea. Probaadmis).
comite acceptnd o ipotez (n realitate) fals. Se mai numete i bilitatea acestei erori este
= P ((x1 , x2 , . . . , xn ) U | H1
Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.
Fie
f (x; ),
cu
(x1 , x2 , . . . , xn )
valori
de selecie de volum
n.
Deniia 19.3
Vom numi
= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .
(19.8)
Deniia 19.4
Denumim
valoare P
sau
P valoare (en.,
cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea cea mai mic valoare a nivelului de semnicaie pe observaiile culese. Dac pentru care ipoteza
este
(H0 )
ar respins, bazndu-ne
Pv , atunci respingem ipoteza nul la nivelul de semnicaie , iar dac (H0 ). Cu ct Pv este mai mic, cu att mai mari anse ca ipoteza nul s e respins. De exemplu, dac valoarea P este Pv = 0.045 atunci, bazndu-ne pe observaiile culese, vom respinge ipoteza (H0 ) la un nivel de semnicaie = 0.05 sau = 0.1, dar nu o putem respinge la un nivel de semnicaie = 0.02. Dac ne raportm la P valoare, decizia ntr-un test statistic poate fcut astfel: dac aceasta valoare este mai mic dect nivelul de semnicaie , atunci ipoteza nul este respins, iar dac P value este mai mare dect , atunci ipoteza nul nu poate respins. De reinut faptul c, cu ct valoarea P este mai mic, cu att mai semnicativ este rezultatul testului. Pv > ,
atunci admitem Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent. Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un
false
S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este sau nu vinovat. Are astfel de testat urmtoarele ipoteze:
(H0 ) (H1 )
Posibilele stri reale (asupra crora nu avem control) sunt: [1] [2]
inculpatul este nevinovat (H0 este adevrat i inculpatul este vinovat (H0 este fals i
H1
este fals);
H1
este adevrat)
Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:
130
[i] H0 [ii] H0
se respinge (dovezi suciente pentru a ncrimina inculpatul); nu se respinge (dovezi insuciente pentru a ncrimina inculpatul);
Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 nchide o persoana nevinovat nchide o persoana vinovat Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.
Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 judecat corect Accepta H0 judecat corect Tabela 19.3: Erori decizionale.
(H1 ).
Avem astfel:
test unilateral stnga, atunci cnd ipoteza alternativ este test unilateral dreapta, atunci cnd ipoteza alternativ este test bilateral, atunci cnd ipoteza alternativ este
< 0 > 0
(a)); (b));
= 0
131
Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.
Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.
f (x; ),
(H0 )
(H1 ),
cu probabilitatea de risc
Deniia 19.5
condiii:
este
n raport cu
U,
la nivelul de semnicaie
(a) (b)
P ((x1 , x2 , . . . , xn ) U | (H0 ) U U .
se admite)
= ;
132
se numete
Observaia 19.6
n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate construi un astfel de criteriu.
(H0 ) :
la nivelul de semnicaie
= 0
vs.
(H1 ) :
= 1 ,
funcia de verosimilitate i e
Notm cu
Atunci regiunea
denit prin
U = {x Rn | S (x) c},
cu
astfel nct
P (x U | (H0 )
adevrat)
= ,
semnicaie
.
Fie
Exemplu 19.8
x1 , x2 , . . . , xn
X N (, ),
unde
este
(H0 ) :
versus ipoteza alternativ simpl
= 0 = 1 .
n
(H1 ) :
Soluie:
1 L(x1 , x2 , . . . , xn ; ) = n e n (2 ) 2
Calculnd
12 2 k=1
(xk )2 .
S (x),
obinem:
0 1
1 2
1 1 2 2 1 0
(xk )2
k=1
.
n
Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de
(xi )2 .
i=1
Aadar,
n
De asemenea, observm c dac
1 > 0 ,
n
atunci
S ( x)
(xi )2 .
i=1
(H0 )
dac
(xi )2
i=1
19 Jerzy
133
Matlab
Pentru a
estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la ntamplare dou seturi de volume la urmtoarele rezultate:
n1 = 7
n2 = 10
Lotul Lotul
1 2
25.06 25.01
24.95 25.09
25.01 25.02
25.05 24.95
24.98 24.97
24.97 25.03
25.02 24.99
24.97
25.03
24.98
S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele dou loturi (
= 0.1).
Soluie:
d2 1 =
Cuantilele sunt:
1 6
d2 2 =
1 9
10
Folosind
f0.05, 6, 9 = 0.2440
f0.95, 6, 9 = 3.3738.
f2 = finv(0.95, 6, 9);
Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o 65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva selecie de coal crora le place Matematica.
Exemplu 20.2
Soluie:
p1 =
23 45 ,
p2 =
21 37 2.33 45 65
21 45
24 45 + 45
37 65
28 65 , 65
21 37 + 2.33 45 65
37 65 i
134
n = 25 = 2.
cu media se selecie
Exerciiu 20.3
de volum cu
x = 50
se ia dintr-o populaie
N = 1000,
(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,
= 0.05. = 0.05)
n cazul n care populaia nu este
Soluie:
(, ) =
2 50 z0.975 , 25
2 50 + z0.975 25
(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4). valorile lui
Avem c probabilitatea ca
s e aproximate prin
X =
P ({|X X | < kX }) 1
Lund
1 . k2
1 = 0.95, k2
gsim
k=
20.
(, ) =
x k , x + k n n
2 = D 2 (X ) = X
50
2 20 , 25
50 +
2 20 25
= (46.42, 53.58).
Am folosit faptul c
rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui, n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar indicat ca volumul seleciei s e de cel puin
2 . n
Observm c acest interval este mai mare dect cel gsit ante-
sau testul
t,
datele
testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e normal repartizate trebuie vericat. concordan ntr-o seciune urmtoare. n De aceea, se pune problema realizrii unei legturi ntre funcia de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de
normplot(X)
Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia
reprezint grac datele din vectorul
este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va liniar, dac nu, atunci va un grac curbat. De exemplu, s reprezentm cu
normplot
vectorii
135
sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele
Funcia
chi2gof
2 ,
nivel de semnicaie
= 0.05.
Astfel, comanda
h = chi2gof(x)
ne va furniza rezultatul admis), sau ipoteza nul
h = 1.
h = 0, dac nu putem respinge ipoteza c datele (H0 ) este admis). Aplicnd testul pentru X i Y
h = 1,
dac datele nu sunt normal repartizate (i.e., ipoteza alternativ de mai sus, obinem
(H1 )
este
h = 0,
respectiv,
De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal. De exemplu, funcia
probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul
cu repartiia dat de
'weibull'
implicit c
'lognormal'.
136
probplot(weibull,Y).
n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie exponenial.
x = exprnd(0.5, 250,1); % selectie exponentiala y = normrnd(3, 1, 250,1); % selectie normala probplot('exponential',[x y]) legend('Selectie exponentiala','Selectie normala','Location','SE')
histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul
n.
'tip_repartitie'
apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram
se va desena densitatea de repartiie a repartiiei precizate (e.g., normal. Exemplul de mai jos produce gracul din Figura 20.3.
n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea
137
teste parametrice.
n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar
x1 , x2 , . . . , xn
Fie
De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul
n 30.
X1 , X2 , . . . , Xn
S (X1 , X2 , . . . , Xn )
apropiat de
(H0 ),
aceast are
o repartiie cunoscut, independent de parametrul testat; Alegem un nivel de semnicaie Gsim regiunea critic Calculm valoarea Lum decizia:
0.
De regul,
U; S (X1 , X2 , . . . , Xn )
pentru selecia considerat;
s0
a statisticii
138
atunci ipoteza nul,
Dac Dac
s0 U ,
(H0 ),
se respinge;
s0 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem
Observaia 21.1
valorii
O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul sau valoare critic). Reamintim, se poate calcula dup formula: (21.1)
(sau
P valoarea
P valoarea
un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru testul bilateral,
P valoarea
s0
seleciile date, n cazul testrii cu dou selecii). Pentru testul unilateral stnga,
P valoarea
Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,
(21.2)
P valoarea
Pv = P (S > s0 ),
Utiliznd
P valoarea,
Pv <
i va admis dac
Pv .
Aadar, cu ct
Pv
pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut Fie caracteristica
a priori.
30) din
N (, )
cu
necunoscut i
>0
cunoscut. Presupunem
X:
x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul
(H0 ) :
vs. ipoteza alternativ
= 0 = 0 ,
(H1 ) :
cu probabilitatea de risc
Z=
X . n
Propoziiei
(21.4)
Dac ipoteza
(H0 )
se admite, atunci
11.23).
( z1 , z 2 )
astfel nct
139
z1 , 2
z1 , 2 Z)
ca ind acea regiune pentru Este de ateptat ca regiunea
unde
pentru repartiia
N (0, 1).
tim c un interval de ncredere
Denim regiunea critic pentru ipoteza nul (relativ la valorile statisticii care ipoteza pentru
(H0 )
1 .
U = z R;
Astfel,
, z1 z z1 2 2
= {z ; |z | z1 }. 2
(21.6)
X 0 + z1 2 n
Notm cu
. X 0 z1 2 n
z0
valoarea statisticii
dac
, z0 z1 2 z0 z1 , 2
z1 2
, (echivalent,
z0 U ),
atunci admitem
(H0 )
dac
z1 2
, (echivalent,
z0 U ),
atunci respingem
(H0 )
s o respingem).
Determinm valoarea
normal),
0 ,
. 2
(3)
Calculez valoarea
z0 =
(4) Dac: (i) (ii)
x 0
n
|z0 | < z1 , atunci (H0 ) este admis (nu poate respins); 2 |z0 | z1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2
Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul
(H0 ) :
vs. ipoteza alternativ
= 0
(H1 )s :
< 0 ,
(unilateral stnga)
140
(H1 )d :
cu probabilitatea de risc
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor chiar intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul de semnicaie statisticii
este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul
pentru care
(H1 )s
se realizeaz cu probabilitatea
(H1 )s , atunci regiunea critic va regiunea acelor posibile valori ale 1 1, adic: U = (, z1 ).
(21.7)
(H1 )d ,
U = (z1 , +).
La fel ca mai sus, decizia se determin astfel (n ambele cazuri):
dac
z0 = z0 =
x 0
n
U, U,
atunci admitem
(H0 ). (H0 ).
dac
x 0
n
atunci respingem
Observaia 21.2
Testul
n 30.
Z
i
orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute
a priori.
30)
din
X1
X2
N (1 , 1 ),
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat
N (2 , 2 ), de volum n1 ,
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
vs. ipoteza alternativ
1 = 2 1 = 2 .
(H1 ) :
Pentru a testa aceast ipotez, alegem statistica
Z=
(X1 X2 ) (1 2 )
2 1 2 + 2 n 1 n2
(21.9)
141
1 = 2 ),
atunci (vezi (19.3)):
(H0 )
Z N (0, 1).
Fie
(conform Propoziiei
11.28). Z
(21.10)
z0 =
(u1 u2 )
2 1 n1
2 2 n2
este:
U =
Dac valoarea statisticii Dac valoarea statisticii
z;
, z1 z z1 2 2
. U,
atunci admitem
Z Z
(H0 ).
U,
atunci respingem
(H0 ).
0 , 1 , 2 ,
. 2
(3)
Calculez valoarea
z0 =
(4) Dac: (i) (ii)
2 2 n2
Observaia 21.3
(3) Testul
(1)
n cazul n care
1 , 2
pentru dou
selecii, prezentat mai jos. (2) Regiunile critice pentru testele unilaterale sunt prezentate n Tabelul 21.2.
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
n1 30, n2 30.
(pentru testul
Z , P valoarea
bilateral);
unilateral stnga);
Pv = P (Z > z0 ) = 1 (z0 )
(pentru testul
unilateral dreapta).
a priori.
n < 30,
X: x1 , x2 , . . . , xn .
142
(H0 ) :
vs. ipoteza alternativ
= 0 = 0 ,
(H1 ) :
cu probabilitatea de risc
T =
X . d (X ) n 0 ),
atunci
(21.14)
Dac ipoteza
(H0 )
se admite (adic
ia valoarea
T t(n 1),
(conform Propoziiei
13.9).
Cutm un interval
(t1 , t2 )
astfel inct
(21.15)
t1 ; n1 , t1 ; n1 , 2 2
unde
t; n
pentru repartiia
t(n).
dac
t0 =
x 0
d (X ) n
t1 ; n1 , t1 ; n1 2 2 t1 ; n1 , t1 ; n1 2 2
(echivalent,
t0 U ),
atunci admitem
(H0 ).
dac
t0 =
x 0
d (X ) n
(echivalent,
t0 U ),
atunci respingem
(H0 ).
0 , . 2
t(n 1),
Fn1 t1 ; n1 = 1 2
(3) Calculez valoarea
t0 =
(4) Dac:
x 0
d (X ) n
unde,
d (X ) =
1 n1
(xi x)2 .
k=1
(i) (ii)
|t0 | < t1 ; n1 , atunci (H0 ) este admis (nu poate respins); 2 |t0 | t1 ; n1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2
Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul
(H0 ) :
= 0
143
(H1 )s :
sau ipoteza alternativ
< 0 , > 0 ,
(unilateral stnga)
(H1 )d :
cu probabilitatea de risc
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de regiuni critice corespunztoare. Regiunea critic pentru ipoteza nul va trebui s e mulimea valorilor favorabile realizrii ipotezei alternative, adic este acel interval ce conine doar valori ale statisticii
nule i acceptarea ipotezei alternative. Aadar, dac alegem ipoteza alternativ intervalul:
(H1 )s ,
atunci regiunea
critic pentru ipoteza nul va mulimea valorilor favorabile realizrii ipotezei alternative
(H1 )s ,
adic
U = (, t1; n1 ).
Dac alegem ipoteza alternativ
(21.16)
(H1 )d ,
U = (t; n1 , +).
La fel ca mai sus, testarea este (n ambele cazuri):
(21.17)
dac
t0 =
x 0
d (X ) n
U,
atunci admitem
(H0 ).
dac
t0 =
x 0
d (X ) n
U,
atunci respingem
(H0 ).
Observaia 21.4
Testul
n 30. = 0 z1 , + 2
Ali parametri
Regiunea critic
cunoscut
, z1 2
bilateral
necunoscut
bilateral
t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),
a priori.
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),
144
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
vs. ipoteza alternativ
1 = 2
(H1 ) :
1 = 2 .
Cazul I
Presupunem c
1 = 2
T =
(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2
(21.18)
Aici,
Dac
T t(N ),
cu
ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena
mediilor, adic:
U = R \ t1 ; N , t1 ;N . 2 2
Cazul II
Presupunem c
1 = 2 T =
n1 + n2 2 . 1 1 n1 + n2
(21.20)
Dac
(H0 )
1 = 2 ),
T t (n1 + n2 2).
Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:
U = R \ t1 ; n1 +n2 2 , t1 ; n1 +n2 2 . 2 2
{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } (date normale), 0 , ; Determinm valoarea t1 ; m (unde m = N sau m = n1 + n2 2, dup caz) astfel 2 repartiie pentru repartiia Student t(m),
Se dau:
nct
Fm t1 ;m =1 2
. 2
145
t0 =
x1 x2 d2 d2 1 + 2
n1 n2
, dac
1 = 2 1 = 2
(4) Dac: (i) (ii)
x1 x2
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
, dac
Observaia 21.5
ce urmeaz a testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20). (2) n cazul n care dispersiile sunt cunoscute, atunci se utilizeaz testul care urmeaz paii testului de relaia (19.1) care, (3) Testul
Z pentru diferena mediilor, t pentru diferena mediilor, cu diferena c statistica ce se consider este dat dup acceptarea ipotezei nule, urmeaz repartiia N (, ). n1 30, n2 30. T
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
Z , P valoarea
se poate calcula dup urmtoarele formule: (pentru testul bilateral); (21.22) (21.23) (21.24)
unilateral stnga);
Pv = P (T > t0 ) = 1 Fm (t0 )
unde
(pentru testul
unilateral dreapta).
m=N
sau
m = n1 + n2 2,
dup caz.
Ali parametri
1 = 2
2 2 1 2 n1 + n2 2 2 1 2 n1 + n2 2 2 1 2 n1 + n2
Regiunea critic
1 , 2
cunoscute
bilateral
Z Z
1 = 2
necunoscute
1 = 2 1 < 2 1 > 2
bilateral
t t
146
N (, ) X , x1 , x2 , . . . , xn .
cu
>0
(H0 ) :
cu probabilitatea de risc
2 2 = 0
(H1 ) :
2 2 = 0 ,
2 =
care, dup acceptarea ipotezei (13.6). Intervalului de
n1 2 d (X ), 2
(21.25)
2 ), atunci 2 2 (n 1), (conform Propoziiei (H0 ) (adic 2 ia valoarea 0 2 ncredere pentru este 2 2 ; n1 , 1 ; n1 ,
2 2
unde
2 ; n1
pentru repartiia
2 (n).
pentru selecia dat. Atunci, regula de decizie este
Regiunea critic
2 S notm prin 0
urmtoarea:
dac
2 2 2 0 ; n1 , 1 ; n1
2 2
, atunci admitem
(H0 )
(i.e.,
2 ); 2 = 0 2 ). 2 = 0
dac
2 2 2 0 ; n1 , 1 ; n1
2 2
, atunci respingem
(H0 )
(i.e.,
Observaia 21.6
(H1 )s :
2 2 < 0
(H1 )d :
2 2 > 0 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.
(H0 ) : (H1 )
necunoscut
2 2 = 0
Regiunea critic
2 2 = 0 2 2 < 0 2 2 > 0
, 2 ; n1
2
2 1 ; n1 , +
2
bilateral
, 2 1; n1 2 ; n1 , +
X1
X2
N (1 , 1 ),
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
N (2 , 2 ), n1 ,
147
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c dispersiile sunt egale (H0 ) :
vs. ipoteza alternativ
2 2 1 = 2
(H1 ) :
Pentru a testa aceast ipotez, alegem statistica
2 2 1 = 2 .
F =
Dac
2 d2 (X ) 2 1 . 2 2 1 d (X2 )
(21.26)
(H0 )
2 = 2 ), 1 2
atunci:
F F (n1 1, n2 1)
Intervalul de ncredere pentru raportul dispersiilor este
(repartiia
Fisher).
(21.27)
f ; n1 1, n2 1 , 2
i se determin astfel nct
f1 ; n1 1, n2 1 2
P f ; n1 1, n2 1 F f1 ; n1 1, n2 1 = 1 . 2 2
Extremitile intervalului se determin din relaiile
Fn1 1; n2 1 f ; n1 1, n2 1 = 2
(f; n1 1, n2 1 este cuantila de ordin Regiunea critic Notm prin
. 2
f0
valoarea lui
x1
x2 .
f0 =
Regula de decizie este:
d2 (x1 ) . d2 (x2 )
dac
f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2 f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2
, atunci admitem
(H0 )
(i.e.,
1 = 2 ); 1 = 2 ).
dac
, atunci respingem
(H0 )
(i.e.,
Observaia 21.7
(H1 )s :
2 2 1 < 2 ,
(H1 )d :
2 2 1 > 2 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.
148 Regiunea critic Tipul testului Testul F bilateral Testul F unilateral stnga Testul F unilateral dreapta
necunoscute
1 , 2
, f f1 ; n1 1, n2 1 ; n1 1, n2 1 , + 2 2 (, f1; n1 1, n2 1 ) (f1; n1 1, n2 1 , +)
p.
p:
(H0 ) : p = p0
vs.
(H1 ) : p = p0 .
(H1 )s : p < p0
sau
(H1 )d : p > p0 . n
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul Fixm un nivel de semnicaie de ncredere (17.18). al seleciilor considerate.
p,
p;
P0 =
p p0 p0 (1 p0 ) n
z1 ; 2 P0 z1 , z1 , 2 2
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.
Observaia 21.8
P0
este
(, z1 ),
iar pentru
(z1 , ).
149
X2 dou caracteristici binomiale independente ale unei populaii, cu volumele succes n1 , p1 i, respectiv, n2 , p2 . Pe baza unor selecii, dorim s testm ipotezele:
i
X1
i probabilitile
(H0 ) : p1 = p2
vs.
(H1 ) : p1 = p2 .
(H1 )s : p1 < p2
sau
(H1 )d : p1 > p2 .
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm un nivel de semnicaie
p1 = p2 = p.
Un estimator pentru
este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,
p =
n1 p 1 + n2 p 2 . n1 + n2
p1
p2 ,
p1 ,
respectiv,
p2 ;
P0 = p (1
Calculm cuantila Dac ; z1 2
p1 p2 p )
1 n1
; +
1 n2
P0 z1 , z1 , 2 2
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.
150
Testul Z n
Testul
Matlab
h p
h = 1,
h = 0,
atunci ipoteza
nul nu poate respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic); este valoarea
P (P
value);
ci
la nivelul de semnicaie
zval X
multe teste
X;
valoarea testat;
X , a priori
cunoscut;
'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit); 'left', pentru un test unilateral stnga ( < 0 ); 'right', pentru un test unilateral dreapta ( > 0 ); Exemplu 22.1
este Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n
urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim s testm, la nivelul de semnicaie
= 0.05,
= 6.8
= 2.5.
Soluie:
(H0 )
Vectorul
= 6.8
vs.
(H1 )
> 6.8.
151
h = 0
p = 0.9500
ci =
5.9332 Inf
stats =
-1.6444
Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.
Observaia 22.2
: = 6.8),
atunci comanda ar :
h = 1).
P valorii.
Aceasta este:
(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat. De exemplu, comanda
=0
sau
h = 1),
Testul t n
Matlab
Matlab utiliznd comanda general
poate simulat n
152
ztest;
stats
tstat - este valoarea statisticii T pentru observaia considerat; df - numrul gradelor de libertate ale testului; sd - deviaia standard de selecie; Exemplu 22.3
de exact Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a
50% 50%.
100
59
(H0 ) :
vs. ipoteza alternativ
(H1 ) :
la un prag de semnicaie
= 0.05.
ce reprezint faa ce apare la o singur aruncare a monedei. stema i S
Soluie:
de unde
spunem c
X = 0,
X B (1, 0.5),
59
de
ipotezele
n = 100 i scriem observaiile fcute ntr-un vector x ce conine 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem (H0 ) i (H1 ) astfel: (H0 ) : = 0.5 (H1 ) : = 0.5.
Dac
{X1 , X2 , . . . , Xn }
T =
Dac ipoteza
X
d (X ) n
.
i statistica
(H0 )
se admite, atunci
este xat,
= 0 .5
T t(n 1).
Valoarea acestei
t0 =
Din t1 ; n1 2
x
d (X ) n
= 1.8207.
i decidem c ipoteza
= t0.975; 99 = 1.9842,
rezult c
|t0 | < t1 ; n1 , 2 ).
P valoarea
este
153
ttest
din
h = 0
p = 0.0717
ci =
0.4919 0.6881
stats =
Observaia 22.4
0.08,
(1)
Deoarece
P valoarea
este
p = 0.0717,
tail
sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai
multe teste
vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.
154
Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c X1 N (1 , 1 ) i X2 N (2 , 2 ), cu 1 = 2 , necunoscute a priori. Pentru a verica modul cum s-au prezentat studenii la acest examen n doi ani consecutivi, selectm aleator notele a 25 de studeni din prima grup i 30 de respectiv, note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.
Exemplu 22.5
Vericai dac ambele seturi de date provin dintr-o repartiie normal; Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie S se testeze (cu
= 0.05;
= 0.01)
ipoteza nul
(H0 ) :
1 = 2 ,
(H1 ) :
1 < 2 ,
Nota obinut
5 6 7 8 9 10
M F 08 3 4 9 7 2 0
Grupa
M F 09 5 6 8 6 3 2
h = chi2gof(u) k = chi2gof(v)
% %
h = 0, deci u N k = 0, deci v N
(u i (ii)
Matlab
(-0.7294, 0.6760)
x1 x2 t1 ; N
2
d2 1 n1
d2 2 n2
x1 x2 + t1 ;N 2
d2 1 n1
d2 2 n2
Codul
Matlab:
155
n1=25; n2=30; alpha = 0.05; u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)]; v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)]; d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2; t = tinv(1-alpha/2,N); m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii) Comanda
Matlab este:
h = 0
p = 0.4698
ci = -Inf 0.8137
stats =
Observaia 22.6
Valoarea
Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)
Matlab
N (, ).
10.55 3 Alegem o selecie de volum 10.65 1
n = 11
i obinem
S se testeze (cu
= 0.1)
ipoteza nul
(H0 ) :
versus ipoteza alternativ
(H1 ) :
Soluie:
este
2 0 = 7.2727.
Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate respins la
156
P,
Avem:
Testul
poate simulat n
ttest;
h = 0
p = 0.6011
ci =
0.0012 0.0055
Pv = 1 - chi2cdf(c0,10)
Testul F n
Matlab
Matlab utiliznd comanda
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)
ttest2.
Exemplu 22.8
Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)
157
= 0.01)
(H0 )
2 2 1 = 2
vs.
(H1 )
2 2 1 = 2 .
Soluie:
'left'
sau
'right'
n locul lui
'both'.)
h = 0
p = 0.2119
CI =
0.2191 1.7426
Deoarece
h = 0,
decidem c dispersiile teoretice ale celor dou populaii pot considerate a egale la
nivelul de semnicaie
= 0.01. P,
Observaia 22.9
mai mare dect
5000
ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.
p acest procent.
La nivelul de semnicaie
Soluie:
(H0 ) : p = 0.95
Procentul de selecie este
vs.
p=
4893 5000
= 0.9786,
cuantila este
P0 =
= 9.2791 [1.6449, ),
158
p > 0.95. P valorii.
Aceasta este
Exemplu 22.11
diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.
Soluie:
Avem:
p1 =
23 45 ,
p2 =
37 65 ,
p =
23 45
23+37 45+65 37 65 1 45
6 11 i
z0.99 2.33.
P0 =
6 11 )
6 11 (1
deci ipoteza nul nu poate respins la acest nivel de semnicaie. Aceeai concluzie o putem lua dac vericm
P valoarea.
Aceasta este:
Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .
159
160
Testul 2 de concordan
Acest test de concordan poate utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i
testul
sau
Cazul neparametric
S considerm o caracteristic necunoscut
(x5)2 18
a priori,
este
f (x, )
(e.g.,
f (x) =
e2 2x x! ,
x N
( X P (2) )
sau
f (x) =
1 2
( X N (5, 3) )).
este cunoscut i vom omite s mai
Deoarece legea de probabilitate ipotetic este complet specicat, punem n eviden dependena lui
X,
testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de
x1 , x2 , . . . , xn
F (x)
X i f (x). Fie F = f . n
2 cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:
Descompunem n clase mulimea observaiilor fcute asupra lui mulimii aparine unei singure clase. Scriem aadar,
X,
{x1 , x2 , . . . , xn } =
i=1
Oi ,
Oi
Oj = , i = j. ni
de observaii ce aparin ecrei clase
Oi .
ni = n.
i=1
pentru ca testul s e concludent. n cazul n care
n general, se dorete ca
n 30
ni 5,
numrul de apariii ntr-o anumit clas nu depete valoarea clase, atunci sunt suciente cel puin noul numr, notat aici tot cu
5,
mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin
k ).
Pentru ecare
161
s se ae n clasa
i {1, 2, . . . , k }, determinm probabilitatea teoretic pi ca un element al populaiei Oi . Aceast probabilitate este obinut cu ajutorul funciei f (x). Astfel, frecvenele teoretice absolute sunt n pi , i {1, 2, . . . , k }. Altfel spus, n pi este numrul estimat de valori ale repartiiei cercetate ce ar cdea n clasa Oi .
(H0 ) :
Aceasta este echivalent cu
este
F (x).
(H0 ) :
Oi
este
pi .
(i = 1, 2, . . . , k ).
Ipoteza alternativ este negaia ipotezei nule. Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica
2 =
i=1
(ni n pi )2 . n pi
(23.1)
(ni n pi )2 n pi
urmeaz repartiia
2 (k 1).
Uneori, statistica
se numete
discrepan.
Alegem regiunea critic, ca ind regiunea pentru care valoarea vaiile date satisface
2 0
2 2 0 > 1; k1 ,
unde
2 1; k1
pentru repartiia
2 (k 1). .
Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul
(H0 )
Cazul parametric
Cnd probabilitile teoretice atunci cnd legea de
pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui
f,
dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s
estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri, pierdem dou grade etc. S presupunem c legea de probabilitate a lui
f (x, ),
unde
= (1 , 2 , . . . ,
p ) R p
xime.
X.
Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:
(H0 ) :
pi = p i ,
(i = 1, 2, . . . , k ),
162
2 cazul parametric i
i
pi
p i
Din acest moment, etapele testului tric, cu deosebirea c statistica estimarea celor
cu
(k p 1) grade de libertate.
parametri necunoscui.
Se dau:
x1 , x2 , . . . , xn .
Intuim
F (x; 1 , 2 , . . . , p );
(H0 ) (H1 )
Dac pas); similitate maxim
este
F (x; 1 , 2 , . . . , p )
1 , 2 , . . . , k (k p) nu 1 , 2 , . . . , k
cazul parametric;
Oi
i=1, n
ni
Se calculeaz probabilitatea
,
i=1
ni = n, ni 5; Oi .
Dac
pi ,
Oi = [ai1 , ai ),
atunci
2 Se calculeaz 0
=
i=1
(ni n pi )2 ; n pi
care este
Determinm valoarea
=
unde
2 1; k1 2 1; kp1
2 ; n
pentru repartiia
2 (n);
Dac
2 0 < ,
(H0 ),
altfel o respingem.
350
163
preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):
este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i
reprezint nivelul
de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n Tabelul 23.1.
Englez
Francez
German
Italian
Spaniol
Rus
Total
33 65 43 141
19 37 15 71
11 10 7 28
12 14 17 43
11 24 12 47
6 7 7 20
tabel de contingen.
Aici
sunt atributele i
Xi , i = 1, r, Yj , j = 1, s,
@ @Y
X1 X2
. . . . . .
Xi Xr
Suma pe coloan
Ys n1s n2s
. . . . . .
Suma pe linie
n1 n2
. . . . . .
nis nrs ns
ni nr n
(suma total)
Xi
pentru atributul
i valoarea
nij pentru numrul (frecvena absolut) de observaii ce Yj pentru atributul Y (i = 1, r, j = 1, s), iar nj , ni i n
s r s
nj =
i=1
nij ,
n i =
j =1
nij ,
n=
i=1 j =1
nij . X
i unei sin-
Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul gure categorii caracterizat de atributul cele
Y.
rs
celule.
nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de
164
Xi , Yj ,
i prin
pij
pi
pj
probabilitile marginale,
pi =
j =1
Avem c
pij ,
pj =
i=1
pij .
pij =
i=1 j =1
n general, valorile reale pentru
p i =
i=1 j =1
pj = 1.
pij , pi
pj
a priori
i se vor estima
folosind datele din tabelul de contingen. Vom nota prin probabilitilor marginale le estimm prin:
pij , pi nj n
i, respectiv,
pj
p i =
Ipoteza nul este:
n i n
(i = 1, r )
pj =
(j = 1, s).
(23.2)
(H0 ) : (H1 ) :
pij = pi pj , (H0 ) i
i
i = 1, r, j = 1, s
(i.e.,
Y ).
Astfel, pentru
(i, j )
este (23.3)
Eij = n pij =
Calculm valoarea statisticii
ni nj , n
i = 1, r, j = 1, s.
H2 =
i, j
unde, n parantez, ateptate (
ni nj nij n ni nj n
=
i, j
(23.4)
Oij = nij
Eij
numrul de valori
5,
atunci statistica
H2
urmeaz
2 repartiia cu
grade de libertate.
nij ,
i = 1, r, j = 1, s nij ,
i pragul de semnicaie
H2
Eij 5, i, j i H 2 2 ; (r1)(s1) , atunci se admite (H0 ) Altfel, respingem (H0 ) la acest prag de semnicaie.
Exemplu 23.1
= 0.05,
estimaiile
alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti
Eij .
165
H 2:
3 6
H2 =
i=1 j =1
n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7]; E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56... 19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77]; H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @ @Limba nceptor mediu avansat Total Englez Francez German Italian Spaniol Rus Total
r = s = 2,
@ @Y
X1 X2
Suma pe coloan
Y1 Y2 a b c d a+c b+d
Suma pe linie
unde
a, b, c, d
Eij
(vezi formula
(23.3)) sunt:
E11 =
(a + b)(a + c) , n
E12 =
(a + b)(b + d) , n
E21 =
(c + d)(a + c) , n
E22 =
(c + d)(b + d) , n
166
Statistica
n = a + b + c + d.
H2
H2 =
i urmeaz repartiia poate utiliza
ad bc n
, H = H 2 N (0, 1),
i se
2 (1).
Din faptul c
H 2 2 (1),
rezult c statistica
Fisher.
22
se utilizeaz
Acest test poate utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect
(H0 ) :
versus ipoteza alternativ
Y.
(H1 ) :
(H0 )
nu este adevrat.
(test bilateral)
Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi Aceasta este:
matricea conguraiei.
M=
S presupunem acum c, pentru o matrice
a b c d
priori.
2 2,
Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este Atunci, dac ipoteza nul este adevrat, probabilitatea de a obine
greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c
a + b, c + d, a + c i b + d sunt xate.
exact valorile din Tabelul 23.4 este:
P =
a Cc Ca +b c+d a+c Cn
(23.5)
Aceast probabilitate se obine prin utilizarea schemei hipergeometrice. Exist ns mai multe matrice de tip pe ecare coloan (i.e., testului bilateral,
putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul
P valoarea
Pv )
astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv probabilitatea conguraiei date). Dac Dac
n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt), atunci
Exemplu 23.2
simptome de rceal. Acetia sunt n numr de Pacienilor din primul grup, din Tabelul 23.5.
14
G1 ,
7 persoane. G2 nu li s-au
administrat nimic. Dup o sptmn, s-a testat starea sntii celor sntate a voluntarilor. Se va folosi nivelul de semnicaie
14
= 0.05.
167
@ @Y
sntos
bolnav
Suma pe linie
G1 G2
Suma pe coloan
6 4 10
1 3 4
7 7 14
(H0 ) :
(H1 ) :
Ipoteza
(H0 )
este fals.
M1 =
6 1 4 3
Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane sunt xate, este
P1 =
Alte conguraii cu suma
6 C4 C7 7 10 = 0.2448. C14
10
pe prima coloan i
M2 =
4 3 6 1
M3 =
5 2 5 2
M4 =
3 4 7 0
M5 =
7 0 3 4
P2 = 0.2448; P valoarea
P3 = 0.4404,
P4 = 0.0350,
P5 = 0.0350. P1 :
Observaia 23.3
era de ateptat.
(H1 ) :
P valoarea
este
Pv = P5 /2 = 0.0152 < ,
ceea ce conduce
la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.
168
60
nivelul de semnicaie
= 0.02,
Faa (clasa
Oi )
1 2 3 4 5 6
15 7 4 11 6 17
Soluie:
(aplicm testul
Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare fa n parte s apar sunt:
(H0 ) :
Altfel, notm cu Toate cele sunt:
1 pi = , 6
(i = 1, 2, . . . , 6).
variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un n ase clase. Aceste clase
X urmeaz repartiia uniform discret U (6). 60 de rezultate obinute n urma aruncrii zarului pot mprite Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent, (H0 ) :
Funcia de repartiie a lui
este
U (6).
(H1 ) :
Calculez valoarea statisticii
Exist un
j,
cu
1 pj = , 6
(j {1, 2, . . . , 6}).
2 0 =
(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2 + + + + + 10 10 10 10 10 10 = 13.6. 2
dat de (23.1) este
Repartiia statisticii
cu
k1=5
Matlab:
2 0
= 0.02,
169
Observaia 24.2
2 0.99; 5 = 15.0863,
ceea ce de-
termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.
Teste de concordan n
Am vzut deja c funcia
Matlab
testeaz (folosind testul
chi2gof(x)
provine
x.
2 ,
Matlab este:
[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:
namei pot : numrul de clase, 'nbins', un vector 'ctrs', sau un vector cu capetele claselor, 'edges'. Alte variabile ce pot utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'. variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E perechile Variabilele de valori centrale ale intervalelor ce denesc clasele, numrul de valori ateptate n ecare clas.
h, p
Exemplu 24.3
Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din
x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)
Acest cod returneaz:
h = 0
p = 0.0184
13.6000 5 [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000] [15 7 4 11 6 17] [10 10 10 10 10 10]
= 0.01.
Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul
Exemplu 24.4
iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.
170
= 0.05)
dac numrul de goluri pe meci urmeaz o distribuie
Nr. de meciuri
0 1 2 3 4 5 6
8 13 18 11 10 2 2
(H0 ) :
vs. ipoteza alternativ
). P ( ). P (
i distribuia valorilor variabilei este
(H1 ) :
Dac admitem ipoteza
(H0 )
(adic
) pi = pi (
Clasa
0 1 2 3 4 5 6 5
p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
i=0
P (X = i).
171
(H0 )
se poate rescrie astfel:
(H0 ) :
(H1 ) :
ipoteza
(H0 )
nu este adevrat.
2 0 = +
(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2 + + + + ... 6.7456 15.1775 17.0747 12.8060 (10 7.2034)2 (4 4.9926)2 + = 2.1337. 7.2034 4.9926
Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este 6 1 1 = 4. Cuantila de referin (valoarea critic) este 2 0.95; 4 = 9.4877. Regiunea critic pentru 2 2 2 2 este intervalul (0.95; 4 , +). Deoarece 0 < 0.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate urmeaz o repartiie Poisson. Prezentm mai jos un cod
X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);... 5*ones(2,1);6*ones(2,1)]; f = [8 13 18 11 10 4]; % vectorul de frecvente absolute n = 64; alpha = 0.05; lambda = mean(X); for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); end p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X5) H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4); if (H2 < Hstar) disp('X urmeaza repartitia Poisson'); else disp('X nu urmeaza repartitia Poisson'); end
Observaia 24.5
Dac ipoteza nul este respins, atunci motivul poate acela c unele valori observate n acest caz, este interesant de observat care valori sunt
reziduurile standardizate:
,
ri =
unde prin atunci extreme.
Oi n pi n pi (1 pi )
Oi Ei Ei (1 pi )
Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar adevrat, ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate
Exemplu 24.6
ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie 24.4. Se cere s se cerceteze (
minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul
= 0.05)
172
ni 05 39 5 10 35 10 15 14 15 20 7 20 25 5
(folosim testul
de concordan, parametric)
(H0 )
vs. ipoteza alternativ
(H1 )
Deoarece parametrul
ipoteza
este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim
exp()
este
L(t1 , t2 , . . . , tn ; ) =
k=1
Mai sus, am notat prin Punctele critice pentru
e ti = n e n t .
pentru variabila aleatoare
T.
ln L = 0 = n ln n t
Se observ cu uurin c
= 1. = t
2 ln L 2 |= = n t < 0, 2
este punct de maxim pentru funcia de verosimilitate.
de unde concluzionm c
T 7.5 35
este:
2.5 39
Calculm media de selecie, Dac variabila
12.5 14
17.5 7
22.5 5
t=
), exp(
atunci probabilitile
i = 1, 2, 3, 4, 5.
a6 = +.
clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ), extremitile
din stnga ale claselor (ai ), (sau valorile observate n ecare clas), n ecare clas (n pi ),
frecvenele absolute ni
probabilitile
pi , valorile ateptate
erorile relative
173
k p 1 = 3.
k
Calculm valoarea critic
2 0.95; 3 = 7.8147
i, de
H0 =
i=1
Deoarece Codul
(ni n pi )2 = 6.5365. n pi
2 2 0 < 0.95; 3 ,
ipoteza
(H0 )
T = % sau % T = n = a = for
end H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3); if (H2 < cuant) disp('Timpii de asteptare sunt exponential repartizati'); else disp('ipoteza (H0) se respinge'); end
Clasa
(0, 5] (5, 10] (10, 15] (15, 20] (20, +) (0, +)
ai
ni
pi
n pi
0 39 5 35 10 14 15 7 20 5 100
0.4776 47.7615 0.2495 24.9499 0.1303 13.0334 0.0681 6.8085 0.0745 7.4467 1 100
174
fr parametri (en.,
metode
distribution-free methods).
Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste teste neparametrice sunt, n general, grupate n urmtoarele categorii:
teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul acestuia sunt ndeplinite. Variante neparametrice ale acestui test sunt: testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecii;
t dac ipotezele
testul Wald-Wolfowitz,
teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul semnelor, testul Wilcoxon.
teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul (Spearman), coecientul coecientul de corelaie:
Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre cele mai simple teste statistice neparametrice. Presupunem c avem observaiile independente funcia de repartiie teoretic are o valoare dat
F.
Notm cu
x1 , x2 , . . . , xn asupra unei caracteristici continue ce are M e valoarea median observaiilor (i.e., acea valoare pentru F (M e) = 0.5). Suntem interesai n a testa ipoteza c mediana M e (H0 ) : M e = m0 .
m0 .
(H1 ) : p = F (m0 ). yi = 1, 0,
dac dac
M e = m0 . m0
Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va mai mic dect cu probabilitatea Astfel, putem considera c
xi < m0 xi m0 ,
i = 1, n,
175
B (n, p).
Ipoteza nul devine
(H0 ) :
n
Notm prin deciziei este
1 p= . 2
Valoarea critic
y0 =
i=1
yi
i e
o variabil aleatoare
B (n, 0.5).
Pv
utilizat n luarea
Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac nul. Testul se numete
< Pv ,
(H0 )
Exemplu 25.1
Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat
subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei mrime semn subire gros gros gros subire gros gros subire gros gros
se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date. Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal, care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul de semnicaie
= 0.05
Soluie:
(H0 ) :
versus ipoteza alternativ bilateral
50% 50%;
(H1 ) :
Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este Dac notm cu pizza, atunci
p = 0.5. Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat Y B (10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic
Aceasta
valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate respins. valoare este de dou ori probabilitatea
P (Y 3)
probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c este
P valoarea
Deoarece
< Pv ,
concluzionm c
176
Observaia 25.2
(H0 ) :
Ca mai sus, notm prin
M e m0
Pentru
vs.
(H1 ) :
M e > m0 . Pv = P (Y .
Altfel, respingem
p = F (m0 ).
y0 ) .
Dac
< Pv ,
Y (H0 )
y0
(H0 ) : (H1 ) :
atunci valoarea critic a testului va Aadar, ipoteza
clienii prefer pizza cu blat subire, clienii prefer pizza cu blat gros,
(H0 )
este admis la
en., runs test) este un test neparametric ce veric ipoteza c un ir de date bivariate este
aleator generat. Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o preced, atunci selecia generat nu poate aleatoare. Denim noiunea de
serie
sau
faz (en.,
acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:
001111010010
sau
MFFFFFMMMF
sau
++-+---++++--+--++-
Numrul de faze i lungimea lor pot folosite n determinarea gradului de stochasticitate a unui ir de simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii. prea multe secvene. mediana i Aadar, ne vom preocupa doar de numrul total de faze. Aceste criterii sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic Fiecare numr din ir
+ pentru numere mai mari dect pentru cele mai mici. Numerele egale cu mediana nu sunt considerate n calcul. Fie n1 i n2 numrul de semne +, respectiv, din ir, i e n = n1 + n2 . Fie R1 i R2 numrul de faze ce corespund semnului +, respectiv, din ir. Numrul total de faze este R = R1 + R2 .
este comparat cu mediana sau valoarea medie a irului, scriind astfel Alegem ipoteza nul:
(H0 ) :
este echiprobabil).
(H1 ) :
Putem gsi repartiiile vectorilor aleatori atunci secvena datele observate, Pentru
(R1 , R2 ), R1 , R2
sau
R.
x1 , x2 , . . . , xn ,
n1 !n2 ! n! ,
permutri echiprobabile.
f (r) =
k faze
n1 Cn
r = 0, n.
177
f (r) =
k1 k1 C C 2 n1 1 n1 n2 1 Cn k 1 k C k1 C k + Cn Cn 1 1 2 1 n1 1 n2 1 n1 Cn
, dac
r = 2k ;
, dac
r = 2k + 1.
Cnd
n1
n2
R N (, ),
unde
=2
Aadar,
n1 n2 + 1, n
2 n1 n2 (2 n1 n2 n) . n2 (n 1)
Pv
a testului este
Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac nul.
< Pv ,
(H0 )
pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis
22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c
nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat conceptele de
corelaie
regresie
(lat.)
regressio
cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale unei populaii statistice.
Legendre (1752 1833), matematician francez Carl Friedrich Gauss (1777 1855), matematician i zician german 22 Sir Francis Galton (1822 1911), om de tiin britanic
21 Johann
20 Adrien-Marie
178
scatter
plot.
n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat, ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va
diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram
scatter plot
da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a cruciuli din diagram reprezint IQ-ul pentru o pereche so-soie.
200
legturilor de tip statistic ntre dou sau mai multe variabile. Dac
X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaia Y se denete prin:
cov(X,
sau
Observaia 25.3
atunci cov(X,
Y ) = 0.
sunt dependente. (se poate verica, de
0,
ns
X i Y aleatoare X i Y
sunt, n plus, variabile aleatoare normal repartizate, atunci independena este echivalent cu cov(X,
179
corelaie pozicorelaie negativ, nsemnnd c X i Y se
Acesta este foarte utilizat n
relaie liniar
ntre dou variabile este acea relaie ce poate reprezentat cel mai bine printr-o linie. i
Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o
tiv, nsemnnd c X
modic n direcii opuse. O msur a corelaiei dintre dou variabile este coecientul de corelaie.
tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim
prin:
Y)
X Y
= cov(X, Y ),
1/2
i
Y = E(Y Y )2
1/2
Proprietile coecientului
de corelaie au fost prezentate anterior. n practic, pentru a stabili dac exist sau nu vreo legtura ntre dou variabile aleatoare, se fac observaii asupra acestora, urmnd apoi a cuantica relaia dintre observaii. Fie de
aleator
(xk , yk ), k {1, 2, . . . , n} un set de date bidimensionale, ce reprezint observaii asupra vectorului (X, Y ). O msur a legturii dintre {xk }k i {yk }k este coecientul de corelaie empiric introdus K. Pearson (n literatura de specialitate mai este cunoscut i sub denumirea de coecientul r ):
n
(xk x)(yk y ) r =
n k=1 n
(25.1)
(xk x)2
k=1 k=1
(yk y )2
(25.2)
=
unde
cove (x,
y)
sx sy
1 cove (x, y ) = n1
sunt
(xk x)(yk y ),
k=1
sx =
1 n1
(xk
k=1
x)2 ,
sy =
i
1 n1
(yk y )2
k=1
Y.
x = [0.49 y = [1.31
coecientul
0.24 -0.86
0.72 -1.23
r = 0.0905. X,Y , coecientul r al lui Pearson ia valori doar n intervalul [1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre 1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,
180
1
(e.g.,
r = 0.85,
o corelaie negativ dac panta descendent). Rezultatul nul una fa de cealalt (i.e.,
(e.g.,
r = 0.98,
r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent = 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza = 0, cu ipoteza alternativ = 0.
(xk , yk ), k {1, 2, . . . , n} asupra variabilelor alea0. Plecnd doar de la acest informaie, nu putem extrapola i decide gradul de corelare ntre X i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui (coecientul teoretic de corelaie) este 0 sau semnicativ diferit de 0. X, Y ,
i am calculat
r,
obinnd o valoare
r0
apropiat de
(H0 )
vs. ipoteza alternativ
X,Y = 0
(H1 )
X,Y = 0 << 1
(e.g.,
= 0.05)
i considerm statistica
T =r
Calculez valoarea statisticii de ordin
n2 1 r2
t(n 2).
2 a repartiiei
T t
pentru cu
181
(H0 ) (H0 )
Observaia 25.4
r
(i)
r,
exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul sigur nu poate edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea, i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :
r2 , coecientul de determinare
coecient de determinare
R2 ),
variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un
R2 = 0.42
42%
din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri, unele nu tocmai ntr-un mod echivalent;
(H0 ) :
X, Y = 0 ,
cu
0 = 0,
ns aceasta nu este foarte des ntlnit n practic. n acest sens, se poate utiliza statistica
Z=
1 ln 2
1+r 1r
1 ln 2
1 + 0 1 0
1 n3
(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate luat n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal, dac aceast exist. (iv) Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare sunt necorelate. Spre exemplu, o relaie poate puternic (avnd un semnicativ, dac valoarea lui de
nu foarte aproape de
0), ns nu r aproape
0),
Exemplu 25.5
volum
S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane
i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de
n = 10,
r = 0.62.
Se cere:
(a) Este aceast legtur puternic? (b) Este aceast legtur semnicativ?
24 Sir
23 Charles
Edward Spearman (1863 1945), psiholog britanic Maurice George Kendall (1907 1983), statistician britanic
182
R2 ,
i gsim
Soluie:
doar (b)
R2 = 0.3844.
38.44%
= 0.05.
Statistica de unde
considerat va avea
grade de libertate,
T0 = 0.62
8 0.3844
=0
Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer
(H0 ) :
vs. ipoteza alternativ
1 = 2 , 1 = 2 . n1
i
(H1 ) :
n2
i c
r1 , r2
Z=
Z1 Z2 (Z1 Z2 )
1 n1 3
1 n2 3
N (0, 1) ,
unde
Zi =
1 ln 2
1 + ri 1 ri
Zi =
1 ln 2
1 + i 1 i
i = 1, 2.
coecientul de
date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de
(xi , yi )i=1, n
rS
(xk x)(yk y ) rS =
k=1 n n
. (yk y )2
k=1
(25.3)
(xk x)2
k=1
La fel ca i coecientul lui Pearson, coecientul Spearman ia valori reale n intervalul nsemnnd corelaie pozitiv perfect a rangurilor, iar valoarea a rangurilor. n cazul n care avem
[1, 1];
valoarea
rS
este:
6 rS = 1
i=1
d2 i ,
(25.4)
n(n2 1)
183
i.
Vezi exemplele (25.6)
di = xi yi ,
i (25.7).
Exemplu 25.6
D1
D2)
9
i
soiuri de vin i
A, B , C , D , E , F
G.
Preferinele
acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama Mostra A rang 3 2 5 8 1 7 4 6 9
scatter plot).
D2
D1
rang 5 1 3 7 2 9 4 6 8
B C D E F G H I
scatter plot
cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare numeric acestei concordane, aceasta ind
rS = 0.8667.
Tem!
Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt
semnicativ diferite (
= 0.05).
184
Exemplu 25.7
Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese
prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente. De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind formula (25.3), calculm coecientul de corelaie Spearman. Acesta este Luna
rS = 0.8117.
rang
A 27 24 17 15 12 11
6 5 4 3 2 1
D 8 6 3 5 2 3
rang
2+3 2
2+3 2
6 5 = 2.5 4 1 = 2.5
Analiza regresional
cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete
variabil independent o variabil ce poate manipulat (numit i variabil predictor, stimul sau comandat), iar o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii negre (
x1 , x2 , . . . , xm ,
care sunt prelucrate (n timpul prelucrrii apar anumii parametri, nregistrat ntr-o singur variabila rspuns,
y.
pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce poate aprea la observarea variabilei matematic general
y.
y,
x1 , x2 , . . . , xm ,
y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde
1 , 2 , . . . , k
perturbaie aleatoare. n cele mai multe aplicaii, variabil aleatoare normal de medie zero. cunoscut
a priori,
a priori (denumii parametri de regresie) i este o este o eroare de msur, considerat modelat printr-o Funcia f se numete funcie de regresie. Dac aceasta nu este trial and error (prin ncercri). Dac avem doar spunem c avem o regresie simpl. Regresia multipl face
intuiasc sau s o aproximeze utiliznd metode de tip o variabila independent (un singur
x),
atunci
185
y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).
Forma vectorial a dependenei (25.5) este:
(25.6)
y = f (x; ) + .
Pentru a o analiz complet a regresiei (25.5), va trebui sa intuim forma funciei
(25.7)
i apoi s determinm
(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu
n numrul
(25.8)
de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:
yi = f (x, ) + i ,
n ipoteze uzuale, erorile dou cte dou ( i
i = 1, 2, . . . , n. N (0, ),
ecuaii stochastice algebrice are necunoscutele
independente stochastic
> 0).
{j }j
. < k ),
atunci nu avem suciente informaii pentru a determina aproximrile. Dac
n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai (n problema se reduce la a rezolva
ecuaii cu
n = k, n > k,
atunci atunci
f,
putem avea:
2 f (x; ) = 0 + 1 x1 + 2 x2 + 11 x2 1 + 12 x1 x2 + 22 x2 .
regresie polinomial,
dac
f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea
186
f (x; ) = 0 e1 x . f (x; ) = 0 log1 x.
dac
De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare n parametri. Modelele determinate de aceste funcii se vor numi n cadrul analizei regresionale, se cunosc datele de intrare, regresie
{xi }i ,
{j }j
metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.
187
Matlab
unde:
m x
este un numr real; este un ir de caractere sau vector, asupra cruia facem testul semnelor;
h este rezultatul testului. Dac rezultatul aat este h = 0, atunci ipoteza (H0 ): setul de date x provine dintr-o distribuie continu de median egal cu m, este admis la acest nivel de semnicaie. Dac rezultatul aat este h = 1, atunci ipoteza nul este respins. Se va admite astfel ipoteza alternativ (H1 ): setul de date x provine dintr-o distribuie continu care nu are median egal cu m. Dac m nu apare, atunci se subnelege c m = 0.
variabila de memorie nul, variabila de memorie aeaz
este
P- valoarea,
h = 1.
se
= 0.05
p > 0.05
h = 0.
Altfel, se aeaz
(H0 ):
setul de date
0,
cu ipoteza alternativ c
variabila
stats
nmagazineaz urmtoarele date: pentru observaia considerat (apare doar pentru selecii de
n 30);
method
'approximate';
method
este
'exact',
188
Exemplu 26.1
p = 0.3438
h = 0
stats = sign: 3
Observaia 26.2
Soluie:
Codul
signtest.
Obinem rezultatele:
p = 0.0891
h = 0
Testul seriilor n
Funcia
Matlab
Acesta este un test ce veric dac valorile ce compun irul de caractere abilele
h, p
sunt ca n testul
signtest.
Aici, variabila
stats
lungimile ecrei faze i valoarea statisticii pentru selecia considerat. n urma rulrii comenzii, se va aa valoarea rularea codului
h = 0
= 0.05)
h = 1 n caz contrar.
De exemplu,
189
h = 1
p = 0.0014
38 24 27 3.2899
Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul de semnicaie
= 0.05
(subneles),
P valoarea
este
Pv = 0.0014
Pv
stats aeaz
Comanda urmtoare
h = 0
ori
h = 1,
este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai
mari dect
v,
nu sunt contabilizate;
alpha tail
poate una dintre urm toarele ipoteze alternative: irul nu este aleator (test bilateral). Aceasta opiune poate s nu e specicat,
'both',
'left', dac valorile tind s se adune n ciorchine (test unilateral stnga); 'right', dac valorile tind s se separe (test unilateral dreapta);
De exemplu, s considerm urmtoarele comenzi:
h = 1 h = 0 h = 1
Ipoteza nul este aceea c valorile din irul
p = 0.0043 p = 1 p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]
sunt aleatoare n jurul valorii mediane,
median(y ) = 5.
190
Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.
Exerciiu 26.1
x 3 y 9
2 1 0 1 2 4 1 0 1 4
Exerciiu 26.2
10
discipline,
Sem. I Sem. II
= 0.05);
S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie
Exerciiu 26.3
149 155 148 165 176 144 174 142 145 162 165 154 188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (
= 0.05).
Exerciiu 26.4
8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie repartiie Poisson.
= 0.05,
Exerciiu 26.5
purpurii, iar vericat.
n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui
s produc doar ori albe, roz sau roii, cu probabilitile au fost observate plantele dintr-o selecie de
0.25, 0.5,
546
de plante, observnd c
124
0.25. Pentru a testa teoria, 132 au ori albe, 290 au ori = 0.05 dac teoria lui Mendel este
respectiv
191
100 de 72 la
Exerciiu 26.6
Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.
= 0.05.
71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60 83 73 40 78 70 64 86 76 62 95 66
192
x,
i variabila depen-
{(xi , yi )}i=1, n . Reprezentm grac (a)) i observm o dependen aproape liniar a lui y de x. Dac valoarea coecientului de corelaie liniar, r , este aproape de 1 sau 1 (indicnd o corelaie liniar strns), atunci se pune problema stabilirii unei relaii numerice exacte ntre x i y de y.
S presupunem c ni se d familia de date bidimensionale
x0y
forma
y = 0 + 1 x.
O astfel de dreapt o vom numi
(b).
Exemplu 27.1
15000 RON
12500 EUR.
La
Dac notm cu
exist relaia:
Y = 15000 + 650 X.
n acest exemplu, relaia ntre bidimensionale
{(xi , yi )}i=1, n
reprezentate n Figura 27.1 ar nsemna c toate acestea s-ar aa pe dreapta De cele mai multe ori, datele reale nu urmeaz o astfel de relaie
perfect (spre exemplu, rata lunar poate una variabil, n funcie de rata de schimb care parametrii din dependena liniar trebuie a estimai.
EUR-RON),
caz n
193
Putem presupune astfel c (27.2)
de
este de forma
y = 0 + 1 x + ,
cu
N (0, ).
Plecnd de la
{xi , y i }i ,
elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie
1 .
y i = 0 + 1 x i + i ,
unde
i = 1, n,
(27.3)
i N (0, ), i
Deoarece
i = yi (0 + 1 xi ),
putem interpreta innd cont c
i = 1, n,
ca ind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de sunt valori deterministe, din (27.3) rezult c: pentru ecare
0 + 1 xi ). i N (0, ) i 0 , 1
yi N (0 + 1 xi , ),
de unde, probabilitatea ca ntr-o singur msurtoare a
i, yi
este
xi
s obinem rspunsul
1 (yi 0 1 xi )2 Pi = exp 2 2 2
Deoarece vectorul
{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate): 1 (yi 0 1 xi )2 L(0 , 1 , ) = Pi = n exp 2 2 (2 )n/2 i=1 i=1
n n
maxime.
0 , 1
metoda verosimilitii
0 , 1
0 , 1 ,
Condiiile de extrem (impuse pentru
max L(0 , 1 , ).
ln L) 1 2 2 1 2 2
sunt:
ln L 0 ln L 1 ln L
= =
(yi 0 1 xi )
i=1 n
= =
0; 0; = 0.
xi (yi 0 1 xi )
i=1 n
n 1 + 2 0
(yi 0 1 xi )2
i=1
i
1 ,
1 =
sxy s2 x
0 = y 1 x,
194
unde,
1 x= n
xi ,
i=1
1 y= n
yi ,
i=1
s2 x
1 = n1 y
(xi x) ,
i=1
sxy
1 = n1
(xi x)(yi y ).
i=1
n raport cu
y = y 1 x +
sau, altfel scris,
sxy x, s2 x
y=y+
sxy (x x). s2 x 2
este:
(27.6)
1 = n
2
ns, estimaia pentru
(yi 0 1 xi )2 .
i=1
(27.7)
2 =
1 n2
(yi 0 1 xi )2 .
i=1
(27.8)
Observaia 27.2
(1) Terminologie:
dreapta de regresie, y = 0 + 1 x, este dreapta ce determin dependena lui x, pentru ntreaga populaie de date (dac acasta exist);
liniar a lui
de valorile
195
dreapta de tare, en., tting line), y = 0 + 1 x, este dreapta
care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de
{xi , y i }i .
Valorile (i
yi = 1, n);
se numesc
valorile
i = y i y i
se numesc
2 i,
sau
rezidual este
SSE , n2
notat
MSE
se numete
se poate demonstra c
2 SSE = (n 2) 2 2 (n 2). 2
cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui n formula (27.8),
2.
(n 2)
SSE.
(2)
(x, y )
n jurul dreptei de
regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor necunoscui, i nu valorile lor exacte. Formula pentru
1 = xy
(3) Dac deviaia standard
sy . sx
mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor
SSE.
n 0 , 1 n
Notnd cu
min
i=1
F (0 , 1 ) =
i=1
(yi 0 1 xi )2 , F 0 F 1
= 2
i=1 n
(yi 0 1 xi ) xi (yi 0 1 xi )
i=1
= =
0; 0. 0 1
= 2
1 ,
gsim soluiile
i, respectiv,
de
mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.
196
lorile calculate pe baza datelor experimentale populaie, se vor utiliza testri statistice. valorilor ambilor parametri, dreptei de regresie,
1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot considerate valorile potrivite pentru ntreaga
1 ,
ns cel mai uzual test este testul pentru vericarea valorii pantei
1 . 1
i
Mai nti, vom calcula media i dispersia pentru ecare dintre Avem succesiv,
0 .
E(1 ) = E sxy s2 x
Aici,
xi
yi
y = 0 + 1 x +
obinem c
1 n
i ,
i=1
E(y ) = 0 + 1 x.
ns,
i.
1 =
i=1 n
(xi x)2 = 1 .
2
(xi x)
i=1
Pentru
2 i=1
(xi x)
avem:
0 ,
ct i
1 ,
i, respectiv,
1 .
n
Calculm acum dispersiile
D 2 1
D2 0
. Deoarece
(xi x)y = 0,
i=1
avem:
D2 1
(xi x)2
i=1
2 s2 2 x = . s4 s2 x x
(27.9)
D2 (X + Y ) = D2 (X ) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:
D2 0 = D2 (y 1 x) = D2 (y ) 2 x cov(y, 1 ) + x2 D2 1 .
(27.10)
197
n
D2 (y ) = D2
i
1 n
i
i=1
1 2 2 n = n2 n
cov
n n i=1
y, 1
1 cov n
i ,
i=1
n n
1 cov n
= n
1
n
i ,
i=1 i=1
(xi x)i
(xi x)
i=1 n
(xi x) 2 =
i=1 n
= 0. (xi x)
2
n
i=1
nlocuind n (27.10), gsim c
D2 0 = x2
innd cont c estimatorii
2 2 + = 2 s2 n x
1 x2 + n s2 x
(27.11)
1 n
x2 s2 x
t(n 2)
(27.12)
1 1
sx
Aici, am notat prin
t(n 2).
(27.13)
cantitatea:
1 n2
1 2
(yi 0 1 xi )2
i=1
. 0
i
Putem folosi aceste statistici pentru a determina intervale de ncredere pentru ncredere pentru
1 .
Un interval de
la nivelul de semnicaie
este:
0 t1 ; n2 2
1 x2 + , n s2 x
0 + t1 ; n2 2
1 x2 + . n s2 x
(27.14)
198
1
la nivelul de semnicaie
este:
1 t1 ; n2 2
, sx
1 + t1 ; n2 2
. sx
(27.15)
Observaia 27.3
a priori.
n cazul
0 0
1 n
x2 s2 x
N (0, 1),
1 1
sx
N (0, 1).
(27.16)
z1 2
1 ; n2 2
0 i 1 vor similare cu cele din relaiile (27.14) i (27.15), z1 . Oricum, pentru n sucient de mare, valorile t1 ; n2 2 2
R2 (= r2 )
R2 = 1
unde
s2 y/x s2 y
(27.17)
s2 y/x
1 = n1
(yi 0 1 xi ) ,
i=1
s2 y
1 = n1
(yi y )2 .
i=1
2 n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate construit o
valoare prezis pe baza valorilor independente.
ia o valoare dat
10
(H0 ) :
Considerm statistica
1 = 10
versus
(H1 ) :
1 = 10 .
T =
care urmeaz repartiia
1 1
sx
t(n 2).
T0 =
Calculm cuantila de ordin Dac
1 10
sx
. (n 2)
grade de libertate,
2 pentru repartiia
cu
t1 ; n2 ; 2
|T0 | < t1 ; n2 , 2
Dac
(H0 ); (H1 );
|T0 | t1 ; n2 , 2
199
Observaia 27.4
(H1 )s :
(2) Dac
1 < 10 , 1 = 0
(H1 )d :
1 > 10 . x
i
10 = 0,
exist o dependen
liniar.
ia o valoare dat
(H0 ) :
Considerm statistica
0 = 0
versus
(H1 ) :
0 = 0 .
T =
care urmeaz repartiia
0 0
1 n
x2 s2 x
t(n 2),
t(n 2).
T0 =
Calculm cuantila de ordin Dac
0 0 1 n
x2 s2 x
t(n 2).
2 pentru repartiia
cu
(n 2)
grade de libertate,
t1 ; n2 ; 2
|T0 | < t1 ; n2 , 2
Dac
(H0 ); (H1 ); 0 .
pentru
|T0 | t1 ; n2 , 2
Observaia 27.5
n cazul n care
De asemenea, teste unilaterale pot considerate i n cazul testrii valorii lui este cunoscut
a priori
0 ,
ct i pentru
1 .
n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu, putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele nvecinate. Regresia poate utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe care le deinem, valoarea
{(xi , yi }i=1, n ,
i
Dat ind o
xp
ce nu se a printre valorile
xi ,
independente,
xmin
xmax ,
y p = 0 + 1 x p + p .
200
de regresie
pentru
0 ,
respectiv,
1 ,
atunci
valoarea prezis
(27.18)
yp = 0 + 1 xp .
Un interval de ncredere pentru
pentru un
xp
este:
yp t1 ; n2 2
1+
1 (xp x)2 + , n s2 x
yp + t1 ; n2 2
1+
1 (xp x)2 . + n s2 x
(27.19)
Observaia 27.6
i
xp
xmin
xmax .
pentru
x,
cu
yp
pentru orice
x [0, 10].
Dac, folosind
x = 19,
atunci am gsi c
y (19) 10,
y (19) 6.5,
mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale
Aceasta
yp
nu este una stabilit cu exactitate, ci este doar o medie ateptat a valorilor n cazul n care
pentru un
xp
dat.
R2 = 1
va prezis fr eroare, deoarece toate punctele se a pe dreapta de regresie. n general, punctele Valoarea
bidimensionale (3)
(x, y ) yp este
se a mprtiate n jurul dreptei de regresie. determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast
valoare poate extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea
yp
cu o constant dat.
201
(H0 )
yp = y0
versus
(H1 )
yp = y0 .
Estimm
yp
Considerm statistica
T =
yp y
1 MSE( n + (xp x)2 2) i (xi x)
t(n 2);
Calculez valoarea
T0 =
yp y0
1 MSE( n + (xp x)2 2) i (xi x)
Dac
|T0 | < t1 ; n2 , 2
Dac
(H0 ); (H1 );
|T0 | t1 ; n2 , 2
(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice cu succes chiar
10
dintre ultimele
recesiuni!
Exemplu 27.7
yp
la nivelul de ncredere
este:
yp S t1 ; n2 , 2
unde
(27.20)
S=
MSE 1 +
(de vericat!)
Observaia 27.8
y,
folosind pe
x.
n Exerciiul 28.1 am putea estima notele la Probabiliti n funcie de notele la Statistic. obinute pentru dreapta de regresie a lui regresie a lui
n raport cu
n raport cu
x,
sunt inversate.
202
i regresiei:
scatter(X,Y)
R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma: >> ans = 1.0000 1.0000
unde
1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
este (9.3).
cov(X,Y) pentru matricea de covarian empiric dintre X i Y (formula (9.2)); Funcia cov(X,Y,1) este tot matrice de covarian, ns n acest caz formula folosit
b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor
independente). Dac Dac
X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar. X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de
0
i
regresie avem
liniar multipl.
1 pentru care y = 0 + 1 x, unde pentru ecare k = 2. Fie X, respectiv, Y vectorii ce conin aceste
dintre
observaii. Comanda
y1 y2 . . . yn
0 i 1 ce fac urmtoarea 1 x1 x2 1 . . + 1 . . . . . 1 xn
aproximare ct mai
p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie cel mai mult de datele observate yi , n sensul celor mai mici ptrate. va aa n acest caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a
Matlab
p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci
Matlab va aa
n , . . . , 1 , 0 .
203
Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n
Matlab:
p = [3
obinnd rezultatul:
2 4];
polyval(p,[-3 1 5])
ans =
37
69
Exerciiu 28.1
obinute de (b)
Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti n acest sens, au fost observate notele
10
studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:
(a) Stabilii dac exist o legtur puternic ntre aceste note (r i desenai-o n acelai sistem de axe ca i notele obinute (
r2 );
scatter plot).
(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.
82 84
36 42
72 50
58 64
70 68
48 54
44 46
94 80
60 60
40 32
folosind formula (25.2) sau scriind desfurat expresia lui (b) Coecienii de regresie se pot obine n de calcul a coecienilor
r.
Matlab
regress
Matlab.
P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mean(P); ms = mean(S); %%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(P,S); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(P,S)/(std(P)*std(S)); r = C(1,2); % r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(P,S,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;
204
% B = regress(S',[P;ones(10,1)']'); %%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-') % scatter(P,S) % varianta pentru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('P si S nu sunt corelate') else disp('P si S sunt corelate') end
Rulnd codul de mai sus, obinem:
r = 0.8247
B = 0.7553
10.3816
P si S sunt corelate
Exerciiu 28.2
x = y =
0.3 3.52
0.8 4.53
x
1.2 5.58
i
1.6 6.62
2.1 8.27
2.4 10.18
2.7 11.80
de forma
y = a eb x .
Soluie:
Calculm
ln y .
Obinem:
ln y =
1.2585
1.5107
1.7192
1.8901
2.1126
2.3204
2.4681
205
(coecientul de corelaie ntre
r = 0.9988 1
ln y ),
ln y .
0 = 1.1074,
1 = 0.4980.
ln y
fa de
regress(log(y)',[x',ones(7,1)])
Aadar,
ln y = 0.4980 x + 1.1074,
de unde
Exerciiu 28.3
la ecare
Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca. Pentru o vericare, au fost msurate simultan temperaturile
1km
ctigat n nlime.
6 C n 10
localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune
hi Ti
500 15
1000 14
1500 11
2000 6
2500 1
3000 2
3500 0
4000 4
4500 8
5000 14
1 ; 1 = 0.006); 1 ;
= 0.05)
(iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie, (v) Estimai temperatura la altitudinea aceasta temperatur.
h = 2544.
Soluie:
(i)
polyfit
Matlab
(H0 ) : 1 = 0.006
206
1
se poate calcula folosind formula (27.15).
R2 .
Acesta este
R2
= 94.83,
xp = 2544.
h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000]; T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T); %%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~ CC = corrcoef(h,T); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(h,T,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % B = regress(T',[h;ones(10,1)']'); % b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh; %%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-') %%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sigmax = std(h); T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('ipoteza (H0 ) se accepta') else disp('ipoteza (H0 ) se respinge') end %%%~~~~~~~~~~~~~~~ Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ... Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:
r = -0.9738
R2 = 94.83 Tp = 3.3610
B =
CI =
[-0.0096, -0.0026]
Statistics Toolbox):
(x, y )
cu un polinom
207
de grad
xname,
respectiv
yname.
Exemplu 28.4
x = [-3 -2 -1 0 1 2]; y = [8.75 3.8 1.2 0.05 1.01 4.02]; polytool(x,y,2,0.05,'observatii pt X','observatii pt Y')
rstool(x, y, model, alpha, xname, yname)
poate una dintre urmtoarele: - deschide o interfa interactiv pentru a deter-
(x, y ), dup modelul precizat. Aici, model linear, pure quadratic, interaction sau full quadratic.
Exemplu 28.5
X = [2 2 2; 2.5 2 2; 2 4.5 2; 2.5 4.5 2; 2 7 2; 2.5 7 2;... 2 2 5; 2.5 2 5; 2 4.5 5; 2.5 4.5 5; 2 7 5; 2.5 7 5]; Y = [291 353 400 400 504 442 273 304 397 424 402 431]'; xn = {'x1', 'x2', 'x3'}; yn = {'Y'}; rstool(X,Y, 'interaction', 0.05, xn, yn)
208
209
29
Anexa 1
Matlab
Scurt introducere n
Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz cu care opereaz
este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important caracteristic a
Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile. Prezentm mai jos o scurt introducere n
Matlab-ului
Matlab a principalelor funcii i comenzi folosite n aceast Matlab ale unor noiuni de
Statistics
lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n Teoria Probabilitilor i Statistic matematic. Folosind comanda ct i a pachetelor de funcii (
demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,
Toolbox,
toolbox)
care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:
analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson, relor aleatoare, analiza regresional, descrieri statistice.
2 ),
generarea nume-
Comenzile
Matlab pot scrise n iere cu extensia .m, ce urmeaz apoi a compilate. Un ier-m Matlab poate folosit ca pe un mediu computaional interactiv, caz n
const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii recursive. De asemenea, care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sau evaluate imediat. De exemplu, introducnd la linia de comand
>> a = sqrt((sqrt(5)+1)/2)
Variabilele sunt denite cu ajutorul operatorului de atribuire, calculul unei expresii sau al unei funcii.
=,
de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din
Pentru a gsi informaii imediate despre vreo funcie predenit, comanda De exemplu,
help
va vine n ajutor.
210
LENGTH Length of vector. LENGTH(X) returns the length of vector X. It is equivalent to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel.
Comanda menzii
help poate utilizat doar dac se cunoate exact lookfor este recomandat. De exemplu, comanda
NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector.
O linie de cod de
>> v = [1,3,5,7,9]
% sau
v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate realizat i folosind de la 1 la 9, cu pasul 2. Pentru un vector coloan,
v = 1:2:9
>> v = [1;3;5;7;9]
% vector coloana
>> v = linspace(x1,x2,n)
adic
x1
x2.
Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]
211
A =
1 4
2 5
3 6 A(i,j)
sau
Apelul elementelor unei matrice se poate face prin comenzile coloan Funcia Funcia ordin
j)
sau
A(i,:)
A(:,j)
(elementele de
(elementele de linia
i); m n, avnd toate componentele egale cu 1. m n. Funcia eye(n) denete matricea unitate de
n.
Matlab permite denirea unor funcii foarte complicate prin scrif (x, y ) = e5x sin 3y :
erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii
inline.
f (7, )
prin
>> f(7,pi)
0.5827
Un program
Matlab poate scris sub forma ierelor script sau a ierelor de tip funcie. Ambele Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut
script este un ier extern care conine o sec-
tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii, care le pot completa pe cele deja existente. Un ier ven de comenzi
n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv, adic n modul linie de comand.
Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
% atribuirea valorilor matricei data % prima linie a datelor copiate % ultima linie a datelor copiate % inchidem paranteza ce defineste matricea de date
vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n
212
% alegem fisierul unde salvam datele % salveaza in fisierul Timpi_de_reactie.mat
Fiierele funcie
Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului ier funcie. acesteia.
Astfel,
.m
conine cuvntul
function,
Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect
variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
function
este este cuvntul care declar ierul ca ier funcie; este numele funciei, care este totuna cu numele sub care se salveaz ierul; sunt parametrii de ieire; sunt parametrii de intrare.
nume_functie param_iesire
param_intrare
Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia
.m.
Exemplu 29.1
tor
Fisierul
Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate.
Statistics Toolbox
simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI), analiza regresional, descrieri statistice, teste statistice. n Tabelul 29.1 am adunat cteva comenzi utile n
Matlab.
213
permite adaugarea de comentarii in cod help specic pentru funcia
cauta intrarile n
Matlab pentru
7 5 10
la
rand normal
vector linie cu
elemente elemente
vector coloan cu
2 n 2 % lungimea vectorului X % denete o diviziune a [0, 3 ] cu diviziunea 0.01 % ridic toate componentele vectorului X la puterea a doua % produsul a doi vectori % suma cumulat a elementelor vectorului X % produsul cumulativ al elementelor vectorului X % realizeaz minimum dintre componentele lui X % realizeaz maximum dintre componentele lu X % ordoneaz componentele lui X n ordine crescatoare % ordoneaz componentele lui X n ordine descrescatoare % funcia eroare % calculeaz exponenial ex % calculeaz logaritmul natural ln(x) % calculeaz radicalul ordinului doi dintr-un numr % furnizeaz valoarea numeric a lui x % n! % A e matrice m n, cu toate elementele 1 % matrice m n zero % matrice unitate, n n % matrice 3 3 % dimensiunea matricei A % determinantul matricei A % inversa matricei A % transpusa matricei A % coloana a 7-a a matricei A % scoate primele 20 de linii ale lui A % combinri de n luate cte k % numarul 105 % numarul e % reprezentarea prin bare % reprezentarea prin histograme % reprezentarea prin histograme 3-D % deseneaz primele 5 componente ale lui X , cu * magenta % deseneaz gracul lui X versus t, cu linie continua % deseneaz un grac n 3-D % deseneaz o funcie scara % mparte gracul n m n zone & deseneaz n zona z % logaritmeaz valorile de pe absci, resp., ordonata % reine gracul pentru a realiza o nou gura % terge gura % terge toate variabilele denite % adaug titlu gurii % gsete indicii elementelor nenule ale unui vector % ataeaz o legend la un grac
vector cu numerele intregi de la din
10,
Matlab utile
214
30
Anexa 2
Matlab.
(1)
(unid)
Scriem c
sunt
{1, 2, . . . , n}, 1 , n
cu probabilitile
P (X = k ) =
Media i dispersia sunt:
k = 1, 2, . . . , n.
Exemplu:
(2)
E(X ) =
n+1 2 ,
D 2 (X ) =
n2 1 12 .
numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat
U (6).
(bino)
Scriem
X = 1
(succes) sau
X = 0
(insucces), cu probabilitile
Exemplu:
(3)
aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a.
(bino)
Scriem
X B (n, p) (schema bilei revenite sau schema X sunt {0, 1, . . . , n}, cu probabilitile
extragerilor cu repetiie)
k k P (X = k ) = Cn p (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt: Dac
(Xk )k
X=
k=1
Xk B (n, p).
binomial
Exemplu:
(4)
B (15, 0.5).
X H(n, a, b)
(n, a, b > 0)
dac
P (X = k ) =
25 Jacob
k C nk Ca b , n Ca +b
pentru orice
ce satisface
215
EX =
i=0
a+bn . a+b1
Observaia 30.1
(i)
Dac
cu
p=
X=
i=1
Xi H(n, a, b).
n
n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre nu sunt independente stochastic. (ii) Pentru
D2 (X )
D2 (Xi ),
i=0
deoarece
(Xi )i
N =a+b
n,
a+bn a+b1
a+bn a+b
=1
n N , de unde
(30.1)
D2 (X ) np(1 p) 1
n . N
Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin termenul
N n N 1 . n cazul n care numrul de bile este mult mai mare dect numrul de extrageri (N n acest termen devine aproximativ 1 N . n plus, dac N este foarte mare, atunci trecnd
n), atunci N n
(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.
(5)
Repartiia Poisson26 , P ()
(poiss)
Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea val de timp. Pentru un cu probabilitile
> 0,
spunem c
X P ()
(legea
P (X = k ) = e E(X ) = ; D2 (x) = .
(6)
k , k N. k!
(geo)
Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes, stiind probabilitatea de obinere a unui succes, Spunem c
p.
ia valori n
X G eo(p),
(p (0, 1))
dac
N,
cu probabilitile
pentru orice
k N,
unde
p 0.
X G eo(p),
Y =X +1
reprezint
ateptarea pn la
216
(nbin)
Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang n cazul particular Pentru
m.
cu
m = 1,
m 1, p (0, 1),
X BN (m, p)
dac
ia valorile
{m, m + 1, m + 2, . . . },
probabilitile
m1 m k P ( X = k ) = Cm +k1 p (1 p) , k m, p 0.
Media i dispersia sunt:
E(X ) =
m(1 p) m(1 p) ; D 2 (X ) = . p p2
(unif)
V.a.
1 ba
Exemplu:
(0, 1),
U (0, 1).
Comanda
rand
din
(2)
Repartiia normal, N (, )
X N (, ),
dac
(norm)
Spunem c
are densitatea:
(x)2 1 f (x; , ) = e 22 , x R. 2
E(X ) = i D2 (X ) = 2 .
Se mai numete i repartiia gaussian. n cazul
= 0, 2 = 1
x2 1 f (x) = e 2 , x R. 2
urmeaz
= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard ( 3, + 3 ) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei
X
i
Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z = N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele) are o notaie special, (x). Ea e denit prin: 1 (x) = 2
x
y2 2
dy.
(30.3)
217
X N (, )
F (x) = (
(3)
x ),
x R.
(30.4)
(logn)
Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri viitoare pentru un activ nanciar. densitatea de repartiie Dac
X N (, ),
1
atunci
Y = eX
este o v.a.
nenegativ, avnd
f (x; , ) =
Aadar,
e 2
(ln x)2 2 2
0 Y log N (, )
dac Media i dispersia sunt date de
ln Y N (, ). 2 E(X ) = e+ /2 ,
D2 (X ) = e2+ (e 1).
(exp)
(4)
Valorile sale sunt timpi realizai ntre dou valori spontane repartizate Spunem c
P ().
X exp() ( > 0)
f (x; ) =
Media i dispersia sunt:
E(X ) =
D 2 (X ) =
Observaia 30.3
218
Vericai!]
Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret a acestei proprieti. [
(5)
(gam)
O v.a.
f (x; a, ) =
unde
a a1 x e (a) x
, dac , dac
x > 0, x 0.
: (0, ) (0, ),
Media i dispersia sunt:
(a) =
0
xa1 ex dx.
E(X ) =
a a , D 2 (X ) = 2 .
n
sunt independente stochastic, atunci suma lor
Observaia 30.4
(ii) Dac v.a.
(i)
(6)
(wbl)
Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular
k = 1)
k = 3.4,
x k x k1 ( ) e
0 E(X ) = 1 +
este
(7)
Repartiia 2 , 2 (n)
X 2 ( n )
(se citete
(chi2)
O v.a. este:
x 2 1 e 2
, dac , dac
x > 0, x 0. n)
este reprezentat
0
unde
este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui
E(2 ) = n, D2 (2 ) = 2n.
27 Ernst
219
Repartiia
Observaia 30.5
(b)
(a)
n particular, dac
X N (0, 1),
atunci
X 2 2 (1).
(8)
(t)
Spunem c
x2 1+ n
n+1 2
x R.
n . n2
(f)
Spunem c
este:
E(X ) =
28 William 29 Sir
Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic
220
(fr corespondent n
Repartiia Cauchy30 , C (, )
X C (, )
Matlab)
Spunem c
f (x; , ) =
NU admite medie, dispersie sau momente!!!
, [(x )2 + 2 ]
x R.
30 Augustin
221
Bibliograe
[1] Petru Blaga, [2] David Brink, [3] David Brink,
Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002. Statistics compendium, David Brink & Ventus Publishing ApS, 2008. Statistics exercises, David Brink & Ventus Publishing ApS, 2008. Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic
1968.
[4] Gheorghe Ciucu, Virgil Craiu, i Pedagogic, Bucureti, [5] Steve Dobbs, Jane Miller,
Statistics 1, Cambridge University Press, Cambridge 2000. Modern Mathematical Statistics with Applications (with CD-ROM), Introduction to Mathematical Statistics, Prentice Mic enciclopedie de sta-
2006. 2004.
[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Hall, 6th edition,
[9]
http://www.mathworks.com
Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976. Probabiliti i Statistica matematic - Computer Applications, Iai, 2000. Applied Linear Regression,
Wiley series in Probability and Statistics,
3rd 2nd
ed.,
2005.
[14] Larry J. Stephens,
ed.,
[15] Dominick Salvatore, Derrick Reagle, Outline Series, [16] Iulian Stoleriu, [17] Gbor Szkely,
2nd
Statistic prin
Cambridge University
2001.