Curs

Iulian STOLERIU
Statistic Aplicat
1 Statistic Aplicat (C1) Introducere n Statistic

Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii, de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. n general, prin date (sau date statistice) nelegem o mulime de numere ce au o anumit nsemntate. Aceste numere pot legate ntre ele sau nu. Suntem interesai de studiul acestor date, cu scopul de a nelege anumite relaii ntre diverse trsturi ce msoar datele culese. De regul, oamenii au anumite intuiii despre realitatea ce ne nconjoar, pe care le doresc a conrmate ntr-un mod ct mai exact. De exemplu, dac ntr-o anumit zon a rii rata somajului este ridicat, este de ateptat ca n acea zon calitatea vieii persoanelor de acolo s nu e la standarde ridicate. Totui, ne-am dori s m ct mai precii n evaluarea legturii dintre rata somajului i calitatea vieii, de aceea ne-am dori s construim un model matematic ce s ne conrme intuiia. Un alt gen de problem: ardem de nerbdare s am cine va noul preedinte, imediat ce seciile de votare au nchis porile (exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea i unicarea tuturor datelor ntr-un timp record nu este o msur deloc practic. n ambele probleme menionate, observaiile i culegerea de date au devenit prima treapt spre nelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate complet descris de un astfel de model, dar scopul este de a oferi o aproximare ct mai del i cu costuri limitate. n ambele situaii menionate apar erori n aproximare, erori care in de ntmplare. De aceea, ne-am dori s putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate, Statistica introduce metode de predicie i prognoz pentru descrierea i analiza proprietilor ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale, umanistic sau afaceri etc. O disciplin strns legat de Statistic este Econometria. Aceasta ramur a Economiei se preocup de aplicaii ale teoriilor economice, ale Matematicii i Statisticii n estimarea i testarea unor parametri economici, sau n prezicerea unor fenomene economice. Statistica a aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaiile pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii. Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o tiin separat de Teoria Probabilitilor. Datorit revoluiei computerelor, Statistica a evoluat foarte mult n direcia computaional, pe cnd Teoria Probabilitilor foarte puin. Aa cum David Williams scria n [18], "Teoria Probabilitilor i Statistica au fost odat cstorite; apoi s-au separat; n cele din urm au divorat. Acum abia c se mai ntlnesc". Din punct de vedere etimologic, cuvntului statistic i are originile n expresia latin statisticum collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau politician. n 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecii i clasicri de date. Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline. Amintim aici doar cteva
C1 & L1 [Dr. Iulian Stoleriu]
exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite
pe un anumit teren arabil;
n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-
larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via; pentru selectarea unor noi specii;
n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n nvmnt; sau pentru a studia efectele nclzirii globale;
n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp, n Medicin, pentru testarea unor noi medicamente sau vaccinuri; n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate; n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei; n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie) poate populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor unei colectiviti poate fcut att numeric (media, dispersia, mediana, cuantile, tendine etc), ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc. Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag
informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea, partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea ar ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de programe pentru efectuarea calculelor, n versiunea 7.1. Acest software este introdus i dezvoltat de compania The MathWorks (vezi [9]).
Matlab
Matlab
Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie. Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit pentru analiza acestora. n general, date culese de noi pot potrivite ntr-un model statistic prin care Data observat = f (x, ) + eroare de aproximare, (1.1) unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese. Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur comun. Aceasta poate nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracteristici numerice ale colectivitii. Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem trage o concluzie n ceea ce privete variabila colectivitii. O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)
din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat. Spre exemplu, dac dorim s facem o prognoz a cine va noul preedinte la alegerile din toamn, eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se face, n general, fr repetiie, dar l putem considera a o selecie repetat, n vederea aplicrii testelor statistice. Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai
ans de a alei. Aceast metod mininimizeaz riscul de a prtinitor sau favorabil unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de vedere al trsturii studiate.
selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea
numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele 10 din list).
selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-
plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s poata reprezentat n selecie. Alegerea poate facut i n funcie de mrimea ecrui grup ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane, proporional cu numrul de persoane din ecare jude). anumite straturi (nu din toate). de pe o encefalogram).
selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii. selecie de judecat: cine face selecia decide cine ramne sau nu n selecie. selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai
mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare
gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor ntregii ri, ntr-o scar mult mai mic).
Organizarea i descrierea datelor

Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic. (e.g., colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai ntr-un anumit an de studii, iar caracteristica este numrul de credite obinute de studeni n decursul acelui an). Vom numi date informaiile obinute n urma observaiei valorilor acestei caracteristici. Datele pot calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ sau, respectiv, cantitativ. Aceste date pot date discrete, dac sunt obinute n urma observrii unei caracteristici discrete (o variabila aleatoare discret), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu). n cazul din exemplu, datele vor cantitative i discrete. Primul pas n analiza datelor proaspt culese este de a le ordona i reprezenta grac, dar i de a calcula anumite caracteristici numerice pentru acestea. Datele nainte de prelucrare, adic exact aa cum au fost culese, se numesc date negrupate. De exemplu, numrul de apeluri la 112 n luna Iulie, specicat zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.
Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele de selecie obinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte x1 , x2 , . . . , xr , r n, atunci ele pot grupate ntr-un aa-numit tabel de frecvene (vezi exemplul din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x1 f1 x2 f2 ... ... xr fr
unde fi este frecvena apariiei valorii xi , (i = 1, 2, . . . , r), i se va numi distribuia empiric de selecie a lui X . Aceste frecvene pot absolute sau de relative. Un tabel de frecvene (sau o distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.

nota 2 3 4 5 6 7 8 9 10 Total frecvena 2 4 8 15 18 17 15 7 4 90 frecvena relativ 2.22% 4.44% 8.89% 16.67% 20.00% 18.89% 16.67% 7.78% 4.44% 100%
Tabela 1.1: Tabel cu frecvene pentru date discrete. Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul: valori pentru variabile, frecvene sau frecvene relative. n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret.
Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena
relativ) Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit capul, i spune pacientului: "Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce contracteaz aceast boal, doar unul scap." Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun: "Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!" (2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii. Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 ) f1 [a1 , a2 ) f2 ... ... [ar1 , ar ) fr
sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip continuu de mai sus n tablou de distribuie:
[0, 1) 14
1 Gyrgy
[1, 2) 17
[2, 3) 21
[3, 4) 18
[4, 5) 16
[5, 6) 14
(1.2)
Plya (1887 1985), matematician ungur

1.02 0.13 2.98 0.94 1.12 3.79 3.12 5.36 2.01 5.32 4.33 3.44 4.75 1.48 0.71 1.32 2.08 3.97 5.08 1.35 2.88 2.65 2.76 3.78 3.36 4.67 3.64 4.30 1.55 1.95 2.03 4.31 0.79 2.92 4.55 3.95 0.10 0.92 3.58 3.14 2.67 5.87 5.88 4.22 4.08 5.64 0.99 2.86 0.70 1.58 5.69 2.35 1.95 0.78 2.41 5.04 5.49 5.41 1.30 0.91 2.34 3.19 5.33 0.48 1.68 4.50 1.26 4.51 5.41 2.40 2.77 2.46 4.06 0.74 3.53 5.14 1.50 3.20 1.40 3.55 3.64 4.55 2.75 0.83 2.51 2.16 2.63 4.77 1.89 1.67 3.74 5.80 4.98 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Tabela 1.2: Date statistice negrupate

clasa frecvena valoare medie
[a0 , a1 ) [a1 , a2 )
. . .
f1 f2
. . .
x1 x2
. . .
[ar1 , ar )
fr
xr
Tabela 1.3: Tabel cu frecvene pentru date continue. Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate scris i sub forma:
data :
x1 f1 x2 f2 ... ... xr fr
unde
xi = ai 1 + ai este elementul de mijloc al clasei [ai1 , ai ); 2
r
fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),

i=1
f i = n.
Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor care au fost selecionate pentru studiu. Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat a unei clase este suma frecvenelor tuturor claselor cu valori mai mici. Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1 t1 x2 t2 ... ... xn tn ,

vrsta frecvena 34 76 124 87 64 385 frecvena relativ 8.83% 19.74% 32.21% 22.60% 16.62% 100% frecvena cumulat 8.83% 28.57% 60.78% 83.38% 100.00% vrsta medie 21.5 30 40 50 60 -
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
Total
Tabela 1.4: Tabel cu frecvene pentru rata somajului. unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).
Motive serioase pentru care merit s devii statistician

(top 10)
(10) Pentru statisticienii, deviaiile sunt considerate a normale. (9) Statisticienii lucreaz discret i continuu. (8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit. (7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%. (6) Normalitatea nu este o condiie sine qua non. (5) Suntem semnicativ diferii. (4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva. (3) Statistica este arta de a nu nevoit s spui vreodat c ai greit. (2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n ghea i s spun c, n medie, se simte bine. (1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne omer.
Laborator 1 [Dr. Iulian Stoleriu]
2 Statistic Aplicat (L1)

Reprezentri grace
Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe ori baza unor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri pot fcute n diferite moduri, dintre care amintim pe cele mai uzuale.
0.6
0.4
0.2
10
Figura 2.1: Reprezentarea cu puncte.
Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosit pentru selecii de dimensiuni mici. Sunt reprezentate puncte aezate unul peste celalalt, reprezentnd numrul de apariii ale unei valori pentru caracteristica dat. Un astfel de grac este reprezentat n Figura 2.1. Aceste reprezentri sunt utile atunci cnd se dorete scoaterea n eviden a anumitor plcuri de date (en., clusters) sau chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate. O funcie util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit) la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X
Matlab
Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type' se refer la tipul de linie folosit; poate linie continu (n mod implicit), punctat (:) sau de tip linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')
10
produce Figura 2.2.
Figura 2.2: Reprezentarea datelor discrete.
Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem leaf
10 9 8 7 6 5 4 3 2 1 0
2 1 3 1 0 1 4 8
6 5 5 2 3 4 9
6 7 2 5 8
8 779 488 9
Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.
11
Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia . n capitolul urmtor vom
Matlab
Figura 2.3: Reprezentrile cu bare. prezenta o scurt introducere n . Pentru mai multe detalii, se poate consulta ghidul online de utilizare [9]. Comenzile uzuale pentru reprezentarea cu bare sunt:
Matlab
Matlab
bar(X, Y, 'style'); barh(X, Y); bar(X, w); bar3(Y, w, 'style')
% % % % %
deseneaza vectorul Y vs. vectorul X deseneaza pe orizontala vectorul Y vs. vectorul X deseneaza vectorul X vs. 1:N (N este lungimea lui X); deseneaza vectorul Y prin bare 3D w este latimea barelor, 'style' este modul reprezentarii
Mai sus,
alturat), sau
'style' poate una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate 'stacked' (bare suprapuse).
(1) Comanda care produce primul grac din Figura 2.3 este:
Exemplu 2.1
bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

Aici, vectorul este
X este vectorul linie [2 3 4 5 6 7 8 9 10], [2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.
scris prescurtat prin
[2:10],
iar vectorul

(2) Comanda
12
Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din
Tabelul 2.1:
barh(5:9, [3 5 6 4 2], 0.5)

3D trei vectori: X (numerele naturale de la 1 la 7), Y (permutare aleatoare a elementelor lui X ) i Z (numere naturale pare, de la 14 la 2). Cei trei vectori formeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac n m n zone dreptunghiulare i se poziioneaz pe zona de rang p, unde va executa comanda ce urmeaz. Figura 2.4
(3) n Figura 2.4, am reprezentat prin bare este generat de codul urmtor:
X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z']; subplot(1,3,1); bar3(M, 0.75, 'detached') subplot(1,3,2); bar3(M, 0.75, 'grouped') subplot(1,3,3); bar3(M, 0.75, 'stacked')
Figura 2.4: Reprezentare 3D prin bare.
Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson cuvintele greceti
histos (gr.,
ridicat n sus) i
gramma (gr.,
2 n
1895.
desen, nregistrare). O
histogram
Acesta deriv din este o
form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot aprea bare de nalime zero ce arat a spaiu liber) i ariile barelor sunt proporionale cu frecvenele corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este
2 Karl
Pearson (1857 1936), statistician, avocat i eugenist britanic
13
nlimea (n cm) frecvena

[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) 5 13 23 17 10 2
Tabela 2.2: Tabel cu nlimile plantelor. Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei se mai numesc i
densiti de frecven.
=k
n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac: frecvena limea clasei
nlimea
k = factor
de proporionalitate.
Comenzile
Matlab uzuale pentru crearea histogramelor sunt:

% % % % % % % unde X este un vector, n este numarul de bare deseneaza distributia vectorului X, cu numarul de bare egal cu lungimea vectorului Y, centrate in elementele lui Y returneaza numarul N de valori ale vectorului X, care se afla intre elementele vectorului E reprezinta grafic pe N determinat anterior realizeaza o histogram 3D, unde Y este vector bidimensional
hist(X, n); hist(X, Y); N = histc(X,E); bar(E,N,'histc') hist3(Y)
Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul
Matlab care produce acest grac este:
X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ... 5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor hist(X,C); % deseneaza 6 histograme axis([-1 31 0 30]) % fixeaza axele
2.2
S presupunem c altcineva ar grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu sunt echidistante (vezi Tabelul 2.4). n Tabelul 2.4, datele din ultimele dou clase au fost cumulate ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea

suciente date. Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.
14
Conform cu
regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei corespunztoare, deoarece limea acesteia este dublul limii celorlalte. n general, pentru a construi o histogram, vom avea n vedere urmtoarele:
datele vor mprite (unde este posibil) n clase de lungimi egale.

alteori va trebui s le fabricm.
Uneori aceste divizri sunt naturale,
numrul de clase este, n general, ntre
20.
nregistrai numrul de date ce cad n ecare clas (numite
frecvene).
gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.
Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:
x = randn(1000, 2); hist3(x)
% numere repartizate normal
Figura 2.5: Histogram 3D.
Observaia 2.2
[20, )),
lui precedent.
(1)
Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este
atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-
(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea utiliza alte valori. Spre exemplu, s considerm clasa ce au nlimea cuprins ntre i
[15, 20).
Aceast clas reprezint clasa acelor plante
15cm
20cm.
Deoarece valorile nlimilor sunt valori reale, valorile
15
20
sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast
clas s conin acele plante ce au nlimile situate ntre
14.5cm
(inclusiv) i
putea face referire la aceste valori ca ind valorile reale ale clasei, numite
frontierele clasei.
20.5cm
(exclusiv).
Am
n cazul n
care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i

corespund. n concluzie, n cazul clasei de frecven
15
[15, 20),
aceasta are frontierele
14.5 - 20.5,
limea
i densitatea
17 6 .
Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i
densitile de frecven pentru datele din Tabelul 1.4.
nlimea (n cm) frecvena

[0, 5) [5, 10) [10, 15) [15, 20) [20, 30) 5 13 23 17 12
Tabela 2.4: Tabel cu nlimile plantelor. Tabela 2.5: Histograme pentru datele din Tabelul 2.4. nlimea (n cm)
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
frontierele
17.5 25.5 24.5 35.5 34.5 45.5 44.5 55.5 54.5 65.5
limea frecvena densitatea de frecven

8 11 11 11 11 34 76 124 87 64 4.25 6.91 11.27 7.91 5.82
Tabela 2.6: Tabel cu frontierele claselor.

Reprezentare prin sectoare de disc
Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (
pie charts),
este
en.,
ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n
special la reprezentarea datelor calitative. Comanda
pie(X ).
Matlab pentru un pie chart pentru un vector X
De exemplu, comanda care produce Figura 2.6 este:
T = [10 11.11 15.56 25.55 22.22 15.56]; pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})
Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.

pie3([34 76 124 87 64])
Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda
pie3(x)
din

10% Nota 5 Nota 6 Nota 7 Nota 8 Nota 9 Nota 10
16
16%
11%
22% 16%
26%
Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note
Figura 2.7: Reprezentare pe disc 3D
STATS 2 [Dr. Iulian Stoleriu]
17
3 Statistic Aplicat (C2) Elemente de Teoria probabilitilor

Experiene aleatoare
Numim
experien aleatoare
(sau
experiment aleator)
orice act cu rezultat incert, care poate repetat n
anumite condiii date. Opusul noiunii de experiment aleator este
experimentul determinist,
semnicnd
un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ, observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete zultatul potenial al unei experiene aleatoare se numete duble
eveniment aleator.
prob.
Re-
De exemplu: apariia unei
(6, 6)
la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete
caz favorabil eveniment
pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete
elementar.
Fie
o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element
al lui
l vom nota cu
Vom numi
oricrei experiene aleatoare.
evenimentul sigur, acel eveniment care se poate realiza n urma Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.
A, B, C, . . . .
Prin
Evenimentele aleatoare le vom nota cu care se realizeaz atunci cnd
nu se realizeaz. Avem:
Ac vom nota Ac = \ A.
evenimentul complementar lui
A,
Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de
litate.
probabi-
n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic
(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene relative) sau utiliznd deniia axiomatic (Kolmogorov).
Probabilitatea clasic
este denit doar pentru cazul n care experiena aleatoare are un numr nit de
cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i numrul cazurilor egal posibile ale experimentului aleator.
Exemplu 3.1
Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri
ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor elemente. Cazurile favorabile sunt cele din mulimea elemente. Probabilitatea apariiei unei duble este
{(i, j ); i, j = 1, 6}, care are 36 de {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6 6 1 P = 36 =6 .
Sunt ns foarte multe cazuri n care deniia clasic nu mai poate utilizat. Spre exemplu, n cazul n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.
[0, 1] [0, 1],
acesta s se
situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor
Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.
3 Pierre-Simon,
marquis de Laplace (1749 1827), matematician i astronom francez
18
S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul aleator
(e.g., apariia feei cu
puncte).
Aceste experiment aleator l putem efectua de S notm cu
ori n
condiii identice (spunem c efectum nu inueneze rezultatul alteia ( a lui
probe independente).
probe ale experimentului), astfel nct rezultatul unei probe s
N (A) frecven absolut
de realizare
n cele
probe independente. Raportul
acest raport, ce are urmtoarele proprieti:
N (A) N
se va numi
frecven relativ.
Notm cu
fN (A)
(a) (b) (c) (d)

Mai mult, exist notat
0 fN (A) 1; fN () = 1; fN (Ac ) = 1 fN (A), A; fN (A B ) = fN (A) + fN (B ),

dac
B = .
lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,
P (A).
Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor
relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4). n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov
4 (1929) i are la baza teoria msurii.
Deniia axiomatic a probabilitii

Reamintim,
este o mulime abstract, nevid.
Deniia 3.2
(a)
Numim
algebr sau cmp o colecie F
de submulimi ale lui
astfel nct:
F; c (b) dac A F , atunci A F ; (Ac = \ A) (c) dac A, B F , atunci A BF
(nchidere la complementariere) (nchidere la reuniune nit).
Propoziia 3.3
(c) implic
n
(c') dac
(Ai )i=1, n F ,
atunci
Ai F .
i=1
(3.1)
Deniia 3.4
Numim
algebr
sau
cmp
(sau
corp borelian)
o colecie
de submulimi ale lui
astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem
(c') dac
(An )nN F ,
atunci
An F ;
n=1
(nchidere
la reuniune numrabil)
(3.2)
Exemplu 3.5
(2)
(1) = R i F = {A; A R} este o algebr; F = {, } este o algebr; c (3) Dac A , F = {A, A , , } este o algebr; (4) Dac A R, atunci mulimea tuturor prilor lui A, P (A), formeaz o -algebr. (5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F ) msurabil. Elementele unei -algebre se numesc mulimi msurabile.
se numete
spaiu
4 Andrei
Nikolaevich Kolmogorov (1903 1987), matematician rus
19
.
Numim
Deniia 3.6
algebr
Fie
o colecie de submulimi ale lui
algebr generat de F
cea mai mic
ce conine
F.
O notm prin
(F )
i este, de fapt,
(F ) =
AF
A.
(3.3)
Dac Dac
e un spaiu topologic, vom numi
mulimilor deschise din
E = Rd , atunci A Bd se numete mulime borelian.
E , i.e., cea mai B (Rd ) (sau B d )
-algebr Borel5 , notat B (E ), -algebra mic -algebr ce conine deschiii lui E . este -algebra generat de cuburile deschise
generat de familia din
Rd .
O mulime
Deniia 3.7
proprietile:
O funcie
P : (, F ) R,
care asociaz oricrui eveniment
AF
numrul real
P (A),
cu
(a) (b) (c)

se numete
P (A) 0, A F ; P () = 1; P (A B ) = P (A) + P (B ), A, B F , A B = ,
probabilitate. cmp de probabilitate n sens Kolmogorov i l vom nota cu (, F , P ).

(c)
avem:
Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente o probabilitate
(, F )
nzestrat cu
se numete
Observaia 3.8
(c)
dac
Dac n locul condiiei
(An )nN F
disjuncte dou cte dou (Ai
Aj = , i = j )
P(
nN
An ) F
, atunci
P(
nN
An ) =
nN
P (An ).
( aditivitate)
iar
(3.4)
atunci P se va numi probabilitate aditiv pe corpul borelian (, F ), borelian de probabilitate.
(, F , P )
se va numi
cmp
Observaia 3.9
(1) Fie
o mulime cu
elemente,
F = P () A
A .
Atunci
P ( A) =
denete o msur de probabilitate pe
card card
(3.5)
F (probabilitatea n sens clasic). (b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur pe spaiul msurabil (, F ), iar tripletul (, F , P ) se va numi spaiu cu msur. O probabilitate este astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
(2) n cazul n care condiia Spunem c o proprietate
are loc a.s.
(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi
pentru care
P (A) = 0.
O astfel de mulime se va numi mulime
P -nul.
5 Flix
douard Justin mile Borel (1871 1956), matematician si politician francez
20
Cmp de probabilitate
Principalul concept al teoriei probabilitilor este proprieti: (i) (ii)
spaiu probabilistic sau cmp de probabilitate.

(, F , P ),
n cele ce
urmeaz, cnd ne vom referi la cmp de probabilitate, vom nelege un triplet
cu urmtoarele
este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment ndeplinite urmtoarele condiii:
stochastic);
F P () este o -algebr, i.e., sunt (1 ) F ; (2 ) A F = Ac F ; (3 ) (An )nN F = An F ;

nN
(iii)
P : F R e o funcie satisfcnd condiiile: (P1 ) P () = 1; (P2 ) A F , P (A) 0; (P3 ) (An )nN , An Am = , n = m, avem P (
nN
An ) =
nN
P (An ).
F se numesc evenimente iar sunt elemente de prob. A F , cu A -algebr, o vom numi sub- -algebr a lui F . (iii) A F , P (A) se va numi probabilitatea lui A. (iv) Dac P (A) = 0, atunci A se va numi mulime P -nul. (v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui (ii) O mulime Dat ind un ir
Terminologie:
(An )nN
denim
lim inf An =
n n=1 mn
Am
lim sup An =
n n=1 mn
Am .
(3.6)
n general,
lim inf An lim sup An .

n n
n caz de egalitate vom spune c irul
(An )nN
are limit i vom scrie
lim An = lim inf An = lim sup An .

n n
(3.7)
Observaia 3.10
toate
Din punct de vedere euristic,
lim inf An
n
reprezint evenimentul care se realizeaz cnd
An
se realizeaz, mai puin un numr nit. Pe de alt parte,
lim sup An
n
nseamn realizarea unei
inniti de evenimente din irul
A1 , A2 , . . . .
Cmp de probabilitate geometric

S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un interval
[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale intervalului [a, b], i.e., oricare ar dou subintervale de aceeai lungime, este la fel de probabil ca punctul
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un numr mare de puncte, acestea vor repartizate aproximativ uniform n
[a, b],
i.e., nu vor exist puncte
n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea

ca un punct s cad ntr-un subinterval al lui poziia sa n interiorul lui
21
[a, b] este dependent de lungimea acelui subinterval i nu de
[a, b].
Mai mult, aceasta este chiar proporional cu lungimea subintervalului.
Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile. Dac
[a, b]
e mulimea cazurilor egal posibile i
[c, d] [a, b]
este mulimea cazurilor favorabile, atunci
probabilitatea ca punctul ales s cad n
[c, d]
este
P ( A) =
n particular, dac
d]) dc = . msura ([a, b]) ba

msura ([c,
x (c, d),
atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid
cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib probabilitatea nul, far ca el s e evenimentul imposibil
. D, astfel ca s nu existe
n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar
puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul D . D D este aria aria D n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.
Probabiliti condiionate
Fie spaiul probabilistic (, F , P ) i A, B F , cu P (B ) > 0. Denim probabilitatea evenimentului A condiionat de realizarea evenimentului B , notat P (A|B ) sau PB (A), prin:
PB (A) =
P (A B ) . P (B )
(3.8)
Observaia 3.11 PB (A) astfel denit va o probabilitate pe F , iar tripletul (, F , PB ) este un cmp
de probabilitate.
Propoziia 3.12
P (Bi ) > 0, i I .
(a)
(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
P (A) =
iI
Atunci
P (Bi ) PBi (A), A F . P (A) > 0,

avem:
(3.9)
(b)
(formula lui
Bayes6 ) n condiiile de la (a) i, n plus,

PA (Bi ) =
P (Bi ) PBi (A) P (Bj ) PBJ (A)

j I
, i I.
(3.10)
(c) Dac
B1 , B2 , . . . , Bn F , P (B1 B2
astfel nct
P (B1
B2
Bn ) > 0,
atunci:
Bn ) = P (B1 ) PB1 (B2 ) . . . PB1
Bn1 (Bn ).
(3.11)
6 Thomas
Bayes, (1702 1761) matematician britanic
22
Variabile aleatoare
Din punct de vedere euristic, o
variabil aleatoare
este o funcie ce ia valori ntmpltoare. n via de
zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului
X, Y, Z
Fie
sau
, ,
i altele.
O funcie
(, F , P ) un cmp de probabilitate i (E, E ) un spaiu msurabil. X : (, F , P ) (E, E ) se numete variabil aleatoare (v.a.)
pentru orice
dac (3.12)
B E , X 1 (B ) F
(mai spunem c
este o funcie
Fmsurabil).
n particular, dac:
(E, E ) (R, B (R)),
atunci
este o
variabil aleatoare real; vector aleator (sau v.a.) d-dimensional();

este o
(E, E ) (Rd , B (Rd )),
atunci
este
(E, E ) (Rnm , B (Rnm ),
atunci
matrice aleatoare.
pentru ca
Deoarece mulimile este sucient ca
{(, x], x R}
genereaz
B (R),
X : (, F , P ) R
s e o v.a. real (3.13)
x R, { | X ( ) x} F .
Vom utiliza notaiile
{X x} = { | X ( ) x}
not
not
i, n general,
{X B } = { | X ( ) B }
Dac
X : (, F , P ) Rd
este o v.a., atunci
F (X ) = {X 1 (B ), B Bd }
este o a lui Dac
algebr, denumit algebra generat de v.a. X . F astfel nct X este msurabil. (Xn )nN
este un ir de v.a. reale astfel nct
Astfel,
(X ) este cea mai mic sub algebr

aproape pentru toi
Xk ( ) X ( ),
atunci
este tot o v.a. real.
Xi : (, F , P ) (E, E ), (i I ) o familie de v.a.. Denim algebra generat de notat (Xi , i I ), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie
familia
{Xi , i N},
Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim poate lua o mulime continu de valori (un interval nit sau innit din
continuu).
R),
i le
v.a. discrete) sau vom numi (v.a. de tip
Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii
ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui activ nanciar ntr-o perioad bine determinat. O v.a. discret
se poate scrie sub forma
X ( ) =
i J
xi Ai ( ), , J N.
(3.14)

Aici
23
A,
iar
este funcia indicatoare a mulimii
Ak = X 1 ({xk }). Ai
Observm cu uurin c
Ai =
i=1
Aj = , i = j.
Uneori, unei o v.a. discrete i se atribuie urmtorul
tablou de repartiie:
xi pi ,
(3.15)
X:
n
unde
pi = P (X = xi ), i J N,
i=1
pi = 1.
Spre exemplu, tabloul de repartiie pentru v.a. ce reprezint
numrul de puncte ce apare la aruncarea unui zar ideal este:
1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6

O v.a.
real se numete
de tip continuu
(a) (b)
R
dac exist
f : Rd R
msurabil Borel ce ndeplinete
condiiile:
f (x) 0,
a.s.
f (x) dx = 1 PX (B ) =
B
(c)
Funcia
f (x) dx,
B F .
se numete
densitatea de repartiie a lui X .

X : (, F , P ) (Rd , B (Rd )).
n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale unei variabile aleatoare
Caracteristici funcionale ale variabilelor aleatoare
Repartiia
Repartiia
prin (sau
legea,
sau
distribuia)
lui
este o msur de probabilitate pe
Bd , PX : Bd [0, 1],
dat
PX (B ) = P (X B ), B Bd .
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:
(3.16)
PX (B ) =
j J
unde
P (Aj )xj (B ),
(3.17)
a (B ) =
Repartiia unei v.a.
1, 0,
dac
aB
n rest
de tip continuu este:
PX (B ) =
B
f (x) dx,
B Bd ,
(3.18)

unde
24
X.
n limba englez, pentru repartiie se folosesc termenii:
distribution sau law.
f (x)
este densitatea de repartiie a lui
Funcia de repartiie (sau funcia de repartiie cumulat)

Numim
funcie de repartiie
ataat v.a reale
o funcie
F : R [0, 1],
dat prin
F (x) = P (X x).
Astfel, Dac
F (x) = PX ((, x]),
adic este repartiia mulimii
Termenul n englez pentru funcia de repartiie este
X = (X1 , X2 , . . . , Xd ) : (, F , P ) Rd d denete ca ind F : R [0, 1], dat prin
cumulative distribution function (cdf ).
(, x].
este un vector aleator, atunci funcia de repartiie se
F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:
este cresctoare (F (x)
F (y ), x, y R, x y );
y x
este continu la dreapta ( lim
F (y ) = F (x), x R);
lim F (x) = 0
lim F (x) = 1.
n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia ntr-un punct
este:
F (x) =
{i; xi x}
Dac
pi .
(3.19)
este o variabil aleatoare continu i
este densitatea sa de repartiie, atunci funcia de repartiie
este dat de formula:
F (x) =
f (t) dt,
x R.
(3.20)
Observaia 3.13
x R dat. Numim funcie de repartiie complementar, x) = 1 F (x), x R.
Deseori n calcule probabilistice, avem de calculat evenimentul funcia
P (X > x), pentru un Fc : R [0, 1], dat prin F (x) = P (X >
Funcia caracteristic
Numim
funcie caracteristic ataat v.a reale X

X (t) =
kJ
o funcie
X : R C,
dat prin: discret)
ei t xk pk ,
dac
X=
k J
xk Ak , (X =
X (t) =
R
Aici,
ei t x f (x) dx, (i2 = 1).
dac
X=
variabil aleatoare continu.
este numrul imaginar,
Proprieti ale funciei caracteristice:

|X (t)| = 1, t R; a X (t) = X (a t), t R, a R; a X +b (t) = X (a t)eibt , t R, a R; X (t) = X (t), t R; X : R C
este uniform continu;
25
ti , tj R, zi , zj C
avem
X (ti tj )zi z j 0.
i, j =1
Funcia de probabilitate (sau de frecven)

Fie
o variabil aleatoare discret,
X ( ) =
i J
xi Ai ( ), , Ai F , J N.
o funcie
Numim
funcie de
probabilitate (de frecven) ataat variabilei aleatoare discrete X

f (xi ) = pi ,
Funcia de probabilitate ( unde
f : R R,
denit prin
pi = P (Ai ), i J.
en., probability distribution function) pentru o variabil aleatoare discret este

f (xi ) 0, i J,
n
similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le satisface funcia de probabilitate sunt:
f (xi ) = 1.
i=1
Caracteristici numerice ale variabilelor aleatoare
Media
Deniia 3.14
Dac
este o v.a. de tip discret,
X ( ) =
iJ
xi Ai ( ), , J N,
atunci
media
(3.21)
acestei v.a. se denete prin:
E(X ) =
i J
xi P (Ai ).
Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media (teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:
E(X ) =
R
xf (x)dx,
(dac
aceast integral exist).
(3.22)
Observaia 3.16 Deniia mediei poate dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.

n
26
cu
Pasul 1:
O v.a.
X ( ) =
i=1
xi Ai ( )
se numete
v.a. simpl.
n
Pentru v.a. simpl
denim
media (notat cu
E(X ))
astfel:
E(X ) =
not
X ( ) dP ( ) =
i=1
xi P (Ai ). Xn : R, (n N)
de v.a. simple astfel
Pasul 2:
nct
Dac
X :R
X 0,
atunci exist un ir
0 X1 ( ) Xn ( ) X ( ),
i
n
Denim
lim Xn ( ) = X ( ).
E(X ) = lim E(Xn ).

n
Pasul 3:
Fie
X:R
o v.a.. Atunci
X=
X+
X ,
unde
X + ( ) = max{X ( ), 0},
n acest caz denim
X ( ) = max{X ( ), 0} = (X )+ ( ).
media lui X ,
E(X ) = E(X + ) E(X ),

i
ori de cte ori mcar una dintre
este o
v.a. integrabil.
E(X + )
E(X )
este nit. Cnd ambele sunt nite, atunci spunem c
Dac
X = X1 + iX2 : C,
denim media v.a. complexe
prin
E(X ) = E(X1 ) + iE(X2 ),

ori de cte ori ambele medii exist i sunt nite. Dac
este un vector aleator,
X = (X1 , X2 , . . . , Xd )T : Rd ,
atunci denim media lui
prin
E(X ) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .
Propoziia 3.17
Atunci
Fie
X : Rd
o v.a. cu densitatea de repartiie
i o funcie msurabil
g : Rd R.
E(g (X )) =
n particular, dac
g (x)f (x) dx.

Rd
g:RR
este funcia identic, atunci:
E(X ) =
X ( ) dP ( ) =
R
xf (x) dx,
i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15. Relaia anterioar se mai numete i pe mulimea
formula de transport
pentru integral, deoarece integrala abstract
este "transportat" ntr-o integrala Riemann pe
R.
Dispersia (sau variana) i abaterea standard

X este o variabil aleatoare i X = X E(X ) (numit abaterea lui X de la media sa), atunci E(X ) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X n jurul mediei sale doar calculnd X E(X ). Avem nevoie de o alt msur. Aceasta este dispersia variabilei aleatoare.
Dac
27
X
este o v.a. discret,
Deniia 3.18
denim
Dac
X ( ) =
i J
xi Ai ( ), , J N, cu media E(X ) = m,
dispersia lui X
ca ind:
D 2 (X ) =
i J
(xi m)2 pi ,
unde
pi = P (Ai ), i J.
(3.23)
Deniia 3.19
E(X ) = m R).
Fie
X : R
o v.a.
de tip continuu pentru care media poate denit (exist (sau variana lui
Denim dispersia lui
X)
cantitatea
D2 (X ) = E[(X m)2 ] =
R
(x m)2 f (x) dx.
(3.24)
Notaiile consacrate pentru dispersie sunt
D2 (X )
sau
2.
Observaia 3.20
Dispersia scris ca integral abstract (vezi propoziia anterioar) este:
2 =
(X ( ) m)2 dP ( ).
Numim
abatere standard (sau deviaie standard) cantitatea = 2 .
28
Experiene aleatoare n Matlab

Generarea de numere (pseudo-)aleatoare
Numerele generate de el vor
pseudo-aleatoare.
Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
Putem face abstracie de modul programat de generare ale acestor numere i
s considerm c acestea sunt numere aleatoare.
Generarea de numere uniform repartizate ntr-un interval, U (a, b)

Funcia rand
rand
Funcia
genereaz un numr aleator repartizat uniform n
[0, 1].
De exemplu, comanda X =
(rand < 0.5)

X
astfel generat este un
simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul numr aleator repartizat
B (1, 0.5).
De asemenea, numrul Y = urmeaz repartiia
sum(rand(10,1) < 0.5)

10
aruncri ale unei monede ideale).
B (10, 0.5)
(simularea a
rand(m, n)
Comanda
genereaz o matrice aleatoare cu
mn
componente repartizate
U (0, 1). [a, b].
a + (b a) rand
genereaz un numr pseudo-aleator repartizat uniform n
Folosind comanda
s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-
zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniializarea lui, putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state', 'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,
rand('state', 125)
xeaz generatorul la starea
125.
29
(a, b)
nelegem
Observaia 4.1
Printr-o generare de numere aleatoare uniform distribuite n intervalul
numere aleatoare care au aceeai ans de a oriunde n
(a, b),
i nu numere la intervale egale.
Figura 4.1 reprezint cu histograme date uniform distribuite n intervalul
Matlab:
[2, 3],
produse de comanda
hist(5*rand(1e4,1)-2,100)
Figura 4.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (, )
Funcia randn
randn
Funcia
genereaz un numr aleator repartizat normal
N (0, 1). N (0, 1).
randn(m, n)
mn
Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:
randn(method, s)
unde unde sau
method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state' 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
m + randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul
Comanda
urmtor produce Figura 4.2:
x = 0:0.05:10; y = 5 + 1.1*randn(1e5,1); hist(y,x)
% date distribuite N (5, 1.1)

250
30
200
150
100
50
10
Figura 4.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiie dat
Comenzile
Matlab
legernd(<param>, m, n)
random('lege',
<param>, m, n).
Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu numere aleatoare ce urmeaz repartiia din Figura 6.1. De exemplu,
m linii i n coloane, avnd componente
lege.
n loc de
lege putem scrie oricare dintre expresiile din tabelul
normrnd (5, 0.2,

100, 10);
100 10
N (5, 0.2).
random ('poiss',0.01, 200, 50);

genereaz o matrice aleatoare cu Utiliznd comanda
200 50
P (0.01).
randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. generate de parametri Comanda deschide o interfa
grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele
Matlab pot exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
10000
de numere ce urmeaz repartiia lognormal de i
din Figura 4.3, am generat o selecie aleatoare de
=2
= 0.5
i am salvat-o (folosind butonul
Export) ntr-un vector L.
31
Figura 4.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.

Simularea aruncrii unei monede
Comanda X = (rand < 0.5); simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul numr aleator repartizat
astfel generat este un
B (1, 0.5)
(similar cu schema bilei revenite, n cazul n care o urn are bile
albe i negre n numr egal i extragem o bil la ntmplare)
Numrul Y = urmeaz repartiia
sum (rand(30,1)<0.5)
30
aruncri ale unei monede ideale).
B (30, 0.5)
(simularea a
Acelai experiment poate modelat i prin comanda
round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim
sum(round(rand(30,1)))
Exemplu 4.2
Dorim s scriem o funcie
MATLAB care s simuleze aruncarea repetat a unei monede

p (0, 1).
S se determine
msluite, pentru care probabilitatea teoretic de a obine o anumit fa este

probabilitatea ca la aruncarea monedei s obinem faa cu
32
stema
i s deseneze o gur care s justice
grac convergena irului frecvenelor relative la aceast probabilitate.
function moneda(N,p); x = rand(1, N); V = (x < p); Sn = cumsum(V); A = 1:N; Fn = Sn./A; semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); axis([0 N 0 1]); title('moneda') xlabel('aruncari');ylabel('probabilitatea')
moneda 1 1 5/6 3/4 probabilitatea probabilitatea
% % % % % % % % % %
functia moneda.m aruncam moneda valoarea de adevar a lui (x<p) suma cumulata vectorul nr de aruncari frecventa relativa a stemei reprezinta grafic Fn axele numele figurii numele axelor
zar
0.5
0.5
1/4 1/6 0 0
10
10 10 aruncari
10
10
10
10 10 aruncari
10
10
Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,
moneda(1e5,0.5),
produce gracul din Figura 4.4(a). De asemenea, se poate
simula i aruncarea unei monede msluite, dac alegem ca parametrul
al funciei s e diferit de
0.5.
Simularea n
Matlab a unei v.a.

i, respectiv,
de tip discret
3
rezultate posibile,
S considerm o variabil aleatoare ce poate avea doar realizare
a, b
c,
cu probabilitile de
0.5, 0.2
0.3.
Tabloul de repartiie asociat este:
X:
Pentru a modela aceast variabil aleatoare n un numr
a b c 0.5 0.2 0.3
din intervalul
[0, 1].
Dac
x < 0.5,
Matlab, procedm astfel: alegem uniform la ntmplare

atunci convenim c rezultatul
s-a realizat, dac

0.5 < x < 0.7,
atunci rezultatul
33
b
s-a realizat. Altfel, rezultatul v.a.
este
c.
Dac acest experiment se
repet de multe ori, atunci rezultatele pot folosite n estimarea probabilitilor de realizare a variabilei aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale probabilitilor, deci putem spune c am aproximat variabila aleatoare n
Matlab, scriem:
X.
syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem apariia unei fee cu
rezultate posibile, i anume,
1, 2, 3, 4, 5
sau n
6 6
puncte.
Pentru a simula acest experiment, modicm n mod
convenabil problema. Vom considera c punctele din intervalul posibile i mprim intervalul
[0, 1] formeaz mulimea tuturor cazurilor
[0, 1]
subintervale de lungimi egale:
(0,
1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6
corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n
Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la Matlab
ntmplare" din intervalul
[0, 1]
i vericm dac acesta se a n intervalul
2 3 (6 , 6 ).
Aadar, comanda
u = rand; (u < 3/6 & u > 2/6)

6
fee sunt identice, putem simplica
simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele aceast comanda i scrie
(rand < 1/6).
Exemplu 4.3
Dorim s simuleze n
Matlab aruncarea repetat a unui zar corect. S se determine pro-
babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).
function dice(N); % functia dice.m u = rand(1, n); % probabilitatea aparitiei fetei Z1 = (u < 3/6 & u > 2/6); % aparitia fetei freq = cumsum(Z1)./(1:n); % frecventa relativa subplot(1,2,2); % activeaza fereastra din stanga semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:'); axis([0 n 0 1]); % axele title('zar') % numele figurii xlabel('aruncari');ylabel('probabilitatea')
Fiierul
dice.m simuleaz aruncarea unui zar dice(1e5) produce gracul din Figura 4.4(b).
corect de un numr
de ori.
O rulare a funciei, e.g.,
34
Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare varietate de probleme matematice prin efectuarea de experimente statistice pe un computer. Se poate aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii numerice pentru probleme care sunt prea dicile n a rezolvate analitic. Este o metod folosit de secole, dar a cptat statutul de metod numeric din anii
1940.
1946,
S. Ulam
7 a devenit primul matema-
tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis metodei. Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate vzut ca un proces stochastic este un candidat n a modelat prin metoda MC.
8 a adus contribuii importante
Integrarea folosind metoda Monte Carlo

Dorim s folosim metode Monte Carlo pentru evaluarea integralei
I=
a
f (x) dx.
(4.1)
n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient dect alte metode de aproximare cnd dimensiunea spaiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:
Varianta 1
funciei
(poate aplicat doar pentru
f 0.
Dac
i valori negative, dar este mrginit inferior,
atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul
ntr-un dreptunghi
D = [a, b] [0, d],

unde
d > sup f .
[a, b]
Evalum integrala folosindu-ne de calculul probabilitii evenimentului
A,
c un punct
ales la ntmplare n interiorul dreptunghiului
s se ae sub gracul funciei
experien aleatoare: alegem n mod uniform (comanda experiena de un numr
rand
f (x).
Facem urmtoarea
ne ofer aceast posibilitate n
un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
f (x).
Matlab)
Repetm
(mare) de ori i contabilizm numrul de apariii
f (N ) ale punctului sub grac.
Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va aproximat de frecvena relativ a realizrii evenimentului, adic
P
Pe de alt parte, probabilitatea teoretic este
f (N ) . N I ,
P =
8 Nicholas 7 Stanislaw
aria dreptunghi
Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina Constantine Metropolis (1915 1999), zician grec

de unde aproximarea
35
f (N ) . N
I
bun.
aria dreptunghi
(4.2)
Totui, aceast metod nu e foarte ecient, deoarece
trebuie s e foarte mare pentru a avea o precizie
Exemplu 4.4
Utiliznd metoda Monte Carlo, s se evalueze integrala
I=
2
ex dx.
Soluie:
Generm
106
puncte aleatoare n interiorul ptratului
[2, 5] [0, 1]
acestea se a sub gracul funciei grala dorit:
f (x) = ex , x [0, 1].
Urmtoarea funcie
Matlab calculeaz inte-
i vericm care dintre
function I = integrala(N) x = 7*rand(N,1)-2; y = rand(N,1); f = find(y < exp(-x.^2)); I = 7* length(f)/N;

O rulare a funciei,
% % % %
functia integrala.m genereaza N numere aleatoare in [2, 5] [0, 1] 2 numar punctele aflate sub graficul functiei ex formula (4.2)
I = 1.7675.
integrala(1e6),
ne furnizeaz rezultatul
Varianta 2
Putem rescrie integrala n forma
I = (b a)
a
unde
f (x)h(x) dx,
(4.3)
h(x) =
Funcia rescrie
1 ba 0
, ,
dac
x [a, b],
altfel.
h(x)
denit mai sus este densitatea de repartiie a unei v.a.
X U [a, b],
iar relaia (4.1) se (4.4)
I = (b a)E(f (X )).
Folosind legea slab a numerelor mari, putem aproxima
prin:
I
unde
ba N
f (Xk ),
k=1
(4.5)
Xk
sunt numere aleatoare ce urmeaz repartiia
U [a, b].
Putem generaliza aceast metod pentru calculul integralelor de tipul
f (x) dx,
V
unde
V Rn .
36
Exemplu 4.5
Soluie:
S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).
Codul
Matlab este urmtorul:

% genereaza 106 numere aleatoare U (2, 5) 2 % g (x) = ex % 7*media lui g(x) % I 1.7671
x = 7*rand(1e6,1)-2; g = exp(-x.^2); I = 7*mean(g)
sau, restrns, putem apela urmtoarea comand:
estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))
Exemplu 4.6
Evalund integrala
I=
0
ex dx e. (e = I + 1).
printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent
Soluie:
estimate = mean(exp(rand(10^6,1))) + 1
% e 2.7183
Exemplu 4.7 (aproximarea lui folosind jocul de
darts
n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit, ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct, dac nu - nu ctigai nimic. Repetm jocul de un numr puncte acumulate, s zicem c acest numr este
de ori i contabilizm la sfrit numrul de
N .
S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are aceeai ans de a intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem c de ecare dat cnd aruncai sgeata, ea se nnge n tabl. Se cere s se aproximeze valoarea lui care s simuleze experimentul.
pe baza jocului de mai sus i s se scrie un program n
Matlab
Soluie:
S notm cu
numrul de aruncri de limit irului
A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat N frecvenelor relative, adic lim . n N P (A) =
aria disc aria perete
Pe de alt parte,
= 4.
Aadar, putem aproxima
prin
Funcia lui
Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
metoda Monte Carlo.
N N
(pentru N
1).
(4.6)
este o
37
function Pi = darts(N) % numar de aruncari theta = linspace(0,2*pi,N); % genereaza vectorul theta x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese Prob = S/N; % frecventa relativa approxpi = 4*Prob; % aproximarea lui pi axis([0 1 0 1]); % deseneaza axele title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,
darts(2000),
ne genereaz Figura 4.5.
Figura 4.5: Simularea jocului de darts.
38
5 Statistic Aplicat (C3) Elemente de Teoria probabilitilor (II)

Caracteristici numerice ale variabilelor aleatoare (continuare)
Momente
Pentru o v.a. cu
X
i
de tip discret,
X ( ) =
iJ
xi Ai ( ), , J N,
E(X ) = m
pi = P (Ai ), i J , xk i pi
iJ
denim momentele: (momente iniiale de ordin
k (X ) = E(X k ) = k (X ) = E(|X | ) =
k
k ); k ); k ); k );
|xi |k pi
i J
(momente absolute de ordin
k (X ) = E((X m)k ) =
i J
(xi m)k pi |xi m|k pi

i J
(momente iniiale centrate de ordin
k (X ) = E(|X m| ) =
Pentru o v.a.
(momente absolute centrate de ordin
de tip continuu ce admite medie
m = E(X ) < ,
denim momentele:
k (X ) = E(X k ) =
R
xk f (x) dx =
X k dP |X |k dP
(momente iniiale de ordin
k ); k );
k (X ) = E(|X |k ) =
R
|x|k f (x) dx =
(momente absolute de ordin
k (X ) = E((X m)k ) =
R
(x m)k f (x) dx =
(X m)k dP |X m|k dP
(momente iniiale centrate);
k (X ) = E(|X m|k ) =
R
|x m|k f (x) dx =
(momente absolute centrate);
Cuantile
Fie o v.a.
cu funcia de repartiie
F (x).
Deniia 5.1
Pentru
(0, 1),
denim
cuantila de ordin
valoarea
astfel nct: (5.1)
F (x ) = P (X x ) = .
Observaia 5.2
(1)
Cuantilele sunt msuri de poziie, ce msoar locaia unei anumite observaii fa
de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea aria haurat este chiar
este acel numr real pentru care
39
Figura 5.1: Cuantila de ordin .

X
(2)
n cazul n care
este o variabil aleatoare discret, atunci (5.1) nu poate asigurat pentru orice
.
(3)
ns, dac exist o soluie a acestei ecuaiei
F (x) = ,
atunci exist o innitate de soluii: intervalul
ce separ dou valori posibile.
mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( = j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
Cazuri particulare de cuantile:
Modul (valoarea cea mai probabil)

Este acea valoare
pentru care
f (x ) (densitatea de repartiie sau funcia de probabilitate) este maxim.
O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.
Inegaliti ntre momente

(a) (b) (c) (d)
r (X + Y ) cr (r (X ) + r (Y )),
unde
cr = 1
pentru
r (0, 1]
cr = 2r1
pentru
r > 1.
(r (X ))1/r (s (Y ))1/s , 0 r s;
(Lyapunov 9 ) (H lder10 );
E|XY | (E|X |r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1; (E|X + Y |r )1/r (E|X |r )1/r + (E|Y |r )1/r ; g:RR
convex. Atunci avem atunci avem:
(M inkowski11 ) (Jensen12 )
(e) Fie
g (E(X )) E(g (X )).
(f ) Dac
a > 0, p N ,
P ({|X | a})
10 Otto 9 Aleksandr
p (X ) ; ap
(M arkov 13 )
Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev Ludwig Hlder (1859 1937), matematician german 11 Hermann Minkowski (1864 1909), matematician german 12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez 13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev

n particular, pentru
40
i
p=2
e nlocuit cu variabila aleatoare
(X m), (m = E(X )),
obinem:
P ({|X m| a})
Dac n inegalitatea lui Cebev lum
2 . a2 k N,
(Cebev14 )
atunci obinem:
(5.2)
a = k ,
unde
P ({|X m| k })
sau, echivalent:
1 , k2
(5.3)
P ({|X m| < k }) 1
n cazul particular
1 . k2
(5.4)
k = 3,
obinem
regula celor 3 :
P ({|X m| 3 }) 1 0.1. 9 8 , 9 [m 3, m + 3 ].
(5.5)
sau
P ({m 3 < X < m + 3 })

semnicnd c o mare parte din valorile posibile pentru
se a n intervalul
Standardizarea unei variabile aleatoare

Fie variabila aleatoare
X,
de medie
i dispersie
2.
Deniia 5.3
mat).
Variabila aleatoare
X =
X m
se numete
variabila aleatoare standardizat
(sau nor-
Proprietile variabilei aleatoare standardizate:
E(X ) = 0,
D 2 (X ) = 1 .
Corelaia i coecientul de corelaie

Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s se modice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c sunt direct Fie
<sau
pozitiv> corelate) sau n direcii opuse (X i mediile, respectiv,
sunt invers respectiv,
<sau
negativ> corelate).
X, Y v.a. cu X + Y , obinem:
mX , m Y
i dispersiile
2 , X
2. Y
Calculnd dispersia sumei
D2 (X + Y ) = E[(X + Y (mX + mY )2 )] = E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )] = D2 (X ) + D2 (Y ) + 2E[(X mX )(Y mY )].
14 Pafnuty
Lvovich Chebyshev (1821 1894), matematician rus
41
corelaia
(sau
Deniia 5.4
cov(X,
Denim
covariana) v.a. X
Y,
notat prin cov(X,
Y ),
cantitatea
Y ) = E[(X mX )(Y mY )].

(a) Continund irul anterior de egaliti, putem scrie:
Proprietatea 5.5
D2 (X + Y ) = D2 (X ) + D2 (Y ) + 2
cov(X,
Y ).
(5.6)
lui
Y ),
atunci
(b) cov(X, Y ) = cov(Y, X ) = E[(X mX )(Y mY )] = E(XY ) mX mY . (c) cov(X, X ) = D2 (X ), pentru orice v.a. X . (d) cov(X + Y, Z ) = cov(X, Z ) + cov(Y, Z ), pentru orice v.a. X, Y, Z . (e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat. Y,
pentru care presupunem c variaiile i
Fie v.a.
standardizate,
X mX X= X
Se numete
Y mY Y = Y
2 X
2 Y
sunt nite i nenule. Considerm v.a.
Deniia 5.6
dizate
coecient de corelaie (teoretic) al v.a. X

(X, Y ) =
cov(X,
covariana variabilelor standar-
Y.
Notm astfel:
Y)=
cov(X,
Y)
X Y
(5.7)
Observaia 5.7
zrile celeilalte
(a)
Dac
sunt independente (i.e., realizrile uneia sunt independente de reali-
vezi seciunea urmtoare), atunci
(X, Y ) = 0. (b) (c) 1 (X, Y ) 1, pentru orice v.a. X Dac Y = aX + b (a, b R), atunci (X, Y ) = +1, 1,
dac dac i
Y.
a = 1; a = 1.
Independena
Conceptul de independen a v.a. sau a evenimentelor este foarte important din punctul de vedere al Independena este unul
calculului probabilitilor evenimentelor compuse din evenimente mai simple. n teoria din urm.
dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent
Deniia 5.8
(1)
Fie
(, F , P )
un cmp de probabilitate,
A, B F
dou evenimente arbitrare.
Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou i B = mine mergem la plaj sunt dependente. (2) S presupunem c evenimentul B satisface relaia P (B ) > 0. Vom spune c evenimentele A i B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic probabilitatea condiionat
P (A| B ) = P (A),
(5.8)

echivalent cu
42
P (A B ) = P (A). P (B )
Putem rescrie ultima egalitate sub forma simetric:
P (A
B ) = P (A) P (B ). P (B ),
(5.9) este preferabil s
Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru denim independen a dou evenimente arbitrare astfel: Dou evenimente,
A, B F
se numesc
independente (stochastic) dac relaia (5.9) are loc.
Deniia 5.9
submulime
(i) Evenimentele
{i1 , i2 , . . . , ik }
a mulimii
A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare {1, 2, . . . , n} avem Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
sunt (5.10)
P (Ai1
(ii) Spunem c evenimentele evenimente,
Ai1
A1 , A2 , . . . , An
independente dou cte dou dac pentru oricare dou

(5.11)
Ai
Aj ,
din aceast mulime, avem
P (Ai
(iii) n general, evenimentele
Aj ) = P (Ai ) P (Aj )).

se numesc
(Ai )iI F , (I N), P(

j J
independente dac
(5.12)
Aj ) =
j J
P (Aj ),
pentru orice
J I, J nit.
Independen dou cte dou a evenimentelor nu implic independena n ansamblu.
Observaia 5.10
stema",
S exemplicm considernd urmtoarea experien. Considerm aruncarea a dou monede ideale. Fie
evenimentul ca "faa ce apare la prima moned este
evenimentul ca "faa ce apare la a doua moned este stema", iar
evenimentul ca "doar la o
moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele independente dou cte dou, deoarece:
A, B
sunt
P (A
1 C ) = P (A) P (C ) = ; 4
P (B
1 C ) = P (B ) P (C ) = ; 4
P (A
1 B ) = P (A) P (B ) = . 4
Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din relaia
0 = P (A
1 C ) = P (A) P (B ) P (C ) = . 8
Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente
Aj Mj ,
este ndeplinit condiia
P(
j J
Aj ) =
j J
P (Aj ).
(5.13)
43
(Xi )iI : (, F ) R, (I N), sunt independente (n ansamblu) Xi , { (Xi )}iI , formeaz o familie de corpuri independente. : (, F ) R, (I N), sunt independente dou cte dou dac oricare ar
Deniia 5.12
dac (2)
(1)
Spunem c v.a.
corpurile
generate de
Spunem c v.a.
(Xi )iI
dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).
Observaia 5.13
Deniia variabilelor aleatoare independente (n ansamblu) este echivalent cu:
Pentru orice
k2
i orice alegere a mulimilor boreliene
B1 , B2 , . . . , Bk Bd ,
avem: (5.14)
P {X1 B1 }
{X2 B2 }
{Xk Bk } = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),
sau, cu alte cuvinte, evenimentele
{X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente n ansamblu. X1 , respectiv,
Exemplu 5.14
X2 ,
din mulimea
S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu Aadar,
v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt
{1, 2, 3, 4, 5, 6}.
Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
P {X1 = i}
{X2 = j }
1 36 = P ({X1 = i}) P ({X2 = j }), = P ({X1 = i, X2 = j }) = X1

i
i, j {1, 2, 3, 4, 5, 6},
aceast nsemnnd c variabilele aleatoare efectuate independent una de cealalt).
X2
sunt independente stochastic (aruncrile au fost
Teorema 5.15
(i) (ii) (iii) (iv )
Considerm familia de v.a.
{X1 , X2 , . . . , Xn },
Xi : (, F ) R, i = 1, n.
Urmtoarele armaii sunt echivalente:
X1 , X2 , . . . , Xn
sunt v.a. independente stochastic;
P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ; F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R; (X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(5.15)
Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:
Teorema 5.16
Dac
X1 , X2 , . . . , Xn
sunt v.a. reale, independente, astfel nct
E(|Xk |) < , k = 1, 2, . . . , n,
atunci
E(|X1 X2 . . . Xn |) <
i: (5.16)
E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).
Teorema 5.17
Dac
X1 , X2 , . . . , Xn
sunt v.a. reale, independente, astfel nct
D2 (Xk ) < , k = 1, 2, . . . , n,
atunci
D2 (X1 + X2 + . . . + Xn ) <
i: (5.17)
D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).
44
Tipuri de convergen a irurilor de variabile aleatoare

Fixm
(, F , P )
un cmp de probabilitate i
Xn , X : R
variabile aleatoare cu media
i dispersia
2 nite.
Deniia 5.18
(1)
Spunem c: (notat
Xn converge aproape sigur la X
Xn X )
n
a.s.
dac
P ( lim Xn = X ) = 1,
echivalent cu relaia
0 F , P (0 ) = 1,
(2)
astfel nct
lim Xn ( ) = X ( ), 0 .
dac
Xn converge n probabilitate la X
(notat
Xn X ),
prob
> 0, lim P ({ : |Xn ( ) X ( )| }) = 0.

n
(3)
Xn converge n medie de ordin r la X

n
(notat
Xn X ),
Lr
dac
lim
|Xn ( ) X ( )|r dP ( ) = 0,
echivalent cu
(4)
Xn converge n repartiie
n
la
(notat
n R rep
lim
|xn x|r f (x)dx = 0.

dac
X, sau Xn X )
lim E(g (Xn )) = E(g (X )), g : R R,

dac
continu i mrginit.
(5)
Xn converge la X n sensul funciei de repartiie

n
lim FXn (x) = FX (x), x
punct de continuitate pentru dac
FX .
(6)
Xn converge la X n sensul funciei caracteristice

n
lim Xn (t) = X (t), t R.
Teorema 5.19 (legturi ntre diverse tipuri de convergen)

(a) (b) Xn X
Lr
Xn X
a.s.
implic
Xn X.
prob
implic
Xn X
prob
prob
(din inegalitatea lui Markov).
(c) (d)
Xn X
implic
Xn X.
Urmtoarele tipuri de convergen sunt echivalente: convergena n repartiie, convergena n funcie
de repartiie i convergena n funcie caracteristic.
45
6 Statistic Aplicat (L3) Repartiii probabilistice n Matlab

Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele notate anterior prin
f (x))
se introduc n
Matlab cu ajutorul comenzii pdf, astfel:

sau
pdf('LEGE', x, <param>)
Funcia de repartiie
LEGEpdf(x, <param>).
F (x)
a unei variabile aleatoare se poate introduce n
cdf,
Matlab cu ajutorul comenzii
astfel:
cdf('LEGE', x, <param>)
sau
LEGEcdf(x, <param>).
F 1 (y ),
se introduce cu comanda
Inversa funciei de repartiie pentru repartiii continue,
icdf,
astfel:
icdf('LEGE', y, <param>)
n comenzile de mai sus, iar
sau
LEGEinv(y, <param>).
vector pentru care se calculeaz
<param>
LEGE poate oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y ),
este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.
Observaia 6.1
tiiei. Pentru un
Fie X x R,
o variabil aleatoare i relaia matematic
F (x, )
funcia sa de repartiie,
ind parametrul repar-
P (X x) = F (x)
o putem scrie astfel n
Matlab:
cdf('numele repartiiei lui X',x,).
(6.1)
Problema poate aparea la evaluarea n
este una continu, atunci corespondentul n
Matlab a probabilitii P (X < x). Dac repartiia considerat Matlab este tot (6.1), deoarece n acest caz
P (X x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac
X N (5, 2),
atunci
P (X < 4) = cdf('norm', 4, 5, 2).

Dac
este de tip discret, atunci
P (X < x) =
P (X [x]) , x nu e ntreg P (X m 1) , x = m Z,

unde
46
x.
atunci
[x]
este partea ntreag a lui
De exemplu, dac
X B (10, 0.3),
P (X < 5) = P (X 4) = cdf('bino', 4, 10, 0.3) = 0.8497.
Tabelul 6.1 conine cteva repartiii uzuale i funciile corespunztoare n
Matlab.
repartiii probabilistice discrete
repartiii probabilistice continue
bino: nbin: poiss: unid: geo: hyge:
repartiia binomial repartiia Poisson
B (n, p) B N (n, p)
repartiia binomial negativ
P () U (n)
repartiia uniform discret repartiia geometric repartiia
G eo(p) hipergeometric H(n, a, b)
norm: unif: exp: gam: beta: logn: chi2: t: f: wbl:
repartiia normal
N (, )
repartiia uniform continu repartiia exponenial repartiia repartiia repartiia repartiia repartiia repartiia repartiia
U (a, b) exp() Gamma (a, ) Beta (m, n) lognormal log N (, ) 2 ( n ) student t(n) Fisher F (m, n) Weibull W bl(k, )
Tabela 6.1: Repartiii uzuale n

Exerciiu 6.1
(a) (b)
O moned ideal este aruncat de
Matlab
X
este variabila aleatoare ce reprezint
100
de ori, iar
numrul de fee cu stema aprute. Care este probabilitatea de a obine exact S se calculeze
52
de steme?
P (45 X 55).
Folosii aproximarea cu o variabil aleatoare normal.
Soluie:
B (100, 0.5),
(a)
Avem de calculat
P = P (X = 52).
ns
este o variabil aleatoare distribuit
aadar rezultatul exact este:
52 P = C100 (0.5)52 (0.5)48 = 0.0735.

(b) Notm cu
FX
funcia de repartiie pentru variabila aleatoare binomial
X.
Atunci,
P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)

55
=
k=45
Codul
k C100 (0.5)k (0.5)100k = 0.7287.
Matlab urmtor calculeaz probabilitile cerute, calculate analitic anterior.

% solutia exacta % solutia exacta
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)

.
47
Exerciiu 6.2
puin
Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit
staie i a gsit c, n medie, acesta este de
20 de minute.
Se tie c acest timp este distribuit exponenial.
Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel
15
minute pn vine urmtorul tramvai.
Soluie:
este:
Notm cu
timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu
FT
funcia sa de repartiie. tim c
T exp(),
unde
= 20.
Aadar, avem de calculat
P (T 15),
care
P (T 15) = 1 P (T < 15) = 1 FT (15),

i aceasta este
1 - cdf('exp',15, 20) = 0.4724,

ceea ce implic
47.24%
anse.
Exerciiu 6.3
sunt femei.
Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de
20%
La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a i se premiaz posesorii. (i) (ii) (iii) Care este probabilitatea ca mcar
7 bilete de intrare
dintre spectatorii premiai s e femei?
Care este probabilitatea ca nicio femeie s nu ctige la tombol? Dac selecia biletelor ctigtoare ar fost realizat prin alegerea a
spectatori ce erau aezai
n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn aceleai.
Soluie:
(i) n
Fie
variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a
spectatori. Atunci
Matlab, Matlab,
X B (7, 0.2). Fie p = 0.2. P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.
P1 = 1-binocdf(2,7,0.2).
0 p0 (1 C7
(ii) n
P (X = 0) =
p)7
= 0.2097.
P2 = binopdf(0,7,0.2).
X
nu ar mai o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie
(iii) n acest caz,
(spectatorii aezai alturi pot cunotinte, prieteni etc.).
Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
ntr-o anumit or s intre n magazin cel puin
tiind c numrul
clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca
15 clieni? (b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind aproximarea cu repartiia normal.
Soluie:
(b) n
(a) Probabilitatea este
P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.

10 10
10
P2 = P (
k=1
Xk 200) = 1 P (
k=1
Xk < 199) = 1 F
Xk (199) = 0.5094,
unde
Xk P (200).
k=1
Matlab, probabilitile cerute se calculeaz astfel:

P1 = 1 - poisscdf(14,20); P2 = 1 - poisscdf(199,200);
48
Exerciiu 6.4
(ii)
(i)
n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai
probabil: s ctigi
partide din
4,
sau s ctigi
partide din
8?
Justicai rspunsul.
Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem
c adversarii sunt de aceeai valoare. Justicai rspunsul.
49
7 Statistic Aplicat (C4) Elemente de Teoria probabilitilor (III)

Teoreme limit
Fie
(, F , P )
un cmp de probabilitate i
X : (, F , P ) R
o v.a. ce nregistreaz rezultatele posibile
ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui ir de v.a., vedere probabilistic) ca i
(Xn )nN : (, F , P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.
Deniia 7.1
Variabilele aleatoare
X1 , X2 , . . . , Xn , . . .
se numesc
identic repartizate
x R.
dac funciile co-
respunztoare de repartiie satisfac irul de egaliti:
FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . ,
(7.1)
Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de variabile aleatoare i pierde caracterul aleator. Teoremele limit clasice descriu comportarea asimptotic a sumei Spunem c irul
Sn =
k=1
Xk ,
potrivit normalizat.
(Xn )n
urmeaz
legea slab (respectiv, tare) a numerelor mari dac:

(n )
Sn E(Sn ) prob Sn E(Sn ) a.s. 0, (respectiv, 0), n n
n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.
Teorema 7.2 (Cebev)

Dac v.a.
(Xn )nN
(i) (ii)
satisfac condiiile: absolute de ordin
toate
atunci
Xn admit momente 1 lim 2 D2 (Sn ) = 0, n n
(i.e.,
2 (Xn ) < );
Sn E(Sn ) prob 0, n
Pentru orice
cnd
n . Sn , n
Demonstraie.
avem:
a>0 Sn n
xat, conform inegalitii lui Cebev aplicate variabilei aleatoare
P(
Sn E n
1 2 D a2
Sn n
1 1 2 D (Sn ) 0, a2 n2
cnd
n .
50
Xn
sunt independente stochastic i identic repartizate, cu
Observaia 7.3
m, n N,
n plus, dac
E(Xn ) =
atunci concluzia anterioar devine:
Sn prob m. n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor, media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea lui
m,
cu o probabilitate foarte mare.
Teorema 7.4 (Teorema lui Bernoulli)

S considerm o experien n care probabilitatea de realizare a unui eveniment
este
P (A) = p.
Se fac
experiene independente. Dac
este numrul de realizri ale lui
din cele
experiene atunci,
pentru orice
> 0,
avem:
lim P N
N p < = 1. N p.
i se obin
(7.2) Asta nseamn c,
Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea dac se efectueaz o selecie de volum mare apropiat de
cazuri favorabile, atunci, cu o probabilitate
1,
putem arma c probabilitatea evenimentului cercetat este egal cu frecvena relativ.
Demonstraie.
Vom asocia ecrei experiene
o variabil aleatoare
Xi ,
astfel nct
Xi =
Observm c
1, 0,
dac n experiena dac experiena
evenimentul
s-a realizat;
evenimentul
nu s-a realizat.
Xi B (1, p).
n
Atunci, deoarece experimentele sunt independente, avem:
Xi = N B (N, p), E(N ) = N p,

i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare
D2 (N ) = N p(1 p).
N , N
obinem:
P
echivalent cu
N N E N N P
< 1
D2
N N 2
N p(1 p) p < 1 , N N 2
de unde concluzia dorit.
Teorema 7.5
Dac
(Hincin
15 )
(legea slab a numerelor mari)

1,
sunt independente dou
Xn , n 1,
sunt variabile aleatoare ce admit momente absolute de ordin
cte dou i identic repartizate, atunci irul
(Xn )n
prob
urmeaz legea slab a numerelor mari, i.e.,
1 n
unde
n k=1
Xk m, (n ),
(7.3)
m = E(Xn ), n N .
15 Aleksandr
Yakovlevich Khinchin (1894 1959), matematician rus
51
(legea tare a numerelor mari)
adic:
Teorema 7.6
Dac notm cu
(Kolmogorov)
Fie irul de v.a.
(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < . m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari, 1 n
n
Xk m, (n ).
k=1
a.s
(7.4)
Observaia 7.7
Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:
X1 + X2 + + Xn =m n n lim
= 1.
Teorema 7.8
Dac v.a.
(TLC)
(teorema limit central)

m = E(X1 )
pentru i
(Xn )nN
sunt independente i identic repartizate, cu
2 = D2 (X1 )
nite, atunci:
Xk nm
k=1
Y N (0, 1),
n .
Observaia 7.9
(a) Teorema TLC ne spune c, dac avem un ir de v.a.
independente stochastic i
identic repartizate, atunci, pentru
sucient de mare, suma standardizat,
Sn =
este o v.a. de repartiie
Sn nm n
n
(7.5)
N (0, 1). X= 1 n Xk
k=1 n
este aproximativ normal
Sau, mai putem spune c distribuia v.a. (b) Notm cu
N (m, ). n
Zn =
not
Xk nm .
k=1
Atunci, convergena din teorema limit central este echivalent cu
n
unde
lim P (Zn x) = (x), x R,
(7.6)
(x)
este denit n (30.3), sau
lim P
Sn nm b n
1 = 2
b a
ex
2 /2
dx = (b) (a).
(7.7)
(b) Dac
m = 0, 2 = 1,
atunci TLC devine
1 n
Xk Y N (0, 1),
k=1
pentru
n .
(c) TLC ne permite s aproximm sume de v.a.
identic repartizate, avnd orice tip de repartiii (att
timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar aproximarea repartiiei normale cu repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui jos).
de Moivre-Laplace de mai

Se pune problema:
52
{Xk }k
aplicabil?
Dac
Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s e

sunt deja normal repartizate, atunci teorema aproximarea
Dac variabilele aleatoare
sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice
n N .
{Xk }k
nu sunt normal repartizate, atunci un numr
aproximarea cu repartiia normal dei, dac repartiia lui bun i pentru un numr
n astfel nct n 30 ar sucicient pentru Xk este simetric, aproximarea ar putea
mai mic de
30.
(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.
Teorema 7.10
(de Moivre
16 - Laplace)
repartizate
Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:
B (1, p)
i e
Sn =
lim P
Sn np a b npq
1 = 2
b a
ex
2 /2
dx.
(q = 1 p)
(7.8)
Demonstraie.
Demonstraia rezult imediat din (7.7), innd cont c
E(Sn ) = np
D2 (Sn ) = npq.
Observaia 7.11

(1)
Aadar, dac parametrul
este sucient de mare, atunci o repartiie binomial
poate aproximat cu una normal, cu media
np
i dispersia
npq .
n practic,
aproximarea este una sucient de bun dac
np 5
n(1 p) 5;
aceast aproximare poate mbuntit dac aplicm factori de corecie.
Pentru
ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a
repartiiei binomiale prin:
P (X k )
unde
k np npq
(7.9)
este funcia de repartiie pentru repartiia normal standard, i.e.,
1 (x) = 2
partiiei normale standard:
y2 2
dy,
x R.
De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea re-
P (X = k )
unde
1 npq
k np npq
(7.10)
(x) =
d dx (x) este densitatea de repartiie a repartiiei normale standard.
O variant mbuntit a aproximrii (7.9) este:
P (X k )
16 Abraham
k+ 1 np 2 npq
(7.11)
de Moivre (1667 1754), matematician francez

Termenul
53
1 2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare
discrete cu una continu. O variant mbuntit a aproximrii (7.10) este:
P (X = k ) = P (k = P
(2)
1 1 <X <k+ ) 2 2 1 k+ 1 k 2 np np X np < < 2 npq npq npq k 1 np 2 npq .

i dispersia
k+ 1 np 2 npq
n general, dac dorim s aproximm o repartiie discret (ce are media
2)
cu una
normal, atunci scriem:
P (X k )
i
k+
1 2
(7.12)
P (X = k )
sau
, k
1 2
(7.13)
P (X = k )
k+
1 2
(7.14)
Funcii de variabile aleatoare

Funcii de o singur variabil aleatoare
Presupunem c Notm cu Fie
X este o variabil aleatoare FX (x) funcia sa de repartiie.
continu, creia i se cunoate densitatea de repartiie,
fX (x).
g (x)
este o funcie msurabil (Borel). Atunci
s gsim densitatea de repartiie pentru
g (X ).
Y = g (X ) denete o alt variabil aleatoare. Dorim notm cu DY = {x R; g (x) y }. Putem scrie: ( = {X DY }).
not
{Y y } = {g (X ) y } = { , X ( ) DY }
Atunci,
FY (y ) = P (X DY ), =
DY
Dac
fX (x) dx.
(7.15)
g (x)
este bijectiv i
densitatea de repartiie a
x = h(y ) = g 1 (y ), lui Y este dat de:
not
atunci, folosind schimbarea de variabil la integrare,
fY (y ) = fX (h(y ))
dh(y ) . dy
(7.16)
54
Exemplu 7.12
Dac
Considerm funcia
g (x) = ax + b, a = 0. fX (x)
este densitatea de repartiie a unei variabile aleatoare continue
X,
atunci densitatea de
repartiie a variabilei aleatoare
Y = g (X )
este
fY (y ) =
Alternativ, putem calcula densitatea lui Notm cu
1 fX |a|
yb a
FY (y )
funcia de repartiie pentru
g (X ) astfel: Y i cu fY (y ) , , a > 0;
densitatea sa de repartiie. Atunci:
FY (y ) = P (aX +b y ) =
P P
yb X a yb X a
yb a = yb a < 0; 1 FX a
FX
, ,
a > 0; a < 0;
Dac
FX
este continu, atunci:
fY (y ) =
dFY (y ) 1 = fX dy |a|
yb a
Aplicaie. Metoda funciei de repartiie inverse (Hincin-Smirnov) Propoziia 7.13

F (x),
Fie
este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie, Atunci, variabila aleatoare
este continu i strict cresctoate, n orice punct n care aceasta nu este
aleatoare repartizat
U (0, 1). FY
0 sau 1. Fie U o variabil Y = F 1 (U ) urmeaz aceeai repartiie ca i X .

Aratm ca
Demonstraie.
a lui
Notez cu
Y.
FY
este tocmai funcia de repartiie
X.
Avem succesiv:
FY (x) = P (Y x) = P (F 1 (U ) x) = P (U F (x)) = F (x), x [0, 1].
Utiliznd acest rezultat, urmtoarea propoziie rezult imediat:
Propoziia 7.14
{U1 , U2 , . . . , Un } sunt 1 (U ), F 1 (U ), . . . , variabile aleatoare independentic stochastic i identic repartizate U (0, 1), atunci {F 1 2 1 F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie
o variabil aleatoare ca n propoziia precedent. Dac
STATS L4 [Dr. Iulian Stoleriu]
55
8 Statistic Aplicat (L4) Aplicaii la TLC

Exerciiu 8.1

O moned ideal este aruncat de
100
de ori, iar
este variabila aleatoare ce reprezint
numrul de fee cu stema aprute.
(a) Care este probabilitatea de a obine exact (b) S se calculeze
52
de steme?
P (45 X 55).
Folosii aproximarea cu o variabil aleatoare normal.
Soluie:
B (100, 0.5),
(a)
Avem de calculat
P = P (X = 52).
ns
este o variabil aleatoare distribuit
aadar rezultatul exact este:
52 P = C100 (0.5)52 (0.5)48 = 0.0735.

Dac aproximm rezultatul folosind formula (7.12), obinem:
1 P = 100 0.5 0.5

Cu varianta mbuntit, obinem:
52 50 100 0.5 0.5
0.0737.
P =
(b) Notm cu
50 52 + 1 2 25
52 1 50 2 25
0.0736. X.
Atunci,
FX
funcia de repartiie pentru variabila aleatoare binomial
P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)

55
=
k=45
k C100 (0.5)k (0.5)100k = 0.7287.
Dac folosim aproximarea cu repartiia normal, obinem:
P (45 X 55)
Codul
55 + 1 50 2 25
45 1 50 2 25
= 0.7287.
Matlab urmtor calculeaz probabilitile cerute.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta P1 = 1/5*normpdf(2/5) % solutia aproximativa 1 P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa
56
Exerciiu 8.1
este punctul
Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,
acesta ori face un pas la stnga, cu probabilitatea
0.5,
ori face un pas la dreapta, cu probabilitatea
independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.
0.5, 100 de
Soluie:
S atribuim
Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N). X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se 2 calculeaz cu uurin, E(X ) = 0 i D (X ) = 1. Suntem interesai s am ce se ntmpl dup 100 de
Fie
pai. Considerm mai nti
Sn =
i=1 n
Xi .
Atunci,
E(Sn ) =
i=1
deoarece Pentru
E(Xi ) = 0
D2 (Sn ) =
i=1
D2 (Xi ) = n, n).
{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0, n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)): P (|S100 | 2) = P (2 S100 2) 2+
1 2
10
2 + 1 2 0 10
= 0.1583.
Folosind urmtorul cod, putem simula n
Matlab micarea aleatorie (vezi Figura 8.1):

% % % % % numar de pasi simuleaza pasii la fiecare moment simuleaza unde a ajuns dupa fiecare pas reprezinta miscarea numarul de reintoarceri la bar
N = input('N = '); X = 2*(rand(N,1)<0.5)-1; S = cumsum(X); plot(1:N, S, '-') Z=length(find(S == 0))
Figura 8.1: Micare aleatoare (brownian) 1D.
57
n frecvena absolut de apariie
Exerciiu 8.2
Aruncm o moned ideal n condiii identice i notm cu
a feei cu stema din cele efectuate pentru ca
repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie
P
Determinai
n 0.5 0.1 0.98. n
prin dou metode: (i) (ii) Folosind inegalitatea lui Cebev; Folosind Teorema limit central.
Soluie:
(i) Observm c variabila aleatoare
n B (n, 0.5), E( n ) = 0.5, n X=

n n ,
de unde
E(n ) =
n 2 i
D2 (n ) =
n 4 . Aadar,
D2 (
n 1 )= . n 4n
Gsim c:
Folosim inegalitatea lui Cebev pentru
a = 0.1.
P
Impunem condiia
n D2 n n 0.5 0.1 1 n 0.01
=1
25 . n
1
de unde obinem c (ii) Cutm
25 0.98, n
n 1250
astfel nct
P 0.1
Ne ateptm ca valoarea lui
n 0.5 0.1 = 0.98. n
(8.1)
s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,
scriem c variabila aleatoare standardizat
n E(n ) n 0.5n = N (0, 1). D(n ) 0.5 n

Folosind aceasta, rescriem egalitatea (8.1) astfel:
n 0.5 0.1 0.98 = P 0.1 n n n 0.5n n = P 0.1 0.1 0.5 0.5 0.5 n n n = 5 5 n n n = 1 = 2 5 5 5
de unde
1 0.99
pentru repartiia normal
n 5
= 0.99
n 5
= (0.99) = z0.99 2.33 n 135.2974.
(cuantila de ordin n
standard). Din ultima egalitate gsim c
Matlab, calculm astfel:

n 136
.
n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.
58
25%
Exerciiu 8.3
puin
O companie independent de evaluri statistice a estimat ca un anumit candidat are
anse s ctige alegerile locale.
Dorim s efectum un alt sondaj de opinie care s verice rezultatul
companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel valorile
0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre 20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
S notm cu
Soluie:
Se cere cel mai mic
n numrul de n N pentru care
votani (din
alei aleator) care voteaz cu respectivul candidat.
P 0.2
echivalent cu
n 0.3 0.97, n
P
(i) Observm c variabila aleatoare
n 0.25 0.05 0.97. n n B (n, 0.25), de unde E(n ) =
n 4 i
D2 (n ) =
3n 16 . Aadar,
Folosim inegalitatea lui Cebev
n n 3 ) = 0.25, D2 ( ) = . n n 16n pentru X = n , a = 0.05. Gsim c: n E(

n D2 n n 0.25 0.05 1 n 0.052
P
Impunem condiia
=1
75 . n
1
de unde obinem c (ii) Cutm
75 0.97, n
n 2500
astfel nct
P 0.05
Ne ateptm ca valoarea lui
n 0.25 0.05 = 0.97. n
(8.2)
s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,
scriem c variabila aleatoare standardizat
n E(n ) n 0.25n =4 N (0, 1). D(n ) 3n

Folosind aceasta, rescriem egalitatea (8.2) astfel:
Atenie, aici s-a strecurat o greeal n soluia de la seminar! 2 Acolo, s-a mprit la D (n ), n loc de
D(n )
0.97 = P 0.05
n 0.25 0.05 n n n 0.25n n 0.05 4 = P 0.05 4 4 3 3 3n n n = 0.2 0.2 3 3 n n n 1 0.2 = 2 0.2 = 0.2 3 3 3
i
de unde
0.2
n 3
= 0.985
0.2
n 3
standard). Din ultima egalitate gsim
= z0.985 2.17 (cuantila c n 353.1969. n

n 354
.
de ordin
0.985
pentru repartiia normal
n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.
59
9 Statistic Aplicat (C5) Elemente de Statistic descriptiv

S considerm o populaie statistic de volum
i o caracteristic a ei,
X,
ce are funcia de repartiie
F.
Asupra acestei caracteristici facem
observaii, n urma crora culegem un set de date statistice. Pentru analiza
Dup cum am vzut anterior, datele statistice pot prezentate ntr-o form grupat (descrise prin tabele de frecvene) sau pot negrupate, exact aa cum au fost culese n urma observrilor. acestora, pot utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.
Msuri descriptive ale datelor negrupate

Considerm un set de date statistice negrupate, corespund unor observaii fcute asupra
x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n, n N ), variabilei X . Denim urmtoarele:
ce
(1) Valoarea medie empiric

Este o msur a tendinei centrale a datelor. Pentru o selecie
{x1 , x2 , . . . , xn },
denim:
x =
ca ind
1 n
xi ,
i=1
media empiric.
Dac
{x1 , x2 , . . . , xN }
sunt toate cele
observaii (
recensmnt) asupra carac-
teristicii populaiei, atunci mrimea
1 = N
se numete putea folosi
xi
i=1
media (empiric a) populaiei.

x
ca un estimator pentru
Vom vedea mai trziu c, pentru a estima media
a ntregii
populaii statistice, nu este necesar s avem toate valorile Pentru ecare
{x1 , x2 , . . . , xN },
ci doar o selecie a ei, i vom
i,
cantitatea
. di = xi x se
numete
deviaia fa de medie.
Aceasta nu poate denit ca
o msur a gradului de mprtiere a datelor, deoarece
(xi x) = 0.
i=1
(2) Momentele empirice

Pentru
k N , momentele empirice de ordin k k = 1 n

n
se denesc astfel:
xk i
i=1
(pentru selecie).

Pentru
60
1 p
p = 0,
denim
1 x p = n
xp i
i=1
(pentru selecie),
(9.1)
formula generalizat a mediilor. Pentru p = 1, obinem media empiric (aritmetic) (x ), pentru p = 1, obinem media armonic (x (h) ), pentru p = 2 avem media ptratic (x (q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de
x (g) =
atunci relaia dintre aceste medii este:
x1 x2 . . . xn ,
x (h) x (g) x x (q ) .
Pentru ntreaga colectivitate, momentele de ordin
sunt
mk =
Pentru ecare
1 N
xk i,
i=1
(k N ).
se denesc astfel:
k N , momentele empirice centrate de ordin k 1 k = n

n
(xi x)k ,
i=1
pentru selecie,
1 k = N
( x i ) k ,
i=1
pentru populaie.
(3) Dispersia empiric

Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii.
{x1 , x2 , . . . , xn },
denim
dispersia empiric:
1 n1
n
Pentru o selecie
s2 =
(xi x )2
i=1
1 [ n1
x2 x)2 ] . i n(
i=1
Pentru ntreaga populaie de volum
N , dispersia populaiei 2 = 1 N
N
este denit prin msura
(xi )2 .
i=1
Observaia 9.1
Cantitatea
i=1 2 vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot 2 folosite ca estimatori ai dispersiei populaiei, .
1 n
(xi x )2
este tot o msur a dispersiei (empirice) de selecie.
Vom
61
(4) Deviaia empiric standard

Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie
deviaia empiric standard:
{x1 , x2 , . . . , xn },
denim
s=
Pentru ntreaga populaie de volum
1 n1
(xi x )2 .
i=1
este denit prin cantitatea
N , deviaia standard a populaiei = 1 N

N
( x i ) 2 .
i=1
(5) Amplitudinea (plaja de valori, range)

Pentru un set de date,
amplitudinea (en.,
range) este denit ca ind diferena dintre valoarea cea mai
mare i valoarea cea mai mic a datelor, i.e.,
xmax xmin .
(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie, o selecie
{x1 , x2 , . . . , xn }, scorul Z
x, le are sub sau deasupra mediei.
Pentru
este denit astfel:
z=
Pentru o populaie, scorul
xx . s x .
este:
z=
(7) Corelaia (covariana) empiric

Dac avem
(de selecie):
n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric covsel 1 = n1
n
(xi x )(yi y ).
i=1
(9.2)
Covariana empiric pentru ntreaga populaie este:
covpop =
1 N
(xi x )(yi y ).
i=1
(9.3)
(8) Coecientul de corelaie empiric

rsel = rpop = covsel , sx sy
coecient de corelaie de selecie,
covpop , x y
coecient de corelaie pentru populaie.
(9) Funcia de repartiie empiric

Se numete funcia
: R [0, 1], Fn
funcie de repartiie empiric

denit prin
asociat unei variabile aleatoare
X i unei selecii {x1 , x2 , . . . , xn },
Fn (x) =
card{i;
xi x} . n
(9.4)
62
Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic (vezi Figura 9.1).
Propoziia 9.2
cu
Fie
F (x)
funcia de repartiie a lui
funcia de repartiie
o colectivitate statistic i X o caracteristic a sa, ce se dorete a studiat. Notez X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim empiric, Fn (x). Atunci:
Fn (x) F (x), prob
cnd
n ,
x R.
Demonstraie.
Notez cu
evenimentul
i frecvena relativ a realizrii evenimentului
{X x} i cu p = P (A). A este
card{i;
Se fac
repetiii ale acestui eveniment
n = n
xi x} = Fn (x). n
Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.
Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac i negativ (sau la stnga) dac
3 2
3/2
1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0 1 < 0. Vom avea:
N
n1/2 1 = (
i=1 i=1 n
(xi x)3
(pentru selecie) i
(xi x) )
2 3/2
3 1 = 3 =
(xi )3
i=1
(pentru populaie).
63
(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
K=
Avem astfel:
4 3. 2 2
n K= (
i=1
i
(xi x)4
i=1 n
3
2 2
(pentru selecie)
(xi x) )
K=
4 1 3= 4 n 4
(xi )4 3
i=1
(pentru populaie),
Este o msur a boltirii distribuiei (al patrulea moment standardizat). c indicele kurtosis al distribuiei normale s e egal cu
K = 0, leptocurtic
Gauss. Pentru
pentru
K>0
sau
platocurtic
pentru
0. Vom avea o repartiie mezocurtic pentru K < 0. Un indice K > 0 semnic faptul c,
Termenul
(3)
apare pentru
n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui
K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.
(12) Cuantile Cuantilele (de ordin n)

egale. Dac sunt valori ale unei variabile aleatoare care separ repartiia ordonat n
pri
n = 2,
atunci avem o singur cuantil de ordin
Presupunem c observaiile sunt ordonate, median:
2, numit mediana, notat x1 < x2 < < xn . Pentru aceast

, dac , dac
prin
x0.5
sau
Me.
ordine, denim valoarea
x0.5 =
Dac
x(n+1)/2 (xn/2 + xn/2+1 )/2
n= n= 3).
impar; par; Prima cuartil, notat
se numete numete
cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic. Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de 99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
unei anumite observaii fa de restul datelor.
n = 4,
cuantilele se numesc
cuartile
(sunt n numr de
x0.25
sau
Q1 ,
(13) Modul Modul

(sau
valoarea modal)
este acea valoare
din setul de date care apare cel mai des. n anumite
cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care l conine, numit
clasa modal.
De exemplu, pentru datele din Tabelul 1.1 este
6,
iar pentru datele din
Tabelul 1.4 clasa modal este de date
[35, 45).
Un set de date poate avea mai multe module. Dac apar dou
astfel de valori, atunci vom spune c setul de date este
trimodal etc.
bimodal,
pentru trei astfel de valori avem un set
n cazul n care toate valorile au aceeai frecven de apariie, atunci spunem c nu
exist mod. De exemplu, setul de date
1 3
5 6
3 2
1 4
4 6
2 5
nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.
64
Msuri descriptive ale datelor grupate

Considerm un set de date statistice grupate (de volum
n), ce corespund celor n observaii asupra variabilei

i frecvenele absolute corespunztoare,
X.
Datele grupate sunt n genul celor prezentate n Figurile 1.1 i 1.4.
Pentru o selecie cu valorile de mijloc
{x1 , x2 , . . . , xn }
{f1 , f2 ,
. . . , fn },
cu
fi = n,
i=1
denim:
x f =
1 n
xi fi ,
i=1 n
media (empiric) de selecie, (sau, media ponderat)
1 s2 = n1
fi (xi x f )2 =
i=1
1 n1
x2 2 i fi n x f
i=1
dispersia empiric,
s=
s2 ,
deviaia empiric standard.
Formule similare se pot da i pentru msurile descriptive ale ntregii populaii. Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se determin mai nti clasa ce conine mediana (numit mediana este:
clas median),
apoi presupunem c n interiorul
ecrei clase datele sunt uniform distribuite (vezi Exerciiu 10.3).
O formul dup care se calculeaz
Me = l +
unde:
n 2
FM e c, fM e FM e
este suma frecvenelor pn
este limita inferioar a clasei mediane,
este volumul seleciei,
la (exclusiv) clasa median,
fM e
este frecvena clasei mediane i
este limea clasei.
Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas modal), iar modul va calculat dup formula:
M od = l +
unde
d1 c, d1 + d2 c
este limea clasei
d1
d2
sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei
modale minus frecvena clasei posterioare, modale.
este limita inferioar a clasei modale i
Observaia 9.3
n
S considerm urmtoarea problem. La brutria din col a fost adus o main nou de
fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie
m = 400 de grame.
Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare) pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de volum
la parametrii potrivii. n urma cntririi celor
n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n 1 n
n
grame). Calculm media masei acestora i obinem:
x=
Intuitiv, ar de ateptat ca acest
xi .
i=1
x s aproximeze (ntr-un anumit sens) masa medie (teoretic) a pinilor
produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care

s ne spun c
65
Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul
x m.
de pini ales, adic, dac am ales alte pini i calculat media maselor lor, am obinut din nou o valoarea foarte apropiat de
m.
Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic
mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.
n Tabelul 9.1, am prezentat cteva funcii
Matlab specice pentru msurile descriptive.
mean(x) geomean(x) harmmean(x) quantile(x,alpha) iqr(x) median(x) std(x), var(x) range(x) mode(x) zscore(x) moment(x,k) sort(x) max(x), min(x) skewness(x) kurtosis(x) prctile(x,p) cdfplot(x) cov(x,y) corrcoef(x,y) LEGEstat(<param>)
% media valorilor elementelor lui x; % media geometric a elementelor lui x; % media armonic a elementelor lui x; % cuantila de ordin a vectorului x; % distana intercuantilic, x0.75 x0.25 ; % valoarea median a lui x; % deviaia standard i dispersia valorilor lui x; % amplitudinea (range) vectorului x; % modul lui x; % realizeaz scorul elementelor lui x; % momentul de ordin k al lui x; % sorteaza crescator elementele vectorului x; % maximum i minimum pentru elementele lui x; % skewness pentru elementele lui x; % kurtosis pentru elementele lui x; % percentilele de ordin p ale lui x; % reprezint grac funcia de repartiie empiric a lui x; % covariana dintre x i y ; % coecientul de corelaie dintre x i y ; % aeaz media i dispersia pentru LEGE(<param>);
Tabela 9.1: Funcii

.
Matlab specice pentru msuri descriptive.
66

Justicare grac a teoremei limit central Exemplu 10.1
n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr
n sucient de mare, cele dou grace se suprapun.

k k nk lim Cn p q =
Aceasta este o "demonstraie"
grac a urmtoarei convergene:
n p0
e k . k!
(10.1)
=np
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figura 10.1: B(n, p) i P (np) pentru n = 100, p = 0.15

n practic, proprietatea (10.1) este satisfcut pentru
n 30, p 0.1, = n p 0.1.

Din gura 10.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile de probabilitate pentru binomial ( repartiia normal.
albastru)
i Poisson (
rou)
tind la densitatea de repartiie pentru
n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); % a si b sunt valorile din problema celor 3 x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])
67
Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov) Exemplu 10.2
1 e x , x>
0, iar F 1 este:
X exp().
Funcia sa de repartiie este
F : R [0, 1],
F (x) =
F 1 (u) =
Atunci, dac
ln(1 u) , u (0, 1); 0 , altfel.

c
{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem 1 F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
n Figura 10.2, am reprezentat grac o dou selecii de volum
{F 1 (u1 ),
150 de numere aleatoare repartizate exp(5);
una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia
exprnd.
Seleciile generate au fost ordonate descresctor.
Funcia
Matlab predenit Matlab care genereaz gura este
prezentat mai jos. Apelarea funciei se face prin tastarea n fereastra de lucru n
Matlab a comezii expsel(5).
function expsel(lambda) % functia expsel.m % generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator Y = sort(-lambda*log(1-rand(150,1)), 'descend'); plot(Y, 'bo'); hold on % desenez selectia si retin figura % generez 150 de numere cu exprnd si le ordonez descrescator Z = sort(exprnd(lambda, 150,1), 'descend'); plot(Z, 'r*') % desenez Z cu rosu legend('metoda functiei inverse','generare cu exprnd')
Figura 10.2: Generare de numere aleatoare prin metoda funciei inverse.
Exerciiu 10.1
i simulai n
Matlab o selecie de observaii independente asupra lui Y .
Considerm v.a.
X U 2,
2 . Determinai densitatea de repartiie a v.a.
Y = tan X
68
Generarea de numere aleatoare ntregi
Funciile floor, ceil, round, fix

Sunt funcii folosite pentru generarea de numere aleatoare ntregi. partea ntreag a lui De exemplu, funcia
floor(x)
este
x.
Astfel, comenzile
floor(11*rand(20,1)); ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face rotunjirea la numrul ntreg aat la dreapta lui x. Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui , respectiv, n direcia lui zero.
genereaz ecare cte dou funcii este ca Pentru generarea de numere ntregi n
Matlab, mai putem folosi urmtoarele comenzi:
randsample(populatie, k) randsample(n, k) randsample(populatie, k, replace)

Prima comand genereaz o selecie uniform (discret) nerepetat de vectorul
numere naturale alese aleator din
populatie.
Dac n locul vectorului
selecie uniform nerepetat de
numere din mulimea
tea s controlm dac selecia este sau selecia obinut este una repetat, iar este una nerepetat. De exemplu, comanda
populatie este n (comanda a doua), atunci se realizeaz o {1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci dac variabila replace este false sau 0, atunci selecia obinut
randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de
10
numere pare ntre
50
100:
66
Vectorul
72
50
68
88
74
82
80
94
76
dat de
X = randperm(n)
este o permutare aleatoare a elementelor mulimii
{1, 2, . . . , n}. 20
de case, vndute ntr-o
Exerciiu 10.2
Urmtorul set de date reprezint preurile (n mii de euro) a

anumit regiune a unui ora:
69
113 60.5 340.5 130 79 475.5 90 100 175.5 100 111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ?
Soluie:
Rearanjm datele n ordine cresctoare:
50 60.5 70 75 79 89 90 100 100 100 111.5 113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor Q1 = 84, cuartila superioar d = Q3 Q1 = 56.
Amplitudinea este inferioar este este este
525
154.15, mediana este 105.75, modul este 100, cuartila Q3 = 140, Q2 = M e i distana intercuartilic este
Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume
340.5, 475.5, 525,
mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care
setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n
Matlab,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ... 111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(X); m = mean(X); Me = median(X); Mo = mode(X); Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;
Exerciiu 10.3
Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,
dispersia i prima cuartil pentru aceste date.
Soluie:
x =
Amplitudinea este
a = 30.
Media este
(x f ) 1 = (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286. n 70
Dispersia este:
s2 =
1 ( (x2 f ) n x 2 ) n1 1 = (2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 ) 69 = 37.06. [10, 15). 35
Deoarece n clasele anterioare ([0,
Clasa median este clasa
5)
[5, 10))
se a deja
5 + 13 = 18
date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este mai mare dect nlimea a de plante i mai mic dect nlimea a alte
35
de plante), va trebui
s determinm acea valoare din clasa median ce este mai mare dect alte
17
valori din aceast clas.

Aadar, avem nevoie de a determina o fracie median este
70
17 23 dintre valorile clasei mediane. n concluzie, valoarea
M e = 10 +
Clasa modal este cele
17 5 = 13.6957. 23 12.5.
[10, 15),
iar modul este valoarea central a clasei,
Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre
70
care este mai mare dect alte
18
valori, adic
Q1 = 10.
Implementarea n
Matlab:
x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);
Exerciiu 10.4
O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc
ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative. (b) Gsii media empiric, mediana i deviaia standard empiric. (c) Reprezentai prin bare rezultatele din tabelul de frecvene. (d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente. (e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s avut cel puin dou accidente.
Soluie:
(a) Tabelul de frecvene este Tabelul 10.1. numrul frecv. abs. frecv. rel.
0 7 0.1346
1 9 0.1731
2 14 0.2692
3 12 0.2308
4 10 0.1923
Tabela 10.1: Tabel de frecvene pentru Exerciiu 10.4

(b) Avem:
52
x=
i=1
(c)
xi = 2.1731,
s=
1 51
52
(xi x )2 = 1.3094,
i=1 (x) Fn
M e = 2.
sunt reprezentate n Figura
Reprezentarea prin bare a numrului de accidente i gracul lui
10.3. (d) Funcia de repartiie empiric este:
Fn (x) = P (X x) =
0, 7, 52 16 ,
52 30 52 , 42 52 , 1,
x < 0; dac x [0, dac x [1, dac x [2, dac x [3, dac x 4.
dac
1); 2); 3); 4);
71
Figura 10.3: Reprezentare pentru numrul de accidente.

Probabilitatea cerut la
(e)
este:
P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul
16 = 0.6923. 52
Matlab pentru calcule i grace este:
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice
Exerciiu 10.5
este
Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-
supunem c pentru aceste note avem media de selecie
x = 7.24
i deviaia standard
s = 0.7.
Media ta
8.45.
Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,
s,
dedesubtul sau deasupra mediei de selecie te situezi?)
Soluie:
Calculm scorul
Z.
Avem:
z=
xx 8.50 7.24 = = 1.8 0.7
deviaii standard deasupra mediei de selecie.
72
11 Statistic Aplicat (C6) Noiuni de Teoria seleciei statistice
Deniia 11.1
numi (sau
Numim
colectivitate statistic
(sau
populaie)
o mulime nevid
de elemente care este
cercetat din punct de vedere al uneia sau mai multor caracteristici.
indivizi
(sau
uniti statistice).
Elementele colectivitii le vom Dac populaia este nit,
Vom nota cu
o unitate statistic.
atunci numrul
volumul populaiei).
al unitilor statistice ce o compun (i.e., card()) l vom numi
volumul colectivitii
Considerm o populaie (colectivitate statistic) caracteristici a sale,
Studiem populaia
din punctul de vedere al unei
X.
Aceast caracteristic este o anumit proprietate urmrit la indivizii ei n
procesul prelucrrii statistice i o vom asimila cu o variabil aleatoare denit pe
Problema esenial
a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmeaz caracteristica asupra colectivitii variabila
X.
Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii
Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte
X.
Vom numi
Deniia 11.2
sondaj) o subcolectivitate a colectivitii cercetate . Numrul volumul seleciei (sondajului). Seleciile pot repetate sau nerepetate. O selecie se numete repetat (sau bernoullian) dac dup examinarea individului acesta se reintroduce n colectivitate; n caz contrar avem o selecie nerepetat. n practic, volumul colectivitii
(sau elementelor seleciei poart numele de
selecie
este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate considerat ca
ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din colectivitatea statistic.
Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare mai detaliat, se poate consulta [11]). Considerm spaiul msurabil o selecie repetat de volum mulime
(, F ), n.
unde
este un corp borelian de pri ale lui
Caracteristica
urmrit poate reprezentat de o variabil aleatoare denit pe
(, F ).
Dorim s denim matematic
Euristic, ideea este urmtoarea: a efectua
sondaje repetate dintr-o
n ori".
este echivalent cu a considera o singur selecie dintr-o populaie de genul "
multiplicat de
Construim astfel:
(n) = ,
produs cartezian de
F (n) = F F F ,
va
ori. Un element al lui
(n)
(n) = (1 , 2 , . . . , n ),
numit
selecie repetat de volum n.
Cuplul
((n) , F (n) )
se numete
spaiul seleciilor repetate de volum
n.
Considerm variabilele aleatoare
Xi : (n) R,
Xi ( (n) ) = X (i ),
i = 1, n.

Acestea sunt variabile aleatoare denite pe
73
((n) , F (n) ),
sunt independente stochastic (pentru c v.a.
{X (i )}i=1, n
veric usor c
sunt independente) i sunt identic repartizate, cu funcia de repartiie comun
FX
(se
volum n.
FXi = FX , i = 1, n). Y : (n) R,
Vom numi
Vom numi Xi , i = 1, n, variabile aleatoare de selecie repetat de vector de selecie repetat de volum n, vectorul Y , astfel nct:
Y ( (n) ) = (X1 ( (n) ), X2 ( (n) ), . . . , Xn ( (n) )). Y ( (n) )

se numesc
Pentru un
(n)
xat, componentele vectorului
valori de selecie repetat de volum n.
Vom nota cu
Ln = Y ((n) ) Rn ,
i-l vom numi
spaiul valorilor de selecie repetat de volum n.

x = (x1 , x2 , . . . , xn ),
Elementele lui
Ln
le vom nota prin
(xi = Xi ( (n) ),
pentru
(n)
xat,
i = 1, 2, . . . , n).
Deniia 11.3
Vom numi
statistic (sau funcie de selecie) variabila aleatoare

Sn (X ) = g (X1 , X2 , . . . , Xn ),
unde
este o funcie
g : Rn R
msurabil (i.e.,
B B (R),
g 1 (B ) B (Rn )).
Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei statistici se mai numete i
repartiia (distribuia) de selecie.
Notaii:
n literatur, statistica este notat cu una dintre urmtoarele:
Sn (X ),
Valoarea numeric
S (X, (n) ),
S (X, n),
S (X1 , X2 , . . . , Xn ).
Sn (x) = g (x1 , x2 , . . . , xn )
se numete
valoarea funciei de selecie pentru un (n)
xat.
Observaia 11.4
asimptotice a lui
Aadar, o statistic este o funcie de variabilele aleatoare de selecie. Prin intermeniul
statisticilor putem trage concluzii despre populaia
din care a provenit eantionul
(n) .
Teoria pro-
babilitilor ne ofer procedee de determinare att a repartiiei exacte a lui al seleciei. n general, dac se lucreaz cu selecii de volum redus (n trebui s e cunoscut este repartiia limit a
Sn (X ). Repartiia exact este acea repartiie ce poate determinat pentru orice volum < 30), atunci repartiia exact ar
Sn (X ),
ct i a repartiiei
a priori,
dac se dorete luarea de decizii prin inferen.
Repartiia asimptotic
Sn (X )
cnd
n ,
iar utilizarea acesteia conduce la rezultate bune doar pentru
n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:
n probleme de estimare punctual a parametrilor; n obinerea intervalelor de ncredere pentru un parametru necunoscut; ca o statistic test pentru vericarea ipotezelor statistice.
74
Exemple de statistici
Fie
(, F )
o colectivitate statistic i
o caracteristic cercetat a sa. S notm cu
a priori i le vom numi funcii teoretice (densitate de repartiie teoretic, funcie de probabilitate teoretic sau funcie de repartiie teoretic). Dac se cunoate f (x), atunci putem 2 2 determina = E(X ) i = D (X ), dac acestea exist, i le vom numi medie teoretic i dispersie teoretic. n cazul n care una sau mai multe caracteristici teoretice corespunztoare lui X nu ne sunt a priori
cunoscute sau necunoscute cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate. S considerm
tatea de repartiie (sau funcia de probabilitate), respectiv, funcia de repartiie
f (x) i F (x) densipentru X . Acestea pot
(n)
o selecie repetat de volum
din colectivitatea dat i
Xi , i = 1, n,
variabilele
aleatoare de selecie. Cu ajutorul acestora, putem construi diverse funcii de selecie.
Media de selecie
(mean)
Deniia 11.5
Numim
medie de selecie (repetat de volum n), statistica

X ( (n) ) = 1 n
n
Xi ( (n) ),
i=1
(n) (n) .
(11.1)
Pentru un
(n)
xat, s notm cu
toare de selecie
{x1 , x2 , . . . , xn } valorile de selecie corespunztoare variabilelor {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecie pentru un (n) xat este: 1 x= n
n
alea-
xi
i=1
(media
empiric).
Propoziia 11.6
Media de selecie satisface urmtoarele proprieti:
E(X ) = E(X ), 1 n
n a.s.
D 2 (X ) =
D2 (X ) ; n
cnd
(11.2)
Xi E(X ),
i=1
n .
(conform LTNM)
(11.3)
Observaia 11.7
(1)
n capitolele urmtoare vom scrie relaia (11.4) sub forma restrns:
X=
1 n
Xi .
i=1
(11.4)
Pentru simplitatea formulelor, de acum nainte vom face abstraie de dependena de se va subnelege. (2)
(n)
n formule, care
Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie
dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de selecie pentru variabile de selecie ntr-o colectivitate oarecare.
75
Momente de selecie
Deniia 11.8
Numim
moment de selecie (repetat de volum n) de ordin k, (k N ), statistica

1 k (X ) = n
n
Xik .
i=1
Valoarea momentului de selecie de ordin
pentru un
(n)
xat este:
k (x) =
n cazul particular
1 n
xk i
i=1
(moment
iniial empiric de ordin
k ).
k = 1,
avem:
1 (X ) = X.
Propoziia 11.9
Pentru oricare
xat,
k N ,
avem:
E(k (X )) D2 (k (X )) 1 n
n
= =
a.s.
E(X k ) = k (X ), D2 (X k ) , n
cnd
(momente
iniiale teoretice pentru
X)
Xik k (X ),
i=1
n .
Momente de selecie centrate
Deniia 11.10
Numim
moment de selecie centrat de ordin k, statistica

k (X ) = 1 n
n
[Xi X ]k .
i=1
Valoarea momentului de selecie de ordin
pentru un
(n)
xat este:
k (x) =
1 n
[xi x]k
i=1
(moment
centrat empiric de ordin
k ).
Propoziia 11.11
1 n
n
Pentru oricare
xat,
k N ,
avem:
E(k (X )) (Xi X )k
i=1
=
a.s.
E([X ]k ) = k (X ),
cnd
(momente
centrate teoretice pentru
X)
k (X ),
n .
76
(var)
Dispersie de selecie
Deniia 11.12
Numim
dispersie de selecie (repetat de volum n), statistica

d2 (X ) = 2 (X ) = 1 n
n
[Xi X ]2 .
i=1
Pentru simplitate, o vom nota cu
d2 (X ), 1 n
n
iar valoarea acesteia pentru un
(n)
xat este:
d2 (x) =
[xi x]2
i=1
(dispersia
empiric).
(11.5)
De cele mai multe ori, n locul lui
d2 (X )
se utilizeaz statistica
d2 (X ),
denit prin:
d2 (X )
Aceasta se mai numete i
1 = n1
[Xi X ]2 .
i=1
xat este:
(11.6)
dispersie de selecie modicat, iar valoarea ei pentru un (n)

n
s =
d2 (x)
1 = n1
[xi x]2
i=1
(dispersia
empiric modicat).
Motivaia pentru considerarea statisticii
d2 (X )
este dat de proprietile din propoziia urmtoare:
Propoziia 11.13
Dispersiile de selecie veric urmtoarele relaii:
E(d2 (X )) =
n1 2 D (X ), n
prob
2 E(d2 (X )) = D (X )
cnd
(11.7) (11.8)
2 d2 (X ) D (X ),
n .
Observaia 11.14
d2 (X )
(ii) selecie
(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica
este un estimator nedeplasat pentru dispersia teoretic, pe cnd
Dac media teoretic a colectivitii este cunoscut
d2 (X )
d2 (X ) este estimator deplasat. a priori, E(X ) = R, atunci dispersia de

(11.9)
devine:
d2 (X ) =
1 n
[Xi ]2 .
i=1
Propoziia 11.28 precizeaz care este repartiia acestei statistici.
Funcia de repartiie de selecie
(cdfplot)
Deniia 11.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selecie repetat de volum n. de repartiie de selecie (repetat de volum n), funcia
Fn : R (n) [0, 1], Fn (x, (n) ) =
Numim
funcie
n(x) , n
(x, (n) ) R (n) ,

unde
77
reprezint numrul de elemente din selecie mai mici sau egale cu
n(x) = card {i, Xi ( (n) ) x}
x.
Relaia din deniie poate scris i sub forma:
Fn (x) =
1 n
(, x] (Xi ),
i=1
x R,
unde
este funcia indicatoare a mulimii
A. B (n, F (x)).
(n) ) este o variabil aleatoare repartizat binomial Pentru un x R xat, Fn ( ( n ) ( n ) (x) ia valorile: Pentru ecare xat, Fn Fn (x) =
card
{i, xi x} , n
(i.e., este funcia de repartiie empiric denit n 9.4).
Propoziia 11.16
Funcia de repartiie de selecie satisface urmtoarele relaii:
E(Fn (x)) = F (x), x R; 1 [F (x)(1 F (x))], D2 (Fn (x)) = n
x R;
(x) Fn
n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui amintim doar cteva dintre ele.
de
F (x).
Mai jos,
Propoziia 11.17
Funcia de repartiie de selecie satisface convergena
Fn (x) F (x), x n
a.s.
xat n
R.
Demonstraie.
Rezultatul este o consecin direct a legii tari a numerelor mari.
Propoziia 11.18
Pentru
n N sucient de mare,
funcia de repartiie de selecie satisface proprietatea xat n
n(Fn (x) F (x)) N ( 0, F (x)(1 F (x)) ), x
R.
Demonstraie.
Rezultatul este o consecin direct a Propoziiei 11.16 i a teoremei limit central.
Teorema 11.19 (Glivenko-Cantelli) Fie X

adic:
o caracteristic,
de repartiie empiric corespunztoare unei selecii de
(x) funcia F (x) funcia sa de repartiie i Fn volum n. Atunci Fn (x) converge uniform la F (x),
cu probabilitatea
sup |Fn (x) F (x)| 0, x R n
1.
Statistici de ordine Deniia 11.20

mii lor i scriem Dac variabilele aleatoare din selecia
{X1 , X2 , . . . , Xn }
le rearanjm n ordinea mri-
X(1) X(2) X(n) ,

atunci vom numi variabila aleatoare
78
X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n. i o vom nota prin x(i) , pentru orice i =
Pentru o selecie dat, valoarea statisticii de ordine de ordin
1, 2, . . . , n. Statistica X(1)
se numete
prima statistic de ordine i este ntotdeauna minimumul seleciei, i.e.,

X(1) = min{X1 , X2 , . . . , Xn }.
Statistica
X(n)
se numete
ultima statistic de ordine i este ntotdeauna maximumul seleciei, i.e.,

X(n) = max{X1 , X2 , . . . , Xn }.
De exemplu, dac avem valorile de selecie
x1 = 8,
atunci
x2 = 7,
x3 = 9,
x4 = 5,
x5 = 3,
x(1) = 3,
Dac
x(2) = 5,
2
x(3) = 7, X(m)
par.
x(4) = 8, X(m+1) .
x(5) = 9.
1 X=2 (X(m) + X(m+1) ),
n = 2m + 1,
atunci
X(m) = X( n+1 ) = X ,
adic media de selecie este o statistic de ordine n acest i Deoarece
caz. Dac Denim
n = 2m,
atunci avem dou valori de mijloc,
media de selecie nu este statistic de ordine pentru se numesc
amplitudinea (range) seleciei ca ind statistica A = X(n) X(1) . deviaiile extreme ale seleciei.
F (x)
este funcia de repartiie a seleciei date i
Statisticile
X(n) X
X(1) X
Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente. S presupunem c
f (x)
densitatea de repartiie. Urm-
toarea propoziie stabilete funciile de repartiie pentru statisticile de ordine.
Propoziia 11.21
Pentru un
k 1, n
n
xat, funcia de repartiie pentru
X(k)
este:
FX(k) (x) =
j =k
j Cn F (x)j [1 F (x)]nj ,
pentru orice
x R.
Demonstraie.
Avem succesiv:
FX(k) (x) = P (X(k) x) = P ({cel = P ({cel

n
puin puin
k k
v.a. din cele succese n
nu depesc pe
x})
ncercri})
=
j =k n
j Cn [P (X x)]j [1 P (X x)]nj
=
j =k
j Cn F (x)j [1 F (x)]nj ,
pentru orice
x R.
n particular, pentru
k = 1,
obinem c funcia de repartiie a celui mai mic element al seleciei: pentru orice
FX(1) (x) = 1 [1 F (x)]n ,
x R.

Funcia de repartiie a celui mai mare element al seleciei este:
79
FX(n) (x) = [F (x)]n ,
pentru orice
x R.
Selecii aleatoare dintr-o colectivitate normal

S considerm
o colectivitate statistic i
o caracteristic a sa, ce urmeaz a studiat din punct de
{X1 , X2 , . . . , Xn } variabile aleatoare de selecie repetat de volum n. n cele mai X urmeaz o repartiie normal (gaussian). De regul, dac volumul populaiei este mic (n < 30), atunci considerm doar populaii normale, iar pentru n > 30 putem considera orice tip
vedere statistic. Fie multe cazuri practice, de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Propoziia 11.22 (repartiia mediei de selecie pentru o selecie gaussian)

Dac
Xi N (, ), i = 1, 2, . . . , n,
atunci statistica
satisface:
XN
, n
(n N ) N (, )
Demonstraie.
Vom folosi metoda funciei caracteristice.
Pentru o variabil aleatoare

2 t2
funcia (11.10)
caracteristic este:
(t) = ei t 2
Folosind proprietile funciei caracteristice i relaia
aX (t) = X (at),
obinem c funcia caracteristic a lui
este:
X (t) =
k=1
adic
t n
2 t2 2 n2
= e
it
1 2
t2
urmeaz legea de repartiie
N (,
). n
O consecin direct a acestei propoziii este urmtoarea:
Propoziia 11.23
Dac
Xi N (, ), i = 1, 2, . . . , n Z=
sunt variabile aleatoare de selecie, atunci
X N (0, 1). n
Propoziia 11.24 (repartiia mediei de selecie pentru o selecie oarecare)

Dac atunci pentru un volum
{X1 , X2 , . . . , Xn }, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiie dat, n sucient de mare, statistica X satisface: XN , n . (n > 30)
80
Demonstraie.
Acest rezultat este o consecin imediat a concluziei teoremei limit central.
Observaia 11.25
gaussian.
Dac
este sucient de mare, atunci concluzia Propoziiei 11.23 ramne valabil i
n cazul n care avem o selecie repetat de volum
dintr-o colectivitate statistic ce nu este neaprat
Propoziia 11.26
i = 1, n,
Dac
i N (i , i )
n
sunt variabile aleatoare independente stochastic i
ai R,
atunci variabila aleatoare
=
i=1
ai i
n
satisface proprietatea:
2 . a2 i i
N
i=1
ai i ,
i=1
Demonstraie.
Demonstraia este bazat pe metoda funciei caracteristice.
[Exerciiu!]
Propoziia 11.27
proprietatea:
Fie
Pentru ecare caracteristic
i N (i , i ) variabile i considerm cte
aleatoare independente stochastic i o selecie repetat de volum
de selecie corespunztoare ecrei selecii.
Atunci statistica
ai R, i = 1, n. ni , i notm cu i media Y = a1 1 + a2 2 + . . . + an n satisface .
Y N
ai i ,
i=1
2 i a2 i ni i=1
Demonstraie.
toare,
Deoarece
i N (i , i ),
din Propoziia 11.22 obinem c media de selecie corespunz-
i ,
satisface:
i N
i i , ni
. {1 , 2 , . . . , n },
obinem con-
Aplicnd rezultatul Propoziiei 11.26 variabilelor aleatoare independente cluzia dorit.
Urmtoarea propoziie este un caz particular al Propoziiei 11.27.
Propoziia 11.28 (repartiia diferenei mediilor de selecie pentru colectiviti gaussiene)

Considerm o selecie de volum o colectivitate respectiv,
n1
dintr-o populaie normal
N (1 , 1 )
i o selecie de volum
n2
dintr-
N (2 , 2 ),
cele dou selecii ind alese independent una de cealalt.
Notm cu
i,
mediile de selecie corespunztoare seleciilor alese. Atunci statistica
1 2 N 1 2 ,
2 1
n1
2 2
n2
Demonstraie.
Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-
abile aleatoare,
2 ,
iar
a1 = 1, a2 = 1.
81
Concluzia propoziiei anterioare se mai poate scrie astfel:
Observaia 11.29
(1)
Z=
(1 2 ) (1 2 )
2 1 n1
2 2 n2
N (0, 1).
(2)
S presupunem c avem dou populaii statistice normale,
1 i 2 , iar este o caracteristic comun
a celor dou populaii, ce urmeaz a studiat.
(De exemplu, populaiile statistice s e mulimea
pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm cte o selecie repetat, de volume strungul nti i
n1 ,
respectiv,
n2
(adic, vom selecta
n2
piese produse de cel de-al doilea strung). S notm
n1 dintre piesele produse cu 1 , respectiv, 2 mediile
de de
selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale celor dou medii de selecie. Aceasta ne va deosebit de util, spre exemplu, n vericarea ipotezei c masele medii ale pieselor produse de cele dou strunguri coincid.
82

Utiliznd funciile
legernd(< param >, m, n)

i
(12.1)
random( lege , < param >, m, n)

introduse anterior, putem genera variabile aleatoare de selecie de un volum dat, trebui ca
(12.2)
n.
Pentru aceasta, va
m=n
n (12.1) i (12.2). Astfel, comanda
random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune
50.
Putem privi aceast matrice aleatoare astfel: ecare
coloan a sa corespunde unei variabile aleatoare de selecie de volum valori ale sale obinute la o observaie. n total, avem aleatoare de selecie. Aadar, am generat repartiia
50,
creia i precizm cele
50
de
50
de coloane, corespunznd celor
50
de variabile aleatoare de selecie de volum
50 de 50, ce
variabile urmeaz
N (100, 6).
Exerciii rezolvate
Exerciiu 12.1
o caracteristic
S considerm c masa medie a unor batoane de ciocolat produse de o main este
X N (100, 0.65).
n vederea vericrii parametrilor mainii, dintre sutele de mii de
batoane produse n acea zi s-au ales la ntmplare
1000
dintre acestea.
Calculai masa medie i deviaia standard ale mediei de selecie, Calculai
X.
P (98 < X < 102). 98

de grame sau peste
Un baton este declarat rebut dac masa sa este sub procentul de rebuturi avute.
102
de grame. Calculai
Soluie:
Din teorie, tim c media de selecie
urmeaz repartiia
N (100, 0.65/ 1000) (vezi Propoziia
11.22). Aadar,
X = 100,
Probabilitatea
X 0.02.
P1 = P (98 < X < 102)
este
P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.

Probabilitatea de a avea un rebut este:
P2 = P {X < 98}
{X > 102}
= P (X < 98) + P (X > 102) = FX (98) + 1 FX (102),

de unde, procentul de rebuturi este
r = P2 100% 0.2091%,

adic aproximativ n
83
1000
de batoane.
Matlab, acestea pot calculate astfel:
rebuturi la
mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei X = normrnd(mu, sigma, n,n); % am generat selectia de volum n Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie m = mean(Xbar); s = std(Xbar); % media si deviatia standard P1 = normcdf(102, mu, S) - normdf(98, mu, S); P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma); rebut = P2*100;
Exerciiu 12.2
n vederea studierii unei caracteristici
ce are densitatea de repartiie
f (x) =
s-a efectuat o selecie repetat de volum unde
2 x, x (0, 1); 0, x (0, 1).

Se cere s se determine probabilitatea
n = 100.
P (X < 0.65),
este media de selecie.
Soluie:
Se observ cu uurin c
f (x)
ndeplinete condiiile unei funcii de repartiie, adic este
msurabil, nenegativ i
f (x) dx =
R 0
Pentru a calcula probabilitatea cerut, avem nevoie de
2 x dx = 1. E(X )
1
i
D2 (X ).
Avem:
E(X ) =
R
x f (x) dx =
0
2 2 x2 dx = , 3 1 4 = . 9 18
D2 (X ) = E(X 2 ) (E(X ))2 =

R
Aadar, repartiia mediei de selecie
x2 f (x) dx
este
XN
2 1 , 3 18 100
Putem acum calcula probabilitatea cerut. Ea este:
P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.
Exerciiu 12.3
nem o sum de
O pereche de zaruri ideale este aruncat de n cel puin
200
de ori. Care este probabilitatea s obi-
20%
dintre cazuri?
Soluie:
X
Probabilitatea de apariie a sumei
ntr-o singur aruncare a dou zaruri este
v.a. ce reprezint numrul de apariii ale sumei
la aruncarea a dou zaruri ideale n
p = 1/6. Fie 200 de aruncri.

Atunci,
84
ca o sum de
cel puin
X B (200, 1/6). Probabilitatea 40 dintre cazuri) este:
s apar n cel puin
20%
dintre cazuri (i.e., n
39
P = P (X 40) = 1 P (X 39) = 1
k=0
n
k C200 pk (1 p)200k = 0.1223.
Matlab,
; Distana
1 - binocdf(39,200,1/6)
X
Exerciiu 12.4
este
la care o sunt aruncate mingile de tenis de ctre o main automat de servit Media distanei este necunoscut, dar deviaia standard
este o variabil aleatoare repartizat normal.
1.2 m. P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X )). E(X ) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X . Calculai P (X 18). X 18 2 Stabilii repartiia variabilei aleatoare Z = i calculai probabilitatea P (Z 20). 1.2
(a)
(a) tiind c
(b) S presupunem c
(c)
X N (, 1.2).
Din
P (X 20) = 0.95
obinem c
0.95 = P 20 = 1 (0.95) = 1.6449. 1.2 1.2 Folosim faptul c X N 18, 5 2
X 20 1.2 1.2
Aadar,
20 1.2
de unde (b)
EX = = 18.0262 18.
. Obinem c:
P (X 18) = 1 P (X < 18) = 1 FX (18) = 0.5.

(c)
(= 1
- normcdf(18, 18, 1.2/sqrt(50))) (=
Z N (0, 1)
Z 2 2 (1). P (Z 2 < 20) = FZ 2 (20) = 1.
chi2cdf(20,1)).
85
13 Statistic Aplicat (C7) Noiuni de Teoria seleciei (continuare)

Considerm o colectivitate statistic
i o caracteristic a sa,
X,
ce urmeaz a studiat. Fie
{X1 , X2 , . . . , Xn }
variabile aleatoare de selecie repetat de volum
n.
Dup cum am vzut n cursul pre-
cedent, n cele mai multe cazuri practice variabila aleatoare n acest caz, media de selecie
urmeaz o repartiie normal (gaussian).
X=
1 n
Xi
i=1
urmeaz tot repartiia normal, i.e.,
XN
pentru orice
, n
, n 30, 30
i
(13.1)
n N .
Totui, dac
nu este o v.a.
normal repartizat i
atunci repartiia
asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect normal repartizat, atunci putem spune doar c
n 30.
nu este neaprat
E(X ) =
fr a putea preciza care este repartiia lui
D 2 (X ) = n
Aici
N n , N 1 , N > n.
X.
este volumul populaiei
Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Propoziia 13.1
{X1 , X2 , . . . , Xn } variabile aleatoare N (0, 1) , i = 1, 2, . . . , n. Atunci variabila aleatoare

Fie
independente stochastic, astfel nct
Xi
H =
i=1
2 Xk 2 (n).
Demonstraie.
S notm cu
Pentru a demonstra propoziia, folosim metoda funciei caracteristice.
Pentru aceasta, Notm cu
avem nevoie de funcia caracteristic pentru
X 2,
unde
f (x)
funcia densitate de repartiie
X N (0, 1). pentru X , dat de
relaia (30.2) cu
= 0.
G( y )
X2
i cu
g (y )
densitatea sa de repartiie. Avem:
G(y ) = P (X 2 y ) =
de unde
0 , P ( y X y ) , , + f ( y )] , , , y 0; y > 0.
y 0; y > 0, y 0; y > 0,
g (y ) = G (y ) =
1 2 y [f ( y )
1 y f ( y)

Funcia caracteristic pentru
86
X2
va :
2
X 2 (t) = E ei t X
1 = 2
1
y 2 eity
2 y 2
dy
= (1 2it) 2 .
Deoarece variabilele aleatoare
{Xi }i
sunt independente stochastic, putem aplica relaia (5.15) i obinem:

n i=1
n
2 Xi
H 2 (t) = E(eit
n
)=
i=1
E eitXi
n
=
i=1
X 2 (t) = (1 2it) 2 .
i
Aceasta este funcia caracteristic pentru o v.a.
2 (n). X N (0, 1),

atunci v.a.
X 2 2 (1).
Observaia 13.2
O consecin imediat a acestei propoziii este c, dac
Urmtoarea propoziie este tot o consecin direct a Propoziiei 13.1.
Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
Fie
{X1 , X2 , . . . , Xn } variabile i = 1, 2, . . . , n. Atunci variabila
aleatoare independente stochastic, astfel nct aleatoare
Xi N (, ),
pentru
H2 =
1 2
(Xi )2 2 (n).
i=1
Demonstraie.
Pentru ecare
i = 1, 2, . . . , n,
consider variabilele aleatoare
Yi =
Conform Propoziiei 11.23, avem variabilele aleatoare
Xi .
rezultatul propoziiei 13.1 pentru
Yi N (0, 1), i = 1, n. Aplicm {Y1 , Y2 , . . . , Yn } i obinem concluzia dorit.
Lema 13.4
X +Y
Dac
2 ( n
X i Y sunt variabile + m), atunci Y 2 (m).
aleatoare independente stochastic, astfel nct
X 2 ( n )
Demonstraie.
Demonstraia se bazeaz pe metoda funciei caracteristice, folosind faptul c
X (t) Y (t) = X +Y (t), t R.
Lema 13.5
volum
Fie X caracteristica unei colectiviti statistice N (, ), X d2 (X ) dispersia de selecie repetat. Atunci, statisticile
media de selecie repetat de
X
n
n (X )
n1 2 1 d (X ) = 2 2
(Xi X )2
i=1
sunt independente stochastic.
87
Demonstraie.
Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-
strat n [4] (Teorema I.2.5).
Propoziia 13.6
Fie
X N (, )
caracteristica unei populaii statistice i e
{X1 , X2 , . . . , Xn }
vari-
abile aleatoare de selecie repetat de volum
n.
Atunci statistica
1 = 2
2
(Xi X )2 2 (n 1).
i=1
Demonstraie.
Putem scrie:
1 2
(Xi )2
i=1 n
=
sau,
1 2
(Xi X )2 +
i=1
n ( X ) 2 2
(13.2)
Zi2
i=1
unde:
n1 2 2 d (X ) + Z , 2 X
n
(13.3)
Zi =
Xi N (0, 1)
Z=
N (0, 1).
Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-
2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat 2 2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z n1 2 i d (X ) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei. 2
zat
Observaia 13.7
Concluzia propoziiei 13.6 se poate rescrie astfel:
n1 2 d (X ) 2 (n 1), 2
unde
(13.4)
d2 (X )
este dispersia de selecie.
Lema 13.8
Dac
sunt variabile aleatoare independente stochastic, cu
X N (0, 1) i Y 2 (n),
atunci statistica
T =
X
Y n
t (n).
Demonstraie.
Fie
f (x)
g (y )
densitile de repartiie pentru
X,
respectiv,
Y.
Avem:
x2 1 f (x) = e 2 , x R, 2 n 1 y y 2n e 2 , y > 0; 2 2 ( n g (y ) = 2) 0 , y 0.

Din independen, gsim c densitatea de repartiie a vectorului
88
(X, Y )
este:
y 2 1 e 2 h(x, y ) = f (x)g (y ) = n+1 , 2 2 n 2

Considerm o transformare a acestui vector,
x2 +y
(x, y ) R (0, ).
x t = v = y,
y n
n vectorul
(T, Y ).
Densitatea de repartiie a acestui vector este:
v 2 1 e 2 (1+ n ) k (t, v ) = n+1 2 2 n 2

Densitatea de repartiie marginal pentru
t2
v , n
(t, v ) R (0, ).
este:
k1 (t) =
0
k (t, v ) dv n+1 2 n n 2 t2 1+ n
n+1 2
t R,
adic tocmai densitatea de repartiie a unei variabile aleatoare
t(n).
n,
ce
Propoziia 13.9
Dac
urmeaz repartiia unei caracteristici
{X1 , X2 , . . . , Xn } sunt variabile X N (, ) a unei t=
aleatoare de selecie repetat de volum colectiviti statistice, atunci statistica
X t(n 1). d (X ) n1
grade de libertate, iar
(Aici,
t(n 1)
este repartiia Student cu
(n 1)
d (X ) =
d2 (X ) ).
Demonstraie.
Aplicm lema anterioar pentru variabilele aleatoare
X=
X
n
N (0, 1)
Y =
n1 2 d (X ) 2 (n 1). 2
Observaia 13.10 Propoziia 13.11

repartizate
Aceasta propoziie va folosit n teoria deciziei statistice, n problema testrii mediei
teoretice cnd dispersia teoretic este necunoscut
a priori.
Dac variabilele aleatoare atunci variabila aleatoare
{X0 , X1 , . . . , Xn } X0
sunt independente stochastic, identic
N (0, 1),
T =
2 +X 2 + ... +X 2 X1 n 2 n
t (n).
89
Demonstraie.
Concluzia rezult prin aplicarea Propoziiei 13.1 i Lemei 13.8.
Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum colectivitate
n1
dintr-o populaie normal
N (1 , 1 )
i o selecie de volum
N (2 , 2 ), cele dou selecii ind alese independent una de cealalt. Notm 2 (X ), d2 = d2 (X ) mediile de selecie i dispersiile de selecie corespunztoare seleciilor d2 = d 1 2 1 2
Atunci statistica
n2 dintr-o cu 1 , 2 i
alese.
T =
(1 2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2).
Demonstraie.
Considerm variabila aleatoare
U=
(1 2 ) (1 2 )
1 n1
1 n2
Se veric cu uurin c
U N (0, 1).
V =
Conform relaiei (13.4), avem c
(n1 1) d2 (n2 1) d2 1 2 + . 2 2 2 (n1 1)

i
2 (n2 1). Deoarece aceste dou 2 statistici sunt independente, atunci c suma lor, statistica V , satisface V (n1 + n2 2). Concluzia propoziiei rezult prin simpla aplicare a Lemei 13.8 variabilelor aleatoare U i V .
(n1 1) d2 1 2
(n2 1) d2 2 2
Propoziia 13.13
aleatoare
Dac
X 2 (m) i Y 2 (n) sunt variabile aleatoare independente, atunci variabila F = n X F (m, n). m Y X
i, respectiv,
Demonstraie.
Fie
f (x)
g (y )
densitile de repartiie pentru
Y.
Avem:
m 1 x e 2 x 2 m 2 ( m ) 2 f (x) = 2 0 n 1 y y 2n e 2 2 2 ( n g (y ) = 2) 0
este:
, x > 0; , x 0. , y > 0; , y 0. (X, Y )
Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului
h(x, y ) = f (x)g (y ) =
x 2 1 y 2 1 e 2
m+n 2
x+y 2
m 2
n 2
(x, y ) (0, ) (0, ).
Considerm o transformare a acestui vector,
t = n x m y : v = y,

n vectorul
90
(F, Y ).
Densitatea de repartiie a acestui vector este:
k (u, v ) =
m n
m 2
u 2 1 v 2
m+n 2
m+n 1 2
e 2 (1+ n
n 2
u)
m 2
(t, v ) (0, ) (0, ).
Densitatea de repartiie marginal pentru
este:
k1 (u) = =
0 m n
k (u, v ) dv
+n m2 m m u 2 1 1 + u n n m 2 2
m 2 +n m2
u > 0,
adic tocmai densitatea de repartiie a unei variabile aleatoare
F (m, n).
Propoziia 13.14
N (0, 1),
Dac
{X1 , X2 , . . . , Xm+n }
sunt variabile aleatoare independente, identic repartizate
F =
2 + X2 + . . . + X2 n X1 m 2 2 2 2 m Xm + X + . . . + X m+n +1 m+2
F (m, n).
Demonstraie.
Demonstraia rezult imediat prin aplicarea rezultatelor Propoziiilor 13.1 i 13.13.
Propoziia 13.15 (repartiia raportului dispersiilor pentru colectiviti gaussiene)

Fie
X1 N (1 , 1 )
X2 N (2 , 2 )
caracteristicile a dou populaii statistice,
populaie extragem cte o selecie repetat, de volume
n1 ,
respectiv,
n2 ,
i considerm
2 d2 2 = d2 (X2 )
2 . Din ecare 2 d2 1 = d1 (X1 ) i
dispersiile de selecie corespunztoare celor dou selecii repetate. Atunci statistica
F =
2 d2 2 1 F (n1 1, n2 1). 2 d2 1 2
Demonstraie.
Rescriem
n forma echivalent:
F =
unde
n 2 1 2 1 , n 1 1 2 2 2 2 = 1 2 2
n2
2 1 = {X1 i }i=1, n1
ztoare. i
1 2 1
n1
(X1 i X1 )2 ,
i=1
(X2 j X2 )2 ,
j =1
{X2 i }i=1, n2
sunt variabile de selecie repetat de volume
n1 ,
respectiv,
n2 ,
ce urmeaz
repartiia variabilelor aleatoare
X1 ,
respectiv,
X2 .
Statisticile
X1
X2
sunt mediile de selecie corespun-
Folosind concluzia Propoziiei 13.6, avem c
2 2 1 (n1 1),
2 2 2 (n2 1).
Concluzia acestei propoziii urmeaz n urma aplicrii rezultatului Propoziiei 13.14.
91
a priori.
Propoziia 13.16 (repartiia raportului dispersiilor pentru colectiviti gaussiene)

Suntem n condiiile Propoziiei 13.15, cu meniunea c mediile teoretice Atunci
sunt cunoscute
F1 =
unde
2 d2 2 1 2 d2 F (n1 , n2 ), 1 2
d2 1
d2 2
sunt date de:
2 1
1 = 2 1
n1
(X1 i 1 ) (n1 ),
i=1
2 2
1 = 2 2
n2
(X2 j 2 )2 2 (n2 ).
j =1
Demonstraie.
i 13.14.
Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3
92
14 Statistic Aplicat (L7) Exerciii rezolvate

Exerciiu 14.1
manufacturier Becurile produse de un manufacturier
au timpul mediu de funcionare de
1400
ore,
cu deviaia standard de
200
ore, n timp ce timpul mediu de funcionare ale becurilor produse de un
B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu (a) 160 de ore; (b) 250 de ore; mai mare dect timpul mediu de funcionare ale becurilor produse de B ? (c) Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e cuprins ntre 1375 de ore i 1425 de ore? (d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins ntre 1375 de ore i 1425 de ore?
Notm cu
T1
T2
cele dou timpuri de funcionare. Avem c i
T1 = 1400, T1 = 200
Pentru o selecie de volum
T2 = 1200, T2 = 100.
n = 125
(vom considera c selecia este repetat, deoarece volumul seleciei
este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:
200 T1 N (1400, ) 5 5
100 T2 N (1200, ). 5 5
Diferena mediilor de selecie este o v.a. repartizat astfel:
T1 T2 N (200, 20).
(a) Probabilitatea cerut este:
P (T1 T2 > 160) = 1 FT1 T2 (160) = 1 - normcdf(160,200,20) = 0.9772.

(b) Probabilitatea cerut este:
P (T1 T2 > 250) = 1 FT1 T2 (250) = 1 - normcdf(250,200,20) = 0.0062.

(c) Probabilitatea cerut este:
P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5)) = 0.8377.

(c) Probabilitatea cerut este:
93
P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,200) - normcdf(1375,1400,200) = 0.0995.
Exerciiu 14.2
n
Dou avioane zboar n aceeai direcie pe dou coridoare paralele. La momentul
t = 0,
6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat 510 i deviaia standard 10, iar viteza celui de-al doilea avion este normal repartizat, cu media 500 i deviaia standard 10. (a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l ajuns pe primul? (b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel mult 5km.
primul avion are un avans de
km/h)
este o v.a. repartizat normal, cu media
Notm cu
v1
v2
cele dou viteze. Avem c
v1 N (510, 10)
Dup
v2 N (500, 10). 4
pentru ecare v.a.), mediile de selecie for
ore de zbor (adic avem cte o selecie de volum
satisface:
v1 N (510, 5)
v2 N (500, 5).
Diferena mediilor de selecie este o v.a. repartizat astfel:
v1 v2 N (10, 5 2).
(a) Evenimentul ca, dup
4 ore de zbor, al doilea avion s nu l ajuns pe primul este {4v1 4v2 +6 > 0}.
Probabilitatea acestui eveniment este:
3 3 3 P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( ) 2 2 2 = 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b) Evenimentul ca, dup
ore de zbor, distana dintre cele dou avioane s e de cel mult
5km
este
{|4v1 4v2 | + 6 5}.
Probabilitatea acestui eveniment este:
P ({|4v1 4v2 | + 6 5}) = P
11 1 v1 v2 4 4 1 11 = Fv1 v2 Fv1 v2 4 4 = normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2)) = 0.0017.
Exerciiu 14.3
Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-
tizat exponenial, cu media de
10
minute.
tiind c n fa mai sunt nc
persoane ce ateapt s
e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se calculeze probabilitatea de a atepta mai puin de
50
de minute.
94
Exerciiu 14.4
ca din (b) (c)
Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea
20
de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?
Notm cu
Sn
suma punctelor nsumate din cele
aruncri.
Calculai probabilitatea
P (S2 6). P (120 S36 130).
Folosind teorema limit central, aproximai probabilitatea
Exerciiu 14.5
proprieti:
S se arate c dispersia de selecie i dispersia de selecie modicat au urmtoarele
2 2 E[d2 (X )] = D (X ), E[d (X )] =
n1 2 D (X ), n N . n
95
15 Statistic Aplicat (C8) Noiuni de Teoria estimaiei

Punerea problemei
S presupunem c avem un set de observaii aleatoare
{x1 , x2 , . . . , xn } asupra unei caracteristici X
a unei
populaii statistice. Funcia de probabilitate (respectiv densitatea de repartiie) a caracteristicii poate :
complet specicat, de exemplu,
X U (0, 1); X P ()
sau
specicat, dar cu parametru(i) necunoscut(i). De exemplu,
X N (, );
necunoscut, caz n care se poate pune problema de a estimat.
n mod evident, n primul caz de mai sus nu avem nimic de estimat.
Dac funcia de probabilitate
priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.
(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut
X care urmeaz repartiia dat de funcia de probabilitate (sau f (x, ), unde este un parametru necunoscut. n general, acest parametru poate p un vector ( R ), ale crui componente sunt parametrii repartiiei lui X . Mai sus, f este funcia de probabilitate dac variabila aleatoare X este de tip discret, iar f este densitatea de repartiie a lui X ,
S presupunem c avem caracteristica densitate de repartiie) dac este o variabil aleatoare de tip continuu. Scopul teoriei estimaiei este de a evalua parametrii de care depinde bazndu-ne pe rezultatele teoretice prezentate n capitolele anterioare. Fie
f,
folosind datele de selecie i repartiia lui
{X1 , X2 , . . . , Xn }
variabile aleatoare de selecie repetat de volum
Presupunem totodat c
admite medie i notm cu
= E(X )
2 i
n, ce urmeaz = D2 (X ).
X.
Deniia 15.1
(1)
Se numete
funcie de estimaie
(punctual) sau
estimator
al lui
o funcie de
selecie (statistic)
= (X1 , X2 , . . . , Xn ),
cu ajutorul creia dorim s l aproximm pe este aceast aproximaie. (2) O statistic
n acest caz, ne-am dori s tim n ce sens i ct de bine
este
un
estimator nedeplasat (en., biased estimator) pentru

) = . E(
dac
Altfel, spunem c
este
un
estimator deplasat pentru , iar deplasarea (distorsiunea) se denete astfel:

) = E( ) . b(,
Astfel,
) b(,
este o msur a erorii pe care o facem n estimarea lui
prin
96
Exemplu 15.2
(1) Dispersia de selecie modicat
d2 (X )
1 = n1
[Xi X ]2
i=1
este un estimator nedeplasat pentru dispersia teoretic
2 = D2 (X ),
iar dispersia de selecie
1 d (X ) = n
2
este un estimator deplasat pentru
[Xi X ]2
i=1
2 = D2 (X ),
deplasarea ind
b(s2 , 2 ) = {x1 , x2 , . . . , xn }
2 . n
[Exerciiu!]
(3)
Dac
sunt date observate, atunci
(x1 , x2 , . . . , xn ) i
se numete
estimaie
a lui
Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat. Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu precizarea variabilelor de care depind. vom face diferena ntre ele prin
(4) Numim
pentru (en., mean squared error) cantitatea eroare n medie ptratic a unui estimator ) = E MSE(,
2
Observaia 15.3
E
Putem scrie:
= E
E( ) + E( )
) + 2E = D 2 (
E( )] [E( )
+E
) E(
) + 0 + (b(, ))2 . = D 2 (
Aadar,
MSE
1
i
pentru un estimator nedeplasat este
). D2 (
(5) Fie
doi estimatori pentru
Atunci, valoarea
1 , ) MSE( 2 , ) MSE(
se numete
1 n raport cu 2 . Vom spune c un estimator eciena relativ (en., relative eciency) a lui 1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i 1 , ) < MSE( 2 , ) pentru mcar un . MSE(
se numete estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator (6) Un estimator nedeplasat nedeplasat pentru
pentru , , ,
avem
notat cu
) D2 ( ). D2 (

(7) Estimatorul
97
este un
pentru
estimator consistent
dac cnd
prob (X1 , X2 , . . . , Xn ) ,
n acest caz, valoarea numeric a estimatorului,
n .
(x1 , x2 , . . . , xn ), se numete estimaie consistent pentru

dac
.
(8) Estimatorul
pentru
este un
estimator absolut corect

(i) (ii)
) = ; E( ) = 0. lim D2 (
n
n acest caz, valoarea numeric a estimatorului, pentru
(x1 , x2 , . . . , xn ),
se numete
estimaie absolut corect
. pentru
este un
(9) Estimatorul
estimator corect dac

(i) (ii)
n n
) = ; lim E(
) = 0. lim D2 (
se numete
n acest caz, valoarea numeric a estimatorului,
(x1 , x2 , . . . , xn ),
estimaie corect pentru .
Propoziia 15.4
Demonstraie.
2 Statistica d (X ) este un estimator absolut corect pentru 2 d (X ) este un estimator corect, dar nu absolut corect, pentru D2 (X ).
2 = D2 (X ),
[Exerciiu!]
iar statistica
Se arat c:
E(d2 (X )) = E D2 (d2 (X )) =
i
1 n1
[Xi X ]2
i=1
= D2 (X ),
4 n3 2 0, n n(n 1) 2
n
cnd
n .
E(d2 (X )) = E
1 n
[Xi X ]2
i=1
n1 2 n D (X ) D2 (X ), n n .
D2 (d2 (X )) 0,
cnd
Propoziia 15.5
Demonstraie.
Dac
este
un estimator absolut corect pentru
atunci estimatorul este consistent.
Utilizm inegalitatea lui Cebev n forma:
2 | }) 1 D () , > 0. P ({| 2
innd cont c
(15.1)
) = 0 lim D2 (
obinem concluzia dorit.
98
un
estimator pentru
Observaia 15.6
Fie
Ptratul acestui estimator,
nu este, n general, esti-
2 matorul pentru .
De exemplu, s presupunem c
X N (0, 1)
i avem urmtoarele
20
de observaii asupra lui
X:
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056 0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944 0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X . 2 2 (pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1 2 2 (vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia 2 2
Un estimator absolut corect pentru media teoretic a lui dat avem c
X 1.4
iar
X
2
= 0.027.
Aadar, n general X 2
= X
Observaia 15.7
Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.
De
exemplu, pentru parametrul
din repartiia
P oisson P () X
i
exist urmtorii estimatori:
d2 (X ).
Dac utilizm inegalitatea lui
Se pune problema:
Cum alegem pe cel mai bun estimator i pe ce criteriu?
Cebev n forma (15.1), atunci ar resc ca "cel mai bun estimator" s e cel de dispersie minim.
(10) Se numete
funcie de verosimilitate
(sau, simplu, verosimilitate), statistica
L(X1 , X2 , . . . , Xn ; ) =
k=1
Pentru aleator (11)
f (Xk , ).
este densitatea de repartiie pentru vectorul
Xk = xk , k = 1, n, funcia L(x1 , x2 , . . . , xn ; ) V = (X1 , X2 , . . . , Xn ).

expresia:
Numim cantitate de informaie relativ la parametrul
volum
n (informaie Fisher)
coninut n selecia corespunztoare de
In () = E
ln L(X1 , X2 , . . . , Xn ; )
(15.2)
Teorema 15.8 (Rao17 -Cramer18 )

Considerm caracteristica pentru care exist
cu funcia de probabilitate (densitatea de repartiie)
f . Considerm
f (x, ), cu (a, b) i = (X1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci, ) D 2 ( 1 . In ()

(15.3)
18 Harald
17 Calyampudi
Radhakrishna Rao (1920 ), statistician indian Cramr (1893 1985), matematician i statistician suedez

(12) Numim
99
pentru , valoarea: eciena unui estimator absolut corect

1 ) = In () . e( ) D2 (
(15.4)
(13) Un estimator absolut corect
pentru
se numete
estimator ecient
dac
) = 1, e(
adic
) = I 1 (). D 2 ( n
Propoziia 15.9
Media de selecie
ecient pentru media teoretic
X E(X ).
pentru o selecie dintr-o colectivitate normal este un estimator
[Exerciiu!]
pentru se numete estimator sucient (exhaustiv) dac densitatea vectorului V = (X1 , X2 , . . . , Xn ), adic L(x1 , x2 , . . . , xn ; ), se poate scrie n forma:
(14) Un estimator corect
(x), ), L(x1 , x2 , . . . , xn ; ) = g (x1 , x2 , . . . , xn )h(

unde
(15.5) este msurabil i
g : Rn R+
este msurabil i nu depinde de
iar funcia
depinde de observaii doar prin intermediul lui toat informaia relevant despre
(x).
h : R R R+
Funciile
nu sunt unice. Din punct de vedere
practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine
ce se poate obine din selecia considerat.
Propoziia 15.10 Observaia 15.11 [Exerciiu!]
Media de selecie
pentru o selecie dintr-o anumit colectivitate este un estimator
sucient pentru media teoretic
E(X ).
[Exerciiu!]
Orice estimator ecient pentru un parametru
este i estimator sucient pentru
n continuare, discutm urmtoarele metode de estimare punctual a parametrilor:
metoda verosimilitii maxime; metoda momentelor; metoda minimului lui
2 ;
metoda celor mai mici ptrate; metoda intervalelor de ncredere.
Metoda verosimilitii maxime

Fie caracteristica selecie de date,
studiat, care are funcia de probabilitate
f (x; )
(unde
parametri necunoscui). S presupunem c avem
observaii asupra caracteristicii
= (1 , 2 , . . . , p ) sunt X , adic am ales o
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn }
variabilele aleatoare de selecie repetat de volum
n.
100
estimator de verosimilitate maxim (maximum likelihood estimator) pentru
pentru care se obine maximumul funciei de verosimilitate,
Deniia 15.12
o statistic
(1) Numim
= (X1 , X2 , . . . , Xn )
L(X1 , X2 , . . . , Xn ; ) =
k=1
(2)
f (Xk , ).
maxim pentru .
Valoarea unei astfel de statistici pentru o observaie dat se numete
estimaie de verosimilitate
Observaia 15.13
Nu este necesar ca
aceasta exist, atunci acest estimator se obine ca soluie a sistemului de ecuaii:
Aceasta metod estimeaz "valoarea cea mai verosimil" pentru parametrul
.
Dac
s existe pentru ca estimatorul de verosimilitate maxim s e calculat.
L(X1 , X2 , . . . , Xn ; ) = 0, k
care este echivalent cu urmtorul sistem:
k = 1, 2, . . . , p,
(15.6)
ln L(X1 , X2 , . . . , Xn ; ) = k
n i=1
ln f (Xi ; ) = 0, k
k = 1, 2, . . . , p.
(15.7)
Exemplu 15.14
Soluie:
Estimai prin metoda verosimilitii maxime parametrii unei caracteristici
X N (, ).
Legea de probabilitate pentru
X N (, )
este
(x)2 1 f (x, , ) = e 22 , x R. 2
Alegem o selecie repetat de volum Parametrii caracteristicii
sunt
n, pe care o vom = (, ) i funcia
nota
(Xk )k=1, n .
de verosimilitate asociat seleciei este
L(X1 , X2 , . . . , Xn ; , ) =
k=1
f (Xk , , )
n
=
Astfel,
n (2 ) 2 1 n n (2 ) 2
k=1 n e
(Xk )2 2 2
ln L(X1 , X2 , . . . , Xn ; , ) = ln
1 2 2
i
(Xk )2 .
k=1
Aadar, pentru a gsi estimatorii de verosimilitate maxim pentru
avem de rezolvat sistemul:
L 1 = 2
(Xk ) = 0;
k=1 n
L n 1 = + 3
(Xk )2 = 0.
k=1

Se observ cu usurin c soluia sistemului ce convine (inem cont c
101
> 0)
este
1 n
Xk = X,
k=1
1 n
(Xk X )2 = d(X ).
k=1
(15.8)
Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta este:
2L H (, ) = = 2 3
n 2
n
2 3 n 2
(Xk )
n
k=1
(Xk )
k=1
3 1 n 2
(Xk )2
k=1
Acum calculm
H ( , ). 2L |= , = = n 2 0 0 2n , 2
H ( , ) =
care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic
det(H ( , ) I2 ) = 0,
sunt
1 =
Deci, estimatorii
n <0 2
2 =
2n < 0. 2
obinui prin metoda verosimilitii maxime sunt
=X
= d(X ). d(X )
Observaia 15.15
De remarcat faptul c estimatorul
obinut prin metoda verosimilitii maxime
nu este absolut corect, ci doar corect.
Metoda momentelor (K. Pearson)

n anumite cazuri, valorile critice pentru funcia de verosimilitate sunt dicil de calculat. nevoie de alte metode pentru a gsi estimatori pentru parametri. Fie caracteristica De aceea, e
care are funcia de probabilitate
necunoscui) ce admite momente pn la ordinul caracteristicii, adic alegem o selecie de date,
(adic,
f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri p = E(X p ) < ). Dorim s gsim estiPentru aceasta, efectum observaii asupra
matori (estimaii) punctuale ale parametrilor necunoscui.
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn } variabilele aleatoare de selecie repetat de volum n. X.
Metoda momentelor const n
estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele iniiale teoretice respective, ale lui Aceasta nseamn c avem de rezolvat un sistem de ecuaii n care necunoscutele sunt parametrii ce urmeaz a estimai.
102
soluia
Deniia 15.16
Numim estimator (punctual) pentru obinut prin metoda momentelor 1 , 2 , . . . , p ) (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p) a sistemului: = (
1 (X1 , X2 , . . . , Xn ) = 1 (X ), 2 (X1 , X2 , . . . , Xn ) = 2 (X ),
. . .
(15.9)
p (X1 , X2 , . . . , Xn ) = p (X ),
unde
k (X1 , X2 , . . . , Xn )
sunt momentele de selecie de ordin
k
n
pentru
X,
k (X1 , X2 , . . . , Xn ) =
i
1 n
Xik ,
i=1
k (X )
sunt momentele teoretice pentru
(care depind de
),
adic:
k = E(X k ),
O
k = 1, 2, . . . , p.
1 , 2 , . . . , p ), unde componentele = ( estimaie (punctual) pentru va o realizare a estimatorului k = k (x1 , x2 , . . . , xn ), k = 1, p).
sunt
Observaia 15.17
Aceasta metod este fundamentat teoretic pe faptul c momentele de selecie sunt Metoda nu poate aplicat
estimatori absolut coreci pentru momentele teoretice corespunztoare. repartiiilor care nu admit medie (e.g., repartiia Cauchy).
Exemplu 15.18
Fie
X U (a, b)
caracteristica unei populaii, unde
a<b
sunt numere reale. Utiliznd
metoda momentelor, determinai estimatori pentru capetele intervalului.
Soluie:
Dac
X U (a, b),
atunci
E(X ) =
de unde
a+b , 2
D2 (X ) =
(b a)2 , 12 a2 + ab + b2 . 3
E(X 2 ) = D2 (X ) + [E(X )]2 =

Sistemul (15.9) se scrie astfel n acest caz:
1 (X1 , X2 , . . . , Xn ) = E(X ) 2 (X1 , X2 , . . . , Xn ) = E(X ),

unde
(15.10)
1 =
1 n
Xi ,
i=1
2 = ( a, b)
1 n
Xi2 .
i=1
Inlocuind n relaiile (15.10), avem de gsit soluia
a urmtorului sistem:
a + b = 2 1 a b = 4 2 1 3 2 .

Aceasta este:
103
b = 1 +
a = 1
Fcnd calculele i innd cont c
2 2 1;
2 2 1. a
i, respectiv,
1 = X ,
obinem estimatorii pentru
b:
a =X
unde
3 S;
b=X+
n
3 S,
X=
Estimaiile punctuale pentru
1 n
Xi
i=1
S=
1 n
(Xi X )2 .
i=1
sunt:
a =
1 n
xi
i=1
3 n
(xi x)2 ,
i=1
1 b= n
xi +
i=1
3 n
(xi x)2
i=1
Metoda celor mai mici ptrate

Este o metod de estimare a parametrilor n cazul modelelor liniare, adic atunci cnd avem un set de variabile aleatoare
Yi , i = 1, n
ce depind liniar de parametrii necunoscui.
Fie
= ( 1 , 2 , . . . , p )
vectorul ce conine parametrii necunoscui i presupunem c
Yi
depind de acetia dup urmtorul sistem:
Yi =
j =1
sau, scris sub form matriceal:
xij j + i ,
i = 1, 2, . . . , n,
(15.11)
Y = X + ,
Variabilele aleatoare
X = (xij ) Rnp .
sunt erori, despre care presupunem c:
E(i ) = 0 D2 (i ) = 2 , i = 1, 2, . . . , n; i = j.
(15.12) astfel nct suma ptratelor erorilor
cov (i , j ) = 0,
Metoda celor mai mici ptrate const n determinarea parametrilor i

n n
s e minim. Asta nseamn c avem de rezolvat problema de minim:
Yi
2 xij j .
min
i=1
2 i = min
i=1
j =1
mai mici ptrate este soluia sistemului:
Astfel, un estimator
= ( 1 , 2 , . . . , p ) prin metoda celor 2 p n Yi xij j = 0, j

i=1 j =1 n p n
j = 1, 2, . . . , p,
echivalent,
xik xij j =
i=1 j =1 i=1
xik Yi ,
k = 1, 2, . . . , p.

Ultimul sistem poate scris sub forma matriceal:
104
X X = X Y,
de unde gsim c estimatorul
este
= (X X)
X Y.
Exemplu 15.19
Fie
o caracteristic ce admite medie,
aleatoare de selecie repetat de volum mai mici ptrate pentru media
n. teoretic ,
Statistica
= E(X ), i e X1 , X2 , . . . , Xn variabilele = X este estimatorul obinut prin metoda celor
adic este soluia problemei de minimizare
min
i=1
(Xi )2 .
(15.13)
Soluie:
Deoarece
este media variabilelor aleatoare de selecie, putem considera c ecare variabil o
putem scrie sub forma
Xi = + i ,
cu
i = 1, 2, . . . , n,
(15.14)
satisfacnd condiiile (15.12). Soluia problemei (15.13) este soluia ecuaiei

adic
(Xi )2 = 0,
i=1 n
1 n
Xi .
i=1
Metoda minimului lui 2

X ce urmeaz a studiat, ce urmeaz legea de probabilitate dat de f (x, ), p unde = (1 , 2 , . . . , p ) R sunt parametri necunoscui. Fie X1 , X2 , . . . , Xn variabilele aleatoare prin metoda minimului lui 2 pentru , de selecie repetat de volum n. Pentru a obine un estimator
Considerm caracteristica procedm dup cum urmeaz. Descompunem mulimea valorilor lui
X , X (),
k
n clase, astfel:
X () =
i=1
Construim evenimentele
Oi ,
Oi
Oj = , i = j.
Ai = { (n) (n) ; X (i ) Oi },
i = 1, 2, . . . , k.
(n) =
i=1
Notm cu
Ai ,
Ai
Aj = , i = j.
pi ( ) = P (n) (Ai ),
i = 1, 2, . . . , k,

i.e., probabilitatea ca un individ luat la ntmplare s aparin clasei
105
Oi .
Atunci,
pi ( ) = 1.
i=1
Mai facem urmtoarele notaii:
ni = frecvena absolut a evenimentului Ai n orice selecie repetat de Ni = variabilele aleatoare de selecie corespunztoare lui ni (i = 1, k ).
Vectorul aleator
volum
n;
Observaia 15.20
metri
N = (N1 , N2 , . . . , Nk )
urmeaz o repartiie multinomial de para-
pi ( ), i = 1, k .
Statistica
Deniia 15.21
se numete
estimator obinut prin metoda minimului lui 2

k
pentru
dac
este soluie a problemei de minim
min
i=1
[Ni n pi ( )]2 n pi ( )
Propoziia 15.22
Repartiia urmtoarei statistici este
k i=1
[Ni n pi ( )]2 2 (k p 1). n pi ( )
106

Exerciiu 16.1
Timpul necesar unui student de a rezolva testul la Statistic (T , exprimat n minute) este o v.a. cu densitatea de repartiie
f : R [0, 1], f (x, ) =

x x e 2
, x > 0; , x 0.
(a) (b) (c)
Pentru ce valori ale parametrului
funcia de mai sus este o funcie de repartiie?
Fixm
= 30.
Determinai timpul mediu necesar rezolvrii testului. Calculai probabilitatea ca un student (ales la ntmplare) s aib nevoie de mai mult de o or i
jumtate pentru a rezolva testul?
Exerciiu 16.2
Pcal l ademenete pe Tndal la un joc de barbut. Pcal a confecionat urmtoarele
trei zaruri, pentru care numrul de puncte de pe ecare fa sunt modicate:
zarul 1: zarul 2: zarul 3:
5 2 1
7 3 6
8 4 11
9 15 12
10 16 13
18 17 14
Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare de puncte va ctiga jocul. independente. (a) (b) (c) (d) Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase. Un astfel de joc poate repetat de mai multe ori, n condiii identice i
1 RON.
Determinai ctigul mediu pe care l poate avea Pcal dup Calculai probabilitatea ca, dup
60
de jocuri (aruncri).
60
de jocuri, Pcal s aib cel puin
10 RON.
Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va aproape sigur (cu
probabilitate cel puin egal cu
0.99)
c va avea cel puin
Estimaii prin
mle.
Formatul general al funciei este:
Matlab
Matlab folosind funcia
10 RON.
Estimarea parametrilor prin metoda verosimilitii maxime poate realizat n
[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:
este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a estimat punctual; este variabila de memorie pentru intervalul (intervalele) de ncredere ce va estimat;
pCI

107
este un vector ce conine datele ce urmeaz a analizate; este parte din formatul comenzii iar
distribution
6.1;
lege
poate oricare dintre legile din Tabelul
nume_i/val_i
sunt perechi opionale de argumente/valori, dintre care amintim:
alpha
Matlab
reprezint nivelul de conden pentru intervalul de ncredere. Valoarea implicit n este
= 0.005;
ntrials
(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-
perimentului.
Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:
[p, pCI] = mle(X)

fr a mai preciza legea de distribuie. De exemplu, s lum drept obiect de lucru datele din Tabelul 1.4. Acestea sunt reprezentate prin bare n Figura 2.32 . O estimare a parametrilor
prin metoda verosimilitii maxime este
X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55] [p, pCI] = mle(X)

i obinem estimrile:
p = 41.9716 pCI = 40.7653 43.1779
12.0228 11.2439 12.9547
% estimari punctuale pentru si % intervale de incredere
unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru estimarea punctual i un interval de ncredere pentru
, iar a doua coloan
Estimri punctuale i cu intervale de ncredere mai putem obine i utiliznd funcia
LEGEfit(X,alpha)
unde, n locul cuvntului i
alpha
LEGE
punem o lege de probabilitate ca n Tabelul 6.1,
este nivelul de conden. (Exemple:
X reprezint normfit, binofit, poissfit, expfit etc).

X
observaiile
Exerciiu 16.3
parametrului
S se arate c media de selecie
constituie un estimator absolut corect i ecient al
din repartiia Poisson
P ().
108
urmeaz c
Soluie:
Deoarece
X P (),
E(X ) = D2 (X ) = . 1 = n
n n
Atunci,
1 E(X ) = E n D 2 (X ) = 1 2 D n2
n
Xi
i=1
E(Xi )
i=1
1 = ( n
n
) = ,
i=1
Xi
i=1
1 n2
D2 (Xi )
i=1
1 ( n2
) =
i=1
0, n
cnd
n . .
Funcia
Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul de probabilitate este
f (x, ) = e
de unde
x , x N, x!
ln f (x, ) x = 1 + .
2
Calculm eciena estimatorului. Avem
In () = n E
ln f (X, ) X X2 + 2
= nE 1 2
Se observ c
=n X
12
1 + 2 (2 + )
n .
D2 (X ) In () = 1,
Fie
deci estimatorul
pentru
este ecient.
Exerciiu 16.4
Xi B (1, p), i = 1, n
n
= nX =
i=1
S se arate c
Xi ,
numrul de succese n
incercri.
este
un estimator sucient pentru
p.
Soluie:
Pentru vericarea sucienei, utilizm deniia. Avem succesiv:
L(x1 , x2 , . . . , xn ; p) =
pxi (1 p)1xi
i=1 n n
n (1 p) (x), p), = g (x) h( xi = p i=1

unde
xi
i=1
g (x) 1
(x) (x), p) = p h( (1 p)n(x) .
Exerciiu 16.5
S presupunem c aruncm o moned despre care nu tim dac este sau nu corect
(adic, probabilitatea de apariie a feei cu stema nu este neaprat
0.5).
Fie
variabila aleatoare ce
reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar
pro-
80
de aruncri ale
dac nu a aprut):
109
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(1) S se gseasca un estimator absolut corect pentru din
i a se studieze eciena acestuia.
(2) S se gseasc estimaii punctuale i intervale ncredere pentru
Matlab.
p,
folosind funciile
mle
binofit
Soluie:
(1) Repartiia lui
este Bernoulli,
B (1, p).
Astfel,
E(X ) = p,
Un estimator absolut corect pentru medie este
D2 (X ) = p(1 p). (Xk )k=1 n . p(1 p) 0. n n2 X,
Considerm variabilele de selecie repetat de volum,
deoarece
E(X ) = E(X )
n
Aadar, pentru selecia dat, valoarea (2) Utiliznd funciile
D2 (X ) =
x=
k=1
xk = 0.5125.
Matlab astfel:
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:
p = 0.5125
pCI =
0.3981 0.6259
sau, folosind comanda
binofit,
[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p = 0.5125
pCI = 0.3981 0.6259
Exerciiu 16.6
Considerm un vector ale crui componente sunt:
X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. atunci estimm parametrii si astfel: normale
N (, ),

[mu, sigma] = normfit(X)
Gsim estimrile
110
mu = 0.0006425 sigma =0.5771

Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. uniforme continuu
U (a, b),
atunci estimm parametrii si astfel:
[a, b] = unifit(X) a = -1.0000 b = 1.0000
111
17 Statistic Aplicat (C9) Estimarea parametrilor prin intervale de ncredere (o singur populaie)
S considerm o caracteristic
a crei lege de probabilitate este dat de
f (x, ),
cu
parametru
necunoscut. Pentru a estima valoarea real a lui
efectum
observaii, obinnd selecia:
x1 , x2 , . . . , xn . (x1 , x2 , . . . , xn ). ns, o (x1 , x2 , . . . , xn ) fa de valoarea estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului, fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s ne indice c aceasta este de masa medie este
500
de grame. Ideal ar dac aceast informaie ar prezentat sub forma:
500g10g. . n, X1 , X2 , . . . , Xn ,
ce urmeaz repartiia lui
Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare, s gsim valoarea real a lui S considerm o selecie repetat de volum posibil a parametrului necunoscut.
X.
Dorim s
gsim un interval aleator care s acopere cu o probabilitate mare (e.g.,
0.95, 0.98, 0.99
etc) valoarea
Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator
(, ),
astfel nct
P ( < < ) = 1 ,
unde Pentru o observaie
(17.1)
(X1 , X2 , . . . , Xn ) (n)
(X1 , X2 , . . . , Xn )
sunt statistici. intervalul
xat, capetele intervalului (aleator) de ncredere vor funcii de valorile de
selecie. De exemplu, pentru datele observate,
x1 , x2 , . . . , xn ,
(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete
valoare a intervalului de ncredere

se numete
pentru
Pentru simplitate ns, vom folosi termenul
de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul desprinzndu-se din context. Valoarea
nivel de semnicaie sau probabilitate de risc.
Observaia 17.2
depind de
Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:
se va considera funcie de selecie cut i independent de
S notm cu
S (X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg (s) aceast repartiie. Se determin apoi valorile s1 i s2 (care
s2
),
astfel nct
P (s1 < S < s2 ) =

s1
g (s) ds = 1 .
(17.2)

Cum statistica
112
,
relaia (17.2) determin un interval aleator
depinde de
(, )
ce satisface (17.1).
Intervalul de ncredere variaz de la o selecie la alta.
Cu ct sau
este mai mic (de regul,
ca valoarea real a parametrului
= 0.01 sau 0.02 sau 0.05), s se gseasc n intervalul
cu att ansa (care este gsit este mai mare.
Dei ansele
(1 ) 100%) 99% 99%

de a se
99.99%
par a foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime
conteaz. De exemplu, s presupunem c ntr-un an calendaristic un eveniment are ansa de n ecare zi a anului n tot decursului acestui an este de ecare zi ar fost de
realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze
99.99%,
atunci rezultatul ar fost
0.99365 2.55%. 96.42%, ceea ce
Dac ansa de realizare n nseamn o diferen foarte
mare generat de o diferen iniial foarte mic. Intervalul de ncredere pentru valoarea real a unui parametru nu este unic. cellalt capt. n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale. Dac ni se dau condiii
suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la
Interval de ncredere pentru medie, cnd dispersia este cunoscut

X N (, ) caracteristica unei populaii statistice, unde este necunoscut i este cunoscut. Pentru , efectum o selecie repetat de volum n i xm nivelul de ncredere 1 1, (0, 1). Alegem urmtoarea statistic:
Fie a construi un interval de ncredere pentru media teoretic
Z=
X N (0, 1) n ( z1 , z 2 )
(conform Propoziiei
11.23).
(17.3)
Putem determina un interval numeric
astfel nct (17.4)
P (z1 < Z < z2 ) = (z2 ) (z1 ) = 1 ,

unde
: R [0, 1]
este
funcia lui Laplace,

1 (x) = 2
x
y2 2
dy.
(17.5)
De ndat ce intervalul
( z1 , z 2 )
este determinat, putem scrie:
P ( z1 <
X < z2 ) = 1 , n = 1 , (1 ) .
este
echivalent cu
X z2 < < X z1 n n
de unde intervalul de ncredere pentru
cu nivelul de semnicaie
(, ) =
X z2 , n z1
i
X z1 n
Mai ramne de stabilit cum determinm valorile Distingem trei cazuri:
z2 .
113
, atunci alegem (z1 , z2 ) ca ind interval z1 = z2 (vezi Observaia 17.3), de unde:
(1)
Dac nu se cunoate o alt informaie suplimentar despre de lungime minim pentru
xat.
Aceasta se obine cnd
(z2 ) (z2 ) = 1 .
Tinnd cont c
(z ) = 1 (z ),
ultima relaie se reduce la
(z2 ) = 1
de unde gsim pe Aadar,
, 2
. z1 2
z2
ca ind cuantila de ordin
2 , i anume
z1 = z1 , 2
i intervalul de ncredere pentru media teoretic
z2 = z1 , 2
cnd
este cunoscut este:
(, ) =
, X z1 2 n
X + z1 2 n
(17.6)
(2)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul aleator
(z1 , z2 )
de forma
(, z2 ).
nlocuind n (17.4) obinem:
P ( < Z < z2 ) = (z2 ) () = 1 ,

=0
de unde
z2 = z1 .
n acest caz, intervalul de ncredere este:
(, ) =
X z1 , n
(3)
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul aleator
(z1 , z2 )
de forma
(z1 , ).
nlocuind n (17.4) obinem:
P (z1 < Z < ) = () (z1 ) = 1 ,

=1
de unde
z1 = z = z1 .
n acest caz, intervalul de ncredere este:
(, ) =
X + z1 n
Observaia 17.3
lungime este
n cazul
(1)
de mai sus, am ales intervalul aleator de lungime minim, unde aceast
l = (z2 z1 ). n
Pentru a gsi acest interval, avem de rezolvat problema:
min
z2
( z2 z1 ) n
g (z ) dz = 1 ,
z1

unde
114
N (0, 1).
z2
este desitatea de repartiie pentru
Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie funcia
L(z1 , z2 ; ) = (z2 z1 ) + n
Dorim s am
g (z ) dz.
z1
sunt soluiile sistemului:
(17.7)
z1
z2
ce realizeaz
min L(z1 , z2 ; ). Acestea L =0 z1 L = 0, z2 L = 0, g (z1 ) = 0 n + g (z2 ) = 0. n
de unde
Deoarece funcia
este simetric, soluiile sunt
z1 = z2
(ce nu convine) i
z1 = z2 .
Observaia 17.4
aceasta nseamn
(1)
n cazul n care volumul seleciei este mare (de cele mai multe ori n practic, metoda de determinare a unui interval de ncredere prezentat mai sus se
n 30) n
poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin faptului c, pentru caracteristicii mare, statistica
urmeaz repartiia
N (0, 1)
pentru orice form a repartiiei
(conform teoremei limit central).
(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul Spre exemplu, dac selecia de volum
se face dintr-o populaie nit de volum
N al populaiei. n 0.05N , atunci
un inteval de ncredere centrat pentru media populaiei este:
(, ) =
X z1 2 n
N n , N 1
X + z1 2 n
N n N 1
(17.8)
Interval de ncredere pentru medie, cnd dispersia este necunoscut

Ne am n condiiile din seciunea precedent (i.e., o caracteristic normal, faptul c
X N (, )),
mai puin
este cunoscut. Dac deviaia standard
nu este cunoscut, atunci ea va trebui estimat. tim
deja c o estimaie absolut corect pentru
este statistica
d (X ),
dat prin
d (X ) =
Pentru a estima media teoretic necunoscut
1 n1
(Xi X )2 .
i=1
printr-un interval de ncredere, alegem statistica
T =
X t(n 1), d (X ) n
(conform Propoziiei
13.9).
(17.9)
n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai sus:
115
,
atunci intervalul de ncredere pentru
(1)
Dac nu se cunoate o alt informaie suplimentar despre media teoretic
cnd
este necunoscut este:
(, ) =
d (X ) X t1 , ; n1 2 n
d (X ) X + t1 ; n1 2 n
(17.10)
(2)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere este:
(, ) =
d (X ) X t1; n1 , n
(3)
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:
(, ) =
Aici, prin
d (X ) X t; n1 n
.
grade de libertate.
t; n1
am notat cuantila de ordin
pentru repartiia
cu
(n 1)
Observaia 17.5
Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-
n este mare, atunci va o diferen foarte mic ntre valorile z1 2 i t1 ; n1 , de aceea am putea folosi z1 n locul valorii t1 ; n1 . Mai mult, pentru un n mare (n 30), 2 2 2 intervalele de ncredere obinute mai sus rmn aceleai pentru orice form a repartiiei caracteristicii X ,
vitate gaussian de volum Cnd nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare, un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:
n mic.
(, ) =
X z1 2
d (X ) , n
X + z1 2
d (X ) n
(17.11)
Interval de ncredere pentru dispersie, cnd media este cunoscut

X N (, ) o caracteristic a unei populaii studiate, pentru care cunoatem media teoretic dar 2 . Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie . 2 2 Pentru estimarea punctual a lui cnd media este cunoscut folosim statistica d (X ) denit prin
Fie nu i dispersia
1 d (X ) = n
2
[Xi ]2 .
i=1
Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii
n 2 1 d (X ) = 2 2
(Xi )2 2 (n),
i=1
(conform Propoziiei 13.3).
Determinm intervalul aleator din condiia:
P 2 1 <
unde aici
n 2 2 2 d (X ) < 2 2 = Gn (2 ) Gn (1 ) = 1 , 2 2
cu
Gn (x)
reprezint funcia de repartiie teoretic pentru repartiia
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim c intervalul de ncredere pentru
2,
dup cum urmeaz:
116
(1)
nu avem informaii suplimentare despre dispersie:
( 2 , 2 ) =
n d2 (X ) , 2 1 ; n
2
n d2 (X ) 2 ;n
2
(17.12)
(2)
avem informaii c dispersia este nemrginit superior:
( 2 , 2 ) =
n d2 (X ) , 2 ; n
+ ;
(17.13)
(3)
avem informaii c dispersia este nemrginit inferior:
( 2 , 2 ) =
n d2 (X ) 2 1; n 2
cu
(17.14)
unde prin
2 ; n
pentru repartiia
grade de libertate.
Interval de ncredere pentru dispersie, cnd media este necunoscut

Fie
X N (, ) o caracteristic a unei populaii studiate, pentru care nu cunoatem media sau dispersia. De exemplu, X reprezint timpul de producere a unei reacii chimice. Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie . 2 2 Pentru estimarea punctual a lui cnd media este necunoscut folosim statistica d (X ) denit prin d2 (X ) = 1 n1
n
[Xi X ]2 .
i=1
Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii
n1 2 1 d (X ) = 2 2
(Xi X )2 2 (n 1),
i=1
Determinm intervalul aleator din condiia:
P
unde
2 1 <
n1 2 d (X ) < 2 2 2
2 = Gn1 (2 2 ) Gn1 (1 ) = 1 ,
Gn1 (x)
reprezint funcia de repartiie teoretic pentru repartiia
cu
(n 1)
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de ncredere pentru
este:
(1)
nu avem informaii suplimentare despre dispersie:
( 2 , 2 ) =
unde prin
(n 1)d2 (X ) , 2 1 ; n1
2
(n 1)d2 (X ) 2 ; n1
2
, (n 1)
(17.15)
2 ; n1
pentru repartiia
cu
grade de libertate.
117
(2)
avem informaii c dispersia este nemrginit superior:
( 2 , 2 ) =
(n 1)d2 (X ) , 2 ; n1
+ ;
(17.16)
(3)
avem informaii c dispersia este nemrginit inferior:
( 2 , 2 ) =
(n 1)d2 (X ) 2 1; n1
(17.17)
Observaia 17.6
Intervale de ncredere pentru deviaia standard se obin prin extragerea rdcinii p-
trate din capetele de la intervalele de ncredere pentru dispersie.
Interval de ncredere pentru proporii ntr-o populaie binomial

Pentru o populaie statistic, prin
proporie a populaiei vom nelege procentul din ntreaga colectivitate proporie de selecie nelegem procentajul din valorile de
p). p
(e.g., numrul de Dorim s construim un interval
ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti dintr-o anumit facultate). Pe de alt parte, prin de selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare
40 X
de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu
p),
Fie
iar proporia de selecie este o statistic (pe care o notm aici prin
o caracteristic binomial a unei colectiviti, cu probabilitatea de succes
steme aprute la aruncarea unei monede ideale, caz n care de ncredere pentru proporia populaiei,
p = 0.5).
p.
Pentru aceasta, avem nevoie de selecii de volum mare din
aceast colectivitate. Un estimator potrivit pentru
este proporia de selecie, adic
p=p=
Printr-un "volum mare" vom nelege un variabilei aleatoare
X . n n 30, n p > 5 i n (1 p) > 5. Media D2 (X ) = np(1 p). Putem scrie pe X ca B (1, p).
Pentru un volum
ce satisface:
este
n
ind
E(X ) = np,
iar dispersia este
X=
i=1
Xi , X
unde
Xi
sunt variabile aleatoare Bernoulli
mare, variabila
aleatoare
satisface (conform teoremei limit central aplicat irului
{Xi }i ):
X np n p (1 p)
X n
p (1 p) n
pp p (1 p) n
N (0, 1).
Pe baza acestui rezultat, putem construi un interval de ncredere pentru
p,
de forma:
p z1 2
Deoarece
p (1 p) , n
p + z1 2
p (1 p) n
.
Valoarea
(17.18)
nu este
a priori cunoscut, p a fost nlocuit sub radical cu estimatorul su.

E = z1 2 p (1 p) n
(17.19)
se numete
eroarea standard a proporiei. E
este eroarea care se face prin estimarea lui
prin intervalul
de ncredere dat de (17.18).
118
Observaia 17.7
n N,
de regul ncredere este:
Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau
n < 0.05N )
sau pentru selecia cu repetiie dintr-o populaie nit.
Dac selecia
se realizeaz fr repetiie dintr-o populaie nit (cu
astfel nt
n 0.05N ), N n N 1
atunci intervalul de
p z1 2
p (1 p) n
N n , N 1
p + z1 2
p (1 p) n
(17.20)
119
18 Statistic Aplicat (L9) Estimaii prin intervale de ncredere n

Exemplu 18.1
aib masa de
Matlab
250g
de nghe-
O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s Desigur, este practic imposibil s umplem ecare cup cu exact
= 250g.
at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa necunoscut i dispersia cunoscut, ntmplare
= 3g. Pentru a verica dac maina este ajustat bine, se aleg la 30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,
. . . , x30
dup cum urmeaz:
257 249 248 256
251 251 247 250
252 247
251 251 251 247
249 248 248 252 248 253
251 253 251 247
248 245 251 253 244 253

X = 250.0667. 0.99.
Se tie c un estimator absolut corect pentru masa medie este media de selecie, Se cere s se gseasc un interval de ncredere pentru
cu nivelul de conden
Soluie:
Dup cum am vzut mai sus, un interval de ncredere pentru
este:
(, ) =
Urmtorul cod
, x z1 2 n
x + z1 2 n
Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.
n=30; sigma=3; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; z = icdf('norm',1-alpha/2,0,1); % cuantila de ordin 1-alpha/2 pentru normala m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.659, 251.478).
Observaia 18.2
ncredere cnd
Exist funcii predenite n
Matlab ce furnizeaz estimatori punctuali i intervale de Matlab predenite).
ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de
nu este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii
Exemplu 18.3
S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul
n care abaterea standard
nu mai este cunoscut.
120
Figura 18.1: Intervalul de ncredere pentru Exerciiu 18.1.

Soluie:
Dup cum am vzut mai sus, un interval de ncredere pentru
este:
(, ) =
Urmtorul cod
d (X ) x t1 , ; n1 2 n
d (X ) x + t1 ; n1 2 n
Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.
n=30; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; dev = std(X); % deviatia standard de selectie t = icdf('t',1-alpha/2,n-1); % cuantila de ordin 1-alpha/2 pentru t(n-1) m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.572, 251.561).
Observaia 18.4
predenite).
A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-
tervalului de ncredere cnd
este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii
Matlab
Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd
nu este cunoscut. Folosind funcia
normfit
obinem chiar mai mult dect ne propunem, i anume:
estimaii punctuale pentru
i cte un interval de ncredere pentru ambele. Rulnd funcia, adic

[m,s,mCI,sCI] = normfit(X,0.01)
Observm c valorile furnizate pentru intervalul de ncredere pentru obinute n Exerciiu 18.3.
121
, (mCI),
sunt exact aceleai ca cele
m = 250.0667
s =
2.9704
mCI = 248.572 251.561
sCI = 2.2111 4.4159
Observaia 18.6
= 0.01)
S presupunem c facem
50 de selecii repetate de volum 30 (adic alegem n 50 de zile 50

de intervale.
diferite cte o selecie de
30
de ngheate) i am intervalele de ncredere (toate cu nivelul de conden
pentru masa medie a coninutului. Figura 18.2 reprezint grac cele
Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu care valoarea estimat este acoperit de intervalul de ncredere este
P < < = 1 = 0.99,

deci exist anse de a grei n estimare, n cazul de fa de
1%.
Figura 18.2: 50 de realizri ale intervalului de ncredere pentru
Exemplu 18.7
nscrii, doar conden de
ntr-un institut politehnic, s-a determinat c dintr-o selecie aleatoare de
100 de studeni
67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o 95% s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67 = 0.05, n > 30, p = 100 = 0.67, np = 67 > 5 i n(1 p) = 33 > 5. informaie despre N (numrul total de studeni nscrii), putem presupune c
Soluie:
Mai nti, observm c
Deoarece nu ni se d vreo

n < 0.005N
i putem aplica formula (17.18). Gsim c intervalul de ncredere cutat este:
122
0.67 z0.975
0.67 (1 0.67) , 100
0.67 + z0.975
0.67 (1 0.67) 100 1276
= (59.27%, 74.73%).
Exemplu 18.8
Dintr-o selecie de
200
de elevi ai unei coli cu
de elevi,
65%
arm c dein cel
puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva coal ce dein cel puin un telefon mobil, la nivelul de semnicaie
= 0.05.
folosind (17.20) i gsim c un
Soluie:
interval de
n = 200, N = 1276, p = 0.65. ncredere la nivelul de semnicaie 0.05

Avem:
Deoarece este
n 0.05N ,
0.65 1.96
0.65 (1 0.65) 200
1276 200 , 1276 1
0.65 + 1.96
0.65 (1 0.65) 200
1276 200 1276 1
= (58.93%, 71.07%).
Observaia 18.9
p
Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei
printr-un interval de ncredere cu o eroare maxim
E,
atunci folosim formula (17.19). Dac am putea
ghici proporia populaiei,
p,
atunci gsim urmtoarea estimare a volumului seleciei:
n = p(1 p) [ ] este partea ntreag. Dac p pentru p = 0.5 i estimm pe n prin

unde
z1 2 E
, p(1 p)
(18.1)
nu poate ghicit, atunci folosim faptul c
este maxim
n=
1 4
i
z1 2 E 40%
Exemplu 18.10
Un studiu susine c ntre
35%
dintre elevii de liceu din ar fumeaz. Ct de
mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce fumeaz, cu o eroare de estimare maxim de
0.5%.
Se va alege nivelul de semnicaie
= 0.1. 50%).
Soluie:
Folosim formula (18.1), pentru
p = 0.4
(se alege valoarea
40%,
cea mai apropiat de
Cuantila este
z0.95 = 1.28.
Gsim c o estimaie pentru
n
2
este:
n = 0.4(1 0.4)
1.64 0.005
= 25820.
Exemplu 18.11
O fabric produce batoane de ciocolat cntrind
100g
ecare. Pentru a se estima aba-
terea masei de la aceast valoare, s-a fcut o selecie de
35
de batoane, obinndu-se valorile:
100.12; 99.92; 100.1; 99.89; 100.15; 99.9; 99.76; 100.1; 99.24; 100.12; 98.63; 99.03;
99.89; 99.7; 98.19; 100.3;
100.07; 99.88; 100.11; 99.90; 99.97; 100.2; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89; 98.68.

Gsii un interval de ncredere (cu pectiva fabric.
123
= 0.05)
pentru deviaia standard masei batoanelor produse de res-
Soluie:
Mai nti, calculm
d2 (x).
Avem:
d2 (x) =
Din tabele, sau utiliznd
1 35
35
[Xi 100]2 = 0.3.

i=1
Matlab, gsim cuantilele:

2 0.975; 35 = 53.2033; 2 0.025; 35 = 20.5694.
Matlab, cuantilele se calculeaz astfel:

icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)
Intervalul de ncredere pentru dispersie este (folosind formula (17.12)):
( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:
(, ) = ( 0.2, 0.51) = (0.44, 0.71).
Exemplu 18.12
de nicotin de
Gsii un interval de ncredere (cu
nicotin a unui anumit tip de igri, dac o selecie
= 0.05) pentru deviaia standard a coninutului de de 24 de buci are deviaia standard a coninutului
1.6mg. s = d (x) = 1.6.

Din tabele, sau utiliznd
Soluie:
Mai nti,
Matlab, gsim:
2 0.975; 24 = 39.3641;
2 0.025; 24 = 12.4012.
Intervalul de ncredere pentru dispersie este (folosind formula (17.15)):
( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:
( 1.5608, 4.9544) = (1.25, 2.22).
Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este
124
Param.
Ali param.
Interval de ncredere cu nivelul de semnicaie
X z1 2 2
cunoscut
, n
X + z1 2
, n
X z1 , X t1 ; n1 2
+
n d (X ) n
X + z1
d (X ) , n
X + t1 ; n1 2
, n
2
necunoscut
X t1; n1 ,
d (X ) n
X t; n1
n d2 (X ) , 2 1 ; n
2
n d2 (X ) 2 ;n
2
cunoscut
n d2 (X ) , 2 ; n
+
n d2 (X ) 2 1; n (n1) d2 (X ) 2 ; n1
2
,
(n1) d2 (X ) , 2 1 ; n1
2
necunoscut
(n1) d2 (X ) , 2 ; n1
, p
2 1 2 / 2
(n1) d2 (X ) 2 1; n1
mare
p z1 2
p (1p) , n
p + z1 2
p (1p) n
necunoscui
1 , 2
1 2 1 2 1 2 p1 p2
2, 2 1 2 cunoscui
necunoscui
d2 d2 1 1 , f n1 1, n2 1; 2 2 fn1 1, n2 1; 1 2 d2 d 2 2
2 1
2
2 = 2 1 2 2 = 2 1 2
necunoscui
, X1 X2 + z1 + 2 n2 n1 n2 2 2 2 2 d d d d 1 1 X1 X2 t1 ; N + 2 , X1 X2 + t1 + 2 ;N 2 2 n1 n2 n1 n2 X1 X2 t1 2 ; n1 +n2 2 d(X1 , X2 ), X1 X2 + t1 2 ; n1 +n2 2 d(X1 , X2 ) n1 + p1 p2 z1 2

p1 (1p1 ) n1
X1 X2 z1
2 2
2 1
2 2
n1 , n 2
mari
p2 (1p2 ) , n2
p1 p2 + z1 2
p1 (1p1 ) n1
p2 (1p2 ) n2
Tabela 18.1: Tabel cu intervale de ncredere.
Mai sus, prin
d(X1 , X2 )
am notat:
d(X1 , X2 ) =
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
1 2
125
19 Statistic Aplicat (C10) Estimarea parametrilor prin intervale de ncredere (dou populaii)
Interval de ncredere pentru diferena mediilor
Fie
X1
X2
caracteristicile a dou populaii normale,
N (1 , 1 ),
respectiv,
N (1 , 1 ),
pentru care nu
se cunosc mediile teoretice.
Alegem din prima populaie o selecie repetat de volum
n1 ,
notat prin
(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin
d2 1
1 = n1 1
n1
(X1k X1 )
i=1
d2 2
1 = n2 1
n2
(X2k X2 )2 .
i=1
Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau la baza construirii intervalului. Putem avea urmtoarele trei cazuri:
(1) dispersiile
2 1
2 2
sunt cunoscute
a priori.
Alegem statistica
Z=
(X1 X2 ) (1 2 )
2 2 1 + 2 n1 n2
N (0, 1).
(conform Propoziiei
11.27).
(19.1)
Intervalul de ncredere pentru diferena mediilor este:
X1 X2 z1
2
2 1
n1
2 2
n2
X1 X2 + z1 2
2 1
n1
2 2
n2
(2) dispersiile
2 = 2 = 2 1 2
i necunoscute. Pentru a gsi un interval de ncredere pentru diferena (vezi Propoziia 13.12):
mediilor, alegem statistica
T =
(X1 X2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2),
(19.2)
Intervalul de ncredere pentru
1 2
este:
X1 X2 t1 ; n
2 1 +n2 2
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2 n1 + n2 2 1 1 n1 + n2
1 2
,
1 2
X1 X2 + t1 ; n1 +n2 2 2
2 (n1 1)d2 1 + (n2 1)d2

(3) dispersiile
126
necunoscute. Pentru un interval de ncredere pentru
2 = 2, 1 2
1 2 ,
alegem statistica
T =
(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2
t(N ),
(19.3)
unde
N=
s2 s2 1 + 2 n1 n2 s2 1 n1
2
1 + n1 1
s2 2 n2
2 1 n2 1 1 2
2 2 2 s2 1 = d (x1 ), s2 = d (x2 ) .
(19.4)
n acest caz, un interval de ncredere pentru
la nivelul de semnicaie
este:
X1 X2 t1 ; N
2
d2 d2 1 + 2 , n1 n2
X1 X2 + t1 ;N 2
2 d2 d 1 + 2 . n1 n2
Observaia 19.1
Pentru un volum de selecie
rmn aceleai pentru orice form a repartiiei caracteristicii
n mare (n 30), intervalele de ncredere obinute mai sus X , nu neaprat pentru una gaussian.
Interval de ncredere pentru raportul dispersiilor

Fie
X1
X2
caracteristicile a dou populaii normale,
N (1 , 1 ),
respectiv,
N (2 , 2 ),
pentru care nu
se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum urmeaz repartiia lui repartiia lui dispersiilor,
n1
ce
X1 ,
iar din a doua populaie alegem o selecie repetat de volum
n2
ce urmeaz
X2 .
Fixm nivelul de semnicaie
Pentru a gsi un interval de ncredere pentru raportul
2 1 / 2 2
considerm statistica
F =
2 d2 2 1 F (n1 1, n2 1), 2 d2 1 2
(19.5)
Determinm apoi un interval aleator
(f1 , f2 )
astfel nct
P (f1 < F < f2 ) = Fn1 1, n2 1 (f2 ) Fn1 1, n2 1 (f1 ) = 1 ,

unde
Fn, m
este funcia de repartiie pentru repartiia
Fisher cu (n, m) grade de libertate.

f2 = f1 , n1 1, n2 1 , 2 F isher
cu
Alegem:
f1 = f , n1 1, n2 1 2
unde
fn, m;
reprezint cuantila de ordin
pentru repartiia
(n, m)
grade de libertate.
2 2 Intervalul de ncredere pentru raportul dispersiilor, 1 /2 este:
d2 1 f 2 , n1 1, n2 1 , d2 2
d2 1 f1 , n1 1, n2 1 . 2 d2 2
(19.6)
127
Interval de ncredere pentru diferena proporiilor ntr-o populaie binomial

X2 dou caracteristici binomiale independente ale unei populaii, cu volumele i probabilitile de succes n1 , p1 i, respectiv, n2 , p2 . Dorim s am un interval de ncredere pentru diferena proporiilor, p1 p2 . Pentru a reui aceasta, avem nevoie de selecii mari, de aceea utilizarea testului Z este oportun. Condiiile testului sunt: n1 30, n2 30, n1 p1 > 5, n2 p2 > 5, n1 (1 p1 ) > 5, n2 (1 p2 ) > 5. La un nivel de semnicaie , un interval de ncredere pentru p1 p2 este: p1 p2 z1 p1 (1 p1 ) + p2 (1 p2 ) , p1 p2 + z1 p1 (1 p1 ) + p2 (1 p2 ) . (19.7) 2 2 n1 n2 n1 n2
Fie i
X1
Vericarea ipotezelor statistice

[Ambiia de o via a unui statistician este de a nu da gre . . . n mai mult de 5% din cazuri.]
Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii considerate. Presupunem c este dat de
X este caracteristica studiat f (x, ), unde Rp . Dup f (x, )
a unei populaii statistice i c legea sa de probabilitate cum precizam n capitolul anterior, aceast funcie poate
specicat (adic i cunoatem forma, dar nu i parametrul asupra acestui parametru, sau sale. S presupunem c
),
caz n care putem face anumite ipoteze
este necunoscut, caz n care putem face ipoteze asupra formei
(xk )k=1, n
sunt datele observate relativ la caracteristica
X.
Deniia 19.2
(2) O (3)
(1) Numim
ipotez statistic
o presupunere relativ la valorile parametrilor ce apar n
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
ipotez neparametric
X
este o presupunere relativ la forma funcional a lui
f (x, ).
De exemplu, Dac
o ipotez de genul Numim
ipotez parametric
Normal. o presupunere fcut asupra valorii parametrilor unei repartiii.
mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element, avem de-a face cu o (4) O
priori a adevrat.
ipotez parametric simpl. Altfel, avem o ipotez parametric compus. ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate i o presupunem a
Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist O
suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus nevinovat, pn se gsesc dovezi care s ateste o vin".
ipotez alternativ
este orice alt ipotez

admisibil cu care poate confruntat ipoteza nul. De exemplu, n Exerciiul 18.1, putem presupune c ipoteza (parametric) nul este
128
(H0 )
iar o ipotez alternativ (bilateral) poate
= 250 grame,
(H1 )
n general, pentru teste parametrice considerm
= 250 grame.
A = A0
i spunem c
A1 , A 0
A1 =
(H0 )
iar
A0
este ipoteza nul,
(H1 )
(5) A
A1
este ipoteza alternativ.
testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:

ipoteza nul se respinge ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)
semnicativ din punct de vedere statistic dac este improbabil ca diferen semnicativ dac exist suciente dovezi statistice pentru a dovedi diferena, i nu datorit faptului c diferena ar mare. Numim nivel de semnicaie probabilitatea de a respinge ipoteza nul cnd, de fapt, aceasta este adevrat. n general,
(6) n Statistic, un rezultat se numete el s se realizat datorit ansei. ntre dou valori exist o Vom numi
regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule. o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac
P ((x1 , x2 , . . . , xn ) U | H0
Dac putem scrie regiunea critic sub forma admis)
nivelul de semnicaie este ales ca ind una dintre valorile:
= 0.01, 0.02, 0.05
etc.
Matematic,
= .
U = {(x1 , x2 , . . . , xn ) Rn | S (x1 , x2 , . . . , xn ) c},

atunci valoarea i
se numete
valoare critic iar S (x1 , x2 , . . . , xn ) se numete statistic test sau criteriu.
Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate
determinat ca mai sus, putem avea dou cazuri:
(i) (ii)
(x1 , x2 , . . . , xn ) U , (x1 , x2 , . . . , xn ) U ,
ceea ce implic faptul c ceea ce implic faptul c
(H0 ) (H0 )
este acceptat (pn la o alt testare); este respins (adic
(H1 )
este acceptat);
n urma unor astfel de decizii pot aparea dou tipuri de erori:
eroarea de spea (I)
sau riscul furnizorului (en.,
false positive)
este eroarea care se poate comite
respingnd o ipotez (n realitate) adevrat. Se mai numete i acestei erori este nivelul de semnicaie, adic:
risc de genul (I).
Probabilitatea
= P ((x1 , x2 , . . . , xn ) U | H0
admis).

eroarea de spea a (II)-a
sau riscul beneciarului (en.,
129
false negative) este eroarea care se poate risc de genul al (II)-lea. Probaadmis).
comite acceptnd o ipotez (n realitate) fals. Se mai numete i bilitatea acestei erori este
= P ((x1 , x2 , . . . , xn ) U | H1
Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.
Fie
o caracteristic ce urmeaz legea de probabilitate
f (x; ),
cu
(x1 , x2 , . . . , xn )
valori
de selecie de volum
n.
Deniia 19.3
Vom numi
puterea unui test
probabilitatea respingerii unei ipoteze false (sau, probabili-
tiatea de a nu comite eroarea de spea a II-a). Notm prin
= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .
(19.8)
Deniia 19.4
Denumim
valoare P
sau
P valoare (en.,
P-value) probabilitatea de a obine un rezultat
cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea cea mai mic valoare a nivelului de semnicaie pe observaiile culese. Dac pentru care ipoteza
este
(H0 )
ar respins, bazndu-ne
Pv , atunci respingem ipoteza nul la nivelul de semnicaie , iar dac (H0 ). Cu ct Pv este mai mic, cu att mai mari anse ca ipoteza nul s e respins. De exemplu, dac valoarea P este Pv = 0.045 atunci, bazndu-ne pe observaiile culese, vom respinge ipoteza (H0 ) la un nivel de semnicaie = 0.05 sau = 0.1, dar nu o putem respinge la un nivel de semnicaie = 0.02. Dac ne raportm la P valoare, decizia ntr-un test statistic poate fcut astfel: dac aceasta valoare este mai mic dect nivelul de semnicaie , atunci ipoteza nul este respins, iar dac P value este mai mare dect , atunci ipoteza nul nu poate respins. De reinut faptul c, cu ct valoarea P este mai mic, cu att mai semnicativ este rezultatul testului. Pv > ,
atunci admitem Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent. Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un
negative este mai grav dect un false positive.
false
S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este sau nu vinovat. Are astfel de testat urmtoarele ipoteze:
(H0 ) (H1 )
inculpatul este nevinovat; inculpatul este vinovat.
Posibilele stri reale (asupra crora nu avem control) sunt: [1] [2]
inculpatul este nevinovat (H0 este adevrat i inculpatul este vinovat (H0 este fals i
H1
este fals);
H1
este adevrat)
Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:
130
[i] H0 [ii] H0
se respinge (dovezi suciente pentru a ncrimina inculpatul); nu se respinge (dovezi insuciente pentru a ncrimina inculpatul);
n realitate, avem urmtoarele posibiliti, sumarizate n Tabelul 19.1:
Decizii Respinge H0 Accept H0
Situaie real H0 - adevrat H0 - fals [1]&[i] [2]&[i] [1]&[ii] [2]&[ii]
Tabela 19.1: Posibiliti decizionale.

Interpretrile datelor din Tabelul 19.1 se gsesc n Tabelul 19.2.
Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 nchide o persoana nevinovat nchide o persoana vinovat Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.
Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 judecat corect Accepta H0 judecat corect Tabela 19.3: Erori decizionale.
Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativ
(H1 ).
Avem astfel:
test unilateral stnga, atunci cnd ipoteza alternativ este test unilateral dreapta, atunci cnd ipoteza alternativ este test bilateral, atunci cnd ipoteza alternativ este
< 0 > 0
(vezi Figura 19.1
(a)); (b));
(vezi Figura 19.1
= 0
(vezi Figura 19.2);
131
Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.
Figura 19.2: Regiune critic pentru test bilateral.
Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.
Testul cel mai puternic

S presupunem c
este caracteristica unei colectiviti statistice ce urmeaz o lege de probabilitate
f (x; ),
i avem de testat ipoteza nul
(H0 )
vs. ipoteza alternativ
(H1 ),
cu probabilitatea de risc
Deniia 19.5
condiii:
Spunem c testul bazat pe regiunea critic
este
cel mai puternic test
n raport cu
toate testele bazate pe regiunea critic
U,
dac sunt ndeplinite urmtoarele
(a) (b)
P ((x1 , x2 , . . . , xn ) U | (H0 ) U U .
se admite)
= ;

(adic, dintre toate testele de nivel de semnicaie puterea testului este maxim). Regiunea
132
xat, cel mai puternit test este cel pentru care
se numete
regiunea critic cea mai bun.
Observaia 19.6
Nu ntotdeauna exist un cel mai puternic test.
n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate construi un astfel de criteriu.
Lema 19.7 (Neyman19 -Pearson)
Presupunem c avem de testat
(H0 ) :
= 0
vs.
(H1 ) :
= 1 ,
funcia de verosimilitate i e
Notm cu
L(x; ) = L(x1 , x2 , . . . , xn ; ) S (x) = L(x; 1 ) . L(x; 0 )
Atunci regiunea
denit prin
U = {x Rn | S (x) c},
cu
astfel nct
P (x U | (H0 )
adevrat)
= ,
este cea mai bun regiune critic la nivelul de
semnicaie
.
Fie
Exemplu 19.8
x1 , x2 , . . . , xn
valori de selecie pentru o caracteristic
X N (, ),
unde
este
cunoscut. Dorim s testm ipoteza nul:
(H0 ) :
versus ipoteza alternativ simpl
= 0 = 1 .
n
(H1 ) :
Soluie:
Funcia de verosimilitate asociat seleciei este:
1 L(x1 , x2 , . . . , xn ; ) = n e n (2 ) 2
Calculnd
12 2 k=1
(xk )2 .
S (x),
obinem:
L(x; 1 ) S (x) = = L(x; 0 )
0 1
1 2
1 1 2 2 1 0
(xk )2
k=1
.
n
Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de
(xi )2 .
i=1
Aadar,
n
De asemenea, observm c dac
1 > 0 ,
n
atunci
S ( x)
este o funcie cresctoare de
(xi )2 .
i=1
vom respinge ipoteza
(H0 )
dac
(xi )2
i=1
este sucient de mare.
19 Jerzy
Neyman (1894 1981), matematician polonez
133
20 Statistic Aplicat (L10) Estimarea prin intervale de ncredere n

Exemplu 20.1
Matlab
Pentru a
Dou strunguri sunt potrivite s produc piese identice pentru o comand.
estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la ntamplare dou seturi de volume la urmtoarele rezultate:
n1 = 7
n2 = 10
de piese din cele dou loturi. Msurtorile au condus
Lotul Lotul
1 2
25.06 25.01
24.95 25.09
25.01 25.02
25.05 24.95
24.98 24.97
24.97 25.03
25.02 24.99
24.97
25.03
24.98
S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele dou loturi (
= 0.1).
Se va presupune c diametrele pieselor urmeaz o repartiie normal.
Soluie:
Folosim (19.6). Determinm mai nti dispersiile empirice. Acestea sunt:
d2 1 =
Cuantilele sunt:
1 6
(L1i L1i )2 = 0.0412

i=1
d2 2 =
1 9
10
(L2j L2j )2 = 0.0409.

j =1
Folosind
Matlab, putem calcula cuantilele astfel:

f1 = finv(0.05, 6, 9);
f0.05, 6, 9 = 0.2440
f0.95, 6, 9 = 3.3738.
f2 = finv(0.95, 6, 9);
Gsim intervalul de ncredere:
(f1 , f2 ) (0.25, 3.4).
Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o 65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva selecie de coal crora le place Matematica.
Exemplu 20.2
Soluie:
Folosim formula (19.7). Mai nti,
p1 =
23 45 ,
p2 =
21 37 2.33 45 65
21 45
24 45 + 45
37 65
28 65 , 65
21 37 + 2.33 45 65
z0.99 2.33. Intervalul cutat este: 21 24 37 28 45 45 + 65 65 = (0.1990, 0.0061). 45 65
37 65 i
134
n = 25 = 2.
cu media se selecie
Exerciiu 20.3
de volum cu
O selecie aleatoare de volum ce are deviaia standard
x = 50
se ia dintr-o populaie
N = 1000,
(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,
= 0.05. = 0.05)
n cazul n care populaia nu este
(b) Gsii un interval de ncredere pentru media populaiei ( normal.
Soluie:
(a) Folosim formula (17.6). Gsim intervalul de ncredere
(, ) =
2 50 z0.975 , 25
2 50 + z0.975 25
= (48.4, 51.6). < 30),

vom
(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4). valorile lui
Avem c probabilitatea ca
s e aproximate prin
X =
cu o eroare de cel mult
deviaii standard este:
P ({|X X | < kX }) 1
Lund
1 . k2
1 = 0.95, k2
gsim
k=
20.
Astfel, un interval de ncredere pentru media populaiei va
(, ) =
x k , x + k n n
2 = D 2 (X ) = X
50
2 20 , 25
50 +
2 20 25
= (46.42, 53.58).
Am folosit faptul c
rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui, n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar indicat ca volumul seleciei s e de cel puin
2 . n
Observm c acest interval este mai mare dect cel gsit ante-
30, caz n care putem folosi aproximarea cu repartiia normal.
Testarea tipului de date experimentale

Pentru a putea efectua un test statistic n mod corect, este necesar s tim care este tipul (tipurile) de date pe care le avem la dispoziie. Pentru anumite teste statistice (e.g., testul
sau testul
t,
datele
testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e normal repartizate trebuie vericat. concordan ntr-o seciune urmtoare. n De aceea, se pune problema realizrii unei legturi ntre funcia de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de
normplot(X)
Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia
reprezint grac datele din vectorul
versus o repartiie normal. Scopul acestei funcii
este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va liniar, dac nu, atunci va un grac curbat. De exemplu, s reprezentm cu
normplot
vectorii
de mai jos. Gracele sunt cele din Figura 20.1.
X = normrnd(100,2,200,1); subplot(1,2,1); normplot(X) Y = exprnd(5,200,1);
135
Figura 20.1: Reprezentarea normal a datelor.

subplot(1,2,2); normplot(Y)
Observm c primul grac este aproape liniar, pe cnd al doilea nu este. Putem astfel s concluzionm c datele date de din
sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele
nu sunt normal repartizate.
Funcia
chi2gof
determin, n urma unui test
2 ,
dac datele observate sunt normal repartizate, la un
nivel de semnicaie
= 0.05.
Astfel, comanda
h = chi2gof(x)
ne va furniza rezultatul admis), sau ipoteza nul
h = 1.
h = 0, dac nu putem respinge ipoteza c datele (H0 ) este admis). Aplicnd testul pentru X i Y
h = 1,
dac datele nu sunt normal repartizate (i.e., ipoteza alternativ de mai sus, obinem
(H1 )
este
observate sunt normal distribuite (i.e.,
h = 0,
respectiv,
De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal. De exemplu, funcia
probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul
cu repartiia dat de
tre repartiiile ce pot comparate folosind aceast comand menionm:
'weibull'
implicit c
'lognormal'.
distribution. Prin'normal', 'exponential',
Trebuie avut grij ca valorile vectorului O alt comand util este
cu oricare dintre ultimele trei repartiii. Comanda simplicat este
distribution = 'normal'. wblplot(Y)
Y s e pozitive pentru compararea probplot(Y), care presupune n mod

care este echivalent cu comanda
136
probplot(weibull,Y).
n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie exponenial.
x = exprnd(0.5, 250,1); % selectie exponentiala y = normrnd(3, 1, 250,1); % selectie normala probplot('exponential',[x y]) legend('Selectie exponentiala','Selectie normala','Location','SE')
Figura 20.2: Reprezentarea exponenial a datelor.

Urmtoarea funcie
Matlab compar un set de date cu o repartiie precizat. Funcia
histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul
printr-o histogram ce are numrul de bare egal cu
n.
Dac opiunea etc).
'tip_repartitie'
apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram
se va desena densitatea de repartiie a repartiiei precizate (e.g., normal. Exemplul de mai jos produce gracul din Figura 20.3.
exponential, gamma, lognormal
n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea
X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)
137
Figura 20.3: Compararea prin histograme.
21 Statistic Aplicat (C11) Teste parametrice

S presupunem c datele statistice colectate provin dintr-o repartiie probabilistic dat, ns nu cunoatem parametrul sau parametrii acestei repartiii. De multe ori, avem anumite intuiii asupra valorilor parametrilor ce intr n formula densitii de repartiie, pe care dorim s le vericm ntr-un cadru riguros. Astfel de teste, ce au la baz testarea parametrilor unor repartiii cunoscute, se numesc ntr-o testare parametric.
teste parametrice.
n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar
Etapele unei testri parametrice
Considerm o selecie ntmpltoare seleciei s e mare, de regula
x1 , x2 , . . . , xn
Fie
de observaii asupra caracteristicii de interes. variabile aleatoare de selecie;
De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul
n 30.
X1 , X2 , . . . , Xn
Alegem o statistic (criteriu)
S (X1 , X2 , . . . , Xn )
apropiat de
care, dup acceptarea ipotezei
(H0 ),
aceast are
o repartiie cunoscut, independent de parametrul testat; Alegem un nivel de semnicaie Gsim regiunea critic Calculm valoarea Lum decizia:
0.
De regul,
= 0.01, 0.02, 0.05.
U; S (X1 , X2 , . . . , Xn )
pentru selecia considerat;
s0
a statisticii
138
atunci ipoteza nul,

Dac Dac
s0 U ,
(H0 ),
se respinge;
s0 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem
i o admitem pn la efectuarea eventual a unui test mai puternic).
Observaia 21.1
valorii
O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul sau valoare critic). Reamintim, se poate calcula dup formula: (21.1)
(sau
P valoarea
P valoarea
este probabilitatea de a obine
un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru testul bilateral,
P valoarea
Pv = P (|S| > |s0 |) = P (S > |s0 |) + P (S < |s0 |),

unde
este statistica folosit n testare i
s0
este valoarea acestei statistici pentru selecia dat (respectiv,
seleciile date, n cazul testrii cu dou selecii). Pentru testul unilateral stnga,
P valoarea
se poate calcula dup formula:
Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,
(21.2)
P valoarea
este dat de: (21.3)
Pv = P (S > s0 ),
Utiliznd
P valoarea,
testarea se face astfel:
Ipoteza nul va respins dac
Pv <
i va admis dac
Pv .
Aadar, cu ct
Pv
este mai mic, cu
att mai multe dovezi de respingere a ipotezei nule.
Testul Z pentru medie (o selecie) Testul Z bilateral

Testul
pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut Fie caracteristica
a priori.
30) din
ce urmeaz legea normal
N (, )
cu
necunoscut i
>0
cunoscut. Presupunem
c avem deja culese datele de selecie (observaiile) asupra lui
X:
x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul
(H0 ) :
= 0 = 0 ,
(H1 ) :
Pentru a efectua acest test, considerm statistica
Z=
X . n
Propoziiei
(21.4)
Dac ipoteza
(H0 )
se admite, atunci
Z N (0, 1), (conform
11.23).
Cautm un interval (21.5)
( z1 , z 2 )
astfel nct
P (z1 < Z < z2 ) = 1 .

Gsim c acest interval este:
139
z1 , 2
z1 , 2 Z)
ca ind acea regiune pentru Este de ateptat ca regiunea
unde
este cuantila de ordin
pentru repartiia
N (0, 1).
tim c un interval de ncredere
Denim regiunea critic pentru ipoteza nul (relativ la valorile statisticii care ipoteza pentru
(H0 )
se respinge, dac media
aparine acelui interval.
va conine valoarea real 0
cu o probabilitate destul de mare,
1 .
critic s e complementara acestui interval, adic
U = z R;
Astfel,
, z1 z z1 2 2
= {z ; |z | z1 }. 2
(21.6)
este acea regiune n care:
X 0 + z1 2 n
Notm cu
. X 0 z1 2 n
z0
valoarea statisticii
pentru observaia considerat.
Decizia nal se face astfel:
dac
, z0 z1 2 z0 z1 , 2
z1 2
, (echivalent,
z0 U ),
atunci admitem
(H0 )
(pentru c nu sunt su-
ciente dovezi s o respingem).
dac
z1 2
, (echivalent,
z0 U ),
atunci respingem
(H0 )
(exist suciente dovezi
s o respingem).
Etapele testul Z bilateral

(1) (2) Se dau:
Determinm valoarea
{x1 , x2 , . . . , xn } (date repartizate z1 astfel nct 2 z1 2 =1
normal),
0 ,
. 2
(3)
Calculez valoarea
z0 =
(4) Dac: (i) (ii)
x 0
n
|z0 | < z1 , atunci (H0 ) este admis (nu poate respins); 2 |z0 | z1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2
Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul
(H0 ) :
= 0
(H1 )s :
< 0 ,
(unilateral stnga)

sau ipoteza alternativ
140
(H1 )d :
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor chiar intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul de semnicaie statisticii
este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul
este vericat vs. ipoteza alternativ
pentru care
(H1 )s
se realizeaz cu probabilitatea
(H1 )s , atunci regiunea critic va regiunea acelor posibile valori ale 1 1, adic: U = (, z1 ).
(21.7)
ntr-adevr, se observ cu uurin c:
P (z U ) = P ( < Z < z1 ) = (z1 ) = 1 .

n mod similar, dac avem ipoteza alternativ
(H1 )d ,
atunci alegem regiunea critic: (21.8)
U = (z1 , +).
La fel ca mai sus, decizia se determin astfel (n ambele cazuri):
dac
z0 = z0 =
x 0
n
U, U,
atunci admitem
(H0 ). (H0 ).
dac
x 0
n
atunci respingem
Observaia 21.2
Testul
(bilateral sau unilateral) poate aplicat cu succes i pentru populaii non-
normale, dac volumul seleciei observate este
n 30.
Testul Z pentru diferena mediilor a dou selecii

Testul Fie
Z
i
pentru diferena mediilor se folosete pentru selecii independente de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute
a priori.
30)
din
X1
X2
caracteristicile (independente) a dou populaii normale,
N (1 , 1 ),
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat
N (2 , 2 ), de volum n1 ,
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
1 = 2 1 = 2 .
(H1 ) :
Pentru a testa aceast ipotez, alegem statistica
Z=
(X1 X2 ) (1 2 )
2 1 2 + 2 n 1 n2
(21.9)

Dac
141
1 = 2 ),
atunci (vezi (19.3)):
(H0 )
este admis (adic admitem c
Z N (0, 1).
Fie
(conform Propoziiei
11.28). Z
(21.10)
z0 =
(u1 u2 )
2 1 n1
2 2 n2
. Regiunea critic pentru ipoteza nul, exprimat n valori ale statisticii
este:
U =
Dac valoarea statisticii Dac valoarea statisticii
z;
, z1 z z1 2 2
. U,
atunci admitem
Z Z
pentru seleciile date nu se a n pentru seleciile date se a n
(H0 ).
U,
atunci respingem
(H0 ).
Etapele testul Z pentru diferena mediilor

(1) (2) Se dau datele normale Determinm valoarea
{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } astfel nct, funcia lui Laplace, z1 2 z1 2 =1 x1 x2

2 1 n1
0 , 1 , 2 ,
. 2
(3)
Calculez valoarea
z0 =
(4) Dac: (i) (ii)
2 2 n2
, atunci 1 = 2 ; |z0 | < z1 2 |z0 | z1 2 , atunci 1 = 2 .
Observaia 21.3
(3) Testul
(1)
n cazul n care
1 , 2
sunt necunoscute, atunci utilizam testul
pentru dou
selecii, prezentat mai jos. (2) Regiunile critice pentru testele unilaterale sunt prezentate n Tabelul 21.2.
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
non-normale, dac volumele seleciilor observate sunt (4) Pentru testul
n1 30, n2 30.
(pentru testul
Z , P valoarea
se poate calcula dup urmtoarele formule:
Pv = P (|Z| > |z0 |) = 1 (|z0 |) + (|z0 |) Pv = P (Z < z0 ) = (z0 )

(pentru testul
bilateral);
(21.11) (21.12) (21.13)
unilateral stnga);
Pv = P (Z > z0 ) = 1 (z0 )
(pentru testul
unilateral dreapta).
Testul t pentru medie (o selecie)

Testul
pentru medie se folosete pentru selecii normale de volum mic, de regul
populaiei este necunoscut Fie caracteristica
a priori.
n < 30,
cnd dispersia Considerm
N (, ) cu necunoscut i > 0 necunoscut.
datele de selecie (observaiile) asupra lui
X: x1 , x2 , . . . , xn .

Vrem s vericm ipoteza nul
142
(H0 ) :
= 0 = 0 ,
(H1 ) :
T =
X . d (X ) n 0 ),
atunci
(21.14)
Dac ipoteza
(H0 )
se admite (adic
ia valoarea
T t(n 1),
(conform Propoziiei
13.9).
Cutm un interval
(t1 , t2 )
astfel inct
P (t1 < T < t2 ) = 1 .

Gsim c acest interval este:
(21.15)
t1 ; n1 , t1 ; n1 , 2 2
unde
t; n
reprezint cuantila de ordin
pentru repartiia
t(n).
Regiunea critic este complementara intervalului de ncredere. Decizia se ia astfel:
dac
t0 =
x 0
d (X ) n
t1 ; n1 , t1 ; n1 2 2 t1 ; n1 , t1 ; n1 2 2
(echivalent,
t0 U ),
atunci admitem
(H0 ).
dac
t0 =
x 0
d (X ) n
(echivalent,
t0 U ),
atunci respingem
(H0 ).
Etapele testul t bilateral

(1) (2) Se dau:
{x1 , x2 , . . . , xn } (date normale), Determinm valoarea t1 ; n1 astfel nct 2
0 , . 2
t(n 1),
Fn1 t1 ; n1 = 1 2
(3) Calculez valoarea
t0 =
(4) Dac:
x 0
d (X ) n
unde,
d (X ) =
1 n1
(xi x)2 .
k=1
(i) (ii)
|t0 | < t1 ; n1 , atunci (H0 ) este admis (nu poate respins); 2 |t0 | t1 ; n1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2
Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul
(H0 ) :
= 0

143
(H1 )s :
sau ipoteza alternativ
< 0 , > 0 ,
(unilateral stnga)
(H1 )d :
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de regiuni critice corespunztoare. Regiunea critic pentru ipoteza nul va trebui s e mulimea valorilor favorabile realizrii ipotezei alternative, adic este acel interval ce conine doar valori ale statisticii
ce vor duce la respingerea ipotezei
nule i acceptarea ipotezei alternative. Aadar, dac alegem ipoteza alternativ intervalul:
(H1 )s ,
atunci regiunea
critic pentru ipoteza nul va mulimea valorilor favorabile realizrii ipotezei alternative
(H1 )s ,
adic
U = (, t1; n1 ).
Dac alegem ipoteza alternativ
(21.16)
(H1 )d ,
atunci regiunea critic pentru ipoteza nul va :
U = (t; n1 , +).
La fel ca mai sus, testarea este (n ambele cazuri):
(21.17)
dac
t0 =
x 0
d (X ) n
U,
atunci admitem
(H0 ).
dac
t0 =
x 0
d (X ) n
U,
atunci respingem
(H0 ).
Observaia 21.4
Testul
(bilateral sau unilateral) poate aplicat cu succes i pentru populaii non-
normale, dac volumul seleciei observate este
n 30. = 0 z1 , + 2
Ali parametri
(H0 ) : (H1 ) = 0 < 0 > 0 = 0 < 0 > 0
Regiunea critic
Tipul testului Testul Testul Testul
cunoscut
, z1 2
bilateral
(, z1 ) (z1 , +) , t1 ; n1 2 t1 ; n1 , + 2 (, t1; n1 ) (t1; n1 , +)
Z unilateral stnga Z unilateral dreapta
necunoscut
Testul Testul Testul
bilateral
t unilateral stnga t unilateral dreapta
Tabela 21.1: Teste pentru valoarea medie a unei colectiviti.

Testul t pentru diferena mediilor a dou selecii
Testul Fie
t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),
atunci cnd dispersiile populaiilor considerate sunt necunoscute
a priori.
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),

pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
144
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
1 = 2
(H1 ) :
1 = 2 .
Cazul I
Presupunem c
1 = 2
sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica
T =
(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2
(21.18)
Aici,
2 d2 1 i d1 sunt dispersiile de selecie (modicate).
Dac
(H0 ) este admis (adic admitem c 1 = 2 ),

(21.19)
atunci (vezi relaia (19.3)):
T t(N ),
cu
ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena
mediilor, adic:
U = R \ t1 ; N , t1 ;N . 2 2
Cazul II
Presupunem c
1 = 2 T =
i sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica
(X1 X2 ) (1 2 ) (n1 1)d2 1 + ( n2 1)d2 2
n1 + n2 2 . 1 1 n1 + n2
(21.20)
Dac
(H0 )
este admis (adic admitem c
1 = 2 ),
atunci (vezi relaia (19.2)): (21.21)
T t (n1 + n2 2).
Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:
U = R \ t1 ; n1 +n2 2 , t1 ; n1 +n2 2 . 2 2
Etapele testul t pentru diferena mediilor

(1) (2) funcia de
{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } (date normale), 0 , ; Determinm valoarea t1 ; m (unde m = N sau m = n1 + n2 2, dup caz) astfel 2 repartiie pentru repartiia Student t(m),
Se dau:
nct
Fm t1 ;m =1 2
. 2

(3) Calculez valoarea
145
t0 =
x1 x2 d2 d2 1 + 2
n1 n2
, dac
1 = 2 1 = 2

(4) Dac: (i) (ii)
x1 x2
2 (n1 1)d2 1 + (n2 1)d2
n1 + n2 2 1 1 n1 + n2
, dac
|t0 | < t1 ; m , atunci 1 = 2 ; 2 |t0 | t1 2 ; m , atunci 1 = 2 .
Observaia 21.5
(1) n practic, nu putem ti
a priori dac dispersiile teoretice a celor dou populaii
ce urmeaz a testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20). (2) n cazul n care dispersiile sunt cunoscute, atunci se utilizeaz testul care urmeaz paii testului de relaia (19.1) care, (3) Testul
Z pentru diferena mediilor, t pentru diferena mediilor, cu diferena c statistica ce se consider este dat dup acceptarea ipotezei nule, urmeaz repartiia N (, ). n1 30, n2 30. T
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
non-normale, dac volumele seleciilor observate sunt (4) Pentru testul
Z , P valoarea
se poate calcula dup urmtoarele formule: (pentru testul bilateral); (21.22) (21.23) (21.24)
Pv = P (|T | > |t0 |) = 1 Fm (|t0 |) + Fm (|t0 |) Pv = P (T < t0 ) = Fm (t0 )

(pentru testul
unilateral stnga);
Pv = P (T > t0 ) = 1 Fm (t0 )
unde
(pentru testul
unilateral dreapta).
m=N
sau
m = n1 + n2 2,
dup caz.
Ali parametri
(H0 ) : (H1 ) 1 = 2 1 < 2 1 > 2
1 = 2
2 2 1 2 n1 + n2 2 2 1 2 n1 + n2 2 2 1 2 n1 + n2
Regiunea critic
1 , 2
cunoscute
|X1 X2 | z1 2 X1 X2 < z1 X1 X2 > z1 |X1 X2 | t1 ;N 2 X1 X2 < t1; N X1 X2 > t1; N
bilateral
Z Z
unilateral stnga unilateral dreapta
1 = 2
necunoscute
1 = 2 1 < 2 1 > 2
2 (X ) d2 2 (X1 ) + d n n1 2 2 (X ) d2 2 (X1 ) + d n n1 2 2 (X ) d2 2 (X1 ) + d n n1 2
Testul Testul Testul
bilateral
t t
unilateral stnga unilateral dreapta
Tabela 21.2: Teste pentru egalitatea a dou medii.
146
Testul 2 pentru dispersie

Fie caracteristica
selecie (observaiile) asupra lui Vrem s vericm
N (, ) X , x1 , x2 , . . . , xn .
cu
>0
necunoscute. Considerm datele de
(H0 ) :
2 2 = 0
(H1 ) :
2 2 = 0 ,
2 =
care, dup acceptarea ipotezei (13.6). Intervalului de
n1 2 d (X ), 2
(21.25)
2 ), atunci 2 2 (n 1), (conform Propoziiei (H0 ) (adic 2 ia valoarea 0 2 ncredere pentru este 2 2 ; n1 , 1 ; n1 ,
2 2
unde
2 ; n1
pentru repartiia
2 (n).
pentru selecia dat. Atunci, regula de decizie este
Regiunea critic
va complementara acestui intervalul de ncredere.
2 S notm prin 0
urmtoarea:
n1 2 2 2 d (x) valoarea statisticii 0
dac
2 2 2 0 ; n1 , 1 ; n1
2 2
, atunci admitem
(H0 )
(i.e.,
2 ); 2 = 0 2 ). 2 = 0
dac
2 2 2 0 ; n1 , 1 ; n1
2 2
, atunci respingem
(H0 )
(i.e.,
Observaia 21.6
Se pot considera, dup caz, i ipotezele alternative unilaterale
(H1 )s :
2 2 < 0
(H1 )d :
2 2 > 0 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.
(H0 ) : (H1 )
necunoscut
2 2 = 0
Regiunea critic
2 2 = 0 2 2 < 0 2 2 > 0
, 2 ; n1
2
2 1 ; n1 , +
2
bilateral
, 2 1; n1 2 ; n1 , +
2 unilateral stnga 2 unilateral dreapta
Tabela 21.3: Teste pentru dispersie.

Testul F pentru raportului dispersiilor
Fie
X1
X2
N (1 , 1 ),
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
N (2 , 2 ), n1 ,
147
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c dispersiile sunt egale (H0 ) :
2 2 1 = 2
(H1 ) :
Pentru a testa aceast ipotez, alegem statistica
2 2 1 = 2 .
F =
Dac
2 d2 (X ) 2 1 . 2 2 1 d (X2 )
(21.26)
(H0 )
este admis (adic
2 = 2 ), 1 2
atunci:
F F (n1 1, n2 1)
Intervalul de ncredere pentru raportul dispersiilor este
(repartiia
Fisher).
(21.27)
f ; n1 1, n2 1 , 2
i se determin astfel nct
f1 ; n1 1, n2 1 2
P f ; n1 1, n2 1 F f1 ; n1 1, n2 1 = 1 . 2 2
Extremitile intervalului se determin din relaiile
Fn1 1; n2 1 f ; n1 1, n2 1 = 2
(f; n1 1, n2 1 este cuantila de ordin Regiunea critic Notm prin
Fn1 1; n2 1 f1 ; n1 1, n2 1 = 1 2 F (n1 1, n2 1)).

Avem:
. 2
pentru repartiia Fisher
este complementara intervalului de ncredere pentru raportul dispersiilor.
f0
valoarea lui
pentru observaiile date,
x1
x2 .
f0 =
Regula de decizie este:
d2 (x1 ) . d2 (x2 )
dac
f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2 f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2
, atunci admitem
(H0 )
(i.e.,
1 = 2 ); 1 = 2 ).
dac
, atunci respingem
(H0 )
(i.e.,
Observaia 21.7
Se pot considera, dup caz, i ipotezele alternative unilaterale
(H1 )s :
2 2 1 < 2 ,
(H1 )d :
2 2 1 > 2 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.

(H0 ) :
2 2 1 = 2
148 Regiunea critic Tipul testului Testul F bilateral Testul F unilateral stnga Testul F unilateral dreapta
necunoscute
1 , 2
(H1 ) 2 2 1 = 2 2 2 1 < 2 2 2 1 > 2
, f f1 ; n1 1, n2 1 ; n1 1, n2 1 , + 2 2 (, f1; n1 1, n2 1 ) (f1; n1 1, n2 1 , +)
Tabela 21.4: Teste pentru raportul dispersiilor.
Teste pentru proporii ntr-o populaie binomial O singur populaie

Fie
o caracteristic binomial a unei colectiviti, cu probabilitatea de succes
p.
Pe baza unor selecii
ale populaiei, dorim s testm urmtoarea ipotez asupra lui
p:
(H0 ) : p = p0
vs.
(H1 ) : p = p0 .
De asemenea, putem considera i ipoteze alternative unilaterale:
(H1 )s : p < p0
sau
(H1 )d : p > p0 . n
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul Fixm un nivel de semnicaie de ncredere (17.18). al seleciilor considerate.
Vom construi testul pentru proporia populaiei pe baza intervalului
Etapele testului sunt:

Pe baza seleciei, calculm proporia de selecie Calculm valoarea
p,
care este o estimare a proporiei populaiei,
p;
P0 =
p p0 p0 (1 p0 ) n
Calculm cuantila Dac
z1 ; 2 P0 z1 , z1 , 2 2
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.
Observaia 21.8
Pentru testul unilateral stnga regiunea critic pentru
P0
este
(, z1 ),
iar pentru
testul unilateral dreapta este
(z1 , ).
149
Testul proporiilor pentru dou populaii

Fie de
X2 dou caracteristici binomiale independente ale unei populaii, cu volumele succes n1 , p1 i, respectiv, n2 , p2 . Pe baza unor selecii, dorim s testm ipotezele:
i
X1
i probabilitile
(H0 ) : p1 = p2
vs.
(H1 ) : p1 = p2 .
De asemenea, putem considera i ipoteze alternative unilaterale:
(H1 )s : p1 < p2
sau
(H1 )d : p1 > p2 .
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm un nivel de semnicaie
Dac ipoteza nul este admis, atunci
p1 = p2 = p.
Un estimator pentru
este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,
p =
n1 p 1 + n2 p 2 . n1 + n2
Etapele testului sunt:

Calculm proporiile de selecie Calculm valoarea
p1
p2 ,
care sunt estimri pentru
p1 ,
respectiv,
p2 ;
P0 = p (1
Calculm cuantila Dac ; z1 2
p1 p2 p )
1 n1
; +
1 n2
P0 z1 , z1 , 2 2
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.
150
22 Statistic Aplicat (L11) Teste parametrice rezolvate n Matlab

Matlab utiliznd comanda
Testul Z n
Testul
Matlab
pentru o selecie poate simulat n
[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:
h p
este rezultatul testului. Dac
h = 1,
atunci ipoteza nul se respinge, dac
h = 0,
atunci ipoteza
nul nu poate respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic); este valoarea
P (P
value);
ci
este un interval de ncredere pentru este valoarea statisticii
zval X
pentru observaia considerat; Dac
este un vector sau o matrice, coninnd observaiile culese.
este matrice, atunci mai
multe teste
sunt efectuate, de-alungul ecrei coloane a lui
X;
m0 = 0 , sigma alpha tail
valoarea testat;
este deviaia standard teoretic a lui este nivelul de semnicaie;
X , a priori
cunoscut;
poate unul dintre urmtoarele iruri de caractere:
'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit); 'left', pentru un test unilateral stnga ( < 0 ); 'right', pentru un test unilateral dreapta ( > 0 ); Exemplu 22.1
este Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n
urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim s testm, la nivelul de semnicaie
= 0.05,
dac media tuturor notelor la Matematic a elevilor colii
= 6.8
sau mai mare. Se tie c deviaia standard este
= 2.5.
Soluie:
Aadar, avem de testat
(H0 )
Vectorul
= 6.8
vs.
(H1 )
> 6.8.
de mai jos cuprinde toate notele obinute n urma sondajului.

X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ... 7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)]; [h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')
Acest cod aeaz
151
h = 0
p = 0.9500
ci =
5.9332 Inf
stats =
-1.6444
Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.
Observaia 22.2
(1) Dac ipoteza alternativ este bilateral ((H1 )
: = 6.8),
atunci comanda ar :
[h, p, ci, zval] = ztest(X, 6.8, 2.5)

n acest caz, gsim c ipoteza nul este respins (i.e., rezultatul este
h = 1).
(2) Decizia testului putea luat i pe baza
P valorii.
Aceasta este:
Pv = P (Z > z0 ) = 1 P (Z z0 ) = 1 (z0 ) = 0.95 > 0.05 = .

n
Matlab, aceast valoare poate calculat astfel:

m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n)); Pv = 1 - normcdf(z0, 0, 1)
(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat. De exemplu, comanda
h = ztest(X, m0, sigma, alpha, tail)

ne va furniza doar rezultatul testului (h (4) Nu exist o funcie n
Matlab care s simuleze testul Z pentru dou selecii.
=0
sau
h = 1),
fr a aa alte variabile.
Testul t n
Matlab
Matlab utiliznd comanda general
Testul t pentru o selecie

Testul
poate simulat n

[h, p, ci, stats] = ttest(X,m0,alpha,tail)
unde:
152
h, p, ci, m0, alpha, tail

variabila
sunt la fel ca n funcia
ztest;
stats
nmagazineaz urmtoarele date:
tstat - este valoarea statisticii T pentru observaia considerat; df - numrul gradelor de libertate ale testului; sd - deviaia standard de selecie; Exemplu 22.3
de exact Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a
apare la orice aruncare sunt
50% 50%.
Aruncm moneda n caza de
100
de ori i obinem faa cu stema
59
de ori. Pe baza acestei experiene, cutm s testm ipoteza nul
(H0 ) :
moneda este corect
(H1 ) :
la un prag de semnicaie
monedal este msluit,
= 0.05.
ce reprezint faa ce apare la o singur aruncare a monedei. stema i S
Soluie:
de unde
spunem c
X variabila aleatoare X = 1, dac apare faa cu E(X ) = 0.5, D2 (X ) = 0.25.

Fie
X = 0,
dac apare faa cu banul. Teoretic,
X B (1, 0.5),
Prin ipotez, ni se d o selecie de volum
59
de
ipotezele
n = 100 i scriem observaiile fcute ntr-un vector x ce conine 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem (H0 ) i (H1 ) astfel: (H0 ) : = 0.5 (H1 ) : = 0.5.
Dac
{X1 , X2 , . . . , Xn }
sunt variabilele aleatoare de selecie, atunci alegem statistica
T =
Dac ipoteza
X
d (X ) n
.
i statistica
(H0 )
se admite, atunci
este xat,
= 0 .5
T t(n 1).
Valoarea acestei
statistici pentru selecia dat este:
t0 =
Din t1 ; n1 2
x
d (X ) n
= 1.8207.
i decidem c ipoteza
= t0.975; 99 = 1.9842,
rezult c
poate respins la nivelul de semnicaie
|t0 | < t1 ; n1 , 2 ).
(H0 ) este admis (nu
P valoarea
este
Pv = 1 Fn1 (t0 ) + Fn1 (t0 ) = 1 F99 (1.8207) + F99 (1.8207) = 0.0717.

Codul
Matlab pentru calculul analitic de mai sus este urmtorul:

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)]; t0 = (mean(x) - mu)/(std(x)/sqrt(n)); tc = tinv(1-alpha/2, n-1); % cuantila if (abs(t0) < tc) disp('moneda este corecta') else disp('moneda este masluita') end Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1) % P-valoarea
Rulnd codul, obinem rezultatul:
153
moneda este corecta

n loc s folosim codul de mai sus, am putea folosi funcia
ttest
din
Matlab, dup cum urmeaz:
[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

i obinem
h = 0
p = 0.0717
ci =
0.4919 0.6881
stats =
tstat: 1.8207 df: 99 sd: 0.4943
Observaia 22.4
0.08,
(1)
Deoarece
P valoarea
este
p = 0.0717,
deducem c la un prag de semnicaie atunci ipoteza nul ar respins,
ipoteza nul ar fost respins.
(2) Dac dintre cele
100 de observri aveam o apariie n plus a stemei,
adic moneda ar fost catalogat a msluit.
Testul t pentru dou selecii

Testul
pentru egalitatea a dou medii poate simulat n
[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)

unde:
h, p, ci, alpha, stats X

i
tail
sunt la fel ca mai sus;
sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai
multe teste
sunt efectuate, de-alungul ecrei coloane;
vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.
154
Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c X1 N (1 , 1 ) i X2 N (2 , 2 ), cu 1 = 2 , necunoscute a priori. Pentru a verica modul cum s-au prezentat studenii la acest examen n doi ani consecutivi, selectm aleator notele a 25 de studeni din prima grup i 30 de respectiv, note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.
Exemplu 22.5
(i) (ii) (ii)
Vericai dac ambele seturi de date provin dintr-o repartiie normal; Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie S se testeze (cu
= 0.05;
= 0.01)
ipoteza nul
(H0 ) :
1 = 2 ,
(n medie, studenii sunt la fel de buni)
versus ipoteza alternativ
(H1 ) :
1 < 2 ,
(n medie, studenii au note din ce n ce mai mari)

Frecvena absolut Grupa
Nota obinut
5 6 7 8 9 10
M F 08 3 4 9 7 2 0
Grupa
M F 09 5 6 8 6 3 2
Tabela 22.1: Tabel cu note.

Soluie:
(i)
h = chi2gof(u) k = chi2gof(v)
% %
h = 0, deci u N k = 0, deci v N
(u i (ii)
sunt vectorii din codul
Matlab de mai jos)
Un interval de ncredere la acest nivel de semnicaie se obine apelnd funcia
Matlab
[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')

Acesta este:
(-0.7294, 0.6760)
Altfel, se calculeaz intervalul de ncredere (vezi Tabelul 18.1)
x1 x2 t1 ; N
2
d2 1 n1
d2 2 n2
x1 x2 + t1 ;N 2
d2 1 n1
d2 2 n2
Codul
Matlab:
155
n1=25; n2=30; alpha = 0.05; u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)]; v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)]; d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2; t = tinv(1-alpha/2,N); m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii) Comanda
Matlab este:
[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')

n urma rulrii comenzii, obinem:
h = 0
p = 0.4698
ci = -Inf 0.8137
stats =
tstat: -0.0761 df: 52.7774 sd: 2x1 double
Observaia 22.6
Valoarea
poate calculat i cu formula:
Pv = P (T < t0 ) = FN 1 (t0 ) = 0.4698.

n
Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)
Testul 2 pentru dispersie n Exemplu 22.7

strung. tim c
Matlab
N (, ).
10.55 3 Alegem o selecie de volum 10.65 1
Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (n mm) produse de un
urmeaz legea normal 10.50 2
n = 11
i obinem
distribuia empiric: 10.60 5
S se testeze (cu
= 0.1)
ipoteza nul
(H0 ) :
2 = 0.003, 2 = 0.003. (0.0012, 0.0055)

iar valoarea critic este
(H1 ) :
Soluie:
Intervalul de ncredere pentru
este
2 0 = 7.2727.
Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate respins la

acest nivel de semnicaie. Aceeai concluzie poate luat n urma inspeciei valorii
156
P,
care este mai mare dect nivelul
Avem:
2 2 Pv = P (|2 | > |2 0 |) = P ( > 0 ) = 1 Fn1 (7.2727) = 0.6995.
Testul
poate simulat n
[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:
h, p, ci, m0, alpha, stats, tail var
sunt la fel ca n funcia
ttest;
este valoarea testat a dispersiei;
Spre exemplicare, codul
Matlab pentru exerciiul anterior este:
X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65]; [h, p, ci, stats] = vartest(X,0.003,0.1,'both')

Rularea acestuia ne d:
h = 0
p = 0.6011
ci =
0.0012 0.0055
stats = chisqstat: 7.2727 df: 10
adic ipoteza nul este acceptat la acest nivel de semnicaie. Folosind
Matlab, putem calcula P valoarea astfel:

c0 = (n-1)/0.003*var(X);
Pv = 1 - chi2cdf(c0,10)
Testul F n
Matlab
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)
Testul raportului dispersiilor poate simulat n
unde variabilele sunt la fel ca n funcia
ttest2.
Exemplu 22.8
Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)

provin din populaii cu dispersii egale. Aadar, avem de testat (la nivelul de semnicaie
157
= 0.01)
(H0 )
2 2 1 = 2
vs.
(H1 )
2 2 1 = 2 .
Soluie:
Utiliznd notaiile din Exerciiul 22.5, comanda
Matlab care rezolv acest test este:
[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')

(pentru teste unilaterale, folosim
'left'
sau
'right'
n locul lui
'both'.)
Rezultatul comenzii anterioare este:
h = 0
p = 0.2119
CI =
0.2191 1.7426
stats = fstat: 0.6047 df1: 24 df2: 29
Deoarece
h = 0,
decidem c dispersiile teoretice ale celor dou populaii pot considerate a egale la
nivelul de semnicaie
= 0.01. P,
Observaia 22.9
mai mare dect
Decizia testului poate luat i pe baza inspeciei valorii Aceasta este:
observnd c aceasta este
Pv = 1 Fn1 1, n2 1 (|f0 |) + Fn1 1, n2 1 (|f0 |) = 1 Fn1 1, n2 1 (|f0 |).

n

f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)
Teste parametrice pentru proporii Exemplu 22.10

4893
S notm cu
ntr-un sondaj naional de opinie,
5000
de persoane au fost rugate s rspund la o
ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.
p acest procent.
La nivelul de semnicaie
= 0.05, testai dac p este de 95% sau mai mare.
Soluie:
Avem de testat ipoteza
(H0 ) : p = 0.95
Procentul de selecie este
vs.
(H1 ) : p > 0.95. z1 = 1.6449

i valoarea statisticii este
p=
4893 5000
= 0.9786,
cuantila este
P0 =
0.9786 0.95 0.95 (1 0.95) 5000
= 9.2791 [1.6449, ),

aadar ipoteza nul este respins la acest nivel de semnicaie. Admitem c Aceeai concluzie poate dedus i prin inspecia
158
p > 0.95. P valorii.
Aceasta este
Pv = P (Z > P0 ) = 1 P (Z P0 ) = 1 (9.2791) 0 < = 0.05.

Aadar, ipoteza nul va respins la toate nivele de semnicaie practice.
Exemplu 22.11
Revenim la Exemplul 20.2. S se testeze, la nivelul de semnicaie
= 0.02 dac exist
diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.
Soluie:
Avem:
p1 =
23 45 ,
p2 =
37 65 ,
p =
23 45
23+37 45+65 37 65 1 45
6 11 i
z0.99 2.33.
Valoarea statisticii este:
P0 =
6 11 )
= 0.6019 [2.3263, 2.3263], +

1 65
6 11 (1
deci ipoteza nul nu poate respins la acest nivel de semnicaie. Aceeai concluzie o putem lua dac vericm
P valoarea.
Aceasta este:
Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .
159
160
23 Statistic Aplicat (C12) Teste de concordan

Testele de concordan (en., goodness-of-t tests) realizeaz concordana ntre repartiia empiric (repartiia datelor observate) i repartiia teoretic. sunt testul Dou dintre cele mai des utilizate teste de concordan
de concordan i testul Kolmogorov-Smirnov.
Testul 2 de concordan
Acest test de concordan poate utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i
testul
al celei mai bune potriviri (en., goodness of t test).
testul 2 al lui Pearson
sau
Acest test poate aplicat pentru orice tip
de date pentru care funcia de repartiie empiric poate calculat.
Cazul neparametric
S considerm o caracteristic necunoscut
(x5)2 18
a priori,
a unei populaii statistice
Repartiia variabilei aleatoare
este
ns intuim (sau avem anumite informaii) cum c aceasta ar dat de legea
de probabilitate complet specicat
f (x, )
(e.g.,
f (x) =
e2 2x x! ,
x N
( X P (2) )
sau
f (x) =
1 2
( X N (5, 3) )).
este cunoscut i vom omite s mai
Deoarece legea de probabilitate ipotetic este complet specicat, punem n eviden dependena lui
de acesta n decursul aceste seciuni.
Pentru a verica ipoteza fcut asupra repartiiei lui
X,
considerm un set de observaii asupra lui funcia de repartiie teoretic, i.e.,
testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de
x1 , x2 , . . . , xn
setul de date observate. S notm cu
F (x)
X i f (x). Fie F = f . n
2 cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:
Descompunem n clase mulimea observaiilor fcute asupra lui mulimii aparine unei singure clase. Scriem aadar,
X,
astfel nct ecare element al
{x1 , x2 , . . . , xn } =
i=1
Oi ,
Oi
Oj = , i = j. ni
de observaii ce aparin ecrei clase
Determinm frecvenele empirice absolute, i.e., numerele
Oi .
n mod evident, va trebui s avem c
ni = n.
i=1
pentru ca testul s e concludent. n cazul n care
n general, se dorete ca
n 30
ni 5,
numrul de apariii ntr-o anumit clas nu depete valoarea clase, atunci sunt suciente cel puin noul numr, notat aici tot cu
5,
atunci se vor cumula dou sau
mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin
valori n ecare clas. n ambele cazuri, trebuie inut cont
de modicarea numrului de clase, iar numrul
trebuie modicat corespunztor (l nlocuim cu
k ).
Pentru ecare
161
s se ae n clasa
i {1, 2, . . . , k }, determinm probabilitatea teoretic pi ca un element al populaiei Oi . Aceast probabilitate este obinut cu ajutorul funciei f (x). Astfel, frecvenele teoretice absolute sunt n pi , i {1, 2, . . . , k }. Altfel spus, n pi este numrul estimat de valori ale repartiiei cercetate ce ar cdea n clasa Oi .
Formulm ipoteza nul,
(H0 ) :
Aceasta este echivalent cu
Funcia de repartiie a lui
este
F (x).
(H0 ) :
probabilitatea unei observaii de a aparine clasei
Oi
este
pi .
(i = 1, 2, . . . , k ).
Ipoteza alternativ este negaia ipotezei nule. Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica
2 =
i=1
(ni n pi )2 . n pi
(23.1)
(Fiecare dintre termenii
(ni n pi )2 n pi
poate privit ca ind o eroare relativ de aproximare a valorilor
ateptate ale repartiiei cu valorile observate.) Statistica
urmeaz repartiia
2 (k 1).
Uneori, statistica
se numete
discrepan.
Alegem nivelul de semnicaie
de regul, foarte apropiat de zero.
Alegem regiunea critic, ca ind regiunea pentru care valoarea vaiile date satisface
2 0
a acestei statistici pentru obser-
2 2 0 > 1; k1 ,
unde
2 1; k1
pentru repartiia
2 (k 1). .
Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul
(H0 )
se respinge la nivelul de semnicaie
Altfel, nu sunt dovezi statistice suciente s se resping.
Cazul parametric
Cnd probabilitile teoretice atunci cnd legea de
pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui
f,
dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s
estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri, pierdem dou grade etc. S presupunem c legea de probabilitate a lui
de mai sus este
f (x, ),
unde
= (1 , 2 , . . . ,
p ) R p
xime.
sunt parametri necunoscui.
Pentru a aproxima aceti parametri, folosim observaiile
culese asupra lui
X.
O metod la ndemn pentru estimri parametrice este metoda verosimilitii ma-
Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:
(H0 ) :
pi = p i ,
(i = 1, 2, . . . , k ),

unde
162
2 cazul parametric i
i
pi
este probabilitatea unei observaii de a aparine clasei
p i
sunt valorile estimate.
Din acest moment, etapele testului tric, cu deosebirea c statistica estimarea celor
sunt asemntoare cu cele din cazul neparame-
dat prin (23.1) urmeaz repartiia
cu
(k p 1) grade de libertate.
Aceasta este urmare a faptului c se pierd
p grade de libertate din cauza folosirii observaiilor date pentru
parametri necunoscui.
Etapele aplicrii testului 2 de concordan (neparametric sau parametric)
Se dau:
x1 , x2 , . . . , xn .
Intuim
F (x; 1 , 2 , . . . , p );
Formulm ipotezele statistice:
(H0 ) (H1 )
Dac pas); similitate maxim
funcia de repartiie teoretic a variabilei aleatoare ipoteza nul nu este adevrat.
este
F (x; 1 , 2 , . . . , p )
1 , 2 , . . . , k (k p) nu 1 , 2 , . . . , k
sunt parametri cunoscui, atunci determinm estimrile de veropentru acetia (doar n
cazul parametric;
altfel srim peste acest
Scriem distribuia empiric de selecie (tabloul de frecvene), clasa
Oi
i=1, n
ni
Se calculeaz probabilitatea
,
i=1
ni = n, ni 5; Oi .
Dac
pi ,
ca un element luat la ntmplare s se ae n clasa
Oi = [ai1 , ai ),
atunci
pi = F (ai ; ) F (ai1 ; ), n cazul neparametric; ) F (ai1 ; ), n cazul parametric. pi = F (ai ;

k
2 Se calculeaz 0
=
i=1
(ni n pi )2 ; n pi
care este
Determinm valoarea
=
unde
2 1; k1 2 1; kp1
, n cazul neparametric, , n cazul parametric,
2 ; n
este cuantila de ordin atunci acceptm
pentru repartiia
2 (n);
Dac
2 0 < ,
(H0 ),
altfel o respingem.
Test de independen folosind tabele de contingen

n aceast seciune, vom prezenta un test de independen ntre dou criterii dup care se face mprirea datelor observate. S presupunem c avem un set de observaii ce sunt mprite n categorii determinate de dou criterii diferite. De exemplu, conducerea unui liceu este indecis n ce privete alegerea unui curs de limbi strine potrivit pentru introducerea n programa colar. Pentru aceasta, s-a realizat un sondaj de opinie la care au participat
350
de elevii, n care acetia au avut de precizat cursul de limbi strine
163
preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):
este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i
reprezint nivelul
de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n Tabelul 23.1.
Nivel @ @Limba nceptor mediu avansat Total
Englez
Francez
German
Italian
Spaniol
Rus
Total
33 65 43 141
19 37 15 71
11 10 7 28
12 14 17 43
11 24 12 47
6 7 7 20
92 157 101 350
Tabela 23.1: Tabel cu repartizarea elevilor la cursurile de limbi strine.

n general, dac datele observate sunt clasicate n categorii ce depind de dou atribute diferite, atunci putem forma un tabel de genul Tabelului 23.2, numit
tabel de contingen.
Aici
sunt atributele i
Xi , i = 1, r, Yj , j = 1, s,
sunt diverse categorii n care ecare atribut n parte poate mprit.
@ @Y
X1 X2
. . . . . .
Xi Xr
Suma pe coloan
Y1 Y2 . . . n11 n12 . . . n21 n22 . . . . . . . . . . . . ni1 ni2 . . . . . . . . . . . . nr1 nr2 . . . n1 n2 . . .
Yj . . . n1j . . . n2j . . . . . . . . . nij . . . . . . . . . nrj . . . nj . . .
Ys n1s n2s
. . . . . .
Suma pe linie
n1 n2
. . . . . .
nis nrs ns
ni nr n
(suma total)
Tabela 23.2: Tabel de contingen.

n Tabelul 23.2 am folosit urmtoarele notaii: au valoarea sunt
Xi
pentru atributul
i valoarea
nij pentru numrul (frecvena absolut) de observaii ce Yj pentru atributul Y (i = 1, r, j = 1, s), iar nj , ni i n
s r s
nj =
i=1
nij ,
n i =
j =1
nij ,
n=
i=1 j =1
nij . X
i unei sin-
Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul gure categorii caracterizat de atributul cele
Y.
n concluzie, ecare individ poate aparine doar uneia dintre
rs
celule.
Dorim acum s testm dac atributele studiu).
sunt independente (n exemplul de mai sus, aceasta ar
nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de

S notm prin
164
Xi , Yj ,
i prin
pij
probabilitatea ca o dat observat s cad n categoriile
pi
pj
probabilitile marginale,
pi =
j =1
Avem c
pij ,
pj =
i=1
pij .
pij =
i=1 j =1
n general, valorile reale pentru
p i =
i=1 j =1
pj = 1.
pij , pi
pj
nu sunt cunoscute (specicate)
a priori
i se vor estima
folosind datele din tabelul de contingen. Vom nota prin probabilitilor marginale le estimm prin:
pij , pi nj n
i, respectiv,
pj
estimaiile lor. Valorile
p i =
Ipoteza nul este:
n i n
(i = 1, r )
pj =
(j = 1, s).
(23.2)
(H0 ) : (H1 ) :
pij = pi pj , (H0 ) i
i
i = 1, r, j = 1, s
(i.e.,
nu exist nicio asociere ntre atributele
Y ).
nu este adevrat. xai, valoarea ateptat n celula
Astfel, pentru
(i, j )
este (23.3)
Eij = n pij =
Calculm valoarea statisticii
ni nj , n
i = 1, r, j = 1, s.
H2 =
i, j
unde, n parantez, ateptate (
ni nj nij n ni nj n
=
i, j
(Oij Eij )2 , Eij (i, j )

iar
(23.4)
en., expected) n celula (i, j ).

(r 1)(s 1)
Oij = nij
este numrul de valori observate n celula
Eij
numrul de valori
Dac n ecare celul numrul de valori ce i apain este de cel puin
5,
atunci statistica
H2
urmeaz
2 repartiia cu
grade de libertate.
Etapele testului de independen sunt urmtoarele:

Se dau
nij ,
i = 1, r, j = 1, s nij ,
i pragul de semnicaie
Pe baza observaiilor Calculm Dac
calculm estimaiile (23.2);
H2
cu formula (23.4); la pragul de semnicaie
Eij 5, i, j i H 2 2 ; (r1)(s1) , atunci se admite (H0 ) Altfel, respingem (H0 ) la acest prag de semnicaie.
Exemplu 23.1
= 0.05,
estimaiile
Revenim la datele din Tabelul 23.1.
Pentru a stabili dac, la un nivel de semnicaie
alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti
Eij .
Acestea sunt scrise n paranteze n Tabelul 23.3.

Calculm
165
H 2:
3 6
H2 =
i=1 j =1
(nij Eij )2 (33 37.06)2 (7 5.77)2 = + + Eij 37.06 5.77
= 10.1228 > 3.9403 = 2 0.05, 10

deci respingem ipoteza nul conform creia tipul cursului i nivelul su sunt atribute independente. Pentru calculul acestor valori n
Matlab, putem proceda astfel:
n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7]; E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56... 19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77]; H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @ @Limba nceptor mediu avansat Total Englez Francez German Italian Spaniol Rus Total
33 (37.06) 65 (63.25) 43 (40.69) 141
19 (18.66) 37 (31.85) 15 (20.49) 71
11 (7.36) 10 (12.56) 7 (8.08) 28
12 (11.30) 14 (19.29) 17 (12.41) 43
11 (12.35) 24 (21.08) 12 (13.56) 47
6 (5.26) 7 (8.97) 7 (5.77) 20
92 157 101 350
Tabela 23.3: Tabel cu repartizarea i estimaia elevilor la cursurile de limbi strine.

Cazul tabelelor de contingen 2 2. Testul exact al lui Fisher
n cazul particular n care
r = s = 2,
tabelul de contingen este de forma:
@ @Y
X1 X2
Suma pe coloan
Y1 Y2 a b c d a+c b+d
Suma pe linie
a+b c+d a+b+c+d
Tabela 23.4: Tabel de contingen 2 2.
unde
a, b, c, d
sunt valorile observate pentru ecare celul n parte. Valorile ateptate
Eij
(vezi formula
(23.3)) sunt:
E11 =
(a + b)(a + c) , n
E12 =
(a + b)(b + d) , n
E21 =
(c + d)(a + c) , n
E22 =
(c + d)(b + d) , n

unde
166
Statistica
n = a + b + c + d.
H2
dat de relaia (23.4) devine:
H2 =
i urmeaz repartiia poate utiliza
ad bc n
1 1 1 1 + + + E11 E12 E21 E22
, H = H 2 N (0, 1),
i se
2 (1).
Din faptul c
H 2 2 (1),
rezult c statistica
pentru testul statistic de independen.
Dei acest test poate realizat, n cazul tabelelor de contingen
Fisher.
22
se utilizeaz
testul exact al lui

5.
S
Acest test poate utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect
alegem un prag de semnicaie Testm ipoteza nul
(H0 ) :
nu exist nicio asociere ntre atributele
Y.
(H1 ) :
(H0 )
nu este adevrat.
(test bilateral)
Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi Aceasta este:
matricea conguraiei.
M=
S presupunem acum c, pentru o matrice
a b c d
priori.
2 2,
sumele valorilor pe linii i pe coloane sunt xate
Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este Atunci, dac ipoteza nul este adevrat, probabilitatea de a obine
greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c
a + b, c + d, a + c i b + d sunt xate.
exact valorile din Tabelul 23.4 este:
P =
a Cc Ca +b c+d a+c Cn
(23.5)
Aceast probabilitate se obine prin utilizarea schemei hipergeometrice. Exist ns mai multe matrice de tip pe ecare coloan (i.e., testului bilateral,
2 2 care au o conguraie xat a + b, c + d, a + c i b + d sunt xate). Pentru

testului (notat prin
a sumelor pe ecare linie i ecare matrice de acest tip,
putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul
P valoarea
Pv )
este suma tuturor probabilitilor condiionate
astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv probabilitatea conguraiei date). Dac Dac
P valoarea este mai mare dect , Pv , atunci respingem (H0 ).
atunci ipoteza nul este admis la acest prag de semnicaie.
n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt), atunci
P valoarea este doar jumtate din suma anterioar.
Spunem n acest caz c avem un test unilateral.
Exemplu 23.2
Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint
simptome de rceal. Acetia sunt n numr de Pacienilor din primul grup, din Tabelul 23.5.
14
i au fost mprii n dou grupuri de
G1 ,
li s-au administrat medicamentul iar pacienilor din grupul
7 persoane. G2 nu li s-au
administrat nimic. Dup o sptmn, s-a testat starea sntii celor sntate a voluntarilor. Se va folosi nivelul de semnicaie
14
pacieni, rezultatele ind cele
S se determine dac administrarea medicamentului are vreun efect asupra strii de
= 0.05.
167
@ @Y
sntos
bolnav
Suma pe linie
G1 G2
Suma pe coloan
6 4 10
1 3 4
7 7 14
Tabela 23.5: Tabel de contingen pentru testarea unui medicament.
Ipoteza nul este:
(H0 ) :
Starea de sntate a voluntarilor este independent de administrarea medicamentului.
Ipoteza alternativ (bilateral) este:
(H1 ) :
Ipoteza
(H0 )
este fals.
Matricea conguraiei este
M1 =
6 1 4 3
Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane sunt xate, este
P1 =
Alte conguraii cu suma
6 C4 C7 7 10 = 0.2448. C14
pe ecare linie i sumele
10
pe prima coloan i
pe a doua coloan sunt:
M2 =
4 3 6 1
M3 =
5 2 5 2
M4 =
3 4 7 0
M5 =
7 0 3 4
Probabilitile condiionate corespunztoare acestora sunt:
P2 = 0.2448; P valoarea
P3 = 0.4404,
P4 = 0.0350,
P5 = 0.0350. P1 :
este suma tuturor probabilitilor mai mici sau egale cu
Pv = P1 + P2 + P4 + P5 = 0.2448 + 0.2448 + 0.0350 + 0.0350 = 0.5596 > 0.05 = .

Aadar, la acest prag de semnicaie admitem ipoteza nul.
Observaia 23.3
(1) A se observa c suma
(2) Dac rezultatul experimentului ar
P1 + P2 + P3 + P4 + P5 = 1, ceea ce matricea M5 i ipoteza alternativ este
era de ateptat.
(H1 ) :
exist evidene c medicamentul are efecte benece,
atunci avem un test unilateral. n acest caz,
P valoarea
este
Pv = P5 /2 = 0.0152 < ,
ceea ce conduce
la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.
168
24 Statistic Aplicat (L12) Teste de concordan (probleme)

Exemplu 24.1
Se arunc un zar de
60
de ori i se obin rezultatele din Tabelul 24.1. S se decid, la
nivelul de semnicaie
= 0.02,
dac zarul este corect sau fals.
Faa (clasa
Oi )
Frecvena absolut (ni )
1 2 3 4 5 6
15 7 4 11 6 17
Tabela 24.1: Tabel cu numrul de puncte obinute la aruncarea zarului.
Soluie:
(aplicm testul
de concordan, cazul neparametric)
Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare fa n parte s apar sunt:
(H0 ) :
Altfel, notm cu Toate cele sunt:
1 pi = , 6
(i = 1, 2, . . . , 6).
variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un n ase clase. Aceste clase
zar corect ar nsemna c
X urmeaz repartiia uniform discret U (6). 60 de rezultate obinute n urma aruncrii zarului pot mprite Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent, (H0 ) :
este
U (6).
Ipoteza alternativ este "(H0 ) nu are loc", adic:
(H1 ) :
Calculez valoarea statisticii
Exist un
j,
cu
1 pj = , 6
(j {1, 2, . . . , 6}).
dat de (23.1) pentru observaiile date:
2 0 =
(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2 + + + + + 10 10 10 10 10 10 = 13.6. 2
dat de (23.1) este
Repartiia statisticii
cu
k1=5
grade de libertate. Regiunea critic este:
U = (2 0.98; 5 ; +) = (13.3882, +).

Deoarece Codul
Matlab:
2 0
se a n regiunea critic, ipoteza nul se respinge la nivelul
= 0.02,
aadar zarul este fals.

n = 60; k=6; alpha = 0.02; x = 1:6; chi2 = sum((f-n*p).^2)./(n*p)); val = chi2inv(1-alpha,k-1); H = (chi2 > val) f % % % = [15,7,4,11,6,17]; p = 1/6*ones(1,6); valoarea 2 0 cuantila 2 0.99; 5 afiseaza 0 daca zarul e corect si 1 daca nu
= 0.01,
atunci
169
Observaia 24.2
Dac nivelul de semnicaie este ales
2 0.99; 5 = 15.0863,
ceea ce de-
termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.
Teste de concordan n
Am vzut deja c funcia
Matlab
testeaz (folosind testul
chi2gof(x)
al lui Pearson) dac vectorul
provine
dintr-o repartiie normal, cu media i dispersia estimate folosind Pentru testul
x.
2 ,
forma general a funciei
Matlab este:
[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:
namei pot : numrul de clase, 'nbins', un vector 'ctrs', sau un vector cu capetele claselor, 'edges'. Alte variabile ce pot utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'. variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E perechile Variabilele de valori centrale ale intervalelor ce denesc clasele, numrul de valori ateptate n ecare clas.
h, p
sunt la fel ca n exemplele anterioare;
namei/valuei sunt opionale.
Exemplu 24.3
Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din
Observaia 24.2. Codul
Matlab ce folosete funcia de mai sus este:
x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)
Acest cod returneaz:
h = 0
p = 0.0184
stats = chi2stat: df: edges: O: E:
13.6000 5 [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000] [15 7 4 11 6 17] [10 10 10 10 10 10]
= 0.01.
Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul
Exemplu 24.4
(din [3]) La campionatul mondial de fotbal din
2006 au fost jucate n total 64 de meciuri,
iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.

Determinai (la nivelul de semnicaie Poisson.
170
= 0.05)
dac numrul de goluri pe meci urmeaz o distribuie
Nr. de goluri pe meci
Nr. de meciuri
0 1 2 3 4 5 6
8 13 18 11 10 2 2
Tabela 24.2: Tabel cu numrul de goluri pe meci la FIFA WC 2006.

Soluie:
2 parametric) Fie X variabila aleatoare ce reprezint numrul de goluri nscrise ntr-un meci. Teoretic, X poate lua orice valoare din mulimea N. Mulimea observaiilor fcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenele respective din tabel. n total, au fost inscrise 144 = x = 144 = 2.25. Pe baza datelor de goluri. Estimm numrul de goluri pe meci prin media lor, adic 64 observate, dorim s testm dac X urmeaz o repartiie Poisson. Avem astfel de testat ipoteza nul:
(aplicm testul de concordan
(H0 ) :
urmeaz o lege Poisson
). P ( ). P (
i distribuia valorilor variabilei este
(H1 ) :
Dac admitem ipoteza
nu urmeaz o lege Poisson atunci
(H0 )
(adic
X P (2.25), ni 8 13 18 11 10 2 2 4 pi 0.1054 0.2371 0.2668 0.2001 0.1126 0.0506 0.0274 0.0780
) pi = pi (
Clasa
n pi 6.7456 15.1775 17.0747 12.8060 7.2034 3.2415 1.7514 4.9926
0 1 2 3 4 5 6 5
(ni n pi )2 n pi 0.2333 0.3124 0.0501 0.2547 1.0857 0.1973
Tabela 24.3: Tablou de distribuie pentru P (2.25).

pi este P (X = i), adic probabilitatea ca variabila aleatoare X P (2.25) i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din Tabelul 24.3, anume {X = 5} i {X 6}, numerele ni nu depec valoarea 3, le tergem din tabel i le unim ntr-o singur clas, n care {X 5}, cu ni = 4 > 3. Vom nota prin p5 probabilitatea
dat de Tabelul 24.3. Valoarea s ia valoarea
p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
i=0
P (X = i).

Rmnem aadar cu
171
(H0 )
se poate rescrie astfel:
clase. Ipoteza nul
(H0 ) :
p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780.
Ipoteza alternativ este
(H1 ) :
ipoteza
(H0 )
nu este adevrat.
Calculm acum valoarea statisticii (23.1) pentru observaiile date:
2 0 = +
(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2 + + + + ... 6.7456 15.1775 17.0747 12.8060 (10 7.2034)2 (4 4.9926)2 + = 2.1337. 7.2034 4.9926
Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este 6 1 1 = 4. Cuantila de referin (valoarea critic) este 2 0.95; 4 = 9.4877. Regiunea critic pentru 2 2 2 2 este intervalul (0.95; 4 , +). Deoarece 0 < 0.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate urmeaz o repartiie Poisson. Prezentm mai jos un cod
Matlab ce rezolv aceast problem.
X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);... 5*ones(2,1);6*ones(2,1)]; f = [8 13 18 11 10 4]; % vectorul de frecvente absolute n = 64; alpha = 0.05; lambda = mean(X); for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); end p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X5) H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4); if (H2 < Hstar) disp('X urmeaza repartitia Poisson'); else disp('X nu urmeaza repartitia Poisson'); end
Observaia 24.5
Dac ipoteza nul este respins, atunci motivul poate acela c unele valori observate n acest caz, este interesant de observat care valori sunt
au deviat prea mult de la valorile ateptate.
extreme, cauznd respingerea ipotezei nule. Putem deni astfel
reziduurile standardizate:
,
ri =
unde prin atunci extreme.
Oi n pi n pi (1 pi )
Oi Ei Ei (1 pi )
Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar adevrat, ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate
Exemplu 24.6
ntr-o anumit zi de lucru, urmrim timpii de ateptare ntr-o staie de tramvai, pn la
ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie 24.4. Se cere s se cerceteze (
caracteristica ce reprezint numrul de
minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul
= 0.05)
dac timpii de ateptare sunt repartizai exponenial.

Durata
172
ni 05 39 5 10 35 10 15 14 15 20 7 20 25 5
Tabela 24.4: Timpi de ateptare n staia de tramvai.

Soluie:
2
(folosim testul
de concordan, parametric)
Avem de testat ipoteza nul
(H0 )
F (x) = F0 (x) = 1 e x , x > 0 (H0 )

este fals.
(H1 )
Deoarece parametrul
ipoteza
este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim
metoda verosimilitii maxime. Funcia de verosimilitate pentru
exp()
este
L(t1 , t2 , . . . , tn ; ) =
k=1
Mai sus, am notat prin Punctele critice pentru
e ti = n e n t .
pentru variabila aleatoare
t1 , t2 , . . . , tn valorile de selecie L() sunt date de ecuaia
T.
ln L = 0 = n ln n t
= 1. = t
2 ln L 2 |= = n t < 0, 2
este punct de maxim pentru funcia de verosimilitate.
de unde concluzionm c
Tabelul de distribuie pentru caracteristica
T 7.5 35
este:
2.5 39
Calculm media de selecie, Dac variabila
12.5 14
17.5 7
22.5 5
. = 0.1299. = 7.7, adic ca T s ia valori n ecare
t=
1 100 (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5)
ar urma repartiia exponenial
), exp(
atunci probabilitile
clas sunt, n mod corespunztor:
) = P (X (ai , ai+1 ] | F = F0 ) = F0 (ai+1 ; ) F0 (ai ; ), p i = p i (

unde
i = 1, 2, 3, 4, 5.
a6 = +.
n Tabelul 24.5 am nregistrat urmtoarele date:
clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ), extremitile
din stnga ale claselor (ai ), (sau valorile observate n ecare clas), n ecare clas (n pi ),
frecvenele absolute ni
probabilitile
pi , valorile ateptate
erorile relative
de aproximare ale datelor ateptate cu cele observate.

Numrul gradelor de libertate este asemenea, valoarea
173
k p 1 = 3.
k
Calculm valoarea critic
2 0.95; 3 = 7.8147
i, de
H0 =
i=1
Deoarece Codul
(ni n pi )2 = 6.5365. n pi

[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)]; [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)]; 100; alpha = 0.05; m = mean(T); lambda = 1/m; [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5]; i =1:5 p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);
2 2 0 < 0.95; 3 ,
ipoteza
(H0 )
nu poate respins la acest nivel de semnicaie.
T = % sau % T = n = a = for
end H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3); if (H2 < cuant) disp('Timpii de asteptare sunt exponential repartizati'); else disp('ipoteza (H0) se respinge'); end
Clasa
(0, 5] (5, 10] (10, 15] (15, 20] (20, +) (0, +)
ai
ni
pi
n pi
0 39 5 35 10 14 15 7 20 5 100
0.4776 47.7615 0.2495 24.9499 0.1303 13.0334 0.0681 6.8085 0.0745 7.4467 1 100
(ni n pi )2 n pi 1.6072 4.0483 0.0717 0.0054 0.8039 6.5365
Tabela 24.5: Tabel de distribuie pentru timpii de ateptare.
174
25 Statistic Aplicat (C13) Teste neparametrice

Multe dintre testele discutate anterior au ca cerin condiia ca datele selectate s urmeze o repartiie normal (dac selecia este mic). Se pune problema urmtoare: Ce se ntmpl dac aceast cerin (posibil i altele) nu este vericat i nu tim nimic despre repartiia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele n cadrul crora nu se fac presupuneri asupra formei repartiiei. Aceste teste nu estimeaz parametrii necunoscui, de aceea mai sunt cunoscute i sub titulatura de parameter-free methods) sau
fr parametri (en.,
metode fr repartiie (en.,
metode
distribution-free methods).
Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste teste neparametrice sunt, n general, grupate n urmtoarele categorii:
teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul acestuia sunt ndeplinite. Variante neparametrice ale acestui test sunt: testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecii;
t dac ipotezele
testul Wald-Wolfowitz,
teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul semnelor, testul Wilcoxon.
teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul (Spearman), coecientul coecientul de corelaie:
(Kendall) sau coecientul Gamma. 2 sau testul Fisher exact.
Exist, de asemenea, i teste privind
Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre cele mai simple teste statistice neparametrice. Presupunem c avem observaiile independente funcia de repartiie teoretic are o valoare dat
F.
Notm cu
care funcia de repartiie satisface
x1 , x2 , . . . , xn asupra unei caracteristici continue ce are M e valoarea median observaiilor (i.e., acea valoare pentru F (M e) = 0.5). Suntem interesai n a testa ipoteza c mediana M e (H0 ) : M e = m0 .
m0 .
Aadar, ipoteza nul este
Ipoteza alternativ bilateral este
(H1 ) : p = F (m0 ). yi = 1, 0,
dac dac
M e = m0 . m0
Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va mai mic dect cu probabilitatea Astfel, putem considera c
xi < m0 xi m0 ,
i = 1, n,

sunt valorile observate ale unei variabile aleatoare ce urmeaz repartiia echivalent cu ipoteza
175
B (n, p).
Ipoteza nul devine
(H0 ) :
n
Notm prin deciziei este
1 p= . 2
Valoarea critic
y0 =
i=1
yi
i e
o variabil aleatoare
B (n, 0.5).
Pv
utilizat n luarea
Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac nul. Testul se numete
< Pv ,
atunci ipoteza nul
(H0 )
este admis la nivelul de semnicaie
Altfel, respingem ipoteza
testul semnelor deoarece se ine cont de semnele valorilor xi m0 .
Exemplu 25.1
Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat
subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei mrime semn subire gros gros gros subire gros gros subire gros gros
Tabela 25.1: Tabel cu preferine pentru blatul de pizza.

preferine i se atribuie un semn,
pentru "blat gros" i
pentru "blat subire". Dintr-o privire n tabel,
se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date. Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal, care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul de semnicaie
= 0.05
Soluie:
Stabilim ipoteza nul
(H0 ) :
versus ipoteza alternativ bilateral
preferinele pentru cele dou blaturi sunt
50% 50%;
(H1 ) :
exist diferene semnicative n preferinele pentru cele dou blaturi;
Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este Dac notm cu pizza, atunci
p = 0.5. Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat Y B (10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic
Aceasta
valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate respins. valoare este de dou ori probabilitatea
P (Y 3)
(de dou ori, pentru ca testul este bilateral), adic
probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c este
P valoarea
Pv = 2 min{P (Y 3), P (Y 3)} = 2 P (Y 3) = 0.3438.
Deoarece
< Pv ,
concluzionm c
ipoteza nul nu poate respins la acest nivel de semnicaie.
176
Observaia 25.2
Putem testa i ipoteze unilaterale. De exemplu, presupunem c avem de testat
(H0 ) :
Ca mai sus, notm prin
M e m0
Pentru
vs.
(H1 ) :
M e > m0 . Pv = P (Y .
Altfel, respingem
p = F (m0 ).
y0 ) .
Dac
< Pv ,
atunci ipoteza nul
Y (H0 )
y0
ca mai sus, valoarea critic a testului este
ipoteza nul. Revenind la exemplul prezentat, dac ipoteza alternativ ar fost
(H0 ) : (H1 ) :
atunci valoarea critic a testului va Aadar, ipoteza
clienii prefer pizza cu blat subire, clienii prefer pizza cu blat gros,
(H0 )
este admis la
Pv = P (Y 3) = 1 - binocdf(3,10,0.5) = 0.1719. nivelul de semnicaie = 0.05.
Testul seriilor pentru caracterul aleator

Testul seriilor (
en., runs test) este un test neparametric ce veric ipoteza c un ir de date bivariate este
aleator generat. Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o preced, atunci selecia generat nu poate aleatoare. Denim noiunea de
serie
sau
faz (en.,
run) ca ind o succesiune a unuia sau mai multe simboluri de
acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:
001111010010
sau
MFFFFFMMMF
sau
++-+---++++--+--++-
Numrul de faze i lungimea lor pot folosite n determinarea gradului de stochasticitate a unui ir de simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii. prea multe secvene. mediana i Aadar, ne vom preocupa doar de numrul total de faze. Aceste criterii sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic Fiecare numr din ir
+ pentru numere mai mari dect pentru cele mai mici. Numerele egale cu mediana nu sunt considerate n calcul. Fie n1 i n2 numrul de semne +, respectiv, din ir, i e n = n1 + n2 . Fie R1 i R2 numrul de faze ce corespund semnului +, respectiv, din ir. Numrul total de faze este R = R1 + R2 .
este comparat cu mediana sau valoarea medie a irului, scriind astfel Alegem ipoteza nul:
(H0 ) :
observaiile din ir sunt aleatoare (ecare aranjament de
este echiprobabil).
(H1 ) :
Putem gsi repartiiile vectorilor aleatori atunci secvena datele observate, Pentru
observaiile din ir nu sunt aleatoare.
(R1 , R2 ), R1 , R2
sau
R.
Dac ipoteza nul ar adevrat,
x1 , x2 , . . . , xn ,
va una dintre cele
avem funcia de probabilitate:
n1 !n2 ! n! ,
permutri echiprobabile.
f (r) =
numrul de permutri ce au ca rezultat
k faze
n1 Cn
r = 0, n.

Explicit, putem scrie:
177
f (r) =
k1 k1 C C 2 n1 1 n1 n2 1 Cn k 1 k C k1 C k + Cn Cn 1 1 2 1 n1 1 n2 1 n1 Cn
, dac
r = 2k ;
, dac
r = 2k + 1.
Cnd
n1
n2
sunt mari, atunci
R N (, ),
unde
=2
Aadar,
n1 n2 + 1, n
2 n1 n2 (2 n1 n2 n) . n2 (n 1)
Aceast statistic poate utilizat n
R N (0, 1). testarea ipotezei nule (H0 ). r0 ,

atunci valoarea critic
Altfel, dac numrul observat de faze este
Pv
a testului este
Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac nul.
< Pv ,
atunci ipoteza nul
(H0 )
Altfel, respingem ipoteza
Corelaie i regresie Introducere

n acest capitol vom discuta msuri i tehnici de determinare a legturii ntre dou sau mai multe variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [13], [14], [15]. Primele metode utilizate n studiul relaiilor dintre dou sau mai multe variabile au aprut de la nceputul secolului al XIX-lea, n lucrrile lui Legendre Galton
20 i Gauss21 , n ce privete metoda celor mai mici ptrate
pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis
22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c
nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat conceptele de
corelaie
regresie
(lat.)
regressio
- ntoarcere). Astfel, a descoperit c din prini a
cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale unei populaii statistice.
Legendre (1752 1833), matematician francez Carl Friedrich Gauss (1777 1855), matematician i zician german 22 Sir Francis Galton (1822 1911), om de tiin britanic
21 Johann
20 Adrien-Marie

Un ingredient fundamental n studiul acestor dou concepte este diagrama prin puncte, aa-numita
178
scatter
plot.
n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat, ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va
diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram
scatter plot
da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a cruciuli din diagram reprezint IQ-ul pentru o pereche so-soie.
200
de perechi so-soie. Fiecare
Figura 25.1: Scatter plot pentru IQ n familie.

Corelaie Corelaie i coecient de corelaie
Corelaia
este un termen statistic folosit pentru a deni interdependena sau legtura ntre dou sau Totodat, corelaia este i o metod statistic de descriere i analiz a
mai multe variabile aleatoare.
legturilor de tip statistic ntre dou sau mai multe variabile. Dac
X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaia Y se denete prin:
cov(X,
sau
covariana (teoretic) dintre
Y ) = E [(X E(X )) (Y E(Y ))] = E(X Y ) E(X ) E(Y ).
Observaia 25.3
atunci cov(X,
(i) Din punct de vedere teoretic, dac
sunt variabile aleatoare independente,
Y ) = 0.
sunt dependente. (se poate verica, de
Reciproca nu este, n general, adevrat. De exemplu, dac
0,
ns
X U (1, 1) i Y = X 2 , atunci cov(X, Y ) = asemenea, c E(X Y ) = E(X ) E(Y )). Y ) = 0.
(ii) n cazul n care variabilelor
X i Y aleatoare X i Y
sunt, n plus, variabile aleatoare normal repartizate, atunci independena este echivalent cu cov(X,

O
179
corelaie pozicorelaie negativ, nsemnnd c X i Y se
Acesta este foarte utilizat n
relaie liniar
ntre dou variabile este acea relaie ce poate reprezentat cel mai bine printr-o linie. i
Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o
tiv, nsemnnd c X
cresc sau descresc mpreun, sau o
modic n direcii opuse. O msur a corelaiei dintre dou variabile este coecientul de corelaie.
tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim
coecientul de corelaie a dou variabile aleatoare X

X,Y =
unde cov(X,
prin:
Y)
X Y
= cov(X, Y ),
1/2
i
X = E(X X )2 sunt deviaiile standard corespunztoare variabilelor aleatoare X , respectiv Y . X

i
sunt variabilele aleatoare standardizate iar
Y = E(Y Y )2
1/2
Proprietile coecientului
de corelaie au fost prezentate anterior. n practic, pentru a stabili dac exist sau nu vreo legtura ntre dou variabile aleatoare, se fac observaii asupra acestora, urmnd apoi a cuantica relaia dintre observaii. Fie de
aleator
(xk , yk ), k {1, 2, . . . , n} un set de date bidimensionale, ce reprezint observaii asupra vectorului (X, Y ). O msur a legturii dintre {xk }k i {yk }k este coecientul de corelaie empiric introdus K. Pearson (n literatura de specialitate mai este cunoscut i sub denumirea de coecientul r ):
n
(xk x)(yk y ) r =
n k=1 n
(25.1)
(xk x)2
k=1 k=1
(yk y )2
(25.2)
=
unde
cove (x,
y)
sx sy
1 cove (x, y ) = n1
sunt
(xk x)(yk y ),
k=1
sx =
1 n1
(xk
k=1
x)2 ,
sy =
i
1 n1
(yk y )2
k=1
covariana (corelaia) empiric i deviaiile standard empirice pentru X
Y.
Spre exemplu, pentru seleciile
x = [0.49 y = [1.31
coecientul
-0.45 0.39 0.05 -0.49 1.20 -2.58 -2.09 0.39
0.24 -0.86
0.72 -1.23
0.15 0.13 -1.01]; 2.64 -0.90 -1.22];
al lui Pearson este
r = 0.0905. X,Y , coecientul r al lui Pearson ia valori doar n intervalul [1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre 1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,

r
este apropiat de valoarea
180
1
(e.g.,
r = 0.85,
caz n care norul de date are panta ascendent) i avem
o corelaie negativ dac panta descendent). Rezultatul nul una fa de cealalt (i.e.,
este apropiat de valoarea
(e.g.,
r = 0.98,
caz n care norul de date are
r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent = 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza = 0, cu ipoteza alternativ = 0.
Figura 25.2: Scatter plots i coecieni de corelaie.

Test statistic pentru coecientul de corelaie
Presupunem c avem un set de date bidimensionale toare
(xk , yk ), k {1, 2, . . . , n} asupra variabilelor alea0. Plecnd doar de la acest informaie, nu putem extrapola i decide gradul de corelare ntre X i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui (coecientul teoretic de corelaie) este 0 sau semnicativ diferit de 0. X, Y ,
i am calculat
r,
obinnd o valoare
r0
apropiat de
Considerm ipoteza nul
(H0 )
X,Y = 0
(variabilele aleatoare nu sunt corelate)
(H1 )
X,Y = 0 << 1
(e.g.,
(variabilele aleatoare sunt corelate)
Alegem un nivel de semnicaie
= 0.05)
i considerm statistica
T =r
Calculez valoarea statisticii de ordin
n2 1 r2
t(n 2).
2 a repartiiei
T t
pentru cu
r = r0 (o notm cu T0 ) i, de asemenea, calculm cuantila t1 ; n2 , 2 (n 2) grade de libertate.

Decizia nal este urmtoarea:
181
|T0 | < t1 ; n2 , 2 |T0 | t1 2 ; n2 ,
atunci ipoteza atunci ipoteza
(H0 ) (H0 )
este acceptat; este respins.
Observaia 25.4
r
(i)
Coecientul lui Pearson,
r,
este un numr adimensional ce stabilete doar dac
exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul sigur nu poate edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea, i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :
r2 , coecientul de determinare
coecient de determinare
(notat n Statistic prin
R2 ),
care stabilete care este procentul din
variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un
R2 = 0.42
semnic faptul c variabila independent explic doar
42%
din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri, unele nu tocmai ntr-un mod echivalent;
coecientul lui Spearman23 , coecientul lui Kendall24

sunt normale)
etc. (acestea nu presupun c datele statistice
(ii) Se poate testa, de asemenea, ipoteza nul
(H0 ) :
X, Y = 0 ,
cu
0 = 0,
ns aceasta nu este foarte des ntlnit n practic. n acest sens, se poate utiliza statistica
Z=
1 ln 2
1+r 1r
1 ln 2
1 + 0 1 0
1 n3
(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate luat n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal, dac aceast exist. (iv) Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare sunt necorelate. Spre exemplu, o relaie poate puternic (avnd un semnicativ, dac valoarea lui de
nu foarte aproape de
nu este sucient de mare. Invers, o relaie poate slab (un
0), ns nu r aproape
0),
dar semnicativ. Exemplul (25.5) poate edicator.
Exemplu 25.5
volum
S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane
i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de
n = 10,
i s presupunem c am gsit un coecient de corelaie empiric
r = 0.62.
Se cere:
(a) Este aceast legtur puternic? (b) Este aceast legtur semnicativ?
24 Sir
23 Charles
Edward Spearman (1863 1945), psiholog britanic Maurice George Kendall (1907 1983), statistician britanic
182
R2 ,
i gsim
Soluie:
doar (b)
(a) Calculm coecientul de determinare,
R2 = 0.3844.
Asta semnic faptul c
38.44%
din variaia coecientului de inteligen este explicat de vrst.
Aplicm testul pentru coecientul de corelaie la un nivel de semnicaie
= 0.05.
Statistica de unde
considerat va avea
grade de libertate,
T0 = 0.62
8 0.3844
= 2.2351 < 2.3060 = t0.975; 8 ,
concluzionm c ipoteza nul
=0
este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate
respins la acest nivel de semnicaie). (v)
Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer
semnicativ unul de cellalt. Presupunem c avem de testat ipoteza
(H0 ) :
1 = 2 , 1 = 2 . n1
i
(H1 ) :
Presupunem c volumele seleciilor folosite n testare sunt
n2
i c
r1 , r2
sunt coecienii de corelaie
empirici calculai. Pentru a testa ipoteza de mai sus, considerm statistica
Z=
Z1 Z2 (Z1 Z2 )
1 n1 3
1 n2 3
N (0, 1) ,
unde
Zi =
1 ln 2
1 + ri 1 ri
Zi =
1 ln 2
1 + i 1 i
i = 1, 2.
Coecientul de corelaie Spearman

n cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientul de corelaie Pearson nu mai poate calculat. Pentru aceste date, este util de calculat
corelaie Spearman, sau coecientul de corelaie a rangurilor.

corelaie Pearson pentru aceste ranguri. n general, dac
coecientul de
Acest coecient poate calculat att pentru
date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de
(xi , yi )i=1, n
este un set de date bidimensionale, reprezentnd rangurile corespunztoare
variabilelor cercetate, i notm cu
rS
coecientul de corelaie Spearman, atunci
(xk x)(yk y ) rS =
k=1 n n
. (yk y )2
k=1
(25.3)
(xk x)2
k=1
La fel ca i coecientul lui Pearson, coecientul Spearman ia valori reale n intervalul nsemnnd corelaie pozitiv perfect a rangurilor, iar valoarea a rangurilor. n cazul n care avem
[1, 1];
valoarea
nsemnnd corelaie negativ perfect
perechi de observaii i nu exist valori egale pentru rangurile aceleiai variabile,
atunci formula alternativ pentru calcului lui
rS
este:
6 rS = 1
i=1
d2 i ,
(25.4)
n(n2 1)

unde
183
i.
Vezi exemplele (25.6)
di = xi yi ,
i.e., diferena dintre rangurile corespunztoare pentru poziia
i (25.7).
Exemplu 25.6
Doi degusttori de vinuri (denumii
D1
D2)
au fost rugai s testeze
9
i
soiuri de vin i
s le claseze n ordinea preferinelor. S notm mostrele testate cu
A, B , C , D , E , F
G.
Preferinele
acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama Mostra A rang 3 2 5 8 1 7 4 6 9
scatter plot).
D2
D1
rang 5 1 3 7 2 9 4 6 8
Mostra A B C D E F G H I D1 E B A G C H F D I D2 B E C G A H D I F Tabela 25.2: Preferinele degusttorilor de vin.
B C D E F G H I
Tabela 25.3: Tabel cu rangurile preferinelor.

Din diagrama
scatter plot
se observ o corelaie pozitiv ntre ranguri, ceea ce implic o oarecare con-
cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare numeric acestei concordane, aceasta ind
rS = 0.8667.
Tem!
Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt
semnicativ diferite (
= 0.05).
Figura 25.3: Scatter plot pentru ranguri.

Exist cazuri (n special pentru date cantitative) cnd valorile caracteristicii se repet, aa nct pentru valori egale desemnm acelai rang. n aceste cazuri nu mai putem utiliza formula (25.4) pentru calculul coecientului Spearman, ci va trebui s utilizm formula (25.3) (vezi exemplul urmtor).
184
Exemplu 25.7
(D) nregistrate ntr-un anumit ora, n primele
Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese
6 luni ale anului.
Rangurile corespunztoare valorilor sunt
prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente. De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind formula (25.3), calculm coecientul de corelaie Spearman. Acesta este Luna
rS = 0.8117.
rang
Luna Ian. Feb. Mar. Apr. Mai Iun.

A D
27 8 24 6 15 5 11 3 17 3 12 2
Ian. Feb. Mai Mar. Iun. Apr.
Tabela 25.4: Evenimente rutiere n primele 6 luni.
A 27 24 17 15 12 11
6 5 4 3 2 1
D 8 6 3 5 2 3
rang
2+3 2
2+3 2
6 5 = 2.5 4 1 = 2.5
Tabela 25.5: Tabel cu rangurile pentru accidente.

Regresie Punerea problemei
Regresia este o metod statistic utilizat pentru descrierea naturii relaiei ntre variabile. De fapt, regresia stabilete modul prin care o variabil depinde de alt variabil, sau de alte variabile.
Analiza regresional
cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete
variabil independent o variabil ce poate manipulat (numit i variabil predictor, stimul sau comandat), iar o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii negre (
black box) (vezi Figura 25.4).
n aceasta cutie intr (sunt nregistrate) informaiile
x1 , x2 , . . . , xm ,
care sunt prelucrate (n timpul prelucrrii apar anumii parametri, nregistrat ntr-o singur variabila rspuns,
1 , 2 , . . . , k ), iar rezultatul nal este
y.
De exemplu, se dorete a se stabili o relaie ntre valoarea
pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce poate aprea la observarea variabilei matematic general
y.
Se stabilete astfel o legtur ntre o variabil dependent,
y,
i una sau mai multe variabile independente,
x1 , x2 , . . . , xm ,
care, n cele mai multe cazuri, are forma (25.5)
y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde
1 , 2 , . . . , k
sunt parametri reali necunoscui
perturbaie aleatoare. n cele mai multe aplicaii, variabil aleatoare normal de medie zero. cunoscut
a priori,
a priori (denumii parametri de regresie) i este o este o eroare de msur, considerat modelat printr-o Funcia f se numete funcie de regresie. Dac aceasta nu este trial and error (prin ncercri). Dac avem doar spunem c avem o regresie simpl. Regresia multipl face
atunci poate greu de determinat iar utilizatorul analizei regresionale va trebui s o
intuiasc sau s o aproximeze utiliznd metode de tip o variabila independent (un singur
x),
atunci
referire la situaia n care avem multe variabile independente.
185
Figura 25.4: Black box.

Dac observarea variabilei dependente s-ar face fr vreo eroare, atunci relaia (25.5) ar deveni (cazul ideal):
y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).
Forma vectorial a dependenei (25.5) este:
(25.6)
y = f (x; ) + .
Pentru a o analiz complet a regresiei (25.5), va trebui sa intuim forma funciei
(25.7)
i apoi s determinm
(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu
n numrul
(25.8)
de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:
yi = f (x, ) + i ,
n ipoteze uzuale, erorile dou cte dou ( i
i = 1, 2, . . . , n. N (0, ),
ecuaii stochastice algebrice are necunoscutele
sunt variabile aleatoare identic repartizate
independente stochastic
> 0).
Astfel, sistemul (25.8) cu
{j }j
. < k ),
atunci nu avem suciente informaii pentru a determina aproximrile. Dac
n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai (n problema se reduce la a rezolva
ecuaii cu
necunoscute. n cel de-al treilea caz posibil,
n = k, n > k,
atunci atunci
avem un sistem cu valori nedeterminate. n funcie de forma funciei de regresie
f,
putem avea:
regresie liniar simpl,
n cazul n care avem doar o variabil independent i
f (x; ) = 0 + 1 x. regresie liniar multipl,

dac
f (x; ) = 0 + 1 x1 + 2 x2 + + m xm . regresie ptratic multipl

(cu dou variabile), dac
2 f (x; ) = 0 + 1 x1 + 2 x2 + 11 x2 1 + 12 x1 x2 + 22 x2 .
regresie polinomial,
dac
f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea
regresie ptratic pentru k = 2, regresie cubic pentru k = 3 etc.

regresie exponenial, regresie logaritmic,
i altele. cnd
186
f (x; ) = 0 e1 x . f (x; ) = 0 log1 x.
dac
De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare n parametri. Modelele determinate de aceste funcii se vor numi n cadrul analizei regresionale, se cunosc datele de intrare, regresie
modele de regresie (curbe, suprafee etc).

f
{xi }i ,
i cutm s estimm parametrii de
{j }j
i deviaia standard a erorilor,
Dac funcia de regresie
atunci metode statistice folosite pentru estimarea necunoscutelor sunt:
metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.
metoda verosimilitii maxime,
este cunoscut (intuit),
187
26 Statistic Aplicat (L13) Teste neparametrice (probleme)

Testul semnelor n
n
Matlab
Matlab, testul semnelor poate realizat cu ajutorul funciei

[p, h] = signtest(x, m)
unde:
m x
este un numr real; este un ir de caractere sau vector, asupra cruia facem testul semnelor;
h este rezultatul testului. Dac rezultatul aat este h = 0, atunci ipoteza (H0 ): setul de date x provine dintr-o distribuie continu de median egal cu m, este admis la acest nivel de semnicaie. Dac rezultatul aat este h = 1, atunci ipoteza nul este respins. Se va admite astfel ipoteza alternativ (H1 ): setul de date x provine dintr-o distribuie continu care nu are median egal cu m. Dac m nu apare, atunci se subnelege c m = 0.
variabila de memorie nul, variabila de memorie aeaz
este
P- valoarea,
h = 1.
adic valoarea maxim pentru pragul de semnicaie
se
pentru care ipoteza nul este admis. Deoarece aici
= 0.05
este subneles, pentru un
p > 0.05
h = 0.
Altfel, se aeaz
O variant mbuntit a comenzii anterioare este urmtoarea:
[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)

Aici, n plus fa de precizrile de mai sus, mai adugm c:
Ipoteza nul este
(H0 ):
setul de date
0,
cu ipoteza alternativ c
x y provine dintr-o distribuie continu de median egal cu mediana lui x y nu este 0;
variabila
stats
nmagazineaz urmtoarele date: pentru observaia considerat (apare doar pentru selecii de
zval - este valoarea statisticii Z

volum mare,
n 30);
sign - este valoarea statisticii test;

alpha
este nivelul de semnicaie; este metoda folosit n testare. Putem avea o metod exact, cnd
method
sau aproximativ pentru
'approximate';
method
este
'exact',
188
Exemplu 26.1
Pentru problema cu pizza, de mai sus, codul
Matlab ce genereaz testul semnelor este:
x = [-1 1 1 1 -1 1 1 -1 1 1]; [p, h, stats] = signtest(x, 0)

Rezultatul testului este:
p = 0.3438
h = 0
stats = sign: 3
Observaia 26.2
Soluie:
Codul
Revenim la Exerciiul 24.1 i urmrim testarea ipotezei nule folosind funcia
signtest.
Matlab este simplu:

x = [ones(59,1); zeros(41,1)]; [p, h, stats] = signtest(x,.5)
Obinem rezultatele:
p = 0.0891
h = 0
stats = zval: 1.7000 sign: 41

= 0.05.
ceea ce conrm c ipoteza nul este admis la nivelul de semnicaie
Testul seriilor n
Funcia
Matlab
Matlab ce simuleaz testul de vericare a stochasticitii unui ir de caractere este

[h, p, stats] = runstest(x)
Acesta este un test ce veric dac valorile ce compun irul de caractere abilele
apar n ordine aleatoare. Vari-
h, p
sunt ca n testul
signtest.
Aici, variabila
stats
aeaz urmtoarele: numrul de faze,
lungimile ecrei faze i valoarea statisticii pentru selecia considerat. n urma rulrii comenzii, se va aa valoarea rularea codului
h = 0
dac ipoteza c valorile apar n ordine aleatoare nu
poate respins (este acceptat la nivelul de semnicaie
= 0.05)
h = 1 n caz contrar.
De exemplu,
x = '011010100010001001010101110010101001010101010010111'; [h, p, stats] = runstest(x)

aeaz
189
h = 1
p = 0.0014
stats = nruns: n1: n0: z:
38 24 27 3.2899
Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul de semnicaie
= 0.05
(subneles),
P valoarea
este
Pv = 0.0014
(asta nsemnnd c doar pentru un
nivel de semnicaie mai mic de
Pv
irul poate considerat aleator). Variabila de memorie
stats aeaz
datele folosite n aplicarea testului.
Comanda urmtoare
[h, p, stats] = runstest(x, v, alpha, tail)

aeaz
decizia testului, ori
h = 0
ori
h = 1,
cu semnicaia de mai sus;
este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai
mari dect
v,
cele care sunt exact egale cu
nu sunt contabilizate;
alpha tail
este nivelul de semnicaie;
poate una dintre urm toarele ipoteze alternative: irul nu este aleator (test bilateral). Aceasta opiune poate s nu e specicat,
'both',
deoarece se subnelege implicit.
'left', dac valorile tind s se adune n ciorchine (test unilateral stnga); 'right', dac valorile tind s se separe (test unilateral dreapta);
De exemplu, s considerm urmtoarele comenzi:
y = 0:10; y = 0:10; y = 0:10;
[h, p] = runstest(y,median(y),0.02,'left') [h, p] = runstest(y,median(y),0.02,'right') [h, p] = runstest(y,median(y),0.02,'both')
Rezultatele rulrii lor sunt (n ordine):
h = 1 h = 0 h = 1
Ipoteza nul este aceea c valorile din irul
p = 0.0043 p = 1 p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]
sunt aleatoare n jurul valorii mediane,
median(y ) = 5.
190
Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.
Exerciiu 26.1
Se dau urmtoarele date:
x 3 y 9
2 1 0 1 2 4 1 0 1 4
(a) Testai dac
(b) Este faptul c
= 0 (coecientul de corelaie teoretic). x i y sunt legate prin relaia y = x2
n contradicie cu rezultatul de la punctul (a)
(datele sunt perfect necorelate)? (c) Calculai coecientul de corelaie Spearman.
Exerciiu 26.2
Tabelul 26.1 conine calicativele obinute de un elev de clasa I la cele
10
discipline,
n ecare dintre cele dou semestre. (a) Discipline A FB B B FB B
Utilizai testul semnelor pentru a testa ipoteza c rezultatele C B B D FB FB E B FB F B S G B FB H S B I FB B J FB FB
Sem. I Sem. II
Tabela 26.1: Calicative din anul I de studiu

elevului din cele dou semestre nu sunt semnicativ diferite ( (b) Spearman).
= 0.05);
S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie
Exerciiu 26.3
Timpii de funcionare continu a
25 de baterii produse succesiv de o anumit rm sunt:
149 155 148 165 176 144 174 142 145 162 165 154 188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (
= 0.05).
Exerciiu 26.4
Numrul de accidente pe zi ce au loc ntr-un ora ntr-o anumit lun sunt :
8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie repartiie Poisson.
= 0.05,
testai ipoteza c numrul de accidente pe zi n acel ora urmeaz o
Exerciiu 26.5
purpurii, iar vericat.
n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui
s produc doar ori albe, roz sau roii, cu probabilitile au fost observate plantele dintr-o selecie de
0.25, 0.5,
546
de plante, observnd c
124
au ori roii. Testai la un nivel de semnicaie
0.25. Pentru a testa teoria, 132 au ori albe, 290 au ori = 0.05 dac teoria lui Mendel este
respectiv
191
100 de 72 la
Exerciiu 26.6
Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.
puncte) obinute la un test de Matematic. nivelul de semnicaie
Testai ipoteza c mediana notelor studenilor este
= 0.05.
71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60 83 73 40 78 70 64 86 76 62 95 66
192
27 Statistic Aplicat (C14) Regresie

Regresie liniar simpl
Este cel mai simplu tip de regresie, n care avem o singur variabil independent, dent
x,
i variabila depen-
aceste date ntr-un sistem
{(xi , yi )}i=1, n . Reprezentm grac (a)) i observm o dependen aproape liniar a lui y de x. Dac valoarea coecientului de corelaie liniar, r , este aproape de 1 sau 1 (indicnd o corelaie liniar strns), atunci se pune problema stabilirii unei relaii numerice exacte ntre x i y de y.
S presupunem c ni se d familia de date bidimensionale
x0y
(de exemplu, vezi Figura 27.1
forma
y = 0 + 1 x.
O astfel de dreapt o vom numi
(27.1) Pentru un set de date
dreapta de regresie a lui y n raport cu x.
bidimensionale ca mai sus, putem reprezenta aceast dreapt ca n Figura 27.1
(b).
Figura 27.1: Aproximarea unui nor de date prin dreapta de regresie.
Exemplu 27.1
Te hotrti s cumperi maina favorit, ce se vinde acum la preul de
semnarea contractului de vnzare-cumprare, plteti suma iniial de
650 RON, timp de 5 ani.

pe main, atunci ntre
15000 RON
12500 EUR.
La
i apoi rate lunare de
Dac notm cu
numrul lunilor pn la ultima rat i cu
suma total pltit
exist relaia:
Y = 15000 + 650 X.
n acest exemplu, relaia ntre bidimensionale
este una perfect liniar.
O relaie perfect liniar ntre datele
{(xi , yi )}i=1, n
reprezentate n Figura 27.1 ar nsemna c toate acestea s-ar aa pe dreapta De cele mai multe ori, datele reale nu urmeaz o astfel de relaie
de regresie, ceea ce nu se ntmpl.
perfect (spre exemplu, rata lunar poate una variabil, n funcie de rata de schimb care parametrii din dependena liniar trebuie a estimai.
EUR-RON),
caz n

Aadar, va trebui s inem cont i de eventualele perturbaii din sistem. dependena lui
193
Putem presupune astfel c (27.2)
de
este de forma
y = 0 + 1 x + ,
cu
o variabil aleatoare repartizat
N (0, ).
Plecnd de la
{xi , y i }i ,
elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie
1 .
Procedm dup cum urmeaz.
nlocuind datele bidimensionale n (27.2), avem urmtorul sistem:
y i = 0 + 1 x i + i ,
unde
i = 1, n,
(27.3)
i N (0, ), i
Deoarece
sunt independente stochastic.
i = yi (0 + 1 xi ),
putem interpreta innd cont c
i = 1, n,
ca ind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de sunt valori deterministe, din (27.3) rezult c: pentru ecare
regresie (adic de valorile
0 + 1 xi ). i N (0, ) i 0 , 1
yi N (0 + 1 xi , ),
de unde, probabilitatea ca ntr-o singur msurtoare a
i, yi
este
xi
s obinem rspunsul
1 (yi 0 1 xi )2 Pi = exp 2 2 2
Deoarece vectorul
{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate): 1 (yi 0 1 xi )2 L(0 , 1 , ) = Pi = n exp 2 2 (2 )n/2 i=1 i=1
n n
Avem de estimat urmtoarele cantiti:
maxime.
0 , 1
Pentru aceasta, vom folosi
metoda verosimilitii
Urmrim s gsim acele valori ale parametrilor
0 , 1
care maximizeaz funcia de verosi-
militate. Aadar, problema de maximizare este urmtoarea:
0 , 1 ,
Condiiile de extrem (impuse pentru
max L(0 , 1 , ).
ln L) 1 2 2 1 2 2
sunt:
ln L 0 ln L 1 ln L
= =
(yi 0 1 xi )
i=1 n
= =
0; 0; = 0.
xi (yi 0 1 xi )
i=1 n
n 1 + 2 0
(yi 0 1 xi )2
i=1
i
Rezolvnd primele dou ecuaii n raport cu
1 ,
obinem estimaiile: (27.4)
1 =
sxy s2 x
0 = y 1 x,
194
Figura 27.2: Estimarea dreptei de regresie.
unde,
1 x= n
xi ,
i=1
1 y= n
yi ,
i=1
s2 x
1 = n1 y
(xi x) ,
i=1
sxy
1 = n1
(xi x)(yi y ).
i=1
Astfel, gsim c dreapta de regresie a lui
n raport cu
este aproximat de dreapta: (27.5)
y = y 1 x +
sau, altfel scris,
sxy x, s2 x
y=y+
sxy (x x). s2 x 2
este:
(27.6)
Din ultima condiie de extrem, gsim c o estimaie pentru dispersia
1 = n
2
ns, estimaia pentru
(yi 0 1 xi )2 .
i=1
(27.7)
2 dat prin formula (27.7) este una deplasat.

n
n practic, n locul acestei estimaii
se utilizeaz urmtoarea estimaie nedeplasat:
2 =
1 n2
(yi 0 1 xi )2 .
i=1
(27.8)
Observaia 27.2
(1) Terminologie:
dreapta de regresie, y = 0 + 1 x, este dreapta ce determin dependena lui x, pentru ntreaga populaie de date (dac acasta exist);
liniar a lui
de valorile
aproximarea dreptei de regresie (sau selecie)
195
dreapta de tare, en., tting line), y = 0 + 1 x, este dreapta
care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de
{xi , y i }i .
Aceast dreapt este o aproximare a dreptei de regresie;
Valorile (i
yi = 1, n);
se numesc
valori observate, iar valorile yi = 0 + 1 xi , i = 1, n se numesc valori prezise reziduuri.

Un reziduu msoar deviaia unui punct observat de la
valorile
i = y i y i
se numesc
valoarea prezis de estimarea dreptei de regresie (dreapta de tare);
suma ptratelor erorilor,

i=1
2 i,
se noteaz de obicei prin
SSE (sum of squared errors);
eroarea medie ptratic

rdcina ptrat a
sau
rezidual este
SSE , n2
notat
MSE (mean squared error);
MSE
se numete
eroarea standard a regresiei;
se poate demonstra c
2 SSE = (n 2) 2 2 (n 2). 2
cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui n formula (27.8),
2.
(n 2)
reprezint numrul gradelor de libertate ale variabilei
SSE.
(2)
Estimaia dispersiei este o msur a gradului de mprtiere a punctelor
(x, y )
n jurul dreptei de
regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor necunoscui, i nu valorile lor exacte. Formula pentru
mai poate scris sub forma:
1 = xy
(3) Dac deviaia standard
sy . sx
ar cunoscut a priori, atunci putem estima parametrii 0 i 1 n urmtorul
mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor
SSE.
Vom avea astfel problema de minimizare (
metoda celor mai mici ptrate):

(yi 0 1 xi )2 .
n 0 , 1 n
Notnd cu
min
i=1
F (0 , 1 ) =
i=1
(yi 0 1 xi )2 , F 0 F 1
condiiile de extrem sunt:
= 2
i=1 n
(yi 0 1 xi ) xi (yi 0 1 xi )
i=1
= =
0; 0. 0 1
= 2
Rezolvnd acest sistem de ecuaii algebrice n raport cu
1 ,
gsim soluiile
i, respectiv,
de
mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.
196
Caracteristici ale parametrilor de regresie

Estimaiile pentru parametrii de regresie
lorile calculate pe baza datelor experimentale populaie, se vor utiliza testri statistice. valorilor ambilor parametri, dreptei de regresie,
1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot considerate valorile potrivite pentru ntreaga
Mai jos, vom construi teste statistice cu privire la testarea
1 ,
ns cel mai uzual test este testul pentru vericarea valorii pantei
1 . 1
i
Mai nti, vom calcula media i dispersia pentru ecare dintre Avem succesiv,
0 .
E(1 ) = E sxy s2 x
(xi x)(yi y ) i=1 . = E n (xi x)2

i=1
Aici,
xi
sunt valori deterministe, iar
yi
variabile aleatoare. Deoarece
y = 0 + 1 x +
obinem c
1 n
i ,
i=1
E(y ) = 0 + 1 x.
ns,
E(yi y ) = 0 + 1 xi (0 + 1 x) = 1 (x1 x),

Aadar,
i.
(xi x)E[yi y ] E(1 ) =

i=1 n
1 =
i=1 n
(xi x)2 = 1 .
2
(xi x)
i=1
Pentru
2 i=1
(xi x)
avem:
E(0 ) = E(y ) x E(1 ) = 0 + 1 x x1 = 0 .

Prin urmare, att
0 ,
ct i
1 ,
sunt estimatori nedeplasai pentru
i, respectiv,
1 .
n
Calculm acum dispersiile
D 2 1
D2 0
. Deoarece
(xi x)y = 0,
i=1
avem:
D2 1
(xi x)yi i=1 = = D2 n (xi x)2

i=1
(xi x)2 D2 (yi )

i=1 n 2
(xi x)2
i=1
2 s2 2 x = . s4 s2 x x
(27.9)
Utiliznd urmtoarea proprietate,
D2 (X + Y ) = D2 (X ) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:
D2 0 = D2 (y 1 x) = D2 (y ) 2 x cov(y, 1 ) + x2 D2 1 .
(27.10)

Dar,
197
n
D2 (y ) = D2
i
1 n
i
i=1
1 2 2 n = n2 n
cov
n n i=1
(xi x)(0 + 1 xi + i ) b 2 (xi x)

i=1
y, 1
1 cov n
i ,
i=1
n n
1 cov n
(xi x)i i , i=1 n i=1 (xi x)2

i=1 n
cov
= n
1
n
i ,
i=1 i=1
(xi x)i
(xi x)
i=1 n
(xi x) 2 =
i=1 n
= 0. (xi x)
2
n
i=1
nlocuind n (27.10), gsim c
D2 0 = x2
innd cont c estimatorii
2 2 + = 2 s2 n x
1 x2 + n s2 x
(27.11)
0 i 1 sunt nedeplasai, de relaiile (27.11) i (27.9), i de estimatorul 2 pentru , se poate demonstra c: 0 0

i
1 n
x2 s2 x
t(n 2)
(27.12)
1 1
sx
Aici, am notat prin
t(n 2).
(27.13)
cantitatea:
1 n2
1 2
(yi 0 1 xi )2
i=1
. 0
i
Putem folosi aceste statistici pentru a determina intervale de ncredere pentru ncredere pentru
1 .
Un interval de
este:
0 t1 ; n2 2
1 x2 + , n s2 x
0 + t1 ; n2 2
1 x2 + . n s2 x
(27.14)

Un interval de ncredere pentru
198
1
este:
1 t1 ; n2 2
, sx
1 + t1 ; n2 2
. sx
(27.15)
Observaia 27.3
(1) n general, dispersia
a erorilor de regresie nu este cunoscut
a priori.
n cazul
n care aceasta este cunoscut, atunci n loc de (27.12) i (27.13) am avea:
0 0
1 n
x2 s2 x
N (0, 1),
1 1
sx
N (0, 1).
(27.16)
n acest caz, intervalele de ncredere pentru cu diferena c i
z1 2
1 ; n2 2
este nlocuit prin
0 i 1 vor similare cu cele din relaiile (27.14) i (27.15), z1 . Oricum, pentru n sucient de mare, valorile t1 ; n2 2 2
sunt foarte apropiate.
(2) Coecientul de determinare
R2 (= r2 )
se poate calcula i folosind urmtoarea formul:
R2 = 1
unde
s2 y/x s2 y
(27.17)
s2 y/x
1 = n1
(yi 0 1 xi ) ,
i=1
s2 y
1 = n1
(yi y )2 .
i=1
2 n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate construit o
valoare prezis pe baza valorilor independente.
Test statistic pentru 1

Mai jos prezentm testul ce veric dac Testm
ia o valoare dat
10
sau nu, la un nivel de semnicaie
Dispersia erorilor de regresie este necunoscut.
(H0 ) :
Considerm statistica
1 = 10
versus
(H1 ) :
1 = 10 .
T =
care urmeaz repartiia
1 1
sx
t(n 2).
Etapele testului sunt urmtoarele:
T0 =
Calculm cuantila de ordin Dac
1 10
sx
. (n 2)
grade de libertate,
2 pentru repartiia
cu
t1 ; n2 ; 2
|T0 | < t1 ; n2 , 2
Dac
atunci acceptm ipoteza
(H0 ); (H1 );
|T0 | t1 ; n2 , 2
199
Observaia 27.4
(1) O ipotez alternativ poate considerat i una dintre urmtoarele:
(H1 )s :
(2) Dac
1 < 10 , 1 = 0
(H1 )d :
1 > 10 . x
i
10 = 0,
atunci ipoteza alternativ
este ipoteza c ntre
exist o dependen
liniar.
Test statistic pentru 0

Mai jos prezentm testul ce veric dac Testm
ia o valoare dat
sau nu, la un nivel de semnicaie
Dispersia erorilor de regresie este necunoscut.
(H0 ) :
0 = 0
versus
(H1 ) :
0 = 0 .
T =
care urmeaz repartiia
0 0
1 n
x2 s2 x
t(n 2),
t(n 2).
T0 =
Calculm cuantila de ordin Dac
0 0 1 n
x2 s2 x
t(n 2).
2 pentru repartiia
cu
(n 2)
grade de libertate,
t1 ; n2 ; 2
|T0 | < t1 ; n2 , 2
Dac
(H0 ); (H1 ); 0 .
pentru
|T0 | t1 ; n2 , 2
Observaia 27.5
n cazul n care
De asemenea, teste unilaterale pot considerate i n cazul testrii valorii lui este cunoscut
a priori
atunci, graie relaiilor (27.16), putem utiliza testul
testarea ipotezelor de mai sus, att pentru
0 ,
ct i pentru
1 .
Predicie prin regresie

[Pe scurt, predicia prin regresie este precum ai conduce maina legat la ochi, ghidat de un copilot care privete doar n lunet]
n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu, putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele nvecinate. Regresia poate utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe care le deinem, valoarea
{(xi , yi }i=1, n ,
i
pot modelate de o dreapt de regresie de forma (27.1).
Dat ind o
xp
ce nu se a printre valorile
xi ,
dar este o valoare cuprins ntre valorile extreme ale variabilei
independente,
xmin
xmax ,
dorim s prezicem valoarea rspuns,
y p = 0 + 1 x p + p .

Dac
200
de regresie
pentru
0 i 1 sunt estimaiile pentru parametrii yp pentru un xp observat va o valoare yp
0 ,
respectiv,
1 ,
atunci
valoarea prezis
(27.18)
de pe dreapta de regresie, dat de formula:
yp = 0 + 1 xp .
pentru un
xp
dat, la nivelul de senicaie
(xp [xmin , xmax ])
este:
yp t1 ; n2 2
1+
1 (xp x)2 + , n s2 x
yp + t1 ; n2 2
1+
1 (xp x)2 . + n s2 x
(27.19)
Observaia 27.6
i
(1) De notat faptul c este foarte important ca
xp
s e o valoare cuprins ntre
xmin
xmax .
Dac se folosete formula (27.18) i pentru valori ale lui
n afara range-ului valorilor predictor
pentru
x,
atunci erorile de de aproximarea a lui
cu
yp
pot foarte mari. De exemplu, dac n Figura
27.3 (a) am folosi doar primele
pentru a construi un model de regresie, atunci acesta poate utilizat
doar pentru predicia valorilor variabilei pe cnd valoarea observat este
pentru orice
n acest range, i.e.
x [0, 10].
Dac, folosind
dreapta de regresie gsit anterior, am ncerca o predicie pentru
x = 19,
atunci am gsi c
y (19) 10,
y (19) 6.5,
ceea ce determin o eroare foarte mare de aproximare. Mai
mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale
Figura 27.3: Predicie prin extrapolare.

variabilelor independente ce ies din range se utilizeaz termenul de este folosit des n analiza seriitor de timp. (2) lui Valoarea prezis
prognoz (en., forecasting).
Aceasta
yp
nu este una stabilit cu exactitate, ci este doar o medie ateptat a valorilor n cazul n care
pentru un
xp
dat.
R2 = 1
(coecientul de determinare), atunci valoarea pentru
va prezis fr eroare, deoarece toate punctele se a pe dreapta de regresie. n general, punctele Valoarea
bidimensionale (3)
(x, y ) yp este
se a mprtiate n jurul dreptei de regresie. determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast
valoare poate extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea
yp
cu o constant dat.

Testm
201
(H0 )
yp = y0
versus
(H1 )
yp = y0 .
Estimm
yp
utiliznd formula (27.18).
T =
yp y
1 MSE( n + (xp x)2 2) i (xi x)
t(n 2);
Calculez valoarea
T0 =
yp y0
1 MSE( n + (xp x)2 2) i (xi x)
Dac
|T0 | < t1 ; n2 , 2
Dac
(H0 ); (H1 );
|T0 | t1 ; n2 , 2
(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice cu succes chiar
10
dintre ultimele
recesiuni!
Exemplu 27.7
yp
la nivelul de ncredere
este:
yp S t1 ; n2 , 2
unde
yp + S t1 ; n2 , 2 (xp x)2 1 + . 2 n i (xi x)
(27.20)
S=
MSE 1 +
(de vericat!)
Observaia 27.8
Pn acum am vzut cum putem estima valoarea lui
putem inversa rolurile lui
y,
i putem vorbi astfel de
regresie a lui x n raport cu y .
folosind pe
x.
n unele cazuri, De exemplu, Formulele
n Exerciiul 28.1 am putea estima notele la Probabiliti n funcie de notele la Statistic. obinute pentru dreapta de regresie a lui regresie a lui
n raport cu
sunt cele gsite anterior pentru dreapta de
n raport cu
x,
n care rolurile lui
sunt inversate.
202
28 Statistic Aplicat (L14) Regresie (exerciii rezolvate)

Fie
doi vectori de acelai tip. Urmtoarele funcii din
Matlab sunt utile pentru analiza corelaiei

X;
i regresiei:
scatter(X,Y)
reprezint grac valorile lui
vs. valorile lui
R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma: >> ans = 1.0000 1.0000
unde
1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
este (9.3).
cov(X,Y) pentru matricea de covarian empiric dintre X i Y (formula (9.2)); Funcia cov(X,Y,1) este tot matrice de covarian, ns n acest caz formula folosit
b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor
independente). Dac Dac
X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar. X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de
0
i
regresie avem
liniar multipl.
Spre exemplu, s presupunem c se dorete estimarea coecienilor de regresie
liniar simpl, i.e.,
Matlab care estimeaz cei doi coecieni este
observaii. n acest caz,
1 pentru care y = 0 + 1 x, unde pentru ecare k = 2. Fie X, respectiv, Y vectorii ce conin aceste
dintre
observaii. Comanda
B = regress(Y', [ones(n,1)'; X]')

Comanda furnizeaz aproximri pentru parametrii bun:
y1 y2 . . . yn
0 i 1 ce fac urmtoarea 1 x1 x2 1 . . + 1 . . . . . 1 xn
aproximare ct mai
p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie cel mai mult de datele observate yi , n sensul celor mai mici ptrate. va aa n acest caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a
Matlab
puterilor. Spre exemplu, dac
p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci
Matlab va aa
n , . . . , 1 , 0 .
203
Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n
Matlab:
p = [3
obinnd rezultatul:
2 4];
polyval(p,[-3 1 5])
ans =
37
69
Exerciiu 28.1
obinute de (b)
Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti n acest sens, au fost observate notele
i cele de la Statistic obinute de studenii unui an de studiu.
10
studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:
(a) Stabilii dac exist o legtur puternic ntre aceste note (r i desenai-o n acelai sistem de axe ca i notele obinute (
r2 );
Determinai dreapta de regresie a notelor de la Statistic n raport cu notele la Probabiliti i
scatter plot).
(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.
Student Probabiliti Statistic
82 84
36 42
72 50
58 64
70 68
48 54
44 46
94 80
60 60
40 32
Tabela 28.1: Notele la Statistic i Probabiliti.

Soluie:
n codul (a) Calculm r cu formula (25.1). Funcia Matlab pentru coecientul Pearson este corrcoef. Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti,
folosind formula (25.2) sau scriind desfurat expresia lui (b) Coecienii de regresie se pot obine n de calcul a coecienilor
r.
tarea datelor cu un polinom, n cazul liniar ind un polinom de forma
3 moduri, e folosind funcia polyfit, care realizeaz S (P ) = 0 + 1 P . O alt variant

din
Matlab
este simpla implementare n
treia variant este folosirea funciei funcii predenite din
regress
Matlab.
Matlab a formulelor pentru acetia.

plot,
Reprezentarea grac a datelor poate realizat folosind ori funcia
Matlab. Gracul este cel din Figura 28.1.
ori funcia "scatter", ambele
P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mean(P); ms = mean(S); %%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(P,S); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(P,S)/(std(P)*std(S)); r = C(1,2); % r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(P,S,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;
204
% B = regress(S',[P;ones(10,1)']'); %%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-') % scatter(P,S) % varianta pentru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('P si S nu sunt corelate') else disp('P si S sunt corelate') end
Rulnd codul de mai sus, obinem:
r = 0.8247
B = 0.7553
10.3816
P si S sunt corelate
Figura 28.1: Notele i dreapta de regresie.
Exerciiu 28.2
Fie irul de date:
x = y =
0.3 3.52
0.8 4.53
x
1.2 5.58
i
1.6 6.62
2.1 8.27
2.4 10.18
2.7 11.80
S se studieze existena unei dependene ntre
de forma
y = a eb x .
Soluie:
Calculm
ln y .
Obinem:
ln y =
1.2585
1.5107
1.7192
1.8901
2.1126
2.3204
2.4681

Se observ c gsim:
205
(coecientul de corelaie ntre
r = 0.9988 1
ln y ),
de unde bnuim c e posibil s
avem o regresie liniar ntre variabilele
ln y .
Estimm coecienii de regresie ai lui
0 = 1.1074,
1 = 0.4980.
Aceasta poate realizat n
Matlab prin comanda
ln y
fa de
regress(log(y)',[x',ones(7,1)])
Aadar,
ln y = 0.4980 x + 1.1074,
de unde
y = e1.1074 e0.4980 x 3 ex/2 .
n Figura 28.2 am reprezentat
grac datele observate i aproximrile lor.
Figura 28.2: Aproximarea datelor din Exerciiul 28.2
Exerciiu 28.3
la ecare
Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca. Pentru o vericare, au fost msurate simultan temperaturile
1km
ctigat n nlime.
6 C n 10
localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune
hi Ti
500 15
1000 14
1500 11
2000 6
2500 1
3000 2
3500 0
4000 4
4500 8
5000 14
Tabela 28.2: Tabel cu temperaturi (Ti ) la diverse altitudini (hi ).

a o funcie liniar (regresie liniar) de altitudine, se cere: (i) S se estimeze parametrii (ii) S se testeze (
1 ; 1 = 0.006); 1 ;
= 0.05)
dac prognoza din enun este adevarat (i.e.,
(iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie, (v) Estimai temperatura la altitudinea aceasta temperatur.
(iv) Ct de bun este aproximarea temperaturii cu o funcie liniar de altitudine?
h = 2544.
Gsii, de asemenea, un interval de ncredere pentru
Soluie:
(i)
Estimm parametrii necunoscui folosind formulele (27.4) sau folosind funcia
polyfit
Matlab
(vezi codul de mai jos).
(ii) Pentru testarea ipotezei nule
(H0 ) : 1 = 0.006
utilizm testul din Seciunea .

(iii) Un interval de ncredere pentru
206
1
se poate calcula folosind formula (27.15).
(iv) Pentru a decide ct de bun este aproximarea, calculm coecientul de determinare,
R2 .
Acesta este
R2
= 94.83,
ceea ce nseamn c temperatura real este foarte aproape de cea prognozat.
(v) Utilizm formulele (27.18) i (27.19), pentru jos) Codul
xp = 2544.
(vezi rezultatele generate de codul de mai
h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000]; T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T); %%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~ CC = corrcoef(h,T); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(h,T,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % B = regress(T',[h;ones(10,1)']'); % b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh; %%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-') %%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sigmax = std(h); T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('ipoteza (H0 ) se accepta') else disp('ipoteza (H0 ) se respinge') end %%%~~~~~~~~~~~~~~~ Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ... Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:
r = -0.9738
R2 = 94.83 Tp = 3.3610
B =
[-0.0061, 18.9333] CI_T = [-2.2335, 8.9555]
CI =
[-0.0096, -0.0026]
ipoteza nula se accepta

Alte funcii utile n
Statistics Toolbox):
Matlab pentru analiza regresional (unele disponibile doar n pachetul de programe

Desenul
polytool(x, y) - determin o dreapt de regresie pentru datele coninut n vectorii x i y .

aat este interactiv i apare ntr-o interfa grac.
polytool(x, y, n, alpha, xname, yname)
- aproximeaz datele bivariate
(x, y )
cu un polinom
207
Figura 28.3: Diagrama de temperaturi n funcie de altitudine, i dreapta de regresie.
de grad
i deseneaz intervale de ncredere (la nivelul
pentru valorile prezise. Valorile lui
sunt denumite prin
xname,
respectiv
yname.
Exemplu 28.4
Urmtoarele comenzi aeaz gracul din Figura 28.4.
x = [-3 -2 -1 0 1 2]; y = [8.75 3.8 1.2 0.05 1.01 4.02]; polytool(x,y,2,0.05,'observatii pt X','observatii pt Y')
rstool(x, y, model, alpha, xname, yname)
poate una dintre urmtoarele: - deschide o interfa interactiv pentru a deter-
mina suprafeele de rspuns pentru datele din vectorii
(x, y ), dup modelul precizat. Aici, model linear, pure quadratic, interaction sau full quadratic.
Exemplu 28.5
Urmtoarele comenzi aeaz gracul din Figura 28.5.
X = [2 2 2; 2.5 2 2; 2 4.5 2; 2.5 4.5 2; 2 7 2; 2.5 7 2;... 2 2 5; 2.5 2 5; 2 4.5 5; 2.5 4.5 5; 2 7 5; 2.5 7 5]; Y = [291 353 400 400 504 442 273 304 397 424 402 431]'; xn = {'x1', 'x2', 'x3'}; yn = {'Y'}; rstool(X,Y, 'interaction', 0.05, xn, yn)
208
Figura 28.4: Curba de ordinul al doilea care aproximeaz datele (x, y ).
Figura 28.5: Suprafee de rspuns pentru datele (x, y ).
Anexa 1 [Dr. Iulian Stoleriu]
209
29
Anexa 1
Matlab
Scurt introducere n
Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz cu care opereaz
Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab

este uurina cu care poate extins. La programele deja existente n
este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important caracteristic a
Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile. Prezentm mai jos o scurt introducere n
Matlab-ului
Matlab a principalelor funcii i comenzi folosite n aceast Matlab ale unor noiuni de
Statistics
lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n Teoria Probabilitilor i Statistic matematic. Folosind comanda ct i a pachetelor de funcii (
demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,
Toolbox,
toolbox)
de care ai putea interesai. Dintre acestea, amintim
care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:
analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson, relor aleatoare, analiza regresional, descrieri statistice.
2 ),
generarea nume-
Comenzile
Matlab pot scrise n iere cu extensia .m, ce urmeaz apoi a compilate. Un ier-m Matlab poate folosit ca pe un mediu computaional interactiv, caz n
const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii recursive. De asemenea, care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sau evaluate imediat. De exemplu, introducnd la linia de comand
>> a = sqrt((sqrt(5)+1)/2)
Matlab denete o variabil de memorie a, creia i atribuie valoarea

a = 1.2720
Variabilele sunt denite cu ajutorul operatorului de atribuire, calculul unei expresii sau al unei funcii.
=,
i pot utilizate fr a declara
de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din
Pentru a gsi informaii imediate despre vreo funcie predenit, comanda De exemplu,
help
va vine n ajutor.

>> help length
aeaz urmtoarele:
210
LENGTH Length of vector. LENGTH(X) returns the length of vector X. It is equivalent to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel.
Comanda menzii
help poate utilizat doar dac se cunoate exact lookfor este recomandat. De exemplu, comanda
numele funciei. Altfel, folosirea co-
>> lookfor length

produce:
NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector.
Matlab este un mediu computaional orientat pe lucru cu vectori i matrice.

forma
O linie de cod de
>> v = [1,3,5,7,9]
% sau
v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate realizat i folosind de la 1 la 9, cu pasul 2. Pentru un vector coloan,
denete un vector linie ce are componentele comanda
v = 1:2:9
adic aeaz numerele
folosim punct-virgul ntre elemente, adic
>> v = [1;3;5;7;9]
% vector coloana
O alt variant de a deni un vector este
>> v = linspace(x1,x2,n)
adic
este un vector linie cu
componente, la intervale egale ntre
x1
x2.
Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]

denete matricea
211
A =
1 4
2 5
3 6 A(i,j)
sau
Apelul elementelor unei matrice se poate face prin comenzile coloan Funcia Funcia ordin
j)
sau
A(i,:)
A(:,j)
(elementele de
(elementele de linia
i); m n, avnd toate componentele egale cu 1. m n. Funcia eye(n) denete matricea unitate de
Matlab ones(m,n) zeros(m,n) denete
denete o matrice o matrice zero
n.
Dup cum vom vedea mai jos, comenzii
Matlab permite denirea unor funcii foarte complicate prin scrif (x, y ) = e5x sin 3y :
erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii
inline.
Spre exemplu, denim funcia
>> f = inline('exp(5*x).*sin(3*y)') f = Inline function: f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula
f (7, )
prin
>> f(7,pi)
0.5827
Un program
Matlab poate scris sub forma ierelor script sau a ierelor de tip funcie. Ambele Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut
script este un ier extern care conine o sec-
tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii, care le pot completa pe cele deja existente. Un ier ven de comenzi
n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv, adic n modul linie de comand.
Pentru a introduce date n matricea
Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
% atribuirea valorilor matricei data % prima linie a datelor copiate % ultima linie a datelor copiate % inchidem paranteza ce defineste matricea de date
vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n
data: [ 19.9 21.0 17.5 23.2 23.5 19.7
>> data = 21.3 24.1 18.4 20.5 22.1 16.6 ];

Datele din
Matlab pot salvate astfel:

>> cd('c:\fisierul_de_lucru'); >> save Timpi_de_reactie data;
Datele pot rencrcate folosind comanda
212
% alegem fisierul unde salvam datele % salveaza in fisierul Timpi_de_reactie.mat
load Timpi_de_reactie Timpi_de_reactie
% incarca datele din fisier % afiseaza datele incarcate
Fiierele funcie
Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului ier funcie. acesteia.
Astfel,
.m
conine cuvntul
function,
atunci ierul respectiv este declarat ca ind
Variabilele denite i manipulate n interiorul ierului funcie sunt localizate la nivelul
Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect
variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
function
este este cuvntul care declar ierul ca ier funcie; este numele funciei, care este totuna cu numele sub care se salveaz ierul; sunt parametrii de ieire; sunt parametrii de intrare.
nume_functie param_iesire
param_intrare
Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia
.m.
Exemplu 29.1
tor
Fisierul
(alternativ, aceast lucru poate realizat prin comanda
medie.m calculeaz media aritmetic a sumei ptratelor componentelor unui vecmean(X.^2)):
function m2 = medie(X) n = length(X); m2 = sum(X.^2)/n;
Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate.
Statistics Toolbox
reprezint o colecie de funcii folosite pentru analiza, modelarea i
simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI), analiza regresional, descrieri statistice, teste statistice. n Tabelul 29.1 am adunat cteva comenzi utile n
Matlab.

% help rand lookfor normal X=[2 4 6 5 2 7 10] X=[3; 1; 6.5 ;0 ;77] X = -10:2:10 length(X) t=0:0.01:3*pi X.^2 X.*Y cumsum(X) cumprod(X) min(X) max(X) sort(X) sort(X, 'descend') erf(X) exp(x) log(x) sqrt(x) num2str(x) factorial(n) A = ones(m,n) B = zeros(m,n) I = eye(n) A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] size(A) det(A) inv(A) A' A(:,7) A(1:20,1) nchoosek(n,k) 1e5 exp(1) bar(X) sau barh(X) hist(X) hist3(x,y,z) plot(X(1:5),'*m') plot(t,X,'-') plot3(X,Y,Z) stairs(X) subplot(m,n,z) semilogx i semilogy hold on clf clear all title('Graficul functiei') find legend % % % %
213
permite adaugarea de comentarii in cod help specic pentru funcia
cauta intrarile n
Matlab pentru
7 5 10
la
rand normal
vector linie cu
elemente elemente
vector coloan cu
2 n 2 % lungimea vectorului X % denete o diviziune a [0, 3 ] cu diviziunea 0.01 % ridic toate componentele vectorului X la puterea a doua % produsul a doi vectori % suma cumulat a elementelor vectorului X % produsul cumulativ al elementelor vectorului X % realizeaz minimum dintre componentele lui X % realizeaz maximum dintre componentele lu X % ordoneaz componentele lui X n ordine crescatoare % ordoneaz componentele lui X n ordine descrescatoare % funcia eroare % calculeaz exponenial ex % calculeaz logaritmul natural ln(x) % calculeaz radicalul ordinului doi dintr-un numr % furnizeaz valoarea numeric a lui x % n! % A e matrice m n, cu toate elementele 1 % matrice m n zero % matrice unitate, n n % matrice 3 3 % dimensiunea matricei A % determinantul matricei A % inversa matricei A % transpusa matricei A % coloana a 7-a a matricei A % scoate primele 20 de linii ale lui A % combinri de n luate cte k % numarul 105 % numarul e % reprezentarea prin bare % reprezentarea prin histograme % reprezentarea prin histograme 3-D % deseneaz primele 5 componente ale lui X , cu * magenta % deseneaz gracul lui X versus t, cu linie continua % deseneaz un grac n 3-D % deseneaz o funcie scara % mparte gracul n m n zone & deseneaz n zona z % logaritmeaz valorile de pe absci, resp., ordonata % reine gracul pentru a realiza o nou gura % terge gura % terge toate variabilele denite % adaug titlu gurii % gsete indicii elementelor nenule ale unui vector % ataeaz o legend la un grac
vector cu numerele intregi de la din
10,
Tabela 29.1: Funcii
Matlab utile
214
30
Anexa 2
Exemple de repartiii discrete

n dreptul ecrei repartiii, n parantez, apare numele cu care aceasta care poate apelat n
Matlab.
(1)
Repartiia uniform discret, U (n)

X U (n),
dac valorile lui
(unid)
Scriem c
sunt
{1, 2, . . . , n}, 1 , n
cu probabilitile
P (X = k ) =
Media i dispersia sunt:
k = 1, 2, . . . , n.
Exemplu:
(2)
E(X ) =
n+1 2 ,
D 2 (X ) =
n2 1 12 .
numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat
U (6).
Repartiia Bernoulli25 , B(1, p)

X B (1, p).
V.a.
(bino)
Scriem
de tip Bernoulli poate lua doar dou valori,
X = 1
(succes) sau
X = 0
(insucces), cu probabilitile
Exemplu:
(3)
P (X = 1) = p; P (X = 0) = 1 p. E(X ) = p; D2 (X ) = p(1 p). B (1, 0.5).
aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a.
Repartiia binomial, B(n, p):
(bino)
Scriem
dac valorile lui
X B (n, p) (schema bilei revenite sau schema X sunt {0, 1, . . . , n}, cu probabilitile
extragerilor cu repetiie)
(n > 0, p (0, 1)),
k k P (X = k ) = Cn p (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt: Dac
E(X ) = np; D2 (X ) = np(1 p).

i
(Xk )k=1,n B (1, p)

aruncarea de
(Xk )k
independente stochastic, atunci
X=
k=1
Xk B (n, p).
binomial
Exemplu:
(4)
15 ori a unei monede ideale poate modelat ca ind o v.a.

(hyge)
B (15, 0.5).
Repartiia hipergeometric, H(n, a, b)
X H(n, a, b)
(schema bilei nerevenite sau schema extragerilor fr repetiie)
(n, a, b > 0)
dac
P (X = k ) =
25 Jacob
k C nk Ca b , n Ca +b
pentru orice
ce satisface
max(0, n b) k min(a, n).
Bernoulli (1654 1705), matematician elveian

n
215
EX =
i=0
E(Xi ) = np; D2 (X ) = np(1 p)
a+bn . a+b1
Observaia 30.1
(i)
Dac
(Xk )k=0,n B (1, n),

n
cu
p=
a a+b (v.a. dependente stochastic), atunci
X=
i=1
Xi H(n, a, b).
n
n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre nu sunt independente stochastic. (ii) Pentru
D2 (X )
D2 (Xi ),
i=0
deoarece
(Xi )i
N =a+b
n,
putem face aproximarea
a+bn a+b1
a+bn a+b
=1
n N , de unde
(30.1)
D2 (X ) np(1 p) 1
n . N
Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin termenul
N n N 1 . n cazul n care numrul de bile este mult mai mare dect numrul de extrageri (N n acest termen devine aproximativ 1 N . n plus, dac N este foarte mare, atunci trecnd
n), atunci N n
(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.
(5)
Repartiia Poisson26 , P ()
(poiss)
Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea val de timp. Pentru un cu probabilitile
> 0,
spunem c
X P ()
(legea
) realizate ntr-un anumit interevenimentelor rare) dac X ia valori naturale,
P (X = k ) = e E(X ) = ; D2 (x) = .
(6)
k , k N. k!
Repartiia geometric, G eo(p)
(geo)
Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes, stiind probabilitatea de obinere a unui succes, Spunem c
p.
ia valori n
X G eo(p),
(p (0, 1))
dac
N,
cu probabilitile
P (X = k ) = p(1 p)k , E(X ) = 1p 1p ; D2 (X ) = . p p2

Dac
pentru orice
k N,
unde
p 0.
Observaia 30.2 primul succes.

26 Simon-Denis
X G eo(p),
Y =X +1
reprezint
ateptarea pn la
Poisson (1781 1840), matematician i zician francez, student al lui Laplace

(7)
216
(nbin)
Repartiia binomial cu exponent negativ, BN (m, p)
Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang n cazul particular Pentru
m.
cu
m = 1,
obinem repartiia geometric. spunem c
m 1, p (0, 1),
X BN (m, p)
dac
ia valorile
{m, m + 1, m + 2, . . . },
probabilitile
m1 m k P ( X = k ) = Cm +k1 p (1 p) , k m, p 0.
E(X ) =
m(1 p) m(1 p) ; D 2 (X ) = . p p2
Exemple de repartiii continue

(1)
Repartiia uniform, U (a, b)

X U (a, b) (a < b)
(unif)
V.a.
dac funcia sa de densitate este
f (x; a, b) = E(X ) = (b a)2 a+b , D2 (X ) = . 2 12
1 ba
, dac x (a, b) , altfel.
Exemplu:
Alegerea la ntmplare a unei valori din intervalul
(0, 1),
n cazul n care orice valoare are
aceeai ans de a aleas, urmeaz o repartiie experiment (vezi capitolul urmtor).
U (0, 1).
Comanda
rand
din
Matlab realizeaz acest
(2)
Repartiia normal, N (, )
X N (, ),
dac
(norm)
Spunem c
are densitatea:
(x)2 1 f (x; , ) = e 22 , x R. 2
E(X ) = i D2 (X ) = 2 .
Se mai numete i repartiia gaussian. n cazul
= 0, 2 = 1
densitatea de repartiie devine: (30.2)
x2 1 f (x) = e 2 , x R. 2
n acest caz spunem c grac (pentru n intervalul Dac
urmeaz
Gracul densitii de repartiie pentru repartiia normal este
repartiia normal standard, N (0, 1). clopotul lui Gauss
(vezi Figura 30.1). Din se a (5.5).
= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard ( 3, + 3 ) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei
X
i
Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z = N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele) are o notaie special, (x). Ea e denit prin: 1 (x) = 2
x
y2 2
dy.
(30.3)
217
Figura 30.1: Clopotul lui Gauss pentru X N (0, ), ( = 1, 2, 3)
X N (, )
este dat prin
F (x) = (
(3)
x ),
x R.
(30.4)
Repartiia log-normal, log N (, )
(logn)
Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri viitoare pentru un activ nanciar. densitatea de repartiie Dac
X N (, ),
1
atunci
Y = eX
este o v.a.
nenegativ, avnd
f (x; , ) =
Aadar,
e 2
(ln x)2 2 2
0 Y log N (, )
dac Media i dispersia sunt date de
, dac x > 0 , dac x 0

2 2
ln Y N (, ). 2 E(X ) = e+ /2 ,
D2 (X ) = e2+ (e 1).
(exp)
(4)
Repartiia exponenial, exp()
Valorile sale sunt timpi realizai ntre dou valori spontane repartizate Spunem c
P ().
X exp() ( > 0)
dac are densitatea de repartiie
f (x; ) =
ex , dac x > 0 0 , dac x 0 1 . 2
E(X ) =
D 2 (X ) =
Observaia 30.3
Repartiia exponenial satisface proprietatea aa-numitei
lips de memorie, i.e.,
P ({X > x + y }|{X > y }) = P ({X > x}), x, y 0.
218
Vericai!]
Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret a acestei proprieti. [
(5)
Repartiia Gamma, (a, )

X (a, ), a, > 0,
(gam)
O v.a.
dac densitatea sa de repartiie este:
f (x; a, ) =
unde
a a1 x e (a) x
, dac , dac
x > 0, x 0.
este funcia lui Euler,
: (0, ) (0, ),
(a) =
0
xa1 ex dx.
E(X ) =
a a , D 2 (X ) = 2 .
n
sunt independente stochastic, atunci suma lor
Observaia 30.4
(ii) Dac v.a.
(i)
(1, ) exp(). Xk (n, ).

k=1
{Xk }k=1,n exp()
(6)
Repartiia Weibull27 , W bl(k, )
(wbl)
Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular
k = 1)
i poate modela repartiia mrimii particulelor. Cnd
k = 3.4,
distribuia Weibull este asemn-
toare cu cea normal. Cnd Vom spune c
k , aceast repartiie X W bl(k, ) (k > 0, > 0) dac are f (x; k, ) = X W bl(k, )

k
se apropie de funcia lui Dirac. densitatea de repartiie
x k x k1 ( ) e
0 E(X ) = 1 +
, dac x 0 , dac x < 0. 1 k

.
Media pentru repartiia
este
(7)
Repartiia 2 , 2 (n)
X 2 ( n )
(se citete
(chi2)
O v.a. este:
repartiia hi-ptrat cu n grade de libertate)

f (x; n) =
n ( n )2 2 2
dac densitatea sa de repartiie
x 2 1 e 2
, dac , dac
x > 0, x 0. n)
este reprezentat
0
unde
este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui
n Figura 30.2. Media i dispersia sunt:
E(2 ) = n, D2 (2 ) = 2n.
27 Ernst
Hjalmar Waloddi Weibull (1887 1979), matematician i inginer suedez
219
Repartiia
Observaia 30.5
(b)
(a)
Dac v.a. independente
1 2 (n) este, de fapt, repartiia ( n 2 , 2 ). Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci 2 2 2 2 (n). X1 + X2 + + Xn
n particular, dac
X N (0, 1),
atunci
X 2 2 (1).
Figura 30.2: Repartiia 2 (n) pentru patru valori ale lui n.
(8)
Repartiia Student (W. S. Gosset28 ), t(n)

X t(n)
(cu
(t)
Spunem c
grade de libertate) dac densitatea de repartiie este:
n+1 2 f (x; n) = n n 2 E(X ) = 0, D2 (X ) =

(9)
x2 1+ n
n+1 2
x R.
n . n2
(f)
Repartiia Fisher29 , F (m, n)

X F (m, n)
(cu
Spunem c
m, n grade de libertate) dac densitatea de repartiie m m m+n n m+ ( n ) 2 ( 2 ) m 1 m 2 2 x 1 + x , x > 0; m n n ( 2 )( 2 ) f (x) = 0 , x 0.
este:
E(X ) =
n 2n2 (n + m 2) , D 2 (X ) = . n2 m(n 2)2 (n 4)
28 William 29 Sir
Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic

(10)
220
(fr corespondent n
Repartiia Cauchy30 , C (, )
X C (, )
Matlab)
Spunem c
dac densitatea de repartiie este:
f (x; , ) =
NU admite medie, dispersie sau momente!!!
, [(x )2 + 2 ]
x R.
30 Augustin
Louis Cauchy (1789 1857), matematician francez
Bibliografie [Dr. Iulian Stoleriu]
221
Bibliograe
[1] Petru Blaga, [2] David Brink, [3] David Brink,
Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002. Statistics compendium, David Brink & Ventus Publishing ApS, 2008. Statistics exercises, David Brink & Ventus Publishing ApS, 2008. Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic
1968.
[4] Gheorghe Ciucu, Virgil Craiu, i Pedagogic, Bucureti, [5] Steve Dobbs, Jane Miller,
Statistics 1, Cambridge University Press, Cambridge 2000. Modern Mathematical Statistics with Applications (with CD-ROM), Introduction to Mathematical Statistics, Prentice Mic enciclopedie de sta-
[6] Jay L. DeVore, Kenneth N. Berk, Duxbury Press,
2006. 2004.
[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Hall, 6th edition,
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,
tistic, Editura tiinic i enciclopedic, Bucureti, 1985.
[9]
http://www.mathworks.com
[10] Gheorghe Mihoc, N. Micu, [11] Elena Nenciu,
Teoria probabilitilor i statistica matematic, Bucuresti, 1980.
Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976. Probabiliti i Statistica matematic - Computer Applications, Iai, 2000. Applied Linear Regression,
Wiley series in Probability and Statistics,
[12] Octavian Petru,
[13] Sanford Weisberg,
3rd 2nd
ed.,
2005.
[14] Larry J. Stephens,
Theory and problems of Beginning Statistics,

1998.
Schaum's Outline Series,
ed.,
The McGraw-Hill Companies, Inc.,
[15] Dominick Salvatore, Derrick Reagle, Outline Series, [16] Iulian Stoleriu, [17] Gbor Szkely,
Theory and problems of Statistics and Econometrics, Schaum's

2002.
2nd
ed., The McGraw-Hill Companies, Inc.,
Statistic prin
Matlab. MatrixRom, Bucureti, 2010.

(Mathematics and its
Paradoxes in Probability Theory and Mathematical Statistics,

1987.
Applications), Springer Verlag, [18] David Williams, Press,
Weighing the Odds: A Course in Probability and Statistics,
Cambridge University
2001.

Curs

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Curs

Diunggah oleh

Hak Cipta:

Format Tersedia

Iulian STOLERIU

1 Statistic Aplicat (C1) Introducere n Statistic

C1 & L1 [Dr. Iulian Stoleriu]

pe un anumit teren arabil;

C1 & L1 [Dr. Iulian Stoleriu]

C1 & L1 [Dr. Iulian Stoleriu]

C1 & L1 [Dr. Iulian Stoleriu]

Organizarea i descrierea datelor

C1 & L1 [Dr. Iulian Stoleriu]

Plya (1887 1985), matematician ungur

C1 & L1 [Dr. Iulian Stoleriu]

Tabela 1.2: Date statistice negrupate

fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),

C1 & L1 [Dr. Iulian Stoleriu]

Motive serioase pentru care merit s devii statistician

Laborator 1 [Dr. Iulian Stoleriu]

2 Statistic Aplicat (L1)

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte

Laborator 1 [Dr. Iulian Stoleriu]

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.

Laborator 1 [Dr. Iulian Stoleriu]

bar(X, Y, 'style'); barh(X, Y); bar(X, w); bar3(Y, w, 'style')

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

X este vectorul linie [2 3 4 5 6 7 8 9 10], [2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.

scris prescurtat prin

Laborator 1 [Dr. Iulian Stoleriu]

barh(5:9, [3 5 6 4 2], 0.5)

Figura 2.4: Reprezentare 3D prin bare.

Acesta deriv din este o

Pearson (1857 1936), statistician, avocat i eugenist britanic

Laborator 1 [Dr. Iulian Stoleriu]

nlimea (n cm) frecvena

Matlab uzuale pentru crearea histogramelor sunt:

hist(X, n); hist(X, Y); N = histc(X,E); bar(E,N,'histc') hist3(Y)

Matlab care produce acest grac este:

Laborator 1 [Dr. Iulian Stoleriu]

datele vor  mprite (unde este posibil) n clase de lungimi egale.

Uneori aceste divizri sunt naturale,

numrul de clase este, n general, ntre

nregistrai numrul de date ce cad n ecare clas (numite

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:

x = randn(1000, 2); hist3(x)

% numere repartizate normal

Figura 2.5: Histogram 3D.

Aceast clas reprezint clasa acelor plante

Deoarece valorile nlimilor sunt valori reale, valorile

clas s conin acele plante ce au nlimile situate ntre

Laborator 1 [Dr. Iulian Stoleriu]

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

densitile de frecven pentru datele din Tabelul 1.4.

nlimea (n cm) frecvena

limea frecvena densitatea de frecven

Tabela 2.6: Tabel cu frontierele claselor.

special la reprezentarea datelor calitative. Comanda

Matlab pentru un pie chart pentru un vector X

De exemplu, comanda care produce Figura 2.6 este:

Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.

Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda

Laborator 1 [Dr. Iulian Stoleriu]

Figura 2.7: Reprezentare pe disc 3D

Matlab care produce acest grac este:

datele vor mprite (unde este posibil) n clase de lungimi egale.

nregistrai numrul de date ce cad n ecare clas (numite

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

orice act cu rezultat incert, care poate repetat n

condiii identice (spunem c efectum nu inueneze rezultatul alteia ( a lui

lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

Deniia axiomatic a probabilitii

(nchidere la complementariere) (nchidere la reuniune nit).

Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente o probabilitate

se realizeaz, mai puin un numr nit. Pe de alt parte,

inniti de evenimente din irul