Anda di halaman 1dari 222

Iulian STOLERIU

Statistic Aplicat

1 Statistic Aplicat (C1) Introducere n Statistic


Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii, de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. n general, prin date (sau date statistice) nelegem o mulime de numere ce au o anumit nsemntate. Aceste numere pot  legate ntre ele sau nu. Suntem interesai de studiul acestor date, cu scopul de a nelege anumite relaii ntre diverse trsturi ce msoar datele culese. De regul, oamenii au anumite intuiii despre realitatea ce ne nconjoar, pe care le doresc a  conrmate ntr-un mod ct mai exact. De exemplu, dac ntr-o anumit zon a rii rata somajului este ridicat, este de ateptat ca n acea zon calitatea vieii persoanelor de acolo s nu e la standarde ridicate. Totui, ne-am dori s m ct mai precii n evaluarea legturii dintre rata somajului i calitatea vieii, de aceea ne-am dori s construim un model matematic ce s ne conrme intuiia. Un alt gen de problem: ardem de nerbdare s am cine va  noul preedinte, imediat ce seciile de votare au nchis porile (exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea i unicarea tuturor datelor ntr-un timp record nu este o msur deloc practic. n ambele probleme menionate, observaiile i culegerea de date au devenit prima treapt spre nelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate  complet descris de un astfel de model, dar scopul este de a oferi o aproximare ct mai del i cu costuri limitate. n ambele situaii menionate apar erori n aproximare, erori care in de ntmplare. De aceea, ne-am dori s putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate, Statistica introduce metode de predicie i prognoz pentru descrierea i analiza proprietilor ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale, umanistic sau afaceri etc. O disciplin strns legat de Statistic este Econometria. Aceasta ramur a Economiei se preocup de aplicaii ale teoriilor economice, ale Matematicii i Statisticii n estimarea i testarea unor parametri economici, sau n prezicerea unor fenomene economice. Statistica a aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaiile pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii. Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o tiin separat de Teoria Probabilitilor. Datorit revoluiei computerelor, Statistica a evoluat foarte mult n direcia computaional, pe cnd Teoria Probabilitilor foarte puin. Aa cum David Williams scria n [18], "Teoria Probabilitilor i Statistica au fost odat cstorite; apoi s-au separat; n cele din urm au divorat. Acum abia c se mai ntlnesc". Din punct de vedere etimologic, cuvntului statistic i are originile n expresia latin statisticum collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau politician. n 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecii i clasicri de date. Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline. Amintim aici doar cteva

C1 & L1 [Dr. Iulian Stoleriu]

exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a  folosite

pe un anumit teren arabil;

n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-

larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via; pentru selectarea unor noi specii;

n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a

studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n nvmnt; sau pentru a studia efectele nclzirii globale;

n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp, n Medicin, pentru testarea unor noi medicamente sau vaccinuri; n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate; n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei; n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase

sociale;

etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie) poate  populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor unei colectiviti poate  fcut att numeric (media, dispersia, mediana, cuantile, tendine etc), ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot  procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc. Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag

C1 & L1 [Dr. Iulian Stoleriu]

informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea, partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea ar  ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de programe pentru efectuarea calculelor, n versiunea 7.1. Acest software este introdus i dezvoltat de compania The MathWorks (vezi [9]).

Matlab

Matlab

Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie. Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot  diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit pentru analiza acestora. n general, date culese de noi pot  potrivite ntr-un model statistic prin care Data observat = f (x, ) + eroare de aproximare, (1.1) unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate  determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese. Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur comun. Aceasta poate  nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot  discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracteristici numerice ale colectivitii. Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem trage o concluzie n ceea ce privete variabila colectivitii. O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)

C1 & L1 [Dr. Iulian Stoleriu]

din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat. Spre exemplu, dac dorim s facem o prognoz a cine va  noul preedinte la alegerile din toamn, eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se face, n general, fr repetiie, dar l putem considera a  o selecie repetat, n vederea aplicrii testelor statistice. Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai

ans de a  alei. Aceast metod mininimizeaz riscul de a  prtinitor sau favorabil unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de vedere al trsturii studiate.

selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea

numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele 10 din list).

selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-

plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s poata  reprezentat n selecie. Alegerea poate  facut i n funcie de mrimea ecrui grup ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane, proporional cu numrul de persoane din ecare jude). anumite straturi (nu din toate). de pe o encefalogram).

selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii. selecie de judecat: cine face selecia decide cine ramne sau nu n selecie. selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai

mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare

C1 & L1 [Dr. Iulian Stoleriu]

gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor ntregii ri, ntr-o scar mult mai mic).

Organizarea i descrierea datelor


Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic. (e.g., colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai ntr-un anumit an de studii, iar caracteristica este numrul de credite obinute de studeni n decursul acelui an). Vom numi date informaiile obinute n urma observaiei valorilor acestei caracteristici. Datele pot  calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ sau, respectiv, cantitativ. Aceste date pot  date discrete, dac sunt obinute n urma observrii unei caracteristici discrete (o variabila aleatoare discret), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu). n cazul din exemplu, datele vor  cantitative i discrete. Primul pas n analiza datelor proaspt culese este de a le ordona i reprezenta grac, dar i de a calcula anumite caracteristici numerice pentru acestea. Datele nainte de prelucrare, adic exact aa cum au fost culese, se numesc date negrupate. De exemplu, numrul de apeluri la 112 n luna Iulie, specicat zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.

Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele de selecie obinute pot  date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte x1 , x2 , . . . , xr , r n, atunci ele pot  grupate ntr-un aa-numit tabel de frecvene (vezi exemplul din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x1 f1 x2 f2 ... ... xr fr

unde fi este frecvena apariiei valorii xi , (i = 1, 2, . . . , r), i se va numi distribuia empiric de selecie a lui X . Aceste frecvene pot  absolute sau de relative. Un tabel de frecvene (sau o distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.

C1 & L1 [Dr. Iulian Stoleriu]


nota 2 3 4 5 6 7 8 9 10 Total frecvena 2 4 8 15 18 17 15 7 4 90 frecvena relativ 2.22% 4.44% 8.89% 16.67% 20.00% 18.89% 16.67% 7.78% 4.44% 100%

Tabela 1.1: Tabel cu frecvene pentru date discrete. Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul: valori pentru variabile, frecvene sau frecvene relative. n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret.

Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena

relativ) Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit capul, i spune pacientului: "Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce contracteaz aceast boal, doar unul scap." Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun: "Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!" (2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii. Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 ) f1 [a1 , a2 ) f2 ... ... [ar1 , ar ) fr

sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip continuu de mai sus n tablou de distribuie:
[0, 1) 14
1 Gyrgy

[1, 2) 17

[2, 3) 21

[3, 4) 18

[4, 5) 16

[5, 6) 14

(1.2)

Plya (1887 1985), matematician ungur

C1 & L1 [Dr. Iulian Stoleriu]


1.02 0.13 2.98 0.94 1.12 3.79 3.12 5.36 2.01 5.32 4.33 3.44 4.75 1.48 0.71 1.32 2.08 3.97 5.08 1.35 2.88 2.65 2.76 3.78 3.36 4.67 3.64 4.30 1.55 1.95 2.03 4.31 0.79 2.92 4.55 3.95 0.10 0.92 3.58 3.14 2.67 5.87 5.88 4.22 4.08 5.64 0.99 2.86 0.70 1.58 5.69 2.35 1.95 0.78 2.41 5.04 5.49 5.41 1.30 0.91 2.34 3.19 5.33 0.48 1.68 4.50 1.26 4.51 5.41 2.40 2.77 2.46 4.06 0.74 3.53 5.14 1.50 3.20 1.40 3.55 3.64 4.55 2.75 0.83 2.51 2.16 2.63 4.77 1.89 1.67 3.74 5.80 4.98 1.76 2.14 3.28 3.89 4.85 4.12 0.88

Tabela 1.2: Date statistice negrupate


clasa frecvena valoare medie

[a0 , a1 ) [a1 , a2 )
. . .

f1 f2
. . .

x1 x2
. . .

[ar1 , ar )

fr

xr

Tabela 1.3: Tabel cu frecvene pentru date continue. Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate  scris i sub forma:
data :
x1 f1 x2 f2 ... ... xr fr

unde
xi = ai 1 + ai este elementul de mijloc al clasei [ai1 , ai ); 2
r

fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),


i=1

f i = n.

Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor care au fost selecionate pentru studiu. Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat a unei clase este suma frecvenelor tuturor claselor cu valori mai mici. Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1 t1 x2 t2 ... ... xn tn ,

C1 & L1 [Dr. Iulian Stoleriu]


vrsta frecvena 34 76 124 87 64 385 frecvena relativ 8.83% 19.74% 32.21% 22.60% 16.62% 100% frecvena cumulat 8.83% 28.57% 60.78% 83.38% 100.00% vrsta medie 21.5 30 40 50 60 -

[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
Total

Tabela 1.4: Tabel cu frecvene pentru rata somajului. unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).

Motive serioase pentru care merit s devii statistician


(top 10)

(10) Pentru statisticienii, deviaiile sunt considerate a  normale. (9) Statisticienii lucreaz discret i continuu. (8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit. (7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%. (6) Normalitatea nu este o condiie sine qua non. (5) Suntem semnicativ diferii. (4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva. (3) Statistica este arta de a nu  nevoit s spui vreodat c ai greit. (2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n ghea i s spun c, n medie, se simte bine. (1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne omer.

Laborator 1 [Dr. Iulian Stoleriu]

2 Statistic Aplicat (L1)


Reprezentri grace
Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe ori baza unor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri pot  fcute n diferite moduri, dintre care amintim pe cele mai uzuale.

0.6

0.4

0.2

10

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot) este folosit pentru selecii de dimensiuni mici. Sunt reprezentate puncte aezate unul peste celalalt, reprezentnd numrul de apariii ale unei valori pentru caracteristica dat. Un astfel de grac este reprezentat n Figura 2.1. Aceste reprezentri sunt utile atunci cnd se dorete scoaterea n eviden a anumitor plcuri de date (en., clusters) sau chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate. O funcie util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit) la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X

Matlab

Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type' se refer la tipul de linie folosit; poate  linie continu (n mod implicit), punctat (:) sau de tip linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

Laborator 1 [Dr. Iulian Stoleriu]

10

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem leaf

10 9 8 7 6 5 4 3 2 1 0

2 1 3 1 0 1 4 8

6 5 5 2 3 4 9

6 7 2 5 8

8 779 488 9

Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.

Laborator 1 [Dr. Iulian Stoleriu]

11

Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia . n capitolul urmtor vom

Matlab

Figura 2.3: Reprezentrile cu bare. prezenta o scurt introducere n . Pentru mai multe detalii, se poate consulta ghidul online de utilizare [9]. Comenzile uzuale pentru reprezentarea cu bare sunt:

Matlab

Matlab

bar(X, Y, 'style'); barh(X, Y); bar(X, w); bar3(Y, w, 'style')

% % % % %

deseneaza vectorul Y vs. vectorul X deseneaza pe orizontala vectorul Y vs. vectorul X deseneaza vectorul X vs. 1:N (N este lungimea lui X); deseneaza vectorul Y prin bare 3D w este latimea barelor, 'style' este modul reprezentarii

Mai sus,

alturat), sau

'style' poate  una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate 'stacked' (bare suprapuse).
(1) Comanda care produce primul grac din Figura 2.3 este:

Exemplu 2.1

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)


Aici, vectorul este

X este vectorul linie [2 3 4 5 6 7 8 9 10], [2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.

scris prescurtat prin

[2:10],

iar vectorul

Laborator 1 [Dr. Iulian Stoleriu]


(2) Comanda

12

Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din

Tabelul 2.1:

barh(5:9, [3 5 6 4 2], 0.5)


3D trei vectori: X (numerele naturale de la 1 la 7), Y (permutare aleatoare a elementelor lui X ) i Z (numere naturale pare, de la 14 la 2). Cei trei vectori formeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac n m n zone dreptunghiulare i se poziioneaz pe zona de rang p, unde va executa comanda ce urmeaz. Figura 2.4
(3) n Figura 2.4, am reprezentat prin bare este generat de codul urmtor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z']; subplot(1,3,1); bar3(M, 0.75, 'detached') subplot(1,3,2); bar3(M, 0.75, 'grouped') subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 2.4: Reprezentare 3D prin bare.

Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson cuvintele greceti

histos (gr.,

ridicat n sus) i

gramma (gr.,

2 n

1895.

desen, nregistrare). O

histogram

Acesta deriv din este o

form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot aprea bare de nalime zero ce arat a  spaiu liber) i ariile barelor sunt proporionale cu frecvenele corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este

2 Karl

Pearson (1857 1936), statistician, avocat i eugenist britanic

Laborator 1 [Dr. Iulian Stoleriu]

13

nlimea (n cm) frecvena


[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) 5 13 23 17 10 2

Tabela 2.2: Tabel cu nlimile plantelor. Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei se mai numesc i

densiti de frecven.
=k

n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac: frecvena limea clasei

nlimea

k = factor

de proporionalitate.

Comenzile

Matlab uzuale pentru crearea histogramelor sunt:


% % % % % % % unde X este un vector, n este numarul de bare deseneaza distributia vectorului X, cu numarul de bare egal cu lungimea vectorului Y, centrate in elementele lui Y returneaza numarul N de valori ale vectorului X, care se afla intre elementele vectorului E reprezinta grafic pe N determinat anterior realizeaza o histogram 3D, unde Y este vector bidimensional

hist(X, n); hist(X, Y); N = histc(X,E); bar(E,N,'histc') hist3(Y)

Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul

Matlab care produce acest grac este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ... 5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor hist(X,C); % deseneaza 6 histograme axis([-1 31 0 30]) % fixeaza axele

2.2

S presupunem c altcineva ar  grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu sunt echidistante (vezi Tabelul 2.4). n Tabelul 2.4, datele din ultimele dou clase au fost cumulate ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea

Laborator 1 [Dr. Iulian Stoleriu]


suciente date. Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.

14
Conform cu

regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei corespunztoare, deoarece limea acesteia este dublul limii celorlalte. n general, pentru a construi o histogram, vom avea n vedere urmtoarele:

datele vor  mprite (unde este posibil) n clase de lungimi egale.


alteori va trebui s le fabricm.

Uneori aceste divizri sunt naturale,

numrul de clase este, n general, ntre

20.

nregistrai numrul de date ce cad n ecare clas (numite

frecvene).

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:

x = randn(1000, 2); hist3(x)

% numere repartizate normal

Figura 2.5: Histogram 3D.

Observaia 2.2
[20, )),
lui precedent.

(1)

Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este

atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-

(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea utiliza alte valori. Spre exemplu, s considerm clasa ce au nlimea cuprins ntre i

[15, 20).

Aceast clas reprezint clasa acelor plante

15cm

20cm.

Deoarece valorile nlimilor sunt valori reale, valorile

15

20

sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast

clas s conin acele plante ce au nlimile situate ntre

14.5cm

(inclusiv) i

putea face referire la aceste valori ca ind valorile reale ale clasei, numite

frontierele clasei.

20.5cm

(exclusiv).

Am

n cazul n

care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i

Laborator 1 [Dr. Iulian Stoleriu]


corespund. n concluzie, n cazul clasei de frecven

15
[15, 20),
aceasta are frontierele

14.5 - 20.5,

limea

i densitatea

17 6 .

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

densitile de frecven pentru datele din Tabelul 1.4.

nlimea (n cm) frecvena


[0, 5) [5, 10) [10, 15) [15, 20) [20, 30) 5 13 23 17 12

Tabela 2.4: Tabel cu nlimile plantelor. Tabela 2.5: Histograme pentru datele din Tabelul 2.4. nlimea (n cm)
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)

frontierele
17.5 25.5 24.5 35.5 34.5 45.5 44.5 55.5 54.5 65.5

limea frecvena densitatea de frecven


8 11 11 11 11 34 76 124 87 64 4.25 6.91 11.27 7.91 5.82

Tabela 2.6: Tabel cu frontierele claselor.


Reprezentare prin sectoare de disc
Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (

pie charts),
este

en.,

ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n

special la reprezentarea datelor calitative. Comanda

pie(X ).

Matlab pentru un pie chart pentru un vector X

De exemplu, comanda care produce Figura 2.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56]; pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})

Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.


pie3([34 76 124 87 64])

Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda

pie3(x)

din

Laborator 1 [Dr. Iulian Stoleriu]


10% Nota 5 Nota 6 Nota 7 Nota 8 Nota 9 Nota 10

16
16%

11%

22% 16%

26%

Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note

Figura 2.7: Reprezentare pe disc 3D

STATS 2 [Dr. Iulian Stoleriu]

17

3 Statistic Aplicat (C2) Elemente de Teoria probabilitilor


Experiene aleatoare
Numim

experien aleatoare

(sau

experiment aleator)

orice act cu rezultat incert, care poate  repetat n

anumite condiii date. Opusul noiunii de experiment aleator este

experimentul determinist,

semnicnd

un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ, observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete zultatul potenial al unei experiene aleatoare se numete duble

eveniment aleator.

prob.

Re-

De exemplu: apariia unei

(6, 6)

la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete

caz favorabil eveniment

pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete

elementar.
Fie

o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element

al lui

l vom nota cu

Vom numi

oricrei experiene aleatoare.

evenimentul sigur, acel eveniment care se poate realiza n urma Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.
A, B, C, . . . .
Prin

Evenimentele aleatoare le vom nota cu care se realizeaz atunci cnd

nu se realizeaz. Avem:

Ac vom nota Ac = \ A.

evenimentul complementar lui

A,

Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de

litate.

probabi-

n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic

(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene relative) sau utiliznd deniia axiomatic (Kolmogorov).

Probabilitatea clasic

este denit doar pentru cazul n care experiena aleatoare are un numr nit de

cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i numrul cazurilor egal posibile ale experimentului aleator.

Exemplu 3.1

Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri

ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor elemente. Cazurile favorabile sunt cele din mulimea elemente. Probabilitatea apariiei unei duble este

{(i, j ); i, j = 1, 6}, care are 36 de {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6 6 1 P = 36 =6 .

Sunt ns foarte multe cazuri n care deniia clasic nu mai poate  utilizat. Spre exemplu, n cazul n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.

[0, 1] [0, 1],

acesta s se

situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor

Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.

3 Pierre-Simon,

marquis de Laplace (1749 1827), matematician i astronom francez

STATS 2 [Dr. Iulian Stoleriu]

18

S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul aleator

(e.g., apariia feei cu

puncte).

Aceste experiment aleator l putem efectua de S notm cu

ori n

condiii identice (spunem c efectum nu inueneze rezultatul alteia ( a lui

probe independente).

probe ale experimentului), astfel nct rezultatul unei probe s

N (A) frecven absolut

de realizare

n cele

probe independente. Raportul

acest raport, ce are urmtoarele proprieti:

N (A) N

se va numi

frecven relativ.

Notm cu

fN (A)

(a) (b) (c) (d)


Mai mult, exist notat

0 fN (A) 1; fN () = 1; fN (Ac ) = 1 fN (A), A; fN (A B ) = fN (A) + fN (B ),


dac

B = .

lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

P (A).

Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor

relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4). n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov

4 (1929) i are la baza teoria msurii.

Deniia axiomatic a probabilitii


Reamintim,

este o mulime abstract, nevid.

Deniia 3.2
(a)

Numim

algebr sau cmp o colecie F

de submulimi ale lui

astfel nct:

F; c (b) dac A F , atunci A F ; (Ac = \ A) (c) dac A, B F , atunci A BF

(nchidere la complementariere) (nchidere la reuniune nit).

Propoziia 3.3

(c) implic

n
(c') dac

(Ai )i=1, n F ,

atunci

Ai F .
i=1

(3.1)

Deniia 3.4

Numim

algebr

sau

cmp

(sau

corp borelian)

o colecie

de submulimi ale lui

astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem

(c') dac

(An )nN F ,

atunci

An F ;
n=1

(nchidere

la reuniune numrabil)

(3.2)

Exemplu 3.5
(2)

(1) = R i F = {A; A R} este o algebr; F = {, } este o algebr; c (3) Dac A , F = {A, A , , } este o algebr; (4) Dac A R, atunci mulimea tuturor prilor lui A, P (A), formeaz o -algebr. (5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F ) msurabil. Elementele unei -algebre se numesc mulimi msurabile.

se numete

spaiu

4 Andrei

Nikolaevich Kolmogorov (1903 1987), matematician rus

STATS 2 [Dr. Iulian Stoleriu]

19
.
Numim

Deniia 3.6
algebr

Fie

o colecie de submulimi ale lui

algebr generat de F

cea mai mic

ce conine

F.

O notm prin

(F )

i este, de fapt,

(F ) =
AF

A.

(3.3)

Dac Dac

e un spaiu topologic, vom numi

mulimilor deschise din

E = Rd , atunci A Bd se numete mulime borelian.

E , i.e., cea mai B (Rd ) (sau B d )

-algebr Borel5 , notat B (E ), -algebra mic -algebr ce conine deschiii lui E . este -algebra generat de cuburile deschise

generat de familia din

Rd .

O mulime

Deniia 3.7
proprietile:

O funcie

P : (, F ) R,

care asociaz oricrui eveniment

AF

numrul real

P (A),

cu

(a) (b) (c)


se numete

P (A) 0, A F ; P () = 1; P (A B ) = P (A) + P (B ), A, B F , A B = ,

probabilitate. cmp de probabilitate n sens Kolmogorov i l vom nota cu (, F , P ).


(c)
avem:

Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente o probabilitate

(, F )

nzestrat cu

se numete

Observaia 3.8
(c)
dac

Dac n locul condiiei

(An )nN F

disjuncte dou cte dou (Ai

Aj = , i = j )

P(
nN

An ) F

, atunci

P(
nN

An ) =
nN

P (An ).

( aditivitate)
iar

(3.4)

atunci P se va numi probabilitate aditiv pe corpul borelian (, F ), borelian de probabilitate.

(, F , P )

se va numi

cmp

Observaia 3.9

(1) Fie

o mulime cu

elemente,

F = P () A

A .

Atunci

P ( A) =
denete o msur de probabilitate pe

card card

(3.5)

F (probabilitatea n sens clasic). (b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur pe spaiul msurabil (, F ), iar tripletul (, F , P ) se va numi spaiu cu msur. O probabilitate este astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
(2) n cazul n care condiia Spunem c o proprietate

are loc a.s.

(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi

pentru care

P (A) = 0.

O astfel de mulime se va numi mulime

P -nul.

5 Flix

douard Justin mile Borel (1871 1956), matematician si politician francez

STATS 2 [Dr. Iulian Stoleriu]

20

Cmp de probabilitate
Principalul concept al teoriei probabilitilor este proprieti: (i) (ii)

spaiu probabilistic sau cmp de probabilitate.


(, F , P ),

n cele ce

urmeaz, cnd ne vom referi la cmp de probabilitate, vom nelege un triplet

cu urmtoarele

este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment ndeplinite urmtoarele condiii:

stochastic);

F P () este o -algebr, i.e., sunt (1 ) F ; (2 ) A F = Ac F ; (3 ) (An )nN F = An F ;


nN

(iii)

P : F R e o funcie satisfcnd condiiile: (P1 ) P () = 1; (P2 ) A F , P (A) 0; (P3 ) (An )nN , An Am = , n = m, avem P (
nN

An ) =
nN

P (An ).

F se numesc evenimente iar sunt elemente de prob. A F , cu A -algebr, o vom numi sub- -algebr a lui F . (iii) A F , P (A) se va numi probabilitatea lui A. (iv) Dac P (A) = 0, atunci A se va numi mulime P -nul. (v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui (ii) O mulime Dat ind un ir

Terminologie:

(An )nN

denim

lim inf An =
n n=1 mn

Am

lim sup An =
n n=1 mn

Am .

(3.6)

n general,

lim inf An lim sup An .


n n

n caz de egalitate vom spune c irul

(An )nN

are limit i vom scrie

lim An = lim inf An = lim sup An .


n n

(3.7)

Observaia 3.10
toate

Din punct de vedere euristic,

lim inf An
n

reprezint evenimentul care se realizeaz cnd

An

se realizeaz, mai puin un numr nit. Pe de alt parte,

lim sup An
n

nseamn realizarea unei

inniti de evenimente din irul

A1 , A2 , . . . .

Cmp de probabilitate geometric


S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un interval

[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale intervalului [a, b], i.e., oricare ar  dou subintervale de aceeai lungime, este la fel de probabil ca punctul
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un numr mare de puncte, acestea vor  repartizate aproximativ uniform n

[a, b],

i.e., nu vor exist puncte

n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea

STATS 2 [Dr. Iulian Stoleriu]


ca un punct s cad ntr-un subinterval al lui poziia sa n interiorul lui

21
[a, b] este dependent de lungimea acelui subinterval i nu de

[a, b].

Mai mult, aceasta este chiar proporional cu lungimea subintervalului.

Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile. Dac

[a, b]

e mulimea cazurilor egal posibile i

[c, d] [a, b]

este mulimea cazurilor favorabile, atunci

probabilitatea ca punctul ales s cad n

[c, d]

este

P ( A) =
n particular, dac

d]) dc = . msura ([a, b]) ba


msura ([c,

x (c, d),

atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid

cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib probabilitatea nul, far ca el s e evenimentul imposibil

. D, astfel ca s nu existe

n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar

puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul D . D D este aria aria D n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.

Probabiliti condiionate
Fie spaiul probabilistic (, F , P ) i A, B F , cu P (B ) > 0. Denim probabilitatea evenimentului A condiionat de realizarea evenimentului B , notat P (A|B ) sau PB (A), prin:

PB (A) =

P (A B ) . P (B )

(3.8)

Observaia 3.11 PB (A) astfel denit va  o probabilitate pe F , iar tripletul (, F , PB ) este un cmp
de probabilitate.

Propoziia 3.12
P (Bi ) > 0, i I .

(a)

(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
P (A) =
iI

Atunci

P (Bi ) PBi (A), A F . P (A) > 0,


avem:

(3.9)

(b)

(formula lui

Bayes6 ) n condiiile de la (a) i, n plus,


PA (Bi ) =

P (Bi ) PBi (A) P (Bj ) PBJ (A)


j I

, i I.

(3.10)

(c) Dac

B1 , B2 , . . . , Bn F , P (B1 B2

astfel nct

P (B1

B2

Bn ) > 0,

atunci:

Bn ) = P (B1 ) PB1 (B2 ) . . . PB1

Bn1 (Bn ).

(3.11)

6 Thomas

Bayes, (1702 1761) matematician britanic

STATS 2 [Dr. Iulian Stoleriu]

22

Variabile aleatoare
Din punct de vedere euristic, o

variabil aleatoare

este o funcie ce ia valori ntmpltoare. n via de

zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului

X, Y, Z
Fie

sau

, ,

i altele.

O funcie

(, F , P ) un cmp de probabilitate i (E, E ) un spaiu msurabil. X : (, F , P ) (E, E ) se numete variabil aleatoare (v.a.)
pentru orice

dac (3.12)

B E , X 1 (B ) F

(mai spunem c

este o funcie

Fmsurabil).

n particular, dac:

(E, E ) (R, B (R)),

atunci

este o

variabil aleatoare real; vector aleator (sau v.a.) d-dimensional();


este o

(E, E ) (Rd , B (Rd )),

atunci

este

(E, E ) (Rnm , B (Rnm ),

atunci

matrice aleatoare.
pentru ca

Deoarece mulimile este sucient ca

{(, x], x R}

genereaz

B (R),

X : (, F , P ) R

s e o v.a. real (3.13)

x R, { | X ( ) x} F .
Vom utiliza notaiile

{X x} = { | X ( ) x}
not

not

i, n general,

{X B } = { | X ( ) B }
Dac

X : (, F , P ) Rd

este o v.a., atunci

F (X ) = {X 1 (B ), B Bd }
este o a lui Dac

algebr, denumit algebra generat de v.a. X . F astfel nct X este msurabil. (Xn )nN
este un ir de v.a. reale astfel nct

Astfel,

(X ) este cea mai mic sub algebr


aproape pentru toi

Xk ( ) X ( ),

atunci

este tot o v.a. real.

Xi : (, F , P ) (E, E ), (i I ) o familie de v.a.. Denim algebra generat de notat (Xi , i I ), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie

familia

{Xi , i N},

Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim poate lua o mulime continu de valori (un interval nit sau innit din

continuu).

R),

i le

v.a. discrete) sau vom numi (v.a. de tip

Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii

ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui activ nanciar ntr-o perioad bine determinat. O v.a. discret

se poate scrie sub forma

X ( ) =
i J

xi Ai ( ), , J N.

(3.14)

STATS 2 [Dr. Iulian Stoleriu]


Aici

23
A,
iar

este funcia indicatoare a mulimii

Ak = X 1 ({xk }). Ai

Observm cu uurin c

Ai =
i=1

Aj = , i = j.

Uneori, unei o v.a. discrete i se atribuie urmtorul

tablou de repartiie:
xi pi ,
(3.15)

X:
n
unde

pi = P (X = xi ), i J N,
i=1

pi = 1.

Spre exemplu, tabloul de repartiie pentru v.a. ce reprezint

numrul de puncte ce apare la aruncarea unui zar ideal este:

1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6


O v.a.

real se numete

de tip continuu
(a) (b)
R

dac exist

f : Rd R

msurabil Borel ce ndeplinete

condiiile:

f (x) 0,

a.s.

f (x) dx = 1 PX (B ) =
B

(c)
Funcia

f (x) dx,

B F .

se numete

densitatea de repartiie a lui X .


X : (, F , P ) (Rd , B (Rd )).

n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale unei variabile aleatoare

Caracteristici funcionale ale variabilelor aleatoare

Repartiia
Repartiia
prin (sau

legea,

sau

distribuia)

lui

este o msur de probabilitate pe

Bd , PX : Bd [0, 1],

dat

PX (B ) = P (X B ), B Bd .
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:

(3.16)

PX (B ) =
j J
unde

P (Aj )xj (B ),

(3.17)

a (B ) =
Repartiia unei v.a.

1, 0,

dac

aB

n rest

de tip continuu este:

PX (B ) =
B

f (x) dx,

B Bd ,

(3.18)

STATS 2 [Dr. Iulian Stoleriu]


unde

24
X.
n limba englez, pentru repartiie se folosesc termenii:

distribution sau law.

f (x)

este densitatea de repartiie a lui

Funcia de repartiie (sau funcia de repartiie cumulat)


Numim

funcie de repartiie

ataat v.a reale

o funcie

F : R [0, 1],

dat prin

F (x) = P (X x).
Astfel, Dac

F (x) = PX ((, x]),

adic este repartiia mulimii

Termenul n englez pentru funcia de repartiie este

X = (X1 , X2 , . . . , Xd ) : (, F , P ) Rd d denete ca ind F : R [0, 1], dat prin

cumulative distribution function (cdf ).

(, x].

este un vector aleator, atunci funcia de repartiie se

F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:

este cresctoare (F (x)

F (y ), x, y R, x y );
y x

este continu la dreapta ( lim

F (y ) = F (x), x R);

lim F (x) = 0

lim F (x) = 1.

n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia ntr-un punct

este:

F (x) =
{i; xi x}
Dac

pi .

(3.19)

este o variabil aleatoare continu i

este densitatea sa de repartiie, atunci funcia de repartiie

este dat de formula:

F (x) =

f (t) dt,

x R.

(3.20)

Observaia 3.13

x R dat. Numim funcie de repartiie complementar, x) = 1 F (x), x R.

Deseori n calcule probabilistice, avem de calculat evenimentul funcia

P (X > x), pentru un Fc : R [0, 1], dat prin F (x) = P (X >

Funcia caracteristic
Numim

funcie caracteristic ataat v.a reale X


X (t) =
kJ

o funcie

X : R C,

dat prin: discret)

ei t xk pk ,

dac

X=
k J

xk Ak , (X =

X (t) =
R
Aici,

ei t x f (x) dx, (i2 = 1).

dac

X=

variabil aleatoare continu.

este numrul imaginar,

Proprieti ale funciei caracteristice:

STATS 2 [Dr. Iulian Stoleriu]


|X (t)| = 1, t R; a X (t) = X (a t), t R, a R; a X +b (t) = X (a t)eibt , t R, a R; X (t) = X (t), t R; X : R C
este uniform continu;

25

ti , tj R, zi , zj C

avem

X (ti tj )zi z j 0.
i, j =1

Funcia de probabilitate (sau de frecven)


Fie

o variabil aleatoare discret,

X ( ) =
i J

xi Ai ( ), , Ai F , J N.
o funcie

Numim

funcie de

probabilitate (de frecven) ataat variabilei aleatoare discrete X


f (xi ) = pi ,
Funcia de probabilitate ( unde

f : R R,

denit prin

pi = P (Ai ), i J.

en., probability distribution function) pentru o variabil aleatoare discret este


f (xi ) 0, i J,
n

similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le satisface funcia de probabilitate sunt:

f (xi ) = 1.
i=1

Caracteristici numerice ale variabilelor aleatoare

Media
Deniia 3.14
Dac

este o v.a. de tip discret,

X ( ) =
iJ

xi Ai ( ), , J N,

atunci

media
(3.21)

acestei v.a. se denete prin:

E(X ) =
i J

xi P (Ai ).

Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media (teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:

E(X ) =
R

xf (x)dx,

(dac

aceast integral exist).

(3.22)

Observaia 3.16 Deniia mediei poate  dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.

STATS 2 [Dr. Iulian Stoleriu]


n

26
cu

Pasul 1:

O v.a.

X ( ) =
i=1

xi Ai ( )

se numete

v.a. simpl.
n

Pentru v.a. simpl

denim

media (notat cu

E(X ))

astfel:

E(X ) =

not

X ( ) dP ( ) =
i=1

xi P (Ai ). Xn : R, (n N)
de v.a. simple astfel

Pasul 2:
nct

Dac

X :R

X 0,

atunci exist un ir

0 X1 ( ) Xn ( ) X ( ),
i

n
Denim

lim Xn ( ) = X ( ).

E(X ) = lim E(Xn ).


n

Pasul 3:

Fie

X:R

o v.a.. Atunci

X=

X+

X ,

unde

X + ( ) = max{X ( ), 0},
n acest caz denim

X ( ) = max{X ( ), 0} = (X )+ ( ).

media lui X ,

E(X ) = E(X + ) E(X ),


i

ori de cte ori mcar una dintre

este o

v.a. integrabil.

E(X + )

E(X )

este nit. Cnd ambele sunt nite, atunci spunem c

Dac

X = X1 + iX2 : C,

denim media v.a. complexe

prin

E(X ) = E(X1 ) + iE(X2 ),


ori de cte ori ambele medii exist i sunt nite. Dac

este un vector aleator,

X = (X1 , X2 , . . . , Xd )T : Rd ,

atunci denim media lui

prin

E(X ) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .

Propoziia 3.17
Atunci

Fie

X : Rd

o v.a. cu densitatea de repartiie

i o funcie msurabil

g : Rd R.

E(g (X )) =
n particular, dac

g (x)f (x) dx.


Rd

g:RR

este funcia identic, atunci:

E(X ) =

X ( ) dP ( ) =
R

xf (x) dx,

i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15. Relaia anterioar se mai numete i pe mulimea

formula de transport

pentru integral, deoarece integrala abstract

este "transportat" ntr-o integrala Riemann pe

R.

Dispersia (sau variana) i abaterea standard


X este o variabil aleatoare i X = X E(X ) (numit abaterea lui X de la media sa), atunci E(X ) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X n jurul mediei sale doar calculnd X E(X ). Avem nevoie de o alt msur. Aceasta este dispersia variabilei aleatoare.
Dac

STATS 2 [Dr. Iulian Stoleriu]

27
X
este o v.a. discret,

Deniia 3.18
denim

Dac

X ( ) =
i J

xi Ai ( ), , J N, cu media E(X ) = m,

dispersia lui X

ca ind:

D 2 (X ) =
i J

(xi m)2 pi ,

unde

pi = P (Ai ), i J.

(3.23)

Deniia 3.19
E(X ) = m R).

Fie

X : R

o v.a.

de tip continuu pentru care media poate  denit (exist (sau variana lui

Denim dispersia lui

X)

cantitatea

D2 (X ) = E[(X m)2 ] =
R

(x m)2 f (x) dx.

(3.24)

Notaiile consacrate pentru dispersie sunt

D2 (X )

sau

2.

Observaia 3.20

Dispersia scris ca integral abstract (vezi propoziia anterioar) este:

2 =

(X ( ) m)2 dP ( ).

Numim

abatere standard (sau deviaie standard) cantitatea = 2 .

Laborator 2 [Dr. Iulian Stoleriu]

28

Experiene aleatoare n Matlab


Generarea de numere (pseudo-)aleatoare
Numerele generate de el vor 

4 Statistic Aplicat (L2)

pseudo-aleatoare.

Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
Putem face abstracie de modul programat de generare ale acestor numere i

s considerm c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate ntr-un interval, U (a, b)


Funcia rand
rand

Funcia

genereaz un numr aleator repartizat uniform n

[0, 1].

De exemplu, comanda X =

(rand < 0.5)


X
astfel generat este un

simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul numr aleator repartizat

B (1, 0.5).

De asemenea, numrul Y = urmeaz repartiia

sum(rand(10,1) < 0.5)


10
aruncri ale unei monede ideale).

B (10, 0.5)

(simularea a

rand(m, n)
Comanda

genereaz o matrice aleatoare cu

mn

componente repartizate

U (0, 1). [a, b].

a + (b a) rand

genereaz un numr pseudo-aleator repartizat uniform n

Folosind comanda

s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-

zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniializarea lui, putem folosi comanda

rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state', 'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,

rand('state', 125)
xeaz generatorul la starea

125.

Laborator 2 [Dr. Iulian Stoleriu]

29
(a, b)
nelegem

Observaia 4.1

Printr-o generare de numere aleatoare uniform distribuite n intervalul

numere aleatoare care au aceeai ans de a  oriunde n

(a, b),

i nu numere la intervale egale.

Figura 4.1 reprezint cu histograme date uniform distribuite n intervalul

Matlab:

[2, 3],

produse de comanda

hist(5*rand(1e4,1)-2,100)

Figura 4.1: Reprezentarea cu histograme a datelor uniforme.


Generarea de numere repartizate normal, N (, )
Funcia randn
randn

Funcia

genereaz un numr aleator repartizat normal

N (0, 1). N (0, 1).

randn(m, n)

genereaz o matrice aleatoare cu

mn

componente repartizate

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:

randn(method, s)
unde unde sau

method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state' 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
m + randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul

Comanda

urmtor produce Figura 4.2:

x = 0:0.05:10; y = 5 + 1.1*randn(1e5,1); hist(y,x)

% date distribuite N (5, 1.1)

Laborator 2 [Dr. Iulian Stoleriu]


250

30

200

150

100

50

10

Figura 4.2: Reprezentarea cu histograme a datelor normale.


Generarea de numere aleatoare de o repartiie dat
Comenzile

Matlab
legernd(<param>, m, n)

random('lege',

<param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu numere aleatoare ce urmeaz repartiia din Figura 6.1. De exemplu,

m linii i n coloane, avnd componente

lege.

n loc de

lege putem scrie oricare dintre expresiile din tabelul

normrnd (5, 0.2,


genereaz o matrice aleatoare cu

100, 10);

100 10

componente repartizate

N (5, 0.2).

random ('poiss',0.01, 200, 50);


genereaz o matrice aleatoare cu Utiliznd comanda

200 50

componente repartizate

P (0.01).

randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. generate de parametri Comanda deschide o interfa

grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele

Matlab pot  exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
10000
de numere ce urmeaz repartiia lognormal de i

din Figura 4.3, am generat o selecie aleatoare de

=2

= 0.5

i am salvat-o (folosind butonul

Export) ntr-un vector L.

Laborator 2 [Dr. Iulian Stoleriu]

31

Figura 4.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.


Simularea aruncrii unei monede

Comanda X = (rand < 0.5); simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul numr aleator repartizat

astfel generat este un

B (1, 0.5)

(similar cu schema bilei revenite, n cazul n care o urn are bile

albe i negre n numr egal i extragem o bil la ntmplare)

Numrul Y = urmeaz repartiia

sum (rand(30,1)<0.5)
30
aruncri ale unei monede ideale).

B (30, 0.5)

(simularea a

Acelai experiment poate  modelat i prin comanda

round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim

sum(round(rand(30,1)))

Exemplu 4.2

Dorim s scriem o funcie

MATLAB care s simuleze aruncarea repetat a unei monede


p (0, 1).
S se determine

msluite, pentru care probabilitatea teoretic de a obine o anumit fa este

Laborator 2 [Dr. Iulian Stoleriu]


probabilitatea ca la aruncarea monedei s obinem faa cu

32
stema
i s deseneze o gur care s justice

grac convergena irului frecvenelor relative la aceast probabilitate.

function moneda(N,p); x = rand(1, N); V = (x < p); Sn = cumsum(V); A = 1:N; Fn = Sn./A; semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); axis([0 N 0 1]); title('moneda') xlabel('aruncari');ylabel('probabilitatea')
moneda 1 1 5/6 3/4 probabilitatea probabilitatea

% % % % % % % % % %

functia moneda.m aruncam moneda valoarea de adevar a lui (x<p) suma cumulata vectorul nr de aruncari frecventa relativa a stemei reprezinta grafic Fn axele numele figurii numele axelor
zar

0.5

0.5

1/4 1/6 0 0

10

10 10 aruncari

10

10

10

10 10 aruncari

10

10

Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,

moneda(1e5,0.5),

produce gracul din Figura 4.4(a). De asemenea, se poate

simula i aruncarea unei monede msluite, dac alegem ca parametrul

al funciei s e diferit de

0.5.

Simularea n

Matlab a unei v.a.


i, respectiv,

de tip discret
3
rezultate posibile,

S considerm o variabil aleatoare ce poate avea doar realizare

a, b

c,

cu probabilitile de

0.5, 0.2

0.3.

Tabloul de repartiie asociat este:

X:
Pentru a modela aceast variabil aleatoare n un numr

a b c 0.5 0.2 0.3

din intervalul

[0, 1].

Dac

x < 0.5,

Matlab, procedm astfel: alegem uniform la ntmplare


atunci convenim c rezultatul

s-a realizat, dac

Laborator 2 [Dr. Iulian Stoleriu]


0.5 < x < 0.7,
atunci rezultatul

33
b
s-a realizat. Altfel, rezultatul v.a.

este

c.

Dac acest experiment se

repet de multe ori, atunci rezultatele pot  folosite n estimarea probabilitilor de realizare a variabilei aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale probabilitilor, deci putem spune c am aproximat variabila aleatoare n

Matlab, scriem:

X.

syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem apariia unei fee cu

rezultate posibile, i anume,

1, 2, 3, 4, 5

sau n

6 6

puncte.

Pentru a simula acest experiment, modicm n mod

convenabil problema. Vom considera c punctele din intervalul posibile i mprim intervalul

[0, 1] formeaz mulimea tuturor cazurilor

[0, 1]

subintervale de lungimi egale:

(0,

1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6

corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n

Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la Matlab
ntmplare" din intervalul

[0, 1]

i vericm dac acesta se a n intervalul

2 3 (6 , 6 ).

Aadar, comanda

u = rand; (u < 3/6 & u > 2/6)


6
fee sunt identice, putem simplica

simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele aceast comanda i scrie

(rand < 1/6).

Exemplu 4.3

Dorim s simuleze n

Matlab aruncarea repetat a unui zar corect. S se determine pro-

babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).

function dice(N); % functia dice.m u = rand(1, n); % probabilitatea aparitiei fetei Z1 = (u < 3/6 & u > 2/6); % aparitia fetei freq = cumsum(Z1)./(1:n); % frecventa relativa subplot(1,2,2); % activeaza fereastra din stanga semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:'); axis([0 n 0 1]); % axele title('zar') % numele figurii xlabel('aruncari');ylabel('probabilitatea')
Fiierul

dice.m simuleaz aruncarea unui zar dice(1e5) produce gracul din Figura 4.4(b).

corect de un numr

de ori.

O rulare a funciei, e.g.,

Laborator 2 [Dr. Iulian Stoleriu]

34

Metoda Monte Carlo


Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare varietate de probleme matematice prin efectuarea de experimente statistice pe un computer. Se poate aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii numerice pentru probleme care sunt prea dicile n a  rezolvate analitic. Este o metod folosit de secole, dar a cptat statutul de metod numeric din anii

1940.

1946,

S. Ulam

7 a devenit primul matema-

tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis metodei. Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate  vzut ca un proces stochastic este un candidat n a  modelat prin metoda MC.

8 a adus contribuii importante

Integrarea folosind metoda Monte Carlo


Dorim s folosim metode Monte Carlo pentru evaluarea integralei

I=
a

f (x) dx.

(4.1)

n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient dect alte metode de aproximare cnd dimensiunea spaiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:

Varianta 1
funciei

(poate  aplicat doar pentru

f 0.

Dac

i valori negative, dar este mrginit inferior,

atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul

ntr-un dreptunghi

D = [a, b] [0, d],


unde

d > sup f .
[a, b]

Evalum integrala folosindu-ne de calculul probabilitii evenimentului

A,

c un punct

ales la ntmplare n interiorul dreptunghiului

s se ae sub gracul funciei

experien aleatoare: alegem n mod uniform (comanda experiena de un numr

rand

f (x).

Facem urmtoarea

ne ofer aceast posibilitate n

un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui

f (x).

Matlab)
Repetm

(mare) de ori i contabilizm numrul de apariii

f (N ) ale punctului sub grac.

Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va  aproximat de frecvena relativ a realizrii evenimentului, adic

P
Pe de alt parte, probabilitatea teoretic este

f (N ) . N I ,

P =
8 Nicholas 7 Stanislaw

aria dreptunghi

Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina Constantine Metropolis (1915 1999), zician grec

Laborator 2 [Dr. Iulian Stoleriu]


de unde aproximarea

35
f (N ) . N

I
bun.

aria dreptunghi

(4.2)

Totui, aceast metod nu e foarte ecient, deoarece

trebuie s e foarte mare pentru a avea o precizie

Exemplu 4.4

Utiliznd metoda Monte Carlo, s se evalueze integrala

I=
2

ex dx.

Soluie:

Generm

106

puncte aleatoare n interiorul ptratului

[2, 5] [0, 1]

acestea se a sub gracul funciei grala dorit:

f (x) = ex , x [0, 1].

Urmtoarea funcie

Matlab calculeaz inte-

i vericm care dintre

function I = integrala(N) x = 7*rand(N,1)-2; y = rand(N,1); f = find(y < exp(-x.^2)); I = 7* length(f)/N;


O rulare a funciei,

% % % %

functia integrala.m genereaza N numere aleatoare in [2, 5] [0, 1] 2 numar punctele aflate sub graficul functiei ex formula (4.2)
I = 1.7675.

integrala(1e6),

ne furnizeaz rezultatul

Varianta 2

Putem rescrie integrala n forma

I = (b a)
a
unde

f (x)h(x) dx,

(4.3)

h(x) =
Funcia rescrie

1 ba 0

, ,

dac

x [a, b],

altfel.

h(x)

denit mai sus este densitatea de repartiie a unei v.a.

X U [a, b],

iar relaia (4.1) se (4.4)

I = (b a)E(f (X )).
Folosind legea slab a numerelor mari, putem aproxima

prin:

I
unde

ba N

f (Xk ),
k=1

(4.5)

Xk

sunt numere aleatoare ce urmeaz repartiia

U [a, b].

Putem generaliza aceast metod pentru calculul integralelor de tipul

f (x) dx,
V

unde

V Rn .

Laborator 2 [Dr. Iulian Stoleriu]

36

Exemplu 4.5
Soluie:

S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).

Codul

Matlab este urmtorul:


% genereaza 106 numere aleatoare U (2, 5) 2 % g (x) = ex % 7*media lui g(x) % I 1.7671

x = 7*rand(1e6,1)-2; g = exp(-x.^2); I = 7*mean(g)

sau, restrns, putem apela urmtoarea comand:

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))

Exemplu 4.6

Evalund integrala

I=
0

ex dx e. (e = I + 1).

printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent

Soluie:

estimate = mean(exp(rand(10^6,1))) + 1

% e 2.7183

Exemplu 4.7 (aproximarea lui folosind jocul de

darts

n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit, ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct, dac nu - nu ctigai nimic. Repetm jocul de un numr puncte acumulate, s zicem c acest numr este

de ori i contabilizm la sfrit numrul de

N .

S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are aceeai ans de a  intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem c de ecare dat cnd aruncai sgeata, ea se nnge n tabl. Se cere s se aproximeze valoarea lui care s simuleze experimentul.

pe baza jocului de mai sus i s se scrie un program n

Matlab

Soluie:

S notm cu

numrul de aruncri de limit irului

A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat N frecvenelor relative, adic lim . n N P (A) =
aria disc aria perete

Pe de alt parte,

= 4.

Aadar, putem aproxima

prin

Funcia lui

Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
metoda Monte Carlo.

N N

(pentru N

1).

(4.6)

este o

Laborator 2 [Dr. Iulian Stoleriu]

37

function Pi = darts(N) % numar de aruncari theta = linspace(0,2*pi,N); % genereaza vectorul theta x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese Prob = S/N; % frecventa relativa approxpi = 4*Prob; % aproximarea lui pi axis([0 1 0 1]); % deseneaza axele title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,

darts(2000),

ne genereaz Figura 4.5.

Figura 4.5: Simularea jocului de darts.

STATS 3 [Dr. Iulian Stoleriu]

38

5 Statistic Aplicat (C3) Elemente de Teoria probabilitilor (II)


Caracteristici numerice ale variabilelor aleatoare (continuare)

Momente
Pentru o v.a. cu

X
i

de tip discret,

X ( ) =
iJ

xi Ai ( ), , J N,

E(X ) = m

pi = P (Ai ), i J , xk i pi
iJ

denim momentele: (momente iniiale de ordin

k (X ) = E(X k ) = k (X ) = E(|X | ) =
k

k ); k ); k ); k );

|xi |k pi
i J

(momente absolute de ordin

k (X ) = E((X m)k ) =
i J

(xi m)k pi |xi m|k pi


i J

(momente iniiale centrate de ordin

k (X ) = E(|X m| ) =
Pentru o v.a.

(momente absolute centrate de ordin

de tip continuu ce admite medie

m = E(X ) < ,

denim momentele:

k (X ) = E(X k ) =
R

xk f (x) dx =

X k dP |X |k dP

(momente iniiale de ordin

k ); k );

k (X ) = E(|X |k ) =
R

|x|k f (x) dx =

(momente absolute de ordin

k (X ) = E((X m)k ) =
R

(x m)k f (x) dx =

(X m)k dP |X m|k dP

(momente iniiale centrate);

k (X ) = E(|X m|k ) =
R

|x m|k f (x) dx =

(momente absolute centrate);

Cuantile
Fie o v.a.

cu funcia de repartiie

F (x).

Deniia 5.1

Pentru

(0, 1),

denim

cuantila de ordin

valoarea

astfel nct: (5.1)

F (x ) = P (X x ) = .

Observaia 5.2

(1)

Cuantilele sunt msuri de poziie, ce msoar locaia unei anumite observaii fa

de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea aria haurat este chiar

este acel numr real pentru care

STATS 3 [Dr. Iulian Stoleriu]

39

Figura 5.1: Cuantila de ordin .


X

(2)

n cazul n care

este o variabil aleatoare discret, atunci (5.1) nu poate  asigurat pentru orice

.
(3)

ns, dac exist o soluie a acestei ecuaiei

F (x) = ,

atunci exist o innitate de soluii: intervalul

ce separ dou valori posibile.

mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( = j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
Cazuri particulare de cuantile:

Modul (valoarea cea mai probabil)


Este acea valoare

pentru care

f (x ) (densitatea de repartiie sau funcia de probabilitate) este maxim.

O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.

Inegaliti ntre momente


(a) (b) (c) (d)

r (X + Y ) cr (r (X ) + r (Y )),

unde

cr = 1

pentru

r (0, 1]

cr = 2r1

pentru

r > 1.

(r (X ))1/r (s (Y ))1/s , 0 r s;

(Lyapunov 9 ) (H lder10 );

E|XY | (E|X |r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1; (E|X + Y |r )1/r (E|X |r )1/r + (E|Y |r )1/r ; g:RR
convex. Atunci avem atunci avem:

(M inkowski11 ) (Jensen12 )

(e) Fie

g (E(X )) E(g (X )).

(f ) Dac

a > 0, p N ,

P ({|X | a})
10 Otto 9 Aleksandr

p (X ) ; ap

(M arkov 13 )

Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev Ludwig Hlder (1859 1937), matematician german 11 Hermann Minkowski (1864 1909), matematician german 12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez 13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev

STATS 3 [Dr. Iulian Stoleriu]


n particular, pentru

40
i

p=2

e nlocuit cu variabila aleatoare

(X m), (m = E(X )),

obinem:

P ({|X m| a})
Dac n inegalitatea lui Cebev lum

2 . a2 k N,

(Cebev14 )
atunci obinem:

(5.2)

a = k ,

unde

P ({|X m| k })
sau, echivalent:

1 , k2

(5.3)

P ({|X m| < k }) 1
n cazul particular

1 . k2

(5.4)

k = 3,

obinem

regula celor 3 :
P ({|X m| 3 }) 1 0.1. 9 8 , 9 [m 3, m + 3 ].
(5.5)

sau

P ({m 3 < X < m + 3 })


semnicnd c o mare parte din valorile posibile pentru

se a n intervalul

Standardizarea unei variabile aleatoare


Fie variabila aleatoare

X,

de medie

i dispersie

2.

Deniia 5.3
mat).

Variabila aleatoare

X =

X m

se numete

variabila aleatoare standardizat

(sau nor-

Proprietile variabilei aleatoare standardizate:

E(X ) = 0,

D 2 (X ) = 1 .

Corelaia i coecientul de corelaie


Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s se modice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c sunt direct Fie

<sau

pozitiv> corelate) sau n direcii opuse (X i mediile, respectiv,

sunt invers respectiv,

<sau

negativ> corelate).

X, Y v.a. cu X + Y , obinem:

mX , m Y

i dispersiile

2 , X

2. Y

Calculnd dispersia sumei

D2 (X + Y ) = E[(X + Y (mX + mY )2 )] = E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )] = D2 (X ) + D2 (Y ) + 2E[(X mX )(Y mY )].

14 Pafnuty

Lvovich Chebyshev (1821 1894), matematician rus

STATS 3 [Dr. Iulian Stoleriu]

41
corelaia
(sau

Deniia 5.4
cov(X,

Denim

covariana) v.a. X

Y,

notat prin cov(X,

Y ),

cantitatea

Y ) = E[(X mX )(Y mY )].


(a) Continund irul anterior de egaliti, putem scrie:

Proprietatea 5.5

D2 (X + Y ) = D2 (X ) + D2 (Y ) + 2

cov(X,

Y ).

(5.6)

lui

Y ),

atunci

(b) cov(X, Y ) = cov(Y, X ) = E[(X mX )(Y mY )] = E(XY ) mX mY . (c) cov(X, X ) = D2 (X ), pentru orice v.a. X . (d) cov(X + Y, Z ) = cov(X, Z ) + cov(Y, Z ), pentru orice v.a. X, Y, Z . (e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat. Y,
pentru care presupunem c variaiile i

Fie v.a.

standardizate,

X mX X= X
Se numete

Y mY Y = Y

2 X

2 Y

sunt nite i nenule. Considerm v.a.

Deniia 5.6
dizate

coecient de corelaie (teoretic) al v.a. X


(X, Y ) =
cov(X,

covariana variabilelor standar-

Y.

Notm astfel:

Y)=

cov(X,

Y)

X Y

(5.7)

Observaia 5.7
zrile celeilalte

(a)

Dac

sunt independente (i.e., realizrile uneia sunt independente de reali-

vezi seciunea urmtoare), atunci

(X, Y ) = 0. (b) (c) 1 (X, Y ) 1, pentru orice v.a. X Dac Y = aX + b (a, b R), atunci (X, Y ) = +1, 1,
dac dac i

Y.

a = 1; a = 1.

Independena
Conceptul de independen a v.a. sau a evenimentelor este foarte important din punctul de vedere al Independena este unul

calculului probabilitilor evenimentelor compuse din evenimente mai simple. n teoria din urm.

dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent

Deniia 5.8
(1)

Fie

(, F , P )

un cmp de probabilitate,

A, B F

dou evenimente arbitrare.

Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou i B = mine mergem la plaj sunt dependente. (2) S presupunem c evenimentul B satisface relaia P (B ) > 0. Vom spune c evenimentele A i B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic probabilitatea condiionat

P (A| B ) = P (A),

(5.8)

STATS 3 [Dr. Iulian Stoleriu]


echivalent cu

42
P (A B ) = P (A). P (B )

Putem rescrie ultima egalitate sub forma simetric:

P (A

B ) = P (A) P (B ). P (B ),

(5.9) este preferabil s

Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru denim independen a dou evenimente arbitrare astfel: Dou evenimente,

A, B F

se numesc

independente (stochastic) dac relaia (5.9) are loc.

Deniia 5.9
submulime

(i) Evenimentele

{i1 , i2 , . . . , ik }

a mulimii

A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare {1, 2, . . . , n} avem Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
sunt (5.10)

P (Ai1
(ii) Spunem c evenimentele evenimente,

Ai1

A1 , A2 , . . . , An

independente dou cte dou dac pentru oricare dou


(5.11)

Ai

Aj ,

din aceast mulime, avem

P (Ai
(iii) n general, evenimentele

Aj ) = P (Ai ) P (Aj )).


se numesc

(Ai )iI F , (I N), P(


j J

independente dac
(5.12)

Aj ) =
j J

P (Aj ),

pentru orice

J I, J nit.
Independen dou cte dou a evenimentelor nu implic independena n ansamblu.

Observaia 5.10
stema",

S exemplicm considernd urmtoarea experien. Considerm aruncarea a dou monede ideale. Fie

evenimentul ca "faa ce apare la prima moned este

evenimentul ca "faa ce apare la a doua moned este stema", iar

evenimentul ca "doar la o

moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele independente dou cte dou, deoarece:

A, B

sunt

P (A

1 C ) = P (A) P (C ) = ; 4

P (B

1 C ) = P (B ) P (C ) = ; 4

P (A

1 B ) = P (A) P (B ) = . 4

Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din relaia

0 = P (A

1 C ) = P (A) P (B ) P (C ) = . 8

Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente

Aj Mj ,

este ndeplinit condiia

P(
j J

Aj ) =
j J

P (Aj ).

(5.13)

STATS 3 [Dr. Iulian Stoleriu]

43
(Xi )iI : (, F ) R, (I N), sunt independente (n ansamblu) Xi , { (Xi )}iI , formeaz o familie de corpuri independente. : (, F ) R, (I N), sunt independente dou cte dou dac oricare ar 

Deniia 5.12
dac (2)

(1)

Spunem c v.a.

corpurile

generate de

Spunem c v.a.

(Xi )iI

dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).

Observaia 5.13

Deniia variabilelor aleatoare independente (n ansamblu) este echivalent cu:

Pentru orice

k2

i orice alegere a mulimilor boreliene

B1 , B2 , . . . , Bk Bd ,

avem: (5.14)

P {X1 B1 }

{X2 B2 }

{Xk Bk } = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),

sau, cu alte cuvinte, evenimentele

{X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente n ansamblu. X1 , respectiv,

Exemplu 5.14
X2 ,
din mulimea

S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu Aadar,

v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt

{1, 2, 3, 4, 5, 6}.

Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:

P {X1 = i}

{X2 = j }

1 36 = P ({X1 = i}) P ({X2 = j }), = P ({X1 = i, X2 = j }) = X1


i

i, j {1, 2, 3, 4, 5, 6},

aceast nsemnnd c variabilele aleatoare efectuate independent una de cealalt).

X2

sunt independente stochastic (aruncrile au fost

Teorema 5.15
(i) (ii) (iii) (iv )

Considerm familia de v.a.

{X1 , X2 , . . . , Xn },

Xi : (, F ) R, i = 1, n.

Urmtoarele armaii sunt echivalente:

X1 , X2 , . . . , Xn

sunt v.a. independente stochastic;

P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ; F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R; (X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(5.15)

Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:

Teorema 5.16

Dac

X1 , X2 , . . . , Xn

sunt v.a. reale, independente, astfel nct

E(|Xk |) < , k = 1, 2, . . . , n,
atunci

E(|X1 X2 . . . Xn |) <

i: (5.16)

E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).

Teorema 5.17

Dac

X1 , X2 , . . . , Xn

sunt v.a. reale, independente, astfel nct

D2 (Xk ) < , k = 1, 2, . . . , n,
atunci

D2 (X1 + X2 + . . . + Xn ) <

i: (5.17)

D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).

STATS 3 [Dr. Iulian Stoleriu]

44

Tipuri de convergen a irurilor de variabile aleatoare


Fixm

(, F , P )

un cmp de probabilitate i

Xn , X : R

variabile aleatoare cu media

i dispersia

2 nite.

Deniia 5.18
(1)

Spunem c: (notat

Xn converge aproape sigur la X

Xn X )
n

a.s.

dac

P ( lim Xn = X ) = 1,
echivalent cu relaia

0 F , P (0 ) = 1,
(2)

astfel nct

lim Xn ( ) = X ( ), 0 .
dac

Xn converge n probabilitate la X

(notat

Xn X ),

prob

> 0, lim P ({ : |Xn ( ) X ( )| }) = 0.


n
(3)

Xn converge n medie de ordin r la X


n

(notat

Xn X ),

Lr

dac

lim

|Xn ( ) X ( )|r dP ( ) = 0,

echivalent cu

(4)

Xn converge n repartiie
n

la

(notat

n R rep

lim

|xn x|r f (x)dx = 0.


dac

X, sau Xn X )

lim E(g (Xn )) = E(g (X )), g : R R,


dac

continu i mrginit.

(5)

Xn converge la X n sensul funciei de repartiie


n

lim FXn (x) = FX (x), x

punct de continuitate pentru dac

FX .

(6)

Xn converge la X n sensul funciei caracteristice


n

lim Xn (t) = X (t), t R.

Teorema 5.19 (legturi ntre diverse tipuri de convergen)


(a) (b) Xn X
Lr

Xn X

a.s.

implic

Xn X.

prob

implic

Xn X
prob

prob

(din inegalitatea lui Markov).

(c) (d)

Xn X

implic

Xn X.

Urmtoarele tipuri de convergen sunt echivalente: convergena n repartiie, convergena n funcie

de repartiie i convergena n funcie caracteristic.

Laborator 4 [Dr. Iulian Stoleriu]

45

6 Statistic Aplicat (L3) Repartiii probabilistice n Matlab


Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele notate anterior prin

f (x))

se introduc n

Matlab cu ajutorul comenzii pdf, astfel:


sau

pdf('LEGE', x, <param>)
Funcia de repartiie

LEGEpdf(x, <param>).

F (x)

a unei variabile aleatoare se poate introduce n

cdf,

Matlab cu ajutorul comenzii

astfel:

cdf('LEGE', x, <param>)

sau

LEGEcdf(x, <param>).
F 1 (y ),
se introduce cu comanda

Inversa funciei de repartiie pentru repartiii continue,

icdf,

astfel:

icdf('LEGE', y, <param>)
n comenzile de mai sus, iar

sau

LEGEinv(y, <param>).

vector pentru care se calculeaz

<param>

LEGE poate  oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y ),

este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.

Observaia 6.1
tiiei. Pentru un

Fie X x R,

o variabil aleatoare i relaia matematic

F (x, )

funcia sa de repartiie,

ind parametrul repar-

P (X x) = F (x)
o putem scrie astfel n

Matlab:
cdf('numele repartiiei lui X',x,).
(6.1)

Problema poate aparea la evaluarea n

este una continu, atunci corespondentul n

Matlab a probabilitii P (X < x). Dac repartiia considerat Matlab este tot (6.1), deoarece n acest caz

P (X x) = P (X < x) + P (X = x) = P (X < x).


De exemplu, dac

X N (5, 2),

atunci

P (X < 4) = cdf('norm', 4, 5, 2).


Dac

este de tip discret, atunci

P (X < x) =

P (X [x]) , x nu e ntreg P (X m 1) , x = m Z,

Laborator 4 [Dr. Iulian Stoleriu]


unde

46
x.
atunci

[x]

este partea ntreag a lui

De exemplu, dac

X B (10, 0.3),

P (X < 5) = P (X 4) = cdf('bino', 4, 10, 0.3) = 0.8497.

Tabelul 6.1 conine cteva repartiii uzuale i funciile corespunztoare n

Matlab.

repartiii probabilistice discrete

repartiii probabilistice continue

bino: nbin: poiss: unid: geo: hyge:

repartiia binomial repartiia Poisson

B (n, p) B N (n, p)

repartiia binomial negativ

P () U (n)

repartiia uniform discret repartiia geometric repartiia

G eo(p) hipergeometric H(n, a, b)

norm: unif: exp: gam: beta: logn: chi2: t: f: wbl:

repartiia normal

N (, )

repartiia uniform continu repartiia exponenial repartiia repartiia repartiia repartiia repartiia repartiia repartiia

U (a, b) exp() Gamma (a, ) Beta (m, n) lognormal log N (, ) 2 ( n ) student t(n) Fisher F (m, n) Weibull W bl(k, )

Tabela 6.1: Repartiii uzuale n


Exerciiu 6.1
(a) (b)
O moned ideal este aruncat de

Matlab
X
este variabila aleatoare ce reprezint

100

de ori, iar

numrul de fee cu stema aprute. Care este probabilitatea de a obine exact S se calculeze

52

de steme?

P (45 X 55).

Folosii aproximarea cu o variabil aleatoare normal.

Soluie:
B (100, 0.5),

(a)

Avem de calculat

P = P (X = 52).

ns

este o variabil aleatoare distribuit

aadar rezultatul exact este:

52 P = C100 (0.5)52 (0.5)48 = 0.0735.


(b) Notm cu

FX

funcia de repartiie pentru variabila aleatoare binomial

X.

Atunci,

P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)


55

=
k=45
Codul

k C100 (0.5)k (0.5)100k = 0.7287.

Matlab urmtor calculeaz probabilitile cerute, calculate analitic anterior.


% solutia exacta % solutia exacta

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)


.

Laborator 4 [Dr. Iulian Stoleriu]

47

Exerciiu 6.2
puin

Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit

staie i a gsit c, n medie, acesta este de

20 de minute.

Se tie c acest timp este distribuit exponenial.

Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel

15

minute pn vine urmtorul tramvai.

Soluie:
este:

Notm cu

timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu

FT

funcia sa de repartiie. tim c

T exp(),

unde

= 20.

Aadar, avem de calculat

P (T 15),

care

P (T 15) = 1 P (T < 15) = 1 FT (15),


i aceasta este

1 - cdf('exp',15, 20) = 0.4724,


ceea ce implic

47.24%

anse.

Exerciiu 6.3
sunt femei.

Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de

20%

La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a i se premiaz posesorii. (i) (ii) (iii) Care este probabilitatea ca mcar

7 bilete de intrare

dintre spectatorii premiai s e femei?

Care este probabilitatea ca nicio femeie s nu ctige la tombol? Dac selecia biletelor ctigtoare ar  fost realizat prin alegerea a

spectatori ce erau aezai

n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn aceleai.

Soluie:
(i) n

Fie

variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a

spectatori. Atunci

Matlab, Matlab,

X B (7, 0.2). Fie p = 0.2. P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.

P1 = 1-binocdf(2,7,0.2).
0 p0 (1 C7

(ii) n

P (X = 0) =

p)7

= 0.2097.

P2 = binopdf(0,7,0.2).
X
nu ar mai  o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie

(iii) n acest caz,

(spectatorii aezai alturi pot  cunotinte, prieteni etc.).

Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
ntr-o anumit or s intre n magazin cel puin

tiind c numrul

clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca

15 clieni? (b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind aproximarea cu repartiia normal.

Soluie:
(b) n

(a) Probabilitatea este

P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.


10 10

10

P2 = P (
k=1

Xk 200) = 1 P (
k=1

Xk < 199) = 1 F

Xk (199) = 0.5094,

unde

Xk P (200).
k=1

Matlab, probabilitile cerute se calculeaz astfel:

Laborator 4 [Dr. Iulian Stoleriu]


P1 = 1 - poisscdf(14,20); P2 = 1 - poisscdf(199,200);

48

Exerciiu 6.4
(ii)

(i)

n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai

probabil: s ctigi

partide din

4,

sau s ctigi

partide din

8?

Justicai rspunsul.

Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem

c adversarii sunt de aceeai valoare. Justicai rspunsul.

STATS 4 [Dr. Iulian Stoleriu]

49

7 Statistic Aplicat (C4) Elemente de Teoria probabilitilor (III)


Teoreme limit
Fie

(, F , P )

un cmp de probabilitate i

X : (, F , P ) R

o v.a. ce nregistreaz rezultatele posibile

ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui ir de v.a., vedere probabilistic) ca i

(Xn )nN : (, F , P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.

Deniia 7.1

Variabilele aleatoare

X1 , X2 , . . . , Xn , . . .

se numesc

identic repartizate
x R.

dac funciile co-

respunztoare de repartiie satisfac irul de egaliti:

FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . ,

(7.1)

Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de variabile aleatoare i pierde caracterul aleator. Teoremele limit clasice descriu comportarea asimptotic a sumei Spunem c irul

Sn =
k=1

Xk ,

potrivit normalizat.

(Xn )n

urmeaz

legea slab (respectiv, tare) a numerelor mari dac:


(n )

Sn E(Sn ) prob Sn E(Sn ) a.s. 0, (respectiv, 0), n n

n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.

Teorema 7.2 (Cebev)


Dac v.a.

(Xn )nN
(i) (ii)

satisfac condiiile: absolute de ordin

toate

atunci

Xn admit momente 1 lim 2 D2 (Sn ) = 0, n n

(i.e.,

2 (Xn ) < );

Sn E(Sn ) prob 0, n
Pentru orice

cnd

n . Sn , n

Demonstraie.
avem:

a>0 Sn n

xat, conform inegalitii lui Cebev aplicate variabilei aleatoare

P(

Sn E n

1 2 D a2

Sn n

1 1 2 D (Sn ) 0, a2 n2

cnd

n .

STATS 4 [Dr. Iulian Stoleriu]

50
Xn
sunt independente stochastic i identic repartizate, cu

Observaia 7.3
m, n N,

n plus, dac

E(Xn ) =

atunci concluzia anterioar devine:

Sn prob m. n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor, media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea lui

m,

cu o probabilitate foarte mare.

Teorema 7.4 (Teorema lui Bernoulli)


S considerm o experien n care probabilitatea de realizare a unui eveniment

este

P (A) = p.

Se fac

experiene independente. Dac

este numrul de realizri ale lui

din cele

experiene atunci,

pentru orice

> 0,

avem:

lim P N

N p < = 1. N p.
i se obin

(7.2) Asta nseamn c,

Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea dac se efectueaz o selecie de volum mare apropiat de

cazuri favorabile, atunci, cu o probabilitate

1,

putem arma c probabilitatea evenimentului cercetat este egal cu frecvena relativ.

Demonstraie.

Vom asocia ecrei experiene

o variabil aleatoare

Xi ,

astfel nct

Xi =
Observm c

1, 0,

dac n experiena dac experiena

evenimentul

s-a realizat;

evenimentul

nu s-a realizat.

Xi B (1, p).
n

Atunci, deoarece experimentele sunt independente, avem:

Xi = N B (N, p), E(N ) = N p,


i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare

D2 (N ) = N p(1 p).

N , N

obinem:

P
echivalent cu

N N E N N P

< 1

D2

N N 2

N p(1 p) p < 1 , N N 2

de unde concluzia dorit.

Teorema 7.5
Dac

(Hincin

15 )

(legea slab a numerelor mari)


1,
sunt independente dou

Xn , n 1,

sunt variabile aleatoare ce admit momente absolute de ordin

cte dou i identic repartizate, atunci irul

(Xn )n
prob

urmeaz legea slab a numerelor mari, i.e.,

1 n
unde

n k=1

Xk m, (n ),

(7.3)

m = E(Xn ), n N .

15 Aleksandr

Yakovlevich Khinchin (1894 1959), matematician rus

STATS 4 [Dr. Iulian Stoleriu]

51
(legea tare a numerelor mari)
adic:

Teorema 7.6
Dac notm cu

(Kolmogorov)

Fie irul de v.a.

(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < . m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari, 1 n
n

Xk m, (n ).
k=1

a.s

(7.4)

Observaia 7.7

Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:

X1 + X2 + + Xn =m n n lim

= 1.

Teorema 7.8
Dac v.a.

(TLC)

(teorema limit central)


m = E(X1 )
pentru i

(Xn )nN

sunt independente i identic repartizate, cu

2 = D2 (X1 )

nite, atunci:

Xk nm
k=1

Y N (0, 1),

n .

Observaia 7.9

(a) Teorema TLC ne spune c, dac avem un ir de v.a.

independente stochastic i

identic repartizate, atunci, pentru

sucient de mare, suma standardizat,

Sn =
este o v.a. de repartiie

Sn nm n
n

(7.5)

N (0, 1). X= 1 n Xk
k=1 n
este aproximativ normal

Sau, mai putem spune c distribuia v.a. (b) Notm cu

N (m, ). n

Zn =

not

Xk nm .
k=1

Atunci, convergena din teorema limit central este echivalent cu

n
unde

lim P (Zn x) = (x), x R,

(7.6)

(x)

este denit n (30.3), sau

lim P

Sn nm b n

1 = 2

b a

ex

2 /2

dx = (b) (a).

(7.7)

(b) Dac

m = 0, 2 = 1,

atunci TLC devine

1 n

Xk Y N (0, 1),
k=1

pentru

n .

(c) TLC ne permite s aproximm sume de v.a.

identic repartizate, avnd orice tip de repartiii (att

timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar  aproximarea repartiiei normale cu repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui jos).

de Moivre-Laplace de mai

STATS 4 [Dr. Iulian Stoleriu]


Se pune problema:

52
{Xk }k

aplicabil?
Dac

Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s e


sunt deja normal repartizate, atunci teorema aproximarea

Dac variabilele aleatoare

sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice

n N .

{Xk }k

nu sunt normal repartizate, atunci un numr

aproximarea cu repartiia normal dei, dac repartiia lui bun i pentru un numr

n astfel nct n 30 ar  sucicient pentru Xk este simetric, aproximarea ar putea 

mai mic de

30.

(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.

Teorema 7.10

(de Moivre

16 - Laplace)
repartizate

Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:

B (1, p)

i e

Sn =

lim P

Sn np a b npq

1 = 2

b a

ex

2 /2

dx.

(q = 1 p)

(7.8)

Demonstraie.

Demonstraia rezult imediat din (7.7), innd cont c

E(Sn ) = np

D2 (Sn ) = npq.

Observaia 7.11

(1)

Aadar, dac parametrul

este sucient de mare, atunci o repartiie binomial

poate  aproximat cu una normal, cu media

np

i dispersia

npq .

n practic,

aproximarea este una sucient de bun dac

np 5

n(1 p) 5;

aceast aproximare poate  mbuntit dac aplicm factori de corecie.

Pentru

ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a

repartiiei binomiale prin:

P (X k )
unde

k np npq

(7.9)

este funcia de repartiie pentru repartiia normal standard, i.e.,

1 (x) = 2
partiiei normale standard:

y2 2

dy,

x R.

De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea re-

P (X = k )
unde

1 npq

k np npq

(7.10)

(x) =

d dx (x) este densitatea de repartiie a repartiiei normale standard.

O variant mbuntit a aproximrii (7.9) este:

P (X k )
16 Abraham

k+ 1 np 2 npq

(7.11)

de Moivre (1667 1754), matematician francez

STATS 4 [Dr. Iulian Stoleriu]


Termenul

53

1 2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare

discrete cu una continu. O variant mbuntit a aproximrii (7.10) este:

P (X = k ) = P (k = P
(2)

1 1 <X <k+ ) 2 2 1 k+ 1 k 2 np np X np < < 2 npq npq npq k 1 np 2 npq .


i dispersia

k+ 1 np 2 npq

n general, dac dorim s aproximm o repartiie discret (ce are media

2)

cu una

normal, atunci scriem:

P (X k )
i

k+

1 2

(7.12)

P (X = k )
sau

, k
1 2

(7.13)

P (X = k )

k+

1 2

(7.14)

Funcii de variabile aleatoare


Funcii de o singur variabil aleatoare
Presupunem c Notm cu Fie

X este o variabil aleatoare FX (x) funcia sa de repartiie.

continu, creia i se cunoate densitatea de repartiie,

fX (x).

g (x)

este o funcie msurabil (Borel). Atunci

s gsim densitatea de repartiie pentru

g (X ).

Y = g (X ) denete o alt variabil aleatoare. Dorim notm cu DY = {x R; g (x) y }. Putem scrie: ( = {X DY }).
not

{Y y } = {g (X ) y } = { , X ( ) DY }
Atunci,

FY (y ) = P (X DY ), =
DY
Dac

fX (x) dx.

(7.15)

g (x)

este bijectiv i

densitatea de repartiie a

x = h(y ) = g 1 (y ), lui Y este dat de:

not

atunci, folosind schimbarea de variabil la integrare,

fY (y ) = fX (h(y ))

dh(y ) . dy

(7.16)

STATS 4 [Dr. Iulian Stoleriu]

54

Exemplu 7.12
Dac

Considerm funcia

g (x) = ax + b, a = 0. fX (x)
este densitatea de repartiie a unei variabile aleatoare continue

X,

atunci densitatea de

repartiie a variabilei aleatoare

Y = g (X )

este

fY (y ) =
Alternativ, putem calcula densitatea lui Notm cu

1 fX |a|

yb a

FY (y )

funcia de repartiie pentru

g (X ) astfel: Y i cu fY (y ) , , a > 0;

densitatea sa de repartiie. Atunci:

FY (y ) = P (aX +b y ) =

P P

yb X a yb X a

yb a = yb a < 0; 1 FX a

FX

, ,

a > 0; a < 0;

Dac

FX

este continu, atunci:

fY (y ) =

dFY (y ) 1 = fX dy |a|

yb a

Aplicaie. Metoda funciei de repartiie inverse (Hincin-Smirnov) Propoziia 7.13


F (x),

Fie

este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie, Atunci, variabila aleatoare

este continu i strict cresctoate, n orice punct n care aceasta nu este

aleatoare repartizat

U (0, 1). FY

0 sau 1. Fie U o variabil Y = F 1 (U ) urmeaz aceeai repartiie ca i X .


Aratm ca

Demonstraie.
a lui

Notez cu

funcia de repartiie pentru

Y.

FY

este tocmai funcia de repartiie

X.

Avem succesiv:

FY (x) = P (Y x) = P (F 1 (U ) x) = P (U F (x)) = F (x), x [0, 1].

Utiliznd acest rezultat, urmtoarea propoziie rezult imediat:

Propoziia 7.14

{U1 , U2 , . . . , Un } sunt 1 (U ), F 1 (U ), . . . , variabile aleatoare independentic stochastic i identic repartizate U (0, 1), atunci {F 1 2 1 F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie

o variabil aleatoare ca n propoziia precedent. Dac

STATS L4 [Dr. Iulian Stoleriu]

55

8 Statistic Aplicat (L4) Aplicaii la TLC


Exerciiu 8.1

O moned ideal este aruncat de

100

de ori, iar

este variabila aleatoare ce reprezint

numrul de fee cu stema aprute.

(a) Care este probabilitatea de a obine exact (b) S se calculeze

52

de steme?

P (45 X 55).

Folosii aproximarea cu o variabil aleatoare normal.

Soluie:
B (100, 0.5),

(a)

Avem de calculat

P = P (X = 52).

ns

este o variabil aleatoare distribuit

aadar rezultatul exact este:

52 P = C100 (0.5)52 (0.5)48 = 0.0735.


Dac aproximm rezultatul folosind formula (7.12), obinem:

1 P = 100 0.5 0.5


Cu varianta mbuntit, obinem:

52 50 100 0.5 0.5

0.0737.

P =
(b) Notm cu

50 52 + 1 2 25

52 1 50 2 25

0.0736. X.
Atunci,

FX

funcia de repartiie pentru variabila aleatoare binomial

P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)


55

=
k=45

k C100 (0.5)k (0.5)100k = 0.7287.

Dac folosim aproximarea cu repartiia normal, obinem:

P (45 X 55)
Codul

55 + 1 50 2 25

45 1 50 2 25

= 0.7287.

Matlab urmtor calculeaz probabilitile cerute.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta P1 = 1/5*normpdf(2/5) % solutia aproximativa 1 P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa

STATS L4 [Dr. Iulian Stoleriu]

56

Exerciiu 8.1
este punctul

Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,

acesta ori face un pas la stnga, cu probabilitatea

0.5,

ori face un pas la dreapta, cu probabilitatea

independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.

0.5, 100 de

Soluie:

S atribuim

Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N). X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se 2 calculeaz cu uurin, E(X ) = 0 i D (X ) = 1. Suntem interesai s am ce se ntmpl dup 100 de
Fie

pai. Considerm mai nti

Sn =
i=1 n

Xi .

Atunci,

E(Sn ) =
i=1
deoarece Pentru

E(Xi ) = 0

D2 (Sn ) =
i=1

D2 (Xi ) = n, n).

{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0, n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)): P (|S100 | 2) = P (2 S100 2) 2+
1 2

10

2 + 1 2 0 10

= 0.1583.

Folosind urmtorul cod, putem simula n

Matlab micarea aleatorie (vezi Figura 8.1):


% % % % % numar de pasi simuleaza pasii la fiecare moment simuleaza unde a ajuns dupa fiecare pas reprezinta miscarea numarul de reintoarceri la bar

N = input('N = '); X = 2*(rand(N,1)<0.5)-1; S = cumsum(X); plot(1:N, S, '-') Z=length(find(S == 0))

Figura 8.1: Micare aleatoare (brownian) 1D.

STATS L4 [Dr. Iulian Stoleriu]

57
n frecvena absolut de apariie

Exerciiu 8.2

Aruncm o moned ideal n condiii identice i notm cu

a feei cu stema din cele efectuate pentru ca

repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie

P
Determinai

n 0.5 0.1 0.98. n

prin dou metode: (i) (ii) Folosind inegalitatea lui Cebev; Folosind Teorema limit central.

Soluie:
(i) Observm c variabila aleatoare

n B (n, 0.5), E( n ) = 0.5, n X=


n n ,

de unde

E(n ) =

n 2 i

D2 (n ) =

n 4 . Aadar,

D2 (

n 1 )= . n 4n
Gsim c:

Folosim inegalitatea lui Cebev pentru

a = 0.1.

P
Impunem condiia

n D2 n n 0.5 0.1 1 n 0.01

=1

25 . n

1
de unde obinem c (ii) Cutm

25 0.98, n

n 1250

astfel nct

P 0.1
Ne ateptm ca valoarea lui

n 0.5 0.1 = 0.98. n

(8.1)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.5n = N (0, 1). D(n ) 0.5 n


Folosind aceasta, rescriem egalitatea (8.1) astfel:

n 0.5 0.1 0.98 = P 0.1 n n n 0.5n n = P 0.1 0.1 0.5 0.5 0.5 n n n = 5 5 n n n = 1 = 2 5 5 5

de unde

1 0.99
pentru repartiia normal

n 5

= 0.99

n 5

= (0.99) = z0.99 2.33 n 135.2974.

(cuantila de ordin n

standard). Din ultima egalitate gsim c

Matlab, calculm astfel:


n 136
.

n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.

STATS L4 [Dr. Iulian Stoleriu]

58
25%

Exerciiu 8.3
puin

O companie independent de evaluri statistice a estimat ca un anumit candidat are

anse s ctige alegerile locale.

Dorim s efectum un alt sondaj de opinie care s verice rezultatul

companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel valorile

0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre 20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
S notm cu

Soluie:

Se cere cel mai mic

n numrul de n N pentru care

votani (din

alei aleator) care voteaz cu respectivul candidat.

P 0.2
echivalent cu

n 0.3 0.97, n

P
(i) Observm c variabila aleatoare

n 0.25 0.05 0.97. n n B (n, 0.25), de unde E(n ) =

n 4 i

D2 (n ) =

3n 16 . Aadar,

Folosim inegalitatea lui Cebev

n n 3 ) = 0.25, D2 ( ) = . n n 16n pentru X = n , a = 0.05. Gsim c: n E(


n D2 n n 0.25 0.05 1 n 0.052

P
Impunem condiia

=1

75 . n

1
de unde obinem c (ii) Cutm

75 0.97, n

n 2500

astfel nct

P 0.05
Ne ateptm ca valoarea lui

n 0.25 0.05 = 0.97. n

(8.2)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.25n =4 N (0, 1). D(n ) 3n


Folosind aceasta, rescriem egalitatea (8.2) astfel:

Atenie, aici s-a strecurat o greeal n soluia de la seminar! 2 Acolo, s-a mprit la D (n ), n loc de

D(n )

0.97 = P 0.05

n 0.25 0.05 n n n 0.25n n 0.05 4 = P 0.05 4 4 3 3 3n n n = 0.2 0.2 3 3 n n n 1 0.2 = 2 0.2 = 0.2 3 3 3
i

de unde

0.2

n 3

= 0.985

0.2

n 3

standard). Din ultima egalitate gsim

= z0.985 2.17 (cuantila c n 353.1969. n

Matlab, calculm astfel:


n 354
.

de ordin

0.985

pentru repartiia normal

n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.

STATS 5 [Dr. Iulian Stoleriu]

59

9 Statistic Aplicat (C5) Elemente de Statistic descriptiv


S considerm o populaie statistic de volum

i o caracteristic a ei,

X,

ce are funcia de repartiie

F.

Asupra acestei caracteristici facem

observaii, n urma crora culegem un set de date statistice. Pentru analiza

Dup cum am vzut anterior, datele statistice pot  prezentate ntr-o form grupat (descrise prin tabele de frecvene) sau pot  negrupate, exact aa cum au fost culese n urma observrilor. acestora, pot  utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a atribui acestor date anumite valori numerice reprezentative. Pot  denite mai multe tipuri de astfel de valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.

Msuri descriptive ale datelor negrupate


Considerm un set de date statistice negrupate, corespund unor observaii fcute asupra

x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n, n N ), variabilei X . Denim urmtoarele:

ce

(1) Valoarea medie empiric


Este o msur a tendinei centrale a datelor. Pentru o selecie

{x1 , x2 , . . . , xn },

denim:

x =
ca ind

1 n

xi ,
i=1

media empiric.

Dac

{x1 , x2 , . . . , xN }

sunt toate cele

observaii (

recensmnt) asupra carac-

teristicii populaiei, atunci mrimea

1 = N
se numete putea folosi

xi
i=1

media (empiric a) populaiei.


x
ca un estimator pentru

Vom vedea mai trziu c, pentru a estima media

a ntregii

populaii statistice, nu este necesar s avem toate valorile Pentru ecare

{x1 , x2 , . . . , xN },

ci doar o selecie a ei, i vom

i,

cantitatea

. di = xi x se

numete

deviaia fa de medie.

Aceasta nu poate  denit ca

o msur a gradului de mprtiere a datelor, deoarece

(xi x) = 0.
i=1

(2) Momentele empirice


Pentru

k N , momentele empirice de ordin k k = 1 n


n

se denesc astfel:

xk i
i=1

(pentru selecie).

STATS 5 [Dr. Iulian Stoleriu]


Pentru

60
1 p

p = 0,

denim

1 x p = n

xp i
i=1

(pentru selecie),

(9.1)

formula generalizat a mediilor. Pentru p = 1, obinem media empiric (aritmetic) (x ), pentru p = 1, obinem media armonic (x (h) ), pentru p = 2 avem media ptratic (x (q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de

x (g) =
atunci relaia dintre aceste medii este:

x1 x2 . . . xn ,

x (h) x (g) x x (q ) .
Pentru ntreaga colectivitate, momentele de ordin

sunt

mk =
Pentru ecare

1 N

xk i,
i=1

(k N ).
se denesc astfel:

k N , momentele empirice centrate de ordin k 1 k = n


n

(xi x)k ,
i=1

pentru selecie,

1 k = N

( x i ) k ,
i=1

pentru populaie.

(3) Dispersia empiric


Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii.

{x1 , x2 , . . . , xn },

denim

dispersia empiric:
1 n1
n

Pentru o selecie

s2 =

(xi x )2
i=1

1 [ n1

x2 x)2 ] . i n(
i=1

Pentru ntreaga populaie de volum

N , dispersia populaiei 2 = 1 N
N

este denit prin msura

(xi )2 .
i=1

Observaia 9.1

Cantitatea

i=1 2 vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot  2 folosite ca estimatori ai dispersiei populaiei, .

1 n

(xi x )2

este tot o msur a dispersiei (empirice) de selecie.

Vom

STATS 5 [Dr. Iulian Stoleriu]

61

(4) Deviaia empiric standard


Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie

deviaia empiric standard:

{x1 , x2 , . . . , xn },

denim

s=
Pentru ntreaga populaie de volum

1 n1

(xi x )2 .
i=1
este denit prin cantitatea

N , deviaia standard a populaiei = 1 N


N

( x i ) 2 .
i=1

(5) Amplitudinea (plaja de valori, range)


Pentru un set de date,

amplitudinea (en.,

range) este denit ca ind diferena dintre valoarea cea mai

mare i valoarea cea mai mic a datelor, i.e.,

xmax xmin .

(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie, o selecie

{x1 , x2 , . . . , xn }, scorul Z

x, le are sub sau deasupra mediei.

Pentru

este denit astfel:

z=
Pentru o populaie, scorul

xx . s x .

este:

z=

(7) Corelaia (covariana) empiric


Dac avem

(de selecie):

n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric covsel 1 = n1
n

(xi x )(yi y ).
i=1

(9.2)

Covariana empiric pentru ntreaga populaie este:

covpop =

1 N

(xi x )(yi y ).
i=1

(9.3)

(8) Coecientul de corelaie empiric


rsel = rpop = covsel , sx sy
coecient de corelaie de selecie,

covpop , x y

coecient de corelaie pentru populaie.

(9) Funcia de repartiie empiric


Se numete funcia

: R [0, 1], Fn

funcie de repartiie empiric


denit prin

asociat unei variabile aleatoare

X i unei selecii {x1 , x2 , . . . , xn },

Fn (x) =

card{i;

xi x} . n

(9.4)

STATS 5 [Dr. Iulian Stoleriu]

62

Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic (vezi Figura 9.1).

Propoziia 9.2
cu

Fie

F (x)

funcia de repartiie a lui

funcia de repartiie

o colectivitate statistic i X o caracteristic a sa, ce se dorete a  studiat. Notez X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim empiric, Fn (x). Atunci:
Fn (x) F (x), prob
cnd

n ,

x R.

Demonstraie.

Notez cu

evenimentul

i frecvena relativ a realizrii evenimentului

{X x} i cu p = P (A). A este
card{i;

Se fac

repetiii ale acestui eveniment

n = n

xi x} = Fn (x). n

Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.

Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac i negativ (sau la stnga) dac

3 2
3/2

1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0 1 < 0. Vom avea:
N

n1/2 1 = (
i=1 i=1 n

(xi x)3
(pentru selecie) i

(xi x) )

2 3/2

3 1 = 3 =

(xi )3
i=1

(pentru populaie).

STATS 5 [Dr. Iulian Stoleriu]

63

(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
K=
Avem astfel:

4 3. 2 2

n K= (
i=1
i

(xi x)4
i=1 n

3
2 2

(pentru selecie)

(xi x) )

K=

4 1 3= 4 n 4

(xi )4 3
i=1

(pentru populaie),

Este o msur a boltirii distribuiei (al patrulea moment standardizat). c indicele kurtosis al distribuiei normale s e egal cu

K = 0, leptocurtic
Gauss. Pentru

pentru

K>0

sau

platocurtic

pentru

0. Vom avea o repartiie mezocurtic pentru K < 0. Un indice K > 0 semnic faptul c,

Termenul

(3)

apare pentru

n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui

K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.

(12) Cuantile Cuantilele (de ordin n)


egale. Dac sunt valori ale unei variabile aleatoare care separ repartiia ordonat n

pri

n = 2,

atunci avem o singur cuantil de ordin

Presupunem c observaiile sunt ordonate, median:

2, numit mediana, notat x1 < x2 < < xn . Pentru aceast


, dac , dac

prin

x0.5

sau

Me.

ordine, denim valoarea

x0.5 =
Dac

x(n+1)/2 (xn/2 + xn/2+1 )/2

n= n= 3).

impar; par; Prima cuartil, notat

se numete numete

cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic. Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de 99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
unei anumite observaii fa de restul datelor.

n = 4,

cuantilele se numesc

cuartile

(sunt n numr de

x0.25

sau

Q1 ,

(13) Modul Modul


(sau

valoarea modal)

este acea valoare

din setul de date care apare cel mai des. n anumite

cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care l conine, numit

clasa modal.

De exemplu, pentru datele din Tabelul 1.1 este

6,

iar pentru datele din

Tabelul 1.4 clasa modal este de date

[35, 45).

Un set de date poate avea mai multe module. Dac apar dou

astfel de valori, atunci vom spune c setul de date este

trimodal etc.

bimodal,

pentru trei astfel de valori avem un set

n cazul n care toate valorile au aceeai frecven de apariie, atunci spunem c nu

exist mod. De exemplu, setul de date

1 3

5 6

3 2

1 4

4 6

2 5

nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.

STATS 5 [Dr. Iulian Stoleriu]

64

Msuri descriptive ale datelor grupate


Considerm un set de date statistice grupate (de volum

n), ce corespund celor n observaii asupra variabilei


i frecvenele absolute corespunztoare,

X.

Datele grupate sunt n genul celor prezentate n Figurile 1.1 i 1.4.

Pentru o selecie cu valorile de mijloc

{x1 , x2 , . . . , xn }

{f1 , f2 ,

. . . , fn },

cu

fi = n,
i=1

denim:

x f =

1 n

xi fi ,
i=1 n

media (empiric) de selecie, (sau, media ponderat)

1 s2 = n1

fi (xi x f )2 =
i=1

1 n1

x2 2 i fi n x f
i=1

dispersia empiric,

s=

s2 ,

deviaia empiric standard.

Formule similare se pot da i pentru msurile descriptive ale ntregii populaii. Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se determin mai nti clasa ce conine mediana (numit mediana este:

clas median),

apoi presupunem c n interiorul

ecrei clase datele sunt uniform distribuite (vezi Exerciiu 10.3).

O formul dup care se calculeaz

Me = l +
unde:

n 2

FM e c, fM e FM e
este suma frecvenelor pn

este limita inferioar a clasei mediane,

este volumul seleciei,

la (exclusiv) clasa median,

fM e

este frecvena clasei mediane i

este limea clasei.

Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas modal), iar modul va  calculat dup formula:

M od = l +
unde

d1 c, d1 + d2 c
este limea clasei

d1

d2

sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei

modale minus frecvena clasei posterioare, modale.

este limita inferioar a clasei modale i

Observaia 9.3
n

S considerm urmtoarea problem. La brutria din col a fost adus o main nou de

fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie

m = 400 de grame.

Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare) pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de volum

la parametrii potrivii. n urma cntririi celor

n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n 1 n
n

grame). Calculm media masei acestora i obinem:

x=
Intuitiv, ar  de ateptat ca acest

xi .
i=1

x s aproximeze (ntr-un anumit sens) masa medie (teoretic) a pinilor

produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care

STATS 5 [Dr. Iulian Stoleriu]


s ne spun c

65
Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul

x m.

de pini ales, adic, dac am  ales alte pini i calculat media maselor lor, am  obinut din nou o valoarea foarte apropiat de

m.

Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic

mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.

n Tabelul 9.1, am prezentat cteva funcii

Matlab specice pentru msurile descriptive.

mean(x) geomean(x) harmmean(x) quantile(x,alpha) iqr(x) median(x) std(x), var(x) range(x) mode(x) zscore(x) moment(x,k) sort(x) max(x), min(x) skewness(x) kurtosis(x) prctile(x,p) cdfplot(x) cov(x,y) corrcoef(x,y) LEGEstat(<param>)

% media valorilor elementelor lui x; % media geometric a elementelor lui x; % media armonic a elementelor lui x; % cuantila de ordin a vectorului x; % distana intercuantilic, x0.75 x0.25 ; % valoarea median a lui x; % deviaia standard i dispersia valorilor lui x; % amplitudinea (range) vectorului x; % modul lui x; % realizeaz scorul elementelor lui x; % momentul de ordin k al lui x; % sorteaza crescator elementele vectorului x; % maximum i minimum pentru elementele lui x; % skewness pentru elementele lui x; % kurtosis pentru elementele lui x; % percentilele de ordin p ale lui x; % reprezint grac funcia de repartiie empiric a lui x; % covariana dintre x i y ; % coecientul de corelaie dintre x i y ; % aeaz media i dispersia pentru LEGE(<param>);

Tabela 9.1: Funcii


.

Matlab specice pentru msuri descriptive.

Laborator 5 [Dr. Iulian Stoleriu]

66

10 Statistic Aplicat (L5)


Justicare grac a teoremei limit central Exemplu 10.1
n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr

n sucient de mare, cele dou grace se suprapun.


k k nk lim Cn p q =

Aceasta este o "demonstraie"

grac a urmtoarei convergene:

n p0

e k . k!

(10.1)

=np

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

30

Figura 10.1: B(n, p) i P (np) pentru n = 100, p = 0.15


n practic, proprietatea (10.1) este satisfcut pentru

n 30, p 0.1, = n p 0.1.


Din gura 10.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile de probabilitate pentru binomial ( repartiia normal.

albastru)

i Poisson (

rou)

tind la densitatea de repartiie pentru

n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); % a si b sunt valorile din problema celor 3 x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])

Laborator 5 [Dr. Iulian Stoleriu]

67

Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov) Exemplu 10.2
1 e x , x>

Fie variabila aleatoare

0, iar F 1 este:

X exp().

Funcia sa de repartiie este

F : R [0, 1],

F (x) =

F 1 (u) =
Atunci, dac

ln(1 u) , u (0, 1); 0 , altfel.


c

{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem 1 F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
n Figura 10.2, am reprezentat grac o dou selecii de volum

{F 1 (u1 ),

150 de numere aleatoare repartizate exp(5);

una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia

exprnd.

Seleciile generate au fost ordonate descresctor.

Funcia

Matlab predenit Matlab care genereaz gura este

prezentat mai jos. Apelarea funciei se face prin tastarea n fereastra de lucru n

Matlab a comezii expsel(5).

function expsel(lambda) % functia expsel.m % generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator Y = sort(-lambda*log(1-rand(150,1)), 'descend'); plot(Y, 'bo'); hold on % desenez selectia si retin figura % generez 150 de numere cu exprnd si le ordonez descrescator Z = sort(exprnd(lambda, 150,1), 'descend'); plot(Z, 'r*') % desenez Z cu rosu legend('metoda functiei inverse','generare cu exprnd')

Figura 10.2: Generare de numere aleatoare prin metoda funciei inverse.

Exerciiu 10.1
i simulai n

Matlab o selecie de observaii independente asupra lui Y .

Considerm v.a.

X U 2,

2 . Determinai densitatea de repartiie a v.a.

Y = tan X

Laborator 5 [Dr. Iulian Stoleriu]

68

Generarea de numere aleatoare ntregi

Funciile floor, ceil, round, fix


Sunt funcii folosite pentru generarea de numere aleatoare ntregi. partea ntreag a lui De exemplu, funcia

floor(x)

este

x.

Astfel, comenzile

floor(11*rand(20,1)); ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face rotunjirea la numrul ntreg aat la dreapta lui x. Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui , respectiv, n direcia lui zero.
genereaz ecare cte dou funcii este ca Pentru generarea de numere ntregi n

Matlab, mai putem folosi urmtoarele comenzi:

randsample(populatie, k) randsample(n, k) randsample(populatie, k, replace)


Prima comand genereaz o selecie uniform (discret) nerepetat de vectorul

numere naturale alese aleator din

populatie.

Dac n locul vectorului

selecie uniform nerepetat de

numere din mulimea

tea s controlm dac selecia este sau selecia obinut este una repetat, iar este una nerepetat. De exemplu, comanda

populatie este n (comanda a doua), atunci se realizeaz o {1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci dac variabila replace este false sau 0, atunci selecia obinut

randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de

10

numere pare ntre

50

100:

66
Vectorul

72

50

68

88

74

82

80

94

76

dat de

X = randperm(n)
este o permutare aleatoare a elementelor mulimii

{1, 2, . . . , n}. 20
de case, vndute ntr-o

Exerciiu 10.2

Urmtorul set de date reprezint preurile (n mii de euro) a

Laborator 5 [Dr. Iulian Stoleriu]


anumit regiune a unui ora:

69

113 60.5 340.5 130 79 475.5 90 100 175.5 100 111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ?

Soluie:

Rearanjm datele n ordine cresctoare:

50 60.5 70 75 79 89 90 100 100 100 111.5 113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor Q1 = 84, cuartila superioar d = Q3 Q1 = 56.
Amplitudinea este inferioar este este este

525

154.15, mediana este 105.75, modul este 100, cuartila Q3 = 140, Q2 = M e i distana intercuartilic este

Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume

340.5, 475.5, 525,

mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care

setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n

Matlab,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ... 111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(X); m = mean(X); Me = median(X); Mo = mode(X); Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

Exerciiu 10.3

Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,

dispersia i prima cuartil pentru aceste date.

Soluie:
x =

Amplitudinea este

a = 30.

Media este

(x f ) 1 = (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286. n 70

Dispersia este:

s2 =

1 ( (x2 f ) n x 2 ) n1 1 = (2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 ) 69 = 37.06. [10, 15). 35
Deoarece n clasele anterioare ([0,

Clasa median este clasa

5)

[5, 10))

se a deja

5 + 13 = 18

date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este mai mare dect nlimea a de plante i mai mic dect nlimea a alte

35

de plante), va trebui

s determinm acea valoare din clasa median ce este mai mare dect alte

17

valori din aceast clas.

Laborator 5 [Dr. Iulian Stoleriu]


Aadar, avem nevoie de a determina o fracie median este

70
17 23 dintre valorile clasei mediane. n concluzie, valoarea

M e = 10 +
Clasa modal este cele

17 5 = 13.6957. 23 12.5.

[10, 15),

iar modul este valoarea central a clasei,

Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre

70

care este mai mare dect alte

18

valori, adic

Q1 = 10.

Implementarea n

Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

Exerciiu 10.4

O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc

ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative. (b) Gsii media empiric, mediana i deviaia standard empiric. (c) Reprezentai prin bare rezultatele din tabelul de frecvene. (d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente. (e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s  avut cel puin dou accidente.

Soluie:

(a) Tabelul de frecvene este Tabelul 10.1. numrul frecv. abs. frecv. rel.

0 7 0.1346

1 9 0.1731

2 14 0.2692

3 12 0.2308

4 10 0.1923

Tabela 10.1: Tabel de frecvene pentru Exerciiu 10.4


(b) Avem:

52

x=
i=1
(c)

xi = 2.1731,

s=

1 51

52

(xi x )2 = 1.3094,
i=1 (x) Fn

M e = 2.
sunt reprezentate n Figura

Reprezentarea prin bare a numrului de accidente i gracul lui

10.3. (d) Funcia de repartiie empiric este:

Fn (x) = P (X x) =

0, 7, 52 16 ,
52 30 52 , 42 52 , 1,

x < 0; dac x [0, dac x [1, dac x [2, dac x [3, dac x 4.
dac

1); 2); 3); 4);

Laborator 5 [Dr. Iulian Stoleriu]

71

Figura 10.3: Reprezentare pentru numrul de accidente.


Probabilitatea cerut la

(e)

este:

P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul

16 = 0.6923. 52

Matlab pentru calcule i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice

Exerciiu 10.5
este

Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-

supunem c pentru aceste note avem media de selecie

x = 7.24

i deviaia standard

s = 0.7.

Media ta

8.45.

Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,

s,

dedesubtul sau deasupra mediei de selecie te situezi?)

Soluie:

Calculm scorul

Z.

Avem:

z=

xx 8.50 7.24 = = 1.8 0.7

deviaii standard deasupra mediei de selecie.

STATS 6 [Dr. Iulian Stoleriu]

72

11 Statistic Aplicat (C6) Noiuni de Teoria seleciei statistice

Deniia 11.1
numi (sau

Numim

colectivitate statistic

(sau

populaie)

o mulime nevid

de elemente care este

cercetat din punct de vedere al uneia sau mai multor caracteristici.

indivizi

(sau

uniti statistice).

Elementele colectivitii le vom Dac populaia este nit,

Vom nota cu

o unitate statistic.

atunci numrul

volumul populaiei).

al unitilor statistice ce o compun (i.e., card()) l vom numi

volumul colectivitii

Considerm o populaie (colectivitate statistic) caracteristici a sale,

Studiem populaia

din punctul de vedere al unei

X.

Aceast caracteristic este o anumit proprietate urmrit la indivizii ei n

procesul prelucrrii statistice i o vom asimila cu o variabil aleatoare denit pe

Problema esenial

a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmeaz caracteristica asupra colectivitii variabila

X.

Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii

Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte

X.
Vom numi

Deniia 11.2

sondaj) o subcolectivitate a colectivitii cercetate . Numrul volumul seleciei (sondajului). Seleciile pot  repetate sau nerepetate. O selecie se numete repetat (sau bernoullian) dac dup examinarea individului acesta se reintroduce n colectivitate; n caz contrar avem o selecie nerepetat. n practic, volumul colectivitii
(sau elementelor seleciei poart numele de

selecie

este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate  considerat ca

ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din colectivitatea statistic.

Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare mai detaliat, se poate consulta [11]). Considerm spaiul msurabil o selecie repetat de volum mulime

(, F ), n.

unde

este un corp borelian de pri ale lui

Caracteristica

urmrit poate  reprezentat de o variabil aleatoare denit pe

(, F ).

Dorim s denim matematic

Euristic, ideea este urmtoarea: a efectua

sondaje repetate dintr-o

n ori".

este echivalent cu a considera o singur selecie dintr-o populaie de genul "

multiplicat de

Construim astfel:

(n) = ,
produs cartezian de

F (n) = F F F ,
va 

ori. Un element al lui

(n)

(n) = (1 , 2 , . . . , n ),
numit

selecie repetat de volum n.

Cuplul

((n) , F (n) )

se numete

spaiul seleciilor repetate de volum

n.

Considerm variabilele aleatoare

Xi : (n) R,

Xi ( (n) ) = X (i ),

i = 1, n.

STATS 6 [Dr. Iulian Stoleriu]


Acestea sunt variabile aleatoare denite pe

73
((n) , F (n) ),
sunt independente stochastic (pentru c v.a.

{X (i )}i=1, n
veric usor c

sunt independente) i sunt identic repartizate, cu funcia de repartiie comun

FX

(se

volum n.

FXi = FX , i = 1, n). Y : (n) R,

Vom numi

Vom numi Xi , i = 1, n, variabile aleatoare de selecie repetat de vector de selecie repetat de volum n, vectorul Y , astfel nct:

Y ( (n) ) = (X1 ( (n) ), X2 ( (n) ), . . . , Xn ( (n) )). Y ( (n) )


se numesc

Pentru un

(n)

xat, componentele vectorului

valori de selecie repetat de volum n.

Vom nota cu

Ln = Y ((n) ) Rn ,
i-l vom numi

spaiul valorilor de selecie repetat de volum n.


x = (x1 , x2 , . . . , xn ),

Elementele lui

Ln

le vom nota prin

(xi = Xi ( (n) ),

pentru

(n)

xat,

i = 1, 2, . . . , n).

Deniia 11.3

Vom numi

statistic (sau funcie de selecie) variabila aleatoare


Sn (X ) = g (X1 , X2 , . . . , Xn ),

unde

este o funcie

g : Rn R

msurabil (i.e.,

B B (R),

g 1 (B ) B (Rn )).

Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei statistici se mai numete i

repartiia (distribuia) de selecie.

Notaii:

n literatur, statistica este notat cu una dintre urmtoarele:

Sn (X ),
Valoarea numeric

S (X, (n) ),

S (X, n),

S (X1 , X2 , . . . , Xn ).

Sn (x) = g (x1 , x2 , . . . , xn )
se numete

valoarea funciei de selecie pentru un (n)

xat.

Observaia 11.4
asimptotice a lui

Aadar, o statistic este o funcie de variabilele aleatoare de selecie. Prin intermeniul

statisticilor putem trage concluzii despre populaia

din care a provenit eantionul

(n) .

Teoria pro-

babilitilor ne ofer procedee de determinare att a repartiiei exacte a lui al seleciei. n general, dac se lucreaz cu selecii de volum redus (n trebui s e cunoscut este repartiia limit a

Sn (X ). Repartiia exact este acea repartiie ce poate  determinat pentru orice volum < 30), atunci repartiia exact ar

Sn (X ),

ct i a repartiiei

a priori,

dac se dorete luarea de decizii prin inferen.

Repartiia asimptotic

Sn (X )

cnd

n ,

iar utilizarea acesteia conduce la rezultate bune doar pentru

n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:

n probleme de estimare punctual a parametrilor; n obinerea intervalelor de ncredere pentru un parametru necunoscut; ca o statistic test pentru vericarea ipotezelor statistice.

STATS 6 [Dr. Iulian Stoleriu]

74

Exemple de statistici
Fie

(, F )

o colectivitate statistic i

o caracteristic cercetat a sa. S notm cu

a priori i le vom numi funcii teoretice (densitate de repartiie teoretic, funcie de probabilitate teoretic sau funcie de repartiie teoretic). Dac se cunoate f (x), atunci putem 2 2 determina = E(X ) i = D (X ), dac acestea exist, i le vom numi medie teoretic i dispersie teoretic. n cazul n care una sau mai multe caracteristici teoretice corespunztoare lui X nu ne sunt a priori
 cunoscute sau necunoscute cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate. S considerm

tatea de repartiie (sau funcia de probabilitate), respectiv, funcia de repartiie

f (x) i F (x) densipentru X . Acestea pot

(n)

o selecie repetat de volum

din colectivitatea dat i

Xi , i = 1, n,

variabilele

aleatoare de selecie. Cu ajutorul acestora, putem construi diverse funcii de selecie.

Media de selecie

(mean)

Deniia 11.5

Numim

medie de selecie (repetat de volum n), statistica


X ( (n) ) = 1 n
n

Xi ( (n) ),
i=1

(n) (n) .

(11.1)

Pentru un

(n)

xat, s notm cu

toare de selecie

{x1 , x2 , . . . , xn } valorile de selecie corespunztoare variabilelor {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecie pentru un (n) xat este: 1 x= n
n

alea-

xi
i=1

(media

empiric).

Propoziia 11.6

Media de selecie satisface urmtoarele proprieti:

E(X ) = E(X ), 1 n
n a.s.

D 2 (X ) =

D2 (X ) ; n
cnd

(11.2)

Xi E(X ),
i=1

n .

(conform LTNM)

(11.3)

Observaia 11.7

(1)

n capitolele urmtoare vom scrie relaia (11.4) sub forma restrns:

X=

1 n

Xi .
i=1

(11.4)

Pentru simplitatea formulelor, de acum nainte vom face abstraie de dependena de se va subnelege. (2)

(n)

n formule, care

Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie

dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de selecie pentru variabile de selecie ntr-o colectivitate oarecare.

STATS 6 [Dr. Iulian Stoleriu]

75

Momente de selecie

Deniia 11.8

Numim

moment de selecie (repetat de volum n) de ordin k, (k N ), statistica


1 k (X ) = n
n

Xik .
i=1

Valoarea momentului de selecie de ordin

pentru un

(n)

xat este:

k (x) =
n cazul particular

1 n

xk i
i=1

(moment

iniial empiric de ordin

k ).

k = 1,

avem:

1 (X ) = X.

Propoziia 11.9

Pentru oricare

xat,

k N ,

avem:

E(k (X )) D2 (k (X )) 1 n
n

= =
a.s.

E(X k ) = k (X ), D2 (X k ) , n
cnd

(momente

iniiale teoretice pentru

X)

Xik k (X ),
i=1

n .

Momente de selecie centrate

Deniia 11.10

Numim

moment de selecie centrat de ordin k, statistica


k (X ) = 1 n
n

[Xi X ]k .
i=1

Valoarea momentului de selecie de ordin

pentru un

(n)

xat este:

k (x) =

1 n

[xi x]k
i=1

(moment

centrat empiric de ordin

k ).

Propoziia 11.11
1 n
n

Pentru oricare

xat,

k N ,

avem:

E(k (X )) (Xi X )k
i=1

=
a.s.

E([X ]k ) = k (X ),
cnd

(momente

centrate teoretice pentru

X)

k (X ),

n .

STATS 6 [Dr. Iulian Stoleriu]

76
(var)

Dispersie de selecie

Deniia 11.12

Numim

dispersie de selecie (repetat de volum n), statistica


d2 (X ) = 2 (X ) = 1 n
n

[Xi X ]2 .
i=1

Pentru simplitate, o vom nota cu

d2 (X ), 1 n
n

iar valoarea acesteia pentru un

(n)

xat este:

d2 (x) =

[xi x]2
i=1

(dispersia

empiric).

(11.5)

De cele mai multe ori, n locul lui

d2 (X )

se utilizeaz statistica

d2 (X ),

denit prin:

d2 (X )
Aceasta se mai numete i

1 = n1

[Xi X ]2 .
i=1
xat este:

(11.6)

dispersie de selecie modicat, iar valoarea ei pentru un (n)


n

s =

d2 (x)

1 = n1

[xi x]2
i=1

(dispersia

empiric modicat).

Motivaia pentru considerarea statisticii

d2 (X )

este dat de proprietile din propoziia urmtoare:

Propoziia 11.13

Dispersiile de selecie veric urmtoarele relaii:

E(d2 (X )) =

n1 2 D (X ), n
prob

2 E(d2 (X )) = D (X )
cnd

(11.7) (11.8)

2 d2 (X ) D (X ),

n .

Observaia 11.14
d2 (X )
(ii) selecie

(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica

este un estimator nedeplasat pentru dispersia teoretic, pe cnd

Dac media teoretic a colectivitii este cunoscut

d2 (X )

d2 (X ) este estimator deplasat. a priori, E(X ) = R, atunci dispersia de


(11.9)

devine:

d2 (X ) =

1 n

[Xi ]2 .
i=1

Propoziia 11.28 precizeaz care este repartiia acestei statistici.

Funcia de repartiie de selecie

(cdfplot)

Deniia 11.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selecie repetat de volum n. de repartiie de selecie (repetat de volum n), funcia
Fn : R (n) [0, 1], Fn (x, (n) ) =

Numim

funcie

n(x) , n

(x, (n) ) R (n) ,

STATS 6 [Dr. Iulian Stoleriu]


unde

77
reprezint numrul de elemente din selecie mai mici sau egale cu

n(x) = card {i, Xi ( (n) ) x}

x.

Relaia din deniie poate  scris i sub forma:

Fn (x) =

1 n

(, x] (Xi ),
i=1

x R,

unde

este funcia indicatoare a mulimii

A. B (n, F (x)).

(n) ) este o variabil aleatoare repartizat binomial Pentru un x R xat, Fn ( ( n ) ( n ) (x) ia valorile: Pentru ecare xat, Fn Fn (x) =
card

{i, xi x} , n

(i.e., este funcia de repartiie empiric denit n 9.4).

Propoziia 11.16

Funcia de repartiie de selecie satisface urmtoarele relaii:

E(Fn (x)) = F (x), x R; 1 [F (x)(1 F (x))], D2 (Fn (x)) = n

x R;
(x) Fn

n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui amintim doar cteva dintre ele.

de

F (x).

Mai jos,

Propoziia 11.17

Funcia de repartiie de selecie satisface convergena

Fn (x) F (x), x n

a.s.

xat n

R.

Demonstraie.

Rezultatul este o consecin direct a legii tari a numerelor mari.

Propoziia 11.18

Pentru

n N sucient de mare,

funcia de repartiie de selecie satisface proprietatea xat n

n(Fn (x) F (x)) N ( 0, F (x)(1 F (x)) ), x

R.

Demonstraie.

Rezultatul este o consecin direct a Propoziiei 11.16 i a teoremei limit central.

Teorema 11.19 (Glivenko-Cantelli) Fie X


adic:

o caracteristic,

de repartiie empiric corespunztoare unei selecii de

(x) funcia F (x) funcia sa de repartiie i Fn volum n. Atunci Fn (x) converge uniform la F (x),
cu probabilitatea

sup |Fn (x) F (x)| 0, x R n

1.

Statistici de ordine Deniia 11.20


mii lor i scriem Dac variabilele aleatoare din selecia

{X1 , X2 , . . . , Xn }

le rearanjm n ordinea mri-

X(1) X(2) X(n) ,

STATS 6 [Dr. Iulian Stoleriu]


atunci vom numi variabila aleatoare

78
X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n. i o vom nota prin x(i) , pentru orice i =

Pentru o selecie dat, valoarea statisticii de ordine de ordin

1, 2, . . . , n. Statistica X(1)

se numete

prima statistic de ordine i este ntotdeauna minimumul seleciei, i.e.,


X(1) = min{X1 , X2 , . . . , Xn }.

Statistica

X(n)

se numete

ultima statistic de ordine i este ntotdeauna maximumul seleciei, i.e.,


X(n) = max{X1 , X2 , . . . , Xn }.

De exemplu, dac avem valorile de selecie

x1 = 8,
atunci

x2 = 7,

x3 = 9,

x4 = 5,

x5 = 3,

x(1) = 3,
Dac

x(2) = 5,
2

x(3) = 7, X(m)
par.

x(4) = 8, X(m+1) .

x(5) = 9.
1 X=2 (X(m) + X(m+1) ),

n = 2m + 1,

atunci

X(m) = X( n+1 ) = X ,

adic media de selecie este o statistic de ordine n acest i Deoarece

caz. Dac Denim

n = 2m,

atunci avem dou valori de mijloc,

media de selecie nu este statistic de ordine pentru se numesc

amplitudinea (range) seleciei ca ind statistica A = X(n) X(1) . deviaiile extreme ale seleciei.
F (x)
este funcia de repartiie a seleciei date i

Statisticile

X(n) X

X(1) X

Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente. S presupunem c

f (x)

densitatea de repartiie. Urm-

toarea propoziie stabilete funciile de repartiie pentru statisticile de ordine.

Propoziia 11.21

Pentru un

k 1, n
n

xat, funcia de repartiie pentru

X(k)

este:

FX(k) (x) =
j =k

j Cn F (x)j [1 F (x)]nj ,

pentru orice

x R.

Demonstraie.

Avem succesiv:

FX(k) (x) = P (X(k) x) = P ({cel = P ({cel


n
puin puin

k k

v.a. din cele succese n

nu depesc pe

x})

ncercri})

=
j =k n

j Cn [P (X x)]j [1 P (X x)]nj

=
j =k

j Cn F (x)j [1 F (x)]nj ,

pentru orice

x R.

n particular, pentru

k = 1,

obinem c funcia de repartiie a celui mai mic element al seleciei: pentru orice

FX(1) (x) = 1 [1 F (x)]n ,

x R.

STATS 6 [Dr. Iulian Stoleriu]


Funcia de repartiie a celui mai mare element al seleciei este:

79

FX(n) (x) = [F (x)]n ,

pentru orice

x R.

Selecii aleatoare dintr-o colectivitate normal


S considerm

o colectivitate statistic i

o caracteristic a sa, ce urmeaz a  studiat din punct de

{X1 , X2 , . . . , Xn } variabile aleatoare de selecie repetat de volum n. n cele mai X urmeaz o repartiie normal (gaussian). De regul, dac volumul populaiei este mic (n < 30), atunci considerm doar populaii normale, iar pentru n > 30 putem considera orice tip
vedere statistic. Fie multe cazuri practice, de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.

Propoziia 11.22 (repartiia mediei de selecie pentru o selecie gaussian)


Dac

Xi N (, ), i = 1, 2, . . . , n,

atunci statistica

satisface:

XN

, n

(n N ) N (, )

Demonstraie.

Vom folosi metoda funciei caracteristice.

Pentru o variabil aleatoare


2 t2

funcia (11.10)

caracteristic este:

(t) = ei t 2
Folosind proprietile funciei caracteristice i relaia

aX (t) = X (at),
obinem c funcia caracteristic a lui

este:

X (t) =
k=1
adic

t n

2 t2 2 n2

= e

it

1 2

t2

urmeaz legea de repartiie

N (,

). n

O consecin direct a acestei propoziii este urmtoarea:

Propoziia 11.23

Dac

Xi N (, ), i = 1, 2, . . . , n Z=

sunt variabile aleatoare de selecie, atunci

X N (0, 1). n

Propoziia 11.24 (repartiia mediei de selecie pentru o selecie oarecare)


Dac atunci pentru un volum

{X1 , X2 , . . . , Xn }, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiie dat, n sucient de mare, statistica X satisface: XN , n . (n > 30)

STATS 6 [Dr. Iulian Stoleriu]

80

Demonstraie.

Acest rezultat este o consecin imediat a concluziei teoremei limit central.

Observaia 11.25
gaussian.

Dac

este sucient de mare, atunci concluzia Propoziiei 11.23 ramne valabil i

n cazul n care avem o selecie repetat de volum

dintr-o colectivitate statistic ce nu este neaprat

Propoziia 11.26
i = 1, n,

Dac

i N (i , i )
n

sunt variabile aleatoare independente stochastic i

ai R,

atunci variabila aleatoare

=
i=1

ai i
n

satisface proprietatea:

2 . a2 i i

N
i=1

ai i ,
i=1

Demonstraie.

Demonstraia este bazat pe metoda funciei caracteristice.

[Exerciiu!]

Propoziia 11.27
proprietatea:

Fie

Pentru ecare caracteristic

i N (i , i ) variabile i considerm cte

aleatoare independente stochastic i o selecie repetat de volum

de selecie corespunztoare ecrei selecii.

Atunci statistica

ai R, i = 1, n. ni , i notm cu i media Y = a1 1 + a2 2 + . . . + an n satisface .

Y N

ai i ,
i=1

2 i a2 i ni i=1

Demonstraie.
toare,

Deoarece

i N (i , i ),

din Propoziia 11.22 obinem c media de selecie corespunz-

i ,

satisface:

i N

i i , ni

. {1 , 2 , . . . , n },
obinem con-

Aplicnd rezultatul Propoziiei 11.26 variabilelor aleatoare independente cluzia dorit.

Urmtoarea propoziie este un caz particular al Propoziiei 11.27.

Propoziia 11.28 (repartiia diferenei mediilor de selecie pentru colectiviti gaussiene)


Considerm o selecie de volum o colectivitate respectiv,

n1

dintr-o populaie normal

N (1 , 1 )

i o selecie de volum

n2

dintr-

N (2 , 2 ),

cele dou selecii ind alese independent una de cealalt.

Notm cu

i,

mediile de selecie corespunztoare seleciilor alese. Atunci statistica

1 2 N 1 2 ,

2 1

n1

2 2

n2

Demonstraie.

Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-

abile aleatoare,

2 ,

iar

a1 = 1, a2 = 1.

STATS 6 [Dr. Iulian Stoleriu]

81
Concluzia propoziiei anterioare se mai poate scrie astfel:

Observaia 11.29

(1)

Z=

(1 2 ) (1 2 )
2 1 n1

2 2 n2

N (0, 1).

(2)

S presupunem c avem dou populaii statistice normale,

1 i 2 , iar este o caracteristic comun

a celor dou populaii, ce urmeaz a  studiat.

(De exemplu, populaiile statistice s e mulimea

pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm cte o selecie repetat, de volume strungul nti i

n1 ,

respectiv,

n2

(adic, vom selecta

n2

piese produse de cel de-al doilea strung). S notm

n1 dintre piesele produse cu 1 , respectiv, 2 mediile

de de

selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale celor dou medii de selecie. Aceasta ne va  deosebit de util, spre exemplu, n vericarea ipotezei c masele medii ale pieselor produse de cele dou strunguri coincid.

Laborator 6 [Dr. Iulian Stoleriu]

82

12 Statistic Aplicat (L6)


Utiliznd funciile

legernd(< param >, m, n)


i

(12.1)

random( lege , < param >, m, n)


introduse anterior, putem genera variabile aleatoare de selecie de un volum dat, trebui ca

(12.2)

n.

Pentru aceasta, va

m=n

n (12.1) i (12.2). Astfel, comanda

random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune

50.

Putem privi aceast matrice aleatoare astfel: ecare

coloan a sa corespunde unei variabile aleatoare de selecie de volum valori ale sale obinute la o observaie. n total, avem aleatoare de selecie. Aadar, am generat repartiia

50,

creia i precizm cele

50

de

50

de coloane, corespunznd celor

50

de variabile aleatoare de selecie de volum

50 de 50, ce

variabile urmeaz

N (100, 6).

Exerciii rezolvate

Exerciiu 12.1
o caracteristic

S considerm c masa medie a unor batoane de ciocolat produse de o main este

X N (100, 0.65).

n vederea vericrii parametrilor mainii, dintre sutele de mii de

batoane produse n acea zi s-au ales la ntmplare

1000

dintre acestea.

Calculai masa medie i deviaia standard ale mediei de selecie, Calculai

X.

P (98 < X < 102). 98


de grame sau peste

Un baton este declarat rebut dac masa sa este sub procentul de rebuturi avute.

102

de grame. Calculai

Soluie:

Din teorie, tim c media de selecie

urmeaz repartiia

N (100, 0.65/ 1000) (vezi Propoziia

11.22). Aadar,

X = 100,
Probabilitatea

X 0.02.

P1 = P (98 < X < 102)

este

P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.


Probabilitatea de a avea un rebut este:

P2 = P {X < 98}

{X > 102}

= P (X < 98) + P (X > 102) = FX (98) + 1 FX (102),


de unde, procentul de rebuturi este

r = P2 100% 0.2091%,

Laborator 6 [Dr. Iulian Stoleriu]


adic aproximativ n

83
1000
de batoane.

Matlab, acestea pot  calculate astfel:

rebuturi la

mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei X = normrnd(mu, sigma, n,n); % am generat selectia de volum n Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie m = mean(Xbar); s = std(Xbar); % media si deviatia standard P1 = normcdf(102, mu, S) - normdf(98, mu, S); P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma); rebut = P2*100;

Exerciiu 12.2

n vederea studierii unei caracteristici

ce are densitatea de repartiie

f (x) =
s-a efectuat o selecie repetat de volum unde

2 x, x (0, 1); 0, x (0, 1).


Se cere s se determine probabilitatea

n = 100.

P (X < 0.65),

este media de selecie.

Soluie:

Se observ cu uurin c

f (x)

ndeplinete condiiile unei funcii de repartiie, adic este

msurabil, nenegativ i

f (x) dx =
R 0
Pentru a calcula probabilitatea cerut, avem nevoie de

2 x dx = 1. E(X )
1
i

D2 (X ).

Avem:

E(X ) =
R

x f (x) dx =
0

2 2 x2 dx = , 3 1 4 = . 9 18

D2 (X ) = E(X 2 ) (E(X ))2 =


R
Aadar, repartiia mediei de selecie

x2 f (x) dx

este

XN

2 1 , 3 18 100

Putem acum calcula probabilitatea cerut. Ea este:

P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.

Exerciiu 12.3
nem o sum de

O pereche de zaruri ideale este aruncat de n cel puin

200

de ori. Care este probabilitatea s obi-

20%

dintre cazuri?

Soluie:
X

Probabilitatea de apariie a sumei

ntr-o singur aruncare a dou zaruri este

v.a. ce reprezint numrul de apariii ale sumei

la aruncarea a dou zaruri ideale n

p = 1/6. Fie 200 de aruncri.

Laborator 6 [Dr. Iulian Stoleriu]


Atunci,

84
ca o sum de

cel puin

X B (200, 1/6). Probabilitatea 40 dintre cazuri) este:

s apar n cel puin

20%

dintre cazuri (i.e., n

39

P = P (X 40) = 1 P (X 39) = 1
k=0
n

k C200 pk (1 p)200k = 0.1223.

Matlab,
; Distana

1 - binocdf(39,200,1/6)
X

Exerciiu 12.4
este

la care o sunt aruncate mingile de tenis de ctre o main automat de servit Media distanei este necunoscut, dar deviaia standard

este o variabil aleatoare repartizat normal.

1.2 m. P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X )). E(X ) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X . Calculai P (X 18). X 18 2 Stabilii repartiia variabilei aleatoare Z = i calculai probabilitatea P (Z 20). 1.2
(a)

(a) tiind c

(b) S presupunem c

(c)

X N (, 1.2).

Din

P (X 20) = 0.95

obinem c

0.95 = P 20 = 1 (0.95) = 1.6449. 1.2 1.2 Folosim faptul c X N 18, 5 2

X 20 1.2 1.2
Aadar,

20 1.2

de unde (b)

EX = = 18.0262 18.

. Obinem c:

P (X 18) = 1 P (X < 18) = 1 FX (18) = 0.5.


(c)

(= 1

- normcdf(18, 18, 1.2/sqrt(50))) (=

Z N (0, 1)

Z 2 2 (1). P (Z 2 < 20) = FZ 2 (20) = 1.

chi2cdf(20,1)).

STATS 7 [Dr. Iulian Stoleriu]

85

13 Statistic Aplicat (C7) Noiuni de Teoria seleciei (continuare)


Considerm o colectivitate statistic

i o caracteristic a sa,

X,

ce urmeaz a  studiat. Fie

{X1 , X2 , . . . , Xn }

variabile aleatoare de selecie repetat de volum

n.

Dup cum am vzut n cursul pre-

cedent, n cele mai multe cazuri practice variabila aleatoare n acest caz, media de selecie

urmeaz o repartiie normal (gaussian).

X=

1 n

Xi
i=1

urmeaz tot repartiia normal, i.e.,

XN
pentru orice

, n

, n 30, 30
i

(13.1)

n N .

Totui, dac

nu este o v.a.

normal repartizat i

atunci repartiia

asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect normal repartizat, atunci putem spune doar c

n 30.

nu este neaprat

E(X ) =
fr a putea preciza care este repartiia lui

D 2 (X ) = n
Aici

N n , N 1 , N > n.

X.

este volumul populaiei

Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.

Propoziia 13.1

{X1 , X2 , . . . , Xn } variabile aleatoare N (0, 1) , i = 1, 2, . . . , n. Atunci variabila aleatoare


Fie

independente stochastic, astfel nct

Xi

H =
i=1

2 Xk 2 (n).

Demonstraie.
S notm cu

Pentru a demonstra propoziia, folosim metoda funciei caracteristice.

Pentru aceasta, Notm cu

avem nevoie de funcia caracteristic pentru

X 2,

unde

f (x)

funcia densitate de repartiie

X N (0, 1). pentru X , dat de

relaia (30.2) cu

= 0.

G( y )

funcia de repartiie pentru

X2

i cu

g (y )

densitatea sa de repartiie. Avem:

G(y ) = P (X 2 y ) =
de unde

0 , P ( y X y ) , , + f ( y )] , , , y 0; y > 0.

y 0; y > 0, y 0; y > 0,

g (y ) = G (y ) =

1 2 y [f ( y )

1 y f ( y)

STATS 7 [Dr. Iulian Stoleriu]


Funcia caracteristic pentru

86
X2
va :
2

X 2 (t) = E ei t X

1 = 2
1

y 2 eity

2 y 2

dy

= (1 2it) 2 .
Deoarece variabilele aleatoare

{Xi }i

sunt independente stochastic, putem aplica relaia (5.15) i obinem:


n i=1

n
2 Xi

H 2 (t) = E(eit
n

)=
i=1

E eitXi
n

=
i=1

X 2 (t) = (1 2it) 2 .
i

Aceasta este funcia caracteristic pentru o v.a.

2 (n). X N (0, 1),


atunci v.a.

X 2 2 (1).

Observaia 13.2

O consecin imediat a acestei propoziii este c, dac

Urmtoarea propoziie este tot o consecin direct a Propoziiei 13.1.

Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
Fie

{X1 , X2 , . . . , Xn } variabile i = 1, 2, . . . , n. Atunci variabila

aleatoare independente stochastic, astfel nct aleatoare

Xi N (, ),

pentru

H2 =

1 2

(Xi )2 2 (n).
i=1

Demonstraie.

Pentru ecare

i = 1, 2, . . . , n,

consider variabilele aleatoare

Yi =
Conform Propoziiei 11.23, avem variabilele aleatoare

Xi .
rezultatul propoziiei 13.1 pentru

Yi N (0, 1), i = 1, n. Aplicm {Y1 , Y2 , . . . , Yn } i obinem concluzia dorit.

Lema 13.4
X +Y

Dac

2 ( n

X i Y sunt variabile + m), atunci Y 2 (m).

aleatoare independente stochastic, astfel nct

X 2 ( n )

Demonstraie.

Demonstraia se bazeaz pe metoda funciei caracteristice, folosind faptul c

X (t) Y (t) = X +Y (t), t R.

Lema 13.5
volum

Fie X caracteristica unei colectiviti statistice N (, ), X d2 (X ) dispersia de selecie repetat. Atunci, statisticile

media de selecie repetat de

X
n

n (X )

n1 2 1 d (X ) = 2 2

(Xi X )2
i=1

sunt independente stochastic.

STATS 7 [Dr. Iulian Stoleriu]

87

Demonstraie.

Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-

strat n [4] (Teorema I.2.5).

Propoziia 13.6

Fie

X N (, )

caracteristica unei populaii statistice i e

{X1 , X2 , . . . , Xn }

vari-

abile aleatoare de selecie repetat de volum

n.

Atunci statistica

1 = 2
2

(Xi X )2 2 (n 1).
i=1

Demonstraie.

Putem scrie:

1 2

(Xi )2
i=1 n

=
sau,

1 2

(Xi X )2 +
i=1

n ( X ) 2 2

(13.2)

Zi2
i=1
unde:

n1 2 2 d (X ) + Z , 2 X
n

(13.3)

Zi =

Xi N (0, 1)

Z=

N (0, 1).

Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-

2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat 2 2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z n1 2 i d (X ) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei. 2
zat

Observaia 13.7

Concluzia propoziiei 13.6 se poate rescrie astfel:

n1 2 d (X ) 2 (n 1), 2
unde

(13.4)

d2 (X )

este dispersia de selecie.

Lema 13.8

Dac

sunt variabile aleatoare independente stochastic, cu

X N (0, 1) i Y 2 (n),

atunci statistica

T =

X
Y n

t (n).

Demonstraie.

Fie

f (x)

g (y )

densitile de repartiie pentru

X,

respectiv,

Y.

Avem:

x2 1 f (x) = e 2 , x R, 2 n 1 y y 2n e 2 , y > 0; 2 2 ( n g (y ) = 2) 0 , y 0.

STATS 7 [Dr. Iulian Stoleriu]


Din independen, gsim c densitatea de repartiie a vectorului

88
(X, Y )
este:

y 2 1 e 2 h(x, y ) = f (x)g (y ) = n+1 , 2 2 n 2


Considerm o transformare a acestui vector,

x2 +y

(x, y ) R (0, ).

x t = v = y,

y n

n vectorul

(T, Y ).

Densitatea de repartiie a acestui vector este:

v 2 1 e 2 (1+ n ) k (t, v ) = n+1 2 2 n 2


Densitatea de repartiie marginal pentru

t2

v , n

(t, v ) R (0, ).

este:

k1 (t) =
0

k (t, v ) dv n+1 2 n n 2 t2 1+ n
n+1 2

t R,

adic tocmai densitatea de repartiie a unei variabile aleatoare

t(n).
n,
ce

Propoziia 13.9

Dac

urmeaz repartiia unei caracteristici

{X1 , X2 , . . . , Xn } sunt variabile X N (, ) a unei t=

aleatoare de selecie repetat de volum colectiviti statistice, atunci statistica

X t(n 1). d (X ) n1
grade de libertate, iar

(Aici,

t(n 1)

este repartiia Student cu

(n 1)

d (X ) =

d2 (X ) ).

Demonstraie.

Aplicm lema anterioar pentru variabilele aleatoare

X=

X
n

N (0, 1)

Y =

n1 2 d (X ) 2 (n 1). 2

Observaia 13.10 Propoziia 13.11


repartizate

Aceasta propoziie va  folosit n teoria deciziei statistice, n problema testrii mediei

teoretice cnd dispersia teoretic este necunoscut

a priori.

Dac variabilele aleatoare atunci variabila aleatoare

{X0 , X1 , . . . , Xn } X0

sunt independente stochastic, identic

N (0, 1),

T =

2 +X 2 + ... +X 2 X1 n 2 n

t (n).

STATS 7 [Dr. Iulian Stoleriu]

89

Demonstraie.

Concluzia rezult prin aplicarea Propoziiei 13.1 i Lemei 13.8.

Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum colectivitate

n1

dintr-o populaie normal

N (1 , 1 )

i o selecie de volum

N (2 , 2 ), cele dou selecii ind alese independent una de cealalt. Notm 2 (X ), d2 = d2 (X ) mediile de selecie i dispersiile de selecie corespunztoare seleciilor d2 = d 1 2 1 2
Atunci statistica

n2 dintr-o cu 1 , 2 i
alese.

T =

(1 2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2

n1 + n2 2 1 1 n1 + n2

t (n1 + n2 2).

Demonstraie.

Considerm variabila aleatoare

U=

(1 2 ) (1 2 )
1 n1

1 n2

Se veric cu uurin c

U N (0, 1).

Fie variabila aleatoare

V =
Conform relaiei (13.4), avem c

(n1 1) d2 (n2 1) d2 1 2 + . 2 2 2 (n1 1)


i

2 (n2 1). Deoarece aceste dou 2 statistici sunt independente, atunci c suma lor, statistica V , satisface V (n1 + n2 2). Concluzia propoziiei rezult prin simpla aplicare a Lemei 13.8 variabilelor aleatoare U i V .

(n1 1) d2 1 2

(n2 1) d2 2 2

Propoziia 13.13
aleatoare

Dac

X 2 (m) i Y 2 (n) sunt variabile aleatoare independente, atunci variabila F = n X F (m, n). m Y X
i, respectiv,

Demonstraie.

Fie

f (x)

g (y )

densitile de repartiie pentru

Y.

Avem:

m 1 x e 2 x 2 m 2 ( m ) 2 f (x) = 2 0 n 1 y y 2n e 2 2 2 ( n g (y ) = 2) 0
este:

, x > 0; , x 0. , y > 0; , y 0. (X, Y )

Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului

h(x, y ) = f (x)g (y ) =

x 2 1 y 2 1 e 2
m+n 2

x+y 2

m 2

n 2

(x, y ) (0, ) (0, ).

Considerm o transformare a acestui vector,

t = n x m y : v = y,

STATS 7 [Dr. Iulian Stoleriu]


n vectorul

90

(F, Y ).

Densitatea de repartiie a acestui vector este:

k (u, v ) =

m n

m 2

u 2 1 v 2
m+n 2

m+n 1 2

e 2 (1+ n
n 2

u)

m 2

(t, v ) (0, ) (0, ).

Densitatea de repartiie marginal pentru

este:

k1 (u) = =
0 m n

k (u, v ) dv
+n m2 m m u 2 1 1 + u n n m 2 2
m 2 +n m2

u > 0,

adic tocmai densitatea de repartiie a unei variabile aleatoare

F (m, n).

Propoziia 13.14
N (0, 1),

Dac

{X1 , X2 , . . . , Xm+n }

sunt variabile aleatoare independente, identic repartizate

atunci variabila aleatoare

F =

2 + X2 + . . . + X2 n X1 m 2 2 2 2 m Xm + X + . . . + X m+n +1 m+2

F (m, n).

Demonstraie.

Demonstraia rezult imediat prin aplicarea rezultatelor Propoziiilor 13.1 i 13.13.

Propoziia 13.15 (repartiia raportului dispersiilor pentru colectiviti gaussiene)


Fie

X1 N (1 , 1 )

X2 N (2 , 2 )

caracteristicile a dou populaii statistice,

populaie extragem cte o selecie repetat, de volume

n1 ,

respectiv,

n2 ,

i considerm

2 d2 2 = d2 (X2 )

2 . Din ecare 2 d2 1 = d1 (X1 ) i

dispersiile de selecie corespunztoare celor dou selecii repetate. Atunci statistica

F =

2 d2 2 1 F (n1 1, n2 1). 2 d2 1 2

Demonstraie.

Rescriem

n forma echivalent:

F =
unde

n 2 1 2 1 , n 1 1 2 2 2 2 = 1 2 2
n2

2 1 = {X1 i }i=1, n1
ztoare. i

1 2 1

n1

(X1 i X1 )2 ,
i=1

(X2 j X2 )2 ,
j =1

{X2 i }i=1, n2

sunt variabile de selecie repetat de volume

n1 ,

respectiv,

n2 ,

ce urmeaz

repartiia variabilelor aleatoare

X1 ,

respectiv,

X2 .

Statisticile

X1

X2

sunt mediile de selecie corespun-

Folosind concluzia Propoziiei 13.6, avem c

2 2 1 (n1 1),

2 2 2 (n2 1).

Concluzia acestei propoziii urmeaz n urma aplicrii rezultatului Propoziiei 13.14.

STATS 7 [Dr. Iulian Stoleriu]

91
a priori.

Propoziia 13.16 (repartiia raportului dispersiilor pentru colectiviti gaussiene)


Suntem n condiiile Propoziiei 13.15, cu meniunea c mediile teoretice Atunci

sunt cunoscute

F1 =
unde

2 d2 2 1 2 d2 F (n1 , n2 ), 1 2

d2 1

d2 2

sunt date de:

2 1

1 = 2 1

n1

(X1 i 1 ) (n1 ),
i=1

2 2

1 = 2 2

n2

(X2 j 2 )2 2 (n2 ).
j =1

Demonstraie.
i 13.14.

Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3

Laborator 7 [Dr. Iulian Stoleriu]

92

14 Statistic Aplicat (L7) Exerciii rezolvate


Exerciiu 14.1
manufacturier Becurile produse de un manufacturier

au timpul mediu de funcionare de

1400

ore,

cu deviaia standard de

200

ore, n timp ce timpul mediu de funcionare ale becurilor produse de un

B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu (a) 160 de ore; (b) 250 de ore; mai mare dect timpul mediu de funcionare ale becurilor produse de B ? (c) Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e cuprins ntre 1375 de ore i 1425 de ore? (d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins ntre 1375 de ore i 1425 de ore? 
Notm cu

T1

T2

cele dou timpuri de funcionare. Avem c i

T1 = 1400, T1 = 200
Pentru o selecie de volum

T2 = 1200, T2 = 100.

n = 125

(vom considera c selecia este repetat, deoarece volumul seleciei

este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:

200 T1 N (1400, ) 5 5

100 T2 N (1200, ). 5 5

Diferena mediilor de selecie este o v.a. repartizat astfel:

T1 T2 N (200, 20).
(a) Probabilitatea cerut este:

P (T1 T2 > 160) = 1 FT1 T2 (160) = 1 - normcdf(160,200,20) = 0.9772.


(b) Probabilitatea cerut este:

P (T1 T2 > 250) = 1 FT1 T2 (250) = 1 - normcdf(250,200,20) = 0.0062.


(c) Probabilitatea cerut este:

P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5)) = 0.8377.

Laborator 7 [Dr. Iulian Stoleriu]


(c) Probabilitatea cerut este:

93

P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,200) - normcdf(1375,1400,200) = 0.0995.

Exerciiu 14.2
n

Dou avioane zboar n aceeai direcie pe dou coridoare paralele. La momentul

t = 0,

6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat 510 i deviaia standard 10, iar viteza celui de-al doilea avion este normal repartizat, cu media 500 i deviaia standard 10. (a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l  ajuns pe primul? (b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel mult 5km.
primul avion are un avans de

km/h)

este o v.a. repartizat normal, cu media

Notm cu

v1

v2

cele dou viteze. Avem c

v1 N (510, 10)
Dup

v2 N (500, 10). 4
pentru ecare v.a.), mediile de selecie for

ore de zbor (adic avem cte o selecie de volum

satisface:

v1 N (510, 5)

v2 N (500, 5).

Diferena mediilor de selecie este o v.a. repartizat astfel:

v1 v2 N (10, 5 2).
(a) Evenimentul ca, dup

4 ore de zbor, al doilea avion s nu l  ajuns pe primul este {4v1 4v2 +6 > 0}.

Probabilitatea acestui eveniment este:

3 3 3 P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( ) 2 2 2 = 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b) Evenimentul ca, dup

ore de zbor, distana dintre cele dou avioane s e de cel mult

5km

este

{|4v1 4v2 | + 6 5}.

Probabilitatea acestui eveniment este:

P ({|4v1 4v2 | + 6 5}) = P

11 1 v1 v2 4 4 1 11 = Fv1 v2 Fv1 v2 4 4 = normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2)) = 0.0017.

Exerciiu 14.3

Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-

tizat exponenial, cu media de

10

minute.

tiind c n fa mai sunt nc

persoane ce ateapt s

e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se calculeze probabilitatea de a atepta mai puin de

50

de minute.

Laborator 7 [Dr. Iulian Stoleriu]

94

Exerciiu 14.4
ca din (b) (c)

Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea

20

de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?

Notm cu

Sn

suma punctelor nsumate din cele

aruncri.

Calculai probabilitatea

P (S2 6). P (120 S36 130).

Folosind teorema limit central, aproximai probabilitatea

Exerciiu 14.5
proprieti:

S se arate c dispersia de selecie i dispersia de selecie modicat au urmtoarele

2 2 E[d2 (X )] = D (X ), E[d (X )] =

n1 2 D (X ), n N . n

STATS 8 [Dr. Iulian Stoleriu]

95

15 Statistic Aplicat (C8) Noiuni de Teoria estimaiei


Punerea problemei
S presupunem c avem un set de observaii aleatoare

{x1 , x2 , . . . , xn } asupra unei caracteristici X

a unei

populaii statistice. Funcia de probabilitate (respectiv densitatea de repartiie) a caracteristicii poate :

complet specicat, de exemplu,

X U (0, 1); X P ()
sau

specicat, dar cu parametru(i) necunoscut(i). De exemplu,

X N (, );

necunoscut, caz n care se poate pune problema de a  estimat.

n mod evident, n primul caz de mai sus nu avem nimic de estimat.

Dac funcia de probabilitate

priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.

(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut

X care urmeaz repartiia dat de funcia de probabilitate (sau f (x, ), unde este un parametru necunoscut. n general, acest parametru poate p  un vector ( R ), ale crui componente sunt parametrii repartiiei lui X . Mai sus, f este funcia de probabilitate dac variabila aleatoare X este de tip discret, iar f este densitatea de repartiie a lui X ,
S presupunem c avem caracteristica densitate de repartiie) dac este o variabil aleatoare de tip continuu. Scopul teoriei estimaiei este de a evalua parametrii de care depinde bazndu-ne pe rezultatele teoretice prezentate n capitolele anterioare. Fie

f,

folosind datele de selecie i repartiia lui

{X1 , X2 , . . . , Xn }

variabile aleatoare de selecie repetat de volum

Presupunem totodat c

admite medie i notm cu

= E(X )

2 i

n, ce urmeaz = D2 (X ).

X.

Deniia 15.1

(1)

Se numete

funcie de estimaie

(punctual) sau

estimator

al lui

o funcie de

selecie (statistic)

= (X1 , X2 , . . . , Xn ),
cu ajutorul creia dorim s l aproximm pe este aceast aproximaie. (2) O statistic

n acest caz, ne-am dori s tim n ce sens i ct de bine

este

un

estimator nedeplasat (en., biased estimator) pentru


) = . E(

dac

Altfel, spunem c

este

un

estimator deplasat pentru , iar deplasarea (distorsiunea) se denete astfel:


) = E( ) . b(,

Astfel,

) b(,

este o msur a erorii pe care o facem n estimarea lui

prin

STATS 8 [Dr. Iulian Stoleriu]

96

Exemplu 15.2

(1) Dispersia de selecie modicat

d2 (X )

1 = n1

[Xi X ]2
i=1

este un estimator nedeplasat pentru dispersia teoretic

2 = D2 (X ),

iar dispersia de selecie

1 d (X ) = n
2
este un estimator deplasat pentru

[Xi X ]2
i=1

2 = D2 (X ),

deplasarea ind

b(s2 , 2 ) = {x1 , x2 , . . . , xn }

2 . n

[Exerciiu!]

(3)

Dac

sunt date observate, atunci

(x1 , x2 , . . . , xn ) i

se numete

estimaie

a lui

Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat. Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu precizarea variabilelor de care depind. vom face diferena ntre ele prin

(4) Numim

pentru (en., mean squared error) cantitatea eroare n medie ptratic a unui estimator ) = E MSE(,
2

Observaia 15.3
E

Putem scrie:

= E

E( ) + E( )

) + 2E = D 2 (

E( )] [E( )

+E

) E(

) + 0 + (b(, ))2 . = D 2 (
Aadar,

MSE
1
i

pentru un estimator nedeplasat este

). D2 (

(5) Fie

doi estimatori pentru

Atunci, valoarea

1 , ) MSE( 2 , ) MSE(
se numete

1 n raport cu 2 . Vom spune c un estimator eciena relativ (en., relative eciency) a lui 1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i 1 , ) < MSE( 2 , ) pentru mcar un . MSE(
se numete estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator (6) Un estimator nedeplasat nedeplasat pentru

pentru , , ,
avem

notat cu

) D2 ( ). D2 (

STATS 8 [Dr. Iulian Stoleriu]


(7) Estimatorul

97
este un

pentru

estimator consistent

dac cnd

prob (X1 , X2 , . . . , Xn ) ,
n acest caz, valoarea numeric a estimatorului,

n .

(x1 , x2 , . . . , xn ), se numete estimaie consistent pentru


dac

.
(8) Estimatorul

pentru

este un

estimator absolut corect


(i) (ii)

) = ; E( ) = 0. lim D2 (
n

n acest caz, valoarea numeric a estimatorului, pentru

(x1 , x2 , . . . , xn ),

se numete

estimaie absolut corect

. pentru
este un

(9) Estimatorul

estimator corect dac


(i) (ii)
n n

) = ; lim E(

) = 0. lim D2 (
se numete

n acest caz, valoarea numeric a estimatorului,

(x1 , x2 , . . . , xn ),

estimaie corect pentru .

Propoziia 15.4
Demonstraie.

2 Statistica d (X ) este un estimator absolut corect pentru 2 d (X ) este un estimator corect, dar nu absolut corect, pentru D2 (X ).

2 = D2 (X ),

[Exerciiu!]

iar statistica

Se arat c:

E(d2 (X )) = E D2 (d2 (X )) =
i

1 n1

[Xi X ]2
i=1

= D2 (X ),

4 n3 2 0, n n(n 1) 2
n

cnd

n .

E(d2 (X )) = E

1 n

[Xi X ]2
i=1

n1 2 n D (X ) D2 (X ), n n .

D2 (d2 (X )) 0,

cnd

Propoziia 15.5
Demonstraie.

Dac

este

un estimator absolut corect pentru

atunci estimatorul este consistent.

Utilizm inegalitatea lui Cebev n forma:

2 | }) 1 D () , > 0. P ({| 2
innd cont c

(15.1)

) = 0 lim D2 (

obinem concluzia dorit.

STATS 8 [Dr. Iulian Stoleriu]

98
un
estimator pentru

Observaia 15.6

Fie

Ptratul acestui estimator,

nu este, n general, esti-

2 matorul pentru .
De exemplu, s presupunem c

X N (0, 1)

i avem urmtoarele

20

de observaii asupra lui

X:

0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056 0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944 0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X . 2 2 (pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1 2 2 (vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia 2 2
Un estimator absolut corect pentru media teoretic a lui dat avem c

X 1.4

iar

X
2

= 0.027.

Aadar, n general X 2

= X

Observaia 15.7

Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.

De

exemplu, pentru parametrul

din repartiia

P oisson P () X
i

exist urmtorii estimatori:

d2 (X ).
Dac utilizm inegalitatea lui

Se pune problema:

Cum alegem pe cel mai bun estimator i pe ce criteriu?

Cebev n forma (15.1), atunci ar  resc ca "cel mai bun estimator" s e cel de dispersie minim.

(10) Se numete

funcie de verosimilitate

(sau, simplu, verosimilitate), statistica

L(X1 , X2 , . . . , Xn ; ) =
k=1
Pentru aleator (11)

f (Xk , ).
este densitatea de repartiie pentru vectorul

Xk = xk , k = 1, n, funcia L(x1 , x2 , . . . , xn ; ) V = (X1 , X2 , . . . , Xn ).


expresia:

Numim cantitate de informaie relativ la parametrul

volum

n (informaie Fisher)

coninut n selecia corespunztoare de

In () = E

ln L(X1 , X2 , . . . , Xn ; )

(15.2)

Teorema 15.8 (Rao17 -Cramer18 )


Considerm caracteristica pentru care exist

cu funcia de probabilitate (densitatea de repartiie)

f . Considerm

f (x, ), cu (a, b) i = (X1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci, ) D 2 ( 1 . In ()


(15.3)

18 Harald

17 Calyampudi

Radhakrishna Rao (1920 ), statistician indian Cramr (1893 1985), matematician i statistician suedez

STATS 8 [Dr. Iulian Stoleriu]


(12) Numim

99

pentru , valoarea: eciena unui estimator absolut corect


1 ) = In () . e( ) D2 (
(15.4)

(13) Un estimator absolut corect

pentru

se numete

estimator ecient

dac

) = 1, e(

adic

) = I 1 (). D 2 ( n

Propoziia 15.9

Media de selecie

ecient pentru media teoretic

X E(X ).

pentru o selecie dintr-o colectivitate normal este un estimator

[Exerciiu!]

pentru se numete estimator sucient (exhaustiv) dac densitatea vectorului V = (X1 , X2 , . . . , Xn ), adic L(x1 , x2 , . . . , xn ; ), se poate scrie n forma:
(14) Un estimator corect

(x), ), L(x1 , x2 , . . . , xn ; ) = g (x1 , x2 , . . . , xn )h(


unde

(15.5) este msurabil i

g : Rn R+

este msurabil i nu depinde de

iar funcia

depinde de observaii doar prin intermediul lui toat informaia relevant despre

(x).

h : R R R+

Funciile

nu sunt unice. Din punct de vedere

practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine

ce se poate obine din selecia considerat.

Propoziia 15.10 Observaia 15.11 [Exerciiu!]

Media de selecie

pentru o selecie dintr-o anumit colectivitate este un estimator

sucient pentru media teoretic

E(X ).

[Exerciiu!]

Orice estimator ecient pentru un parametru

este i estimator sucient pentru

n continuare, discutm urmtoarele metode de estimare punctual a parametrilor:

metoda verosimilitii maxime; metoda momentelor; metoda minimului lui

2 ;

metoda celor mai mici ptrate; metoda intervalelor de ncredere.

Metoda verosimilitii maxime


Fie caracteristica selecie de date,

studiat, care are funcia de probabilitate

f (x; )

(unde

parametri necunoscui). S presupunem c avem

observaii asupra caracteristicii

= (1 , 2 , . . . , p ) sunt X , adic am ales o

x1 , x2 , . . . , xn .
Fie

{X1 , X2 , . . . , Xn }

variabilele aleatoare de selecie repetat de volum

n.

STATS 8 [Dr. Iulian Stoleriu]

100
estimator de verosimilitate maxim (maximum likelihood estimator) pentru
pentru care se obine maximumul funciei de verosimilitate,

Deniia 15.12

o statistic

(1) Numim

= (X1 , X2 , . . . , Xn )

L(X1 , X2 , . . . , Xn ; ) =
k=1
(2)

f (Xk , ).

maxim pentru .

Valoarea unei astfel de statistici pentru o observaie dat se numete

estimaie de verosimilitate

Observaia 15.13
Nu este necesar ca

aceasta exist, atunci acest estimator se obine ca soluie a sistemului de ecuaii:

Aceasta metod estimeaz "valoarea cea mai verosimil" pentru parametrul

.
Dac

s existe pentru ca estimatorul de verosimilitate maxim s e calculat.

L(X1 , X2 , . . . , Xn ; ) = 0, k
care este echivalent cu urmtorul sistem:

k = 1, 2, . . . , p,

(15.6)

ln L(X1 , X2 , . . . , Xn ; ) = k

n i=1

ln f (Xi ; ) = 0, k

k = 1, 2, . . . , p.

(15.7)

Exemplu 15.14
Soluie:

Estimai prin metoda verosimilitii maxime parametrii unei caracteristici

X N (, ).

Legea de probabilitate pentru

X N (, )

este

(x)2 1 f (x, , ) = e 22 , x R. 2

Alegem o selecie repetat de volum Parametrii caracteristicii

sunt

n, pe care o vom = (, ) i funcia

nota

(Xk )k=1, n .

de verosimilitate asociat seleciei este

L(X1 , X2 , . . . , Xn ; , ) =
k=1

f (Xk , , )
n

=
Astfel,

n (2 ) 2 1 n n (2 ) 2

k=1 n e

(Xk )2 2 2

ln L(X1 , X2 , . . . , Xn ; , ) = ln

1 2 2
i

(Xk )2 .
k=1

Aadar, pentru a gsi estimatorii de verosimilitate maxim pentru

avem de rezolvat sistemul:

L 1 = 2

(Xk ) = 0;
k=1 n

L n 1 = + 3

(Xk )2 = 0.
k=1

STATS 8 [Dr. Iulian Stoleriu]


Se observ cu usurin c soluia sistemului ce convine (inem cont c

101
> 0)
este

1 n

Xk = X,
k=1

1 n

(Xk X )2 = d(X ).
k=1

(15.8)

Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta este:

2L H (, ) = = 2 3

n 2
n

2 3 n 2

(Xk )
n

k=1

(Xk )
k=1

3 1 n 2

(Xk )2
k=1

Acum calculm

H ( , ). 2L |= , = = n 2 0 0 2n , 2

H ( , ) =

care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic

det(H ( , ) I2 ) = 0,
sunt

1 =
Deci, estimatorii

n <0 2

2 =

2n < 0. 2

obinui prin metoda verosimilitii maxime sunt

=X

= d(X ). d(X )

Observaia 15.15

De remarcat faptul c estimatorul

obinut prin metoda verosimilitii maxime

nu este absolut corect, ci doar corect.

Metoda momentelor (K. Pearson)


n anumite cazuri, valorile critice pentru funcia de verosimilitate sunt dicil de calculat. nevoie de alte metode pentru a gsi estimatori pentru parametri. Fie caracteristica De aceea, e

care are funcia de probabilitate

necunoscui) ce admite momente pn la ordinul caracteristicii, adic alegem o selecie de date,

(adic,

f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri p = E(X p ) < ). Dorim s gsim estiPentru aceasta, efectum observaii asupra

matori (estimaii) punctuale ale parametrilor necunoscui.

x1 , x2 , . . . , xn .
Fie

{X1 , X2 , . . . , Xn } variabilele aleatoare de selecie repetat de volum n. X.

Metoda momentelor const n

estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele iniiale teoretice respective, ale lui Aceasta nseamn c avem de rezolvat un sistem de ecuaii n care necunoscutele sunt parametrii ce urmeaz a  estimai.

STATS 8 [Dr. Iulian Stoleriu]

102
soluia

Deniia 15.16

Numim estimator (punctual) pentru obinut prin metoda momentelor 1 , 2 , . . . , p ) (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p) a sistemului: = (

1 (X1 , X2 , . . . , Xn ) = 1 (X ), 2 (X1 , X2 , . . . , Xn ) = 2 (X ),
. . .

(15.9)

p (X1 , X2 , . . . , Xn ) = p (X ),
unde

k (X1 , X2 , . . . , Xn )

sunt momentele de selecie de ordin

k
n

pentru

X,

k (X1 , X2 , . . . , Xn ) =
i

1 n

Xik ,
i=1

k (X )

sunt momentele teoretice pentru

(care depind de

),

adic:

k = E(X k ),
O

k = 1, 2, . . . , p.

1 , 2 , . . . , p ), unde componentele = ( estimaie (punctual) pentru va  o realizare a estimatorului k = k (x1 , x2 , . . . , xn ), k = 1, p).

sunt

Observaia 15.17

Aceasta metod este fundamentat teoretic pe faptul c momentele de selecie sunt Metoda nu poate  aplicat

estimatori absolut coreci pentru momentele teoretice corespunztoare. repartiiilor care nu admit medie (e.g., repartiia Cauchy).

Exemplu 15.18

Fie

X U (a, b)

caracteristica unei populaii, unde

a<b

sunt numere reale. Utiliznd

metoda momentelor, determinai estimatori pentru capetele intervalului.

Soluie:

Dac

X U (a, b),

atunci

E(X ) =
de unde

a+b , 2

D2 (X ) =

(b a)2 , 12 a2 + ab + b2 . 3

E(X 2 ) = D2 (X ) + [E(X )]2 =


Sistemul (15.9) se scrie astfel n acest caz:

1 (X1 , X2 , . . . , Xn ) = E(X ) 2 (X1 , X2 , . . . , Xn ) = E(X ),


unde

(15.10)

1 =

1 n

Xi ,
i=1

2 = ( a, b)

1 n

Xi2 .
i=1

Inlocuind n relaiile (15.10), avem de gsit soluia

a urmtorului sistem:

a + b = 2 1 a b = 4 2 1 3 2 .

STATS 8 [Dr. Iulian Stoleriu]


Aceasta este:

103
b = 1 +

a = 1
Fcnd calculele i innd cont c

2 2 1;

2 2 1. a
i, respectiv,

1 = X ,

obinem estimatorii pentru

b:

a =X
unde

3 S;

b=X+
n

3 S,

X=
Estimaiile punctuale pentru

1 n

Xi
i=1

S=

1 n

(Xi X )2 .
i=1

sunt:

a =

1 n

xi
i=1

3 n

(xi x)2 ,
i=1

1 b= n

xi +
i=1

3 n

(xi x)2
i=1

Metoda celor mai mici ptrate


Este o metod de estimare a parametrilor n cazul modelelor liniare, adic atunci cnd avem un set de variabile aleatoare

Yi , i = 1, n

ce depind liniar de parametrii necunoscui.

Fie

= ( 1 , 2 , . . . , p )

vectorul ce conine parametrii necunoscui i presupunem c

Yi

depind de acetia dup urmtorul sistem:

Yi =
j =1
sau, scris sub form matriceal:

xij j + i ,

i = 1, 2, . . . , n,

(15.11)

Y = X + ,
Variabilele aleatoare

X = (xij ) Rnp .

sunt erori, despre care presupunem c:

E(i ) = 0 D2 (i ) = 2 , i = 1, 2, . . . , n; i = j.
(15.12) astfel nct suma ptratelor erorilor

cov (i , j ) = 0,

Metoda celor mai mici ptrate const n determinarea parametrilor i


n n

s e minim. Asta nseamn c avem de rezolvat problema de minim:

Yi

2 xij j .

min
i=1

2 i = min
i=1

j =1
mai mici ptrate este soluia sistemului:

Astfel, un estimator

= ( 1 , 2 , . . . , p ) prin metoda celor 2 p n Yi xij j = 0, j


i=1 j =1 n p n

j = 1, 2, . . . , p,

echivalent,

xik xij j =
i=1 j =1 i=1

xik Yi ,

k = 1, 2, . . . , p.

STATS 8 [Dr. Iulian Stoleriu]


Ultimul sistem poate  scris sub forma matriceal:

104

X X = X Y,
de unde gsim c estimatorul

este

= (X X)

X Y.

Exemplu 15.19

Fie

o caracteristic ce admite medie,

aleatoare de selecie repetat de volum mai mici ptrate pentru media

n. teoretic ,

Statistica

= E(X ), i e X1 , X2 , . . . , Xn variabilele = X este estimatorul obinut prin metoda celor

adic este soluia problemei de minimizare

min
i=1

(Xi )2 .

(15.13)

Soluie:

Deoarece

este media variabilelor aleatoare de selecie, putem considera c ecare variabil o

putem scrie sub forma

Xi = + i ,
cu

i = 1, 2, . . . , n,

(15.14)

satisfacnd condiiile (15.12). Soluia problemei (15.13) este soluia ecuaiei


adic

(Xi )2 = 0,
i=1 n

1 n

Xi .
i=1

Metoda minimului lui 2


X ce urmeaz a  studiat, ce urmeaz legea de probabilitate dat de f (x, ), p unde = (1 , 2 , . . . , p ) R sunt parametri necunoscui. Fie X1 , X2 , . . . , Xn variabilele aleatoare prin metoda minimului lui 2 pentru , de selecie repetat de volum n. Pentru a obine un estimator
Considerm caracteristica procedm dup cum urmeaz. Descompunem mulimea valorilor lui

X , X (),
k

n clase, astfel:

X () =
i=1
Construim evenimentele

Oi ,

Oi

Oj = , i = j.

Ai = { (n) (n) ; X (i ) Oi },
Se observ cu uurin c

i = 1, 2, . . . , k.

(n) =
i=1
Notm cu

Ai ,

Ai

Aj = , i = j.

pi ( ) = P (n) (Ai ),

i = 1, 2, . . . , k,

STATS 8 [Dr. Iulian Stoleriu]


i.e., probabilitatea ca un individ luat la ntmplare s aparin clasei

105
Oi .
Atunci,

pi ( ) = 1.
i=1
Mai facem urmtoarele notaii:

ni = frecvena absolut a evenimentului Ai n orice selecie repetat de Ni = variabilele aleatoare de selecie corespunztoare lui ni (i = 1, k ).
Vectorul aleator

volum

n;

Observaia 15.20
metri

N = (N1 , N2 , . . . , Nk )

urmeaz o repartiie multinomial de para-

pi ( ), i = 1, k .
Statistica

Deniia 15.21

se numete

estimator obinut prin metoda minimului lui 2


k

pentru

dac

este soluie a problemei de minim

min
i=1

[Ni n pi ( )]2 n pi ( )

Propoziia 15.22

Repartiia urmtoarei statistici este

k i=1

[Ni n pi ( )]2 2 (k p 1). n pi ( )

Laborator 8 [Dr. Iulian Stoleriu]

106

16 Statistic Aplicat (L8)


Exerciiu 16.1
Timpul necesar unui student de a rezolva testul la Statistic (T , exprimat n minute) este o v.a. cu densitatea de repartiie

f : R [0, 1], f (x, ) =


x x e 2

, x > 0; , x 0.

(a) (b) (c)

Pentru ce valori ale parametrului

funcia de mai sus este o funcie de repartiie?

Fixm

= 30.

Determinai timpul mediu necesar rezolvrii testului. Calculai probabilitatea ca un student (ales la ntmplare) s aib nevoie de mai mult de o or i

jumtate pentru a rezolva testul?

Exerciiu 16.2

Pcal l ademenete pe Tndal la un joc de barbut. Pcal a confecionat urmtoarele

trei zaruri, pentru care numrul de puncte de pe ecare fa sunt modicate:

zarul 1: zarul 2: zarul 3:

5 2 1

7 3 6

8 4 11

9 15 12

10 16 13

18 17 14

Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare de puncte va ctiga jocul. independente. (a) (b) (c) (d) Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase. Un astfel de joc poate  repetat de mai multe ori, n condiii identice i

1 RON.

Determinai ctigul mediu pe care l poate avea Pcal dup Calculai probabilitatea ca, dup

60

de jocuri (aruncri).

60

de jocuri, Pcal s aib cel puin

10 RON.

Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va  aproape sigur (cu

probabilitate cel puin egal cu

0.99)

c va avea cel puin

Estimaii prin
mle.
Formatul general al funciei este:

Matlab
Matlab folosind funcia

10 RON.

Estimarea parametrilor prin metoda verosimilitii maxime poate  realizat n

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)


unde:

este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a  estimat punctual; este variabila de memorie pentru intervalul (intervalele) de ncredere ce va  estimat;

pCI

Laborator 8 [Dr. Iulian Stoleriu]


107

este un vector ce conine datele ce urmeaz a  analizate; este parte din formatul comenzii iar

distribution
6.1;

lege

poate  oricare dintre legile din Tabelul

nume_i/val_i

sunt perechi opionale de argumente/valori, dintre care amintim:

 alpha
Matlab

reprezint nivelul de conden pentru intervalul de ncredere. Valoarea implicit n este

= 0.005;

 ntrials

(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-

perimentului.

Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:

[p, pCI] = mle(X)


fr a mai preciza legea de distribuie. De exemplu, s lum drept obiect de lucru datele din Tabelul 1.4. Acestea sunt reprezentate prin bare n Figura 2.32 . O estimare a parametrilor

prin metoda verosimilitii maxime este

X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55] [p, pCI] = mle(X)


i obinem estimrile:

p = 41.9716 pCI = 40.7653 43.1779

12.0228 11.2439 12.9547

% estimari punctuale pentru si % intervale de incredere

unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru estimarea punctual i un interval de ncredere pentru

, iar a doua coloan

Estimri punctuale i cu intervale de ncredere mai putem obine i utiliznd funcia

LEGEfit(X,alpha)
unde, n locul cuvntului i

alpha

LEGE

punem o lege de probabilitate ca n Tabelul 6.1,

este nivelul de conden. (Exemple:

X reprezint normfit, binofit, poissfit, expfit etc).


X

observaiile

Exerciiu 16.3
parametrului

S se arate c media de selecie

constituie un estimator absolut corect i ecient al

din repartiia Poisson

P ().

Laborator 8 [Dr. Iulian Stoleriu]

108
urmeaz c

Soluie:

Deoarece

X P (),

E(X ) = D2 (X ) = . 1 = n
n n

Atunci,

1 E(X ) = E n D 2 (X ) = 1 2 D n2
n

Xi
i=1

E(Xi )
i=1

1 = ( n
n

) = ,
i=1

Xi
i=1

1 n2

D2 (Xi )
i=1

1 ( n2

) =
i=1

0, n

cnd

n . .
Funcia

Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul de probabilitate este

f (x, ) = e
de unde

x , x N, x!

ln f (x, ) x = 1 + .
2

Calculm eciena estimatorului. Avem

In () = n E

ln f (X, ) X X2 + 2

= nE 1 2
Se observ c

=n X

12

1 + 2 (2 + )

n .

D2 (X ) In () = 1,
Fie

deci estimatorul

pentru

este ecient.

Exerciiu 16.4

Xi B (1, p), i = 1, n
n

= nX =
i=1
S se arate c

Xi ,

numrul de succese n

incercri.

este

un estimator sucient pentru

p.

Soluie:

Pentru vericarea sucienei, utilizm deniia. Avem succesiv:

L(x1 , x2 , . . . , xn ; p) =

pxi (1 p)1xi
i=1 n n

n (1 p) (x), p), = g (x) h( xi = p i=1


unde

xi
i=1

g (x) 1

(x) (x), p) = p h( (1 p)n(x) .

Exerciiu 16.5

S presupunem c aruncm o moned despre care nu tim dac este sau nu corect

(adic, probabilitatea de apariie a feei cu stema nu este neaprat

0.5).

Fie

variabila aleatoare ce

reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar

pro-

80

de aruncri ale

dac nu a aprut):

Laborator 8 [Dr. Iulian Stoleriu]

109

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(1) S se gseasca un estimator absolut corect pentru din

i a se studieze eciena acestuia.

(2) S se gseasc estimaii punctuale i intervale ncredere pentru

Matlab.

p,

folosind funciile

mle

binofit

Soluie:

(1) Repartiia lui

este Bernoulli,

B (1, p).

Astfel,

E(X ) = p,
Un estimator absolut corect pentru medie este

D2 (X ) = p(1 p). (Xk )k=1 n . p(1 p) 0. n n2 X,

Considerm variabilele de selecie repetat de volum,

deoarece

E(X ) = E(X )
n
Aadar, pentru selecia dat, valoarea (2) Utiliznd funciile

D2 (X ) =

x=
k=1

xk = 0.5125.

Matlab astfel:

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:

p = 0.5125

pCI =

0.3981 0.6259

sau, folosind comanda

binofit,

[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:

p = 0.5125

pCI = 0.3981 0.6259

Exerciiu 16.6

Considerm un vector ale crui componente sunt:

X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. atunci estimm parametrii si astfel: normale

N (, ),

Laborator 8 [Dr. Iulian Stoleriu]


[mu, sigma] = normfit(X)
Gsim estimrile

110

mu = 0.0006425 sigma =0.5771


Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. uniforme continuu

U (a, b),

atunci estimm parametrii si astfel:

[a, b] = unifit(X) a = -1.0000 b = 1.0000

STATS 8 [Dr. Iulian Stoleriu]

111

17 Statistic Aplicat (C9) Estimarea parametrilor prin intervale de ncredere (o singur populaie)
S considerm o caracteristic

a crei lege de probabilitate este dat de

f (x, ),

cu

parametru

necunoscut. Pentru a estima valoarea real a lui

efectum

observaii, obinnd selecia:

x1 , x2 , . . . , xn . (x1 , x2 , . . . , xn ). ns, o (x1 , x2 , . . . , xn ) fa de valoarea estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului, fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s ne indice c aceasta este de masa medie este

500

de grame. Ideal ar  dac aceast informaie ar  prezentat sub forma:

500g10g. . n, X1 , X2 , . . . , Xn ,
ce urmeaz repartiia lui

Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare, s gsim valoarea real a lui S considerm o selecie repetat de volum posibil a parametrului necunoscut.

X.

Dorim s

gsim un interval aleator care s acopere cu o probabilitate mare (e.g.,

0.95, 0.98, 0.99

etc) valoarea

Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator

(, ),

astfel nct

P ( < < ) = 1 ,
unde Pentru o observaie

(17.1)

(X1 , X2 , . . . , Xn ) (n)

(X1 , X2 , . . . , Xn )

sunt statistici. intervalul

xat, capetele intervalului (aleator) de ncredere vor  funcii de valorile de

selecie. De exemplu, pentru datele observate,

x1 , x2 , . . . , xn ,

(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete

valoare a intervalului de ncredere


se numete

pentru

Pentru simplitate ns, vom folosi termenul

de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul desprinzndu-se din context. Valoarea

nivel de semnicaie sau probabilitate de risc.

Observaia 17.2
depind de

Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:

se va considera funcie de selecie cut i independent de

S notm cu

S (X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg (s) aceast repartiie. Se determin apoi valorile s1 i s2 (care
s2

),

astfel nct

P (s1 < S < s2 ) =


s1

g (s) ds = 1 .

(17.2)

STATS 8 [Dr. Iulian Stoleriu]


Cum statistica

112
,
relaia (17.2) determin un interval aleator

depinde de

(, )

ce satisface (17.1).

Intervalul de ncredere variaz de la o selecie la alta.

Cu ct sau

este mai mic (de regul,

ca valoarea real a parametrului

= 0.01 sau 0.02 sau 0.05), s se gseasc n intervalul

cu att ansa (care este gsit este mai mare.

Dei ansele

(1 ) 100%) 99% 99%


de a se

99.99%

par a  foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime

conteaz. De exemplu, s presupunem c ntr-un an calendaristic un eveniment are ansa de n ecare zi a anului n tot decursului acestui an este de ecare zi ar  fost de

realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze

99.99%,

atunci rezultatul ar  fost

0.99365 2.55%. 96.42%, ceea ce

Dac ansa de realizare n nseamn o diferen foarte

mare generat de o diferen iniial foarte mic. Intervalul de ncredere pentru valoarea real a unui parametru nu este unic. cellalt capt. n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale. Dac ni se dau condiii

suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la

Interval de ncredere pentru medie, cnd dispersia este cunoscut


X N (, ) caracteristica unei populaii statistice, unde este necunoscut i este cunoscut. Pentru , efectum o selecie repetat de volum n i xm nivelul de ncredere 1 1, (0, 1). Alegem urmtoarea statistic:
Fie a construi un interval de ncredere pentru media teoretic

Z=

X N (0, 1) n ( z1 , z 2 )

(conform Propoziiei

11.23).

(17.3)

Putem determina un interval numeric

astfel nct (17.4)

P (z1 < Z < z2 ) = (z2 ) (z1 ) = 1 ,


unde

: R [0, 1]

este

funcia lui Laplace,


1 (x) = 2
x

y2 2

dy.

(17.5)

De ndat ce intervalul

( z1 , z 2 )

este determinat, putem scrie:

P ( z1 <

X < z2 ) = 1 , n = 1 , (1 ) .
este

echivalent cu

X z2 < < X z1 n n

de unde intervalul de ncredere pentru

cu nivelul de semnicaie

(, ) =

X z2 , n z1
i

X z1 n

Mai ramne de stabilit cum determinm valorile Distingem trei cazuri:

z2 .

STATS 8 [Dr. Iulian Stoleriu]

113
, atunci alegem (z1 , z2 ) ca ind interval z1 = z2 (vezi Observaia 17.3), de unde:

(1)

Dac nu se cunoate o alt informaie suplimentar despre de lungime minim pentru

xat.

Aceasta se obine cnd

(z2 ) (z2 ) = 1 .
Tinnd cont c

(z ) = 1 (z ),

ultima relaie se reduce la

(z2 ) = 1
de unde gsim pe Aadar,

, 2
. z1 2

z2

ca ind cuantila de ordin

2 , i anume

z1 = z1 , 2
i intervalul de ncredere pentru media teoretic

z2 = z1 , 2
cnd

este cunoscut este:

(, ) =

, X z1 2 n

X + z1 2 n

(17.6)

(2)

Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul aleator

(z1 , z2 )

de forma

(, z2 ).

nlocuind n (17.4) obinem:

P ( < Z < z2 ) = (z2 ) () = 1 ,


=0
de unde

z2 = z1 .

n acest caz, intervalul de ncredere este:

(, ) =

X z1 , n

(3)

Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul aleator

(z1 , z2 )

de forma

(z1 , ).

nlocuind n (17.4) obinem:

P (z1 < Z < ) = () (z1 ) = 1 ,


=1
de unde

z1 = z = z1 .

n acest caz, intervalul de ncredere este:

(, ) =

X + z1 n

Observaia 17.3
lungime este

n cazul

(1)

de mai sus, am ales intervalul aleator de lungime minim, unde aceast

l = (z2 z1 ). n

Pentru a gsi acest interval, avem de rezolvat problema:

min
z2

( z2 z1 ) n

g (z ) dz = 1 ,

z1

STATS 8 [Dr. Iulian Stoleriu]


unde

114
N (0, 1).
z2

este desitatea de repartiie pentru

Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie funcia

L(z1 , z2 ; ) = (z2 z1 ) + n
Dorim s am

g (z ) dz.
z1
sunt soluiile sistemului:

(17.7)

z1

z2

ce realizeaz

min L(z1 , z2 ; ). Acestea L =0 z1 L = 0, z2 L = 0, g (z1 ) = 0 n + g (z2 ) = 0. n

de unde

Deoarece funcia

este simetric, soluiile sunt

z1 = z2

(ce nu convine) i

z1 = z2 .

Observaia 17.4
aceasta nseamn

(1)

n cazul n care volumul seleciei este mare (de cele mai multe ori n practic, metoda de determinare a unui interval de ncredere prezentat mai sus se

n 30) n

poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin faptului c, pentru caracteristicii mare, statistica

urmeaz repartiia

N (0, 1)

pentru orice form a repartiiei

(conform teoremei limit central).

(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul Spre exemplu, dac selecia de volum

se face dintr-o populaie nit de volum

N al populaiei. n 0.05N , atunci

un inteval de ncredere centrat pentru media populaiei este:

(, ) =

X z1 2 n

N n , N 1

X + z1 2 n

N n N 1

(17.8)

Interval de ncredere pentru medie, cnd dispersia este necunoscut


Ne am n condiiile din seciunea precedent (i.e., o caracteristic normal, faptul c

X N (, )),

mai puin

este cunoscut. Dac deviaia standard

nu este cunoscut, atunci ea va trebui estimat. tim

deja c o estimaie absolut corect pentru

este statistica

d (X ),

dat prin

d (X ) =
Pentru a estima media teoretic necunoscut

1 n1

(Xi X )2 .
i=1

printr-un interval de ncredere, alegem statistica

T =

X t(n 1), d (X ) n

(conform Propoziiei

13.9).

(17.9)

n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai sus:

STATS 8 [Dr. Iulian Stoleriu]

115
,
atunci intervalul de ncredere pentru

(1)

Dac nu se cunoate o alt informaie suplimentar despre media teoretic

cnd

este necunoscut este:

(, ) =

d (X ) X t1 , ; n1 2 n

d (X ) X + t1 ; n1 2 n

(17.10)

(2)

Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere este:

(, ) =

d (X ) X t1; n1 , n

(3)

Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:

(, ) =
Aici, prin

d (X ) X t; n1 n

.
grade de libertate.

t; n1

am notat cuantila de ordin

pentru repartiia

cu

(n 1)

Observaia 17.5

Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-

n este mare, atunci va  o diferen foarte mic ntre valorile z1 2 i t1 ; n1 , de aceea am putea folosi z1 n locul valorii t1 ; n1 . Mai mult, pentru un n mare (n 30), 2 2 2 intervalele de ncredere obinute mai sus rmn aceleai pentru orice form a repartiiei caracteristicii X ,
vitate gaussian de volum Cnd nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare, un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:

n mic.

(, ) =

X z1 2

d (X ) , n

X + z1 2

d (X ) n

(17.11)

Interval de ncredere pentru dispersie, cnd media este cunoscut


X N (, ) o caracteristic a unei populaii studiate, pentru care cunoatem media teoretic dar 2 . Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie . 2 2 Pentru estimarea punctual a lui cnd media este cunoscut folosim statistica d (X ) denit prin
Fie nu i dispersia

1 d (X ) = n
2

[Xi ]2 .
i=1

Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii

n 2 1 d (X ) = 2 2

(Xi )2 2 (n),
i=1

(conform Propoziiei 13.3).

Determinm intervalul aleator din condiia:

P 2 1 <
unde aici

n 2 2 2 d (X ) < 2 2 = Gn (2 ) Gn (1 ) = 1 , 2 2
cu

Gn (x)

reprezint funcia de repartiie teoretic pentru repartiia

grade de libertate.

n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim c intervalul de ncredere pentru

2,

dup cum urmeaz:

STATS 8 [Dr. Iulian Stoleriu]

116

(1)

nu avem informaii suplimentare despre dispersie:

( 2 , 2 ) =

n d2 (X ) , 2 1 ; n
2

n d2 (X ) 2 ;n
2

(17.12)

(2)

avem informaii c dispersia este nemrginit superior:

( 2 , 2 ) =

n d2 (X ) , 2 ; n

+ ;

(17.13)

(3)

avem informaii c dispersia este nemrginit inferior:

( 2 , 2 ) =

n d2 (X ) 2 1; n 2
cu

(17.14)

unde prin

2 ; n

am notat cuantila de ordin

pentru repartiia

grade de libertate.

Interval de ncredere pentru dispersie, cnd media este necunoscut


Fie

X N (, ) o caracteristic a unei populaii studiate, pentru care nu cunoatem media sau dispersia. De exemplu, X reprezint timpul de producere a unei reacii chimice. Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie . 2 2 Pentru estimarea punctual a lui cnd media este necunoscut folosim statistica d (X ) denit prin d2 (X ) = 1 n1
n

[Xi X ]2 .
i=1

Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii

n1 2 1 d (X ) = 2 2

(Xi X )2 2 (n 1),
i=1

(conform Propoziiei 13.6).

Determinm intervalul aleator din condiia:

P
unde

2 1 <

n1 2 d (X ) < 2 2 2

2 = Gn1 (2 2 ) Gn1 (1 ) = 1 ,

Gn1 (x)

reprezint funcia de repartiie teoretic pentru repartiia

cu

(n 1)

grade de libertate.

n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de ncredere pentru

este:

(1)

nu avem informaii suplimentare despre dispersie:

( 2 , 2 ) =
unde prin

(n 1)d2 (X ) , 2 1 ; n1
2

(n 1)d2 (X ) 2 ; n1
2

, (n 1)

(17.15)

2 ; n1

am notat cuantila de ordin

pentru repartiia

cu

grade de libertate.

STATS 8 [Dr. Iulian Stoleriu]

117

(2)

avem informaii c dispersia este nemrginit superior:

( 2 , 2 ) =

(n 1)d2 (X ) , 2 ; n1

+ ;

(17.16)

(3)

avem informaii c dispersia este nemrginit inferior:

( 2 , 2 ) =

(n 1)d2 (X ) 2 1; n1

(17.17)

Observaia 17.6

Intervale de ncredere pentru deviaia standard se obin prin extragerea rdcinii p-

trate din capetele de la intervalele de ncredere pentru dispersie.

Interval de ncredere pentru proporii ntr-o populaie binomial


Pentru o populaie statistic, prin

proporie a populaiei vom nelege procentul din ntreaga colectivitate proporie de selecie nelegem procentajul din valorile de
p). p
(e.g., numrul de Dorim s construim un interval

ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti dintr-o anumit facultate). Pe de alt parte, prin de selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare

40 X

de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu

p),
Fie

iar proporia de selecie este o statistic (pe care o notm aici prin

o caracteristic binomial a unei colectiviti, cu probabilitatea de succes

steme aprute la aruncarea unei monede ideale, caz n care de ncredere pentru proporia populaiei,

p = 0.5).

p.

Pentru aceasta, avem nevoie de selecii de volum mare din

aceast colectivitate. Un estimator potrivit pentru

este proporia de selecie, adic

p=p=
Printr-un "volum mare" vom nelege un variabilei aleatoare

X . n n 30, n p > 5 i n (1 p) > 5. Media D2 (X ) = np(1 p). Putem scrie pe X ca B (1, p).
Pentru un volum

ce satisface:

este

n
ind

E(X ) = np,

iar dispersia este

X=
i=1

Xi , X

unde

Xi

sunt variabile aleatoare Bernoulli

mare, variabila

aleatoare

satisface (conform teoremei limit central aplicat irului

{Xi }i ):

X np n p (1 p)

X n

p (1 p) n

pp p (1 p) n

N (0, 1).

Pe baza acestui rezultat, putem construi un interval de ncredere pentru

p,

de forma:

p z1 2
Deoarece

p (1 p) , n

p + z1 2

p (1 p) n

.
Valoarea

(17.18)

nu este

a priori cunoscut, p a fost nlocuit sub radical cu estimatorul su.


E = z1 2 p (1 p) n

(17.19)

se numete

eroarea standard a proporiei. E

este eroarea care se face prin estimarea lui

prin intervalul

de ncredere dat de (17.18).

STATS 8 [Dr. Iulian Stoleriu]

118

Observaia 17.7
n N,
de regul ncredere este:

Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau

n < 0.05N )

sau pentru selecia cu repetiie dintr-o populaie nit.

Dac selecia

se realizeaz fr repetiie dintr-o populaie nit (cu

astfel nt

n 0.05N ), N n N 1

atunci intervalul de

p z1 2

p (1 p) n

N n , N 1

p + z1 2

p (1 p) n

(17.20)

Laborator 9 [Dr. Iulian Stoleriu]

119

18 Statistic Aplicat (L9) Estimaii prin intervale de ncredere n


Exemplu 18.1
aib masa de

Matlab
250g
de nghe-

O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s Desigur, este practic imposibil s umplem ecare cup cu exact

= 250g.

at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa necunoscut i dispersia cunoscut, ntmplare

= 3g. Pentru a verica dac maina este ajustat bine, se aleg la 30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,

. . . , x30

dup cum urmeaz:

257 249 248 256

251 251 247 250

252 247

251 251 251 247

249 248 248 252 248 253

251 253 251 247

248 245 251 253 244 253


X = 250.0667. 0.99.

Se tie c un estimator absolut corect pentru masa medie este media de selecie, Se cere s se gseasc un interval de ncredere pentru

cu nivelul de conden

Soluie:

Dup cum am vzut mai sus, un interval de ncredere pentru

este:

(, ) =
Urmtorul cod

, x z1 2 n

x + z1 2 n

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; sigma=3; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; z = icdf('norm',1-alpha/2,0,1); % cuantila de ordin 1-alpha/2 pentru normala m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.659, 251.478).

Observaia 18.2
ncredere cnd

Exist funcii predenite n

Matlab ce furnizeaz estimatori punctuali i intervale de Matlab predenite).

ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de

nu este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii

Exemplu 18.3

S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul

n care abaterea standard

nu mai este cunoscut.

Laborator 9 [Dr. Iulian Stoleriu]

120

Figura 18.1: Intervalul de ncredere pentru Exerciiu 18.1.


Soluie:
Dup cum am vzut mai sus, un interval de ncredere pentru

este:

(, ) =
Urmtorul cod

d (X ) x t1 , ; n1 2 n

d (X ) x + t1 ; n1 2 n

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; dev = std(X); % deviatia standard de selectie t = icdf('t',1-alpha/2,n-1); % cuantila de ordin 1-alpha/2 pentru t(n-1) m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.572, 251.561).

Observaia 18.4
predenite).

A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-

tervalului de ncredere cnd

este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii

Matlab

Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd

nu este cunoscut. Folosind funcia

normfit

obinem chiar mai mult dect ne propunem, i anume:

estimaii punctuale pentru

i cte un interval de ncredere pentru ambele. Rulnd funcia, adic

Laborator 9 [Dr. Iulian Stoleriu]


[m,s,mCI,sCI] = normfit(X,0.01)
Observm c valorile furnizate pentru intervalul de ncredere pentru obinute n Exerciiu 18.3.

121

, (mCI),

sunt exact aceleai ca cele

m = 250.0667

s =

2.9704

mCI = 248.572 251.561

sCI = 2.2111 4.4159

Observaia 18.6
= 0.01)

S presupunem c facem

50 de selecii repetate de volum 30 (adic alegem n 50 de zile 50


de intervale.

diferite cte o selecie de

30

de ngheate) i am intervalele de ncredere (toate cu nivelul de conden

pentru masa medie a coninutului. Figura 18.2 reprezint grac cele

Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu care valoarea estimat este acoperit de intervalul de ncredere este

P < < = 1 = 0.99,


deci exist anse de a grei n estimare, n cazul de fa de

1%.

Figura 18.2: 50 de realizri ale intervalului de ncredere pentru

Exemplu 18.7
nscrii, doar conden de

ntr-un institut politehnic, s-a determinat c dintr-o selecie aleatoare de

100 de studeni

67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o 95% s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67 = 0.05, n > 30, p = 100 = 0.67, np = 67 > 5 i n(1 p) = 33 > 5. informaie despre N (numrul total de studeni nscrii), putem presupune c

Soluie:

Mai nti, observm c

Deoarece nu ni se d vreo

Laborator 9 [Dr. Iulian Stoleriu]


n < 0.005N
i putem aplica formula (17.18). Gsim c intervalul de ncredere cutat este:

122

0.67 z0.975

0.67 (1 0.67) , 100

0.67 + z0.975

0.67 (1 0.67) 100 1276

= (59.27%, 74.73%).

Exemplu 18.8

Dintr-o selecie de

200

de elevi ai unei coli cu

de elevi,

65%

arm c dein cel

puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva coal ce dein cel puin un telefon mobil, la nivelul de semnicaie

= 0.05.
folosind (17.20) i gsim c un

Soluie:
interval de

n = 200, N = 1276, p = 0.65. ncredere la nivelul de semnicaie 0.05


Avem:

Deoarece este

n 0.05N ,

0.65 1.96

0.65 (1 0.65) 200

1276 200 , 1276 1

0.65 + 1.96

0.65 (1 0.65) 200

1276 200 1276 1

= (58.93%, 71.07%).

Observaia 18.9
p

Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei

printr-un interval de ncredere cu o eroare maxim

E,

atunci folosim formula (17.19). Dac am putea

ghici proporia populaiei,

p,

atunci gsim urmtoarea estimare a volumului seleciei:

n = p(1 p) [ ] este partea ntreag. Dac p pentru p = 0.5 i estimm pe n prin


unde

z1 2 E

, p(1 p)

(18.1)

nu poate  ghicit, atunci folosim faptul c

este maxim

n=

1 4
i

z1 2 E 40%

Exemplu 18.10

Un studiu susine c ntre

35%

dintre elevii de liceu din ar fumeaz. Ct de

mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce fumeaz, cu o eroare de estimare maxim de

0.5%.

Se va alege nivelul de semnicaie

= 0.1. 50%).

Soluie:

Folosim formula (18.1), pentru

p = 0.4

(se alege valoarea

40%,

cea mai apropiat de

Cuantila este

z0.95 = 1.28.

Gsim c o estimaie pentru

n
2

este:

n = 0.4(1 0.4)

1.64 0.005

= 25820.

Exemplu 18.11

O fabric produce batoane de ciocolat cntrind

100g

ecare. Pentru a se estima aba-

terea masei de la aceast valoare, s-a fcut o selecie de

35

de batoane, obinndu-se valorile:

100.12; 99.92; 100.1; 99.89; 100.15; 99.9; 99.76; 100.1; 99.24; 100.12; 98.63; 99.03;

99.89; 99.7; 98.19; 100.3;

100.07; 99.88; 100.11; 99.90; 99.97; 100.2; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89; 98.68.

Laborator 9 [Dr. Iulian Stoleriu]


Gsii un interval de ncredere (cu pectiva fabric.

123
= 0.05)
pentru deviaia standard masei batoanelor produse de res-

Soluie:

Mai nti, calculm

d2 (x).

Avem:

d2 (x) =
Din tabele, sau utiliznd

1 35

35

[Xi 100]2 = 0.3.


i=1

Matlab, gsim cuantilele:


2 0.975; 35 = 53.2033; 2 0.025; 35 = 20.5694.

Matlab, cuantilele se calculeaz astfel:


icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)

Intervalul de ncredere pentru dispersie este (folosind formula (17.12)):

( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:

(, ) = ( 0.2, 0.51) = (0.44, 0.71).

Exemplu 18.12
de nicotin de

Gsii un interval de ncredere (cu

nicotin a unui anumit tip de igri, dac o selecie

= 0.05) pentru deviaia standard a coninutului de de 24 de buci are deviaia standard a coninutului

1.6mg. s = d (x) = 1.6.


Din tabele, sau utiliznd

Soluie:

Mai nti,

Matlab, gsim:

2 0.975; 24 = 39.3641;

2 0.025; 24 = 12.4012.

Intervalul de ncredere pentru dispersie este (folosind formula (17.15)):

( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:

( 1.5608, 4.9544) = (1.25, 2.22).

Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este

Laborator 9 [Dr. Iulian Stoleriu]

124

Param.

Ali param.

Interval de ncredere cu nivelul de semnicaie

X z1 2 2
cunoscut

, n

X + z1 2
, n

X z1 , X t1 ; n1 2

+
n d (X ) n

X + z1

d (X ) , n

X + t1 ; n1 2
, n

2
necunoscut

X t1; n1 ,

d (X ) n

X t; n1

n d2 (X ) , 2 1 ; n
2

n d2 (X ) 2 ;n
2

cunoscut

n d2 (X ) , 2 ; n

+
n d2 (X ) 2 1; n (n1) d2 (X ) 2 ; n1
2

,
(n1) d2 (X ) , 2 1 ; n1
2

necunoscut

(n1) d2 (X ) , 2 ; n1

, p
2 1 2 / 2

(n1) d2 (X ) 2 1; n1

mare

p z1 2

p (1p) , n

p + z1 2

p (1p) n

necunoscui

1 , 2

1 2 1 2 1 2 p1 p2

2, 2 1 2 cunoscui
necunoscui

d2 d2 1 1 , f n1 1, n2 1; 2 2 fn1 1, n2 1; 1 2 d2 d 2 2
2 1
2

2 = 2 1 2 2 = 2 1 2

necunoscui

, X1 X2 + z1 + 2 n2 n1 n2 2 2 2 2 d d d d 1 1 X1 X2 t1 ; N + 2 , X1 X2 + t1 + 2 ;N 2 2 n1 n2 n1 n2 X1 X2 t1 2 ; n1 +n2 2 d(X1 , X2 ), X1 X2 + t1 2 ; n1 +n2 2 d(X1 , X2 ) n1 + p1 p2 z1 2


p1 (1p1 ) n1

X1 X2 z1

2 2

2 1

2 2

n1 , n 2
mari

p2 (1p2 ) , n2

p1 p2 + z1 2

p1 (1p1 ) n1

p2 (1p2 ) n2

Tabela 18.1: Tabel cu intervale de ncredere.

Mai sus, prin

d(X1 , X2 )

am notat:

d(X1 , X2 ) =

2 (n1 1)d2 1 + (n2 1)d2

n1 + n2 2 1 1 n1 + n2

1 2

STATS 10 [Dr. Iulian Stoleriu]

125

19 Statistic Aplicat (C10) Estimarea parametrilor prin intervale de ncredere (dou populaii)
Interval de ncredere pentru diferena mediilor
Fie

X1

X2

caracteristicile a dou populaii normale,

N (1 , 1 ),

respectiv,

N (1 , 1 ),

pentru care nu

se cunosc mediile teoretice.

Alegem din prima populaie o selecie repetat de volum

n1 ,

notat prin

(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin

d2 1

1 = n1 1

n1

(X1k X1 )
i=1

d2 2

1 = n2 1

n2

(X2k X2 )2 .
i=1

Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau la baza construirii intervalului. Putem avea urmtoarele trei cazuri:

(1) dispersiile

2 1

2 2

sunt cunoscute

a priori.

Alegem statistica

Z=

(X1 X2 ) (1 2 )
2 2 1 + 2 n1 n2

N (0, 1).

(conform Propoziiei

11.27).

(19.1)

Intervalul de ncredere pentru diferena mediilor este:

X1 X2 z1
2

2 1

n1

2 2

n2

X1 X2 + z1 2

2 1

n1

2 2

n2

(2) dispersiile

2 = 2 = 2 1 2

i necunoscute. Pentru a gsi un interval de ncredere pentru diferena (vezi Propoziia 13.12):

mediilor, alegem statistica

T =

(X1 X2 ) (1 2 )
2 (n1 1)d2 1 + (n2 1)d2

n1 + n2 2 1 1 n1 + n2

t (n1 + n2 2),

(19.2)

Intervalul de ncredere pentru

1 2

este:

X1 X2 t1 ; n
2 1 +n2 2

2 (n1 1)d2 1 + (n2 1)d2

n1 + n2 2 1 1 n1 + n2 n1 + n2 2 1 1 n1 + n2

1 2

,
1 2

X1 X2 + t1 ; n1 +n2 2 2

2 (n1 1)d2 1 + (n2 1)d2

STATS 10 [Dr. Iulian Stoleriu]


(3) dispersiile

126
necunoscute. Pentru un interval de ncredere pentru

2 = 2, 1 2

1 2 ,

alegem statistica

T =

(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2

t(N ),

(19.3)

unde

N=

s2 s2 1 + 2 n1 n2 s2 1 n1
2

1 + n1 1

s2 2 n2

2 1 n2 1 1 2

2 2 2 s2 1 = d (x1 ), s2 = d (x2 ) .

(19.4)

n acest caz, un interval de ncredere pentru

la nivelul de semnicaie

este:

X1 X2 t1 ; N
2

d2 d2 1 + 2 , n1 n2

X1 X2 + t1 ;N 2

2 d2 d 1 + 2 . n1 n2

Observaia 19.1

Pentru un volum de selecie

rmn aceleai pentru orice form a repartiiei caracteristicii

n mare (n 30), intervalele de ncredere obinute mai sus X , nu neaprat pentru una gaussian.

Interval de ncredere pentru raportul dispersiilor


Fie

X1

X2

caracteristicile a dou populaii normale,

N (1 , 1 ),

respectiv,

N (2 , 2 ),

pentru care nu

se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum urmeaz repartiia lui repartiia lui dispersiilor,

n1

ce

X1 ,

iar din a doua populaie alegem o selecie repetat de volum

n2

ce urmeaz

X2 .

Fixm nivelul de semnicaie

Pentru a gsi un interval de ncredere pentru raportul

2 1 / 2 2
considerm statistica

F =

2 d2 2 1 F (n1 1, n2 1), 2 d2 1 2

(conform Propoziiei 13.15).

(19.5)

Determinm apoi un interval aleator

(f1 , f2 )

astfel nct

P (f1 < F < f2 ) = Fn1 1, n2 1 (f2 ) Fn1 1, n2 1 (f1 ) = 1 ,


unde

Fn, m

este funcia de repartiie pentru repartiia

Fisher cu (n, m) grade de libertate.


f2 = f1 , n1 1, n2 1 , 2 F isher
cu

Alegem:

f1 = f , n1 1, n2 1 2
unde

fn, m;

reprezint cuantila de ordin

pentru repartiia

(n, m)

grade de libertate.

2 2 Intervalul de ncredere pentru raportul dispersiilor, 1 /2 este:

d2 1 f 2 , n1 1, n2 1 , d2 2

d2 1 f1 , n1 1, n2 1 . 2 d2 2

(19.6)

STATS 10 [Dr. Iulian Stoleriu]

127

Interval de ncredere pentru diferena proporiilor ntr-o populaie binomial


X2 dou caracteristici binomiale independente ale unei populaii, cu volumele i probabilitile de succes n1 , p1 i, respectiv, n2 , p2 . Dorim s am un interval de ncredere pentru diferena proporiilor, p1 p2 . Pentru a reui aceasta, avem nevoie de selecii mari, de aceea utilizarea testului Z este oportun. Condiiile testului sunt: n1 30, n2 30, n1 p1 > 5, n2 p2 > 5, n1 (1 p1 ) > 5, n2 (1 p2 ) > 5. La un nivel de semnicaie , un interval de ncredere pentru p1 p2 este: p1 p2 z1 p1 (1 p1 ) + p2 (1 p2 ) , p1 p2 + z1 p1 (1 p1 ) + p2 (1 p2 ) . (19.7) 2 2 n1 n2 n1 n2
Fie i

X1

Vericarea ipotezelor statistice


[Ambiia de o via a unui statistician este de a nu da gre . . . n mai mult de 5% din cazuri.]

Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii considerate. Presupunem c este dat de

X este caracteristica studiat f (x, ), unde Rp . Dup f (x, )

a unei populaii statistice i c legea sa de probabilitate cum precizam n capitolul anterior, aceast funcie poate

 specicat (adic i cunoatem forma, dar nu i parametrul asupra acestui parametru, sau sale. S presupunem c

),

caz n care putem face anumite ipoteze

este necunoscut, caz n care putem face ipoteze asupra formei

(xk )k=1, n

sunt datele observate relativ la caracteristica

X.

Deniia 19.2
(2) O (3)

(1) Numim

ipotez statistic

o presupunere relativ la valorile parametrilor ce apar n

legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.

ipotez neparametric
X

este o presupunere relativ la forma funcional a lui

f (x, ).

De exemplu, Dac

o ipotez de genul Numim

ipotez parametric

Normal. o presupunere fcut asupra valorii parametrilor unei repartiii.

mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element, avem de-a face cu o (4) O

priori a  adevrat.

ipotez parametric simpl. Altfel, avem o ipotez parametric compus. ipotez nul este acea ipotez pe care o intuim a  cea mai apropiat de realitate i o presupunem a
Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist O

suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus nevinovat, pn se gsesc dovezi care s ateste o vin".

ipotez alternativ

este orice alt ipotez

STATS 10 [Dr. Iulian Stoleriu]


admisibil cu care poate  confruntat ipoteza nul. De exemplu, n Exerciiul 18.1, putem presupune c ipoteza (parametric) nul este

128

(H0 )
iar o ipotez alternativ (bilateral) poate 

= 250 grame,

(H1 )
n general, pentru teste parametrice considerm

= 250 grame.

A = A0
i spunem c

A1 , A 0

A1 =

(H0 )
iar

A0

este ipoteza nul,

(H1 )
(5) A

A1

este ipoteza alternativ.

testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:

ipoteza nul se respinge ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)

semnicativ din punct de vedere statistic dac este improbabil ca diferen semnicativ dac exist suciente dovezi statistice pentru a dovedi diferena, i nu datorit faptului c diferena ar  mare. Numim nivel de semnicaie probabilitatea de a respinge ipoteza nul cnd, de fapt, aceasta este adevrat. n general,
(6) n Statistic, un rezultat se numete el s se  realizat datorit ansei. ntre dou valori exist o Vom numi

regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule. o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac
P ((x1 , x2 , . . . , xn ) U | H0
Dac putem scrie regiunea critic sub forma admis)

nivelul de semnicaie este ales ca ind una dintre valorile:

= 0.01, 0.02, 0.05

etc.

Matematic,

= .

U = {(x1 , x2 , . . . , xn ) Rn | S (x1 , x2 , . . . , xn ) c},


atunci valoarea i

se numete

valoare critic iar S (x1 , x2 , . . . , xn ) se numete statistic test sau criteriu.

Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate

determinat ca mai sus, putem avea dou cazuri:

(i) (ii)

(x1 , x2 , . . . , xn ) U , (x1 , x2 , . . . , xn ) U ,

ceea ce implic faptul c ceea ce implic faptul c

(H0 ) (H0 )

este acceptat (pn la o alt testare); este respins (adic

(H1 )

este acceptat);

n urma unor astfel de decizii pot aparea dou tipuri de erori:

eroarea de spea (I)

sau riscul furnizorului (en.,

false positive)

este eroarea care se poate comite

respingnd o ipotez (n realitate) adevrat. Se mai numete i acestei erori este nivelul de semnicaie, adic:

risc de genul (I).

Probabilitatea

= P ((x1 , x2 , . . . , xn ) U | H0

admis).

STATS 10 [Dr. Iulian Stoleriu]


eroarea de spea a (II)-a
sau riscul beneciarului (en.,

129
false negative) este eroarea care se poate risc de genul al (II)-lea. Probaadmis).

comite acceptnd o ipotez (n realitate) fals. Se mai numete i bilitatea acestei erori este

= P ((x1 , x2 , . . . , xn ) U | H1

Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.

Fie

o caracteristic ce urmeaz legea de probabilitate

f (x; ),

cu

(x1 , x2 , . . . , xn )

valori

de selecie de volum

n.

Deniia 19.3

Vom numi

puterea unui test

probabilitatea respingerii unei ipoteze false (sau, probabili-

tiatea de a nu comite eroarea de spea a II-a). Notm prin

= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .

(19.8)

Deniia 19.4

Denumim

valoare P

sau

P valoare (en.,

P-value) probabilitatea de a obine un rezultat

cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea cea mai mic valoare a nivelului de semnicaie pe observaiile culese. Dac pentru care ipoteza

este

(H0 )

ar  respins, bazndu-ne

Pv , atunci respingem ipoteza nul la nivelul de semnicaie , iar dac (H0 ). Cu ct Pv este mai mic, cu att mai mari anse ca ipoteza nul s e respins. De exemplu, dac valoarea P este Pv = 0.045 atunci, bazndu-ne pe observaiile culese, vom respinge ipoteza (H0 ) la un nivel de semnicaie = 0.05 sau = 0.1, dar nu o putem respinge la un nivel de semnicaie = 0.02. Dac ne raportm la P valoare, decizia ntr-un test statistic poate  fcut astfel: dac aceasta valoare este mai mic dect nivelul de semnicaie , atunci ipoteza nul este respins, iar dac P value este mai mare dect , atunci ipoteza nul nu poate  respins. De reinut faptul c, cu ct valoarea P este mai mic, cu att mai semnicativ este rezultatul testului. Pv > ,
atunci admitem Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent. Ipoteza nul ar  lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un

negative este mai grav dect un false positive.

false

S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este sau nu vinovat. Are astfel de testat urmtoarele ipoteze:

(H0 ) (H1 )

inculpatul este nevinovat; inculpatul este vinovat.

Posibilele stri reale (asupra crora nu avem control) sunt: [1] [2]
inculpatul este nevinovat (H0 este adevrat i inculpatul este vinovat (H0 este fals i

H1

este fals);

H1

este adevrat)

Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:

STATS 10 [Dr. Iulian Stoleriu]

130

[i] H0 [ii] H0

se respinge (dovezi suciente pentru a ncrimina inculpatul); nu se respinge (dovezi insuciente pentru a ncrimina inculpatul);

n realitate, avem urmtoarele posibiliti, sumarizate n Tabelul 19.1:

Decizii Respinge H0 Accept H0

Situaie real H0 - adevrat H0 - fals [1]&[i] [2]&[i] [1]&[ii] [2]&[ii]

Tabela 19.1: Posibiliti decizionale.


Interpretrile datelor din Tabelul 19.1 se gsesc n Tabelul 19.2.

Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 nchide o persoana nevinovat nchide o persoana vinovat Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.

Situaie real Decizii H0 - adevrat H0 - fals Respinge H0 judecat corect Accepta H0 judecat corect Tabela 19.3: Erori decizionale.

Tipuri de teste statistice


Tipul unui test statistic este determinat de ipoteza alternativ

(H1 ).

Avem astfel:

test unilateral stnga, atunci cnd ipoteza alternativ este test unilateral dreapta, atunci cnd ipoteza alternativ este test bilateral, atunci cnd ipoteza alternativ este

< 0 > 0

(vezi Figura 19.1

(a)); (b));

(vezi Figura 19.1

= 0

(vezi Figura 19.2);

STATS 10 [Dr. Iulian Stoleriu]

131

Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.

Figura 19.2: Regiune critic pentru test bilateral.

Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.

Testul cel mai puternic


S presupunem c

este caracteristica unei colectiviti statistice ce urmeaz o lege de probabilitate

f (x; ),

i avem de testat ipoteza nul

(H0 )

vs. ipoteza alternativ

(H1 ),

cu probabilitatea de risc

Deniia 19.5
condiii:

Spunem c testul bazat pe regiunea critic

este

cel mai puternic test

n raport cu

toate testele bazate pe regiunea critic

U,

la nivelul de semnicaie

dac sunt ndeplinite urmtoarele

(a) (b)

P ((x1 , x2 , . . . , xn ) U | (H0 ) U U .

se admite)

= ;

STATS 10 [Dr. Iulian Stoleriu]


(adic, dintre toate testele de nivel de semnicaie puterea testului este maxim). Regiunea

132

xat, cel mai puternit test este cel pentru care

se numete

regiunea critic cea mai bun.

Observaia 19.6

Nu ntotdeauna exist un cel mai puternic test.

n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate construi un astfel de criteriu.

Lema 19.7 (Neyman19 -Pearson)

Presupunem c avem de testat

(H0 ) :
la nivelul de semnicaie

= 0

vs.

(H1 ) :

= 1 ,
funcia de verosimilitate i e

Notm cu

L(x; ) = L(x1 , x2 , . . . , xn ; ) S (x) = L(x; 1 ) . L(x; 0 )

Atunci regiunea

denit prin

U = {x Rn | S (x) c},
cu

astfel nct

P (x U | (H0 )

adevrat)

= ,

este cea mai bun regiune critic la nivelul de

semnicaie

.
Fie

Exemplu 19.8

x1 , x2 , . . . , xn

valori de selecie pentru o caracteristic

X N (, ),

unde

este

cunoscut. Dorim s testm ipoteza nul:

(H0 ) :
versus ipoteza alternativ simpl

= 0 = 1 .
n

(H1 ) :

Soluie:

Funcia de verosimilitate asociat seleciei este:

1 L(x1 , x2 , . . . , xn ; ) = n e n (2 ) 2
Calculnd

12 2 k=1

(xk )2 .

S (x),

obinem:

L(x; 1 ) S (x) = = L(x; 0 )

0 1

1 2

1 1 2 2 1 0

(xk )2
k=1

.
n

Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de

(xi )2 .
i=1
Aadar,

n
De asemenea, observm c dac

1 > 0 ,
n

atunci

S ( x)

este o funcie cresctoare de

(xi )2 .
i=1

vom respinge ipoteza

(H0 )

dac

(xi )2
i=1

este sucient de mare.

19 Jerzy

Neyman (1894 1981), matematician polonez

Laborator 10 [Dr. Iulian Stoleriu]

133

20 Statistic Aplicat (L10) Estimarea prin intervale de ncredere n


Exemplu 20.1

Matlab
Pentru a

Dou strunguri sunt potrivite s produc piese identice pentru o comand.

estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la ntamplare dou seturi de volume la urmtoarele rezultate:

n1 = 7

n2 = 10

de piese din cele dou loturi. Msurtorile au condus

Lotul Lotul

1 2

25.06 25.01

24.95 25.09

25.01 25.02

25.05 24.95

24.98 24.97

24.97 25.03

25.02 24.99

24.97

25.03

24.98

S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele dou loturi (

= 0.1).

Se va presupune c diametrele pieselor urmeaz o repartiie normal.

Soluie:

Folosim (19.6). Determinm mai nti dispersiile empirice. Acestea sunt:

d2 1 =
Cuantilele sunt:

1 6

(L1i L1i )2 = 0.0412


i=1

d2 2 =

1 9

10

(L2j L2j )2 = 0.0409.


j =1

Folosind

Matlab, putem calcula cuantilele astfel:


f1 = finv(0.05, 6, 9);

f0.05, 6, 9 = 0.2440

f0.95, 6, 9 = 3.3738.

f2 = finv(0.95, 6, 9);

Gsim intervalul de ncredere:

(f1 , f2 ) (0.25, 3.4).

Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o 65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva selecie de coal crora le place Matematica.

Exemplu 20.2

Soluie:

Folosim formula (19.7). Mai nti,

p1 =

23 45 ,

p2 =

21 37 2.33 45 65

21 45

24 45 + 45

37 65

28 65 , 65

21 37 + 2.33 45 65

z0.99 2.33. Intervalul cutat este: 21 24 37 28 45 45 + 65 65 = (0.1990, 0.0061). 45 65

37 65 i

Laborator 10 [Dr. Iulian Stoleriu]

134
n = 25 = 2.
cu media se selecie

Exerciiu 20.3
de volum cu

O selecie aleatoare de volum ce are deviaia standard

x = 50

se ia dintr-o populaie

N = 1000,

(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,

= 0.05. = 0.05)
n cazul n care populaia nu este

(b) Gsii un interval de ncredere pentru media populaiei ( normal.

Soluie:

(a) Folosim formula (17.6). Gsim intervalul de ncredere

(, ) =

2 50 z0.975 , 25

2 50 + z0.975 25

= (48.4, 51.6). < 30),


vom

(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4). valorile lui

Avem c probabilitatea ca

s e aproximate prin

X =

cu o eroare de cel mult

deviaii standard este:

P ({|X X | < kX }) 1
Lund

1 . k2

1 = 0.95, k2

gsim

k=

20.

Astfel, un interval de ncredere pentru media populaiei va 

(, ) =

x k , x + k n n
2 = D 2 (X ) = X

50

2 20 , 25

50 +

2 20 25

= (46.42, 53.58).

Am folosit faptul c

rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui, n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar  indicat ca volumul seleciei s e de cel puin

2 . n

Observm c acest interval este mai mare dect cel gsit ante-

30, caz n care putem folosi aproximarea cu repartiia normal.

Testarea tipului de date experimentale


Pentru a putea efectua un test statistic n mod corect, este necesar s tim care este tipul (tipurile) de date pe care le avem la dispoziie. Pentru anumite teste statistice (e.g., testul

sau testul

t,

datele

testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e normal repartizate trebuie vericat. concordan ntr-o seciune urmtoare. n De aceea, se pune problema realizrii unei legturi ntre funcia de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de

normplot(X)

Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia
reprezint grac datele din vectorul

versus o repartiie normal. Scopul acestei funcii

este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va  liniar, dac nu, atunci va  un grac curbat. De exemplu, s reprezentm cu

normplot

vectorii

de mai jos. Gracele sunt cele din Figura 20.1.

X = normrnd(100,2,200,1); subplot(1,2,1); normplot(X) Y = exprnd(5,200,1);

Laborator 10 [Dr. Iulian Stoleriu]

135

Figura 20.1: Reprezentarea normal a datelor.


subplot(1,2,2); normplot(Y)
Observm c primul grac este aproape liniar, pe cnd al doilea nu este. Putem astfel s concluzionm c datele date de din

sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele

nu sunt normal repartizate.

Funcia

chi2gof

determin, n urma unui test

2 ,

dac datele observate sunt normal repartizate, la un

nivel de semnicaie

= 0.05.

Astfel, comanda

h = chi2gof(x)
ne va furniza rezultatul admis), sau ipoteza nul

h = 1.

h = 0, dac nu putem respinge ipoteza c datele (H0 ) este admis). Aplicnd testul pentru X i Y

h = 1,

dac datele nu sunt normal repartizate (i.e., ipoteza alternativ de mai sus, obinem

(H1 )

este

observate sunt normal distribuite (i.e.,

h = 0,

respectiv,

De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal. De exemplu, funcia

probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul

cu repartiia dat de

tre repartiiile ce pot  comparate folosind aceast comand menionm:

'weibull'
implicit c

'lognormal'.

distribution. Prin'normal', 'exponential',

Trebuie avut grij ca valorile vectorului O alt comand util este

cu oricare dintre ultimele trei repartiii. Comanda simplicat este

distribution = 'normal'. wblplot(Y)

Y s e pozitive pentru compararea probplot(Y), care presupune n mod

Laborator 10 [Dr. Iulian Stoleriu]


care este echivalent cu comanda

136
probplot(weibull,Y).

n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie exponenial.

x = exprnd(0.5, 250,1); % selectie exponentiala y = normrnd(3, 1, 250,1); % selectie normala probplot('exponential',[x y]) legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 20.2: Reprezentarea exponenial a datelor.


Urmtoarea funcie

Matlab compar un set de date cu o repartiie precizat. Funcia

histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul

printr-o histogram ce are numrul de bare egal cu

n.

Dac opiunea etc).

'tip_repartitie'

apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram

se va desena densitatea de repartiie a repartiiei precizate (e.g., normal. Exemplul de mai jos produce gracul din Figura 20.3.

exponential, gamma, lognormal

n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea

X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

STATS 11 [Dr. Iulian Stoleriu]

137

Figura 20.3: Compararea prin histograme.

21 Statistic Aplicat (C11) Teste parametrice


S presupunem c datele statistice colectate provin dintr-o repartiie probabilistic dat, ns nu cunoatem parametrul sau parametrii acestei repartiii. De multe ori, avem anumite intuiii asupra valorilor parametrilor ce intr n formula densitii de repartiie, pe care dorim s le vericm ntr-un cadru riguros. Astfel de teste, ce au la baz testarea parametrilor unor repartiii cunoscute, se numesc ntr-o testare parametric.

teste parametrice.

n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar

Etapele unei testri parametrice

Considerm o selecie ntmpltoare seleciei s e mare, de regula

x1 , x2 , . . . , xn
Fie

de observaii asupra caracteristicii de interes. variabile aleatoare de selecie;

De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul

n 30.

X1 , X2 , . . . , Xn

Alegem o statistic (criteriu)

S (X1 , X2 , . . . , Xn )
apropiat de

care, dup acceptarea ipotezei

(H0 ),

aceast are

o repartiie cunoscut, independent de parametrul testat; Alegem un nivel de semnicaie Gsim regiunea critic Calculm valoarea Lum decizia:

0.

De regul,

= 0.01, 0.02, 0.05.

U; S (X1 , X2 , . . . , Xn )
pentru selecia considerat;

s0

a statisticii

STATS 11 [Dr. Iulian Stoleriu]

138
atunci ipoteza nul,

 

Dac Dac

s0 U ,

(H0 ),

se respinge;

s0 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem

i o admitem pn la efectuarea eventual a unui test mai puternic).

Observaia 21.1
valorii

O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul sau valoare critic). Reamintim, se poate calcula dup formula: (21.1)

(sau

P valoarea

P valoarea

este probabilitatea de a obine

un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru testul bilateral,

P valoarea

Pv = P (|S| > |s0 |) = P (S > |s0 |) + P (S < |s0 |),


unde

este statistica folosit n testare i

s0

este valoarea acestei statistici pentru selecia dat (respectiv,

seleciile date, n cazul testrii cu dou selecii). Pentru testul unilateral stnga,

P valoarea

se poate calcula dup formula:

Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,

(21.2)

P valoarea

este dat de: (21.3)

Pv = P (S > s0 ),
Utiliznd

P valoarea,

testarea se face astfel:

Ipoteza nul va  respins dac

Pv <

i va  admis dac

Pv .

Aadar, cu ct

Pv

este mai mic, cu

att mai multe dovezi de respingere a ipotezei nule.

Testul Z pentru medie (o selecie) Testul Z bilateral


Testul

pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n

orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut Fie caracteristica

a priori.

30) din

ce urmeaz legea normal

N (, )

cu

necunoscut i

>0

cunoscut. Presupunem

c avem deja culese datele de selecie (observaiile) asupra lui

X:

x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul

(H0 ) :
vs. ipoteza alternativ

= 0 = 0 ,

(H1 ) :
cu probabilitatea de risc

Pentru a efectua acest test, considerm statistica

Z=

X . n
Propoziiei

(21.4)

Dac ipoteza

(H0 )

se admite, atunci

Z N (0, 1), (conform

11.23).

Cautm un interval (21.5)

( z1 , z 2 )

astfel nct

P (z1 < Z < z2 ) = 1 .

STATS 11 [Dr. Iulian Stoleriu]


Gsim c acest interval este:

139
z1 , 2

z1 , 2 Z)
ca ind acea regiune pentru Este de ateptat ca regiunea

unde

este cuantila de ordin

pentru repartiia

N (0, 1).
tim c un interval de ncredere

Denim regiunea critic pentru ipoteza nul (relativ la valorile statisticii care ipoteza pentru

(H0 )

se respinge, dac media

aparine acelui interval.

va conine valoarea real 0

cu o probabilitate destul de mare,

1 .

critic s e complementara acestui interval, adic

U = z R;
Astfel,

, z1 z z1 2 2

= {z ; |z | z1 }. 2

(21.6)

este acea regiune n care:

X 0 + z1 2 n
Notm cu

. X 0 z1 2 n

z0

valoarea statisticii

pentru observaia considerat.

Decizia nal se face astfel:

dac

, z0 z1 2 z0 z1 , 2

z1 2

, (echivalent,

z0 U ),

atunci admitem

(H0 )

(pentru c nu sunt su-

ciente dovezi s o respingem).

dac

z1 2

, (echivalent,

z0 U ),

atunci respingem

(H0 )

(exist suciente dovezi

s o respingem).

Etapele testul Z bilateral


(1) (2) Se dau:

Determinm valoarea

{x1 , x2 , . . . , xn } (date repartizate z1 astfel nct 2 z1 2 =1

normal),

0 ,

. 2

(3)

Calculez valoarea

z0 =
(4) Dac: (i) (ii)

x 0
n

|z0 | < z1 , atunci (H0 ) este admis (nu poate  respins); 2 |z0 | z1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2

Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul

(H0 ) :
vs. ipoteza alternativ

= 0

(H1 )s :

< 0 ,

(unilateral stnga)

STATS 11 [Dr. Iulian Stoleriu]


sau ipoteza alternativ

140

(H1 )d :
cu probabilitatea de risc

> 0 ,

(unilateral dreapta)

Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor  chiar intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul de semnicaie statisticii

este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul

este vericat vs. ipoteza alternativ

pentru care

(H1 )s

se realizeaz cu probabilitatea

(H1 )s , atunci regiunea critic va  regiunea acelor posibile valori ale 1 1, adic: U = (, z1 ).
(21.7)

ntr-adevr, se observ cu uurin c:

P (z U ) = P ( < Z < z1 ) = (z1 ) = 1 .


n mod similar, dac avem ipoteza alternativ

(H1 )d ,

atunci alegem regiunea critic: (21.8)

U = (z1 , +).
La fel ca mai sus, decizia se determin astfel (n ambele cazuri):

dac

z0 = z0 =

x 0
n

U, U,

atunci admitem

(H0 ). (H0 ).

dac

x 0
n

atunci respingem

Observaia 21.2

Testul

(bilateral sau unilateral) poate  aplicat cu succes i pentru populaii non-

normale, dac volumul seleciei observate este

n 30.

Testul Z pentru diferena mediilor a dou selecii


Testul Fie

Z
i

pentru diferena mediilor se folosete pentru selecii independente de volum mare (n

orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute

a priori.

30)

din

X1

X2

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

respectiv,

pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat

N (2 , 2 ), de volum n1 ,

x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
vs. ipoteza alternativ

1 = 2 1 = 2 .

(H1 ) :
Pentru a testa aceast ipotez, alegem statistica

Z=

(X1 X2 ) (1 2 )
2 1 2 + 2 n 1 n2

(21.9)

STATS 11 [Dr. Iulian Stoleriu]


Dac

141
1 = 2 ),
atunci (vezi (19.3)):

(H0 )

este admis (adic admitem c

Z N (0, 1).
Fie

(conform Propoziiei

11.28). Z

(21.10)

z0 =

(u1 u2 )
2 1 n1

2 2 n2

. Regiunea critic pentru ipoteza nul, exprimat n valori ale statisticii

este:

U =
Dac valoarea statisticii Dac valoarea statisticii

z;

, z1 z z1 2 2

. U,
atunci admitem

Z Z

pentru seleciile date nu se a n pentru seleciile date se a n

(H0 ).

U,

atunci respingem

(H0 ).

Etapele testul Z pentru diferena mediilor


(1) (2) Se dau datele normale Determinm valoarea

{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } astfel nct, funcia lui Laplace, z1 2 z1 2 =1 x1 x2


2 1 n1

0 , 1 , 2 ,

. 2

(3)

Calculez valoarea

z0 =
(4) Dac: (i) (ii)

2 2 n2

, atunci 1 = 2 ; |z0 | < z1 2 |z0 | z1 2 , atunci 1 = 2 .

Observaia 21.3
(3) Testul

(1)

n cazul n care

1 , 2

sunt necunoscute, atunci utilizam testul

pentru dou

selecii, prezentat mai jos. (2) Regiunile critice pentru testele unilaterale sunt prezentate n Tabelul 21.2.

pentru dou selecii, bilateral sau unilateral, poate  aplicat cu succes i pentru populaii

non-normale, dac volumele seleciilor observate sunt (4) Pentru testul

n1 30, n2 30.
(pentru testul

Z , P valoarea

se poate calcula dup urmtoarele formule:

Pv = P (|Z| > |z0 |) = 1 (|z0 |) + (|z0 |) Pv = P (Z < z0 ) = (z0 )


(pentru testul

bilateral);

(21.11) (21.12) (21.13)

unilateral stnga);

Pv = P (Z > z0 ) = 1 (z0 )

(pentru testul

unilateral dreapta).

Testul t pentru medie (o selecie)


Testul

pentru medie se folosete pentru selecii normale de volum mic, de regul

populaiei este necunoscut Fie caracteristica

a priori.

n < 30,

cnd dispersia Considerm

ce urmeaz legea normal

N (, ) cu necunoscut i > 0 necunoscut.

datele de selecie (observaiile) asupra lui

X: x1 , x2 , . . . , xn .

STATS 11 [Dr. Iulian Stoleriu]


Vrem s vericm ipoteza nul

142

(H0 ) :
vs. ipoteza alternativ

= 0 = 0 ,

(H1 ) :
cu probabilitatea de risc

Pentru a efectua acest test, considerm statistica

T =

X . d (X ) n 0 ),
atunci

(21.14)

Dac ipoteza

(H0 )

se admite (adic

ia valoarea

T t(n 1),

(conform Propoziiei

13.9).

Cutm un interval

(t1 , t2 )

astfel inct

P (t1 < T < t2 ) = 1 .


Gsim c acest interval este:

(21.15)

t1 ; n1 , t1 ; n1 , 2 2
unde

t; n

reprezint cuantila de ordin

pentru repartiia

t(n).

Regiunea critic este complementara intervalului de ncredere. Decizia se ia astfel:

dac

t0 =

x 0
d (X ) n

t1 ; n1 , t1 ; n1 2 2 t1 ; n1 , t1 ; n1 2 2

(echivalent,

t0 U ),

atunci admitem

(H0 ).

dac

t0 =

x 0
d (X ) n

(echivalent,

t0 U ),

atunci respingem

(H0 ).

Etapele testul t bilateral


(1) (2) Se dau:

{x1 , x2 , . . . , xn } (date normale), Determinm valoarea t1 ; n1 astfel nct 2

0 , . 2

funcia de repartiie pentru

t(n 1),

Fn1 t1 ; n1 = 1 2
(3) Calculez valoarea

t0 =
(4) Dac:

x 0
d (X ) n

unde,

d (X ) =

1 n1

(xi x)2 .
k=1

(i) (ii)

|t0 | < t1 ; n1 , atunci (H0 ) este admis (nu poate  respins); 2 |t0 | t1 ; n1 , atunci (H0 ) este respins (adic (H1 ) este admis); 2

Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul

(H0 ) :

= 0

STATS 11 [Dr. Iulian Stoleriu]


vs. ipoteza alternativ

143

(H1 )s :
sau ipoteza alternativ

< 0 , > 0 ,

(unilateral stnga)

(H1 )d :
cu probabilitatea de risc

(unilateral dreapta)

Pentru a realiza testele, avem nevoie de regiuni critice corespunztoare. Regiunea critic pentru ipoteza nul va trebui s e mulimea valorilor favorabile realizrii ipotezei alternative, adic este acel interval ce conine doar valori ale statisticii

ce vor duce la respingerea ipotezei

nule i acceptarea ipotezei alternative. Aadar, dac alegem ipoteza alternativ intervalul:

(H1 )s ,

atunci regiunea

critic pentru ipoteza nul va  mulimea valorilor favorabile realizrii ipotezei alternative

(H1 )s ,

adic

U = (, t1; n1 ).
Dac alegem ipoteza alternativ

(21.16)

(H1 )d ,

atunci regiunea critic pentru ipoteza nul va :

U = (t; n1 , +).
La fel ca mai sus, testarea este (n ambele cazuri):

(21.17)

dac

t0 =

x 0
d (X ) n

U,

atunci admitem

(H0 ).

dac

t0 =

x 0
d (X ) n

U,

atunci respingem

(H0 ).

Observaia 21.4

Testul

(bilateral sau unilateral) poate  aplicat cu succes i pentru populaii non-

normale, dac volumul seleciei observate este

n 30. = 0 z1 , + 2

Ali parametri

(H0 ) : (H1 ) = 0 < 0 > 0 = 0 < 0 > 0

Regiunea critic

Tipul testului Testul Testul Testul

cunoscut

, z1 2

bilateral

(, z1 ) (z1 , +) , t1 ; n1 2 t1 ; n1 , + 2 (, t1; n1 ) (t1; n1 , +)

Z unilateral stnga Z unilateral dreapta

necunoscut

Testul Testul Testul

bilateral

t unilateral stnga t unilateral dreapta

Tabela 21.1: Teste pentru valoarea medie a unei colectiviti.


Testul t pentru diferena mediilor a dou selecii
Testul Fie

t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),

atunci cnd dispersiile populaiilor considerate sunt necunoscute

a priori.

X1

X2

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

respectiv,

N (2 , 2 ),

STATS 11 [Dr. Iulian Stoleriu]


pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum

144

n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c mediile sunt egale (H0 ) :
vs. ipoteza alternativ

1 = 2

(H1 ) :

1 = 2 .

Cazul I

Presupunem c

1 = 2

sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica

T =

(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2

(21.18)

Aici,

2 d2 1 i d1 sunt dispersiile de selecie (modicate).

Dac

(H0 ) este admis (adic admitem c 1 = 2 ),


(21.19)

atunci (vezi relaia (19.3)):

T t(N ),
cu

ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena

mediilor, adic:

U = R \ t1 ; N , t1 ;N . 2 2

Cazul II

Presupunem c

1 = 2 T =

i sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica

(X1 X2 ) (1 2 ) (n1 1)d2 1 + ( n2 1)d2 2

n1 + n2 2 . 1 1 n1 + n2

(21.20)

Dac

(H0 )

este admis (adic admitem c

1 = 2 ),

atunci (vezi relaia (19.2)): (21.21)

T t (n1 + n2 2).
Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:

U = R \ t1 ; n1 +n2 2 , t1 ; n1 +n2 2 . 2 2

Etapele testul t pentru diferena mediilor


(1) (2) funcia de

{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } (date normale), 0 , ; Determinm valoarea t1 ; m (unde m = N sau m = n1 + n2 2, dup caz) astfel 2 repartiie pentru repartiia Student t(m),
Se dau:

nct

Fm t1 ;m =1 2

. 2

STATS 11 [Dr. Iulian Stoleriu]


(3) Calculez valoarea

145

t0 =

x1 x2 d2 d2 1 + 2
n1 n2

, dac

1 = 2 1 = 2


(4) Dac: (i) (ii)

x1 x2
2 (n1 1)d2 1 + (n2 1)d2

n1 + n2 2 1 1 n1 + n2

, dac

|t0 | < t1 ; m , atunci 1 = 2 ; 2 |t0 | t1 2 ; m , atunci 1 = 2 .

Observaia 21.5

(1) n practic, nu putem ti

a priori dac dispersiile teoretice a celor dou populaii

ce urmeaz a  testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20). (2) n cazul n care dispersiile sunt cunoscute, atunci se utilizeaz testul care urmeaz paii testului de relaia (19.1) care, (3) Testul

Z pentru diferena mediilor, t pentru diferena mediilor, cu diferena c statistica ce se consider este dat dup acceptarea ipotezei nule, urmeaz repartiia N (, ). n1 30, n2 30. T

pentru dou selecii, bilateral sau unilateral, poate  aplicat cu succes i pentru populaii

non-normale, dac volumele seleciilor observate sunt (4) Pentru testul

Z , P valoarea

se poate calcula dup urmtoarele formule: (pentru testul bilateral); (21.22) (21.23) (21.24)

Pv = P (|T | > |t0 |) = 1 Fm (|t0 |) + Fm (|t0 |) Pv = P (T < t0 ) = Fm (t0 )


(pentru testul

unilateral stnga);

Pv = P (T > t0 ) = 1 Fm (t0 )
unde

(pentru testul

unilateral dreapta).

m=N

sau

m = n1 + n2 2,

dup caz.

Ali parametri

(H0 ) : (H1 ) 1 = 2 1 < 2 1 > 2

1 = 2
2 2 1 2 n1 + n2 2 2 1 2 n1 + n2 2 2 1 2 n1 + n2

Regiunea critic

Tipul testului Testul Testul Testul

1 , 2
cunoscute

|X1 X2 | z1 2 X1 X2 < z1 X1 X2 > z1 |X1 X2 | t1 ;N 2 X1 X2 < t1; N X1 X2 > t1; N

bilateral

Z Z

unilateral stnga unilateral dreapta

1 = 2
necunoscute

1 = 2 1 < 2 1 > 2

2 (X ) d2 2 (X1 ) + d n n1 2 2 (X ) d2 2 (X1 ) + d n n1 2 2 (X ) d2 2 (X1 ) + d n n1 2

Testul Testul Testul

bilateral

t t

unilateral stnga unilateral dreapta

Tabela 21.2: Teste pentru egalitatea a dou medii.

STATS 11 [Dr. Iulian Stoleriu]

146

Testul 2 pentru dispersie


Fie caracteristica

ce urmeaz legea normal

selecie (observaiile) asupra lui Vrem s vericm

N (, ) X , x1 , x2 , . . . , xn .

cu

>0

necunoscute. Considerm datele de

(H0 ) :
cu probabilitatea de risc

2 2 = 0

vs. ipoteza alternativ

(H1 ) :

2 2 = 0 ,

Pentru a efectua acest test, considerm statistica

2 =
care, dup acceptarea ipotezei (13.6). Intervalului de

n1 2 d (X ), 2

(21.25)

2 ), atunci 2 2 (n 1), (conform Propoziiei (H0 ) (adic 2 ia valoarea 0 2 ncredere pentru este 2 2 ; n1 , 1 ; n1 ,
2 2

unde

2 ; n1

este cuantila de ordin

pentru repartiia

2 (n).
pentru selecia dat. Atunci, regula de decizie este

Regiunea critic

va  complementara acestui intervalul de ncredere.

2 S notm prin 0
urmtoarea:

n1 2 2 2 d (x) valoarea statisticii 0

dac

2 2 2 0 ; n1 , 1 ; n1
2 2

, atunci admitem

(H0 )

(i.e.,

2 ); 2 = 0 2 ). 2 = 0

dac

2 2 2 0 ; n1 , 1 ; n1
2 2

, atunci respingem

(H0 )

(i.e.,

Observaia 21.6

Se pot considera, dup caz, i ipotezele alternative unilaterale

(H1 )s :

2 2 < 0

(H1 )d :

2 2 > 0 .

Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.

(H0 ) : (H1 )
necunoscut

2 2 = 0

Regiunea critic

Tipul testului Testul Testul Testul

2 2 = 0 2 2 < 0 2 2 > 0

, 2 ; n1
2

2 1 ; n1 , +
2

bilateral

, 2 1; n1 2 ; n1 , +

2 unilateral stnga 2 unilateral dreapta

Tabela 21.3: Teste pentru dispersie.


Testul F pentru raportului dispersiilor
Fie

X1

X2

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

respectiv,

pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum

N (2 , 2 ), n1 ,

STATS 11 [Dr. Iulian Stoleriu]

147

x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i 1 (X2j )j =1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie . Dorim s testm ipoteza nul c dispersiile sunt egale (H0 ) :
vs. ipoteza alternativ

2 2 1 = 2

(H1 ) :
Pentru a testa aceast ipotez, alegem statistica

2 2 1 = 2 .

F =
Dac

2 d2 (X ) 2 1 . 2 2 1 d (X2 )

(21.26)

(H0 )

este admis (adic

2 = 2 ), 1 2

atunci:

F F (n1 1, n2 1)
Intervalul de ncredere pentru raportul dispersiilor este

(repartiia

Fisher).

(21.27)

f ; n1 1, n2 1 , 2
i se determin astfel nct

f1 ; n1 1, n2 1 2

P f ; n1 1, n2 1 F f1 ; n1 1, n2 1 = 1 . 2 2
Extremitile intervalului se determin din relaiile

Fn1 1; n2 1 f ; n1 1, n2 1 = 2
(f; n1 1, n2 1 este cuantila de ordin Regiunea critic Notm prin

Fn1 1; n2 1 f1 ; n1 1, n2 1 = 1 2 F (n1 1, n2 1)).


Avem:

. 2

pentru repartiia Fisher

este complementara intervalului de ncredere pentru raportul dispersiilor.

f0

valoarea lui

pentru observaiile date,

x1

x2 .

f0 =
Regula de decizie este:

d2 (x1 ) . d2 (x2 )

dac

f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2 f0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 2 2

, atunci admitem

(H0 )

(i.e.,

1 = 2 ); 1 = 2 ).

dac

, atunci respingem

(H0 )

(i.e.,

Observaia 21.7

Se pot considera, dup caz, i ipotezele alternative unilaterale

(H1 )s :

2 2 1 < 2 ,

(H1 )d :

2 2 1 > 2 .

Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.

STATS 11 [Dr. Iulian Stoleriu]


(H0 ) :
2 2 1 = 2

148 Regiunea critic Tipul testului Testul F bilateral Testul F unilateral stnga Testul F unilateral dreapta

necunoscute

1 , 2

(H1 ) 2 2 1 = 2 2 2 1 < 2 2 2 1 > 2

, f f1 ; n1 1, n2 1 ; n1 1, n2 1 , + 2 2 (, f1; n1 1, n2 1 ) (f1; n1 1, n2 1 , +)

Tabela 21.4: Teste pentru raportul dispersiilor.

Teste pentru proporii ntr-o populaie binomial O singur populaie


Fie

o caracteristic binomial a unei colectiviti, cu probabilitatea de succes

p.

Pe baza unor selecii

ale populaiei, dorim s testm urmtoarea ipotez asupra lui

p:

(H0 ) : p = p0

vs.

(H1 ) : p = p0 .

De asemenea, putem considera i ipoteze alternative unilaterale:

(H1 )s : p < p0

sau

(H1 )d : p > p0 . n

Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul Fixm un nivel de semnicaie de ncredere (17.18). al seleciilor considerate.

Vom construi testul pentru proporia populaiei pe baza intervalului

Etapele testului sunt:



Pe baza seleciei, calculm proporia de selecie Calculm valoarea

p,

care este o estimare a proporiei populaiei,

p;

P0 =

p p0 p0 (1 p0 ) n

Calculm cuantila Dac

z1 ; 2 P0 z1 , z1 , 2 2

atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.

Observaia 21.8

Pentru testul unilateral stnga regiunea critic pentru

P0

este

(, z1 ),

iar pentru

testul unilateral dreapta este

(z1 , ).

STATS 11 [Dr. Iulian Stoleriu]

149

Testul proporiilor pentru dou populaii


Fie de

X2 dou caracteristici binomiale independente ale unei populaii, cu volumele succes n1 , p1 i, respectiv, n2 , p2 . Pe baza unor selecii, dorim s testm ipotezele:
i

X1

i probabilitile

(H0 ) : p1 = p2

vs.

(H1 ) : p1 = p2 .

De asemenea, putem considera i ipoteze alternative unilaterale:

(H1 )s : p1 < p2

sau

(H1 )d : p1 > p2 .

Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm un nivel de semnicaie

Dac ipoteza nul este admis, atunci

p1 = p2 = p.

Un estimator pentru

este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,

p =

n1 p 1 + n2 p 2 . n1 + n2

Etapele testului sunt:



Calculm proporiile de selecie Calculm valoarea

p1

p2 ,

care sunt estimri pentru

p1 ,

respectiv,

p2 ;

P0 = p (1
Calculm cuantila Dac ; z1 2

p1 p2 p )
1 n1

; +
1 n2

P0 z1 , z1 , 2 2
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic este complementara intervalului de ncredere.

Laborator 11 [Dr. Iulian Stoleriu]

150

22 Statistic Aplicat (L11) Teste parametrice rezolvate n Matlab


Matlab utiliznd comanda

Testul Z n
Testul

Matlab

pentru o selecie poate  simulat n

[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)


unde:

h p

este rezultatul testului. Dac

h = 1,

atunci ipoteza nul se respinge, dac

h = 0,

atunci ipoteza

nul nu poate  respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic); este valoarea

P (P

value);

ci

este un interval de ncredere pentru este valoarea statisticii

la nivelul de semnicaie

zval X

pentru observaia considerat; Dac

este un vector sau o matrice, coninnd observaiile culese.

este matrice, atunci mai

multe teste

sunt efectuate, de-alungul ecrei coloane a lui

X;

m0 = 0 , sigma alpha tail

valoarea testat;

este deviaia standard teoretic a lui este nivelul de semnicaie;

X , a priori

cunoscut;

poate  unul dintre urmtoarele iruri de caractere:

 'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit);  'left', pentru un test unilateral stnga ( < 0 );  'right', pentru un test unilateral dreapta ( > 0 ); Exemplu 22.1
este Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n

urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim s testm, la nivelul de semnicaie

= 0.05,

dac media tuturor notelor la Matematic a elevilor colii

= 6.8

sau mai mare. Se tie c deviaia standard este

= 2.5.

Soluie:

Aadar, avem de testat

(H0 )
Vectorul

= 6.8

vs.

(H1 )

> 6.8.

de mai jos cuprinde toate notele obinute n urma sondajului.

Laborator 11 [Dr. Iulian Stoleriu]


X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ... 7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)]; [h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')
Acest cod aeaz

151

h = 0

p = 0.9500

ci =

5.9332 Inf

stats =

-1.6444

Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.

Observaia 22.2

(1) Dac ipoteza alternativ este bilateral ((H1 )

: = 6.8),

atunci comanda ar :

[h, p, ci, zval] = ztest(X, 6.8, 2.5)


n acest caz, gsim c ipoteza nul este respins (i.e., rezultatul este

h = 1).

(2) Decizia testului putea  luat i pe baza

P valorii.

Aceasta este:

Pv = P (Z > z0 ) = 1 P (Z z0 ) = 1 (z0 ) = 0.95 > 0.05 = .


n

Matlab, aceast valoare poate  calculat astfel:


m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n)); Pv = 1 - normcdf(z0, 0, 1)

(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat. De exemplu, comanda

h = ztest(X, m0, sigma, alpha, tail)


ne va furniza doar rezultatul testului (h (4) Nu exist o funcie n

Matlab care s simuleze testul Z pentru dou selecii.

=0

sau

h = 1),

fr a aa alte variabile.

Testul t n

Matlab
Matlab utiliznd comanda general

Testul t pentru o selecie


Testul

poate  simulat n

Laborator 11 [Dr. Iulian Stoleriu]


[h, p, ci, stats] = ttest(X,m0,alpha,tail)
unde:

152

h, p, ci, m0, alpha, tail


variabila

sunt la fel ca n funcia

ztest;

stats

nmagazineaz urmtoarele date:

 tstat - este valoarea statisticii T pentru observaia considerat;  df - numrul gradelor de libertate ale testului;  sd - deviaia standard de selecie; Exemplu 22.3
de exact Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a

apare la orice aruncare sunt

50% 50%.

Aruncm moneda n caza de

100

de ori i obinem faa cu stema

59

de ori. Pe baza acestei experiene, cutm s testm ipoteza nul

(H0 ) :
vs. ipoteza alternativ

moneda este corect

(H1 ) :
la un prag de semnicaie

monedal este msluit,

= 0.05.
ce reprezint faa ce apare la o singur aruncare a monedei. stema i S

Soluie:
de unde

spunem c

X variabila aleatoare X = 1, dac apare faa cu E(X ) = 0.5, D2 (X ) = 0.25.


Fie

X = 0,

dac apare faa cu banul. Teoretic,

X B (1, 0.5),

Prin ipotez, ni se d o selecie de volum

59

de

ipotezele

n = 100 i scriem observaiile fcute ntr-un vector x ce conine 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem (H0 ) i (H1 ) astfel: (H0 ) : = 0.5 (H1 ) : = 0.5.

Dac

{X1 , X2 , . . . , Xn }

sunt variabilele aleatoare de selecie, atunci alegem statistica

T =
Dac ipoteza

X
d (X ) n

.
i statistica

(H0 )

se admite, atunci

este xat,

= 0 .5

T t(n 1).

Valoarea acestei

statistici pentru selecia dat este:

t0 =
Din t1 ; n1 2

x
d (X ) n

= 1.8207.
i decidem c ipoteza

= t0.975; 99 = 1.9842,

rezult c

poate  respins la nivelul de semnicaie

|t0 | < t1 ; n1 , 2 ).

(H0 ) este admis (nu

P valoarea

este

Pv = 1 Fn1 (t0 ) + Fn1 (t0 ) = 1 F99 (1.8207) + F99 (1.8207) = 0.0717.


Codul

Matlab pentru calculul analitic de mai sus este urmtorul:

Laborator 11 [Dr. Iulian Stoleriu]


n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)]; t0 = (mean(x) - mu)/(std(x)/sqrt(n)); tc = tinv(1-alpha/2, n-1); % cuantila if (abs(t0) < tc) disp('moneda este corecta') else disp('moneda este masluita') end Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1) % P-valoarea
Rulnd codul, obinem rezultatul:

153

moneda este corecta


n loc s folosim codul de mai sus, am putea folosi funcia

ttest

din

Matlab, dup cum urmeaz:

[h, p, ci, stats] = ttest(X,0.5,0.05,'both')


i obinem

h = 0

p = 0.0717

ci =

0.4919 0.6881

stats =

tstat: 1.8207 df: 99 sd: 0.4943

Observaia 22.4
0.08,

(1)

Deoarece

P valoarea

este

p = 0.0717,

deducem c la un prag de semnicaie atunci ipoteza nul ar  respins,

ipoteza nul ar  fost respins.

(2) Dac dintre cele

100 de observri aveam o apariie n plus a stemei,

adic moneda ar  fost catalogat a  msluit.

Testul t pentru dou selecii


Testul

pentru egalitatea a dou medii poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)


unde:

h, p, ci, alpha, stats X


i

tail

sunt la fel ca mai sus;

sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai

multe teste

sunt efectuate, de-alungul ecrei coloane;

vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.

Laborator 11 [Dr. Iulian Stoleriu]

154

Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c X1 N (1 , 1 ) i X2 N (2 , 2 ), cu 1 = 2 , necunoscute a priori. Pentru a verica modul cum s-au prezentat studenii la acest examen n doi ani consecutivi, selectm aleator notele a 25 de studeni din prima grup i 30 de respectiv, note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.

Exemplu 22.5

(i) (ii) (ii)

Vericai dac ambele seturi de date provin dintr-o repartiie normal; Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie S se testeze (cu

= 0.05;

= 0.01)

ipoteza nul

(H0 ) :

1 = 2 ,

(n medie, studenii sunt la fel de buni)

versus ipoteza alternativ

(H1 ) :

1 < 2 ,

(n medie, studenii au note din ce n ce mai mari)


Frecvena absolut Grupa

Nota obinut

5 6 7 8 9 10

M F 08 3 4 9 7 2 0

Grupa

M F 09 5 6 8 6 3 2

Tabela 22.1: Tabel cu note.


Soluie:
(i)

h = chi2gof(u) k = chi2gof(v)

% %

h = 0, deci u N k = 0, deci v N

(u i (ii)

sunt vectorii din codul

Matlab de mai jos)

Un interval de ncredere la acest nivel de semnicaie se obine apelnd funcia

Matlab

[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')


Acesta este:

(-0.7294, 0.6760)

Altfel, se calculeaz intervalul de ncredere (vezi Tabelul 18.1)

x1 x2 t1 ; N
2

d2 1 n1

d2 2 n2

x1 x2 + t1 ;N 2

d2 1 n1

d2 2 n2

Codul

Matlab:

Laborator 11 [Dr. Iulian Stoleriu]

155

n1=25; n2=30; alpha = 0.05; u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)]; v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)]; d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2; t = tinv(1-alpha/2,N); m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii) Comanda

Matlab este:

[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')


n urma rulrii comenzii, obinem:

h = 0

p = 0.4698

ci = -Inf 0.8137

stats =

tstat: -0.0761 df: 52.7774 sd: 2x1 double

Observaia 22.6

Valoarea

poate  calculat i cu formula:

Pv = P (T < t0 ) = FN 1 (t0 ) = 0.4698.


n

Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)

Testul 2 pentru dispersie n Exemplu 22.7


strung. tim c

Matlab
N (, ).
10.55 3 Alegem o selecie de volum 10.65 1

Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (n mm) produse de un

urmeaz legea normal 10.50 2

n = 11

i obinem

distribuia empiric: 10.60 5

S se testeze (cu

= 0.1)

ipoteza nul

(H0 ) :
versus ipoteza alternativ

2 = 0.003, 2 = 0.003. (0.0012, 0.0055)


iar valoarea critic este

(H1 ) :

Soluie:

Intervalul de ncredere pentru

este

2 0 = 7.2727.

Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate  respins la

Laborator 11 [Dr. Iulian Stoleriu]


acest nivel de semnicaie. Aceeai concluzie poate  luat n urma inspeciei valorii

156

P,

care este mai mare dect nivelul

Avem:

2 2 Pv = P (|2 | > |2 0 |) = P ( > 0 ) = 1 Fn1 (7.2727) = 0.6995.

Testul

poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)


unde:

h, p, ci, m0, alpha, stats, tail var

sunt la fel ca n funcia

ttest;

este valoarea testat a dispersiei;

Spre exemplicare, codul

Matlab pentru exerciiul anterior este:

X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65]; [h, p, ci, stats] = vartest(X,0.003,0.1,'both')


Rularea acestuia ne d:

h = 0

p = 0.6011

ci =

0.0012 0.0055

stats = chisqstat: 7.2727 df: 10

adic ipoteza nul este acceptat la acest nivel de semnicaie. Folosind

Matlab, putem calcula P valoarea astfel:


c0 = (n-1)/0.003*var(X);

Pv = 1 - chi2cdf(c0,10)

Testul F n

Matlab
Matlab utiliznd comanda
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)

Testul raportului dispersiilor poate  simulat n

unde variabilele sunt la fel ca n funcia

ttest2.

Exemplu 22.8

Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)

Laborator 11 [Dr. Iulian Stoleriu]


provin din populaii cu dispersii egale. Aadar, avem de testat (la nivelul de semnicaie

157
= 0.01)

(H0 )

2 2 1 = 2

vs.

(H1 )

2 2 1 = 2 .

Soluie:

Utiliznd notaiile din Exerciiul 22.5, comanda

Matlab care rezolv acest test este:

[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')


(pentru teste unilaterale, folosim

'left'

sau

'right'

n locul lui

'both'.)

Rezultatul comenzii anterioare este:

h = 0

p = 0.2119

CI =

0.2191 1.7426

stats = fstat: 0.6047 df1: 24 df2: 29

Deoarece

h = 0,

decidem c dispersiile teoretice ale celor dou populaii pot  considerate a  egale la

nivelul de semnicaie

= 0.01. P,

Observaia 22.9
mai mare dect

Decizia testului poate  luat i pe baza inspeciei valorii Aceasta este:

observnd c aceasta este

Pv = 1 Fn1 1, n2 1 (|f0 |) + Fn1 1, n2 1 (|f0 |) = 1 Fn1 1, n2 1 (|f0 |).


n

Matlab, calculm astfel:


f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)

Teste parametrice pentru proporii Exemplu 22.10


4893
S notm cu

ntr-un sondaj naional de opinie,

5000

de persoane au fost rugate s rspund la o

ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.

p acest procent.

La nivelul de semnicaie

= 0.05, testai dac p este de 95% sau mai mare.

Soluie:

Avem de testat ipoteza

(H0 ) : p = 0.95
Procentul de selecie este

vs.

(H1 ) : p > 0.95. z1 = 1.6449


i valoarea statisticii este

p=

4893 5000

= 0.9786,

cuantila este

P0 =

0.9786 0.95 0.95 (1 0.95) 5000

= 9.2791 [1.6449, ),

Laborator 11 [Dr. Iulian Stoleriu]


aadar ipoteza nul este respins la acest nivel de semnicaie. Admitem c Aceeai concluzie poate  dedus i prin inspecia

158
p > 0.95. P valorii.

Aceasta este

Pv = P (Z > P0 ) = 1 P (Z P0 ) = 1 (9.2791) 0 < = 0.05.


Aadar, ipoteza nul va  respins la toate nivele de semnicaie practice.

Exemplu 22.11

Revenim la Exemplul 20.2. S se testeze, la nivelul de semnicaie

= 0.02 dac exist

diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.

Soluie:

Avem:

p1 =

23 45 ,

p2 =

37 65 ,

p =
23 45

23+37 45+65 37 65 1 45

6 11 i

z0.99 2.33.

Valoarea statisticii este:

P0 =

6 11 )

= 0.6019 [2.3263, 2.3263], +


1 65

6 11 (1

deci ipoteza nul nu poate  respins la acest nivel de semnicaie. Aceeai concluzie o putem lua dac vericm

P valoarea.

Aceasta este:

Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .

Laborator 11 [Dr. Iulian Stoleriu]

159

STATS 12 [Dr. Iulian Stoleriu]

160

23 Statistic Aplicat (C12) Teste de concordan


Testele de concordan (en., goodness-of-t tests) realizeaz concordana ntre repartiia empiric (repartiia datelor observate) i repartiia teoretic. sunt testul Dou dintre cele mai des utilizate teste de concordan

de concordan i testul Kolmogorov-Smirnov.

Testul 2 de concordan
Acest test de concordan poate  utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i

testul

al celei mai bune potriviri (en., goodness of t test).

testul 2 al lui Pearson

sau

Acest test poate  aplicat pentru orice tip

de date pentru care funcia de repartiie empiric poate  calculat.

Cazul neparametric
S considerm o caracteristic necunoscut
(x5)2 18

a priori,

a unei populaii statistice

Repartiia variabilei aleatoare

este

ns intuim (sau avem anumite informaii) cum c aceasta ar  dat de legea

de probabilitate complet specicat

f (x, )

(e.g.,

f (x) =

e2 2x x! ,

x N

( X P (2) )

sau

f (x) =

1 2

( X N (5, 3) )).
este cunoscut i vom omite s mai

Deoarece legea de probabilitate ipotetic este complet specicat, punem n eviden dependena lui

de acesta n decursul aceste seciuni.

Pentru a verica ipoteza fcut asupra repartiiei lui

X,

considerm un set de observaii asupra lui funcia de repartiie teoretic, i.e.,

testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de

x1 , x2 , . . . , xn

setul de date observate. S notm cu

F (x)

X i f (x). Fie F = f . n

2 cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:

Descompunem n clase mulimea observaiilor fcute asupra lui mulimii aparine unei singure clase. Scriem aadar,

X,

astfel nct ecare element al

{x1 , x2 , . . . , xn } =
i=1

Oi ,

Oi

Oj = , i = j. ni
de observaii ce aparin ecrei clase

Determinm frecvenele empirice absolute, i.e., numerele

Oi .

n mod evident, va trebui s avem c

ni = n.
i=1
pentru ca testul s e concludent. n cazul n care

n general, se dorete ca

n 30

ni 5,

numrul de apariii ntr-o anumit clas nu depete valoarea clase, atunci sunt suciente cel puin noul numr, notat aici tot cu

5,

atunci se vor cumula dou sau

mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin

valori n ecare clas. n ambele cazuri, trebuie inut cont

de modicarea numrului de clase, iar numrul

trebuie modicat corespunztor (l nlocuim cu

k ).

STATS 12 [Dr. Iulian Stoleriu]

Pentru ecare

161

s se ae n clasa

i {1, 2, . . . , k }, determinm probabilitatea teoretic pi ca un element al populaiei Oi . Aceast probabilitate este obinut cu ajutorul funciei f (x). Astfel, frecvenele teoretice absolute sunt n pi , i {1, 2, . . . , k }. Altfel spus, n pi este numrul estimat de valori ale repartiiei cercetate ce ar cdea n clasa Oi .

Formulm ipoteza nul,

(H0 ) :
Aceasta este echivalent cu

Funcia de repartiie a lui

este

F (x).

(H0 ) :

probabilitatea unei observaii de a aparine clasei

Oi

este

pi .

(i = 1, 2, . . . , k ).

Ipoteza alternativ este negaia ipotezei nule. Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica

2 =
i=1

(ni n pi )2 . n pi

(23.1)

(Fiecare dintre termenii

(ni n pi )2 n pi

poate  privit ca ind o eroare relativ de aproximare a valorilor

ateptate ale repartiiei cu valorile observate.) Statistica

urmeaz repartiia

2 (k 1).

Uneori, statistica

se numete

discrepan.

Alegem nivelul de semnicaie

de regul, foarte apropiat de zero.

Alegem regiunea critic, ca ind regiunea pentru care valoarea vaiile date satisface

2 0

a acestei statistici pentru obser-

2 2 0 > 1; k1 ,
unde

2 1; k1

este cuantila de ordin

pentru repartiia

2 (k 1). .

Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul

(H0 )

se respinge la nivelul de semnicaie

Altfel, nu sunt dovezi statistice suciente s se resping.

Cazul parametric
Cnd probabilitile teoretice atunci cnd legea de

pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui

f,

dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s

estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri, pierdem dou grade etc. S presupunem c legea de probabilitate a lui

de mai sus este

f (x, ),

unde

= (1 , 2 , . . . ,

p ) R p
xime.

sunt parametri necunoscui.

Pentru a aproxima aceti parametri, folosim observaiile

culese asupra lui

X.

O metod la ndemn pentru estimri parametrice este metoda verosimilitii ma-

Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:

(H0 ) :

pi = p i ,

(i = 1, 2, . . . , k ),

STATS 12 [Dr. Iulian Stoleriu]


unde

162
2 cazul parametric i
i

pi

este probabilitatea unei observaii de a aparine clasei

p i

sunt valorile estimate.

Din acest moment, etapele testului tric, cu deosebirea c statistica estimarea celor

sunt asemntoare cu cele din cazul neparame-

dat prin (23.1) urmeaz repartiia

cu

(k p 1) grade de libertate.

Aceasta este urmare a faptului c se pierd

p grade de libertate din cauza folosirii observaiilor date pentru

parametri necunoscui.

Etapele aplicrii testului 2 de concordan (neparametric sau parametric)

Se dau:

x1 , x2 , . . . , xn .

Intuim

F (x; 1 , 2 , . . . , p );

Formulm ipotezele statistice:

(H0 ) (H1 )
Dac pas); similitate maxim

funcia de repartiie teoretic a variabilei aleatoare ipoteza nul nu este adevrat.

este

F (x; 1 , 2 , . . . , p )

1 , 2 , . . . , k (k p) nu 1 , 2 , . . . , k

sunt parametri cunoscui, atunci determinm estimrile de veropentru acetia (doar n

cazul parametric;

altfel srim peste acest

Scriem distribuia empiric de selecie (tabloul de frecvene), clasa

Oi
i=1, n

ni
Se calculeaz probabilitatea

,
i=1

ni = n, ni 5; Oi .
Dac

pi ,

ca un element luat la ntmplare s se ae n clasa

Oi = [ai1 , ai ),

atunci

pi = F (ai ; ) F (ai1 ; ), n cazul neparametric; ) F (ai1 ; ), n cazul parametric. pi = F (ai ;


k

2 Se calculeaz 0

=
i=1

(ni n pi )2 ; n pi
care este

Determinm valoarea

=
unde

2 1; k1 2 1; kp1

, n cazul neparametric, , n cazul parametric,

2 ; n

este cuantila de ordin atunci acceptm

pentru repartiia

2 (n);

Dac

2 0 < ,

(H0 ),

altfel o respingem.

Test de independen folosind tabele de contingen


n aceast seciune, vom prezenta un test de independen ntre dou criterii dup care se face mprirea datelor observate. S presupunem c avem un set de observaii ce sunt mprite n categorii determinate de dou criterii diferite. De exemplu, conducerea unui liceu este indecis n ce privete alegerea unui curs de limbi strine potrivit pentru introducerea n programa colar. Pentru aceasta, s-a realizat un sondaj de opinie la care au participat

350

de elevii, n care acetia au avut de precizat cursul de limbi strine

STATS 12 [Dr. Iulian Stoleriu]

163

preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):

este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i

reprezint nivelul

de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n Tabelul 23.1.

Nivel @ @Limba nceptor mediu avansat Total

Englez

Francez

German

Italian

Spaniol

Rus

Total

33 65 43 141

19 37 15 71

11 10 7 28

12 14 17 43

11 24 12 47

6 7 7 20

92 157 101 350

Tabela 23.1: Tabel cu repartizarea elevilor la cursurile de limbi strine.


n general, dac datele observate sunt clasicate n categorii ce depind de dou atribute diferite, atunci putem forma un tabel de genul Tabelului 23.2, numit

tabel de contingen.

Aici

sunt atributele i

Xi , i = 1, r, Yj , j = 1, s,

sunt diverse categorii n care ecare atribut n parte poate  mprit.

@ @Y

X1 X2
. . . . . .

Xi Xr
Suma pe coloan

Y1 Y2 . . . n11 n12 . . . n21 n22 . . . . . . . . . . . . ni1 ni2 . . . . . . . . . . . . nr1 nr2 . . . n1 n2 . . .

Yj . . . n1j . . . n2j . . . . . . . . . nij . . . . . . . . . nrj . . . nj . . .

Ys n1s n2s
. . . . . .

Suma pe linie

n1 n2
. . . . . .

nis nrs ns

ni nr n
(suma total)

Tabela 23.2: Tabel de contingen.


n Tabelul 23.2 am folosit urmtoarele notaii: au valoarea sunt

Xi

pentru atributul

i valoarea

nij pentru numrul (frecvena absolut) de observaii ce Yj pentru atributul Y (i = 1, r, j = 1, s), iar nj , ni i n
s r s

nj =
i=1

nij ,

n i =
j =1

nij ,

n=
i=1 j =1

nij . X
i unei sin-

Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul gure categorii caracterizat de atributul cele

Y.

n concluzie, ecare individ poate aparine doar uneia dintre

rs

celule.

Dorim acum s testm dac atributele studiu).

sunt independente (n exemplul de mai sus, aceasta ar

nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de

STATS 12 [Dr. Iulian Stoleriu]


S notm prin

164
Xi , Yj ,
i prin

pij

probabilitatea ca o dat observat s cad n categoriile

pi

pj

probabilitile marginale,

pi =
j =1
Avem c

pij ,

pj =
i=1

pij .

pij =
i=1 j =1
n general, valorile reale pentru

p i =
i=1 j =1

pj = 1.

pij , pi

pj

nu sunt cunoscute (specicate)

a priori

i se vor estima

folosind datele din tabelul de contingen. Vom nota prin probabilitilor marginale le estimm prin:

pij , pi nj n

i, respectiv,

pj

estimaiile lor. Valorile

p i =
Ipoteza nul este:

n i n

(i = 1, r )

pj =

(j = 1, s).

(23.2)

(H0 ) : (H1 ) :

pij = pi pj , (H0 ) i
i

i = 1, r, j = 1, s

(i.e.,

nu exist nicio asociere ntre atributele

Y ).

nu este adevrat. xai, valoarea ateptat n celula

Astfel, pentru

(i, j )

este (23.3)

Eij = n pij =
Calculm valoarea statisticii

ni nj , n

i = 1, r, j = 1, s.

H2 =
i, j
unde, n parantez, ateptate (

ni nj nij n ni nj n

=
i, j

(Oij Eij )2 , Eij (i, j )


iar

(23.4)

en., expected) n celula (i, j ).


(r 1)(s 1)

Oij = nij

este numrul de valori observate n celula

Eij

numrul de valori

Dac n ecare celul numrul de valori ce i apain este de cel puin

5,

atunci statistica

H2

urmeaz

2 repartiia cu

grade de libertate.

Etapele testului de independen sunt urmtoarele:



Se dau

nij ,

i = 1, r, j = 1, s nij ,

i pragul de semnicaie

Pe baza observaiilor Calculm Dac

calculm estimaiile (23.2);

H2

cu formula (23.4); la pragul de semnicaie

Eij 5, i, j i H 2 2 ; (r1)(s1) , atunci se admite (H0 ) Altfel, respingem (H0 ) la acest prag de semnicaie.

Exemplu 23.1
= 0.05,
estimaiile

Revenim la datele din Tabelul 23.1.

Pentru a stabili dac, la un nivel de semnicaie

alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti

Eij .

Acestea sunt scrise n paranteze n Tabelul 23.3.

STATS 12 [Dr. Iulian Stoleriu]


Calculm

165

H 2:
3 6

H2 =
i=1 j =1

(nij Eij )2 (33 37.06)2 (7 5.77)2 = + + Eij 37.06 5.77

= 10.1228 > 3.9403 = 2 0.05, 10


deci respingem ipoteza nul conform creia tipul cursului i nivelul su sunt atribute independente. Pentru calculul acestor valori n

Matlab, putem proceda astfel:

n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7]; E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56... 19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77]; H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @ @Limba nceptor mediu avansat Total Englez Francez German Italian Spaniol Rus Total

33 (37.06) 65 (63.25) 43 (40.69) 141

19 (18.66) 37 (31.85) 15 (20.49) 71

11 (7.36) 10 (12.56) 7 (8.08) 28

12 (11.30) 14 (19.29) 17 (12.41) 43

11 (12.35) 24 (21.08) 12 (13.56) 47

6 (5.26) 7 (8.97) 7 (5.77) 20

92 157 101 350

Tabela 23.3: Tabel cu repartizarea i estimaia elevilor la cursurile de limbi strine.


Cazul tabelelor de contingen 2 2. Testul exact al lui Fisher
n cazul particular n care

r = s = 2,

tabelul de contingen este de forma:

@ @Y

X1 X2
Suma pe coloan

Y1 Y2 a b c d a+c b+d

Suma pe linie

a+b c+d a+b+c+d

Tabela 23.4: Tabel de contingen 2 2.

unde

a, b, c, d

sunt valorile observate pentru ecare celul n parte. Valorile ateptate

Eij

(vezi formula

(23.3)) sunt:

E11 =

(a + b)(a + c) , n

E12 =

(a + b)(b + d) , n

E21 =

(c + d)(a + c) , n

E22 =

(c + d)(b + d) , n

STATS 12 [Dr. Iulian Stoleriu]


unde

166
Statistica

n = a + b + c + d.

H2

dat de relaia (23.4) devine:

H2 =
i urmeaz repartiia poate utiliza

ad bc n

1 1 1 1 + + + E11 E12 E21 E22

, H = H 2 N (0, 1),
i se

2 (1).

Din faptul c

H 2 2 (1),

rezult c statistica

pentru testul statistic de independen.

Dei acest test poate  realizat, n cazul tabelelor de contingen

Fisher.

22

se utilizeaz

testul exact al lui


5.
S

Acest test poate  utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect

alegem un prag de semnicaie Testm ipoteza nul

(H0 ) :
versus ipoteza alternativ

nu exist nicio asociere ntre atributele

Y.

(H1 ) :

(H0 )

nu este adevrat.

(test bilateral)

Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi Aceasta este:

matricea conguraiei.

M=
S presupunem acum c, pentru o matrice

a b c d

priori.

2 2,

sumele valorilor pe linii i pe coloane sunt xate

Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este Atunci, dac ipoteza nul este adevrat, probabilitatea de a obine

greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c

a + b, c + d, a + c i b + d sunt xate.
exact valorile din Tabelul 23.4 este:

P =

a Cc Ca +b c+d a+c Cn

(23.5)

Aceast probabilitate se obine prin utilizarea schemei hipergeometrice. Exist ns mai multe matrice de tip pe ecare coloan (i.e., testului bilateral,

2 2 care au o conguraie xat a + b, c + d, a + c i b + d sunt xate). Pentru


testului (notat prin

a sumelor pe ecare linie i ecare matrice de acest tip,

putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul

P valoarea

Pv )

este suma tuturor probabilitilor condiionate

astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv probabilitatea conguraiei date). Dac Dac

P valoarea este mai mare dect , Pv , atunci respingem (H0 ).

atunci ipoteza nul este admis la acest prag de semnicaie.

n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt), atunci

P valoarea este doar jumtate din suma anterioar.

Spunem n acest caz c avem un test unilateral.

Exemplu 23.2

Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint

simptome de rceal. Acetia sunt n numr de Pacienilor din primul grup, din Tabelul 23.5.

14

i au fost mprii n dou grupuri de

G1 ,

li s-au administrat medicamentul iar pacienilor din grupul

7 persoane. G2 nu li s-au

administrat nimic. Dup o sptmn, s-a testat starea sntii celor sntate a voluntarilor. Se va folosi nivelul de semnicaie

14

pacieni, rezultatele ind cele

S se determine dac administrarea medicamentului are vreun efect asupra strii de

= 0.05.

STATS 12 [Dr. Iulian Stoleriu]

167

@ @Y

sntos

bolnav

Suma pe linie

G1 G2
Suma pe coloan

6 4 10

1 3 4

7 7 14

Tabela 23.5: Tabel de contingen pentru testarea unui medicament.

Ipoteza nul este:

(H0 ) :

Starea de sntate a voluntarilor este independent de administrarea medicamentului.

Ipoteza alternativ (bilateral) este:

(H1 ) :

Ipoteza

(H0 )

este fals.

Matricea conguraiei este

M1 =

6 1 4 3

Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane sunt xate, este

P1 =
Alte conguraii cu suma

6 C4 C7 7 10 = 0.2448. C14

pe ecare linie i sumele

10

pe prima coloan i

pe a doua coloan sunt:

M2 =

4 3 6 1

M3 =

5 2 5 2

M4 =

3 4 7 0

M5 =

7 0 3 4

Probabilitile condiionate corespunztoare acestora sunt:

P2 = 0.2448; P valoarea

P3 = 0.4404,

P4 = 0.0350,

P5 = 0.0350. P1 :

este suma tuturor probabilitilor mai mici sau egale cu

Pv = P1 + P2 + P4 + P5 = 0.2448 + 0.2448 + 0.0350 + 0.0350 = 0.5596 > 0.05 = .


Aadar, la acest prag de semnicaie admitem ipoteza nul.

Observaia 23.3

(1) A se observa c suma

(2) Dac rezultatul experimentului ar 

P1 + P2 + P3 + P4 + P5 = 1, ceea ce matricea M5 i ipoteza alternativ este

era de ateptat.

(H1 ) :

exist evidene c medicamentul are efecte benece,

atunci avem un test unilateral. n acest caz,

P valoarea

este

Pv = P5 /2 = 0.0152 < ,

ceea ce conduce

la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.

Laborator 12 [Dr. Iulian Stoleriu]

168

24 Statistic Aplicat (L12) Teste de concordan (probleme)


Exemplu 24.1
Se arunc un zar de

60

de ori i se obin rezultatele din Tabelul 24.1. S se decid, la

nivelul de semnicaie

= 0.02,

dac zarul este corect sau fals.

Faa (clasa

Oi )

Frecvena absolut (ni )

1 2 3 4 5 6

15 7 4 11 6 17

Tabela 24.1: Tabel cu numrul de puncte obinute la aruncarea zarului.

Soluie:

(aplicm testul

de concordan, cazul neparametric)

Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare fa n parte s apar sunt:

(H0 ) :
Altfel, notm cu Toate cele sunt:

1 pi = , 6

(i = 1, 2, . . . , 6).

variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un n ase clase. Aceste clase

zar corect ar nsemna c

X urmeaz repartiia uniform discret U (6). 60 de rezultate obinute n urma aruncrii zarului pot  mprite Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent, (H0 ) :
Funcia de repartiie a lui

este

U (6).

Ipoteza alternativ este "(H0 ) nu are loc", adic:

(H1 ) :
Calculez valoarea statisticii

Exist un

j,

cu

1 pj = , 6

(j {1, 2, . . . , 6}).

dat de (23.1) pentru observaiile date:

2 0 =

(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2 + + + + + 10 10 10 10 10 10 = 13.6. 2
dat de (23.1) este

Repartiia statisticii

cu

k1=5

grade de libertate. Regiunea critic este:

U = (2 0.98; 5 ; +) = (13.3882, +).


Deoarece Codul

Matlab:

2 0

se a n regiunea critic, ipoteza nul se respinge la nivelul

= 0.02,

aadar zarul este fals.

Laborator 12 [Dr. Iulian Stoleriu]


n = 60; k=6; alpha = 0.02; x = 1:6; chi2 = sum((f-n*p).^2)./(n*p)); val = chi2inv(1-alpha,k-1); H = (chi2 > val) f % % % = [15,7,4,11,6,17]; p = 1/6*ones(1,6); valoarea 2 0 cuantila 2 0.99; 5 afiseaza 0 daca zarul e corect si 1 daca nu
= 0.01,
atunci

169

Observaia 24.2

Dac nivelul de semnicaie este ales

2 0.99; 5 = 15.0863,

ceea ce de-

termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.

Teste de concordan n
Am vzut deja c funcia

Matlab
testeaz (folosind testul

chi2gof(x)

al lui Pearson) dac vectorul

provine

dintr-o repartiie normal, cu media i dispersia estimate folosind Pentru testul

x.

2 ,

forma general a funciei

Matlab este:

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:

namei pot : numrul de clase, 'nbins', un vector 'ctrs', sau un vector cu capetele claselor, 'edges'. Alte variabile ce pot  utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'. variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E perechile Variabilele de valori centrale ale intervalelor ce denesc clasele, numrul de valori ateptate n ecare clas.

h, p

sunt la fel ca n exemplele anterioare;

namei/valuei sunt opionale.

Exemplu 24.3

Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din

Observaia 24.2. Codul

Matlab ce folosete funcia de mai sus este:

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)
Acest cod returneaz:

h = 0

p = 0.0184

stats = chi2stat: df: edges: O: E:

13.6000 5 [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000] [15 7 4 11 6 17] [10 10 10 10 10 10]
= 0.01.

Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul

Exemplu 24.4

(din [3]) La campionatul mondial de fotbal din

2006 au fost jucate n total 64 de meciuri,

iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.

Laborator 12 [Dr. Iulian Stoleriu]


Determinai (la nivelul de semnicaie Poisson.

170
= 0.05)
dac numrul de goluri pe meci urmeaz o distribuie

Nr. de goluri pe meci

Nr. de meciuri

0 1 2 3 4 5 6

8 13 18 11 10 2 2

Tabela 24.2: Tabel cu numrul de goluri pe meci la FIFA WC 2006.


Soluie:
2 parametric) Fie X variabila aleatoare ce reprezint numrul de goluri nscrise ntr-un meci. Teoretic, X poate lua orice valoare din mulimea N. Mulimea observaiilor fcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenele respective din tabel. n total, au fost inscrise 144 = x = 144 = 2.25. Pe baza datelor de goluri. Estimm numrul de goluri pe meci prin media lor, adic 64 observate, dorim s testm dac X urmeaz o repartiie Poisson. Avem astfel de testat ipoteza nul:
(aplicm testul de concordan

(H0 ) :
vs. ipoteza alternativ

urmeaz o lege Poisson

). P ( ). P (
i distribuia valorilor variabilei este

(H1 ) :
Dac admitem ipoteza

nu urmeaz o lege Poisson atunci

(H0 )

(adic

X P (2.25), ni 8 13 18 11 10 2 2 4 pi 0.1054 0.2371 0.2668 0.2001 0.1126 0.0506 0.0274 0.0780

) pi = pi (

Clasa

n pi 6.7456 15.1775 17.0747 12.8060 7.2034 3.2415 1.7514 4.9926

0 1 2 3 4 5 6 5

(ni n pi )2 n pi 0.2333 0.3124 0.0501 0.2547 1.0857 0.1973

Tabela 24.3: Tablou de distribuie pentru P (2.25).


pi este P (X = i), adic probabilitatea ca variabila aleatoare X P (2.25) i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din Tabelul 24.3, anume {X = 5} i {X 6}, numerele ni nu depec valoarea 3, le tergem din tabel i le unim ntr-o singur clas, n care {X 5}, cu ni = 4 > 3. Vom nota prin p5 probabilitatea
dat de Tabelul 24.3. Valoarea s ia valoarea

p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
i=0

P (X = i).

Laborator 12 [Dr. Iulian Stoleriu]


Rmnem aadar cu

171
(H0 )
se poate rescrie astfel:

clase. Ipoteza nul

(H0 ) :

p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780.

Ipoteza alternativ este

(H1 ) :

ipoteza

(H0 )

nu este adevrat.

Calculm acum valoarea statisticii (23.1) pentru observaiile date:

2 0 = +

(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2 + + + + ... 6.7456 15.1775 17.0747 12.8060 (10 7.2034)2 (4 4.9926)2 + = 2.1337. 7.2034 4.9926

Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este 6 1 1 = 4. Cuantila de referin (valoarea critic) este 2 0.95; 4 = 9.4877. Regiunea critic pentru 2 2 2 2 este intervalul (0.95; 4 , +). Deoarece 0 < 0.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate  respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate urmeaz o repartiie Poisson. Prezentm mai jos un cod

Matlab ce rezolv aceast problem.

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);... 5*ones(2,1);6*ones(2,1)]; f = [8 13 18 11 10 4]; % vectorul de frecvente absolute n = 64; alpha = 0.05; lambda = mean(X); for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); end p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X5) H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4); if (H2 < Hstar) disp('X urmeaza repartitia Poisson'); else disp('X nu urmeaza repartitia Poisson'); end

Observaia 24.5

Dac ipoteza nul este respins, atunci motivul poate  acela c unele valori observate n acest caz, este interesant de observat care valori sunt

au deviat prea mult de la valorile ateptate.

extreme, cauznd respingerea ipotezei nule. Putem deni astfel

reziduurile standardizate:
,

ri =
unde prin atunci extreme.

Oi n pi n pi (1 pi )

Oi Ei Ei (1 pi )

Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar  adevrat, ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate

Exemplu 24.6

ntr-o anumit zi de lucru, urmrim timpii de ateptare ntr-o staie de tramvai, pn la

ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie 24.4. Se cere s se cerceteze (

caracteristica ce reprezint numrul de

minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul

= 0.05)

dac timpii de ateptare sunt repartizai exponenial.

Laborator 12 [Dr. Iulian Stoleriu]


Durata

172
ni 05 39 5 10 35 10 15 14 15 20 7 20 25 5

Tabela 24.4: Timpi de ateptare n staia de tramvai.


Soluie:
2

(folosim testul

de concordan, parametric)

Avem de testat ipoteza nul

(H0 )
vs. ipoteza alternativ

F (x) = F0 (x) = 1 e x , x > 0 (H0 )


este fals.

(H1 )
Deoarece parametrul

ipoteza

este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim

metoda verosimilitii maxime. Funcia de verosimilitate pentru

exp()

este

L(t1 , t2 , . . . , tn ; ) =
k=1
Mai sus, am notat prin Punctele critice pentru

e ti = n e n t .
pentru variabila aleatoare

t1 , t2 , . . . , tn valorile de selecie L() sunt date de ecuaia

T.

ln L = 0 = n ln n t
Se observ cu uurin c

= 1. = t

2 ln L 2 |= = n t < 0, 2
este punct de maxim pentru funcia de verosimilitate.

de unde concluzionm c

Tabelul de distribuie pentru caracteristica

T 7.5 35

este:

2.5 39
Calculm media de selecie, Dac variabila

12.5 14

17.5 7

22.5 5

. = 0.1299. = 7.7, adic ca T s ia valori n ecare

t=

1 100 (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5)

ar urma repartiia exponenial

), exp(

atunci probabilitile

clas sunt, n mod corespunztor:

) = P (X (ai , ai+1 ] | F = F0 ) = F0 (ai+1 ; ) F0 (ai ; ), p i = p i (


unde

i = 1, 2, 3, 4, 5.

a6 = +.

n Tabelul 24.5 am nregistrat urmtoarele date:

clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ), extremitile
din stnga ale claselor (ai ), (sau valorile observate n ecare clas), n ecare clas (n pi ),

frecvenele absolute ni
probabilitile

pi , valorile ateptate

erorile relative

de aproximare ale datelor ateptate cu cele observate.

Laborator 12 [Dr. Iulian Stoleriu]


Numrul gradelor de libertate este asemenea, valoarea

173
k p 1 = 3.
k
Calculm valoarea critic

2 0.95; 3 = 7.8147

i, de

H0 =
i=1
Deoarece Codul

(ni n pi )2 = 6.5365. n pi

Matlab este urmtorul:


[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)]; [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)]; 100; alpha = 0.05; m = mean(T); lambda = 1/m; [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5]; i =1:5 p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

2 2 0 < 0.95; 3 ,

ipoteza

(H0 )

nu poate  respins la acest nivel de semnicaie.

T = % sau % T = n = a = for

end H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3); if (H2 < cuant) disp('Timpii de asteptare sunt exponential repartizati'); else disp('ipoteza (H0) se respinge'); end

Clasa
(0, 5] (5, 10] (10, 15] (15, 20] (20, +) (0, +)

ai

ni

pi

n pi

0 39 5 35 10 14 15 7 20 5 100

0.4776 47.7615 0.2495 24.9499 0.1303 13.0334 0.0681 6.8085 0.0745 7.4467 1 100

(ni n pi )2 n pi 1.6072 4.0483 0.0717 0.0054 0.8039 6.5365

Tabela 24.5: Tabel de distribuie pentru timpii de ateptare.

STATS 13 [Dr. Iulian Stoleriu]

174

25 Statistic Aplicat (C13) Teste neparametrice


Multe dintre testele discutate anterior au ca cerin condiia ca datele selectate s urmeze o repartiie normal (dac selecia este mic). Se pune problema urmtoare: Ce se ntmpl dac aceast cerin (posibil i altele) nu este vericat i nu tim nimic despre repartiia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele n cadrul crora nu se fac presupuneri asupra formei repartiiei. Aceste teste nu estimeaz parametrii necunoscui, de aceea mai sunt cunoscute i sub titulatura de parameter-free methods) sau

fr parametri (en.,

metode fr repartiie (en.,

metode

distribution-free methods).

Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste teste neparametrice sunt, n general, grupate n urmtoarele categorii:

teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul acestuia sunt ndeplinite. Variante neparametrice ale acestui test sunt: testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecii;

t dac ipotezele

testul Wald-Wolfowitz,

teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul semnelor, testul Wilcoxon.

teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul (Spearman), coecientul coecientul de corelaie:

(Kendall) sau coecientul Gamma. 2 sau testul Fisher exact.

Exist, de asemenea, i teste privind

Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre cele mai simple teste statistice neparametrice. Presupunem c avem observaiile independente funcia de repartiie teoretic are o valoare dat

F.

Notm cu

care funcia de repartiie satisface

x1 , x2 , . . . , xn asupra unei caracteristici continue ce are M e valoarea median observaiilor (i.e., acea valoare pentru F (M e) = 0.5). Suntem interesai n a testa ipoteza c mediana M e (H0 ) : M e = m0 .

m0 .

Aadar, ipoteza nul este

Ipoteza alternativ bilateral este

(H1 ) : p = F (m0 ). yi = 1, 0,
dac dac

M e = m0 . m0

Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va  mai mic dect cu probabilitatea Astfel, putem considera c

xi < m0 xi m0 ,

i = 1, n,

STATS 13 [Dr. Iulian Stoleriu]


sunt valorile observate ale unei variabile aleatoare ce urmeaz repartiia echivalent cu ipoteza

175
B (n, p).
Ipoteza nul devine

(H0 ) :
n
Notm prin deciziei este

1 p= . 2
Valoarea critic

y0 =
i=1

yi

i e

o variabil aleatoare

B (n, 0.5).

Pv

utilizat n luarea

Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac nul. Testul se numete

< Pv ,

atunci ipoteza nul

(H0 )

este admis la nivelul de semnicaie

Altfel, respingem ipoteza

testul semnelor deoarece se ine cont de semnele valorilor xi m0 .

Exemplu 25.1

Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat

subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei mrime semn subire gros gros gros subire gros gros subire gros gros

Tabela 25.1: Tabel cu preferine pentru blatul de pizza.


preferine i se atribuie un semn,

pentru "blat gros" i

pentru "blat subire". Dintr-o privire n tabel,

se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date. Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal, care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul de semnicaie

= 0.05

Soluie:

Stabilim ipoteza nul

(H0 ) :
versus ipoteza alternativ bilateral

preferinele pentru cele dou blaturi sunt

50% 50%;

(H1 ) :

exist diferene semnicative n preferinele pentru cele dou blaturi;

Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este Dac notm cu pizza, atunci

p = 0.5. Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat Y B (10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic
Aceasta

valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate  respins. valoare este de dou ori probabilitatea

P (Y 3)

(de dou ori, pentru ca testul este bilateral), adic

probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c este

P valoarea

Pv = 2 min{P (Y 3), P (Y 3)} = 2 P (Y 3) = 0.3438.

Deoarece

< Pv ,

concluzionm c

ipoteza nul nu poate  respins la acest nivel de semnicaie.

STATS 13 [Dr. Iulian Stoleriu]

176

Observaia 25.2

Putem testa i ipoteze unilaterale. De exemplu, presupunem c avem de testat

(H0 ) :
Ca mai sus, notm prin

M e m0
Pentru

vs.

(H1 ) :

M e > m0 . Pv = P (Y .
Altfel, respingem

p = F (m0 ).

y0 ) .

Dac

< Pv ,

atunci ipoteza nul

Y (H0 )

y0

ca mai sus, valoarea critic a testului este

este admis la nivelul de semnicaie

ipoteza nul. Revenind la exemplul prezentat, dac ipoteza alternativ ar  fost

(H0 ) : (H1 ) :
atunci valoarea critic a testului va  Aadar, ipoteza

clienii prefer pizza cu blat subire, clienii prefer pizza cu blat gros,

(H0 )

este admis la

Pv = P (Y 3) = 1 - binocdf(3,10,0.5) = 0.1719. nivelul de semnicaie = 0.05.

Testul seriilor pentru caracterul aleator


Testul seriilor (

en., runs test) este un test neparametric ce veric ipoteza c un ir de date bivariate este

aleator generat. Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o preced, atunci selecia generat nu poate  aleatoare. Denim noiunea de

serie

sau

faz (en.,

run) ca ind o succesiune a unuia sau mai multe simboluri de

acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:

001111010010

sau

MFFFFFMMMF

sau

++-+---++++--+--++-

Numrul de faze i lungimea lor pot  folosite n determinarea gradului de stochasticitate a unui ir de simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii. prea multe secvene. mediana i Aadar, ne vom preocupa doar de numrul total de faze. Aceste criterii sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic Fiecare numr din ir

+ pentru numere mai mari dect pentru cele mai mici. Numerele egale cu mediana nu sunt considerate n calcul. Fie n1 i n2 numrul de semne +, respectiv, din ir, i e n = n1 + n2 . Fie R1 i R2 numrul de faze ce corespund semnului +, respectiv, din ir. Numrul total de faze este R = R1 + R2 .
este comparat cu mediana sau valoarea medie a irului, scriind astfel Alegem ipoteza nul:

(H0 ) :

observaiile din ir sunt aleatoare (ecare aranjament de

este echiprobabil).

vs. ipoteza alternativ

(H1 ) :
Putem gsi repartiiile vectorilor aleatori atunci secvena datele observate, Pentru

observaiile din ir nu sunt aleatoare.

(R1 , R2 ), R1 , R2

sau

R.

Dac ipoteza nul ar  adevrat,

x1 , x2 , . . . , xn ,

va  una dintre cele

avem funcia de probabilitate:

n1 !n2 ! n! ,

permutri echiprobabile.

f (r) =

numrul de permutri ce au ca rezultat

k faze

n1 Cn

r = 0, n.

STATS 13 [Dr. Iulian Stoleriu]


Explicit, putem scrie:

177

f (r) =

k1 k1 C C 2 n1 1 n1 n2 1 Cn k 1 k C k1 C k + Cn Cn 1 1 2 1 n1 1 n2 1 n1 Cn

, dac

r = 2k ;

, dac

r = 2k + 1.

Cnd

n1

n2

sunt mari, atunci

R N (, ),

unde

=2
Aadar,

n1 n2 + 1, n

2 n1 n2 (2 n1 n2 n) . n2 (n 1)

Aceast statistic poate  utilizat n

R N (0, 1). testarea ipotezei nule (H0 ). r0 ,


atunci valoarea critic

Altfel, dac numrul observat de faze este

Pv

a testului este

Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac nul.

< Pv ,

atunci ipoteza nul

(H0 )

este admis la nivelul de semnicaie

Altfel, respingem ipoteza

Corelaie i regresie Introducere


n acest capitol vom discuta msuri i tehnici de determinare a legturii ntre dou sau mai multe variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [13], [14], [15]. Primele metode utilizate n studiul relaiilor dintre dou sau mai multe variabile au aprut de la nceputul secolului al XIX-lea, n lucrrile lui Legendre Galton

20 i Gauss21 , n ce privete metoda celor mai mici ptrate

pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis

22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c

nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat conceptele de

corelaie

regresie

(lat.)

regressio

- ntoarcere). Astfel, a descoperit c din prini a

cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale unei populaii statistice.

Legendre (1752 1833), matematician francez Carl Friedrich Gauss (1777 1855), matematician i zician german 22 Sir Francis Galton (1822 1911), om de tiin britanic
21 Johann

20 Adrien-Marie

STATS 13 [Dr. Iulian Stoleriu]


Un ingredient fundamental n studiul acestor dou concepte este diagrama prin puncte, aa-numita

178
scatter

plot.

n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat, ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va

diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram

scatter plot

da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a cruciuli din diagram reprezint IQ-ul pentru o pereche so-soie.

200

de perechi so-soie. Fiecare

Figura 25.1: Scatter plot pentru IQ n familie.


Corelaie Corelaie i coecient de corelaie
Corelaia
este un termen statistic folosit pentru a deni interdependena sau legtura ntre dou sau Totodat, corelaia este i o metod statistic de descriere i analiz a

mai multe variabile aleatoare.

legturilor de tip statistic ntre dou sau mai multe variabile. Dac

X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaia Y se denete prin:
cov(X,

sau

covariana (teoretic) dintre

Y ) = E [(X E(X )) (Y E(Y ))] = E(X Y ) E(X ) E(Y ).

Observaia 25.3
atunci cov(X,

(i) Din punct de vedere teoretic, dac

sunt variabile aleatoare independente,

Y ) = 0.
sunt dependente. (se poate verica, de

Reciproca nu este, n general, adevrat. De exemplu, dac

0,

ns

X U (1, 1) i Y = X 2 , atunci cov(X, Y ) = asemenea, c E(X Y ) = E(X ) E(Y )). Y ) = 0.

(ii) n cazul n care variabilelor

X i Y aleatoare X i Y

sunt, n plus, variabile aleatoare normal repartizate, atunci independena este echivalent cu cov(X,

STATS 13 [Dr. Iulian Stoleriu]


O

179
corelaie pozicorelaie negativ, nsemnnd c X i Y se
Acesta este foarte utilizat n

relaie liniar

ntre dou variabile este acea relaie ce poate  reprezentat cel mai bine printr-o linie. i

Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o

tiv, nsemnnd c X

cresc sau descresc mpreun, sau o

modic n direcii opuse. O msur a corelaiei dintre dou variabile este coecientul de corelaie.

tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim

coecientul de corelaie a dou variabile aleatoare X


X,Y =
unde cov(X,

prin:

Y)

X Y

= cov(X, Y ),
1/2
i

X = E(X X )2 sunt deviaiile standard corespunztoare variabilelor aleatoare X , respectiv Y . X


i

sunt variabilele aleatoare standardizate iar

Y = E(Y Y )2

1/2

Proprietile coecientului

de corelaie au fost prezentate anterior. n practic, pentru a stabili dac exist sau nu vreo legtura ntre dou variabile aleatoare, se fac observaii asupra acestora, urmnd apoi a cuantica relaia dintre observaii. Fie de

aleator

(xk , yk ), k {1, 2, . . . , n} un set de date bidimensionale, ce reprezint observaii asupra vectorului (X, Y ). O msur a legturii dintre {xk }k i {yk }k este coecientul de corelaie empiric introdus K. Pearson (n literatura de specialitate mai este cunoscut i sub denumirea de coecientul r ):
n

(xk x)(yk y ) r =
n k=1 n
(25.1)

(xk x)2
k=1 k=1

(yk y )2
(25.2)

=
unde

cove (x,

y)

sx sy

1 cove (x, y ) = n1
sunt

(xk x)(yk y ),
k=1

sx =

1 n1

(xk
k=1

x)2 ,

sy =
i

1 n1

(yk y )2
k=1

covariana (corelaia) empiric i deviaiile standard empirice pentru X

Y.

Spre exemplu, pentru seleciile

x = [0.49 y = [1.31
coecientul

-0.45 0.39 0.05 -0.49 1.20 -2.58 -2.09 0.39

0.24 -0.86

0.72 -1.23

0.15 0.13 -1.01]; 2.64 -0.90 -1.22];

al lui Pearson este

r = 0.0905. X,Y , coecientul r al lui Pearson ia valori doar n intervalul [1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre 1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,

STATS 13 [Dr. Iulian Stoleriu]


r
este apropiat de valoarea

180
1
(e.g.,

r = 0.85,

caz n care norul de date are panta ascendent) i avem

o corelaie negativ dac panta descendent). Rezultatul nul una fa de cealalt (i.e.,

este apropiat de valoarea

(e.g.,

r = 0.98,

caz n care norul de date are

r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent = 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza = 0, cu ipoteza alternativ = 0.

Figura 25.2: Scatter plots i coecieni de corelaie.


Test statistic pentru coecientul de corelaie
Presupunem c avem un set de date bidimensionale toare

(xk , yk ), k {1, 2, . . . , n} asupra variabilelor alea0. Plecnd doar de la acest informaie, nu putem extrapola i decide gradul de corelare ntre X i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui (coecientul teoretic de corelaie) este 0 sau semnicativ diferit de 0. X, Y ,
i am calculat

r,

obinnd o valoare

r0

apropiat de

Considerm ipoteza nul

(H0 )
vs. ipoteza alternativ

X,Y = 0

(variabilele aleatoare nu sunt corelate)

(H1 )

X,Y = 0 << 1
(e.g.,

(variabilele aleatoare sunt corelate)

Alegem un nivel de semnicaie

= 0.05)

i considerm statistica

T =r
Calculez valoarea statisticii de ordin

n2 1 r2

t(n 2).

2 a repartiiei

T t

pentru cu

r = r0 (o notm cu T0 ) i, de asemenea, calculm cuantila t1 ; n2 , 2 (n 2) grade de libertate.

STATS 13 [Dr. Iulian Stoleriu]


Decizia nal este urmtoarea:

181

|T0 | < t1 ; n2 , 2 |T0 | t1 2 ; n2 ,

atunci ipoteza atunci ipoteza

(H0 ) (H0 )

este acceptat; este respins.

Observaia 25.4
r

(i)

Coecientul lui Pearson,

r,

este un numr adimensional ce stabilete doar dac

exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul sigur nu poate  edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea, i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :

r2 , coecientul de determinare
coecient de determinare

(notat n Statistic prin

R2 ),

care stabilete care este procentul din

variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un

R2 = 0.42

semnic faptul c variabila independent explic doar

42%

din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri, unele nu tocmai ntr-un mod echivalent;

coecientul lui Spearman23 , coecientul lui Kendall24


sunt normale)

etc. (acestea nu presupun c datele statistice

(ii) Se poate testa, de asemenea, ipoteza nul

(H0 ) :

X, Y = 0 ,

cu

0 = 0,

ns aceasta nu este foarte des ntlnit n practic. n acest sens, se poate utiliza statistica

Z=

1 ln 2

1+r 1r

1 ln 2

1 + 0 1 0

1 n3

(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate  luat n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal, dac aceast exist. (iv) Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare sunt necorelate. Spre exemplu, o relaie poate  puternic (avnd un semnicativ, dac valoarea lui de

nu foarte aproape de

nu este sucient de mare. Invers, o relaie poate  slab (un

0), ns nu r aproape

0),

dar semnicativ. Exemplul (25.5) poate  edicator.

Exemplu 25.5
volum

S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane

i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de

n = 10,

i s presupunem c am gsit un coecient de corelaie empiric

r = 0.62.

Se cere:

(a) Este aceast legtur puternic? (b) Este aceast legtur semnicativ?

24 Sir

23 Charles

Edward Spearman (1863 1945), psiholog britanic Maurice George Kendall (1907 1983), statistician britanic

STATS 13 [Dr. Iulian Stoleriu]

182
R2 ,
i gsim

Soluie:
doar (b)

(a) Calculm coecientul de determinare,

R2 = 0.3844.

Asta semnic faptul c

38.44%

din variaia coecientului de inteligen este explicat de vrst.

Aplicm testul pentru coecientul de corelaie la un nivel de semnicaie

= 0.05.

Statistica de unde

considerat va avea

grade de libertate,

T0 = 0.62

8 0.3844

= 2.2351 < 2.3060 = t0.975; 8 ,

concluzionm c ipoteza nul

=0

este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate

 respins la acest nivel de semnicaie). (v)

Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer

semnicativ unul de cellalt. Presupunem c avem de testat ipoteza

(H0 ) :
vs. ipoteza alternativ

1 = 2 , 1 = 2 . n1
i

(H1 ) :

Presupunem c volumele seleciilor folosite n testare sunt

n2

i c

r1 , r2

sunt coecienii de corelaie

empirici calculai. Pentru a testa ipoteza de mai sus, considerm statistica

Z=

Z1 Z2 (Z1 Z2 )
1 n1 3

1 n2 3

N (0, 1) ,

unde

Zi =

1 ln 2

1 + ri 1 ri

Zi =

1 ln 2

1 + i 1 i

i = 1, 2.

Coecientul de corelaie Spearman


n cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientul de corelaie Pearson nu mai poate  calculat. Pentru aceste date, este util de calculat

corelaie Spearman, sau coecientul de corelaie a rangurilor.


corelaie Pearson pentru aceste ranguri. n general, dac

coecientul de

Acest coecient poate  calculat att pentru

date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de

(xi , yi )i=1, n

este un set de date bidimensionale, reprezentnd rangurile corespunztoare

variabilelor cercetate, i notm cu

rS

coecientul de corelaie Spearman, atunci

(xk x)(yk y ) rS =
k=1 n n

. (yk y )2
k=1

(25.3)

(xk x)2
k=1

La fel ca i coecientul lui Pearson, coecientul Spearman ia valori reale n intervalul nsemnnd corelaie pozitiv perfect a rangurilor, iar valoarea a rangurilor. n cazul n care avem

[1, 1];

valoarea

nsemnnd corelaie negativ perfect

perechi de observaii i nu exist valori egale pentru rangurile aceleiai variabile,

atunci formula alternativ pentru calcului lui

rS

este:

6 rS = 1
i=1

d2 i ,
(25.4)

n(n2 1)

STATS 13 [Dr. Iulian Stoleriu]


unde

183
i.
Vezi exemplele (25.6)

di = xi yi ,

i.e., diferena dintre rangurile corespunztoare pentru poziia

i (25.7).

Exemplu 25.6

Doi degusttori de vinuri (denumii

D1

D2)

au fost rugai s testeze

9
i

soiuri de vin i

s le claseze n ordinea preferinelor. S notm mostrele testate cu

A, B , C , D , E , F

G.

Preferinele

acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama Mostra A rang 3 2 5 8 1 7 4 6 9

scatter plot).
D2

D1

rang 5 1 3 7 2 9 4 6 8

Mostra A B C D E F G H I D1 E B A G C H F D I D2 B E C G A H D I F Tabela 25.2: Preferinele degusttorilor de vin.

B C D E F G H I

Tabela 25.3: Tabel cu rangurile preferinelor.


Din diagrama

scatter plot

se observ o corelaie pozitiv ntre ranguri, ceea ce implic o oarecare con-

cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare numeric acestei concordane, aceasta ind

rS = 0.8667.

Tem!

Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt

semnicativ diferite (

= 0.05).

Figura 25.3: Scatter plot pentru ranguri.


Exist cazuri (n special pentru date cantitative) cnd valorile caracteristicii se repet, aa nct pentru valori egale desemnm acelai rang. n aceste cazuri nu mai putem utiliza formula (25.4) pentru calculul coecientului Spearman, ci va trebui s utilizm formula (25.3) (vezi exemplul urmtor).

STATS 13 [Dr. Iulian Stoleriu]

184

Exemplu 25.7

(D) nregistrate ntr-un anumit ora, n primele

Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese

6 luni ale anului.

Rangurile corespunztoare valorilor sunt

prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente. De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind formula (25.3), calculm coecientul de corelaie Spearman. Acesta este Luna

rS = 0.8117.
rang

Luna Ian. Feb. Mar. Apr. Mai Iun.


A D
27 8 24 6 15 5 11 3 17 3 12 2

Ian. Feb. Mai Mar. Iun. Apr.

Tabela 25.4: Evenimente rutiere n primele 6 luni.

A 27 24 17 15 12 11

6 5 4 3 2 1

D 8 6 3 5 2 3

rang

2+3 2

2+3 2

6 5 = 2.5 4 1 = 2.5

Tabela 25.5: Tabel cu rangurile pentru accidente.


Regresie Punerea problemei
Regresia este o metod statistic utilizat pentru descrierea naturii relaiei ntre variabile. De fapt, regresia stabilete modul prin care o variabil depinde de alt variabil, sau de alte variabile.

Analiza regresional

cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete

variabil independent o variabil ce poate  manipulat (numit i variabil predictor, stimul sau comandat), iar o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii negre (

black box) (vezi Figura 25.4).

n aceasta cutie intr (sunt nregistrate) informaiile

x1 , x2 , . . . , xm ,

care sunt prelucrate (n timpul prelucrrii apar anumii parametri, nregistrat ntr-o singur variabila rspuns,

1 , 2 , . . . , k ), iar rezultatul nal este

y.

De exemplu, se dorete a se stabili o relaie ntre valoarea

pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce poate aprea la observarea variabilei matematic general

y.

Se stabilete astfel o legtur ntre o variabil dependent,

y,

i una sau mai multe variabile independente,

x1 , x2 , . . . , xm ,

care, n cele mai multe cazuri, are forma (25.5)

y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde

1 , 2 , . . . , k

sunt parametri reali necunoscui

perturbaie aleatoare. n cele mai multe aplicaii, variabil aleatoare normal de medie zero. cunoscut

a priori,

a priori (denumii parametri de regresie) i este o este o eroare de msur, considerat modelat printr-o Funcia f se numete funcie de regresie. Dac aceasta nu este trial and error (prin ncercri). Dac avem doar spunem c avem o regresie simpl. Regresia multipl face

atunci poate  greu de determinat iar utilizatorul analizei regresionale va trebui s o

intuiasc sau s o aproximeze utiliznd metode de tip o variabila independent (un singur

x),

atunci

referire la situaia n care avem multe variabile independente.

STATS 13 [Dr. Iulian Stoleriu]

185

Figura 25.4: Black box.


Dac observarea variabilei dependente s-ar face fr vreo eroare, atunci relaia (25.5) ar deveni (cazul ideal):

y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).
Forma vectorial a dependenei (25.5) este:

(25.6)

y = f (x; ) + .
Pentru a o analiz complet a regresiei (25.5), va trebui sa intuim forma funciei

(25.7)

i apoi s determinm

(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu

n numrul
(25.8)

de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:

yi = f (x, ) + i ,
n ipoteze uzuale, erorile dou cte dou ( i

i = 1, 2, . . . , n. N (0, ),
ecuaii stochastice algebrice are necunoscutele

sunt variabile aleatoare identic repartizate

independente stochastic

> 0).

Astfel, sistemul (25.8) cu

{j }j

. < k ),
atunci nu avem suciente informaii pentru a determina aproximrile. Dac

n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai (n problema se reduce la a rezolva

ecuaii cu

necunoscute. n cel de-al treilea caz posibil,

n = k, n > k,

atunci atunci

avem un sistem cu valori nedeterminate. n funcie de forma funciei de regresie

f,

putem avea:

regresie liniar simpl,

n cazul n care avem doar o variabil independent i

f (x; ) = 0 + 1 x. regresie liniar multipl,


dac

f (x; ) = 0 + 1 x1 + 2 x2 + + m xm . regresie ptratic multipl


(cu dou variabile), dac

2 f (x; ) = 0 + 1 x1 + 2 x2 + 11 x2 1 + 12 x1 x2 + 22 x2 .

regresie polinomial,

dac

f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea

regresie ptratic pentru k = 2, regresie cubic pentru k = 3 etc.

STATS 13 [Dr. Iulian Stoleriu]


regresie exponenial, regresie logaritmic,
i altele. cnd

186
f (x; ) = 0 e1 x . f (x; ) = 0 log1 x.

dac

De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare n parametri. Modelele determinate de aceste funcii se vor numi n cadrul analizei regresionale, se cunosc datele de intrare, regresie

modele de regresie (curbe, suprafee etc).


f

{xi }i ,

i cutm s estimm parametrii de

{j }j

i deviaia standard a erorilor,

Dac funcia de regresie

atunci metode statistice folosite pentru estimarea necunoscutelor sunt:

metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.

metoda verosimilitii maxime,

este cunoscut (intuit),

Laborator 13 [Dr. Iulian Stoleriu]

187

26 Statistic Aplicat (L13) Teste neparametrice (probleme)


Testul semnelor n
n

Matlab

Matlab, testul semnelor poate  realizat cu ajutorul funciei


[p, h] = signtest(x, m)

unde:

m x

este un numr real; este un ir de caractere sau vector, asupra cruia facem testul semnelor;

h este rezultatul testului. Dac rezultatul aat este h = 0, atunci ipoteza (H0 ): setul de date x provine dintr-o distribuie continu de median egal cu m, este admis la acest nivel de semnicaie. Dac rezultatul aat este h = 1, atunci ipoteza nul este respins. Se va admite astfel ipoteza alternativ (H1 ): setul de date x provine dintr-o distribuie continu care nu are median egal cu m. Dac m nu apare, atunci se subnelege c m = 0.
variabila de memorie nul, variabila de memorie aeaz

este

P- valoarea,
h = 1.

adic valoarea maxim pentru pragul de semnicaie

se

pentru care ipoteza nul este admis. Deoarece aici

= 0.05

este subneles, pentru un

p > 0.05

h = 0.

Altfel, se aeaz

O variant mbuntit a comenzii anterioare este urmtoarea:

[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)


Aici, n plus fa de precizrile de mai sus, mai adugm c:

Ipoteza nul este

(H0 ):

setul de date

0,

cu ipoteza alternativ c

x y provine dintr-o distribuie continu de median egal cu mediana lui x y nu este 0;

variabila

stats

nmagazineaz urmtoarele date: pentru observaia considerat (apare doar pentru selecii de

 zval - este valoarea statisticii Z


volum mare,

n 30);

 sign - este valoarea statisticii test;


alpha
este nivelul de semnicaie; este metoda folosit n testare. Putem avea o metod exact, cnd

method

sau aproximativ pentru

'approximate';

method

este

'exact',

Laborator 13 [Dr. Iulian Stoleriu]

188

Exemplu 26.1

Pentru problema cu pizza, de mai sus, codul

Matlab ce genereaz testul semnelor este:

x = [-1 1 1 1 -1 1 1 -1 1 1]; [p, h, stats] = signtest(x, 0)


Rezultatul testului este:

p = 0.3438

h = 0

stats = sign: 3

Observaia 26.2
Soluie:
Codul

Revenim la Exerciiul 24.1 i urmrim testarea ipotezei nule folosind funcia

signtest.

Matlab este simplu:


x = [ones(59,1); zeros(41,1)]; [p, h, stats] = signtest(x,.5)

Obinem rezultatele:

p = 0.0891

h = 0

stats = zval: 1.7000 sign: 41


= 0.05.

ceea ce conrm c ipoteza nul este admis la nivelul de semnicaie

Testul seriilor n
Funcia

Matlab

Matlab ce simuleaz testul de vericare a stochasticitii unui ir de caractere este


[h, p, stats] = runstest(x)

Acesta este un test ce veric dac valorile ce compun irul de caractere abilele

apar n ordine aleatoare. Vari-

h, p

sunt ca n testul

signtest.

Aici, variabila

stats

aeaz urmtoarele: numrul de faze,

lungimile ecrei faze i valoarea statisticii pentru selecia considerat. n urma rulrii comenzii, se va aa valoarea rularea codului

h = 0

dac ipoteza c valorile apar n ordine aleatoare nu

poate  respins (este acceptat la nivelul de semnicaie

= 0.05)

h = 1 n caz contrar.

De exemplu,

x = '011010100010001001010101110010101001010101010010111'; [h, p, stats] = runstest(x)

Laborator 13 [Dr. Iulian Stoleriu]


aeaz

189

h = 1

p = 0.0014

stats = nruns: n1: n0: z:

38 24 27 3.2899

Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul de semnicaie

= 0.05

(subneles),

P valoarea

este

Pv = 0.0014

(asta nsemnnd c doar pentru un

nivel de semnicaie mai mic de

Pv

irul poate  considerat aleator). Variabila de memorie

stats aeaz

datele folosite n aplicarea testului.

Comanda urmtoare

[h, p, stats] = runstest(x, v, alpha, tail)


aeaz

decizia testului, ori

h = 0

ori

h = 1,

cu semnicaia de mai sus;

este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai

mari dect

v,

cele care sunt exact egale cu

nu sunt contabilizate;

alpha tail

este nivelul de semnicaie;

poate  una dintre urm toarele ipoteze alternative: irul nu este aleator (test bilateral). Aceasta opiune poate s nu e specicat,

 'both',

deoarece se subnelege implicit.

 'left', dac valorile tind s se adune n ciorchine (test unilateral stnga);  'right', dac valorile tind s se separe (test unilateral dreapta);
De exemplu, s considerm urmtoarele comenzi:

y = 0:10; y = 0:10; y = 0:10;

[h, p] = runstest(y,median(y),0.02,'left') [h, p] = runstest(y,median(y),0.02,'right') [h, p] = runstest(y,median(y),0.02,'both')

Rezultatele rulrii lor sunt (n ordine):

h = 1 h = 0 h = 1
Ipoteza nul este aceea c valorile din irul

p = 0.0043 p = 1 p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]
sunt aleatoare n jurul valorii mediane,

median(y ) = 5.

Laborator 13 [Dr. Iulian Stoleriu]

190

Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.

Exerciiu 26.1

Se dau urmtoarele date:

x 3 y 9

2 1 0 1 2 4 1 0 1 4

(a) Testai dac

(b) Este faptul c

= 0 (coecientul de corelaie teoretic). x i y sunt legate prin relaia y = x2

n contradicie cu rezultatul de la punctul (a)

(datele sunt perfect necorelate)? (c) Calculai coecientul de corelaie Spearman.

Exerciiu 26.2

Tabelul 26.1 conine calicativele obinute de un elev de clasa I la cele

10

discipline,

n ecare dintre cele dou semestre. (a) Discipline A FB B B FB B

Utilizai testul semnelor pentru a testa ipoteza c rezultatele C B B D FB FB E B FB F B S G B FB H S B I FB B J FB FB

Sem. I Sem. II

Tabela 26.1: Calicative din anul I de studiu


elevului din cele dou semestre nu sunt semnicativ diferite ( (b) Spearman).

= 0.05);

S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie

Exerciiu 26.3

Timpii de funcionare continu a

25 de baterii produse succesiv de o anumit rm sunt:

149 155 148 165 176 144 174 142 145 162 165 154 188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (

= 0.05).

Exerciiu 26.4

Numrul de accidente pe zi ce au loc ntr-un ora ntr-o anumit lun sunt :

8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie repartiie Poisson.

= 0.05,

testai ipoteza c numrul de accidente pe zi n acel ora urmeaz o

Exerciiu 26.5
purpurii, iar vericat.

n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui

s produc doar ori albe, roz sau roii, cu probabilitile au fost observate plantele dintr-o selecie de

0.25, 0.5,

546

de plante, observnd c

124

au ori roii. Testai la un nivel de semnicaie

0.25. Pentru a testa teoria, 132 au ori albe, 290 au ori = 0.05 dac teoria lui Mendel este
respectiv

Laborator 13 [Dr. Iulian Stoleriu]

191
100 de 72 la

Exerciiu 26.6

Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.

puncte) obinute la un test de Matematic. nivelul de semnicaie

Testai ipoteza c mediana notelor studenilor este

= 0.05.

71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60 83 73 40 78 70 64 86 76 62 95 66

STATS 14 [Dr. Iulian Stoleriu]

192

27 Statistic Aplicat (C14) Regresie


Regresie liniar simpl
Este cel mai simplu tip de regresie, n care avem o singur variabil independent, dent

x,

i variabila depen-

aceste date ntr-un sistem

{(xi , yi )}i=1, n . Reprezentm grac (a)) i observm o dependen aproape liniar a lui y de x. Dac valoarea coecientului de corelaie liniar, r , este aproape de 1 sau 1 (indicnd o corelaie liniar strns), atunci se pune problema stabilirii unei relaii numerice exacte ntre x i y de y.
S presupunem c ni se d familia de date bidimensionale

x0y

(de exemplu, vezi Figura 27.1

forma

y = 0 + 1 x.
O astfel de dreapt o vom numi

(27.1) Pentru un set de date

dreapta de regresie a lui y n raport cu x.

bidimensionale ca mai sus, putem reprezenta aceast dreapt ca n Figura 27.1

(b).

Figura 27.1: Aproximarea unui nor de date prin dreapta de regresie.

Exemplu 27.1

Te hotrti s cumperi maina favorit, ce se vinde acum la preul de

semnarea contractului de vnzare-cumprare, plteti suma iniial de

650 RON, timp de 5 ani.


pe main, atunci ntre

15000 RON

12500 EUR.

La

i apoi rate lunare de

Dac notm cu

numrul lunilor pn la ultima rat i cu

suma total pltit

exist relaia:

Y = 15000 + 650 X.
n acest exemplu, relaia ntre bidimensionale

este una perfect liniar.

O relaie perfect liniar ntre datele

{(xi , yi )}i=1, n

reprezentate n Figura 27.1 ar nsemna c toate acestea s-ar aa pe dreapta De cele mai multe ori, datele reale nu urmeaz o astfel de relaie

de regresie, ceea ce nu se ntmpl.

perfect (spre exemplu, rata lunar poate  una variabil, n funcie de rata de schimb care parametrii din dependena liniar trebuie a  estimai.

EUR-RON),

caz n

STATS 14 [Dr. Iulian Stoleriu]


Aadar, va trebui s inem cont i de eventualele perturbaii din sistem. dependena lui

193
Putem presupune astfel c (27.2)

de

este de forma

y = 0 + 1 x + ,
cu

o variabil aleatoare repartizat

N (0, ).

Plecnd de la

{xi , y i }i ,

elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine

precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie

1 .

Procedm dup cum urmeaz.

nlocuind datele bidimensionale n (27.2), avem urmtorul sistem:

y i = 0 + 1 x i + i ,
unde

i = 1, n,

(27.3)

i N (0, ), i
Deoarece

sunt independente stochastic.

i = yi (0 + 1 xi ),
putem interpreta innd cont c

i = 1, n,

ca ind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de sunt valori deterministe, din (27.3) rezult c: pentru ecare

regresie (adic de valorile

0 + 1 xi ). i N (0, ) i 0 , 1

yi N (0 + 1 xi , ),
de unde, probabilitatea ca ntr-o singur msurtoare a

i, yi
este

xi

s obinem rspunsul

1 (yi 0 1 xi )2 Pi = exp 2 2 2
Deoarece vectorul

{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate): 1 (yi 0 1 xi )2 L(0 , 1 , ) = Pi = n exp 2 2 (2 )n/2 i=1 i=1
n n

Avem de estimat urmtoarele cantiti:

maxime.

0 , 1

Pentru aceasta, vom folosi

metoda verosimilitii

Urmrim s gsim acele valori ale parametrilor

0 , 1

care maximizeaz funcia de verosi-

militate. Aadar, problema de maximizare este urmtoarea:

0 , 1 ,
Condiiile de extrem (impuse pentru

max L(0 , 1 , ).

ln L) 1 2 2 1 2 2

sunt:

ln L 0 ln L 1 ln L

= =

(yi 0 1 xi )
i=1 n

= =

0; 0; = 0.

xi (yi 0 1 xi )
i=1 n

n 1 + 2 0

(yi 0 1 xi )2
i=1
i

Rezolvnd primele dou ecuaii n raport cu

1 ,

obinem estimaiile: (27.4)

1 =

sxy s2 x

0 = y 1 x,

STATS 14 [Dr. Iulian Stoleriu]

194

Figura 27.2: Estimarea dreptei de regresie.

unde,

1 x= n

xi ,
i=1

1 y= n

yi ,
i=1

s2 x

1 = n1 y

(xi x) ,
i=1

sxy

1 = n1

(xi x)(yi y ).
i=1

Astfel, gsim c dreapta de regresie a lui

n raport cu

este aproximat de dreapta: (27.5)

y = y 1 x +
sau, altfel scris,

sxy x, s2 x

y=y+

sxy (x x). s2 x 2
este:

(27.6)

Din ultima condiie de extrem, gsim c o estimaie pentru dispersia

1 = n
2
ns, estimaia pentru

(yi 0 1 xi )2 .
i=1

(27.7)

2 dat prin formula (27.7) este una deplasat.


n

n practic, n locul acestei estimaii

se utilizeaz urmtoarea estimaie nedeplasat:

2 =

1 n2

(yi 0 1 xi )2 .
i=1

(27.8)

Observaia 27.2

(1) Terminologie:

dreapta de regresie, y = 0 + 1 x, este dreapta ce determin dependena lui x, pentru ntreaga populaie de date (dac acasta exist);

liniar a lui

de valorile

STATS 14 [Dr. Iulian Stoleriu]

aproximarea dreptei de regresie (sau selecie)

195
dreapta de tare, en., tting line), y = 0 + 1 x, este dreapta

care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de

{xi , y i }i .

Aceast dreapt este o aproximare a dreptei de regresie;

Valorile (i

yi = 1, n);

se numesc

valori observate, iar valorile yi = 0 + 1 xi , i = 1, n se numesc valori prezise reziduuri.


Un reziduu msoar deviaia unui punct observat de la

valorile

i = y i y i

se numesc

valoarea prezis de estimarea dreptei de regresie (dreapta de tare);

suma ptratelor erorilor,


i=1

2 i,

se noteaz de obicei prin

SSE (sum of squared errors);

eroarea medie ptratic


rdcina ptrat a

sau

rezidual este

SSE , n2

notat

MSE (mean squared error);

MSE

se numete

eroarea standard a regresiei;

se poate demonstra c

2 SSE = (n 2) 2 2 (n 2). 2
cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui n formula (27.8),

2.

(n 2)

reprezint numrul gradelor de libertate ale variabilei

SSE.

(2)

Estimaia dispersiei este o msur a gradului de mprtiere a punctelor

(x, y )

n jurul dreptei de

regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor necunoscui, i nu valorile lor exacte. Formula pentru

mai poate  scris sub forma:

1 = xy
(3) Dac deviaia standard

sy . sx

ar  cunoscut a priori, atunci putem estima parametrii 0 i 1 n urmtorul

mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor

SSE.

Vom avea astfel problema de minimizare (

metoda celor mai mici ptrate):


(yi 0 1 xi )2 .

n 0 , 1 n
Notnd cu

min

i=1

F (0 , 1 ) =
i=1

(yi 0 1 xi )2 , F 0 F 1

condiiile de extrem sunt:

= 2
i=1 n

(yi 0 1 xi ) xi (yi 0 1 xi )
i=1

= =

0; 0. 0 1

= 2

Rezolvnd acest sistem de ecuaii algebrice n raport cu

1 ,

gsim soluiile

i, respectiv,

de

mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.

STATS 14 [Dr. Iulian Stoleriu]

196

Caracteristici ale parametrilor de regresie


Estimaiile pentru parametrii de regresie

lorile calculate pe baza datelor experimentale populaie, se vor utiliza testri statistice. valorilor ambilor parametri, dreptei de regresie,

1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot  considerate valorile potrivite pentru ntreaga

Mai jos, vom construi teste statistice cu privire la testarea

1 ,

ns cel mai uzual test este testul pentru vericarea valorii pantei

1 . 1
i

Mai nti, vom calcula media i dispersia pentru ecare dintre Avem succesiv,

0 .

E(1 ) = E sxy s2 x

(xi x)(yi y ) i=1 . = E n (xi x)2


i=1

Aici,

xi

sunt valori deterministe, iar

yi

variabile aleatoare. Deoarece

y = 0 + 1 x +
obinem c

1 n

i ,
i=1

E(y ) = 0 + 1 x.

ns,

E(yi y ) = 0 + 1 xi (0 + 1 x) = 1 (x1 x),


Aadar,

i.

(xi x)E[yi y ] E(1 ) =


i=1 n

1 =
i=1 n

(xi x)2 = 1 .
2

(xi x)
i=1
Pentru

2 i=1

(xi x)

avem:

E(0 ) = E(y ) x E(1 ) = 0 + 1 x x1 = 0 .


Prin urmare, att

0 ,

ct i

1 ,

sunt estimatori nedeplasai pentru

i, respectiv,

1 .

n
Calculm acum dispersiile

D 2 1

D2 0

. Deoarece

(xi x)y = 0,
i=1

avem:

D2 1

(xi x)yi i=1 = = D2 n (xi x)2


i=1

(xi x)2 D2 (yi )


i=1 n 2

(xi x)2
i=1

2 s2 2 x = . s4 s2 x x

(27.9)

Utiliznd urmtoarea proprietate,

D2 (X + Y ) = D2 (X ) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:

D2 0 = D2 (y 1 x) = D2 (y ) 2 x cov(y, 1 ) + x2 D2 1 .

(27.10)

STATS 14 [Dr. Iulian Stoleriu]


Dar,

197
n

D2 (y ) = D2
i

1 n

i
i=1

1 2 2 n = n2 n

cov

n n i=1

(xi x)(0 + 1 xi + i ) b 2 (xi x)


i=1

y, 1

1 cov n

i ,
i=1

n n

1 cov n

(xi x)i i , i=1 n i=1 (xi x)2


i=1 n
cov

= n

1
n

i ,
i=1 i=1

(xi x)i

(xi x)

i=1 n

(xi x) 2 =
i=1 n

= 0. (xi x)
2

n
i=1
nlocuind n (27.10), gsim c

D2 0 = x2
innd cont c estimatorii

2 2 + = 2 s2 n x

1 x2 + n s2 x

(27.11)

0 i 1 sunt nedeplasai, de relaiile (27.11) i (27.9), i de estimatorul 2 pentru , se poate demonstra c: 0 0


i

1 n

x2 s2 x

t(n 2)

(27.12)

1 1
sx
Aici, am notat prin

t(n 2).

(27.13)

cantitatea:

1 n2

1 2

(yi 0 1 xi )2
i=1

. 0
i

Putem folosi aceste statistici pentru a determina intervale de ncredere pentru ncredere pentru

1 .

Un interval de

la nivelul de semnicaie

este:

0 t1 ; n2 2

1 x2 + , n s2 x

0 + t1 ; n2 2

1 x2 + . n s2 x

(27.14)

STATS 14 [Dr. Iulian Stoleriu]


Un interval de ncredere pentru

198
1
la nivelul de semnicaie

este:

1 t1 ; n2 2

, sx

1 + t1 ; n2 2

. sx

(27.15)

Observaia 27.3

(1) n general, dispersia

a erorilor de regresie nu este cunoscut

a priori.

n cazul

n care aceasta este cunoscut, atunci n loc de (27.12) i (27.13) am avea:

0 0
1 n

x2 s2 x

N (0, 1),

1 1
sx

N (0, 1).

(27.16)

n acest caz, intervalele de ncredere pentru cu diferena c i

z1 2

1 ; n2 2

este nlocuit prin

0 i 1 vor  similare cu cele din relaiile (27.14) i (27.15), z1 . Oricum, pentru n sucient de mare, valorile t1 ; n2 2 2

sunt foarte apropiate.

(2) Coecientul de determinare

R2 (= r2 )

se poate calcula i folosind urmtoarea formul:

R2 = 1
unde

s2 y/x s2 y

(27.17)

s2 y/x

1 = n1

(yi 0 1 xi ) ,
i=1

s2 y

1 = n1

(yi y )2 .
i=1

2 n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate  construit o
valoare prezis pe baza valorilor independente.

Test statistic pentru 1


Mai jos prezentm testul ce veric dac Testm

ia o valoare dat

10

sau nu, la un nivel de semnicaie

Dispersia erorilor de regresie este necunoscut.

(H0 ) :
Considerm statistica

1 = 10

versus

(H1 ) :

1 = 10 .

T =
care urmeaz repartiia

1 1
sx

t(n 2).

Etapele testului sunt urmtoarele:

Calculm valoarea critic

T0 =
Calculm cuantila de ordin Dac

1 10
sx

. (n 2)
grade de libertate,

2 pentru repartiia

cu

t1 ; n2 ; 2

|T0 | < t1 ; n2 , 2
Dac

atunci acceptm ipoteza

(H0 ); (H1 );

|T0 | t1 ; n2 , 2

atunci acceptm ipoteza

STATS 14 [Dr. Iulian Stoleriu]

199

Observaia 27.4

(1) O ipotez alternativ poate  considerat i una dintre urmtoarele:

(H1 )s :
(2) Dac

1 < 10 , 1 = 0

(H1 )d :

1 > 10 . x
i

10 = 0,

atunci ipoteza alternativ

este ipoteza c ntre

exist o dependen

liniar.

Test statistic pentru 0


Mai jos prezentm testul ce veric dac Testm

ia o valoare dat

sau nu, la un nivel de semnicaie

Dispersia erorilor de regresie este necunoscut.

(H0 ) :
Considerm statistica

0 = 0

versus

(H1 ) :

0 = 0 .

T =
care urmeaz repartiia

0 0
1 n

x2 s2 x

t(n 2),

t(n 2).

Etapele testului sunt urmtoarele:

Calculm valoarea critic

T0 =
Calculm cuantila de ordin Dac

0 0 1 n

x2 s2 x

t(n 2).

2 pentru repartiia

cu

(n 2)

grade de libertate,

t1 ; n2 ; 2

|T0 | < t1 ; n2 , 2
Dac

atunci acceptm ipoteza

(H0 ); (H1 ); 0 .
pentru

|T0 | t1 ; n2 , 2

atunci acceptm ipoteza

Observaia 27.5
n cazul n care

De asemenea, teste unilaterale pot  considerate i n cazul testrii valorii lui este cunoscut

a priori

atunci, graie relaiilor (27.16), putem utiliza testul

testarea ipotezelor de mai sus, att pentru

0 ,

ct i pentru

1 .

Predicie prin regresie


[Pe scurt, predicia prin regresie este precum ai conduce maina legat la ochi, ghidat de un copilot care privete doar n lunet]

n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu, putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele nvecinate. Regresia poate  utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe care le deinem, valoarea

{(xi , yi }i=1, n ,
i

pot  modelate de o dreapt de regresie de forma (27.1).

Dat ind o

xp

ce nu se a printre valorile

xi ,

dar este o valoare cuprins ntre valorile extreme ale variabilei

independente,

xmin

xmax ,

dorim s prezicem valoarea rspuns,

y p = 0 + 1 x p + p .

STATS 14 [Dr. Iulian Stoleriu]


Dac

200
de regresie

pentru

0 i 1 sunt estimaiile pentru parametrii yp pentru un xp observat va  o valoare yp

0 ,

respectiv,

1 ,

atunci

valoarea prezis
(27.18)

de pe dreapta de regresie, dat de formula:

yp = 0 + 1 xp .
Un interval de ncredere pentru

pentru un

xp

dat, la nivelul de senicaie

(xp [xmin , xmax ])

este:

yp t1 ; n2 2

1+

1 (xp x)2 + , n s2 x

yp + t1 ; n2 2

1+

1 (xp x)2 . + n s2 x

(27.19)

Observaia 27.6
i

(1) De notat faptul c este foarte important ca

xp

s e o valoare cuprins ntre

xmin

xmax .

Dac se folosete formula (27.18) i pentru valori ale lui

n afara range-ului valorilor predictor

pentru

x,

atunci erorile de de aproximarea a lui

cu

yp

pot  foarte mari. De exemplu, dac n Figura

27.3 (a) am folosi doar primele

pentru a construi un model de regresie, atunci acesta poate  utilizat

doar pentru predicia valorilor variabilei pe cnd valoarea observat este

pentru orice

n acest range, i.e.

x [0, 10].

Dac, folosind

dreapta de regresie gsit anterior, am ncerca o predicie pentru

x = 19,

atunci am gsi c

y (19) 10,

y (19) 6.5,

ceea ce determin o eroare foarte mare de aproximare. Mai

mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale

Figura 27.3: Predicie prin extrapolare.


variabilelor independente ce ies din range se utilizeaz termenul de este folosit des n analiza seriitor de timp. (2) lui Valoarea prezis

prognoz (en., forecasting).

Aceasta

yp

nu este una stabilit cu exactitate, ci este doar o medie ateptat a valorilor n cazul n care

pentru un

xp

dat.

R2 = 1

(coecientul de determinare), atunci valoarea pentru

va  prezis fr eroare, deoarece toate punctele se a pe dreapta de regresie. n general, punctele Valoarea

bidimensionale (3)

(x, y ) yp este

se a mprtiate n jurul dreptei de regresie. determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast

valoare poate  extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea

yp

cu o constant dat.

STATS 14 [Dr. Iulian Stoleriu]


Testm

201

(H0 )

yp = y0

versus

(H1 )

yp = y0 .

Etapele testului sunt urmtoarele:

Estimm

yp

utiliznd formula (27.18).

Considerm statistica

T =

yp y
1 MSE( n + (xp x)2 2) i (xi x)

t(n 2);

Calculez valoarea

T0 =

yp y0
1 MSE( n + (xp x)2 2) i (xi x)

Dac

|T0 | < t1 ; n2 , 2
Dac

atunci acceptm ipoteza

(H0 ); (H1 );

|T0 | t1 ; n2 , 2

atunci acceptm ipoteza

(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice cu succes chiar

10

dintre ultimele

recesiuni!

Exemplu 27.7

Un interval de ncredere pentru

yp

la nivelul de ncredere

este:

yp S t1 ; n2 , 2
unde

yp + S t1 ; n2 , 2 (xp x)2 1 + . 2 n i (xi x)

(27.20)

S=

MSE 1 +

(de vericat!)

Observaia 27.8

Pn acum am vzut cum putem estima valoarea lui

putem inversa rolurile lui

y,

i putem vorbi astfel de

regresie a lui x n raport cu y .

folosind pe

x.

n unele cazuri, De exemplu, Formulele

n Exerciiul 28.1 am putea estima notele la Probabiliti n funcie de notele la Statistic. obinute pentru dreapta de regresie a lui regresie a lui

n raport cu

sunt cele gsite anterior pentru dreapta de

n raport cu

x,

n care rolurile lui

sunt inversate.

Laborator 14 [Dr. Iulian Stoleriu]

202

28 Statistic Aplicat (L14) Regresie (exerciii rezolvate)


Fie

doi vectori de acelai tip. Urmtoarele funcii din

Matlab sunt utile pentru analiza corelaiei


X;

i regresiei:

scatter(X,Y)

reprezint grac valorile lui

vs. valorile lui

R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma: >> ans = 1.0000 1.0000
unde

1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
este (9.3).

cov(X,Y) pentru matricea de covarian empiric dintre X i Y (formula (9.2)); Funcia cov(X,Y,1) este tot matrice de covarian, ns n acest caz formula folosit

b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor
independente). Dac Dac

X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar. X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de
0
i

regresie avem

liniar multipl.

Spre exemplu, s presupunem c se dorete estimarea coecienilor de regresie

liniar simpl, i.e.,

Matlab care estimeaz cei doi coecieni este

observaii. n acest caz,

1 pentru care y = 0 + 1 x, unde pentru ecare k = 2. Fie X, respectiv, Y vectorii ce conin aceste

dintre

observaii. Comanda

B = regress(Y', [ones(n,1)'; X]')


Comanda furnizeaz aproximri pentru parametrii bun:

y1 y2 . . . yn

0 i 1 ce fac urmtoarea 1 x1 x2 1 . . + 1 . . . . . 1 xn

aproximare ct mai

p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie cel mai mult de datele observate yi , n sensul celor mai mici ptrate. va aa n acest caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a

Matlab

puterilor. Spre exemplu, dac

p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci

Matlab va aa

n , . . . , 1 , 0 .

Laborator 14 [Dr. Iulian Stoleriu]

203

Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n

Matlab:

p = [3
obinnd rezultatul:

2 4];

polyval(p,[-3 1 5])

ans =

37

69

Exerciiu 28.1
obinute de (b)

Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti n acest sens, au fost observate notele

i cele de la Statistic obinute de studenii unui an de studiu.

10

studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:

(a) Stabilii dac exist o legtur puternic ntre aceste note (r i desenai-o n acelai sistem de axe ca i notele obinute (

r2 );

Determinai dreapta de regresie a notelor de la Statistic n raport cu notele la Probabiliti i

scatter plot).

(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.

Student Probabiliti Statistic

82 84

36 42

72 50

58 64

70 68

48 54

44 46

94 80

60 60

40 32

Tabela 28.1: Notele la Statistic i Probabiliti.


Soluie:
n codul (a) Calculm r cu formula (25.1). Funcia Matlab pentru coecientul Pearson este corrcoef. Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti,

folosind formula (25.2) sau scriind desfurat expresia lui (b) Coecienii de regresie se pot obine n de calcul a coecienilor

r.

tarea datelor cu un polinom, n cazul liniar ind un polinom de forma

3 moduri, e folosind funcia polyfit, care realizeaz S (P ) = 0 + 1 P . O alt variant


din

Matlab

este simpla implementare n

treia variant este folosirea funciei funcii predenite din

regress

Matlab.

Matlab a formulelor pentru acetia.


plot,

Reprezentarea grac a datelor poate  realizat folosind ori funcia

Matlab. Gracul este cel din Figura 28.1.

ori funcia "scatter", ambele

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mean(P); ms = mean(S); %%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(P,S); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(P,S)/(std(P)*std(S)); r = C(1,2); % r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(P,S,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;

Laborator 14 [Dr. Iulian Stoleriu]

204

% B = regress(S',[P;ones(10,1)']'); %%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-') % scatter(P,S) % varianta pentru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('P si S nu sunt corelate') else disp('P si S sunt corelate') end
Rulnd codul de mai sus, obinem:

r = 0.8247

B = 0.7553

10.3816

P si S sunt corelate

Figura 28.1: Notele i dreapta de regresie.

Exerciiu 28.2

Fie irul de date:

x = y =

0.3 3.52

0.8 4.53
x

1.2 5.58
i

1.6 6.62

2.1 8.27

2.4 10.18

2.7 11.80

S se studieze existena unei dependene ntre

de forma

y = a eb x .

Soluie:

Calculm

ln y .

Obinem:

ln y =

1.2585

1.5107

1.7192

1.8901

2.1126

2.3204

2.4681

Laborator 14 [Dr. Iulian Stoleriu]


Se observ c gsim:

205
(coecientul de corelaie ntre

r = 0.9988 1

ln y ),

de unde bnuim c e posibil s

avem o regresie liniar ntre variabilele

ln y .

Estimm coecienii de regresie ai lui

0 = 1.1074,

1 = 0.4980.

Aceasta poate  realizat n

Matlab prin comanda

ln y

fa de

regress(log(y)',[x',ones(7,1)])
Aadar,

ln y = 0.4980 x + 1.1074,

de unde

y = e1.1074 e0.4980 x 3 ex/2 .

n Figura 28.2 am reprezentat

grac datele observate i aproximrile lor.

Figura 28.2: Aproximarea datelor din Exerciiul 28.2

Exerciiu 28.3
la ecare

Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca. Pentru o vericare, au fost msurate simultan temperaturile

1km

ctigat n nlime.

6 C n 10

localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune

hi Ti

500 15

1000 14

1500 11

2000 6

2500 1

3000 2

3500 0

4000 4

4500 8

5000 14

Tabela 28.2: Tabel cu temperaturi (Ti ) la diverse altitudini (hi ).


a  o funcie liniar (regresie liniar) de altitudine, se cere: (i) S se estimeze parametrii (ii) S se testeze (

1 ; 1 = 0.006); 1 ;

= 0.05)

dac prognoza din enun este adevarat (i.e.,

(iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie, (v) Estimai temperatura la altitudinea aceasta temperatur.

(iv) Ct de bun este aproximarea temperaturii cu o funcie liniar de altitudine?

h = 2544.

Gsii, de asemenea, un interval de ncredere pentru

Soluie:

(i)

Estimm parametrii necunoscui folosind formulele (27.4) sau folosind funcia

polyfit

Matlab

(vezi codul de mai jos).

(ii) Pentru testarea ipotezei nule

(H0 ) : 1 = 0.006

utilizm testul din Seciunea .

Laborator 14 [Dr. Iulian Stoleriu]


(iii) Un interval de ncredere pentru

206
1
se poate calcula folosind formula (27.15).

(iv) Pentru a decide ct de bun este aproximarea, calculm coecientul de determinare,

R2 .

Acesta este

R2

= 94.83,

ceea ce nseamn c temperatura real este foarte aproape de cea prognozat.

(v) Utilizm formulele (27.18) i (27.19), pentru jos) Codul

xp = 2544.

(vezi rezultatele generate de codul de mai

Matlab este urmtorul:

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000]; T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T); %%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~ CC = corrcoef(h,T); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(h,T,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % B = regress(T',[h;ones(10,1)']'); % b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh; %%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-') %%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sigmax = std(h); T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('ipoteza (H0 ) se accepta') else disp('ipoteza (H0 ) se respinge') end %%%~~~~~~~~~~~~~~~ Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ... Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:

r = -0.9738

R2 = 94.83 Tp = 3.3610

B =

[-0.0061, 18.9333] CI_T = [-2.2335, 8.9555]

CI =

[-0.0096, -0.0026]

ipoteza nula se accepta


Alte funcii utile n

Statistics Toolbox):

Matlab pentru analiza regresional (unele disponibile doar n pachetul de programe


Desenul

polytool(x, y) - determin o dreapt de regresie pentru datele coninut n vectorii x i y .


aat este interactiv i apare ntr-o interfa grac.

polytool(x, y, n, alpha, xname, yname)

- aproximeaz datele bivariate

(x, y )

cu un polinom

Laborator 14 [Dr. Iulian Stoleriu]

207

Figura 28.3: Diagrama de temperaturi n funcie de altitudine, i dreapta de regresie.

de grad

i deseneaz intervale de ncredere (la nivelul

pentru valorile prezise. Valorile lui

sunt denumite prin

xname,

respectiv

yname.

Exemplu 28.4

Urmtoarele comenzi aeaz gracul din Figura 28.4.

x = [-3 -2 -1 0 1 2]; y = [8.75 3.8 1.2 0.05 1.01 4.02]; polytool(x,y,2,0.05,'observatii pt X','observatii pt Y')
rstool(x, y, model, alpha, xname, yname)
poate  una dintre urmtoarele: - deschide o interfa interactiv pentru a deter-

mina suprafeele de rspuns pentru datele din vectorii

(x, y ), dup modelul precizat. Aici, model linear, pure quadratic, interaction sau full quadratic.

Exemplu 28.5

Urmtoarele comenzi aeaz gracul din Figura 28.5.

X = [2 2 2; 2.5 2 2; 2 4.5 2; 2.5 4.5 2; 2 7 2; 2.5 7 2;... 2 2 5; 2.5 2 5; 2 4.5 5; 2.5 4.5 5; 2 7 5; 2.5 7 5]; Y = [291 353 400 400 504 442 273 304 397 424 402 431]'; xn = {'x1', 'x2', 'x3'}; yn = {'Y'}; rstool(X,Y, 'interaction', 0.05, xn, yn)

Laborator 14 [Dr. Iulian Stoleriu]

208

Figura 28.4: Curba de ordinul al doilea care aproximeaz datele (x, y ).

Figura 28.5: Suprafee de rspuns pentru datele (x, y ).

Anexa 1 [Dr. Iulian Stoleriu]

209

29

Anexa 1
Matlab

Scurt introducere n

Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz cu care opereaz

Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab


este uurina cu care poate  extins. La programele deja existente n

este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important caracteristic a

Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile. Prezentm mai jos o scurt introducere n

Matlab-ului

Matlab a principalelor funcii i comenzi folosite n aceast Matlab ale unor noiuni de
Statistics

lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n Teoria Probabilitilor i Statistic matematic. Folosind comanda ct i a pachetelor de funcii (

demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,

Toolbox,

toolbox)

de care ai putea  interesai. Dintre acestea, amintim

care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:

analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson, relor aleatoare, analiza regresional, descrieri statistice.

2 ),

generarea nume-

Comenzile

Matlab pot  scrise n iere cu extensia .m, ce urmeaz apoi a  compilate. Un ier-m Matlab poate  folosit ca pe un mediu computaional interactiv, caz n

const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii recursive. De asemenea, care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot  vizualizate sau evaluate imediat. De exemplu, introducnd la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab denete o variabil de memorie a, creia i atribuie valoarea


a = 1.2720

Variabilele sunt denite cu ajutorul operatorului de atribuire, calculul unei expresii sau al unei funcii.

=,

i pot  utilizate fr a declara

de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din

Pentru a gsi informaii imediate despre vreo funcie predenit, comanda De exemplu,

help

va vine n ajutor.

Anexa 1 [Dr. Iulian Stoleriu]


>> help length
aeaz urmtoarele:

210

LENGTH Length of vector. LENGTH(X) returns the length of vector X. It is equivalent to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel.

Comanda menzii

help poate  utilizat doar dac se cunoate exact lookfor este recomandat. De exemplu, comanda

numele funciei. Altfel, folosirea co-

>> lookfor length


produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector.

Matlab este un mediu computaional orientat pe lucru cu vectori i matrice.


forma

O linie de cod de

>> v = [1,3,5,7,9]

% sau

v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate  realizat i folosind de la 1 la 9, cu pasul 2. Pentru un vector coloan,

denete un vector linie ce are componentele comanda

v = 1:2:9

adic aeaz numerele

folosim punct-virgul ntre elemente, adic

>> v = [1;3;5;7;9]

% vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)
adic

este un vector linie cu

componente, la intervale egale ntre

x1

x2.

Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

Anexa 1 [Dr. Iulian Stoleriu]


denete matricea

211
A =

1 4

2 5

3 6 A(i,j)
sau

Apelul elementelor unei matrice se poate face prin comenzile coloan Funcia Funcia ordin

j)

sau

A(i,:)

A(:,j)

(elementele de

(elementele de linia

i); m n, avnd toate componentele egale cu 1. m n. Funcia eye(n) denete matricea unitate de

Matlab ones(m,n) zeros(m,n) denete

denete o matrice o matrice zero

n.

Dup cum vom vedea mai jos, comenzii

Matlab permite denirea unor funcii foarte complicate prin scrif (x, y ) = e5x sin 3y :

erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii

inline.

Spre exemplu, denim funcia

>> f = inline('exp(5*x).*sin(3*y)') f = Inline function: f(x,y) = exp(5*x).*sin(3*y)


Putem apoi calcula

f (7, )

prin

>> f(7,pi)

0.5827

Un program

Matlab poate  scris sub forma ierelor script sau a ierelor de tip funcie. Ambele Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut
script este un ier extern care conine o sec-

tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii, care le pot completa pe cele deja existente. Un ier ven de comenzi

n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv, adic n modul linie de comand.

Pentru a introduce date n matricea

Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
% atribuirea valorilor matricei data % prima linie a datelor copiate % ultima linie a datelor copiate % inchidem paranteza ce defineste matricea de date

vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n

data: [ 19.9 21.0 17.5 23.2 23.5 19.7

>> data = 21.3 24.1 18.4 20.5 22.1 16.6 ];


Datele din

Matlab pot  salvate astfel:

Anexa 1 [Dr. Iulian Stoleriu]


>> cd('c:\fisierul_de_lucru'); >> save Timpi_de_reactie data;
Datele pot  rencrcate folosind comanda

212
% alegem fisierul unde salvam datele % salveaza in fisierul Timpi_de_reactie.mat

load Timpi_de_reactie Timpi_de_reactie

% incarca datele din fisier % afiseaza datele incarcate

Fiierele funcie

Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului ier funcie. acesteia.

Astfel,

.m

conine cuvntul

function,

atunci ierul respectiv este declarat ca ind

Variabilele denite i manipulate n interiorul ierului funcie sunt localizate la nivelul

Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect

variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:

function[param_iesire] = nume_functie(param_intrare)
unde:

function

este este cuvntul care declar ierul ca ier funcie; este numele funciei, care este totuna cu numele sub care se salveaz ierul; sunt parametrii de ieire; sunt parametrii de intrare.

nume_functie param_iesire

param_intrare

Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia

.m.

Exemplu 29.1
tor

Fisierul

(alternativ, aceast lucru poate  realizat prin comanda

medie.m calculeaz media aritmetic a sumei ptratelor componentelor unui vecmean(X.^2)):

function m2 = medie(X) n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate.

Statistics Toolbox

reprezint o colecie de funcii folosite pentru analiza, modelarea i

simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI), analiza regresional, descrieri statistice, teste statistice. n Tabelul 29.1 am adunat cteva comenzi utile n

Matlab.

Anexa 1 [Dr. Iulian Stoleriu]


% help rand lookfor normal X=[2 4 6 5 2 7 10] X=[3; 1; 6.5 ;0 ;77] X = -10:2:10 length(X) t=0:0.01:3*pi X.^2 X.*Y cumsum(X) cumprod(X) min(X) max(X) sort(X) sort(X, 'descend') erf(X) exp(x) log(x) sqrt(x) num2str(x) factorial(n) A = ones(m,n) B = zeros(m,n) I = eye(n) A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] size(A) det(A) inv(A) A' A(:,7) A(1:20,1) nchoosek(n,k) 1e5 exp(1) bar(X) sau barh(X) hist(X) hist3(x,y,z) plot(X(1:5),'*m') plot(t,X,'-') plot3(X,Y,Z) stairs(X) subplot(m,n,z) semilogx i semilogy hold on clf clear all title('Graficul functiei') find legend % % % %

213
permite adaugarea de comentarii in cod help specic pentru funcia

cauta intrarile n

Matlab pentru
7 5 10
la

rand normal

vector linie cu

elemente elemente

vector coloan cu

2 n 2 % lungimea vectorului X % denete o diviziune a [0, 3 ] cu diviziunea 0.01 % ridic toate componentele vectorului X la puterea a doua % produsul a doi vectori % suma cumulat a elementelor vectorului X % produsul cumulativ al elementelor vectorului X % realizeaz minimum dintre componentele lui X % realizeaz maximum dintre componentele lu X % ordoneaz componentele lui X n ordine crescatoare % ordoneaz componentele lui X n ordine descrescatoare % funcia eroare % calculeaz exponenial ex % calculeaz logaritmul natural ln(x) % calculeaz radicalul ordinului doi dintr-un numr % furnizeaz valoarea numeric a lui x % n! % A e matrice m n, cu toate elementele 1 % matrice m n zero % matrice unitate, n n % matrice 3 3 % dimensiunea matricei A % determinantul matricei A % inversa matricei A % transpusa matricei A % coloana a 7-a a matricei A % scoate primele 20 de linii ale lui A % combinri de n luate cte k % numarul 105 % numarul e % reprezentarea prin bare % reprezentarea prin histograme % reprezentarea prin histograme 3-D % deseneaz primele 5 componente ale lui X , cu * magenta % deseneaz gracul lui X versus t, cu linie continua % deseneaz un grac n 3-D % deseneaz o funcie scara % mparte gracul n m n zone & deseneaz n zona z % logaritmeaz valorile de pe absci, resp., ordonata % reine gracul pentru a realiza o nou gura % terge gura % terge toate variabilele denite % adaug titlu gurii % gsete indicii elementelor nenule ale unui vector % ataeaz o legend la un grac
vector cu numerele intregi de la din

10,

Tabela 29.1: Funcii

Matlab utile

Anexa 2 [Dr. Iulian Stoleriu]

214

30

Anexa 2

Exemple de repartiii discrete


n dreptul ecrei repartiii, n parantez, apare numele cu care aceasta care poate  apelat n

Matlab.

(1)

Repartiia uniform discret, U (n)


X U (n),
dac valorile lui

(unid)

Scriem c

sunt

{1, 2, . . . , n}, 1 , n

cu probabilitile

P (X = k ) =
Media i dispersia sunt:

k = 1, 2, . . . , n.

Exemplu:
(2)

E(X ) =

n+1 2 ,

D 2 (X ) =

n2 1 12 .

numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat

U (6).

Repartiia Bernoulli25 , B(1, p)


X B (1, p).
V.a.

(bino)

Scriem

de tip Bernoulli poate lua doar dou valori,

X = 1

(succes) sau

X = 0

(insucces), cu probabilitile

Exemplu:
(3)

Media i dispersia sunt:

P (X = 1) = p; P (X = 0) = 1 p. E(X ) = p; D2 (X ) = p(1 p). B (1, 0.5).

aruncarea o singur dat a unei monede ideale poate  modelat ca ind o v.a.

Repartiia binomial, B(n, p):

(bino)

Scriem

dac valorile lui

X B (n, p) (schema bilei revenite sau schema X sunt {0, 1, . . . , n}, cu probabilitile

extragerilor cu repetiie)

(n > 0, p (0, 1)),

k k P (X = k ) = Cn p (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt: Dac

E(X ) = np; D2 (X ) = np(1 p).


i

(Xk )k=1,n B (1, p)


aruncarea de

(Xk )k

independente stochastic, atunci

X=
k=1

Xk B (n, p).
binomial

Exemplu:
(4)

15 ori a unei monede ideale poate  modelat ca ind o v.a.


(hyge)

B (15, 0.5).

Repartiia hipergeometric, H(n, a, b)

X H(n, a, b)

(schema bilei nerevenite sau schema extragerilor fr repetiie)

(n, a, b > 0)

dac

P (X = k ) =
25 Jacob

k C nk Ca b , n Ca +b

pentru orice

ce satisface

max(0, n b) k min(a, n).

Bernoulli (1654 1705), matematician elveian

Anexa 2 [Dr. Iulian Stoleriu]


n
Media i dispersia sunt:

215
EX =
i=0

E(Xi ) = np; D2 (X ) = np(1 p)

a+bn . a+b1

Observaia 30.1

(i)

Dac

(Xk )k=0,n B (1, n),


n

cu

p=

a a+b (v.a. dependente stochastic), atunci

X=
i=1

Xi H(n, a, b).
n

n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre nu sunt independente stochastic. (ii) Pentru

D2 (X )

D2 (Xi ),
i=0

deoarece

(Xi )i

N =a+b

n,

putem face aproximarea

a+bn a+b1

a+bn a+b

=1

n N , de unde
(30.1)

D2 (X ) np(1 p) 1

n . N

Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin termenul

N n N 1 . n cazul n care numrul de bile este mult mai mare dect numrul de extrageri (N n acest termen devine aproximativ 1 N . n plus, dac N este foarte mare, atunci trecnd

n), atunci N n

(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.

(5)

Repartiia Poisson26 , P ()

(poiss)

Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea val de timp. Pentru un cu probabilitile

> 0,

spunem c

X P ()

(legea

) realizate ntr-un anumit interevenimentelor rare) dac X ia valori naturale,

P (X = k ) = e E(X ) = ; D2 (x) = .
(6)

k , k N. k!

Repartiia geometric, G eo(p)

(geo)

Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes, stiind probabilitatea de obinere a unui succes, Spunem c

p.
ia valori n

X G eo(p),

(p (0, 1))

dac

N,

cu probabilitile

P (X = k ) = p(1 p)k , E(X ) = 1p 1p ; D2 (X ) = . p p2


Dac

pentru orice

k N,

unde

p 0.

Observaia 30.2 primul succes.


26 Simon-Denis

X G eo(p),

atunci variabila aleatoare

Y =X +1

reprezint

ateptarea pn la

Poisson (1781 1840), matematician i zician francez, student al lui Laplace

Anexa 2 [Dr. Iulian Stoleriu]


(7)

216
(nbin)

Repartiia binomial cu exponent negativ, BN (m, p)

Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang n cazul particular Pentru

m.
cu

m = 1,

obinem repartiia geometric. spunem c

m 1, p (0, 1),

X BN (m, p)

dac

ia valorile

{m, m + 1, m + 2, . . . },

probabilitile

m1 m k P ( X = k ) = Cm +k1 p (1 p) , k m, p 0.
Media i dispersia sunt:

E(X ) =

m(1 p) m(1 p) ; D 2 (X ) = . p p2

Exemple de repartiii continue


(1)

Repartiia uniform, U (a, b)


X U (a, b) (a < b)

(unif)

V.a.

dac funcia sa de densitate este

f (x; a, b) = E(X ) = (b a)2 a+b , D2 (X ) = . 2 12

1 ba

, dac x (a, b) , altfel.

Exemplu:

Alegerea la ntmplare a unei valori din intervalul

(0, 1),

n cazul n care orice valoare are

aceeai ans de a  aleas, urmeaz o repartiie experiment (vezi capitolul urmtor).

U (0, 1).

Comanda

rand

din

Matlab realizeaz acest

(2)

Repartiia normal, N (, )
X N (, ),
dac

(norm)

Spunem c

are densitatea:
(x)2 1 f (x; , ) = e 22 , x R. 2

E(X ) = i D2 (X ) = 2 .
Se mai numete i repartiia gaussian. n cazul

= 0, 2 = 1

densitatea de repartiie devine: (30.2)

x2 1 f (x) = e 2 , x R. 2

n acest caz spunem c grac (pentru n intervalul Dac

urmeaz

Gracul densitii de repartiie pentru repartiia normal este

repartiia normal standard, N (0, 1). clopotul lui Gauss

(vezi Figura 30.1). Din se a (5.5).

= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard ( 3, + 3 ) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei

X
i

Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z = N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele) are o notaie special, (x). Ea e denit prin: 1 (x) = 2
x

y2 2

dy.

(30.3)

Anexa 2 [Dr. Iulian Stoleriu]

217

Figura 30.1: Clopotul lui Gauss pentru X N (0, ), ( = 1, 2, 3)

Funcia de repartiie a lui

X N (, )

este dat prin

F (x) = (
(3)

x ),

x R.

(30.4)

Repartiia log-normal, log N (, )

(logn)

Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri viitoare pentru un activ nanciar. densitatea de repartiie Dac

X N (, ),
1

atunci

Y = eX

este o v.a.

nenegativ, avnd

f (x; , ) =
Aadar,

e 2

(ln x)2 2 2

0 Y log N (, )
dac Media i dispersia sunt date de

, dac x > 0 , dac x 0


2 2

ln Y N (, ). 2 E(X ) = e+ /2 ,

D2 (X ) = e2+ (e 1).
(exp)

(4)

Repartiia exponenial, exp()

Valorile sale sunt timpi realizai ntre dou valori spontane repartizate Spunem c

P ().

X exp() ( > 0)

dac are densitatea de repartiie

f (x; ) =
Media i dispersia sunt:

ex , dac x > 0 0 , dac x 0 1 . 2

E(X ) =

D 2 (X ) =

Observaia 30.3

Repartiia exponenial satisface proprietatea aa-numitei

lips de memorie, i.e.,

P ({X > x + y }|{X > y }) = P ({X > x}), x, y 0.

Anexa 2 [Dr. Iulian Stoleriu]

218
Vericai!]

Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret a acestei proprieti. [

(5)

Repartiia Gamma, (a, )


X (a, ), a, > 0,

(gam)

O v.a.

dac densitatea sa de repartiie este:

f (x; a, ) =
unde

a a1 x e (a) x

, dac , dac

x > 0, x 0.

este funcia lui Euler,

: (0, ) (0, ),
Media i dispersia sunt:

(a) =
0

xa1 ex dx.

E(X ) =

a a , D 2 (X ) = 2 .
n
sunt independente stochastic, atunci suma lor

Observaia 30.4
(ii) Dac v.a.

(i)

(1, ) exp(). Xk (n, ).


k=1

{Xk }k=1,n exp()

(6)

Repartiia Weibull27 , W bl(k, )

(wbl)

Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular

k = 1)

i poate modela repartiia mrimii particulelor. Cnd

k = 3.4,

distribuia Weibull este asemn-

toare cu cea normal. Cnd Vom spune c

k , aceast repartiie X W bl(k, ) (k > 0, > 0) dac are f (x; k, ) = X W bl(k, )


k

se apropie de funcia lui Dirac. densitatea de repartiie

x k x k1 ( ) e

0 E(X ) = 1 +

, dac x 0 , dac x < 0. 1 k


.

Media pentru repartiia

este

(7)

Repartiia 2 , 2 (n)
X 2 ( n )
(se citete

(chi2)

O v.a. este:

repartiia hi-ptrat cu n grade de libertate)


f (x; n) =
n ( n )2 2 2

dac densitatea sa de repartiie

x 2 1 e 2

, dac , dac

x > 0, x 0. n)
este reprezentat

0
unde

este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui

n Figura 30.2. Media i dispersia sunt:

E(2 ) = n, D2 (2 ) = 2n.

27 Ernst

Hjalmar Waloddi Weibull (1887 1979), matematician i inginer suedez

Anexa 2 [Dr. Iulian Stoleriu]

219
Repartiia

Observaia 30.5
(b)

(a)

Dac v.a. independente

1 2 (n) este, de fapt, repartiia ( n 2 , 2 ). Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci 2 2 2 2 (n). X1 + X2 + + Xn

n particular, dac

X N (0, 1),

atunci

X 2 2 (1).

Figura 30.2: Repartiia 2 (n) pentru patru valori ale lui n.

(8)

Repartiia Student (W. S. Gosset28 ), t(n)


X t(n)
(cu

(t)

Spunem c

grade de libertate) dac densitatea de repartiie este:

n+1 2 f (x; n) = n n 2 E(X ) = 0, D2 (X ) =


(9)

x2 1+ n

n+1 2

x R.

n . n2
(f)

Repartiia Fisher29 , F (m, n)


X F (m, n)
(cu

Spunem c

m, n grade de libertate) dac densitatea de repartiie m m m+n n m+ ( n ) 2 ( 2 ) m 1 m 2 2 x 1 + x , x > 0; m n n ( 2 )( 2 ) f (x) = 0 , x 0.

este:

E(X ) =

n 2n2 (n + m 2) , D 2 (X ) = . n2 m(n 2)2 (n 4)

28 William 29 Sir

Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic

Anexa 2 [Dr. Iulian Stoleriu]


(10)

220
(fr corespondent n

Repartiia Cauchy30 , C (, )
X C (, )

Matlab)

Spunem c

dac densitatea de repartiie este:

f (x; , ) =
NU admite medie, dispersie sau momente!!!

, [(x )2 + 2 ]

x R.

30 Augustin

Louis Cauchy (1789 1857), matematician francez

Bibliografie [Dr. Iulian Stoleriu]

221

Bibliograe
[1] Petru Blaga, [2] David Brink, [3] David Brink,

Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002. Statistics compendium, David Brink & Ventus Publishing ApS, 2008. Statistics exercises, David Brink & Ventus Publishing ApS, 2008. Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic
1968.

[4] Gheorghe Ciucu, Virgil Craiu, i Pedagogic, Bucureti, [5] Steve Dobbs, Jane Miller,

Statistics 1, Cambridge University Press, Cambridge 2000. Modern Mathematical Statistics with Applications (with CD-ROM), Introduction to Mathematical Statistics, Prentice Mic enciclopedie de sta-

[6] Jay L. DeVore, Kenneth N. Berk, Duxbury Press,

2006. 2004.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Hall, 6th edition,

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,

tistic, Editura tiinic i enciclopedic, Bucureti, 1985.

[9]

http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, [11] Elena Nenciu,

Teoria probabilitilor i statistica matematic, Bucuresti, 1980.

Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976. Probabiliti i Statistica matematic - Computer Applications, Iai, 2000. Applied Linear Regression,
Wiley series in Probability and Statistics,

[12] Octavian Petru,

[13] Sanford Weisberg,

3rd 2nd

ed.,

2005.
[14] Larry J. Stephens,

Theory and problems of Beginning Statistics,


1998.

Schaum's Outline Series,

ed.,

The McGraw-Hill Companies, Inc.,

[15] Dominick Salvatore, Derrick Reagle, Outline Series, [16] Iulian Stoleriu, [17] Gbor Szkely,

Theory and problems of Statistics and Econometrics, Schaum's


2002.

2nd

ed., The McGraw-Hill Companies, Inc.,

Statistic prin

Matlab. MatrixRom, Bucureti, 2010.


(Mathematics and its

Paradoxes in Probability Theory and Mathematical Statistics,


1987.

Applications), Springer Verlag, [18] David Williams, Press,

Weighing the Odds: A Course in Probability and Statistics,

Cambridge University

2001.

Anda mungkin juga menyukai