Anda di halaman 1dari 144

Capitolul 1.

Tehnici de explorare a datelor


ntr-o cercetare a lumii nconjurtoare ne bazm, de regul, pe existena unui numr de indivizi distinci ai unei populaii studiate. n legtur cu aceti indivizi (obiecte sau cazuri) urmrim una sau mai multe mrimi care, credem noi, i caracterizeaz; acestea sunt numite caracteristici. Cercetarea poate fi fcut fie n mod exhaustiv, lund n studiu toat populaia ceea ce este foarte costisitor atunci cnd populaia este numeroas fie prin eantion alegnd, dup reguli bine precizate, un grup reprezentativ al populaiei. Cercettorul n analiza datelor nu este ns interesat de aceste detalii; lui i se ofer nite informaii prezentate n general sub forma unui tabel (matrice) de date. El are ca sarcin s extrag din acest tabel de date ct mai mult informaie semnificativ sub form numeric i/sau grafic i s-o prezinte ntr-o form ct mai restrns ct mai puine linii i coloane. Odat acest deziderat realizat, orice decizie viitoare privind comportamentul populaiei studiate poate fi explicat prin argumente tiinifice. 1.1 Matrice de date exemple practice n aceast seciune ne vom referi la exemplele prezentate n Anexele 1 i 2 ale materialului. Toate acestea conin informaii primare, din diverse domenii economice, prezentate sub forma unei matrice de date. Vom descrie natura informaiei din aceste exemple i posibile analize efectuate asupra lor. Exemplul 1. Problema unui dealer de autoturisme Informaiile de care dispune un dealer de autoturisme sunt prezentate n tabelul 1 din Anexa 1. Acest tabel conine caracteristicile unor mrci de autoturisme oferite spre vnzare. Tabelul (matrice) are 26 de linii corespunztoare mrcilor de autoturisme analizate i 7 coloane, reprezentnd preul i alte caracteristici tehnice i de confort ale autoturismelor. Dealerul dorete s afle, folosind tabelul de date, ce caracteristici ale mainilor sunt definitorii n decizia unui client de a cumpra un autoturism. Exist oare n viziunea cumprtorului clase (grupuri) de autoturisme? Dac da, care sunt acestea? Exemplul 2. Problema unui investitor Un investitor are informaii privind principalii indicatori financiarcontabili calculai din bilanurile contabile ale unui lot de firme

(vezi tabelul 2 din Anexa 1). Acetia pot fi ns foarte numeroi. Investitorul nu ar renuna n analiza lui, fr argumente bine precizate, la nici unul dintre indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importani, i nici nu poate s ordoneze firmele dup potenialul (bonitatea) lor innd seama de toi indicatorii. Dac, s-ar putea calcula nite scoruri ale firmelor pe seama unor indicatori sintetici dedui din indicatorii iniiali, atunci decizia investitorului nu ar mai fi pur subiectiv, ea ar avea un suport tiinific i probabil c riscul asociat deciziei de a investi ar fi mai mic. Exemplul 3. Studiul indicatorilor de calitate a vieii n plin proces de globalizare este important s tim la ce distan suntem de alte ri ale Europei sau chiar fa de alte ri ale lumii. Indicatorul sintetic numit calitatea vieii, bine definit de specialiti, ne poate ajuta s rspundem la aceast ntrebare. Putem folosi informaii ca cele din tabelul 3 al Anexei 1 n care sunt prezentate principalele elemente ce stau la baza calculului indicatorului de calitate a vieii pentru un numr de 23 de ri ale lumii. n tabel (matrice) sunt prezentate urmtoarele date (la nivelul anului 1992): sporul natural al populaiei, mortalitatea infantil, gradul de urbanizare, numrul de medici la mia de locuitori, numrul de receptoare de televiziune la mia de locuitori, rata inflaiei, cheltuielile pentru educaie, cele pentru aprare, importul i exportul precum i consumul de energie pe locuitor. Oare toi aceti indicatori au aceeai importan n exprimarea indicatorului sintetic calitatea vieii? Dac nu, se pot identifica doi sau trei indicatori sintetici pe baza crora s putem ordona rile din punctul de vedere al calitii vieii locuitorilor? Care ar fi poziionarea Romniei n aceast clasificare, ce ri ne-ar fi apropiate din acest punct de vedere? Exemplul 4. Studiul repartiiei bugetului Dac dispunem de informaii anuale pe o perioad mare de timp privind repartiia bugetului unei ri, putem oare identifica momentele strategice importante privind politica rii respective? Ca exemplu tipic vom folosi datele prezentate n tabelul 4 al Anexei 1, tabel (matrice) ce conine repartiia bugetului Franei n perioada 1872-1971. Folosind tehnicile analizei datelor pot fi puse n eviden momentele premergtoare celor dou rzboaie mondiale, care au fost precedate de alocri mai mari din buget spre cheltuielile militare, dar i momentele de acalmie ntre cele dou rzboaie mondiale i dup al doilea rzboi mondial, cnd bugetul a fost repartizat cu predilecie spre activiti de nvmnt i asisten social.

Exemplul 5. Analiza rentabilitii unui portofoliu n constituirea unui portofoliu putem s folosim informaii de tipul celor coninute n tabelul 5 al Anexei 1. Dispunem de un numr de 13 companii din domeniul ITC, companii listate pe S&P 500. Ele apar ca linii n tabelul de date; fiecare linie conine informaii privind evoluia tranzaciilor aciunilor pe piaa de capital n doi ani consecutivi, adic: preul la deschidere, preul la nchidere, preul minim i preul maxim, volumul tranzaciilor, ctigul (n %) etc. (toate ca valori medii ale anului respectiv). Ne mai intereseaz s estimm rentabiliti ale activelor i eventualele riscuri n constituirea unui portofoliu. n acest scop putem apela tehnici de clasificare care s evidenieze factorii lateni care au guvernat tranzacia activelor din portofoliu pe perioada analizat, de asemenea putem clasifica companiile n grupuri ct mai omogene n ceea ce privete evoluia indicatorilor analizai n dinamic, etc. Exemplul 6. Analiza riscului returnrii unui credit Tabelul 6 din Anexa 1 conine informaii sub forma unei matrice de date. Pe linii sunt clienii unei bnci (selecie din totalul clienilor) ) ce au solicitat credite. Pe coloane avem o serie de elemente privind informaii financiare i demografice pentru fiecare client. n matricea datelor o importan aparte o are coloana nou n care se specific, ntr-o form codificat, dac clientul a avut nainte probleme de rambursare a vreunui credit sau nu. Astfel, din start clienii sunt grupai n dou clase: una a celor cu probleme de rambursare, iar cealalt a celor fr antecedente. Tehnicile de clasificare i analiz a discriminrii ne permit s precizm prin ce combinaii de atribute financiare i demografice pot fi caracterizai clienii din fiecare clas i s facem previziuni asupra comportrii unor clieni noi al bncii privind ncadrarea lor ntr-o clas sau alta. Exemplul 7. Informaii dintr-un chestionar Analiza datelor constituie un suport foarte important pentru deciziile privind marketingul tiinific. Perceperea unui produs de ctre un segment de cumprtori, gradul de saturare al pieei produsului i decizia de lansare a unui produs nou (sau ntr-o form nou) sunt materializate folosind tehnica chestionarului i analiza datelor. Prezentm n Anexa 2 un asemenea chestionar realizat n scopul identificrii strii actuale privind dotarea populaiei cu aparate audio-video, mrcile de televizoare mai cunoscute i cele preferate la o eventual achiziionare de ctre cumprtori.

1.2 Scri de msurare ale caracteristicilor Putem afirma c toate exemplele date anterior conin informaii ntrun tabel matrice de date (vezi tabelul 1). n general, fiecare linie reprezint un individ (obiect) din mulimea celor studiai, pe coloane regsindu-se caracteristicile urmrite. S presupunem c avem n indivizi asupra crora studiem p caracteristici notate C1, C2, , Cp. Matricea de date o putem scrie X = xij . n aceast matrice un element xij i =1, 2,..., n; j =1, 2,..., p

( )

exprim valoarea caracteristicii j msurat pentru individul i. De exemplu, dac folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa Swing este al 10-lea individ (obiect) n tabelul de date, iar elementul x10,1 = 13050 reprezint caracteristica pre (n $) a mainii respective. Datele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de matrice (tabel) de forma indivizi caracteristici.
Tabelul 1. Forma general a matricei indivizi caracteristici

1 2 i n

C1 x11 x21 xi1 xn 1

C2 x12 x22 xi2 xn 2

Caracteristicile Cj x1 j x2 j xij xnj

Cp x1 p x2 p xip xnp

Precizarea scrilor de msurare ale caracteristicilor observate, pe grupul de indivizi, este esenial n identificarea tehnicii de modelare i analiz. Fiecrei caracteristici i se asociaz o scar de msurare conform cu natura informaiei coninute i cu modul n care o percepem. Dup precizarea scrii de msurare, caracteristica respectiv va fi reprezentat printr-o aa numit variabil. Explornd tabelele de date prezentate n exemplele anterioare putem afirma c exist o mare diversitate n a exprima ansamblul indivizi caracteristici. n exemplul 1 avem ca indivizi tipurile de autoturisme, iar caracteristicile sunt preul, viteza, consumul de carburant etc. Remarcm faptul c aceste caracteristici sunt transformate n variabile prin exprimarea n uniti clasice de msur: monetare, kilometri la or, litri la suta de kilometri etc. n exemplul 2 indicatorii de bonitate calculai pentru firme sunt rate, adic rapoarte ale diverselor mrimi din documentele contabile. Aceste mrimi indicatorii devin variabile numerice

Indivizii

cantitative; evident, ncadrarea valorilor fiecrui indicator ntr-un anumit interval este foarte important. Bineneles, exemplele pot continua. n general, variabilele pot fi clasificate n: variabile continue (cantitative) i variabile categoriale (calitative). A) Variabilele continue provin din caracteristici ce exprim atribute cantitative ale indivizilor. Scara lor de msur este continu, putnd acoperi n general un interval de valori. De exemplu, preul unui autoturism sau unui activ financiar este o variabil continu; de obicei ia valori numerice (exprimate n lei, euro etc.) cuprinse ntre un minim i un maxim. Cu aceste valori se pot efectua cele patru operaii aritmetice clasice, iar indicatorii statistici relevani, calculai pe baza valorilor observate, sunt media i abaterea medie ptratic. i variabilele ale cror valori sunt exprimate n procente sau n rate (vezi aplicaia 2) sunt variabile continue. B) Variabilele categoriale provin din caracteristici care exprim atribute calitative. Aceste variabile au dou sau mai multe nivele de valori, nivele numite modaliti sau categorii. Exist o subclasificare a lor n trei grupe, astfel: B1) Variabilele nominale au de obicei mai mult de dou nivele. De exemplu, caracteristica Nivelul educaiei din Exemplul 6 al Anexei 1, este o variabil nominal avnd modalitile: Fr liceu codificat prin 1 Doar cu liceu codificat prin 2 Facultate neterminat codificat prin 3 Liceniat codificat prin 4 Postuniversitare codificat prin 5 B2) Variabilele binare au doar dou valori-nivele. n Exemplul 6 din Anexa 1 variabila Probleme anterioare de rambursare are dou nivele (modaliti): Nu codificat prin 0 Da codificat prin 1. B3) Variabilele ordinale sunt variabile ale cror nivele, de obicei mai mult de dou, pot fi comparate ntre ele. n general, n situaiile ntlnite n cercetarea de marketing, la aceste variabile respondentul unui chestionar alege un rspuns din cteva rspunsuri posibile, ordonate calitativ; el i exprim astfel, n mod preferenial, opinia sa despre un anumit atribut.

Putem da ca exemplu de variabil ordinal rspunsul la o ntrebare din chestionarul din Anexa 2, i anume la ntrebarea: n alegerea unei anumite mrci de aparat, n ce msur v influeneaz reclama? M influeneaz foarte mult 1 mult 2 potrivit 3 puin 4 deloc 5

Se observ c acestor rspunsuri de natur calitativ li se asociaz cte un cod numeric (1, 2 .a.m.d.). 1.3 Explorarea variabilelor continue n exemplele prezentate n 1.2 apar o serie de caracteristici ale unor grupuri de indivizi crora li se asociaz scri de msurare continue. O asemenea scar acoper, de regul, un interval de valori. Putem vorbi n acest sens de preul (n lei sau valut) al unor autoturisme, de preul n dinamic al unui activ financiar tranzacionat pe piaa de capital dar i de ratele financiare asociate n analiza bonitii unor firme sau de diverse valori procentuale. n exemplele prezentate informaiile apar ca matrice de date de forma indivizi caracteristici iar prelucrarea lor primar se realizeaz, de regul, n dou etape i anume: A) prelucrarea independent a cte unei variabile; B) prelucrarea comun a dou sau mai multe variabile. S analizm, pe rnd, cele dou etape. A) Prelucrarea independent a cte unei variabile presupune selectarea, din matricea de date X = xij , a cte unei

( )i=1,2,...,n; j =1,2,..., p

coloane ce reprezint valori observate asupra unei variabile de tip continuu. Pentru simplificare, s notm elementele matricei corespunztoare acestei variabile selectate cu ( x1 , x 2 ,..., x n ) T . Secvena aleas reprezint valori observate asupra celor n indivizi din analiza noastr. Primele informaii statistice legate de valorile x1 , x 2 ,..., x n se refer la evaluri ale tendinei centrale; acestea sunt: a)

1 Media, notat m x , se calculeaz cu formula n


indicator important al tendinei centrale.

x , ea fiind un
i i =1

b)

Mediana este asociat secvenei x(1) , x( 2) ,..., x( n ) ce reprezint valorile x1 , x 2 ,..., x n ordonate cresctor. Ea este acea valoare (nu neaprat dintre valorile x1 , x 2 ,..., x n ) pentru care numrul valorilor din secvena x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelai cu numrul valorilor care-i sunt mai mari.

c)

Modul este acea valoare cu frecvena cea mai mare de apariie. (El nu este n mod necesar unic.)

modul mediana media mediana media

modul

a) Repartiie asimetric (right skewed) b) Repartiie asimetric (left skewed)

modul=mediana=media

c) Repartiie simetric
Figura 1. Evaluri ale tendinei centrale

Pentru a evalua mprtierea datelor se folosesc urmtorii indicatori: a) Variana (dispersia), notat
2 sx , este calculat cu formula

1 n 1

(x m )
i x i =1
n i

(1) s x , este calculat cu formula

b) Abaterea standard, notat

1 n 1

(x m )
x i =1

(2)

c) Amplitudinea este calculat ca diferen ntre valoarea maxim i valoarea minim a valorilor x1 , x 2 ,..., x n . Este important ca, pentru diverse tipuri de distribuii ale frecvenelor valorilor x1 , x 2 ,..., x n , s punem n eviden relaii de ordine ntre cei trei indicatori ai tendinei centrale. Prezentm n figura 1 cele trei situaii posibile. Astfel, n figura 1 c) prezentm o repartiie simetric pentru care cei trei indicatori ai tendinei centrale coincid. n figura 1 a) i 1 b) avem repartiii asimetrice, prima fiind skewed dreapta iar cea de-a doua fiind skewed stnga. Relaiile de ordine ntre cele trei valori pentru mod, median i medie sunt evideniate clar n graficele menionate.
Exemplu: Fie secvena de ase numere 2, 5, 0, 9, 0, 7 reprezentnd observaii asupra a ase indivizi. Secvena ordonat cresctor o obinem imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce msoar tendina central sunt: media = 3.83, mediana se afl ntre valorile 2 i 5, prin interpolare putem lua valoarea 3.5. Se observ faptul c mediana separ secvena de valori ordonate n jumtate, 50% dintre valori fiind mai mici dect ea i 50% dintre valori fiind mai mari dect ea. Modul valorilor 2, 5, 0, 9, 0, 7 adic valoarea cu frecvena cea mai mare este 0 (aici frecvena maxim este 2).

Media, mediana i modul sunt trei indicatori ai localizrii centrului valorilor dintr-o secven de date. n analiza repartiiei valorilor observate, la fel de importante sunt i alte msuri ale localizrii datelor. Acestea sunt cunoscute sub numele de percentile i cuartile, i sunt asociate secvenei de valori x (1) , x ( 2) ,..., x ( n ) . 1) Percentila de ordinul p este acea valoare, notat aici Pp , care are proprietatea c p% dintre valorile secvenei sunt mai mici dect ea i (100 p)% dintre valori sunt mai mari dect ea. 2) Cuartila inferioar, notat Q1 , este percentila 25. 3) Cuartila de mijloc, notat Q2 , este percentila 50. Se observ faptul c cuartila Q2 este tocmai mediana. 4) Cuartila superioar, notat Q3 este percentila 75. Cuartilele se folosesc pentru a analiza dispersia valorilor secvenei x1 , x 2 ,..., x n calculndu-se cu ajutorul lor aa-numitul indicator interquartile (notat IQR). El este calculat ca diferena dintre percentila 75 ( Q3 ) i percentila 25 ( Q1 ). n cazul unei repartiii normale a datelor acest interval trebuie s fie aproximativ 1.35 din abaterea standard a datelor.

Tratarea punctelor aberante. Uneori, n secvena de valori x1 , x 2 ,..., x n este semnalat prezena unor valori outliers (aberante ca mrime n raport cu celelalte). n aceste situaii unii indicatori de localizare central sunt mult denaturai (deplasai) i este indicat s calculm aa numitele medii robuste. Acestea ncearc s elimine efectul valorilor aberante (fr a afecta rezultatele). Dintre mediile robuste amintim: 1) Media winsorizat 95%, n calculul creia primele 2.5% dintre valorile ordonate sunt nlocuite cu percentila 2.5 i ultimele 2.5% dintre valori sunt nlocuite cu percentila 97.5. 2) Media trunchiat 95%, trimmed mean, este calculat excluznd primele 2.5% i ultimele 2.5% dintre valorile secvenei ordonate. Tehnicile grafice sunt foarte relevante i n cazul variabilelor continue. Putem reprezenta datele sub form de histograme, box plot-uri (vezi figura 3), high-low plot-uri. Exemplu. S considerm variabila Preul la deschidere (coloana corespunztoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o variabil continu, valorile ei exprimnd preul la deschiderea bursei pentru aciunile celor 13 companii (sunt valori medii anuale). Pentru a face o apreciere general asupra evoluiei unui portofoliu compus din aceste aciuni, ne intereseaz indicatorii de centrare i de mprtiere ai variabilei pre. Prezentm n tabelul 2 valorile indicatorilor prezentai mai sus, outputul fiind de tip SPSS.
Tabelul 2. Preul la deschidere indicatori statistici N Mean Median Mode Percentiles Valid 13 60.63 50.16 14.93 38.43 50.16 92.68

25 50 75

a) Media, mediana, modul i cuartilele


Open 2000 Valid N (listwise) N 13 13 Minimum 14.93 Maximum 109.14 Mean 60.6344 Std. Dev. 30.4471 Variance 927.026

b) Valoarea minim, maxim, media, abaterea medie ptratic i variana

Evident, ne-ar interesa i repartiia valorilor de pre, prezentat sub form de histogram, evideniind frecvena pe subintervale date. Lund subintervale constante (de mrime de exemplu 20), prezentm n figura 2 o histogram a frecvenelor valorilor variabilei Preul la deschidere. Se observ c cele mai multe dintre valorile preului au fost ntre 40 i 60 iar n subintervalul 60 80 nu avem nici o valoare de pre.

Figura 2. Preul la deschidere histograma frecvenelor

B) Prelucrarea a dou variabile continue presupune selectarea, din matricea de date X = xij , a cte dou coloane ce i =1, 2,...,n; j =1, 2,..., p

( )

reprezint valori observate asupra celor dou variabile. S notm aceste variabile cu x i y iar valorile observate asupra lor cu ( x1 , x 2 ,..., x n ) i ( y1 , y 2 ,..., y n ) respectiv. 1) Pentru a studia corelaia (legtura liniar) ntre aceste dou variabile considerm cele n perechi de valori ( xi , y i ) i =1,2,...,n cu ajutorul crora calculm aa-numitul coeficient de corelaie Pearson. Acesta se calculeaz cu formula: s x, y (3) rx, y = sx s y n care s x i s y sunt abaterile standard iar s x, y este covariana dintre valorile x i valorile y calculat cu formula:
s x, y = 1 ( xi m x )( yi m y ) n 1

(4)

Valorile coeficientului de corelaie sunt cuprinse n intervalul [1, 1]. Cele n perechi de valori ( xi , y i ) pot fi reprezentate prin puncte ntr-un plan. Atunci cnd avem impresia c punctele au tendina de a se alinia unei drepte, ne exprimm spunnd c exist o corelaie liniar ntre variabilele x i y. Dac valorile lui y au acelai sens de cretere cu valorile lui x, se spune c avem o corelaie pozitiv. Dimpotriv, dac valorile lui y descresc atunci cnd valorile lui x cresc, se vorbete despre o corelaie negativ.

120.00

IBM
100.00

80.00

60.00

40.00

20.00

0.00

2000

2001

year

Figura 3. Preul la deschidere (box-plot)

Coeficientul Pearson este folosit pentru a msura gradul de corelare ntre variabilele x i y; anume, lipsa corelrii este indicat de valori apropiate de 0, corelarea pozitiv este indicat printr-o valoare a coeficientului apropiat de 1, n timp ce corelarea negativ este indicat printr-o valoare a coeficientului apropiat de 1. 2) Pentru compararea comportamentului comun al celor dou variabile, pe baza percentilelor (calculate pentru fiecare variabil), se folosete graficul de tip box-plot i graficul de tip Q-Q plot. Pe graficul box-plot se marcheaz, de regul, valorile minim, maxim i mediana alturi

de cuantilele Q1 i Q3 pentru secvenele de valori ( x1 , x 2 ,..., x n ) i ( y1 , y 2 ,..., y n ) . Pe graficul Q-Q plot se prezint n plan perechile de valori coninnd percentile calculate pentru cele dou variabile. O aliniere a acestora aproximativ pe o dreapt nseamn c repartiiile celor dou variabile sunt asemntoare.

No rm al Q- Q Plot o f O p en 2000
120

100

Expected Normal Value

80

60

40

20

0 0 20 40 60 80 100 120

Observed V alue

Figura 4. Preul la deschidere (Q-Q plot)

Observaie. Graficul Q-Q plot poate fi folosit i pentru a verifica faptul c o secven de valori, de exemplu ( x1 , x 2 ,..., x n ) , urmeaz sau nu o repartiie normal. n aceste situaii se analizeaz perechile de valori constnd din percentilele variabilei normale i percentilele secvenei ( x (1) , x ( 2) ,..., x ( n ) ) . Exemplu. Putem continua analiza grafic din exemplul anterior prezentnd sub form de box-plot (pentru cei doi ani 2000 i 2001) evoluia n ansamblu a principalilor indicatori de centrare i mprtiere. Prezentm n figura 3 un asemenea box-plot n care au fost evideniate minimul, maximul, percentilele de 25, 50 (mediana) i 75 pentru valorile preurilor n

cei doi ani consecutivi. O analiz important asupra valorilor preurilor este i cea dat de graficul Q-Q plot (vezi figura 4); acesta permite compararea valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiie (teoretic) normal. n analiz putem folosi funcia grafic high-low plot (vezi figura 5 i apoi figura 6).
Mean
120.00 Low 2000 High 2000 Low 2001 High 2001

100.00

80.00

60.00

40.00

20.00

0.00

AAPL

CPQ

DELL

EMC

GTW

HWP

IBM

LXK

NCR

NTAP

PALM

SUNW

UIS

Trading symbol

Figura 5. Evoluia preului minim i maxim (n anii 2000 i 2001), pe companii

Prelucrarea a mai mult de dou variabile continue presupune analizarea simultan a tuturor coloanelor din matricea de date . Asociem n acest fel matricei X (de dimensiune X = xij i =1, 2,...,n; j =1, 2,..., p

( )

n p) o alt matrice, notat de obicei cu R, de dimensiune p p, ce conine coeficienii de corelaie liniar Pearson, calculai ntre toate perechile de variabile. Avem, prin urmare, matricea R de forma:
1 r21 R = ... rp1 r12 1 ... rp 2 ... r1p ... r2 p ... ... ... 1

(5)

cu toate elementele de pe diagonala principal egale cu unu ( rii = 1 pentru i = 1,2,..., p ) i rij = r ji pentru i = 1,2,..., p i j = 1,2,..., p .

Mean
1.00 Fund avg % gain 2000 zero Fund avg % gain 2001 zero

0.50

0.00

-0.50

-1.00

-1.50

-2.00

AAPL

CPQ

DELL

EMC

GTW

HWP

IBM

LXK

NCR

NTAP

PALM

SUNW

UIS

Trading symbol

Figura 6. Rentabilitile companiilor n anii 2000 i 2001

Se urmrete n principal identificarea perechilor de variabile ce corespund coloanelor x i , x j din matricea X pentru care, n matricea R a corelaiilor, coeficienii rij = r ji sunt mari (adic peste 0.8 n valoare absolut). S facem observaia c, n cazul apariiei unei valori rij mai mari de 0.95 n valoare absolut, corelaia foarte puternic constatat ntre variabilele respective ne permite s eliminm din studiu una dintre ele (ea fiind reprezentat foarte bine de cealalt).

1.4 Explorarea variabilelor categoriale n prelucrarea variabilelor categoriale aflate ntr-o matrice de date de forma indivizi caracteristici distingem de asemenea dou etape, i anume: A) Analiza, pe rnd, a cte unei variabile categoriale; B) Analiza comportamentului comun a dou sau mai multe variabile categoriale. A) Aa cum am mai menionat, o variabil categorial este descris prin modaliti (nivele de valori). S notm cu k numrul acestor modaliti i s presupunem c dispunem de n observaii asupra variabilei analizate. Primele informaii obinute despre variabila categorial sunt date de frecvenele pe modaliti i apoi de frecvenele relative observate. Sintetic, dac notm cu ni frecvena observat i cu
ni n

frecvena relativ pe

modalitatea i (evident, 1 i k ), putem construi un tabel ca cel de mai jos. Modalitatea Frecvena absolut Frecvena relativ (proporia) 1
n1

2
n2

i
ni

k
nk

Total (valori observate) n 1

n1 n

n2 n

ni n

nk n

Exemplul 1. O firm dorete s estimeze cota de pia a produsului su. S presupunem c piaa este concurenial existnd 6 competitori (firme) care comercializeaz produsul respectiv. Departamentul de cercetare n marketing al firmei efectueaz un studiu pe baza de chestionar pe un eantion reprezentativ de n consumatori (alei independent unul de cellalt) crora li se cere s-i exprime preferina unic fa de cele 6 firme. Identificm n experimentul nostru o variabil categorial cu 6 modaliti numrul firmelor. Dac dispunem de observaii pe un eantion de volum n = 120, rezultatul experimentului poate fi cel din tabelul urmtor: Firma Valori observate (preferine) 1 16 2 22 3 15 4 23 5 24 6 20 Total 120

Grafic, informaia privind rspunsul consumatorilor, adic profilul dat de linia frecvenelor, este important pentru cercettorul n marketing (vezi figura 7).

30

25

20

15

10

Figura 7. Histograma preferinelor cumprtorilor

Analiznd graficul din figura 7 i cunoscnd rezultatele unor cercetri anterioare privind cotele de pia, pe alte eantioane, cercettorul de marketing se poate ntreba dac preferinele consumatorilor sunt sau nu egal repartizate spre cele 6 firme. Oare diferenele ntre frecvenele observate pentru modaliti sunt semnificative statistic? n general, considernd ntreaga populaie de consumatori, s notm cu p i probabilitatea ca s fie selectat firma i (pentru 1 i 6 ). Evident,

p
1

= 1 i putem s considerm perechea de ipoteze:

H0 : p1 = p 2 = ... = p 6 =

1 6

(adic preferinele sunt echiprobabile)


1 6

H1 : cel puin o probabilitate p i are o valoare ce difer de

Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ? n cele ce urmeaz vom ncerca s rspundem la aceast ntrebare, prezentnd un test hi-ptrat de verificare a bonitii ajustrii.

1.4.1 Test de bonitate a ajustrii S considerm o variabil categorial cu k modaliti. Teoretic, o putem considera variabil aleatoare discret, dat de tabelul de forma

1 p 1

2 ... k n care p 2 ... p k

p
1

= 1.

Practic, putem face orice ipoteze legate de valorile probabilitilor p1 ,..., p k . Sunt ns aceste ipoteze susinute de realitate? Folosind eantioane reprezentative, pe baza frecvenelor relative care estimeaz probabilitile sau folosind un test de bonitate a ajustrii putem accepta sau respinge ipotezele fcute. Pentru a avea un suport statistic al deciziei, trebuie ca experimentul realizat n scopul obinerii informaiilor despre variabil s fie un experiment multinomial, adic: 1) Cele n observaii din eantion s fie independente. 2) Rezultatul fiecrei observaii s fie clasificat doar ntr-unul dintre cele k nivele posibile. (Fiecare nivel este numit celul.) Dac frecvenele observate n cele k nivele sunt n1 , n 2 ,..., n k , atunci evident avem n1 + n2 + ... + nk = n . Atunci cnd efectum un test de bonitate a ajustrii, bazat pe un experiment multinomial, asociem nivelelor (celulelor) aa-numitele frecvene ateptate. Dac ele sunt notate cu e1 , e2 ,.., ek , atunci formula de calcul este ei = n pi unde pi este valoarea precizat a probabilitii pi . (Avem 1 i k i

p
1

= 1 ). Evident, suma frecvenelor ateptate va fi

egal cu n, adic e1 + e2 + ... + ek = n . Tabelul asociat experimentului multinomial este urmtorul. Nivelul (celula) Valori observate Valori ateptate 1
n1 e1

2
n2 e2

i
ni ei

k
nk ek

Total n n

Observaie. Pentru k = 2 experimentul este de tip binomial, avem doar dou nivele, cu probabilitile asociate p i respectiv 1 p .

n general, ntr-un experiment multinomial valorile observate ni difer de cele ateptate ei i trebuie s decidem cnd diferenele sunt semnificative i cnd nu. Putem folosi urmtoarea formul, ce d o msur a abaterii ntre valorile observate i cele ateptate X2 =

(ni ei ) 2 . ei

(6)

Evident, n caz c X 2 = 0 , rezult c n fiecare celul valorile ni i ei coincid i, n consecin, exist identitate deplin ntre cele dou serii de valori (adic ntre cele observate i cele ateptate) iar ipoteza fcut asupra valorilor probabilitilor p1 ,..., p k este adevrat. Aceast situaie este ns foarte rar, de regul X 2 > 0 . Pentru a discerne (ntre abateri mici i mari), ne folosim de faptul c, ntr-un experiment multinomial, valorile X 2 urmeaz la limit o repartiie de tip 2 cu k 1 grade de libertate. Aceast afirmaie este susinut de urmtoarea Teorem. Presupunem c ( X 1 , X 2 ,..., X k ) este un vector aleator repartizat multinomial cu parametrii n, p1 , p 2 ,..., p k . Atunci cnd n tinde spre infinit, repartiia la limit a statisticii

V ( n) =

i =1

( X i npi ) 2 npi

este o variabil aleatoare 2 cu k 1 grade de libertate. Testul statistic clasic este bazat prin urmare pe o distan 2 , iar etapele sunt urmtoarele: 1) Se formuleaz cele dou ipoteze statistice (ipoteza nul H0 i ipoteza alternativ H1). H0 : p1 = p1 , p 2 = p 2 ,..., p k = p k (adic probabilitile au valorile precizate p1 , p 2 ,..., p k ) H1 : cel puin o probabilitate pi are o valoare ce difer de valoarea specificat pi pentru ea n ipoteza nul.

2) Se fixeaz un nivel al erorii respingerii ipotezei nule atunci cnd ea este de fapt adevrat, fie acesta = 0.05, i se identific n tabelele 2 statistice cuantila a repartiiei 2 cu k 1 grade de libertate. 3) Se calculeaz valoarea X 2 a abaterilor, adic:

i =1

(ni npi ) 2 . npi

(7)

2 4) Valoarea X 2 se compar cu .

Regula de decizie este urmtoarea:


2 2 Dac X 2 < acceptm ipoteza nul; dimpotriv, dac X 2 > nu avem motive s-o acceptm (vezi i figura 8).

Figura 8. Ilustrarea regulii de decizie pentru testul de bonitate a ajustrii

Revenind la studierea cotei de pia pe un eantion de 120 de respondeni precum i la ansamblul de ipoteze H0 : p1 = p 2 = ... = p 6 = tabelul obinut este urmtorul.
1 6

(adic preferinele sunt echiprobabile)


1 6

H1 : cel puin o probabilitate p i are o valoare ce difer de

Firma Valori observate (preferine) ni Valori ateptate ei

1 16 20

2 22 20

3 15 20

4 23 20

5 24 20

6 20 20

Total 120 120

Prin aplicarea testului hi-ptrat de bonitate a ajustrii obinem valoarea statisticii X 2 = 3.5 . Pentru un nivel de eroare acceptat de 5%, cuantila corespunztoare repartiiei 2 cu 5 grade de libertate este
2 2 = 1.145 . Cum X 2 > , suntem n zona de neacceptare a ipotezei H0, prin urmare, pe baza experimentului respingem ipoteza conform creia toate firmele au aceeai cot de pia. B) S considerm acum matricea de date de forma indivizi caracteristici n care avem informaii despre variabile categoriale. Cnd dorim s analizm comportamentul comun a cte dou asemenea variabile, construim aa-numitele tabele de contingen (tabele cu dubl, tripl intrare). Mai concret, s presupunem c analizm comportamentul comun a dou variabile categoriale notate X1 i X2, variabila X1 avnd r modaliti iar variabila X2 avnd c modaliti. Asupra acestei perechi de variabile se fac n observaii de tip multinomial adic observaiile sunt independente una de alt iar rspunsurile se ncadreaz unic pe celule. Un tabel de contingen asociat va conine o matrice cu r linii i respectiv c coloane, fiecare celul a matricei coninnd frecvena absolut pentru celula respectiv. De exemplu, celula (i, j) va conine numrul de observaii pentru care variabila X1 are modalitatea i iar variabila X2 are modalitatea j. Prin urmare, pentru variabilele selectate dispunem de n observaii ce se distribuie n celulele tabelului cuantificnd n acest mod frecvenele n celule; s le notm cu n ij ( i = 1,2,..., r i j = 1,2,..., c ).

Tabelul de contingen se obine prin bordarea matricei cu o coloan ce conine totalurile pe linii n j i cu o linie ce conine totalurile pe coloane ni calculate astfel: ni =

n
j =1

ij

i n j =

n
i =1

ij

pentru ( i = 1,2,..., r i j = 1,2,..., c ).

n tabel mai introducem celula totalului general ce conine n =

n
i =1 j =1

ij

= n (vezi i tabelul 3).


Tabelul 3. Tabel de contingen

Modaliti X1\X2 1 2 i r Total coloane

1
n 11 n 21

2
n 12 n 22

j
n1 j n2 j

c
n 1c
n 2c

Total pe linii
n1

n2

n i1

n i2

n ij

n ic

ni

n r1 n 1

nr2 n 2

n rj n j

n rc n c

nr

Pentru exemplificare, s revenim la Exemplul 1 privind analiza cotei de pia pentru produsul firmei. n chestionarul lansat, respondenii s-au identificat i prin categoria de vrst i categoria socio-profesional (repartiia n celule fiind cea din tabelul urmtor).
Categoria de vrst Variabila 2

Categoria socio-profesional Variabila 1

Modaliti X1\X2

1 1 1 2 1 2 4 2 13

2 5 7 4 2 1 2 1 22

3 4 12 4 2 2 3 9 36

4 2 3 2 3 8 3 10 31

5 3 3 4 2 1 2 3 18

Total 15 26 16 10 14 14 25 120

1 2 3 4 5 6 7 Total

Exemplul 2. S revenim la Exemplul 6 din Anexa 1, ce se refer la analiza riscului returnrii unui credit. Printre variabilele financiare i demografice ce caracterizeaz clienii selectm dou variabile care sunt categoriale, i anume Nivelul educaiei (cu 5 modaliti) i Probleme

anterioare cu rambursarea ? (cu 2 modaliti). Tabelul urmtor conine pe linii modalitile variabilei Nivelul educaiei i pe coloane modalitile variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conin frecvenele absolute pe modaliti.
Probleme anterioare de rambursare Nu Da 293 79 139 59 57 24 4 517 30 14 1 183 Total linie 372 198 87 38 5 700

Valori observate Fr liceu Doar cu liceu Nivelul Facultate educaiei neterminat Facultate Postuniversitare Total coloane

n analiza riscului returnrii unui credit ar fi interesant s identificm toi factorii de risc mpreun cu gradul lor de implicare. n acest context, dorim s vedem n ce msur antecedentele privind rambursarea unui credit depind sau nu de nivelul educaiei. Vom folosi datele din tabelul de contingen aplicnd un test de verificare a independenei statistice a celor dou variabile Nivelul educaiei i Probleme anterioare cu rambursarea? 1.4.2 Test de independen S considerm cele dou variabile categoriale X1 i X2 prima avnd r modaliti iar cea de a doua avnd c modaliti. Putem considera vectorul aleatoriu discret (X1, X2) descris prin urmtorul tabel:
Modaliti X 1 \ X2

j
p1 j p2 j

c p1c p 2c

Probabiliti marginale

1 2 i r
Probabiliti marginale

p11 p 21

p12 p 22

p1 p2

pi1

pi 2

p ij

pic

pi

pr1 p1

pr 2 p 2

p rj p j

p rc p c

pr

Am folosit urmtoarele notaii relativ la populaia studiat: 1) p ij este probabilitatea ca un individ ales la ntmplare s aparin celulei (i, j). Evident avem p ij = 1 ;
i =1 j =1 r c

2) pi este probabilitatea ca un individ ales la ntmplare s aparin liniei i; avem p i = p ij ;


j=1 c

3) p j este probabilitatea ca un individ ales la ntmplare s aparin coloanei j; avem p j = p ij


i =1 r

Putem formula urmtoarele ipoteze statistice, i anume: ipoteza de independen (statistic) a celor dou variabile are forma: H0 : pij = pi p j pentru orice i = 1,2,..., r i j = 1,2,..., c iar ipoteza alternativ o putem exprima astfel: H1 : pij pi p j pentru cel puin o celul (i, j). S presupunem acum c efectum un experiment multinomial de volum n i dispunem de informaiile din tabelul de contingen. Putem s calculm expresia
V=
r c

( n ij np ij ) 2 np ij (n ij np i p j ) 2 np i p j

i =1 j=1

care, atunci cnd ipoteza nul este adevrat, se scrie


V=
r c i =1 j=1

Vom folosi, pentru probabilitile pi i respectiv p j estimaiile (de verosimilitate maxim)


n j ni i p j = n n caz n care putem estima valoarea V prin statistica:

p i =

X2 =

r c

(n ij n i n j / n ) 2 n i n j / n

i =1 j=1

(8)

Valoarea X 2 , atunci cnd n tinde la infinit, este repartizat 2 cu


( r 1)(c 1) grade de libertate.

Observaie: Pentru fiecare celul (i, j) putem identifica valoarea ateptat atunci cnd ipoteza nul este adevrat. Astfel, dac H0 este adevrat, valoarea
ni n j n

este valoarea ateptat pentru celula (i, j).

Figura 9. Ilustrarea regulii de decizie pentru testul de independen

Testul statistic clasic pentru verificarea independenei statistice a dou variabile, test bazat pe repartiia hi-ptrat, presupune: 1) Formularea celor dou ipoteze statistice (ipoteza nul H0 i ipoteza alternativ H1), adic. H0 : pij = pi p j pentru orice i = 1,2,..., r i j = 1,2,..., c iar ipoteza alternativ o putem exprima astfel: H1 : pij pi p j pentru cel puin o celul (i, j). 2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci cnd ea este de fapt adevrat, fie acesta = 0.05; identificarea n tabelele statistice 2 2 a cuantilei 1 repartiiei cu k 1 grade de libertate.

3) Calcularea valorii X 2 a abaterilor, adic: X2 =

i =1 j =1

(nij ni n j / n) 2 ni n j / n

2 4) Valoarea X 2 se compar cu 1 .

Regula de decizie este urmtoarea:


2 Dac X 2 > 1 atunci respingem ipoteza nul, dimpotriv dac 2 X 2 < 1 atunci acceptm ipoteza nul (vezi i figura 9).

S revenim la Exemplul 2 din acest paragraf pentru care avem n figura 10 un bar-chart al frecvenelor pentru cele dou variabile. S aplicm testul pentru verificarea independenei statistice a variabilelor Nivelul educaiei i Probleme anterioare la rambursare? Valoarea X 2 = 11.49 iar 2 2 pentru = 0.05 obinem 0 .95 = 9.49 (aici are 4 grade de libertate).

80 70 60 50 40 30 20 10 0 Did not complete high s chool High s chool degr ee

Yes No College degr ee P os tunder gr aduate degr ee

Some college

Figura 10. Frecvenele relative din Exemplul 2, reprezentate grafic (bar-chart)

2 Suntem n situaia X 2 > 1 (11.49 > 9.49) adic respingem ipoteza nul i acceptm alternativa, concluzionnd c:

a) b)

variabila Probleme anterioare la rambursare? depinde statistic de variabila Nivelul educaiei i valorile variabilei Nivelul educaiei influeneaz valorile variabilei Probleme anterioare la rambursare?

1.5 Explorarea variabilelor ordinale Variabilele categoriale de tip ordinal pot fi analizate numeric i grafic ca i cele de tipul categorii nominal sau binar. Totui, asupra lor se pot aplica i alte analize. Parte din ele le vom prezenta n cele ce urmeaz. Relaii de preordine i de ordine S presupunem c n dorina de a ordona indicatorii financiarcontabili I1 - I7 urmtori (vezi i datele din Anexa 1) I1: I2: I3: I4: I5: I6: I7: Total datorii/capital social; Cifr de afaceri/total activ; Profit brut/total activ; Capital social/cifr de afaceri; Datorii/total activ; log(Activ); Rata de cretere a activului.

se folosete un grup de experi n domeniu. Un expert l oarecare din acest grup, prin preferinele sale (evident subiective dar bazate pe experiena sa) va determina o relaie de preordine POl n clasificarea indicatorilor, de exemplu urmtoarea: POl : I1 > I2 = I3 > I4 = I5 > I6 > I7 (ceea ce nseamn c expertul l prefer indicatorul I1 indicatorului I2 care este la fel apreciat ca i I3, care este preferat lui I4 etc.). Relaia stabilit pentru indicatorii financiar-contabili, prin preferinele expertului l, este o relaie de preordine deoarece oricare doi indicatori i i j se pot afla, n preferina expertului, doar n urmtoarele situaii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la fel ca i j.

Aceste preferine pot fi exprimate completnd o matrice U ale crei elemente sunt: Uij = 1 i Uji = 0 dac indicatorul i este preferat lui j i Uij = Uji = dac i i j sunt apreciai la fel (vezi tabelul 4).
Tabelul 4. Scoruri medii i ranguri Scor mediu Rang mediu

I1 I1 I2 I3 I4 I5 I6 I7

I2

I3

I4

I5

I6

I7

0 0 0 0 0 0

1 0 0 0 0

1 0 0 0 0

1 1 1 0 0

1 1 1 0 0

1 1 1 1 1 0

1 1 1 1 1 1

u(i) 6 4,5 4,5 2,5 2,5 1 0

r(i) 1 2,5 2,5 4,5 4,5 6 7

Aadar, pentru fiecare expert putem s construim o matrice a preferinelor. Pe baza preferinelor expertului se poate calcula un scor mediu i apoi un rang mediu pentru indicatorul respectiv, astfel: scorul mediu al indicatorului i este u (i ) =

U
j

ij

iar rangul mediu asociat

este r (i ) = k u (i ) . (Aici k este numrul de indicatori analizai, n exemplul nostru k = 7. Se observ c un rang mic indic o bun apreciere!) O relaie de ordine total ntre indicatorii analizai se obine atunci cnd expertul alege doar una dintre situaiile: indicatorul i este preferat indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaiei anterioare, putem asocia o matrice U ale crei elemente sunt Uij = 1 i Uji = 0 dac indicatorul i este preferat lui j. Analog, se calculeaz un scor mediu i apoi un rang mediu pentru fiecare indicator. Dac dorim s msurm corelarea a dou variabile ordinale pentru care observaiile sunt ranguri, vom calcula aa-numitul coeficient de corelaie Spearman:

ro = 1

1 n(n 1)
2

di

(9)

unde d i este diferena rangurilor obinute de ctre individul i. Coeficientul de corelaie Spearman, la fel ca i coeficientul de corelaie Pearson, are valori ntre 1 i 1, valori apropiate de 1 indicnd concordana celor dou aprecieri, iar valori apropiate de 1 indicnd o discordan.

1.6 Transformri n matricele de date S revenim la exprimarea informaiilor n forma unei matrice X ( n p ) ce reprezint n indivizi asupra crora s-au evaluat p caracteristici, de fapt p variabile. Matricea X o putem privi fie pe linii, obinnd informaii despre cei n indivizi, fie pe coloane obinnd informaii despre cele p variabile. Prin urmare : (1) fiecrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente; acesta va fi scris: Li = ( xi1 , xi 2 ,..., xip ) R p (2) fiecrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: C j = ( x1 j , x 2 j ,..., x nj ) T R n . 1.6.1 Transformri pe coloane: standardizarea Este normal s calculm, pentru fiecare variabil din tabelul de date, valoarea medie i respectiv abaterea medie ptratic (abaterea standard). S notm cu m j media i cu s j abaterea medie ptratic pentru variabila j, pentru care putem scrie formulele clasice:

mj =

1 n

i =1

xij

sj =

1 n 1

(x
1

ij

m j )2

' Din orice matrice X se poate obine o nou matrice, fie ea X ' = ( xij ),

' = ale crei elemente sunt calculate astfel: xij

xij m j sj

pentru orice linie i i

coloan j Aceast transformare asupra variabilelor este recomandat pentru a evita discrepanele ntre valori ce ar putea fi datorate unitilor de msur diferite. Se obinuiete a se spune c, prin aceast transformare, exprimm informaiile n form standardizat, n uniti de abatere medie ptratic (uniti standard). Se observ c, prin aceast transformare, centrm mai nti valoarea (adic scdem din ea media) iar apoi o mprim la abaterea medie ptratic. Observaie: Un calcul matematic simplu ne conduce la faptul c media valorilor standardizate este zero, iar dispersia este unu. Exemplu: Fie datele din tabelul 1 al Anexei 1. S considerm doar primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preul,

capacitatea cilindric, viteza i consumul. Printr-un calcul elementar obinem mediile i respectiv abaterile medii ptratice ale acestor variabile (folosind datele tuturor celor 26 mrci de autoturisme):
Preul Media Abaterea medie ptratic Capacitatea cilindric Viteza Consumul

16118 4148

1172 205

155 22.17

7.18 1.13

Folosim acum formula de standardizare pe care o aplicm fiecrui element al matricei. Obinem ca rezultat informaiile standardizate prezentate n tabelul 5. Se observ c, dei cele 4 variabile selectate se exprim n uniti de msur diferite, n forma standard valorile sunt perfect comparabile ntre ele.
Tabelul 5. Valori standardizate

Preul standardizat
1.A 2.C 3.D 4.Fl 5.F2 6.F3 7.F4 8.FS 9.N 10.O 11.P1 12.P2 13.P3 14.P4 15.Ri 16.R2 17.R3 18.R4 19.RS 20.SI 21.S2

Cap. cil. standardizat


-0.85 -1.06 -0.87 -0.84 0.63 0.63 -0.27 2.07 -0.89 -0.87 -1.06 -0.23 0.91 1.99 -1.05 -0.31 -0.31 1.09 1.09 1.41 -1.31

Viteza standardizat
-0.67 -0.44 -0.44 -0.44 2.04 0.46 -0.80 1.13 -0.66 -0.53 -0.94 -0.58 0.68 1.59 -1.79 -1.57 -0.53 0.55 2.04 0.91 -1.07

Consumul standardizat
-0.86 -1.39 -0.42 -0.86 1.52 0.46 -0.15 1.87 -0.68 0.02 -0.33 -1.21 1.78 1.34 -0.77 -0.77 -1.21 0.64 1.34 1.43 0.11

-0.99 -0.681 -0.364 -0.64 2.14 0.42 -0.74 1.36 -0.89 -0.74 -0.69 -0.08 0.67 2.18 -0.76 -0.56 -0.47 0.27 2.22 0.76 -1.24

Preul standardizat
22.S3 23.S4 24.Ti 25.T2 26.V

Cap. cil. standardizat


-0.87 0.74 -0.84 0.59 0.49

Viteza standardizat
-0.44 0.37 -0.22 0.68 0.68

Consumul standardizat
-0.681 -0.59 -0.95 -0.33 0.72

-0.96 -0.35 -0.51 0.18 0.46

1.6.2 Matricea corelaiilor Aa cum am mai spus, corelaia (liniar) ntre dou variabile este msurat prin coeficientul de corelaie Pearson. Pentru dou variabile i i j coloanele i i j apoi extragem din matricea de date X = xij

( )i=1,2,...,n; j =1,2,..., p

calculm coeficientul de corelaie Pearson ri , j . Calculnd pe rnd, pentru toate cele p variabile, coeficienii de corelaie liniar, putem nlocui matricea iniial cu o matrice de dimensiune p p (reamintim c am notat-o R) avnd ca elemente coeficienii de corelaie respectivi. (Matricea este simetric i are toate elementele de pe diagonala principal egale cu unu). Analiza elementelor matricei corelaiilor este foarte important n prelucrarea informaiilor din matricea X de date. Astfel, analiznd elementele extra-diagonale ale matricei, identificm perechi de variabile ntre care exist dependene liniare puternice (n general, extragem acele variabile pentru care coeficientul de corelaie depete 0,8), dar identificm i perechi de variabile cu coeficieni de corelaie foarte mici (aproape de zero). Aceste informaii ne sunt utile n prelucrrile ulterioare! Matricea corelaiilor poate fi tratat ns algebric prin proprietile sale (de simetrie i pozitivitate), ea fiind o surs de alte informaii utile n prelucrarea ulterioar a datelor. Reamintim urmtoarele dou teoreme: Teorema 1 (descompunerea Jordan). Fie o matrice ptratic A (p p). Ea poate fi scris sub forma: A = 1 unde matricea conine vectori proprii ai matricei A iar matricea este o matrice diagonal ce conine valorile proprii ale matricei A. Teorema 2. Fie o matrice simetric A (p p). Ea poate fi scris sub forma A = T unde matricea conine vectori proprii ai matricei A, matricea este o matrice diagonal ce conine valorile proprii ale matricei A iar T este transpusa matricei .

Capitolul 2. Metode de nvare n analiza datelor clasificare


n ultimii ani au crescut simitor aplicaiile n domeniul analizei datelor. Prezena unui soft performant a fcut ca s apar solicitri pentru prelucrarea datelor din diverse medii economice, de afaceri, bancare, etc. Evident c existena unor baze de date care conin informaii la zi din domeniul afacerilor, bancar, al prospectrii pieei, face accesibil extragerea unor seturi de date, n general de dimensiuni mari, care s se preteze la tehnici de analiz a datelor. n cele ce urmeaz vom enumera cteva aplicaii mai recente. 1) Un analist n afaceri este interesat s ordoneze un numr mare de fonduri mutuale asupra crora are informaii privind evoluia lor n ultimii ani. Sunt cunoscute nivelele unor indicatori financiari relevani, precum i o serie de rate (rapoarte) calculate pe baza acestora. Analistului i va veni foarte greu s acorde scoruri fondurilor innd seam de un mare numr de indicatori. El va standardiza matricea informaiilor sale i apoi va apela la tehnici ACP. Dac presupunem c primele dou componente principale gsite vor acoperi 70% din informaia total, atunci analistul se va declara mulumit cu acestea, iar calculul scorurilor i ordonarea fondurilor vor fi fcute n raport cu aceste componente. 2) O companie de librrii deine numeroase informaii la zi privind vnzrile anuale de cri, CD-uri, DVD-uri, precum i informaii despre clienii si. Conducerea companiei este interesat s gseasc asemnri ntre cumprtori, aa nct strategiile privind reclama s se fac spre clase sau grupuri de cumprtori. Ea va folosi analiza factorilor pentru identificarea unui factori lateni care sunt responsabili de gruparea clienilor n clase. Clienii vor fi grupai n funcie de scorurile obinute, adoptndu-se apoi strategii de pia adecvate n raport cu grupele formate. 3) O banc deine i actualizeaz o mare baz de date ce se refer la clienii si. Pe o perioad lung de timp sunt contabilizate serviciile oferite, i anume: conturi curente, depozite, mprumuturi, carduri de credit. Conducerea bncii ar dori s grupeze clienii si n raport cu serviciile oferite, i s scoat n eviden fidelitatea acestora. Ar fi interesat n a identifica grupul clienilor foarte activi, al celor moderai i al celor pasivi. Odat fcut aceast identificare, conducerea bncii va apela la diverse strategii de promovare a serviciilor sale n raport cu caracteristicile claselor formate.

4) ntr-un studiu lunar privind consumul populaiei, studiu efectuat asupra a n gospodrii, se cunosc informaii despre p bunuri de consum diferite nregistrate asupra fiecrei familii. Corelaiile dintre nivelele de consum ale celor p bunuri pot fi explicate printr-un numr relativ mic de factori, n general de natur social ce stau la baza deciziei de consum. Cum identificm aceti factori neobservai, lateni i ce corelaii au ei cu nivelele de consum ale celor p bunuri? Evident, aplicaiile pot fi diverse, dar o ntrebare apare acum cu insisten: Cum rspundem problemelor deosebit de complexe existente n diverse domenii? n cele ce urmeaz vom prezenta pe scurt o clasificare i apoi o prezentare succint a ctorva metode folosite azi cu succes n domeniul afacerilor. Clasificarea metodelor de analiz a datelor n Capitolul 1 am artat c n analiza datelor se studiaz informaii coninute n diverse matrice X = xij avnd liniile

( )i=1,2,...,n; j =1,2,..., p

corespunztoare indivizilor (sau cazurilor) iar coloanele asociate variabilelor. Atunci cnd ne alegem tehnica de analiz a datelor pe care dorim s o aplicm, avnd ca suport informaiile oferite de matricea X, trebuie s avem n vedere ceea ce urmrim n aplicaia noastr. n cele ce urmeaz vom prezenta o clasificare a tehnicilor de analiz a datelor i o propunere de etapizare a aplicrii lor, n funcie de scopul urmrit. De regul, n analiza pe care dorim s o facem att numrul indivizilor ct i cel al variabilelor fiind mare suntem confruntai cu o analiz multivariat. Dispunem ns de informaii asupra celor p variabile, informaii colectate de la n indivizi. Din punct de vedere geometric, aceste observaii pot fi reprezentate prin n puncte n spaiul p-dimensional al variabilelor. Dac am analiza doar dou variabile, atunci configuraia celor n puncte ar fi uor de vizualizat plan, iar dificultatea analizei s-ar reduce foarte mult. ns numrul variabilelor urmrite este de regul mare, iar configuraia punctelor este dificil de imaginat. Mai precizm faptul c ntr-o prim etap a modelrii toate cele p variabile sunt tratate ca variabile input i nu am stabilit nici o variabil scop (output). Prin urmare, sintetiznd cele afirmate anterior, un prim obiectiv n analiza realizat ar fi acela de a reduce controlat dimensiunea matricei (reducnd numrul de linii sau/i de coloane) i de a gsi un numr mai mic de variabile care s explice trsturile indivizilor. n acelai timp, n unele aplicaii se dorete att asocierea unor scoruri indivizilor, aa nct s-i

putem ordona, ct i o clasificare a acestora n clase ct mai omogene. n aceste situaii vom apela la tehnici descriptive de analiz, tehnici numite nesupervizate. Acestea presupun c toate variabilele urmrite au acelai rol n explicarea fenomenului, neprecizndu-se iniial nici o distincie ntre ele. Totui, vom presupune c ar exista factori ascuni (lateni) comuni tuturor variabilelor, factori pe care ncercm s-i scoatem la iveal. n categoria metodelor nesupervizate se regsesc, dup cele mai recente clasificri din domeniul data mining, urmtoarele patru: 1) Analiza componentelor principale, avnd ca scop reducerea dimensionalitii datelor iniiale. 2) Analiza factorilor, avnd ca scopuri principale identificarea factorilor lateni i asocierea de scoruri indivizilor. 3) Analiza clasificrii, ce are ca scop gruparea n clase ct mai omogene, uneori de indivizi, alteori de variabile. 4) Analiza coului de pia, avnd ca scop determinarea grupelor de produse care sunt achiziionate mpreun de ctre cumprtori. Dac n matricea de date putem identifica o variabil a crei evoluie depinde de celelalte, fie conform legitii fenomenului, fie ca o constatare a unei analize anterioare, atunci aceasta va fi numit variabil dependent sau variabil rspuns, iar variabilele care o influeneaz vor fi numite variabilele predictor sau variabile de influen. Evident, n aceste situaii ne-ar interesa s cuantificm, printr-o expresie matematic, legtura/legturile dintre variabila rspuns i variabilele predictor. Vom recurge la aa-numitele metode supervizate care sunt metode explicative de analiz a datelor. n afar de funcia explicativ, ele au de regul i o funcie predictiv privind comportarea variabilei rspuns. Ele se caracterizeaz prin faptul c, pe baza unui set de date de nvare (antrenament), este construit un model care va fi apoi aplicat pentru a previziona comportamentul variabilei rspuns pentru diverse situaii noi, similare celor analizate. n categoria metodelor supervizate se regsesc att tehnicile de explicare a clasificrii, ct i diversele tipuri de regresie. S le enumerm: 1) Clasificarea prin arbori de regresie (CART) are ca scop obinerea de submulimi de date ct mai omogene n raport cu variabila rspuns. (O variabil rspuns poate fi continu sau categorial.) 2) Detectarea automat a interaciunilor (CHAID) este o metod de clasificare folosit pentru a studia relaiile dintre o variabil de rspuns de tip categorial i o mulime de variabile predictor ce pot interaciona unele cu altele.

3) Analiza discriminrii este o metod de clasificare ce pune n eviden acele variabil predictor care discrimineaz cel mai mult ntre dou sau mai multe grupri formate natural. (Variabila rspuns acceptat este de tip categorial n timp ce variabilele predictor pot fi att variabile continue ct i variabile ordinale.) 4) Regresia liniar multipl prin care se descrie, printr-un model liniar, legtura dintre variabila rspuns i variabilele predictor. (De regul toate variabilele implicate sunt continue.) 5) Regresia logistic este un model particular de regresie liniar ce presupune c variabila rspuns este binar sau ordinal. 6) Folosirea reelelor neurale prin intermediul crora se modeleaz un fenomen complex cu multe variabile predictor i multiple interaciuni. Reelele neurale folosesc un set de date de instruire pe baza cruia se propune un model, care este apoi testat i validat pe un alt subset de date. (Variabilele rspuns pot fi codificate ca variabile binare.) Sintetiznd, putem afirma c este indicat a se aplica tehnicile descriptive, nesupervizate, dup etapa primar de explorare a datelor matricei. Ele pot fi tehnici de analiz a componentelor principale, de analiz a factorilor sau de analiz a clasificrii. Toate au ca scop reducerea controlat a dimensionalitii matricei iniiale. Tehnicile explicative, supervizate, se aleg dup natura variabilei rspuns i a variabilelor predictor. Putem ntlni urmtoarele situaii: I) Variabila rspuns este continu i toate variabilele predictor sunt de asemenea continue; pentru a estima dependena dorit se folosesc tehnici de regresie (simpl sau multipl); II) Variabila rspuns este binar, iar predictorii sunt variabile continue. n acest caz se apeleaz la regresia logit; III) Variabila rspuns este nominal, iar variabilele predictor sunt continue. Se va apela, n general, la tehnici de discriminare; III) Variabila rspuns este continu, dar variabilele predictor sunt de tip categorial; se vor aplica tehnici de analiz a varianei; IV) Att variabila rspuns, ct i variabilele predictor sunt de tip categorial. Vom folosi tehnici de analiz de tip conjoint. Prezentm n tabelul 1 o clasificare elocvent a tehnicilor de analiz a datelor.

Tabelul 1. Clasificarea tehnicilor de analiz a datelor

Tipul tehnicii

Denumirea

Variabila rspuns cantitativ calitativ

Variabilele predictor cantitative calitative

Nesupervizat (descriptiv)

Analiza componentelor principale Analiza factorial Analiza clasificrii Analiza corespondenelor Regresia liniar simpl i multipl

Nu are Nu are Nu are Nu are Da Da Da/Mai multe variabile

Nu are Nu are Nu are Nu are Da Da Da Da Da -

Da Da Da Da Da Da Da Da Da

Da Da Da -

Regresia logistic

Supervizat (explicativ)

ANOVA/ MANOVA Analiza discriminrii o Tehnica arborilor de decizie (CART) Tehnica CHAID

Analiza canonic

Capitolul 3. Metode de nvare nesupervizat


n cele ce urmeaz vom prezenta pe scurt cteva dintre tehnicile de nvare nesupervizat. Reamintim c aceste tehnici au ca scop construirea unui model al datelor iniiale n care toate variabilele fiind tratate ca inputuri, nefiind precizate nici un fel de variabile de tip output. 3.1 Analiza componentelor principale Aa cum am mai menionat, datele multivariate sunt greu de vizualizat. Din acest motiv ar fi necesar reducerea dimensiunilor matricei lor. De cele mai multe ori este dorit reducerea numrului de coloane. Tehnica numit Analiza componentelor principale (Principal Component Analysis PCA) are ca scop reducerea controlat a numrului de variabile (coloane) ale matricei de date, pe ct posibil la dou sau trei. Astfel, n loc de p variabile corelate ntre ele am dori s avem doar dou sau trei variabile noi, numite componente. Acestea exprim atribute noi ale indivizilor i sunt construite n aa fel nct s fie necorelate ntre ele, fiecare dintre aceste noi variabile fiind o combinaie liniar de variabilele originale. Scopul PCA este acela de a extrage cel mai mic numr de componente care s recupereze ct mai mult din informaia total coninut n datele originale. 3.1.1 Reprezentri geometrice ale datelor. Cantitatea de informaie din norul de puncte S prezentm mai nti cazul n care folosim matricea de date X ( n p ) ce conine informaii asupra celor p variabile urmrite pe cei n indivizi (cazuri). n aceast abordare nu facem nici o ipotez legat de repartiiile valorilor celor p variabile, doar aplicm standardizarea datelor. Soluia obinut pentru reducerea dimensiunilor matricei datelor se bazeaz pe considerente strict geometrice i algebrice. Fie matricea X ( n p ) ce reprezint n indivizi asupra crora s-au msurat p variabile. Matricea X o putem privi fie linie cu linie exprimnd informaii despre cei n indivizi, fie coloan cu coloan exprimnd informaii despre cele p variabile.

Prin urmare: (1) oricrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente, care va fi scris: Li = ( xi1 , xi 2 ,..., xip ) R p ; (2) oricrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: C j = ( x1 j , x 2 j ,..., x nj ) T R n . Dac matricea este privit pe linii, atunci avem n linii ce pot fi reprezentate n spaiul Rp al variabilelor. Se obine, n spaiul variabilelor, un nor de n puncte de coordonate ( xi1 , xi 2 ,..., xip ) , cte un punct pentru fiecare individ i. Dac matricea este privit pe coloane, atunci avem p coloane ce pot fi reprezentate n spaiul Rn al indivizilor. Se obine, n spaiul indivizilor, un nor de p puncte de coordonate ( x1 j , x 2 j ,..., x nj ) , cte un punct pentru fiecare variabil j. Atunci cnd n sau/i p sunt mari (mult mai mari dect 2 sau 3), nu mai putem s interpretm grafic norul de puncte. Ideea ar fi s dezvoltm nite tehnici care s ne permit, fr a pierde prea mult informaie coninut n norul de puncte, s aproximm att spaiul coloanelor ct i spaiul liniilor prin nite subspaii de dimensiuni mai mici. Vom prezenta n cele ce urmeaz o asemenea tehnic. S notm cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p variabile. Punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit centrul de greutate al norului de puncte. Informaia I k cu care particip un individ oarecare k n norul de puncte poate fi exprimat prin distana (euclidian) de la punctul ce-l reprezint de coordonate ( x k1 , x k 2 ,..., x kp ) pn la centrul de greutate, adic: I k=

(x
j =1 n

kj

m j )2 .

(1)

n acelai timp, putem s scriem informaia total I a norului de puncte ca fiind suma informaiilor cu care particip toate punctele (indivizii), adic: I=

I = ( x
k k =1 k =1 j =1

kj

m j )2 .

(2)

Observaie: Este important, atunci cnd analizm norul de puncte, s identificm punctele ce particip cu informaia cea mai mare! Exemplu: S presupunem c avem trei indivizi i dou variabile msurate asupra lor. Coordonatele acestor indivizi, n planul variabilelor sunt urmtoarele: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . Centrul de greutate al norului de puncte descris de cei trei indivizi este dat de punctul de coordonate (m1 = 2, m2 = 1.6666) . Folosind formulele de mai sus, obinem informaiile corespunztoare indivizilor: I1 = 6.75, I2 = 3.75 i I3 = 20.15 i informaia total oferit de norul de puncte I = 30.65. Se observ faptul c punctul al treilea deine informaia cea mai mare n cadrul norului de puncte analizat. A ajusta norul de puncte nseamn a exprima datele din matrice prin mai puine coloane, pierznd ct mai puin posibil din informaia de ansamblu oferit de norul de puncte. a) Subspaiu cu o dimensiune Considerm datele exprimate prin norul de puncte din spaiul variabilelor Rp. Acest nor are un centru, anume centrul de greutate. Presupunem c eventual n urma unei operaiuni de centrare originea spaiului este exact acest centru. Fie, n acest spaiu Rp, o dreapt ce trece prin origine i este determinat de versorul u = (u1 , u 2 ,..., u p ) T . Putem s alegem o infinitate de asemenea drepte; evident, fiecare dreapt astfel precizat este un subspaiu de dimensiune 1 al spaiului variabilelor. Exist oare o asemenea dreapt care s ajusteze optim norul de puncte? Pentru a rspunde la aceast ntrebare, s considerm un individ k ale crui coordonate Pk(x1,x2,...) (centrate) n spaiul variabilelor sunt ( x k1 , x k 2 ,..., x kp ) . S proiectm acest individ ck Pk(y1,y2,) pe dreapta de versor u. Proiecia sa se afl la distana ck de origine; 0 numrul ck reprezint unica Figura 1. Proiecia pe o dreapt coordonat a individului k pe dreapta . Coordonata ck,, obinut prin proiecie ortogonal, este dat de formula: c k = x k1 u1 + x k 2 u 2 + ... + x kp u p . (Pentru edificare putem urmri i desenul din figura 1.)

Folosind definiia informaiei oferite de norul de puncte din spaiul Rp, putem s exprimm informaia total oferit de ctre proieciile punctelor din nor pe dreapta prin:

Iu =

I' = c
k k =1 k =1

2 k

(3)

Putem s formulm acum urmtoarea Problem: S se identifice, dintre dreptele , acea dreapt *, adic * * T acel versor u * = (u1 ,.u 2 ,.., u * p ) , care s maximizeze expresia (3) cu alte cuvinte, s recupereze maxim posibil din informaia norului de puncte. Ca problem de programare matematic (3) se rescrie astfel: max I u = u
n

(x
k =1

k1 u1

+ ... + x kp u p ) 2

(4)

2 2 u1 + u2 + ... + u 2 p = 1.
* * T Versorul u * = (u1 ,.u 2 ,.., u * p ) , soluie a problemei (4), pentru care se obine maximul expresiei informaiei totale, va fi notat 1 1 T f 1 = ( f11 , f 2 ,..., f p ) . El poart numele de prima ax factorial.

* Se observ c numerele c k ce determin proieciilor celor n puncte (indivizi) pe aceast prim ax factorial se obin prin nmulirea matriceal X f 1 R n . S notm cu C1 acest vector. El se numete prima component factorial sau prima variabil factorial. Prin urmare, n loc s analizm p variabile asupra celor n indivizi, putem analiza doar o singur variabil nou, dat de vectorul C1 obinut prin formula

C1 = X f 1

(5)

De menionat faptul c aceast component este o combinaie liniar de coloanele matricei X, iar coeficienii acestei combinaii sunt dai de elementele versorului axei factoriale. (Ct de bine va nlocui ea ansamblul variabilelor rmne ns de vzut!) Observaie: Din punct de vedere geometric, folosind criteriul celor mai mici ptrate, problema aflrii unui subspaiu de dimensiune 1 poate fi formulat astfel (vezi notaiile din figura 1).

* * T S se gseasc acea dreapt * de versor u * = (u1 ,.u 2 ,.., u * p)

pentru care se realizeaz minimul expresiei

Pk Pk '

(6)

Se observ imediat faptul c aflarea minimului expresiei (6) este echivalent cu aflarea maximului problemei (4). Soluia problemei de optim (4) este justificat de urmtoarea:
* * T Propoziia 1. Versorul u * = (u1 soluie a problemei de ,.u 2 ,.., u * p) optimizare (4) este un vector propriu asociat celei mai mari valori proprii, fie ea 1, a matricei X T X . Cantitatea total de informaie recuperat de axa factorial asociat versorului u * este tocmai 1.

Demonstraie. Dac datele din matricea X sunt standardizate n raport cu mediile i abaterile standard ale variabilelor, atunci matricea X T X este tocmai matricea coeficienilor de corelaie (vezi Anexa 3). S o notm cu R. Cum informaia total recuperat de dreapta de versor u este I u = C T C unde C este variabila factorial asociat axei factoriale u (adic

C = X u ), aceast informaie o putem scrie: I u = C T C = u T R u , iar problema de optim (4) devine:


max I u = u T R u u u = 1.
T

(7)

Pentru a rezolva problema de optimizare (7) vom face apel la lagrangeanul asociat ei. (Avem o singur restricie de tip egalitate, prin urmare vom avea un singur multiplicator Lagrange asociat ei fie acesta .) Lagrangeanul este:

L(u, ) = u T R u + (1 u T u ).
L = 0 rezult c vectorul u i u multiplicatorul trebuie s fie soluii ale sistemului de ecuaii

Din condiia necesar de optim

R u = u

(8)

adic multiplicatorul Lagrange este o valoare proprie a matricei R, iar u * (soluia optim a problemei) este un vector propriu asociat.

Acum putem s afirmm c, din punct de vedere practic, prima ax factorial f 1 este dat de vectorul propriu (de norm 1) asociat primei valori proprii a matricei R a corelaiilor. Se mai observ faptul c, dac nmulim ambii membri ai relaiei (8) cu u , obinem:
T

uT R u = uT u i, cum vectorul u verific condiia u T u = 1 (este de norm 1), rezult c uT R u = (9)

Din expresia (9) rezult c informaia total recuperat de prima ax factorial f 1 (dat de versorul u * , optimul problemei (7)) este tocmai (adic valoarea proprie maxim a matricei corelaiilor). Observaie. Cum matricea hessian (a derivatelor de ordinul doi) asociat este R, suntem asigurai c din condiia necesar de optim se va obine un punct de maxim pentru problema (7). b) Subspaiu de dou dimensiuni A ajusta norul de puncte Rp printr-un (sub)spaiu cu dou dimensiuni nseamn a gsi un plan n spaiul Rp. Se poate arta c un asemenea subspaiu care ajusteaz optim norul de puncte este un plan determinat de 1 1 T prima ax factorial f 1 = ( f11 , f 2 ,..., f p ) obinut ca soluie a problemei de optim (4) i de un vector u = (u1 , u 2 ,..., u p ) T ortogonal pe aceasta, vector care satisface:
max I u = u u =1 ( f ) u = 0
* * T Soluia problemei (10), fie ea u* = (u1 ,.u 2 ,.., u * p ) , va fi notat, prin

(x
k =1

k1 u1

+ ... + x kp u p ) 2

(10)

1 T

analogie cu soluia problemei (4), cu f

2 T = ( f12 , f 22 ,..., f p ) i va fi numit

a doua ax factorial. Aplicnd din nou propoziia 1 pentru problema (10), putem s concluzionm c f 2 este vectorul propriu al matricei R asociat

celei de-a doua valori proprii. Cum matricea R este simetric, f

este

ortogonal pe f 1 . n ceea ce privete coordonatele celor n indivizi pe aceast nou ax, grupate n vectorul C 2 R n , vor fi obinute la fel ca i n cazul primei axe, adic printr-un produs matriceal:

C2 = X f 2

(11)

Caracteristica sintetizat C2 astfel obinut se numete a doua component sau a doua variabil factorial. Ea este o a doua combinaie liniar a variabilelor iniiale. c) Subspaiu de q dimensiuni (q < p) n cazul q-dimensional (cu q < p), a ajusta optim norul de puncte din R nseamn a maximiza expresia (3), de aceast dat prin puncte proiectate pe un subspaiu (din Rp) de dimensiune q. Prin generalizarea cazului bidimensional, ar trebui s identificm, iterativ, axele factoriale f 1 , f 2 , ..., f q mutual ortogonale perpendiculare dou cte dou ca soluii ale problemei (4). Folosind din nou propoziia 1, axele factoriale cutate vor fi vectori proprii asociai valorilor proprii ale matricei R a corelaiilor. Dac 1 2 ... q sunt primele q valori proprii, atunci
p

axele factoriale f 1 , f 2 , ..., f q sunt vectorii proprii corespunztori. d) Aspecte practice privind ajustarea norului de puncte n spaiul p-dimensional al variabilelor Pentru a realiza scopul propus n PCA se calculeaz mai nti matricea R a corelaiilor variabilelor (care este o matrice de dimensiune p p) i apoi valorile proprii i vectorii proprii ai acesteia. Componentele principale sunt extrase n ordinea descresctoare a importanei lor, aa nct prima component extras recupereaz cea mai mare parte a cantitii de informaie din datele iniiale. Procesul de extragere a componentelor principale este unul iterativ. Dac s-a reuit extragerea unui numr de q componente, iar acestea acoper 80-90% din informaia total a datelor iniiale, ne putem declara mulumii de rezultatul obinut. n continuare, analistul problemei va ncerca s interpreteze componentele obinute n termenii variabilelor iniiale, pentru a oferi mai mult nelegere rezultatelor obinute. Putem s prezentm acum un algoritm pentru obinerea primelor q axe factoriale i a cantitii totale de informaie recuperat de ele.

Paii algoritmului sunt urmtorii: Pasul 1. Se standardizeaz datele din matricea de date, folosind mediile i abaterile medii ptratice ale variabilelor. Pasul 2. Se calculeaz, din datele standardizate, matricea corelaiilor, fie ea R. Pasul 3. Se identific primele q valori proprii ale matricei R a corelaiilor (n ordine descresctoare). Fie ele 1 2 ... q . Pasul 4. Prima ax factorial f 1 este dat de vectorul propriu de norm 1 asociat valorii proprii 1 . A doua ax factorial f 2 este dat de vectorul propriu de norm 1 asociat valorii proprii 2 , .a.m.d. Formm matricea F = ( f 1 , f 2 ,..., f q ) a vectorilor proprii. Pasul 5. Matricea C = (C 1 , C 2 ,..., C q ) a componentelor principale variabilelor factoriale se obine din matricea vectorilor proprii F ai matricei R i din matricea X, adic

C = X F

(12)

Pasul 6. Dup parcurgerea pasului 5 pentru toate cele q (< p) axe factoriale, cantitatea total de informaie din norul de puncte recuperat de f 1 , f 2 , ..., f q este subspaiul factorial descris de axele 1 + 2 + .. + q . Un mod practic de apreciere a calitii ajustrii norului de puncte prin acest subspaiu este calculul raportului

q =

1 + 2 + .. + q 1 + 2 + .. + p

100 .

(13)

Cum 0 q 100 , acest raport exprim, procentual, cantitatea de informaie recuperat. Evident, cu ct q este mai apropiat de valoarea maxim 100, cu att norul de puncte este ajustat mai bine prin subspaiul de dimensiune q. 3.1.2 Combinaii liniare standardizate Soluia geometric a problemei aflrii componentelor principale prezentat n 3.1.1 este uor de aplicat, ea nu presupune ipoteze

suplimentare asupra variabilelor urmrite. Are la baz matricea observaiilor iar tehnicile folosite sunt doar de natur algebric si geometric. ns putem aborda problema reducerii numrului de variabile prin componente principale i n alt mod. S presupunem c avem identificate cele p variabilele ce descriu un fenomen. Evident, n dorina noastr de a reduce numrul acestora am putea s considerm, pe rnd, doar cte o variabil important. Dei, reducnd astfel drastic problema, am grei cu siguran, netiind pe care s-o alegem. Am putea ns s acordm ponderi egale celor p variabile i s considerm 1 ca nou variabil media aritmetic a celor p variabile, adic p

x
j =1

1 1 1 ponderile folosite fiind p , p .,.., p . Am grei ns din nou acordnd aceleai ponderi tuturor variabilelor, nediscriminndu-le n nici un fel. Soluia cea mai rezonabil ar fi s considerm o combinaie liniar a variabilelor cu ponderile necunoscute, anume x =
T

x
j j =1

, unde
2 j

= (1 , 2 ,..., p ) sunt ponderi normate (cu proprietatea

j =1

= 1,

combinaia fiind standardizat). Noua variabil generic T x este cea care ne intereseaz; ea este o component sau o nou variabil dac vom identifica unic ponderile (1 , 2 ,..., p ) . S presupunem c cele p variabile urmrite sunt aleatoare, grupate n vectorul x = ( x1 , x 2 ,..., x p ) . Fie vectorul medie (avem E ( x) = ) i matricea de covarian (avem Var ( x ) = ). Mai tim c matricea de covarian se scrie n descompunere Jordan = T (cu matricea diagonal a valorilor proprii iar o matrice ortogonal format cu vectori proprii ai matricei ). Acum, la rndul ei, noua variabil T x este i ea o variabil aleatoare avnd media T i variana Var ( T x) = T . Precizarea unui criteriu de optim n aflarea ponderilor (1 , 2 ,..., p ) este acum foarte clar: vom alege acea combinaie liniar standardizat care are cea mai mare varian. Deci, ponderile alese (1 , 2 ,..., p ) vor fi acelea care rezolv urmtoarea problem de optimizare.

max Var ( T x) = T Var ( x) T = 1.

(14)

Problema (14) este analoag cu problema de optimizare (7), n locul matricei R a corelaiilor avem matricea a covarianei. Ponderile optime * , de norm 1, sunt vectorii proprii asociai pe rnd valorilor proprii ale matricei . Fie valoarea proprie maxim 1 , creia i corespunde vectorul
T x cu propriu 1 de norm 1. Avem * = 1 i deci noua variabil va fi 1 T . Dac dorim ca noua variabil s aib media zero, atunci, media 1 printr-o transformare de variabil obinem T y = 1 ( x )

(15)

unde am notat cu y componenta principal asociat ponderilor * = 1 . Repetnd procedeul, lund pe rnd valorile proprii ale matricei i folosind notaiile din descompunerea Jordan a matricei putem scrie:

Y = T ( x )
unde am notat cu Y matricea noilor variabile principale.

(16)

Exemplul 1. S analizm datele din tabelul 1 al Anexei 1. Dealerul tie c unii cumprtori se ghideaz, n achiziionarea unui autoturism nou, doar dup preul acestuia. Lista de mai jos, obinut printr-o simpl ordonare dup pre, le va fi de folos.
SEATMarbella GL Austin Metro Special SuzukiSwiftGA Nissan Micra 1.0 DX Renault4TL FordFiestaJunior Opel Corsa Swing Peugeot205XE CitroenAX 10RE FiatUno45Fire Renault4GTL ToyotaStarlettL Renault5SL Pre 10970 12000 12115 12400 12981 13050 13050 13260 13275 13475 13806 14000 14156 DaihatsuCharadeTS SuzukiSwiftGL Peugeot205GL ToyotaStarlettXL Renault5GTS FiatUno70SL Volkswagen Polo Peugeot205GT SEATIbizaGLX FordFiestaXR-2 FiatUnoTurboTE Peugeot205GTI Renault5GTTurbo Pre 14625 14655 15780 16850 17250 17845 18045 18965 19283 21743 25005 25175 25319

Ali cumprtori se ghideaz, n achiziionarea unui autoturism nou, doar dup viteza maxim. i pentru acetia se poate obine o list analoag. Exist ns cumprtori care ar dori s se orienteze dup ambele variabile, Preul de achiziie dar i Viteza maxim. Acestora le va fi de folos graficul urmtor.
220

200

FiatUnoTur boTE

Renault5GTTur bo

180

For dFies taXR-2 SEATIbizaGLX Volks wagen P olo ToyotaStar lettXL P eugeot205GT SuzukiSwif tGL Renault5GTS FiatUno70SL ToyotaStar lettL SuzukiSwif tGA Daihats uChar adeTS Renault5SL P eugeot205GL

P eugeot205GTI

160

140

Aus tin Metr o Special SEATMar bella GL

P eugeot205XE RenauIt4GTL

120 Renault4TL 100 10000 12000

14000

16000

18000

20000

22000

24000

26000

28000

P re t ( $ )

S-ar putea obine oare o ordonare a tipurilor de autoturisme, innd seam de ambele variabile? Oare cum am putea nlocui aceste dou variabile prin una singur? Pentru nceput, s centrm datele n raport cu mediile celor dou variabile (16118 $, resp. 155 km/h):
Pre Vit. max. Austin Metro Special -4118 -14.8 CitroenAX 10RE -2843 -9.8 DaihatsuCharadeTS -1493 -9.8 FiatUno45Fire -2643 -9.8 FiatUnoTurboTE 8887 45.2 FiatUno70SL 1727 10.2 FordFiestaJunior -3068 -17.8 FordFiestaXR-2 5625 25.2 Nissan Micra 1.0 DX -3718 -14.8 Opel Corsa Swing -3068 -11.8 Peugeot205XE -2858 -20.8 Peugeot205GL -338 -12.8 Peugeot205GT 2847 15.2
(date centrate)

Pre Vit. max. Peugeot205GTI 9057 35.2 Renault4TL -3137 -39.8 Renault4GTL -2312 -34.8 Renault5SL -1962 -11.8 Renault5GTS 1132 12.2 Renault5GTTurbo 9201 45.2 SEATIbizaGLX 3165 20.2 SEATMarbella GL -5148 -23.8 SuzukiSwiftGA -4003 -9.8 SuzukiSwiftGL -1463 8.2 ToyotaStarlettL -2118 -4.8 ToyotaStarlettXL 732 15.2 Volkswagen Polo 1927 15.2

S acceptm ideea c, n viziunea cumprtorului, se acord o importan dubl variabilei Viteza maxim n raport cu Preul de achiziie, astfel c ponderile sunt p = (1 / 3, 2 / 3) . Norma vectorului ponderilor fiind 5 / 3 , versorul asociat este u = (1 / 5 , 2 / 5 ) . Proiectm acum punctele ce reprezint tipurile de maini pe dreapta avnd acest versor i care trece prin origine (centrul de greutate!). Coordonatele calculate pentru aceast dreapt sunt prezentate n urmtorul tabel:
Austin Metro Special CitroenAX 10RE DaihatsuCharadeTS FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot205XE Peugeot205GL Peugeot205GT
6

-1855.04 -1280.37 -676.63 -1190.93 4014.64 781.28 -1388.15 2537.94 -1676.16 -1382.78 -1296.92 -162.79 1286.63

Peugeot205GTI Renault4TL Renault4GTL Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbella GL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo

4081.72 -1438.69 -1065.26 -888.17 516.98 4155.06 1433.32 -2323.72 -1799.14 -647.12 -951.67 340.78 875.20

Cantitatea de informaie recuperat din norul de puncte este de doar 9110 din totalul de 447106, adic aproximativ 20%! Se pierde prea mult informaie pentru ca s putem accepta ordonarea tipurilor de autoturisme folosind aceste ponderi. Observm i c datele din acest ultim tabel sunt mai apropiate, ca ordin de mrime, de datele din coloana Pre dect de datele din coloana Viteza maxim. Motivul este evident discrepana ntre numerele ce reprezint Preul i cele ce reprezint Viteza maxim. Dei nlocuirea celor dou variabile (Preul i Viteza maxim) prin una singur, aa cum a fost efectuat mai sus, pare natural, nici din acest motiv ea nu este indicat. Se impune aducerea celor dou seturi de date la uniti de msur comparabile, iar acest lucru poate fi fcut prin standardizare. S relum exemplul folosind acum datele standardizate:
Pre Vit. max. (date standardizate) Austin Metro Special -0.9736 -0.6549 CitroenAX 10RE -0.6722 -0.4338 DaihatsuCharadeTS -0.3530 -0.4338 Peugeot205GTI Renault4TL Renault4GTL Pre Vit. max. 2.1411 1.5565 -0.7417 -1.7606 -0.5467 -1.5395

FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot205XE Peugeot205GL Peugeot205GT

-0.6249 2.1009 0.4082 -0.7254 1.3297 -0.8791 -0.7254 -0.6757 -0.0800 0.6730

-0.4338 1.9988 0.4508 -0.7876 1.1142 -0.6549 -0.5222 -0.9203 -0.5665 0.6719

Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbella GL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo

-0.4639 0.2675 2.1751 0.7481 -1.2171 -0.9464 -0.3460 -0.5008 0.1730 0.4555

-0.5222 0.5392 1.9988 0.8931 -1.0530 -0.4338 0.3623 -0.2126 0.6719 0.6719

n ideea c ponderile variabilelor, n viziunea cumprtorului, sunt p = (1 / 3, 2 / 3) , coordonatele calculate pentru caracteristica sintetic sunt prezentate n urmtorul tabel:
Austin Metro Special CitroenAX 10RE DaihatsuCharadeTS FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot205XE Peugeot205GL Peugeot205GT -1.0212 -0.6886 -0.5459 -0.6675 2.7273 0.5857 -1.0289 1.5913 -0.9789 -0.7915 -1.1253 -0.5424 0.9020 Peugeot205GTI Renault4TL Renault4GTL Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbella GL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo 2.3496 -1.9064 -1.6214 -0.6745 0.6019 2.7605 1.1333 -1.4861 -0.8112 0.1693 -0.4141 0.6783 0.8046

Cantitatea de informaie recuperat este de 43.2 din totalul de 50, adic 86.4%, ceea ce ar prea mulumitor. (S observm c procentul informaiei recuperate depinde n mod esenial de unitile de msur folosite!) n viziunea unui alt cumprtor ambele variabile ar putea avea aceeai importan (adic p = ( 1 , 1 ) ). n aceast situaie coordonatele 2 2 calculate pentru caracteristica sintetic sunt prezentate n urmtorul tabel.

Austin Metro Special CitroenAX 10RE DaihatsuCharadeTS FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot205XE Peugeot205GL Peugeot205GT

-1.1516 -0.7820 -0.5564 -0.7486 2.8989 0.6074 -1.0699 1.7281 -1.0847 -0.8822 -1.1286 -0.4571 0.9510

Peugeot205GTI Renault4TL Renault4GTL Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbella GL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo

2.6146 -1.7694 -1.4751 -0.6973 0.5705 2.9514 1.1605 -1.6052 -0.9760 0.0116 -0.5045 0.5974 0.7972

Cantitatea total de informaie recuperat din norul de puncte este acum de 47.84 din totalul de 50, adic 95.7%. Aceste date ar putea servi dealerului, cu destul de mult certitudine, pentru ordonarea tipurilor de autoturisme n caz c ntlnete un cumprtor cu aceste preferine (importan egal acordat preului i vitezei maxime). Ordonarea ar fi urmtoarea:
(valori)

Renault4TL Renault4GTL SEATMarbella GL Peugeot205XE FordFiestaJunior Austin Metro Special Nissan Micra 1.0 DX SuzukiSwiftGA Opel Corsa Swing CitroenAX 10RE Renault5SL FiatUno45Fire DaihatsuCharadeTS

-1.9065 -1.6214 -1.4861 -1.1253 -1.0289 -1.0212 -0.9789 -0.8112 -0.7915 -0.6886 -0.6746 -0.6675 -0.5459

Peugeot205GL ToyotaStarlettL SuzukiSwiftGL FiatUno70SL Renault5GTS ToyotaStarlettXL Volkswagen Polo Peugeot205GT SEATIbizaGLX FordFiestaXR-2 Peugeot205GTI FiatUnoTurboTE Renault5GTTurbo

-0.5424 -0.4142 0.1694 0.5857 0.6020 0.6783 0.8047 0.9020 1.1334 1.5913 2.3497 2.7273 2.7605

sau, dup ranguri.

(ranguri)

Austin Metro Special CitroenAX 10RE DaihatsuCharadeTS FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot205XE Peugeot205GL Peugeot205GT

Pre 2 9 14 10 24 19 6 23 4 7 8 16 21

P, Vm 6 10 13 12 25 17 5 23 7 9 4 14 21

Peugeot205GTI Renault4TL RenauIt4GTL Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbella GL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo

Pre 25 5 11 13 18 26 22 1 3 15 12 17 20

P, Vm 24 1 2 11 18 26 22 3 8 16 15 19 20

Termeni folosii n PCA Vom enumera civa dintre termenii folosii n etapele unei analize a componentelor principale. (Vom indica i denumirile uzuale, pentru a uura folosirea i nelegerea softului de specialitate.) o Valori proprii i vectori proprii (eigenvalues, eigenvectors). Sunt asociai matricei corelaiilor variabilelor iniiale. O valoare proprie mai mare dect 1, pentru o component, indic faptul c acea component are o contribuie mai mare dect a unei variabile iniiale, deci este indicat a fi extras. Vectorii proprii, asociai valorilor proprii, vor constitui ponderile n calculul combinaiilor liniare respective. o Scorurile componentelor principale (PC scores). Sunt coordonatele indivizilor n noile axe, date de vectorii proprii selectai. Media unei coloane de scoruri este 0. o Graficul descreterii (scree plot). Ofer informaii privind valorile proprii, dar i ratele lor de descretere. o Regula Kaiser-Guttman. Este folosit n stabilirea numrului de componente principale: avem attea componente cte valori proprii sunt mai mari dect 1. (Totui, numrul final de componente va fi stabilit n funcie de interpretarea concret pe care acestea o primesc.) o Coeficienii de ncrcare (PC loadings). Sunt exact coeficienii de corelaie dintre variabilele originale i scoruri. Acetia exprim importana fiecrei variabile originale n explicarea fiecrei noi componente.

3.2 Analiza factorilor Analiza factorilor este o tehnic statistic multivariat care are ca scop extragerea unui numr mic de factori ascuni (lateni) responsabili de corelaiile dintre variabilelor originale. Dac aceste corelaii sunt semnificative, se poate presupune c ar fi cauzate de existena unuia sau mai multor factori ascuni comuni tuturor variabilelor. Analiza factorilor ne permite s confirmm statistic un rezultat privind modul de grupare al variabilelor originale. Variabilele care se grupeaz mpreun i, ca atare, pot fi privite ca formnd un grup omogen, vor fi considerate asociate unui acelai factor. Vom prezenta cteva tehnici care pun n eviden factorii comuni i ali factori responsabili de valorile observate asupra variabilelor studiate. 3.2.1 Modelul factorilor ortogonali Aa cum am mai afirmat, scopul analizei factorilor este acela de a explica valorile celor p variabile printr-un numr mai mic de variabile, aa numiii factori. Acetia sunt interpretai ca fiind caracteristici comune, latente, ale variabilelor observate. Ideal, orice observaie x identificat prin valorile ( x1 , x 2 ,..., x p ) R p ar putea fi caracterizat de un numr mai mic de valori, anume de valorile factorilor ( f1 , f 2 ,..., f k ) R k cu k < p , unde
x j = f1q1 j + f 2 q 2 j + ... + f k q kj + j , j = 1,2,..., p

(17)

Se poate arta c relaia (17) o putem explicita prin intermediul componentelor principale n cazul n care matricea de covarian are ultimele p k valori proprii negative, adic ea este o matrice singular. ntr-adevr, considernd vectorul aleatoriu ( x1 , x 2 ,..., x p ) R p de medie
= (1 , 2 ,..., p ) i matrice de covarian Var ( x ) = , expresia (17) o

putem scrie x1 q11 x 2 q 21 ... = ... x p q p1 sau, matriceal


x = QF +

q12 q 22 ... q p2

... q1k f1 1 ... q 2 k f 2 2 + ... ... ... ... ... q pk fk p

(18)

(19)

folosind notaiile Q = ( qij ) i F = ( f i ) , pentru i = 1,2,..., p i j = 1,2,..., k . Mai precizm faptul c factorii grupai n F sunt presupui a fi de medie 0, necorelai ntre ei i avnd dispersiile egale cu 1 fiecare. Folosim descompunerea spectral = T n care partiionm matricele corespunztor ultimelor p k valori proprii nule. Vom putea scrie:

1 0 1 = (1 2 ) 0 0 2

(20)

Soluia oferit de componentele principale n cazul structurii (20) a matricei covarianelor este Y = T ( x ) , de unde x = Y = 1Y1 + 2Y2 .
T Y1 1 Cum Y = = Y T 2 2

( x ) ~ 0, 1 0

0 , putem scrie c 0

x = Y = 1Y1 +

(21)

/2 1/ 2 Definind Q = 11 i F = 1 1 Y1 avem o interpretare n termenii componentelor principale pentru matricea Q i vectorul F din (18).

n situaiile concrete rareori matricea de covarian este singular. n general, un model de analiz a factorilor, generalizare a modelului (19) este urmtorul:
x = Q F +U +

(22)

unde Q ( p k ) sunt loadings (ne-aleatori) ai factorilor comuni F ( k 1) iar U ( p 1) sunt factori aleatori specifici. Presupunem c variabilele factor F formeaz un vector aleatoriu cu componente necorelate. n ceea ce privete grupul factorilor specifici acetia au mediile zero, sunt necorelai ntre ei i n acelai timp necorelai cu factorii comuni: E(F ) = 0 Var ( F ) = I k E (U ) = 0 pentru i j Cov (U i , U j ) = 0 Cov ( F , U ) = 0. (23)

Pentru o component x j a vectorului x putem scrie, folosind (22), c

xj =

q
l =1

jl f l

+U j + j

(24)

De aici obinem

Var ( x j ) =
Numrul

q q
l =1 l =1 k

2 jl

+ jj

(25)

2 jl

se numete comunalitate, iar numrul jj se

numete variana specific, ambele fiind asociate variabilei x j . n general, covariana vectorului x este descompus, evideniindu-se matricea de comunalitate, astfel:

= QQ T + .

(26)

Comparaie ntre Analiza componentelor principale i Analiza factorilor Analiza componentelor principale caut combinaii liniare ntre variabile, ordonndu-le dup valorile proprii ale matricei covarianelor (corelaiilor). n analiza factorilor se modeleaz variaiile variabilelor x prin transformri liniare a unui numr fixat, limitat de factori numii ascuni lateni. Obiectivul analizei factorilor este de a gsi matricea Q de ncrcare i matricea varianei specifice . Factorii ascuni determin variabilele, n sensul c fiecare dintre variabile se poate scrie ca o combinaie liniar de factorii lateni, la care se adaug un reziduu. Coeficienii din combinaia liniar se estimeaz prin tehnici statistice clasice (de exemplu prin metoda celor mai mici ptrate), ipoteza fundamental fiind aceea de independen a reziduurilor. Termeni folosii n Analiza factorilor o Comunalitatea (communality) este acea parte din variana unei variabile iniiale, exprimat procentual, ce este datorat ansamblului factorilor

gsii. Restul varianei variabilei este numit unicitate (uniqueness). Evident, suma celor dou pri este 100%. Exist mai multe metode pentru a estima comunalitile variabilelor. Atunci cnd presupunem c toate comunalitile variabilelor sunt egale cu 100% adic atunci cnd toate variabilele iniiale sunt complet previzionate de ctre factori rezultatul analizei factorilor coincide de fapt cu cel al analizei componentelor principale. (Reamintim ns c PCA are scopul de a reduce dimensiunea i nu cel de a explica corelaiile variabilelor cu factorii principali.) n cazul general comunalitile sunt estimate pe baza unui model de regresie. o Coeficienii de ncrcare a factorilor (factor loadings) formeaz o matrice de dimensiune p k, fiecare element al ei exprimnd corelaia dintre o variabil iniial i un factor. (Avem p variabile i k factori lateni, iar k < p.) o Rotaia factorilor (factor rotation) este o transformare a spaiului variabilelor, prin care se rotesc simultan factorii n scopul de a se obine ct mai multe elemente 0 n matricea coeficienilor de ncrcare a factorilor. (Suma valorilor proprii nu este afectat n timpul acestei transformri, dar rotaia va afecta vectorii proprii.) o Scorurile standardizate (standardized scores) sunt valori-scor asociate fiecrui individ (fiecrei linii din matricea de date). Standardizarea este fcut n aa fel nct marea majoritate a acestor scoruri se plaseaz ntre 3 i +3, permind astfel ordonarea indivizilor. o Testul hi-ptrat folosete ipoteza nul (H0): nu exist factori comuni. Ipoteza se consider respins dac valoarea p este < 0.05. o Valorile proprii exprim partea din variana total care este asociat fiecrui factor.

3.3 Analiza clasificrii. Algoritmi ierarhici de agregare Metodele de clasificare sau de analiz cluster au ca scop gruparea indivizilor, identificai printr-o serie de atribute variabile numerice ntr-un numr ct mai restrns de clase omogene. Ceea ce le caracterizeaz este faptul c realizeaz o analiz global a indivizilor ce sunt studiai printrun numr mare de variabile, iar ipotezele cerute sunt minime. Mai precizm faptul c obiectul clasificrii nu-l reprezint numai indivizii (liniile matricei de date) ci poate fi i variabilele (coloanele matricei de date). Se dorete a se realiza clase (grupuri) n aa fel nct indivizii aparinnd unei aceleiai clase s fie ct mai asemntori ntre ei prin valorile variabilelor lor (adic s fie similari) n timp ce clasele constituite s fie ct mai diferite. Putem spune c efectuarea unei analize cluster presupune parcurgerea a dou etape: a) alegerea unei msuri de proximitate, mai precis, definirea unei msuri de apropiere dintre indivizi pe baza tuturor variabilelor observate; b) precizarea unor reguli de construire a claselor aa nct diferena ntre acestea s fie ct mai mare, n timp ce indivizii aflai n acelai grup s fie ct mai apropiai. n ceea ce privete aplicaiile analizei clasificrii, acestea sunt foarte numeroase, n diverse domenii economice cum ar fi: cercetarea de marketing, clasificarea unor companii dup rezultatele obinute i structurile lor organizatorice etc. Aplicaii interesante ale analizei clasificrii ntlnim n domeniul psihologiei, pentru identificarea tipurilor sau tipologiilor de indivizi n funcie de rspunsurile la chestionare, dar i n alte tiine cum ar fi medicina, biologia, arheologia, antropologia sau lingvistica. Analiza claselor disjuncte este o tehnic statistic de grupare a cazurilor (indivizilor) n clase sugerate de matricea de date. Distingem: 1) Analiza claselor ierarhice (Hierarhical Cluster Analysis HCA) este o metod de grupare ierarhic n care fiecare clas este n totalitate coninut n alt clas. Nu este cerut nici o informaie a priori despre numrul claselor, iar odat ce un individ a fost asociat unei clase, el va rmne acolo. Nu este recomandat a fi utilizat pentru baze de date mari, cu muli indivizi. 2) Analiza claselor disjuncte (Disjoint Cluster Analysis DCA) este o tehnic ne-ierarhic, ce recurge la o clasificare iterativ. Iniial toi indivizii se grupeaz arbitrar n clase. Urmeaz apoi o repartizare a fiecrui individ la o clas, n funcie de similaritatea

individului respectiv cu cei din clasa respectiv. Procedeul este iterativ i se termin atunci cnd nu mai constatm realocri ntre clase. Procedeul este mai eficient pentru baze de date mari, iar pentru rapiditate s-ar impune cunoaterea a priori a numrului de clase. 3) Clasificarea pe baza mediei (k-mean clustering). Este o tehnic de clasificare n clase disjuncte, centrul fiecrei clasei fiind obinut dinamic ca medie a indivizilor din clasa respectiv. Tehnica k-mean are ca obiectiv, la fiecare iteraie, reducerea varianei indivizilor din interiorul fiecrei clase i maximizarea varianei dintre clase. 3.3.1 Indicatori de proximitate ntre indivizi S presupunem c vrem s comparm trei ri notate simbolic A, B i C dup dou variabile, i anume procentul forei de munc din industrie i procentul forei de munc din agricultur (din totalul populaiei active). Putem s afirmm, fr s greim, c dou ri care au acelai procent de for de munc n industrie i acelai procent de for de munc n agricultur sunt perfect similare. Dar, ce se ntmpl dac valorile variabilelor sunt diferite? Cum putem s asociem diverselor situaii un indicator (o msur) a asemnrii? S considerm situaia din tabelul urmtor:
ara A B C % n industrie 20 30 10 % n agricultur 60 30 50

Analiznd graficul corespunztor prezentat n figura 2 se observ c, poziia celor trei puncte A, B i C n plan ce au coordonate liniile din tabel reprezint cele trei ri avnd cele dou variabile. Lungimile segmentele AB, AC i BC exprim distanele euclidiene ntre punctele respective i se observ c acestea pot fi folosite ca msuri de comparare a rilor. Cu ct distana dintre puncte este mai mare cu att punctele sunt mai puin asemntoare. Deci, putem afirma faptul c distanele msoar mai degrab disimilaritatea ntre puncte. Cum distanele se afl n urmtoarea ordine: AB > BC > AC,

putem afirma c: ara A este similar cu ara C (distana dintre A i C fiind cea mai mic); ara B este disimilar cu ara A (distana de la A la B fiind cea mai mare). Putem trage concluzia c distana (euclidian) poate fi folosit ca indicator al disimilaritii.
60
C A

AC2 = 102 +102=200 AB2 = 102 + 302 = 1000 BC2 = 202 + 202 = 800
B

50

40

30

20

10

0 0 10 20 30 40 50 60 70 80 90 100 110 120


% in indus trie

Figura 2. Distane euclidiene

S revenim la exprimarea datelor n forma unei matrice X (n p ) ce reprezint cei n indivizi asupra crora s-au msurat p variabile. Indicele (indicatorul) de proximitate este un numr ce exprim asemnarea (similaritatea) sau deosebirea (disimilaritatea) existent ntre doi indivizi, lund n considerare toate valorile observate asupra variabilelor lor. Astfel, putem s spunem c proximitatea ntre indivizi este msurat printr-o matrice D(n n) n care un element d ij exprim similaritatea

(disimilaritatea) ntre individul i i individul j. Exist mai multe moduri de construire a matricei de proximitate, s exemplificm prin urmtoarele trei situaii: 1) S presupunem c datele iniiale sunt exprimate printr-o matrice de forma indivizi variabile. Fie doi indivizi i i j i liniile corespunztoare lor n matricea de date. Mai precis, fie xi linia corespunztoare individului i i xj linia corespunztoare individului j. Pentru cei doi indivizi putem calcula distana dat de norma Lr.

p d ij =|| xi x j || r = | xik x jk | r k =1

1/ r

(27)

S considerm n expresia (27) distana euclidian (obinut pentru r = 2). Aa cum am vzut n exemplul anterior, aceast distan poate fi folosit ca o msur de proximitate, ea msurnd disimilaritatea ntre indivizi. Mai precis, cu ct distana ntre indivizi este mai mare, cu att disimilaritatea ntre acetia este mai mare (sau similaritatea este mai mic). Se mai observ faptul c distana astfel calculat ne va conduce la o matrice de proximitate simetric, avnd 0 pe diagonala principal. De la caz la caz, se poate folosi una dintre distanele date de expresia (27), aa cum putem vedea i din exemplul urmtor.
Exemplul 1. S presupunem c avem trei indivizi i dou variabile msurate asupra lor, i anume: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . n relaia (27) considerm r = 1 i calculm, de exemplu, distana dintre individul 1 i individul 3. Obinem d = 5 + 5 = 10 (aceeai cu distana de la individul 3
13

la individul 1). Pentru toi cei trei indivizi avem, utiliznd formula (27), matricea distanelor date de norma L1:
D
(1)

0 1 10 = 1 0 9 . 10 9 0

Dac vom calcula acum distanele euclidiene (pentru r = 2, date de norma L2), atunci ptratul distanei dintre individul 1 i individul 3 este d 2 = 5 2 + 5 2 = 50 (aceeai ca i cea dintre individul 3 i individul 1).
13

Pentru toi cei 3 indivizi avem urmtoarea matrice a distanelor:

D ( 2)

0 = 1 50

1 0 41

50 41 0

Putem remarca, de asemenea, c distanele pot fi nlocuite cu ptratele lor, ns similaritatea, respectiv disimilaritatea ntre indivizi se pstreaz.

Exemplul 2. S presupunem c vrem s comparm trei mrci de autoturisme dup dou variabile observate, i anume dup consumul de combustibil la 1000 de km i dup preul de achiziionare (n $). Datele sunt cele prezentate n tabelul urmtor:
Autoturismul Consumul (litri/1000 km) Preul de achiziionare ($)

1 2 3
Media Ab. standard

45 43 47 45 2

30000 35000 34000 33000 2645.75

Distanele euclidiene calculate pentru cele trei autoturisme sunt prezentate n tabelul urmtor:
Autoturismul Distanele euclidiene/datele originale

1 2 3

1 0 5000 4000

2 5000 0 1000

3 4000 1000 0

Ele se ordoneaz astfel: d12 > d13 > d 23 indicnd faptul c cele mai similare sunt autoturismele 2 i 3 i cele mai disimilare sunt autoturismele 1 i 2. Se observ faptul c distanele au fost calculate din datele originale, n care pentru cele dou variabile s-au folosit uniti de msur foarte diferite ca ordin de msur (litri de combustibil la 1000 km i preul n $). Evident, distanele obinute sunt influenate de acest aspect. Pentru a elimina aceast influen suntem condui spre ideea standardizrii datele. n procesul de standardizare folosim mediile i abaterile standard. Prezentm n tabelul urmtor datele corespunztoare n form standardizat.
Autoturismul Consumul litri/1000 km. (n abaterea standard) Preul de achiziie ($) (n abaterea standard)

1 2 3
Media Abaterea standard

0 -1 1 0 1

-1,134 0,756 0,378 0 1

Distanele euclidiene calculate pe datele normate sunt prezentate n tabelul urmtor:


Distanele euclidiene/datele standardizate Autoturismul

1 2 3

1 0 2.137 1.812

2 2.137 0 2.035

3 1.812 2.035 0

Acum distanele se ordoneaz astfel: d12 > d 23 > d13 , i observm faptul c, autoturismule 1 i 3 devin cele mai similare, ns autoturismele 1 i 2 rmn cele mai disimilare. 2) S presupunem c televiziunea i radioul publice au, n cursul unei zile, un fond total de timp rezervat pentru reclam. Conform contractelor realizate, acest fond de timp s-a mprit ntre 4 produse, notate simbolic A, B, C i D. Dac datele sunt cele din tabelul urmtor, ne-ar interesa s apreciem dac fondul de timp a fost repartizat similar pentru cele patru produse sau nu. Ce indicator ar trebui folosit pentru a exprima asemnarea sau neasemnarea ntre obiectele matricei de date n aceast situaie?
Produsul Minute reclam Total minute

A B C D
Total minute

TV 2 1 3 4 10

Radio 5 3 8 4 20

7 4 11 8 30

Se observ faptul c informaiile din matricea de date exprim numrul de apariii ale unui eveniment (aici timp reclam). n acest caz este indicat s asociem datelor iniiale o matrice de contingen. S revenim la notaiile generale, matricea cu n indivizi i p variabile X (n p) exprimnd acum numrul de apariii ale unui eveniment. Dac i1 i i2 sunt dou linii ale unei asemenea matrice, o distan ntre ele se poate defini astfel:

xi j xi j d 2 (i1 , i 2 ) = bj 1 2 xi xi 2 1 j =1

(28)

unde b j =

x . x j

Se observ faptul c distana (28) este de fapt o distan euclidian xi j xi j ponderat ntre vectorii linie x1 = 1 i x 2 = 2 . Elementele acestor xi1 xi2 noi linii reprezint frecvene condiionate. Prezena n formula (28) a coeficienilor b j , de fapt ponderi, ne conduce la concluzia c distanele sunt
x j calculate folosind o matrice a ponderilor, i anume A = diag . x S revenim la exemplul repartizrii fondului de timp pentru reclam. Folosind formula (28) putem calcula distanele dintre produse. Mai nti vom transforma datele primare, construind o matrice de contingen folosind frecvenele marginale pe linii. Noile date, exprimnd pe linii profilul fiecrui individ (produs) sunt prezentate n tabelul urmtor.
Produsul A B C D Ponderile Frecvenele condiionate TV Radio 2/7 5/7 1/4 3/4 3/11 8/11 4/8 4/8 3 1.5
1

Se observ imediat c un calcul elementar ne permite s obinem distana ntre produsul A i produsul B. Mai nti d 2 ( A, B) = 3 (2 / 7 1 / 4) 2 + (3 / 2) (5 / 7 3 / 4) 2 = 0.0058 , apoi d ( A, B) = 0.076 . Aici distana msoar similaritatea ntre cele dou produse n ceea ce privete fondul total de timp repartizat. Celelalte distane calculate n acelai mod sunt urmtoarele: d ( A, C ) = 0.027 i d ( B, C ) = 0.048 . Gruparea produselor este acum evident! Cum distana cea mai mic este ntre produsul A i produsul C, putem spune c acestea sunt cele mai similare n ceea ce privete fondul total de timp pentru reclam. Pentru aplicaiile n care dorim s grupm variabilele ntre ele putem folosi o msur de similaritate identic cu cea folosit n cazul gruprii indivizilor (liniilor matricei). Fie dou coloane j1 i j2 precizate; distana ntre ele se calculeaz cu formula:

d 2 ( j1 , j 2 ) =

j =1

xi j1 xi j2 bi x j x j2 1

(29)

unde bi =

x . xi

3) n afara distanelor date de normele Lr amintite, se mai poate folosi ca msur a proximitii i coeficientul de corelaie liniar. Folosind formulele cunoscute se construiete matricea coeficienilor de corelaie R( p p) asociat celor p variabile, iar analiza similaritii se poate face acum folosind elementele acestei matrice.
3.3.2 Indicatori de proximitate ntre clase. Algoritmi de agregare

Atunci cnd dorim s evalum proximitatea ntre clase (grupuri) de indivizi, putem recurge la mai multe proceduri. Iat trei dintre acestea: a) Metoda vecinilor celor mai apropiai. Prin aceasta, distana dintre dou clase este asimilat cu distana dintre elementele cele mai apropiate ntre ele (elemente aparinnd, evident, la grupuri diferite). Utilizarea acestei metode poate conduce la riscul apariiei de grupuri foarte eterogene, deoarece nu lum n calcul elementele extreme ale clasei. b) Metoda vecinilor celor mai deprtai. Prin aceasta, distana dintre dou clase este asimilat cu distana dintre elementele cele mai deprtate ntre ele. (Ca mai sus, elementele vor aparine la clase diferite.) c) Metoda agregrii prin medii. Aceasta const n evaluarea distanei ntre dou clase pornind de la centrele lor de greutate. Dei aceast metod este foarte logic, ea cere multe calcule suplimentare n comparaie cu primele dou. De aceea, de multe ori este mai indicat a se utiliza una dintre metodele anterioare.
Distana ntre vecinii deprtai

B A

O1 D

Distana ntre centre

O2 Q

Distana ntre vecinii apropiai

S explicm cele trei metode pe exemplul din figura anterioar. Aici avem deja constituite dou clase: prima format din elementele A, B, C, i D, iar a doua format din elementele P, Q i R. Am mai marcat n prima clas centrul de greutate O1 iar n clasa a doua centrul de greutate O2. a) Dup metoda vecinilor celor mai apropiai, distana dintre cele dou clase este dat de distana de la punctul C la punctul P. b) Dup metoda vecinilor celor mai deprtai, distana ntre clase este dat de distana dintre A i R. c) Dup metoda agregrii prin medii, distana dintre clase este distana dintre centrele lor de greutate, marcate cu O1 i O2. Se pot lua n considerare dou strategii de clasificare constnd n: 1) precizarea aprioric a numrului de clase, urmnd ca algoritmul s distribuie fiecare element spre clasa ce-l reprezint; 2) folosirea unei metode ierarhice de clasificare. Metodele ierarhice de formare a claselor se caracterizeaz prin faptul c numrul de clase nu este cunoscut dinainte, ci este determinat pe parcurs, prin algoritmul de clasificare. Se disting dou categorii de algoritmi ierarhici de clasificare, i anume algoritmii ascendeni (sau de agregare) i algoritmii descendeni. n cele ce urmeaz vom prezenta paii principali pentru un algoritm de agregare. Presupunem c avem n indivizi pe care dorim s-i clasificm.
Pasul 1. Se consider n0 = n, adic partiia cea mai fin, format iniial din clase cu un singur individ fiecare. n aceast mulime de indivizi/clase se selecioneaz doi, cei mai apropiai dup indicele de proximitate folosit. Acetia vor forma primul grup. Pasul 2. Se calculeaz o nou matrice de proximitate ce conine n0 - 1 linii, corespunztoare celor n0 2 obiecte/clase nc negrupate i primului grup creat.

Pe baza acestei noi matrice se identific alte dou obiecte, cele mai apropiate ntre ele, i cu acestea se va forma un nou grup. Iterativ, aceste obiecte pot fi fie doi indivizi, fie un individ i un grup deja constituit, fie dou grupuri deja constituie. Descretem n0 (= n0 1) i repetm pasul 2 pn cnd toi indivizii au fost grupai.

S presupunem c avem un grup format din dou obiecte P i Q (ce pot fi indivizi sau grupuri) i un alt obiect (individ sau grup), fie el R. O formul general de calcul a distanei dintre grupul P + Q i R este urmtoarea: d ( R, P + Q ) = 1d ( R, P) + 2 d ( R, Q) + 3 | d ( R, P) d ( R, Q) | unde coeficienii j sunt factori de ponderare descrii n tabelul urmtor (tabelul 2).
Tabelul 2. Indicatori de proximitate

Algoritmul Vecinilor celor mai apropiai (Single linkage) Vecinilor celor mai deprtai (Complete linkage) Agregrii prin medii (Average linkage weighted)

3
0

nP n P + nQ

nQ n P + nQ

nQ

n tabelul 2 am notat cu n P numrul de elemente din grupul P i cu numrul de elemente din grupul Q. Se poate observa c formula de

calcul, n cazul vecinilor celor mai apropiai, este d ( R, P + Q) = min{d ( R, P), d ( R, Q)} .
Exemplul 3. S examinm paii parcuri pentru gruparea indivizilor din exemplul 1. Aici cele trei puncte, corespunztoare celor trei indivizi, sunt: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) .

Algoritmul ncepe cu n0 = 3, clasele iniiale fiind chiar indivizii notai prin P = {x1} , Q = {x 2 }, R = { x3 } . Analiznd distanele euclidiene dintre acetia obinem matricea

0 1 D= 1 0 50 41 aadar primul grup se P + Q = {x1 , x 2 } .

50 41 , 0 va constitui din indivizii P i Q, adic

n algoritmul vecinilor celor mai apropiai, distana de la grupul P + Q = {x1 , x 2 } la individul negrupat R este:

d ( R, P + Q) = 0.5 50 + 0.5 41 0.5 | 50 41 |= 41 ,

0 iar noua matrice asociat va fi: 41

41 . 0

Dac folosim metoda vecinilor celor mai deprtai, vom avea:

d ( R, P + Q) = 0.5 50 + 0.5 41 + 0.5 | 50 41 |= 50


0 iar matricea asociat este 50 50 . 0

Dac folosim metoda agregrii prin medii, avem un compromis ntre cele dou situaii extreme. Distana calculat este:

d ( R, P + Q) = 0.5 50 + 0.5 41 = 6.737 .


n finalul clasificrii, punctul R se altur grupului P + Q , deosebirea fiind dat de nivelul agregrii ultimului punct ( 50 = 7.071 , 41 = 6.403 sau 6.737). Prezentm n figura 3 o asemenea dendrogram pentru cazul agregrii medii. Pe ordonat avem marcat nivelul de agregare ntre obiecte, i anume distana euclidian. n softul de specialitate existente se poate alege ca indicator de clasificare i ptratul distanei.
7

1 R Q P
Figura 3. Exemplu de dendrogram

Nivelul de agregare al obiectelor este reprezentat pe ordonata dendrogramei, acesta fiind un element important n analiza constituirii constituirea claselor. De exemplu, dac mai sus alegem nivelul de agregare subunitar, vom distinge trei clase formate din cele trei puncte iniiale P = {x1} , Q = {x 2 }, R = { x3 } . Dac nivelul de agregare este ales ntre 1 i 7, vom avea dou clase P + Q = {x1 , x 2 } i R = { x3 } . Evident, dac nivelul de agregare este mai mare dect 7, vom avea o singur clas.

Capitolul 4. Metode de nvare supervizat


n cele ce urmeaz vom prezenta pe scurt tehnici de nvare supervizat. Reamintim c aceste tehnici au ca scop construirea unui model al datelor iniiale n care o parte dintre variabile sunt explicative (variabile predictor) i una sau mai multe variabile sunt variabile rspuns. Dintre tehnicile supervizate amintim: regresia liniar multipl, regresia logistic, analiza canonic i analiza discriminrii. 4.1 Analiza canonic Este bine cunoscut faptul c, pentru a evalua legtura (liniar) ntre dou variabile cantitative, putem alege s calculm coeficientul de corelaie Pearson i s interpretm valoarea obinut. Dar dac am dori s evalum legtura liniar ntre dou seturi de variabile (cantitative)? O idee ce pare raional este cea a evalurii corelaiei ntre dou combinaii liniare, care reprezint optimal cele dou seturi de variabile. Aceasta este ideea exploatat n cadrul analizei canonice, introdus de ctre Hotelling n 1936!. De obicei, analiza canonic este folosit n urmtorul context: asupra unor indivizi ai populaiei s-au fcut att msurtori obiective, ct i aprecieri subiective (exprimate ns cantitativ, sub forma unor note). Aadar, primul set de variabile este format din cele obiective, fie acestea x1 , x 2 ,..., x p . Datele obinute de la cei n indivizi vor forma matricea X (de dimensiuni n p ). Al doilea set de variabile este format din cele subiective, fie acestea y1 , y 2 ,..., y q , iar datele obinute de la cei n indivizi vor forma matricea Y (de dimensiuni n q ). De exemplu, indivizii ar putea fi un ansamblu de firme, variabilele obiective ar putea fi indicatorii financiar-contabili, iar variabilele subiective ar putea fi nota acordat (de ctre un panel de specialiti) politicii de promovare a produselor, preferina acionarilor pentru active etc. n spaiul R p+ q al variabilelor x1 , x 2 ,..., x p , y1 , y 2 ,..., y q , variabilele obiective vor determina un subspaiu, pe care s-l notm cu O. Analog, subspaiul variabilelor subiective va fi notat cu S. Odat aleas o variabil, indiferent de ce tip (obiectiv sau subiectiv), valorile ei prelevate de la cei n indivizi formeaz un vector din spaiul R n . n acest spaiu se poate considera o distan ntre vectori care s

in seama de eventuala pondere wi asociat individului i, distan definit de formula

d( z1 , z 2 ) = ( z1 z 2 ) T W ( z1 z 2 ) n care W = diag( w1 , w2 ,..., wn )


Odat stabilite cele dou seturi de variabile, ne putem imagina diverse combinaii liniare (cu coeficieni a j , bk reali)

= a1 x1 + a 2 x 2 + ... + a p x p , = b1 y 1 + b2 y 2 + ... + b p y q .
care sunt vectori n subspaiul O, respectiv S. Odat prelevate datele de la cei n indivizi (ceea ce nseamn c matricele X i Y sunt cunoscute), valorile acestor combinaii liniare se obin prin formulele

= Xa , = Yb
coloan al coeficienilor b1 , b2 ,..., bq .

(1)

unde a este vectorul coloan al coeficienilor a1 , a 2 ,..., a p iar b este vectorul Pentru fiecare pereche de combinaii liniare, putem calcula coeficientul de corelaie r , . Scopul analizei canonice asupra acestor date const n gsirea acelei perechi * O , * S pentru care coeficientul de corelaie (sau ptratul su) este maxim n valoare absolut, adic

r2*, * = max r2, .


O S

(2)

y2

y1

x2

x1

x3

Figura 1. Caracteristicile canonice

Valoarea ptratului coeficientului de corelaie r2*, * este o msur a modului n care notele subiective acordate indivizilor reflect caracteristicile obiective ale lor. Evident, valori apropiate de 0 indic faptul c n aprecierea subiectiv nu se ine seam deloc de caracteristicile obiective alese. Pentru a ne asigura de unicitatea perechii *, * , vom presupune c avem de-a face cu versori, adic *T W * = *T W* = 1 . Despre aceti * = Xa * i * = Yb * se spune c sunt caracteristicile canonice, despre vectorii coeficienilor a * i b * se spune c sunt factorii canonici, iar valoarea r *,* este numit corelaia canonic. n analiza canonic se ncearc, n cazul detectrii unei valori mari a corelaiei canonice, determinarea caracteristicilor canonice care vor nlocui grupele de variabile iniiale apoi explicarea acestor caracteristici canonice prin variabilele iniiale, ceea ce implic aflarea factorilor canonici. Formulele de calcul sunt uor de dedus geometric, ntruct coeficientul de corelaie ntre doi vectori poate fi interpretat drept cosinusul unghiului dintre ei. Dac presupunem c-l cunoatem pe * S , atunci orice vector * O pentru care coeficientul de corelaie r *,* este maxim va fi unul dintre cei pentru care unghiul (vezi figura 2) este minim, n particular l vom putea alege ca proiecie a lui * pe subspaiul O. Dac vom impune condiia ca * S i * O s fie versori, atunci proiecia lui * pe subspaiul O va fi exact r * unde r = r *, * este corelaia canonic.

r*

*
*

Figura 2. Proiecia unei caracteristici canonice pe subspaiul celeilalte

n general, proiecia z a unui vector z R n pe subspaiul O (vezi figura 3) se obine prin nmulire cu o matrice de proiecie: z = projO ( z ) = Pz . (3) S exprimm pe z ca o combinaie liniar de vectorii x1 , x 2 ,..., x p (cu coeficienii formnd vectorul a ): z = Xa . Dat fiind c diferena z z este un vector ortogonal pe subspaiul O, el este ortogonal pe fiecare vector x j , iar din aceste condiii de ortogonalitate deducem
x j Wz = x j Wz = x j WXa pentru j {1, 2, ..., p} ,
T T T

condiii ce se exprim unitar astfel


X TWz = X TWXa .
z

(4)

O
z xj
Figura 3. Calculul proieciei unui vector

Admind c matricea X are rangul maxim (= p), drept consecin matricea X TWX (de ordin p p ) este inversabil, iar ca urmare

a = ( X TWX ) 1 X TWz i astfel z = X ( X TWX ) 1 X TWz .


Am stabilit astfel c matricea de proiecie este P = X ( X TWX ) 1 X TW . Dat fiind c proiecia P * a lui * este exact r * , obinem:

X ( X TWX ) 1 X TW* = r * .

(5)

n mod dual (inversnd rolurile subspaiilor O i S i admind c i matricea Y are rangul maxim q),

Y (Y TWY ) 1Y TW * = r * .
Din ultimele dou relaii vom obine

(6)

X ( X TWX ) 1 X TWY (Y TWY ) 1Y TW * = r 2 * .


Pentru simplificarea scrierii, s facem notaiile:

(7)

T V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XY , VYY = Y TWY ,

ceea ce conduce la re-exprimarea relaiei (7) n forma ce urmeaz:

XV XX 1V XY VYY 1Y TW * = r 2 * ,

(8)

ceea ce nseamn c r 2 este valoare proprie a matricei XV XX 1V XY VYY 1Y TW , iar * este versorul propriu corespunztor. Analog, * este versor propriu al matricei YVYY 1VYX V XX 1 X TW . Determinarea corelaiei canonice i a caracteristicilor canonice este astfel ncheiat prin rezolvarea a dou probleme de valori/vectori proprii. Pentru a afla i factorii canonici, vom folosi exprimrile:

* = Xa * i * = Yb *
precum i relaiile de mai sus. Rezult imediat c a * este vector propriu al matricei A = V XX 1V XY VYY 1VYX iar b * este vector propriu al matricei

B = VYY 1VYX V XX 1V XY , valoarea proprie corespunztoare fiind aceeai

r2 .
Implementarea algoritmic a formulelor de mai sus va putea s in 1 seam de relaia b* = VYY 1VYX a * precum i de altele asemntoare. r De asemenea, se pot programa cu uurin exprimri ale caracteristicilor iniiale x j (sau y k ) n raport cu cele canonice. Softul statistic ofer, de regul, toate aceste informaii.
4.2 Analiza discriminrii

Metodele de analiz a discriminrii se aplic unei populaii de indivizi caracterizai prin variabile continue sau categoriale care sunt a

priori (uneori natural) mprii n grupuri. Scopul analizei discriminrii este acela de a clasifica una sau mai multe observaii n aceste grupuri deja precizate. De exemplu, sunt bine-cunoscute modelele de credit scoring folosite de bnci. Acestea presupun c o banc important dispune de informaii privind clienii si, att despre cei buni platnici (care ramburseaz creditul fr probleme) ct i despre cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la vrst, salariu, starea social, stabilitatea slujbei, alte probleme cu rambursarea vezi i exemplul 6 din Anexa 1. Cnd apare un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin caracteristicile sale: vrst, salariu, starea social etc. Banca va decide dac i acord sau nu creditul aplicnd o regul de discriminare. n urma aplicrii acestei reguli solicitantul va primi un scor i, pe baza acestuia, va fi clasificat ntr-una dintre grupurile deja existente. Analiza discriminrii ofer modalitatea de a discerne, adic de a formula regula de discriminare folosind istoricul clienilor bncii dar, n acelai timp, ofer i o msur a evalurii riscului unei decizii greite. Sintetiznd, putem s afirmm c, n analiza discriminrii populaia de indivizi care au fost cercetai este mprit n grupuri i c dispunem de datele observate pentru aceti individ. (n unele situaii grupurile apar n mod natural, n altele ele sunt rezultatul unei analize anterioare.)

Scopul unei metode de discriminare variaz dup domeniul n care se aplic. S exemplificm cu urmtoarele dou exemple. Exemplul 1. Presupunem c ne aflm n domeniul potal i avem n vedere punerea la punct a unui sistem de recunoatere i de triere automat a unor coduri potale scrise manual. n acest caz, populaia analizat este constituit din secvene de 6 cifre (scrise manual) 10 grupuri posibile pentru fiecare cifr a secvenei avnd fiecare caracteristicile sale morfologice. Scopul unei analize de separare (discriminare) n acest context este pur decizional, fiind vorba de a elabora reguli de decizie pentru recunoaterea celor 10 cifre cu minim de eroare. Exemplul 2 1 . n septembrie 1992 francezii s-au pronunat prin referendum asupra ratificrii tratatului de la Maastricht privind actul de nfiinare a Uniunii Europene. Votul a mprit votanii n dou grupuri: unii au fost pentru, alii mpotriva tratatului. Comentatorii politici au fost interesai, la vremea respectiv, s descrie din punct de vedere social/
1

Jean-Pierre NAKACHE, Analyse Discriminante sur Variables Qualitatives, Polytechnica Paris, 1994.

economic portretul partizanilor, dar i pe cel al opozanilor tratatului. n acest exemplu suntem confruntai cu o problem discriminant dar, de aceast dat, scopul ei nu este decizional, ci explicativ: se urmrete s se descopere ct mai bine care au fost motivaiile electorilor n decizia de vot. n concluzie, putem afirma c, n general, analiza discriminant are dou scopuri bine precizate, i anume: Un scop decizional, destul de frecvent, ce are n vedere construirea unei reguli de afectare a indivizilor la un grup, regul ce poate fi aplicat i n viitor. Aceast regul se construiete n funcie de ansamblul de variabile predictor observate asupra indivizilor. O regul bun de afectare este aceea care va conduce n viitor la erori de clasare a observaiilor viitoare ct mai mici posibile. Un scop explicativ, prin care se urmrete s se descopere variabilele cele mai pertinente n descrierea diferenelor dintre grupurile formate a priori.
4.2.1 Analiza discriminrii decizionale. Reguli de alocare S presupunem c avem o populaie de indivizi mprit n J grupuri (subpopulaii) disjuncte 1 , 2 ,..., J prin valorile 1, 2, ..., J ale unei variabile categoriale. Fiecare individ al populaiei este descris prin p variabile continue, notndu-se valorile ce-l caracterizeaz cu x = ( x1 ,..., x p ) , deci poate fi identificat cu un punct din R p .

O regul de discriminare produce o separare a spaiului R p n mulimile R1 , R2 ,..., R J astfel nct dac x R j atunci individul caracterizat de x va fi considerat ca aparinnd grupului (subpopulaiei) j . Sarcina principal n construirea unei reguli de discriminare este aceea de a gsi regiuni bune R j astfel nct eroarea de clasificare greit a unui individ s fie ct mai mic. Vom prezenta n continuare cteva reguli de discriminare, pentru cazul n care sunt cunoscute repartiiile populaiilor. A) Regula de discriminare prin verosimilitate maxim Notm cu f i ( x ) densitatea de probabilitate a populaiei i , i {1, 2, ..., J } . Regula de discriminare prin verosimilitate maxim (ML = maximum likelihood) aloc un individ descris prin punctul x la acea populaie j pentru care se realizeaz probabilitatea maxim, adic:

x este alocat lui j j = arg max f i ( x) .


i =1,... J

(9)

S notm cu L j ( x ) acea densitate de probabilitate f j ( x) care realizeaz maximul (9). Matematic, mulimea R j este definit astfel
R j = {x R p | f j ( x) > f i ( x), i = 1, 2,..., J , i j} .

S evalum eroarea de clasificare greit. S presupunem c avem dou clase, adic J = 2. Putem calcula probabilitatea de a aloca pe x la grupul 2 atunci cnd el este de fapt n grupul 1 astfel:

p 21 = P( x R2 | 1 ) =

R2

f1 ( s )ds

(10)

i similar, probabilitatea de a aloca pe x la grupul 1 atunci cnd el este de fapt n grupul 2 este

p12 = P( x R1 | 2 ) =

R1

f 2 ( s )ds .

(11)

Putem s construim o regul de alocare asociind costuri unei clasificri eronate. Astfel, o clasificare greit determin un cost C ( j | i ) al erorii de clasificare a unui individ din populaia i n regiunea R j . Fie i probabilitatea a priori asociat populaiei i , adic probabilitatea ca un individ oarecare, ales aleatoriu, s fie din populaia i . (Aceast probabilitate a priori poate fi estimat pe baza experienei anterioare asupra populaiei studiate!). Folosind noiunile precizate mai sus, putem s calculm un cost mediu CM al erorii de clasificare prin:

CM = C (2 | 1) p 211 + C (1 | 2) p12 2 .

(12)

Evident, vom ncerca s construim reguli de alocare pentru care expresia (12) s aib valoare minim. Pentru gruparea n dou populaii regula de discriminare bazat pe realizarea unui cost mediu minim este dat de urmtoarea
Teorem. Formula lui CM conduce la construirea urmtoarelor regiuni de alocare:

f ( x) C (1 | 2)2 f1 ( x) C (1 | 2)2 < R1 = x 1 , R2 = x . f 2 ( x) C (2 | 1)1 f 2 ( x) C (2 | 1)1

Observaie. Regula de alocare prin verosimilitate maxim este un caz particular al regulii de alocare pe baza costului mediu minim. Ea se obine lund costurile erorilor egale ntre ele, C ( 2 | 1) = C (1 | 2) = 1 , i de asemenea probabilitile a priori egale, 1 = 2 . Exemplu. S considerm cazul n care cele dou populaii sunt 2 ) , 2 ~ N ( 2 , 2 repartizate normal 1 ~ N (1, 1 2 ) , cunoscnd c densitile de probabilitate sunt:
fi ( x) = ( x i ) 2 1 , i {1, 2} exp 2 2 i 2 i

Astfel, x va fi alocat la 1 prin regula verosimilitii maxime dac x R1 = {x | f1( x) > f 2 ( x)} . n acest caz, condiia f1( x) > f 2 ( x) este echivalent cu
2 1 1 2 1 2 1 2 + x 2 x < 2 log 2 2 2 2 2 2 2 1 1 2 2 1 2 1 2
1 2

(13)

S presupunem c 1 = 0 , 1 = 1 i 2 = 1 , 2 = . Aplicarea formulei (13) ne conduce la definirea regiunilor de alocare astfel:


R1 = x x <

1 4 3

4 + 6 log(2) sau x >

1 4 + 3

4 + 6 log(2)

R2 = R p \ R1 .
n cazul n care densitile de repartiie au aceleai dispersii i s presupunem c 1 < 2 , regula de verosimilitate maxim conduce la definirea urmtoarelor regiuni:
R1 = {x | x (1 + 1 )}, R2 = {x | x > (1 + 1 )} .
1 2 1 2

S presupunem acum c avem un numr oarecare de subpopulaii, fie ele J i c densitile de probabilitate pe spaiul R p sunt normale cu media = (1 ,..., J ) i matricea de varian-covarian . Avem urmtoarea Teorem. Prin regula de verosimilitate maxim (ML) un punct x se aloc la populaia j dac i numai dac

j = arg min ( x i ) T 1 ( x i ) ,
i =1,... J

adic punctul se aloc acelei populaii pentru care distana Mahalanobis ntre punct i valoarea medie este cea mai mic.
Observaie. n practic, vectorul mediilor este estimat prin centrele de greutate ale grupurilor respective, iar matricea de varian-covarian este estimat prin matricea ineriei ntre grupuri. B) Regula de discriminare Bayes

n regula de discriminare prin verosimilitate maxim am considerat i probabilitatea a priori asociat populaiei i (pentru i {1, 2, ..., J } ), evident cu proprietatea

= 1.

Prin regula de alocare bayesian x se aloc acelui grup (populaii j ) corespunztor probabilitii a posteriori maxime, adic:
x este alocat lui j j = arg max f i ( i | x) ,
i =1,... J

(14)

f i ( i | x) fiind probabilitatea a posteriori asociat populaiei i .

Prin formula lui Bayes avem:

f i ( i | x ) =

i f i ( x)

f ( x)
l l l =1
i =1,... J

(15)

i putem folosi regula de alocare:


x este alocat lui j j = arg max i f i ( x)

(16)

Prin urmare, regiunea corespunztoare regulii de alocare (16) se poate descrie astfel:
R j = {x R p | j f j ( x ) i f i ( x ), i = 1, 2,..., J }

(17)

Observaie: Regula Bayes este identic cu regula de discriminare ML dac probabilitile a priori sunt i =
1 J

4.2.2 Analiza discriminrii factoriale

n 4.2.1 am prezentat modele de analiz a discriminrii ce au doar un scop decizional. n acest paragraf vom prezenta tehnici de analiz a discriminrii care au i un scop explicativ. Tehnica discriminrii factoriale este asemntoare cu tehnica componentelor principale prezentat n Capitolul 3. Dac avem de rezolvat o problem de discriminare, atunci avem indicat i o variabil rspuns de tip categorial. S presupunem c aceasta are q modaliti; prin urmare, eantionul de n indivizi va fi grupat, dup variabila categorial n q clase. Reamintim c: a) matricea X ( n p ) a datelor reprezint n indivizi asupra crora sau msurat p variabile, aici variabile predictor. Aceast matrice o putem privi fie linie cu linie exprimnd informaii despre cei n indivizi, fie coloan cu coloan exprimnd informaii despre cele p variabile. Prin urmare: oricrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente, care va fi scris: xi = ( xi1 , xi 2 ,..., xip ) R p ; oricrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: x j = ( x1 j , x 2 j ,..., x nj ) T R n ; b) am notat cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p variabile, iar punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit centrul de greutate al norului de puncte; c) am notat cu s = ( s1 , s 2 ,..., s p ) vectorul abaterilor standard calculate cu vectorii coloan ai matricei X. Mai considerm : d) matricea V = ( sij ) i =1, 2,...,n; j =1, 2,... p de varian-covarian estimat pentru cele p variabile predictor; e) vectorul mediilor variabilelor predictor pentru fiecare dintre cele q l l clase. Corespunztor clasei l, fie m l = ( m1 , m2 ,..., m lp ) vectorul mediilor celor p variabile predictor calculat pe baza indivizilor din clasa l; el se numete centrul de greutate al clasei l; evident l = 1,2,..., q ;

f) matricea de covarian W l a celor p variabile predictor, matrice calculat pentru indivizii clasei l, l = 1,2,..., q ; g) matricea W = W 1 + W 2 + ... + W p , care este numit matricea de covarian pentru interiorul claselor; h) matricea B = V W , care este numit matricea de covarian ntre clase. Fie n spaiul Rp o dreapt de versor u = (u1 , u 2 ,..., u p ) T . Dac n analiza componentelor principale alegeam acea dreapt care s recupereze cea mai mare cantitate de informaie din informaia total a norului de puncte, n analiza discriminrii vom alege acea dreapt care permite o separare optim a proieciilor n clase. S vedem la ce ne conduce acest obiectiv! Fie un individ k ale crui coordonate n spaiul variabilelor sunt ( x k1 , x k 2 ,..., x kp ) i care se identific cu un punct n Rp. Proiectnd acest punct pe dreapta obinem valoarea (18) c k = x k1 u1 + x k 2 u 2 + ... + x kp u p ce reprezint distana proieciei punctului pe dreapta fa de centrul de greutate al norului de puncte m. Valoarea c k asociat individului k se mai numete scor asociat dreptei . Pentru ansamblul indivizilor putem scrie vectorul coloan al scorurilor C = Xu (19) Vectorul u = (u1 , u 2 ,..., u p ) T , versor al dreptei , se numete factor de discriminare iar C se mai numete componenta de discriminare. Un model liniar al problemei de discriminare poate fi urmtorul:
z = 1 x1 + 2 x 2 + ... + p x p

(20)

n care z este o nou variabil, exprimat printr-o funcie liniar de cele p variabile predictor. Dac 1 = u1 , 2 = u 2 ,..., p = u p , expresia din (20) este numit funcie de discriminare iar coeficienii si se mai numesc i coeficieni de discriminare. Tehnica discriminrii factoriale se bazeaz pe descompunerea varianei totale V n cele dou componente ale sale i anume W variana pentru interiorul claselor i B pentru variana ntre clase, avem V = W + B .

Analog tehnicii componentelor principale, nlocuind indivizii prin proieciilor lor pe o ax de versor u = (u1 , u 2 ,..., u p ) T , avem: u T Vu = u T Wu + u T Bu . (21)

Scopul unei tehnici de discriminare este acela de a gsi acea ax pentru care discriminarea proieciilor pe ea s fie maxim. Un caz ideal ar fi acela n care covariana pentru interiorul claselor este nul, u T Wu = 0 corespunznd situaiei n care toate punctele dintr-un grup sunt proiectate n centrul de greutate al grupului respectiv. Am avea n acest caz u T Vu = u T Bu iar alegerea celei mai bune axe de discriminare revine la maximizarea expresiei u T B u (pentru soluionarea problemei vezi Capitolul 3, 3.1). n practic se maximizeaz ns raportul = u T Bu u T Vu . (22)

Se observ c acesta ia valori n intervalul [0, 1] i exprim, n procente, bonitatea discriminrii. Aflarea versorului u soluie a problemei (22) se reduce la aflarea soluiei sistemului algebric de ecuaii: V 1 Bu = u (23)

cu alte cuvinte, u va trebui s fie unul dintre vectorii proprii ai matricei V 1 B , corespunztor valorii proprii maxime. Dac notm cu f 1 un asemenea vector propriu, el ne va determina primul factor de discriminare. Apare o prim component de discriminare C 1 = Xf 1 . Lund n continuare urmtoarea valoare proprie obinem al doilea factor de discriminare f 2 i, corespunztor lui, a doua component de discriminare

C 2 = Xf 2 , etc.
S considerm c variabila categorial ce mparte populaia n clase are doar dou modaliti, deci q = 2. Se poate demonstra c vectorii proprii diferii de 0 ai matricei V 1 B sunt n numr de q 1. Avem aadar doar o singur funcie de discriminare i un singur factor de discriminare

f 1 = V 1 (m 2 m1 ) .

Clasificarea indivizilor pe baza funciei de discriminare gsite se face folosind relaia (18) pentru proiectarea centrelor de greutate ale celor dou clase pe axa de discriminare. Fie aceste proiecii c1 , c 2 . Scorul de separare (cutting score) al indivizilor pe axa de discriminare se obine cu formula:

cCS =

n1c1 + n2 c 2 n1 + n2

(24)

(n care am notat cu n1 , n2 frecvenele celor dou clase). Regula de decizie n reclasificare, pentru un individ cu scorul c k , este urmtoarea dac c k < cCS , atunci individul k este repartizat primei clase, dimpotriv dac c k cCS , atunci individul k este repartizat celei de-a doua clase. Rata succesului discriminrii se calculeaz cu formula: n + n22 p S = 11 n1 + n2 n care am folosit notaiile din urmtorul tabel: Grupul iniial 1 2 Numr de indivizi n grupul iniial Grupul dup reclasificare 1 2

(25)

n1 n2

n11 n21

n12 n22

Pentru dou clase cu frecvene egale, o procedur aleatoare de repartizare n clase ar avea o rat a succesului de 50%; aadar, diferena dintre p S i 50% poate fi folosit ca indicator al calitii discriminrii. Unul dintre obiectivele analizei discriminrii este i acela de a repera i explica contribuia variabilelor predictor n separarea n clase. Acest obiectiv se realizeaz prin indicatori statistici specifici, n urmtoarele etape:

1)

Se verific mai nti importana fiecrei variabile predictor folosind de exemplul testul statistic F de verificare a omogeneitii claselor. Se calculeaz pentru fiecare variabil predictor statistica a lui Wilks ca raport ntre suma ptratelor variaiilor n interiorul claselor i variaia total. Valori apropiate de 0 indic faptul c variabila predictor este discriminat. O variabil este cu att mai discriminat cu ct ei i corespunde o valoare mai mare pentru statistica F i o valoare mai mic pentru statistica a lui Wilks.

2)

3)

n softul statistic sunt disponibile urmtoarele abordri n analiza discriminrii prin tehnici factoriale: 1. Selectarea forward n care se ncepe cu un model vid, fr nici o variabil predictor, adugndu-se pe rnd cte o variabil predictor, anume aceea care contribuie cel mai mult la discriminare. (Pentru alegerea ei se folosete statistica a lui Wilks.) Eliminarea backward n care se pornete cu un model complet, cu toate variabilele predictor prezente. Se elimin pe rnd, la fiecare pas, variabila predictor care contribuie cel mai puin la discriminare. (n alegere se folosete din nou statistica a lui Wilks.)

2.

Cele dou abordri sunt metode pas cu pas i ncearc s gseasc cel mai bun model de discriminare.

Capitolul 5. Aplicaii economice


Vom descrie n acest capitol cteva aplicaii economice ale tehnicilor prezentate n Capitolele 14. Vom folosi exemplul 2 din Anexa 1, dar vom prezenta i alte aplicaii noi, utile pentru un economist, cum ar fi modelul de credit scoring dar i unele tehnici de analiz pe tabele de contingen. 5.1 Analiza i clasificarea firmelor pe baza indicatorilor financiari S considerm problema descris n exemplul 2 din Anexa 1. n acest exemplu sunt prezentai 7 indicatori financiar-contabili, calculai pentru un lot de 12 firme, indicatorii fiind urmtorii: I1: Total datorii/capital social; I3: Profit brut/total activ; I5: Datorii/total activ; I7: Rata de cretere a activului. I2: Cifr de afaceri/total activ; I4: Capital social/cifr de afaceri; I6: log(Activ);

Matricea de date coninnd valori ale acestor indicatori pentru cele 12 firme este prezentat n tabelul urmtor: Firma
1 2 3 4 5 6 7 8 9 10 11 12 I1 0,414 0,231 0,432 0,156 0,227 0,295 0,261 0,446 0,352 0,267 0,703 0,206 I2 0,032 0,324 0,684 0,326 0,124 0,176 0,470 0,343 0,831 0,141 0,185 0,969 I3 0,000 0,034 0,054 0,020 -0,080 0,026 0,023 0,020 0,036 0,003 0,002 0,029 I4 5,59 2,45 1,05 2,59 7,49 4,33 1,77 2,17 0,82 5,20 3,27 0,72 I5 0,677 0,165 0,204 0,129 0,149 0,199 0,147 0,240 0,243 0,258 0,268 0,26 I6 7,03 7,45 7,32 7,16 7,54 7,72 7,62 8,08 7,18 8,27 8,15 8,38 I7 0,62 0,40 0,40 0,47 0,43 0,45 0,46 0,38 0,37 0,31 0,42 0,36

Scopul analizei matricei de date n acest exemplu este acela de a afla civa indicatori relevani (de regul doi sau trei), pe baza crora s putem

obine o clasificare ct mai elocvent a firmelor. Problema formulat n acest mod ne conduce spre ideea utilizrii tehnicii analizei componentelor principale, dublat i de o analiz a clasificrii (vezi Capitolul 3, 3.1). S ncepem analiza. Mai nti constatm c toate caracteristicile urmrite (anume indicatorii financiar-contabili) sunt variabile continue, scara lor de msur fiind uor de identificat. Prin urmare, ntr-o prim analiz putem calcula pentru fiecare dintre aceste variabile indicatorii de centrare i de mprtiere, cum ar fi media, valoarea minim i valoarea maxim, precum i abaterea standard (vezi tabelul urmtor). Descriptive Statistics
Valid N I1 I2 I3 I4 I5 I6 I7 12 12 12 12 12 12 12 Mean 0.332 0.383 0.014 3.120 0.244 7.658 0.422 Minimum 0.156 0.032 -0.08 0.72 0.13 7.03 0.31 Maximum 0.703 0.969 0.054 7.49 0.67 8.38 0.62 Std.Dev. 0.149 0.298 0.033 2.127 0.144 0.463 0.077

Remarcm faptul c elementele matricei de date iniiale ar necesita o standardizare, deoarece abaterile standard ale celor apte indicatori sunt destul de diferite. Pentru a vedea dac indicatorii calculai sunt independeni sau nu, vom analiza matricea coeficienilor de corelaie din tabelul urmtor:
I1 I1 I2 I3 I4 I5 I6 I7 1 -0.165 0.073 -0.052 0.351 0.165 0.092 I2 -0.165 1 0.559 -0.837 -0.265 0.078 -0.443 I3 0.073 0.559 1 -0.842 -0.050 -0.059 -0.174 I4 -0.052 -0.837 -0.842 1 0.274 -0.048 0.341 I5 0.351 -0.265 -0.050 0.274 1 -0.192 0.608 I6 0.165 0.078 -0.059 -0.048 -0.192 1 -0.619 I7 0.092 -0.443 -0.174 0.341 0.608 -0.619 1

Identificm n matrice coeficieni de corelaie mari i anume: ntre indicatorii I2 i I4 (n sens negativ), ntre indicatorii I3 i I4 (n sens negativ); de asemenea, apare un coeficient de corelaie destul de mare ntre

indicatorii I5 i I7 (n sens pozitiv) i ntre indicatorii I6 i I7 (n sens negativ). Pe baza acestor constatri am putea trage concluzia renunrii la unii indicatori, dar la care? Pentru a elimina subiectivismul deciziei, vom folosi tehnicile de analiz a componentelor principale implementate ntr-un mediu de analiz statistic. Ne propunem s identificm trei indicatori sintetici cu care ne-am mulumi n atingerea scopului propus. n acest context obinem urmtoarele o serie de categorii de informaii ce sunt utile pentru eliminarea subiectivismului n ierarhizarea firmelor. A) Informaiile privind calitatea ajustrii sunt exprimate cu ajutorul valorilor proprii ale matricei corelaiilor i a proprietilor acestora. 1 Reamintim faptul c raportul 1 = exprim cantitatea de informaie i
i =1,...,7

recuperat (sau variana explicat) de prima ax factorial, apoi + 2 = 1 2 exprim cantitatea de informaie recuperat (variana i
i =1,...,7

explicat) de primele dou axe factoriale .a.m.d. Vom putea analiza astfel calitatea ajustrii norului de puncte (n cazul nostru firmele) urmrind informaiile din tabelul urmtor:
Eigenvalues Eigenval 1 2 3 2.914 1.689 1.275 % total Variance 41.636 24.134 18.228 Cumul. Eigenval 2.914 4.603 5.879 Cumul. % 41.636 65.771 83.999

n coloana Eigenval identificm cele trei valori proprii, n ordine descresctoare, i anume: 1 = 2.914, 2 = 1.689, 3 = 1.275. Cum rangul matricei corelaiilor este 7, putem s explicm uor coninutul coloanei % total Variance i anume: ajustnd norul de puncte printr-o singur ax factorial (adic acceptnd doar un singur indicator sintetic), se explic 41.636% din totalul varianei datelor; apoi, ajustnd norul de puncte prin dou axe factoriale (adic acceptnd doi indicatori sintetici) recuperm nc 24.134% din variana total, adic un total de 65.771% din aceast varian (vezi i coloana Cumul. %). n sfrit, dac solicitm trei axe factoriale (adic ceea ce ne-am propus, trei indicatori sintetici) explicm 84% din variana total (ceea ce este un rezultat foarte bun!)

B) Informaiile despre axele principale sunt prezentate n tabelul urmtor:


Factor Score Coefficients I1 I2 I3 I4 I5 I6 I7 Factor 1 -0.051 -0.316 -0.384 0.388 -0.021 0.105 0.013 Factor 2 -0.152 -0.0049 0.113 -0.024 0.218 -0.535 0.445 Factor 3 0.676 -0.0981 0.124 -0.051 0.422 0.257 0.069

Coloana unui factor ne ofer informaii despre ponderile (coeficienii) cu care particip fiecare indicator financiar-contabil (I1, , I7) la descrierea factorului respectiv. Acest factor poate fi exprimat, prin urmare, ca o combinaie liniar de indicatorii financiar-contabili (cu coeficienii respectivi). C) Informaii despre scorurile firmelor, care sunt proieciile acestor firme (considerate ca puncte n spaiul indivizilor) pe cele trei axe principale sunt prezentate n tabelul urmtor:
Factor Scores Rotation: Varimax raw Factor 1 0.782 1 -0.294 2 -1.265 3 -0.132 4 2.177 5 0.340 6 -0.405 7 -0.150 8 -1.271 9 0.902 10 0.355 11 -1.037 12

Factor 2 2.366 0.170 0.253 0.882 -0.223 0.087 0.230 -0.823 0.320 -1.326 -0.963 -0.974

Factor 3 1.463 -0.717 0.222 -1.316 -1.184 -0.160 -0.559 0.753 -0.239 -0.030 2.030 -0.262

Cele trei coloane (Factor 1, 2 i 3) conin componentele principale sau noii indicatori sintetici calculai pentru cele 12 firme. Devine posibil acum reprezentarea grafic n spaiul tri- sau bidimensional pentru a observa

gruparea firmelor. n figura 1 prezentm cele 12 firme reprezentate n planul primelor dou axe principale. Observm un grup destul de compact de firme ce par a avea un comportament asemntor n raport cu noii indicatori, dar i dou firme, anume F5 i F1, care se detaeaz de grup.

1
F4 F9 F3
-2 -1

F1
2

F7

F2
0 0

F6
1 2

F5

F8

F12

-1

F11 F10

-2

Figura 1. Scorurile firmelor n planul axelor principale 1 i 2

D) Informaii privind interpretarea componentelor principale se obin analiznd coeficienii de corelaiile calculai ntre cele trei componente principale i indicatorii financiari-contabili. Reamintim faptul c dac C este o component principal (deci un vector din R n ) obinut plecnd de la o valoare proprie i un vector propriu u = (u1 ,..., u j ,..., u p ) , atunci coeficientul de corelaie dintre componenta principal C i variabila j iniial avnd valorile observate x j = ( x1 j ,..., x 2 j ,..., x nj ) este: rC , x j = u j ( j {1,2,..., p} ).

Dac, de exemplu, avem dou componente principale C1 i C2, obinem pentru fiecare variabil j perechea de coeficieni de corelaie ( rC1 , x j , rC 2 , x j ) . Aceste perechi, reprezentate n planul axelor principale sunt puncte n interiorul aa-numitului cerc al corelaiilor (n rare cazuri chiar i pe cercul unitate!). n acest context, interpretarea componentelor principale este relativ simpl. Anume, o component principal poate fi explicat

prin acea variabil iniial pentru care coeficientul de corelaie este maxim dar, n acelai timp, variabila iniial are cu celelalte componente principale coeficieni de corelaie mici. Revenind la exemplul nostru, se obin aa-numiii Factor Loadings se apar ntr-un tabel de forma urmtorului.
Factor Loadings (Unrotated) (Marked loadings are > .700000) Factor 1 -0.13 I1 I2 0.86 0.71 I3 -0.89 I4 -0.54 I5 0.31 I6 -0.70 I7 2.91 Expl.Var 0.42 Prp.Totl

Factor 2 -0.25 -0.22 -0.57 0.41 -0.56 0.64 -0.61 1.69 0.24

Factor 3 -0.87 0.10 -0.09 0.05 -0.37 -0.59 0.16 1.28 0.18

Aadar, componenta principal 1 fiind puternic corelat (pozitiv) cu indicatorul financiar-contabil I2 (care, la rndul su este slab corelat cu celelalte dou componente), se interpreteaz ca fiind un indicator sintez al rentabilitii (I2 este Cifra de afaceri/total activ, adic un indicator al rentabilitii). A doua component principal este greu de interpretat. Ea are un coeficient de corelaie relativ mare (negativ) cu indicatorul I7, dar acesta nu are coeficieni de corelaie mici cu celelalte dou componente rmase. Aceeai situaie este ntlnit i pentru a treia component principal. De aceea, pentru o analiz mai relevant i o interpretare mai apropiat de realitate, se recomand folosirea unei opiuni de rotire a axelor ce are ca scop obinerea unor coeficieni de corelaie ct mai mici pe una sau dou componente principale. Una dintre cele mai utilizate rotiri este cunoscut ca tehnica Varmax. n acest fel, interpretarea componentelor principale devine mai semnificativ. n exemplul nostru, apelnd la opiunea de rotire a axelor (Varmax), obinem informaiile din tabelul Factor Loadings urmtor.

Factor Loadings (Rotated) (Marked loadings are > .700000) Factor 1 -0.04 I1 -0.84 I2 I3 -0.90 I4 0.97 0.16 I5 0.07 I6 0.27 I7 2.57 Expl.Var 0.37 Prp.Totl

Factor 2 -0.11 -0.19 0.06 0.13 0.53 -0.89 0.87 1.89 0.27

Factor 3 0.90 -0.22 0.11 0.02 0.66 0.23 0.23 1.42 0.20

Se observ c de data aceasta am obinut coeficieni de corelaie mari pe cte o component dar mici pentru celelalte. Acum componenta principal 1 este interpretat n termenii indicatorului I3 sau eventual I4. (De fapt, matricea corelaiilor ne arat c acetia sunt puternic corelai ntre ei, deci putem renuna la unul.) Oricare dintre ei este nc un indicator sintez al rentabilitii. Componenta principal 2 este interpretat n termenii indicatorului I6 (corelaie negativ), adic este un indicator sintetic al mrimii firmei (reamintim c I6 este logaritmul activului firmei). Se observ faptul c componenta principal 2 se poate interpreta i n termenii indicatorului I7 (rata de cretere a activului), cu o corelaie pozitiv! Preferm explicarea prin indicatorul I7, ce exprim dinamica activului firmei. Componenta principal 3 este interpretat n termenii indicatorului financiar-contabil I1 (adic Total datorii/capital social) care este un indicator al structurii financiare. Dup ce am dat o interpretare acestor trei componente principale, putem s obinem o clasificare a firmelor, utiliznd proieciile n planul axelor principale. Ne folosim de scorurile acestor firme i de graficul din figura 1. Conform semnificaiei componentei principale 1 se observ faptul c scorul este cu att mai bun cu ct este mai mic (cci corelaia cu indicatorul I3 este invers). Pe de alt parte, n funcie de componenta principal 2 (care este corelat pozitiv cu rata de cretere a activului), un scor pozitiv pe aceast component este bun. Prin urmare, clasificm cele 12

firme n planul indicatorilor sintetici de rentabilitate i dinamic a activului astfel: Clasa 1. Conine firmele F2, F3, F4, F7 i F9 ce au scoruri bune pe ambele componente; Clasa 2. Conine firmele F8 i F12 ce au scoruri bune la indicatorul de rentabilitate dar au o dinamic proast a activului; Clasa 3. Conine firmele F1 i F6 ce au un scor mai slab la indicatorul de rentabilitate dar au o dinamic a activului bun; Clasa 4. Conine firmele F5, F10 i F11 care au scoruri slabe la ambii indicatori sintez, att la rentabilitate ct i la dinamica activului. Evident, analiza poate fi completat lund n calcul i componenta principal 3, care este o component a structurii financiare, ns interpretarea grafic se ngreuneaz. S aplicm acum, pentru aceeai matrice de date (a indicatorilor financiar-contabili) tehnici de clasificare bazate pe algoritmi ierarhici (vezi Capitolul 3, 3.3). Folosind aceste tehnici putem s exemplificm att gruparea firmelor ct i gruparea indicatorilor. A) Gruparea firmelor n clase ct mai omogene, lund n considerare toi cei 7 indicatori. Vom folosi un algoritm ierarhic de agregare. Mai nti trebuie calculat matricea de proximitate (de dimensiune 1212, simetric). Ea este prezentat n tabelul urmtor:
0.00 3.24 4.63 3.08 2.06 1.54 3.93 3.63 4.87 1.41 2.64 5.17 3.24 0.00 1.47 0.34 5.05 1.91 0.72 0.73 1.73 2.88 1.19 2.07 4.63 1.47 0.00 1.62 6.47 3.35 0.83 1.40 0.32 4.30 2.44 1.17 3.08 0.34 1.62 0.00 4.92 1.84 0.96 1.06 1.86 2.85 1.34 2.33 2.06 5.05 6.47 4.92 0.00 3.17 5.73 5.36 6.72 2.41 4.29 6.88 1.54 1.91 3.35 1.84 3.17 0.00 2.58 2.20 3.61 1.04 1.22 3.76 3.93 0.72 0.83 0.96 5.73 2.58 0.00 0.66 1.12 3.51 1.68 1.40 3.63 0.73 1.40 1.06 5.36 2.20 0.66 0.00 1.70 3.05 1.14 1.63 4.87 1.73 0.32 1.86 6.72 3.61 1.12 1.70 0.00 4.57 2.74 1.22 1.41 2.88 4.30 2.85 2.41 1.04 3.51 3.05 4.57 0.00 1.99 4.56 2.64 1.19 2.44 1.34 4.29 1.22 1.68 1.14 2.74 1.99 0.00 2.72 5.17 2.07 1.17 2.33 6.88 3.76 1.40 1.63 1.22 4.56 2.72 0.00

Fiecare element al matricei de proximitate reprezint distana euclidian ntre firmele corespunztoare, distan calculat n funcie de toi

cei 7 indicatori observai. (Folosim distana euclidian ca msur a disimilaritii.)


Dendrograma - distante euclidiene 2.5 2.5

Single linkage

1.5

1.5

0.5

0.5

10

12

11

Figura 2. Dendrograma (metoda vecinilor celor mai apropiai)

n continuare, pentru constituirea claselor, vom folosi o metod de agregare considernd cele trei tehnici descrise n 3.3. Prezentm sintetizat n tabelul de mai jos etapele de grupare a firmelor pentru cele trei metode de agregare Single linkage (vecinii cei mai apropiai), Complete linkage (vecinii cei mai ndeprtai) i Average linkage (nlnuirea prin medii).
Nivelul de agregare < 0.5 0.5 1 Single linkage. Clase C1=(9,3); C2=(4,2) C3=(8,7); C4=(C2,C3); C5=(C1,C4); C6=(10,6); C7=(C5,11); C8=(12,C7); C9=(C6,C8); C10=(1,C9);. C11=(5,C10); Complete linkage. Clase C1=(9,3); C2=(4,2) C3=(8,7); C4=(C2,C3); C5=(10,6) C6=(12,C1); C7=(1,C5); C8=(11,C4); C9=(C7,C8); C10=(5,C6); C11=(C9,C10); Average linkage. Clase C1=(9,3); C2=(4,2) C3=(8,7); C4=(C2,C3); C5=(10,6) C6=(12,C1); C7=(11,C4): C8=(1,C5);. C9=(C6,C7); C10=(C8,5); C11=(C10,C9);

1 1.5

1.5 2 24 >4

Dendograma -distante euclidiene7 6 5 Complete linkage 4 3 2 1 0 7 6 5 4 3 2 1 0

12

11

10

Figura 3. Dendrograma (metoda vecinilor celor mai ndeprtai)

Pentru completarea analizei gruprii firmelor, n figurile 2, 3 i 4 sunt prezentate dendrogramele pentru cele trei tehnici de agregare. Cteva concluzii sunt evidente: n dendrograma din figura 2 nu distingem grupe, firmele par a fi destul de omogene (cu excepia uneia); n schimb n dendrogramele din figurile 3 i 4 apar clase distincte. Mai precis, n figura 3 dendrograma prezint dou grupe dezechilibrate ca numr de firme, n timp ce n dendrograma din figura 4 se disting trei grupe destul de echilibrate. Pentru exemplificarea agregrii firmelor prezentm n tabelul urmtor etapele de constituire a claselor. Se observ modul de formare a unui grup precum i nivelul de agregare corespunztor (pentru algoritmul Single linkage.)
Nivelul agregrii 1 0.321 C_3 0.340 C_2 0.661 C_7 0.719 C_2 0.831 C_2 1.041 C_6 1.143 C_2 1.170 C_2 1.217 C_2 1.412 C_1 2.057 C_1 2 C_9 C_4 C_8 C_4 C_4 C_10 C_4 C_4 C_4 C_2 C_2 3 4 5 6 7 8 9

C_7 C_7 C_7 C_7 C_7 C_4 C_4

C_8 C_8 C_8 C_8 C_8 C_7 C_7

C_3 C_3 C_3 C_3 C_8 C_8

C_9 C_9 C_9 C_9 C_3 C_3 C_11 C_11 C_11 C_9 C_9 C_12 C_12 C_11 C_11

C_6 C_12 C_12

Evident, un utilizator poate folosi orice algoritm de agregare: cel al vecinilor celor mai apropiai, cel al vecinilor celor mai ndeprtai sau un algoritm de agregare prin medii. Pentru a decide care este indicat a se folosi analizm tabelul de mai sus i dendrogramele din figurile 2 4. Se observ faptul c algoritmul Complete linkage se aseamn mai mult cu algoritmul Average linkage; fixnd, de exemplu, nivelul de agregare n intervalul (2; 3.5), avem deja constituite dou clase: prima format din firmele {12, 9, 3, 11, 8, 7, 4, 2} iar a doua format din firmele {5, 10, 6, 1}; difer doar nivelul agregrii finale al acestora. Dup cum am mai spus, algoritmul vecinilor celor mai apropiai nu este indicat n acest caz.
Dendograma -distantele euclidiene5 5

Average linkage

12

11

10

Figura 4. Dendrograma (nlnuirea pe baza mediilor)

Este interesant de vzut dac clasele obinute prin aceste tehnici bazate pe distana euclidian, pornind de la matricea iniial de date, ne conduc sau nu la aceleai clasificri ca i cele obinute n planul componentelor principale. S ne reamintim clasele de firme formate n planul primelor dou axe factoriale: clasa 1 coninea firmele F2, F3, F4, F7 i F9, clasa 2 coninea firmele F8 i F12, clasa 3 coninea firmele F1 i F6 i clasa 4 coninea firmele F5, F10 i F11. Exist i firme ale cror poziionare n clase se pstreaz, dar n general clasificarea realizat conform analizei componentelor principale este mult mai elocvent i explicativ!

B) Gruparea celor 7 indicatori financiar-contabili n clase ct mai omogene se realizeaz prin tehnici de clasificare ierarhic, pornind tot de la matricea de date iniial. Mai nti calculm matricea distanelor euclidiene ntre coloanele matricei i obinem urmtoarea matrice simetric a disimilaritilor (matrice de ordinul 7 7):
0.0 1.2 1.2 12.0 0.6 25.4 0.6 1.2 0.0 1.6 12.3 1.3 25.3 1.1 1.2 1.6 0.0 12.9 0.9 26.5 1.4 12.0 12.3 12.9 0.0 12.1 17.3 11.7 0.6 1.3 0.9 12.1 0.0 25.7 0.7 25.4 25.3 26.5 17.3 25.7 0.0 25.1 0.6 1.1 1.4 11.7 0.7 25.1 0.0

Pentru agregarea n clase putem folosi de asemenea algoritmul vecinilor celor mai apropiai (Single linkage), algoritmul vecinilor celor mai ndeprtai

(Complete linkage) i algoritmul nlnuirii prin medii (Average linkage). Dendrogramele rezultate sunt prezentate n figurile 5 7.
Dendrograma - distantele euclidiene18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0

Single linkage

I6

I4

I2

I3

I5

I7

I1

Figura 5. Dendrograma (metoda vecinilor celor mai apropiai)

Dendrograma - distante euclidiene 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0

Complete linkage

I6

I4

I3

I2

I5

I7

I1

Figura 6. Dendrograma (metoda vecinilor celor mai ndeprtai)

Dendrograma - distante euclidiene 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0

Average linkage

I6

I4

I2

I3

I5

I7

I1

Figura 7. Dendrograma (nlnuirea pe baza mediilor)

Pentru a trage cteva concluzii privind omogeneitatea celor 7 indicatori financiar-contabili putem urmri etapele de constituire a claselor. Acestea vor fi exemplificate folosind algoritmul agregrii vecinilor celor mai apropiai (Single Linkage). Matricea de mai jos conine etapele de agregare (n numr de 6), nivelele de agregare i constituirea claselor. Nivelul Etape agregrii 1 2 3 4 5 6 7 0.621 I1 I7 0.633 I1 I7 I5 0.942 I1 I7 I5 I3 1.136 I1 I7 I5 I3 I2 11.662 I1 I7 I5 I3 I2 I4 17.328 I1 I7 I5 I3 I2 I4 I6 Cei mai apropiai, la un nivel de agregare minim, sunt indicatorul I1 i indicatorul I7, adic Total datorii/capital social i Rata de cretere a activului. Acetia se agreg la nivelul 0.621. n etapa urmtoare, la un nivel de agregare destul de apropiat de primul, adic 0.633, li se asociaz indicatorul I5, mai precis indicatorul Datorii/total activ. La o distan (nivel de agregare) ceva mai mare de clasa deja format se asociaz indicatorul I3, adic Profit brut/total activ (nivelul de agregare 0.942). Nici indicatorul I2 (adic Cifr de afaceri/total activ) nu este departe de primii grupai! El se va agrega la nivelul 1.136. Un salt calitativ, evideniat clar cantitativ, se obine prin ataarea n etapa 5 a indicatorului I4, adic Capital social/cifr de afaceri, de grupa deja format. Acesta este agregat
Plot of Linkage Distances across Steps Euclidean distances 20

15 Linkage Distance

10

0 Linkage Distance

-5

3 Step

Figura 8. Nivele de agregare a indicatorilor

la un nivel de 11.662, i putem s afirmm c este, sub acest aspect, diferit de primii. n final se asociaz, la un nivel de asemenea destul de ridicat, ultimul indicator negrupat nc, i anume I6 (log(Activ)). n figura 8 se pot urmri, grafic, nivelele de agregare, regsind pe etape explicaiile date anterior. Folosind algoritmul de clasificare putem spune c indicatorii financiar-contabili urmrii prin nivelele lor pentru cele 12 firme se pot grupa n trei clase: A) clasa format din indicatorii I1, I7, I5, I3 i I2 (a se vedea interpretarea lor!), B) clasa format din indicatorul I4 (Capital social/cifr de afaceri), C) clasa format din indicatorul I6 (log(Activ)). Este interesant de comparat clasele de indicatori obinute pe baza metricii euclidiene cu gruparea indicatorilor dup coeficienii lor de corelaie liniar calculai n etapa de analiz a componentelor principale!
Indicator I1 I2 I3 I4 I5 I6 I7 I1 C1 I2 C1 C1 I3 I4 Corelaie puternic Corelaie puternic C2 C1 C3 Corelaie puternic Corelaie puternic C1 I5 I6 I7

Pentru comparaie putem urmri tabelul anterior ce ne informeaz att despre corelaiile puternice ntre indicatorii financiar-contabili, corelaii exprimate prin coeficienii de corelaie mari, ct i despre clasa la care aparine un indicator (informaiile de pe diagonala principal), clas obinut prin tehnica agregrii. n acest paragraf am prezentat o propunere de analiz pentru informaii coninute ntr-o matrice de forma indivizi caracteristici (caracteristicile fiind variabile continue). Evident, analiza se poate aplica pe orice matrice atunci cnd avem ca scop reducerea numrului de coloane sau linii i explicarea formrii claselor de indivizi sau variabile.

5.2 Modele de credit scoring analiza discriminant utilizat pentru diagnoza financiar 1. Formularea problemei. S presupunem c avem o populaie format din firme omogene ca activitate, fie aceasta P. Populaia este mprit n dou subpopulaii disjuncte, P1 i P2, dup valorile unei variabile nominale Booleene y. Modalitile variabilei y, pentru o firm oarecare i din populaia P, pot fi codificate prin 1 i 0, mai precis: 1 (sau F) pentru firma i n stare de faliment yi = 0 (sau B) altfel S presupunem c pentru firmele din populaia studiat se pot msura un numr p de indicatori financiar-contabili ct mai independeni posibil. Fiecare dintre acetia influeneaz probabilitatea de faliment a firmei fie monoton cresctor, fie monoton descresctor, dar evident ei acioneaz simultan. Vom nota cu x = ( x1 , x 2 ,..., x p ) vectorul valorilor celor p indicatori,
1 2 2 2 2 , x1 n particular cu x1 = ( x1 2 ,..., x p ) respectiv x = ( x 1 , x 2 ,..., x p ) vectorii 1

corespunztori celor dou subpopulaii P1 i P2. Facem urmtoarele ipoteze: a)


1 , x1 Vectorul x1 = ( x1 2 ,..., x p ) este normal repartizat cu media 1 i 1

matricea de varian-covarian 1 ; b)
1 , x1 Vectorul x1 = ( x1 2 ,..., x p ) este normal repartizat cu media 2 1

i matricea de varian-covarian 2 ; Prin urmare, populaia P este caracterizat de ansamblul (1 , 2 , 1 , 2 ) . 2. Scopul analizei este acela de a gsi un indicator sintez, fie acesta z , i un nivel z c al acestui indicator, astfel nct pentru o firm i oarecare pebtru care z i este valoarea indicatorului sintez s putem decide dac z i z c atunci firma aparine populaiei P1 dac z i > z c atunci firma aparine populaiei P2.

Valoarea z c se numete nivel (scor) de tiere sau cutting score.

De regul, indicatorul sintez se consider a fi o combinaie liniar de valorile celor p indicatori financiar-contabili, adic
z = 1 x1 + 2 x 2 + ... + p x p .

(1)

Pentru o firm i, pentru care valorile celor p indicatori sunt ( xi1 , xi 2 ,..., xip ) , valoarea z i = 1 xi1 + 2 xi 2 + ... + p xip se numete scorul firmei n raport cu indicatorul sintez z iar decizia de ncadrare ntr-o categorie sau alta se face utiliznd scorul de tiere z c . n literatura de specialitate se obinuiete a se numi expresia (1) model de scoring deoarece pe baza sa se obin scoruri ale firmelor i apoi o clasificare a acestora. 3. Scurt istoric al problemei obinerii modelelor de scoring Primele studii realizate i publicate au fost cele ale lui E.I. Altman. ntr-un prim studiu, datnd din 1966, Altman prezint modele de scoring rezultate n urma studierii unui eantion de 66 firme asupra crora s-au urmrit 22 de indicatori financiar-contabili n evoluia lor pe dou decade (1946-1965). n intervalul de timp analizat unele dintre firme au dat faliment, altele ns au evoluat pozitiv din punct de vedere financiar. Indicatorul sintez la care ajunge Altman este o combinaie liniar de 5 fond de rulment profit brut indicatori de baz, dintre care enumerm trei: , , total activ total activ cifra de afaceri . total activ Altman repet ulterior studiul, lund n analiz 106 firme i 27 de indicatori urmrii pe perioada 1962-1975. Obine un nou indicator sintez, combinaie liniar de 7 indicatori iniiali, dup care clasific firmele. Alte studii au fost realizate n Frana n anul 1973 de ctre Vernimmen, Schlosser, Margaine i Altman. n Belgia au fost publicate rezultatele obinute de ctre Ooghe i Van Wymeersch (1983). Toate modele de scoring realizate n perioada anilor `80 dar i ulterior sunt implementate n sistemele informatice ale marilor bnci, fiind folosite n departamentele de management a riscului pentru ordonarea i clasificarea solicitanilor de credite. Evident, modele de scoring au fost realizate att pentru persoane juridice ct i pentru persoane fizice. Numeroasele rezultate obinute nu pot fi generalizate de la un grup de firme la altul. n general, direciile de cercetare n acest domeniu se ndreapt spre construirea de modele de scoring ct mai specifice

domeniului de activitate al firmelor. De asemenea, funciile z de scoring se pot obine i pentru urmtoarele situaii: funcie de scor n cazul un an nainte de faliment; funcie de scor n cazul doi ani nainte de faliment; funcie de scor n cazul trei ani nainte de faliment. 4. Construcia unui model de scoring Tehnica cea mai indicat pentru rezolvarea problemei de credit scoring este cea oferit de analiza discriminrii factoriale (vezi Capitolul 4, 4.2.2) pentru cazul particular n care variabila rspuns este nominal cu dou modaliti. Indicatorul-sintez este exprimat prin funcia de discriminare
z = u1 x1 + u 2 x 2 + ... + u p x p

(2)

n care u = (u1 , u 2 ,..., u p ) este versorul axei de discriminare. Pentru aflarea axei de discriminare, a componentei principale asociate, precum i a bonitii discriminrii se aplic etapele prezentate n 4.2.2. Analiza prin tehnicile de discriminare factorial n cazul particular a dou clase are ca scop aflarea unei noi axe (de discriminare), care s aib proprietatea c proieciile punctelor (aici coordonatele firmelor) din spaiul variabilelor (indicatorilor) pe ea s formeze tot dou clase, iar separarea dintre ele s fie maxim (adic zona de incertitudine s fie minim). Reamintim c se folosiete descompunerea matricei varianeicovarianei totale V n cele dou componente naturale ale sale, i anume variana-covariana W din interiorul claselor i variana-covariana B dintre clase. Etapele parcurse pentru aflarea axei de discriminare, a componentelor factoriale i a bonitii separrii n clase sunt urmtoarele. 1). Aflarea unui versor u = (u1 , u 2 ,..., u p ) , ce d prima (i unica) ax de discriminare. n ideea minimizrii varianei-covarianei W proiectat pe aceast ax, adic a mrimii u T Wu , avem de rezolvat urmtoarea problem de optimizare cu restricie egalitate

max
u

u T Bu

u T Vu u =1

ceea ce revine la aflarea vectorilor proprii (corespunztori valorilor proprii) ai matricei V 1 B . Astfel, primul vector propriu u * asociat valorii proprii * (cea mai mare din spectrul matricei V 1 B ) este prima ax de discriminare.

(u ) Vu aceasta va exprima, procentual, gradul de discriminare al primei axe.

Cum raportul

(u * )T Bu *
* T *

este tocmai * (prima valoare proprie),

Pentru cazul unei variabile de discriminare cu doar dou modaliti, problema se simplific. n acest caz avem o singura ax de discriminare u * , ea este calculat simplu u * = V 1 (m 2 m1 ) unde (m1 , m 2 ) este vectorul centrelor de greutate pentru cele dou clase iniiale ale populaiei. 2) Aflarea componentelor de discriminare (adic a vectorului scorurilor pe axa de discriminare) se realizeaz dup aflarea axei de * * discriminare. Astfel, dac u * = (u1 , u 2 ,..., u * p ) este versorul axei de discriminare, atunci componenta de discriminare (unic) este C 1 = Xu * . 3) n cazul unei variabile de discriminare cu doar dou modaliti, pentru analiza ratei succesului tehnicii de discriminare se folosete tabelul urmtor Grupul iniial 1 2 Numr de indivizi n grupul iniial Grupul dup reclasificare 1 2

n1 n2

n11 n21

n12 n22

Observaie: Cu ct elementele de pe diagonala principal sunt mai mari, cu att rata succesului discriminrii este mai mare. Se folosete n + n22 ce exprim proporia elementelor diagonale, iar raportul p S = 11 n1 + n2 orice valoare a sa peste 50% este considerat ca validnd succesul tehnicii. (Comparativ cu situaia n care am dispune de o procedur aleatoare, de repartizare uniform n cele dou clase, pentru care raportul p S are evident valoarea 50%.)

5. Aplicaie exemplu S presupunem c dorim s gsim un model de scoring atunci cnd dispunem de un eantion de 12 firme asupra crora s-au nregistrat 2 datorii totale active circulante i I 2 = . indicatori, i anume I1 = capitaluri proprii datorii pe termen scurt Datele privind nivelul acestor indicatori financiar-contabili precum i starea fiecrei firme sunt prezentate n tabelul urmtor (am notat cu F o firm n stare de faliment i cu B o firm n stare bun) Firma
1 2 3 4 5 6 7 8 9 10 11 12 13 14

I1 =

datorii totale capitaluri proprii


0.6 1 0.9 0.65 1.1 0.6 0.9 0.3 0.4 0.68 0.4 0.25 0.57 0.45

I2 =

active circulante datorii pe termen scurt


0.2 0.4 0.7 0.65 1.1 1.1 1.5 0.55 0.7 0.95 1.05 1.25 1.47 1.68

Starea firmei
F F F F F F F B B B B B B B

S presupunem c cei doi indicatori financiar-contabili urmeaz, att pentru populaia de firme n stare bun, ct i pentru populaia de firme n stare proast, repartiii normale (vezi graficele din figura 9 i figura 10). S analizm mai nti indicatorul I1 (vezi figura 9). Pentru firmele n stare bun indicatorii de centrare (media, mediana, ) au valori mici, n timp ce pentru firmele n stare proast aceiai indicatori de centrare au valori mari. Evident, va exista un nivel al acestui indicator I1, fie acesta , care are proprietatea c ori de cte ori indicatorul ia valori mai mici dect este foarte probabil ca firma s fie din clasa n stare bun i ori de cte ori indicatorul ia o valoare mai mare dect este foarte probabil ca firma s fie n clasa n stare proast. Exist i o zon de incertitudine, vecintate a nivelului , ce are proprietatea c dac indicatorul I1 ia valori n acea zon nu putem decide asupra strii firmei (ea poate fi sau proast, sau bun).

stare bun

stare proast

Figura 9. Repartiiile valorilor indicatorului I1

Aceeai analiz se poate face i pentru indicatorul I2 (vezi figura 10), cu o singur deosebire: de data aceasta, pentru firmele n stare bun valorile indicatorilor de centrare sunt mari n timp ce pentru firmele n stare proast indicatorii de centrare au valori mici. Nivelul de separare apare i n acest caz (l-am notat cu ) aa cum apare i zona de incertitudine ntr-o vecintate a nivelului , pentru care nu putem decide starea firmei.

stare proast stare bun

Figura 10. Repartiiile valorilor indicatorului I2

Figura 11. Firmele n planul indicatorilor

Am descris o posibil analiz uni-dimensional lund pe rnd cte un indicator financiar-contabil i comportamentul firmelor n raport cu valoarea acestuia. Aceast analiz nu este ns suficient de relevant. Tehnicile de analiz a discriminrii ne permit s analizm indicatorii n ansamblul lor, surprinznd i aciunea lor comun. O prim analiz a celor doi indicatori n ansamblul lor se poate face urmrind figura 11, n care firmele sunt prezentate n planul indicatorilor financiar-contabili I1 i I2. n aceast figur firmele n stare bun (marcate cu codul B) sunt delimitate destul clar de cele n stare proast (marcate cu codul F), aprnd dou clase cu intersecia nevid (intersecie pe care o putem asimila cu o zon de incertitudine a clasificrii unei firme). Pentru o analiz complet urmrim rezultatele urmtoare: 1) Mediile pe ntregul eantion sunt grupate n vectorul m = (0.6285, 0.950) iar mediile pentru cele dou clase sunt coninute n vectorii

m B = (0.4357, 1.092)

respectiv

m F = (0.8214, 0.8071) .
2) Abaterile standard sunt s = (0.263, 0.437) pentru ntregul eantion i s B = (0.149, 0.404) pentru clasa de firme n stare bun respectiv s F = (0.203, 0.451) pentru cele n stare proast.

3) Matricea de varian-covarian pentru interiorul claselor este 0.0273 0.0168 W = 0.0168 0.1575 iar matricea de varian-covarian 0.0645 0.0107 pentru ansamblul firmelor este V = 0.0107 0.1779 . 4) Matricele de corelaie pentru interiorul claselor i total sunt 0.256 0.100 1 1 . respectiv 0.256 1 1 0.100 5) Analiza indicatorului financiar-contabil cel mai discriminat se face folosind tabelul urmtor, ce conine valori ale statisticii F i Lambda a lui Wilks Indicatorul I1 I2 Wilks' Lambda 0.885 0.423 Partial Lambda 0.399 0.835 F-remove (1,11) 16.519 2.1671 p-level 0.0018 0.1690

Aadar, indicatorul cel mai discriminat este I1, lui corespunzndu-i o valoare mai mare pentru statistica F (care este raportul dintre mprtierea dintre clase i mprtierea din interiorul claselor). 6) Funcia de discriminare standardizat este

z = 0.997 I1 + 0.522 I 2 .
Cum centrele de greutate ale celor dou clase de firme sunt proiectate pe axa de discriminare n punctele 1.25 respectiv 1.25 (prima valoare reprezint centroidul firmelor n stare bun iar cea de-a doua valoare reprezint centroidul firmelor n stare proast) putem considera scorul de tiere z c = 0 . 7) Scorurile firmelor obinute pe baza funciei de discriminare (de la punctul 6) sunt (prezentate n ordine cresctoare) urmtoarele: Firma 2 5 Clasa iniial/ clasa repartizat Faliment/Faliment Faliment/Faliment Scor pentru funcia z gsit -2.7442 -2.4499

3 7 1 4 10 6 13 9 8 11 14 12

Faliment/Faliment Faliment/Faliment Faliment/Faliment Faliment/Faliment Bun/faliment Faliment/bun Bun/bun Bun/bun Bun/bun Bun/bun Bun/bun Bun/bun

-1.8203 -0.8458 -0.7540 -0.4851 -0.2872 0.3422 0.9605 0.9719 1.3476 1.3982 1.8864 2.4795

8) Matricea succesului discriminrii este Rata succesului Clasa1 1/clasa 1 Clasa 2/clasa 2 Total Corect 85.714 85.714 85.714 p=.50000 6 1 7 p=.50000 1 6 7

adic rata succesului discriminrii este de 85.71% (= (6 + 6) / 14) . 9) Interpretarea axei de discriminare se face utiliznd urmtorul tabel al coeficienilor de corelaie Indicatorul I1 I2 Coeficientul de corelaie cu axa -0.863 0.266

Observm c coeficientul de corelaie ntre indicatorul I1 i axa de discriminare este 0.863, iar coeficientul de corelaie ntre indicatorul I2 i ax este 0.266. Prin urmare, cel mai discriminant datorii totale este indicatorul I1 = , care d i o interpretare capitaluri proprii unicei axe de discriminare.

5.3 Analize pe tabele de contingen. Analiza corespondenelor n marketing Tabelele de contingen descrise n 1.4 se pot crea ori de cte ori populaia studiat este mprit n subpopulaii prin variabile categoriale nominale. Informaii de acest gen provin de obicei din chestionare. De regul, se grupeaz cte dou variabile categoriale i se obin aanumitele tabele cu dubl intrare, ce conin frecvenele absolute pe nivele. Fie de exemplu dou variabile categoriale X1 i X2, prima avnd r modaliti iar cea de-a doua avnd c modaliti. S notam cu N matricea ce conine frecvenele absolute pentru modalitile cele dou variabile, adic Modaliti X1\X2 1 2 i r Total coloane 1
n 11 n 21

2
n 12 n 22

j
n1 j n2 j

c
n 1c n 2c

Total pe linii
n1 n2

n i1

n i2

n ij

n ic

ni

n r1 n 1

n r2 n 2

n rj n j

n rc

nr

n c

Evident, elementul n ij din tabelul anterior exprim numrul de indivizi (din totalul celor n) pentru care variabila X1 are modalitatea i i variabila X2 are modalitatea j. Aa cum am precizat n 1.4, matricea este bordat cu o coloan a totalurilor pe linii i cu o linie a totalurilor pe coloane. n aplicaii se obinuiete a se asocia matricei N dou alte matrice (tabele) i anume: a) matricea frecvenelor condiionate relativ la linii, numit i matricea profil-linie; b) matricea frecvenelor condiionate relativ la coloane, numit i matricea profil-coloan. Vom prezenta n cele ce urmeaz modul de construire a celor dou matrice i proprietile lor.

Matricea profil-linie se obine din matricea iniial N mprind fiecare element al acesteia prin totalul liniei corespunztoare, adic n ij . Noua elementul de pe linia i i coloana j va fi n matricea profil-linie ni matrice astfel obinut o vom nota L. Dac vom considera toate liniile matricei profil-linie L, ele vor forma n spaiul R c al modalitilor variabilei X2 un nor alctuit din r puncte. Centrul de greutate al acestui nor de puncte se calculeaz folosind 1 matricea de ponderi D1 . Matricea D1 este o matrice diagonal (de n dimensiune r r) a totalurilor pe linii:

n1 0 D1 = 0 .. 0

0 n2 0 .. 0

0 .. 0 .. n3 ... ... ... 0

. . ... nr 0 0 0

Fie m l = ( m1 , m 2 ,..., m j ,..., mc ) vectorul centrului de greutate. Componenta sa m j se obine ca o sum ponderat a elementelor coloanei j din matricea profil-linie, adic din vectorul coloan
nij n rj n1 j n 2 j , ,..., ,..., n n n n 1 2 i r
T

ponderile fiind coninute n vectorul coloan

n n n1 n2 , ,..., i ,..., r . n n n n Prin urmare, componenta m j a centrului de greutate a matricei profil-linie va fi m j = coordonatele:
n j n1 n c . ,..., ,..., m = n n n
l T

k =1

nkj nk n j = iar centrul de greutate va avea nk n n

Matricea profil-coloan se obine din matricea iniial N mprind fiecare element al acesteia prin totalul corespunztor pe coloan, adic n ij . elementul de pe linia i i coloana j va fi n matricea profil-coloan n j

Vom nota cu C noua matrice format. Dac vom considera toate coloanele matricei profil-coloan C, ele vor forma, n spaiul R r al modalitilor variabilei X1, un nor alctuit din c puncte. Centrul de greutate al acestui nor de puncte se calculeaz folosind 1 acum matricea de ponderi D2 unde matricea D2 este matricea diagonal a n totalurilor pe coloane n1 0 D2 = 0 .. 0 0 n2 0 .. 0 0 .. 0 .. n3 ... ... ... 0 . . ... nc 0 0 0

Fie m c = (m1 , m2 ,..., mi ,..., mr ) T vectorul centrului de greutate al acestui nor de puncte. Componenta sa mi se obine ca o sum ponderat a elementelor liniei i din matricea profil-coloan, adic din vectorul coloan ni1 ni 2 nij n , ,..., ,..., ic i ponderile n1 n2 n j nc Prin urmare, mi =
T

n j n1 n2 n c . , ,..., ,..., n n n n

n
k =1

nik nk ni = n k n
T

iar centrul de greutate al

matricei profil-coloan va avea coordonatele: n n n m = 1 ,..., i ,..., r . n n n


c

Observaii: Cum condiia de independen a celor dou variabile nij ni n j pentru orice i i j, vom obine categoriale X1 i X2 nseamn = n n n urmtoarele egaliti:

a) i b)

nij ni

n j n

1,2,..., r} i j = { 1,2,..., c} pentru orice i = {

nij n j

ni 1,2,..., r} i j = { 1,2,..., c}. pentru orice i = { n

Condiia a) nseamn c, n cazul n care variabilele categoriale sunt independente statistic, toate punctele norului de puncte ale matricei profiln j n1 n c linie vor coincide cu centrul lor de greutate m = n ,..., n ,..., n .
l T

Analog, condiia b) nseamn c, n cazul n care variabilele categoriale sunt independente statistic, toate punctele norului de puncte ale matricei profil-coloan vor coincide cu centrul lor de greutate n n n m = 1 ,..., i ,..., r . n n n
c T

Atunci cnd variabilele nu sunt independente statistic este important s evalum ct de aproape sau de departe sunt punctele de centrul lor de greutate. S revenim la matricea profil-linie n care considerm dou linii i i i ale cror elemente sunt
.
T

nij ni1 ni 2 nic n , n ,..., n ,..., n i i i i

respectiv

ni ' j ni '1 ni '2 n , ,..., ,..., i 'c n ni ' ni ' i ' ni '

ntre aceste linii privite ca puncte n spaiul R c calculm distana ponderat dat de metrica 2 i anume
2 d 2 (i , i ' )

j =1

n nij ni ' j n j ni ni '

n consecin, putem calcula distana de la o linie i a matricei profiln j n1 nc linie la centrul de greutate m = prin formula: n ,..., n ,..., n
l
l 2 d 2 (i , m )

j =1

n nij n j . n j n ni

care d o msur 2 a deprtrii punctului i de centrul norului. Putem s calculm distana (ponderat) de la toate punctele (linii) ale matricei profil-linie la centrul lor de greutate m l obinnd ceea ce se numete ineria norului de puncte

i =1

ni 2 d 2 (i, m l ) = n

i =1 j =1

ni n nij n j n n j n ni

Un simplu calcul ne va conduce la urmtoarea expresie a ineriei norului de puncte (abatere faa de centrul de greutate) 1 = n
2

i =1 j =1

(nij ni n j / n) 2 ni n j / n

(3)

(recunoatem n expresia de mai sus i valoarea statisticii 2). Analog, putem s introducem o msur de tip 2 ntre coloanele matricei profil-coloan i apoi s calculm distana ponderat a punctelor n n n din nor la centrul lor de greutate m = 1 ,..., i ,..., r ; obinem n n n aceeai expresie (3).
c T

Observaii: 1) Norul de puncte asociat matricei profil-linie formeaz un subspaiu W1 n spaiul R c ;

2) vectorul 0m l (din spaiul R c ) este un vector ortogonal n sensul metricii 2 pe subspaiul W1. Analiza corespondenelor este analiza componentelor principale aplicat celor dou matrice profil-linie i profil-coloan asociate matricei de contingen. Principiile aflrii axelor principale i ale componentelor

principale fiind cele prezentate n 3.1, practic avem de rezolvat urmtoarele dou sisteme de ecuaii algebrice duale i anume: LC T a = a i C T Lb = b (4) Propoziia 1. Ambele sisteme (4) au soluia 0 = 1 (valoare proprie a matricei LC T i C T L ). Mai mult, n caz c r c spectrul matricei LC T se regsete n spectrul matricei C T L , iar n caz c r > c spectrul matricei C T L se regsete n spectrul matricei LC T . n analiza factorilor i componentelor principale valoarea proprie 0 = 1 se elimin, aa cum se elimin i vectorul propriu corespunztor, reinndu-se restul de r1 factori a respectiv c1 factori b. Propoziia 2. Cu notaiile de mai sus, ntre vectorii proprii a i vectorii proprii b exist urmtoarele legturi:

bj =

n
i =1

nij
j

ai i ai =

n
j =1

nij
i

bj .

n tabelul urmtor prezentm sintetic descrierea factorilor principali i a componentelor principale ca vectori proprii ai matricelor LC T i C T L .
Factorii principali Componentele principale ACP pentru matricea ACP pentru matricea profil-linie profil-coloan Vectorii proprii ai matricei Vectorii proprii ai matricei

CTL

LC T

Vectorii proprii a ai matricei Vectorii proprii b ai matricei

LC T , normalizai prin C T L , normalizai prin 1 T 1 T a D1a = b D2 b = n n n cazul analizei corespondenelor nu are sens s calculm corelaiile dintre componentele principale i coloanele respectiv liniile din matricele profil corespunztoare. Interpretarea componentelor principale se face prin evaluarea aa-numitei contribuii a liniei respectiv a coloanei la ineria total a norului de puncte. Ineria recuperat de o ax (fie c aceast ax este a sau b) poate fi evaluat astfel 1 J= n

i =1

1 ni ( a i ) = n
2

n
j =1

j (b j )

prin urmare vom defini contribuia liniei i din matricea profil-linie la ineria norului (pe o ax a) prin formula: ni (ai ) 2 n CTR (i ) = J n i vom avea n atenie acele linii i pentru care CTR(i) > i . n Analog, vom defini contribuia coloanei j din matricea profil-coloan la ineria norului (pe o ax b) prin n j (b j ) 2 CTR ( j ) = n J n j i vom avea n atenie acele coloane pentru care CTR ( j ) > . n Aplicaie - exemplu. ntr-un sondaj de opinie lansat de o fabric de bere n scopul obinerii datelor necesare elaborrii strategiei de extindere i diversificare a produciei, una dintre temele urmrite a fost dependena de categoria de venit a mrcii de bere consumate. A fost chestionat un eantion reprezentativ format din 1355 de consumatori, iar datele obinute sunt prezentate n tabelul de contingen urmtor. Evident, pe linii apar mrcile de bere indicate, iar pe coloane 6 categorii de venit (ordonate de la venit foarte mic pn la venit foarte mare)
C.Venit V1 V2 V3 V4 V5 V6 Total Azu 12 24 30 14 8 6 94 Buc 8 14 23 22 11 16 94 Bra 11 22 23 11 12 13 92 Cis 18 30 11 6 10 5 90 Fav 9 15 14 8 8 6 60 Gam 8 14 12 17 12 5 68 Mam 11 20 18 22 15 13 99 Ori 1 7 14 16 11 17 76 Rah 12 30 47 27 14 12 152 Sil 17 23 25 26 15 17 123 Urs 10 20 16 26 4 4 80 Bws 3 11 5 6 1 3 29 Dab 5 2 8 11 18 23 46 Dre 10 21 13 8 7 3 62 Efe 13 23 8 11 9 3 67 Hpk 6 12 5 8 8 2 41

C.Venit V1 V2 V3 V4 V5 V6 Total Tub 15 14 18 20 9 6 82 Total 169 302 290 259 182 153 1355

S parcurgem cteva etape de analiz plecnd de la acest tabel de contingen. 1) Matricea profil-linie L este prezentat n tabelul urmtor (n care pe ultima linie apare vectorul-centroid al norului de puncte)
C.Venit Azu Buc Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub V1 0.128 0.085 0.120 0.200 0.150 0.118 0.111 0.013 0.079 0.138 0.125 0.103 0.109 0.161 0.194 0.146 0.183 V2 0.255 0.149 0.239 0.333 0.250 0.206 0.202 0.092 0.197 0.187 0.250 0.379 0.043 0.339 0.343 0.293 0.171 V3 0.319 0.245 0.250 0.122 0.233 0.176 0.182 0.184 0.309 0.203 0.200 0.172 0.174 0.210 0.119 0.122 0.220 V4 0.149 0.234 0.120 0.067 0.133 0.250 0.222 0.211 0.178 0.211 0.325 0.207 0.239 0.129 0.164 0.195 0.244 V5 0.085 0.117 0.130 0.111 0.133 0.176 0.152 0.145 0.092 0.122 0.050 0.034 0.391 0.113 0.134 0.195 0.110 V6 0.064 0.170 0.141 0.056 0.100 0.074 0.131 0.224 0.079 0.138 0.050 0.103 0.500 0.048 0.045 0.049 0.073

ml

0.125 0.223 0.214 0.191 0.134 0.113

Pentru fiecare linie (marc de bere) se identific acea categorie de venit ai crei consumatori consum cel mai mult marca respectiv. 2) Matricea profil-coloan C este prezentat transpus n tabelul urmtor (mpreun cu vectorul-centroid al norului de puncte):
C.Ven Azu Buc V1 0.07 0.05 V2 0.08 0.05 V3 0.10 0.08 V4 0.05 0.08 V5 0.04 0.06 V6 0.04 0.10 mc 0.07 0.07 Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub 0.07 0.11 0.05 0.05 0.07 0.01 0.07 0.10 0.06 0.02 0.03 0.06 0.08 0.04 0.09 0.07 0.10 0.05 0.05 0.07 0.02 0.10 0.08 0.07 0.04 0.01 0.07 0.08 0.04 0.05 0.08 0.04 0.05 0.04 0.06 0.05 0.16 0.09 0.06 0.02 0.03 0.04 0.03 0.02 0.06 0.04 0.02 0.03 0.07 0.08 0.06 0.10 0.10 0.10 0.02 0.04 0.03 0.04 0.03 0.08 0.07 0.05 0.04 0.07 0.08 0.06 0.08 0.08 0.02 0.01 0.10 0.04 0.05 0.04 0.05 0.08 0.03 0.04 0.03 0.08 0.11 0.08 0.11 0.03 0.02 0.15 0.02 0.02 0.01 0.04 0.07 0.07 0.04 0.05 0.07 0.06 0.11 0.09 0.06 0.02 0.03 0.05 0.05 0.03 0.06

Pentru fiecare linie (ce reprezint aici categoria de venit) se identific acea marc/acele mrci de bere consumate maximal de ctre categoria respectiv. 3) Evaluarea acoperirii ineriei totale a norului de puncte prin axele factoriale, evaluare ce utilizeaz valorile proprii ale matricei L C T (sau ale matricei C T L ) este urmtoarea:
Nr. 1 2 3 4 5 Val. proprie 0.1013 0.0323 0.0178 0.0043 0.0064 % inerie 62.5% 19.9% 11.0% 2.7% 3.9% % cumulat 62.5% 82.4% 93.4% 96.1% 100.0%

Se observ c primele dou axe factoriale acoper peste 82% din ineria norului de puncte, ceea ce se consider a fi relevant pentru analiz. 4) Continum aadar cu 2 axe factoriale. Pentru fiecare dintre acestea putem folosi formula 1 J= n

i =1

1 ni ( a i ) = n
2

n
j =1

j (b j )

pentru a-i evalua ineria. Apoi, contribuia fiecrei coloane j la aceast inerie se obine din formula 1 n j CTR ( j ) = (b j ) 2 J n iar contribuia fiecrei linii i la ineria asociat axei este dat de: 1 n CTR(i) = i (ai ) 2 . J n Concret, rezultatele obinute din analiza coloanelor sunt urmtoarele:
Ineria: C.Venit V1 V2 V3 V4 V5 V6 0.1358 Axa1 0.084 0.279 0.011 0.003 0.103 0.520 0.1711 Axa2 0.158 0.087 0.371 0.195 0.170 0.020

Prin urmare, contribuia maxim la prima ax factorial aparine categoriei de venit V6 (foarte ridicat), iar la a doua ax factorial aparine categoriei de venit V3 (mic spre mediu). Analog, rezultatele obinute din analiza liniilor sunt urmtoarele:
ineria Marca Azu Buc Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub 0.0409 Axa1 0.037 0.029 0.000 0.076 0.005 0.000 0.005 0.127 0.008 0.003 0.032 0.015 0.539 0.052 0.055 0.009 0.007 0.0575 Axa2 0.045 0.060 0.003 0.257 0.008 0.000 0.000 0.028 0.196 0.001 0.086 0.000 0.112 0.026 0.120 0.050 0.009

Prin urmare, contribuia maxim la prima ax factorial aparine mrcii Dab, iar la a doua ax factorial aparine mrcii Cis. 5) ncheiem analiza cu reprezentarea grafic a ambelor seturi de modaliti n planul celor 2 axe factoriale. (Fiecare modalitate, fie c este o categorie de venit, fie ca este o marc de bere, va fi reprezentat prin cel dou componente principale ale sale.) Graficul este prezentat n figura 12. Se observ c prima ax factorial exprim opoziia dintre veniturile mici i cele mari. De asemenea, este destul de clar asocierea dintre marca Dab i categoria de venit V6. S presupunem c iniiatorul acestei anchete este, de exemplu, marca Tub. Constat c se afl n zona de indiferen, dar constat i poziia concurenilor si. Este vizibil c ecartul su fa de categoria V6 este mai mare dect cel fa de categoria V4. n consecin, politica sa de diversificare ar trebui s se adreseze acestui segment de consumatori.

V3 V4 R ah B uc O ri Tub S il Gam M am B ra Fav V6 Hp k Ef e D ab V5 C is V1 Bws U rs Azu

D re V2

Figura 12. Reprezentarea simultan n planul factorial

Ca un alt exerciiu de aplicare a analizei corespondenelor se pot folosi datele din tabelul urmtor 1 . Datele sunt prelevate dintr-un eantion de 10000 de studeni la diferite faculti (Fac) i provenind din categorii socioprofesionale ale prinilor (CSP) dup cum urmeaz: fermier (Ferm), muncitor agricol (MAgr), patron (Patr), profesie liberal (PLib), cadre medii (CMed), salariat (Salr), muncitor (Munc), personal de serviciu (Serv), alte profesii (Alte).
CSP\Fac Drept Economice Litere tiine Medicin Farmacie Fac. tehn. Alte fac.
Total

Ferm MAgr Patr PLib CMed Salr Munc Serv Alte Total

80 6 168 470 236 145 166 16 305 1592

36 2 74 191 99 52 64 6 115 639

134 15 312 806 493 281 401 27 624 3093

99 6 137 400 264 133 193 11 247 1490

65 4 208 876 281 135 127 8 301 1005

28 1 53 164 56 30 23 2 47 404

58 4 62 79 87 54 129 8 90 571

11 1 21 45 36 20 28 2 42 206

511 39 1035 3031 1552 850 1131 80 1771 10000

G. Saporta, Probabilits, Analyse des Donnes et Statistique, Ed. Technip, Paris 1990

Se va ncerca a da rspuns urmtoarelor ntrebri: 1) 2) 3) Ce studii urmeaz copiii avnd prini dintr-o categorie socioprofesional? Ce origine socio-profesional au studenii de la diverse faculti? Alegerea unei faculti depinde sau nu de categoria socioprofesional a prinilor i, dac da, cum anume?

Anexa 1. Matrice de date


A1.1 Date privind autoturismele Tabelul 1 conine datele a 7 caracteristici msurate asupra a 26 de mrci de autoturisme. Putem folosi urmtoarele notaii: P K V C H L R Preul (exprimat n $); Capacitatea cilindric (cmc); Viteza maxim (km/h); Consumul de carburant (exprimat n litri/100 km); Capacitatea habitaclului; Lungimea (exprimat n cm); Raportul greutate/putere.
Tabelul 1

Cod 1.A 2.C 3.D 4.Fl 5.F2 6.F3 7.F4 8.FS

Model Austin Metro Special CitroenAX 10RE DaihatsuCharadeTS FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2

Pre 12000 13275 14625 13475 25005 17845 13050 21743

Cap. cil. 998 954 993 999 1301 1302 1117 1597

Viteza maxim 140 145 145 145 200 165 137 180

Consum 6.2 5.6 6.7 6.2 8.9 7.7 7.0 9.3

Cap. hab. 955 1170 1151 968 968 968 900 973

Lungime 340 350 361 364 364 364 364 364

Gr./P 23.2 19.4 20.8 21.5 11.0 16.0 22.7 12.0

Tabelul 1 (cont.)
Cod 9.N 10.O 11.P1 12.P2 13.P3 14.P4 15.Ri 16.R2 17.R3 18.R4 19.RS 20.SI 21.S2 22.S3 23.54 24.Ti 25.T2 26.V Model Nissan Micra 1.0 DX Opel Corsa Swing Peugeot20SXE Peugeot20SGL Peugeot20SGT Peugeot20SGTI Renault4TL RenauIt4GTL Renault5SL Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbellaGL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo Pre 12400 13050 13260 15780 18965 25175 12981 13806 14156 17250 25319 19283 10970 12115 14655 14000 16850 18045 Cap. cil. 988 993 954 1124 1360 1580 956 1108 1108 1397 1397 1461 903 993 1324 999 1295 1272 Viteza maxim 140 143 134 142 170 190 115 120 143 167 200 175 131 145 163 150 170 170 Consum 6.4 7.2 6.8 5.8 9.2 8.7 6.3 6.3 5.8 7.9 8.7 8.8 7.3 6.4 6.5 6.1 6.8 8.0 Cap. hab. 375 845 1200 1200 1200 1200 950 950 915 915 915 1200 1088 400 400 202 202 1040 Lungime 364 362 370 370 370 370 367 367 359 359 359 364 347 358 358 370 370 365 Gr./P 17.0 22.4 23.8 21.4 13.9 11.2 33.1 28.4 20.6 13.8 10.2 14.7 23.4 18.4 14.0 19.5 15.0 14.0

A1.2 Date (indicatori financiar-contabili) privind firmele S-a ncetenit ideea c analistul finanist trebuie s calculeze, n scopul emiterii unui diagnostic al firmei, diverse rate (sau rapoarte) ntre dou poziii ale bilanului contabil i/sau ale contului de rezultat. Teoretic, dar i practic, exist posibilitatea de a calcula un numr mare de asemenea rate (indicatori). Iat cteva exemple: A) Indicatori ai structurii financiare. Se calculeaz fcnd raportul ntre orice dou seciuni ale pasivului sau/i activului. Ca exemple avem: 1) 2) 3) 4) 5)

capitaluri proprii , care exprim gradul de ndatorare n termen (recomandat a fi mai mare ca 1); datorii pe termen lung si mediu
capitaluri proprii , care exprim solvabilitatea i independena financiar; capitaluri permanente capitaluri proprii , care exprim securitatea financiar; datorii pe termen scurt capitaluri proprii , care exprim gradul n care activele sunt finanate numai din capitaluri proprii; active fixe total activ , care exprim gradul n care creditorii firmei sunt garantai prin valoarea bunurilor i a creanpasiv exigibil elor existente. Raportul trebuie s fie sensibil supraunitar; capitaluri proprii , care exprim independena fa de bnci. Raportul este, n mod obinuit, subunitar. pasiv exigibil

6)

B) Indicatori ai lichiditii i ai trezoreriei sunt i ei indicatori ai structurii financiare, care exprim potenialul firmei pentru plata datoriilor pe termen scurt. Exemple: 1) Rata lichiditii generale (rata curent) este raportul RC = 2) Rata lichiditii reduse este raportul
activ circulant ; datorii pe termen scurt

activ circulant - stocuri ; datorii pe termen scurt trezoreria activa . datorii pe termen scurt

3) Rata lichiditii imediate este raportul

C) Indicatori de rentabilitate, care se calculeaz folosind i elemente din contul de rezultat. Exemple: profit net 1) Rata rentabilitii financiare (ROE = Return on Equity ), calculat ca raport , care exprim capitaluri proprii ct profit net revine la o unitate investit. Este important mai ales din punctul de vedere al unui investitor; profit net i 2) Rentabilitatea economic (ROI = Return on Investment), care se calculeaz prin raportul total pasiv profit brut exprim rentabilitatea investiiilor. Analog ROA = ; total activ

3) Rata rentabilitii produciei =

profitul net . cifra de afaceri

Evident, lista de indicatori financiari calculai ca rate poate continua i n funcie de poziia n care ne situm n raport cu firma respectiv, anume ca investitor, resp. creditor, acionar etc. Prezentm n tabelul de mai jos civa indicatori din categoriile celor descrii anterior, calculai pentru un lot de 12 firme. Acetia sunt: I1: Total datorii/capital social; I2: Cifr de afaceri/total activ; I3: Profit brut/total activ; I4: Capital social/cifr de afaceri; I5: Datorii/total activ; I6: log(Activ); I7: Rata de cretere a activului.

Tabelul 2 Firma 1 2 3 4 5 6 7 8 9 10 11 12 I1 0,414 0,231 0,432 0,156 0,227 0,295 0,261 0,446 0,352 0,267 0,703 0,206 I2 0,032 0,324 0,684 0,326 0,124 0,176 0,470 0,343 0,831 0,141 0,185 0,969 I3 0,000 0,034 0,054 0,020 -0,080 0,026 0,023 0,020 0,036 0,003 0,002 0,029 I4 5,59 2,45 1,05 2,59 7,49 4,33 1,77 2,17 0,82 5,20 3,27 0,72 I5 0,677 0,165 0,204 0,129 0,149 0,199 0,147 0,240 0,243 0,258 0,268 0,26 I6 7,03 7,45 7,32 7,16 7,54 7,72 7,62 8,08 7,18 8,27 8,15 8,38 I7 0,62 0,40 0,40 0,47 0,43 0,45 0,46 0,38 0,37 0,31 0,42 0,36

A1.3 Date privind calitatea vieii Prezentm n tabelul 3 informaii privind calitatea vieii pentru 23 de ri (dup LEtat du Monde, Edition 1992, Annuaire conomique et geopolitique mondial). Criteriile importante pentru exprimarea calitii vieii sunt: SN: MI: UR: NM: TV: RI: CE: CA: IM: EX: EE: sporul natural al populaiei (n %); mortalitatea infantil (n ); gradul de urbanizare (n %);: numrul de medici la mia de locuitori; numrul de receptoare de televiziune la mia de locuitori; rata inflaiei (n %); cheltuieli pentru educaie (n % din P.I.B.); cheltuieli pentru aprare (n % din P.I.B.); import anual pe locuitor (n mii $); export anual pe locuitor (n mii $); consum de energie pe locuitor (n mii kWh). Tabelul 3 ara Africa Australia Brazilia Bulgaria Canada SN 2.2 1.4 2.1 0.1 0.9 MI 67.0 7.5 6.0 15.0 7.0 UR NM 59 0.7 86 2.2 75 0.9 68 3.8 77 2.2 TV 98 484 194 185 586 RI 14. 6.9 165 19. 5.0 CE 2.6 5.5 4.5 6.9 7.1 CA 3.8 2.8 0.4 4.7 1.8 IM 0.48 2.47 0.15 1.44 0.47 EX 0.6 2.3 0.2 1.4 0.4 EE 3.1 6.7 0.7 5.7 1.0

Tabelul 3 (cont.) ara China Frana Germania India Indonezia Iran Italia Japonia MareaBritan Mexic Nigeria Pakistan Polonia Romania Spania S.U.A. Turcia Ungaria SN 1.4 0.4 2.1 1.9 2.7 0.0 0.4 0.2 2.2 3.3 3.4 0.6 0.5 0.3 0.8 2.1 MI 29.5 7.5 8.5 93.5 70.0 46.0 10.0 5.0 8.5 39.0 100. 103. 17.5 20.0 9.5 9.0 69.0 18.5 UR NM 33 0.9 74 2.6 85 3.0 27 0.4 30 0.1 57 0.3 69 4.2 77 1.6 89 1.4 72 1.0 35 0.1 32 0.5 62 2.1 53 2.1 78 3.7 75 2.3 61 0.8 61 3.4 TV 24 399 378 7 41 53 419 589 435 124 6 13 263 159 380 812 172 404 RI 2.0 3.4 1.7 1.2 8.5 20 6.8 3.8 9.3 30 15 13. 226 40 6.5 6.1 60 33. CE 2.4 6.4 4.5 3.3 1.0 3.4 5.0 4.9 5.0 2.1 1.5 3.1 3.6 2.1 3.2 6.8 1.8 5.4 CA 1.7 2.9 3.4 3.0 1.4 6.0 1.8 1.0 3.7 0.3 0.9 7.1 1.7 1.8 1.7 5.3 2.8 2.0 IM 0.05 4.18 3.53 0.03 0.11 0.35 3.19 1.92 3.91 0.37 0.07 0.06 0.21 0.35 2.25 2.07 0.36 0.79 EX 0.0 3.8 4.1 0.0 0.1 0.4 2.9 2.3 3.2 0.3 0.1 0.0 0.3 0.2 1.4 1.5 0.2 0.8 EE 0.7 3.7 3.8 0.3 0.3 1.2 3.6 3.9 4.9 1.6 0.2 0.2 4.7 4.7 2.3 9.9 0.9 3.6

A1.4 Repartiia bugetului Datele din tabelul 4 reprezint observaii anuale (exprimate n %) privind repartiia cheltuielilor statului francez n 24 ani din perioada 1872-1971 (vezi [1]). n tabelul de date se consider urmtoarele cheltuieli: cele publice (PVP), cele pentru agricultur (AGR), pentru comer (CMI), pentru transport (TRA), pentru amenajri de teritoriu (LOC), pentru educaie i cultur (EDU), pentru aciuni sociale (ACS), pentru veterani de rzboi (ACO), pentru aprare (DEF), apoi datoriile (DET) i alte cheltuieli (DIV). Tabelul 4 Anul 1872 1880 1890 1900 1903 1906 1909 1912 1920 1923 PVP 18,0 14,1 13,6 14,3 10,3 13,4 13,5 12,9 12,3 7,6 AGR 0,5 0,8 0,7 1,7 1,5 1,4 1,1 1,4 0,3 1,2 CMI 0,16 0,1 0,7 1,7 0,4 0,5 0,5 0,3 0,1 3,2 TRA 6,7 15,3 6,8 6,9 9,3 8,1 9,0 9,4 11,9 5,1 LOC 0,52 1,9 0,6 1,2 0,6 0,7 0,6 0,6 2,4 0,6 EDU 2,12 3,7 7,1 7,4 8,5 8,6 9,0 9,3 3,7 5,6 ACS 2,0 0,5 0,7 0,8 0,9 1,8 3,4 4,3 1,7 1,8 1,9 10,0 ACO DEF 26,4 29,8 33,8 37,7 38,4 38,5 36,8 41,1 42,4 29,0 DET 41,52 31,3 34,4 26,2 27,2 25,3 23,5 19,4 23,1 35,0 DIV 2,1 2,5 1,7 2,2 3,0 1,9 2,6 1,3 4,2 0,9

Tabelul 4 (cont.) Anul 1926 1929 1932 1935 1938 1947 1950 1953 1956 1959 1962 1965 1968 1971 PVP 10,5 10,0 10,6 8,8 10,1 15,6 11,2 12,9 10,9 13,1 12,8 12,4 11,4 12,8 AGR 0,3 0,6 0,8 2,6 1,1 1,6 1,3 1,5 5,3 4,4 4,7 4,3 6,0 2,8 CMI 0,4 0,6 0,3 1,4 1,2 10,0 16,5 7,0 9,7 7,3 7,5 8,4 9,5 7,1 TRA 4,5 9,0 8,9 7,8 5,9 11,4 12,4 7,9 7,6 5,7 6,6 9,1 5,9 8,5 LOC 1,8 1,0 8,0 1,4 1,4 7,6 15,8 12,1 9,6 9,8 6,8 6,0 5,0 4,0 EDU 6,6 8,1 10,0 12,4 9,5 8,8 8,1 8,1 9,4 12,5 15,7 19,5 21,1 23,8 ACS 2,1 3,2 6,4 6,2 6,0 4,8 4,9 5,3 8,5 8,0 9,7 10,6 10,7 11,3 ACO 10,1 11,8 13,4 11,3 5,9 3,4 3,4 3,9 4,6 5,0 5,3 4,7 4,2 3,7 DEF 10,9 28,0 27,4 29,3 40,7 32,2 20,7 36,1 28,2 26,7 24,4 19,8 20,0 18,8 DET 41,6 25,8 19,2 18,5 18,2 4,6 4,2 5,2 2,2 7,5 6,4 3,5 4,4 7,2 DIV 2,3 2,0 0 0,4 0 0 1,5 0 0 0 0,1 1,8 1,9 0

A1.5 Date privind evoluia unor active pe piaa de capital Vom prezenta informaii privind evoluia tranzaciilor pe piaa de capital a unui numr de 13 companii din domeniul TIC, companii listate pe S&P 500. Aceste companii sunt: Compania din domeniul TIC Apple Computer, Inc Compaq Computer Corp Dell Computer Corp EMC Corp Gateway Inc Hewlett-Packard International Business Machines Simbolul AAPL CPQ DELL EMC GTW HWP IBM Compania din domeniul TIC Lexmark International Group, In Ncr Corp New Network Appliance Inc Palm Inc Sun Microsystems Inc Unisys Corp Simbolul LXK NCR NTAP PALM SUNW UIS

n tabelul 5 apar informaii despre cele 13 companii n perioada 2000 - 2001 referitoare la: numele companiei; preul la deschidere (exprimat ca valoare medie n anul respectiv); preul maxim (exprimat ca valoare medie n anul respectiv); preul minim (exprimat ca valoare medie n anul respectiv); preul la nchidere (exprimat ca valoare medie n anul respectiv); ctigul mediu n %; volumul tranzaciilor (exprimat ca valoare medie n anul respectiv).

Tabelul 5 Compania AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS Preul la deschidere 45.55 26.97 35.79 87.37 50.17 91.90 109.14 52.06 41.08 93.47 45.47 94.36 14.93 Preul maxim 46.96 27.64 36.66 89.57 51.34 93.84 111.16 53.66 41.80 97.74 47.60 97.03 15.31 Preul minim 44.12 26.35 34.74 85.02 48.69 89.71 107.32 50.56 40.42 89.16 43.55 91.73 14.49 Preul la nchidere 45.41 27.00 35.67 87.42 49.99 91.63 109.20 52.12 41.20 93.38 45.61 94.32 14.90 Ctigul mediu (in %) pe 2000 -0.45 0.14 -0.28 0.14 -0.40 -0.32 0.06 0.29 0.31 0.06 0.50 -0.16 -0.06 Volumul mediu al tranzaciilor pe 2000 81016.35 145060.8 314750.6 97886.05 22757.61 54574.59 68456.00 14818.66 4482.66 75983.93 113695.4 250215.0 34421.74

Tabelul 5 (cont.) Compania AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS Preul la deschidere 20.87 19.38 24.52 48.23 18.22 31.06 104.81 53.66 44.72 33.22 16.58 22.10 14.82 Preul maxim 21.60 19.94 25.55 49.98 18.90 31.94 106.95 55.22 45.56 35.18 17.25 22.95 15.20 Preul minim 20.24 18.84 23.73 46.17 17.59 30.24 103.04 52.36 43.95 31.15 15.54 21.13 14.39 Preul la nchidere 20.95 19.34 24.64 48.04 18.21 31.07 105.03 53.96 44.84 33.10 16.24 22.02 14.84 Ctigul mediu (in %) pe 2001 0.48 -0.14 0.69 -0.30 0.04 0.07 0.24 0.61 0.29 -0.15 -1.88 -0.30 0.19 Volumul mediu al tranzaciilor pe 2001 86409.16 120773.6 375272.2 203199.5 28149.84 79269.67 97103.06 14693.45 6510.46 127149.3 160814.0 504142.1 21309.76

A1.6 Date pentru analiza riscului returnrii unui credit Fiierul de date conine informaii financiare i demografice privind clienii unor bnci. Informaiile se refer la: 1) Vrsta clientului n ani (age); 2) Nivelul educaiei (ed) cu urmtoarele modaliti 1 Fr liceu 4 Liceniat 2 Doar cu liceu 5 Postuniversitare 3 Facultate neterminat 3) Ani vechime ca salariat (employ) 4) De ci ani este la locuina curent (address) 5) Venitul familiei, n mii euro (income) 6) Datorii raportate la venit [x100] (debtinc) 7) Datoria pe cartea de credit, n mii euro (creddebt) 8) Alte datorii, n mii euro (othdebt) 9) Dac a avut probleme de rambursare nainte (default) 0 Nu 1 Da n tabelul 6 este prezentat situaia unui numr de 28 de clieni. Acetia reprezint o selecie din informaiile asupra 850 de clieni.

Tabelul 6 age
41 27 40 41 24 41 39 43 24 36 27 25 52 37 48 36

ed
3 1 1 1 2 2 1 1 1 1 1 1 1 1 1 2

employ
17 10 15 15 2 5 20 12 3 0 0 4 24 6 22 9

address
12 6 14 14 0 5 9 11 4 13 1 0 14 9 15 6

income
176 31 55 120 28 25 67 38 19 25 16 23 64 29 100 49

debtinc
9.30 17.30 5.50 2.90 17.30 10.20 30.60 3.60 24.40 19.70 1.70 5.20 10.00 16.30 9.10 8.60

creddebt
11.36 1.36 0.86 2.66 1.79 0.39 3.83 0.13 1.36 2.78 0.18 0.25 3.93 1.72 3.70 0.82

othdebt
5.01 4.00 2.17 0.82 3.06 2.16 16.67 1.24 3.28 2.15 0.09 0.94 2.47 3.01 5.40 3.40

default
1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1

age
36 43 39 41 39 47 28 29 21 25 45 43

ed
2 1 1 3 1 1 1 1 2 4 2 1

employ
13 23 6 0 22 17 3 8 1 0 9 25

address
6 19 9 21 3 21 6 6 2 2 26 21

income
41 72 61 26 52 43 26 27 16 32 69 64

debtinc
16.40 7.60 5.70 1.70 3.20 5.60 10.00 9.80 18.00 17.60 6.70 16.70

creddebt
2.92 1.18 0.56 0.10 1.15 0.59 0.43 0.40 0.24 2.14 0.71 0.95

othdebt
3.81 4.29 2.91 0.34 0.51 1.82 2.17 2.24 2.64 3.49 3.92 9.74

default
1 0 0 0 0 0 0 0 1 0 0 0

Anexa 2. Date dintr-un chestionar


Un chestionar este un grupaj de ntrebri cu rspunsuri fixate sau libere, gndit de un specialist n scopul realizrii unor obiective impuse de o activitate de cercetare. Prezentm n cele ce urmeaz un chestionar posibil pentru aflarea strii actuale privind dotarea populaiei cu aparate audiovideo, a mrcile de televizoare mai cunoscute dar i a celor preferate. Chestionarul TELE 1. Ce aparate audio-video avei n prezent n cas? radio televizor video Da Da Da Nu Nu Nu

2. Care considerai a fi criteriul hotrtor n achiziionarea unui aparat audio-video? preul performanele tehnice designul nu tiu altele, care 1 2 3 4 5

..

3. n alegerea unei anumite mrci de aparat audio-video, n ce msur v influeneaz reclama? M influeneaz: foarte mult 1 mult 2 potrivit 3 puin 4 deloc 5

4. Dup opinia dvs., cum ar trebui s fie publicitatea pentru aparate audiovideo? (ATENTIE! Indicai ordinea de preferin, acordnd nota 1 pentru tipul de reclam preferat, nota 2 pentru tipul urmtor , pn la 6) informativ cu simul umorului original credibil ocant obsedant

5. Pentru care dintre urmtoarele mrci de aparate TV ai vzut, ai auzit sau ai citit reclame n ultimul timp? Acordai fiecreia o not de la 1 la 5 n funcie de gradul de publicitate corespunztor (1 foarte mare, 2 mare etc.) Cromatic Goldstar Olt Panasonic Philips Samsung Sanyo 1 2 3 4 5 6 7 Tipul Da Nu Nu tiu 1 2 3 Nota Marca

6. Pentru anul acesta v propunei s achiziionai un aparat audio-video

7. Indicai numrul membrilor din familia dvs. 8. Indicai categoria socio-profesional a capului de familie fermier 1 salariat agricol 2 patron 3 liber profesionist 4 funcionar 5 muncitor 6 alte categorii 7 9. Care este venitul dvs. mediu lunar pe membru de familie? . 10. Indicai categoria de vrst n care v ncadrai 16-20 ani 21-30 ani 31-40 ani 41-50 ani peste 50 ani 1 2 3 4 5

Anexa 3. Incursiune n domeniile matematicii i statisticii


A3.1 Concepte de baz ale calculului matriceal O matrice A este un tablou de numere cu n linii i p coloane pe scurt A(n p ) , de forma:
a11 a 21 ... A= a i1 ... a n1 a12 a 22 ... ai 2 ... a n2 ... ... ... ... ... ... a1 j a2 j ... a ij ... a np ... ... ... ... ... ... a1 p a2 p ... a ip ... a np

care se mai poate scrie A = aij

( )i=1,2,...,n; j =1,2,..., p sau doar

A = aij n caz c

( )

dimensiunile n p sunt subnelese. Cazuri particulare de matrice i noiuni speciale: dac n = p = 1, atunci matricea se reduce la un scalar, notat de exemplu a; dac p = 1 avem de-a face cu un vector coloan, notat a; dac n = 1 avem de-a face cu un vector linie, notat a T ; dac n = p avem o matrice ptratic; dac ntr-o matrice ptratic avem aij = 0 pentru i j , atunci matricea este diagonal i o notm diag (aii ) ; despre o matrice diagonal de forma diag (1,...,1) spunem c este matricea unitate, notat cu I; dac o matrice ptratic are determinantul diferit de zero, atunci putem vorbi de inversa ei ca fiind acea matrice A 1 cu proprietatea c

A A 1 = A 1 A = I

dac ntr-o matrice ptratic aij = a ji pentru orice i j , spunem c matricea este simetric. Reamintim cteva operaii cu matrice: 1) Transpunerea matricei A are ca rezultat o nou matrice, notat AT , cu p linii i n coloane:
A T = a ji

( ) j =1,2,..., p; i=1,2,...,n .
( )

(Transpunerea unui vector linie are ca rezultat un vector coloan i reciproc.) 2) Opusa matricei A este matricea A = a ij . 3) Suma a dou matrice A i B (amndou avnd acelai numr n de linii i acelai numr p de coloane) nseamn o nou matrice
A + B = aij + bij .

4) Diferena a dou matrice A i B este o nou matrice


A B = aij bij .

(Evident, A B = A + ( B ) .) 5) Produsul unei matrice cu un scalar c este o nou matrice


cA = c a ij .

6) Produsul a dou matrice A(n p ) i B( p m) este o matrice A B =

a ij b jk . j =1 i =1,...,n;k =1,...,m
p

(Atenie, produsul A B are dimensiunea n m .) Reamintim c vectorii coloan x1 , x 2 ,..., x s sunt numii liniar independeni dac o combinaie liniar c1 x1 + c 2 x 2 + ... + c s x s coincide cu vectorul nul 0 doar dac toi coeficienii ck sunt nuli. O definiie analoag este valabil i pentru vectorii linie.

Reamintim cteva caracteristici ale unei matrice: 1) Rangul unei matrice A, notat rang(A), este definit ca fiind numrul maxim de coloane liniar independente. Acest numr coincide cu numrul maxim de linii liniar independente. 2) Urma unei matrice A, notat trace(A), este suma elementelor de pe diagonala principal trace(A) =

a
i =1

ii

3) Determinantul unei matrice ptratice (n = p) este un numr det(A) =

(1)
( )

a1(1) a 2( 2) ...a p( p ) ;

nsumarea se face dup toate permutrile ale mulimii {1,2,..., p} , iar | | nseamn signatura permutrii . Descompunerea spectral (Jordan) a unei matrice Reamintim c o matrice este numit ortogonal dac

AT A = A AT = I
cu alte cuvinte dac inversa sa coincide cu transpusa. (Evident, aceasta presupune c det ( A) 0 .) S considerm o matrice ptratic A( p p ) . Dac exist un scalar i un vector x astfel nct

A x = x
atunci scalarul este numit valoare proprie, iar vectorul x este numit vector propriu pentru matricea A. Despre dou matrice A i B, se spune c sunt similare dac au aceleai valori proprii. Se poate vedea imediat c o valoare proprie este o soluie a ecuaiei polinomiale de gradul p obinut din anularea determinantului matricei A I , asociat matricei A, adic
det( A I ) = 0

(1)

Ecuaia (1) se numete ecuaia caracteristic asociat matricei A, iar soluiile (rdcinile) sale, fie ele 1 , 2 ,..., p , se numesc valorile proprii ale matricei A. Putem considera matricea = diag ( 1 ,..., p ) . Pentru fiecare valoare proprie j exist un vector propriu corespunztor x j obinut din ecuaia (1). Putem considera matricea = ( x1 ,..., x p ) format cu vectorii proprii corespunztori valorilor proprii. Se poate arta ca matricea este inversabil i ortogonal. Teorema 1. (Descompunerea Jordan). Fiecare matrice ptratic A( p p ) poate fi scris sub forma:

A = 1 .
Observaie: Cum valorile proprii ale matricei A sunt aceleai cu cele ale matricei , cele dou matrice sunt similare. Teorema 2. Fiecare matrice simetric A( p p ) poate fi scris sub forma: A = T . 1 2 Exemplu. Fie matricea A = 2 2 . Valorile proprii ale matricei se obin ca rdcini ale ecuaiei : 1 2 = (1 )(3 ) 4 = 0 2 2 adic 1 = 2 + 5 i 2 = 2 5 . Cei doi vectori proprii x se obin rezolvnd ecuaia A x = 1 x respectiv A x = 2 x . Matricea vectorilor proprii este: 0.5257 0.8506 = 0.8506 0.5257 .

A3.2 Aspecte geometrice ntr-un spaiu vectorial Distana Fie vectorii x, y R p care definesc dou puncte din spaiul R p . S definim o distan ntre ei. Aceast distan, notat cu d, este o funcie d : R p R p R + cu proprietile:
d ( x, y ) > 0 pentru orice x y ; d ( x, y ) = 0 dac i numai dac x = y; d ( x, y ) < d ( x, z ) + d ( z , y ) pentru orice x, y, z .

Distana euclidian ntre dou puncte x i y este definit astfel:

d 2 ( x, y ) = ( x y ) T A ( x y )
unde A este o matrice pozitiv definit numit metric. Exemplu: Ca un caz particular putem considera c matricea A este I (matricea unitate); pentru acest caz obinem distana euclidian clasic

d ( x, y ) =

(x
i =1

yi ) 2 .

Distana euclidian definit de matricea pozitiv definit A conduce n R la o curbele de nivel


2

E d = x R p | ( x x0 ) T A ( x x0 ) = d 2

care sunt elipse definite de centrul x0, matricea A i constanta d > 0. Dac A este matricea unitate, atunci elipsele sunt cercuri cu raza d. Norma unui vector Fie un vector x R p . Norma vectorului x exprim lungimea sa i este definit prin:
|| x ||= d (0, x ) .

Dac norma vectorului este egal cu 1 (adic x = 1 ), x este numit vector unitar sau versor.

Fie doi vectori x, y R p . Putem defini unghiul dintre cei doi vectori prin intermediul cosinusului su. Astfel dac unghiul este notat cu atunci avem: xT y cos() = . x y O varietate de msuri de distan pot fi generate de norma Lr cu r 1 definit pentru doi indivizi i i j vzui ca linii ale matricei de date:
p r d ij =|| xi x j || r = | xik x jk | k =1

1/ r

Aici xik reprezint valoarea caracteristicii k pentru individul i. Pentru r = 2 regsim norma euclidian i respectiv distana euclidian
p d ij =|| xi x j || 2 = ( xik x jk ) 2 k =1

1/ 2

A3.3 Indicatori statistici elementari

Fie dou caracteristici C1 i C2 (caracteristici cantitative) asupra crora avem n valori observate. Fie x1 , x 2 ,..., x n valorile observate asupra primei i y1 , y 2 ,..., y n valorile observate asupra celei de a doua. Putem calcula urmtorii indicatori statistici elementari:
1) Media

Definim media caracteristicii C1 pe baza valorilor observate prin:


mx = 1 n

x
1 i

dac fiecare valoare xi are ponderea

1 n

sau
mx =

p x
1

unde pi sunt ponderi pozitive asociate valorilor

observate (i prin urmare

p
1

= 1 ).

Media este un indicator statistic de centrare a secvenei de valori observate. Analog, calculm i media caracteristicii C2, fie ea m y . Vom numi centru de greutate asociat celor dou caracteristici punctul din plan de coordonate ( m x , m y ) . Putem vorbi n acest context de centrarea datelor n raport cu valoarea medie adic, de noile valori de forma ( x1 m x , x 2 m x ,..., x n m x ) , resp. ( y1 m y , y 2 m y ,..., y n m y ) . Se observ imediat c aceste secvene de valori au mediile zero.
2) Dispersia

Definim dispersia caracteristicii C1 calculat pe baza valorilor observate prin:


2 sx =

1 n 1
n i

(x m )
i x 1 i x 2

dac fiecare valoare xi are aceeai pondere

1 sau n

2 sx

p (x m )
1

folosind ponderile pi pozitive cu

p
1

= 1.

Pentru analiza secvenei de valori observate se mai folosete radicalul dispersiei, se obine abaterea medie ptratic (abaterea standard)
2 sx = sx .

Analog, pentru caracteristica C2 calculm dispersia s 2 y i abaterea medie ptratic s y . Dispersia i abaterea medie ptratic sunt indicatori statistici ce exprim mprtierea valorilor observate n jurul valorii medii. Se observ faptul c dispersia, ca msur a mprtierii valorilor n jurul mediei, poate exprima pe de o parte cantitatea de informaie pe care o ofer datele observate (tiind c o dispersie nul este asociat unei informaii nule); pe de alt parte, ea poate fi folosit i ca msur a riscului. O mprtiere mare a valorilor observate asupra unei caracteristici poate exprima un risc mare.

Dac pentru o secven de valori s-au calculat indicatorii elementari (media i abaterea standard), putem standardiza valorile folosind, pentru orice valoare xi, transformarea:

xi m x . sx Noua secven de valori z i va avea media 0 i abaterea standard 1. zi =


3) Covariana i coeficientul de corelaie

Covariana ntre cele dou caracteristici, pe baza valorilor observate, este definit prin formula:
s xy =

1 n 1

(x m ) ( y m ) .
i x i y 1

(2)

Se observ c, dac aplicm formula (2) pentru aceeai caracteristic, de exemplu pentru C1, obinem:
s xx

1 = n 1

(x m )
i x 1

2 = sx

(3)

adic dispersia caracteristicii calculat pe baza celor n valori observate. Se obinuiete a se asocia celor dou caracteristici C1, C2 aa numita matrice de covarian (empiric, calculat pe baza celor n observaii) exprimat prin:

s S = xx s xy

s xy s yy

(4)

Dup cum se observ cu uurin, aceasta este o matrice simetric. Folosind covariana i dispersiile celor dou caracteristici putem calcula raportul s xy rxy = (5) sx s y Numrul rxy astfel calculat se numete coeficientul de corelaie (Pearson) i exprim intensitatea unei legturi liniare (calculat folosind cele n valori observate) ntre cele dou caracteristici. Coeficientul de corelaie rxy ia valori n intervalul [-1, 1].

Este evident c rxx = 1 i putem s asociem celor dou caracteristici matricea

1 R= rxy

rxy 1

(6)

numit matricea corelaiilor calculat pe baza celor n observaii.


Observaie: Dac n locul valorilor observate x1 , x 2 ,..., x n respectiv

y1 , y 2 ,..., y n

' ' ' se vor folosi valorile standardizate x1 (resp. , x2 ,..., x n

' ' ' ) date de y1 , y2 ..., y n

xi' =

yi m y xi m x (resp. yi' = ), sy sx

atunci matricea de covarian este tocmai matricea corelaiilor. ntr-adevr,


s x' y '

1 = n 1
= 1 n 1

1 ( x'i m x ' ) ( y 'i m y ' ) = n 1


xi m x y i m y sx sy

x' y ' =
i i 1

1 1 = sx s y n 1

(x m ) ( y m ) = s
i x i y 1

s xy
x

sy

= rxy .

Anda mungkin juga menyukai