Proiect Analiza Datelor

Academia de Studii Economice Bucuresti
Facultatea de Cibernetica, Statistica si Informatica Economica
Proiect Analiza Datelor

Analiza in compomemte principale si
analiza claselor ierarhice
Bucuresti – 2009
Proiectul isi propune sa analizeze progresul tehnologic in 24 tari cu un nivel mediu
de dezvoltare umana. Datele prelucrate sunt din 2005 iar sursa este Human
Development Raport 2007/2008. Scopul acestei analize este de a estima tara cea mai
avantajoasa din punct de vedere a dezboltarii tehnologice.
Analiza in componente principale
2
Case Summariesa
abonati_ utilizator Populati

alfabe linii_tele tel_mobi i_interne cercet consum PIB($ indicele e_urban numar_a
Tara tizare fonie l t atori _energie ) _saracie a ngajati
1 Kazakhstan 99.5 167 327 27 629 1.5 57.1 18.2 57.3 7182
2 Colombia 92.8 168 479 104 109 .7 122.3 7.9 72.7 18217
3 Thailand 92.6 110 430 110 287 1.4 176.6 10.0 32.3 36302
4 2234.
China 90.9 269 302 85 708 2.1 11.7 40.4 737400
3
5 Turkey 87.4 263 605 222 341 1.1 362.5 9.2 67.3 22047
6 Peru 87.9 80 200 164 226 .4 79.4 11.6 72.6 3400
7 Ecuador 91.0 129 472 47 50 .8 36.5 8.7 62.8 3892
8 Philippines 92.6 41 419 54 48 .7 99.0 15.3 62.7 32875
9 Tunisia 74.3 125 566 95 1013 .9 28.7 17.9 65.3 3315
10 Iran 82.4 278 106 103 1279 1.3 189.8 12.9 66.9 19760
11 Paraguay 93.5 54 320 34 79 1.0 7.3 8.8 58.5 2247
12 Sri Lanka 90.7 63 171 14 128 1.3 23.5 17.8 15.1 6943
13 El Salvador 80.6 141 350 93 47 .6 17.0 15.1 59.8 2526
14 Nepal 48.6 17 9 4 59 1.0 7.4 38.1 15.8 7459
15 Madagascar 70.7 4 27 5 15 .1 5.0 35.8 26.8 8099
16 Viet Nam 90.3 191 115 129 115 3.2 52.4 15.2 26.4 42316
17 Indonesia 90.4 58 213 73 207 .8 287.2 18.2 48.1 94948
18 Nicaragua 76.7 43 217 27 73 .4 4.9 17.9 59.0 1953
19 Egypt 71.4 140 184 68 493 .9 89.4 20.0 42.8 18119
20 Bolivia 86.7 70 264 52 120 .4 9.3 13.6 64.2 2091
21 India 61.0 45 82 55 119 .8 805.7 31.3 28.7 308760
22 Pakistan 49.9 34 82 67 75 .6 110.7 36.2 34.9 38882
23 Bangladesh 47.5 8 63 3 51 1.1 60.0 40.5 25.1 44322
24 South Africa 82.4 101 724 109 307 .2 239.5 23.5 59.3 11622
Total N 24 24 24 24 24 24 24 24 24 24 24
In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica

aflarea unor indicatori relevanti pentru analiza, indicatori sintetici redusi din cei
initiali, pe baza carora datele pot fi interpretare mai usor. Pentru aceasta se foloseste
tehnica analizei componentelor principale pe baza matricei de corelatie.
Componentele noi vor exprima atribute noi ale tarilor si sunt construite in asa fel incat
3
sa fie necorelate intre ele, fiecare dintre aceste noi variabile fiind o combinatie liniara
de variabile originale.
Variabilele luate in considerare sunt:

 alfabetizare- Gradul de alfabetizare a adultilor de peste 15 ani in anul 2005;
 linii_telefonice - Numatul de linii de telefonice la 1000 de persoane in 2005;
 abonati_tel_mobil - numarul de telefoane mobile la 1000 de persoane in 2005;
 utilizatori_internet - numarul utilizatorilor de internet la 1000 de persoane in 2005;
 cercetatori – numar de cercetatori la milionul de locuitori in 2005;
 consum_energie- consumul de energie pe cap de locuitor(%) din totalul de energie
consumata in 2005;
 PIB – miliarde $ (us) 2005;
 indicele saracie- indicele de saracie umana, valoare procentuala in 2005( cu cat
valoarea sa este mai mare cu atat poporul e mai sarac);
 populatie_urbana- % din totalul populatiei 2005;
 numar_angajati- numarul de angajati (mii) in anul 2005.
In prima etapa calculam analiza descriptiva a variabilelor si calculam

indicatorii de centrare si imprastire, cum este media, valoarea minima si valoarea
maxima, abaterea standard.
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation Variance
alfabetizare 24 47.5 99.5 80.492 15.1709 230.156
linii_telefonie 24 4 278 108.29 81.464 6636.303
abonati_tel_mobil 24 9 724 280.29 194.343 37769.259
utilizatori_internet 24 3 222 72.67 52.977 2806.580
cercetatori 24 15 1279 274.08 328.794 108105.819
consum_energie 24 .1 3.2 .971 .6531 .427
PIB($) 24 4.9 2234.3 212.729 464.2796 215555.590
indicele_saracie 24 7.9 40.5 18.975 10.0238 100.476
Populatie_urbana 24 15.1 72.7 48.533 18.5972 345.857
numar_angajati 24 1953 737400 61444.88 157025.456 2.466E10
Valid N (listwise) 24
4
Tabelul Descriptive Statistics contine informatii despre fiecare variabila
analizata independent. Din tabel aflam ca pentru variabila gradului de alfabetzare la
adulti (peste 15 ani) valoarea maxima este 99.5 iar cea medie este de 80.49 de unde
putem concluziona ca desi analizam tari medii din punct de vedere al dezvoltarii
umane, gradul de alfabetizare este in medie destul de ridicat. Desi reteaua telefonica
nu este foarte bine dezvoltata, existant maxim 278 linii telefonice la 1000 de
persoane, numarul maxim al utilizatorilor de telefon mobil este aproximativ triplu 724
la acelasi numar de persoane. Gradul de raspandire a telefoniei mobile in aceste tari
este mult mai ridicat decat cel al utilizarii internetului, care are valoarea medie de
72.67 la mia de locuitori.
Valoarea medie a consumului de energie pe cap de locuitar a tarilor analizate
este 3.2, aceasta variabila avand varianta cea mai mica, 0.427, ceea ce ne arata ca este
si cea mai omogena variabila, dar si cea mai stabila, avand abaterea standard cea mai
mica, 0.6531. Populatia in aceste tari este predominant rurala, indicele populatiei
urbane avand media 48.533.
Tot in urma analizei descriptive se obtin si standardizarile variabilelor initiale.

Pentru analiza in componente principale se vor folosi variabilele standardizate,
evitand in acest fel discrepantele dintre valori ce ar putea fi datorate unitatilor de
masura diferite. Informatiile astfel exprimate in forma standardizata, in unitati
standard de abatere medie patratitica, se afla in tabelul de mai jos:
5
Case Summariesa
Zscore(al Zscore(li Zscore(a Zscore(ut Zscore(c Zscore(c Zscore(in Zscore(P Zscore(nu

fabetizar nii_telefo bonati_te ilizatori_i ercetatori onsum_e Zscore: dicele_sa opulatie_ mar_anga
Tara e) nie) l_mobil) nternet) ) nergie) PIB($) racie) urbana) jati)
1 Kazakhstan 1.25295 .72067 .24034 -.86201 1.07945 .81027 -.33521 -.07732 .47140 -.34557
2 Colombia .81131 .73295 1.02246 .59145 -.50209 -.41471 -.19477 -1.10487 1.29948 -.27529
3 Thailand .79813 .02097 .77033 .70471 .03928 .65715 -.07782 -.89537 -.87289 -.16012
4 China .68607 1.97276 .11170 .23280 1.31972 1.72901 4.35421 -.72578 -.43734 4.30475
5 Turkey .45537 1.89911 1.67080 2.81882 .20352 .19778 .32259 -.97518 1.00911 -.25090
6 Peru .48832 -.34729 -.41314 1.72401 -.14624 -.87407 -.28717 -.73575 1.29410 -.36965
7 Ecuador .69266 .25420 .98644 -.48449 -.68153 -.26158 -.37958 -1.02506 .76714 -.36652
8 Philippines .79813 -.82603 .71373 -.35235 -.68761 -.41471 -.24496 -.36663 .76176 -.18194
9 Tunisia -.40813 .20510 1.47012 .42157 2.24735 -.10846 -.39638 -.10725 .90157 -.37019
10 Iran .12579 2.08324 -.89682 .57257 3.05637 .50403 -.04939 -.60606 .98760 -.26547
11 Paraguay .85745 -.66645 .20432 -.72987 -.59333 .04466 -.44247 -1.01509 .53592 -.37700
12 Sri Lanka .67289 -.55597 -.56236 -1.10740 -.44430 .50403 -.40758 -.11722 -1.79776 -.34709
13 El Salvador .00714 .40151 .35869 .38381 -.69065 -.56783 -.42158 -.38658 .60582 -.37522
14 Nepal -2.10216 -1.12064 -1.39594 -1.29616 -.65416 .04466 -.44225 1.90797 -1.76012 -.34380
15 Madagascar -.64542 -1.28023 -1.30332 -1.27728 -.78798 -1.33344 -.44742 1.67851 -1.16863 -.33973
16 Viet Nam .64652 1.01528 -.85051 1.06335 -.48384 3.41335 -.34533 -.37660 -1.19014 -.12182
17 Indonesia .65311 -.61735 -.34625 .00629 -.20403 -.26158 .16040 -.07732 -.02330 .21336
18 Nicaragua -.24993 -.80148 -.32567 -.86201 -.61158 -.87407 -.44764 -.10725 .56281 -.37887
19 Egypt -.59928 .38923 -.49547 -.08809 .66582 -.10846 -.26564 .10226 -.30829 -.27592
20 Bolivia .40923 -.47005 -.08383 -.39011 -.46863 -.87407 -.43816 -.53623 .84242 -.37799
21 India -1.28481 -.77693 -1.02032 -.33348 -.47167 -.26158 1.27718 1.22958 -1.06647 1.57500
22 Pakistan -2.01647 -.91196 -1.02032 -.10696 -.60549 -.56783 -.21976 1.71842 -.73308 -.14369
23 Bangladesh -2.17467 -1.23112 -1.11808 -1.31503 -.67849 .19778 -.32896 2.14740 -1.26004 -.10905
24 South Africa .12579 -.08951 2.28312 .68583 .10011 -1.18032 .05766 .45143 .57894 -.31729
Total N 24 24 24 24 24 24 24 24 24 24 24
a. Limited to first 100 cases.
In urma standardizarii, variabilele, anterior exprimate in unitati de masura diferite,

sunt perfect comparabile intre ele si se pot realiza topuri ale tarilor in functie de fiecare
variabila individuala. De exemplu intr-un top al tarilor cu cel mai mare grad de
alfabetizare pe primul loc se afla Kazakhstan,urmata de Paraguay si Colombia iar la urma
clasamentului se afla Bangladesh. De asemeni, din punct de vedere al indicelui de saracie,
cele mai bogate tari din cele analizate sunt: Colombia si Paraguay iar cele mai sarace
Bangladesh, Nepal si Madagascar.
6
Pentru a realiza scopul propus de Analiza in componente principale, se
calculeaza mai intai matricea corelatiilor variabilelor, o matrice patratica de
dimensiune 8x8 in cazul de fata.
Matricea de corelatie, Correlation Matrix, care se obtine prin utilizarea
variabilelor standardizate este:
Correlation Matrixa
Zscore( Zscore(i
Zscore( Zscore(l abonati Zscore(ut Zscore( Zscore(c ndicele Zscore(P Zscore(nu
alfabeti inii_tele _tel_mo ilizatori_i cercetat onsum_e Zscore: _saraci opulatie_ mar_angaj
zare) fonie) bil) nternet) ori) nergie) PIB($) e) urbana) ati)
Correlati Zscore(alfabeti
1.000 .480 .528 .352 .167 .246 .092 -.882 .505 .026
on zare)
Zscore(linii_tel
.480 1.000 .369 .637 .658 .525 .429 -.610 .386 .323
efonie)
Zscore(abonati
.528 .369 1.000 .494 .175 -.142 .038 -.577 .627 -.083
_tel_mobil)
Zscore(utilizat
.352 .637 .494 1.000 .284 .180 .159 -.534 .481 .035
ori_internet)
Zscore(cerceta
.167 .658 .175 .284 1.000 .260 .285 -.255 .300 .214
tori)
Zscore(consu
.246 .525 -.142 .180 .260 1.000 .333 -.219 -.338 .358
m_energie)
Zscore:
.092 .429 .038 .159 .285 .333 1.000 -.107 -.110 .983
PIB($)
Zscore(indicel
-.882 -.610 -.577 -.534 -.255 -.219 -.107 1.000 -.655 -.026
e_saracie)
Zscore(Popula
.505 .386 .627 .481 .300 -.338 -.110 -.655 1.000 -.206
tie_urbana)
Zscore(numar
.026 .323 -.083 .035 .214 .358 .983 -.026 -.206 1.000
_angajati)
a. Determinant = 1.23E-
005
Matricea de corelatie ofera informatii cu privire la ‘taria’ legaturii dintre variabile si,
deasemenea, in functie de valorile coeficientilor ne putem da seama de cate componente
principale este necesar in cadrul analizei.
7
Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.983 este
intre variabila produsului intern brut si cea a numarului de angajati, urmata de corelatia
puternicade 0.92 intre produsul intern brut si gradul de alfabetizare. Din analiza matricei de
corelatie deducem faptul ca pentru a caracteriza datele initiale avem nevoie de aproximativ
trei variabile artificiale. Continutul informational total al datelor initiale, care reprezinta de
fapt varianta generalizata calculata ca determinant al matricei de covarianta, este 1.23E-005.
Tabelul Communalities ne arata influenta variabilelor luate in studiu.
Communalities
Initial Extraction
Zscore(alfabetizare) 1.000 .655
Zscore(linii_telefonie) 1.000 .850
Zscore(abonati_tel_mobil) 1.000 .705
Zscore(utilizatori_internet) 1.000 .530
Zscore(cercetatori) 1.000 .371
Zscore(consum_energie) 1.000 .916
Zscore: PIB($) 1.000 .979
Zscore(indicele_saracie) 1.000 .824
Zscore(Populatie_urbana) 1.000 .842
Zscore(numar_angajati) 1.000 .957
Extraction Method: Principal Component Analysis.
Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior(cu exceptia variabilei a 5-a reprezentand
numarul cercetatorilor la mia de persoane, fiecare dintre ele, in rest, avand o cantitate
de informatie recuperata de peste 40%, dupa cum reiese din coloana Extraction.
Din analiza acestuia se observa ca variabila 7 are o contributie majora la explicarea
variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din
acesta variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza
0.957 din informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc

informatiile din tabelul Total Variance Explained. Tabelul ne ofera informatii cu
privire la valoriile proprii ale matricei de corelatie, dar si informatii referitoare la
componentele principale si cantitate de informatie retinuta de acestea. O valoare
proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are
o contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa.
8
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadings

Compo
nent Total % of Variance Cumulative % Total % of Variance Cumulative %
1 4.053 40.533 40.533 4.053 40.533 40.533
2 2.515 25.152 65.685 2.515 25.152 65.685
3 1.061 10.605 76.290 1.061 10.605 76.290
4 .970 9.704 85.994
5 .647 6.475 92.469
6 .391 3.907 96.376
7 .168 1.682 98.059
8 .115 1.153 99.211
9 .076 .757 99.969
10 .003 .031 100.000
Se observa ca pentru a recupera o cantitate cat mai mare de informatie din

datele initiale avem nevoie de trei componente principale. Acestea corespund
valorilor proprii cele mai mari, valori proprii peste 1, iar aceste valori proprii
reprezinta variantele corespunzatoare celor trei componente retinute. Cele trei valori
proprii retinute, cu valori peste 1, se afla in coloana Initial Eigenvalues si sunt, in
ordine descrescatoare, 4.053, 2.515 si 1.061. Utilizand trei componente principale,
cantitatea de informatie total recuperata este de 76.29 % din informatia initiala, asa
cum se observa in coloana Cumulative %. Dintre cele trei componente principale,
prima acopera 40.5% din varianta finala, a doua componenta 25.1% (25.152), in timp ce
a treia componenta 10.6% (10.605).
Pentru a stabili numarul de componente principale necesare se mai poate
folosi si metoda grafica. In Scree Plot, graficul descresterii, se observa trei diferente
semnificative de nivel intre segmentele ce indica reprezentarea grafica a valorilor
proprii, ceea ce ne indica necesitatea unui numar de 3 componente principale.
Pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata
se afla valorile efective ale acestora. Folosind criteriul pantei si reprezentarea grafica
a valorilor proprii se poate determina numarul de componente principale necesare
reprezentarii spatiului initial. In urma identificarii numarului de diferente
semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente
semnificative in reprezentarea grafica se duce o paralela la abscisa, iar numarul de
valori proprii ramase deasupra paralelei da numarul de componente principale.
9
Pentru a caracteriza componentele astfel obtinute se determina coeficientul de
corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul,
datele fiind disponibile in Component Matrix. Cu ajutorul tabelului se poate da o
interpretare variabilelor in spatiul transformat, aceasta continand coeficientii
corelatiilor dintre componentele principale si valorile initiale.
Component Matrixa
Component
1 2 3
Zscore(alfabetizare) .761 -.211 -.174
Zscore(linii_telefonie) .856 .288 -.184
Zscore(abonati_tel_mobil) .665 -.414 .303
Zscore(utilizatori_internet) .721 -.100 -.018
Zscore(cercetatori) .546 .262 -.062
Zscore(consum_energie) .323 .609 -.664
Zscore: PIB($) .360 .811 .437
Zscore(indicele_saracie) -.867 .240 .119
Zscore(Populatie_urbana) .659 -.563 .302
Zscore(numar_angajati) .242 .858 .404
a. 3 components extracted.
10
Se observa astfel ca prima componenta principala se poate analiza in termenii
numarului liniilor de telefonie fixa existente la mia de locuitori,a numarului de
telefoane mobile la mia de locuitori precum si in functie de gradul de alfabetizare si
numarul utilizatorilor de internet, toate avand un coeficient de corelatie de peste
0.700.
Prima componenta principala este puternic negativ influientata de indicele de saracie,
deoarece, cu cat tara are un indice de saracie mai mare cu atat este mai putin inclinata
spre folosirea de tehnilogie. Astfel, aceasta prima componenta poate fi considerata un
indicator accesului populaţiei la întreaga gamă de servicii oferite de dezvoltarea
tehnologiilor informa ţionale. In acelasi timp, aceasta prima componenta poate fi
folosita pentru a caracteriza tarile in functie de gradul de educatie utilizare a
tehnologiei fiind fiind puternic influientata de gradul de alfabetizare. Intr-un top al
tarilor ordonate dupa prima componenta principala,Turcia, China si Iran ocupa
primele pozitii, acestea putand fi caracterizate drept cele mai dezvoltate tari din punct
de vedere tehnologic dintre cele studiate, incadrate in tarile cu nivel mediu de
dezvoltare umana, in timp ce ultimele locuri sunt ocupate Pakistan, Madagascar,
Bangladesh, Nepal .
Topul tarilor in functie de prima componenta principala, componenta ce indica
accesului populaţiei la întreaga gamă de servicii oferite de dezvoltarea tehnologiilor
informa ţionale:
Tara FACT_1
Turkey 1.692055
China 1.649365
Iran 1.140779
Colombia 0.893408
Tunisia 0.689404
Kazakhstan 0.526592
Kazakhstan 0.526592
Thailand 0.497049
Peru 0.488084
Viet Nam 0.441834
Ecuador 0.435171
South Africa 0.404341
El Salvador 0.196265
Paraguay 0.089999
Philippines 0.073668
Bolivia -0.04832
Indonesia -0.07209
Egypt -0.15825
Nicaragua -0.52321
Sri Lanka -0.62418
India -0.94564
Pakistan -1.39979
Madagascar -1.65462
Bangladesh -1.86178
Nepal -1.93013
Componenta a doua este puternica influentata de nivelul PIB-ului si a

numarului de angajati. Reiese astfel, in urma unei ordonari crescatoare, ca China,
11
India si Viet Nam sunt tarile cu nivelul cel mai ridicat al produsului intern brut si cu
numarul cel mai mare de angajati.
Topul tarilor in functie de a doua componenta principala, ordonata crescator,
deoarece indica, intr-un fel bogatia tarilor respective:
Tara FACT_2
China 3.597186
India 1.392008 A treia componenta principala indica pe bogatia
Viet Nam 1.013131 monetara a tarilor considerate, fiind influientata atat de PIB
Bangladesh 0.598077
si numarul de angajati cat si de economisirea de energie
Nepal 0.587538
electrica, nivelul dezvoltarii populatiei in mediul urban,
Iran 0.408052
Pakistan 0.244297
numarul de abonati la telefonia mobila.
Sri Lanka 0.2331 Topul tarilor in functie de cea de-a treia componenta
Egypt 0.121975 principala, componenta ce indica nivelul dezvoltarii
Thailand -0.0258 economice a tarilor considerate:
Indonesia -0.03121
Tara
Kazakhstan FACT_3
-0.05825
China
Madagascar 1.642949
-0.07117
South Africa
Turkey 1.486478
-0.43819
India
Tunisia 1.213454
-0.45884
Philippines
Nicaragua 0.526857
-0.66802
Nicaragua
El Salvador 0.50377
-0.67436
Pakistan
Paraguay 0.43059
-0.69184
Bolivia
Philippines 0.426051
-0.78346
Peru
Ecuador 0.414433
-0.82296
Madagascar
Bolivia 0.401167
-0.82909
Colombia
-0.87484
Tunisia
Colombia 0.320675
-0.88103
El Salvador
Peru 0.232681
-0.88629
Indonesia 0.208636
Ecuador 0.142021
Turkey 0.103563
Bangladesh -0.10371
Paraguay -0.23572
Egypt -0.37094
Nepal -0.42547
Thailand -0.78275
Kazakhstan -0.96234
Iran -1.05085
Sri Lanka -1.27032
Viet Nam -3.22141
Tabelul Rotated Component Matrix foloseste tehnica rotirii axelor, tehnica Varimax,
si are drept scop obtinerea unor coeficienti de corelatie cat mai mici pe una din
componentele principale. In cazul nostru interpretarea se poate face cu usurinta si pe
prima matrice de corelatie dintre variabilele originale si componentele principale. Se
observa ca prin tehnica Varimax obtinem aceeasi interpretare. Tehnica Varimax
realizeaza o roatie a axelor initiale pentru a facilita interpretarea factorilor astfel
obtinuti.
12
Rotated Component Matrixa
Component
1 2 3
Zscore(alfabetizare) .753 -.053 .291
Zscore(linii_telefonie) .634 .358 .566
Zscore(abonati_tel_mobil) .808 .030 -.227
Zscore(utilizatori_internet) .691 .111 .203
Zscore(cercetatori) .380 .320 .353
Zscore(consum_energie) -.039 .193 .937
Zscore: PIB($) .049 .978 .143
Zscore(indicele_saracie) -.867 .015 -.267
Zscore(Populatie_urbana) .863 -.089 -.298
Zscore(numar_angajati) -.081 .963 .154

Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.
Tabelul Component Transformation Matrix indica corelatia componentelor

inainte si dupa rotatie.
Component Transformation Matrix
Component 1 2 3
1 .986 .163 .030
2 -.162 .914 .371
3 .033 -.371 .928

Component Plot in Rotated Space ofera o reprezentare grafica

tridimensionala a celor 3 componente principale. Fiecare variabila este reprezentata in
functie de corelatia cu fiecare componenta. Este un mod grafic de a prezenta aceeasi
informatia ca in tabelul Rotated Component Matrix.
13
Componentele principale nu sunt altceva decat combinatii liniare ale
variabilelor originale cu versorii noului spatiu redus . Acesti versori sunt dati de
vectorii proprii corespunzatori valorilor proprii mai mari decat 1. Tabelul Component
Score Coefficient Matrix reprezinta matricea versorilor, continand vectorii proprii
corespunzatori valorilor proprii retinute. Datele sunt prezente in tabelul de mai jos:
14
Component Score Coefficient Matrix
Component
1 2 3
Zscore(alfabetizare) .184 -.106 .156
Zscore(linii_telefonie) .123 .050 .265
Zscore(abonati_tel_mobil) .251 .077 -.258
Zscore(utilizatori_internet) .175 .008 .053
Zscore(cercetatori) .072 .086 .141
Zscore(consum_energie) -.105 -.140 .653
Zscore: PIB($) .000 .508 -.156
Zscore(indicele_saracie) -.218 .079 -.117
Zscore(Populatie_urbana) .274 .030 -.286
Zscore(numar_angajati) -.038 .496 -.131

Matricea Component Score Covariance Matrix demonstreaza faptul ca

covarianta dintre componentele principale este 0, componentele fiind interpretate in
functie de valori diferite.
Component Score Covariance Matrix
Component 1 2 3
1 1.000 .000 .000
2 .000 1.000 .000
3 .000 .000 1.000

Noile variabile obtinute prin aplicarea acestei tehnici de analiza

multidimensionala sunt prezentate in tabelul de mai jos:
15
Case Summaries
REGR factor
score 1 for REGR factor REGR factor
analysis 2 score 2 for score 3 for
Case Number Tara analysis 2 analysis 2
1 1 Kazakhstan .38024 -.43993 .93203
2 2 Colombia 1.21367 -.23457 -.42825
3 3 Thailand .36263 -.32205 .79070
4 4 China .22780 4.18453 .89288
5 5 Turkey 1.72201 .18175 .25972
6 6 Peru .85477 -.32549 -.59911
7 7 Ecuador .74715 -.44330 -.36339
8 8 Philippines .45200 -.29627 -.77765
9 9 Tunisia .85068 .01123 -.25467
10 10 Iran .73434 .04377 1.42513
11 11 Paraguay .33445 -.64768 -.10468
12 12 Sri Lanka -.81775 -.70189 .94673
13 13 El Salvador .48172 -.34221 -.44527
14 14 Nepal -2.03834 -.31111 -.00319
15 15 Madagascar -1.41742 -.28633 -.90151
16 16 Viet Nam -.41491 -.89282 3.26035
17 17 Indonesia -.02649 .07272 -.20907
18 18 Nicaragua -.13780 -.38341 -.89877
19 19 Egypt -.23907 -.15624 .30976
20 20 Bolivia .34775 -.42201 -.75645
21 21 India -1.27238 1.50697 -.64381
22 22 Pakistan -1.31206 .04671 -.69341
23 23 Bangladesh -1.94078 -.10370 -.23936
24 24 South Africa .90778 .26133 -1.49869
Total N 24 24 24 24
16
Analiza claselor ierarhice
Metodele de clasificare sau de analiza “cluster” au ca scop gruparea

indivizilor, caracterizati de diverse variabile, intr-un numar restrans de clase
omogene.
Analiza claselor ierarhice (Hierarchical Cluster Analysis) este o metoda de
grupare “ierarhica” in care fiecare clasa este in totalitate continuta in alta clasa.
Clasele grupeaza indivizi cat mai asemanatori intre ei prin valorile variabilelor lor, in
timp ce clasele constituite sunt cat mai diferite.
In urma realizarii analizei ierarhice se obtin mai multe tabele.

Tabelul Case Processing Summary arata cate variabile au fost luate in
considerare in analiza, in cazul de fata 24 dintre ele fiind valide, adica un procent de
100%.
Case Processing Summary
Cases
Included Excluded Total
N Percent N Percent N Percent
Tara 24 100.0% 0 .0% 24 100.0%
REGR factor score 1 for

24 100.0% 0 .0% 24 100.0%
analysis 2

24 100.0% 0 .0% 24 100.0%
analysis 2

24 100.0% 0 .0% 24 100.0%
analysis 2
Tabelul Proximity Matrix exprima distantele euclidiene dintre variabile, in

cazul de fata dintre tari, si se observa ca acestea pot fi folosite ca masura de
comparare a tarilor. Cu cat dinstanta dintre tari este mai mare, cu atat punctele sunt
mai putin asemanatoare. Astfel, distantele euclidiene masoara disimilaritatea dintre
puncte. Valoarea dintre elementele de pe diagonala este 0, in timp ce in restul
tabelului o valoare mica indica o similaritate ridicata iar o valoare ridica o
disimilaritate puternica. In cazul de fata tabelul rezultat este o matrice patratica de
dimensiune 24x24.
In tabelul Agglomeration Schedule se afla gruparea claselor in functie de
distantele din matricea de proximitate (Coefficients). Fiecare rand reprezinta o etapa
din procesul de grupare al variantelor, numerotate de la 1 la 23 (n-1, unde n este
numarul de variante). Ultima etapa, n-1, cuprinde toate variantele intr-un singur
cluster. Cele doua coloane continute de campul Stage Cluster First Appears indica
17
etapa la care a mai fost intalnit un cluster deja format, iar Next Stage indica etapa
viitoare la care va mai fi intalnita combinatia de clustere formata.
Agglomeration Schedule
Cluster Combined Stage Cluster First Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 14 23 .439 0 0 9
2 18 20 1.108 0 0 4
3 8 11 1.161 0 0 4
4 8 18 1.247 3 2 5
5 7 8 1.706 0 4 6
6 2 7 1.782 0 5 7
7 2 13 1.938 6 0 8
8 2 17 2.071 7 0 11
9 14 22 2.661 1 0 10
10 14 21 3.308 9 0 13
11 2 19 3.688 8 0 12
12 2 6 4.188 11 0 14
13 14 15 4.328 10 0 19
14 2 3 4.514 12 0 15
15 2 12 5.408 14 0 16
16 2 24 5.983 15 0 17
17 1 2 6.341 0 16 18
18 1 9 7.485 17 0 19
19 1 14 7.709 18 13 20
20 1 5 8.110 19 0 21
21 1 10 10.844 20 0 22
22 1 16 12.079 21 0 23
23 1 4 27.128 22 0 0
Tabelul Vertical Icicle indica pentru fiecare tara in parte din cate clustere face
parte, intreruperea de X din coloane indicand si locul in care se termina o clasa. Pe pe
prima coloana verticala sunt prezentate numarul de clustere, iar urmatoarele coloane
reprezinta variantele, in cazul de fata tarile. Citind tabelul de jos in sus, se poate
observa cum au fost grupate tarile. Prima solutie din Agglomeration Schedule va fi
prezentata pe ultimul rand, n-1, cea in care doar primele doua tari erau grupate, in
18
timp ce primul rand reprezinta clusterul ce contine toate variantele. Pe masura ce se
succed randurile, numarul de clustere creste.
Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne
indica modul de grupare al tarilor in functie de asemanarile dintre ele, dar si nivelul
lor de agregare:
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14 ─┬───┐
Bangladesh 23 ─┘ │
Pakistan 22 ─────┼─┐
India 21 ─────┘ ├─────┐
Madagascar 15 ───────┘ │
Nicaragua 18 ─┐ │
Bolivia 20 ─┼─┐ │
Philippines 8 ─┤ │ │
Paraguay 11 ─┘ │ │
Ecuador 7 ───┤ │
Colombia 2 ───┼───┐ ├─┐
El Salvador 13 ───┤ │ │ │
Indonesia 17 ───┘ │ │ │
Egypt 19 ───────┼─┐ │ │
Peru 6 ───────┤ ├─┐ │ │
Thailand 3 ───────┘ │ │ │ ├───┐
Sri Lanka 12 ─────────┘ ├─┤ │ │
South Africa 24 ───────────┤ │ │ │
Kazakhstan 1 ───────────┘ │ │ ├─┐
Tunisia 9 ─────────────┘ │ │ │
Turkey 5 ───────────────┘ │ ├───────────────────────────┐
Iran 10 ───────────────────┘ │ │
Viet Nam 16 ─────────────────────┘ │
China 4 ─────────────────────────────────────────────────┘
In cazul analizei ierarhice prin metoda celor mai departati vecini (Complete
Linkage) se obtin informatiile urmatoare. Rezulta tabelul Agglomeration Schedule:
19
1 14 23 .439 0 0 7
2 18 20 1.108 0 0 6
3 8 11 1.161 0 0 4
4 7 8 1.745 0 3 10
5 2 13 2.348 0 0 9
6 17 18 2.859 0 2 10
7 14 22 3.124 1 0 8
8 14 15 4.976 7 0 11
9 2 6 5.097 5 0 15
10 7 17 5.136 4 6 15
11 14 21 6.068 8 0 23
12 1 19 6.341 0 0 13
13 1 3 7.080 12 0 16
14 9 24 7.485 0 0 17
15 2 7 9.236 9 10 17
16 1 12 10.242 13 0 18
17 2 9 14.788 15 14 20
18 1 16 18.134 16 0 21
19 5 10 20.288 0 0 20
20 2 5 28.684 17 19 21
21 1 2 36.874 18 20 22
22 1 4 44.909 21 0 23
23 1 14 60.380 22 11 0
Dendrogram using Complete Linkage
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14 ─┬─┐
Bangladesh 23 ─┘ │
Pakistan 22 ───┼─┐
Madagascar 15 ───┘ ├───────────────────────────────────────────┐
India 21 ─────┘ │
20
Kazakhstan 1 ─────┐ │
Egypt 19 ─────┼───┐ │
Thailand 3 ─────┘ ├─────┐ │
Sri Lanka 12 ─────────┘ ├───────────────┐ │
Viet Nam 16 ───────────────┘ │ │
Tunisia 9 ─────┬─────┐ │ │
South Africa 24 ─────┘ │ │ │
Colombia 2 ─┬─┐ ├───────────┐ ├─────┐ │
El Salvador 13 ─┘ ├───┐ │ │ │ │ │
Peru 6 ───┘ │ │ │ │ │ │
Philippines 8 ─┐ ├───┘ │ │ │ │
Paraguay 11 ─┼─┐ │ ├───────┘ │ │
Ecuador 7 ─┘ ├───┘ │ ├───────────┘
Nicaragua 18 ─┬─┤ │ │
Bolivia 20 ─┘ │ │ │
Indonesia 17 ───┘ │ │
Turkey 5 ─────────────────┬─────┘ │
Iran 10 ─────────────────┘ │
China 4 ─────────────────────────────────────┘
In urma folosirii celei de-a treia metode pentru clasificarea ierarhica, metoda
centroidelor (Centroid Method), se obtine urmatorul tabel Agglomeration Schedule:
21
1 14 23 .439 0 0 8
2 18 20 1.108 0 0 5
3 8 11 1.161 0 0 4
4 7 8 1.435 0 3 5
5 7 18 1.952 4 2 6
6 7 13 2.036 5 0 7
7 7 17 2.001 6 0 9
8 14 22 2.783 1 0 10
9 2 7 3.823 0 7 12
10 14 15 3.902 8 0 11
11 14 21 3.985 10 0 20
12 2 6 5.119 9 0 13
13 2 19 5.279 12 0 14
14 2 3 5.001 13 0 15
15 1 2 5.969 0 14 16
16 1 24 6.925 15 0 17
17 1 9 8.577 16 0 18
18 1 12 9.058 17 0 19
19 1 5 15.135 18 0 20
20 1 14 16.907 19 11 21
21 1 10 19.344 20 0 22
22 1 16 19.173 21 0 23
23 1 4 31.400 22 0 0
Dendograma obtinuta este:

Dendrogram using Centroid Method
22
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Nepal 14 ─┬─┐
Bangladesh 23 ─┘ ├─┐
Pakistan 22 ───┘ │
Madagascar 15 ─────┼─────────────────────┐
India 21 ─────┘ │
Nicaragua 18 ─┬─┐ │
Bolivia 20 ─┘ │ │
Philippines 8 ─┐ │ │
Paraguay 11 ─┼─┤ │
Ecuador 7 ─┘ ├─┐ │
El Salvador 13 ───┤ ├─┐ ├───┐
Indonesia 17 ───┘ │ │ │ │
Colombia 2 ─────┘ │ │ │
Peru 6 ───────┼─┐ │ │
Egypt 19 ───────┤ ├─┐ │ │
Thailand 3 ───────┘ │ ├─┐ │ │
Kazakhstan 1 ─────────┘ │ │ │ │
South Africa 24 ───────────┘ ├─────────┐ │ │
Tunisia 9 ─────────────┤ ├───┘ ├─────────────────┐
Sri Lanka 12 ─────────────┘ │ │ │
Turkey 5 ───────────────────────┘ │ │
Iran 10 ───────────────────────────────┤ │
Viet Nam 16 ───────────────────────────────┘ │
China 4 ─────────────────────────────────────────────────┘
23

Proiect Analiza Datelor

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proiect Analiza Datelor

Diunggah oleh

Hak Cipta:

Format Tersedia

Academia de Studii Economice Bucuresti

Facultatea de Cibernetica, Statistica si Informatica Economica

Proiect Analiza Datelor

Analiza in componente principale

abonati_ utilizator Populati

6 Peru 87.9 80 200 164 226 .4 79.4 11.6 72.6 3400

7 Ecuador 91.0 129 472 47 50 .8 36.5 8.7 62.8 3892

8 Philippines 92.6 41 419 54 48 .7 99.0 15.3 62.7 32875

9 Tunisia 74.3 125 566 95 1013 .9 28.7 17.9 65.3 3315

11 Paraguay 93.5 54 320 34 79 1.0 7.3 8.8 58.5 2247

12 Sri Lanka 90.7 63 171 14 128 1.3 23.5 17.8 15.1 6943

13 El Salvador 80.6 141 350 93 47 .6 17.0 15.1 59.8 2526

14 Nepal 48.6 17 9 4 59 1.0 7.4 38.1 15.8 7459

15 Madagascar 70.7 4 27 5 15 .1 5.0 35.8 26.8 8099

17 Indonesia 90.4 58 213 73 207 .8 287.2 18.2 48.1 94948

18 Nicaragua 76.7 43 217 27 73 .4 4.9 17.9 59.0 1953

19 Egypt 71.4 140 184 68 493 .9 89.4 20.0 42.8 18119

20 Bolivia 86.7 70 264 52 120 .4 9.3 13.6 64.2 2091

21 India 61.0 45 82 55 119 .8 805.7 31.3 28.7 308760

22 Pakistan 49.9 34 82 67 75 .6 110.7 36.2 34.9 38882

23 Bangladesh 47.5 8 63 3 51 1.1 60.0 40.5 25.1 44322

In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica

Variabilele luate in considerare sunt:

In prima etapa calculam analiza descriptiva a variabilelor si calculam

N Minimum Maximum Mean Std. Deviation Variance

alfabetizare 24 47.5 99.5 80.492 15.1709 230.156

linii_telefonie 24 4 278 108.29 81.464 6636.303

abonati_tel_mobil 24 9 724 280.29 194.343 37769.259

utilizatori_internet 24 3 222 72.67 52.977 2806.580

cercetatori 24 15 1279 274.08 328.794 108105.819

consum_energie 24 .1 3.2 .971 .6531 .427

PIB($) 24 4.9 2234.3 212.729 464.2796 215555.590

indicele_saracie 24 7.9 40.5 18.975 10.0238 100.476

Populatie_urbana 24 15.1 72.7 48.533 18.5972 345.857

numar_angajati 24 1953 737400 61444.88 157025.456 2.466E10

Tot in urma analizei descriptive se obtin si standardizarile variabilelor initiale.

Zscore(al Zscore(li Zscore(a Zscore(ut Zscore(c Zscore(c Zscore(in Zscore(P Zscore(nu

a. Limited to first 100 cases.

In urma standardizarii, variabilele, anterior exprimate in unitati de masura diferite,

Zscore(alfabetizare) 1.000 .655

Zscore(linii_telefonie) 1.000 .850

Zscore(abonati_tel_mobil) 1.000 .705

Zscore(utilizatori_internet) 1.000 .530

Zscore(cercetatori) 1.000 .371

Zscore(consum_energie) 1.000 .916

Zscore: PIB($) 1.000 .979

Zscore(indicele_saracie) 1.000 .824

Zscore(Populatie_urbana) 1.000 .842

Zscore(numar_angajati) 1.000 .957

Extraction Method: Principal Component Analysis.

Pentru a stabili numarul de componente principale necesare, se folosesc

Initial Eigenvalues Extraction Sums of Squared Loadings

1 4.053 40.533 40.533 4.053 40.533 40.533

2 2.515 25.152 65.685 2.515 25.152 65.685

3 1.061 10.605 76.290 1.061 10.605 76.290

4 .970 9.704 85.994

5 .647 6.475 92.469

6 .391 3.907 96.376

7 .168 1.682 98.059

8 .115 1.153 99.211

9 .076 .757 99.969

10 .003 .031 100.000

Extraction Method: Principal Component Analysis.

Se observa ca pentru a recupera o cantitate cat mai mare de informatie din