Anda di halaman 1dari 18

Analiza Cluster-K-Means

Lucr m pe baza unui sondaj realizat n peste 100 de localit realizat de Facultatea de Sociologie Psihologie fost interoga i. Chestionarul con ine mai multe ntreb ri, deci i baza de date este destul de complex , pentru efectuarea analizei Cluster-K-Means am ales urm toarele variabile: y
SCT:

i din

ar ,Romnia,

i Pedagogie, din Bucure ti. , 1174 persoane au

Care este ultima scoala pe care a terminat-o total dv? Cumulative Frequency Valid nici o scoala scoala primara gimnaziu incomplet gimnaziu complet liceu incomplet liceu complet universitate incomplet,postliceal,colegiu universitate complet nu raspund Total 55 86 1174 4.7 7.3 100.0 4.7 7.3 100.0 92.7 100.0 87 388 138 286 23 75 36 Percent 7.4 33.0 11.8 24.4 2.0 6.4 3.1 Valid Percent 7.4 33.0 11.8 24.4 2.0 6.4 3.1 Percent 7.4 40.5 52.2 76.6 78.5 84.9 88.0

CIV:

Stare civila. Cumulative Frequency Valid celibatar divortat vaduv in uniune libera(concubinaj) casatorit 176 39 105 11 843 Percent 15.0 3.3 8.9 .9 71.8 Valid Percent 15.0 3.3 8.9 .9 71.8 Percent 15.0 18.3 27.3 28.2 100.0

Stare civila. Cumulative Frequency Valid celibatar divortat vaduv in uniune libera(concubinaj) casatorit Total 176 39 105 11 843 1174 Percent 15.0 3.3 8.9 .9 71.8 100.0 Valid Percent 15.0 3.3 8.9 .9 71.8 100.0 Percent 15.0 18.3 27.3 28.2 100.0

PAR:

Lucrati in sectorul de stat sau particular sau si la stat si in sectorul particular? Cumulative Frequency Valid in sectorul de stat la particular, ca salariat particular ca patron la stat+salariat la particular la stat+patron de firma agricultor alte casnica nu raspund somer pensionar de stat pensionar CAP elev,student Total Missing Total System 416 104 29 8 5 95 30 114 6 89 190 39 48 1173 1 1174 Percent 35.4 8.9 2.5 .7 .4 8.1 2.6 9.7 .5 7.6 16.2 3.3 4.1 99.9 .1 100.0 Valid Percent 35.5 8.9 2.5 .7 .4 8.1 2.6 9.7 .5 7.6 16.2 3.3 4.1 100.0 Percent 35.5 44.3 46.8 47.5 47.9 56.0 58.6 68.3 68.8 76.4 92.6 95.9 100.0

ETN:

Ce nationalitate aveti? Cumulative Frequency Valid roman maghiar german rom(tigan) alte nu raspund Total 1068 77 5 16 7 1 1174 Percent 91.0 6.6 .4 1.4 .6 .1 100.0 Valid Percent 91.0 6.6 .4 1.4 .6 .1 100.0 Percent 91.0 97.5 98.0 99.3 99.9 100.0

BAN

Veniturile medie pe familie Cumulative Frequency Valid sub 50 mii lei 51-100 mii lei 101-150 mii lei 151-200 mii lei 201-250 mii lei 251-300 mii lei 301-350 mii lei 351-400 mii lei 401-500 mii lei 501-600 mii lei 601-700 mii lei peste 701 mii lei nu raspund Total 76 105 139 140 159 136 80 102 105 51 28 36 17 1174 Percent 6.5 8.9 11.8 11.9 13.5 11.6 6.8 8.7 8.9 4.3 2.4 3.1 1.4 100.0 Valid Percent 6.5 8.9 11.8 11.9 13.5 11.6 6.8 8.7 8.9 4.3 2.4 3.1 1.4 100.0 Percent 6.5 15.4 27.3 39.2 52.7 64.3 71.1 79.8 88.8 93.1 95.5 98.6 100.0

URB

Localitatea este Cumulative Frequency Valid rural urban Total 519 655 1174 Percent 44.2 55.8 100.0 Valid Percent 44.2 55.8 100.0 Percent 44.2 100.0

C9:

Pentru ce ati cheltuit cel mai mult in ultimele doua luni? Cumulative Frequency Valid alimente imbracaminte medicamente, doctori intretinere locuinte bunuri indelungata copii afaceri alte Total Missing excursii,concedii nr Total Total 52 24 111 1120 49 5 54 1174 4.4 2.0 9.5 95.4 4.2 .4 4.6 100.0 4.6 2.1 9.9 100.0 87.9 90.1 100.0 de 615 68 81 92 folosinta 77 Percent 52.4 5.8 6.9 7.8 6.6 Valid Percent 54.9 6.1 7.2 8.2 6.9 Percent 54.9 61.0 68.2 76.4 83.3

Observ m c avem Missing, n analiza Cluster folosim variabila cu valori corectate, cu Replace Missing Values.

y
Varsta

VRT: 1: cuprinde valorile ntre 17-30 de ani 2: ntre 31-50 de ani 3: ntre 51-65 de ani 4: ntre 66-88 de ani

Cumulative Frequency Valid 1 2 3 4 Total 301 446 266 161 1174 Percent 25.6 38.0 22.7 13.7 100.0 Valid Percent 25.6 38.0 22.7 13.7 100.0 Percent 25.6 63.6 86.3 100.0

Deoarece variabilele pe care le folosim sunt m surate n scale diferite, trebuie s folosim procedura Descriptives din meniul Statistics pentru a standardiza variabilele cu ajutorul proceduri Z( astfel valorile pentru fiecare variabil sunt re-scalate pentru a avea media 0 devia ia standard de 1.) Din meniul principal alegem cele 6 variabile standardizate( Z score: vrsta Zscore, coala Zscore, venituri Zscore, cheltuieli Zscore, localitatea urban rural Zscore, starea civil Zscore ), n c su a Label Cases by nu scriem nimic. La Number of Cluster alegem num rul de grupuri 4, iar la Method bif m Iterate and classify, pentru a repeta i clasifica cazurile. Dorim s clasific m, s ne grup m persoanele interogate din diferite jude e. i

Initial Cluster Centers Cluster 1 Zscore: Cheltuieli Zscore: Stare civila. Zscore: total dv? Zscore: Varsta 1.78011 -1.26188 2.11240 -1.26188 -.22655 1.78011 .77586 -.70610 -.73691 2 2.50431 -2.06176 1.84531 3 -.70610 -2.06176 -1.22448 4 2.50431 .58794 -.78594

Care este ultima 2.28385

scoala pe care a terminat-o

Zscore: Veniturile medie pe -1.56310 familie

Cheltuielile(,,Pentru ce ati cheltuit cel mai mult n ultimele 2 luni?) au o pondere mai mare n clusterul 2 grupele 2 i 3. i 4. Starea civil are o pondere de 0,58 n grupa 4, i o pondere de -2,06 n coala este cel ami semnificativ n grupa 1 avnd o pondere de 2,28, vrsta are o i 4, iar veniturile au o pondere de 2,11 n grupa 2. coala primar , cu o vrst cuprins ntre 17

pondere de 1,78 n grupele 1

n Clusterul 1 g sim persoanele care au terminat

i 30 de ani, cu venituri ntre 101-150 mii lei, ei fiind celibatarii. n Clusterul 2 sunt grupate persoanele care cheltuiesc mai mult pentru alimente, au teminat gimnaziul complet, veniturile medie sunt cuprinse ntre 201-250 mii lei. n Clusterul 3 g sim persoanele cu un venit de 401-500 mii lei, cu vrsta ntre 66-88 de ani, au terminat universitatea complet. n Clusterul 4 g sim persoanele 51
Iteration Historya Change in Cluster Centers Iteration 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 2.154 .246 .287 .180 .139 .131 .097 .113 .113 .091 .059 .028 .014 .033 .052 .048 .039 2 2.099 .677 .459 .249 .176 .187 .238 .129 .043 .015 .000 .009 .000 .000 .000 .017 .000 3 2.246 .253 .284 .180 .134 .138 .175 .124 .108 .070 .041 .026 .010 .016 .040 .047 .035 4 2.110 .261 .277 .346 .162 .077 .157 .043 .057 .047 .027 .030 .020 .033 .000 .015 .025

i 65 de ani, cu un venit medie pe familie de 251-300 mii lei.

18 19 20

.019 .012 .009

.018 .000 .000

.014 .010 .008

.005 .000 .000

Acest tabel arat num rul de repet ri din algoritm

i distan ele dintre centre la fiecare etap .

Cluster membership prezint informa ii referitoare la distan a fiec rui caz fa observ m c primele 15 nregistr ri sunt grupate n 1, 2 g sim n grupa 2 i 3, pe jude ul Arad n grupele 2 i 3.

de centrul i

grupului s u. Baza de date este foarte lung , ne prezent m doar primele 15, avem 4 grupuri

i 3 cluster. De exemplu jude ul Alba

Final Cluster Centers Cluster 1 Zscore: Cheltuieli Zscore: Stare civila. Zscore: total dv? Zscore: Varsta .80847 -1.03425 .38887 -.34252 .55310 .32555 -.19660 -.45853 .20225 2 .00480 -1.95698 .59905 3 -.27926 .56145 .17593 4 2.07134 .36866 -.27179

Care este ultima -.41037

scoala pe care a terminat-o

Zscore: Veniturile medie pe -.77443 familie

Final Cluster Centers indic media variabilelor standardizate pentru fiecare grup, media fiec rui grup define te centrul s u. De exemplu se observ c pentru grupul 2, media ultimei coli terminate are o devia ie standard 0,59 peste medie, n timp ce pentru grupul 1 are o devia ie standard de -0,41 sub medie. n grupa 4 ,,Pentru ce a i cheltuit cel mai mult n ultimele 2 luni? indic o devia ie standard de aproximativ 2,07, fiind peste media celorlalte grupuri.

Distances between Final Cluster Centers Cluster 1 1 2 3 4 3.263 1.895 2.648 2.666 3.554 2.602 2 3.263 3 1.895 2.666 4 2.648 3.554 2.602

Tabelul de mai sus arat distan ele dintre centrele celor patru grupuri. Se observ c cea mai mare distan de 1,895. e ntre grupul 4 i 2, de 3,556, i cea mai mic distan este ntre grupul 3 i 1,

ANOVA Cluster Mean Square Zscore: Cheltuieli Zscore: Stare civila. Zscore: total dv? Zscore: Varsta 176.053 3 3 .551 .658 1170 1170 319.430 203.816 .000 .000 245.912 309.287 df 3 3 3 Error Mean Square .372 .210 .866 df 1170 1170 1170 F 661.020 1476.174 61.365 Sig. .000 .000 .000

Care este ultima 53.158

scoala pe care a terminat-o

Zscore: Veniturile medie pe 134.203 familie

Sig=0,000 duce la respingerea ipotezei potrivit c reia mediile clusterelor sunt egale. Pentru fiecare variabil n particular, SPSS realizeaz o analiz a varian ei de tip One-Way ANOVA folosind clusterele finale ca grupuri. n coloana Cluster sunt afi ate mediile p tratice dintre grupuri iar n coloana Error mediile p tratice din grupuri. Raportul celor dou medii p tratice este reprezentat de Anova F statistics. Sig trebuie ignorat deoarece raportul F nu este folosit pentru a m sura semnifica ia, grupurile sunt formate pentru a caracteriza diferen ele. Se poate ns interpreta comparativ valoarea statisticii F n sensul c variabilele care au asociate valori mai mari asigur o diferen iere mai pronun at . Se observ c media variabilei starea civil difer cel mai mult de-a lungul celor 4 grupuri( F=1476,17), n timp ce media variabilei ultima lungul celor 4 grupuri(F=61,36). coal terminat difer cel mai pu in de-a

Number of Cases in each Cluster Cluster 1 2 3 4 Valid Missing 383.000 196.000 450.000 145.000 1174.000 .000

Grupurile sunt distribuite destul de bine, num rul total de persoane este egal cu 1174, dintre care y y y y 383 se g se te n grupa 1 196 se g se te n grupa 2 450 se g se te n grupa 3 145 se g se te n grupa 4 it :

Pentru o reprezentare mai mbog

Cu ajutorul Crosstabs vedem o imagine mai complet despre cele 4 clustere, acum grupate dup sex, de exepmlu n Culsterul 1 este 162 b rbat i 221 femeie.

O alt posibilitate de mbog

ire a rezultatelor este:

De exemplu n Clusterul 1 predomin prezen a persoanelor din regiunea Moldova Muntenia regiunea Transilvania, din Moldova i din Bucure ti.

i Transilvania, n Cluster 2 g sim oameni ntr-o m rime mai accentuat din

Analiza Clusterizarea Ierarhic


Folosim alte variabile pentru a grupa persoanele interogate, de exemplu Ct de multumiti sunteti in legatura cu viata dv in general?, n general ct de interesa i sunte i de politic ?, De obicei ct de des v uita i la televizor, ct de des merge i la teatru?, Ce este mai important n via familia sau munca pe care o ai?, vrsta, coala.

In general cat de interesati sunteti de politica? Cumulative Frequency Valid foarte putin/deloc putin mult foarte mult Total Missing Total nu raspund 531 418 166 56 1171 3 1174 Percent 45.2 35.6 14.1 4.8 99.7 .3 100.0 Valid Percent 45.3 35.7 14.2 4.8 100.0 Percent 45.3 81.0 95.2 100.0

De obicei cat de des cititi carti? Cumulative Frequency Valid niciodata foarte rar rar des foarte des 328 199 297 230 115 Percent 27.9 17.0 25.3 19.6 9.8 Valid Percent 28.1 17.0 25.4 19.7 9.8 Percent 28.1 45.1 70.5 90.2 100.0

Total Missing Total nu raspund

1169 5 1174

99.6 .4 100.0

100.0

Tabelul de mai jos ne arat

procentajul de variabile valide, 100% n cazul nostru. De asemenea

se arat care este num rul total de variabile utilizate n analiz , 1174. Deoarece am avut missing values la unele variabile am transformat cu Replace Missing Values, n continuare lucr m cu aceste valori.
Case Processing Summarya Cases Valid N 1174 Percent 100.0% Missing N 0 Percent .0% Total N 1174 Percent 100.0%

a. Squared Euclidean Distance used

n tabelul de mai sus sunt prezentate distan ele dintre fiecare caz n parte, datele tabelului sunt p tratele distan elor Euclidiene pentru toate perechile de cazuri. Se poate observa c cea mai mic distan via este ntre guve i jus, 1121,302, nsemnnd c persoanele care au ncredere n i guve, 1192,7. Distan a cea mai mare este ntre ,,Cat de des coala pe care ati terminat-o?, nsemnnd c cei guvern au ncredere v uita i la televizor i n justi ie. Distan a urm toare este ntre ,,Ce este mai important n i ,,Care este ultima

familia sau munca? V10

care uit mai mult la televizor au mai pu ine comune.

coli terminate, au cele mai pu ine caracteristici

Din tabelul d emai jos se poate observa cum s-au grupat cazurile n fiecare faz de grupare. na doua coloan , Cluster Combined, sunt prezentate cazurile grupate, n cea de a treia coloan , Coefficients, sunt coeficien ii distan elor dintre elementele grupate. n a patra coloan , Stage cluster First Appears, ne este ar tat num rul fazei n care au mai ap rut fiecare din cele dou elemente. Ultima coloan , Next Stage, ne spune n ce faz va mai ap rea elementul din primul grup i n ce faz se va modifica el.

Agglomeration Schedule Cluster Combined Stage 1 2 3 4 5 6 7 8 Cluster 1 2 1 1 6 1 1 1 1 Cluster 2 3 2 8 9 7 5 4 6 Coefficients 1121.302 1245.598 1677.712 1702.317 1935.276 3118.580 3565.959 6664.207 Stage Cluster First Appears Cluster 1 0 0 2 0 3 5 6 7 Cluster 2 0 1 0 0 0 0 0 4 Next Stage 2 3 5 8 6 7 8 0

De exemplu, n prima faz se grupeaz cazul 2 cu 3, cazul 2 este faza 2 i atuni vor ap rea modific ri.

i distan a dintre ele este cea mai mic

1121,302, nu au mai ap rut pn acel moment n nici o faz , iar prima faz n care va mai ap rea

De exemplu se eviden iaz c 1

i 2, respectiv cei care au ncredere n justi ie i ntre ultima coal terminat .

i n guvern, i 9, respectiv

formeaz un grup, un alt grup pe care putem s observ m se formeaz ntre 6 ntre cei care merg la teatru foarte des

TWOSTEP CLUSTER
Cluster Distribution N Cluster 1 2 Combined Total 465 709 1174 1174 % of Combined 39.6% 60.4% 100.0% % of Total 39.6% 60.4% 100.0% 100.0%

Se poate observa c al doilea grup con ine cele mai multe instante (709 instante), reprezentnd 60.4% din totalul instantelor, in timp ce prima grup con ine 465 instante, reprezentnd 39.6%.

n tabelul de mai jos sunt ilustrate informatii de natura descriptiv pentru variabilele de tip
continuu. Se pot vedea diferen ele existente ntre grupe in func ie de media si devia ia standard a fiec rei variabile continue.

n Cluster 1: media guve=2,4; media jus=2,52; media ccar=0,69; media ctv=2,14; media ctea=0,03; media p8=1,58, media par=7,9; media varsta=3,06. Concluzion m c persoanele care apar in acestui grup au mult ncredere n guvern i n justi ie, niciodat sau foarte rar citesc

c r i, rar se uit la televizor, niciodat nu se duc la teatru, foarte pu in/deloc nu sunt interesa i de politic , ca ocupa ie apar in sectorului de stat, 51-88 ani. n Cluster 2: medie guve=1.9; media jus=2,36; media ccar=2,29; media ctv=3,28; media ctea=0,74; media p8= 1,91; media par=4,11; media varsta=1,71. Persoanele din acest grup au pu in ncredere n guvern citesc c r i ntre 17-50 ani. i mult ncredere n justi ie, des i au vrsta cuprins i des se uit la televizor, foarte rar se duc la teatru, pu in sunt interesa i de omeri, casnici ,pensionari cu o vrst ntre

politic , lucrez n sectorul de stat, particular ca patron, elevi, studen i,

Variabilele se grupeaz n dou Clustere, n prima g sim 39,6% din persoanele interogate, n al doilea Cluster 60,4% din persoanele interogate. Reprezentarea grafic :

Within cluster variation plot Pentru variabilele continue sunt afi ate bare de eroare pentru fiecare cluster. Aceste grafice numite Intervale de ncredere pentru medie afi eaz media pentru fiecare variabil continu n fiecare grup , iar aripioarele reprezint limita de ncredere de 95% n jurul valorii medii.

Tabelul de mai sus ne arat varian a variabilei vrsta n Clusterul 1 varian a este deasupra mediei, n Clusterul 2 varian a sub medie.

Clusterwise variable importance plot Dac din fereastra Plots din sec iunea Rank Variables alegem op iunea By Cluster se va afi a cte un grafic pentru fiecare variabil n parte, ar tnd importan a acesteia in ob inerea grupelor. Interpret m dou variabile:

Dac variabila guve trece linia valorii critice este semnificativ , deci la noi este statistic semnificativ i n formarea grupului 1 i n a doua.

Dup Bonferroni Adjusment variabila ,,Ct de des v uita i la televizor? este semnificativ . Dar are o importan mai mare n formarea grupului 1.