I. Partea teoretica
1. Definitie
Analiza Two - Step Cluster din SPSS este o metoda scalabila care a fost conceputa pentru
a face fata seturilor mari de date, extinzand astfel facilitatile oferite de celelalte metode de
grupare: K-means, respectiv clusterizarea ierarhica. In cazul acestei metode setul de date este
parcurs o singura data si se pot utiliza atat variabile cantitative cat si categoriale (ordinale).
Denumirea Two - Step provine de la cei 2 pasi care trebuie parcursi:
k2 - Varianta estimata a celei de-a k-a variabile continue pentru tot setul de date.
2jk - Varianta estimata a celei de-a k-a variabile continue pentru clusterul j.
N jkl -
3. Etapele metodei
3.1.
Etapa I : Pre-clusterizarea
3.1.1.
Etapa II : Clusterizarea
La acast pas subclusterele rezultate la etapa anterioara (excluzand cele formate numai din
puncte izolate) sunt considerate ca date de intrare pentru a realiza o noua grupare. Din
moment ce numarul subclusterelor este mult mai mic decat numarul de instante din setul de
date, pot fi utilizate in mod adecvat procedurile de grupare traditionale. SPSS utilizeaza in
acest scop metoda de clusterizare ierarhica. Un motiv fundamental ar fi ca lucreaza eficient
cu metoda auto-cluster.
3.2.1.
Acuratete
In general, cu cat se produc mai multe subgrupe la pasul intai cu atat se obtine o
acuratete mai buna a rezultatelor. Singurul neajuns este acela ca totusi prea multe subgrupe
vor incetini procedura de grupare la cel de-al doilea pas. Prin urmare, numarul subgrupelor
trebuie astfel ales incat sa fie suficient de mare pentru a produce rezultate de o acuratete buna
si suficient de mici astfel incat sa nu incetineasca algoritmul de clasificare.
Criteriile de informatie Akaike (AIC) si Schwartz (BIC) pentru J clustere se definesc in felul
urmator:
J
AIC ( J ) 2 j 2m J
j 1
J
BIC ( J ) 2 j m J log( N )
j 1
unde,
K
m J J 2 K A ( LK 1)
k 1
5. Masurarea distantei
Atat in etapa de pre-clusterizare, cat si in cea de clusterizare este nevoie de o metoda
pentru masurarea distantei intre grupele formate sau intre instante. In acest caz mentionam
doua variante:
5.1.
d j, s j s j ,s
unde,
1
2
2
log k vk E vk
k 1
k 1 2
Lk
N
N
E vk vkl log vkl
Nv
l 1 N v
v N v
KA
2
Daca k este ignorata in prima ecuatie de mai sus, atunci distanta dintre clusterele j si s
coincide cu cresterea probabilitatii astfel incat cele doua vor fi unite intr-o singura grupa.
2
Termenul k este adaugat tocmai pentru a inlatura neajunsurile cauzate de situatia cand
vk2 0 , caz in care logaritmul natural va fi nedefinit ( de exemplu cand o grupa contine un
singur caz).
5.2.
Distanta euclidiana
Aceasta metoda de masurare a distantei se poate aplica doar cand toate variabilele sunt
continue. Distanta euclidiana intre doua puncte este clar definita, in cazul a doua clustere
reprezentand distanta dintre centroizii lor.
6. Repartizarea instantelor in clustere
In cazul repartizarii instantelor in grupe putem distinge doua situatii si anume:
6.1.
O instanta din setul de date este repartizata in cel mai apropiat cluster pe baza criteriului
distantei.
6.2.
Distanta log-verosimilitate
puncte izolate, respectiv in cazul in care este repartizata in cel mai apropiat cluster normal
(care nu cuprinde puncte izolate). Daca diferenta intre cele doua distante este mai mica decat
o valoare prag, atunci instanta va fi repartizata intr-un cluster normal, altfel intr-o alta grupa
formata doar din puncte izolate.
C log(V )
V k R k m Lm
Distanta euclidiana
KA
l 1
7. Valori lipsa
Nu se accepta pastrarea valorilor-lipsa in analiza. Acestea sunt eliminate in virtutea
optiunii LISTWISE.
1.1.
Setul de variabile
judge1 - Italia
judge2 - Coreea de Sud
judge3 - Romania
judge4 - Franta
judge5 - China
judge6 - Statele Unite
judge7 - Rusia
judge8 - Membru fan
1.2.
Numarul de instante
Setul de date cuprinde 300 de instante reprezentand cei 300 de gimnasti care primesc
note pentru evolutia lor.
2. Setarile analizei Two Step Cluster pentru baza de date judges.sav
2.1.
Fereastra principala
juriu.
Numarul variabilelor continue: Aceste variabile vor fi standardizate in mod implicit.
(8 variabile).
Metoda pentru masurarea distantei: Distanta log-verosimilitate este cea implicita. In
cazul acesta utilizam distanta euclidiana deoarece toate variabilele sunt continue.
Numarul de grupe: Utilizam criteriul Bayesian (BIC) pentru determinarea automata a
numarului optim de grupe si specificam ca numarul acestora sa nu depaseasca 15.
2.2.
Fereastra Options
In fereastra Options putem sa specificam urmatoarele detalii:
Outlier treatment: pentru tratarea punctelor izolate. Aceasta casuta nu este bifata in
mod implicit. Daca se ajunge la un arbore cluster feature de o dimensiune prea mare,
se reconstruieste utilizand o distanta prag mai mare. Daca o instanta nu va putea fi
repartizata in nicio grupa, aceasta se marcheaza cu -1 si nu este inclusa in numararea
instantelor dintr-o grupa. Daca se bifeaza casuta noise handling, se va crea o frunza
separata doar pentru instantele izolate. Procentul instantelor din acest cluster nu va
numarul maxim de nivele (Maximum tree depth). Prin intermediul optiunii Initial
distance change threshold se seteaza o valoare prag pentru repartizarea unei
instante intr-o grupa. Daca distanta fata de un cluster este mai mare decat aceasta
valoare prag, instanta respectiva va deveni la randul ei o frunza a arborelui. Daca
dimensiunea arborelui ( Maximum number of nodes possible) atinge o valoare limita
2.3.
Fereastra Plots
In aceasta fereastra se poate selecta afisarea diverselor tipuri de grafice. Alegerea uneia
sau mai multor tipuri de grafice are drept rezultat crearea unei variabile pentru apartenenta
fiecarei instante la o grupa si salvarea ei in setul de date. In aceasta fereastra se aleg
urmatoarele tipuri de grafice:
Within cluster percentage chart: este un grafic de tip bara care ne arata in fiecare
2.4.
Fereastra Output
Cluster membership variable: Se creeaza o variabila care retine apartenenta fiecarei instante
la o grupa. Numele implicit al variabilei va fi TSC (de la TwoStage Cluster) urmat de un cod
generat de SPSS.
Export tree or model: Se poate exporta arborele cluster feature sau intregul model. Acest
lucru este util pentru o reutilizare ulterioara in cazul altor seturi de date.
In tabelul de mai sus se poate observa ca in cazul a 2 clustere, valoarea ajustata pentru
criteriul informational BIC este 1, iar distanta considerata este 2.671, de unde rezulta ca acesta
este numarul optim de grupe. De asemenea valoarea criteriului informational BIC luat singur
este cea mai mica si anume -841.601 care intareste motivatia alegerii a doua clustere.
3.2.
In acest tabel este ilustrat pentru fiecare grupa numarul de instante pe care le contine si
procentul lor din total.
Se poate observa ca prima grupa contine cele mai multe instante (164 instante), reprezentand
54.7% din totalul instantelor, in timp ce a doua grupa contine 136 instante, reprezentand
45.3%.
3.3.
Centroids table
In acest tabel sunt ilustrate informatii de natura descriptiva pentru variabilele de tip
continuu. Se pot vedea diferentele existente intre grupe in functie de media si deviatia
standard a fiecarei variabile continue (in cazul acesta judges).
Din acest tabel se poate observa de exemplu ca gimnastii care au fost clasificati in cea de-a
doua grupa au primit note mult mai mari de la toti cei 8 membri ai juriului decat cei
apartinand primei grupe. Daca realizam o analiza mai detaliata se pot constata urmatoarele:
Prima grupa:
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
Rusia, media notelor fiind de 7.4049.
A doua grupa:
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului
din China, media notelor fiind de 8.6463.
Analizand per ansamblu se observa ca membrul juriului din Franta a fost cel mai permisiv
media notelor lui pentru toti participantii fiind de 8.9703, iar cel mai exigent a fost membrul
juriului din China, media notelor lui fiind de 8.0380.
3.4.
Se ilustreaza in mod grafic marimea fiecarei grupe, respectiv procentul instantelor din
fiecare grupa din total.
Figura 8 Marimea fiecarei grupe rezultate in urma analizei Two Step Cluster in SPSS
Se observa ca prima grupa cuprinde 54.67% din totalul instantelor fiind astfel cea mai
voluminoasa, in timp ce a doua grupa cuprinde 45.33% din totalul instantelor.
3.5.
Pentru variabilele continue sunt afisate bare de eroare pentru fiecare cluster. Aceste
grafice numite Intervale de incredere pentru medie afiseaza media pentru fiecare variabila
continua in fiecare grupa, iar aripioarele reprezinta limita de incredere de 95% in jurul
valorii medii.
Figura 9 Cluster Variation Plot pentru variabila continua judge1 care reprezinta notele acordate de
membrul din Italia
Din graficul de mai sus se poate observa ca media notelor acordate de catre juriul din
Italia este de 8.50. Gimnastii clasificati in primul cluster au media notelor sub aceasta medie
(7.85), pe cand cei din a doua grupa au media notelor cu mult peste 8.50 (9.27). Pentru prima
grupa abaterea standard a notelor este de 0.53715 (din Cluster Profiles), in timp ce pentru cea
de-a doua grupa abaterea notelor este de 0.44936.
La ceilalti membri ai juriului se poate observa aceeasi ierarhie, gimnastii din prima
grupa au o medie a notelor mult mai mica si cei din a doua grupa o medie mult mai mare.
Se poate observa ca per ansamblu membrul din Franta a dat cele mai mari note
gimnastilor si anume media notelor lui fiind 8.97, iar cele mai mici note le-a dat membrul din
China si anume media lor este 8.03. Cele mai mari abateri privind notele au fost la ultimul
membru, aceasta fiind de 0.8176 in cazul primei grupe, respectiv 0.75803 la ce-a de-a doua
grupa.
3.6.
Figura 10 Variablewise importance plot grupa1 pentru analiza Two Step Cluster in SPSS
Din graficul de mai sus se observa ca toate variabilele contribuie la diferentierea acestei
grupe. Cea mai importanta variabila este judge7 Russia, iar cea mai neimportanta este al 8lea membru si anume Arcmchair Enthusiast.
Figura 11 Variablewise importance plot grupa2 pentru analiza Two Step Cluster in SPSS
In cazul celei de-a doua grupe se observa la fel ca toate variabilele sunt importante si au
contribuit la obtinerea acestei grupe. Cea mai importanta variabila este judge6 United
States, iar cea mai neimportanta este din nou a 8-a variabila.
3.7.
Daca din fereastra Plots din sectiunea Rank Variables alegem optiunea By Cluster
se va afisa cate un grafic pentru fiecare variabila in parte, aratand importanta acesteia in
obtinerea grupelor.
Din graficul de mai sus se observa ca primul membru al juriului, cel din Italia, a avut o
contributie importanta in obtinerea grupei 2 unde au fost clasati gimnastii cu cele mai mari
note. Aceeasi observatie o avem si pentru membrii juriului din: Franta, Coreea de Sud,
Statele Unite, respectiv al 8-lea membru al juriului. Toti au contribuit fundamental la
obtinerea celei de-a doua grupe.
III. Concluzii
In urma analizei Two - Step Cluster pe baza de date judges.sav formata din 8 variabile
continue reprezentand membrii juriului din diverse tari la Campionatul Mondial de
Gimnastica s-au obtinut doua grupe. In cele ce urmeaza se trec in revista per ansamblu
principalele detalii care caracterizeaza fiecare grupa in parte.
Grupa 1
Cuprinde 164 de gimnasti reprezentand 54.7% din cei 300 prezenti la Campionatul
Mondial.
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
iar cea mai neimportanta este al 8-lea membru si anume Arcmchair Enthusiast.
Membrii juriului din: China, Romania, respectiv Rusia au contribuit fundamental la
obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.
Grupa 2
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului
States, iar cea mai neimportanta este din nou a 8-a variabila.
Primul membru al juriului, cel din Italia, a avut o contributie importanta in obtinerea
grupei 2 unde au fost clasati gimnastii cu cele mai mari note. Aceeasi observatie o
avem si pentru membrii juriului din: Franta, Coreea de Sud, Statele Unite, respectiv al
8-lea membru al juriului, Armchair Enthusiast.
IV. Bibliografie
1. SPSS, Inc. (2011). The SPSS twostep cluster component. Chicago, IL: SPSS. SPSS
white papers/technical report TSCPWP-0101.
2. Theodoridis, S. & Koutroumbas, K. (1999). Pattern recognition. NY: Academic Press.
3. Zhang, T.; Ramakrishnon, R.; & Livny, M. (1996). BIRCH: Method for very large
databases. Proceedings of the ACM. Management of Data. Pp. 103114. Montreal, Canada.