Anda di halaman 1dari 7

ANALIZA CLUSTER

Analiza cluster se poate defini ca o clasa de tehnici utilizate pentru a clasifica unitatile in clase (grupuri) relativ omogene. Unitatile din interiorul unei clase trebuie sa fie asemanatoare intre ele, in timp ce unitatile apartinand unor clase diferite trebuie sa fie cat mai diferite. In limbaj statistic aceasta inseamna minimizarea variantei reziduale, din interiorul segmentelor obtinute si maximizarea variantei explicata, dintre segmente. Analiza cluster este des utilizata in marketing pentru gruparea indivizilor (studiul consumatorului) sau pentru gruparea produselor (studiul consumului), dar i n alte situaii, cum ar fi: Poziionarea mrcilor unui produs, cnd se studiaz mrcile aceluiai produs, nregistrndu-se percepia variabilelor de ctre consumatori. Astfel vor rezulta tipuri ce sunt constituite din acele mrci care beneficiaz de percepii similare la cumprtori. Aceasta va permite poziionarea unei mrci fa de cele concureniale. Activitatea de cercetare privind lansarea de produse noi, cnd se studiaz piele tip n care se pot efectua testele de lansare a unui produs nou. Studiul unei populaii n funcie de activiti, interese, opinii, va conduce la stabilirea unei tipologii a modului de via. Analiza cluster are propria metodologie de grupare, dar n acelai timp poate s apeleze i la alte metode, ca de exemplu analiza componentelor principale, analiza varianei. Aceast metod, prin obiectivul su, se aseamn cu alte metode de analiz a datelor, dar exist i diferene care justific folosirea acesteia. Astfel Analiza cluster seamn destul de mult cu segmentare, care are ca obiectiv costituirea de clase n raport cu una sau mai multe variabile de explicat. Fiecare clas poate fi caracterizat de o serie de variabile explicative, n special socio-demografice. n

schimb Analiza cluster va conduce la constituirea de clase omogene n raport cu toate variabilele luate n considerare. De asemenea analiza discriminant vizeaz repartizarea unitilor n clase determinate de strile unei variabile nominale, de exemplu, clienii unei societi pot fi grupai n clieni permaneni sau ocazionali, un nou client, pe baza variabilelor explicative va putea fi alocat unei anumite clase. Analiza cluster permite constituirea de clase independent de orice grupare a priori. Astfel ea poate fi utilizat naintea oricrei analize discriminante pentru a confirma sau a infirma categoriile a priori stabilite. Fa de analiza componentelor principale care are ca scop reducerea numrului de variabile, Analiza cluster vizeaz reducerea unitilor prin gruparea cestora. Analiza cluster accept n descriere att variabile cantitative, ct i variabile ordinale i nominale, ceea ce este foarte important avnd n vedere numrul foarte mare de variabile utilizate n cercetrile de marketing, ct i diversitatea lor din punctul de vedere al formei de exprimare. Utilizarea metodelor de clasterizare presupune parcurgerea urmatoarelor etape: formularea problemei; alegerea distanei de msurare; alegerea procedurii de clasificare: stabilirea numrului de segmente; examinarea i interpretarea profilelor segmentelor; validarea soluiei rezultate. 1. Formularea problemei ncercarea de realizare a unei clasterizari poate fi formulat astfel: fiind date n uniti pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se constituie grupe de uniti astfel nct unitile dintr-o grup s semene ntr ele, dar sfie diferite de la o grup la alta, asemnarea unitilor fiind definit plecnd de la cele p variabile. Realizarea unei clasterizari se bazeaz implicit pe existena unei grupri n cadrul populaiei studiate. Astfel dac vizualizm datele iniiale sub forma unui nor de n puncte ntr-un spaiu cu p dimensiuni, trebuie s existe zone unde densitatea punctelor este mare,

respectiv punctele sunt apropiate unele de altele. Aceast ipoteza trebuie verificat naintea efecturii unei clasificri. Ca atare cea mai mare importan n aceast etap trebuie acordat alegerii variabilelor pe baza crora se va efectua Analiza cluster . Este de dorit ca setul de variabile selectat s descrie asemnarea dintre unitai, n termeni ce sunt relevani pentru problema studiat. Variabilele se vor alege pe baza unor cercetri, a unor testri de ipoteze sau pe baza intuiiei cercettorilor. 2. Alegerea distanei de msurare Analiza cluster prezint marele avantaj c permite analiza variabilelor cantitative ct i a celor calitative. Alegerea distanei se face n funcie de tipul variabilelor supuse studiului. Dac ne situm n contextul c avem n uniti caracterizate de p variabile, pentru msurarea apropierii dintre uniti se folosesc dou categorii de indicatori, i anume : Distana Indicele de similaritate Alegerea unuia sau a altuia depinde n primul rnd de tipul de variabile utilizate n clasificare, ct i de constrngerile impuse de proprietile indicatorilor. In cazul variabilelor cantitative se va utiliza una din urmatoarele distante: distanta euclidiana,
d i, i ' =

( )

( X
p k =1

ik

X i 'k

distanta rectangulara ( Manhattan)


d (i, i ' ) = X ik X i 'k
k =1 p

distanta lui Minkowski


p n d (i, i ) = ( X ik X i 'k ) k =1
' 1/ n

a lui Chebyshev, etc.

n cea mai mare parte variabilele se exprim n uniti de msur diferite, astfel se impune standardizarea variabilelor, nainte de a calcula distanele necesare, respectiv:

Zk =

Xk X X

In cazul variabilelor calitative deosebim urmatoarele situatii: daca datele sunt prezentate prin matricea frecventelor se utilizeaza distanta hi patrat;
d (i, i ' ) =
k =1 p

f' 1 f ik ( i k )2 f .k f i . f i' .

- daca variabilele sunt ordinale se utilizeaza distanta euclidiana, rectangulara sau coeficientul de corelatie al lui Spearman. 3. Alegerea procedurii de clasificare Exist un numr mare de procedee de calcul destinate rezolvrii problemelor clasificrii. Acestea sunt grupate n dou mari categorii: -metode ierarhice, recurg la construirea unui arbore de clasificare artnd trecerea celor n uniti n grupe printr-o succesiune de regrupri sau de divizri: - metode neierarhice care repartizeaz unitile ntr-un anumit numr de grupe stabilit iniial. Atunci cnd volumul de date nu este prea mare se prefer metodele ierarhice, fiind mai eficiente i mai bine fundamentate, n caz contrar se recurge la metodele neierarhice. O sintez asupra metodelor de clasterizare poate fi redat astfel : Medode ierarhice Ascendente 1. Metoda nlnuirii 1.1 metoda vecinilor cei mai apropiai 1.2 metoda vecinilor cei mai ndeprtai 1.3 metoda drumului mediu 2. Metoda varianei ( metoda lui Ward) 3. Metoda centroizilor Descendente Metode neierarhice Cu alocare secveniala Cu alocare paralel

Cu alocare optimal I. Metodele ierarhice se caracterizeaz prin faptul c numrul de grupe nu este cunoscut dinainte, ci va fi determinat pe parcurs, prin algoritmul de clasificare. n funcie de algoritmul folosit metodele ierarhice sunt : Metode descendente care consider toate unitile clasificate ntr-o singur grup. Aceasta va fi divizat pn cnd se obin grupe omogene n interiorul lor, dar eterogene ntre ele. Metode ascendente care consider c fiecare unitate reprezint la nceput o grup. n continuare grupele sunt formate clasnd unitile n grupe din ce n ce mai mari. Procedeul este continuat pn cnd toate unitile sunt cuprinse ntr-o singur grup. n cadrul metodelor ascendente sunt cuprinse : metoda nlnuirii, metoda varianei i metoda centroizilor. Metodele nlnuirii la rndul lor cuprind : metoda vecinilor cei mai apropiai, unde distana dintre dou grupe este asimilat cu distana dintre dou uniti cele mai apropiate, uniti ce aparin de grupe diferite. Utilizarea acestei metode poate conduce la riscul formrii de grupe eterogene deoarece nu se iau n calcul toate unitile aparinnd unei grupe; metoda vecinilor cei mai ndeprtai, unde distana dintre dou grupe este asimilat cu distana dintre douuniti cele mai ndeprtate; metoda drumului mediu, unde distana dintre dou grupe este definit ca media distanelor dintre toate perechile de uniti aparinnd la grupe diferite. Dup cum se poate constata metoda drumului mediu utilizeaz toate distanele calculate ntre perechile de uniti aparinnd grupelor diferite, nu numai distanele minime sau maxime, ceea ce va conduce la obinerea de grupe mai omogene. Pe scurt metoda nlnuirii poate fi prezentat astfel: ntr-o faz prealabil are loc msurarea opropierii dintre toate cele n uniti luate dou cte dou )se va utiliza un anumit tipde distan n funcie de natura variabilelor folosite) ; se va elabora matricea de proximiti (nxn) ;

ntr-o prim etap se vor grupa dou uniti crora le corespunde distana cea mai mic, respectiv acestea vor constitui prima grup ; n etapa a doua se vor recalcula distanele celorlalte n-2 uniti fade grupa format ; cele dou etape sunt repetate pn ce se regrupeaz toate unitile ntr-o singur grup.

Metoda varianei ncerc s genereze grupe prin minimizarea varianei din interiorul fiecrei grupe. n cadrul acestei metode, cea mai bun tehnic este metoda lui Ward. Aceasta presupune ca pentru fiecare grup s fie calculate mediile tuturor variabilelor urmnd ca ulterior pentru fiecare unitate nc nerepartizat s se calculeze distana euclidian la mediile grupelor i de asemenea ntre grupele deja constituite. Se nsumeaz distanele calculate fa de mediile variabilelor, la nivelul fiecrei uniti sau grupe. n fiecare etap se combin uniti-grup sau grup-grup n funcie de cea mai mic cretere n totalul sumei ptratelor distanelor n interiorul grupei Metoda centroizilor consider c distana dintre dou grupe este distana dintre centroizii acestora. Centroidul este punctul care are ca i coordonate mediilor tuturor variabilelor unui grup. Metodele ierarhice prezint dezavantajul c din punct de vedere teoretic acestea caut o succesiune de sub-optime i nu caut un optim global, respectiv la fiecare iteraie se efectueaz ,,cea mai bun grupare,,. II. Metodele neierarhice prezint avantajul prelucrrii populaiilor de volume mari, cu un cost rezonabil. Cele mai multe dintre aceste metode sunt fundamentate pe algoritmi de tipul urmtor: alegerea numrului de grupe ; aplicarea procedeului de realocare stabilirea regulilor de oprire a procedeului de calcul.

Metoda cea mai des utilizat este ces bazat pe alocarea optimal, care urmrete minimizarea distanei medii n grupe.

4. Stabilirea numrului de grupe

Una din etapele majore ale analizei claster este stabilirea numrului de grupe. Pentru aceasta nu exist o regul general valabil, de aceea pot fi luate n considerare mai multe repere, i anume : 1. Utilizarea unui prag de clasificare, ce reprezint acel nivel de grupare ncepnd de la care grupele create pot fi considerate foarte eterogene, iar sub el grupele sunt omogene. Alegerea n acest caz se bazeaz pe graficul numit DENDOGRAMA, ce reprezint clasele obinute conform metodei utilizate. Problema care se pune este unde "s tai arborele" astfel nct numrul de clase gsite s fie optim. Nu exist o regul general valabil, ci se fac inspecii subiective ale dendogramei. 5. Determinarea profilului grupelor Fiecare segment de piata identificat trebuie descris amanuntit pentru a putea identifica segmentele tinta si elabora mixurile de marketing adaptate cerintelor fiecarui segment tinta. Determinarea profilului claselor si interpretarea impune analiza centroizilor claselor. Centroizii reprezinta valorile medii inregistrate de variabilele de segmentare, numite si variabile active, pentru fiecare segment in parte. 6. Validarea segmentelor Este posibil ca aceste clase care au fost stabilite anterior sa nu fi fost corect determinate. Pentru a cunoaste cu exactitate acest lucru se impune o analiza relativ la gradul de omogenitate din interiorul segmentelor si diferentele existente intre mediile claselor. Pentru validarea claselor se va utiliza analiza variantei fiecarei variabile active si testarea egalitatii mediilor in cadrul grupelor.