Anda di halaman 1dari 80

ANALISIS KOMPONEN UTAMA

(PRINCIPAL COMPONENT ANALYSIS)

Pertemuan 8

Multivariate Data Analysis

TUJUAN
Mentransformasi

p variabel menjadi variabel


baru ( yang merupakan kombinasi linear dari
variabel asal) yang tidak saling berkorelasi
dan disusun berurut dari yang terbanyak
memberikan kontribusi terhadap total
variabilitas dalam populasi ( atau data )
Tujuannya adalah untuk mengurangi dimensi
data ( atau pengukuran ) dengan
menghilangkan kontributor yang tidak
signifikan dan mungkin untuk menemukan
variabel baru yang membuat data lebih
mudah dipahami .

NOTES
Menggunakan PCA merupakan langkah
menengah bukan langkah terakhir dalam
analisis data. Misalnya, analisis cluster dapat
dilakukan pada beberapa ( misalnya , 6 atau 7 )
komponen utama ( variabel baru yang diperoleh
dari PCA) daripada variabel asli ( misalnya,80).
Selain itu juga untuk analisis regresi berganda
ataupun analisis faktor.
Analisis Komponen Utama dilakukan untuk
menyederhanakan sekumpulan variabel yang
saling berhubungan

POPULATION PRINCIPAL COMPONENT


Himpunan

variabel asal disusun pada vektor acak X dengan


E X dan Var X
dan eigenvalue

kombinasi

linear yang terbentuk :

dengan

Komponen utama yang pertama = kombinasi linier


yang memaksimumkan
dengan syarat
Komponen utama yang kedua = kombinasi linier
yang memaksimumkan
dengan syarat
dan

Untuk komponen utama ke-i


= kombinasi linier
yang memaksimumkan
dengan syarat
dan
untuk

RESULT 8.1

RESULT 8.2

Sehingga total varians populasi

Proporsi keragaman total yang dapat dijelaskan


oleh komponen utama ke-k adalah

RESULT 8.3

Jika
utama dari matriks kovarians

adalah komponen
maka

adalah koefisien korelasi antara komponen


dan
variabel
adalah pasangan akar ciri
dan vektor ciri matriks

PRINCIPAL COMPONENT FROM STANDARDIZED VARIABLES

Komponen utama juga dapat diperoleh dari variabel


yang sudah distandarkan

atau dalam bentuk matriks


dengan
dan

RESULT 8.4

Komponen utama ke-i dari variabel yang


distandarkan
dengan
adalah

dengan
dan vektor ciri

dimana

pasangan akar ciri

PENENTUAN BANYAKNYA KOMPONEN


UTAMA
Menggunakan persentase kumulatif total variasi (80 % atau
90 %)
Kaiser rule :
- Untuk matriks korelasi : varians 1 atau < 1 sebagai cut off (apabila cenderung mempertahankan beberapa variabel
maka disarankan 0,7 bukan 1 ) .
- Untuk matriks kovarians : variance atau < dari
varians rata-rata sebagai cut-off .
menggunakan scree plot:
Plot akar ciri ke-k ( diatur dalam urutan menurun )
dibandingkan k.
aturan lain: uji hipotesis ; validasi silang, penggunaan
korelasi parsial , dll

LATIHAN

ANALISIS FAKTOR
(FACTOR ANALYSIS)

Pertemuan 9

Multivariate Data Analysis

SEJARAH
Galton (1888), Pertama kali menemukan tentang
konsep faktor laten.
Spearman (1904) meneliti pola tertentu yang
sistematik pada matriks korelasi dari skor nilai
pada suatu sekolah.
general intellective ability
individual tests.

KENAPA ANALISIS FAKTOR?


Pemilihan

analisis faktor sebagai alat


analisis pada penelitian ini, disebabkan
karena penelitian ini mencoba
menemukan hubungan (interrelationship)
beberapa variabel yang saling independen
satu dengan yang lainnya, sehingga bisa
dibuat kumpulan variabel yang lebih
sedikit dari jumlah variabel awal sehingga
akan lebih mudah dalam
menginterpretasikan

DEFINISI DAN KONSEP


Analisis

Faktor , metode multivariate yang


digunakan untuk menganalisis variabelvariabel yang diduga memiliki keterkaitan satu
sama lain sehingga keterkaitan tersebut dapat
dijelaskan dan dipetakan atau dikelompokkan
pada faktor/variabel laten yang tepat
(Sharma,1996).
Teknik Interdepedensi dengan data metrik

TUJUAN ANALISIS FAKTOR


1.

2.

3.

untuk menentukan jumlah faktor/


variabel laten yang mendasari
membangun satu set item (variabel)
untuk menjelaskan variasi antar
variabel (item) melalui beberapa
variabel laten (Faktor),
untuk menentukan isi atau makna
faktor/variabel laten

PERBEDAAN AKU & AF


AF menghasilkan faktor; AKU memproduksi komponen
Faktor menyusun variabel; komponen disusun dari variabel

FA

I1

I2

PCA

I3

I1

I2

I3

PERBEDAAN AKU & AF (2)


AF mengkaji varians yang diberikan masing-masing
variabel (varians umum saja, tidak mengkaji
varians khusus atau residual);
AF: Apa yang mendasari proses sehingga
menghasilkan korelasi tsb?;
PCA mengkaji keseluruhan varians
PCA: meringkas asosiasi empiris, berdasarkan data

JENIS-JENIS ANALISIS FAKTOR

Exploratory

FA
Confirmatory FA

EXPLORATORY FA
digunakan untuk penelitian awal di mana
faktor-faktor yang mempengaruhi suatu
faktor / variabel laten belum
diidentifikasikan secara baik terutama
digunakan dalam explanatory research.

EFA DAPAT DIGUNAKAN UNTUK:


Menentukan banyaknya konstruk yang harus
dibentuk dari teori yang ada, dimana teori
mengenai indikator penyusun variabel latennya
belum ada sehingga struktur hubungan variabel
dalam model tidak dispesifikasi secara khusus
oleh peneliti
Menentukan satu set variabel terukur/indikator
mendasari suatu konstruk yang dijelaskan
dengan muatan (loading) faktornya

CONFIRMATORY FA
Digunakan untuk mengestimasi parameter dan
menguji hipotesis tentang sejumlah faktor yang
mendasari hubungannya dengan suatu set
indikator.

CFA DIGUNAKAN UNTUK:


Menguji hipotesis mengenai hubungan antara
variabel yang diamati dan laten yang mendasari
konstrak yang ada.
Menguji validitas suatu alat ukur/rangkaian
kuesioner yang diguakan untuk mengukur suatu
konstrak teoritis
Memverifikasi struktur faktor dari satu set
variabel yang diamati.

MODEL FAKTOR
X p x1 p x1 L p x m F m x1 p x1
Dengan:

adalah rata-rata variabel ke-i

adalah faktor khusus ke-i/spesific factor

F j adalah faktor umum ke-j /common facor

lij

adalah loading dari variabel ke-i pada faktor ke-j

adalah matriks dari faktor loading

ASUMSI ANALISIS FAKTOR

STRUKTUR COVARIANS X
X X ' LF LF '
LF LF ' '
LF LF ' ' LF ' LF ' '
E LF LF ' E LF F ' L '
( LL ' ) E ( FF ' )
LL'.I
LL'

E F ' L' ' L' E F '


L'0 0

E '

E X X ' cov( X ) LL'

STRUKTUR COVARIANS X (2)

lij lij: komunalitas atau varians faktor umum


Merupakan jumlah kuadrat dari loading
Digunakan untuk menyatakan proporsi yang mampu dijelaskan oleh
faktor umum
Ekspektasi: komunalitas memberikan kontribusi yang sebesar-besarnya

LOADING FAKTOR (L)

Korelasi antara variabel asal dengan faktor yang


terbentuk

Cluster Analysis

CLUSTER ANALYSIS
Cluster Analysis adalah suatu teknik analisis multivariate metode
interdependen, dengan tujuan meringkas data dengan
penggerombolan obyek (responden) sehingga terbentuk beberapa
kelompok, disebut cluster. Obyek di dalam suatu cluster lebih mirip
dibandingkan antar cluster. Kemiripan ini sudah didasarkan pada
sekumpulan variabel secara simultan.
KEGUNAAN
2 identifikasi banyaknya cluster dari sekumpulan obyek
2 identifikasi karakteristik setiap cluster
2 prediksi jumlah anggota masing-masing subpopulasi berdasarkan
perhitungan anggota setiap cluster yang diperoleh dari data
sampel
BASIS KLASTERING DAN INPUT
2 Pengelompokkan dibuat berbasis pada kesamaan (similiarities)
atau jaraknya (disimiliarities/distance)
2 Input yang diperlukan berupa ukuran kesamaan atau data

CLUSTER ANALYSIS
Analisis Cluster dalam beberapa bidang keilmuan
Dalam analisis Pemasaran, Cluster analysis dapat digunakan untuk
(a) mengetahui segmentasi dan menentukan target pasar yang dituju;
(b) mengetahui positioning produk dan menentukan pengembangan
produk baru; (c) Memilih pasar yang akan dipilih untuk produk baru
perusahaan.
Dalam analisis penelitian pendidikan, data untuk clustering dapat
berupa data siswa, orang tua, jenis kelamin atau nilai ujian.
Clustering merupakan metode penting untuk memahami dan utilitas
dari cluster dalam penelitian pendidikan, msialnya untuk
pengelompokkan siswa ataupun sekolah.

CLUSTER ANALYSIS
Tahapan dalam Cluster Ananlysis
Tahap 1. Partitioning (membentuk cluster)
1. Variabel apa yang digunakan untuk menghitung
similarity (atau distance) antar objek
2. Bagaimana menentukan ukuran similarity (atau distance)
3. Algoritma apa yang sebaiknya digunakan dalam
menempatkan suatu objek ke dalam cluster
4. Berapa jumlah cluster yang terbentuk
Tahap 2. Interpretasi
Tahap 3. Validasi dan Profil

CLUSTER ANALYSIS
Ukuran ketakmiripan
Ukuran jarak yang sering digunakan adalah jarak euclidean (d)
dengan mengukur proximity pada ruang dua dimensi sehingga
jarak antara dua observasi menunjukkan kesamaan. Secara
umum jarak euclid antara 2 amatan dengan p variabel dinyatakan
sebagai

dij

2
(
X

X
)
ki kj
k 1

Ukuran Mikowski

dij

k 1

dan Mahalanobis

1/ m

X ik X jk

dij

X X S X X
t

CLUSTER ANALYSIS
Ukuran kemiripan
Sifat-sfat ukuran ketakmiripan:
d(uv) 0
d(uu)= 0
d(uv)= d(vu)
d(uv) akan meningkat nilainya dengan semakin tak miripnya
gerombol u dan v
Nilai jarak tersebut akan disajikan dalam matriks jarak yang
disebut dengan matriks proksimitas/proximity

CLUSTER ANALYSIS
Asumsi Analisis Gerombol

Data antar pengamatan (case) independen


Sampel diambil secara random
Antar variabel tidak saling bebas (berkorelasi)
Data untuk seluruh variabel minimal memiliki skala interval
(terutama bila ukuran kemiripan yang digunakan adalah jarak)

CLUSTER ANALYSIS
Metode analisis :
1) Hirarki (berjenjang) :
- Terstruktur
- Dapat ditelusuri penggerombolan suatu objek dengan objek lainnya
- Stabil
- Banyak kelompok belum diketahui
- Output berupa dendogram
- pemotongan : jarak lompatan terjauh
2) Tidak Berhirarki :
- Tidak terstruktur
- Banyak kelompok ditentukan terlebih dahulu (diketahui)
- Menggunakan Iterasi
- Kurang Stabil
- Output : anggota kelompok dan centroid

CLUSTER ANALYSIS
Metode yang sering digunakan untuk pengelompokan obyek pada
Hierarchical clustering adalah
1. Metode penggumpalan (agglomeratif)
Setiap obyek dianggap sebagai suatu gerombol/cluster,
kemudian dikelompokkan dengan obyek yang memiliki jarak
terdekat
2. Metode pembagian (divisive)
Bekerja dengan membagi 2 berdasarkan jumlah objek,
dipisahkan dengan dicari obyek yang mempunyai jarak terjauh

CLUSTER ANALYSIS
Hirarki (berjenjang)
Metode yang sering digunakan untuk pengelompokan obyek pada
Hierarchical clustering adalah metode penggumpalan
(agglomeratif)
Terdapat 7 metode pengelompokkan
Agglomerative yang sering
dipergunakan untuk perhitungan jarak
antar cluster dengan obyek atau
dengan cluster lain di dalam
penggerombolan berjenjang, yaitu
single lingkage (pautan tunggal),
complete linkage (pautan lengkap,
average linkage (pautan rata-rata),
centroid, median, minimum variance,
ward

CLUSTER ANALYSIS
Hirarki (berjenjang)
Untuk teknik pengelompokkan dengan metode Divisive ada 2
metode yang sering digunakan yaitu :
A splinter- Average Distance Method
Automatic Interaction Detection

CLUSTER ANALYSIS
Hirarki (berjenjang)
Output : berupa dendogram

CLUSTER ANALYSIS
Hirarki (berjenjang)
Latihan:
Diketahui data variabel pendidikan dan pendapatan untuk 6
amatan adalah sebagai berikut:
Nilai Pendapatan: 5,6,15,16,25,30
Nilai Pendidikan: 5,6,14,15,20,19
Dengan menggunakan metode Pautan tunggal

CLUSTER ANALYSIS
Hasil
Pendapatan
5
6
15
16
25
30

Pendidikan
5
6
14
15
20
19

Kelompok
1
1
2
2
2
2

CLUSTER ANALYSIS
APLIKASI
Suatu penelitian dilakukan dengan cara survey, bertujuan ingin
mengetahui peta karakteristik anak jalanan. Bilamana mapping ini
dapat dilakukan, diharapkan dapat dikembangkan model pembinaan
yang efektif.
Variabel yang diamati adalah pendidikan, alasan dan keinginan.
Analisis dilakukan dengan program SPSS

Dat Pendididkan Alasan Menjadi Anak Jalanan dan


Keinginan Anak Jalanan

Data ini akan digunakan untuk membuat pemetaan karakteristik anak


jalanan dengan analisis cluster.

CLUSTER ANALYSIS
HASIL ANALISIS

Koefisien agglomerasi menghasilkan lompatan (selisih) terbesar dari


stage 98 ke 99, yaitu dari 8.814 ke 12.466. Dengan demikian dapat
diketahui bahwa dari 100 anak jalanan tersebut membentuk 2 cluster.

CLUSTER ANALYSIS
HASIL ANALISIS
Penempatan setiap obyek (case) ke dalam cluster dapat dilihat
pada tabel di bawah ini.

CLUSTER ANALYSIS
HASIL ANALISIS
Anak jalanan yang berjumlah 100 orang membentuk dua cluster
dan untuk melakukan identifikasi karakteristik setiap cluster
dilakukan analisis diskriptif.

Karakteristik cluster 1 adalah pendidikan orang tua cukup tinggi akan tetapi
pendidikan anak tidak terurus, mereka menjadi anak jalanan bukan karena
keadaan (ekonomi) dan sebenarnya mereka tidak ingin menjadi anak jalanan.
Tampaknya anak jalanan di dalam kelompok ini lebih disebabkan karena
sangat kurangnya perhatian orang tua.

CLUSTER ANALYSIS
HASIL ANALISIS
Karakteristik cluster 2 adalah pendidikan orang tua rendah, untuk
bisa bertahan hidup mereka harus menjadi anak jalanan sehingga
ada keinginan yang tinggi untuk menjadi anak jalanan. Pada
cluster ini, tampaknya mereka menjadi anak jalanan
dilatarbelakangi kondisi ekonomi keluarga.
Pembinaan anak jalanan pada cluster 1 seharusnya berbeda
dengan pada cluster 2. Dengan kata lain, dari hasil pemetaan
(mapping) ini selanjutnya dapat dirancang model dan
program pembinaan anak jalanan yang efektif.

CLUSTER ANALYSIS
Tidak Hirarki (tidak berjenjang)
Pada analisis gerombol tidak berjenjang jumlah cluster harus
ditetapkan terlebih dahulu sebelum kita melakukan analisis data.
Dengan kata lain, non hierarchical clustering digunakan bilamana
jumlah gerombol dapat ditentukan sebelum analisis dilakukan.
Penentuan jumlah cluster dapat didasarkan pada rujukan teoritis,
kondisional, common sense, dan atau tujuan penelitian.
Metode yang banyak digunakan adalah Metode K-rataan (K mean Method).

CLUSTER ANALYSIS
APLIKASI
Suatu penelitian dilakukan dengan tujuan untuk mengetahui karakteristik
karyawan. Bilamana terdapat beberapa kelompok karaktersitik, maka pada
setiap kelompok ingin diketahui faktor apa yang dominan berpengaruh
terhadap kinerjanya (perform). Variabel yang diamati adalah loyalitas,
motivasi, kepuasan, dan kinerja.
Pengembangan model dan program pembinaan karyawan guna
meningkatkan kinerjanya ditetapkan hanya 2 macam. Oleh karena itu,
karyawan akan dikelompokkan menjadi 2, selanjutnya akan diidentifikasi
karakteristik dari dari setiap kelompok. Informasi ini akan digunakan
sebagai bahan pengembangan model dan program pembinaan
karyawan.
Mengingat jumlah cluster (kelompok) sudah ditetapkan terlebih
dahulu, maka analisis untuk penggerombolan yang paling tepat
adalah analisis gerombol tidak berjenjang. Hasil analisis data,
menggunakan SPSS, disajikan sebagai berikut.

CLUSTER ANALYSIS
HASIL ANALISIS

Kelompok (cluster) 1 beranggotakan


49 orang karyawan, dengan center
(mean) untuk semua variabel positif.
Dengan demikian, pada kelompok ini
upaya pembinaan diarahkan untuk
lebih meningkatkan kinerja.

CLUSTER ANALYSIS
HASIL ANALISIS
Kelompok 2 beranggotakan 46 orang karyawan, dengan center
semuanya negatif. Sehingga pada kelompok ini diperlukan upaya
pembinaan yang tujuannya adalah perbaikan berbagai aspek perilaku
karyawan.
Kemudian pada kelompok 2 ini akan diidentifikasi faktor apa yang dominan
berpengaruh terhadap kinerja (perform)

CLUSTER ANALYSIS
UKURAN EVALUASI KLUSTER
1. Root Mean Square Standart Deviation (RMSSTD)

pooledSS semuavariabel
pooleddf semuavariabel
Tidak ada kriteria khusus, untuk pengelompokkan yang baik nilai tsb harus kecil
RMSSTD

2. R-Square (RS)
RS bernilai antara 0 dan 1, semakin besar nilai RS semakin baik pengelompokkan yang
dilakukan

RS

SSbetween
SStotal

*Dengan nilai SS diperoleh dari tabel One-way ANOVA nilai amatan yang sudah dikelompokkan*

CLUSTER ANALYSIS

RS

341,3 176,3
0,7377
498,8 202,83

MATRIX DATA VARIABLES = X1 TO X5


/FORMAT = LIST FULL DIAGONAL
/CONTENTS = PROX.
BEGIN DATA.
10 4 3 6 7
4 10 5 2 5
3 5 10 8 4
6 2 8 10 1
7 5 4 1 10
END DATA.
VALUE LABELS ROWTYPE_ 'PROX' 'SIMILARITY' .
CLUSTER X1 X2 X3 X4 X5
/MATRIX = IN (*)
/METHOD BAVERAGE
/PRINT SCHEDULE DISTANCE
/PLOT DENDROGRAM .

ANALISIS DISKRIMINAN

Analisis Diskriminan merupakan tehnik statistik jika variabel


dependen yang berbentuk kategorikal (nominal atau non metrik)
dan variabel independen berbentuk metrik.
Dalam banyak kasus variabel dependen terklasifikasi menjadi
dua kelompok atau atau lebih, sebagai contoh narapidana yang
bebas bersyarat yang telah dan belum melanggar hukum, bank
yang bangkrut dan yang tidak bangkrut.
Jika Teknik analisis diskriminan dibedakan menjadi dua kelompok/kategori,
maka variabel tak bebas (Y) dikelompokan menjadi dua, dan
diperlukan satu fungsi diskriminan,
jika variabel tak bebas dikelompokkan menjadi lebih dari dua kelompok
disebut analisis diskriminan berganda (multiple discriminant analysis)
diperlukan fungsi diskriminan sebanyak k-1, jika ada k kategori.

Tujuan dari Analisis Diskriminan

1. Membuat suatu fungsi diskriminan atau kombinasi linier dari prediktor


atau variabel bebas yang bisa membedakan kategori variabel tak bebas
(kelompok)

2. Mengidentifikasi variabel bebas yang mana yang memberikan


sumbangan terbesar terhadap terjadinya perbedaan antar kelompok atau
membedakan terbaik di antara dua kelompok (disebut variabel pembeda)

3. Membuat prosedur untuk mengklasifikasi objek baru


(individu, perusahaan, produk, dan sebagainya) ke dalam salah satu kelompok
atas dasar nilai mereka di set independen variables.

Ilustrasi Analisis Diskriminan

Desain penelitian untuk Analisis


Diskriminan
Memilih Variabel Independen dan variabel dependen
Untuk menerapkan analisis discriminant, maka peneliti harus terlebih dahulu
menetapkan variabel yang harus independen dan variabel yang akan bergantung/tak
bebas. Ingat bahwa dependen variabel berbentuk kategori dan variabel independen
adalah metrik dan bisa membedakan.
Ukuran Sampel
Analisis Diskriminan sangat peka terhadap rasio untuk ukuran sampel dalam variabel
bebas. Banyak studi menyarankan rasio 20 observasi untuk setiap variabel bebas.
Pembagian Sampel
Prosedur yang biasa adalah dengan membagi total sampel responden secara acak
ke dalam dua kelompok. Salah satu dari kelompok ini, analisis sampel, digunakan
untuk mengembangkan discriminant function. Kelompok kedua. yang holdout sampel,
digunakan untuk menguji discriminant fungsi. Metode ini memvalidasi fungsi ini
disebut sebagai split-sampel atau pendekatan
lintas-validasi

Asumsi dari Analisis Diskriminan


Para peneliti harus memeriksa data dan asumsi jika melanggar, maka peneliti
harus mengidentifikasi metode alternatif yang tersedia dan dampak pada hasil
yang dapat diharapkan.
Data tidak memenuhi asumsi dapat menimbulkan masalah dalam melakukan
estimasi Fungsi diskriminasi, sehingga bisa salah klasifikasi.
Asumsi:

X : N p ( , )

1 2
1 2
Data sudah dikelompokkan

Pengujian Ragam Analisis


Diskriminan
Dalam pengujian asumsi kesamaan ragam / kehomogenan varians:

H 0 : 1 2
H 1 : 1 2

Menggunakan statistik uji Boxs M (hal 310 (6.6), Johnsons&Wichern)


merupakan uji dengan pendekatan Chi-Square.

Fungsi Diskriminan Fisher


Notasi:

y a' x
a' ( 1 2 )' 1

Kombinasi linier untuk analisis discriminan dikenal juga sebagai


Fungsi diskriminan linier didefinisikan sebagai:
Yjk = a1 X1k + a2 X2k + ...... + an Xnk
dimana :
Yjk = discriminan Z score dalam fungsi discriminan j untuk objek k
ai = discriminan weight untuk variabel independen i
Xjk = Variabel independen i untuk objek k

Fungsi Diskriminan Fisher

Fungsi Diskriminan Fisher

Aturan Klasifikasi
Aturan pengelompokkan pada analisis Diskriminan:
1. Cut off Value (CV), merupakan batas/kriteria skor untuk
menentukan suatu individu/obyek termasuk dalam
kelompok yang mana
2. Prior Probability, untuk meminumkan salah klasifikasi
3. Memininumkan biaya salah klasifikasi
4. Jarak Mahalanobis

Cut off Value (CV)


Aturan pengelompokkan :
Jika merupakan vektor pengukuran berukuran p x 1 dari suatu individu maka

1
1
X 1 jika X 1 X 2 ' S Xmendekati X 1 X 2 S X 1

1
1
X 2 jika X 1 X 2 ' S Xmendekati X 1 X 2 S X 2

atau

X 1 jika

1
1
1
1
X1 X 2 S X1 X 2 S X1 X1 X 2 S X1 X 2 S X 2

atau jika

1
y X1 X 2 S X1 X 2
2

CV

Cut off Value (CV) .. (2)


Aturan pengelompokkan :
Jika n1= n2

X1 X 2

X1 X 2

1
X 1 jika y X 1 X 2 ' S 1
2

1
X 2 jika y X 1 X 2 ' S 1
2

Jika n1 n2

1
X1 X 2 S X 2

1
X1 X 2 S X 2

n1 X 1 X 2 ' S X 1 n 2
X 1 jika y
n1 n 2

n X X 2 ' S X 1 n2
X 1 jika y 1 1
n1 n 2

Prior Probability
Metode untuk meminumkan salah klasifikasi, dengan alokasi
pengelompokkan


p2
1
1
X 1 jika y X 1 X 2 ' S X 1 X 2 ln

2
p
1


p2
1
1
X 2 jika y X 1 X 2 ' S X 1 X 2 ln

2
p
1

dimana:
pi : prob. prior sebuah individu termasuk ke kelompok ke i

Memininumkan biaya salah klasifikasi


Aturan pengelompokkan untuk meminimumkan biaya atau expected cost of
misclassification (ECM)

p 2 C 1 2
1
1
X 1 jika y X 1 X 2 ' S X 1 X 2 ln

2
p1C 2 1

p 2 C 1 2
1
1
X 2 jika y X 1 X 2 ' S X 1 X 2 ln

2
p
C
2
1
1

C i j : Biaya salah pengelompokkan karena X yang berasal dari populasi j

terklasifikasi pada populasi i

Jarak Mahalanobis
Jarak Mahalanobis:

1
X i jika X X i ' S
X Xi

minimum

Tahapan Analisis Diskriminan


Dengan fungsi yang diperkirakan, secara keseluruhan model dapat dinilai
dengan beberapa cara.
Pertama, discriminant Z skor, juga dikenal sebagai nilai Z, bisa dihitung
untuk setiap objek.
Perbandingan kelompok berarti pada Z skor menyediakan satu ukuran
discriminan antar kelompok/menentukan cutting score.
Input keakuratan diukur sebagai jumlah observasi diklasifikasikan ke
dalam kelompok yang benar, dengan menyusun matriks klasifikasi
(confusion matrix)
Sejumlah kriteria yang tersedia untuk menilai apakah proses mencapai
klasifikasi praktis dan / atau statistik signifikan.

Menghitung Z skore Diskriminan


Setelah

batasan fungsi diskriminan ditetapkan sebagai


dasar perhitungan Z skor Diskriminan yang dapat
dihitung berdasarkan formula sebagai berikut :

Zjk = W1 Xjk + W2 X2k + .... + Wn Xnk


dimana :
Z jk = Z skore diskriminan dari fungsi diskriminan j
untuk objek k
W1 = estimasi koefisien diskriminan dalam variabel
independen i
X ik = Variabel independen i dalam objek k
Nilai estimasi koef. Diskriminan dinyatakan sebagai:

Pemilihan Variabel Pembeda


Menggunakan pilihan prosedur
1. Forwards
2. BackWard
3. Stepwise, yaitu membuat fungsi diskriminan berdasarkan kekuatan
peubah bebas dalam membedakan kelompok yang ada. Peubah yang
paling baik dalam membedakan peubah tak bebasnya akan masuk
dalam model terlebih dahulu, diikuti peubah terbaik kedua yang
mampu mencirikan peubah tak bebas yang ada bersama-sama
dengan peubah pertama yang sudah masuk dalam model, dan
demikian seterusnya.
4. Simultaneous (direct) method, yaitu membuat fungsi diskriminan
berdasarkan semua peubah bebas yang ada, tanpa membedakan
kekuatan masing-masing peubah.
Ukuran kebaikan variabel pembeda
5. Wilks Lamda
6. Rao
7. Jarak Mahalanobis
8. Rasio nilai F anatar kelompok

Interpretasi Hasil

Jika secara statistik signifikansi fungsi diskriminasi dan klassifikasi akurasinya dapat
diterima, maka peneliti harus fokus pada pembuatan substansi interpretasi terhadap
hasil temuan tersebut.
Proses ini melibatkan pemeriksaan diskriminan yang berfungsi untuk menentukan
relatif pentingnya setiap variabel independen dalam membedakan antara kelompok
melalui:
i. Koefisien diskriminan (discriminant weight)
Semakin besar pembobot diskriminan menunjukkan semakin besar pula kekuatan
peubah yang bersesuaian dalam fungsi diskriminan.
ii. Discriminant structure correlation
Besaran ini mengukur korelasi linear sederhana antara masing-masing peubah bebas
dengan fungsi diskriminan.
iii. Nilai f parsial
Besarnya nilai f parsial dari suatu peubah bebas menunjukkan kekuatan peubah
tersebut di dalam fungsi diskriminan untuk membedakan amatan/obyek ke dalam
kelompok yang ada. Nilai f parsial ini sering digunakan apabila pembentukan fungsi
diskriminan menggunakan metode stepwise.

Ukuran Keakuratan Pengelompokkan


Berdasarkan matriks klasifikasi:
Hit Ratio atau Apparent Error Rate (APER)

Anda mungkin juga menyukai