Oleh:
MELDA JULIZA
NIM. 176090 500111 006
1. Definisi
Model analisis diskriminan ditandai dengan ciri khusus yaitu data variabel dependen
yang harus berupa data kategori, sedangkan data independen justru berupa data non kategori.
Variabel independen (X1 dan seterusnya) adalah data metrik, yaitu data berskala interval atau
rasio. Variabel dependen (Y1) adalah data kategorikal atau nominal. Jika data kategorikal
tersebut hanya terdiri dari 2 kode saja disebut “Two-Groups Discriminant Analysis”. Namun
apabila lebih dari 2 kategori disebut “Multiple Discriminant Analysis”.
2. Tujuan
Variabel Dependen adalah variabel yang menjadi dasar analisis diskriminan. Adapun
tujuan dari analisis diskriminan antara lain:
a. Mengetahui perbedaan yang jelas antar grup pada variabel dependen.
b. Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan yang
membuat perbedaan tersebut.
c. Membuat fungsi atau model diskriminan (yang mirip dengan persamaan regresi).
d. Melakukan klasifikasi terhadap obyek ke dalam kelompok (grup).
3. Proses
Beberapa langkah yang merupakan proses dasar dalam analisi diskriminan antara lain :
a. Memilah variabel-variabel menjadi variabel terikat dan variabel bebas.
b. Menentukan metode untuk membuat Fungsi Diskriminan, yaitu :
Simultaneous Estimation; semua variabel dimasukkan secara bersama-sama lalu
dilakukan proses Diskriminan.
Step-Wise Estimation; variabel dimasukkan satu per satu ke dalam model
Diskriminan.
c. Menguji signifikansi Fungsi Diskriminan yang terbentuk, dengan menggunakan Wilk’s
Lambda, Pilai, F test, dan lainnya.
d. Menguji ketepatan klasifikasi dari fungsi diskriminan (secara individual dengan
Casewise Diagnotics).
e. Melakukan interpretasi Fungsi Diskriminan.
Dengan analisis diskriminan, pada akhirnya akan dibuat sebuah model seperti regresi
yaitu satu variabel terikat (dependent) dan banyak variabel bebas (independent). Prinsip
Diskriminan adalah ingin membuat model yang dapat secara jelas menunjukkan perbedaan
(diskriminasi) antar isi variabel dependen.
4. Contoh Kasus
Indeks Harga Konsumen (IHK) Kota Bengkulu 2016, dengan variabel-variabel antara
lain :
a. IHK Kota Bengkulu (Y), dengan kode :
kode 1 = Januari-Juni
kode 2 = Juli-Desember
b. Bahan makanan (X1)
c. Perumahan (X2)
d. Kesehatan (X3)
e. Transfortasi (X4)
Y X1 X2 X3 X4
1 141,42 120,04 126,81 136,39
1 137,75 120,11 129,57 137,67
1 139,6 119,98 129,57 134,81
1 135,22 120,73 129,62 132,69
1 136,58 120,59 129,74 136,49
1 138,37 120,88 130,24 141,6
2 140,88 120,9 130,23 150,26
2 142,4 121,23 130,41 148,5
2 142,76 121,27 130,62 146,64
2 144,36 121,55 130,84 147,7
2 144,24 122,42 130,6 146,4
2 144,46 122,02 130,86 147,49
5. Output (4 Software)
a) NCSS
b) XLSTAT
Summary statistics:
Obs. with Obs. without Std.
Variable Observations missing data missing data Minimum Maximum Mean deviation
X1 12 0 12 135,220 144,460 140,670 3,163
X2 12 0 12 119,980 122,420 120,977 0,769
X3 12 0 12 126,810 130,860 129,926 1,094
X4 12 0 12 132,690 150,260 142,220 6,271
Correlation matrix:
Variables X1 X2 X3 X4
X1 1,000 0,684 0,327 0,782
X2 0,684 1,000 0,700 0,724
X3 0,327 0,700 1,000 0,630
X4 0,782 0,724 0,630 1,000
Discriminant Analysis:
Means by class:
Class \ Variable X1 X2 X3 X4
1 138,157 120,388 129,258 136,608
2 143,183 121,565 130,593 147,832
Sum of weights, prior probabilities and logarithms of determinants for each class:
Class Sum of weights Prior probabilities Log(Determinant)
1 6,000 0,500 2,190
2 6,000 0,500 0,688
Multicolinearity statistics:
Statistic X1 X2 X3 X4
Tolerance 0,253 0,278 0,336 0,232
VIF 3,953 3,603 2,972 4,307
Pillai's trace:
Trace 0,874
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05
Hotelling-Lawley trace:
Trace 6,916
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05
Roy's greatest root:
Root 6,916
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05
Eigenvalues:
F1
Eigenvalue 6,916
Discrimination (%) 100,000
Cumulative % 100,000
Variables/Factors correlations:
F1
X1 0,782
X2 0,724
X3 0,630
X4 1,000
Centroids
F1
1 -2,401
2 2,401
c) STATA
Analisis diskriminan group means Analisis diskriminan group summariez
Tabel estat grsummarize di atas menerangkan bahwa kasus yang dianalisis ada 12
pengamatan. 6 pengamatan grup 1 dan 6 pengamatan grup 2. Pada variabel X4 nilai rata-rata
X4 pada kelompok 2 : 147.83, sedangkan kelompok 1: 136.61. Artinya rata-rata X4 terhadap
Keputusan pada grup pertama (2) lebih tinggi dibandingkan dengan kelompok kedua (1).
Tabel estat anova di atas adalah hasil analisis untuk menguji kesamaan rata-rata variabel.
Uji ini menggunakan Uji F dan nilai signifikansi 5%. Jika angka p_value mendekati angka 0
maka cenderung ada perbedaan dalam kelompok. Semua variabel di atas nilai sig < 0.05,
maka keempat variabel memberikan perbedaan pada pengambilan keputusan (Y).
Tabel estat canontest di atas menunjukkan nilai likelihood ratio dan uji F. Signifikansi
ditunjukkan p_value < 0.05, Angka signifikansi sebesar 0,0006 dengan nilai F=20.4. Karena
nilai signifikansi 0,0006 (< 0,05) maka variabel masing-masing kelompok mempunyai
perbedaan yang signifikan. Sehingga dapat dikatakan semua variabel independen secara
simultan mempengaruhi nilai variabel dependen (Y).
Nilai canonical correlation digunakan untuk mengukur derajat hubungan antara hasil
diskriminan atau besarnya variabilitas yang mampu diterangkan oleh variabel independen
terhadap variabel dependen. Dari tabel di atas, diperoleh nilai canonical correlation sebesar
0.9597 bila di kuadratkan maka (0.9597 x 0.9597) = 0.92, artinya 92% varians dari variabel
independen (kelompok) dapat dijelaskan dari model diskriminan yang terbentuk. Nilai
korelasi kanonikal menunjukan hubungan antara nilai diskriminan dengan kelompok. Nilai
sebesar 0,9597 berarti hubungannya sangat tinggi karena mendekati angka 1.
Struktur kanonik
Tabel estat structure menunjukan urutan karakteristik yang paling membedakan
keputusan (Y). Urutan ditentukan dengan nilai mutlak yang paling besar. Variabel X4 adalah
yang paling membedakan, kemudian jumlah X2, X3 dan selanjutnya X1. Tabel di atas
menunjukan adanya korelasi antara variabel-variabel bebas dengan fungsi diskriminan yang
terbentuk. Variabel X4 mempunyai korelasi yang paling tinggi dengan nilai korelasi sebesar
0.77.
Persamaan diskriminan
Analisis koefisien Fungsi diskriminan
Berdasarkan angka tabel di atas, terdapat dua kelompok yang berbeda yaitu kelompok
dengan keputusan 1 dengan centroid (rata-rata kelompok) negatif dan kelompok yang
keputusan 2 dengan centroid (rata-rata kelompok) positif.
Class Function
kelompok 1, persamaannya :
Nilai = -39225.39+ 58.73 (X1) + 425.94 (X2) + 117.97 (X3) + 27.88 (X4)
kelompok 1, persamaannya :
Nilai = -40511.63 + 60.43 (X1) + 430.35 (X2) + 119.69 (X3) + 29.92 (X4)
Analisis multivariat
Tabel di atas menunjukkan nilai uji F pada analisis multivariat dengan menggunakan metode
Wilk’s Lambda, Pillai’s Trace, Lawley-Hotelling trace dan Roy’s largest root. Terlihat bahwa
nilai p_value < 0,05 maka pada derajat kepercayaan 95%, variabel independen secara
simultan mempunyai pengaruh yang bermakna terhadap variabel dependen.
Dari ketiga output diatas, bahwa hasil output dari ketiga software XLSTAT, NCSS dan
STATA memiliki nilai output program yang hampir sama.
d) STATISTICA
summary
Discriminant Function Analysis Summary (Sheet1 in IHK AD STATISTICA)
No. of vars in model: 4; Grouping: Y (2 grps)
Wilks' Lambda: ,07896 approx. F (4,7)=20,412 p< ,0006
Wilks' Partial F-remove p-value Toler. 1-Toler.
N=12 Lambda Lambda (1,7) (R-Sqr.)
X1 0,094046 0,839644 1,336864 0,285520 0,682100 0,317900
X2 0,085550 0,923020 0,583803 0,469792 0,710082 0,289919
X3 0,081405 0,970021 0,216334 0,655970 0,549658 0,450342
X4 0,156736 0,503807 6,894214 0,034126 0,925874 0,074126
Analisis kanonik
Chi-Square Tests with Successive Roots Removed (Sheet1 in IHK AD STATISTICA)
Roots Eigen- Canonicl Wilks' Chi-Sqr. df p-value
Removed value R Lambda
0 11,66387 0,959706 0,078965 20,31002 4 0,000434
2 6 x1 6 143.1833333 1.4303240
x2 6 121.5650000 0.5620943
x3 6 130.5933333 0.2442676
x4 6 147.8316667 1.4104810
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Likelihood Approximate
Eigenvalue Diff Proportion Cumulative Ratio F Value NumDF DenDF Pr>F
1 11.6639 1.0000 1.0000 0.07896480 20.41 4 7 0.0006
6. Analisis
a) Uji kesamaan rata-rata grup
Uji ini menggunakan dua cara yaitu dengan wilks’ lamda dan nilai signifikan pada uji F.
Nilai wilks’ lamda mendekati 0 menunjukkan semakin signifikan dan apabila nilai wilks’
lamda mendekati 1 berarti tidak signifikan. Berikut ini hasil uji kesamaan rata-rata
kelompok.
Hipotesis:
H0 : tidak ada perbedaan antar grup
H1 : ada perbedaan antar grup
𝛼 = 5%
Lambda 0,126
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05
Berdasarkan nilai signifikansi pada tabel diatas, terlihat bahwa nilai p_value 0.0001 yang
kurang dari alpha. Sehingga H0 ditolak, artinya bahwa ada perbedaan antar grup.
b) Uji kesamaan matriks kovarian antar grup
Hipotesis:
H0 : grup kovarian matriks adalah relatif sama
H1 : grup kovarian matriks adalah berbeda secara nyata
Statistik uji menggunakan Box’s M
-2Log(M) 2,591
F (Observed value) 2,332
F (Critical value) 3,873
DF1 1
DF2 300
p-value 0,128
Alpha 0,05
Nilai p_palue pada hasil Box’s M adalah sebesar 0.128 yang lebih besar dari alpha,
sehingga H0 diterima. Hal ini menunjukkan bahwa kovarians pada kedua grup adalah
sama, sehingga memenuhi asumsi kovarians dalam analisis diskriminan.
c) Uji ketepatan model diskriminan
Uji ketepatan diukur menggunakan eigenvalues dan wilks’lamda
Nilai wilks’lamda 0.126 dengan nilai signifikannya 0,000 yang berarti terdapat
perbedaan yang signifikan pada variabel dependen kelompok 1 dan kelompok 2 pada model
diskriminan. Terlihat bahwa nilai eigen 6.916, nilai eigen semakin besar mengindikasikan
semakin besar pula variansi dari variabel dependen yang dapat dijelaskan oleh fungsi
diskriminan. Canonical correlation menunjukkan keeratan hubungan antara discriminant
score dengan grup. Nilai conanical correlation sebesar 0.96 bila dikuadratkan menjadi 0.92
yang berarti terdapat 92% variasi IHK antar kurun waktu Januari-Juni dengan Juli-Desember
yang dapat dapat dijelaskan oleh variabel diskriminannya.
F1
1 -2,401
2 2,401
Karena ada dua tipe keputusan, maka disebut Two-Group Discriminant, dimana grup yang
satu mempunyai Centroid (Group Means) negatif, dan grup yang satu mempunyai Centroid
(Group Means) positif.