rul2a@yahoo.com
ANALISIS DISKRIMINAN
1. Introduksi.
Analisis Regresi Logistik dan Analisis Diskriminan adalah teknik statistik yang sesuai untuk
variabel dependen yang bersifat katagorial (nominal atau nonmetrik) dengan variabel
independen bersifat metrik. Pada banyak kasus, variabel dependen terdiri dari dua kelompok
atau klasifikasi, contoh : lakilaki dan perempuan, tinggi dan rendah; bahkan seringkali juga
lebih dari dua kelompok, seperti : rendah, sedang dan tinggi. Analisis Diskriminan dapat
diaplikasi kepada dua kelompok atau lebih. Jika hanya ada dua kelompok variabel dependen,
maka analisis disebut sebagai Two Group Discriminant Analysis, sedang untuk tiga kelompok
atau lebih, analisis disebut Multiple Discriminant Analysis (MDA). Analisis Regresi Logistik
atau disebut sebagai Analisis Logit terbatas hanya pada dua kelompok variabel dependen,
walaupun dengan formulasi alternatif analisis ini bisa diaplikasi kepada lebih dari dua
kelompok variabel dependen.
Analisis Diskriminan melibatkan penurunan sebuah variat, merupakan kombinasi linier terbaik
dari dua variabel independen atau lebih yang akan mendiskriminasi antara kelompok
kelompok yang secara apriori didefinisikan sejak awal. Diskriminasi dapat diperoleh melalui
mengatur bobot variat untuk setiap variabel untuik memaksimumkan varians antar kelompok
relatif terhadap varians di dalam kelompok. Kombinasi linier tersebut disebut sebagai fungsi
diskiriminan, yang diderivasi dari sebuah persamaan dalam bentuk :
Zjk = a + W1 X1k + W2 X2k + . . . . + Wn Xnk
Di mana,
Zjk = skor diskriminan dari fungsi diskriminanj untuk obyekk,
a = intersep,
Wi = bobot diskriminan untuk variabel independeni,
Xik = variabel independeni untuk obyekk.
Analisis Diskriminan adalah teknik statistik yang sesuai untuk menguji hipotesis yang
menyatakan bahwa ratarata kelompok dari sekumpulan variabel independen untuk dua
kelompok atau lebih, setara. Untuk menyatakan hal itu, Analisis Diskriminan mengkalikan
nilai setiap variabel independen dengan bobotnya masingmasing dan menjumlahkannya
bersamasama. Hasilnya adalah sebuah skor Z diskriminan tunggal yang bersifat komposit
untuk setiap individual dalam analisis. Melalui peratarataan terhadap skor diskriminan untuk
seluruh individual pada suatu kelompok tertentu, akan dihasilkan ratarata kelompok, atau
disebut sebagai group centroids. Centroids ini mengindikasikan sebagian besar lokasi tipikal
dari setiap individual yang ada pada kelompok tertentu, dan sebuah perbandingan terhadap
centroids kelompok akan menunjukkan seberapa jauh kelompokkelompok itu terpisah.
Uji signifikansi statistikal terhadap fungsi diskriminan adalah ukuran yang digeneralisasi dari
jarak antara centroids kelompok. Ini ditentukan dari perbandingan distribusi skor diskriminan
untuk kelompokkelompok. Jika overlaps distribusi yang dihasilkan itu kecil, maka fungsi
diskriminan memisahkan kelompokkelompok itu dengan baik. Jika overlaps distribusi itu
besar, maka fungsi diskriminan yang dihasilkan adalah fungsi yang tidak dapat berperan
sebagai diskriminator dengan baik.
Secara grafis, konsep hasil uji signifikansi statistik kepada fungsi diskriminan dapat
digambarkan seperti pada gambar berikut :
A B
A B
dan tampilan (style). Kuesioner yang disebar kepada pelanggan berisi pertanyaan
pertanyaan yang menyangkut kepada ketiga variabel ini, dengan skor jawaban 1 sampai
dengan 10 (1 = sangat buruk, 10 = istimewa). Hasil survey kepada pelanggan dari dua
kelompok adalah :
Tabel 1. Skor Evaluasi Pelanggan Terhadap Produk Baru.
Kelompok Berdasar Intensi Evaluasi Terhadap Produk Baru
Pembelian X1 (durability) X2 (performance) X3 (style)
Kelompok1 : Akan Membeli
Pelanggan 1 8 9 6
Pelanggan 2 6 7 5
Pelanggan 3 10 6 3
Pelanggan 4 9 4 4
Pelanggan 5 4 8 2
Ratarata kelompok 7.4 6.8 4.0
10 8
9 7 5 6 2 1 4 3
X1
1 2 3 4 5 6 7 8 9 10
9
6 7
10 4 8 3 2 5 1
X2
1 2 3 4 5 6 7 8 9 10
10
7 9 8
5 3 4 2 1 6
X3
1 2 3 4 5 6 7 8 9 10
Pada grafik X1 (dengan selisih ratarata kelompok terbesar), tampak bahwa variabel ini
hampir dapat mendiskriminasi dengan sempurna. Dengan titik diskriminasi (cutting point) =
5.5; tampak hanya satu pelanggan yang akan membeli terklasifikasi sebagai pelanggan yang
tidak membeli, yaitu pelanggan no. 5. Kesalahan klasifikasi = 1/10 = 10%. Makin besar
selisih ratarata kelompok, makin memperkecil daerah overlaps.
Pada grafik X2, kesalahan klasifikasi terjadi pada pelanggan no. 4 dan no. 7. Pelanggan no. 5
terklasifikasi dengan benar, walaupun pada X1 pelanggan no. 5 ini terklasifikasi dengan tidak
benar, dan sebagian besar pelanggan terklasifikasi dengan benar seperti pada variabel X1.
Dapat disimpulkan bahwa X1 dan X2 secara bersamasama dapat digunakan sebagai
kombinasi linier dalam fungsi diskriminan.
Pada grafik X3, kesalahan klasifikasi makin tinggi. Maka dengan mengabaikan X3, fungsi
diskriminan (kombinasi X1 dan X2) lebih mampu mendiskriminasi kedua kelompok.
Perbandingan percentage correctly classified (cc) terhadap tiga alternatif fungsi diskriminan
dapat dilihat pada tabel berikut :
Tabel 2. Perbandingan CC Fungsi Diskriminan.
Hasil Perhitungan Zscore
Kelompok Fungsi 1: Fungsi 2 : Fungsi 3 :
Z = X1 Z = X1 + X2 Z = 4.53 + .476 X1 + .359 X2
Kelompok1 : Akan Membeli
Pelanggan 1 8 17 2.51
Pelanggan 1 6 13 0.84
Pelanggan 1 10 16 2.38
Pelanggan 1 9 13 1.19
Pelanggan 1 4 12 0.25
V1
A
Zcutoff B
A
B
V2
Gambar di atas menjelaskan dua kelompok yang berbeda, dengan V1 dan V2 sebagai ukuran
setiap individual anggota masingmasing kelompok. Garis cutoff adalah garis yang membagi
kedua kelompok berbeda. Daerah intersection merupakan daerah overlaps yang menyatakan
kesalahan klasifikasi.
Keofisien diskriminan dihitung dengan prinsip maksimasi varians antar kelompok dan
minimasi varians di dalam kelompok. Jika varians antar kelompok relatif lebih besar
dibanding varians di dalam kelompok, maka fungsi diskriminan dapat mengklasifikasi
kelompok dengan lebih baik.
15
11 14
5 13 10
4 12 7 9
2 1 3 6 8
X1
1 2 3 4 5 6 7 8 9 10
6 14
3 10 13
8 2 7 12
4 1 5 11 15
X2
1 2 3 4 5 6 7 8 9 10
Dari grafik tersebut di atas, tampak bahwa tidak ada variabel yang benarbenar dapat
mendiskriminasi ketiga kelompok itu. Namun jika bisa dibuat dua buah fungsi diskriminan
sederhana, hasilnya akan menjadi lebih jelas. Seandainya kedua fungsi itu untuk masing
masing variabel bebasnya diberi bobot 1 dan 0, hasilnya adalah :
Fungsi 1 : Z = 1 X1 + 0 X2
Fungsi 2 : Z = 0 X1 + 1 X2
Dari kedua fungsi hipotetis itu selanjutnya dapat dihitung skor diskriminan untuk setiap
anggota kelompok.
Tabel 4. Skor Diskriminan Individual Pada Setiap Kelompok Dengan Fungsi 1.
Pelanggan Z score Pelanggan Z score Pelanggan Z score
1 2 6 4 11 2
2 1 7 4 12 3
3 3 8 5 13 4
4 2 9 5 14 5
5 2 10 5 15 5
Tabel 5. Skor Diskriminan Individual Pada Setiap Kelompok Dengan Fungsi 2.
Pelanggan Z score Pelanggan Z score Pelanggan Z score
1 2 6 2 11 6
2 2 7 3 12 6
3 2 8 1 13 6
4 1 9 2 14 6
5 3 10 3 15 7
Secara grafis, klasifikasi kelompok berdasar skor diskriminan masingmasing individual dapat
digambarkan sebagai berikut :
Fungsi 2
7 15
6 11 12 13 14
3 5 7 10
2 1 3 6 9
2
1 4 8
Fungsi 1
1 2 3 4 5 6
Tampak dari grafik ini, bahwa skor diskriminan setiap individual untuk kelompok1 dan
kelompok2 pada fungsi2 tidak pernah melampaui 4.5. Skor diskriminan kelompok1 tidak
pernah melampaui 3.5 pada fungsi1. Skor diskriminan individual pada fungsi3 di atas 4.5
pada fungsi2. Pembobotan sederhana kepada variabelvariabel bebas pada fungsi1 dan
fungsi2 seperti di atas telah cukup dapat mengklasifikasi ketiga kelompok dengan baik.
Tahap 1
Problema Penelitian
Pilih tujuan :
1. Evaluasi selisih kelompok dengan basis multivariat.
2. Klasifikasi pengamatan ke dalam kelompok.
3. Identifikasi dimensi diskriminan antar kelompok.
Tahap 2
Isu Desain Penelitian
1. Seleksi variabel independen.
2. Pertimbangkan banyaknya sampel.
3. Lakukan analisis dan tentukan sampel.
Tahap 3
Asumsi
1. Normalitas variabel independen.
2. Linieritas hubungan.
3. Multikolinieritas di antara variabel independen.
4. Matriks dispersi yang setara.
Tahap 4
Estimasi Fungsi Diskriminan
1. Estimasi simultan atau stepwise.
2. Signifikansi fungsi diskriminan.
Pengukuran akurasi kemampuan prediksi fungsi dengan
matriks klasifikasi
1. Hitung cutting score optimal.
2. Tentukan kriteria untuk menghasilkan hit ratio.
3. Signifikansi statistik dari akurasi prediksi.
Tahap 5
Satu Interpretasi Fungsi Diskriminan Dua
Berapa banyak fungsi akan diinterpretasi ? atau lebih
1
Joseph F. Hair et al, Multivariate Data Analysis, 1988:257.
2
Opcit, 258.
a = (1/2) WiMj
Untuk data tersebut di atas, matriks Swg untuk kelompok1 yang dihasilkan
adalah setiap elemen matriks Swg dibagi dengan dferror (dferror = 6) :
214.33 36.67 58.06 8.33
Swg1 = 36.67 7.56 12.28 1.06
58.06 12.28 25.00 1.62
8.33 1.06 1.62 0.92
Kalikan matriks Swg11 dengan matriks kolom ratarata variabel bebas pada
kelompok1 untuk menghitung Wi fungsi diskriminan untuk kelompok1 :
0.04362 0.20195 0.00956 0.17990 98.67
Wi = 0.20195 1.62970 0.37073 0.60623 x 7.00
0.00956 0.37073 0.20071 0.01299 36.33
0.17990 0.60623 0.01299 2.05006 7.30
Jumlah kuadrat selisih data terhadap ratarata total (GM) dipisahkan menjadi
dua kelompok varians :
Stotal = Sbg + Swg
1 – 0.102357 6
F8,6 = = 6.58
0.102357 8
Kriteria nilai F pada Tabel F dengan df 8, 6 dan α = 0.05 adalah sama dengan 4.15.
Nilai Fhitung > Fkriteria, maka dapat disimpulkan bahwa ketiga kelompok belajar
dapat dibedakan dari kombinasi keempat variabel bebasnya. Ini merupakan uji
hipotesis secara keseluruhan mengenai hubungan kelompok dengan variabelvariabel
bebas.
Untuk menentukan tingkat korelasi antara fungsi dengan variabelvariabel bebas
dapat dihitung dari loading factor. Jika X1, X2 dan X3 memiliki korelasi yang tinggi
dengan fungsi, kecuali X4 dan X5 tidak; maka peneliti mencoba untuk memahami
seberapa jauh masingmasing X1, X2 dan X3 memiliki arti penting dalam fungsi dan
bagaimana saling berinteraksi. Secara matematik, loading factor dapat dihitung
dengan formulasi :
λ = Rw D
di mana,
λ = matriks loading factor,
Rw = matriks korelasi antara variabel bebas,
D = matriks koefisien fungsi diskriminan yang distandardisasi.
Loading factor ini lebih menjelaskan dominasi variabel bebas terhadap kemampuan
fungsi untuk mengklasifikasi kelompok yang diamati.
d.2 Signifikansi statistik.
Beberapa ukuran signifikansi statistik yang tersedia untuk Analisis Diskriminan
adalah : (1) Wilk’s lambda, (2) Hotelling’s trace, (3) Mahalanobi’s D2, (4) Rao’s
V, dan (5) Pillai’s criterion.
Jika metode stepwise yang digunakan untuk mengestimasi fungsi, maka ukuran
Mahalanobi’s D2 dan Rao’s V lebih tepat digunakan sebagai uji signifikansi fungsi.
Keduanya mengukur jarak yang digeneralisasi. Prosedur pengukuran jarak
Mahalanobi didasari pada kuadrat jarak Euclidean yang digeneralisasi dan
menyesuaikan varians yang tidak setara. Keunggulan utama prosedur uji ini
adalah : D2 diukur dalam ruang original variabel bebas. Kelemahan ukuran D2
untuk uji signifikansi fungsi adalah : ukuran ini menjadi kritis dengan variabel
bebas yang bertambah banyak, karena ukuran itu tidak dihasilkan pada setiap
pengurangan dimensi. Kehilangan dimensionalitas akan mengurangi informasi
karena hal itu mengurangi variabilitas variabel independen. Secara umum, D2
lebih disarankan dipakai jika peneliti menginginkan pemanfaatan maksimal dari
informasi yang ada.
Untuk banyaknya kelompok lebih dari dua, maka peneliti harus menguji juga
signifikansi setiap fungsi antar kelompok, tidak hanya uji signifikansi fungsi
secara total. Program komputer menghasilkan seluruh informasi yang
ZCE
Kelompok A Kelompok B
ZA ZB
ZCU
Kelompok B
Kelompok A
ZA ZB
coefficients diskriminan, (2) discriminant loadings (korelasi struktur) dan (3) partial
Fvalue.
(1) Standardized discriminant coefficients.
Ini merupakan pendekatan tradisional untuk menginterpretasi hasil analisis. Jika
tanda matematik koefisien diskriminan diabaikan, maka nilai koefisien
merupakan kontribusi relatif masingmasing variabel bebas terhadap fungsi.
Variabel independen dengan koefisien yang lebih besar dapat dijelaskan bahwa
variabel tersebut lebih besar kontribusinya dalam mendiskriminasi kelompok.
Tanda matematik hanya menjelaskan kontribusi positif atau negatif.
(2) Discriminant loadings.
Bertahuntahun yang lalu, discriminant loadings digunakan sebagai basis untuk
menginterpretasi hasil, karena memperbandingkan standardized discriminant
coefficients kadangkadang masih mengandung kelemahan yang disebabkan
adanya multikolinieritas. Discriminant loadings merupakan korelasi linier
struktural antara masingmasing variabel bebas dengan fungsi diskriminan.
Discriminant loadings merefleksikan variansi tingkat sumbangan relatif variabel
independen terhadap fungsi diskriminan dan bisa diinterpretasi seperti factor
loadings dalam menilai sumbangan relatif masingmasing variabel independen
terhadap fungsi diskriminan. Discriminant loadings dianggap lebih valid daripada
standardized discriminant coefficients dalam mengartikan kemampuan
mendiskriminasi masingmasing variabel independen karena sifat korelatifnya.
Walupun demikian, peneliti tetap harus berhatihati dalam menggunakan
pendekatan ini untuk menginterpretasi hasil.
(3) Partial Fvalue.
Seperti telah dinyatakan di atas, ada dua pendekatan teknik komputasi, yaitu :
simultan dan stepwise. Jika peneliti menggunakan metode stepwise, maka
tersedia informasi tambahan yang bisa diinterpretasikan tentang kemampuan
mendiskriminasi setiap variabel independen, melalui nilai F parsial. Makin besar
nilai F parsial, makin besar pula kemampuan mendsikriminasi variabel
independen yang bersangkutan. Secara umum, perbandingan nilai F parsial ini
sama dengan memperbandingkan standardized discriminant coefficients, namun
perbandingan ini telah lebih terbatas kepada koefisienkoefisien diskriminan
yang signifikan.
Dalam menginterpretasi dua fungsi diskriminan atau lebih, seringkali ditemui
persoalan, yaitu : (1) apakah peneliti dapat menyederhanakan koefisien diskriminan
untuk memberikan profil kepada setiap fungsi ? (2) bagaimana peneliti dapat
menjelaskan pengaruh silang variabel bebas pada fungsifungsi diskriminan yang
dihasilkan ? Untuk menjawab persoalan itu, ada tiga teknik yang bisa digunakan,
yaitu : (1) teknik rotasi fungsi, (2) teknik potency index dan (3) teknik grafis untuk
koefisien diskriminan.
(1) Teknik rotasi fungsi diskriminan.
Rotasi fungsi ditujukan untuk melakukan distribusi ulang varians. Teknik rotasi
yang lebih sering digunakan adalah VARIMAX atau disebut sebagai rotasi
orthogonal (dengan sumbusumbu yang tetap 90o, saling tegak lurus) daripada
rotasi oblique (sumbusumbu tidak harus saling tegak lurus), seperti VARTIMAX,
EQUIMAX3. Dengan rotasi ini, maka nilai koefisien diskriminan yang tidak terlalu
3
SPSS memberikan rotasi OBLIMIN, SAS memberikan PROMAX dan ORTHOBLIQUE.
4
Lihat Dillon dan Goldstein.
1 1 50.2 5 8 3 43 2
2 1 70.3 6 7 4 61 3
3 1 62.9 7 5 6 52 3
4 1 48.5 7 5 5 36 1
5 1 52.7 6 6 4 55 3
6 1 75.0 8 7 5 68 3
7 1 46.2 5 3 3 62 2
8 1 57.0 2 4 6 51 2
9 1 64.1 7 5 4 57 3
10 1 68.1 7 6 5 45 3
11 1 73.4 6 7 5 44 3
12 1 71.9 5 8 4 64 3
13 1 56.2 1 8 6 54 2
14 1 49.3 4 2 3 56 3
15 1 62.0 5 6 2 58 3
16 2 32.1 5 4 3 58 1
17 2 36.2 4 3 2 55 1
18 2 43.2 2 5 2 57 2
19 2 50.4 5 2 4 37 2
20 2 44.1 6 6 3 42 2
21 2 38.3 6 6 2 45 1
22 2 55.0 1 2 2 57 2
23 2 46.1 3 5 3 51 1
24 2 35.0 6 4 5 64 1
25 2 37.3 2 7 4 54 1
26 2 41.8 5 1 3 56 2
27 2 57.0 8 3 2 36 2
28 2 33.4 6 8 2 50 1
29 2 37.5 3 2 3 48 1
30 2 41.3 3 3 2 42 1
Keterangan :
Kunjungan wisata = 1, untuk keluarga yang mengunjungi obyek wisata tertentu dalam
dua tahun terakhir, = 2 untuk keluarga yang tidak mengunjungi obyek wisata dalam dua
tahun terakhir.
Pendapatan keluarga/tahun dalam ribuan dollar.
Sikap terhadap perjalanan (skor 1 sampai 9, sangat tidak suka – sangat menyukai).
Pentingnya bagi keluarga (skor 1 sampai 9, sangat tidak penting – sangat penting).
Jumlah anggota keluarga (dalam satuan orang).
Usia kepala keluarga (dalam satuan tahun).
Jumlah pengeluaran untuk wisata (1 = rendah, 2 = moderat, dan 3 = tinggi).
Hasil analisis dengan SPSS Version 12.00 adalah sebagai berikut :
Discriminant
Analysis Case Processing Summary
Unweighted Cases N Percent
Valid 30 100,0
Excluded Missing or out-of-
range group codes 0 ,0
At least one
missing
0 ,0
discriminating
variable
Both missing or
out-of-range group
codes and at least
0 ,0
one missing
discriminating
variable
Total 0 ,0
Total 30 100,0
Group Statistics
Visit Mean Std. Deviation Valid N (listwise)
Unweighted Weighted
1 Income 60,520 9,8307 15 15
Attitude 5,400 1,9198 15 15
Importance 5,800 1,8205 15 15
Hsize 4,333 1,2344 15 15
Age 53,733 8,7706 15 15
2 Income 41,913 7,5511 15 15
Attitude 4,333 1,9518 15 15
Importance 4,067 2,0517 15 15
Hsize 2,800 ,9411 15 15
Age 50,133 8,2710 15 15
Total Income 51,217 12,7952 30 30
Attitude 4,867 1,9780 30 30
Importance 4,933 2,0998 30 30
Hsize 3,567 1,3309 30 30
Age 51,933 8,5740 30 30
Keterangan :
Kode Visit = 1 (keluarga yang melakukan perjalanan ke obyek wisata dalam dua tahun
terakhir).
Mean = ratarata income = 60,520
Std. Deviation = standard deviasi income = 9,8307, dst.
Kode visit = 2 (keluarga yang tidak melakukan perjalanan ke obyek wisata dalam dua tahun
terakhir).
Mean = ratarata income = 41,913
Std. Deviation = standard deviasi income = 7,5511, dst.
Total adalah ratarata dan standard deviasi keseluruhan data.
a
Pooled Within-Groups Matrices
Income Attitude Importance Hsize Age
Covariance Income 76,831 3,350 1,555 ,855 -1,070
Attitude 3,350 3,748 ,317 -,036 -3,252
Importance 1,555 ,317 3,762 ,150 ,288
Hsize ,855 -,036 ,150 1,205 -,402
Age -1,070 -3,252 ,288 -,402 72,667
Correlation Income 1,000 ,197 ,091 ,089 -,014
Attitude ,197 1,000 ,084 -,017 -,197
Importance ,091 ,084 1,000 ,070 ,017
Hsize ,089 -,017 ,070 1,000 -,043
Age -,014 -,197 ,017 -,043 1,000
a
The covariance matrix has 28 degrees of freedom.
Keterangan :
Matriks korelasi dalam kelompok gabungan dihitung dengan meratarata matriks kovarians
yang terpisah untuk seluruh kelompok.
Analysis 1
Summary of Canonical Discriminant Functions
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
1 a
1,786 100,0 100,0 ,801
a
First 1 canonical discriminant functions were used in the analysis.
Keterangan :
Canonical correlation = 0,801 atau 80,10% merupakan ukuran tingkat hubungan antara skor
diskriminan dengan kelompok. Analog dengan R2 pada Analisis Regresi.
Wilks' Lambda
Wilks'
Test of Function(s) Lambda Chi-square df Sig.
1 ,359 26,130 5 ,000
Keterangan :
Wilk’s λ = 0,359 dan signifikan pada α = 0,000 dengan uji χ2 = 26,130. Menunjukkan bahwa
perbedaan ratarata kelompok (centroid) keluarga1 dan keluarga2 berbeda secara
signifikan.
Keterangan :
Fungsi diskriminan yang dihasilkan dalam bentuk standardized coefficient adalah :
Zjk = 0,743 X1k + 0,096 X2k + 0,233 X3k + 0,469 X4k + 0,209 X5k
Di mana,
X1 = family income,
X2 = attitude,
X3 = vacation importance,
X4 = household size,
X5 = age of head of household.
Structure Matrix
Function
1
Income ,822
Hsize ,541
Importance ,346
Attitude ,213
Age ,164
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Classification Statistics
Classification Processing Summary
Processed 30
Excluded Missing or out-of-
range group codes 0
At least one missing
discriminating 0
variable
Used in Output 30
a
Classification Results
Predicted Group
Membership
Visit 1 2 Total
Original Count 1 12 3 15
2 0 15 15
% 1 80,0 20,0 100,0
2 ,0 100,0 100,0
a
90,0% of original grouped cases correctly classified.
Keterangan :
Persentase klasifikasi observasi ke dalam kelompok yang benar = 90,00%. Artinya observasi
dari kelompok1 diprediski sebagai kelompok1, dan observasi dari kelompok2 diprediksi
sebagai kelompok2 = (12 + 15)/30 = 0,9000 atau 90,00%.
Validasi model dengan menggunakan sampel cadangan yang tidak dilibatkan dalam
menghitung koefisien diskriminan (sebanyak 12 buah sampel holdout) dapat dilakukan
dengan menggunakan fungsi disklriminan dalam bentuk unstandardized coefficients.
Territorial map yang dihasilkan dalam validasi ini adalah :
a. hitung Zscore setiap observasi dari sampel cadangan dengan fungsi unstandardized,
hasilnya adalah :
Visit aktual Zscore ZCE* Prediksi visit
1 0.211 0 2
1 2.625 0 1
1 0.913 0 1
1 0.639 0 2
1 2.537 0 1
1 0.9545 0 1
2 1.382 0 2
2 0.039 0 2
2 1.345 0 2
2 0.6 0 2
2 0.4265 0 2
2 1.882 0 2
*
ZCE dihitung sebagai :
ZA + ZB 1,291 + (1,291)
ZCE = = =0
2 2
b. bila Zscore > ZCE, maka observasi terebut diprediksi sebagai kelompok1,
c. bila Zscore < ZCE, maka observasi terebut diprediksi sebagai kelompok2.
a
Classification Results
Predicted Group
Membership
Visit 1 2 Total
Original Count 1 4 2 6
2 0 6 6
% 1 66,67 33,33 100,0
2 ,0 100,0 100,0
a
83,33% of original grouped cases correctly classified.
Dari hasil validasi dengan sampel cadangan, tampak ada penurunan persentase klasifikasi
observasi kepada kelompoknya dengan benar, dari 90,00% menjadi 83,33%. Ini bisa
disebabkan karena ada dua variabel bebas yang tidak signifikan, yaitu : attitude dan age.
Maka beralasan sekali untuk membuat model dengan tiga variabel signifikan saja.
Jika kasus di atas dirubah topiknya, yaitu : apakah yang membedakan pengeluaran
keluarga untuk wisata (family spent) Model implisitnya adalah :
Zjk = a + W1 X1k + W2 X2k + . . . + W5 X5k
Di mana,
Zjk = family spent for vacation dengan tiga katagori : 1 = low, 2 = moderat dan 3 = high,
X1 = family income, X2 = attitude, X3 = vacation importance, X4 = household size, dan
X5 = age of head of household.
Hasil SPSS untuk perubahan topik ini adalah :
Discriminant
Analysis Case Processing Summary
Unweighted Cases N Percent
Valid 30 100,0
Excluded Missing or out-of-range group codes 0 ,0
At least one missing discriminating variable 0 ,0
Both missing or out-of-range group codes and at
least one missing discriminating variable 0 ,0
Total 0 ,0
Total 30 100,0
Group Statistics
Spent Mean Std. Deviation Valid N (listwise)
Unweighted Weighted
1 Income 38,570 5,2972 10 10
Attitude 4,500 1,7159 10 10
Importance 4,700 1,8886 10 10
Hsize 3,100 1,1972 10 10
Age 50,300 8,0973 10 10
2 Income 50,110 6,0023 10 10
Attitude 4,000 2,3570 10 10
Importance 4,200 2,4855 10 10
Hsize 3,400 1,5055 10 10
Age 49,500 9,2526 10 10
3 Income 64,970 8,6143 10 10
Attitude 6,100 1,1972 10 10
Importance 5,900 1,6633 10 10
Hsize 4,200 1,1353 10 10
Age 56,000 7,6012 10 10
Total Income 51,217 12,7952 30 30
Attitude 4,867 1,9780 30 30
Importance 4,933 2,0998 30 30
Hsize 3,567 1,3309 30 30
Age 51,933 8,5740 30 30
Analysis 1
Summary of Canonical Discriminant Functions
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
a
1 3,819 93,9 93,9 ,890
2 a
,247 6,1 100,0 ,445
a
First 2 canonical discriminant functions were used in the analysis.
Keterangan :
Hanya dua buah fungsi diskriminan signifikan yang diperoleh, yaitu fungsi1 dan fungsi2.
Perbandingan eigenvalue, menunjukkan bahwa fungsi1 lebih superior dibanding fungsi2.
Wilks' Lambda
Wilks'
Test of Function(s) Lambda Chi-square Df Sig.
1 through 2 ,166 44,831 10 ,000
2 ,802 5,517 4 ,238
Keterangan :
Fungsi1 memiliki Wilk’s λ = 0,166 dengan probabilitas sig. = 0,000 mengindikasikan bahwa
centroid kelompok1 dan kelompok2 memang berbeda. Sedang fungsi2 memiliki Wilk’s λ =
0,802 dengan probabilitas sig. = 0,238, ini mengindikasikan bahwa centroid kelompok2
tidak berbeda dengan kelompok3.
Dapat disimpulkan bahwa hanya ada dua kelompok saja yang benarbenar berbeda, yaitu
kelompok keluarga dengan pengeluaran (spent) = 1 dan spent = 2.
Structure Matrix
Function
1 2
Income *
,856 -,278
Hsize *
,193 ,077
Attitude *
,219 ,588
Importance *
,149 ,454
Age *
,166 ,341
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
*
Largest absolute correlation between each variable and any discriminant function
Classification Statistics
Classification Processing Summary
Processed 30
Excluded Missing or out-of-
range group codes 0
At least one missing
discriminating 0
variable
Used in Output 30
Territorial Map
Canonical Discriminant Function 2
-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0
.ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòò òòòòô ò
6,0 ô 13 ó
ô ó 13 ó
ó 13 ó
ó 13 ó
ó 13 ó
ó 13 ó
4,0 ô ô ô ô 13 ô ô ô
ó 13 ó
ó 13 ó
ó 13 ó
ó 13 ó
ó 13 ó
2,0 ô ô ô ô13 ô ô ô
ó 1223 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
ó * 12 23 * ó
,0 ô ô ô 12 ô 23 ô ô ô
ó 12 23 ó
ó 12 * 23 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
-2,0ô ô 12ô ô 23ô ô ô
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
-4,0ô ô 12 ô ô ô23 ô ô
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
ó 12 23 ó
-6,0ô 12 23 ô
ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô
-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0
1 1
2 2
3 3
* Indicates a group centroid
a
Classification Results
Predicted Group Membership
Spent 1 2 3 Total
Original Count 1 9 1 0 10
2 1 9 0 10
3 0 2 8 10
% 1 90,0 10,0 ,0 100,0
2 10,0 90,0 ,0 100,0
3 ,0 20,0 80,0 100,0
a
86,7% of original grouped cases correctly classified.
Keterangan :
Hasil validasi model kepada holdout sample menunjukkan tingkat ketepatan klasifikasinya
menurun sebagai berikut :
a
Classification Results
Predicted Group Membership
Spent 1 2 3 Total
Original Count 1 3 1 0 4
2 0 3 1 4
3 1 0 3 4
% 1 75,0 25,0 ,0 100,0
2 ,0 75,0 25,0 100,0
3 25,0 75,0 ,0 100,0
a
75,0% of original grouped cases correctly classified.