Dalam usaha untuk memilih teknik analisis yang tepat seringkali kita mengalami
masalah yang melibatkan jenis variabel dependen berbentuk kategori dan beberapa variabel
independen berbentuk metrik. Contohnya, kita ingin memilih mana risiko kredit yang baik
dari risiko kredit macet. Jika kita memiliki risiko kredit dengan ukuran metrik, maka kita bisa
menggunakan regresi berganda. Namun dalam banyak kasus kita tidak memiliki ukuran
metrik yang diperlukan untuk dianalisis dengan regresi berganda. Sebaliknya kita hanya
mampu memastikan apakah seseorang dalam grup tertentu (misalnya, risiko kredit yang baik
atau buruk).
Analisis Diskriminan adalah salah satu teknik analisa statistika dependensi yang
memiliki kegunaan untuk mengklasifikasikan objek beberapa grup. Pengelompokan dengan
analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang
merupakan variabel independen. Kombinasi linier dari variabel-variabel ini akan membentuk
suatu fungsi diskriminan. Analisis diskriminan adalah teknik multivariate yang termasuk
dependence method, yakni adanya variabel dependen dan variabel independen. Dengan
demikian ada variabel yang hasilnya tergantung dari data variabel independen. Analisis
diskriminan mirip regresi linier berganda (multivariable regression). Perbedaannya analisis
diskriminan digunakan apabila variabel dependennya kategoris (maksudnya kalau
menggunakan skala ordinal maupun nominal) dan variabel independennya menggunakan
skala metric (interval dan rasio). Sedangkan dalam regresi berganda variabel dependennya
harus metric dan jika variabelnya independen, bisa metrik maupun nonmetrik.
Dalam banyak kasus, variabel dependen terdiri dari dua grup atau klasifikasi,
misalnya, laki-laki dibandingkan perempuan atau tinggi dibandingkan rendah. Dalam kasus
lain, lebih dari dua grup terlibat seperti rendah, sedang dan klasifikasi tinggi. analisis
diskriminan mampu menangani baik dua grup atau beberapa (tiga atau lebih) grup. Ketika
melibatkan dua klasifikasi maka teknik ini disebut sebagai analisis diskriminan dua grup.
Ketika melibatkan tiga atau lebih klasifikasi diidentifikasi, teknik ini disebut multiple
diskriminan analisis (MDA).
Model dasar analisis diskriminan mirip regresi berganda. Perbedaannya adalah kalau
variabel dependen regresi berganda dilambangkan dengan Y, maka dalam analisis
diskriminan dilambangkan dengan Z. Model analisis diskriminan adalah sebuah persamaan
yang menunjukkan suatu kombinasi linier dari berbagai variabel independen yaitu :
dimana :
Zjk = skor diskriminan fungsi j untuk obyek k
A = intersep
Wi = bobot diskriminan untuk variable independen i
Xik = variabel independent i untuk obyek k
1
Yang diestimasi adalah koefisien ‘W’, sehingga nilai ‘Z’ setiap grup sedapat mungkin
berbeda. Ini terjadi pada saat rasio jumlah kuadrat antargrup (between group sum of squares)
terhadap jumlah kuadrat dalam grup (within-group sum of square) untuk skor diskriminan
mencapai maksimum. Berdasarkan nilai Z itulah keanggotaan sesorang diprediksi.
Analisis diskriminan merupakan teknik statistic yang sesuai untuk menguji hipotesis
dimana rata – rata grup dari dua atau lebih grup variable independen adalah sama. Dengan
mencari rata – rata skor diskriminan untuk semua individu dalam grup tertentu, akan
diperoleh rata – rata grup yang disebut dengan centroid. Centroid ini menunjukkan lokasi
sejenis dari anggota di dalam suatu grup dan merupakan perbandingan centroid grup yang
menunjukkan seberapa jauh terpisah dari grup terkait dengan fungsi diskriminannya.
Tes untuk signifikansi statistik dari fungsi diskriminan adalah ukuran umum dari jarak
antar grup centroid. Hal ini dihitung dengan membandingkan distribusi skor diskriminan
untuk grup. Jika tingkat tumpang tindih dalam distribusinya kecil maka fungsi diskriminan
akan memisahkan grup dengan baik, jika tingkat tumpang tindihnya besar maka fungsi
diskriminatornya kurang baik antara grup - grup. Dua distribusi skor diskriminan yang
ditunjukkan pada Gambar 1 menggambarkan konsep ini. Diagram atas mewakili distribusi
skor diskriminan untuk fungsi yang memisahkan menunjukkan tumpang tindih yang minimal
(daerah yang diarsir) antara grup. Diagram bawahnya menunjukkan distribusi skor
diskriminan pada fungsi diskriminan yang merupakan discriminator yang relatif tidak baik
antara grup A dan B. Daerah yang diarsir tumpang tindih mewakili contoh di mana
mengklasifikasikan objek dari grup A ke grup B, dan sebaliknya.
Analisis diskriminan beberapa keunikan pada salah satu karakteristik diantara
hubungan ketergantungan. Jika variabel dependen terdiri dari lebih dari dua grup, analisis
akan menghitung lebih dari satu fungsi diskriminan. Berdasar fakta hal itu akan menghitung
fungsi NG - 1, di mana NG adalah jumlah grup. Tiap fungsi diskriminan akan menghitung
diskriminan skor Z secara terpisah. Dalam kasus variabel dependen tiga grup, setiap objek
(perusahaan, responden, dll) akan memiliki nilai yang terpisah untuk fungsi diskriminan satu
dan dua, yang memungkinkan objek yang akan diplot kedalam dua dimensi, dengan masing-
masing dimensi mewakili fungsi diskriminan. Dengan demikian, anaIysis diskriminan tidak
terbatas pada variat tunggal, seperti regresi berganda, tapi menciptakan beberapa variat
mewakili dimensi diskriminasi antara grup-grup.
2
Gambar 1 : Representasi univariat Skor Diskriminan Z
Aplikasi dan interpretasi dari analisis diskriminan sama seperti dalam analisis regresi.
Artinya, fungsi diskriminan adalah kombinasi linear (variat) dari pengukuran metrik untuk
dua atau lebih variabel independen dan digunakan untuk menggambarkan atau memprediksi
variabel dependen tunggal. Perbedaan utamanya adalah bahwa analisis diskriminan cocok
untuk masalah penelitian dimana variabel dependen berjenis kategorikal (nominal atau
nonmetric), sedangkan regresi digunakan ketika variabel dependen adalah metrik. Seperti
yang dibahas sebelumnya, regresi logistik adalah varian dari regresi dengan banyak kesamaan
kecuali untuk jenis variabel dependen. Analisis diskriminan juga dapat dibandingkan dengan
membalik nilai multivariat analysis of varians (MANOVA). Dalam analisis diskriminan,
yang variable dependen tunggalnya berjenis kategori, dan variable independennya metrik.
Sebaliknya, MANOVA melibatkan variabel dependen berbentuk metrik dan independen
variables berbentuk kategori.
Analisis diskriminan berlaku untuk setiap pertanyaan penelitian dengan tujuan memahami
anggota grup yaitu apakah grup terdiri dari individu (misalnya, pelanggan vs yang bukan
pelanggan), perusahaan misalnya, menguntungkan vs tidak menguntungkan), produk
(misalnya, berhasil vs tidak berhasil), atau benda lainnya yang dapat dievaluasi pada
3
serangkaian variables independen. Untuk menggambarkan dasar analisis diskriminan, kita
memeriksa dua pengaturan penelitian yang melibatkan dua grup (pembeli vs bukan pembeli)
dan tiga grup lainnya (tingkat perilaku berpindah / switching).
Misalnya KitchenAid ingin menentukan apakah salah satu dari pengembangan produk baru
mereka yaitu food mixer akan sukses secara komersial. Dalam melaksanakan penyelidikan,
KitchenAid terutama tertarik dalam mengidentifikasi (jika mungkin) konsumen yang akan
membeli produk baru dibandingkan dengan mereka yang non pembeli, dalam terminologi
statistik, KitchenAid ingin meminimalkan jumlah kesalahan itu dalam membuat prediksi
mana konsumen yang akan membeli food mixer dan yang tidak membeli. Untuk membantu
dalam mengidentifikasi calon pembeli, KitchenAid merancang skala penilaian pada tiga
karakteristik yaitu daya tahan, kinerja, dan gaya yang akan digunakan oleh konsumen dalam
mengevaluasi produk baru. Daripada mengandalkan setiap skala sebagai ukuran terpisah,
KitchenAid berharap bahwa kombinasi tertimbang antara ketiganya akan lebih baik dalam
memprediksi kemungkinan pembelian konsumen.
Tujuan utama dari analisis diskriminan adalah untuk mengembangkan kombinasi tertimbang
dari tiga skala untuk memprediksi kemungkinan bahwa konsumen akan membeli produk.
Selain menentukan apakah konsumen yang cenderung untuk membeli produk baru dapat
dibedakan dari mereka yang tidak membeli. KitchenAid juga ingin tahu mana karakteristik
produk barunya yang berguna dalam membedakan pembeli dari non pembeli. Artinya,
evaluasi dari tiga karakteristik dari produk baru mana yang terbaik memisahkan pembeli dari
non pembeli? Misalnya, jika respon “akan membeli" selalu dikaitkan dengan rating daya
tahan tinggi dan respon “tidak akan membeli" selalu dikaitkan dengan rating daya tahan
rendah, KitchenAid bisa menyimpulkan bahwa karakteristik daya tahan membedakan
pembeli dari non pembeli. Sebaliknya, jika KitchenAid menemukan bahwa banyak orang
dengan rating tinggi pada gaya / style mengatakan bahwa mereka akan membeli food mixer
dibanding orang-orang yang mengatakan mereka akan tidak membeli maka gaya adalah
karakteristik pembeda yang buruk antara pembeli dan non pembeli.
Untuk mengidentifikasi variabel yang mungkin berguna dalam membedakan antara grup
(yaitu, pembeli versus non pembeli), penekanan diarahkan pada perbedaan grup daripada
pengukuran dengan korelasi digunakan dalam multiple regresi
Tabel 1 menunjukkan peringkat dari mixer baru pada tiga karakteristik ini (pada harga yang
ditentukan) oleh panel 10 calon pembeli. Dalam rating food mixer, setiap anggota panel
secara implisit membandingkannya dengan produk yang sudah ada di pasaran. Setelah
produk dievaluasi maka evaluator diminta untuk menyatakan niat mereka untuk membeli
(akan membeli atau tidak akan membeli). Lima orang menyatakan bahwa mereka akan
membeli mixer baru dan lima mengatakan mereka tidak akan membeli.
4
Pada tabel 1 diidentifikasi beberapa variabel diskriminatif potensial. Pertama perbedaan
substansial memisahkan peringkat rata-rata XI (daya tahan) untuk grup akan membeli dan
grup tidak akan membeli (7,4 vs 3,2) lalu, daya tahan muncul untuk membedakan dengan
baik antara kedua grup dan cenderung menjadi karakteristik penting untuk potensi pembeli.
Sebaliknya karakteristik gaya (X3) memiliki perbedaan yang jauh lebih kecil dari 0,2 antara
nilai rata-rata (4,0-3,8 = 0,2) untuk grup akan membeli dan grup tidak akan membeli. Oleh
karena itu kami menilai karakteristik ini menjadi kurang diskriminatif dalam hal keputusan
pembelian. Namun, sebelum kita dapat membuat pernyataan meyakinkan seperti itu, kita
harus menguji distribusi skor untuk masing-masing grup. standar penyimpangan besar
dengan tidak ada atau kedua grup mungkin memberi perbedaan antara rata - rata tidak
signifikan dan tidak penting dalam membedakan antar grup.
Karena kita hanya memiliki 10 responden di dua grup dan tiga variabel independen, kami
juga dapat melihat data secara grafis untuk menentukan analisis diskriminan apa yang ingin
dicapai. Gambar 2 menunjukkan 10 responden pada masing-masing tiga variabel. Grup “akan
membeli" diwakili oleh lingkaran dan grup "tidak akan membeli" oleh kotak. nomor
identifikasi responden berada di dalam bentuk.
5
- X2 (Kinerja) memberikan perbedaan antara dua grup yang kurang jelas. Namun, variabel
ini memberikan diskriminasi tinggi untuk responden 5, yang membuat kita salah
mengklasifikasi jika kita hanya menggunakan XI. Selain itu, responden yang akan
membuat kesalahan klasifikasi menggunakan X2 akan terpisahkan dengan jelas dari XI.
Dengan demikian, menggunakan XI dan X2 mungkin cukup efektif dalam kombinasi
untuk memprediksi anggota grup
- X3 (Gaya) menunjukkan sedikit perbedaan antara grup. Jadi, dengan membentuk sebuah
variate dari hanya XI dan X2, dan menghilangkan X3, fungsi diskriminan dapat dibentuk
untuk memaksimalkan terpisahnya grup pada skor diskriminan.
6
- Fungsi diskriminan pertama mengandung hanya X1, menyamakan nilai X1 ke skor Z
diskriminan (juga menyatakan bobot 1,0 untuk X1 dan bobot nol untuk semua variable
lainnya. Seperti telah ditunjukkan sebelumnya, menggunakan hanya X1 sebagai
diskriminator terbaik menghasilkan kesalahan klasifikasi untuk subyek 5 sebagaimana
ditunjukkan dalam table 2. Saat 4 dari 5 subyek dalam grup 1 (semua kecuali subyek 5)
dan 5 dari 5 subyek di grup 2 diklasifikasikan dengan benar (yaitu terletak pada diagonal
matrik klasifikasi). Persentase klasifikasi yang benar mencapai 90% (9 dari 10 subyek)
- Karena X2 memberikan diskriminasi untuk subyek 5, kita dapat membentuk fungsi
diskriminan kedua dengan mengkombinasikan secara sama baik X1 dan X2 (yaitu
menyatakan bobot 1,0 untuk X1 dan X2 serta bobot nol untuk X3) untuk menggunakan
tiap power diskriminator unik variable. Dengan menggunakan skor pemisah 11 dengan
fungsi diskriminan baru ini akan mencapai klasifikasi yang sempurna dari dua grup. Jadi
kombinasi X1 dan X2 dapat memprediksi dengan lebih baik anggota grup daripada
menggunakannya secara terpisah.
- Fungsi diskriminan ketiga pada Tabel 2 menunjukkan fungsi diskriminan yang diestimasi
secara nyata (Z = -4,53 + 0,476X1 + 0,359X2). Berdasarkan skor pemisah = 0 fungsi
ketiga ini mencapai tingkat klasifikasi yang 100% benar dengan pemisahan maksimum
yang mungkin diantara grup.
Dengan contoh sederhana ini analisis diskriminan mengidentifikasi mana variable dengan
perbedaan paling besar diantara grup dan menghasilkan koefisien diskriminan yang memberi
bobot tiap variable untuk merefleksikan perbedaan ini.
7
Representasi Geometrik pada Fungsi Diskriminan Dua Grup
Analisis dua grup melalui ilustrasi secara grafis akan membantu memberi pemahaman atas
dasar- dasar analisis diskriminan. Gambar 3 mendemonstrasikan apa yang terjadi saat fungsi
diskriminan dua grup dihitung.
Asumsikan kita memiliki 2 grup, A dan B dan dua pengukuran, V1 dan V2 untuk tiap
anggota di dalam dua grup. Kita dapat memplot dalam diagram scatter atas asosiasi variable
V1 dan V2 untuk tiap anggota dalam dua grup. Pada gambar 3 titik kecil menunjukkan
pengukuran variable untuk anggota grup B dan titik besar untuk anggota grup A. Lingkaran
elips digambar di sekeliling titik besar dan kecil akan melingkupi beberapa proporsi titik
yang belum terspesifikasi biasanya 95% atau lebih di tiap grup. Jika kita menggambar garis
lurus diantara dua titik dimana elips saling berpotongan dan memprediksi garis ke Z axis baru
dapat kita katakan bahwa overlap antara distribusi univariat A dan B (ditunjukkan dengan
area berbayang) adalah lebih kecil daripada yang dihasilkan dari garis lainnya melalui elips
yang dibentuk oleh scatterplot.
Hal penting yang perlu dicatat tentang gambar 3 adalah Z axis menunjukkan dua variable
profil grup A dan B sebagai nomor tunggal (skor diskriminan) Dengan menemukan
kombinasi linier dari variable awal V1 dan V2 kita dapat memprediksi hasilnya sebagai suatu
fungsi diskriminan.
8
Contoh Tiga Grup Analisis Diskriminan : Keinginan Berpindah
Contoh dua grup hanya mendemonstrasikan secara rasional dan manfaat dengan
mengkombinasikan variable independen ke dalam variat untuk tujuan mendiskriminasi antara
dua grup. Analisis diskriminan juga memiliki alat lain mendiskriminasi yaitu estimasi dan
penggunaan variat yang banyak contohnya tiga atau lebih grup.
Sebagai ilustrasi penggunaan analisis diskriminan tiga grup dipakai penelitian yang dilakukan
HBAT atas kemungkinan pelanggan pesaing berpindah pemasok. Pretest skala kecil meliputi
wawancara dengan 15 pelanggan dari pesaing utama. Dalam wawancara pelanggan ditanya
kemungkinan berpindah pemasok dari 3 kategori skala yaitu “yakin berpindah”, “belum
memutuskan” dan “yakin tidak berpindah”.Pelanggan ditugaskan ke grup 1, 2 dan 3 secara
berurutan tergantung tanggapan mereka. Pelanggan merating pesaing pada 2 karakteristik
yaitu harga kompetitif (X1) dan tingkat pelayanan (X2). Tujuan penelitian menentukan
apakah rating pelanggan pada pesaing dapat memprediksi kemungkinan mereka berpindah
pemasok.
Dengan 3 kategori variable dependen, analisis diskriminan dapat memprediksi dua fungsi
diskriminan masing – masing mewakili dimensi diskriminan yang berbeda.
Tabel 3 mengandung hasil survey dari 15 pelanggan yaitu masing – masing 5 di tiap kategori
dependen variable. Seperti yang sudah kita lakukan di contoh dua-grup sebelumnya, kita
dapat melihat rata – rata skor untuk tiap grup untuk menemukan satu variable diskriminan
yang baik diantara semua grup. Untuk X1 kita lihat perbedaan rata – rata yang besar
dibandingkan grup 1 dan 2 atau 3 (2,0 vs 4,6 atau 3,8). X1 mungkin mendiskriminasi dengan
baik antara grup 1 dan grup 2 atau 3 namun menjadi kurang efektif dalam mendiskriminasi
antara grup 2 dan 3. Untuk X2 kita lihat perbedaan antara grup 1 dan 2 sangat kecil (2,0 vs
2,2) sedangkan perbedaan besar terjadi antara grup 3 dan grup 1 atau 2 (6,2 vs 2,0 atau 2,2).
Jadi X1 membedakan grup 1 dari grup 2 dan 3 sedangkan X2 membedakan grup 3 dari grup 1
dan 2. Hasilnya kita lihat X1 dan X2 memberikan dimensi diskriminasi yang berbeda antar
grup.
9
Menghitung Dua Fungsi Diskriminan
Untuk mengilustrasikan dimensi ini secara grafis, gambar 4 melukiskan 3 grup pada masing –
masing variable independen secara terpisah. Dengan melihat anggota grup pada tiap variable
dapat kita temukan tidak ada variable diskriminan yang baikdiantara semua grup. Namun jika
kita membentuk dua fungsi diskriminan sederhana menggunakan bobot sederhana 0 atau 1,
hasilnya menjadi lebih jelas. Secara matematis dapat ditulis sebagai berikut :
Dengan dua fungsi kita dapat menghitung dua skor diskriminan untuk tiap responden. Lebih
jauh, dua fungsi diskriminan memberikan suatu dimensi diskriminasi. Gambar 4 juga
mengandung plot tiap responden dalam representasi dua dimensi. Pemisahan antar grup kini
menjadi lebih jelas dan tiap grup dapat dengan mudah dibedakan. Kita dapat memberinilai
10
untuk tiap dimensi yang akan menentukan region yang terdiri dari tiap grup. Tiap grup lain
dapat ditentukan serupa terkait jarak skor fungsi diskriminan mereka.
11
(1) Menentukan apakah perbedaan yang terjadi antara profil skor rata – rata pada suatu
perangkat variable untuk dua atau lebih grup a priori signifikan secara statistic
(2) Menentukan manakah variable independen yang paling memberi perbedaan dalam
profil skor rata – rata pada dua atau lebih grup.
(3) Membangun jumlah dan komposisi dari dimensi diskriminasi antara grup yang
dibentuk dari seperangkat variable independen
(4) Membangun prosedur untuk mengklasifikasikan obyek (individu, perusahaan, produk,
dll) ke dalam grup menurut dasar skornya pada seperangkat variable independen.
Untuk melakukan analisis diskriminan pertama – tama peneliti harus menentukan mana
variable yang menjadi independen dan mana yang menjadi dependen. Ingat bahwa bahwa
variable dependen berbentuk nonmetrik dan independen variable berbentuk metrik.
Variabel Dependen
Peneliti pertama kali harus focus pada variable dependen. Jumlah grup variable dependen
(kategori) dapat dua atau lebih dan dua grup ini harus mutually exclusive dan exhaustive.
12
Secara teori, analisis diskriminan dapat menangani jumlah kategori tak terbatas dari variable
dependen. Secara praktek, peneliti harus memilih variable dependen dan jumlah kategori
berdasar pertimbangan berikut :
(1) Kategori dependen variable harus berbeda dan unik pada variable independen yang telah
dipilih. Analisis diskriminan mengasumsikan tiap grup seharusnya memiliki profil
unikpada variable independen yang dipakai dan mengembangkan fungsi diskriminan
untuk memaksimalkan pemisahan grup berdasar variable ini.
(2) Peneliti juga harus berusaha semua hal harus sama dengan jumlah kategori pada variable
dependen yang lebih kecil dibanding yang lebih besar. Terlihat logis untuk memperluas
jumlah kategori untuk mencari lebih banyak mengelompokan yang unik namun
memperluas jumlah kategori membuat kegiatab profiling dan tugas mengelompokkan
analisis diskriminan menjadi lebih kompleks.
Ketika tiga atau lebih kategori diciptakan, kemungkinan timbul pemeriksaan hanya kelompok
ekstrim dalam analisis diskriminan dua kelompok. pendekatan polar extremes
membandingkan hanya ekstrim dua kelompok dan tidak termasuk kelompok menengah dari
analisis diskriminan. Misalnya, peneliti bisa memeriksa pengguna ringan dan pengguna
berat minuman cola dan belum termasuk pengguna menengah. Pendekatan ini dapat
digunakan setiap saat peneliti ingin meneliti hanya kelompok ekstrim. Namun, peneliti juga
mungkin ingin mencoba pendekatan ini ketika hasil dari analisis regresi yang tidak baik
seperti yang diharapkan.
Independent Variabel
13
Setelah keputusan telah dibuat pada variabel dependen, peneliti harus menentukan variabel
independen yang akan disertakan dalam analisis. variabel independen biasanya dipilih
dalam dua cara. Pendekatan pertama mengidentifikasi variabel baik dari penelitian
sebelumnya atau dari model teoritis yang merupakan dasar yang mendasari pertanyaan
penelitian. Pendekatan kedua adalah intuisi-memanfaatkan pengetahuan peneliti dan intuitif
memilih variabel yang tidak ada penelitian sebelumnya atau teori ada tapi itu secara logis
mungkin terkait dengan memprediksi kelompok untuk variabel dependen.
Sampel
Ukuran sampel harus cukup besar untuk:
Memiliki setidaknya satu pengamatan per kelompok dari jumlah variabel independen,
tetapi berjuang untuk setidaknya 20 penyebab per grup
Memaksimalkan jumlah pengamatan per variabel, dengan rasio minimal lima
obersavations per variabel independen
Memiliki cukup besar sampel untuk membaginya menjadi estimasi dan
ketidaksepakatan sampel, setiap pertemuan persyaratan di atas
14
Multikolinearitas antara variabel independen nyata dapat mengurangi perkiraan
dampak variabel independen dalam fungsi diskriminan yang berasal (s), terutama
jika proses estimasi bertahap digunakan.
Signifikansi Statistik
Secara keseluruhan signifikansi
Dalam menilai signifikansi statistik dari model keseluruhan, kriteria statistik yang berbeda
berlaku untuk simultan terhadap prosedur estimasi bertahap. Dalam kedua situasi, uji
statistik berhubungan dengan kemampuan fungsi diskriminan untuk mendapatkan skor Z
diskriminan dari berbeda secara signifikan antara kelompok.
Simultan Estimation
Ketika estimasi simultan digunakan, langkah-langkah dari Wilks lambda, jejak Hotelling, dan
kriteria Pillai semua mengevaluasi signifikansi statistik te dari kekuatan diskriminatif dari
fungsi diskriminan.
Stepwise Estimation
Jika metode stepwise digunakan untuk memperkirakan fungsi diskriminan, yang
Mahalanobis D2 dan langkah-langkah V Rao adalah yang paling tepat. Kedua adalah
ukuran jarak umum.
15
Seperti dibahas sebelumnya, skor Z diskriminan dari fungsi diskriminan dapat dihitung untuk
setiap observasi dengan rumus berikut:
a = intercept
Mengingat bahwa variabel dependen adalah nonmetric, tidak mungkin untuk menggunakan
ukuran seperti R2, seperti yang dilakukan di regresi berganda, untuk menilai akurasi
prediksi. Sebaliknya, setiap pengamatan harus dinilai apakah itu benar diklasifikasikan.
Dalam melakukannya, beberapa pertimbangan utama harus dilakukan adalah:
16
Perhitungan Skor pemotongan
Seperti disebutkan sebelumnya, menggunakan fungsi diskriminan adalah hanya salah satu
dari dua pendekatan yang mungkin untuk klasifikasi. Pendekatan kedua menggunakan
fungsi klasifikasi. Dalam metode ini klasifikasi, nilai-nilai pengamatan untuk variabel
independen yang dimasukkan dalam fungsi klasifikasi dan skor klasifikasi untuk masing-
masing kelompok dihitung untuk observasi itu.
Dengan ukuran kelompok yang tidak sama, skor pemotongan optimal untuk fungsi
diskriminan sekarang rata-rata tertimbang dari centroid kelompok. Skor pemotongan
tertimbang terhadap kelompok yang lebih kecil, mudah-mudahan membuat untuk klasifikasi
yang lebih baik dari kelompok yang lebih besar.
Jika kelompok ditentukan untuk menjadi ukuran yang sama, maka skor pemotongan
optimum akan setengah jalan antara centrois dua kelompok dan menjadi hanya rata-rata
dari dua centroid:
17
Kedua rumus untuk menghitung skor pemotongan optimal menganggap bahwa distribusi
adalah normal dan struktur dispersi kelompok yang dikenal.
Konsep skor pemotongan optimal untuk kelompok yang sama dan tidak sama diilustrasikan
pada Gambar 7 dan 8, masing-masing. Baik tertimbang dan skor pemotongan tertimbang
yang akan ditampilkan. Hal ini jelas bahwa jika kelompok A jauh lebih kecil dari kelompok B,
skor pemotongan yang optimal akan lebih dekat dengan pusat massa dari kelompok A
daripada ke pusat massa dari kelompok B. Juga, jika skor pemotongan unweighted
digunakan, tidak ada benda-benda di grup A akan kesalahan klasifikasi, tetapi sebagian
besar dari mereka dalam kelompok B akan kesalahan klasifikasi.
Costs of Misclassification
Dalam prakteknya, ketika menghitung skor cutting, tidak perlu untuk memasukkan
pengukuran variabel baku untuk setiap individu ke dalam fungsi diskriminan dan untuk
mendapatkan skor diskriminan untuk setiap orang untuk digunakan dalam menghitung Za
dan Zb. Program komputer akan memberikan skor diskriminan serta Za dan Zb sebagai
output biasa. Ketika peneliti memiliki centroid kelompok dan ukuran sampel, cam skor
pemotongan optimal diperoleh hanya dengan mengganti nilai-nilai ke dalam rumus yang
tepat
18
Membangun Klasifikasi Matriks.
Untuk memvalidasi fungsi diskriminan melalui penggunaan matriks klasifikasi, sampel harus
secara acak dibagi menjadi dua kelompok . Salah satu kelompok (sampel analisis) digunakan
untuk menghitung fungsi diskriminan. Kelompok lain (ketidaksepakatan atau sampel
validasi) disimpan untuk digunakan dalam mengembangkan klasifikasi matriks. Klasifikasi
dari setiap observasi dapat dicapai melalui pendekatan yang dibahas pad klasifikasi
sebelumnya. Untuk pendekatan Fisher, observasi diklasifikasikan ke dalam kelompok dengan
skor terbesar dari fungsi klasifikasi. Bila menggunakan skor diskriminan dan skor
pemotongan optimal, prosedurnya adalah sebagai berikut:
Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks, seperti yang ditunjukkan pada Tabel 4.
Entri pada diagonal matriks tersebut merupakan jumlah individu yang diklasifikasikan dengan benar.
Nomor dari diagonal mewakili klasifikasi yang salah. Entri di bawah kolom berlabel "Actual Gruop
Size" merupakan jumlah individu sebenarnya di masing-masing pada dua kelompok. Entri di bagian
bawah kolom merupakan jumlah individu yang ditugaskan untuk kelompok dengan fungsi
diskriminasi. Persentase diklasifikasikan dengan benar untuk setiap kelompok ditampilkan di sisi
kanan matrix, dan persentase keseluruhan diklasifikasikan dengan benar, juga dikenal sebagai rasio
19
hit, ditampilkan di bagian bawah.
Dalam contoh kita, jumlah orang benar ditugaskan untuk kelompok 1 adalah 22, sedangkan 3
anggota kelompok 1 yang tidak benar ditugaskan untuk kelompok 2. Demikian pula, jumlah
klasifikasi yang benar untuk kelompok 2 adalah 20, dan jumlah tugas yang salah ke grup 1 adalah 5.
Jadi, persentase akurasi klasifikasi fungsi diskriminan untuk kelompok yang sebenarnya 1 dan 2
adalah masing-masing 88 dan 80 persen. Akurasi klasifikasi keseluruhan (rasio hit) adalah 84 persen.
Salah satu topik akhir mengenai prosedur klasifikasi adalah uji t yang tersedia untuk menentukan
tingkat signifikansi untuk akurasi klasifikasi. Rumus untuk analisis dua kelompok (ukuran sampel
yang sama) adalah
Dimana :
Formula ini dapat diadaptasi untuk digunakan dengan lebih kelompok dan ukuran sampel yang tidak
sama.
Seperti disebutkan sebelumnya, akurasi prediksi dari fungsi diskriminan diukur dengan rasio hit yang
diperoleh dari matriks klasifikasi. Peneliti mungkin bertanya, Apa yang dianggap tingkat yang dapat
diterima dari akurasi prediktif untuk fungsi diskriminan? Misalnya, 60 persen tingkat yang dapat
diterima, atau harus berharap untuk mendapatkan 80 sampai 90 persen akurasi prediksi? T
menjawab pertanyaan ini, peneliti harus terlebih dahulu menentukan persentase yang bisa
diklasifikasikan dengan benar secara kebetulan (tanpa bantuan fungsi diskriminan).
• Standar Perbandingan untuk Ratio Hit untuk Equal Grup Ukuran. Ketika ukuran sampel dari
kelompok sama, penentuan klasifikasi kesempatan agak sederhana; diperoleh dengan membagi 1
dengan jumlah kelompok. Rumusnya adalah:
20
Misalnya, untuk dua kelompok fungsi probabilitas kesempatan akan .50 ; untuk fungsi tiga kelompok
probabilitas kesempatan akan .33 ; dan seterusnya.
Standar Perbandingan untuk Ratio Hit untuk tidak merata Grup ukuran. Penentuan klasifikasi
kesempatan untuk situasi di mana ukuran kelompok tidak sama agak lebih terlibat. Haruskah kita
menganggap hanya kelompok terbesar saja,atau probabilitas gabungan dari semua kelompok
ukuran yang berbeda, atau adakah standar lainnya? Mari kita asumsikan bahwa kita memiliki sampel
total 200 observasi dibagi menjadi ketidaksepakatan dan analisis sampel dari 100 observasi. Dalam
sampel ketidaksepakatan, 75 mata pelajaran milik satu kelompok dan 25 yang lain. Kami akan
memeriksa cara yang mungkin di mana kita dapat membangun standar untuk perbandingan dan apa
yang mewakili masing-masing.
* Yang dimaksud dengan kriteria kesempatan maksimal, kita sewenang-wenang dapat menetapkan
semua mata pelajaran untuk kelompok terbesar. Kriteria kesempatan yang maksimal sebaiknya
digunakan ketika satu-satunya tujuan dari analisis diskriminan adalah untuk memaksimalkan
persentase diklasifikasikan dengan benar [13]. Itu juga merupakan standar yang paling konservatif
karena akan menghasilkan standar tertinggi dari perbandingan. Namun, kita hanya focus pada
memaksimalkan persentase yang diklasifikasikan. Biasanya peneliti menggunakan analisis
diskriminan untuk mengidentifikasi anggota dari semua kelompok. Dalam kasus di mana ukuran
sampel yang tidak sama dan peneliti ingin mengklasifikasikan anggota dari semua kelompok, fungsi
diskriminan menentang peluang dengan mengelompokkan subjek dalam kelompok yang lebih kecil.
Kriteria kesempatan maksimum tidak mengambil fakta ini [13].
Dalam contoh sederhana, dari sampel dengan dua kelompok (75 dan 25 orang), metode ini akan
digunakan untuk menetapkan 75 persen akurasi dari tiap klasifikasi, yang akan dicapai dengan
mengklasifikasikan orang ke dalam kelompok terbesar tanpa bantuan fungsi diskriminan. Dapat
disimpulkan bahwa memang fungsi diskriminan mencapai akurasi klasifikasi yang lebih tinggi dari 75
persen, itu harus diabaikan karena belum membantu untuk meningkatkan akurasi prediksi, kita bisa
mencapai tanpa menggunakan analisis diskriminan sama sekali.
* Ketika ukuran kelompok tidak sama dan peneliti ingin mengidentifikasi anggota semua kelompok,
bukan hanya kelompok terbesar, kriteria kesempatan proporsional dianggap pilihan yang paling
tepat. Rumus untuk kriteria ini adalah :
Dimana :
Menggunakan ukuran kelompok dari contoh kita sebelumnya (75 dan 25), kita melihat bahwa
kriteria kesempatan proporsional akan 62,5 persen [0,752 + (1.0 -0.75)2 = 0,625] dibandingkan
dengan 75 persen. Oleh karena itu, dalam hal ini, akurasi prediksi yang sebenarnya dari 75 persen
mungkin dapat diterima karena berada di atas kriteria kesempatan proporsional 62,5 persen.
21
• Masalah baik dengan kesempatan maksimum atau atau kriteria kesempatan proporsional adalah
ukuran sampel yang digunakan untuk menghitung standar. Apakah Anda menggunakan ukuran
kelompok dari keseluruhan sampel, sampel analisis/estimasi, atau validasi / sampel
ketidaksepakatan? Beberapa saran:
• Jika ukuran sampel analisis dan estimasi sampel masing-masing dianggap cukup besar (yaitu,
jumlah sampel sebanyak 100 dengan masing-masing kelompok memiliki setidaknya 20 kasus),
buat standar terpisah untuk masing-masing sampel
• Jika sampel terpisah tidak dianggap cukup besar, gunakan ukuran kelompok dari total sampel
dalam menghitung standar.
• Perhatikan ukuran kelompok berbeda antara sampel bila menggunakan kriteria kesempatan
maksimal karena tergantung pada ukuran kelompok terbesar. Pedoman ini terutama ketika
ukuran sampel kecil atau ketika kelompok ukuran proporsi sangat bervariasi dari sampel ke
sampel. Ini adalah alasan lain untuk berhati-hati dalam penggunaan kriteria kesempatan
maksimal.
• Kriteria Model kesempatan berguna hanya jika dihitung dengan sampel ketidaksepakatan
(pendekatan split-sampel). Jika individu yang digunakan dalam menghitung fungsi diskriminan
adalah orang-orang yang diklasifikasikan, hasilnya akan bias ke atas dalam akurasi prediksi. Dalam
kasus tersebut, kedua kriteria ini harus disesuaikan ke atas untuk memperhitungkan bias ini.
Misalnya, jika akurasi kesempatan adalah 50 persen, akurasi klasifikasi harus 62,5 persen (62,5% =
1,25 x 50%). Jika akurasi kesempatan adalah 30 persen, akurasi klasifikasi harus 37,5 persen (37,5% =
1,25 x 30%).
Kriteria ini hanya menyediakan perkiraan kasar dari tingkat akurasi prediksi. Kriteria ini mudah
digunakan untuk menerapkan dengan kelompok-kelompok dengan ukuran yang sama. Dengan
kelompok ukuran yang tidak sama, batas atas tercapai ketika model kesempatan maksimum
digunakan untuk menentukan akurasi kesempatan. Itu tidak terlalumasalah, namun, karena dalam
berbagai situasi, model kesempatan maksimum tidak akan digunakan dengan ukuran kelompok yang
tidak sama.
22
Secara keseluruhan Versus Rasio Hit Group-Spesifik. Untuk saat ini, kami fokus pada evaluasi
semua rasio hit di semua kelompok dalam menilai akurasi prediksi dari analisis diskriminan. Peneliti
juga harus mencermati rasio hit (persen yanf diklasifikasikan dengan benar) untuk masing-masing
kelompok yang terpisah. Jika Anda fokus hanya pada rasio hit keseluruhan, ada kemungkinan bahwa
satu atau lebih grup kelompok, terutama yang lebih kecil, mungkin memiliki rasio hit tidak dapat
diterima sedangkan rasio hit keseluruhan tidak bisa diterima. Peneliti harus mengevaluasi rasio hit
masing-masing kelompok dan menilai apakah analisis diskriminan memberikan tingkat yang
memadai akurasi prediksi baik di tingkat keseluruhan sebagai untuk setiap kelompok.
Statistik Berdasarkan Ukuran Klasifikasi Akurasi Relatif Sampai Kesempatan. Sebuah uji statistik
untuk kekuatan diskriminatif dari matriks klasifikasi bila dibandingkan dengan model peluang adalah
Press’s Q Statistic. Ukuran sederhana ini membandingkan jumlah klasifikasi yang benar dengan total
ukuran sampel dan jumlah kelompok. Nilai dihitung kemudian dibandingkan dengan nilai kritis (nilai
chi-square 1 untuk derajat kebebasan pada tingkat kepercayaan yang diinginkan). Jika melebihi nilai
kritis ini, maka matriks klasifikasi dapat dianggap lebih baik dari statistik kesempatan. Q statistik
dihitung dengan rumus berikut :
Dimana :
Misalnya Tabel 4, Q statistik akan didasarkan pada sampel total N = 50, n = 42 observasi
diklasifikasikan dengan benar, dan K = 2 kelompok. Statistik dihitung akan menjadi:
Nilai kritis pada tingkat signifikansi 0,01 adalah 6,63. Dengan demikian, kita dapat menyimpulkan
bahwa dalam contoh prediksi secara signifikan lebih baik daripada kesempatan, yang akan memiliki
tingkat klasifikasi yang benar dari 50 persen.
Tes sederhana ini sensitif terhadap ukuran sampel; sampel besar lebih mungkin untuk
menunjukkan signifikansi dari ukuran sampel kecil dari tingkat klasifikasi yang sama.
Sebagai contoh, jika ukuran sampel meningkat menjadi 100 pada contoh dan tingkat klasifikasi
tetap pada 84 persen, Q statistik meningkat menjadi 46,24. Jika ukuran sampel meningkat menjadi
200, namun tetap memiliki tingkat klasifikasi 84 persen, Q statistik meningkatkan lagi menjadi 92,48.
Tetapi jika ukuran sampel hanya 20 dan tingkat kesalahan klasifikasi masih 84 persen (17 prediksi
yang benar), Q statistik hanya akan 9,8. Dengan demikian, memeriksa Q statistik dalam
peningkatanukuran sampel akan meningkatkan Q statistik bahkan untuk tingkat klasifikasi yang sama
secara keseluruhan.
23
Bagaimanampun harus berhati-hati dalam menarik kesimpulan hanya berdasarkan statistik ini,
karena ketika ukuran sampel menjadi lebih besar, tingkat klasifikasi yang lebih rendah masih akan
dianggap signifikan.
Diagnostik Casewise
Sarana final menilai model fit adalah untuk menguji hasil prediksi atas dasar kasus per kasus.
Serupa dengan analisis residual regresi ganda, tujuannya adalah untuk memahami (1) kesalahan
klasifikasi dan (2) tidak mewakili anggota kelompok yang tersisa. Meskipun matriks klasifikasi
memberikan akurasi klasifikasi secara keseluruhan, itu tidak detail hasil kasus individu. Bahkan jika
kita dapat menunjukkan kasus-kasus yang benar dari salah diklasifikasikan, kita masih membutuhkan
ukuran kesamaan pengamatan terhadap sisa kelompok.
Profil dari Variabel Independen. Memeriksa kasus ini pada variabel independen dapat
mengidentifikasi tren nonlinear atau hubungan lain yang patut atau atribut yang menyebabkan
kesalahan klasifikasi tersebut. Beberapa teknik yang tepat khususnya dalam analisis diskriminan:
• Sebuah representasi grafis dari pengamatan mungkin pendekatan yang paling sederhana dan
efektif untuk memeriksa karakteristik pengamatan, terutama pengamatan kesalahan klasifikasi.
Pendekatan yang paling umum adalah untuk plot pengamatan berdasarkan skor Z diskriminan
mereka dan menggambarkan tumpang tindih antara kelompok-kelompok dan kasus kesalahan
klasifikasi. Jika dua atau lebih fungsi yang mempertahankan poin pemotongan yang optimal dapat
digambarkan untuk memberikan apa yang dikenal sebagai peta territori 1 menggambarkan daerah
sesuai dengan masing-masing kelompok.
• Merencanakan pengamatan individu bersama dengan centroid kelompok, seperti yang dibahas
sebelumnya, menunjukkan tidak hanya karakteristik kelompok umum digambarkan dalam centroid,
tetapi juga variasi dalam anggota kelompok. Hal ini analog dengan daerah yang ditetapkan dalam
contoh tiga kelompok di awal bab ini, di mana pemotongan nilai pada kedua fungsi daerah yang
sudah ditentukan sesuai dengan prediksi klasifikasi untuk masing-masing kelompok.
24
• Sebuah penilaian empiris langsung dari kesamaan pengamatan terhadap anggota kelompok
lainnya dapat dilakukan dengan mengevaluasi jarak Mahalanobis D2 observasi ke centroid
kelompok. Berdasarkan set variabel independen, pengamatan lebih dekat ke pusat massa memiliki
lebih kecil Mahalanobis D2 dan diasumsikan lebih mewakili kelompok daripada mereka lebih jauh.
• Ukuran empiris harus dikombinasikan dengan analisis grafis, namun, karena meskipun nilai
Mahalanobis D2 besar tidak menunjukkan pengamatan yang cukup berbeda dari centroid kelompok,
itu tidak selalu menunjukkan kesalahan klasifikasi. Misalnya, dalam situasi dua kelompok, anggota
kelompok A dapat memiliki besar jarak pada Mahalanobis D2,ini menunjukkan kurang perwakilan
kelompok. Namun, jika jarak yang jauh dari pusat massa kelompok B, maka akan benar-benar
meningkatkan kesempatan klasifikasi yang benar, meskipun kurang perwakilan kelompok. Sebuah
jarak yang lebih kecil yang menempatkan sebuah pengamatan antara dua centroid mungkin akan
memiliki kemungkinan lebih rendah dari klasifikasi yang benar, meskipun itu lebih dekat ke pusat
massa kelompoknya daripada situasi sebelumnya.
RULES OF THUMB 3
Menilai Model Fit dan Akurasi prediktif
• Klasifikasi matriks dan rasio hit mengganti R2 sebagai ukuran model fit:
• Menilai rasio hit baik secara keseluruhan dan kelompok
• Jika estimasi dan analisis sampel kedua melebihi 100 kasus dan masing-masing
kelompok melebihi 20 kasus, standar terpisah untuk masing-masing sampel; jika tidak
demikian menggunakan standar tunggal dari keseluruhan sampel
• Beberapa kriteria digunakan untuk perbandingan dengan rasio hit:
• Kriteria kesempatan maksimum untuk mengevaluasi rasio hit adalah yang paling
konservatif, memberikan t melebihi nilai dasar tertinggi
• Berhati-hati dalam menggunakan kriteria kesempatan maksimum dalam situasi
dengan sampel secara keseluruhan sdari 100 dan / atau kelompok ukuran di bawah 20
• Kriteria kesempatan proporsional menganggap semua kelompok dalam menetapkan
standar perbandingan adalah yang paling populer
• sebenarnya prediksi akurasi (rasio hit) melebihi nilai apapun kriteria y setidaknya
nilai t adalah 25 persen
• Menganalisis pengamatan kesalahan klasifikasi baik grafis (peta wilayah) dan secara
empiris (Mahalanobis D2)
Meskipun tidak ada analisis spesifik yang ditetapkan, seperti yang ditemukan dalam regresi
berganda, peneliti didorong untuk mengevaluasi ases kesalahan klasifikasi ini dari beberapa
perspektif dalam upaya untuk mengungkap fitur unik yang mereka pegang dibandingkan dengan
anggota kelompok mereka yang lain.
Jika fungsi diskriminan signifikan secara statistik dan akurasi klasifikasi diterima, peneliti
harus fokus pada pembuatan penafsiran substantif temuan. Proses ini melibatkan pada pemeriksaan
25
fungsi diskriminan untuk menentukan kepentingan relatif dari masing-masing variabel independen
antar kelompok. Tiga metode penentuan kepentingan relatif telah diusulkan:
1. bobot diskriminan yang ter-standardized
2. beban diskriminan (korelasi struktural)
3. nilai F parsial
Bobot diskriminan
Pendekatan tradisional untuk menafsirkan fungsi diskriminan adalah dengan meneliti tanda
dan besarnya bobot diskriminan standar (juga disebut sebagai koefisien diskriminan), masing-masing
variabel ditugaskan dalam menghitung fungsi diskriminan. Ketika tanda diabaikan, masing-masing
berat menunjukkan kontribusi relatif dari variabel yang terkait dengan fungsi itu. Variabel bebas
dengan bobot yang relatif lebih besar lebih berkontribusi untuk kekuatan diskriminatif dari fungsi
daripada variabel dengan bobot yang lebih kecil. Tanda hanya menunjukkan kontibusi variabel baik
positif atau kontribusi negatif [3].
Penafsiran bobot diskriminan analog dengan penafsiran bobot beta dalam analisis regresi
dan karena itu tunduk pada kritik yang sama. Misalnya, berat badan kecil mungkin menunjukkan
dengan baik bahwa variabel yang sesuai adalah tidak relevan dalam menentukan hubungan atau
yang telah parsial dari hubungan karena tingginya tingkat multikolinearitas. Masalah lain dengan
penggunaan bobot diskriminan adalah bahwa mereka tunduk pada ketidakstabilan yang cukup.
Masalah-masalah ini menyarankan hati-hati dalam menggunakan bobot untuk menafsirkan hasil
analisis diskriminan.
Beban diskriminan
Beban diskriminan, kadang-kadang disebut sebagai korelasi struktur, semakin digunakan sebagai
dasar untuk interpretasi karena kekurangan dalam memanfaatkan bobot. Mengukur korelasi linear
sederhana antara masing-masing variabel independen dan fungsi diskriminan, loadings diskriminan
mencerminkan varians bahwa variabel independen berbagi dengan fungsi diskriminan. Dalam hal itu
mereka dapat ditafsirkan seperti beban faktor dalam menilai kontribusi relatif dari masing-masing
variabel independen untuk fungsi diskriminan.
Salah satu karakteristik unik dari beban adalah bahwa beban dapat dihitung untuk semua
variabel, apakah mereka digunakan dalam estimasi fungsi diskriminan atau tidak. Aspek ini sangat
berguna ketika prosedur estimasi bertahap digunakan dengan beberapa variabel yang tidak
termasuk dalam fungsi diskriminan. Daripada itu, harus ada cara untuk memahami dampaknya
relatif mereka, beban memberikan efek relatif dari setiap variabel pada ukuran umum.
Dengan beban, pertanyaan utama adalah: apakah nilai beban yang mencapai titik imbang
diskriminator substantif patut dicatat? Dalam kedua analisis diskriminan simultan atau bertahap,
variabel yang menunjukkan loading dari ± 0,40 atau lebih tinggi, dianggap substantif. Dengan
prosedur bertahap, penentuan ini lengkap karena teknik mencegah variabel tidak signifikan tidak
memasuki fungsi. Namun, multikolinearitas dan faktor lainnya mungkin menghalangi variabel
memasuki persamaan, yang tidak selalu berarti bahwa itu tidak memiliki pengaruh besar.
Beban diskriminan (seperti bobot) mungkin akan dikenakan ketidakstabilan. Beban dianggap relatif
lebih valid dari bobot sebagai sarana intepreting kekuatan diskriminatif variabel independen karena
26
sifat korelasional mereka. Peneliti masih harus berhati-hati ketika menggunakan beban untuk
menafsirkan fungsi diskriminan.
Nilai F parsial
ROTASI DARI FUNGSI DISKRIMINAN Setelah fungsi diskriminan dikembangkan, mereka dapat diputar
untuk mendistribusikan varians. Pada dasarnya, rotasi mempertahankan struktur asli dan keandalan
solusi diskriminan sementara membuat fungsi lebih mudah untuk menafsirkan secara substantif.
Dalam kebanyakan kasus, rotasi varimax digunakan sebagai dasar untuk rotasi.
POTENSI INDEX Sebelumnya, kita bahas dengan menggunakan bobot standar atau beban
diskriminan sebagai ukuran kontribusi variabel untuk fungsi diskriminan ketika dua atau lebih fungsi
muncul. Namun, suatu ukuran gabungan atau ringkasan berguna dalam menggambarkan kontribusi
dari variabel di semua fungsi yang signifikan. Potensi Index adalah ukuran relatif antara semua
variabel dan merupakan indikasi dari kekuatan diskriminatif ari masing-masing variabel ini [14],
termasuk juga kontribusi dari variabel ke fungsi diskriminan (diskriminan loading) dan kontribusi
relatif dari fungsi untuk solusi secara keseluruhan (ukuran relatif antara fungsi berdasarkan nilai
eigen). hanya komposit jumlah dari indeks potensi individu di semua fungsi diskriminan yang
signifikan. Interpretasi dari ukuran gabungan terbatas, namun, dengan kaki yang berguna hanya
dalam menggambarkan posisi relatif (seperti urutan peringkat) dari masing-masing variabel, dan
biaya mutlak tidak memiliki arti sebenarnya. Indeks potensi dihitung dengan proses dua langkah:
Langkah 1: Hitung nilai potensi dari setiap variabel untuk setiap fungsi signifikan. Pada langkah
pertama, kekuatan diskriminatif dari variabel, yang diwakili oleh nilai kuadrat pemuatan diskriminan
unrotated, adalah "tertimbang" oleh kontribusi relatif dari fungsi diskriminan untuk solusi secara
keseluruhan. Nilai eigen relating untuk masing-masing fungsi diskriminan signifikan hanya dihitung
sebagai:
27
Nilai potensi masing-masing variabel i pada fungsi j:
Langkah 2: Hitung indeks potensi komposit di semua fungsi yang signifikan. Setelah nilai potensi
telah dihitung untuk setiap fungsi, indeks potensi komposit untuk masing-masing variabel dihitung
sebagai:
Indeks potensi sekarang merupakan efek diskriminatif total variabel di semua fungsi diskriminan
signifikan. Hanya ukuran relatif, bagaimanapun, dan nilai mutlak memiliki makna substantif. Contoh
menghitung indeks potensi disediakan dalam contoh kelompok tiga untuk analisis diskriminan.
Teritorial Peta. Metode grafis yang paling umum adalah peta wilayah, di mana masing-masing
pengamatan diplot dalam tampilan grafis berdasarkan skor fungsi Z diskriminan dari pengamatan.
Sebagai contoh, asumsikan bahwa analisis diskriminan tiga kelompok memiliki dua signifikan fungsi
diskriminan. Sebuah peta wilayah dibuat dengan memplot nilai Z diskriminan setiap pengamatan
untuk fungsi diskriminan pertama pada sumbu X dan skor untuk fungsi diskriminan kedua pada
sumbu Y.
28
luar batas-batas kesalahan klasifikasi. Kasus kesalahan klasifikasi memungkinkan untuk menilai mana
fungsi diskriminan yang paling bertanggung jawab atas kesalahan klasifikasi serta sejauh mana kasus
ini kesalahan klasifikasi.
Vektor Plot diskriminan muat. Pendekatan grafis sederhana untuk menggambarkan beban
diskriminan adalah untuk merencanakan beban diputar atau unrotated sebenarnya pada grafik.
Pendekatan yang disukai akan merencanakan beban diputar. Mirip dengan penggambaran grafis dari
faktor loadings, metode ini menggambarkan sejauh mana masing-masing variabel berhubungan
dengan masing-masing fungsi diskriminan.
Bahkan lebih akurat pendekatan, bagaimanapun, perencanaan beban serta vektor menggambarkan
setiap bongkar untuk kelompok massa. Sebuah vektor hanyalah garis lurus yang ditarik dari asalnya
(tengah) dari grafik untuk koordinat beban diskriminan variabel tertentu atau centroid kelompok.
Dengan representasi vektor membentang, panjang setiap vektor menjadi indikasi kepentingan relatif
dari setiap variabel dalam membedakan antara kelompok-kelompok. Prosedur merencanakan hasil
dalam tiga langkah:
1. Memilih variabel variabel 1. Memilih: Semua variabel, baik yang termasuk dalam model signifikan
atau tidak, mungkin akan diplot sebagai vektor. Dengan cara ini, pentingnya variabel collinear yang
tidak disertakan, seperti dalam larutan bertahap, masih bisa digambarkan.
2. Peregangan vektor: beban diskriminan Setiap variabel yang membentang dengan mengalikan
pemuatan diskriminan (sebaiknya setelah rotasi) oleh nilai F univariat masing-masing. Kami
mencatat bahwa vektor menunjuk ke arah kelompok memiliki rata-rata tertinggi pada prediktor
masing dan jauh dari dia kelompok memiliki skor terendah rata-rata.
3. Merencanakan centroid kelompok: The centroid kelompok juga membentang dalam prosedur ini
dengan mengalikannya dengan nilai F perkiraan yang terkait dengan masing-masing fungsi
diskriminan. Jika beban yang membentang, centroid harus meregang juga untuk plot mereka secara
akurat pada grafik yang sama. Nilai-nilai F perkiraan untuk setiap fungsi diskriminan diperoleh
dengan rumus berikut:
Dimana :
Sebagai contoh, asumsikan bahwa sampel 50 pengamatan dibagi menjadi tiga kelompok. Multiplier
setiap eigen akan (50-3): (3 - 1) = 23,5
Ketika selesai, peneliti memiliki gambaran dari pengelompokan variabel pada setiap fungsi
diskriminan, besarnya pentingnya setiap variabel (diwakili oleh panjang setiap vektor), dan profil
masing-masing centroid kelompok (ditunjukkan oleh kedekatan vektor). Meskipun prosedur ini
harus dilakukan secara manual dalam kebanyakan kasus, ia menyediakan gambaran lengkap dari
kedua beban diskriminan dan centroid kelompok. Untuk rincian lebih lanjut tentang prosedur ini,
lihat Dillon dan Goldstein [3].
29
Tahap akhir dari analisis diskriminan melibatkan validasi hasil diskriminan untuk memberikan
jaminan bahwa hasil memiliki validitas eksternal maupun internal. Dengan kecenderungan analisis
diskriminan untuk mengembang rasio hit jika dievaluasi hanya pada sampel analisis, validasi
merupakan langkah penting. Selain memvalidasi rasio hit, peneliti harus menggunakan grup profiling
untuk memastikan bahwa cara kelompok merupakan indikator yang valid dari model konseptual
yang digunakan dalam memilih variabel independen.
Prosedur validasi
Validasi merupakan langkah penting dalam analisis discrminant karena berkali-kali, terutama dengan
sampel yang lebih kecil, hasilnya bisa kurang generalisasi (validitas eksternal). Pendekatan yang
paling umum untuk membangun validitas eksternal adalah penilaian rasio hit. Validasi dapat terjadi
baik dengan sampel terpisah (ketidaksepakatan sampel) atau memanfaatkan prosedur yang
berulang dalam memproses sampel estimasi. Extern 1 validitas didukung ketika rasio hit dari
pendekatan yang dipilih melebihi standar perbandingan yang mewakili akurasi prediksi yang
diharapkan secara kebetulan (lihat pembahasan sebelumnya).
MEMANFAATKAN SAMPLE
Paling sering validasi rasio hit dilakukan dengan menciptakan sampel ketidaksepakatan, juga disebut
sebagai sampel validasi. Tujuan dari menggunakan sampel ketidaksepakatan untuk tujuan validasi
adalah untuk melihat seberapa baik fungsi diskriminan bekerja pada sampel pengamatan yang tidak
digunakan untuk menurunkan fungsi diskriminan. Proses ini melibatkan pengembangan fungsi
diskriminan dengan sampel analisis dan kemudian menerapkannya pada ketidaksepakatan sample.
Pembenaran untuk membagi total sampel menjadi dua kelompok adalah bias ke atas , sehingga akan
terjadi pada akurasi prediksi fungsi diskriminan jika individu digunakan dalam mengembangkan
matriks klasifikasi yang sama dengan yang digunakan dalam menghitung fungsi; yaitu, akurasi
klasifikasi akan lebih tinggi dari berlaku bila diterapkan pada sampel estimasi.
Peneliti lain telah menyarankan bahwa kepercayaan yang lebih besar bisa ditempatkan di validitas
fungsi diskriminan dengan mengikuti prosedur ini beberapa kali [14]. Alih-alih membagi total sampel
secara acak dalam analisis dan ketidaksepakatan kelompok, peneliti secara acak akan membagi total
sampel dalam analisis dan ketidaksepakatan sampel beberapa kali, setiap kali percobaan validitas
fungsi diskriminan melalui pengembangan matriks klasifikasi dan rasio hit. Kemudian beberapa rasio
hit akan dirata-ratakan untuk mendapatkan ukuran tunggal.
LINTAS VALIDASI
Pendekatan cross-validasi untuk menilai validitas eksternal dilakukan dengan beberapa subset dari
total sampel [2, 3]. Pendekatan yang paling banyak digunakan adalah metode pisau lipat. Cross-
validasi didasarkan pada prinsip "meninggalkan-satu-out". Penggunaan yang paling umum dari
metode ini adalah untuk memperkirakan k - 1 Subsamples, menghilangkan satu pengamatan pada
suatu waktu dari sampel kasus k. Fungsi diskriminan dihitung untuk setiap sub-sampel dan kemudian
kelompok aanggota prediksi pengamatan dihilangkan dibuat dengan fungsi diskriminan diperkirakan
pada kasus yang tersisa. Setelah semua prediksi keanggotaan kelompok telah dibuat, satu per satu,
matriks klasifikasi dibangun dan rasio hit dihitung. Cross-validasi cukup sensitif terhadap ukuran
sampel yang kecil. Pedoman menyarankan bahwa itu digunakan hanya ketika ukuran kelompok
terkecil setidaknya tiga kali jumlah variabel prediksi, dan kebanyakan peneliti menyarankan rasio 5: 1
[11]. Namun, cross-validasi mungkin merupakan satu-satunya pendekatan validasi mungkin dalam
kasus di mana sampel asli terlalu kecil untuk membagi ke dalam analisis dan ketidaksepakatan
30
sampel tapi masih melebihi batasan yang sudah dibahas. Cross-validasi juga menjadi lebih banyak
digunakan sebagai program computer utama yang menyediakan sebagai program pilihan.
RULES OF THUMB 4
Menafsirkan dan Memvalidasi Fungsi diskriminan
• beban diskriminan adalah metode yang disukai untuk menilai kontribusi masing-masing variabel
untuk fungsi diskriminan karena mereka:
• Ukuran standar penting (mulai dari 0 sampai 1)
• Tersedia untuk semua variabel independen apakah yang digunakan dalam proses estimasi
atau tidak
• Terpengaruh multikolinearitas
• Muat melebihi ± 0,40 dianggap substantif untuk tujuan interpretasi
• Dalam kasus lebih dari satu fungsi diskriminan, pastikan untuk:
• Gunakan diputar beban
• Menilai kontribusi masing-masing variabel di semua fungsi dengan indeks potensi
• Fungsi diskriminan harus divalidasi baik dengan sampel ketidaksepakatan atau salah satu dari
"meninggalkan-satu- out" prosedur.
31