Anda di halaman 1dari 105

Multiple Discriminant Analysis

CHAPTER PREVIEW
Regresi berganda tidak diragukan lagi merupakan teknik ketergantungan multivariat yang
paling banyak digunakan. Dasar utama untuk popularitas regresi memiliki kemampuan untuk
memprediksi dan menjelaskan variabel metrik. Tetapi apa yang terjadi ketika variabel dependen
bukan metrik membuat regresi berganda tidak cocok? Bab ini memperkenalkan teknik - analisis
diskriminan - yang membahas situasi variabel dependen bukan logam. Dalam jenis situasi ini,
peneliti tertarik pada prediksi dan penjelasan tentang hubungan yang mempengaruhi kategori di
mana objek berada, seperti mengapa seseorang adalah atau bukan pelanggan, atau jika suatu
perusahaan akan berhasil atau gagal. Dua tujuan utama bab ini adalah sebagai berikut:
1. Untuk memperkenalkan sifat dasar, filosofi, dan kondisi berbagai analisis diskriminan
2. Untuk menunjukkan penerapan dan interpretasi teknik-teknik ini dengan contoh ilustratif
Tujuan dasar analisis diskriminan adalah untuk memperkirakan hubungan antara variabel
dependen nonmetrik (kategorikal) tunggal dan satu set variabel independen metrik dalam bentuk
umum ini:
Y1 = X1 + X2 + X3 + Á + Xn
(nonmetric) (metric)
Analisis multi diskriminan memiliki aplikasi luas dalam situasi di mana tujuan utama adalah
untuk mengidentifikasi grup tempat objek (mis., Orang, perusahaan, atau produk) berada.
Aplikasi potensial termasuk memprediksi keberhasilan atau kegagalan suatu produk baru,
memutuskan apakah seorang siswa harus diterima untuk lulus sekolah, mengklasifikasikan siswa
sebagai minat kejuruan, menentukan kategori risiko kredit untuk seseorang, atau memprediksi
apakah suatu perusahaan akan berhasil. Dalam setiap contoh, objek jatuh ke dalam kelompok,
dan tujuannya adalah untuk memprediksi dan menjelaskan basis untuk keanggotaan grup
masing-masing objek melalui serangkaian variabel independen yang dipilih oleh peneliti.
Teknik kedua — regresi logistik — juga sesuai untuk menangani pertanyaan penelitian di mana
variabel dependennya bukan metrik. Namun, regresi logistik terbatas pada situasi tersebut
dengan variabel dependen biner (mis. Ya / Tidak, Pembelian / Tidak Dibeli, dll.). Pembaca
didorong untuk meninjau regresi logistik, karena menyajikan banyak fitur yang berguna dalam
hal interpretasi dampak variabel independen.

PERSYARATAN KUNCI
Sebelum memulai bab ini, tinjau istilah-istilah utama untuk mengembangkan pemahaman
tentang konsep dan terminologi yang akan digunakan. Sepanjang bab istilah-istilah utama
muncul dalam huruf tebal. Poin-poin lain yang ditekankan dalam bab dan referensi silang istilah
kunci dicetak miring.
Sampel analisis, Kelompok kasus yang digunakan dalam memperkirakan fungsi diskriminan.
Ketika membangun matriks klasifikasi, sampel asli dibagi secara acak menjadi dua kelompok,
satu untuk estimasi model (sampel analisis) dan yang lainnya untuk validasi (sampel holdout).
Kotak M, Uji statistik untuk kesetaraan matriks kovarian dari variabel independen di seluruh
kelompok variabel dependen. Jika signifikansi statistik tidak melebihi level kritis (mis., Tidak
signifikan), maka kesetaraan matriks kovarians didukung. Jika tes menunjukkan signifikansi
statistik, maka kelompok dianggap berbeda dan asumsi dilanggar.
Variabel kategori, Lihat variabel bukan logam.
Centroid, Nilai rata-rata untuk skor Z diskriminan dari semua objek dalam kategori atau grup
tertentu. Misalnya, analisis diskriminan dua kelompok memiliki dua centroid, satu untuk objek di
masing-masing dua kelompok.
Fungsi klasifikasi, Metode klasifikasi di mana fungsi linear didefinisikan untuk setiap
kelompok. Klasifikasi dilakukan dengan menghitung skor untuk setiap pengamatan pada fungsi
klasifikasi masing-masing kelompok dan kemudian menetapkan pengamatan kepada kelompok
dengan skor tertinggi. Ini berbeda dari perhitungan skor Z diskriminan, yang dihitung untuk
setiap fungsi diskriminan.
Matriks klasifikasi, Cara menilai kemampuan prediksi fungsi diskriminan (juga disebut matriks
kebingungan, tugas, atau prediksi). Dibuat dengan melakukan tabulasi silang keanggotaan grup
aktual dengan prediksi keanggotaan grup, matriks ini terdiri dari angka-angka pada diagonal
yang mewakili klasifikasi yang benar dan angka off-diagonal yang mewakili klasifikasi yang
salah.
Cross-validation, Prosedur membagi sampel menjadi dua bagian: sampel analisis digunakan
dalam estimasi fungsi diskriminan dan sampel holdout digunakan untuk memvalidasi hasil.
Validasi silang menghindari overfitting dari fungsi diskriminan dengan membiarkan validasinya
pada sampel yang benar-benar terpisah.
Memotong skor, Kriteria yang dengannya skor Z masing-masing individu dibedakan untuk
menentukan perkiraan keanggotaan grup. Ketika analisis melibatkan dua kelompok, prediksi
kelompok ditentukan dengan menghitung skor pemotongan tunggal. Entitas dengan skor Z
diskriminan di bawah skor ini ditugaskan ke satu kelompok, sedangkan entitas dengan skor di
atasnya diklasifikasikan dalam kelompok lain. Untuk tiga atau lebih kelompok, beberapa fungsi
diskriminan digunakan, dengan skor pemotongan yang berbeda untuk setiap fungsi.
Koefisien diskriminan, Lihat bobot diskriminan.
Fungsi diskriminan, Variasi dari variabel independen yang dipilih untuk kekuatan diskriminatif
mereka digunakan dalam prediksi keanggotaan grup. Nilai prediksi fungsi diskriminan adalah
skor Z diskriminan, yang dihitung untuk setiap objek (orang, perusahaan, atau produk) dalam
analisis. Dibutuhkan bentuk persamaan linear
Zjk = a + W1 X1k + W2 X2k + …..+ Wn Xnk

Zjk = diskriminan Z skor fungsi diskriminan j untuk objek k


a = mencegat
Wi = bobot diskriminan untuk variabel independen i
Xik = variabel bebas i untuk objek k

Pembebanan diskriminan, Pengukuran korelasi linier sederhana antara setiap variabel


independen dan skor Z diskriminan untuk setiap fungsi diskriminan; juga disebut korelasi
struktur. Pemuatan diskriminatif dihitung apakah variabel independen termasuk dalam fungsi
diskriminan atau tidak.
Diskriminan berat, Berat yang ukurannya berkaitan dengan kekuatan diskriminatif dari variabel
independen di seluruh kelompok variabel dependen. Variabel independen dengan kekuatan
diskriminatif besar biasanya memiliki bobot besar, dan variabel dengan kekuatan diskriminatif
kecil biasanya memiliki bobot kecil. Namun, multikolinieritas di antara variabel-variabel
independen akan menyebabkan pengecualian terhadap aturan ini. Juga disebut koefisien
diskriminan.
Skor Z diskriminan, Skor yang ditentukan oleh fungsi diskriminan untuk setiap objek dalam
analisis dan biasanya dinyatakan dalam istilah standar. Juga disebut sebagai skor Z, dihitung
untuk setiap objek pada setiap fungsi diskriminan dan digunakan bersama dengan skor
pemotongan untuk menentukan perkiraan keanggotaan grup. Ini berbeda dari terminologi skor z
yang digunakan untuk variabel standar.
Fungsi diskriminan linear Fisher, Lihat fungsi klasifikasi.
Hit rasio, Persentase objek (individu, responden, perusahaan, dll) diklasifikasikan dengan benar
oleh fungsi diskriminan. Ini dihitung sebagai jumlah objek dalam diagonal dari matriks
klasifikasi dibagi dengan jumlah total objek. Juga dikenal sebagai persentase yang
diklasifikasikan dengan benar.
Holdout sample, Kelompok objek yang tidak digunakan untuk menghitung fungsi diskriminan.
Kelompok ini kemudian digunakan untuk memvalidasi fungsi diskriminan dengan sampel
responden yang terpisah. Disebut juga sampel validasi.
Regresi logistik, bentuk khusus dari regresi di mana variabel dependen adalah variabel
nonmetrik, dikotomis (biner). Meskipun ada beberapa perbedaan, cara interpretasi umum sangat
mirip dengan regresi linier.
Kriteria peluang maksimum, Mengukur akurasi prediksi dalam matriks klasifikasi yang
dihitung sebagai persentase responden dalam kelompok terbesar. Alasannya adalah bahwa
pilihan terbaik yang tidak diinformasikan adalah mengklasifikasikan setiap pengamatan ke dalam
kelompok terbesar.
Variabel metrik, Variabel dengan satuan pengukuran yang konstan. Jika variabel metrik
diskalakan dari 1 hingga 9, perbedaan antara 1 dan 2 sama dengan yang antara 8 dan 9. Xik
Variabel bukan logam, Variabel dengan nilai-nilai yang berfungsi hanya sebagai label atau alat
identifikasi, juga disebut sebagai variabel kategori, nominal, biner, kualitatif, atau taksonomi.
Nomor pada jersey bola adalah contohnya.
Skor pemotongan optimal, Nilai skor Z diskriminan yang terbaik memisahkan kelompok pada
setiap fungsi diskriminan untuk tujuan klasifikasi.
Persentase diklasifikasikan dengan benar, Lihat rasio hit.
Pendekatan kutub ekstrem, Metode membangun variabel dependen kategoris dari variabel
metrik. Pertama, variabel metrik dibagi menjadi tiga kategori. Kemudian kategori ekstrim
digunakan dalam analisis diskriminan dan kategori tengah tidak termasuk dalam analisis.
Indeks potensi, ukuran komposit kekuatan diskriminatif dari variabel independen ketika lebih
dari satu fungsi diskriminan diperkirakan. Berdasarkan pembebanan diskriminan, ini adalah
ukuran relatif yang digunakan untuk membandingkan keseluruhan diskriminasi yang disediakan
oleh masing-masing variabel independen di semua fungsi diskriminan yang signifikan.
Tekan statistik Q, Ukuran kekuatan klasifikasi fungsi diskriminan bila dibandingkan dengan
hasil yang diharapkan dari model kesempatan. Nilai yang dihitung dibandingkan dengan nilai
kritis berdasarkan distribusi chi-square. Jika nilai yang dihitung melebihi nilai kritis, hasil
klasifikasi secara signifikan lebih baik daripada yang diharapkan secara kebetulan.
Kriteria peluang proporsional, kriteria lain untuk menilai rasio hit, di mana probabilitas rata-
rata klasifikasi dihitung dengan mempertimbangkan semua ukuran kelompok.
Estimasi simultan, Estimasi fungsi diskriminan di mana bobot untuk semua variabel independen
dihitung secara bersamaan; kontras dengan estimasi bertahap di mana variabel independen
dimasukkan secara berurutan sesuai dengan kekuatan diskriminatif.
Validasi sampel terpisah, Lihat validasi silang.
Estimasi bertahap, Proses memperkirakan fungsi diskriminan di mana variabel independen
dimasukkan secara berurutan sesuai dengan kekuatan diskriminatif yang mereka tambahkan ke
prediksi keanggotaan grup.
Membentang vektor, vektor skala di mana vektor asli diskalakan untuk mewakili rasio F yang
sesuai. Digunakan untuk secara grafis mewakili pemuatan diskriminan secara gabungan dengan
centroid grup.
Korelasi struktur, Lihat pembebanan diskriminan.
Peta teritorial, penggambaran grafis dari skor pemotongan pada grafik dua dimensi. Ketika
dikombinasikan dengan plot kasus individual, dispersi masing-masing kelompok dapat dilihat
dan kesalahan klasifikasi kasus individual diidentifikasi secara langsung dari peta.
Toleransi, Proporsi variasi dalam variabel independen tidak dijelaskan oleh variabel yang sudah
ada dalam model (fungsi). Ini dapat digunakan untuk melindungi dari multikolinieritas. Dihitung
sebagai, di mana jumlah varians dari variabel independen saya jelaskan oleh semua variabel
dependen lainnya. Toleransi 0 berarti bahwa variabel independen yang dipertimbangkan adalah
kombinasi linear sempurna dari variabel independen yang sudah ada dalam model. Toleransi 1
berarti bahwa variabel independen benar-benar independen dari variabel lain yang sudah ada
dalam model.
Sampel validasi, Lihat sampel holdout.
Variate, kombinasi Linear yang mewakili jumlah tertimbang dari dua atau lebih variabel
independen yang terdiri dari fungsi diskriminan. Juga disebut kombinasi linier atau senyawa
linier.
Vektor, Representasi arah dan besarnya peran variabel seperti yang digambarkan dalam
interpretasi grafis dari hasil analisis diskriminan.
Skor Z, Lihat skor Z diskriminan.

APA ITU ANALISIS DISKRIMINAN?


Dalam mencoba untuk memilih teknik analitik yang tepat, kami kadang-kadang menghadapi
masalah yang melibatkan variabel dependen kategoris dan beberapa variabel independen metrik.
Misalnya, kami mungkin ingin membedakan yang baik dari risiko kredit yang buruk. Jika kami
memiliki ukuran metrik risiko kredit, maka kami dapat menggunakan regresi berganda. Dalam
banyak kasus kami tidak memiliki ukuran metrik yang diperlukan untuk regresi berganda. Alih-
alih, kami hanya dapat memastikan apakah seseorang berada dalam grup tertentu (mis. Risiko
kredit baik atau buruk). Analisis diskriminan adalah teknik statistik yang sesuai ketika variabel
dependen adalah variabel kategorikal (nominal atau nonmetrik) dan variabel independennya
adalah variabel metrik. Dalam banyak kasus, variabel dependen terdiri dari dua kelompok atau
klasifikasi, misalnya, pria versus wanita atau tinggi versus rendah. Dalam kasus lain, lebih dari
dua kelompok terlibat, seperti klasifikasi rendah, sedang, dan tinggi.
Analisis diskriminan mampu menangani dua kelompok atau beberapa (tiga atau lebih) kelompok.
Ketika dua klasifikasi terlibat, teknik ini disebut sebagai analisis diskriminan dua kelompok.
Ketika tiga atau lebih klasifikasi diidentifikasi, teknik ini disebut sebagai analisis diskriminan
ganda (MDA). Regresi logistik terbatas dalam bentuk dasarnya untuk dua kelompok, walaupun
formulasi lain dapat menangani lebih banyak kelompok.

Analisis Diskriminan
Analisis diskriminan melibatkan penurunan suatu varian. Variasi diskriminan adalah kombinasi
linear dari dua (atau lebih) variabel independen yang akan membedakan yang terbaik antara
objek (orang, perusahaan, dll.) Dalam kelompok yang ditentukan apriori. Diskriminasi dicapai
dengan menghitung bobot variate untuk setiap variabel independen untuk memaksimalkan
perbedaan antara kelompok (yaitu, varians antar-grup relatif terhadap varians dalam-grup).
Variasi untuk analisis diskriminan, juga dikenal sebagai fungsi diskriminan, diturunkan dari
persamaan yang mirip dengan yang terlihat dalam regresi berganda. Dibutuhkan bentuk berikut:
Zjk = a + W1 X1k + W2 X2k +Á+Wn Xnk
Zjk = diskriminan Z skor fungsi diskriminan j untuk objek k
a = mencegat
Wi = bobot diskriminan untuk variabel independen i
Xik = variabel bebas i untuk objek k

Seperti halnya variate dalam regresi atau teknik multivariat lainnya, kita melihat skor
diskriminan untuk setiap objek dalam analisis (orang, perusahaan, dll.) penjumlahan dari nilai-
nilai yang diperoleh dengan mengalikan setiap variabel independen dengan bobot
diskriminannya. Yang unik dari analisis diskriminan adalah bahwa lebih dari satu fungsi
diskriminan mungkin ada, sehingga setiap objek mungkin memiliki lebih dari satu skor
diskriminan. Kita akan membahas apa yang menentukan jumlah fungsi diskriminan nanti, tetapi
di sini kita melihat bahwa analisis diskriminan memiliki kesamaan dan elemen unik jika
dibandingkan dengan teknik multivariat lainnya.
Analisis diskriminan adalah teknik statistik yang sesuai untuk menguji hipotesis bahwa rata-rata
kelompok dari sekumpulan variabel independen untuk dua atau lebih kelompok adalah sama.
Dengan rata-rata skor diskriminan untuk semua individu dalam kelompok tertentu, kita sampai
pada rata-rata kelompok. Mean kelompok ini disebut sebagai centroid. Ketika analisis
melibatkan dua kelompok, ada dua centroid; dengan tiga kelompok, ada tiga centroid; Dan
seterusnya. Centroid menunjukkan lokasi paling khas dari anggota mana pun dari kelompok
tertentu, dan perbandingan sentroid kelompok menunjukkan seberapa jauh jarak kelompok
dalam hal fungsi diskriminan.

Tes untuk signifikansi statistik dari fungsi diskriminan adalah ukuran umum jarak antara centroid
kelompok. Ini dihitung dengan membandingkan distribusi skor diskriminan untuk kelompok.
Jika tumpang tindih (overlap) dalam distribusi kecil, fungsi diskriminan memisahkan kelompok
dengan baik. Jika tumpang tindih besar, fungsinya adalah pembeda yang buruk di antara
kelompok. Dua distribusi skor diskriminan yang ditunjukkan pada Gambar 1 selanjutnya
menggambarkan konsep ini. Diagram atas merupakan distribusi skor diskriminan untuk fungsi
yang memisahkan kelompok dengan baik, menunjukkan tumpang tindih minimal (area yang
diarsir) antara kelompok. Diagram yang lebih rendah menunjukkan distribusi skor diskriminan
pada fungsi diskriminan yang merupakan diskriminator yang relatif buruk antara kelompok A
dan B. Area yang diarsir tumpang tindih mewakili contoh di mana kesalahan klasifikasi objek
dari grup A ke grup B, dan sebaliknya, dapat terjadi.
Analisis diskriminan berganda adalah unik dalam satu karakteristik di antara hubungan
ketergantungan. Jika variabel dependen terdiri dari lebih dari dua kelompok, analisis diskriminan
akan menghitung lebih dari satu fungsi diskriminan. Faktanya, ini akan menghitung fungsi NG -
1, di mana NG adalah jumlah grup. Setiap fungsi diskriminan akan menghitung Zscore
diskriminan terpisah. Dalam kasus variabel dependen tiga kelompok, setiap objek (responden,
perusahaan, dll.) Akan memiliki skor terpisah untuk fungsi diskriminan satu dan dua, yang
memungkinkan objek untuk diplot dalam dua dimensi, dengan masing-masing dimensi mewakili
diskriminan. fungsi. Dengan demikian, analisis diskriminan tidak terbatas pada satu variasi
tunggal, seperti halnya regresi berganda, tetapi menciptakan banyak variasi yang mewakili
dimensi diskriminasi di antara kelompok-kelompok tersebut.

ANALOGI DENGAN REGRESI DAN MANOVA


Aplikasi dan interpretasi analisis diskriminan sama seperti dalam analisis regresi. Artinya, fungsi
diskriminan adalah kombinasi linear (variasi) pengukuran metrik untuk dua atau lebih variabel
independen dan digunakan untuk menggambarkan atau memprediksi variabel dependen tunggal.
Perbedaan utama adalah bahwa analisis diskriminan sesuai untuk masalah penelitian di mana
variabel dependen adalah kategorikal (nominal atau nonmetrik), sedangkan regresi digunakan
ketika variabel dependen adalah metrik. Seperti dibahas sebelumnya, regresi logistik adalah
varian dari regresi dengan banyak kesamaan kecuali untuk jenis variabel dependen.
Analisis diskriminan juga sebanding dengan "membalikkan" analisis varians multivariat
(MANOVA). Dalam analisis diskriminan, variabel dependen tunggal adalah kategorikal, dan
variabel independennya adalah metrik. Yang sebaliknya berlaku untuk MANOVA, yang
melibatkan variabel dependen metrik dan variabel independen kategori. Kedua teknik ini
menggunakan ukuran statistik yang sama untuk keseluruhan model fit seperti yang akan dilihat
nanti dalam bab ini.

CONTOH ANALISIS DISKRIMINAN


Analisis diskriminan berlaku untuk setiap pertanyaan penelitian dengan tujuan memahami
keanggotaan kelompok, apakah kelompok terdiri dari individu (misalnya, pelanggan versus
nonkonsumen), perusahaan (mis. Menguntungkan versus tidak menguntungkan), produk (mis.
Sukses versus tidak berhasil), atau lainnya objek yang dapat dievaluasi pada serangkaian variabel
independen. Untuk mengilustrasikan premis dasar analisis diskriminan, kami menguji dua
pengaturan penelitian, satu melibatkan dua kelompok (pembeli versus bukan pembeli) dan tiga
kelompok lainnya (tingkat perilaku switching).

Analisis Diskriminan Dua-Kelompok: Pembeli vs. Bukan Pembeli


Misalkan KitchenAid ingin menentukan apakah salah satu produk barunya — pencampur
makanan yang baru dan lebih baik — akan sukses secara komersial. Dalam melakukan
penyelidikan, KitchenAid tertarik untuk mengidentifikasi (jika mungkin) apakah konsumen akan
membeli produk baru /tidak. Dalam terminologi statistik, KitchenAid ingin meminimalkan
jumlah kesalahan yang dibuatnya dalam memprediksi konsumen mana yang akan membeli mixer
makanan baru dan mana yang tidak. Untuk membantu mengidentifikasi pembeli potensial,
KitchenAid merancang skala penilaian pada tiga karakteristik — daya tahan, kinerja, dan style
— untuk digunakan oleh konsumen dalam mengevaluasi produk baru. Daripada mengandalkan
setiap skala sebagai ukuran terpisah, KitchenAid berharap bahwa kombinasi tertimbang dari
ketiganya akan lebih baik memprediksi kemungkinan pembelian konsumen.
Tujuan utama dari analisis diskriminan adalah untuk mengembangkan kombinasi tertimbang dari
tiga skala untuk memprediksi kemungkinan bahwa konsumen akan membeli produk. Selain
menentukan apakah konsumen yang cenderung membeli produk baru dapat dibedakan dari
mereka yang tidak, KitchenAid juga ingin mengetahui karakteristik produk barunya yang
berguna dalam membedakan kemungkinan pembeli dari yang bukan pembeli (pelanggan / tidak).
Yaitu, evaluasi yang mana dari tiga karakteristik produk baru yang memisahkan pembeli dan
bukan pembeli?
Misalnya, jika respons "akan membeli" selalu dikaitkan dengan peringkat daya tahan tinggi dan
respons "tidak akan membeli" selalu dikaitkan dengan peringkat daya tahan rendah, KitchenAid
dapat menyimpulkan bahwa karakteristik daya tahan membedakan pembeli dari bukan pembeli.
Sebaliknya, jika KitchenAid menemukan bahwa sebanyak orang dengan peringkat tinggi pada
gaya mengatakan bahwa mereka akan membeli makanan pencampur seperti mereka yang
mengatakan tidak, maka gaya adalah karakteristik yang membedakan antara pembeli dan bukan
pembeli.

MENGIDENTIFIKASI VARIABEL DISKRIMINASI


Untuk mengidentifikasi variabel yang mungkin berguna dalam membedakan antar kelompok
(yaitu, pembeli versus bukan pembeli), penekanan diberikan pada perbedaan kelompok daripada
ukuran korelasi yang digunakan dalam regresi berganda.
Tabel 1 daftar peringkat mixer baru pada tiga karakteristik ini (dengan harga yang ditentukan)
dgn panel oleh 10 pembeli potensial. Dalam menilai mixer makanan, setiap anggota panel secara
implisit membandingkannya dengan produk yang sudah ada di pasaran. Setelah produk
dievaluasi, evaluator diminta untuk menyatakan niat beli mereka ("akan membeli" atau "tidak
akan membeli"). Lima menyatakan bahwa mereka akan membeli mixer baru dan lima
mengatakan mereka tidak akan.
Meneliti Tabel 1 mengidentifikasi beberapa variabel pembeda potensial. Pertama, perbedaan
substansial memisahkan peringkat rata-rata X1 (daya tahan) untuk kelompok "akan membeli"
dan "tidak akan membeli" (7,4 berbanding 3,2). Dengan demikian, daya tahan tampaknya
membedakan dengan baik antara kedua kelompok dan cenderung menjadi karakteristik penting
bagi pembeli potensial. Sebaliknya, karakteristik gaya (X3) memiliki perbedaan yang jauh lebih
kecil dari 0,2 antara peringkat rata-rata (4,0 -3,8 = 0,2) untuk kelompok "akan membeli" dan
"tidak akan membeli". Karena itu, kami berharap karakteristik ini tidak terlalu diskriminatif
dalam hal keputusan pembelian. Namun, sebelum kita dapat membuat pernyataan seperti itu
secara meyakinkan, kita harus memeriksa distribusi skor untuk setiap kelompok. Penyimpangan
standar yang besar dalam satu atau kedua kelompok mungkin membuat perbedaan antara cara
tidak signifikan dan tidak penting dalam membedakan antara kelompok.
Karena kami hanya memiliki 10 responden dalam dua kelompok dan tiga variabel independen,
kami juga dapat melihat data secara grafis untuk menentukan analisis diskriminan apa yang ingin
dicapai. Gambar 2 menunjukkan 10 responden pada masing-masing dari tiga variabel. Grup
"akan membeli" diwakili oleh lingkaran dan grup "tidak akan membeli" oleh kuadrat. Nomor
identifikasi responden ada di dalam formulir.
• X1 (Daya Tahan) memiliki perbedaan substansial dalam skor rata-rata, memungkinkan kami
untuk hampir secara sempurna membedakan antara kelompok hanya menggunakan variabel ini.
Jika kami menetapkan nilai 5,5 sebagai titik batas kami untuk membedakan antara kedua
kelompok, maka kami akan mengklasifikasikan secara keliru hanya responden 5, salah satu
anggota kelompok yang “akan membeli”. Variabel ini menggambarkan kekuatan diskriminatif
dalam memiliki perbedaan besar dalam sarana untuk kedua kelompok dan kurangnya tumpang
tindih antara distribusi kedua kelompok.
• X2 (Kinerja) memberikan perbedaan yang kurang jelas antara kedua kelompok. Namun,
variabel ini memang memberikan diskriminasi tinggi untuk responden 5, yang salah
diklasifikasikan jika kita hanya menggunakan X1. Selain itu, responden yang akan salah
diklasifikasikan menggunakan X2 dipisahkan dengan baik pada X1. Dengan demikian, X1 dan
X2 dapat digunakan dengan cukup efektif dalam kombinasi untuk memprediksi keanggotaan
grup.

• X3 (Gaya) menunjukkan sedikit perbedaan antara kelompok. Dengan demikian, dengan


membentuk varian hanya X1 dan X2, dan menghilangkan X3, fungsi diskriminan dapat dibentuk
yang memaksimalkan pemisahan kelompok pada skor diskriminan.

MENGHITUNG FUNGSI DISKRIMINAN


Dengan tiga variabel pembeda yang potensial diidentifikasi, perhatian bergeser ke arah
penyelidikan tentang kemungkinan menggunakan variabel pembeda dalam kombinasi untuk
meningkatkan kekuatan pembeda dari setiap variabel individu. Untuk tujuan ini, suatu varian
dapat dibentuk dengan dua atau lebih variabel diskriminatif untuk bertindak bersama dalam
membedakan antara kelompok.
Tabel 2 berisi hasil untuk tiga formulasi berbeda dari fungsi diskriminan, masing-masing
mewakili kombinasi yang berbeda dari tiga variabel independen.

• Fungsi diskriminan pertama hanya berisi X1, menyamakan nilai X1 dengan skor Z diskriminan
(juga menyiratkan bobot 1,0 untuk X1 dan bobot nol untuk semua variabel lainnya). Seperti yang
ditunjukkan sebelumnya, penggunaan hanya X1, pembeda terbaik, menghasilkan kesalahan
klasifikasi subjek 5 seperti yang ditunjukkan pada Tabel 2, di mana empat dari lima subjek dalam
grup 1 (semua kecuali subjek 5) dan lima dari lima subjek dalam grup 2 adalah diklasifikasikan
dengan benar (yaitu, terletak di diagonal dari matriks klasifikasi). Persentase yang
diklasifikasikan dengan benar adalah 90 persen (9 dari 10 subjek).
• Karena X2 memberikan diskriminasi untuk subjek 5, kami dapat membentuk fungsi
diskriminan kedua dengan menggabungkan X1 dan X2 secara merata (mis., Menyiratkan bobot
1,0 untuk X1 dan X2 dan bobot 0,0 untuk X3) untuk memanfaatkan kekuatan diskriminatif unik
masing-masing variabel. Menggunakan skor pemotongan 11 dengan fungsi diskriminan baru ini
(lihat Tabel 2) mencapai klasifikasi sempurna dari kedua kelompok (100% diklasifikasikan
dengan benar). Dengan demikian, kombinasi X1 dan X2 mampu membuat prediksi yang lebih
baik tentang keanggotaan grup daripada kedua variabel secara terpisah.
• Fungsi diskriminan ketiga pada Tabel 2 mewakili estimasi fungsi diskriminan aktual (Z = –4,53
+ .476X1 + .359X2). Berdasarkan skor pemotongan 0, fungsi ketiga ini juga mencapai tingkat
klasifikasi yang benar 100 persen dengan pemisahan maksimum yang mungkin antar kelompok.
Seperti terlihat dalam contoh sederhana ini, analisis diskriminan mengidentifikasi variabel-
variabel dengan perbedaan terbesar antara kelompok-kelompok dan memperoleh koefisien
diskriminan yang menimbang setiap variabel untuk mencerminkan perbedaan-perbedaan ini.
Hasilnya adalah fungsi diskriminan yang paling baik membedakan antara kelompok berdasarkan
kombinasi variabel independen.

Representasi Geometris dari Fungsi Diskriminan Dua Kelompok


Ilustrasi grafis dari analisis dua kelompok lainnya akan membantu untuk menjelaskan lebih
lanjut sifat analisis diskriminan [6]. Gambar 3 menunjukkan apa yang terjadi ketika fungsi
diskriminan dua kelompok dihitung. Asumsikan kita memiliki dua kelompok, A dan B, dan dua
pengukuran, V1 dan V2, pada masing-masing anggota dari dua kelompok. Kita dapat memplot
dalam diagram sebaran dari asosiasi variabel V1 dengan variabel V2 untuk setiap anggota dari
dua kelompok. Pada Gambar 3 titik-titik kecil mewakili pengukuran variabel untuk anggota
kelompok B dan titik-titik besar untuk kelompok A.
Elips yang ditarik di sekitar titik-titik besar dan kecil akan melampirkan beberapa proporsi poin
yang telah ditentukan sebelumnya, biasanya 95 persen atau lebih di masing-masing kelompok.
Jika kita menggambar garis lurus melalui dua titik di mana elips berpotongan dan kemudian
memproyeksikan garis ke sumbu Z baru, kita dapat mengatakan bahwa tumpang tindih antara
distribusi univariat A dan B (diwakili oleh area yang diarsir) lebih kecil daripada yang akan
diperoleh oleh garis lain yang ditarik melalui elips yang dibentuk oleh scatterplots [6].
Hal penting yang perlu diperhatikan tentang Gambar 3 adalah bahwa sumbu Z menyatakan profil
dua variabel kelompok A dan B sebagai angka tunggal (skor diskriminan). Dengan menemukan
kombinasi linear dari variabel asli V1 dan V2, kita dapat memproyeksikan hasilnya sebagai
fungsi diskriminan. Misalnya, jika titik-titik besar dan kecil diproyeksikan ke sumbu Z baru
sebagai skor Z diskriminan, hasilnya memadatkan informasi tentang perbedaan kelompok
(ditunjukkan dalam plot V1V2) menjadi satu set poin (skor Z) pada sumbu tunggal, ditunjukkan
oleh distribusi A dan B.
Untuk meringkas, untuk masalah analisis diskriminan yang diberikan, kombinasi linear dari
variabel independen diturunkan, menghasilkan serangkaian skor diskriminan untuk setiap objek
dalam setiap kelompok. Skor diskriminan dihitung sesuai dengan aturan statistik untuk
memaksimalkan varians antara kelompok dan meminimalkan varians di dalamnya. Jika varians
antara kelompok besar relatif terhadap varians dalam kelompok, kami mengatakan bahwa fungsi
diskriminan memisahkan kelompok dengan baik.
Contoh Tiga Kelompok Analisis Diskriminan: Beralih Niat
Contoh dua kelompok yang baru saja diperiksa menunjukkan alasan dan manfaat dari
menggabungkan variabel independen ke dalam varian untuk tujuan membedakan antar
kelompok. Analisis diskriminan juga memiliki cara lain untuk diskriminasi — estimasi dan
penggunaan beragam varian — dalam kasus tiga atau lebih kelompok. Fungsi-fungsi diskriminan
ini sekarang menjadi dimensi diskriminasi, masing-masing dimensi terpisah dan berbeda dari
yang lain. Jadi, selain meningkatkan penjelasan keanggotaan kelompok, fungsi-fungsi
diskriminan tambahan ini menambah wawasan tentang berbagai kombinasi variabel independen
yang membedakan antar kelompok.
Sebagai ilustrasi penerapan tiga kelompok analisis diskriminan, kami menguji penelitian yang
dilakukan oleh HBAT mengenai kemungkinan pelanggan pesaing mengganti pemasok. Pretest
skala kecil melibatkan wawancara dengan 15 pelanggan dari pesaing utama. Dalam proses
wawancara, para pelanggan ditanya kemungkinan mereka mengganti pemasok pada skala tiga
kategori. Tiga kemungkinan tanggapan adalah "pasti beralih," "ragu-ragu," dan "pasti tidak
beralih." Pelanggan ditugaskan ke grup 1, 2, atau 3, masing-masing, sesuai dengan respons
mereka. Pelanggan juga menilai pesaing pada dua karakteristik: daya saing harga (X1) dan
tingkat layanan (X2). Masalah penelitian sekarang adalah untuk menentukan apakah peringkat
pelanggan dari pesaing dapat memprediksi probabilitas mereka untuk beralih pemasok. Karena
variabel dependen dari pemasok switching diukur sebagai variabel kategorikal (nonmetrik) dan
peringkat harga dan layanannya adalah metrik, analisis diskriminan adalah tepat.

MENGIDENTIFIKASI VARIABEL DISKRIMINASI


Dengan tiga kategori variabel dependen, analisis diskriminan dapat memperkirakan dua fungsi
diskriminan, masing-masing mewakili dimensi diskriminasi yang berbeda.
Tabel 3 berisi hasil survei untuk 15 pelanggan, 5 di setiap kategori variabel dependen. Seperti
yang kami lakukan dalam contoh dua kelompok, kita dapat melihat skor rata-rata untuk setiap
kelompok untuk melihat apakah salah satu variabel membedakan dengan baik di antara semua
kelompok. Untuk X1, daya saing harga, kami melihat perbedaan rata-rata yang agak besar antara
kelompok 1 dan kelompok 2 atau 3 (2,0 berbanding 4,6 atau 3,8). X1 dapat membedakan dengan
baik antara kelompok 1 dan kelompok 2 atau 3, tetapi jauh lebih efektif dalam membedakan
antara kelompok 2 dan 3. Untuk X2, tingkat layanan, kita melihat bahwa perbedaan antara
kelompok 1 dan 2 sangat kecil (2,0 versus 2.2) , sedangkan perbedaan besar ada antara kelompok
3 dan kelompok 1 atau 2 (6,2 berbanding 2,0 atau 2,2). Dengan demikian, X1 membedakan
kelompok 1 dari kelompok 2 dan 3, dan X2 membedakan kelompok 3 dari kelompok 1 dan 2.
Sebagai hasilnya, kita melihat bahwa X1 dan X2 memberikan dimensi diskriminasi yang berbeda
antara kelompok.

PERHITUNGAN DUA FUNGSI DISKRIMINAN


Dengan variabel-variabel pembeda yang potensial diidentifikasi, langkah selanjutnya
adalah menggabungkan mereka ke dalam fungsi-fungsi diskriminan yang akan memanfaatkan
kekuatan diskriminasi gabungan mereka untuk membedakan antar kelompok.
Untuk menggambarkan dimensi-dimensi ini secara grafis, Gambar 4 menggambarkan
ketiga kelompok pada masing-masing variabel independen secara terpisah. Melihat anggota grup
pada salah satu variabel, kita dapat melihat bahwa tidak ada variabel yang membedakan dengan
baik di antara semua grup. Namun, jika kita membangun dua fungsi diskriminan sederhana,
hanya dengan menggunakan bobot sederhana 0,0 atau 1,0, hasilnya menjadi lebih jelas. Fungsi
diskriminan 1 memberi X1 bobot 1,0, dan X2 bobot 0,0. Demikian juga, fungsi diskriminan 2
memberi X2 bobot 1,0, dan X1 bobot 0,0. Fungsi dapat dinyatakan secara matematis sebagai
Discriminant function 1 = 1.0(X1) + 0.0(X2)
Discriminant function 2 = 0.0(X1) + 1.0(X2)
Persamaan ini menunjukkan secara sederhana bagaimana prosedur analisis diskriminan
memperkirakan bobot untuk memaksimalkan diskriminasi.
Dengan dua fungsi tersebut, kami sekarang dapat menghitung dua skor diskriminan untuk setiap
responden. Selain itu, dua fungsi diskriminan memberikan dimensi diskriminasi.
Gambar 4 juga berisi plot dari masing-masing responden dalam representasi dua dimensi.
Pemisahan antar kelompok sekarang menjadi sangat jelas, dan masing-masing kelompok dapat
dengan mudah dibedakan. Kami dapat menetapkan nilai pada setiap dimensi yang akan
menentukan kawasan yang berisi setiap grup (mis., Semua anggota grup 1 berada di wilayah
kurang dari 3,5 pada dimensi 1 dan kurang dari 4,5 pada dimensi 2). Masing-masing kelompok
lain dapat didefinisikan secara serupa dalam hal rentang skor fungsi diskriminan mereka.
Dalam hal dimensi diskriminasi, fungsi diskriminan pertama, daya saing harga, membedakan
antara pelanggan yang belum memutuskan (ditunjukkan dengan kotak) dan pelanggan yang telah
memutuskan untuk beralih (lingkaran). Tetapi daya saing harga tidak membedakan mereka yang
telah memutuskan untuk tidak beralih (berlian). Alih-alih, persepsi tingkat layanan, yang
mendefinisikan fungsi diskriminan kedua, memprediksi apakah pelanggan akan memutuskan
untuk tidak beralih versus apakah pelanggan ragu-ragu atau bertekad untuk beralih pemasok.
Peneliti dapat menyampaikan kepada manajemen dampak terpisah dari daya saing harga dan
tingkat layanan dalam membuat keputusan ini.
Perkiraan lebih dari satu fungsi diskriminan, bila memungkinkan, memberikan peneliti dengan
peningkatan diskriminasi dan perspektif tambahan pada fitur dan kombinasi yang paling
membedakan di antara kelompok. Bagian berikut merinci langkah-langkah yang diperlukan
untuk melakukan analisis diskriminan, menilai tingkat kecocokan prediktifnya, dan kemudian
menafsirkan pengaruh variabel independen dalam membuat prediksi itu.
PROSES KEPUTUSAN UNTUK ANALISIS DISKRIMINAN
Penerapan analisis diskriminan dapat dilihat dari perspektif pembangunan model enam tahap
yang digambarkan pada Gambar 5 (tahap 1-3) dan Gambar 6 (tahap 4-6). Seperti semua aplikasi
multivarian, menetapkan tujuan adalah langkah pertama dalam analisis. Kemudian peneliti harus
mengatasi masalah desain tertentu dan memastikan asumsi yang mendasarinya terpenuhi.
Analisis dilanjutkan dengan derivasi dari fungsi diskriminan dan penentuan apakah fungsi
signifikan secara statistik dapat diturunkan untuk memisahkan dua (atau lebih) kelompok. Hasil
diskriminan kemudian dinilai untuk akurasi prediksi dengan mengembangkan matriks klasifikasi.
Selanjutnya, interpretasi fungsi diskriminan menentukan mana dari variabel independen yang
paling berkontribusi terhadap diskriminasi antar kelompok. Akhirnya, fungsi diskriminan harus
divalidasi dengan sampel ketidaksepakatan. Masing-masing tahap dibahas dalam bagian berikut.
TAHAP 1: TUJUAN ANALISIS DISKRIMINAN
Peninjauan tujuan untuk menerapkan analisis diskriminan harus lebih memperjelas sifatnya.
Analisis diskriminan dapat membahas salah satu dari tujuan penelitian berikut:
1. Menentukan apakah ada perbedaan yang signifikan secara statistik antara profil skor rata-rata
pada serangkaian variabel untuk dua (atau lebih) kelompok yang ditentukan apriori
2. Menentukan variabel independen mana yang paling bertanggung jawab atas perbedaan dalam
profil skor rata-rata dari dua atau lebih kelompok
3. Menetapkan jumlah dan komposisi dimensi diskriminasi antar kelompok yang terbentuk dari
serangkaian variabel independen
4. Menetapkan prosedur untuk mengklasifikasikan objek (individu, perusahaan, produk, dll.) Ke
dalam kelompok berdasarkan skor mereka pada serangkaian variabel independen
Sebagaimana dicatat dalam tujuan ini, analisis diskriminan berguna ketika peneliti
tertarik untuk memahami perbedaan kelompok atau dalam mengklasifikasikan objek dengan
benar ke dalam kelompok atau kelas. Analisis diskriminan, oleh karena itu, dapat dianggap
sebagai jenis analisis profil atau teknik prediksi analitik. Dalam kedua kasus, teknik ini paling
tepat dalam situasi dengan variabel dependen kategori tunggal dan beberapa variabel independen
skala metrik.
• Sebagai analisis profil, analisis diskriminan memberikan penilaian obyektif atas perbedaan
antar kelompok pada serangkaian variabel independen. Dalam situasi ini, analisis diskriminan
sangat mirip dengan analisis varians multivariat. Untuk memahami perbedaan kelompok, analisis
diskriminan memberikan wawasan tentang peran variabel individu serta mendefinisikan
kombinasi variabel-variabel ini yang mewakili dimensi diskriminasi antar kelompok. Dimensi ini
adalah efek kolektif dari beberapa variabel yang bekerja bersama untuk membedakan antara
kelompok. Penggunaan metode estimasi sekuensial juga memungkinkan untuk mengidentifikasi
himpunan bagian dari variabel dengan kekuatan diskriminatif terbesar.
• Untuk tujuan klasifikasi, analisis diskriminan memberikan dasar untuk mengklasifikasikan
tidak hanya sampel yang digunakan untuk memperkirakan fungsi diskriminan tetapi juga
pengamatan lain yang dapat memiliki nilai untuk semua variabel independen. Dengan cara ini,
analisis diskriminan dapat digunakan untuk mengklasifikasikan pengamatan lain ke dalam
kelompok yang ditentukan.

TAHAP 2: DESAIN PENELITIAN UNTUK ANALISIS DISKRIMINAN


Keberhasilan penerapan analisis diskriminan membutuhkan pertimbangan beberapa masalah.
Masalah-masalah ini termasuk pemilihan variabel dependen dan independen, ukuran sampel
yang diperlukan untuk estimasi fungsi diskriminan, dan pembagian sampel untuk tujuan validasi.

Memilih Variabel Dependen dan Independen


Untuk menerapkan analisis diskriminan, peneliti pertama-tama harus menentukan variabel mana
yang menjadi ukuran independen dan variabel mana yang menjadi ukuran dependen. Ingat
bahwa variabel dependen adalah nonmetrik dan variabel independennya adalah metrik.

VARIABEL TERGANTUNG
Peneliti harus fokus pada variabel dependen terlebih dahulu. Jumlah grup variabel dependen
(kategori) dapat dua atau lebih, tetapi grup ini harus saling eksklusif dan lengkap. Dengan kata
lain, setiap pengamatan hanya dapat ditempatkan dalam satu kelompok. Dalam beberapa kasus,
variabel dependen dapat melibatkan dua kelompok (dikotomis), seperti baik versus buruk. Dalam
kasus lain, variabel dependen dapat melibatkan beberapa kelompok (multikotom), seperti
pekerjaan dokter, pengacara, atau profesor.

Berapa banyak kategori dalam variabel dependen?


Secara teoritis, analisis diskriminan dapat menangani jumlah kategori yang tidak terbatas dalam
variabel dependen. Sebagai masalah praktis, bagaimanapun, peneliti harus memilih variabel
dependen dan jumlah kategori berdasarkan beberapa pertimbangan:
1. Selain menjadi saling eksklusif dan lengkap, kategori variabel dependen harus berbeda dan
unik pada set variabel independen terpilih. Analisis diskriminan mengasumsikan bahwa setiap
kelompok harus memiliki profil unik pada variabel independen yang digunakan dan dengan
demikian mengembangkan fungsi diskriminan untuk secara maksimal memisahkan kelompok
berdasarkan pada variabel-variabel ini. Namun, analisis diskriminan tidak memiliki sarana untuk
mengakomodasi atau menggabungkan kategori yang tidak berbeda pada variabel independen.
Jika dua atau lebih kelompok memiliki profil yang sangat mirip, analisis diskriminan tidak akan
dapat secara unik membuat profil masing-masing kelompok, menghasilkan penjelasan dan
klasifikasi kelompok yang lebih buruk secara keseluruhan. Dengan demikian, peneliti harus
memilih variabel dependen dan kategorinya untuk mencerminkan perbedaan dalam variabel
independen. Contoh akan membantu menggambarkan masalah ini.
Asumsikan peneliti ingin mengidentifikasi perbedaan di antara kategori pekerjaan berdasarkan
sejumlah karakteristik demografis (mis., Pendapatan, pendidikan, karakteristik rumah tangga).
Jika pekerjaan diwakili oleh sejumlah kecil kategori (misalnya, kerah biru, kerah putih, klerikal /
staf, dan profesional / manajemen atas), maka kita akan mengharapkan perbedaan unik antara
kelompok dan bahwa analisis diskriminan akan paling mampu mengembangkan fungsi
diskriminan yang akan menjelaskan perbedaan kelompok dan berhasil mengklasifikasikan
individu ke dalam kategori yang benar.
Namun, jika jumlah kategori pekerjaan diperluas, analisis diskriminan mungkin lebih sulit
mengidentifikasi perbedaan. Misalnya, anggap kategori profesional / manajemen atas diperluas
ke kategori dokter, pengacara, manajemen atas, profesor perguruan tinggi, dan sebagainya.
Meskipun ekspansi ini menyediakan klasifikasi pekerjaan yang lebih disempurnakan, akan jauh
lebih sulit untuk membedakan antara masing-masing kategori ini pada variabel demografis.
Hasilnya adalah kinerja yang lebih buruk dengan analisis diskriminan dalam penjelasan dan
klasifikasi.
2. Peneliti juga harus berusaha, semua hal lain sama, untuk jumlah kategori yang lebih kecil
daripada yang lebih besar dalam ukuran dependen. Mungkin tampak lebih logis untuk
memperluas jumlah kategori untuk mencari pengelompokan yang lebih unik, tetapi memperluas
jumlah kategori menyajikan lebih banyak kompleksitas dalam tugas-tugas profiling dan
klasifikasi analisis diskriminan. Jika analisis diskriminan dapat memperkirakan hingga NG– 1
(jumlah kelompok minus satu) fungsi diskriminan, maka meningkatkan jumlah kelompok
memperluas jumlah fungsi diskriminan yang mungkin, meningkatkan kompleksitas dalam
mengidentifikasi dimensi yang mendasari diskriminasi yang tercermin oleh masing-masing
fungsi diskriminan juga sebagai mewakili efek keseluruhan dari masing-masing variabel
independen.
Seperti yang disarankan oleh dua masalah ini, peneliti harus selalu menyeimbangkan keinginan
untuk memperluas kategori untuk meningkatkan keunikan versus peningkatan efektivitas dalam
sejumlah kecil kategori. Peneliti harus mencoba dan memilih variabel dependen dengan kategori
yang memiliki perbedaan maksimum di antara semua kelompok sambil mempertahankan
dukungan konseptual dan relevansi manajerial.
Konversi Variabel Metrik.
Contoh sebelumnya dari variabel kategori adalah dikotomi sejati (atau multikotomi). Dalam
beberapa situasi, bagaimanapun, analisis diskriminan adalah tepat bahkan jika variabel dependen
bukanlah variabel nonmetrik (kategori) yang benar. Kami mungkin memiliki variabel dependen
yang merupakan pengukuran ordinal atau interval yang ingin kami gunakan sebagai variabel
dependen kategoris. Dalam kasus seperti itu, kita harus membuat variabel kategori, dan dua
pendekatan adalah yang paling umum digunakan:
• Pendekatan yang paling umum adalah menetapkan kategori menggunakan skala metrik.
Sebagai contoh, jika kami memiliki variabel yang mengukur jumlah rata-rata minuman cola yang
dikonsumsi per hari, dan individu-individu tersebut merespons pada skala dari nol hingga
delapan atau lebih per hari, kami dapat membuat trikotomi buatan (tiga kelompok) dengan hanya
menunjuk mereka individu yang tidak mengonsumsi minuman cola, satu, atau dua per hari
sebagai pengguna ringan, mereka yang mengonsumsi tiga, empat, atau lima per hari sebagai
pengguna sedang, dan mereka yang mengonsumsi enam, tujuh, delapan, atau lebih sebagai
pengguna berat. Prosedur seperti itu akan menciptakan variabel kategori tiga kelompok di mana
tujuannya adalah untuk membedakan antara pengguna cola ringan, sedang, dan berat. Sejumlah
kelompok kategori dapat dikembangkan. Paling sering, pendekatan akan melibatkan pembuatan
dua, tiga, atau empat kategori. Sejumlah besar kategori dapat didirikan jika perlu.
• Ketika tiga atau lebih kategori dibuat, kemungkinan muncul untuk memeriksa hanya kelompok
ekstrim dalam analisis diskriminan dua kelompok. Pendekatan ekstrem kutub melibatkan hanya
membandingkan dua kelompok ekstrem dan mengeluarkan kelompok menengah dari analisis
diskriminan. Sebagai contoh, peneliti dapat memeriksa pengguna minuman cola yang ringan dan
berat dan mengecualikan pengguna menengah. Pendekatan ini dapat digunakan kapan saja
peneliti ingin memeriksa hanya kelompok yang ekstrim. Namun, peneliti juga mungkin ingin
mencoba pendekatan ini ketika hasil analisis regresi tidak sebagus yang diantisipasi. Prosedur
seperti itu mungkin bermanfaat karena ada kemungkinan bahwa perbedaan kelompok dapat
muncul walaupun hasil regresi buruk. Artinya, pendekatan ekstrem polar dengan analisis
diskriminan dapat mengungkapkan perbedaan yang tidak menonjol dalam analisis regresi dari set
data lengkap [6]. Manipulasi data tersebut secara alami akan membutuhkan kehati-hatian dalam
menafsirkan temuan seseorang.

VARIABEL INDEPENDEN
Setelah keputusan dibuat pada variabel dependen, peneliti harus memutuskan variabel
independen mana yang akan dimasukkan dalam analisis. Variabel independen biasanya dipilih
dalam dua cara. Pendekatan pertama melibatkan mengidentifikasi variabel baik dari penelitian
sebelumnya atau dari model teoritis yang menjadi dasar pertanyaan penelitian. Pendekatan kedua
adalah intuisi - memanfaatkan pengetahuan peneliti dan secara intuitif memilih variabel yang
tidak ada penelitian atau teori sebelumnya tetapi yang secara logis mungkin terkait dengan
memprediksi kelompok untuk variabel dependen.
Dalam kedua contoh, variabel independen yang paling tepat adalah variabel yang berbeda
setidaknya pada dua kelompok variabel dependen. Ingatlah bahwa tujuan dari setiap variabel
independen adalah untuk menyajikan profil unik setidaknya satu kelompok dibandingkan dengan
yang lain. Variabel yang tidak berbeda antar kelompok tidak banyak digunakan dalam analisis
diskriminan.

Ukuran sampel
Analisis diskriminan, seperti teknik multivariat lainnya, dipengaruhi oleh ukuran sampel yang
dianalisis. Sampel yang sangat kecil memiliki kesalahan pengambilan sampel begitu banyak
sehingga identifikasi semua tetapi perbedaan terbesar tidak mungkin. Selain itu, ukuran sampel
yang sangat besar akan membuat semua perbedaan signifikan secara statistik, meskipun
perbedaan yang sama ini mungkin memiliki sedikit atau tidak ada relevansi manajerial. Di antara
kedua ekstrem ini, peneliti harus mempertimbangkan dampak ukuran sampel terhadap analisis
diskriminan, baik di tingkat keseluruhan maupun berdasarkan kelompok-per-kelompok.
UKURAN SAMPEL KESELURUHAN
Pertimbangan pertama melibatkan ukuran sampel keseluruhan. Analisis diskriminan cukup
sensitif terhadap rasio ukuran sampel dengan jumlah variabel prediktor. Akibatnya, banyak
penelitian menyarankan rasio 20 pengamatan untuk setiap variabel prediktor. Meskipun rasio ini
mungkin sulit dipertahankan dalam praktiknya, peneliti harus mencatat bahwa hasilnya menjadi
tidak stabil karena ukuran sampel menurun relatif terhadap jumlah variabel independen. Ukuran
minimum yang disarankan adalah lima pengamatan per variabel independen. Perhatikan bahwa
rasio ini berlaku untuk semua variabel yang dipertimbangkan dalam analisis, bahkan jika semua
variabel yang dipertimbangkan tidak dimasukkan ke dalam fungsi diskriminan (seperti dalam
estimasi bertahap).

UKURAN SAMPEL PER KATEGORI


Selain ukuran sampel keseluruhan, peneliti juga harus mempertimbangkan ukuran sampel
masing-masing kategori. Minimal, ukuran grup terkecil dari suatu kategori harus melebihi
jumlah variabel independen. Sebagai pedoman praktis, setiap kategori harus memiliki setidaknya
20 pengamatan. Meskipun semua kategori melebihi 20 pengamatan, peneliti juga harus
mempertimbangkan ukuran relatif dari kategori tersebut. Variasi yang luas dalam ukuran
kelompok akan berdampak pada estimasi fungsi diskriminan dan klasifikasi pengamatan. Pada
tahap klasifikasi, kelompok yang lebih besar memiliki peluang klasifikasi yang lebih tinggi. Jika
ukuran kelompok sangat bervariasi, peneliti mungkin ingin mengambil sampel secara acak dari
kelompok yang lebih besar, sehingga mengurangi ukurannya ke tingkat yang sebanding dengan
kelompok yang lebih kecil. Namun, selalu ingat untuk mempertahankan ukuran sampel yang
memadai baik secara keseluruhan maupun untuk masing-masing kelompok.

Pembagian Sampel
Satu catatan akhir tentang dampak ukuran sampel dalam analisis diskriminan. Seperti yang akan
dibahas kemudian pada tahap 6, cara yang lebih disukai untuk memvalidasi analisis diskriminan
adalah dengan membagi sampel menjadi dua subsampel, satu digunakan untuk estimasi fungsi
diskriminan dan lainnya untuk tujuan validasi. Dalam hal pertimbangan ukuran sampel, sangat
penting bahwa setiap subsampel memiliki ukuran yang memadai untuk mendukung kesimpulan
dari hasil. Dengan demikian, semua pertimbangan yang dibahas pada bagian sebelumnya berlaku
tidak hanya untuk total sampel, tetapi juga untuk masing-masing dari dua sampel (terutama
subsampel yang digunakan untuk estimasi). Tidak ada aturan yang keras dan cepat telah dibuat,
tetapi tampaknya logis bahwa peneliti ingin setidaknya 100 dalam total sampel untuk
membenarkan membaginya menjadi dua kelompok.

MENCIPTAKAN SUBSAMPLES
Sejumlah prosedur telah disarankan untuk membagi sampel menjadi beberapa contoh. Prosedur
yang biasa adalah membagi total sampel responden secara acak menjadi dua sub sampel. Salah
satu sub sampel ini, sampel analisis, digunakan untuk mengembangkan fungsi diskriminan. Yang
kedua, sampel holdout, digunakan untuk menguji fungsi diskriminan. Metode memvalidasi
fungsi ini disebut sebagai validasi split-sampel atau validasi silang [1, 4, 8, 14].
Tidak ada pedoman yang pasti telah ditetapkan untuk menentukan ukuran relatif dari analisis dan
ketidaksepakatan (atau validasi) sub-sampel. Pendekatan yang paling populer adalah dengan
membagi sampel total sehingga setengah dari responden ditempatkan dalam sampel analisis dan
separuh lainnya ditempatkan dalam sampel ketidaksepakatan. Namun, tidak ada aturan yang
keras dan cepat telah ditetapkan, dan beberapa peneliti lebih suka pemisahan 60-40 atau bahkan
75-25 antara analisis dan kelompok ketidaksepakatan, tergantung pada ukuran sampel
keseluruhan.
Ketika memilih analisis dan sampel penahanan, orang biasanya mengikuti prosedur pengambilan
sampel bertingkat secara proporsional. Asumsikan pertama bahwa peneliti menginginkan 50-50
split. Jika kelompok-kelompok kategorikal untuk analisis diskriminan terwakili secara merata
dalam total sampel, maka estimasi dan sampel holdout harus kira-kira berukuran sama. Jika
kelompok asli tidak sama, ukuran estimasi dan sampel sampel harus proporsional dengan total
distribusi sampel. Misalnya, jika sampel terdiri dari 50 pria dan 50 wanita, estimasi dan sampel
holdout akan memiliki 25 pria dan 25 wanita. Jika sampel berisi 70 wanita dan 30 pria, maka
estimasi dan sampel holdout masing-masing terdiri dari 35 wanita dan 15 pria.
BAGAIMANA JIKA SAMPEL OVERALL TERLALU KECIL?
Jika ukuran sampel terlalu kecil untuk membenarkan pembagian ke dalam analisis dan kelompok
ketidaksepakatan, peneliti memiliki dua opsi. Pertama, kembangkan fungsi pada seluruh sampel
dan kemudian gunakan fungsi untuk mengklasifikasikan kelompok yang sama yang digunakan
untuk mengembangkan fungsi. Prosedur ini menghasilkan bias ke atas dalam akurasi fungsi
prediksi, tetapi tentu saja lebih baik daripada tidak menguji fungsi sama sekali. Kedua, beberapa
teknik yang dibahas dalam tahap 6 dapat melakukan jenis prosedur ketidaksesuaian di mana
fungsi diskriminan diperkirakan berulang kali pada sampel, setiap kali "menahan" pengamatan
yang berbeda. Dalam pendekatan ini, ukuran sampel yang jauh lebih kecil dapat digunakan
karena sampel keseluruhan tidak perlu dibagi menjadi beberapa sampel

TAHAP 3: ASUMSI ANALISIS DISKRIMINAN


Seperti halnya semua teknik multivariat, analisis diskriminan didasarkan pada sejumlah asumsi.
Asumsi-asumsi ini berkaitan dengan proses statistik yang terlibat dalam prosedur estimasi dan
klasifikasi dan masalah yang mempengaruhi interpretasi hasil. Bagian berikut membahas
masing-masing jenis asumsi dan dampaknya terhadap penerapan analisis diskriminan yang tepat.

Dampak pada Estimasi dan Klasifikasi


Asumsi kunci untuk menurunkan fungsi diskriminan adalah normalitas multivariat variabel
independen dan struktur dispersi dan kovarian (matriks) yang tidak diketahui (tetapi sama) untuk
kelompok sebagaimana didefinisikan oleh variabel dependen [7, 9]. Meskipun bukti dicampur
mengenai sensitivitas analisis diskriminan terhadap pelanggaran asumsi ini, peneliti harus selalu
memahami dampak pada hasil yang dapat diharapkan. Selain itu, jika asumsi dilanggar dan
solusi potensial tidak dapat diterima atau tidak mengatasi keparahan masalah, peneliti harus
mempertimbangkan metode alternatif (mis., Regresi logistik).

MENGIDENTIFIKASI PELANGGARAN ASUMSI


Mencapai normalitas univariat variabel individu akan berkali-kali cukup untuk mencapai
normalitas multivariat. Sejumlah tes untuk normalitas tersedia untuk peneliti, bersama dengan
solusi yang sesuai, yang paling sering merupakan transformasi dari variabel.
Masalah dispersi yang sama dari variabel independen (yaitu, matriks kovarians setara) mirip
dengan homoscedasticity antara variabel individu. Tes yang paling umum adalah tes M Box yang
menilai signifikansi perbedaan dalam matriks antara kelompok. Di sini peneliti mencari tingkat
probabilitas yang tidak signifikan yang akan menunjukkan bahwa tidak ada perbedaan antara
matriks kovarian kelompok. Mengingat sensitivitas uji M Box, untuk ukuran matriks kovarians
dan jumlah kelompok dalam analisis, peneliti harus menggunakan tingkat perbedaan signifikan
yang sangat konservatif (misalnya, 0,01 daripada 0,05) ketika menilai apakah ada perbedaan.
hadir Ketika desain penelitian meningkat dalam ukuran sampel atau jumlah kelompok atau
jumlah variabel independen, tingkat signifikansi yang lebih konservatif dapat dianggap dapat
diterima.
DAMPAK TERHADAP ESTIMASI
Data yang tidak memenuhi asumsi normalitas multivariat dapat menyebabkan masalah dalam
estimasi fungsi diskriminan. Pemulihan dimungkinkan melalui transformasi data untuk
mengurangi kesenjangan di antara matriks kovarian. Namun, dalam banyak kasus, solusi ini
tidak efektif. Dalam situasi ini, model harus divalidasi secara menyeluruh. Jika ukuran dependen
adalah biner, regresi logistik harus digunakan jika memungkinkan.
DAMPAK TERHADAP KLASIFIKASI
Matriks kovarians yang tidak sama juga berdampak negatif pada proses klasifikasi. Jika ukuran
sampel kecil dan matriks kovarians tidak sama, maka signifikansi statistik dari proses estimasi
akan terpengaruh. Kasus yang lebih mungkin adalah kovariansi yang tidak sama di antara
kelompok-kelompok dengan ukuran sampel yang memadai, di mana observasi dikelompokkan
secara berlebihan ke dalam kelompok-kelompok dengan matriks kovarian yang lebih besar. Efek
ini dapat diminimalkan dengan meningkatkan ukuran sampel dan juga dengan menggunakan
matriks kovarian kelompok khusus untuk tujuan klasifikasi, tetapi pendekatan ini
mengamanatkan cross-validasi hasil diskriminan. Akhirnya, teknik klasifikasi kuadrat tersedia
dalam banyak program statistik jika terdapat perbedaan besar antara matriks kovarian kelompok
dan solusi yang tidak meminimalkan efeknya [5, 10, 12].
Dampak pada Interpretasi
Karakteristik lain dari data yang mempengaruhi hasil adalah multikolinieritas di antara variabel
independen. Multikolinieritas, diukur dalam hal toleransi, menunjukkan bahwa dua atau lebih
variabel independen sangat berkorelasi, sehingga satu variabel dapat sangat dijelaskan atau
diprediksi oleh variabel lain dan karenanya hanya menambah sedikit kekuatan penjelas dari
seluruh rangkaian. Pertimbangan ini menjadi sangat penting ketika prosedur bertahap diterapkan.
Peneliti, dalam menginterpretasikan fungsi diskriminan, harus menyadari tingkat
multikolinieritas dan dampaknya pada menentukan variabel mana yang memasuki solusi
bertahap.
Seperti halnya dengan teknik multivariat yang menggunakan suatu variasi, asumsi implisit
adalah bahwa semua hubungan adalah linier. Hubungan nonlinier tidak tercermin dalam fungsi
diskriminan kecuali transformasi variabel khusus dibuat untuk mewakili efek nonlinier.
Akhirnya, pencilan dapat memiliki dampak besar pada ketepatan klasifikasi dari setiap hasil
analisis diskriminan. Peneliti didorong untuk memeriksa semua hasil untuk keberadaan pencilan
dan untuk menghilangkan pencilan yang sebenarnya jika diperlukan.

RULE OF THUMB
Desain Analisis Diskriminan
• Variabel dependen harus nonmetrik, mewakili kelompok objek yang diharapkan berbeda pada
variabel independen
• Pilih variabel dependen yang:
• Terbaik mewakili perbedaan kepentingan kelompok
• Menentukan kelompok yang sangat berbeda
• Meminimalkan jumlah kategori sambil tetap memenuhi tujuan penelitian
• Dalam mengonversi variabel metrik ke skala nonmetrik untuk digunakan sebagai variabel
dependen, pertimbangkan untuk menggunakan grup ekstrim untuk memaksimalkan perbedaan
grup
• Variabel independen harus mengidentifikasi perbedaan antara setidaknya dua kelompok untuk
digunakan dalam analisis diskriminan
• Ukuran sampel harus cukup besar untuk:
• Memiliki setidaknya satu pengamatan lebih per kelompok daripada jumlah variabel
independen, tetapi berjuang untuk setidaknya 20 kasus per kelompok
• Maksimalkan jumlah pengamatan per variabel, dengan rasio minimum lima pengamatan per
variabel independen
• Memiliki sampel yang cukup besar untuk membaginya menjadi estimasi dan sampel holdout,
masing-masing memenuhi persyaratan di atas
• Menilai kesetaraan matriks kovarian dengan uji Kotak M, tetapi menerapkan tingkat
signifikansi konservatif 0,01 dan menjadi lebih konservatif karena analisisnya menjadi lebih
kompleks dengan jumlah kelompok yang lebih besar dan / atau variabel independen
• Memeriksa variabel independen untuk normalitas univariat, karena itu adalah solusi paling
langsung untuk memastikan normalitas multivariat dan kesetaraan matriks kovarian
• Multikolinearitas di antara variabel independen dapat secara nyata mengurangi dampak yang
diperkirakan dari variabel independen dalam fungsi diskriminan turunan, khususnya jika proses
estimasi bertahap digunakan

TAHAP 4: ESTIMASI MODEL DISKRIMINAN DAN MENILAI FIT KESELURUHAN


Untuk mendapatkan fungsi diskriminan, peneliti harus memutuskan metode estimasi dan
kemudian menentukan jumlah fungsi yang akan dipertahankan (lihat Gambar 6). Dengan fungsi
yang diperkirakan, kesesuaian model keseluruhan dapat dinilai dalam beberapa cara. Pertama,
skor Z diskriminan, juga dikenal sebagai skor Z, dapat dihitung untuk setiap objek. Perbandingan
rata-rata kelompok (centroid) pada skor Z memberikan satu ukuran diskriminasi antar kelompok.
Keakuratan prediktif dapat diukur sebagai jumlah pengamatan yang diklasifikasikan ke dalam
kelompok yang benar, dengan sejumlah kriteria tersedia untuk menilai apakah proses klasifikasi
mencapai signifikansi praktis atau statistik. Akhirnya, diagnostik santai dapat mengidentifikasi
akurasi klasifikasi masing-masing kasus dan dampak relatifnya pada estimasi model
keseluruhan.
Memilih Metode Estimasi
Tugas pertama dalam menurunkan fungsi diskriminan adalah memilih metode estimasi. Dalam
pembuatan pilihan ini, peneliti harus menyeimbangkan perlunya kontrol atas proses estimasi
versus keinginan untuk kekikiran dalam fungsi diskriminatif. Dua metode yang tersedia adalah
simultan Metode (langsung) dan metode bertahap, masing-masing dibahas selanjutnya.
ESTIMASI SIMULTAN Estimasi simultan melibatkan penghitungan diskriminan berfungsi
sehingga semua variabel independen dipertimbangkan secara bersamaan. Jadi, diskriminan
fungsi dihitung berdasarkan seluruh set variabel independen, terlepas dari kekuatan diskriminatif
dari masing-masing variabel independen. Metode simultan sesuai ketika, karena alasan teoretis,
peneliti ingin memasukkan semua variabel independen dalam analisis dan tidak tertarik melihat
hasil antara hanya berdasarkan pada variabel yang paling diskriminatif.
ESTIMASI STEPWISE
Estimasi bertahap adalah alternatif dari pendekatan simultan. Ini melibatkan memasukkan
variabel independen ke dalam fungsi diskriminan satu per satu pada dasar kekuatan diskriminatif
mereka. Pendekatan bertahap mengikuti proses penambahan berurutan atau menghapus variabel
dengan cara berikut:
1. Pilih satu variabel pembeda terbaik.
2. Pasangkan variabel awal dengan masing-masing variabel independen lainnya, satu per
satu, dan pilih variabel yang paling mampu meningkatkan daya pembeda fungsi dalam
kombinasi dengan variabel pertama.
3. Pilih variabel tambahan dengan cara yang sama. Perhatikan bahwa sebagai variabel
tambahan disertakan, beberapa variabel yang dipilih sebelumnya dapat dihapus jika
informasi yang dikandungnya tentang grup perbedaan tersedia dalam beberapa kombinasi
dari variabel lain yang termasuk pada tahap selanjutnya.
4. Pertimbangkan proses yang diselesaikan ketika semua variabel independen dimasukkan
dalam fungsi atau variabel yang dikecualikan dinilai tidak berkontribusi signifikan
terhadap diskriminasi lebih lanjut.

Metode bertahap berguna ketika peneliti ingin mempertimbangkan jumlah yang relatif besar
variabel independen untuk dimasukkan dalam fungsi. Dengan secara berurutan memilih
pembeda terbaik berikutnya variabel pada setiap langkah, variabel yang tidak berguna dalam
membedakan antara kelompok dihilangkan dan set variabel yang dikurangi diidentifikasi. Set
berkurang biasanya hampir sama baiknya sebagai — dan terkadang lebih baik daripada — set
variabel yang lengkap. Peneliti harus mencatat bahwa estimasi bertahap menjadi kurang stabil
dan dapat digeneralisasi rasio ukuran sampel terhadap variabel independen menurun di bawah
tingkat 20 pengamatan yang direkomendasikan per variabel independen. Sangat penting dalam
hal ini untuk memvalidasi hasil dalam sebanyak mungkin cara.
Signifikansi Statistik
Setelah memperkirakan fungsi diskriminan, peneliti harus menilai tingkat signifikansi untuk
kekuatan diskriminatif kolektif fungsi diskriminan serta signifikansi setiap fungsi diskriminan
terpisah. Mengevaluasi signifikansi keseluruhan memberikan peneliti dengan informasi yang
diperlukan untuk memutuskan apakah akan melanjutkan interpretasi analisis atau jika
respecification diperlukan. Jika model keseluruhan signifikan, maka evaluasi individu fungsi
mengidentifikasi fungsi yang harus dipertahankan dan ditafsirkan.
SIGNIFIKANSI KESELURUHAN
Dalam menilai signifikansi statistik dari keseluruhan model, berbeda kriteria statistik
berlaku untuk prosedur estimasi simultan versus bertahap. Di keduanya situasi, tes statistik
berkaitan dengan kemampuan fungsi diskriminan untuk memperoleh diskriminasi, Skor Z yang
berbeda secara signifikan antara kelompok. Estimasi Serentak. Ketika pendekatan simultan
digunakan, langkah-langkah Wilks ' lambda, jejak Hotelling, dan kriteria Pillai semuanya
mengevaluasi signifikansi statistik dari yang diskriminatif kekuatan fungsi diskriminan. Akar
karakteristik terbesar Roy hanya mengevaluasi yang pertama fungsi diskriminan.
Estimasi bertahap Jika metode bertahap digunakan untuk memperkirakan fungsi
diskriminan, maka Tindakan Mahalanobis D2 dan Rao paling tepat. Keduanya adalah ukuran
jarak umum. Prosedur Mahalanobis D2 didasarkan pada jarak Euclidean kuadrat umum itu
menyesuaikan variasi yang tidak sama. Keuntungan utama dari prosedur ini adalah bahwa itu
dihitung dalam ruang asli dari variabel prediktor alih-alih sebagai versi runtuh yang digunakan
dalam tindakan lain. Prosedur Mahalanobis D2 menjadi sangat penting karena jumlah variabel
predictor meningkat, karena tidak menghasilkan pengurangan dimensi. Hilangnya dimensi akan
menyebabkan hilangnya informasi karena mengurangi variabilitas variabel independen. Secara
umum, Mahalanobis D2 adalah prosedur yang disukai ketika peneliti tertarik pada penggunaan
maksimal informasi yang tersedia dalam proses bertahap.
PENTINGNYA FUNGSI DISKRIMIN INDIVIDUAL
Jika jumlah kelompok adalah tiga atau lebih dari itu, maka peneliti harus memutuskan tidak
hanya apakah diskriminasi antar kelompok secara keseluruhan signifikan secara statistik tetapi
juga apakah masing-masing fungsi diskriminan yang diperkirakan signifikan secara statistik.
Seperti dibahas sebelumnya, analisis diskriminan memperkirakan satu fungsi yang kurang
diskriminatif daripada di sana adalah kelompok. Jika tiga kelompok dianalisis, maka dua fungsi
diskriminan akan diperkirakan; untuk empat kelompok, tiga fungsi akan diperkirakan; dan
seterusnya. Semua program komputer menyediakan peneliti informasi yang diperlukan untuk
memastikan jumlah fungsi yang diperlukan untuk memperoleh signifikansi statistik, tanpa
menyertakan fungsi diskriminan yang tidak meningkatkan kekuatan diskriminatif secara
signifikan.
Kriteria signifikansi konvensional 0,05 atau lebih sering digunakan, namun beberapa
peneliti memperluas tingkat signifikansi yang disyaratkan (mis., .10 atau lebih) berdasarkan
trade-off biaya versus nilai informasi. Jika tingkat risiko yang lebih tinggi untuk memasukkan
hasil yang tidak signifikan (mis., Tingkat signifikansi> .05) dapat diterima, fungsi diskriminan
dapat dipertahankan yang signifikan pada tingkat .2 atau bahkan tingkat .3. Jika satu atau lebih
fungsi dianggap tidak signifikan secara statistik, model diskriminan harus dikaji ulang dengan
jumlah fungsi yang akan diturunkan terbatas pada jumlah yang signifikan fungsi. Dengan cara
ini, penilaian akurasi prediksi dan interpretasi fungsi diskriminan hanya akan didasarkan pada
fungsi signifikan.
Menilai Kecocokan Model Keseluruhan
Setelah fungsi diskriminan yang signifikan telah diidentifikasi, perhatian bergeser untuk
memastikan kesesuaian keseluruhan dari fungsi diskriminan yang dipertahankan. Penilaian ini
melibatkan tiga tugas:
1. Menghitung skor Z diskriminan untuk setiap pengamatan
2. Mengevaluasi perbedaan kelompok pada skor Z diskriminan
3. Menilai akurasi prediksi keanggotaan grup

Skor Z diskriminan dihitung untuk setiap fungsi diskriminan untuk setiap pengamatan
dalam Sampel. Skor diskriminan bertindak sebagai representasi singkat dan sederhana dari setiap
fungsi diskriminan, menyederhanakan proses interpretasi dan penilaian kontribusi independen
variabel. Grup dapat dibedakan berdasarkan skor diskriminannya dan, seperti yang akan kita
lihat, skor skor diskriminan dapat memainkan peran penting dalam memprediksi keanggotaan
grup.
MENGHITUNG SKOR DISKRIMINAN Z
Dengan definisi fungsi diskriminan yang dipertahankan, dasar untuk menghitung skor Z
diskriminan telah ditetapkan. Seperti dibahas sebelumnya, Z skor diskriminan dari setiap fungsi
diskriminan dapat dihitung untuk setiap pengamatan oleh rumus berikut:

ATURAN THUMB 2
Estimasi Model dan Model Fit
 Meskipun estimasi bertahap mungkin terlihat optimal dengan memilih set maksimal yang
paling pelit variabel diskriminatif, waspadalah terhadap dampak multikolinearitas pada
penilaian masing-masing kekuatan diskriminatif variabel
 Keseluruhan model fit menilai signifikansi statistik antara kelompok pada Z yang
diskriminan skor, tetapi tidak menilai akurasi prediksi
 Dengan lebih dari dua kelompok, jangan batasi analisis Anda hanya pada diskriminan
yang signifikan secara statistik fungsi, tetapi pertimbangkan apakah fungsi tidak
signifikan (dengan tingkat signifikansi hingga 0,3) tambahkan kekuatan penjelas.

Skor Z diskriminan, variabel metrik, memberikan cara langsung untuk membandingkan


pengamatan setiap fungsi. Pengamatan dengan skor Z serupa diasumsikan lebih mirip pada
variabel yang membentuk fungsi ini daripada yang memiliki skor berbeda. Fungsi diskriminan
dapat diekspresikan dengan baik bobot dan nilai terstandarisasi atau tidak standar. Versi standar
lebih bermanfaat untuk tujuan interpretasi, tetapi versi yang tidak standar lebih mudah digunakan
dalam menghitung diskriminan Skor Z.
MENGEVALUASI PERBEDAAN KELOMPOK
Begitu skor Z diskriminan dihitung, penilaian pertama dari keseluruhan model fit adalah untuk
menentukan besarnya perbedaan antara anggota masing-masing kelompok dalam hal skor Z
diskriminan. Ukuran ringkasan perbedaan kelompok adalah perbandingan dari centroid grup,
skor Z diskriminan rata-rata untuk semua anggota grup. Ukuran Keberhasilan analisis
diskriminan adalah kemampuannya untuk mendefinisikan fungsi diskriminan yang menghasilkan
secara signifikan centroid kelompok yang berbeda. Perbedaan antara centroid diukur dalam hal
Ukuran Mahalanobis D2, untuk tes yang tersedia untuk menentukan apakah perbedaannya secara
statistik penting. Peneliti harus memastikan bahwa bahkan dengan fungsi diskriminan yang
signifikan, perbedaan signifikan terjadi antara masing-masing kelompok.
Centroid kelompok pada setiap fungsi diskriminan juga dapat diplot untuk menunjukkan
hasilnya dari perspektif grafis. Plot biasanya disiapkan untuk dua atau tiga fungsi diskriminan
pertama (dengan asumsi mereka adalah fungsi yang signifikan secara statistik). Nilai untuk
setiap grup menunjukkan posisinya dalam mengurangi ruang diskriminan (disebut karena tidak
semua fungsi dan dengan demikian tidak semua varians diplot). Peneliti dapat melihat perbedaan
antara kelompok pada setiap fungsi; Namun, inspeksi visual tidak sepenuhnya menjelaskan apa
perbedaan-perbedaan ini. Lingkaran bisa digambar melampirkan distribusi pengamatan di sekitar
pusat massa masing-masing untuk memperjelas perbedaan kelompok lebih lanjut, tetapi prosedur
ini berada di luar cakupan teks ini (lihat Dillon dan Goldstein [3]).
MENILAI AKUR PREDIKSI KEANGGOTAAN KELOMPOK
Mengingat bahwa variabel dependen adalah bukan metrik, tidak mungkin untuk
menggunakan ukuran seperti R2, seperti yang dilakukan dalam regresi berganda, untuk menilai
akurasi prediksi. Sebaliknya, setiap pengamatan harus dinilai apakah benar rahasia. Dalam
melakukannya, beberapa pertimbangan utama harus diatasi:

 Dasar pemikiran statistik dan praktis untuk mengembangkan matriks klasifikasi


 Mengklasifikasikan kasus individual
 Konstruksi matriks klasifikasi
 Standar untuk menilai akurasi klasifikasi

Mengapa Matriks Klasifikasi Dikembangkan.


Tes statistik untuk menilai signifikansi dari fungsi diskriminan hanya menilai tingkat
perbedaan antara kelompok berdasarkan skor Z diskriminan, tetapi tidak menunjukkan seberapa
baik fungsi tersebut memprediksi. Tes statistik ini menderita kelemahan yang sama dengan tes
klasik hipotesis. Misalnya, anggap kedua kelompok dianggap berbeda secara signifikan di luar
level 0,01. Namun dengan ukuran sampel yang cukup besar, berarti grup (centroid) dapat hampir
identik dan masih memiliki signifikansi statistik. Untuk menentukan kemampuan prediksi fungsi
diskriminan, peneliti harus membuat matriks klasifikasi. Prosedur matriks klasifikasi
memberikan perspektif tentang signifikansi praktis daripada signifikansi statistik. Dengan
analisis multi diskriminan, persentase diklasifikasikan dengan benar, juga disebut rasio hit,
mengungkapkan seberapa baik fungsi diskriminan mengklasifikasikan objek. Dengan ukuran
sampel yang cukup besar dalam analisis diskriminan, kita bisa memiliki perbedaan yang
signifikan secara statistik antara dua (atau lebih) kelompok dan dengan benar mengklasifikasikan
hanya 53 persen (bila ada peluang 50%, dengan ukuran grup yang sama) [13]. Dalam hal
demikian, uji statistik akan menunjukkan statistik signifikansi, namun rasio hit akan
memungkinkan penilaian terpisah dibuat dalam hal praktis makna. Dengan demikian, kita harus
menggunakan prosedur matriks klasifikasi untuk menilai akurasi prediksi sekedar signifikansi
statistik.
Mengklasifikasikan Pengamatan Individu. Pengembangan matriks klasifikasi membutuhkan
bahwa setiap pengamatan diklasifikasikan ke dalam salah satu kelompok dari variabel dependen
berdasarkan fungsi diskriminan. Tujuannya adalah untuk mengkarakterisasi setiap pengamatan
pada diskriminan fungsi dan kemudian menentukan sejauh mana pengamatan di setiap kelompok
dapat secara konsisten dijelaskan oleh fungsi diskriminan. Ada dua pendekatan untuk
mengklasifikasikan pengamatan, satu mempekerjakan skor diskriminan secara langsung dan
lainnya mengembangkan fungsi spesifik untuk klasifikasi. Setiap pendekatan akan dibahas dalam
bagian berikut ini serta pentingnya menentukan peran yang dimainkan oleh ukuran sampel untuk
setiap kelompok dalam proses klasifikasi.
Penghitungan Skor Pemotongan Menggunakan fungsi diskriminan yang dianggap
signifikan, dapat dilakukan mengembangkan matriks klasifikasi dengan menghitung skor
pemotongan (juga disebut kritis Nilai Z) untuk setiap fungsi diskriminan. Skor pemotongan
adalah kriteria di mana masing-masing skor diskriminan objek dibandingkan untuk menentukan
ke grup mana objek seharusnya rahasia. Skor pemotongan mewakili titik pemisah yang
digunakan untuk mengklasifikasikan pengamatan menjadi kelompok berdasarkan skor fungsi
diskriminan mereka. Perhitungan skor pemotongan antara dua kelompok didasarkan pada dua
centroid kelompok (rata-rata kelompok dari skor diskriminan) dan ukuran relatif kedua
kelompok. Centroid kelompok mudah dihitung dan disediakan pada setiap tahap proses bertahap.

 Mengembangkan Fungsi Klasifikasi Seperti disebutkan sebelumnya, menggunakan


fungsi diskriminan adalah hanya satu dari dua pendekatan yang mungkin untuk
klasifikasi. Pendekatan kedua menggunakan fungsi klasifikasi, juga dikenal sebagai
fungsi diskriminan linier Fisher. Klasifikasi fungsi, satu untuk setiap kelompok,
digunakan secara ketat untuk mengklasifikasikan pengamatan. Dalam metode ini
klasifikasi, nilai observasi untuk variabel independen dimasukkan dalam klasifikasi
fungsi dan skor klasifikasi untuk masing-masing kelompok dihitung untuk pengamatan
itu.

Pengamatan kemudian diklasifikasikan ke dalam kelompok dengan skor klasifikasi tertinggi.


Menentukan Kemungkinan Sebelumnya. Dampak dan pentingnya ukuran sampel masing-masing
kelompok dalam proses klasifikasi sering diabaikan, namun sangat penting dalam membuat
asumsi yang tepat dalam proses klasifikasi. Apakah ukuran kelompok relatif memberi tahu kita
sesuatu tentang yang diharapkan terjadinya setiap kelompok dalam populasi atau mereka hanya
artefak dari proses pengumpulan data?
Di sini kita prihatin tentang keterwakilan sampel karena berkaitan dengan representasi
ukuran relatif dari kelompok dalam populasi aktual yang sebenarnya, yang dapat dinyatakan
sebagai sebelumnya probabilitas (yaitu, proporsi relatif dari masing-masing kelompok dengan
total sampel).
Pertanyaan mendasarnya adalah: Apakah ukuran kelompok relatif mewakili ukuran
kelompok? populasi? Asumsi default untuk sebagian besar program statistik adalah probabilitas
sebelumnya yang sama; dengan kata lain, setiap kelompok diasumsikan memiliki peluang yang
sama untuk terjadi walaupun ukuran kelompok dalam sampel tidak sama. Jika peneliti tidak
yakin tentang apakah proporsi yang diamati dalam sampel mewakili proporsi populasi,
pendekatan konservatif digunakan probabilitas yang sama. Dalam beberapa kasus, perkiraan
probabilitas sebelumnya mungkin tersedia, misalnya seperti dari penelitian sebelumnya. Di sini
asumsi default probabilitas sama sebelumnya diganti dengan nilai yang ditentukan oleh peneliti.
Dalam kedua contoh, ukuran grup aktual diganti berdasarkan probabilitas yang ditentukan
sebelumnya.
Namun, jika sampel dilakukan secara acak dan peneliti merasa bahwa ukuran kelompok
mewakili populasi, maka peneliti dapat menentukan probabilitas sebelumnya untuk didasarkan
pada sampel estimasi. Dengan demikian, ukuran grup aktual dianggap representatif dan
digunakan secara langsung dalam perhitungan skor pemotongan (lihat diskusi berikut). Dalam
semua kasus, bagaimanapun, peneliti harus menentukan bagaimana probabilitas sebelumnya
dihitung, yang mempengaruhi kelompok ukuran yang digunakan dalam perhitungan seperti yang
diilustrasikan. Misalnya, pertimbangkan sampel penahan yang terdiri dari 200 pengamatan,
dengan ukuran kelompok 60 dan 140 yang berhubungan dengan probabilitas sebelumnya
masing-masing 30 persen dan 70 persen. Jika sampel dianggap representatif, maka ukuran
sampel 60 dan 140 digunakan dalam menghitung skor pemotongan. Namun, jika sampel
dianggap tidak representatif, peneliti harus menentukan probabilitas sebelumnya. Jika mereka
ditetapkan sama (50% dan 50%), ukuran sampel 100 dan 100 akan digunakan dalam perhitungan
skor pemotongan daripada ukuran sampel yang sebenarnya.
Menentukan nilai lain untuk probabilitas sebelumnya akan menghasilkan perbedaan ukuran
sampel untuk dua kelompok.
Menghitung Skor Pemotongan Optimal Pentingnya probabilitas sebelumnya dapat
diilustrasikan dalam perhitungan skor pemotongan “optimal”, yang memperhitungkan
sebelumnya probabilitas melalui penggunaan ukuran grup. Formula dasar untuk menghitung
optimal skor pemotongan antara dua kelompok adalah:

Dengan ukuran grup yang tidak sama, skor pemotongan optimal untuk fungsi diskriminan
sekarang adalah rata-rata tertimbang dari centroid kelompok. Skor pemotongan tertimbang ke
arah yang lebih kecil grup, semoga membuat klasifikasi yang lebih baik dari grup yang lebih
besar. Jika kelompok ditentukan dengan ukuran yang sama (probabilitas sebelumnya
didefinisikan sebagai sama), maka skor pemotongan optimal akan berada di antara dua centroid
kelompok dan menjadi sederhana rata-rata dari dua centroid:

Kedua formula untuk menghitung skor pemotongan optimal mengasumsikan bahwa


distribusi adalah normal dan struktur dispersi kelompok diketahui.
Konsep skor pemotongan optimal untuk kelompok yang sama dan tidak sama
diilustrasikan dalam Angka 7 dan 8, masing-masing. Baik skor pemotongan tertimbang dan tidak
berbobot ditampilkan. Jelas bahwa jika grup A jauh lebih kecil dari grup B, skor pemotongan
optimal akan lebih dekat ke pusat massa kelompok A daripada ke pusat massa kelompok B. Juga,
jika tidak tertimbang skor pemotongan digunakan, tidak ada objek dalam grup A yang akan
diklasifikasi, tetapi substansial sebagian dari mereka dalam kelompok B akan salah
diklasifikasikan.
Biaya Kesalahan Klasifikasi. Skor pemotongan optimal juga harus mempertimbangkan biaya
kesalahan klasifikasi sebuah objek ke grup yang salah. Jika biaya kesalahan klasifikasi kira-kira
sama untuk semua kelompok, skor pemotongan optimal akan menjadi salah satu yang akan
mengklasifikasikan paling sedikit jumlah objek di semua grup. Jika biaya kesalahan klasifikasi
tidak sama, pemotongan optimal skor akan menjadi salah satu yang meminimalkan biaya
kesalahan klasifikasi. Lebih mutakhir pendekatan untuk menentukan skor pemotongan dibahas
dalam Dillon dan Goldstein [3] dan Hubertyet al. [11] Pendekatan-pendekatan ini didasarkan
pada model statistik Bayesian dan sesuai ketika biaya kesalahan klasifikasi ke dalam kelompok-
kelompok tertentu tinggi, ketika kelompok-kelompok itu dari ukuran yang sangat berbeda, atau
ketika seseorang ingin mengambil keuntungan dari pengetahuan apriori tentang keanggotaan
kelompok probabilitas.
Dalam praktiknya, saat menghitung skor pemotongan, tidak perlu memasukkan variabel
mentah pengukuran untuk setiap individu ke dalam fungsi diskriminan dan untuk mendapatkan
diskriminan skor untuk setiap orang untuk digunakan dalam menghitung ZA dan ZB (kelompok
A dan B centroid). Komputer Program akan memberikan skor diskriminan serta ZA dan ZB
sebagai output reguler. Ketika peneliti memiliki centroid kelompok dan ukuran sampel, skor
pemotongan optimal dapat diperoleh hanya mengganti nilai ke dalam formula yang sesuai.

Membangun Matriks Klasifikasi. Untuk memvalidasi fungsi diskriminan melalui


menggunakan matriks klasifikasi, sampel harus dibagi secara acak menjadi dua kelompok. Satu
dari kelompok (sampel analisis) digunakan untuk menghitung fungsi diskriminan. Grup lainnya
(sampel ketidaksepakatan atau validasi) dipertahankan untuk digunakan dalam mengembangkan
matriks klasifikasi. Klasifikasi setiap pengamatan dapat dilakukan melalui salah satu klasifikasi
pendekatan yang dibahas sebelumnya. Untuk pendekatan Fisher, pengamatan diklasifikasikan ke
dalam kelompok dengan skor fungsi klasifikasi terbesar. Saat menggunakan skor diskriminan
dan optimal skor pemotongan, prosedurnya adalah sebagai berikut:

Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks, seperti yang ditunjukkan
pada Tabel 4. Entri pada diagonal matriks mewakili jumlah individu yang diklasifikasikan
dengan benar. angka diagonal mewakili klasifikasi yang salah. Entri di bawah kolom berlabel
"Ukuran Kelompok Aktual" mewakili jumlah individu yang sebenarnya di masing-masing dari
dua kelompok. Itu entri di bagian bawah kolom mewakili jumlah individu yang ditugaskan ke
grup oleh fungsi diskriminan. Persentase yang diklasifikasikan dengan benar untuk masing-
masing kelompok ditampilkan di sebelah kanan sisi matriks, dan persentase keseluruhan
diklasifikasikan dengan benar, juga dikenal sebagai rasio hit, adalah ditunjukkan di bagian
bawah.

Dalam contoh kami, jumlah individu yang ditetapkan dengan benar ke grup 1 adalah 22,
sedangkan 3 anggota dari grup 1 ditugaskan secara tidak benar ke grup 2. Demikian pula, jumlah
klasifikasi yang benar untuk grup 2 adalah 20, dan jumlah tugas yang salah untuk grup 1 adalah
5. Dengan demikian, akurasi klasifikasi persentase fungsi diskriminan untuk kelompok 1 dan 2
yang sebenarnya adalah 88 dan 80 persen, masing-masing. Akurasi klasifikasi keseluruhan (rasio
hit) adalah 84 persen.
Satu topik terakhir mengenai prosedur klasifikasi adalah uji t yang tersedia untuk
menentukan level penting untuk akurasi klasifikasi. Rumus untuk analisis dua kelompok (sampel
yang sama ukuran) adalah

Formula ini dapat disesuaikan untuk digunakan dengan lebih banyak grup dan ukuran
sampel yang tidak sama. Menetapkan Standar Perbandingan untuk Hit Ratio. Seperti disebutkan
sebelumnya, prediksi akurasi fungsi diskriminan diukur oleh rasio hit, yang diperoleh dari
klasifikasi matriks. Peneliti dapat bertanya, Apa yang dianggap sebagai tingkat prediksi yang
dapat diterima akurasi untuk fungsi diskriminan? Misalnya, apakah 60 persen tingkat yang dapat
diterima, atau harusnya satu berharap mendapatkan akurasi prediksi 80 hingga 90 persen? Untuk
menjawab pertanyaan ini, peneliti harus pertama menentukan persentase yang dapat
diklasifikasikan dengan benar secara kebetulan (tanpa bantuan fungsi diskriminan).

 Standar Perbandingan untuk Hit Ratio untuk Ukuran Kelompok yang Sama Ketika
ukuran sampel dari kelompok yang sama, penentuan klasifikasi kesempatan agak
sederhana; ini diperoleh dengan membagi 1 dengan jumlah kelompok. Rumusnya adalah:
Misalnya, untuk fungsi dua kelompok, probabilitas peluang adalah 0,5; untuk tiga
kelompok berfungsi probabilitas kemungkinan menjadi 0,33; Dan seterusnya.

 Standar Perbandingan untuk Hit Ratio untuk Kelompok Tidak Sama Ukuran Penentuan
dari klasifikasi kesempatan untuk situasi di mana ukuran kelompok tidak merata agak
lebih terlibat. Haruskah kita mempertimbangkan hanya kelompok terbesar, probabilitas
gabungan dari semua kelompok ukuran yang berbeda, atau standar lain? Mari kita
asumsikan bahwa kita memiliki total sampel dari 200 pengamatan dibagi menjadi sampel
ketidaksesuaian dan analisis dari 100 pengamatan setiap. Dalam sampel
ketidaksepakatan, 75 subjek milik satu kelompok dan 25 lainnya. Kami akan memeriksa
kemungkinan cara di mana kita dapat membangun standar untuk perbandingan dan apa
masing-masing mewakili.
 Disebut sebagai kriteria peluang maksimum, kami dapat secara sewenang-wenang
menetapkan semua subjek kelompok terbesar. Kriteria peluang maksimum harus
digunakan ketika satu-satunya tujuan analisis diskriminan adalah untuk memaksimalkan
persentase yang diklasifikasikan dengan benar. Itu juga yang paling standar konservatif
karena akan menghasilkan standar perbandingan tertinggi. Namun, situasi di mana kami
hanya memperhatikan tentang memaksimalkan persentase yang diklasifikasikan dengan
benar jarang. Biasanya peneliti menggunakan analisis diskriminan untuk
mengidentifikasi anggota dengan benar semua kelompok. Dalam kasus di mana ukuran
sampel tidak sama dan peneliti ingin mengklasifikasikan anggota semua kelompok,
fungsi diskriminan menentang peluang dengan mengklasifikasikan subjek dalam
kelompok yang lebih kecil. Kriteria peluang maksimum tidak memperhitungkan fakta ini.

Dalam contoh sederhana kami dari sampel dengan dua kelompok (masing-masing 75 dan 25
orang), gunakan metode ini akan menetapkan akurasi klasifikasi 75 persen, apa yang akan
dicapai dengan mengklasifikasikan setiap orang ke dalam kelompok terbesar tanpa bantuan
fungsi yang diskriminatif. Itu dapat disimpulkan bahwa kecuali fungsi diskriminan mencapai
akurasi klasifikasi lebih tinggi dari 75 persen, itu harus diabaikan karena tidak membantu kami
meningkatkan akurasi prediksi yang dapat kita capai tanpa menggunakan analisis diskriminan
sama sekali.

 Ketika ukuran kelompok tidak sama dan peneliti ingin mengidentifikasi anggota
dengan benar semua kelompok, bukan hanya kelompok terbesar, kriteria peluang
proporsional dianggap oleh banyak orang menjadi yang paling tepat. Rumus untuk
kriteria ini adalah
Menggunakan ukuran grup dari contoh kami sebelumnya (75 dan 25), kami melihat proporsional
kriteria kebetulan adalah 62,5 persen [.752 + (1.0 - .75) 2 = .625] dibandingkan dengan 75
persen. Oleh karena itu, dalam hal ini, akurasi prediksi aktual 75 persen mungkin dapat diterima
karena berada di atas kriteria peluang proporsional 62,5 persen.

 Masalah dengan baik peluang maksimum atau kriteria peluang proporsional adalah
sampel ukuran yang digunakan untuk menghitung standar. Apakah Anda
menggunakan ukuran grup dari sampel keseluruhan, sampel analisis / estimasi, atau
sampel validasi / ketidaksepakatan? Beberapa saran:
 Jika ukuran sampel dari analisis dan estimasi masing-masing sampel dianggap cukup
besar (mis., total sampel 100 dengan masing-masing kelompok memiliki setidaknya
20 kasus), berasal terpisah standar untuk setiap sampel.
 Jika sampel terpisah tidak dianggap cukup besar, gunakan ukuran grup dari total
sampel dalam menghitung standar.
 Waspadai perbedaan ukuran kelompok antar sampel saat menggunakan peluang
maksimum. Kriteria, karena tergantung pada ukuran kelompok terbesar. Pedoman ini
khususnya kritis ketika ukuran sampel kecil atau ketika proporsi ukuran kelompok
sangat bervariasi sampel ke sampel. Merupakan alasan lain untuk berhati-hati dalam
menggunakan kesempatan maksimum kriteria.
 Kriteria model kesempatan ini hanya berguna jika dihitung dengan sampel penahan
(sampel terpisah) pendekatan). Jika individu yang digunakan dalam menghitung
fungsi diskriminan adalah yang sedang diklasifikasikan, hasilnya akan menjadi bias
ke atas dalam akurasi prediksi. Dalam kasus seperti itu, keduanya, kriteria ini harus
disesuaikan ke atas untuk memperhitungkan bias ini.

Membandingkan Hit Ratio dengan Standar. Pertanyaan “Seberapa tinggi klasifikasi? Akurasi
harus? " sangat penting. Jika persentase klasifikasi yang benar secara signifikan lebih besar dari
akan diharapkan secara kebetulan, peneliti dapat melanjutkan dalam menafsirkan fungsi
diskriminan dan profil grup. Namun, jika akurasi klasifikasi tidak lebih besar dari yang dapat
diharapkan secara kebetulan, perbedaan apa pun yang tampak ada sebenarnya hanya pantas
ditafsirkan sedikit atau tidak sama sekali; yaitu perbedaan skor profil tidak akan memberikan
informasi yang berarti untuk mengidentifikasi keanggotaan grup.
Pertanyaannya adalah, seberapa tinggi akurasi klasifikasi harus relatif terhadap
kebetulan? Untuk contoh, jika peluang adalah 50 persen (dua kelompok, ukuran sampel sama),
lakukan klasifikasi (prediksi) akurasi 60 persen dibenarkan pindah ke tahap interpretasi? Pada
akhirnya, keputusan tergantung pada biaya relatif terhadap nilai informasi. Argumen biaya versus
nilai menawarkan sedikit bantuan untuk peneliti data orang baru, tetapi kriteria berikut
disarankan: Klasifikasi akurasi harus setidaknya seperempat lebih besar dari yang dicapai secara
kebetulan. Misalnya, jika akurasi kesempatan 50 persen, akurasi klasifikasi harus 62,5 persen
(62,5% = 1,25 × 50%). Jika keakuratan kesempatan adalah 30 persen, ketepatan klasifikasi
seharusnya 37,5 persen (37,5% = 1,25 × 30%). Kriteria ini hanya memberikan perkiraan kasar
tingkat akurasi prediksi yang dapat diterima. Kriteria ini mudah diterapkan dengan kelompok
dengan ukuran yang sama. Dengan kelompok dengan ukuran yang tidak sama, batas atas tercapai
ketika model peluang maksimum digunakan untuk menentukan akurasi peluang. Itu tidak
menyajikan masalah yang terlalu besar, namun, karena dalam sebagian besar keadaan, peluang
maksimum. Model tidak akan digunakan dengan ukuran grup yang tidak sama.
Rasio Hit Keseluruhan versus Kelompok-Khusus. Untuk titik ini, kami fokus pada evaluasi
keseluruhan hit rasio di semua kelompok dalam menilai akurasi prediksi analisis diskriminan.
Peneliti juga harus peduli dengan rasio hit (persen diklasifikasikan dengan benar) untuk masing-
masing terpisah kelompok. Jika Anda hanya berfokus pada rasio hit keseluruhan, ada
kemungkinan satu atau lebih grup, khususnya kelompok yang lebih kecil, mungkin memiliki
rasio hit yang tidak dapat diterima sementara rasio hit keseluruhan dapat diterima. Peneliti harus
mengevaluasi hit rasio masing-masing kelompok dan menilai apakah analisis diskriminan
memberikan tingkat akurasi prediksi yang memadai baik di tingkat keseluruhan maupun untuk
masing-masing kelompok.
Ukuran Berdasarkan Statistik Akurasi Klasifikasi Relatif terhadap Peluang.
Statistik Tes untuk kekuatan diskriminatif dari matriks klasifikasi bila dibandingkan dengan
model kesempatan Tekan statistik Q. Ukuran sederhana ini membandingkan jumlah klasifikasi
yang benar dengan total ukuran sampel dan jumlah kelompok. Nilai yang dihitung kemudian
dibandingkan dengan kritis value (nilai chi-square untuk 1 derajat kebebasan pada tingkat
kepercayaan yang diinginkan). Jika melebihi ini nilai kritis, maka matriks klasifikasi dapat
dianggap secara statistik lebih baik daripada kebetulan. Itu
Statistik Q dihitung dengan rumus berikut:
Nilai kritis pada tingkat signifikansi 0,01 adalah 6,63. Jadi, kita akan menyimpulkan itu dalam
contoh prediksi secara signifikan lebih baik daripada kebetulan, yang akan memiliki tingkat
klasifikasi yang benar 50 persen.
Tes sederhana ini sensitif terhadap ukuran sampel; sampel besar lebih cenderung
menunjukkan signifikansi dari ukuran sampel kecil dengan tingkat klasifikasi yang sama.
Misalnya, jika ukuran sampel ditingkatkan menjadi 100 dalam contoh dan tingkat klasifikasi
tetap di 84 persen, statistik Q meningkat menjadi 46,24. Jika ukuran sampel meningkat menjadi
200, tetapi mempertahankan tingkat klasifikasi 84 persen, statistik Q meningkat lagi menjadi
92,48. Tetapi jika ukuran sampel hanya 20 dan tingkat kesalahan klasifikasi masih 84 persen (17
prediksi yang benar), statistik Q hanya akan menjadi 9,8. Dengan demikian, periksa statistik Q
mengingat ukuran sampel karena peningkatan ukuran sampel akan meningkatkan statistik Q
bahkan untuk tingkat klasifikasi keseluruhan yang sama.
Orang harus berhati-hati dalam menarik kesimpulan hanya berdasarkan statistik ini,
karena, karena ukuran sampel menjadi lebih besar, tingkat klasifikasi yang lebih rendah masih
akan dianggap signifikan.
Diagnostik Santai
Cara terakhir untuk menilai kesesuaian model adalah dengan memeriksa hasil prediksi
berdasarkan kasus per kasus. Mirip dengan analisis residu dalam regresi berganda, tujuannya
adalah untuk memahami mana pengamatan (1) telah salah diklasifikasikan dan (2) tidak
mewakili anggota kelompok yang tersisa. Meskipun matriks klasifikasi menyediakan akurasi
klasifikasi keseluruhan, itu tidak merinci hasil kasus individu. Juga, bahkan jika kita dapat
menunjukkan kasus mana yang benar atau salah terklasifikasi, kita masih membutuhkan ukuran
kesamaan pengamatan dengan sisa kelompok.
MISKLASIFIKASI KASUS INDIVIDU Ketika menganalisis residu dari regresi berganda
analisis, keputusan penting melibatkan pengaturan tingkat residu dianggap substantif dan layak
mendapat perhatian. Dalam analisis diskriminan, masalah ini agak sederhana karena pengamatan
diklasifikasikan dengan benar atau salah. Semua program komputer memberikan informasi itu
mengidentifikasi kasus mana yang salah diklasifikasikan dan kepada kelompok mana mereka
salah diklasifikasikan. Peneliti dapat mengidentifikasi tidak hanya kasus-kasus dengan kesalahan
klasifikasi, tetapi representasi langsung dari tipe kesalahan klasifikasi kesalahan.
Menganalisis KASUS-KASUS YANG DISISKLASIFIKASI Tujuan mengidentifikasi dan
menganalisa kesalahan klasifikasi pengamatan adalah untuk mengidentifikasi karakteristik
pengamatan ini yang dapat dimasukkan ke dalam analisis diskriminan untuk meningkatkan
akurasi prediksi. Analisis ini dapat berbentuk profil kasus-kasus kesalahan klasifikasi pada
variabel independen atau variabel lain yang tidak termasuk dalam model.
Profiling pada Variabel Independen. Meneliti kasus-kasus ini pada variabel independen dapat
mengidentifikasi tren nonlinier atau hubungan atau atribut lain yang menyebabkan kesalahan
klasifikasi.
Beberapa teknik sangat sesuai dalam analisis diskriminan:
Representasi grafis dari pengamatan mungkin merupakan pendekatan paling sederhana
namun efektif untuk memeriksa karakteristik pengamatan, terutama pengamatan yang tidak
diklasifikasikan. Pendekatan yang paling umum adalah merencanakan pengamatan berdasarkan
skor Z diskriminan mereka dan menggambarkan tumpang tindih antara kelompok dan kasus-
kasus yang tidak diklasifikasikan. Jika dua atau lebih fungsi dipertahankan, titik pemotongan
optimal juga dapat digambarkan untuk memberikan apa yang dikenal sebagai peta teritorial yang
menggambarkan daerah yang sesuai dengan masing-masing kelompok.
• Merencanakan pengamatan individu bersama dengan centroid kelompok, seperti yang dibahas
sebelumnya menunjukkan tidak hanya karakteristik kelompok umum yang digambarkan dalam
centroid, tetapi juga variasinya dalam anggota grup. Ini analog dengan area yang didefinisikan
dalam contoh tiga kelompok di awal bab ini, di mana pemotongan skor pada kedua fungsi
didefinisikan area sesuai dengan prediksi klasifikasi untuk setiap kelompok.
• Penilaian empiris langsung tentang kesamaan pengamatan dengan anggota kelompok lainnya
dapat dibuat dengan mengevaluasi jarak pengamatan D2 Mahalanobis ke kelompok centroid.
Berdasarkan himpunan variabel independen, pengamatan lebih dekat ke centroid memiliki yang
lebih kecil Mahalanobis D2 dan dianggap lebih mewakili kelompok daripada yang lebih jauh.
• Namun, ukuran empiris harus dikombinasikan dengan analisis grafis, karena meskipun nilai D2
Mahalanobis besar memang menunjukkan pengamatan yang sangat berbeda dari pada centroid
grup, ini tidak selalu mengindikasikan kesalahan klasifikasi. Misalnya, dalam dua kelompok
situasi, anggota grup A mungkin memiliki jarak Mahalanobis D2 yang besar, menunjukkan itu
kurang mewakili kelompok. Namun, jika jarak itu jauh dari kelompok B centroid, maka itu
benar-benar akan meningkatkan peluang klasifikasi yang benar, meskipun kurang perwakilan
grup. Jarak yang lebih kecil yang menempatkan pengamatan di antara keduanya centroid
mungkin akan memiliki probabilitas yang lebih rendah untuk klasifikasi yang benar, meskipun
demikian lebih dekat ke centroid kelompoknya daripada situasi sebelumnya.

ATURAN THUMB 3
Menilai Kecocokan Model dan Akurasi Prediktif

 Matriks klasifikasi dan rasio hit menggantikan R2 sebagai ukuran kecocokan model:
 Menilai rasio hit baik secara keseluruhan maupun berdasarkan kelompok
 Jika estimasi dan analisis sampel melebihi 100 kasus dan masing-masing kelompok
melebihi 20 kasus, Mendapatkan standar terpisah untuk setiap sampel; jika tidak,
dapatkan satu standar dari keseluruhan sampel
 Beberapa kriteria digunakan untuk perbandingan dengan rasio hit:
 Kriteria peluang maksimum untuk mengevaluasi rasio hit adalah yang paling konservatif,
memberikan nilai dasar tertinggi untuk dilampaui
 Berhati-hatilah dalam menggunakan kriteria peluang maksimum dalam situasi dengan
sampel keseluruhan kurang dari 100 dan / atau ukuran grup di bawah 20
 Kriteria peluang proporsional mempertimbangkan semua kelompok dalam menetapkan
standar perbandingan dan merupakan yang paling populer
 Akurasi prediksi aktual (rasio hit) harus melebihi nilai kriteria paling sedikit 25 persen
 Menganalisis pengamatan yang salah klasifikasi baik secara grafis (peta wilayah) maupun
secara empiris (Mahalanobis D2)

Meskipun tidak ada analisis yang ditentukan ditetapkan, seperti ditemukan dalam regresi
berganda. Peneliti didorong untuk mengevaluasi kasus-kasus kesalahan klasifikasi ini dari
beberapa perspektif dalam upaya untuk mengungkap fitur unik yang mereka miliki dibandingkan
dengan anggota grup mereka yang lain.
TAHAP 5: INTERPRETASI HASIL
Jika fungsi diskriminan signifikan secara statistik dan akurasi klasifikasi dapat diterima,
peneliti harus fokus pada membuat interpretasi substantif dari temuan. Proses ini melibatkan
memeriksa fungsi diskriminan untuk menentukan kepentingan relatif masing-masing independen
variabel dalam membedakan antara kelompok. Tiga metode penentuan kerabat kepentingan telah
diusulkan:
1. Bobot diskriminan terstandarisasi
2. Pembebanan diskriminatif (korelasi struktur)
3. Nilai-nilai F parsial

Bobot Diskriminan
Pendekatan tradisional untuk menafsirkan fungsi diskriminan memeriksa tanda dan
besarnya dari bobot diskriminan terstandarisasi (juga disebut sebagai koefisien diskriminan)
yang ditugaskan untuk setiap variabel dalam menghitung fungsi diskriminan. Ketika tanda
diabaikan, masing-masing berat mewakili kontribusi relatif dari variabel terkait dengan fungsi
itu. Variabel independen dengan bobot yang relatif lebih besar berkontribusi lebih banyak pada
kekuatan diskriminasi fungsi daripada variabel dengan bobot lebih kecil. Tanda hanya
menunjukkan bahwa variabel membuat kontribusi positif atau negatif.
Interpretasi bobot diskriminan analog dengan interpretasi bobot beta di analisis regresi
dan karena itu tunduk pada kritik yang sama. Misalnya, berat yang kecil mungkin menunjukkan
bahwa variabel yang sesuai tidak relevan dalam menentukan suatu hubungan atau yang
dimilikinya telah diasingkan dari hubungan karena tingkat multikolinieritas yang tinggi. Masalah
lain dengan menggunakan bobot diskriminan adalah bahwa mereka tunduk pada ketidakstabilan
yang cukup besar. Masalah ini menyarankan kehati-hatian dalam menggunakan bobot untuk
menafsirkan hasil analisis diskriminan.
Pemuatan Diskriminan
Pemuatan diskriminatif, yang kadang-kadang disebut sebagai korelasi struktur, semakin
sering digunakan sebagai dasar untuk interpretasi karena kekurangan dalam memanfaatkan
bobot. Mengukur linear sederhana korelasi antara masing-masing variabel independen dan fungsi
diskriminan, diskriminan beban mencerminkan varians yang dimiliki oleh variabel independen
dengan fungsi diskriminan. Dalam hal itu mereka dapat diartikan seperti faktor loading dalam
menilai kontribusi relatif setiap variabel independen ke fungsi diskriminan. Satu karakteristik
unik dari pemuatan adalah bahwa pemuatan dapat dihitung untuk semua variabel, apakah mereka
digunakan dalam estimasi fungsi diskriminan atau tidak. Aspek ini khususnya berguna ketika
prosedur estimasi bertahap digunakan dan beberapa variabel tidak termasuk dalam fungsi
diskriminan. Daripada tidak memiliki cara untuk memahami dampak relatifnya, pemuatan
memberikan efek relatif dari setiap variabel pada ukuran umum.
Dengan pemuatan, pertanyaan utamanya adalah: Nilai apa yang harus dimuat untuk
dipertimbangkan diskriminator substantif yang layak dicatat? Dalam analisis diskriminan
simultan atau bertahap, variabel yang menunjukkan pemuatan; .40 atau lebih tinggi dianggap
substantif. Dengan bertahap prosedur, penentuan ini ditambah karena teknik mencegah tidak
signifikan variabel memasuki fungsi. Namun, multikolinearitas dan faktor-faktor lain dapat
menghalangi variabel dari memasukkan persamaan, yang tidak selalu berarti bahwa ia tidak
memiliki efek substansial.
Pemuatan yang diskriminatif (seperti bobot) dapat dikenakan ketidakstabilan. Pemuatan
dipertimbangkan relatif lebih valid daripada bobot sebagai alat untuk menafsirkan kekuatan
diskriminatif independen variabel karena sifat korelasional mereka. Peneliti masih harus berhati-
hati saat menggunakan memuat untuk menafsirkan fungsi diskriminan.
Nilai F Parsial
Seperti dibahas sebelumnya, dua pendekatan komputasi — secara simultan dan bertahap
dapat dimanfaatkan dalam menurunkan fungsi diskriminan. Ketika metode bertahap dipilih,
berarti tambahan menafsirkan kekuatan diskriminatif relatif dari variabel independen tersedia
melalui penggunaan nilai-nilai F parsial. Ini dicapai dengan memeriksa ukuran absolut dari nilai
F yang signifikan dan peringkat mereka. Nilai F yang besar menunjukkan kekuatan diskriminatif
yang lebih besar. Dalam praktiknya, peringkat menggunakan pendekatan nilai F sama dengan
peringkat yang diperoleh dari menggunakan bobot diskriminan, tetapi nilai-nilai F menunjukkan
tingkat signifikansi yang terkait untuk setiap variabel.
Interpretasi Dua atau Lebih Fungsi
Dalam kasus dua atau lebih fungsi diskriminan yang signifikan, kita dihadapkan dengan
masalah tambahan penafsiran. Pertama, dapatkah kita menyederhanakan bobot atau pemuatan
yang diskriminatif untuk memfasilitasi pembuatan profil dari masing-masing fungsi? Kedua,
bagaimana kita mewakili dampak dari setiap variabel di semua fungsi?
Masalah-masalah ini ditemukan baik dalam mengukur efek diskriminatif total antar
fungsi dan dalam menilai peran masing-masing variabel dalam membuat profil setiap fungsi
secara terpisah. Kami menjawab dua pertanyaan ini dengan memperkenalkan konsep rotasi
fungsi, indeks potensi, dan peregangan representasi vektor.
ROTASI FUNGSI DISKRIMINAN Setelah fungsi diskriminan dikembangkan, mereka dapat
diputar untuk mendistribusikan varian. Pada dasarnya, rotasi mempertahankan struktur asli dan
keandalan solusi diskriminan sambil membuat fungsi lebih mudah untuk ditafsirkan secara
substantif.
Dalam kebanyakan kasus, rotasi VARIMAX digunakan sebagai dasar untuk rotasi.

INDEKS POTENSI Sebelumnya, kami membahas penggunaan bobot standar atau


pembebanan diskriminan sebagai ukuran kontribusi variabel terhadap fungsi diskriminan. Ketika
dua atau lebih fungsi diturunkan, namun, ukuran komposit atau ringkasan berguna dalam
menggambarkan kontribusi variabel di semua fungsi signifikan. Indeks potensi adalah ukuran
relatif di antara semua variabel dan merupakan indikasi kekuatan diskriminatif masing-masing
variabel. Ini Termasuk kontribusi dari variabel ke fungsi diskriminan (pembebanan
diskriminannya) dan kontribusi relatif dari fungsi tersebut untuk solusi keseluruhan (ukuran
relatif antara fungsi berdasarkan nilai eigen). Komposit hanyalah jumlah dari indeks potensi
individu di semua diskriminan yang signifikan fungsi. Interpretasi ukuran gabungan terbatas,
bagaimanapun, oleh fakta bahwa itu berguna hanya dalam menggambarkan posisi relatif (seperti
urutan peringkat) dari masing-masing variabel, dan nilai absolut tidak memiliki arti yang nyata.
Indeks potensi dihitung dengan proses dua langkah:
Langkah 1: Hitung nilai potensi setiap variabel untuk setiap fungsi yang signifikan. Pada
langkah pertama, kekuatan diskriminatif suatu variabel, diwakili oleh nilai kuadrat dari yang
tidak diputar pembebanan diskriminan, “dibobot” oleh kontribusi relatif dari fungsi diskriminan
untuk solusi keseluruhan. Pertama, ukuran nilai eigen relatif untuk masing-masing signifikan
fungsi diskriminan dihitung hanya sebagai:

Langkah 2: Hitung indeks potensi komposit di semua fungsi signifikan. Sekali nilai potensi telah
calcula

Indeks potensi sekarang mewakili efek diskriminasi total dari variabel di semua fungsi
diskriminan yang signifikan. Namun, ini hanya ukuran relatif, dan nilai absolutnya tidak
memiliki makna substantif. Contoh penghitungan indeks potensi tersedia di tiga kelompok
contoh untuk analisis diskriminan.
DISPLAY GRAFIS DARI SKOR DAN LOADING DISKRIMINAN
Untuk menggambarkan perbedaan kelompok pada variabel prediktor, peneliti dapat
menggunakan dua pendekatan berbeda untuk tampilan grafis. Itu peta wilayah memplot kasus-
kasus individual pada fungsi-fungsi diskriminan yang signifikan untuk memungkinkan peneliti
untuk menilai posisi relatif setiap pengamatan berdasarkan fungsi diskriminan skor. Pendekatan
kedua adalah merencanakan pembebanan diskriminan untuk memahami pengelompokan relatif
dan besarnya setiap pemuatan pada setiap fungsi. Setiap pendekatan akan dibahas lebih rinci
dalam bagian berikut.
Peta Teritorial. Metode grafis yang paling umum adalah peta teritorial, di mana masing-masing
pengamatan diplot dalam tampilan grafis berdasarkan skor Z fungsi diskriminan sspengamatan.
Sebagai contoh, asumsikan bahwa analisis diskriminan tiga kelompok memiliki dua signifikan
fungsi diskriminan. Peta teritorial dibuat dengan memplot setiap Z pengamatan yang
diskriminatif skor untuk fungsi diskriminan pertama pada sumbu X dan skor untuk diskriminan
kedua berfungsi pada sumbu Y. Karena itu, ia memberikan beberapa perspektif tentang analisis:

 Memplot anggota masing-masing grup dengan simbol yang berbeda memungkinkan


penggambaran yang mudah kekhasan masing-masing kelompok serta tumpang tindih satu
sama lain.
 Merencanakan sentroid masing-masing kelompok menyediakan cara untuk menilai setiap
anggota kelompok relatif terhadap centroid kelompoknya. Prosedur ini sangat berguna
ketika menilai apakah besar Tindakan Mahalanobis D2 menyebabkan kesalahan
klasifikasi.
 Garis yang mewakili skor pemotongan juga dapat diplot, menunjukkan batas-batas yang
menggambarkan rentang skor diskriminan diprediksi ke masing-masing kelompok.
Anggota grup mana pun yang berada di luar batas-batas ini salah diklasifikasikan.
Mendenotasikan kasus yang salah diklasifikasikan memungkinkan untuk menilai fungsi
diskriminan mana yang paling bertanggung jawab atas kesalahan klasifikasi serta sejauh
mana suatu kasus salah diklasifikasikan.

Vektor Bidang Pemuatan Diskriminan. Pendekatan grafis paling sederhana untuk


menggambarkan diskriminan memuat adalah untuk merencanakan muatan yang diputar atau
tidak diputar pada grafik. Pendekatan yang disukai adalah untuk merencanakan pemuatan yang
diputar. Mirip dengan penggambaran grafis pemuatan faktor, metode ini menggambarkan sejauh
mana masing-masing variabel dikaitkan dengan masing-masing fungsi diskriminan.
Namun, pendekatan yang bahkan lebih akurat melibatkan merencanakan pemuatan dan
penggambaran vektor untuk setiap pemuatan dan centroid grup. Vektor hanyalah garis lurus yang
diambil dari titik asalnya (tengah) grafik ke koordinat dari pembebanan atau grup diskriminan
variabel tertentu centroid. Dengan representasi vektor yang memanjang, panjang masing-masing
vektor menjadi indikasi kepentingan relatif dari masing-masing variabel dalam membedakan
antar kelompok. Prosedur merencanakan hasil dalam tiga langkah:
1. Memilih variabel: Semua variabel, apakah termasuk dalam model sebagai signifikan atau
tidak, mungkin diplot sebagai vektor. Dengan cara ini, pentingnya variabel collinear yang
tidak termasuk, misalnya seperti pada solusi bertahap, masih bisa digambarkan.
2. Meregangkan vektor: Setiap pembebanan diskriminan variabel diregangkan dengan
mengalikannya pembebanan diskriminan (lebih disukai setelah rotasi) dengan nilai F
univariat masing-masing. Kami perhatikan bahwa vektor menunjuk ke arah kelompok
yang memiliki rata-rata tertinggi pada masing-masing prediktor dan jauh dari kelompok
yang memiliki skor rata-rata terendah.
3. Merencanakan centroid grup: Centroid grup juga direntangkan dalam prosedur ini dengan
mengalikan mereka dengan perkiraan nilai F yang terkait dengan setiap fungsi
diskriminan. Jika beban diregangkan, centroid harus diregangkan juga untuk
merencanakannya secara akurat grafik yang sama. Perkiraan nilai F untuk setiap fungsi
diskriminan diperoleh oleh rumus berikut:

Sebagai contoh, asumsikan bahwa sampel 50 pengamatan dibagi menjadi tiga kelompok.
Itu pengganda dari setiap nilai eigen adalah (50 - 3) ÷ (3 - 1) = 23.5. Ketika selesai, peneliti
memiliki penggambaran pengelompokan variabel pada setiap diskriminan fungsi, besarnya
pentingnya setiap variabel (diwakili oleh panjang masing-masing vektor), dan profil masing-
masing kelompok centroid (ditunjukkan oleh kedekatan masing-masing vektor). Meskipun
prosedur ini harus dilakukan secara manual dalam banyak kasus, ini memberikan gambaran
lengkap dari keduanya pemuatan diskriminan dan centroid grup. Untuk detail lebih lanjut tentang
prosedur ini, lihat Dillon dan Goldstein [3].
Metode Penafsiran Yang Digunakan?
Beberapa metode untuk menafsirkan sifat fungsi diskriminan telah dibahas, keduanya
solusi fungsi tunggal dan ganda. Metode mana yang harus digunakan? Pendekatan memuat
adalah lebih valid daripada penggunaan bobot dan harus digunakan sedapat mungkin.
Penggunaan univariate dan sebagian nilai F memungkinkan peneliti untuk menggunakan
beberapa langkah dan mencari beberapa konsistensi dalam evaluasi variabel. Jika dua atau lebih
fungsi diperkirakan, maka peneliti dapat menggunakan beberapa teknik grafis dan indeks
potensi, yang membantu dalam menafsirkan multidimensi larutan. Poin paling mendasar adalah
bahwa peneliti harus menggunakan semua metode yang tersedia untuk sampai pada interpretasi
paling akurat.
TAHAP 6: VALIDASI HASIL
Tahap akhir dari analisis diskriminan melibatkan memvalidasi hasil diskriminan untuk
diberikan jaminan bahwa hasilnya memiliki validitas eksternal maupun internal. Dengan
kecenderungan diskriminan analisis untuk mengembang hit rasio jika dievaluasi hanya pada
sampel analisis, validasi adalah penting langkah. Selain memvalidasi rasio hit, peneliti harus
menggunakan profil grup untuk memastikan bahwa mean kelompok adalah indikator valid dari
model konseptual yang digunakan dalam memilih independen variabel.
Prosedur Validasi
Validasi adalah langkah penting dalam setiap analisis diskriminan karena sering kali,
terutama dengan sampel yang lebih kecil, hasilnya bisa kurang generalisasi (validitas eksternal).
Yang paling umum pendekatan untuk membangun validitas eksternal adalah penilaian rasio hit.
Validasi dapat terjadi baik dengan sampel terpisah (sampel holdout) atau memanfaatkan prosedur
yang berulang kali memproses sampel estimasi. Validitas eksternal didukung ketika rasio hit dari
pendekatan yang dipilih melebihi standar perbandingan yang mewakili akurasi prediksi yang
diharapkan secara kebetulan (lihat diskusi sebelumnya).
MENGGUNAKAN SAMPEL HOLDOUT
Paling sering validasi rasio hit dilakukan oleh membuat sampel penahan, juga disebut
sebagai sampel validasi. Tujuan memanfaatkan contoh penundaan untuk tujuan validasi adalah
untuk melihat seberapa baik fungsi diskriminan bekerja sampel pengamatan yang tidak
digunakan untuk mendapatkan fungsi diskriminan. Proses ini melibatkan mengembangkan fungsi
diskriminan dengan sampel analisis dan kemudian menerapkannya pada ketidaksepakatan
Sampel. Pembenaran untuk membagi sampel total menjadi dua kelompok adalah bahwa bias ke
atas akan terjadi dalam akurasi prediksi fungsi diskriminan jika individu digunakan dalam
mengembangkan matriks klasifikasi sama dengan yang digunakan dalam menghitung fungsi;
yaitu, akurasi klasifikasi akan lebih tinggi daripada yang valid ketika diterapkan pada estimasi
Sampel.
Peneliti lain telah menyarankan bahwa kepercayaan yang lebih besar dapat ditempatkan
dalam validitas fungsi diskriminan dengan mengikuti prosedur ini beberapa kali [14]. Alih-alih
secara acak membagi sampel total menjadi kelompok analisis dan kelompok ketidaksesuaian
satu kali, peneliti akan secara acak membagi total sampel menjadi analisis dan sampel bertahan
beberapa kali, setiap kali pengujian validitas fungsi diskriminan melalui pengembangan matriks
klasifikasi dan rasio hit. Kemudian beberapa rasio hit akan dirata-rata untuk mendapatkan ukuran
tunggal.
VALIDASI LINTAS Pendekatan validasi silang untuk menilai validitas eksternal dilakukan
dengan beberapa himpunan bagian dari total sampel [2, 3]. Pendekatan yang paling banyak
digunakan adalah pisau lipat metode. Validasi silang didasarkan pada prinsip "biarkan-keluar".
Penggunaan paling umum dari ini metode adalah untuk memperkirakan k - 1 subsamples,
menghilangkan satu pengamatan pada satu waktu dari sampel k kasus. Fungsi diskriminan
dihitung untuk setiap subsampel dan kemudian perkiraan keanggotaan grup observasi yang
dihilangkan dibuat dengan fungsi diskriminan yang diperkirakan pada kasing yang tersisa.
Setelah semua prediksi keanggotaan grup dibuat, satu per satu, matriks klasifikasi dibangun dan
rasio hit dihitung.
Validasi silang cukup sensitif terhadap ukuran sampel kecil. Pedoman menyarankan itu
hanya digunakan ketika ukuran kelompok terkecil setidaknya tiga kali jumlah variabel prediktor,
dan sebagian besar peneliti menyarankan rasio 5: 1 [11]. Namun, validasi silang dapat mewakili
satu-satunya pendekatan validasi yang mungkin dalam kasus di mana sampel asli terlalu kecil
untuk bagilah ke dalam analisis dan sampel sampel tetapi masih melebihi pedoman yang sudah
dibahas.
Validasi silang juga menjadi lebih banyak digunakan sebagai program komputer utama
menyediakannya sebagai opsi program.
Perbedaan Grup Profiling
Teknik validasi lainnya adalah membuat profil grup pada variabel independen untuk
memastikannya korespondensi dengan basis konseptual yang digunakan dalam formulasi model
asli. Setelah Peneliti mengidentifikasi variabel independen yang memberikan kontribusi terbesar
dalam diskriminasi antar kelompok, langkah selanjutnya adalah membuat profil karakteristik
kelompok berdasarkan kelompok cara. Profil ini memungkinkan peneliti untuk memahami
karakter masing-masing kelompok sesuai dengan variabel prediktor.
Sebagai contoh, merujuk pada data survei KitchenAid yang disajikan pada Tabel 1, kita
melihat bahwa peringkat rata-rata pada "daya tahan" untuk kelompok "akan membeli" adalah
7,4, sedangkan rata-rata yang sebanding peringkat pada "daya tahan" untuk kelompok "tidak
akan membeli" adalah 3,2. Demikianlah profil dari dua kelompok ini menunjukkan bahwa
kelompok "akan membeli" menilai daya tahan yang dirasakan dari produk baru secara
substansial lebih tinggi daripada grup "tidak akan membeli".
Pendekatan lain adalah membuat profil grup pada set variabel terpisah yang harus
mencerminkan perbedaan kelompok yang diamati. Profil terpisah ini memberikan penilaian
validitas eksternal dalam hal itu kelompok-kelompok bervariasi pada variabel independen dan
sekumpulan variabel terkait.

ATURAN THUMB 4
Menafsirkan dan Memvalidasi Fungsi Diskriminan

 Pemuatan diskriminatif adalah metode yang lebih disukai untuk menilai kontribusi setiap
variabel terhadap fungsi diskriminan karena mereka adalah:
 Ukuran standar kepentingan (mulai dari 0 hingga 1)
 Tersedia untuk semua variabel independen baik digunakan dalam proses estimasi atau
tidak
 Tidak terpengaruh oleh multikolinieritas
 Muatan yang melebihi ± 0,40 dianggap substantif untuk tujuan interpretasi
 Dalam hal ada lebih dari satu fungsi diskriminan, pastikan untuk:
 Gunakan pemuatan yang diputar
 Menilai kontribusi setiap variabel di semua fungsi dengan indeks potensi
 Fungsi diskriminan harus divalidasi dengan sampel ketidaksepakatan atau salah satu dari
“cuti-oneout” Prosedur
CONTOH ILLUSTRATIF DUA-KELOMPOK
Untuk menggambarkan penerapan analisis diskriminan dua kelompok, kami
menggunakan variabel yang diambil dari database penelitian konsumen fiksi untuk perusahaan
bernama HBAT. Contoh ini memeriksa masing-masing enam tahap proses pembuatan model
menjadi masalah penelitian yang sangat cocok untuk beragam analisis diskriminan.
Tahap 1: Tujuan Analisis Diskriminan
Salah satu karakteristik pelanggan yang diperoleh HBAT dalam survei adalah variabel
kategori (X4) yang mengindikasikan wilayah di mana perusahaan itu berada: AS / Amerika Utara
atau Amerika Utara. Tim manajemen HBAT tertarik pada perbedaan persepsi di antara para
pelanggan tersebut terletak dan dilayani oleh tenaga penjualan mereka yang berbasis di AS
versus mereka yang berada di luar Amerika Serikat yang dilayani terutama oleh distributor
independen. Meskipun ada perbedaan yang ditemukan dalam hal masalah dukungan penjualan
dengan sifat tenaga penjualan yang melayani setiap wilayah geografis, tim manajemen tertarik
untuk melihatnya apakah bidang operasi lain (lini produk, harga, dll.) dipandang berbeda antara
keduanya dua set pelanggan. Pertanyaan ini mengikuti kebutuhan yang jelas oleh manajemen
untuk selalu berusaha menjadi lebih baik memahami pelanggan mereka, dalam hal ini dengan
berfokus pada perbedaan yang mungkin terjadi antara geografis area. Jika ada persepsi HBAT
ditemukan berbeda secara signifikan antara perusahaan di kedua daerah, perusahaan kemudian
akan dapat mengembangkan strategi untuk memperbaiki kekurangan yang dirasakan dan
mengembangkan strategi yang berbeda untuk mengakomodasi persepsi yang berbeda.
Untuk melakukan itu, analisis diskriminan dipilih untuk mengidentifikasi persepsi
tentang HBAT yang terbaik membedakan perusahaan di setiap wilayah geografis
Tahap 2: Desain Penelitian untuk Analisis Diskriminan
Tahap desain penelitian berfokus pada tiga masalah utama: memilih variabel dependen
dan independen, menilai kecukupan ukuran sampel untuk analisis yang direncanakan, dan
membagi sampel untuk keperluan validasi.
PEMILIHAN VARIABEL TERGANTUNG DAN INDEPENDEN
Analisis diskriminatif membutuhkan ukuran nonmetric dependen tunggal dan satu atau
lebih ukuran independen metrik yang terpengaruh untuk memberikan diferensiasi antara
kelompok berdasarkan ukuran dependen.
Karena variabel dependen Region (X4) adalah variabel kategori dua kelompok,
diskriminan Analisis adalah teknik yang tepat. Survei mengumpulkan persepsi tentang HBAT
yang sekarang dapat digunakan untuk itu membedakan antara dua kelompok perusahaan.
Analisis diskriminan menggunakan variabel independen sebagai variabel 13 variabel persepsi
dari basis data (X6 ke X18) untuk membedakan antara perusahaan di setiap wilayah geografis.
UKURAN SAMPEL Mengingat ukuran sampel HBAT yang relatif kecil (100 pengamatan),
masalah ukuran sampel sangat penting, terutama pembagian sampel menjadi analisis dan sampel
sampel (lihat diskusi di bagian berikutnya). Sampel dari 100 pengamatan, ketika dipecah menjadi
analisis dan sampel holdout 60 dan 40 masing-masing, hampir tidak memenuhi rasio pengamatan
minimum 5: 1 untuk independen variabel (60 pengamatan untuk 13 variabel independen
potensial) dalam sampel analisis. Meskipun rasio ini akan meningkat menjadi hampir 8: 1 jika
sampel tidak dibagi, itu dianggap lebih penting memvalidasi hasil daripada meningkatkan jumlah
pengamatan dalam sampel analisis.
Dua kelompok ukuran 26 dan 34 dalam sampel estimasi juga melebihi ukuran minimum
20 pengamatan per kelompok. Akhirnya, kedua kelompok cukup sebanding ukurannya untuk
tidak merugikan berdampak baik pada estimasi atau proses klasifikasi.
DIVISI SAMPEL Diskusi sebelumnya menekankan perlunya memvalidasi yang diskriminatif
berfungsi dengan membagi sampel menjadi dua bagian, satu digunakan untuk estimasi dan
validasi lainnya.
Setiap kali sampel penahan digunakan, peneliti harus memastikan bahwa ukuran sampel
yang dihasilkan adalah cukup untuk mendukung jumlah prediktor yang dimasukkan dalam
analisis. Basis data HBAT memiliki 100 pengamatan; diputuskan bahwa sampel penahanan dari
40 pengamatan akan cukup untuk keperluan validasi. Perpecahan ini masih menyisakan 60
pengamatan estimasi fungsi diskriminan. Selain itu, ukuran kelompok relatif dalam sampel
estimasi (26 dan 34 dalam dua kelompok) akan memungkinkan untuk estimasi tanpa komplikasi
karena nyata ukuran kelompok yang berbeda.
Penting untuk memastikan keacakan dalam pemilihan sampel ketidaksepakatan sehingga
pemesanan apa pun dari pengamatan tidak mempengaruhi proses estimasi dan validasi. Kartu
kontrol diperlukan untuk pemilihan sampel ketidaksepakatan dan kinerja diskriminan dua
kelompok analisis ditampilkan di Web di www.pearsonhighered.com/hair atau
www.mvstats.com.
Tahap 3: Asumsi Analisis Diskriminan
Asumsi utama yang mendasari analisis diskriminan melibatkan pembentukan variate atau
fungsi diskriminan (normalitas, linieritas, dan multikolinieritas) dan estimasi diskriminan fungsi
(varian yang sama dan matriks kovarian). Untuk tujuan ilustrasi kami tentang diskriminan
analisis, asumsi-asumsi ini dipenuhi pada tingkat yang dapat diterima. Sebagian besar program
statistik memiliki satu atau lebih uji statistik untuk asumsi kovarians yang sama atau matriks
dispersi. Tes yang paling umum adalah Box M. Dalam contoh dua kelompok ini, pentingnya
perbedaan dalam matriks kovarians antara kedua kelompok adalah 0,011. Meskipun signifikansi
kurang dari 0,05 (dalam tes ini peneliti melihat untuk nilai-nilai di atas tingkat signifikansi yang
diinginkan), sensitivitas pengujian terhadap faktor selain dari adil perbedaan kovarians (mis.,
normalitas variabel dan peningkatan ukuran sampel) menjadikan ini sebagai tingkat yang dapat
diterima.
Tidak ada solusi tambahan yang diperlukan sebelum estimasi fungsi diskriminan dapat
dilakukan dilakukan.
Tahap 4: Estimasi Model Diskriminan dan Menilai Kesesuaian Keseluruhan
Peneliti memiliki pilihan dua pendekatan estimasi (simultan versus stepwise) di
menentukan variabel independen yang termasuk dalam fungsi diskriminan. Begitu estimasi
Pendekatan dipilih, proses menentukan komposisi fungsi diskriminan tunduk persyaratan
signifikansi statistik yang ditentukan oleh peneliti. Tujuan utama dari analisis ini adalah untuk
mengidentifikasi set variabel independen (HBAT Persepsi) yang secara maksimal membedakan
antara dua kelompok pelanggan. Jika himpunan variabel persepsi lebih kecil atau tujuannya
hanya untuk menentukan kemampuan membedakan dari seluruh rangkaian variabel persepsi,
tanpa memperhatikan dampak dari persepsi individu, maka pendekatan simultan memasukkan
semua variabel langsung ke diskriminan fungsi akan digunakan. Tetapi dalam hal ini, bahkan
dengan pengetahuan multikolinieritas antara variabel persepsi terlihat dalam melakukan analisis
faktor, pendekatan bertahap dianggap paling sesuai. Kita harus mencatat, bahwa
multikolinearitas dapat mempengaruhi variabel mana yang masuk
fungsi diskriminan dan karenanya memerlukan perhatian khusus dalam proses interpretasi.
MENILAI PERBEDAAN KELOMPOK
Mari kita mulai penilaian kita tentang diskriminasi dua kelompok analisis dengan memeriksa
Tabel 5, yang menunjukkan rata-rata kelompok untuk masing-masing variabel independen,
berdasarkan 60 pengamatan yang merupakan sampel analisis. Dalam membuat profil kedua
kelompok, pertama-tama kita dapat mengidentifikasi lima variabel dengan perbedaan terbesar
dalam artinya grup (X6, X11, X12, X13, dan X17). Tabel 5 juga menunjukkan lambda Wilks dan
univariate ANOVA digunakan untuk menilai signifikansi antara rata-rata variabel independen
untuk keduanya kelompok. Tes ini menunjukkan bahwa kelima variabel persepsi juga merupakan
satu-satunya variabel dengan signifikan perbedaan univariat antara kedua kelompok. Akhirnya,
nilai D2 Mahalanobis minimum
Akhirnya, nilai minimum Mahalanobis D2 juga diberikan. Nilai ini penting karena ini
adalah ukuran yang digunakan untuk memilih variabel untuk masuk proses estimasi bertahap.
Karena hanya dua kelompok yang terlibat, nilai D2 terbesar juga dimiliki perbedaan paling
signifikan antara kelompok-kelompok (perhatikan bahwa hal yang sama belum tentu demikian
dengan tiga atau lebih banyak kelompok, di mana perbedaan besar antara dua kelompok mana
pun mungkin tidak menghasilkan yang terbesar perbedaan keseluruhan di semua kelompok,
seperti yang akan ditunjukkan dalam contoh tiga kelompok).
Mengkaji perbedaan kelompok mengarah pada pengidentifikasian lima variabel persepsi
(X6, X11, X12, X13, dan X17) sebagai sekumpulan kandidat yang paling logis untuk masuk ke
dalam analisis diskriminan. Pengurangan yang ditandai ini dari 13 variabel persepsi yang lebih
besar memperkuat keputusan untuk menggunakan proses estimasi bertahap.
Untuk mengidentifikasi mana dari lima variabel ini, ditambah yang lain, yang paling
membedakan kelompok, kita harus memperkirakan fungsi diskriminan.
ESTIMASI FUNGSI DISKRIMINAN Prosedur bertahap dimulai dengan semua variabel
dikeluarkan dari model dan kemudian memilih variabel yang
1) Menunjukkan perbedaan yang signifikan secara statistik di seluruh grup (0,05 atau
kurang diperlukan untuk masuk).
2) Memberikan jarak Mahalanobis (D2) terbesar antara kelompok.
Proses ini terus memasukkan variabel dalam fungsi diskriminan selama mereka memberikan
diskriminasi tambahan yang signifikan secara statistik antara kelompok di luar perbedaan yang
sudah diperhitungkan oleh variabel dalam fungsi diskriminan. Pendekatan ini mirip dengan
proses bertahap dalam regresi berganda, yang menambahkan variabel dengan peningkatan
signifikan dalam varian yang dijelaskan dari variabel dependen. Juga, dalam kasus di mana dua
atau lebih variabel dimasukkan ke dalam model, variabel yang sudah ada dalam model dievaluasi
untuk kemungkinan penghapusan. Suatu variabel dapat dihapus jika terdapat multikolinieritas
tinggi di antara variabel tersebut dan variabel independen lainnya yang disertakan sehingga
signifikansinya berada di bawah tingkat signifikansi untuk dihilangkan.
Estimasi Stepwise: Menambahkan Variabel Pertama X13. Dari ulasan kami tentang
perbedaan kelompok, kami melihat bahwa X13 memiliki perbedaan signifikan terbesar antara
kelompok dan D2 Mahalanobis terbesar (lihat Tabel 5). Dengan demikian, X13 dimasukkan
sebagai variabel pertama dalam prosedur bertahap (lihat Tabel 6). Karena hanya satu variabel
yang masuk dalam model diskriminan pada saat ini, tingkat signifikansi dan ukuran perbedaan
kelompok cocok dengan tes univariat.
Setelah X13 memasuki model, variabel yang tersisa dievaluasi berdasarkan kemampuan
diskriminasi tambahan mereka (perbedaan rata-rata kelompok setelah varians yang terkait
dengan X13 dihapus). Sekali lagi, variabel dengan tingkat signifikansi lebih besar dari 0,05
dihilangkan dari pertimbangan untuk masuk pada langkah berikutnya.

Setelah X13 memasuki model, variabel yang tersisa dievaluasi berdasarkan kemampuan
diskriminasi tambahan mereka (perbedaan rata-rata kelompok setelah varians yang terkait
dengan X13 dihapus). Sekali lagi, variabel dengan tingkat signifikansi lebih besar dari 0,05
dihilangkan dari pertimbangan untuk masuk pada langkah berikutnya.
Seperti yang ditunjukkan pada bagian terakhir dari Tabel 6, tiga variabel (X6, X11, dan
X17) dengan jelas memenuhi kriteria tingkat signifikansi 0,05 untuk dipertimbangkan pada tahap
berikutnya. X17 tetap menjadi kandidat terbaik berikutnya untuk masuk ke model karena ia
memiliki Mahalanobis D2 tertinggi (4,300) dan F terbesar untuk memasukkan nilai. Namun,
variabel lain (mis., X11) memiliki pengurangan substansial dalam tingkat signifikansinya dan D2
Mahalanobis dari yang ditunjukkan pada Tabel 5 karena satu variabel dalam model (X13).
Estimasi Stepwise: Menambahkan Variabel Kedua X17. Pada langkah 2 (lihat Tabel 7),
X17 memasuki model seperti yang diharapkan. Model keseluruhan adalah signifikan (F =
31.129) dan meningkatkan diskriminasi antar kelompok yang dibuktikan dengan penurunan
Wilks 'lambda dari 0,645 menjadi 0,478. Selain itu, kekuatan pembeda dari kedua variabel yang
termasuk pada titik ini juga signifikan secara statistik (nilai F sebesar 20.113 untuk X13 dan
19.863 untuk X17). Dengan kedua variabel signifikan secara statistik, prosedur bergerak untuk
memeriksa variabel yang tidak dalam persamaan untuk calon potensial untuk dimasukkan dalam
fungsi diskriminan berdasarkan pada diskriminasi tambahan mereka di antara kelompok.
X11 adalah variabel berikutnya yang memenuhi persyaratan untuk dimasukkan, tetapi
tingkat signifikansi dan kemampuan membedakannya telah berkurang secara substansial karena
multikolinieritas dengan X13 dan X17 sudah ada dalam fungsi diskriminan. Paling terlihat
adalah peningkatan yang ditandai dalam Mahalanobis D2 dari hasil univariat di mana masing-
masing variabel dianggap secara terpisah. Dalam kasus X11, nilai D2 minimum meningkat dari
1.731 (lihat Tabel 5) menjadi 5.045 (lihat Tabel 7), yang mengindikasikan penyebaran dan
pemisahan kelompok dengan X13 dan X17 yang sudah ada dalam fungsi diskriminan. Perhatikan
bahwa X18 hampir identik dalam kekuatan diskriminasi yang tersisa, tetapi X11 akan masuk
pada langkah ketiga karena sedikit keuntungannya.
Estimasi Stepwise: Menambahkan X11 Variabel Ketiga. Tabel 8 mengulas hasil langkah
ketiga dari proses bertahap, di mana X11 memasuki fungsi diskriminan. Hasil keseluruhan masih
signifikan secara statistik dan terus meningkat dalam diskriminasi, sebagaimana dibuktikan
dengan penurunan nilai lambda Wilks '(dari 0,478 menjadi 0,438). Namun perlu dicatat bahwa
penurunannya jauh lebih kecil daripada yang ditemukan ketika variabel kedua (X17)
ditambahkan ke fungsi diskriminan. Dengan X13, X17, dan X11 semuanya signifikan secara
statistik, prosedur bergerak untuk mengidentifikasi setiap kandidat yang tersisa untuk
dimasukkan.
Seperti yang terlihat pada bagian terakhir dari Tabel 8, tidak satupun dari 10 variabel
independen yang lulus kriteria masuk untuk signifikansi statistik 0,05. Setelah X11 dimasukkan
dalam persamaan, kedua variabel yang tersisa yang memiliki perbedaan univariat yang signifikan
di seluruh kelompok (X6 dan X12) memiliki kekuatan diskriminatif tambahan yang relatif
sedikit dan tidak memenuhi kriteria entri. Dengan demikian, proses estimasi berhenti dengan tiga
variabel (X13, X17, dan X11) yang merupakan fungsi diskriminan.
Ringkasan Proses Estimasi Stepwise. Tabel 9 memberikan keseluruhan hasil analisis
diskriminan bertahap setelah semua variabel signifikan dimasukkan dalam estimasi fungsi
diskriminan. Tabel ringkasan ini menjelaskan tiga variabel (X11, X13, dan X17) yang merupakan
diskriminator signifikan berdasarkan nilai Wilks 'lambda dan minimum Mahalanobis D2 mereka.
Sejumlah hasil berbeda disediakan untuk mengatasi kecocokan keseluruhan model dan
dampak dari variabel tertentu.

 Langkah multivariat dari keseluruhan model fit dilaporkan di bawah judul "Fungsi
Diskriminan Canonical." Perhatikan bahwa fungsi diskriminan sangat signifikan (0,000)
dan menampilkan korelasi kanonik 0,749. Kami menafsirkan korelasi ini dengan
mengkuadratkannya (.749) 2 = .561. Dengan demikian, 56,1 persen dari varians dalam
variabel dependen (X4) dapat diperhitungkan (dijelaskan) oleh model ini, yang hanya
mencakup tiga variabel independen.
 Koefisien fungsi diskriminan standar disediakan, tetapi kurang disukai untuk tujuan
interpretasi daripada pembebanan diskriminan. Koefisien diskriminan tidak standar
digunakan untuk menghitung skor Z diskriminan yang dapat digunakan dalam klasifikasi.

 Pemuatan diskriminan dilaporkan di bawah judul "Matriks Struktur" dan dipesan dari
tertinggi ke terendah berdasarkan ukuran pemuatan. Pemuatan dibahas kemudian di
bawah fase interpretasi (Tahap 5).

 Koefisien fungsi klasifikasi, juga dikenal sebagai fungsi diskriminan linear Fisher,
digunakan dalam klasifikasi dan dibahas kemudian.
 Centroid kelompok juga dilaporkan, dan mereka mewakili rata-rata skor fungsi
diskriminan individu untuk masing-masing kelompok. Centroid kelompok memberikan
ukuran ringkasan dari posisi relatif masing-masing kelompok pada fungsi diskriminan.
Dalam hal ini, Tabel 9 mengungkapkan bahwa centroid grup untuk perusahaan di AS /
Amerika Utara (grup 0) adalah -1.273, sedangkan centroid grup untuk perusahaan di luar
Amerika Utara (grup 1) adalah .973. Untuk menunjukkan bahwa rata-rata keseluruhan
adalah 0, kalikan angka dalam setiap kelompok dengan centroid-nya dan tambahkan
hasilnya (mis., 26 × –1.273 + 34 × .973 = 0.0).
Hasil keseluruhan model dapat diterima berdasarkan signifikansi statistik dan praktis.
Namun, sebelum melanjutkan ke interpretasi hasil, peneliti perlu menilai akurasi klasifikasi dan
memeriksa hasil santai.
MENILAI AKURASI KLASIFIKASI Dengan keseluruhan model yang signifikan secara
statistik dan menjelaskan 56 persen variasi antara kelompok (lihat diskusi sebelumnya dan Tabel
9), kami bergerak untuk menilai akurasi prediksi fungsi diskriminan. Dalam contoh ini, kami
akan menggambarkan penggunaan skor diskriminan dan skor pemotongan untuk tujuan
klasifikasi. Dalam melakukannya, kita harus menyelesaikan tiga tugas:
1) Hitung skor pemotongan, kriteria yang dengannya setiap pengamatan skor Z
diskriminan dinilai untuk menentukan kelompok mana yang harus diklasifikasikan.
2) Klasifikasi setiap pengamatan dan kembangkan matriks klasifikasi untuk analisis dan
sampel sampel.
3) Menilai tingkat akurasi prediksi dari matriks klasifikasi untuk signifikansi statistik
dan praktis.
Meskipun pemeriksaan sampel holdout dan akurasi prediktifnya sebenarnya dilakukan
pada tahap validasi, hasilnya dibahas sekarang untuk memudahkan perbandingan antara estimasi
dan sampel holdout.
Menghitung Skor Pemotongan. Peneliti pertama-tama harus menentukan bagaimana
probabilitas klasifikasi sebelumnya ditentukan, baik berdasarkan ukuran kelompok yang
sebenarnya (dengan asumsi mereka mewakili populasi) atau ditentukan oleh peneliti, paling
sering ditentukan sama dengan konservatif dalam proses klasifikasi .
Dalam sampel analisis dari 60 pengamatan ini, kita tahu bahwa variabel dependen terdiri
dari dua kelompok, 26 perusahaan yang berlokasi di Amerika Serikat dan 34 perusahaan di luar
Amerika Serikat. Jika kita tidak yakin apakah proporsi populasi diwakili oleh sampel, maka kita
harus menggunakan probabilitas yang sama. Namun, karena sampel perusahaan kami diambil
secara acak, kami dapat yakin bahwa sampel ini mencerminkan proporsi populasi. Dengan
demikian, analisis diskriminan ini menggunakan proporsi sampel untuk menentukan probabilitas
sebelumnya untuk tujuan klasifikasi.
Setelah menentukan probabilitas sebelumnya, skor pemotongan optimal dapat dihitung.
Karena dalam situasi ini kelompok diasumsikan representatif, perhitungan menjadi rata-rata
tertimbang dari dua centroid grup (lihat Tabel 9 untuk nilai centroid grup):

Pengamatan Klasifikasi dan Membangun Matriks Klasifikasi. Setelah skor


pemotongan dihitung, setiap pengamatan dapat diklasifikasikan dengan membandingkan skor
diskriminannya skor pemotongan. Prosedur untuk mengklasifikasikan perusahaan dengan skor
pemotongan optimal adalah sebagai berikut:

 Klasifikasikan perusahaan sebagai kelompok 0 (Amerika Serikat / Amerika Utara) jika


skor diskriminannya kurang dari –2.997.

 Klasifikasi perusahaan sebagai kelompok 1 (Di luar Amerika Serikat) jika skor
diskriminannya lebih besar dari –2.997.
Matriks klasifikasi untuk pengamatan dalam analisis dan sampel sampel dihitung, dan
hasilnya ditunjukkan pada Tabel 10. Tabel 11 berisi skor diskriminan untuk setiap pengamatan
serta nilai keanggotaan grup aktual dan prediksi. Perhatikan bahwa kasus dengan skor
diskriminan kurang dari –2997 memiliki nilai keanggotaan grup yang diprediksi 0, sedangkan
yang dengan skor di atas –2997 memiliki nilai prediksi 1. Sampel analisis, dengan akurasi
prediksi 86,7 persen, sedikit lebih tinggi dari akurasi 85,0 persen dari sampel ketidaksepakatan,
seperti yang diantisipasi. Selain itu, sampel yang divalidasi silang mencapai akurasi prediksi 83,3
persen.
Mengevaluasi Akurasi Klasifikasi yang Dicapai. Meskipun semua ukuran akurasi
klasifikasi cukup tinggi, proses evaluasi membutuhkan perbandingan dengan akurasi klasifikasi
dalam serangkaian ukuran berbasis peluang. Langkah-langkah ini mencerminkan peningkatan
model diskriminan bila dibandingkan dengan mengklasifikasikan individu tanpa menggunakan
fungsi diskriminan. Mengingat bahwa keseluruhan sampel adalah 100 pengamatan dan ukuran
kelompok dalam sampel ketidaksepakatan / validasi kurang dari 20, kami akan menggunakan
sampel keseluruhan untuk menetapkan standar perbandingan.
Ukuran pertama adalah kriteria peluang proporsional, yang mengasumsikan bahwa biaya
kesalahan klasifikasi adalah sama (mis., Kami ingin mengidentifikasi anggota setiap kelompok
dengan baik). Kriteria peluang proporsional adalah:
Grup pelanggan yang berlokasi di Amerika Serikat (grup 0) merupakan 39,0 persen dari
sampel analisis (39/100), dengan grup kedua mewakili pelanggan yang berlokasi di luar Amerika
Serikat (grup 1) membentuk 61,0 persen sisanya (61/100) ). Nilai peluang proporsional yang
dihitung adalah 0,524 (0,3902 + 0,6102 = 0,524).
Kriteria peluang maksimum hanyalah persentase yang diklasifikasikan dengan benar jika
semua pengamatan ditempatkan dalam kelompok dengan probabilitas kejadian terbesar. Ini
mencerminkan standar kami yang paling konservatif dan mengasumsikan tidak ada perbedaan
dalam biaya kesalahan klasifikasi juga.
Karena grup 1 (pelanggan di luar Amerika Serikat) adalah grup terbesar di 61,0 persen
dari sampel, kita akan benar 61,0 persen dari waktu jika kita menugaskan semua pengamatan ke
grup ini. Jika kita memilih kriteria peluang maksimum sebagai standar evaluasi, model kita harus
mengungguli tingkat akurasi klasifikasi 61,0 persen agar dapat diterima.
Untuk memastikan signifikansi praktis, akurasi klasifikasi yang dicapai harus melebihi
standar perbandingan yang dipilih sebesar 25 persen. Jadi, kita harus memilih standar
perbandingan, menghitung ambang, dan membandingkan rasio hit yang dicapai.
Semua tingkat akurasi klasifikasi (rasio hit) melebihi 85 persen, yang jauh lebih tinggi
daripada kriteria peluang proporsional 52,4 persen dan kriteria peluang maksimum 61,0 persen.
Ketiga rasio hit juga melampaui ambang batas yang disarankan dari nilai-nilai ini (standar
perbandingan ditambah 25 persen), yang dalam hal ini adalah 65,5 persen (52,4% × 1,25 =
65,5%) untuk peluang proporsional dan 76,3 persen (61,0% × 1,25 = 76,3 %) untuk peluang
maksimum. Dalam semua contoh (sampel analisis, sampel penahan, dan validasi silang), tingkat
akurasi klasifikasi secara substansial lebih tinggi dari nilai ambang batas, yang menunjukkan
tingkat akurasi klasifikasi yang dapat diterima. Selain itu, rasio hit untuk masing-masing
kelompok juga dianggap memadai.
Ukuran terakhir dari akurasi klasifikasi adalah Press's Q, yang merupakan ukuran
berbasis statistik yang membandingkan akurasi klasifikasi dengan proses acak. Dari pembahasan
sebelumnya, perhitungan untuk sampel estimasi adalah:

Dalam kedua contoh, nilai yang dihitung melebihi nilai kritis 6.63. Dengan demikian,
akurasi klasifikasi untuk analisis dan, yang lebih penting, sampel ketidaksepakatan melebihi
pada tingkat signifikan secara statistik akurasi klasifikasi yang diharapkan secara kebetulan.
MENGHASILKAN DIAGNOSTIK Selain memeriksa hasil keseluruhan, kita dapat
memeriksa pengamatan individu untuk akurasi prediksi mereka dan mengidentifikasi secara
spesifik kasus-kasus kesalahan klasifikasi. Dengan cara ini, kita dapat menemukan kasus-kasus
spesifik yang salah diklasifikasi untuk masing-masing kelompok pada kedua sampel analisis dan
sampel ketidaksepakatan serta melakukan analisis tambahan profil untuk kasus-kasus yang salah
diklasifikasikan.
Tabel 11 berisi prediksi kelompok untuk analisis dan sampel sampel dan memungkinkan
kami untuk mengidentifikasi kasus spesifik untuk setiap jenis kesalahan klasifikasi yang
ditabulasikan dalam matriks klasifikasi (lihat Tabel 10). Untuk sampel analisis, tujuh pelanggan
yang berlokasi di luar Amerika Serikat salah diklasifikasikan menjadi kelompok pelanggan di
Amerika Serikat dapat diidentifikasi sebagai kasus 3, 94, 49, 64, 24, 53, dan 32. Demikian juga,
pelanggan tunggal yang berlokasi di Amerika Serikat tetapi kesalahan klasifikasi diidentifikasi
sebagai kasus 43. Pemeriksaan serupa dapat dilakukan untuk sampel ketidaksepakatan.
Setelah kasus kesalahan klasifikasi diidentifikasi, analisis lebih lanjut dapat dilakukan
untuk memahami alasan kesalahan klasifikasi mereka. Pada Tabel 12, kasus-kasus kesalahan
klasifikasi digabungkan dari analisis dan sampel ketidaksepakatan dan kemudian dibandingkan
dengan kasus yang diklasifikasikan dengan benar. Upaya ini adalah untuk mengidentifikasi
perbedaan spesifik pada variabel independen yang dapat mengidentifikasi variabel baru yang
akan ditambahkan atau karakteristik umum yang harus dipertimbangkan.
Lima kasus (baik sampel analisis dan sampel tidak lengkap) dikelompokkan secara keliru
di antara pelanggan Amerika Serikat (grup 0) menunjukkan perbedaan yang signifikan pada dua
dari tiga variabel independen dalam fungsi diskriminan (X13 dan X17) serta satu variabel yang
tidak dalam fungsi diskriminan ( X6). Untuk variabel yang tidak ada dalam fungsi diskriminan,
profil kasus-kasus kesalahan klasifikasi tidak sama dengan kelompok mereka yang benar;
dengan demikian, ini tidak membantu dalam klasifikasi. Demikian juga, sembilan kasus
kesalahan klasifikasi kelompok 1 (di luar Amerika Serikat) menunjukkan empat perbedaan
signifikan (X6, X11, X13, dan X17), tetapi hanya X6 yang tidak dalam fungsi diskriminan. Kita
dapat melihat bahwa di sini X6 bekerja melawan akurasi klasifikasi karena case yang salah
diklasifikasikan lebih mirip dengan grup yang salah daripada grup yang benar.
Temuan menunjukkan bahwa kasus-kasus kesalahan klasifikasi dapat mewakili kelompok
ketiga yang berbeda, karena mereka berbagi profil yang sangat mirip di seluruh variabel ini lebih
daripada yang mereka lakukan dengan dua kelompok yang ada. Manajemen dapat menganalisis
grup ini pada variabel tambahan atau menilai apakah pola geografis di antara kasus-kasus
kesalahan klasifikasi ini membenarkan kelompok baru. Peneliti harus memeriksa pola pada
kedua kelompok dengan tujuan memahami karakteristik yang sama bagi mereka dalam upaya
mendefinisikan alasan kesalahan klasifikasi.

Tahap 5: Interpretasi Hasil


Setelah memperkirakan fungsi diskriminan, tugas selanjutnya adalah interpretasi. Tahap
ini melibatkan pemeriksaan fungsi untuk menentukan kepentingan relatif masing-masing
variabel independen dalam membedakan antara kelompok, menafsirkan fungsi diskriminan
berdasarkan pembebanan diskriminan, dan kemudian membuat profil setiap kelompok
berdasarkan pola nilai rata-rata untuk variabel yang diidentifikasi sebagai variabel pembeda
penting.
MENGIDENTIFIKASI VARIABEL YANG MENGUNGKAPKAN PENTING
Sebagaimana dibahas sebelumnya, pembebanan diskriminan dianggap sebagai ukuran yang lebih
tepat dari kekuatan diskriminatif, tetapi kami juga akan mempertimbangkan bobot diskriminan
untuk tujuan perbandingan. Bobot diskriminan, baik dalam bentuk tidak standar atau standar,
mewakili kontribusi masing-masing variabel terhadap fungsi diskriminan. Namun, seperti yang
akan kita bahas, multikolinieritas di antara variabel independen dapat memengaruhi interpretasi
hanya dengan menggunakan bobot.
Pemuatan diskriminatif dihitung untuk setiap variabel independen, bahkan untuk yang
tidak termasuk dalam fungsi diskriminan. Dengan demikian, bobot diskriminan mewakili
dampak unik dari masing-masing variabel independen dan tidak terbatas hanya pada dampak
bersama karena multikolinieritas. Selain itu, karena mereka relatif tidak terpengaruh oleh
multikolinieritas, mereka lebih akurat mewakili asosiasi masing-masing variabel dengan skor
diskriminan.
Tabel 13 berisi seluruh rangkaian langkah-langkah interpretatif, termasuk bobot
diskriminan yang tidak standar dan standar, pemuatan untuk fungsi diskriminan, Wilks 'lambda,
dan rasio F univariat. 13 variabel independen asli disaring oleh prosedur bertahap, dan tiga (X11,
X13, dan X17) cukup signifikan untuk dimasukkan dalam fungsi. Untuk tujuan interpretasi, kami
memberi peringkat variabel independen dalam hal memuat mereka dan nilai-nilai F univariat -
kedua indikator dari kekuatan variabel masing-masing variabel. Tanda-tanda bobot atau
pemuatan tidak memengaruhi peringkat; mereka hanya menunjukkan hubungan positif atau
negatif dengan variabel dependen.
Menganalisis Wilks 'Lambda dan Univariat F. Nilai Wilda' lambda dan univariat F
mewakili efek yang terpisah atau univariat dari masing-masing variabel, tidak
mempertimbangkan multikolinieritas di antara variabel independen. Analog dengan korelasi
bivariat dari regresi berganda, mereka menunjukkan kemampuan masing-masing variabel untuk
membedakan antara kelompok, tetapi hanya secara terpisah. Untuk menginterpretasikan
kombinasi apa pun dari dua atau lebih variabel independen memerlukan analisis bobot
diskriminan atau pemuatan diskriminan seperti yang dijelaskan dalam bagian berikut.
Tabel 13 menunjukkan bahwa variabel (X11, X13, dan X17) dengan tiga nilai F tertinggi
(dan nilai lambda Wilks 'terendah) juga merupakan variabel yang dimasukkan ke dalam fungsi
diskriminan. Dua variabel lain (X6 dan X12) juga memiliki efek diskriminatif yang signifikan
(mis., Perbedaan kelompok yang signifikan), tetapi tidak dimasukkan oleh proses bertahap dalam
fungsi diskriminan. Ini disebabkan oleh multikolinieritas antara dua variabel ini dan tiga variabel
yang termasuk dalam fungsi diskriminan. Kedua variabel ini menambahkan tidak ada kekuatan
diskriminatif tambahan di luar variabel yang sudah ada dalam fungsi diskriminan. Semua
variabel yang tersisa memiliki nilai F yang tidak signifikan dan nilai lambda Wilks yang sesuai.
Menganalisa Berat Diskriminan. Bobot diskriminan tersedia dalam bentuk yang tidak
standar dan standar. Bobot yang tidak standar (ditambah konstanta) digunakan untuk menghitung
skor diskriminan, tetapi dapat dipengaruhi oleh skala variabel independen (seperti bobot regresi
berganda). Dengan demikian, bobot standar lebih benar-benar mencerminkan dampak dari
masing-masing variabel pada fungsi diskriminan dan lebih sesuai daripada bobot tidak standar
ketika digunakan untuk tujuan interpretasi. Jika estimasi simultan digunakan, multikolinieritas di
antara variabel independen mana pun akan memengaruhi estimasi bobot. Namun, dampak
multikolinieritas dapat lebih besar untuk prosedur bertahap, karena multikolinieritas tidak hanya
memengaruhi bobot tetapi juga dapat mencegah variabel masuk ke dalam persamaan.
Tabel 13 memberikan bobot standar (koefisien) untuk tiga variabel yang termasuk dalam
fungsi diskriminan. Dampak multikolinearitas pada bobot dapat dilihat pada pengujian X13 dan
X17. Kedua variabel ini pada dasarnya memiliki kekuatan pembeda yang setara ketika dilihat
pada lambda Wilks dan uji F univariat. Bobot diskriminan mereka, bagaimanapun,
mencerminkan dampak yang jauh lebih besar untuk X17 daripada X13, yang berdasarkan bobot
sekarang lebih sebanding dengan X11. Perubahan dalam kepentingan relatif ini disebabkan oleh
collinearity antara X13 dan X11, yang mengurangi efek unik X13, sehingga mengurangi bobot
diskriminan juga.
MENGINTERPRETASIKAN FUNGSI DISKRIMINAN BERDASARKAN BEBAN
DISKRIMINAN Pembebanan diskriminan, berbeda dengan bobot diskriminan, lebih sedikit
dipengaruhi oleh multikolinieritas dan karenanya lebih berguna untuk tujuan interpretatif. Juga,
karena beban dihitung untuk semua variabel, mereka memberikan ukuran interpretif bahkan
untuk variabel yang tidak termasuk dalam fungsi diskriminan. Aturan awal yang
mengindikasikan pemuatan di atas ± 0,40 harus digunakan untuk mengidentifikasi variabel
pembeda yang substantif.
Pemuatan ketiga variabel yang dimasukkan dalam fungsi diskriminan (lihat Tabel 13)
adalah tiga tertinggi dan semuanya melebihi ± 0,40, sehingga menjamin inklusi untuk tujuan
interpretasi. Namun, dua variabel tambahan (X6 dan X7) juga memuat di atas ambang ± 0,40.
Dimasukkannya X6 tidak terduga, karena itu adalah variabel keempat dengan efek diskriminasi
univariat yang signifikan, tetapi tidak termasuk dalam fungsi diskriminan karena
multikolinearitas X7, bagaimanapun, menyajikan situasi lain; itu tidak memiliki efek univariat
yang signifikan. Kombinasi ketiga variabel dalam fungsi diskriminan menciptakan efek yang
dikaitkan dengan X7, tetapi X7 tidak menambahkan kekuatan diskriminatif tambahan. Dalam hal
ini, X7 dapat digunakan untuk menggambarkan fungsi diskriminan untuk tujuan pembuatan
profil meskipun tidak masuk ke dalam estimasi fungsi diskriminan.
Menafsirkan fungsi diskriminan dan diskriminasinya antara kedua kelompok ini
mengharuskan peneliti mempertimbangkan kelima variabel ini. Sejauh mereka menandai atau
menggambarkan fungsi diskriminan, mereka semua mewakili beberapa komponen fungsi.
Tiga efek terkuat dalam fungsi diskriminan, yang semuanya umumnya sebanding
berdasarkan nilai pemuatan, adalah X13 (Harga Kompetitif), X17 (Fleksibilitas Harga), dan X11
(Lini Produk). X7 (Aktivitas E-Commerce) dan efek X6 (Kualitas Produk) dapat ditambahkan
ketika menafsirkan fungsi diskriminan. Jelas beberapa faktor yang berbeda sedang digabungkan
untuk membedakan antara kelompok, sehingga membutuhkan lebih banyak profiling kelompok
untuk memahami perbedaan.
Dengan mengidentifikasi variabel-variabel diskriminatif dan fungsi diskriminan yang
dijelaskan dalam variabel-variabel tersebut dengan beban yang cukup tinggi, peneliti kemudian
melanjutkan untuk membuat profil setiap kelompok pada variabel-variabel ini untuk memahami
perbedaan di antara mereka.
PROFIL VARIABEL DISKRIMINASI. Peneliti tertarik pada interpretasi variabel
individu yang memiliki signifikansi statistik dan praktis. Interpretasi tersebut dilakukan dengan
terlebih dahulu mengidentifikasi variabel-variabel dengan kekuatan diskriminatif substantif (lihat
diskusi sebelumnya) dan kemudian memahami apa arti kelompok yang berbeda pada setiap
variabel yang ditunjukkan.
Skor yang lebih tinggi pada variabel independen menunjukkan persepsi yang lebih baik
tentang HBAT pada atribut itu (kecuali untuk X13, di mana skor yang lebih rendah lebih
disukai). Mengacu kembali ke Tabel 5, kita melihat profil yang bervariasi antara kedua kelompok
pada lima variabel ini.

 Grup 0 (pelanggan di AS / Amerika Utara) memiliki persepsi yang lebih tinggi pada tiga
variabel: X6 (Kualitas Produk), X13 (Harga Kompetitif), dan X11 (Lini Produk).

 Grup 1 (pelanggan di luar Amerika Utara) memiliki persepsi yang lebih tinggi pada dua
variabel yang tersisa: X7 (Aktivitas E-Commerce) dan X17 (Fleksibilitas Harga).
Dalam melihat dua profil ini, kita dapat melihat bahwa pelanggan AS / Amerika Utara
memiliki persepsi yang jauh lebih baik tentang produk HBAT, sedangkan pelanggan di luar
Amerika Utara merasa lebih baik tentang masalah penetapan harga dan e-commerce. Perhatikan
bahwa X6 dan X13, keduanya memiliki persepsi lebih tinggi di antara pelanggan AS / Amerika
Utara, membentuk faktor Nilai Produk. Manajemen harus menggunakan hasil ini untuk
mengembangkan strategi yang menonjolkan kekuatan ini dan mengembangkan kekuatan
tambahan untuk melengkapi mereka.
Profil rata-rata juga menggambarkan interpretasi tanda-tanda (positif atau negatif) pada bobot
dan pemuatan yang diskriminatif. Tanda-tanda mencerminkan profil rata-rata relatif dari kedua
kelompok. Tanda-tanda positif, dalam contoh ini, dikaitkan dengan variabel yang memiliki skor
lebih tinggi untuk grup 1. Bobot dan pemuatan negatif untuk variabel-variabel dengan pola yang
berlawanan (mis., Nilai yang lebih tinggi di grup 0). Dengan demikian, tanda-tanda
menunjukkan pola antar kelompok.
Tahap 6: Validasi Hasil
Tahap terakhir membahas validitas internal dan eksternal dari fungsi diskriminan. Cara
utama validasi adalah melalui penggunaan sampel ketidaksepakatan dan penilaian akurasi
prediktifnya. Dengan cara ini, validitas ditetapkan jika fungsi diskriminan tampil pada tingkat
yang dapat diterima dalam mengklasifikasikan pengamatan yang tidak digunakan dalam proses
estimasi. Jika sampel ketidaksepakatan dibentuk dari sampel asli, maka pendekatan ini
menetapkan validitas internal dan indikasi awal validitas eksternal. Jika sampel lain yang
terpisah, mungkin dari populasi atau segmen populasi lain, membentuk sampel penahan, maka
ini membahas lebih lengkap validitas eksternal dari hasil diskriminan.
Dalam contoh kami, sampel penahan datang dari sampel asli. Seperti dibahas
sebelumnya, akurasi klasifikasi (rasio hit) untuk sampel holdout dan sampel yang divalidasi
silang secara nyata berada di atas ambang batas pada semua ukuran akurasi prediksi. Dengan
demikian, analisis tidak menetapkan validitas internal. Untuk tujuan validitas eksternal, sampel
tambahan harus diambil dari populasi yang relevan dan akurasi klasifikasi dinilai dalam situasi
sebanyak mungkin.
Peneliti didorong untuk memperluas proses validasi melalui perluasan profil kelompok
dan kemungkinan penggunaan sampel tambahan untuk membangun validitas eksternal. Wawasan
tambahan dari analisis kasus-kasus kesalahan klasifikasi dapat menyarankan variabel tambahan
yang bahkan dapat meningkatkan model diskriminan.
Tinjauan Manajerial
Analisis diskriminan pelanggan HBAT berdasarkan lokasi geografis (berlokasi di
Amerika Utara atau di luar) mengidentifikasi serangkaian perbedaan persepsi yang dapat
memberikan perbedaan yang agak ringkas dan kuat antara kedua kelompok. Beberapa temuan
utama meliputi:

 Perbedaan ditemukan dalam subset hanya lima persepsi, memungkinkan untuk fokus
pada variabel kunci dan tidak harus berurusan dengan seluruh rangkaian. Variabel-
variabel yang diidentifikasi sebagai pembeda antara kelompok (tercantum menurut urutan
kepentingan) adalah X13 (Harga Kompetitif), X17 (Fleksibilitas Harga), X11 (Lini
Produk), X7 (Aktivitas E-Commerce), dan X6 (Kualitas Produk).

 Hasil juga menunjukkan bahwa perusahaan yang berlokasi di Amerika Serikat memiliki
persepsi HBAT yang lebih baik daripada rekan internasional mereka dalam hal nilai
produk dan lini produk, sedangkan pelanggan non-Amerika Utara memiliki persepsi yang
lebih baik tentang fleksibilitas harga dan kegiatan e-commerce. Persepsi ini dapat
dihasilkan dari kecocokan yang lebih baik antara pembeli AS / Amerika Utara, sedangkan
pelanggan internasional menemukan kebijakan penetapan harga yang kondusif untuk
kebutuhan mereka.

 Hasil, yang sangat signifikan, memberikan peneliti kemampuan untuk mengidentifikasi


dengan benar strategi pembelian yang digunakan berdasarkan persepsi ini 85 persen dari
waktu. Tingkat konsistensi mereka yang tinggi memberikan keyakinan dalam
pengembangan strategi berdasarkan hasil ini.

 Analisis perusahaan yang salah klasifikasi mengungkapkan sejumlah kecil perusahaan


yang tampaknya tidak pada tempatnya. Mengidentifikasi perusahaan-perusahaan ini
dapat mengidentifikasi asosiasi yang tidak ditangani oleh lokasi geografis (mis., Pasar
melayani bukan hanya lokasi fisik) atau perusahaan lain atau karakteristik pasar yang
terkait dengan lokasi geografis.
Dengan demikian, mengetahui lokasi geografis perusahaan memberikan wawasan utama ke
dalam persepsi mereka tentang HBAT dan, yang lebih penting, bagaimana kedua kelompok
pelanggan berbeda sehingga manajemen dapat menggunakan strategi untuk menonjolkan
persepsi positif dalam berurusan dengan pelanggan ini dan semakin memperkuat posisi mereka. .
CONTOH ILUSTRASIIF TIGA KELOMPOK
Untuk menggambarkan penerapan analisis diskriminan tiga kelompok, kami sekali lagi
menggunakan database HBAT. Dalam contoh sebelumnya, kami prihatin dengan membedakan
antara hanya dua kelompok, sehingga kami dapat mengembangkan fungsi diskriminan tunggal
dan skor pemotongan untuk membagi dua kelompok. Dalam contoh tiga kelompok, perlu untuk
mengembangkan dua fungsi diskriminan yang terpisah untuk membedakan antara tiga kelompok.
Fungsi pertama memisahkan satu kelompok dari dua lainnya, dan yang kedua memisahkan dua
kelompok yang tersisa. Seperti contoh sebelumnya, enam tahap proses pembangunan model
dibahas.
Tahap 1: Tujuan Analisis Diskriminan
Tujuan HBAT dalam penelitian ini adalah untuk menentukan hubungan antara persepsi
perusahaan tentang HBAT dan lamanya perusahaan telah menjadi pelanggan dengan HBAT.
Salah satu paradigma yang muncul dalam pemasaran adalah konsep hubungan pelanggan,
berdasarkan pada pembentukan kemitraan timbal balik antara perusahaan atas transaksi berulang.
Proses mengembangkan hubungan memerlukan pembentukan tujuan dan nilai-nilai bersama,
yang harus bertepatan dengan peningkatan persepsi HBAT. Dengan demikian, pembentukan
hubungan yang berhasil harus dilihat dengan meningkatkan persepsi HBAT dari waktu ke waktu.
Dalam analisis ini, perusahaan dikelompokkan berdasarkan masa kerja mereka sebagai
pelanggan HBAT. Semoga, jika HBAT telah berhasil membangun hubungan dengan
pelanggannya, maka persepsi HBAT akan meningkat dengan masa kerja sebagai pelanggan
HBAT.
Tahap 2: Desain Penelitian untuk Analisis Diskriminan
Untuk menguji hubungan ini, analisis diskriminan dilakukan untuk menentukan apakah
ada perbedaan persepsi antara kelompok-kelompok pelanggan berdasarkan panjangnya
hubungan pelanggan. Jika demikian, HBAT kemudian tertarik untuk melihat apakah profil yang
membedakan mendukung proposisi bahwa HBAT telah berhasil meningkatkan persepsi di antara
para pelanggan mapan, sebuah langkah penting dalam pembentukan hubungan pelanggan.
PEMILIHAN VARIABEL TERGANTUNG DAN INDEPENDEN Selain variabel
dependen non-metrik (kategorikal) yang mendefinisikan kelompok minat, analisis diskriminan
juga memerlukan serangkaian variabel independen metrik yang diasumsikan menyediakan dasar
untuk diskriminasi atau diferensiasi antara kelompok.
Analisis tiga kelompok diskriminan dilakukan menggunakan X1 (Jenis Pelanggan)
sebagai variabel dependen dan persepsi HBAT oleh perusahaan-perusahaan ini (X6 ke X18)
sebagai variabel independen. Perhatikan bahwa X1 berbeda dari variabel dependen dalam contoh
dua kelompok karena memiliki tiga kategori untuk mengklasifikasikan lamanya perusahaan
menjadi pelanggan HBAT (1 = kurang dari 1 tahun, 2 = 1 hingga 5 tahun, dan 3 = lebih dari 5
tahun).
UKURAN SAMPEL DAN DIVISI SAMPEL Masalah mengenai ukuran sampel sangat
penting dengan analisis diskriminan karena fokus tidak hanya pada ukuran sampel keseluruhan,
tetapi juga pada ukuran sampel per kelompok. Ditambah dengan kebutuhan untuk pembagian
sampel untuk menyediakan sampel validasi, peneliti harus hati-hati mempertimbangkan dampak
pembagian sampel pada kedua sampel dalam hal ukuran sampel keseluruhan dan ukuran masing-
masing kelompok.
Database HBAT memiliki ukuran sampel 100, yang lagi-lagi akan dibagi menjadi analisis
dan sampel holdout masing-masing 60 dan 40 kasus. Dalam sampel analisis, rasio kasus terhadap
variabel independen hampir 5: 1, ambang bawah yang disarankan. Lebih penting lagi, dalam
sampel analisis, hanya satu kelompok, dengan 13 pengamatan, berada di bawah tingkat yang
direkomendasikan yaitu 20 kasus per kelompok. Meskipun ukuran kelompok akan melebihi 20
jika seluruh sampel digunakan dalam fase analisis, kebutuhan untuk validasi menentukan
pembuatan sampel penahan. Tiga kelompok berukuran relatif sama (22, 13, dan 25), sehingga
menghindari kebutuhan untuk menyamakan ukuran kelompok. Analisis ini dilanjutkan dengan
perhatian pada klasifikasi dan interpretasi kelompok kecil yang terdiri dari 13 pengamatan ini.
Tahap 3: Asumsi Analisis Diskriminan
Seperti halnya dalam contoh dua kelompok, asumsi normalitas, linieritas, dan kolinearitas
variabel independen tidak akan dibahas panjang lebar di sini. Analisis menunjukkan bahwa
variabel independen memenuhi asumsi ini pada tingkat yang memadai untuk memungkinkan
analisis untuk melanjutkan tanpa perbaikan tambahan. Kami selanjutnya akan mengasumsikan
persamaan varians / kovarian atau matriks dispersi.
Kotak M test menilai kemiripan matriks dispersi dari variabel independen di antara tiga
kelompok (kategori). Statistik uji menunjukkan perbedaan pada tingkat signifikansi .09. Dalam
hal ini, perbedaan antara kelompok tidak signifikan dan tidak diperlukan tindakan perbaikan.
Selain itu, tidak ada dampak yang diharapkan pada proses estimasi atau klasifikasi.
Tahap 4: Estimasi Model Diskriminan dan Menilai Kesesuaian Keseluruhan
Seperti dalam contoh sebelumnya, kami memulai analisis kami dengan meninjau rata-rata
grup dan standar deviasi untuk melihat apakah grup-grup tersebut berbeda secara signifikan pada
variabel tunggal mana pun. Dengan perbedaan-perbedaan tersebut dalam pikiran, kami kemudian
menggunakan prosedur estimasi bertahap untuk menurunkan fungsi-fungsi diskriminan dan
menyelesaikan proses dengan menilai akurasi klasifikasi baik secara keseluruhan maupun
dengan diagnostik santai.
MENILAI PERBEDAAN KELOMPOK Mengidentifikasi variabel yang paling
diskriminatif dengan tiga atau lebih kelompok lebih bermasalah daripada dalam situasi dua
kelompok. Untuk tiga atau lebih kelompok, ukuran khas signifikansi untuk perbedaan antar
kelompok (mis., Wilks 'lambda dan uji F) hanya menilai perbedaan keseluruhan dan tidak
menjamin bahwa masing-masing kelompok signifikan dari yang lain. Jadi, ketika memeriksa
variabel untuk perbedaan keseluruhan mereka di antara kelompok-kelompok, pastikan untuk
juga membahas perbedaan kelompok secara individu.
Tabel 14 memberikan cara kelompok, Wilks 'lambda, rasio F univariat (ANOVA
sederhana), dan Mahalanobis D2 minimum untuk setiap variabel independen. Tinjauan terhadap
langkah-langkah diskriminasi ini mengungkapkan hal berikut:

 Pada basis univariat, sekitar setengah (7 dari 13) dari variabel menampilkan perbedaan
yang signifikan antara rata-rata kelompok. Variabel dengan perbedaan signifikan
termasuk X6, X9, X11, X13, X16, X17, dan X18.

 Meskipun signifikansi statistik yang lebih besar sesuai dengan diskriminasi keseluruhan
yang lebih tinggi (mis., Variabel yang paling signifikan memiliki nilai lambda Wilks
'terendah), itu tidak selalu sesuai dengan diskriminasi terbesar di antara semua kelompok.

 Inspeksi visual dari kelompok berarti mengungkapkan bahwa empat variabel dengan
perbedaan yang signifikan (X13, X16, X17, dan X18) hanya membedakan satu kelompok
dibandingkan dua kelompok lainnya [misalnya, X18 memiliki perbedaan yang signifikan
hanya dalam cara antara kelompok 1 (3.059) ) versus kelompok 2 (4.246) dan 3 (4.288)].
Variabel-variabel ini memainkan peran terbatas dalam analisis diskriminan karena
mereka memberikan diskriminasi antara hanya sebagian kelompok.
 Tiga variabel (X6, X9, dan X11) memberikan beberapa diskriminasi, dalam derajat yang
berbeda, antara ketiga kelompok secara bersamaan. Satu atau lebih dari variabel-variabel
ini dapat digunakan dalam kombinasi dengan empat variabel sebelumnya untuk membuat
variasi dengan diskriminasi maksimum.

 Nilai D2 Mahalanobis memberikan ukuran tingkat diskriminasi antara kelompok. Untuk


setiap variabel, Mahalanobis D2 minimum adalah jarak antara dua kelompok terdekat.
Misalnya, X11 memiliki nilai D2 tertinggi, dan itu adalah variabel dengan perbedaan
terbesar di antara ketiga kelompok. Demikian juga, X18, variabel dengan sedikit
perbedaan antara dua kelompok, memiliki nilai D2 kecil. Dengan tiga atau lebih
kelompok, Mahalanobis D2 minimum penting dalam mengidentifikasi variabel yang
memberikan perbedaan terbesar antara dua kelompok yang paling mirip.
Semua langkah-langkah ini bergabung untuk membantu mengidentifikasi set variabel yang
membentuk fungsi diskriminan seperti yang dijelaskan di bagian selanjutnya. Ketika lebih dari
satu fungsi dibuat, masing-masing fungsi memberikan diskriminasi antara set kelompok. Dalam
contoh sederhana dari awal bab ini, satu variabel membedakan antara kelompok 1 banding 2 dan
3, sedangkan yang lain membedakan antara kelompok 2 dan 3 dan 1. Ini adalah salah satu
manfaat utama yang timbul dari penggunaan analisis diskriminan.
ESTIMASI FUNGSI DISKRIMINAN Prosedur bertahap dilakukan dengan cara yang
sama seperti pada contoh dua kelompok, dengan semua variabel pada awalnya dikeluarkan dari
model. Seperti disebutkan sebelumnya, jarak Mahalanobis harus digunakan dengan prosedur
bertahap untuk memilih variabel yang memiliki perbedaan signifikan secara statistik di seluruh
kelompok sambil memaksimalkan jarak Mahalanobis (D2) antara dua kelompok terdekat.
Dengan cara ini, variabel yang signifikan secara statistik dipilih yang memaksimalkan
diskriminasi antara kelompok yang paling mirip di setiap tahap. Proses ini berlanjut selama
variabel tambahan memberikan diskriminasi yang signifikan secara statistik di luar perbedaan
yang sudah diperhitungkan oleh variabel dalam fungsi diskriminan. Suatu variabel dapat dihapus
jika multikolinieritas tinggi dengan variabel independen dalam fungsi diskriminan menyebabkan
signifikansinya jatuh di bawah tingkat signifikansi untuk dihilangkan.
Estimasi Stepwise: Menambahkan Variabel Pertama, X11. Data pada Tabel 14
menunjukkan bahwa variabel pertama yang memasuki model stepwise menggunakan jarak
Mahalanobis adalah X11 (Lini Produk) karena memenuhi kriteria untuk perbedaan yang
signifikan secara statistik di seluruh kelompok dan memiliki nilai D2 minimum terbesar (yang
berarti ia memiliki terbesar pemisahan antara kelompok yang paling mirip).
Hasil penambahan X11 sebagai variabel pertama dalam proses bertahap ditunjukkan pada
Tabel 15. Keseluruhan model fit signifikan dan masing-masing kelompok berbeda secara
signifikan, meskipun kelompok 1 (kurang dari 1 tahun) dan 2 (1 hingga 5 tahun) ) memiliki
perbedaan terkecil di antara mereka (lihat bagian bawah merinci perbedaan kelompok).
Dengan perbedaan terkecil antara kelompok 1 dan 2, prosedur diskriminan sekarang akan
memilih variabel yang memaksimalkan perbedaan itu sementara setidaknya mempertahankan
perbedaan lainnya. Jika kita merujuk kembali ke Tabel 14, kita melihat bahwa empat variabel
(X9, X16, X17, dan X18) semuanya memiliki perbedaan yang signifikan, dengan perbedaan
substansial antara kelompok 1 dan 2. Melihat pada Tabel 15, kita melihat bahwa keempat
variabel memiliki nilai D2 minimum tertinggi, dan dalam setiap kasus itu adalah untuk
perbedaan antara kelompok 2 dan 3 (artinya kelompok 1 dan 2 bukan yang paling mirip setelah
menambahkan variabel itu). Dengan demikian, menambahkan salah satu dari variabel-variabel
ini akan paling mempengaruhi perbedaan antara kelompok 1 dan 2, pasangan yang paling mirip
setelah X11 ditambahkan pada langkah pertama. Prosedur akan memilih X17 karena akan
menciptakan jarak terbesar antara kelompok 2 dan 3.
Estimasi Stepwise: Menambahkan Variabel Kedua, X17. Tabel 16 merinci langkah kedua
dari prosedur bertahap: menambahkan X17 (Fleksibilitas Harga) ke fungsi diskriminan.
Diskriminasi antar kelompok meningkat, sebagaimana tercermin dalam nilai lambda Wilks ’yang
lebih rendah dan peningkatan D2 minimum (.467 hingga .288). Perbedaan kelompok, secara
keseluruhan dan individu, masih signifikan secara statistik. Penambahan X17 meningkatkan
perbedaan antara kelompok 1 dan 2 secara substansial, sedemikian rupa sehingga sekarang dua
kelompok yang paling mirip adalah 2 dan 3. Dari variabel yang tidak ada dalam persamaan,
hanya X6 (Kualitas Produk) yang memenuhi tingkat signifikansi yang diperlukan untuk
dipertimbangkan. Jika ditambahkan, D2 minimum sekarang akan berada di antara grup 1 dan 2.
Estimasi Stepwise: Menambahkan Variabel Ketiga dan Keempat, X6 dan X18. Seperti
disebutkan sebelumnya, X6 menjadi variabel ketiga yang ditambahkan ke fungsi diskriminan.
Setelah X6 ditambahkan, hanya X18 yang menunjukkan signifikansi statistik di seluruh grup
(Catatan: Rincian penambahan X6 pada langkah 3 tidak diperlihatkan untuk pertimbangan
ruang).
Variabel akhir yang ditambahkan pada langkah 4 adalah X18 (lihat Tabel 17), dengan
fungsi diskriminan sekarang termasuk empat variabel (X11, X17, X6, dan X18). Model
keseluruhan signifikan, dengan Wilks

lambda menurun ke 0,127. Selain itu, ada perbedaan signifikan antara semua kelompok individu.
Dengan keempat variabel ini dalam fungsi diskriminan, tidak ada variabel lain yang
menunjukkan signifikansi statistik yang diperlukan untuk inklusi dan prosedur bertahap
diselesaikan dalam hal penambahan variabel. Namun, prosedur ini juga mencakup pemeriksaan
pada signifikansi setiap variabel untuk dipertahankan dalam fungsi diskriminan. Dalam hal ini,
"F untuk Menghapus" untuk X11 dan X17 tidak signifikan (0,918 dan 1,735, masing-masing),
yang menunjukkan bahwa satu atau keduanya adalah kandidat untuk dihapus dari fungsi
diskriminan.
Estimasi Stepwise: Penghapusan X17 dan X11. Ketika X18 ditambahkan ke model pada
langkah keempat (lihat diskusi sebelumnya), X11 memiliki nilai "F to Remove" terendah
(0,918), menyebabkan prosedur bertahap untuk menghilangkan variabel itu dari fungsi
diskriminan pada langkah 5 (detail langkah ini 5 dihilangkan karena pertimbangan ruang).
Dengan sekarang tiga variabel dalam fungsi diskriminan (X11, X6, dan X18), kesesuaian model
secara keseluruhan masih signifikan secara statistik dan lambda Wilks hanya meningkat sedikit
menjadi 0,135. Semua kelompok sangat berbeda. Tidak ada variabel yang mencapai tingkat
signifikansi statistik yang perlu ditambahkan ke fungsi diskriminan, dan satu variabel lagi (X11)
memiliki nilai "F to Remove" sebesar 2,552, yang menunjukkan bahwa ia juga dapat dihapus
dari fungsi tersebut.
Tabel 18 berisi rincian langkah 6 dari prosedur bertahap di mana X11 juga dihapus dari
fungsi diskriminan, dengan hanya X6 dan X18 sebagai dua variabel yang tersisa. Bahkan dengan
penghapusan variabel kedua (X11), model keseluruhan masih signifikan dan lambda Wilks
cukup kecil (0,148). Kita harus mencatat bahwa model dua variabel X6 dan X18 ini merupakan
peningkatan dari model dua variabel pertama X11 dan X17 yang dibentuk pada langkah 2
(lambks Wilks adalah .148 dibandingkan nilai model pertama sebesar .288 dan semua model
lainnya. perbedaan kelompok individu jauh lebih besar). Tanpa variabel yang mencapai tingkat
signifikansi yang diperlukan untuk penambahan atau penghapusan, prosedur bertahap berakhir.
Ringkasan Proses Estimasi Stepwise. Perkiraan fungsi diskriminan adalah komposit
linier yang mirip dengan garis regresi (yaitu, mereka adalah kombinasi linear dari variabel).
Sama seperti garis regresi adalah upaya untuk menjelaskan jumlah maksimum variasi dalam
variabel dependennya, komposit linier ini mencoba menjelaskan variasi atau perbedaan dalam
variabel kategori dependen. Fungsi diskriminan pertama dikembangkan untuk menjelaskan
(menjelaskan) jumlah variasi (perbedaan) terbesar dalam kelompok-kelompok diskriminan.
Fungsi diskriminan kedua, yang ortogonal dan independen dari yang pertama, menjelaskan
persentase terbesar dari varian (residual) yang tersisa setelah varian untuk fungsi pertama
dihapus.
Informasi yang diberikan dalam Tabel 19 merangkum langkah-langkah analisis
diskriminan tiga kelompok, dengan hasil sebagai berikut:

 Variabel X6 dan X18 adalah dua variabel dalam fungsi diskriminan akhir, meskipun X11 dan
X17 ditambahkan dalam dua langkah pertama dan kemudian dihapus setelah X6 dan X18
ditambahkan. Koefisien fungsi diskriminan yang tidak standar dan standar (bobot) dan
matriks struktur dari pembebanan diskriminan, tidak diputar dan diputar, juga disediakan.
Rotasi pembebanan diskriminan memfasilitasi interpretasi dengan cara yang sama bahwa
faktor disederhanakan untuk interpretasi melalui rotasi. Kami memeriksa pemuatan yang
tidak diputar dan diputar secara lebih penuh pada langkah 5.
 Diskriminasi meningkat dengan penambahan masing-masing variabel (sebagaimana
dibuktikan dengan penurunan Wilks 'lambda) meskipun hanya dua variabel yang tersisa
dalam model akhir. Dengan membandingkan lambda Wilks akhir untuk analisis diskriminan
(.148) dengan lambks Wilks (.414) untuk hasil terbaik dari satu variabel, X9, kita melihat
bahwa peningkatan yang ditandai dibuat hanya dengan menggunakan dua variabel dalam
diskriminan tersebut. fungsi daripada variabel tunggal.
 Good-of-fit keseluruhan untuk model diskriminan adalah signifikan secara statistik dan
kedua fungsi juga signifikan secara statistik. Fungsi pertama menyumbang 91,5 persen dari
perbedaan dijelaskan oleh dua fungsi, dengan varian yang tersisa (8,5%) karena fungsi
kedua. Jumlah total varians yang dijelaskan oleh fungsi pertama adalah 0,8932, atau 79,7
persen. Fungsi berikutnya menjelaskan 0,5172, atau 26,7 persen, dari varian yang tersisa
(20,3%). Oleh karena itu, total varians yang dijelaskan oleh kedua fungsi adalah 85,1 persen
[79,7% + (26,7% × 0,203)] dari total variasi dalam variabel dependen.
Meskipun kedua fungsi diskriminan signifikan secara statistik, peneliti harus selalu
memastikan bahwa fungsi diskriminan memberikan perbedaan di antara semua kelompok.
Dimungkinkan untuk memiliki fungsi yang signifikan secara statistik, tetapi memiliki setidaknya
satu pasangan kelompok yang tidak berbeda secara statistik (mis., Tidak dibedakan antara).
Masalah ini menjadi sangat lazim karena jumlah kelompok meningkat atau sejumlah kelompok
kecil dimasukkan dalam analisis.
Bagian terakhir dari Tabel 18 memberikan uji signifikansi untuk perbedaan kelompok antara
setiap pasangan kelompok (mis., Grup 1 versus grup 2, grup 1 versus grup 3, dll.). Semua
pasangan kelompok menunjukkan perbedaan yang signifikan secara statistik, menunjukkan
bahwa fungsi diskriminan menciptakan pemisahan tidak hanya dalam arti keseluruhan, tetapi
untuk masing-masing kelompok juga. Kami juga memeriksa centroid grup secara grafis di
bagian selanjutnya.
MENILAI AKURASI KLASIFIKASI Karena ini adalah model analisis diskriminan tiga
kelompok, dua fungsi diskriminan dihitung untuk membedakan antara tiga kelompok. Nilai
untuk setiap kasus dimasukkan ke dalam model diskriminan dan komposit linier (skor Z
diskriminan) dihitung. Fungsi diskriminan hanya didasarkan pada variabel yang termasuk dalam
model diskriminan.
Tabel 19 memberikan bobot diskriminan dari kedua variabel (X6 dan X18) dan rata-rata
kelompok masing-masing kelompok pada kedua fungsi (bagian bawah tabel). Seperti yang dapat
kita lihat dengan memeriksa rata-rata kelompok, fungsi pertama terutama membedakan
kelompok 1 (Kurang dari 1 tahun) dari dua kelompok lainnya (walaupun perbedaan yang nyata
terjadi antara kelompok 2 dan 3 juga), sedangkan fungsi kedua terutama memisahkan kelompok
3 (Lebih dari 5 tahun) dari dua kelompok lainnya. Oleh karena itu, fungsi pertama memberikan
pemisahan terbesar antara ketiga kelompok, tetapi dilengkapi dengan fungsi kedua, yang
membedakan terbaik (1 dan 2 versus 3) di mana fungsi pertama paling lemah.
Menilai Akurasi Prediksi Keanggotaan Grup. Langkah terakhir untuk menilai
kesesuaian model keseluruhan adalah menentukan tingkat akurasi prediksi fungsi diskriminan.
Penentuan ini dilakukan dengan cara yang sama seperti dengan model diskriminan dua
kelompok, dengan memeriksa matriks klasifikasi dan persentase yang diklasifikasikan dengan
benar (rasio hit) pada setiap sampel.
Klasifikasi kasus individu dapat dilakukan dengan metode cutoff yang dijelaskan dalam
kasus dua kelompok atau dengan menggunakan fungsi klasifikasi (lihat Tabel 19) di mana setiap
kasus diberi skor pada setiap fungsi klasifikasi dan diklasifikasikan ke grup dengan skor
tertinggi.
Tabel 20 menunjukkan bahwa dua fungsi diskriminan dalam kombinasi mencapai tingkat
akurasi klasifikasi yang tinggi. Hit rasio untuk sampel analisis adalah 86,7 persen. Namun, rasio
hit untuk sampel holdout turun menjadi 55,0 persen. Hasil ini menunjukkan bias ke atas yang
mungkin ketika diterapkan hanya untuk sampel analisis dan tidak juga untuk sampel
ketidaksepakatan.
Kedua rasio hit harus dibandingkan dengan peluang maksimum dan kriteria peluang
proporsional untuk menilai efektivitas sebenarnya. Prosedur validasi silang dibahas pada langkah
6.

 Kriteria peluang maksimum hanyalah rasio hit yang diperoleh jika kami menetapkan
semua pengamatan pada kelompok dengan probabilitas kejadian tertinggi. Dalam sampel
100 pengamatan sekarang, 32 berada di grup 1, 35 di grup 2, dan 33 di grup 3. Dari
informasi ini, kita bisa melihat bahwa probabilitas tertinggi akan menjadi 35 persen
(kelompok 2). Nilai ambang untuk peluang maksimum (35% × 1,25) adalah 43,74 persen.

 Kriteria peluang proporsional dihitung dengan mengkuadratkan proporsi masing-masing
kelompok, dengan nilai yang dihitung 33,36 persen (0,322 + 0,352 + 0,332 = 0,334) dan
nilai ambang batas 41,7 persen (33,4% × 1,25 = 41,7% ).

Rasio hit untuk analisis dan sampel bertahan (masing-masing 86,7% dan 55,0%) melebihi
nilai ambang batas 43,74 dan 41,7 persen. Dalam sampel estimasi, semua kelompok individu
melampaui kedua nilai ambang. Namun, dalam sampel ketidaksepakatan, kelompok 2 memiliki
rasio hit hanya 40,9 persen, dan meningkat menjadi hanya 53,8 persen dalam sampel analisis.
Hasil ini menunjukkan bahwa kelompok 2 harus menjadi fokus meningkatkan klasifikasi,
mungkin dengan penambahan variabel independen atau peninjauan klasifikasi perusahaan dalam
kelompok ini untuk mengidentifikasi karakteristik kelompok ini yang tidak terwakili dalam
fungsi diskriminan.
Karena nilai kritis pada tingkat signifikansi 0,01 adalah 6,63, analisis diskriminan dapat
digambarkan sebagai memprediksi keanggotaan kelompok lebih baik daripada kebetulan.
Ketika selesai, kita dapat menyimpulkan bahwa model diskriminan valid dan memiliki
tingkat signifikansi statistik dan praktis yang memadai untuk semua kelompok. Nilai yang jauh
lebih rendah untuk sampel ketidaksepakatan pada semua standar perbandingan, bagaimanapun,
mendukung kekhawatiran yang diajukan sebelumnya tentang rasio hit keseluruhan dan spesifik
kelompok.
MENGHASILKAN DIAGNOSTIK Selain tabel klasifikasi yang menunjukkan hasil agregat,
informasi spesifik kasus juga tersedia yang merinci klasifikasi setiap pengamatan. Informasi ini
dapat merinci spesifikasi proses klasifikasi atau mewakili klasifikasi melalui peta teritorial.
Informasi Klasifikasi Khusus Kasus. Serangkaian langkah-langkah spesifik kasus tersedia
untuk mengidentifikasi kasus-kasus yang tidak diklasifikasikan dengan benar serta mendiagnosis
sejauh mana masing-masing kesalahan klasifikasi. Dengan menggunakan informasi ini, pola di
antara kesalahan klasifikasi dapat diidentifikasi.
Tabel 21 berisi data klasifikasi tambahan untuk setiap kasus individu yang salah
diklasifikasikan (informasi serupa juga tersedia untuk semua kasus lain, tetapi dihilangkan
karena pertimbangan ruang). Jenis dasar informasi klasifikasi meliputi yang berikut:
 Keanggotaan grup. Baik grup aktual dan prediksi ditampilkan untuk mengidentifikasi
setiap jenis kesalahan klasifikasi (mis., Keanggotaan sebenarnya dalam grup 1, tetapi
diperkirakan dalam grup 2). Dalam contoh ini, kita melihat 8 kasus salah diklasifikasikan
dalam sampel analisis (verifikasi dengan menambahkan nilai-nilai off-diagonal pada
Tabel 20) dan 18 kasus salah diklasifikasikan dalam sampel ketidaksepakatan.

 Jarak Mahalanobis ke kelompok sentroid yang diprediksi. Menunjukkan kedekatan


kasus-kasus kesalahan klasifikasi ini dengan kelompok yang diprediksi. Beberapa
pengamatan, seperti kasus 10, jelas mirip dengan pengamatan kelompok yang diprediksi
daripada kelompok mereka yang sebenarnya. Pengamatan lain, seperti kasus 57 (jarak
Mahalanobis 6,041), cenderung outlier dalam kelompok yang diprediksi serta kelompok
yang sebenarnya. Peta teritorial yang dibahas pada bagian selanjutnya menggambarkan
secara grafis posisi masing-masing pengamatan dan membantu dalam interpretasi
langkah-langkah jarak.
 Skor diskriminatif. Skor Z diskriminan untuk setiap kasus pada setiap fungsi diskriminan
menyediakan cara perbandingan langsung antara kasus serta penentuan posisi relatif
versus sarana kelompok.
 Peluang klasifikasi. Berasal dari penggunaan fungsi klasifikasi diskriminan, probabilitas
keanggotaan untuk setiap kelompok diberikan. Nilai probabilitas memungkinkan peneliti
untuk menilai tingkat kesalahan klasifikasi. Sebagai contoh, dua kasus, 85 dan 89, adalah
jenis kesalahan klasifikasi yang sama (kelompok aktual 2, kelompok prediksi 3), tetapi
sangat berbeda dalam kesalahan klasifikasi mereka ketika probabilitas klasifikasi dilihat.
Kasus 85 mewakili kesalahan klasifikasi marginal, karena probabilitas prediksi untuk
kelompok 2 yang sebenarnya adalah 0,462 dan kelompok prediksi 3 yang salah hanya
sedikit lebih tinggi (0,529). Kesalahan klasifikasi ini berbeda dengan kasus 89, di mana
probabilitas grup aktual adalah 0,032 dan probabilitas prediksi untuk grup 3 (grup salah
klasifikasi) adalah 0,966. Dalam kedua situasi kesalahan klasifikasi, tingkat atau
besarnya sangat bervariasi.

Peneliti harus mengevaluasi tingkat kesalahan klasifikasi untuk setiap kasus. Kasus-kasus yang
merupakan kesalahan klasifikasi yang jelas harus dipilih untuk analisis tambahan (profiling,
memeriksa variabel tambahan, dll.) Yang dibahas dalam analisis dua kelompok.
Peta Teritorial. Analisis kasus kesalahan klasifikasi dapat dilengkapi dengan pemeriksaan grafis
dari pengamatan individu dengan merencanakannya berdasarkan skor Z diskriminan mereka.
Gambar 9 memplot setiap pengamatan berdasarkan dua skor Z yang diputar secara
diskriminatif dengan overlay peta teritorial yang mewakili batas skor pemotongan untuk setiap
fungsi. Dalam melihat dispersi masing-masing kelompok di sekitar pusat massa kelompok, kita
dapat mengamati beberapa temuan:

 Kelompok 3 (Lebih dari 5 tahun) paling terkonsentrasi, dengan sedikit tumpang tindih
dengan dua kelompok lainnya seperti yang ditunjukkan dalam matriks klasifikasi di mana
hanya satu pengamatan yang salah klasifikasi (lihat Tabel 20).
 Kelompok 1 (Kurang dari 1 tahun) adalah yang paling kompak, tetapi kisaran kasus
tidak tumpang tindih dengan kelompok lain, sehingga membuat prediksi jauh lebih baik
daripada yang mungkin diharapkan untuk kelompok yang beragam. Satu-satunya kasus
kesalahan klasifikasi yang berbeda secara substansial adalah kasus 10, yang dekat dengan
centroid untuk grup 2, dan kasus 13, yang dekat dengan centroid grup 3. Kedua kasus ini
layak diselidiki lebih lanjut karena kesamaan mereka dengan yang lain kelompok.
 Kedua kelompok ini berbeda dengan kelompok 2 (1 hingga 5 tahun), yang terlihat
memiliki tumpang tindih yang substansial dengan kelompok 3 dan pada tingkat yang
lebih rendah dengan kelompok 1 (Kurang dari 1 tahun). Tumpang tindih ini
menghasilkan tingkat akurasi klasifikasi terendah dalam analisis dan sampel sampel.
 Tumpang tindih yang terjadi antara kelompok 2 dan 3 di tengah dan kanan grafik
menunjukkan kemungkinan adanya kelompok keempat. Analisis dapat dilakukan untuk
menentukan lamanya waktu sebenarnya pelanggan, mungkin dengan pelanggan lebih dari
1 tahun dibagi menjadi tiga kelompok, bukan dua.
Penggambaran grafis berguna tidak hanya untuk mengidentifikasi kasus-kasus kesalahan
klasifikasi yang dapat membentuk kelompok baru, tetapi juga dalam mengidentifikasi outlier.
Diskusi sebelumnya mengidentifikasi kemungkinan opsi untuk mengidentifikasi outlier (kasus
57) serta kemungkinan redefinisi kelompok antara kelompok 2 dan 3.

Tahap 5: Interpretasi Hasil Analisis Tiga-Kelompok Diskriminan


Tahap selanjutnya dari analisis diskriminan melibatkan serangkaian langkah dalam
penafsiran fungsi diskriminan.
• Hitung pemuatan untuk setiap fungsi dan tinjau rotasi fungsi untuk tujuan
menyederhanakan interpretasi.
• Periksa kontribusi variabel prediktor: (a) untuk masing-masing fungsi secara terpisah
(yaitu, pembebanan diskriminan), (b) secara kumulatif melintasi berbagai fungsi
diskriminan dengan indeks potensi, dan (c) secara grafis dalam solusi dua dimensi
untuk memahami posisi relatif masing-masing kelompok dan interpretasi variabel yang
relevan dalam menentukan posisi ini.

BEBAN DISKRIMINAN DAN ROTASI MEREKA Setelah fungsi diskriminan dihitung,


mereka berkorelasi dengan semua variabel independen, bahkan yang tidak digunakan dalam
fungsi diskriminan, untuk mengembangkan matriks struktur (memuat). Prosedur ini
memungkinkan kami untuk melihat di mana diskriminasi akan terjadi jika semua variabel
independen dimasukkan dalam model (mis., Jika tidak ada yang dikecualikan oleh
multikolinearitas atau kurangnya signifikansi statistik).
Pemuatan Diskriminan. Pemuatan yang tidak diputar mewakili hubungan masing-
masing variabel independen dengan masing-masing fungsi, bahkan jika tidak termasuk dalam
fungsi diskriminan. Pemuatan diskriminatif, mirip dengan pemuatan faktor, adalah korelasi
antara masing-masing variabel independen dan skor diskriminan.
Tabel 19 berisi matriks struktur dari pembebanan diskriminan yang tidak diputar untuk
kedua fungsi diskriminan. Memilih variabel dengan beban 0,40 atau di atas sebagai deskriptif
fungsi, kita melihat bahwa fungsi 1 memiliki lima variabel melebihi 0,40 (X9, X18, X16, X11,
dan X6), dan empat variabel deskriptif fungsi 2 (X6, X18, X17, dan X9). Meskipun kita bisa
menggunakan variabel-variabel ini untuk menggambarkan masing-masing fungsi, kita
dihadapkan dengan masalah bahwa tiga variabel (X9, X6, dan X18) memiliki pembebanan ganda
(variabel dipilih sebagai deskriptif dari kedua fungsi). Jika kita melanjutkan dengan memuat
yang tidak diputar, setiap fungsi akan berbagi lebih banyak variabel dengan yang lain daripada
yang unik.
Kurangnya kekhasan pembebanan dengan masing-masing variabel deskriptif fungsi
tunggal dapat diatasi dengan rotasi matriks struktur, seperti yang dilakukan dengan pembebanan
faktor.
Rotasi. Setelah memuat fungsi diskriminan dihitung, mereka dapat diputar untuk
mendistribusikan ulang varian (mirip dengan rotasi faktor). Pada dasarnya, rotasi
mempertahankan struktur asli dan keandalan model diskriminan sekaligus membuatnya lebih
mudah untuk ditafsirkan secara substantif.
Rotasi fungsi diskriminan, bagaimanapun, adalah pilihan dalam banyak program
perangkat lunak. Dalam SPSS, misalnya, koefisien fungsi diskriminan yang diputar dapat
diperoleh hanya melalui penggunaan sintaks perintah daripada menu "pull down". Contoh-
contoh penggunaan sintaksis perintah dalam SPSS dan sintaksis khusus yang digunakan untuk
analisis diskriminan disediakan di Web di www.pearsonhighered.com/hair atau
www.mvstats.com.
Dalam aplikasi ini kami memilih prosedur rotasi VARIMAX yang paling banyak
digunakan. Rotasi memengaruhi koefisien fungsi dan muatan diskriminan, serta perhitungan skor
Z diskriminan dan centroid kelompok (lihat Tabel 19). Dengan memeriksa koefisien atau
pemuatan yang diputar versus yang tidak diputar menunjukkan hasil yang lebih disederhanakan
(mis., Pemuatan cenderung terpisah menjadi nilai tinggi versus nilai rendah alih-alih menjadi
midrange). Pemuatan yang diputar memungkinkan interpretasi yang jauh lebih berbeda dari
setiap fungsi:
• Fungsi 1 sekarang dijelaskan oleh tiga variabel (X18, X9, dan X16) yang terdiri dari
faktor Layanan Pelanggan Postsale selama analisis faktor, ditambah X11 dan X17.
Dengan demikian, layanan pelanggan, ditambah lini produk dan fleksibilitas harga,
adalah penjelas fungsi 1.
• Fungsi 2 hanya menunjukkan satu variabel, X6 (Kualitas Produk), yang memiliki
pemuatan di atas 0,40 untuk fungsi kedua. Meskipun X17 memiliki nilai tepat di bawah
ambang batas (-.356), variabel ini memiliki pemuatan yang lebih tinggi pada fungsi
pertama, yang membuatnya menjadi deskriptor fungsi tersebut.Dengan demikian, fungsi
kedua dapat dijelaskan oleh variabel tunggal Kualitas Produk.Dengan dua atau lebih
fungsi yang diperkirakan, rotasi dapat menjadi alat yang ampuh yang harus selalu
dipertimbangkan untuk meningkatkan interpretabilitas hasil.

Dalam contoh kami, setiap variabel yang dimasukkan ke dalam proses bertahap adalah deskriptif
dari salah satu fungsi diskriminan. Apa yang harus kita lakukan sekarang adalah menilai dampak
dari masing-masing variabel dalam hal analisis diskriminan keseluruhan (mis., Di kedua fungsi).
MENILAI KONTRIBUSI VARIABEL PREDIKTOR Setelah menggambarkan fungsi
diskriminan dalam hal variabel independen — baik yang digunakan dalam fungsi diskriminan
maupun yang tidak termasuk dalam fungsi — kami mengalihkan perhatian kami untuk
mendapatkan pemahaman yang lebih baik tentang dampak dari fungsi itu sendiri dan maka
variabel individu.
Dampak Fungsi Perorangan. Tugas pertama adalah untuk memeriksa fungsi diskriminan dalam
hal bagaimana mereka membedakan antara kelompok-kelompok.
Kami mulai dengan memeriksa centroid kelompok pada dua fungsi seperti yang
ditunjukkan pada Tabel 19. Pendekatan yang lebih mudah adalah dengan melihat peta teritorial
(Gambar 9):

 Memeriksa centroid kelompok dan distribusi kasus di setiap kelompok, kami melihat
fungsi tersebut 1 terutama membedakan antara kelompok 1 dengan kelompok 2 dan 3,
sedangkan fungsi 2 membedakan antara kelompok 3 versus kelompok 1 dan 2.
 Tumpang tindih dan kesalahan klasifikasi kasus kelompok 2 dan 3 dapat diatasi dengan
memeriksa kekuatan fungsi diskriminan dan kelompok dibedakan oleh masing-masing.
Melihat kembali ke Tabel 19, fungsi 1 sejauh ini merupakan pembeda yang paling kuat,
dan terutama memisahkan kelompok 1 dari kelompok lain. fungsi 2, yang memisahkan
kelompok 3 dari yang lain, jauh lebih lemah dalam hal kekuatan diskriminasi. Tidak
mengherankan bahwa tumpang tindih dan kesalahan klasifikasi terbesar akan terjadi
antara kelompok 2 dan 3, yang dibedakan terutama oleh fungsi 2.

Pendekatan grafis ini menggambarkan perbedaan dalam kelompok karena fungsi diskriminan
tetapi tidak memberikan dasar untuk menjelaskan perbedaan ini dalam hal variabel independen.
Untuk menilai kontribusi dari masing-masing variabel, peneliti memiliki sejumlah langkah
untuk diterapkan — pembebanan diskriminatif, rasio F univariat, dan indeks potensi. Teknik
yang terlibat dalam penggunaan pembebanan diskriminan dan rasio F univariat dibahas dalam
contoh dua kelompok. Kami akan memeriksa secara lebih rinci indeks potensi, suatu metode
untuk menilai kontribusi variabel di berbagai fungsi diskriminan.
Indeks Potensi. Indeks potensi adalah teknik interpretasi tambahan yang cukup berguna
dalam situasi dengan lebih dari satu fungsi diskriminan. Meskipun harus dihitung "dengan
tangan," ini sangat berguna dalam menggambarkan kontribusi setiap variabel individu di semua
fungsi diskriminan.
Indeks potensi mencerminkan pemuatan masing-masing variabel dan daya diskriminatif
relatif dari masing-masing fungsi. Rotasi beban mewakili korelasi antara variabel independen
dan skor Z diskriminan. Dengan demikian, pemuatan kuadrat adalah varians dalam variabel
independen yang terkait dengan fungsi diskriminan. Dengan menimbang varians yang dijelaskan
dari masing-masing fungsi dengan kekuatan diskriminatif relatif dari fungsi-fungsi dan
menjumlahkan seluruh fungsi, indeks potensi merupakan efek diskriminasi total dari setiap
variabel di semua fungsi diskriminan.
Tabel 22 memberikan rincian tentang penghitungan indeks potensi untuk masing-masing
variabel independen. Membandingkan variabel pada indeks potensi mereka mengungkapkan hal
berikut:

 X18 (Kecepatan Pengiriman) adalah variabel independen yang memberikan diskriminasi


terbesar di antara ketiga jenis kelompok pelanggan.
 Diikuti dalam dampak oleh empat variabel yang tidak termasuk dalam fungsi diskriminan
(X9, X16, X11, dan X17).
 Variabel kedua dalam fungsi diskriminan (X6) hanya memiliki nilai potensi tertinggi
keenam.

Mengapa X6 hanya memiliki nilai potensi tertinggi keenam meskipun itu adalah salah satu dari
dua variabel yang termasuk dalam fungsi diskriminan?
 Pertama, ingatlah bahwa multikolinieritas memengaruhi solusi bertahap karena
redundansi di antara variabel yang sangat multikolinier. X9 dan X16 adalah dua variabel
yang sangat terkait dengan X18 (membentuk faktor Layanan Pelanggan), sehingga
dampaknya dalam arti univariat, tercermin dalam indeks potensi, tidak diperlukan dalam
fungsi diskriminan karena kehadiran X18.
 Dua variabel lainnya, X11 dan X17, memang masuk melalui prosedur bertahap, tetapi
dihapus begitu X6 ditambahkan, lagi-lagi karena multikolinearitas. Dengan demikian,
kekuatan diskriminatif mereka yang lebih besar tercermin dalam nilai potensi mereka
meskipun mereka juga tidak diperlukan dalam fungsi diskriminan begitu X6 ditambahkan
dengan X18 dalam fungsi diskriminan.
 Akhirnya, X6, variabel kedua dalam fungsi diskriminan, memiliki nilai potensi rendah
karena terkait dengan fungsi diskriminan kedua, yang memiliki dampak diskriminasi
yang relatif sedikit jika dibandingkan dengan fungsi pertama. Dengan demikian,
meskipun X6 merupakan elemen yang diperlukan dalam membedakan antara tiga
kelompok, dampak keseluruhannya kurang dari variabel yang terkait dengan fungsi
pertama.

Ingat bahwa nilai potensi dapat dihitung untuk semua variabel independen, bahkan jika tidak
dalam fungsi diskriminan, karena mereka didasarkan pada pembebanan diskriminan. Maksud
dari indeks potensi adalah untuk menyediakan interpretasi hanya dalam kasus seperti itu di mana
multikolinieritas atau faktor lain mungkin telah mencegah variabel dimasukkan dalam fungsi
diskriminan.
Gambaran Umum Dampak Empiris. Seperti yang terlihat dalam diskusi sebelumnya,
kekuatan diskriminatif variabel dalam analisis diskriminan tercermin dalam banyak langkah yang
berbeda, masing-masing memberikan peran unik dalam interpretasi hasil diskriminan. Dengan
menggabungkan semua langkah-langkah ini dalam evaluasi kami terhadap variabel, kami dapat
mencapai perspektif yang menyeluruh tentang bagaimana masing-masing variabel cocok dengan
hasil diskriminan.
Tabel 23 menyajikan tiga langkah interpretatif yang disukai (beban yang diputar, rasio F
univariat, dan indeks potensi) untuk masing-masing variabel independen. Hasilnya mendukung
analisis bertahap, meskipun beberapa kasus menggambarkan dampak multikolinieritas pada
prosedur dan hasilnya.•

 Dua variabel (X9 dan X18) memiliki dampak individu terbesar yang dibuktikan dengan
nilai F univariat mereka. Namun, karena keduanya juga sangat terkait (sebagaimana
dibuktikan dengan dimasukkannya mereka pada faktor Layanan Pelanggan), hanya satu
yang akan dimasukkan dalam solusi bertahap. Meskipun X9 memiliki nilai F univariat
yang sedikit lebih tinggi, kemampuan X18 untuk memberikan diskriminasi yang lebih
baik antara semua kelompok (sebagaimana dibuktikan dengan nilai D2 minimum
Mahalanobis minimum yang dijelaskan sebelumnya) menjadikannya kandidat yang lebih
baik untuk dimasukkan. Jadi, X9, pada

sebuah basis individual, memiliki kekuatan diskriminatif yang sebanding, tetapi X18
akan terlihat bekerja lebih baik dalam kombinasi dengan variabel lain.
 Tiga variabel tambahan (X6, X11, dan X16) merupakan dampak tertinggi berikutnya,
tetapi hanya satu, X6, yang dipertahankan dalam fungsi diskriminan. Perhatikan bahwa
X16 sangat berkorelasi dengan X18 (kedua bagian dari faktor Layanan Pelanggan) dan
tidak termasuk dalam fungsi diskriminan, sedangkan X11 memang memasuki fungsi
diskriminan, tetapi merupakan salah satu variabel yang dihapus setelah X6 ditambahkan.
 Akhirnya, dua variabel (X17 dan X13) memiliki efek univariat yang hampir sama, tetapi
hanya X17 yang memiliki hubungan substansial dengan salah satu fungsi diskriminan
(memuat 0,470 pada fungsi pertama). Hasilnya adalah bahwa meskipun X17 dapat
dianggap deskriptif dari fungsi pertama dan dianggap memiliki dampak dalam
diskriminasi berdasarkan pada fungsi-fungsi ini, X13 tidak memiliki dampak apa pun,
baik dalam hubungannya dengan dua fungsi ini atau sebagai tambahan setelah fungsi-
fungsi ini dipertanggungjawabkan. .
 Semua variabel yang tersisa memiliki nilai F univariat yang rendah dan nilai potensi yang
rendah, menunjukkan sedikit atau tidak ada dampak baik dalam arti univariat maupun
multivariat.

Dari catatan khusus adalah interpretasi dari dua dimensi diskriminasi. Interpretasi ini dapat
dilakukan semata-mata melalui pemeriksaan muatan, tetapi dilengkapi dengan tampilan grafis
dari muatan diskriminan, seperti yang dijelaskan dalam bagian berikut.
Tampilan Grafis dari Pembebanan Diskriminan. Untuk menggambarkan perbedaan dalam hal
variabel prediktor, pemuatan dan centroid grup dapat diplot dalam ruang diskriminan yang
berkurang. Seperti disebutkan sebelumnya, representasi paling valid adalah penggunaan vektor
atribut membentang dan centroid grup.
Tabel 24 menunjukkan perhitungan untuk meregangkan pembebanan diskriminan
(digunakan untuk vektor atribut) dan centroid kelompok. Proses merencanakan selalu melibatkan
semua variabel yang dimasukkan dalam model dengan prosedur bertahap (dalam contoh kami,
X6 dan X18). Namun, kami juga akan memplot variabel yang tidak termasuk dalam fungsi
diskriminan jika masing-masing rasio F univariatnya signifikan, yang menambahkan X9, X11,
dan X16 ke ruang diskriminan yang berkurang. Prosedur ini menunjukkan pentingnya variabel
collinear yang tidak termasuk dalam model stepwise akhir, mirip dengan indeks potensi.
Plot vektor atribut yang diregangkan untuk pembebanan diskriminan yang diputar
ditunjukkan pada Gambar 10, yang didasarkan pada koordinat ruang yang dikurangi untuk kedua
variabel yang digunakan untuk menggambarkan fungsi diskriminan dan masing-masing
kelompok (lihat Tabel 24). Vektor diplot menggunakan prosedur ini menunjuk ke kelompok
memiliki rata-rata tertinggi pada variabel independen masing-masing dan jauh dari kelompok
memiliki skor rata-rata terendah. Dengan demikian, interpretasi plot pada Gambar 10
menunjukkan hal berikut:•

 Sebagaimana dicatat dalam peta teritorial dan analisis centroid kelompok, fungsi
diskriminan pertama membedakan antara kelompok 1 versus kelompok 2 dan 3,
sedangkan fungsi diskriminan kedua memisahkan kelompok 3 dari kelompok 1 dan 2. •
 Korespondensi X11, X16, X9 , dan X18 dengan sumbu X mencerminkan hubungan
mereka dengan fungsi diskriminan pertama, tetapi kita melihat bahwa hanya X6 yang
dikaitkan dengan fungsi diskriminan kedua. Gambar tersebut menggambarkan secara
grafis pemuatan yang diputar untuk setiap fungsi dan membedakan variabel deskriptif
dari masing-masing fungsi.
Tahap 6: Validasi Hasil Diskriminan
Rasio hit untuk matriks lintas-klasifikasi dan ketidaksesuaian dapat digunakan untuk
menilai validitas internal dan eksternal, masing-masing, dari analisis diskriminan. Jika rasio hit
melebihi nilai ambang batas pada standar perbandingan, maka validitas akan ditetapkan. Seperti
dijelaskan sebelumnya, nilai ambang batas adalah 41,7 persen untuk kriteria peluang
proporsional dan 43,7 persen untuk kriteria peluang maksimum. Hasil klasifikasi yang
ditunjukkan pada Tabel 20 memberikan dukungan berikut untuk validitas:
Validitas internal dinilai dengan pendekatan lintas klasifikasi, di mana model
diskriminan diperkirakan dengan meninggalkan satu kasus dan kemudian memprediksi kasus itu
dengan model yang diestimasi. Proses ini dilakukan secara bergiliran untuk setiap pengamatan,
sehingga pengamatan tidak pernah memengaruhi model diskriminan yang memprediksi
klasifikasi kelompoknya.
Seperti terlihat pada Tabel 20, rasio hit keseluruhan untuk pendekatan klasifikasi silang
86,7 secara substansial melebihi kedua standar, baik keseluruhan maupun untuk masing-masing
kelompok. Namun, meskipun ketiga kelompok juga memiliki rasio hit individu di atas standar,
rasio hit kelompok 2 (53,8) secara substansial lebih rendah daripada dua kelompok lainnya.
Validitas eksternal ditangani melalui sampel penahan, yang merupakan sampel yang
benar-benar terpisah yang menggunakan fungsi diskriminan yang diperkirakan dengan sampel
analisis untuk prediksi grup.
Dalam contoh kami, sampel penahan memiliki rasio hit keseluruhan 55,0 persen, yang
melebihi kedua nilai ambang batas, meskipun tidak sejauh ditemukan dalam pendekatan lintas
klasifikasi. Kelompok 2, bagaimanapun, tidak melebihi nilai ambang batas. Ketika kesalahan
klasifikasi dianalisis, kita melihat bahwa lebih banyak kasus salah diklasifikasikan menjadi
kelompok 3 daripada benar diklasifikasikan ke dalam kelompok 2, yang menunjukkan bahwa
kasus-kasus kesalahan klasifikasi ini diperiksa untuk kemungkinan redefinisi kelompok 2 dan 3
untuk membuat grup baru.
Peneliti juga didorong untuk memperluas proses validasi melalui profiling kelompok-
kelompok pada set variabel tambahan atau menerapkan fungsi diskriminan pada sampel lain
yang mewakili populasi keseluruhan atau segmen dalam populasi. Selain itu, analisis kasus-
kasus kesalahan klasifikasi akan membantu menentukan apakah ada variabel tambahan yang
diperlukan atau apakah klasifikasi kelompok dependen perlu direvisi.
Tinjauan Manajerial
Analisis diskriminan bertujuan untuk memahami perbedaan persepsi pelanggan berdasarkan
lamanya waktu mereka sebagai pelanggan HBAT. Mudah-mudahan, memeriksa perbedaan dalam
persepsi HBAT berdasarkan masa kerja sebagai pelanggan akan mengidentifikasi persepsi yang
penting untuk pengembangan hubungan pelanggan, yang ditandai oleh para pelanggan lama.
Tiga kelompok pelanggan dibentuk — kurang dari 1 tahun, 1 hingga 5 tahun, dan lebih dari 5
tahun — dan persepsi HBAT diukur pada 13 variabel. Analisis ini menghasilkan beberapa
temuan utama, baik dalam hal jenis variabel yang membedakan antara kelompok dan pola
perubahan dari waktu ke waktu:

 Pertama, ada dua dimensi diskriminasi antara ketiga kelompok pelanggan. Dimensi
pertama ditandai oleh persepsi layanan pelanggan yang lebih tinggi (Resolusi Keluhan,
Kecepatan Pengiriman, dan Pesanan & Penagihan), bersama dengan Lini Produk dan
Fleksibilitas Harga. Sebaliknya, dimensi kedua dicirikan semata-mata dalam hal Kualitas
Produk.
 Membuat profil tiga kelompok pada dua dimensi dan variabel yang terkait dengan
masing-masing dimensi ini memungkinkan manajemen untuk memahami perbedaan
persepsi di antara mereka.
 Kelompok 1, pelanggan kurang dari 1 tahun, umumnya memiliki persepsi HBAT
terendah. Untuk tiga variabel layanan pelanggan (Resolusi Keluhan, Pesanan &
Penagihan, dan Kecepatan Pengiriman), pelanggan ini lebih rendah daripada grup
lain mana pun. Untuk Kualitas Produk, Lini Produk, dan Harga Kompetitif, grup
ini dapat dibandingkan dengan grup 2 (pelanggan 1 hingga 5 tahun), tetapi masih
memiliki persepsi yang lebih rendah daripada pelanggan lebih dari 5 tahun. Hanya
untuk Fleksibilitas Harga, grup ini dapat dibandingkan dengan pelanggan tertua,
dan keduanya memiliki nilai lebih rendah daripada pelanggan 1 hingga 5 tahun.
Secara keseluruhan, persepsi pelanggan baru ini mengikuti pola yang diharapkan
lebih rendah daripada pelanggan lain, tetapi mudah-mudahan membaik karena
mereka tetap menjadi pelanggan dari waktu ke waktu. •
 Grup 2, pelanggan antara 1 dan 5 tahun, memiliki kesamaan dengan pelanggan
terbaru dan tertua. Pada ketiga variabel layanan pelanggan, mereka dapat
dibandingkan dengan grup 3 (pelanggan lebih dari 5 tahun). Untuk Kualitas
Produk, Lini Produk, dan Harga yang Kompetitif, persepsi mereka lebih
sebanding dengan pelanggan yang lebih baru (dan lebih rendah dari pelanggan
tertua). Mereka memegang persepsi tertinggi dari ketiga kelompok tentang
Fleksibilitas Harga. •
 Kelompok 3, mewakili pelanggan yang berumur 5 tahun atau lebih, memiliki
persepsi HBAT yang paling baik seperti yang diharapkan. Meskipun mereka
sebanding dengan pelanggan kelompok 2 pada tiga variabel layanan pelanggan
(dengan kedua kelompok lebih besar dari kelompok 1), mereka secara signifikan
lebih tinggi daripada pelanggan di dua kelompok lain dalam hal Kualitas Produk,
Lini Produk, dan Harga Kompetitif. Dengan demikian, grup ini mewakili
pelanggan yang memiliki persepsi positif dan telah berkembang dalam
membangun hubungan pelanggan melalui kekuatan persepsi mereka.
 Dengan menggunakan tiga kelompok pelanggan sebagai indikator dalam pengembangan
hubungan pelanggan, kita dapat mengidentifikasi dua tahap di mana persepsi HBAT
berubah dalam proses pengembangan ini:
 Tahap 1. Kumpulan persepsi pertama yang akan diubah adalah yang terkait
dengan layanan pelanggan (terlihat pada perbedaan antara kelompok 1 dan 2).
Tahap ini mencerminkan kemampuan HBAT untuk secara positif memengaruhi
persepsi dengan operasi terkait layanan.
 Tahap 2. Pengembangan jangka panjang diperlukan untuk mendorong
peningkatan elemen inti yang lebih banyak (Kualitas Produk, Lini Produk, dan
Harga Kompetitif). Ketika perubahan ini terjadi, semoga pelanggan menjadi lebih
berkomitmen pada hubungan, sebagaimana dibuktikan dengan masa kerja yang
panjang dengan HBAT.
 Perlu dicatat bahwa ada bukti bahwa banyak pelanggan melakukan transisi
melalui tahap 2 lebih cepat daripada 5 tahun seperti yang ditunjukkan oleh
sejumlah besar pelanggan yang telah menjadi pelanggan antara 1 dan 5 tahun,
namun memiliki persepsi yang sama dengan yang lama. pelanggan. Dengan
demikian, HBAT dapat berharap bahwa pelanggan tertentu dapat bergerak melalui
proses ini mungkin dengan cepat, dan analisis lebih lanjut tentang pelanggan ini
dapat mengidentifikasi karakteristik yang memfasilitasi pengembangan hubungan
pelanggan.

Dengan demikian, manajemen disajikan input manajerial untuk perencanaan strategis dan
taktis dari tidak hanya hasil langsung dari analisis diskriminan, tetapi juga dari kesalahan
klasifikasi.
Ringkasan
Sifat dasar, konsep, dan pendekatan untuk analisis diskriminan ganda telah disajikan.
Pedoman dasar untuk penerapan dan interpretasinya dimasukkan untuk menjelaskan lebih lanjut
konsep-konsep metodologis. Bab ini membantu Anda melakukan hal-hal berikut:
Sebutkan keadaan di mana analisis diskriminan linier harus digunakan alih-alih regresi
berganda. Dalam memilih teknik analitik yang tepat, kami terkadang menghadapi masalah yang
melibatkan variabel dependen kategoris dan beberapa variabel independen metrik. Ingatlah
bahwa variabel dependen tunggal dalam regresi diukur secara metrik. Analisis diskriminan
berganda adalah salah satu teknik statistik yang tepat ketika masalah penelitian melibatkan
variabel dependen kategoris tunggal dan beberapa variabel independen metrik. Dalam banyak
kasus, variabel dependen terdiri dari dua kelompok atau klasifikasi, misalnya, pria versus wanita,
tinggi versus rendah, atau baik versus buruk. Dalam kasus lain, lebih dari dua kelompok terlibat,
seperti klasifikasi rendah, sedang, dan tinggi. Analisis diskriminan mampu menangani dua
kelompok atau beberapa (tiga atau lebih) kelompok. Hasil analisis diskriminan dapat membantu
dalam membuat profil karakteristik antarkelompok dari subyek dan dalam menugaskan mereka
ke kelompok yang sesuai.
Identifikasi masalah utama yang berkaitan dengan jenis variabel yang digunakan dan
ukuran sampel yang diperlukan dalam penerapan analisis diskriminan. Untuk menerapkan
analisis diskriminan, peneliti pertama-tama harus menentukan variabel mana yang menjadi
ukuran independen dan variabel mana yang menjadi ukuran dependen. Peneliti harus fokus pada
variabel dependen terlebih dahulu. Jumlah grup variabel dependen (kategori) dapat dua atau
lebih, tetapi grup ini harus saling eksklusif dan lengkap. Setelah keputusan dibuat pada variabel
dependen, peneliti harus memutuskan variabel independen mana yang dimasukkan dalam
analisis. Variabel independen dipilih dalam dua cara: (1) dengan mengidentifikasi variabel baik
dari penelitian sebelumnya atau dari model teoritis yang mendasari pertanyaan penelitian, dan
(2) dengan memanfaatkan pengetahuan dan intuisi peneliti untuk memilih variabel yang tidak
ada penelitian atau teori sebelumnya. tapi itu secara logis mungkin terkait dengan memprediksi
kelompok variabel dependen.
Analisis diskriminan, seperti teknik multivariat lainnya, dipengaruhi oleh ukuran sampel
yang dianalisis. Rasio 20 pengamatan untuk setiap variabel prediktor direkomendasikan. Karena
hasilnya menjadi tidak stabil karena ukuran sampel menurun relatif terhadap jumlah variabel
independen, ukuran minimum yang disarankan adalah lima pengamatan per variabel independen.
Ukuran sampel masing-masing kelompok juga harus dipertimbangkan. Minimal, ukuran grup
terkecil dari suatu kategori harus melebihi jumlah variabel independen. Sebagai pedoman
praktis, setiap kategori harus memiliki setidaknya 20 pengamatan. Meskipun semua kategori
melebihi 20 pengamatan, peneliti juga harus mempertimbangkan ukuran relatif kelompok.
Variasi yang luas dalam ukuran kelompok akan mempengaruhi estimasi fungsi diskriminan dan
klasifikasi pengamatan.
Memahami asumsi yang mendasari analisis diskriminan dalam menilai kesesuaiannya
untuk masalah tertentu. Asumsi untuk analisis diskriminan berhubungan dengan proses
statistik yang terlibat dalam estimasi dan prosedur klasifikasi dan masalah yang mempengaruhi
interpretasi hasil. Asumsi kunci untuk menurunkan fungsi diskriminan adalah normalitas
multivariat variabel independen dan struktur dispersi dan kovarian (matriks) yang tidak diketahui
(tetapi sama) untuk kelompok sebagaimana didefinisikan oleh variabel dependen. Jika asumsi
dilanggar, peneliti Harus dicatat bahwa ada bukti bahwa banyak pelanggan melakukan transisi
melalui tahap 2 lebih cepat daripada 5 tahun seperti yang ditunjukkan oleh sejumlah besar
pelanggan yang telah menjadi pelanggan antara 1 dan 5 tahun, namun memiliki persepsi yang
sama dengan yang lama. pelanggan waktu. Dengan demikian, HBAT dapat berharap bahwa
pelanggan tertentu dapat bergerak melalui proses ini mungkin dengan cukup cepat, dan analisis
lebih lanjut tentang pelanggan ini dapat mengidentifikasi karakteristik yang memfasilitasi
pengembangan hubungan pelanggan. Dengan demikian, manajemen disajikan input manajerial
untuk perencanaan strategis dan taktis dari tidak hanya hasil langsung dari analisis diskriminan,
tetapi juga dari kesalahan klasifikasi untuk analisis (mis., Regresi logistik).
Jelaskan dua pendekatan perhitungan untuk analisis diskriminan dan metode untuk
menilai kesesuaian model keseluruhan. Dua pendekatan untuk analisis diskriminan adalah
metode simultan (langsung) dan metode bertahap. Estimasi simultan melibatkan penghitungan
fungsi diskriminan dengan mempertimbangkan semua variabel independen secara bersamaan.
Dengan demikian, fungsi diskriminan dihitung berdasarkan seluruh rangkaian variabel
independen, terlepas dari kekuatan diskriminatif masing-masing variabel independen. Estimasi
bertahap adalah alternatif dari pendekatan simultan. Ini melibatkan memasukkan variabel
independen ke dalam fungsi diskriminan satu per satu berdasarkan kekuatan diskriminatif
mereka. Pendekatan bertahap mengikuti proses berurutan untuk menambah atau menghapus
variabel ke fungsi diskriminan. Setelah fungsi diskriminan diperkirakan, peneliti harus
mengevaluasi signifikansi atau kesesuaian fungsi diskriminan tersebut. Ketika pendekatan
simultan digunakan, Wilks 'lambda, jejak Hotelling, dan kriteria Pillai semuanya mengevaluasi
signifikansi statistik dari kekuatan diskriminatif dari fungsi diskriminan. Jika metode bertahap
digunakan untuk memperkirakan fungsi diskriminan, tindakan Mahalanobis D2 dan Rao paling
tepat untuk menilai kecocokan.
Jelaskan apa itu matriks klasifikasi dan bagaimana mengembangkannya, dan jelaskan
cara untuk mengevaluasi akurasi prediksi fungsi diskriminan. Uji statistik untuk menilai
signifikansi fungsi diskriminan hanya menilai tingkat perbedaan antara kelompok berdasarkan
skor Z diskriminan, tetapi tidak menunjukkan seberapa baik fungsi memprediksi. Untuk
menentukan kemampuan prediksi fungsi diskriminan, peneliti harus membuat matriks
klasifikasi. Prosedur matriks klasifikasi memberikan perspektif tentang signifikansi praktis
daripada signifikansi statistik. Sebelum matriks klasifikasi dapat dibangun, peneliti harus
menentukan skor pemotongan untuk setiap fungsi diskriminan. Skor pemotongan merupakan
titik pemisah yang digunakan untuk mengklasifikasikan pengamatan ke dalam masing-masing
kelompok berdasarkan skor fungsi diskriminan. Perhitungan skor pemotongan antara dua
kelompok didasarkan pada dua kelompok sentroid (rata-rata kelompok skor diskriminan) dan
ukuran relatif kedua kelompok. Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks.
Entri pada diagonal dari matriks mewakili jumlah individu yang diklasifikasikan dengan benar.
Angka-angka dari diagonal mewakili klasifikasi yang salah. Persentase yang diklasifikasikan
dengan benar, juga disebut rasio hit, mengungkapkan seberapa baik fungsi diskriminan
memprediksi objek. Jika biaya kesalahan klasifikasi kira-kira sama untuk semua kelompok, skor
pemotongan optimal akan menjadi salah satu yang akan salah mengelompokkan jumlah objek
paling sedikit di semua kelompok. Jika biaya kesalahan klasifikasi tidak sama, skor pemotongan
optimal akan menjadi yang meminimalkan biaya kesalahan klasifikasi. Untuk mengevaluasi
rasio hit, kita harus melihat klasifikasi peluang. Ketika ukuran kelompok sama, penentuan
klasifikasi kesempatan didasarkan pada jumlah kelompok. Ketika ukuran kelompok tidak sama,
menghitung klasifikasi peluang dapat dilakukan dua cara: peluang maksimum dan peluang
proporsional.
Katakan bagaimana mengidentifikasi variabel independen dengan kekuatan diskriminatif.
Jika fungsi diskriminan signifikan secara statistik dan akurasi klasifikasi (rasio hit) dapat
diterima, peneliti harus fokus membuat interpretasi substantif dari temuan. Proses ini melibatkan
menentukan kepentingan relatif dari masing-masing variabel independen dalam membedakan
antar kelompok. Tiga metode penentuan kepentingan relatif telah diusulkan: (1) bobot
diskriminan terstandarisasi, (2) pembebanan diskriminan (korelasi struktur), dan (3) nilai F
parsial. Pendekatan tradisional untuk menginterpretasikan fungsi-fungsi diskriminan memeriksa
tanda dan besarnya bobot diskriminan terstandar yang ditetapkan untuk setiap variabel dalam
menghitung fungsi-fungsi diskriminan. Variabel independen dengan bobot yang relatif lebih
besar berkontribusi lebih banyak pada kekuatan diskriminatif fungsi daripada variabel dengan
bobot lebih kecil. Tanda menunjukkan apakah variabel memberikan kontribusi positif atau
negatif. Pemuatan yang diskriminatif semakin banyak digunakan sebagai dasar untuk interpretasi
karena kekurangan dalam memanfaatkan bobot. Mengukur korelasi linear sederhana antara
masing-masing variabel independen dan fungsi diskriminan, pembebanan diskriminan
mencerminkan varians yang dimiliki oleh variabel independen dengan fungsi diskriminan.
Mereka dapat diinterpretasikan seperti pemuatan faktor dalam menilai kontribusi relatif masing-
masing variabel independen terhadap fungsi diskriminan. Ketika metode estimasi bertahap
digunakan, cara tambahan untuk menafsirkan kekuatan diskriminasi relatif variabel independen
adalah melalui penggunaan nilai F parsial, yang dicapai dengan memeriksa ukuran absolut dari
nilai F signifikan dan memeringkatnya. Nilai F yang besar menunjukkan kekuatan diskriminatif
yang lebih besar.
Membenarkan penggunaan pendekatan split-sample untuk validasi. Tahap akhir dari
analisis diskriminan melibatkan memvalidasi hasil diskriminan untuk memberikan jaminan
bahwa hasilnya memiliki validitas eksternal maupun internal. Selain memvalidasi rasio hit,
peneliti harus menggunakan profil kelompok untuk memastikan bahwa rata-rata kelompok
adalah indikator yang valid dari model konseptual yang digunakan dalam memilih variabel
independen. Validasi dapat terjadi baik dengan sampel terpisah (sampel holdout) atau
memanfaatkan prosedur yang berulang kali memproses sampel estimasi. Validasi rasio hit
dilakukan paling sering dengan membuat sampel penahan, juga disebut sebagai sampel validasi.
Tujuan menggunakan sampel penahanan untuk tujuan validasi adalah untuk melihat seberapa
baik fungsi diskriminan bekerja pada sampel pengamatan yang tidak digunakan untuk
mendapatkan fungsi diskriminan. Penilaian ini melibatkan pengembangan fungsi diskriminan
dengan sampel analisis dan kemudian menerapkannya pada sampel ketidaksepakatan.
Analisis diskriminan ganda membantu kita untuk memahami dan menjelaskan masalah
penelitian yang melibatkan variabel dependen kategoris tunggal dan beberapa variabel
independen metrik. Teknik ini dapat digunakan untuk membuat profil karakteristik
antarkelompok subjek dan menugaskan mereka untuk kelompok yang sesuai. Aplikasi potensial
untuk masalah bisnis dan non-bisnis sangat banyak.

Anda mungkin juga menyukai