Multiple Group DA
Multiple Group DA
Dalam bab yang lalu kita bahas diskriminan analisis untuk dua kelompok. Namun,
dalam banyak contoh, seseorang tertarik untuk menentukan perbedaan diantara lebih
dari dua kelompok. Misalkan, perhatikan situasi-situasi berikut ini:
1. Seorang manager pemasaran tertarik untuk menentukan factor-faktor yang
secara terbaik membedakan pengguna-pengguna berat, medium, dan ringan
dari suatu product.
2. Pimpinan dari suatu perusahaan telefon tertarik untuk mengidentifikasikan
karakteristik-karakterisitk yang secara terbaik membedakan diantara keluarga-
keluarga yang memiliki satau saluran telefon, dua saluran, tiga saluran telefon
atau lebih.
3. Pimpinan dari suatu perusahan multinasional tertarik untuk
mengidentifikasikan atribut-atribut menonjol yang membedakan pengenalan
produk-produk yang sukses di Negara-negara Amerika Latin, Eropa, Timur Jauh
dan Timur Tengah.
Masing-masing contoh ini melibatkan pembedaan diantara tiga atau empat kelompok.
Multiple Group Discriminant Analysis adalah suatu teknik yang cocok untuk tujuan itu.
Tujuan-tujuan dari MDA sama dengan tujuan-tujuan pada Discriminant analysis dua
kelompok, terkecuali untuk perbedaan-perbedaan berikut ini. Namun, untuk kasus lebih
dari dua kelompok, tidaklah mungkin untuk merepresentasikan atau memperhitungkan
semua perbedaan diantara kelompok berdasarkan suatu fungsi diskriminan tunggal.
Sehingga perlu untuk kita mengidentifikasikan fungsi diskriminan lainnya. Ini berarti,
suatu tujuan tambahan dari MDA adalah mengidentifikasikan fungsi diskriminan
minimum yang akan menyajikan perbedaan-perbedaan diantara kelompok-kelompok.
Panel II pada Gambar 9.1 menyajikan suatu plot lain dari observasi hipotetis untuk
empat kelompok. Sekali lagi, nyata bahwa mean-mean dari variable X 1 dan X2 untuk
empat kelompok adalah berbeda. Misalkan Z1 adalah sumbu yang merepresentasikan
fungsi diskriminan. Skor-skor diskriminan, yang ditentukan oleh proyeksi dari titik-titik
pada fungsi diskriminnan, Z 1, terlihat menyajikan diskriminasi yang baik diantara
semua pasangan kelompok-kelompok, kecuali kelompok 2 dan 3. Oleh karena itu kita
perlu mengidentifikasikan fungsi diskriminan yang lain agar dapat membedakan
kelompok 2 dan 3. Misalkan Z2 adalah sumbu yang merepresentasi fungsi diskriminan
yang kedua. Fungsi diskriminan yang kedua ini memberikan perbedaan diatara
kelompok-kelompok 2 dan 3, demikian juga membedakan pasangan-pasangan
kelompok lainnya, namun fungsi ini tidak bisa membedakan kelompok 1 dan 4. Oleh
karena itu, agar dapat mempertimbangkan semua perbedaan diantara semua pasangan
dari empat kelompok ini, kita membutuhkan fungsi diskriminan Z 1 dan Z2 . Dalam kasus
ini, dibutuhkan lebih dari satu fungsi diskriminan untuk dapat secara cukup menyajikan
perbedaan-perbedaan di kalangan keempat kelompok ini. Kedua sumbu ini, yaitu fungsi
diskriminan Z1 dan Z2 tidak dibatasi, atau tidak harus orthogonal satu terhadap lainnya.
Satu-satunya yang dibutuhkan adalah kedua set skor diskriminan adalah tidak saling
berkorelasi.
Pada contoh tadi, terkait dengan reduksi data, tidak banyak yang kita peroleh; kita
dapat saja menggunakan kedua variable original, X1 dan X2 untuk tujuan-tujuan
menemukan perbedaan. Tetapi, misalkan konfigurasi spasial dari observasi-observasi
dalam keempat kelompok yang tersaji dalam Panel II pada Gambar 9.1 adalah sama,
misalnya dalam 20 dimensi ( p = 20). Untuk konfigurasi spasial seperti ini, sebagian
besar dari perbedaan-perbedaan diantara empat kelompok ini dapat direpresentasikan
dalam ruang discriminan berdimensi dua yang didefiniksikan oleh dua fungsi
diskriminan, yaitu Z1 dan Z2, berlainan dengan merepresentasikan perbedaan-
perbedaan dalam 20 dimensi. Tentu saja hal ini memberikan banyak penghematan
dalam merepresentasi data. Oleh karena banyaknya variable diskriminan biasanya
lebih besar dari banyaknya kelompok, sejumlah besar penghematan dapat diperoleh
dengan merepresentasikan perbedaan-perbedaan di kalangan kelompok dalam ruang
diskriminan berdimensi r , dimana r ≤ G−1.
yang dapat digunakan untuk menghitung skor-skor diskriminan untuk setiap observasi.
Namun, perhatikan Gambar 9.2 bahwa Z1 tidak dapat membedakan antara kelompok 2
dan kelompok 3. Oleh karena itu kita harus mencari sumbu lainnya yang dapat
menemukan perbedaan diantara kedua kelompok ini. Fungsi diskriminan yang pertama
bertanggung jawab untuk perbedaan-perbedaan maximum diantara kelompok-
kelompok dan berkorespondensi dengan nilai maximum untuk , sehingga fungsi
diskriminan akan tentu berkorespondensi dengan nilai ekstrim λ lainnya. Dari table 9.2
dan Gambar 9.3 kita lihat bahwa titik ekstrim kedua yang berkorespondensi dengan
θ=136.1150, atau 316.1150, dan menghasilkan nilai λ 2=16.374 . Persamaan yang
memberikan proyeksi dari titik-titik ke Z2 adalah:
−.721 × X 1 +0.693 × X 2
Yang dapat digunakan untuk menghitung skor-skor diskriminan yang kedua untuk
setiap observasi. Perhatikan bahwa dalam kasus ini kedua sumbu Z1 dan Z2 adalah
orthogonal.Hal ini tidak harus demikian untuk data-data set lainnya. Artinya. Fungsi-
fungsi diskriminan tidak dibatasi untuk harus orthogonal satu terhadap lainnya.
Konstrain yang harus ada yaitu skor-skor diskriminan yang dihasilkan haruslah tidak
berkorelasi.
9.1.3. Klasifikasi
Seperti yang ditunjukkan pada bab 8, klasifikasi dapat dilihat sebagaipembagian dari
seluruh ruang diskriminan atau raung variable menjadi R 1, R2, …, RG yang terpisah dan
sepenuhnya. Tiap observasi diklasifikasikan kedalam kelompok yang di dalam daerah
itu observasi itu berada. Gambar 9.4 menyajikan empat daerah klasifikasi dalam ruang
variable (data original). Perhatikan bahwa diperlukan dua garis lurus untuk membagi
ruang berdimensi dua menjadi empat daerah. Garis-garis lurus dapat dipandang sebagai
cut off lines. Ada sejumlah criteria atau aturan yang dapat digunakan untuk
mengidentifikasi cutoff lines untuk memperoleh daerah-daerah klasifikasi. Aturan-
aturan ini adalah generalisasi-generalisasi dari aturan-aturan yang dibahas dalam bab 8
dan appendiks., dan dibahas secara detail di bagian apendiks di akhir bab ini.
Gambar 9.5 menyajikan empat daerah klasifikasi dalam ruang diskriminan. Sekali lagi,
dua cutoff lines diperlukan untuk membentuk empat daerah. Anmun, jika hanya ada
satu fungsi diskriminan yang diperlukan untuk secara cukupmenyajikan perbedaan-
perbedaan diantara empat kelompok maka plot ruang diskriminan akan merupakan
plot berdimensi satu, dan 3 titik (cut off values) akan diperlukan untuk membagi ruang
berdimensi satu menjadi empat daerah.
bernilai maximum.
Z 2=w21 X 1 +w 22 X 2 +…+ w2 p X p
matrix SSCP within group dan between group dari p variable. Perhatikan bahwa
matrix W-1B adalah nonsymetric, eigenvector-eigenvector bisa tidak orthogonal. Artinya
fungsi-fungsi discriminant tiak akan orthogonal. Namun, skor-skor diskriminan yang
dihasilkan tidaklah berkorelasi.
H a : μ1 ≠ μ2 ≠ μ 3 ≠ μ4
Sekali lagi, dengan mengabaikan konstanta, rasio – rasio dari koefisien-koefisien dalam
persamaan 9.3 dan 9.4, berturut-turut adalah sama dengan rasio-rasio yang dilaporkan
pada persamaan 9.1 dan 9.2. Perhatikan bahwa tanda-tanda untuk koefisien-koefisien
untuk fungsi-fungsi diskriminan yang ada pada persamaan 9.4 adalah lawan dari yang
disediakan pada persamaan 9.2. Hal ini tidak perlu dipedulikan, karena persamaan 9.2
dapat diperoleh dengan cara mengalikan persamaan 9.4 dengan negative satu.
Selanjutnya, perhatikan bahwa Gambar 9.2 S2 membentuk sudut 136.115 0 atau
316.1150 dengan sumbu X1. Jika ada yang mau menggunakan sudut 316.115 0 antara Z2
dan X1, maka dalam persamaan 9.2 akan diperoleh bobot-bobot dari X1 dan X2
berturut-turut adalah 0.721 dan -0.693., yang sekarang akan memiliki tanda yang sama
seperti bobot-bobot pada persamaan 9.4.
SIGNIFIKANSI STATISTIK. Tidak semua dari K fungsi diskriminan itu adalah secara
statistic signifikan. Artinya hanya r ( dimana r≤ K ¿ fungsi diskriminan yang mungkin
perlu untuk merepresentasi paling banyak perbedaan-perbedaan di kalangan
kelompok-kelompok. Rumus berikut ini digunakan untuk menghitung nilai χ 2untuk
mengases signifikansi statistic secara keseluruhan dari semua fungsi-fungsi
diskriminan:
K
χ 2= [ n−1− ( p+ G ) /2 ] ∑ ln ( 1+ λk ) …. (9.5)
k=1
= 281.424.
yang sama dengan χ 2yang dilaporkan dalam output [2d]. Perhatikan bahwa nilai χ 2
yang baru diperoleh itu menggunakan eigenvalue-eigenvalue untuk semua K fungsi
diskriminan. Karena itu, nilai χ 2 yang dilaporkan pada baris pertama di outpu tidak
menguji signifikansi statistic dari fungsi pertama saja, tetapi secara bersama ia menguji
significansi statistic dari semua fungssi diskriminan yang mungkin. Suatu nilai χ 2 yang
significan secara statistic menyimpulkan bahwa paling sedikit fungsi diskriminan Iyang
pertamaadalah significan; fungsi-fungsi diskriminan lainnya bisa atau tidak significan.
Dalam kasus sekarang ini χ 2 yang = 281.432 adalah significan secara statistic,
menyarankan bahwa fungsi diskriminan yang pertama adalah significan secara statistic.
Significansi statistic dari fungsi diskriminan lainnya itu menentukan apakah secara
bersama mereka menjelaskan besarnya perbedaan diantara keempaat kelompok yang
belum dijelaskan oleh fungsi diskriminan pertama. Pengujian significansi statistic dapat
diselesaikan dengan menghitung nilai χ 2 dengan menggunakaan persamaan berikut ini:
K
χ 2= [ n−1− ( p+ G ) /2 ] ∑ ln ( 1+ λk ) …. (9.6)
k=2
χ = [ 152−1−( 2+ 4 ) /2 ][ ln ( 1+16.37504 ) ]
2
= 137.040
Dan ini sama dengan yang dilaporkan dalam output [2d]. Perhatikan bahwa persamaan
9.6 dimodifikasi dari persamaan 9.5 dimana dalam perhitingannya dibuang eigenvalue
dari fungsi diskriminan yang pertama. Suatu nilai χ 2 yang significan akan
menyimpulkan bahwa fungsi diskriminan kedua dan mungkin saja fungis-fungsi
diskrimian berikutnya secara significan menjelaskan perbedaan-perbedaan dalam
kelompok-kelompok yang tidak dijelaskan oleh fungsi diskriminan pertama. Oleh
karena nilai χ 2 adalah 136.040 adalah significan secara statistic, kita simpulkan bahwa
paling sedikit fungsi diskriminan kedua juga menjelaskan sejumlah perbedaan yang
significan diantara keempat kelompok yang tidak dijelaskan oleh fungsi diskriminan
pertama.
Dalam hal dimana ada sebanyak K fungsi diskriminan, prosedur diatas tadi diulangi
sampai nilai χ 2 tidak lagi significan. Secara umum, untuk memeriksa significasnsi
statistic dari fungsi diskriminan ke r, rumus untuk menghitung nilai χ 2 adalah:
K
χ r =[ n−1−( p+G ) /2 ] ∑ ln ( 1+ λ k )
2
…. (9.7)
k=r
Tabel Anova menyajikan rasio F untuk menguji hipotesis nol dan hipotesis alternative:
H 0 : μ1=μ2=μ 3=μ4
H a : μ1 ≠ μ2 ≠ μ 3 ≠ μ4
Significansi Praktis
Seperti biasanya, uji – uji significansi statistic sensitive terhadap ukuran sample.
Artinya, untuk sample berukuran besar suatu fungsi diskriminan diperhitungkan untuk
hanya perbedaankecil diantara kelompok-kelompok dapat saja berbeda secara
significan. Karena itu seseorang harus memperhitungkan signifikansi praktisdari suatu
fungsdi diskriminasi. Signifikansi praktis dari suatu fungsi diskriminan di ukur oleh
kuadrta korelasi kanonik (CR2) dan λ atau eigencalue-eigenvalue.
Seperti yang dibahas pada bab 8, suatu masalah analisis diskriminan dua kelompok
dapat diformulasikan sebagai suatu masalah korelasi kanonik dengan keanggotaan
kelompok (group membership) diberi kode dengan menggunakan variable – variable
dummy, sebagai variable – variable dependent. Dalam kasus ini, diperlukan tiga variable
dummy untuk member kode pada empat kelompok ini,yang menghasilkan tiga variable
dependen, dan analisis korelasi kanonik akan menghasilkan dua fungsi kanonik. Secara
berturut-turut, fungsi kanonik pertama dan kedua berkaitan dengan fungsi diskriminan
pertama dan kedua. Korelasi-korelasi kanonik adalah 0.975 dan 0.971 yang akan
menghasilkan CR2 berturut-turut 0.951 dan 0.943, untuk fungsi diskriminan pertama
dan kedua [2c, exibit 9.1]. Nilai CR2 yang tinggi mengindikasikan bahwa fungsi-fungsi
diskriminan memberikan perbedaan-perbedaan yang substansial diantara empat
kelompok.
λj
K
×100
∑ λj
j =1
9.3.3. Klasifikasi
Ada beberapa aturan yang berbeda yang dapat digunakaan untuk mengklasifikasi
observasi-observasi yang akan dijumpai kelak. Aturan – aturan ini adalah generalisasi
dari aturan-aturan yang dibahas pada appendix di bab 8. Appendix pada bab ini
menyajikan pembahasan yang rinci tentang berbagai aturan untuk mengklasifikasikan
observasi-observasi ke dalam berbagai kelompok.
Fungsi-fungsi klasifikasi untuk setiap kelompok dilaporkan oleh SPSS [2b]. Untuk
mengklasifikasikan suatu observasi, pertama kali fungsi klasifikasi untuk masing-
masing kelompok digunakan untuk menghitung skor-skor klasifikasi dan observasi
ditempatkan pada kelompok yang memiliki skor klasifikasi tertinggi.
Probabilitas posterior dari suatu observasi yang berada dalam suatu kelompok dapat
juga dihitung. Suatu observasi ditempatkan pada kelompok dengan poobabilitas
posterior tertimggi. SPSS melaporkan dua probabilitas posterior tertinggi [2h].
Berdasarkan matrix klasifikasi semua observasi diklasifikasikan dengan benar [2i].
Significansi statitis dari laju klasifikasi (classification rate) dapat diukur dengan
menggunakan prosedur yang dijelakan di bab 8. Dengan menggunakan persamaan 8.20,
banyaknya klasifikasi yang diharapkan benar sesuai hanya dengan peluang (chance)
adalah 13, dan dari persamaan 8.18 itu Z* = 12.49, yang adalah significant pada p <.01.
Seperti yang diuraikan dalam pasal 9.1.3, klasifikasi itu sesungguhnya melibatkan
pembagian ruang diskriminan total menjadi daerah-daerah yang mutual exclusive dan
exhausted. Suatu plot yang memperlihatkan daerah-daerah ini dinamakan map
teritorial. SPSS manyajikan map teritorial [2f]. Dalam map ini sumbu-sumbu
merepresentasikan fungsi-fungsi diskriminan dan tanda-tanda bintang
merepresentasikan centoid-centroid dari kelompok-kelompok. Keempat daerah yang
mutually exclusive itu diberi tanda R1, R2, R3, dan R4. Untuk dapat mengklasifikasikan
suatu observasi, mula-mula dihitung skor diskriminannya dan di plot pada map
territorial. Observasi itu kemudian diklasifikasikan pada kelompok yang di daerah
kelompok itu dimana observasi tersebut ditempatkan. Misalnya, pandanglah suatu
observasi baru dengan nilai 3 dan 4, berturut-turut untuk X1 dan X2. Skor – skor
diskriminan Z1 dan Z2, berturut-turut adalah: (gunakan fungsi diskriminan 9.3 dan 9.4.
(lihat [2.e]
Dapat dilihat bahwa observasi ini berada di R1, dan oleh karena itu ia diklasifikasikan
pada kelompok 1.
Heavy - - - - - Light
No Aftertaste - - - - - Aftertaste
Data diberikan kode sedemikian sehingga angka-angka yang lebih tinggi menunjukkan
kesan positif. Misalnya, Heavy diberi kode 1 dan Light diberi kode 5; Good Flavor diberi
kode 5 dan Bad Flavor diberi kode 1.
Output juga menyajikan skor diskriminan rata-rata untuk empat kelompok [6]. Ini
diperoleh dengan mensubstitusikan centoid-centoid kelompok atau mean-mean
kelompok dalamfungsi diskriminan tidak standar. Exhibit 9.4. menyajikan output yang
relevan dari prosedur ONEWAY untuk menguji pasangan dari kelompok-kelompok
(yaitu merek-merek) manakah yang berbeda berdasarkan dua fungsi diskriminan.
Dapat dilihat bahwa berdasarkan fungsi diskriminan pertama, kelompok – kelompok 1,
2 dan 4 (merek A, B dan D) tidak berbeda secara significan dari kelompok 3 (merek C).
Kelompok-kelompok 1 dan 2 (merek A dan B) dan kelompok 2 dan 3 (merek B dan C)
tidak berbeda seacara significan berkaitan dengan fungsi diskriminan kedua. Pertanyaa
berikut yang sudah pasti adalah: Dalam hal apakah merek – merek ini berbeda atau
serupa? Pertanyaan ini dapat dijawab dengan cara memberi label-label pada fungsi –
fungsi diskriminan. Sebagaimana yang dibahas nanti dalam pasal berikut ini, loading-
loading dapat digunakan untuk memberi label kepada fungsi-fungsi diskriminan dan
memplot atribut-atribut dalam ruang diskriminan.
1. Merek A dan B tidak berbeda satu dengan lainnya berdasarkan ringat/berat bir
dan kualitas, tetapi mereka berbeda dari merek-merek lain. Artinya, pelanggan
memandang merek A dan B sebagai merek yang ringan, berkualitas tinggi dan
memandang mereka memang berbeda dari merek lainnya.
2. Merek D dipandang bir yang berkualitas dan tidak ringan
3. Merek C dipandang sebagai bir yang berkualitas paling rendah.