Anda di halaman 1dari 38

TUGAS 5

MULTIVARIATE

NAMA : DEDI NASIR


NIM. 166090500011002
ANALISIS DISKRIMINAN
I. Prinsip Dasar dan Tujuan Analisis
Analisis diskriminan adalah salah satu teknik statistik yang bisa digunakan pada
hubungan dependensi (hubungan antarvariabel dimana sudah bisa dibedakan mana variabel
respon dan mana variabel penjelas). Lebih spesifik lagi, analisis diskriminan digunakan pada
kasus dimana variabel respon berupa data kualitatif dan variabel penjelas berupa data
kuantitatif. Analisis diskriminan bertujuan untuk mengklasifikasikan suatu individu atau
observasi ke dalam kelompok yang saling bebas (mutually exclusive/disjoint) dan menyeluruh
(exhaustive ) berdasarkan sejumlah variabel penjelas.
Ada dua asumsi utama yang harus dipenuhi pada analisis diskriminan ini, yaitu:
1. Sejumlah p variabel penjelas harus berdistribusi normal.
2. Matriks varians-covarians variabel penjelas berukuran pxp pada kedua kelompok harus
sama.
Jika dianalogikan dengan regresi linier, maka analisis diskriminan merupakan
kebalikannya. Pada regresi linier, variabel respon yang harus mengikuti distribusi normal dan
homoskedastis, sedangkan variabel penjelas diasumsikan fixed, artinya variabel penjelas tidak
disyaratkan mengikuti sebaran tertentu. Untuk analisis diskriminan, variabel penjelasnya
seperti sudah disebutkan di atas harus mengikuti distribusi normal dan homoskedastis,
sedangkan variabel responnya fixed.
I. Algoritma Pokok Analisis dan Model Matematis
Secara ringkas, langkah-langkah dalam analisis diskriminan adalah sebagai berikut:
1. Pengecekan adanya kemungkinan hubungan linier antara variabel penjelas. Untuk point ini,
dilakukan dengan bantuan matriks korelasi (pembentukan matriks korelasi sudah difasilitasi
pada analisis diskriminan). Pada output software, matriks orelasi bisa dilihat pada Pooled
Within-Groups Matrices.
2. Uji Vektor Rata-rata Kedua Kelompok
Ho: μ1 =μ2
H1: μ1 ≠μ2
Diharapkan dari uji ini adalah hipotesis nol ditolak, sehingga kita mempunyai
informasi awal bahwa variabel yang sedang diteliti memang membedakan kedua
kelompok.
3. Dilanjutkan pemeriksaan asumsi homoskedastisitas, dengan uji Box’s M.
Diharapkan dari uji ini hipotesisi nol tidak ditolak ( Ho: Σ1= Σ2).

4. Pembentukan model diskriminan


a. Kriteria Fungsi Linier Fisher
• Pembentukan Fungsi Linier (teoritis)
Fisher mengelompokkan suatu observasi berdasarkan nilai
skor yang
dihitung dari suatu fungsi linier Y= λ' X
dimana λ'menyatakan vektor yang berisi koefisien-
koefisien variabel
penjelas yang membentuk persamaan
linier terhadap variabel respon,
Fisher mentransformasikan observasi-observasi x yang multivariate menjadi
observasi y yang univariate. Dari persamaan λX ' Y = diperoleh
adalah rata-rata Y yang diperoleh dari X yang termasuk dalam kelompok ke-k adalah
varians Y dan diasumsikan sama untuk kedua kelompok.
Kombinasi linier yang terbaik menurut Fisher adalah yang dapat memaksimumkan rasio
antara jarak kuadrat rata-rata Y yang diperoleh dari x dari kelompok 1 dan 2 dengan varians
Y, atau dirumuskan sebagai berikut:

Jika maka persamaan di atas menjadi . Karena Σ adalah matriks definit

positif, maka menurut teori pertidaksamaan Cauchy-Schwartz, rasio dapat


dimaksimumkan jika

Dengan memilih c=1, menghasilkan kombinasi linier yang disebut kombinasi linier Fisher
sebagai berikut:
 Menghitung discriminant score
Setelah dibentuk fungsi liniernya, maka dapat dihitung skor diskriminan untuk tiap
observasi dengan memasukkan nilai-nilai variabel penjelasnya.
 Menghitung cutting score
Cutting score (m) dapat dihitung dengan rumus sebagai berikut:

Kemudian nilai-nilai discriminant score tiap observasi akan dibandingkan dengan cutting
score, sehingga dapat diklasifikasikan suatu observasi akan termasuk ke dalam kelompok
yang mana. Suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota

kelompok kode 1 jika selain itu dimasukkan ke dalam kelompok


2(kode nol).
 Penghitungan Hit Ratio (dalam model regresi logistik disebut percentage correct) Setelah
semua observasi diprediksi keanggotaannya, dapat dihitung hit ratio, yaitu rasio antara
observasi yang tepat pengklasifikasiannya dengan total seluruh observasi.
b. Kriteria posterior probability
Aturan pengklasifikasian yang ekivalen dengan model linier Fisher adalah
berdasarkan nilai peluang suatu observasi dengan karakteristik tertentu (x) berasal dari
suatu kelompok. Nilai peluang ini disebut posterior probability .

Suatu observasi dengan karakteristik x akan diklasifikasikan sebagai anggota kelompok


0 jika P(k=0 x) > P( k=1 x) .
CONTOH KASUS

Penelitian menggunakan analisis diskriminan untuk mendapatkan fungsi guna


menduga frekuensi liburan keluarga (Y), dimana variable Y terdiri dari 2 kategori,
yakni Y=1 untuk frekuensi liburan rendah, Y=2 untuk frekuensi libur an tinggi.
Variabel yang digunakan sebagai penduga Y adalah :
X1 = pendapatan keluarga per bulan (juta rupiah)
X2 = sikap terhadap perjalanan (skala 1-7, dari sangat negatif sampai sangat positif)
X3 = tingkat kepentingan liburan keluarga (skala 1-7, dari tidak penting sd sangat
penting)
X4 = jumlah anggota keluarga
X5 = umur kepala keluarga
Datanya adalah :
No X1 X2 X3 X4 X5 Y
1 15 1 1 6 25 1
2 2 1 1 7 30 1
3 1.17 1 1 8 55 1
4 3.5 2 1 9 60 1
5 1.25 2 1 5 30 1
6 10 7 7 2 43 1
7 15 6 7 1 45 1
8 13 7 6 3 29 1
9 14 6 6 2 28 1
10 8 7 6 2 26 1
11 4.3 3 4 5 49 1
12 11 4 4 4 50 1
13 12 6 5 5 36 1
14 12.5 4 5 4 31 1
15 13.7 4 7 5 39 1
16 5.3 3 3 3 32 2
17 6.5 3 4 4 31 2
18 6.7 4 4 4 45 2
19 4.65 4 3 5 42 2
20 3.75 5 4 5 41 2
21 2.3 1 1 10 23 2
22 3.1 2 1 7 24 2
23 3.2 1 2 8 32 2
24 4.5 1 2 9 34 2
25 6.1 2 2 6 47 2
26 19 7 7 5 35 2
27 12 5 7 2 42 2
28 4.3 7 6 3 43 2
29 1.4 6 6 2 44 2
30 31 6 7 1 45 2
Data tersebut akan di analisis dengan analisis diskriminan menggunakan
software, adapun software yang digunaka ada 4 yaitu :
1. Software SAS
2. Software NCSS
3. Software Stata
4. Software MyStat
HASIL ANALISIS
1. Hasil analisis dengan menggunakan software SAS

Sintax diatas digunakan untuk menganalsis data diskriminan


pada SAS, setelah di RUN maka output yang dihasilkan
sebagai berikut :
Tabel diatas menunjukkan bahwa kasus yang dianalisis terdiri dari 30 data.
Sebanyak 15 data dengan kategotik data terbagi dua yaitu “0” (tidak penting) dan
sebanyak 15 termasuk kategori “1” (sangat penting).
Pada tabel terlihat bahwa rank matrik yang diperoleh adalah 5 dengan logaritma
natural kovariansi determinan matriks bernilai 10,01301.
Pada Tabel estat classfunction menunjukkan hal yang sama dengan bagian Canonical
Discriminant Function Coefficients yang sebelumnya sudah dibahas. Persamaannya sebagai
berikut:
Untuk kategori 1, persamaannya :
Nilai = -26,70557 + 0,26936 X1 – 2,82402 X2 + 1,35893 X3 + 4,24811 X4 + 0,36472 X5
Untuk kelompok 2, persamaannya :
Nilai = -26,62443 + 0,21863 X1 – 2,69910 X2 + 1,60667 X3 + 04,33738 X4 + 0,36472X5
Dari tabel diatas terlihat bahwa data dengan kategori 1 sebanyak 15 sampel sedangkan kelompok
dengan kategori 2 sebanyak 15 sampel dengan prior atau dugaaan awal sebesar 0,5.
Tabel di atas pada kolom Original baris “Data kategori 1 sebanyak 9 sampel atau 60%, sedangkan 6
sampel sebesar 40% berpindah ke kelompok kategori “2”. Sementara itu, 9 sampel 60% yang berada
dikelompok kategori “2” dan ada 15 sampel 50% berpindah ke kelompok kategori “1”.Maka Ketepatan
fungsi diskriminan dapat dihitung dengan cara: (6 + 15)/30 = 0,7 atau 70 %.
Tabel ini bararti bahwa variabel dependent terdiri dari 2 level dengan
kategori “1” dan “2” dengan jumlah data sebanyak 30.
Dependent Variable : X2
Dependent Variable : X4
Dependent Variable : X5
Tabel the GLM Prosedure di atas adalah hasil analisis untuk menguji kesamaan
rata-rata variabel. Uji ini menggunakan Uji F dan nilai signifikansi. Jika angka P-value
(Pr > F) mendekati angka 0 maka cenderung ada perbedaan dalam kelompok.

Hipotesis yang akan diuji adalah:

Jika nilai signifikansi > 0,05 maka tidak ada perbedaan dalam kelompok

Jika nilai signifikansi < 0,05 maka ada perbedaan dalam kelompok

Dari tabel ANOVA diatas dapat dilihat bahwa semua variabel (X1, X2, X3, X4, X5)
memiliki nilai signifiansi < 0,05, maka semua variabel memberikan perbedaan pada
pengambilan keputusan (Y).
Tabel di atas adalah tabel analisis Inter Correlations Variabel Independen. Apabila
ada nilai korelasi antar variabel independen yang > 0,5 terdapat gejala
multikolinearitas. Pada tabel diatas dapat dilihat bahwa terdapat beberapa variabel
yang multikolinearitas.
Dari tabel di atas terlihat bahwa nilai uji F pada analisis multivariat dengan
menggunakan metode Wilk’s Lambda, Pillai’s Trace, Lawley-Hotelling trace dan Roy’s
Greatest root. Nilai p-value ditunjukkan dengan nilai Prob>F. Jika p value < 0,05 maka pada
derajat kepercayaan 95%, variabel independen secara simultan mempunyai pengaruh yang
bermakna terhadap variabel dependen. Dari tabel diatas dapat dilihat bahwa semua uji > 0,05
maka dapat disimpulkan bahwa semua variabel independen secara simultan tidak
mempunyai pengaruh yang bermakna terhadap variabel dependen.
2. Hasil analisis dengan menggunakan software SAS
Pada Tabel Linear Discriminant Functions menunjukkan persamaan diskriminan
sebagai berikut:
Untuk kategori 1, persamaannya :
Nilai = -25,7993 – 0,0009021167 X1 – 2,525676 X2 + 2,048456 X3 + 4,183733 X4 +
0,3629021 X5
Untuk kelompok 2, persamaannya :
Nilai = -26,09464 + 0,00376044 X1 + 2.379062 X2 + 2,263786 X3 + 4,286446 X4 + 0,3418718
X5
Tabel menunjukkan bahwa kelompok data dengan kategori 1 sebanyak 15 sampel
sedangkan kelompok dengan kategori 2 sebanyak 15 sampel. Pada kolom Original baris
“Kelompok kategori 1 sebanyak 12 sampel, sedangkan 3 sampel berpindah ke kelompok
kategori “2”. Sementara itu,7 sampel yang berada dikelompok kategori “2” dan ada 7
sampel berpindah ke kelompok kategori “1”.
Tabel Canonical Variate Analysis Section di atas menunjukkan nilai likelihood ratio dan uji
F. perbandingan nilai F dengan F tabel pada DF1=5 dan DF2=24 dengan probabilitas 0,05.
(DF1 berasal dari jumlah variabel dikurangi 1, yaitu 6 – 1 = 5 dan DF2 berasal dari jumlah
sampel dikurangi jumlah variabel yaitu 30 – 6 = 24). P-value atau signifikansi ditunjukkan
oleh nilai Prob>F, jika p value < 0,05, maka semua variabel independen secara simultan
mempengaruhi nilai variabel dependen (Y).
Pada tabel di atas terdapat nilai canonical correlation. Nilai canonical correlation digunakan
untuk mengukur derajat hubungan antara hasil diskriminan atau besarnya variabilitas yang
mampu diterangkan oleh variabel independen terhadap variabel dependen.
Tabel Canonical Coefficients di atas menunjukkan fungsi diskriminan dengan persamaan
sebagai berikut : Z score = 0,938505 – 0,637945 X1 + 0,580745 X2 + 0,980745 X3 +
0,500391 X4 – 0,397327 X5 . Fungsi ini berguna untuk menganalisis kasus atau responden
yang diteliti akan termasuk ke dalam kelompok mana, yaitu kelompok pertama (keputusan
1) atau kedua (keputusan 2)
3. Hasil analisis dengan menggunakan software SAS

Di atas merupakan input pada Stata dan hasilnya sebagai berikut


Tabel estat canontest di atas menunjukkan nilai likelihood ratio dan uji F. Bisa
membandingkan nilai F dengan F tabel pada DF1=5 dan DF2=24 dengan probabilitas
0,05. (DF1 berasal dari jumlah variabel dikurangi 1, yaitu 6-1=5 dan DF2 berasal dari
jumlah sampel dikurangi jumlah variabel yaitu 22-6=16). P-value atau signifikansi
ditunjukkan oleh nilai Prob>F, jika p value < 0,05, maka semua variabel independen
secara simultan mempengaruhi nilai variabel dependen (Y).
Pada tabel di atas terdapat nilai canonical correlation. Nilai canonical correlation
digunakan untuk mengukur derajat hubungan antara hasil diskriminan atau besarnya
variabilitas yang mampu diterangkan oleh variabel independen terhadap variabel
dependen.
Tabel estat structure menunjukan urutan karakteristik yang paling membedakan keputusan
(Y). Urutan ditentukan dengan nilai absolut yang paling besar (Absolut artinya
menghilangkan nilai negatif). Variabel X2 adalah yang paling membedakan, kemudian
variabel X4, variabel X1, variabel X4 dan selanjutnya variabel X3.
Berdasarkan angka tabel di atas, terdapat dua kelompok yang berbeda yaitu kelompok
dengan keputusan 1 dengan centroid (rata-rata kelompok) negatif dan kelompok yang
keputusan 2 dengan centroid (rata-rata kelompok) positif.
Tabel di atas menunjukkan kelompok dengan kategori 1 sebanyak 15 sampel sedangkan
kelompok dengan kategori 2 sebanyak 15 sampel.
Tabel di atas pada kolom Original baris “Kelompok kategori 1 sebanyak 9 sampel atau 60%,
sedangkan 6 sampel sebesar 40% berpindah ke kelompok kategori “2”. Sementara itu, 9
sampel 60% yang berada dikelompok kategori “2” dan ada 6 sampel 40% berpindah ke
kelompok kategori “1”.
Maka Ketepatan fungsi diskriminan dapat dihitung dengan cara: (9 + 9)/30 = 0.6 atau 60 %.

Anda mungkin juga menyukai