Makalah Analisis Diskriminan
Makalah Analisis Diskriminan
ANALISIS DISKRIMINAN
OLEH:
ZAENAL (1611140006)
JURUSAN MATEMATIKA
2018
i
KATA PENGANTAR
Assalamu’alaikum wr.wb
Segala puji dan syukur atas kehadirat Allah SWT atas segala nikmat dan
karunia-Nya sehingga kami dapat menyelesaikan makalah ini dan disusun sebagai
salah satu syarat untuk memperoleh nilai pada mata kuliah Statistika Multivariat.
Wassalamu’alaikum wr.wb
Penyusun
ii
DAFTAR ISI
HALAMAN JUDUL i
KATA PENGANTAR ii
BAB I PENDAHULUAN 1
A. Latar Belakang 1
B. Rumusan Masalah 2
C. Tujuan Penulisan 2
BAB II PEMBAHASAN 3
DAFTAR PUSTAKA 36
iii
BAB I
PENDAHULUAN
A. Latar Belakang
1
dan metode diskriminan dengan lebih dari dua kategori (Multiple
Discriminant Analysis).
B. Rumusan Masalah
Berdasarkan latar belakang, diperoleh rumusan masalah yaitu:
1. Apa yang dimaksud dengan analisis diskriminan?
2. Apa tujuan analisis diskriminan?
3. Apa asumsi yang harus dipenuhi di dalam analisis diskriminan?
4. Bagaimana langkah-langkah dalam melakukan analisis diskriminan?
C. Tujuan Penulisan
Berdasarkan rumusan masalah yang diperoleh, tujuan penulisan yaitu:
1. Untuk mengetahui definisi analisis diskriminan.
2. Untuk mengetahui tujuan analisis diskriminan.
3. Untuk mengetahui asumsi yang harus dipenuhi di dalam analisis
diskriminan.
4. Untuk mengetahui langkah-langkah analisis diskriminan.
2
BAB II
PEMBAHASAN
Ide dasar dari analisis diskriminan sama dengan analisis regresi logistik.
Pada awalnya analisis diskriminan dikembangkan untuk menganalisis variabel
dependen yang bersifat non metrik atau non numerik dengan dua atau lebih
kategori.
Sebagai moteode untuk membedakan objek menjadi dua atau lebih grup,
maka analisis diskriminan dapat dihitung dengan memberi timbangan kepada
setiap variabel independen agar bisa memaksimalkan perbedaan antara grup
yang ada. Formula persamaan analisis diskriminan ini seperti halnya regresi
dapat ditulis dalam bentuk fungsi diskriminan sebagai berikut:
Dimana :
D = Nilai diskriminan
a = intersep
3
X1...n = variabel independen
4
a) Variabel independen seharusnya berdistribusi normal multivariat
(Multivariate Normality), jika data tidak berdistribusi normal, akan
menyebabkan masalah pada ketepatan fungsi (model) diskriminan.
b) Matriks varians kovarians grup dari semua variabel independen
seharusnya sama.
c) Tidak ada data yang sangat ekstrim (outlier) pada variabel independen,
jika ada data ekstrim yang tetap diproses, hal ini bisa berakibat
berkurangnya ketepatan klasifikasi dari fungsi diskriminan.
d) Tidak ada korelasi yang kuat antar-variabel independen, jika dua variabel
independen mempunyai korelasi yang kuat, dikatakan terjadi
multikolinieritas. Untuk mengetahui adanya multikolinieritas dapat
dilakukan dengan melihat korelasi antar variabel independen (r) yaitu jika
nilai r > 0.6 menunjukkan adanya multikolinieritas.
dimana :
di2 adalah dengan mencari nilai jarak kuadrat untuk setiap pengamatan ke-i
Kemudian di2 diurutkan dari yang paling kecil ke yang paling besar,
selanjutnya dibuat plot di2 dimana i = urutan = 1, 2, ..., n . Bila hasil plot
5
dapat didekati dengan garis lurus, maka dapat disimpulkan bahwa peubah
ganda menyebar normal.
1
X2hit ≤ X2α; 2 (k-1)p (p+1)
dengan :
k k
X 2
hit =
1
[ 1
-2(1-C1) 2 ∑ V i ln|S i|− 2 ln |S|∑ V i
i=1 i=1
]
k = banyaknya kelompok ( grup )
i = 1,2, ... , k
dengan
V i = ni – 1
6
k
∑ V iS i
i=1
S= k
∑ Vi
i=1
k
2 p2+ 3 p−1
∑ V1 − 1
C1 =
[ i=1 i
k
∑Vi
i=1
][ 6 ( p +1)( k−1) ]
4. Langkah-langkah Analisis Diskriminan
7
Dalam hal ini
W = matriks jumlah kuadrat dan hasil kali data dalam kelompok
k ¿
∑ ∑ ( X ij− X́ i)( X ij− X́ i )’
i=1 j=1
8
k
W
−2 ln λ¿ =( n−k ) ln | | −∑ ( n −1 ) ln|S j|
( n−k ) j=1 j
k
∏|S j|( n −1 )/ 2
j
j=1
λ ¿= (n−k )/ 2
|W /(n−k )|
Dimana:
k = banyaknya kelompok
W/(n-k) = matriks ragam-peragam dalam kelompok gabungan
Sj = matriks ragam-peragam kelompok ke-j
−2 ln λ¿
Bila H 0 diterima, maka ( ) akan mengikuti sebaran F
b
denganderajat bebas V1 dan V2 pada taraf signifikan α, dimana:
v1 = ( 12 ) ( k−1) p ( p +1 )
v 2=( v 1 +2 ) ( a2−a 21)
v1
b=v 1 /(1−a1 − )
v2
k
2 p3 +3 p−1
a 1=
6 (k −1)( p+1) [∑ 1
j=1 (n j −1)
−
1
( n−k ) ]
( p−1)( p+2)
a 2= ¿
6 (k +1)
p = jumlah peubah pembeda dalam fungsi diskriminan
Hipotesis :
H 0 : matriks kovarians grup adalah sama
H 1 : matriks kovarins grup adalah berbeda secara nyata
−2 ln λ¿
Jika ( ) ¿ F v 1, v 2 , α berarti H 0 diterima
b
−2 ln λ¿
Jika ( ) ≤ F v 1 , v 2 , α berarti H 1 diterima
b
9
Sama tidaknya grup kovarians matriks juga bisa dilihat dari tabel
output Log Determinant pada software SPSS. Jika dalam pengujian ini
H 0ditolak maka proses lanjutan seharusnya tidak bisa dilakukan.
H0 : μ0=μ 1=μ2=…=μk
Dimana :
λi = 1/(1+ej)
10
Fisher mengelompokkan suatu observasi berdasarkan nilai skor
yang dihitung dari suatu fungsi linier Y = λ'X dimana λ' menyatakan
vektor yang berisi koefisien-koefisien variabel independen yang
membentuk persamaan linier terhadap variabel dependen, λ' =
[ λ1 , λ 2 , … , λ p ] .
X1
X= [ ]
X2
X 11k ⋯ X 1 pk
Xk = ⋮
[
Xn1k ⋯
⋱ ⋮
X npk ]
i = 1,2,...,n
j = 1,2,...,p
k = 1,2
Di bawah asumsi Xk ~ N( μk , ∑k )
E( X 1) μ1
μ=
[ ][]
E( X 2)
=
μ2
dan ∑ k= E( X k −μ k ) ( X k −μk )' ; ∑1 = ∑2 =...= ∑
μ1 k
[]
μk = ⋮ ; μk adalah vektor rata-rata tiap variabel X pada kelompok
μ pk
ke-k.
σ 11 σ 12 ⋯ σ 1 p
∑=
⋮
[ ]
⋮ σ 22 ⋯ σ 2 p
⋮ ⋯ ⋮
… ⋯ ⋯ σ pp
11
Diagonal utama dari matriks menyatakan varians, dan selain diagonal
utama menyatakan kovarians.
Fisher mentransformasikan observasi-observasi x yang multivariate
menjadi observasi y yang univariate. Dari persamaan Y = λ'X
diperoleh
μky =E ( Y k ) = E ( λ ' X )=λ ' μk ;
( λ ' δ )2
Jika ( μ1−μ 2 )=δ , maka persamaan di atas menjadi . Karena ∑
λ'∑λ
adalah matriks definit positif, maka menurut teori pertidaksamaan
( λ ' δ )2
Cauchy-Schwartz, rasio dapat dimaksimumkan jika
λ'∑ λ
−1 −1
'
λ =c ∑ δ = c ∑ ( μ 1−μ2 )
❑ ❑
12
Pada output SPSS, koefisien untuk tiap variabel yang masuk dalam
model dapat dilihat pada tabel Canonical Discriminant Function
Coefficient. Tabel ini akan dihasilkan pada output apabila pilihan
Function Coefficient bagian Unstandardized diaktifkan.
n1 μ 1 Y +n 2 μ2 Y
m=
n1 +n 2
−1
kelompok kode 1 jika y=( μ 1−μ2 ) ' ∑ X ≥ m, selain itu dimasukkan ke
❑
13
Setelah semua observasi diprediksi keanggotaannya, dapat
dihitung hit ratio, yaitu rasio antara observasi yang tepat
pengklasifikasiannya dengan total seluruh observasi.
14
Pada bagian variable view masukkan variable Y (variabel dependen)
dengan values 0 untuk sedikit dan 1 untuk banyak, serta masukkan
variabel independennya yaitu X1 (usia), X2 (berat badan), X3 (tinggi) ,
X4 (pendapatan), X5 (jam kerja), X6 (olahraga) seperti gambar di atas.
15
Uji normalitas multivariat dengan SPSS dilakukan dengan
menentukan jarak mahalanobis dari data yang kita miliki
kemudian menghitung nilai Chi squarenya. Setelah itu kita
buat scatter-plot antara keduanya.
Klik menu Analyze lalu pilih Regression lalu klik Linear.
Langkah ini dilakukan untuk menentukan jarak mahalanobis
dari data yang kita miliki.
Pada kotak dialog yang muncul isikan variabel X1, X2, X3, X4,
X5, X6 di kolom Independent(s), lalu masukkan juga variabel Y di
kolom Dependent. Selanjutnya silahkan klik Save.
16
Jika langkah anda benar maka akan muncul kotak dialog sebagai
berikut:
17
setelah diperoleh jarak mahalanobis yang tersaji pada variabel
MAH_1 kita perlu mengurutkan data jarak mahalanobis tersebut.
Untuk mengurutkan data jarak mahalanobis, klik
menu Data kemudian pilih Sort Cases seperti ditunjukkan pada
gambar.
18
Data pada variabel MAH_1 sekarang sudah terurut dari kecil ke
besar. Selanjutnya, buatlah variabel baru bernama “J” kemudian
isikan data berupa angka urut dari 1, 2, 3, dan seterusnya hingga
sejumlah data.
19
Tuliskan Prob_value pada kolom Target Variable. Kemudian
pada Numeric Expression isikan nilai probabilitas sesuai teori
yang kita ketahui, yaitu (J-0,5)/n dalam hal ini (J-0,5)/20 (Johnson
& Wichern, 2007). J pada isian tersebut diisikan dengan
memindahkan variabel J, sedangkan nilai 0,5 dan 20 serta tanda
baca lainnya diisi dengan tombol keyboard yang tersedia pada
jendela tersebut. Lalu klik OK.
Jika langkah anda benar maka akan muncul data nilai probabilitas
pada variabel prob_value yang berada di sebelah kanan variabel J.
20
Selanjutnya kita hitung nilai chi square untuk masing-masing nilai
probabilitas tersebut dengan cara klik menu Transform kemudian
pilih Compute Variable. Isikan “qi” pada kolom Target
Variable yang merupakan simbol dari nilai chi square. Pada kolom
Numeric Expression isikan fungsi IDF.CHISQ diikuti variabel
Prob_value dan df atau derajat kebebasan, dalam hal ini 6 karena
ada 6 variabel bebas yang kita uji.
21
Kemudian untuk membuat scatter-plot, klik menu graphs
kemudian legacy dialogs dan pilih scatter/dot. akan muncul
jendela pilihan type scatter-nya, pilih simple scatter. Selanjutnya
klik Define maka akan muncul jendela Simple Scatterplot.
Masukkan variabel Mahalanobis Distance (MAH_1) ke Y Axis dan
variabel qi ke X Axis. Kemudian klik OK
22
Hasil :
23
Setelah itu, masukkan variable Y ke dalam Grouping Variable,
lalu klik define range. Bagian minimum diisi kode terkecil,
dalam kasus ini adalah 0 dan maksimum diisi kode terbesar
yaitu 1. Pindahkan juga variable X1, X2, X3, X4, X5. X6 ke
dalam kotak Independents, lalu pilih use stepwise method.
Selanjutnya klik Statistics, pada Desciptive centang Box’s M
24
Hasil :
25
diterima). Dengan demikian, asumsi matriks varians kovarians
grup sama terpenuhi.
Hasil :
26
Nilai akar ciri (eigen value) menunjukkan ada atau tidaknya
multikolinearitas antar peubah bebas. Multikolinearitas akan
terjadi bila nilai akar ciri (eigen value) mendekati 0 (nol).
Berdasarkan hasil pengolahan data didapatkan nilai akar ciri
yang menjauhi nol, yaitu sebesar 0,511. Dapat dilihat bahwa
variabel pendapatan (X4) dengan usia (X1) memiliki korelasi
sebesar 0,895. Hal ini menunjukkan bahwa antara variabel
pendapatan dengan usia memiliki korelasi tetapi tidak kuat.
Pada tabel Eigen Value terdapat pula nilai canonical
correlation. Canonical correlation digunakan untuk mengukur
derajat hubungan antara besarnya variabilitas yang mampu
diterangkan oleh variabel independen terhadap variabel
dependen. Dari tabel di atas, diperoleh nilai canonical
correlation sebesar 0,581, bila dikuadratkan menjadi (0,581 x
0,581) =0,3375; artinya 33,75% varians dari variabel dependen
dapat dijelaskan dari model diskriminan yang terbentuk.
27
Kembali ke kotak dialog Discriminant Analysis, lalu
pada Classification, lalu diberi tanda cek di All group equal, Casewise
result, Summary table, dan Within-groups. Lalu klik Continue.
Hasil :
1) Uji Kesamaan matriks varians kovarians antar kelompok
(sudah dijelaskan pada bagian uji asumsi)
2) Pengecekan multikolinieritas (sudah dijelaskan pada bagian uji
asumsi)
3) Uji vektor rata-rata antar kelompok
28
Untuk uji vektor rata-rata antar kelompok menggunakan uji
Wilk’s Lambda. Dengan melihat nilai signifikansi yaitu 0.007
yang lebih kecil dari alpha (0.05), sehingga dapat dikatakan
bahwa terdapat perbedaan rata-rata antara kelompok 1 dan
kelompok 2 dengan asumsi perbedaan rata-rata antar kelompok
terpenuhi.
29
4) Stepwise statistics
30
Grup centroid merupakan rata-rata nilai diskriminan dari tiap
observasi di dalam masing-masing kelompok.
10 ( 0,678 )+ 10 (−0,678 )
=0
20
7) Hasil klasifikasi
31
kelompok seikit minum air mineral. Secara keseluruhan model
diskriminan yang terbentuk mempunyai tingkat validasi 75%.
Y Lengkungan Diameter
1 2,95 6,63
1 2,53 7,79
1 3,57 5,65
1 3,16 5,47
2 2,58 4,46
2 2,16 6,22
2 3,27 3,52
X1 = lengkungan
X2 = diameter
32
Kode 2 untuk yang tidak lulus
Solusi:
33
Xk = data baris ke k , misal X3 =[ 3,57 5,65 ]
g = jumlah grup/ kelompok dalam variabel dependen. Dalam kasus
ini g adalah 2
Xi = data untuk grup ke i, X dipisahkan menjadi dua kelompok
berdasarkan kelompok di Y
µi = rata-rata Xi
µ = vektor rata-rata dari seluruh kumpulan data, dalam kasus ini
μ= [ 2,88 5,676 ]
T
( x 0i ) x 0i
= matriks kovarian kelompok ke i
c i=
ni
34
g
1
C ( r , s )= ∑ ni ci ( r , s)
n i=1
4 3
( 0,66 ) + ( 0,259 ) =0,206
7 7
4 3
(−0,192 ) + (−0,286 )=−0,233
7 7
4 3
( 1,349 ) + ( 2,142 )=1,689
7 7
Sehingga diperoleh
ni
setiap kelompok dibagi dengan total sampel, yaitu Pi=
N
35
Fungsi Diskriminan
Pada hasil di atas, jika kita memasukkan cincin baru yang memiliki
kelengkungan 2,81 dan diameter 5,46 maka akan masuk ke dalam
kelompok 2 yaitu kelompok yang tidak lulus atau tidak memenuhi
standar yang telah ditetapkan oleh pabrik.
36
DAFTAR PUSTAKA
37