ANALISIS DISKRIMINAN
(Studi Kasus : PENGELOMPOKAN NILAI IQ SISWA SMU SWASTA
SURABAYA)
Program Pascasarjana
Statistika
DISUSUN OLEH
AYU TRI SEPTADIANTI
FARISCA SUSIANI
DOSEN
DR. VITA RATNASARI, S.SI, M.SI
1. Pendahuluan
Analisis diskriminan merupakan suatu teknik analisis multivariat yang
digunakan untuk mengelompokkan atau mengklasifikasi suatu objek ke dalam dua
kelompok atau lebih berdasarkan variabel independennya. Pengelompokkan pada
analisis diskriminan bersifat jika suatu objek telah masuk pada salah satu kelompok
maka tidak dapat menjadi anggota dari kelompok yang lain. Sebelum menganalisis
dengan diskriminan, data harus memenuhi asumsi normal multivariat dan homogenitas
matrik varian kovarian. Sehingga dengan adanya praktikum ini diharapkan dapat
memperoleh informasi mengenai hasil pemeriksaan normal multivariat, hasil uji
kesamaan matrik varian kovarian, analisis diskriminan pada data IQ (28 data training
dan 12 data testing yang selanjutnya akan dilakukan perbandingan data hasil analisis
diskriminan pada data data training dan data testing.
2. Landasan Teori
2.1 Pengujian Asumsi Distribusi Normal Multivariat
Beberapa metode statistika multivariate seperti discriminant analysis seringkali
mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi ini diperlukan
karena di dalam discriminant analysis dilakukan pengujian dengan menggunakan
statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik ini dikatakan sahih
(valid), jika syarat distribusi multinormal dipenuhi.
Variabel X i , X 2 ,..., X p dikatakan berditribusi normal multivariat dengan
parameter dan jika mempunyai probability density function :
1
( X )' 1 ( X )
1
f ( X i , X 2 ,..., X p ) =
e 2
p/2
(2 ) p / 2
(1)
dilakukan dengan cara membuat q-q plot dari nilai d i2 = (X i X)' S 1 ( X i X ), i = 1,..., n
.
Tahapan dari pembuatan q-q plot ini adalah sebagai berikut (Johnson, 1990)
1. Tentukan nilai vektor rata-rata : X
2. Tentukan nilai matriks varians-kovarians : S
3. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata-ratanya
(2)
d i2 = (X i X)' S 1 ( X i X ), i = 1,..., n
2
2
2
2
4. Urutkan nilai d i2 dari kecil ke besar : d (1) d ( 2 ) d (3) ... d ( n )
5. Tentukan nilai pi =
i 1/ 2
, i = 1,..., n
n
(3)
qi
f (
) d 2 = p i
(4)
2
7. Buat scatter-plot d (i ) dengan qi
8. Jika scatter-plot ini cenderung membentuk garis lurus dan lebih dari 50 % nilai
d i2 p2 ,0.50
2
2
(5)
= 2(1 c1 ) vi ln S i ln S pool vi
hitung
2
ii =1
2 i =1
dan
k
S pool =
v S
i =1
k
v
i =1
(6)
i
k 1
1 2 p 2 + 3 p 1
c1 = k
; v i = n i 1
6( p + 1)(k 1)
i =1 vi
vi
i =1
(7)
Gagal tolak hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika
2
12
hitung
( k 1) p ( p +1
2
(8)
2.2.1 Analisis Diskriminan
Analisis diskriminan adalah teknik statistika untuk mengelompokkan individuindividu ke dalam kelompok-kelompok yang saling bebas berdasarkan sekelompok
variabel bebas. Kelompok-kelompok ini terjadi karena ada pengaruh satu atau lebih
variabel lain yang merupakan variabel independen. Kombinasi linier dari variabelvariabel ini akan membentuk suatu fungsi diskriminan.
Dalam analisis diskriminan terdapat 2 metode berdasarkan jumlah kategori dari
variabel dependennya. Apabila terdapat 2 kategori yang terlibat dalam
pengklasifikasian, maka disebut dengan two-group discriminant analysis. Sedangkan
apabila terdapat 3 atau lebih kategori yang terlibat dalam pengklasifikasian, maka
disebut dengan multiple discriminant analysis.
Dalam buku Johnson, R. A. dan Wichern, D. W dijelaskan bahwa fungsi
diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher (1936) dengan
menggunakan beberapa kombinasi linier dari pengamtan yang cukup mewakili populasi.
Menurut Fisher, untuk mencari kombinasi linier dari p variabel bebas tersebut dapat
dilakukan dengan pemilihan koefisien-koefisiennya yang menghasilkan hasil bagi
maksimum antara matrik peragam antar kelompok (between-group) dan matrik peragam
dalam kelompok (within-group).
Adapun asumsi-asumsi yang harus dipenuhi sebelum melakukan analisis diskriminan,
antara lain yaitu.
3
1 : 1 2
(9)
1
1
0 = (1 2 )
0
= 2 (1 2 )
(1 + 2 )
Atau 0
0
(10)
3. Metode penelitian
Data yang digunakan dalam laporan ini merupakan data Tesis Retno Purwanti
Germana (13012001001) dengan judul Aplikasi Analisis Model Komponen Varians
Multilevel Pada Hasil Tes Psikologi di Beberapa SMU Swasta di Surabaya, dimana
dalam data tersebut terdiri atas variabel dependen dan variabel independen sebagai
berikut.
1. Variabel dependen (Y) adalah tingkat kecerdasan intelektual siswa (IQ) yang
dibedakan menjadi dua kategori, yaitu IQ 100 diberi koding 1, dan IQ < 100
diberi koding 2.
2. X 1 adalah abstrak reasoning atau tes gambar (AR)
3. X 2 adalah verbal reasoning atau tes verbal (VR)
4. X 3 adalah numerical reasoning atau tes numerik (NR)
5. X 4 adalah usia siswa ketika mengikuti tes psikologi.
Untuk melakukan Analisis Diskriminan dalam laporan ini, diharuskan untuk
menempuh langkah-langkah yang sudah dibuat. Langkah-langkah tersebut adalah
sebagai berikut.
1. Mencari data sekunder, yang beasal dari Tesis Retno Purwanti Germana.
2. Membagi data menjadi dua, yaitu 28 data training dan 12 data testing.
4
3.
4.
5.
6.
7.
8.
4. Pembahasan
Data hasil tes psikologi di sebuah SMU Swasta di Surabaya selanjutnya akan
dianalisis untuk mendapatkan suatu hasil yang nantinya diambil suatu kesimpulan.
Berikut analisis data tes psikologi dengan beberapa variabel bebas.
4.1 Uji Distribusi Normal Multivariat
Asumsi yang diperlukan di dalam Analisis Diskriminan salah satunya adalah
data hasil tes psikologi mengikuti sebaran normal multivariat, karena data yang diambil
berdasarkan statistik ini dikatakan valid jika syarat distribusi normal multivariat
terpenuhi. Pengujian distribusi normal multivariat adalah sebagai berikut.
Hipotesis:
H 0 : Data berdistribusi normal multivariat
H 1 : Data tidak berdistribusi normal multivariat
Tingkat signifikan: 5%
Daerah Kritis : tolak H 0 , jika t < 50%
Statistik Uji : t = 0,542857, nilai t merupakan banyaknya data yang kurang dari
2
d i = (X i X)' S 1 ( X i X ), i = 1,..., n dan hasil analisis yang didapat adalah sebagai
berikut.
t = 0,525000
Berdasarkan nilai t (statistik uji) di atas dapat diketahui bahwa data lebih besar
dari 50%, sehingga gagal tolak H 0 . Hal tersebut berarti data mengikuti sebaran
distribusi normal multivariat. Sebaran data berdistribusi normal multivariat juga dapat
dilihat secara visual melalui scatter plot berikut.
14
12
10
8
6
4
2
0
0
8
dd
10
12
14
16
Gambar 4.1 Plot Pengujian Normal Multivariat untuk Data Hasil Tes
Psikologi Sebuah SMU Swasta di Surabaya
Berdasarkan scatter plot di atas, secara visual terlihat bahwa sebaran titik-titik
dari data berada disekitar garis normal. Sehingga baik secara perhitungan maupun
secara visual dapat disimpulkan bahwa data hasil tes psikologi sebuah SMU Swasta di
Surabaya berdistribusi normal multivariat.
4.2
13,146
1,036
10
1174,663
0.411
1 : 1 2
Taraf signifikansi : 0,05
Daerah Kritis: Tolak H 0 jika P-value <
Statistik Uji
Tabel 4.2 Uji Vektor Nilai Rataan
Xi
Wilks Lambda
P-value
Keputusan
AR
0,720
0,004
Tolak H 0
VR
0,872
0,061
Gagal Tolak H 0
NA
0,892
0,088
Gagal Tolak H 0
Usia
0,925
0,159
Gagal Tolak H 0
Berdasarkan hasil pengujian pada Tabel 4.2 di atas, hasil penjelasan yang dapat
diberikan adalah sebagai berikut.
a. Hasil Pengujian terhadap variabel dependen AR menghasilkan nilai wilks lambda
sebesar 0,720 dengan P-value adalah 0,004 < 0,05, yang berarti Tolak H 0 . Hasil ini
menunjukkan terdapat perbedaan antar dua kelompok IQ terkait dengan variabel
AR, sehingga dapat disimpulkan AR berpengaruh signifikan dalam membedakan
kelompok tingkat IQ pelajar.
b. Hasil Pengujian terhadap variabel dependen VR menghasilkan nilai wilks lambda
sebesar 0,872 dengan P-value adalah 0,061 > 0,05, yang berarti Gagal Tolak H 0 .
Hasil ini menunjukkan tidak terdapat perbedaan antar dua kelompok IQ terkait
dengan variabel VR, sehingga dapat disimpulkan AR tidak berpengaruh signifikan
dalam membedakan kelompok tingkat IQ pelajar.
c. Hasil Pengujian terhadap variabel dependen NA menghasilkan nilai wilks lambda
sebesar 0,892 dengan P-value adalah 0,088 > 0,05, yang berarti Gagal Tolak H 0 .
Hasil ini menunjukkan tidak tterdapat perbedaan antar dua kelompok IQ terkait
dengan variabel NA, sehingga dapat disimpulkan NA tidak berpengaruh signifikan
dalam membedakan kelompok tingkat IQ pelajar.
d. Hasil Pengujian terhadap variabel dependen Usia menghasilkan nilai wilks lambda
sebesar 0,925 dengan P-value adalah 0,159 > 0,05, yang berarti Gagal Tolak H 0 .
Hasil ini menunjukkan tidak terdapat perbedaan antar dua kelompok IQ terkait
dengan variabel Usia, sehingga dapat disimpulkan Usia tidak berpengaruh signifikan
dalam membedakan kelompok tingkat IQ pelajar.
Berdasarkan hasil tersebut maka dapat langkah selanjutnya adalah
mengelompokkan individu-individu ke dalam kelompok-kelompok yang saling bebas
berdasarkan variabel independennya menggunakan analisis diskriminan.
4.4 Analisis Diskriminan
4.4.1 Analisis Diskriminan dengan SPSS
Setelah melakukan uji asumsi, kemudian akan dilakukan pengolahan data dengan
menggunakan SPSS. Berikut adalah langkah melakukan analisisnya:
a. klik menu analyze dan pilih sub menu Classify dan kemudian
Discriminant
d. pilih Classify. Pilih All groups are equal untuk menentukan probabilitas prior.
Beri centang pada Summary table dan Leave-one-out classification (cross
validation) untuk menampilkan hasil evaluasi klasifikasi, klik continue
Koefisien
0,034
0,018
0,000
-0,541
5,311
IQ
100
0,060
0,037
0,441
38,277
-300,922
< 100
0,011
0,011
0,441
39,045
-308,829
Nilai
0,457
-0,964
1
2
Tabel 4.5 merupakan nilai centroid atau rata-rata dari masing-masing kelompok
data IQ. Nilai ini nantinya akan digunakan untuk menghitung nilai cutting score.
Berikut merupakan perhitungan dari nilai cutting score.
1 1 + 2 2 19(0,457) + 9(0,964)
=
= 0,00025
1 + 2
19 + 9
ya
yb
y 0 hat
grup
ya
yb
y 0 hat
grup
307.5
308.49
-0.984
302.42
303.91
-1.334
271.83
270.05
0.947
264.94
263.21
0.907
290.27
290.9
-0.734
376.25
377.92
-1.476
295.76
297.35
-1.404
304.21
306.06
-1.584
323.35
320.52
1.664
324.1
322.1
1.086
291.88
293
-1.074
320.1
318.02
1.146
311.72
309.34
1.348
306.38
306.5
-0.384
309.59
310.69
-1.064
281.53
278.92
1.517
318.59
316.09
1.436
312.05
313.01
-0.964
263.32
262.94
-0.023
298.56
299.67
-1.064
308.85
307
0.986
309.52
310.64
-1.074
273.68
270.34
2.025
335.05
336.56
-1.355
268.73
267.68
0.437
300.95
301.93
-0.974
306.48
304.85
0.836
271.66
271.65
-0.283
Tabel 4.6 menunjukkan perhitungan secara manual terhadap data training. Nilai
0 dihitung melalui persamaan 0 = 5,311+0,034AR+0,018VR-0,541Usia. Jika nilai
0
maka data dialokasikan ke kelompok 1 (IQ 100). Sedangkan jika nilai
0 <
maka data akan dialokasikan ke kelompok 2 (IQ < 100). Warna merah pada
tabel menunjukkan pengelompokkan data yang tidak sesuai dengan klasifikasi. Nilai
prosentase ketepatan hasil klasifikasi secara keseluruhan dirangkum dalam Tabel 4.7 di
bawah ini.
Tabel 4.7 Tabel Klasifikasi Data Training
Nilai prediksi data training
Total
1
2
1
13
6
19
Jumlah
2
1
8
9
1
68,4
31,6
100
%
2
11,1
88,9
100
75% data tepat sesuai dengan klasifikasi
Y
10
Berdasarkan Tabel 4.7 untuk data training junlah data yang diprediksi dan
memang seharusnya berada pada klasifikasi pertama (kelompok 1) adalah sebanyak 13
data, sedangkan yang tidak berada pada klasifikasi pertama adalah sebanyak 6 data.
Jumlah data yang diprediksi dan memang seharusnya berada pada klasifikasi kedua
(kelompok 2) adalah sebanyak 8 data, sedangkan yang tidak berada pada klasifikasi
kedua adalah sebanyak 1 data. Sehingga total data yang tidak sesuai dengan klasifikasi
adalah sebanyak 7 data, maka ketepatan klasifikasi untuk kelompok data training adalah
sebesar 75%. Prosentase ketepatan data training ini nantinya akan dibandingkan dengan
prosentase ketepatan data testing. Berikut hasil analisis dari data testing.
Tabel 4.8 Hasil Perhitungan Data Testing
y
ya
yb
y cs
y 0 hat
grup
318.223
315.981
0.00025
1.256
304.623
306.116
0.00025
-1.334
307.093
306.611
0.00025
0.036
311.803
311.076
0.00025
0.206
279.391
276.771
0.00025
1.527
301.368
301.981
0.00025
-0.724
314.378
313.391
0.00025
0.386
265.006
263.266
0.00025
0.917
303.758
304.241
0.00025
-0.634
316.813
315.596
0.00025
0.546
305.363
306.336
0.00025
-0.974
314.493
313.391
0.00025
0.466
Tabel 4.8 menunjukkan perhitungan secara manual dari hasil SPSS terhadap
data testing. Sama halnya dengan data training, nilai 0 dihitung melalui persamaan 0 =
5,311+0,034AR+0,018VR-0,541Usia. Jika nilai 0
maka data dialokasikan ke
maka data akan dialokasikan ke
kelompok 1 (IQ 100). Sedangkan jika nilai 0 <
kelompok 2 (IQ < 100). Warna merah pada tabel menunjukkan pengelompokkan data
yang tidak sesuai dengan klasifikasi. Nilai prosentase ketepatan hasil klasifikasi
dirangkum dalam Tabel 4.9 di bawah ini.
Tabel 4.9 Tabel Klasifikasi Data Testing
Y
Jumlah
%
Total
75
25
100
50
50
100
Berdasarkan Tabel 4.9 untuk data testing junlah data yang diprediksi dan
memang seharusnya berada pada klasifikasi pertama (kelompok 1) adalah sebanyak 6
data, sedangkan yang tidak berada pada klasifikasi pertama adalah sebanyak 2 data.
Jumlah data yang diprediksi dan memang seharusnya berada pada klasifikasi kedua
11
(kelompok 2) adalah sebanyak 2 data, sedangkan yang tidak berada pada klasifikasi
kedua adalah sebanyak 2 data. Sehingga total data yang tidak sesuai dengan klasifikasi
adalah sebanyak 4 data, maka ketepatan klasifikasi untuk kelompok data training adalah
sebesar 66,7%.
4.4.3 Analisis Diskriminan Perhitungan Manual Dengan Ms.Excel
Selain pengolahan data menggunakan SPSS, akan dilakukan perhitungan secara manual
dengan menggunakan Ms.Excel. Langkah-langkahnya adalah sebagai berikut :
1. Menghitung nilai rata-rata dari masing-masing variabel (AR, VR, NR dan Usia)
pada setiap grup
65,259
41,154
46,667
35,770
1 =
dan 2 =
70,704
60,770
14,778
15
51,12179 1,25
383,9744
59,44
32,21154 32,21154 32,69231 0,4167
2 =
32,69231
51,12179
203,5256 0,833
0,41667 0,83333
0,5
1,25
0,00144 0,00211
0,005944 0,009122
0,00891 0,00025
0,009122 2,719383
= (1 2 ) 1 = 1 = 1 1
466,13 59,44 136,72 1,98 1
59,44 141,67 65,35 0,40 2
= [24,105 10,897 9,934473 0,222]
136,72 65,35 226,33 1,20 3
1,98 0,40 1,20
0,37
4
12
1
2
= [0,043186 0,058231 0,000608 0,30176]
3
4
Perhitungan nilai m :
0 1
0 2
= [(1 2 ) 1 (1 + 2 )]
2
106,4131
82,4359
= [0,043186 0,058231 0,000608 0,30176]
= 0,1650
131,4729
29,77778
y
1
1
1
2
1
2
1
1
1
2
1
1
1
1
1
1
AR
35
60
45
20
97
35
93
30
85
50
85
97
45
70
30
80
VR
35
65
30
40
65
30
55
40
75
30
50
55
65
70
25
25
NA
70
70
30
45
95
35
70
75
85
55
65
70
65
60
60
55
Usia
15
14
15
15
15
15
15
15
15
14
15
14
14
15
15
14
-1,01941
2,108917
-0,85438
-1,36084
3,389827
-1,28928
2,649977
-0,94722
3,459986
-0,35189
2,016378
3,124482
1,464171
2,536246
-1,81156
0,652523
m
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
prediksi
2
1
2
2
1
2
1
2
1
2
1
1
1
1
2
1
13
2
2
1
1
2
1
2
2
2
1
1
1
55
20
80
95
50
90
25
30
35
40
30
45
30
30
65
40
40
40
55
40
30
35
45
25
50
65
99
90
65
90
80
50
75
45
55
75
17
15
15
15
15
14
15
15
15
16
15
14
-1,03821
-1,95531
2,653238
1,850728
-0,07743
1,936561
-0,29273
-0,93202
-1,3136
-1,09004
-0,64391
-0,87114
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
0,165051
2
2
1
1
2
1
2
2
2
2
2
2
Data Training
1
2
Aktual
Grup
Total
Prediksi grup
1
2
12
7
0
9
12
16
Total
19
9
28
7+0
= 0,25
28
Jadi, nilai ketepatan klasifikasi yang diperoleh adalah 1 0,25 = 0,75 atau sekitar 75 %.
Data Testing
Dengan menggunakan data Testing sebanyak 12 maka didapatkan nilai .
Tabel 4.12 Hasil Perhitungan Data Testing secara manual (Excel)
y
1
2
1
1
1
1
1
2
1
2
2
1
AR
85
30
65
70
85
40
70
75
40
80
30
75
VR
65
25
35
35
50
40
45
35
45
35
45
40
NA
85
65
65
75
85
55
80
55
60
85
65
80
Usia
15
15
15
15
14
15
15
14
15
15
15
15
8800
3775
5700
6025
7750
5025
6800
5900
5450
6525
5175
6625
m
0
0
0
0
0
0
0
0
0
0
0
0
prediksi
1
1
1
1
1
1
1
1
1
1
1
1
14
Data Training
Aktual
Grup
Total
1
2
Prediksi grup
1
2
6
2
2
2
8
4
Total
8
4
12
2 2
= 0,333
12
Jadi, nilai ketepatan klasifikasi yang diperoleh adalah 1 0,333 = 0,667 atau sekitar
67%.
5. Kesimpulan
Berdasarkan hasil pembahasan mengenai data tingkat kecerdasan intelektual
(IQ) siswa di salah satu SMU swasta Surabaya yang dikategorikan menjadi 2, yaitu
100 dan < 100 dapat ditarik kesimpulan sebagai berikut :
a. Data telah memenuhi asumsi normal multivariat serta matrik varians kovarians
yang homogen, sehingga dapat dilanjutkan menggunakan analisis diskriminan.
b. Pada pengujian vektor nilai rataan, hanya variabel AR yang berpengaruh signifikan
dalam membedakan kelompok tingkat IQ.
c. Perhitungan prosentase ketepatan hasil klasifikasi dengan menggunakan SPSS
menghasilkan nilai 75% untuk data training dan 66,67% untuk data testing. Nilai
presentase yang sama juga dihasilkan oleh analisis diskriminan secara manual.
d. Hasil klasifikasi yang dihasilkan oleh SPSS dan hasil perhitungan secara manual
memiliki sedikit perbedaan meskipun nilai ketepatan klasifikasinya sama. (note :
seharusnya hasil klasifikasi dari SPSS dengan proses manual sama)
6. Daftar Pustaka
Johnson, R.A., and Wichern, D.W. (1992). Applied Multivariate Statistical Analysis.
Prentice Hall, Englewood Cliffs, New Jersey.
Germana, Retno P. (2001). Tesis Aplikasi Analisis Model Komponen Varians
Multilevel Pada Hasil Tes Psikologi di Beberapa SMU Swasta di Surabaya.
Surabaya: Institut Teknologi Sepuluh Nopember.
15