NRP : 06211640000061
Judul Penelitian
Klasifikasi Calon Mahasiswa Jalur SNMPTN di ITS Menggunakan Analisis Regresi
Logistik, SVM dan Decision Tree.
RINGKASAN
Pendidikan merupakan sebuah kebutuhan setiap insan, sepanjang waktu, sampai
kapan dan dimanapun ia berada. Dari latar belakang pendidikannya dapat
menggambarkan kualitas yang berada pada dirinya. Maka dari itu, menuntut ilmu
setinggi mungkin merupakan sebuah keperluan sebagai manusia. Dapat menempuh
pendidikan tingi merupakan sebuah kebanggaan dari setiap orang. Tidak semua
memperoleh kesempatan untuk itu karena hanyalah orang-orang yang memenuhi
kriteria tertentu yang berhak belajar di instansi pendidikan tersebut. Untuk dapat
mendapatkan hak tersebut, calon mahasiswa harus mengikuti seleksi sesuai ketentuan
dari instansi yang ia tuju. Jalur penerimaan mahasiswa baru yang disediakan
pemerintah meliputi jalur undangan (SNMPTN) dan seleksi bersama (SBMPTN),
sisanya jalur mandiri dari setiap instansi pendidikan. ITS menentukan kuota untuk jalur
SNMPTN sebesar 30%, SBMPTN 40%, dan sisanya jalur mandiri. Jalur undangan
merupakan jalur untuk siswa-siswa yang berprestasi ketika masih menduduki tingkat
pendidikan SMA sederajat. Pastinya dari pihak instansi mengharapkan pilihannya
untuk menjaring calon mahasiswa baru tepat sasaran. Beberapa kriteria yang telah
ditentukan harus semua terpenuhi agar mendapatkan mahasiswa baru yang berkualitas.
Namun seringkali pilihan dari instansi tersebut meleset dikarenakan terdapat faktor-
faktor yang tidak berpengaruh signifikan atau kesalahan dalam penentuan penilaian
terhadap setiap calon mahasiswa. Maka dari itu dalam penelitian kali ini dilakukan
klasifikasi menggunakan regresi logistik sehingga dapat diketahui prediksi secara
teoritis dan serta faktor-faktor yang mempengaruhi secara signifikan. Lalu dilakukan
pula klasifikasi menggunakan SVM dan decision tree sebagai pembanding dari regresi
logistik. Dengan nilai akurasi yang tertinggi digunakan sebagai metode untuk seleksi
calon mahasiswa baru
BAB I PENDAHULUAN
I J
(n
i i j 1
ij eij ) 2
2 (2.1)
eij
atau,
I J nij
G 2 2 nij ln (2.2)
eij
i 1 j 1
Dengan :
ni. n. j
eij (2.3)
n
Keterangan :
𝑛𝑖𝑗 : nilai observasi/pengamatan baris ke-i kolom ke-j
𝑒𝑖𝑗 : nilai ekspektasi baris ke-i kolom ke-j
Daerah kritis :
Tolak 𝐻0 jika 𝐺 2 atau 2 > 2 atau 𝑃 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼
ℎ𝑖𝑡𝑢𝑛𝑔 (𝐼−1)(𝐽−1)
( x) 1 e
0 1 x1 ... p x p
e 0 1 x1 ... p x p
(2.4)
( x) ( x)e
x ... x
0 1 1
e
p p 0 1 x1 ... p x p
(2.5)
( x ) e
0 1 x1 ... p x p 0 1x1 ... p x p
( x )e (2.6)
( x) 1 ( x) e
0 1 x1 ... p x p
(2.7)
( x) 0 1 x1 ... p x p
e
1 ( x) (2.8)
( x) 0 1 x1 ... p x p
ln ln e
1 ( x) (2.9)
( x)
ln 0 1 x1 ... p x p (2.10)
1 ( x)
( x)
g ( x) ln 0 1 x1 ... p x p (2.11)
1 ( x )
𝑔(𝑥) disebut dengan fungsi logit model regresi logistik biner dengan 𝑝 variabel
prediktor. Model regresi logistic pada persamaan (2.11) dapat dituliskan dalam bentuk:
exp( g ( x))
( x) (2.12)
1 exp( g ( x))
2.2.1 Estimasi Parameter Regresi Logistik
Metode umum estimasi parameter dalam regresi logistik adalah Maximum
Likelihood Estimation (MLE). Fungsi likelihood memberikan kemungkinan
mengamati data sebagai fungsi dari parameter yang tidak diketahui. MLE dipillih untuk
memaksimalkan nilai fungsi tersebut. Cara yang sesuai untuk kontribusi fungsi
likelihood untuk setiap pengamatan (𝑥1𝑖 𝑦𝑖 ) adalah sebagai berikut.
1 yi
f (Y yi ) ( xi ) yi 1 ( xi ) , yi 0,1 (2.13)
n
I ( ) ( xi ) yi 1 ( xi )
1 yi
(2.14)
i 1
n
L( ) yi ln ( xi ) (1 yi ) ln 1 ( x) (2.16)
i 1
y x 0
i 1
i i
(2.17)
x y
i 1
i i xi 0 (2.18)
Hasil turunan kedua dari persamaan fungsi likelihood adalah sebagai berikut.
L2 ( ) n
xij xiu ( xi ) 1 ( xi ) ; j 0,1,..., p (2.19)
I u i 1
𝜕𝑔
dinotasikan sebagai matriks yang mempunyai anggota ℎ𝑎𝑏 = 𝜕𝛽 . Andaikan 𝑞 (𝑡) dan
2
𝐻 (𝑡) merupakan bentuk evaluasi dari 𝛽 (𝑡) , taksiran ke-t pada 𝛽̂ . Pada langkah t dalam
proses iterasi (𝑡 = 0,1,2, … ), 𝑔(𝛽) adalah pendekatan 𝛽 (𝑡) yang merupakan bentuk
orde kedua dari ekspansi Deret Taylor.
1
Q (t ) ( ) g ( (t ) ) q (t ) ( (t ) ) ( (t ) ) H (t ) ( (t ) )
2
Penyelesaian :
Q (t )
q (t ) H (t ) (t ) 0
(2.20)
(t 1) (t ) H
( t ) 1
q(t )
L( )
q (jt ) yi ni i(t ) xij (2.21)
j i
(t )
2 L( )
hba xia xib nib i( t ) 1 i( t ) 1 i( t ) (2.22)
a b ( t ) i
k
exp (j t ) xij
i(t ) j 0 (2.23)
k
1 exp j xij
(t )
j 0
1
(t 1) (t ) X ' Diag ni i(t ) 1 t(t ) X X '( y m(t ) ) (2.24)
Daerah Penolakan :
Tolak 𝐻0 jika 𝐺 > 2
(𝑝,𝛼)
Keterangan :
𝑛0 : jumlah pengamatan dengan kategori 𝑦 = 0
𝑛1 : jumlah pengamatan dengan kategori 𝑦 = 1
𝑛 : jumlah pengamatan
𝑝 : banyak parameter
Jika terdapat 𝑘 katerogi pada suatu variabel prediktor, maka kontribusi untuk
derajat bebas pada uji likelihood adalah sebesar 𝑘 − 1 (Hosmer & Lemeshow, 2000).
2. Uji Parsial
Pengujian secara parsial dilakukan untuk mengetahui signifikansi setiap
parameter terhadap variabel respon. Pengujian signifikansi parameter menggunakan uji
Wald (Hosmer & Lemeshw, 2000) dengan hipotesis sebagai berikut.
𝐻0 ∶ 𝛽𝑗 = 0
𝐻1 ∶ 𝛽𝑗 ≠ 0, 𝑗 = 1,2,3, … , 𝑝
Statistik Uji :
W (2.26)
SE j
Daerah Penolakan :
Tolak 𝐻0 jika 𝑊 > 𝑍𝛼/2
adalah
Statistik uji 𝑊 disebut juga sebagai statistik uji Wald dengan SE j
o
2
g nk' k
C
k
(2.27)
k 1 nk' k 1 k
Daerah Penolakan :
Tolak 𝐻0 jika 𝐶̂ > 2
(𝑔−2,𝛼)
Keterangan :
𝑜𝑘 : observasi pada grup ke-k
Ck
mj k
k : rata-rata taksiran peluang
j 1 nk'
g : jumlah grup (kombinasi kategori dalam model serentak)
nk' : banyak observasi pada grup ke-k
Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas terutama
delam epidemiologi. Dari Persamaan 1.29 odds rasio merupakan rata-rata besarnya
kecenderungan variabel respon bernilai tertentu jika 𝑥 = 1 dibandingkan 𝑥 = 0
(Hosmer dan Lemeshow, 2000).
2.3 Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang
pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam
sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma
pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan
learning bias yang berasal dari teori pembelajaran statistik [6].
Dalam konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik
diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara
kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan
mencari titik maksimalnya. Secara matematika, konsep dasar SVM yaitu:
1
min | w |2 (2.30)
2
s.t yi(xi .w+b)-1 0
dimana (xi .w b) 1 untuk kelas 1, dan (xi .w b) 1 untuk kelas 2, i x adalah data
set, i y adalah output dari data i x , dan w, b adalah parameter yang dicari nilainya.
Formulasi optimasi SVM untuk kasus klasifikasi dua kelas dibedakan menjadi
klasifikasi linear dan non-linear.
2.4 Decision Tree
Decision tree adalah algoritma yang paling banyak digunakan untuk masalah
pengklasifikasian. Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo,
internal nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana
sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel
S adalah sebagai berikut [7].
Keterangan :
𝑛11 : jumlah subjek dari 𝑦1 tepat diklasifikasikan sebagai 𝑦1
𝑛12 : jumlah subjek dari 𝑦1 tepat diklasifikasikan sebagai 𝑦2
𝑛21 : jumlah subjek dari 𝑦2 tepat diklasifikasikan sebagai 𝑦1
𝑛22 : jumlah subjek dari 𝑦2 tepat diklasifikasikan sebagai 𝑦2
Perhitungan nilai APER merupakan proporsi observasi yang diprediksi tidak
benar oleh fungsi klasifikasi dengan rumus sebagai berikut.
n21 n12
APER (2.30)
n
Keterangan :
𝑛 : Total pengamatan
2.6 Seleksi Mahasiswa Baru (SNMPTN)
Perguruan tinggi melakukan seleksi untuk mahasiswa barunya dengan beberapa
jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan seleksi sendiri (mandiri)
dan seleksi secara bersama-sama secara nasional berupa SNMPTN dan SBMPTN.
Panitia jalur undangan (SNMPTN) pada menyatakan bahwa penerimaan mahasiswa
baru harus memenuhi prinsip kredibel, adil, transparan, fleksibel, efisien, dan akuntabel
serta tidak diskriminatif dengan memperhatikan potensi calon mahasiswa dan
kekhususan perguruan tinggi.
Mengumpulkan Data
Ya
Klasifikasi dengan Regresi Logistik
Melakukan Perbandingan
Selesai
Gambar 3.1 Diagram Alir
DAFTAR PUSTAKA
Agresti, A. (2013). Categorical Data Analysis. New Jersey: John Wiley & Sons, Inc.
Hosmer, D.W., & Lemeshow (2000). Applied Logistic Regression, John Wiley and
Sons. USA.
http://snmptn.ac.id/. Diakses pada Kamis, 11 April 2019 Pukul 20.00 WIB.
Johnson, R., & Winchern, D. (2007). Applied Multivariate Statistical Analysis. New
Jersey: Pearson Education, Inc.
Walpole, Ronald E. (1993). Pengantar Metode Statistika Edisi ke-3. Jakarta: Gramedia
Pustaka Utama.