Proposalkuuu
Proposalkuuu
NRP : 06211640000061
Judul Penelitian
Klasifikasi Calon Mahasiswa Jalur SNMPTN di ITS Menggunakan Analisis Regresi
Logistik, SVM dan Decision Tree.
RINGKASAN
Pendidikan merupakan sebuah kebutuhan setiap insan, sepanjang waktu, sampai
kapan dan dimanapun ia berada. Dari latar belakang pendidikannya dapat
menggambarkan kualitas yang berada pada dirinya. Maka dari itu, menuntut ilmu
setinggi mungkin merupakan sebuah keperluan sebagai manusia. Dapat menempuh
pendidikan tingi merupakan sebuah kebanggaan dari setiap orang. Tidak semua
memperoleh kesempatan untuk itu karena hanyalah orang-orang yang memenuhi
kriteria tertentu yang berhak belajar di instansi pendidikan tersebut. Untuk dapat
mendapatkan hak tersebut, calon mahasiswa harus mengikuti seleksi sesuai ketentuan
dari instansi yang ia tuju. Jalur penerimaan mahasiswa baru yang disediakan
pemerintah meliputi jalur undangan (SNMPTN) dan seleksi bersama (SBMPTN),
sisanya jalur mandiri dari setiap instansi pendidikan. ITS menentukan kuota untuk
jalur SNMPTN sebesar 30%, SBMPTN 40%, dan sisanya jalur mandiri. Jalur
undangan merupakan jalur untuk siswa-siswa yang berprestasi ketika masih
menduduki tingkat pendidikan SMA sederajat. Pastinya dari pihak instansi
mengharapkan pilihannya untuk menjaring calon mahasiswa baru tepat sasaran.
Beberapa kriteria yang telah ditentukan harus semua terpenuhi agar mendapatkan
mahasiswa baru yang berkualitas. Namun seringkali pilihan dari instansi tersebut
meleset dikarenakan terdapat faktor-faktor yang tidak berpengaruh signifikan atau
kesalahan dalam penentuan penilaian terhadap setiap calon mahasiswa. Maka dari itu
dalam penelitian kali ini dilakukan klasifikasi menggunakan regresi logistik sehingga
dapat diketahui prediksi secara teoritis dan serta faktor-faktor yang mempengaruhi
secara signifikan. Lalu dilakukan pula klasifikasi menggunakan SVM dan decision
tree sebagai pembanding dari regresi logistik. Dengan nilai akurasi yang tertinggi
digunakan sebagai metode untuk seleksi calon mahasiswa baru
BAB I PENDAHULUAN
Mengingat pembahasan mengenai penelitian ini maka pada pembahasan kali ini
akan menggunakan data penyeleksian jalur undangan tahun 2015 sampai dengan
tahun 2019. Dengan variabel prediktor, nilai rapor 5 semester, akreditasi sekolah,
jumlah alumni yang berkuliah di ITS, sertifikat prestasi yang dimiliki, lokasi sekolah
asal (luar Jatim atau dalam Jatim).
I J
��(n
i =i j =1
ij - eij ) 2
c2 =
eij
(2.1)
atau,
I J �n �
G 2 = 2��nij ln � ij �
�e �
i =1 j =1 �ij � (2.2)
Dengan :
ni. �n. j
eij =
n (2.3)
Keterangan :
nij : nilai observasi/pengamatan baris ke-i kolom ke-j
e ij : nilai ekspektasi baris ke-i kolom ke-j
Daerah kritis :
Tolak H 0 jika G2 atau ❑2hitung >❑(I−1)(J−1)
2
atau P−value<α
{ p ( x)} { 1 + e( b0 + b1 x1 +...+ b p x p )
} = e( b0 + b1 x1 +...+ b p x p )
(2.4)
{ p ( x)} + { p ( x)e( )
} = e(
b 0 + b1 x1 +...+ b p x p b 0 + b1 x1 +...+ b p x p )
(2.5)
p ( x ) = e(
b0 + b1 x1 +...+ b p x p ) ( b0 + b1 x1 +...+ b p x p )
- p ( x )e
(2.6)
p ( x) = { 1 - p ( x)} e(
b 0 + b1 x1 +...+ b p x p )
(2.7)
p ( x) (b 0 + b1 x1 +...+ b p x p )
=e
1 - p ( x)
(2.8)
� p ( x) � ( b0 + b1 x1 +...+ b p x p )
ln � �= ln e
1 + p ( x) �
�
(2.9)
� p ( x) �
ln � �= b 0 + b1 x1 + ... + b p x p
1 - p ( x) �
� (2.10)
�p ( x ) �
g ( x) = ln � = b 0 + b1 x1 + ... + b p x p
1 - p ( x) �
� � (2.11)
exp( g ( x ))
p ( x) =
1 + exp( g ( x)) (2.12)
2.2.1 Estimasi Parameter Regresi Logistik
Metode umum estimasi parameter dalam regresi logistik adalah Maximum
Likelihood Estimation (MLE). Fungsi likelihood memberikan kemungkinan
mengamati data sebagai fungsi dari parameter yang tidak diketahui. MLE dipillih
untuk memaksimalkan nilai fungsi tersebut. Cara yang sesuai untuk kontribusi fungsi
likelihood untuk setiap pengamatan ( x 1i y i) adalah sebagai berikut.
1- yi
( 1 - p ( xi ) ) �
f (Y = yi ) = p ( xi ) yi �
� � , yi = 0,1 (2.13)
Fungsi likelihood yang diperoleh dengan pengamatan yang diasumsikan
independen adalah sebagai berikut.
n
I ( b ) = �p ( xi ) yi [ 1 - p ( xi ) ]
1- yi
i =1 (2.14)
L( b ) = ln [ 1( b ) ]
(2.15)
n
L( b ) = �( yi ln [ p ( xi ) ] + (1 - yi ) ln [ 1 - p ( x) ] )
i =1 (2.16)
��
�y -p ( x ) �
�= 0
i i
i =1
(2.17)
n
�x �
�y -p ( x ) �
i �= 0
i i
i =1 (2.18)
Hasil turunan kedua dari persamaan fungsi likelihood adalah sebagai berikut.
�L2 ( b ) n
= �xij xiup ( xi ) ( 1 - p ( xi ) ) ; j = 0,1,..., p
bI �
� bu i =1 (2.19)
' ∂g ∂g
q =( , ) , andaikan H dinotasikan sebagai matriks yang mempunyai
∂ β1 ∂ β 2
∂g
anggota hab= . Andaikan q(t ) dan H (t ) merupakan bentuk evaluasi dari
∂ β2
β
(t )
, taksiran ke-t pada ^β . Pada langkah t dalam proses iterasi (t=0,1,2, …) ,
g( β ) adalah pendekatan β(t ) yang merupakan bentuk orde kedua dari ekspansi
Deret Taylor.
�1 �
Q(t ) ( b ) = g ( b (t ) ) + q(t ) ( b - b (t ) ) + � �(b - b (t ) ) H (t ) ( b - b (t ) )
�2 �
Penyelesaian :
Q(t )
�
= q (t ) + H (t ) ( b - b ( t ) ) = 0
�b
b (t -1) = b ( t ) - ( H ( t ) ) q ( t )
-1
(2.20)
Dengan mengasumsikan H (t ) sebagai matriks non-singular. Untuk setiap
langkah iterasi ke-t, berlaku sebagai berikut.
L( b )
�
q (jt ) = = �( yi - nip i( t ) ) xij
�bj b (t )
i
(2.21)
�2 L( b )
hba = = -�xia xib nibp i( t ) ( 1 - p i(t ) ) ( 1 - p i(t ) )
�ba� bb b (t ) i
(2.22)
�k (t ) �
exp �� b j xij �
p i(t ) = � j =0 �
� � (t ) �
k �
1 + exp �
� � b j xij �
�
� �j =0 �
� (2.23)
Dengan menggunakan persamaan (2.20), diperoleh sebagai berikut :
{ }
nip i( t ) ( 1 - p t( t ) ) X �
-1
b (t +1) = b (t ) + X ' Diag �
� � X '( y - m )
(t )
(2.24)
2.2.2 Pengujian Parameter Model Regresi Logistik Biner
Pengujian estimasi parameter merupakan pengujian yang digunakan untik
menguji signifikansi koefisien β dari model. Pengujian ini dapat menggunakan uji
secara serentak maupun parsial.
1. Uji Serentak
Pengujian serentak dilakukan untuk memeriksa signifikansi koefisien β secara
keseluruhan (Hosmer & Lemeshow, 2000) dengan hipotesis sebagai berikut.
H 0 : β1= β2=…=β p =0
H 1 : minimal ada satu β j ≠0 , j=1,2,3,… , p
Statistik Uji :
� �n1 � n1
�n0 � �
n0
� � �� � �
n n
G = -2 ln �n � �� �1- y �
� �i
( )
� ( i) �
y
��i p 1 - p i �
�i =1 � (2.25)
Daerah Penolakan :
Tolak H 0 jika G>❑2(p , α )
Keterangan :
n0 : jumlah pengamatan dengan kategori y=0
n1 : jumlah pengamatan dengan kategori y=1
n : jumlah pengamatan
p : banyak parameter
Jika terdapat k katerogi pada suatu variabel prediktor, maka kontribusi untuk
derajat bebas pada uji likelihood adalah sebesar k −1 (Hosmer & Lemeshow,
2000).
2. Uji Parsial
Pengujian secara parsial dilakukan untuk mengetahui signifikansi setiap
parameter terhadap variabel respon. Pengujian signifikansi parameter menggunakan
uji Wald (Hosmer & Lemeshw, 2000) dengan hipotesis sebagai berikut.
H 0 : β j=0
H1: β j≠ 0 , j=1,2,3,… , p
Statistik Uji :
b�
W=
SE b�
( )j
(2.26)
Daerah Penolakan :
Tolak H 0 jika W > Z α / 2
Statistik uji
W
disebut juga sebagai statistik uji Wald dengan
( )
�
SE b j
adalah
taksiran standar error parameter.
2.2.3 Uji Kesesuaian Model
Pengujian ini dilakukan untuk menguji apakah model yang dihasilkan
berdasarkan regresi logistik multivariat/serentak sudah layak. Pengujian ini
menggunakan statistik uji Hosmer dan Lemeshow (Hosmer & Lemeshow, 2000)
dengan hipotesis yang digunakan sebagai berikut.
H0 : Model sesuai (tidak terdapat perbedaan yang signifikan antara hasil
pengamatan dengan kemungkinan hasil prediksi model)
H1 : Model tidak sesuai (terdapat perbedaan yang signifikan antara hasil
pengamatan dengan kemungkinan hasil prediksi model)
Statistik Uji :
(o )
2
g - nk' p k
�= k
C �
(
k =1 nk p k 1 - p k
'
) (2.27)
Daerah Penolakan :
Tolak H 0 jika C>❑ ^ 2
(g−2, α )
Keterangan :
ok : observasi pada grup ke-k
�Ck m j p� k �
�
�� nk'
�
�
pk : rata-rata taksiran peluang �j =1
�
Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas terutama
delam epidemiologi. Dari Persamaan 1.29 odds rasio merupakan rata-rata besarnya
kecenderungan variabel respon bernilai tertentu jika x=1 dibandingkan x=0
(Hosmer dan Lemeshow, 2000).
2.3 Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang
pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam
sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma
pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan
learning bias yang berasal dari teori pembelajaran statistik [6].
Dalam konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik
diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara
kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan
mencari titik maksimalnya. Secara matematika, konsep dasar SVM yaitu:
1
min | w |2
2 (2.30)
s.t yi(xi .w+b)-1 0
dimana (xi .w + b) 1 untuk kelas 1, dan (xi .w + b) -1 untuk kelas 2, i x adalah
data set, i y adalah output dari data i x , dan w, b adalah parameter yang dicari
nilainya. Formulasi optimasi SVM untuk kasus klasifikasi dua kelas dibedakan
menjadi klasifikasi linear dan non-linear.
2.4 Decision Tree
Decision tree adalah algoritma yang paling banyak digunakan untuk masalah
pengklasifikasian. Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo,
internal nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana
sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy
sampel S adalah sebagai berikut [7].
Keterangan :
n11 : jumlah subjek dari y 1 tepat diklasifikasikan sebagai y1
n12 : jumlah subjek dari y 1 tepat diklasifikasikan sebagai y2
n21 : jumlah subjek dari y 2 tepat diklasifikasikan sebagai y1
n22 : jumlah subjek dari y 2 tepat diklasifikasikan sebagai y2
Perhitungan nilai APER merupakan proporsi observasi yang diprediksi tidak
benar oleh fungsi klasifikasi dengan rumus sebagai berikut.
n21 + n12
APER =
n (2.30)
Keterangan :
n : Total pengamatan
2.6 Seleksi Mahasiswa Baru (SNMPTN)
Perguruan tinggi melakukan seleksi untuk mahasiswa barunya dengan beberapa
jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan seleksi sendiri
(mandiri) dan seleksi secara bersama-sama secara nasional berupa SNMPTN dan
SBMPTN. Panitia jalur undangan (SNMPTN) pada menyatakan bahwa penerimaan
mahasiswa baru harus memenuhi prinsip kredibel, adil, transparan, fleksibel, efisien,
dan akuntabel serta tidak diskriminatif dengan memperhatikan potensi calon
mahasiswa dan kekhususan perguruan tinggi.
Mulai
Mengumpulkan Data
Ya
Klasifikasi dengan Regresi Logistik
Melakukan Perbandingan
Selesai
Gambar 3.1 Diagram Alir
DAFTAR PUSTAKA
Agresti, A. (2013). Categorical Data Analysis. New Jersey: John Wiley & Sons, Inc.
Ginanjar, I. (2008). Aplikasi Multidimensional Scaling Untuk Memposisikan Produk
Pada Masalah Product Existing. Staf Pengajar Jurusan Statistika FMIPA
UNPAD, Bandung.
Hosmer, D.W., & Lemeshow (2000). Applied Logistic Regression, John Wiley and
Sons. USA.
http://snmptn.ac.id/. Diakses pada Kamis, 11 April 2019 Pukul 20.00 WIB.
Johnson, R., & Winchern, D. (2007). Applied Multivariate Statistical Analysis. New
Jersey: Pearson Education, Inc.
Walpole, Ronald E. (1993). Pengantar Metode Statistika Edisi ke-3. Jakarta:
Gramedia Pustaka Utama.