Anda di halaman 1dari 20

Nama : Niam Zuhdi Yuliarto

NRP : 06211640000061

Judul Penelitian
Klasifikasi Calon Mahasiswa Jalur SNMPTN di ITS Menggunakan Analisis Regresi
Logistik, SVM dan Decision Tree.

RINGKASAN
Pendidikan merupakan sebuah kebutuhan setiap insan, sepanjang waktu, sampai
kapan dan dimanapun ia berada. Dari latar belakang pendidikannya dapat
menggambarkan kualitas yang berada pada dirinya. Maka dari itu, menuntut ilmu
setinggi mungkin merupakan sebuah keperluan sebagai manusia. Dapat menempuh
pendidikan tingi merupakan sebuah kebanggaan dari setiap orang. Tidak semua
memperoleh kesempatan untuk itu karena hanyalah orang-orang yang memenuhi
kriteria tertentu yang berhak belajar di instansi pendidikan tersebut. Untuk dapat
mendapatkan hak tersebut, calon mahasiswa harus mengikuti seleksi sesuai ketentuan
dari instansi yang ia tuju. Jalur penerimaan mahasiswa baru yang disediakan
pemerintah meliputi jalur undangan (SNMPTN) dan seleksi bersama (SBMPTN),
sisanya jalur mandiri dari setiap instansi pendidikan. ITS menentukan kuota untuk
jalur SNMPTN sebesar 30%, SBMPTN 40%, dan sisanya jalur mandiri. Jalur
undangan merupakan jalur untuk siswa-siswa yang berprestasi ketika masih
menduduki tingkat pendidikan SMA sederajat. Pastinya dari pihak instansi
mengharapkan pilihannya untuk menjaring calon mahasiswa baru tepat sasaran.
Beberapa kriteria yang telah ditentukan harus semua terpenuhi agar mendapatkan
mahasiswa baru yang berkualitas. Namun seringkali pilihan dari instansi tersebut
meleset dikarenakan terdapat faktor-faktor yang tidak berpengaruh signifikan atau
kesalahan dalam penentuan penilaian terhadap setiap calon mahasiswa. Maka dari itu
dalam penelitian kali ini dilakukan klasifikasi menggunakan regresi logistik sehingga
dapat diketahui prediksi secara teoritis dan serta faktor-faktor yang mempengaruhi
secara signifikan. Lalu dilakukan pula klasifikasi menggunakan SVM dan decision
tree sebagai pembanding dari regresi logistik. Dengan nilai akurasi yang tertinggi
digunakan sebagai metode untuk seleksi calon mahasiswa baru

BAB I PENDAHULUAN

1.1 Latar Belakang


Pendidikan merupakan kebutuhan manusia sepanjang waktu, sampai kapan dan
dimanapun ia berada. UUD 1945 pasal 31 ayat 1 dan UU Nomor 2 tahun 1989
tentang Sistem Pendidikan Nasional bab III ayat 5 menyatakan bahwa setiap warga
negara mempunyai kesempatan yang sama memperoleh pendidikan. Dari latar
belakang pendidikan dapat dilihat kualitas dari orang tersebut. Pendidikan sendiri
terbagi dalam beberapa kategori yakni pendidikan formal, informal, dan nonformal.
Pendidikan formal meliputi pendidikan di sekolah seperti SD, SMP, SMA dan
perguruan tinggi. Memang menuntut pendidikan adalah hak setiap orang, namun
dapat menuntut ilmu sampai jenjang perguruan tinggi merupakan suatu hak istimewa
karena hanya orang-orang yang memenuhi kriteria saja yang berhak belajar di
instansi pendidikan tersebut. Hak istimewa uang didapatkan tidak hanya terletak pada
sarana fisik dan sumber daya manusia yang disediakan, tetapi juga pengakuan secara
formal bahwa seseorang telah mendalami suatu ilmu tertentu.
Pendidikan di perguruan tinggi melakukan seleksi untuk mahasiswa barunya
dengan beberapa jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan
seleksi sendiri (mandiri) dan seleksi secara bersama-sama secara nasional berupa
SNMPTN dan SBMPTN. Panitia jalur undangan (SNMPTN) pada menyatakan
bahwa penerimaan mahasiswa baru harus memenuhi prinsip kredibel, adil,
transparan, fleksibel, efisien, dan akuntabel serta tidak diskriminatif dengan
memperhatikan potensi calon mahasiswa dan kekhususan perguruan tinggi.
Perguruan tinggi sebagai penyelenggara pendidikan menerima calon mahasiswa yang
berprestasi akademik tinggi dan diprediksi berhasil menyelesaikan studi di perguruan
tinggi tepat waktu. Siswa yang berprestasi tinggi dan konsisten menunjukkan
prestasinya di SMA/SMK/MA layak mendapatkan kesempatan untuk menjadi calon
mahasiswa melalui Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN).
Institut Teknologi Sepuluh Nopember Surabaya (ITS) merupakan salah satu
perguruan tinggi yang favorit menjadi pilihan utama dalam jalur undangan
(SNMPTN). Prestasi dan dedikasinya membuat ITS menjadi incaran bagi calon
mahasiswa dari seluruh Indonesia. Namun, ITS Surabaya pasti mempunyai
syarat/kriteria tersendiri calon mahasiswa yang akan diloloskan jalur undangan.
Selain dari nilai rapor selama 5 semester awal pada jenjang SMA/Sederajat, pasti
banyak lagi faktor yang harus diperhitungkan yang menjadi bumbu dapur sendiri oleh
ITS Surabaya. Begitu pula dengan universitas negeri lainnya dalam menyeleksi calon
mahasiswanya. Maka dari itu, dalam penelitian ini akan dilakukan analisis tentang
faktor-faktor yang mempengaruhi diterima/tidaknya mahasiswa jalur undangan
(SNMPTN) di ITS Surabaya.
Tidak sedikit yang meragukan mahasiswa hasil dari jalur undangan ini karena
masalah penilaian rapor yang diluar pengawasan perguruan tinggi negeri (PTN) dan
keketatan peluang berprestasi di setiap daerah yang berbeda-beda. Dalam jurnal
Usman seorang mahasiswa Universitas Negeri Makasar menyatakan bahwa prestasi
belajar mahasiswa yang diterima melalui jalur SNMPTN mendapatkan prestasi
belajar fisika dasar lebih baik dibandingkan dengan jalur mandiri, hal ini disebabkan
karena mahasiswa yang diterima melalui jalur ini adalah merupakan siswa-siswa
yang terbaik di sekolah asalnya. Namun jika dibandingkan dengan prestasi belajar
fisika dasar mahasiswa yang diterima melalui jalur SBMPTN, jalur SNMPTN lebih
rendah, hal tersebut dapat dipahami karena siswa yang memiliki prestasi di masing-
masing sekolah standarnya tidak sama, sehingga siswa yang berprestasi di setiap
sekolah belum tentu memiliki prestasi yang sama jika dibandingkan siswa dari
sekolah lain.
Untuk menghasikan keakuratan yang tinggi dalam menyeleksi siswa-siswa
terbiak, instansi perlu mengetahui faktor-faktor apa saja yang seharusnya digunakan
dalam menentukan status kelulusan calon mahasiswa maka dapat digunakan analisis
regresi logistik biner, karena dalam variabel respon (Y) hanya terdiri dari satu
variabel. Model regresi logistik biner merupakan salah satu model regresi logistik
yang digunakan untuk menganalisa hubungan antara satu variabel respon dan
beberapa variabel prediktor, dengan variabel responnya berupa data kategori yang
bernilai 1 untuk calon mahasiswa yang terima dan bernilai 0 untuk calon mahasiswa
yang tidak diterima. Selain itu, terdapat 2 metode klasifikasi lagi yang digunakan
sebagai pembanding yang cocok digunakan dalam menyelesaikan masalah ini, yakni
Support Vector Machine dan Decision Tree.

1.2 Rumusan Masalah


Berdasarkan uraian pada latar belakang, maka rumusan masalah pada penelitian
ini adalah sebagai berikut.
1. Bagaimana mendapatkan model regresi logistik biner pada keputusan
diterima/tidaknya calon mahasiswa di ITS 2019 jalur SNMPTN?

2. Faktor-faktor apa saja yang berpengaruh terhadap keputusan diterima/tidaknya


calon mahasiswa di ITS 2019 jalur SNMPTN?

3. Bagaimanakah ketepatan klasifikasi pada keputusan diterima/tidaknya calon


mahasiswa di ITS 2019 jalur SNMPTN?

1.3 Tujuan Penelitian


Berdasarkan rumusan masalah di atas, tujuan yang ingin dicapai dalam
penelitian ini adalah sebagai berikut.
1. Mendapatkan model model regresi logistik biner pada keputusan
diterima/tidaknya calon mahasiswa di ITS jalur SNMPTN.
2. Mengetahui faktor-faktor yang berpengaruh terhadap keputusan
diterima/tidaknya calon mahasiswa di ITS jalur SNMPTN.
3. Memperoleh ketepatan klasifikasi pada keputusan diterima/tidaknya calon
mahasiswa di ITS 2019 jalur SNMPTN.
1.4 Manfaat Penelitian
Hasil dari penelitian ini diharapkan dapat bermanfaat untuk ilmu pengetahuan
khususnya mengenai regresi logistik biner beserta penerapannya dalam bidang
pendidikan. Hasil dari penelitian ini diharapkan mampu memberikan informasi
mengenai faktor-faktor yang harus dipertimbangkan dalam menyeleksi mahasiswa
baru oleh pihak ITS Surabaya. Sehingga dapat dijadikan sebagai acuan dalam
pengambilan kebijakan dalam hal pencarian bibit unggul mahasiswa baru. Bagi
peneliti diharapkan dapat melakukan penerapan ilmu statistika dalam kasus nyata.
1.5 Batasan Masalah

Mengingat pembahasan mengenai penelitian ini maka pada pembahasan kali ini
akan menggunakan data penyeleksian jalur undangan tahun 2015 sampai dengan
tahun 2019. Dengan variabel prediktor, nilai rapor 5 semester, akreditasi sekolah,
jumlah alumni yang berkuliah di ITS, sertifikat prestasi yang dimiliki, lokasi sekolah
asal (luar Jatim atau dalam Jatim).

BAB II TINJAUAN PUSTAKA


2.1 Statistika Deskriptif
Statistika deskriptif adalah ilmu yang berhubungan dengan pengumpulan data,
perhitungan atau pengolahan data, serta penarikan kesimpulan berdasarkan data yang
diperoleh (Ginanjar, I., 2008). Statistika deskriptif terbagi menjadi 2 yaitu ukuran
pemusatan data dan ukuran penyebaran data (Walpole, Ronald E., 1993). Salah satu
statistika deskriptif yang sering digunakan yakni frekuensi. Frekuensi adalah angka
(bilangan) yang menunjukkan seberapa kali suatu variabel (yang dilambangkan
dengan angka-angka itu) berulang dalam deretan angka tersebut; atau berapa kalikah
suatu variabel (yang dilambangkan dengan angka itu) muncul dalam deretan angka
tersebut.
2.2 Uji Independensi
Uji independensi digunakan untuk mengetahui hubungan antara dua variabel
(Agresti, 2002). Setiap level atau kelas dari variabel-variabel tersebut harus
memenuhi syarat sebagai berikut.
1. Homogen
Homogen adalah dalam setiap sel tersebut harus merupakan obyek yang sama,
sehingga jika datanya heterogen tidak bisa dianalisis menggunakan tabel kontingensi.
2. Mutually Exclusive dan Mutually Exhausive
Mutually Exclusive (saling asing) adalah antara level satu dengan level yang
lain harus saling lepas (independen). Mutually Exhaustive merupakan dekomposisi
secara lengkap sampai pada unit terkecil. Sehingga jika mengklasifikasikan satu
unsur, maka hanya dapat diklasifikasikan dalam satu unit saja, atau dengan kata lain
semua nilai harus masuk dalam klasifikasi yang dilakukan.
3. Skala Nominal dan Skala Ordinal
Skala nominal adalah merupakan skala yang bersifat kategorikal atau
klasifikasi, skala tersebut dapat berfungsi untuk membedakan tetapi tidak merupakan
hubungan kuantitatif dan tingkatan. Skala ordinal adalah merupakan skala yang
bersifat kategorikal atau klasifikasi, skala ordinal ini berfungsi membedakan dan
berfungsi untuk menunjukkan adanya suatu urutan atau tingkatan.
Pengujian yang dilakukan pada uji independensi adalah sebagai berikut.
Hipotesis yang digunakan adalah sebagai berikut.
H 0 : Tidak ada hubungan antara variabel yang diamati
H 1 : Ada hubungan antara dua variabel yang diamati
Statistik uji yang digunakan adalah sebagai berikut.

I J

��(n
i =i j =1
ij - eij ) 2
c2 =
eij
(2.1)

atau,

I J �n �
G 2 = 2��nij ln � ij �
�e �
i =1 j =1 �ij � (2.2)

Dengan :

ni. �n. j
eij =
n (2.3)

Keterangan :
nij : nilai observasi/pengamatan baris ke-i kolom ke-j
e ij : nilai ekspektasi baris ke-i kolom ke-j

Daerah kritis :
Tolak H 0 jika G2 atau ❑2hitung >❑(I−1)(J−1)
2
atau P−value<α

2.3 Regresi Logistik


Menurut Hosmer dan Lemeshow (2000), regresi logistik adalah suatu metode
yang dapat digunakan untuk mencari hubungan antara variabel respon yang bersifat
dichotomus (skala nominal/ordinal dengan dua kategori) dengan satu atau lebih
variabel prediktor berskala kategori atau kontinu. Model regresi logistik terdiri dari
regresi logistik dengan respon biner, ordinal, dan multinomial. Regresi logistik biner
adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara
variabel respon (y) yang bersifat biner (dichotomus) dengan variabel prediktor
( x) yang bersifat kategorik atau kontinu. Hasil respon variabel dichotomus
memiliki dua kriteria, yaitu y=1 mewakili kemungkinan sukses dengan
probabilitas π (x) ; y=0 mewaliki kemungkinan gagal dengan probabilitas
1−π ( x ) , dimana variabel respon (y) mengikuti Distribusi Bernoulli untuk
setiap observasi tunggal.
Pada regresi logistik dapat disusun model yang terdiri dari banyak variabel
prediktor, dikenal sebagai model multivariabel. Rata-rata bersyarat dari y jika
diberikan nilai x adalah π ( x )=E ( y∨x ) . Model regresi logistik multivariabel
dengan p variabel prediktor adalah sebagai berikut.

{ p ( x)} { 1 + e( b0 + b1 x1 +...+ b p x p )
} = e( b0 + b1 x1 +...+ b p x p )

(2.4)

{ p ( x)} + { p ( x)e( )
} = e(
b 0 + b1 x1 +...+ b p x p b 0 + b1 x1 +...+ b p x p )

(2.5)

p ( x ) = e(
b0 + b1 x1 +...+ b p x p ) ( b0 + b1 x1 +...+ b p x p )
- p ( x )e
(2.6)
p ( x) = { 1 - p ( x)} e(
b 0 + b1 x1 +...+ b p x p )

(2.7)
p ( x) (b 0 + b1 x1 +...+ b p x p )
=e
1 - p ( x)
(2.8)
� p ( x) � ( b0 + b1 x1 +...+ b p x p )
ln � �= ln e
1 + p ( x) �

(2.9)
� p ( x) �
ln � �= b 0 + b1 x1 + ... + b p x p
1 - p ( x) �
� (2.10)

Sehingga diperoleh persamaan sebagai berikut.

�p ( x ) �
g ( x) = ln � = b 0 + b1 x1 + ... + b p x p
1 - p ( x) �
� � (2.11)

g( x) disebut dengan fungsi logit model regresi logistik biner dengan p


variabel prediktor. Model regresi logistic pada persamaan (2.11) dapat dituliskan
dalam bentuk:

exp( g ( x ))
p ( x) =
1 + exp( g ( x)) (2.12)
2.2.1 Estimasi Parameter Regresi Logistik
Metode umum estimasi parameter dalam regresi logistik adalah Maximum
Likelihood Estimation (MLE). Fungsi likelihood memberikan kemungkinan
mengamati data sebagai fungsi dari parameter yang tidak diketahui. MLE dipillih
untuk memaksimalkan nilai fungsi tersebut. Cara yang sesuai untuk kontribusi fungsi
likelihood untuk setiap pengamatan ( x 1i y i) adalah sebagai berikut.

1- yi
( 1 - p ( xi ) ) �
f (Y = yi ) = p ( xi ) yi �
� � , yi = 0,1 (2.13)
Fungsi likelihood yang diperoleh dengan pengamatan yang diasumsikan
independen adalah sebagai berikut.

n
I ( b ) = �p ( xi ) yi [ 1 - p ( xi ) ]
1- yi

i =1 (2.14)

Konsep MLE menyatakan estimasi nilai β yang memaksimalkan fungsi


likelihood, dimana merupakan penyelesaian dari turunan fungsi likelihood.

L( b ) = ln [ 1( b ) ]
(2.15)
n
L( b ) = �( yi ln [ p ( xi ) ] + (1 - yi ) ln [ 1 - p ( x) ] )
i =1 (2.16)

Dengan mendiferensikan L( β) untuk βp yang dihitung dengan cara


menjadikan turunan pertama sama dengan nol.

��
�y -p ( x ) �
�= 0
i i
i =1

(2.17)
n

�x �
�y -p ( x ) �
i �= 0
i i
i =1 (2.18)

Hasil turunan kedua dari persamaan fungsi likelihood adalah sebagai berikut.

�L2 ( b ) n
= �xij xiup ( xi ) ( 1 - p ( xi ) ) ; j = 0,1,..., p
bI �
� bu i =1 (2.19)

Persamaan likelihood (2.11) pada metode maximum likelihood merupakan


persamaan yang non linier dalam mengestimasi ^β sehingga membutuhkan metode
iterasi Newton Raphson.
Metode Newton Raphson merupakan metode untuk menyelesaikan persamaan
nonlinier seperti menyelesaikan persamaan likelihood dalam model regresi logistik
(Agresti, 1990). Metode Newton Raphson memerlukan taksiran awal untuk nilai
fungsi maksimumnya, yang mana fungsi tersebut merupakan taksiran yang
menggunakan pendekatan polynomial berderajat dua dalam hal ini menentukan nilai
^β dan β yang merupakan fungsi maksimum dari g( β ) dan andaikan

' ∂g ∂g
q =( , ) , andaikan H dinotasikan sebagai matriks yang mempunyai
∂ β1 ∂ β 2

∂g
anggota hab= . Andaikan q(t ) dan H (t ) merupakan bentuk evaluasi dari
∂ β2

β
(t )
, taksiran ke-t pada ^β . Pada langkah t dalam proses iterasi (t=0,1,2, …) ,

g( β ) adalah pendekatan β(t ) yang merupakan bentuk orde kedua dari ekspansi
Deret Taylor.
�1 �
Q(t ) ( b ) = g ( b (t ) ) + q(t ) ( b - b (t ) ) + � �(b - b (t ) ) H (t ) ( b - b (t ) )
�2 �
Penyelesaian :

Q(t )

= q (t ) + H (t ) ( b - b ( t ) ) = 0
�b
b (t -1) = b ( t ) - ( H ( t ) ) q ( t )
-1

(2.20)
Dengan mengasumsikan H (t ) sebagai matriks non-singular. Untuk setiap
langkah iterasi ke-t, berlaku sebagai berikut.

L( b )

q (jt ) = = �( yi - nip i( t ) ) xij
�bj b (t )
i
(2.21)

�2 L( b )
hba = = -�xia xib nibp i( t ) ( 1 - p i(t ) ) ( 1 - p i(t ) )
�ba� bb b (t ) i
(2.22)
�k (t ) �
exp �� b j xij �
p i(t ) = � j =0 �
� � (t ) �
k �
1 + exp �
� � b j xij �

� �j =0 �
� (2.23)
Dengan menggunakan persamaan (2.20), diperoleh sebagai berikut :

{ }
nip i( t ) ( 1 - p t( t ) ) X �
-1
b (t +1) = b (t ) + X ' Diag �
� � X '( y - m )
(t )

(2.24)
2.2.2 Pengujian Parameter Model Regresi Logistik Biner
Pengujian estimasi parameter merupakan pengujian yang digunakan untik
menguji signifikansi koefisien β dari model. Pengujian ini dapat menggunakan uji
secara serentak maupun parsial.
1. Uji Serentak
Pengujian serentak dilakukan untuk memeriksa signifikansi koefisien β secara
keseluruhan (Hosmer & Lemeshow, 2000) dengan hipotesis sebagai berikut.
H 0 : β1= β2=…=β p =0
H 1 : minimal ada satu β j ≠0 , j=1,2,3,… , p
Statistik Uji :
� �n1 � n1
�n0 � �
n0

� � �� � �
n n
G = -2 ln �n � �� �1- y �
� �i
( )
� ( i) �
y
��i p 1 - p i �
�i =1 � (2.25)

Daerah Penolakan :
Tolak H 0 jika G>❑2(p , α )
Keterangan :
n0 : jumlah pengamatan dengan kategori y=0
n1 : jumlah pengamatan dengan kategori y=1
n : jumlah pengamatan
p : banyak parameter
Jika terdapat k katerogi pada suatu variabel prediktor, maka kontribusi untuk
derajat bebas pada uji likelihood adalah sebesar k −1 (Hosmer & Lemeshow,
2000).
2. Uji Parsial
Pengujian secara parsial dilakukan untuk mengetahui signifikansi setiap
parameter terhadap variabel respon. Pengujian signifikansi parameter menggunakan
uji Wald (Hosmer & Lemeshw, 2000) dengan hipotesis sebagai berikut.
H 0 : β j=0
H1: β j≠ 0 , j=1,2,3,… , p
Statistik Uji :
b�
W=
SE b�
( )j
(2.26)

Daerah Penolakan :
Tolak H 0 jika W > Z α / 2

Statistik uji
W
disebut juga sebagai statistik uji Wald dengan
( )

SE b j
adalah
taksiran standar error parameter.
2.2.3 Uji Kesesuaian Model
Pengujian ini dilakukan untuk menguji apakah model yang dihasilkan
berdasarkan regresi logistik multivariat/serentak sudah layak. Pengujian ini
menggunakan statistik uji Hosmer dan Lemeshow (Hosmer & Lemeshow, 2000)
dengan hipotesis yang digunakan sebagai berikut.
H0 : Model sesuai (tidak terdapat perbedaan yang signifikan antara hasil
pengamatan dengan kemungkinan hasil prediksi model)
H1 : Model tidak sesuai (terdapat perbedaan yang signifikan antara hasil
pengamatan dengan kemungkinan hasil prediksi model)
Statistik Uji :

(o )
2
g - nk' p k
�= k
C �
(
k =1 nk p k 1 - p k
'
) (2.27)
Daerah Penolakan :
Tolak H 0 jika C>❑ ^ 2
(g−2, α )

Keterangan :
ok : observasi pada grup ke-k
�Ck m j p� k �

�� nk'


pk : rata-rata taksiran peluang �j =1

g : jumlah grup (kombinasi kategori dalam model serentak)


nk' : banyak observasi pada grup ke-k

2.2.4 Interpretasi Koefisien Parameter


Estimasi koefisien dari variabel prediktor menyatakan slope atau nilai
perubahan variabel respon untuk setiap perubahan satu unit variabel prediktor.
Interpretasi koefisien parameter meliputi penentuan hubungan fungsional antara
variabel respon dan variabel prediktor serta mendefinisikan unit perubahan variabel
respon yang disebabkan oleh variabel prediktor. Berdasarkan model ada dua nilai
π (x) dan dua nilai 1−π ( x ) yang dinyatakan pada Tabel 2.1.
Tabel 2.1 Nilai Model Regresi Logistik
Variabel Variabel Prediktor (X)
Respon(Y) x=1 x=0
y=1 e b 0 + b1
e b0
p (1) = p (0) =
1 + e b0 + b1 1 + e b0
y=1 1 1
1 - p (1) = b 0 + b1
1 - p (0) =
1+ e 1 + e b0
Untuk menginterpretasi koefisien parameter digunakan nalai odds rasio ().
Nilai odds yang dihasilkan dengan x=1 didefinisikan π (1)/[1−π ( 1 ) ] .
Demikian pula, nilai odds yang dihasilkan x=0 adalah π (0)/[ 1−π ( 0 ) ] . Odds
rasio dinotasikan dengan symbol OR atau , didefinisikan odds rasio x=1 dan
x=0 dengan rumus sebagai berikut.
p (1) / [ 1 - p (1) ]
OR (  ) =
p (0) / [ 1 - p (0)]
(2.28)

Berdasarkan Tabel 2.1, nilai odds rasio adalah :


� e b0 + b1 �
� 1 �
� b0 + b1 �
� b0 + b1 �
1+ e �1+ e �
 =� �
� e b0 �
� 1 �
� b0 �
� b0 �
� 1+ e �
�1+ e �
e b0 + b1
=
e b0
 = e( b0 + b1 ) - b0
 = e b1 (2.29)

Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas terutama
delam epidemiologi. Dari Persamaan 1.29 odds rasio merupakan rata-rata besarnya
kecenderungan variabel respon bernilai tertentu jika x=1 dibandingkan x=0
(Hosmer dan Lemeshow, 2000).
2.3 Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang
pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam
sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma
pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan
learning bias yang berasal dari teori pembelajaran statistik [6].
Dalam konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik
diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara
kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan
mencari titik maksimalnya. Secara matematika, konsep dasar SVM yaitu:
1
min | w |2
2 (2.30)
s.t yi(xi .w+b)-1  0
dimana (xi .w + b)  1 untuk kelas 1, dan (xi .w + b)  -1 untuk kelas 2, i x adalah
data set, i y adalah output dari data i x , dan w, b adalah parameter yang dicari
nilainya. Formulasi optimasi SVM untuk kasus klasifikasi dua kelas dibedakan
menjadi klasifikasi linear dan non-linear.
2.4 Decision Tree
Decision tree adalah algoritma yang paling banyak digunakan untuk masalah
pengklasifikasian. Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo,
internal nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana
sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy
sampel S adalah sebagai berikut [7].

Entropy ( S ) = - p1 log 2 p1 - p2 log 2 p2


(2.31)

Dimana p1 , p2 , ...., pn masing-masing menyatakan proposi kelas 1, kelas 2, ..., kelas


n dalam output.
Proses dalam decision tree adalah sebagai berikut [8]:
1. Mengubah bentuk data (tabel) menjadi model pohon.
Untuk menghitung nilai gainratio dapat dilakukan dengan persamaan
sebagai berikut:
Gain( S , A)
Ga in ratio( S , A) =
SplitInformation( S , A) (2.32)
2. Mengubah model pohon menjadi rule.

Gambar 1 Proses Model Pohon Menjadi Rule.


3. Menyederhanakan rule (Pruning).
2.5 Ketepatan Klasifikasi
Ketepatan klasifikasi model digunakan untuk mengetahui apakah data
diklasifikasikan dengan benar atau tidak (Agresti, 2002). Evaluasi prosedur
klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang
dilakukan oleh suatu fungsi klasifikasi (Johnson & Winchern, 2007). Ukuran yang
dipakai adalah Apparent Error Rate (APER). Nilai APER menyatakan nilai proporsi
sampel yang diklasifikasikan oleh fungsi klasifikasi.
Tabel 2.2 Perhitungan Ketepatan Klasifikasi
Hasil Taksiran/Klasifikasi
Observasi y1 y2
y1 n11 n12
y2 n21 n22

Keterangan :
n11 : jumlah subjek dari y 1 tepat diklasifikasikan sebagai y1
n12 : jumlah subjek dari y 1 tepat diklasifikasikan sebagai y2
n21 : jumlah subjek dari y 2 tepat diklasifikasikan sebagai y1
n22 : jumlah subjek dari y 2 tepat diklasifikasikan sebagai y2
Perhitungan nilai APER merupakan proporsi observasi yang diprediksi tidak
benar oleh fungsi klasifikasi dengan rumus sebagai berikut.
n21 + n12
APER =
n (2.30)

Keterangan :
n : Total pengamatan
2.6 Seleksi Mahasiswa Baru (SNMPTN)
Perguruan tinggi melakukan seleksi untuk mahasiswa barunya dengan beberapa
jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan seleksi sendiri
(mandiri) dan seleksi secara bersama-sama secara nasional berupa SNMPTN dan
SBMPTN. Panitia jalur undangan (SNMPTN) pada menyatakan bahwa penerimaan
mahasiswa baru harus memenuhi prinsip kredibel, adil, transparan, fleksibel, efisien,
dan akuntabel serta tidak diskriminatif dengan memperhatikan potensi calon
mahasiswa dan kekhususan perguruan tinggi.

BAB 3 METODOLOGI PENELITIAN


3.1 Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh
dari data mahasiswa baru Institut Teknologi Sepuluh Nopember Surabaya. Data yang
dianalisis adalah data mahasiswa baru jalur SNMPTN dari tahun 2015 sampai 2019
dan faktor-faktor yang berhubungan.

3.2 Variabel Penelitian


Variabel yang digunakan dalam penelitian ini adalah variabel dependen atau
variabel respon yang biasanya disimbolkan dengan Y dan variabel independen atau
variabel prediktor yang disimbolkan dengan X.

Tabel 3.1 Variabel Penelitian


Variabel Kategori Skala
Keputusan Akhir 0 = Tidak Diterima Nominal
Pihak ITS (Y) 1 = Diterima
Nilai Rata-rata - Rasio
Rapor (X1)
Akreditasi Sekolah 0 = Belum Terakhreditasi Ordinal
Asal (X2) 1=C
2=B
3 =A
Jumlah Alumsi - Rasio
Sekolah Asal di
ITS (X3)
Jumlah Sertifikat - Rasio
Prestasi (X4)
Lokasi Sekolah 0 = Luar Jawa Timur Nominal
Asal (X5) 1 = Jawa Timur

3.3 Langkah Analisis


Langkah-langkah analisis dalam penelitian ini adalah sebagai berikut.
1. Mengumpulkan data mahasiswa baru jalur SNMPTN dari tahun 2015 sampai
2019.
2. Melakukan uji independensi untuk mengetahui apakah terdapat hubungan antar
variabel respon terhadap masing-masing variabel prediktor.
3. Melakukan klasifikasi menggunakan metode regresi logistik.
4. Melakukan uji kesesuaian model untuk menguji apakah model yang dihasilkan
berdasarkan regresi logistik multivariabel sudah layak.
5. Melakukan klasifikasi menggunakan metode SVM.
6. Melakukan klasifikasi menggunakan metode decision tree.
7. Menentukan perbandingan antar metode.
8. Membuat kesimpulan dan saran serta rekomendasi.

3.4 Diagram Alir


Diagram alir menggambarkan alur perjalanan pembuatan laporan ini. mulai dari
proses perumusan masalah hingga pemberian kesimpulan dan saran. Diagram alir
yang dipakai dalam laporan ini adalah :

Mulai

Merumuskan Masalah dan Studi


literature

Mengumpulkan Data

Analisis Statistika Deskriptif

Tidak Apakah Variabel


Saling Berhubungan?

Ya
Klasifikasi dengan Regresi Logistik

Klasifikasi dengan SVM

Klasifikasi dengan SVM

Melakukan Perbandingan

Kesimpulan, Saran dan Rekomendasi

Selesai
Gambar 3.1 Diagram Alir

DAFTAR PUSTAKA
Agresti, A. (2013). Categorical Data Analysis. New Jersey: John Wiley & Sons, Inc.
Ginanjar, I. (2008). Aplikasi Multidimensional Scaling Untuk Memposisikan Produk
Pada Masalah Product Existing. Staf Pengajar Jurusan Statistika FMIPA
UNPAD, Bandung.
Hosmer, D.W., & Lemeshow (2000). Applied Logistic Regression, John Wiley and
Sons. USA.
http://snmptn.ac.id/. Diakses pada Kamis, 11 April 2019 Pukul 20.00 WIB.
Johnson, R., & Winchern, D. (2007). Applied Multivariate Statistical Analysis. New
Jersey: Pearson Education, Inc.
Walpole, Ronald E. (1993). Pengantar Metode Statistika Edisi ke-3. Jakarta:
Gramedia Pustaka Utama.

Anda mungkin juga menyukai