Proposalkuuu

Nama : Niam Zuhdi Yuliarto
NRP : 06211640000061
Judul Penelitian
Klasifikasi Calon Mahasiswa Jalur SNMPTN di ITS Menggunakan Analisis Regresi
Logistik, SVM dan Decision Tree.
RINGKASAN
Pendidikan merupakan sebuah kebutuhan setiap insan, sepanjang waktu, sampai
kapan dan dimanapun ia berada. Dari latar belakang pendidikannya dapat
menggambarkan kualitas yang berada pada dirinya. Maka dari itu, menuntut ilmu
setinggi mungkin merupakan sebuah keperluan sebagai manusia. Dapat menempuh
pendidikan tingi merupakan sebuah kebanggaan dari setiap orang. Tidak semua
memperoleh kesempatan untuk itu karena hanyalah orang-orang yang memenuhi
kriteria tertentu yang berhak belajar di instansi pendidikan tersebut. Untuk dapat
mendapatkan hak tersebut, calon mahasiswa harus mengikuti seleksi sesuai ketentuan
dari instansi yang ia tuju. Jalur penerimaan mahasiswa baru yang disediakan
pemerintah meliputi jalur undangan (SNMPTN) dan seleksi bersama (SBMPTN),
sisanya jalur mandiri dari setiap instansi pendidikan. ITS menentukan kuota untuk jalur
SNMPTN sebesar 30%, SBMPTN 40%, dan sisanya jalur mandiri. Jalur undangan
merupakan jalur untuk siswa-siswa yang berprestasi ketika masih menduduki tingkat
pendidikan SMA sederajat. Pastinya dari pihak instansi mengharapkan pilihannya
untuk menjaring calon mahasiswa baru tepat sasaran. Beberapa kriteria yang telah
ditentukan harus semua terpenuhi agar mendapatkan mahasiswa baru yang berkualitas.
Namun seringkali pilihan dari instansi tersebut meleset dikarenakan terdapat faktor-
faktor yang tidak berpengaruh signifikan atau kesalahan dalam penentuan penilaian
terhadap setiap calon mahasiswa. Maka dari itu dalam penelitian kali ini dilakukan
klasifikasi menggunakan regresi logistik sehingga dapat diketahui prediksi secara
teoritis dan serta faktor-faktor yang mempengaruhi secara signifikan. Lalu dilakukan
pula klasifikasi menggunakan SVM dan decision tree sebagai pembanding dari regresi
logistik. Dengan nilai akurasi yang tertinggi digunakan sebagai metode untuk seleksi
calon mahasiswa baru
BAB I PENDAHULUAN
1.1 Latar Belakang

Pendidikan merupakan kebutuhan manusia sepanjang waktu, sampai kapan dan
dimanapun ia berada. UUD 1945 pasal 31 ayat 1 dan UU Nomor 2 tahun 1989 tentang
Sistem Pendidikan Nasional bab III ayat 5 menyatakan bahwa setiap warga negara
mempunyai kesempatan yang sama memperoleh pendidikan. Dari latar belakang
pendidikan dapat dilihat kualitas dari orang tersebut. Pendidikan sendiri terbagi dalam
beberapa kategori yakni pendidikan formal, informal, dan nonformal. Pendidikan
formal meliputi pendidikan di sekolah seperti SD, SMP, SMA dan perguruan tinggi.
Memang menuntut pendidikan adalah hak setiap orang, namun dapat menuntut ilmu
sampai jenjang perguruan tinggi merupakan suatu hak istimewa karena hanya orang-
orang yang memenuhi kriteria saja yang berhak belajar di instansi pendidikan tersebut.
Hak istimewa uang didapatkan tidak hanya terletak pada sarana fisik dan sumber daya
manusia yang disediakan, tetapi juga pengakuan secara formal bahwa seseorang telah
mendalami suatu ilmu tertentu.
Pendidikan di perguruan tinggi melakukan seleksi untuk mahasiswa barunya
dengan beberapa jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan seleksi
sendiri (mandiri) dan seleksi secara bersama-sama secara nasional berupa SNMPTN
dan SBMPTN. Panitia jalur undangan (SNMPTN) pada menyatakan bahwa
penerimaan mahasiswa baru harus memenuhi prinsip kredibel, adil, transparan,
fleksibel, efisien, dan akuntabel serta tidak diskriminatif dengan memperhatikan
potensi calon mahasiswa dan kekhususan perguruan tinggi. Perguruan tinggi sebagai
penyelenggara pendidikan menerima calon mahasiswa yang berprestasi akademik
tinggi dan diprediksi berhasil menyelesaikan studi di perguruan tinggi tepat waktu.
Siswa yang berprestasi tinggi dan konsisten menunjukkan prestasinya di
SMA/SMK/MA layak mendapatkan kesempatan untuk menjadi calon mahasiswa
melalui Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN).
Institut Teknologi Sepuluh Nopember Surabaya (ITS) merupakan salah satu
perguruan tinggi yang favorit menjadi pilihan utama dalam jalur undangan (SNMPTN).
Prestasi dan dedikasinya membuat ITS menjadi incaran bagi calon mahasiswa dari
seluruh Indonesia. Namun, ITS Surabaya pasti mempunyai syarat/kriteria tersendiri
calon mahasiswa yang akan diloloskan jalur undangan. Selain dari nilai rapor selama
5 semester awal pada jenjang SMA/Sederajat, pasti banyak lagi faktor yang harus
diperhitungkan yang menjadi bumbu dapur sendiri oleh ITS Surabaya. Begitu pula
dengan universitas negeri lainnya dalam menyeleksi calon mahasiswanya. Maka dari
itu, dalam penelitian ini akan dilakukan analisis tentang faktor-faktor yang
mempengaruhi diterima/tidaknya mahasiswa jalur undangan (SNMPTN) di ITS
Surabaya.
Tidak sedikit yang meragukan mahasiswa hasil dari jalur undangan ini karena
masalah penilaian rapor yang diluar pengawasan perguruan tinggi negeri (PTN) dan
keketatan peluang berprestasi di setiap daerah yang berbeda-beda. Dalam jurnal Usman
seorang mahasiswa Universitas Negeri Makasar menyatakan bahwa prestasi belajar
mahasiswa yang diterima melalui jalur SNMPTN mendapatkan prestasi belajar fisika
dasar lebih baik dibandingkan dengan jalur mandiri, hal ini disebabkan karena
mahasiswa yang diterima melalui jalur ini adalah merupakan siswa-siswa yang terbaik
di sekolah asalnya. Namun jika dibandingkan dengan prestasi belajar fisika dasar
mahasiswa yang diterima melalui jalur SBMPTN, jalur SNMPTN lebih rendah, hal
tersebut dapat dipahami karena siswa yang memiliki prestasi di masing-masing sekolah
standarnya tidak sama, sehingga siswa yang berprestasi di setiap sekolah belum tentu
memiliki prestasi yang sama jika dibandingkan siswa dari sekolah lain.
Untuk menghasikan keakuratan yang tinggi dalam menyeleksi siswa-siswa
terbiak, instansi perlu mengetahui faktor-faktor apa saja yang seharusnya digunakan
dalam menentukan status kelulusan calon mahasiswa maka dapat digunakan analisis
regresi logistik biner, karena dalam variabel respon (Y) hanya terdiri dari satu variabel.
Model regresi logistik biner merupakan salah satu model regresi logistik yang
digunakan untuk menganalisa hubungan antara satu variabel respon dan beberapa
variabel prediktor, dengan variabel responnya berupa data kategori yang bernilai 1
untuk calon mahasiswa yang terima dan bernilai 0 untuk calon mahasiswa yang tidak
diterima. Selain itu, terdapat 2 metode klasifikasi lagi yang digunakan sebagai
pembanding yang cocok digunakan dalam menyelesaikan masalah ini, yakni Support
Vector Machine dan Decision Tree.
1.2 Rumusan Masalah

Berdasarkan uraian pada latar belakang, maka rumusan masalah pada penelitian
ini adalah sebagai berikut.
1. Bagaimana mendapatkan model regresi logistik biner pada keputusan
diterima/tidaknya calon mahasiswa di ITS 2019 jalur SNMPTN?
2. Faktor-faktor apa saja yang berpengaruh terhadap keputusan diterima/tidaknya
calon mahasiswa di ITS 2019 jalur SNMPTN?
3. Bagaimanakah ketepatan klasifikasi pada keputusan diterima/tidaknya calon
mahasiswa di ITS 2019 jalur SNMPTN?
1.3 Tujuan Penelitian

Berdasarkan rumusan masalah di atas, tujuan yang ingin dicapai dalam penelitian
ini adalah sebagai berikut.
1. Mendapatkan model model regresi logistik biner pada keputusan
diterima/tidaknya calon mahasiswa di ITS jalur SNMPTN.
2. Mengetahui faktor-faktor yang berpengaruh terhadap keputusan
diterima/tidaknya calon mahasiswa di ITS jalur SNMPTN.
3. Memperoleh ketepatan klasifikasi pada keputusan diterima/tidaknya calon
mahasiswa di ITS 2019 jalur SNMPTN.
1.4 Manfaat Penelitian

Hasil dari penelitian ini diharapkan dapat bermanfaat untuk ilmu pengetahuan
khususnya mengenai regresi logistik biner beserta penerapannya dalam bidang
pendidikan. Hasil dari penelitian ini diharapkan mampu memberikan informasi
mengenai faktor-faktor yang harus dipertimbangkan dalam menyeleksi mahasiswa
baru oleh pihak ITS Surabaya. Sehingga dapat dijadikan sebagai acuan dalam
pengambilan kebijakan dalam hal pencarian bibit unggul mahasiswa baru. Bagi peneliti
diharapkan dapat melakukan penerapan ilmu statistika dalam kasus nyata.
1.5 Batasan Masalah

Mengingat pembahasan mengenai penelitian ini maka pada pembahasan kali ini
akan menggunakan data penyeleksian jalur undangan tahun 2015 sampai dengan tahun
2019. Dengan variabel prediktor, nilai rapor 5 semester, akreditasi sekolah, jumlah
alumni yang berkuliah di ITS, sertifikat prestasi yang dimiliki, lokasi sekolah asal (luar
Jatim atau dalam Jatim).
BAB II TINJAUAN PUSTAKA

2.1 Statistika Deskriptif
Statistika deskriptif adalah ilmu yang berhubungan dengan pengumpulan data,
perhitungan atau pengolahan data, serta penarikan kesimpulan berdasarkan data yang
diperoleh (Ginanjar, I., 2008). Statistika deskriptif terbagi menjadi 2 yaitu ukuran
pemusatan data dan ukuran penyebaran data (Walpole, Ronald E., 1993). Salah satu
statistika deskriptif yang sering digunakan yakni frekuensi. Frekuensi adalah angka
(bilangan) yang menunjukkan seberapa kali suatu variabel (yang dilambangkan dengan
angka-angka itu) berulang dalam deretan angka tersebut; atau berapa kalikah suatu
variabel (yang dilambangkan dengan angka itu) muncul dalam deretan angka tersebut.
2.2 Uji Independensi

Uji independensi digunakan untuk mengetahui hubungan antara dua variabel
(Agresti, 2002). Setiap level atau kelas dari variabel-variabel tersebut harus memenuhi
syarat sebagai berikut.
1. Homogen
Homogen adalah dalam setiap sel tersebut harus merupakan obyek yang sama,
sehingga jika datanya heterogen tidak bisa dianalisis menggunakan tabel kontingensi.
2. Mutually Exclusive dan Mutually Exhausive
Mutually Exclusive (saling asing) adalah antara level satu dengan level yang lain
harus saling lepas (independen). Mutually Exhaustive merupakan dekomposisi secara
lengkap sampai pada unit terkecil. Sehingga jika mengklasifikasikan satu unsur, maka
hanya dapat diklasifikasikan dalam satu unit saja, atau dengan kata lain semua nilai
harus masuk dalam klasifikasi yang dilakukan.
3. Skala Nominal dan Skala Ordinal
Skala nominal adalah merupakan skala yang bersifat kategorikal atau klasifikasi,
skala tersebut dapat berfungsi untuk membedakan tetapi tidak merupakan hubungan
kuantitatif dan tingkatan. Skala ordinal adalah merupakan skala yang bersifat
kategorikal atau klasifikasi, skala ordinal ini berfungsi membedakan dan berfungsi
untuk menunjukkan adanya suatu urutan atau tingkatan.
Pengujian yang dilakukan pada uji independensi adalah sebagai berikut.
Hipotesis yang digunakan adalah sebagai berikut.
𝐻0 : Tidak ada hubungan antara variabel yang diamati
𝐻1 : Ada hubungan antara dua variabel yang diamati
Statistik uji yang digunakan adalah sebagai berikut.
I J
 (n
i i j 1
ij  eij ) 2
2  (2.1)
eij
atau,
I J  nij 
G 2  2 nij ln   (2.2)
 eij
i 1 j 1  
Dengan :
ni.  n. j
eij  (2.3)
n
Keterangan :
𝑛𝑖𝑗 : nilai observasi/pengamatan baris ke-i kolom ke-j
𝑒𝑖𝑗 : nilai ekspektasi baris ke-i kolom ke-j
Daerah kritis :
Tolak 𝐻0 jika 𝐺 2 atau  2 > 2 atau 𝑃 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼
ℎ𝑖𝑡𝑢𝑛𝑔 (𝐼−1)(𝐽−1)
2.3 Regresi Logistik

Menurut Hosmer dan Lemeshow (2000), regresi logistik adalah suatu metode
yang dapat digunakan untuk mencari hubungan antara variabel respon yang bersifat
dichotomus (skala nominal/ordinal dengan dua kategori) dengan satu atau lebih
variabel prediktor berskala kategori atau kontinu. Model regresi logistik terdiri dari
regresi logistik dengan respon biner, ordinal, dan multinomial. Regresi logistik biner
adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara
variabel respon (𝑦) yang bersifat biner (dichotomus) dengan variabel prediktor (𝑥)
yang bersifat kategorik atau kontinu. Hasil respon variabel dichotomus memiliki dua
kriteria, yaitu 𝑦 = 1 mewakili kemungkinan sukses dengan probabilitas 𝜋(𝑥); 𝑦 = 0
mewaliki kemungkinan gagal dengan probabilitas 1 − 𝜋(𝑥), dimana variabel respon
(𝑦) mengikuti Distribusi Bernoulli untuk setiap observasi tunggal.
Pada regresi logistik dapat disusun model yang terdiri dari banyak variabel
prediktor, dikenal sebagai model multivariabel. Rata-rata bersyarat dari 𝑦 jika
diberikan nilai 𝑥 adalah 𝜋(𝑥) = 𝐸(𝑦|𝑥). Model regresi logistik multivariabel dengan
𝑝 variabel prediktor adalah sebagai berikut.

 ( x) 1  e
0  1 x1 ...  p x p 
  e 0  1 x1 ...  p x p 
(2.4)

 ( x)   ( x)e
   x ...  x
0 1 1 
  e
p p 0  1 x1 ...  p x p 
(2.5)
 ( x )  e
0  1 x1 ...  p x p   0  1x1 ...  p x p 
  ( x )e (2.6)
 ( x)  1   ( x) e
0  1 x1 ...  p x p 
(2.7)
 ( x)  0  1 x1 ...  p x p 
e
1   ( x) (2.8)
  ( x)   0  1 x1 ...  p x p 
ln    ln e
 1   ( x)  (2.9)
  ( x) 
ln    0  1 x1  ...   p x p (2.10)
 1   ( x) 
Sehingga diperoleh persamaan sebagai berikut.
  ( x) 
g ( x)  ln    0  1 x1  ...   p x p (2.11)
1   ( x ) 
𝑔(𝑥) disebut dengan fungsi logit model regresi logistik biner dengan 𝑝 variabel
prediktor. Model regresi logistic pada persamaan (2.11) dapat dituliskan dalam bentuk:
exp( g ( x))
 ( x)  (2.12)
1  exp( g ( x))
2.2.1 Estimasi Parameter Regresi Logistik
Metode umum estimasi parameter dalam regresi logistik adalah Maximum
Likelihood Estimation (MLE). Fungsi likelihood memberikan kemungkinan
mengamati data sebagai fungsi dari parameter yang tidak diketahui. MLE dipillih untuk
memaksimalkan nilai fungsi tersebut. Cara yang sesuai untuk kontribusi fungsi
likelihood untuk setiap pengamatan (𝑥1𝑖 𝑦𝑖 ) adalah sebagai berikut.
1 yi
f (Y  yi )   ( xi ) yi 1   ( xi )  , yi  0,1 (2.13)
Fungsi likelihood yang diperoleh dengan pengamatan yang diasumsikan

independen adalah sebagai berikut.
n
I (  )    ( xi ) yi 1   ( xi ) 
1 yi
(2.14)
i 1
Konsep MLE menyatakan estimasi nilai 𝛽 yang memaksimalkan fungsi

likelihood, dimana merupakan penyelesaian dari turunan fungsi likelihood.
L(  )  ln 1(  ) 
(2.15)
n
L(  )    yi ln  ( xi )   (1  yi ) ln 1   ( x)  (2.16)
i 1
Dengan mendiferensikan 𝐿(𝛽) untuk 𝛽𝑝 yang dihitung dengan cara menjadikan

turunan pertama sama dengan nol.
  y    x   0
i 1
i i
(2.17)
 x  y
i 1
i i    xi    0 (2.18)
Hasil turunan kedua dari persamaan fungsi likelihood adalah sebagai berikut.
L2 (  ) n
  xij xiu ( xi ) 1   ( xi ) ; j  0,1,..., p (2.19)
 I u i 1
Persamaan likelihood (2.11) pada metode maximum likelihood merupakan

persamaan yang non linier dalam mengestimasi 𝛽̂ sehingga membutuhkan metode
iterasi Newton Raphson.
Metode Newton Raphson merupakan metode untuk menyelesaikan persamaan
nonlinier seperti menyelesaikan persamaan likelihood dalam model regresi logistik
(Agresti, 1990). Metode Newton Raphson memerlukan taksiran awal untuk nilai fungsi
maksimumnya, yang mana fungsi tersebut merupakan taksiran yang menggunakan
pendekatan polynomial berderajat dua dalam hal ini menentukan nilai 𝛽̂ dan 𝛽 yang
𝜕𝑔 𝜕𝑔
merupakan fungsi maksimum dari 𝑔(𝛽) dan andaikan 𝑞 ′ = (𝜕𝛽 , 𝜕𝛽 ), andaikan 𝐻
1 2
𝜕𝑔
dinotasikan sebagai matriks yang mempunyai anggota ℎ𝑎𝑏 = 𝜕𝛽 . Andaikan 𝑞 (𝑡) dan
2
𝐻 (𝑡) merupakan bentuk evaluasi dari 𝛽 (𝑡) , taksiran ke-t pada 𝛽̂ . Pada langkah t dalam
proses iterasi (𝑡 = 0,1,2, … ), 𝑔(𝛽) adalah pendekatan 𝛽 (𝑡) yang merupakan bentuk
orde kedua dari ekspansi Deret Taylor.
1
Q (t ) (  )  g (  (t ) )  q (t ) (    (t ) )    (    (t ) ) H (t ) (    (t ) )
2
Penyelesaian :
Q (t )
 q (t )  H (t )     (t )   0
 (2.20)
 (t 1)   (t )   H 
( t ) 1
q(t )
Dengan mengasumsikan 𝐻 (𝑡) sebagai matriks non-singular. Untuk setiap langkah

iterasi ke-t, berlaku sebagai berikut.
L(  )
q (jt )     yi  ni i(t ) xij (2.21)
 j i
 (t )
 2 L(  )
hba    xia xib nib i( t ) 1   i( t ) 1   i( t )  (2.22)
 a b  ( t ) i
 k 
exp    (j t ) xij 
 i(t )   j 0  (2.23)
  k 
1  exp    j xij  
(t )
  j 0  
Dengan menggunakan persamaan (2.20), diperoleh sebagai berikut :
 
1
 (t 1)   (t )  X ' Diag  ni i(t ) 1   t(t )  X  X '( y  m(t ) ) (2.24)
2.2.2 Pengujian Parameter Model Regresi Logistik Biner

Pengujian estimasi parameter merupakan pengujian yang digunakan untik
menguji signifikansi koefisien β dari model. Pengujian ini dapat menggunakan uji
secara serentak maupun parsial.
1. Uji Serentak
Pengujian serentak dilakukan untuk memeriksa signifikansi koefisien β secara
keseluruhan (Hosmer & Lemeshow, 2000) dengan hipotesis sebagai berikut.
𝐻0 ∶ 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝 = 0
𝐻1 : minimal ada satu 𝛽𝑗 ≠ 0, 𝑗 = 1,2,3, … , 𝑝
Statistik Uji :
  n1 n1  n0 n0 
     

G  2ln n  n n  (2.25)

 
1 yi  
  i 1   i
yi

 i 1 
Daerah Penolakan :
Tolak 𝐻0 jika 𝐺 >  2
(𝑝,𝛼)
Keterangan :
𝑛0 : jumlah pengamatan dengan kategori 𝑦 = 0
𝑛1 : jumlah pengamatan dengan kategori 𝑦 = 1
𝑛 : jumlah pengamatan
𝑝 : banyak parameter
Jika terdapat 𝑘 katerogi pada suatu variabel prediktor, maka kontribusi untuk
derajat bebas pada uji likelihood adalah sebesar 𝑘 − 1 (Hosmer & Lemeshow, 2000).
2. Uji Parsial
Pengujian secara parsial dilakukan untuk mengetahui signifikansi setiap
parameter terhadap variabel respon. Pengujian signifikansi parameter menggunakan uji
Wald (Hosmer & Lemeshw, 2000) dengan hipotesis sebagai berikut.
𝐻0 ∶ 𝛽𝑗 = 0
𝐻1 ∶ 𝛽𝑗 ≠ 0, 𝑗 = 1,2,3, … , 𝑝
Statistik Uji :

W (2.26)
 
SE  j
Daerah Penolakan :
Tolak 𝐻0 jika 𝑊 > 𝑍𝛼/2
  adalah
Statistik uji 𝑊 disebut juga sebagai statistik uji Wald dengan SE  j
taksiran standar error parameter.

2.2.3 Uji Kesesuaian Model
Pengujian ini dilakukan untuk menguji apakah model yang dihasilkan
berdasarkan regresi logistik multivariat/serentak sudah layak. Pengujian ini
menggunakan statistik uji Hosmer dan Lemeshow (Hosmer & Lemeshow, 2000)
dengan hipotesis yang digunakan sebagai berikut.
𝐻0 : Model sesuai (tidak terdapat perbedaan yang signifikan antara hasil pengamatan
dengan kemungkinan hasil prediksi model)
𝐻1 : Model tidak sesuai (terdapat perbedaan yang signifikan antara hasil pengamatan
dengan kemungkinan hasil prediksi model)
Statistik Uji :
o 
2
g  nk'  k
C
k
(2.27)
k 1 nk'  k 1    k
Daerah Penolakan :
Tolak 𝐻0 jika 𝐶̂ >  2
(𝑔−2,𝛼)
Keterangan :
𝑜𝑘 : observasi pada grup ke-k
 Ck
mj  k 
 k : rata-rata taksiran peluang   
 j 1 nk' 
 
g : jumlah grup (kombinasi kategori dalam model serentak)
nk' : banyak observasi pada grup ke-k
2.2.4 Interpretasi Koefisien Parameter

Estimasi koefisien dari variabel prediktor menyatakan slope atau nilai perubahan
variabel respon untuk setiap perubahan satu unit variabel prediktor. Interpretasi
koefisien parameter meliputi penentuan hubungan fungsional antara variabel respon
dan variabel prediktor serta mendefinisikan unit perubahan variabel respon yang
disebabkan oleh variabel prediktor. Berdasarkan model ada dua nilai 𝜋(𝑥) dan dua nilai
1 − 𝜋(𝑥) yang dinyatakan pada Tabel 2.1.
Tabel 2.1 Nilai Model Regresi Logistik
Variabel Prediktor (X)
Variabel x=1 x=0
Respon(Y)
y=1 e 0  1 e 0
 (1)   (0) 
1  e 0  1 1  e 0
y=1 1 1
1   (1)  0  1
1   (0) 
1 e 1  e 0
Untuk menginterpretasi koefisien parameter digunakan nalai odds rasio . Nilai
odds yang dihasilkan dengan 𝑥 = 1 didefinisikan 𝜋(1)/[1 − 𝜋(1)]. Demikian pula,
nilai odds yang dihasilkan 𝑥 = 0 adalah 𝜋(0)/[1 − 𝜋(0)]. Odds rasio dinotasikan
dengan symbol OR atau , didefinisikan odds rasio 𝑥 = 1 dan 𝑥 = 0 dengan rumus
sebagai berikut.
 (1) / 1   (1) 
OR    (2.28)
 (0) / 1   (0) 
Berdasarkan Tabel 2.1, nilai odds rasio adalah :

 e 0  1  1 
   0  1 
1  e 0  1  1 e 
 
 e 0  1 
 0  0 
 1 e   1 e 
(2.29)
e 0  1
  0
e
( 0  1 )  0
 e
  e 1
Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas terutama
delam epidemiologi. Dari Persamaan 1.29 odds rasio merupakan rata-rata besarnya
kecenderungan variabel respon bernilai tertentu jika 𝑥 = 1 dibandingkan 𝑥 = 0
(Hosmer dan Lemeshow, 2000).
2.3 Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang
pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam
sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma
pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan
learning bias yang berasal dari teori pembelajaran statistik [6].
Dalam konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik
diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara
kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan
mencari titik maksimalnya. Secara matematika, konsep dasar SVM yaitu:
1
min | w |2 (2.30)
2
s.t yi(xi .w+b)-1  0
dimana (xi .w  b)  1 untuk kelas 1, dan (xi .w  b)  1 untuk kelas 2, i x adalah data
set, i y adalah output dari data i x , dan w, b adalah parameter yang dicari nilainya.
Formulasi optimasi SVM untuk kasus klasifikasi dua kelas dibedakan menjadi
klasifikasi linear dan non-linear.
2.4 Decision Tree
Decision tree adalah algoritma yang paling banyak digunakan untuk masalah
pengklasifikasian. Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo,
internal nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana
sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel
S adalah sebagai berikut [7].
Entropy(S )   p1 log 2 p1  p2 log 2 p2 (2.31)
Dimana p1 , p2 , ...., pn masing-masing menyatakan proposi kelas 1, kelas 2, ..., kelas n

dalam output.
Proses dalam decision tree adalah sebagai berikut [8]:
1. Mengubah bentuk data (tabel) menjadi model pohon.
Untuk menghitung nilai gainratio dapat dilakukan dengan persamaan
sebagai berikut:
Gain( S , A)
Ga in ratio( S , A)  (2.32)
SplitInformation( S , A)
2. Mengubah model pohon menjadi rule.
Gambar 1 Proses Model Pohon Menjadi Rule.
3. Menyederhanakan rule (Pruning).
2.5 Ketepatan Klasifikasi
Ketepatan klasifikasi model digunakan untuk mengetahui apakah data
diklasifikasikan dengan benar atau tidak (Agresti, 2002). Evaluasi prosedur klasifikasi
adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh
suatu fungsi klasifikasi (Johnson & Winchern, 2007). Ukuran yang dipakai adalah
Apparent Error Rate (APER). Nilai APER menyatakan nilai proporsi sampel yang
diklasifikasikan oleh fungsi klasifikasi.
Tabel 2.2 Perhitungan Ketepatan Klasifikasi
Hasil Taksiran/Klasifikasi
Observasi 𝑦1 𝑦2
𝑦1 𝑛11 𝑛12
𝑦2 𝑛21 𝑛22
Keterangan :
𝑛11 : jumlah subjek dari 𝑦1 tepat diklasifikasikan sebagai 𝑦1
Perhitungan nilai APER merupakan proporsi observasi yang diprediksi tidak
benar oleh fungsi klasifikasi dengan rumus sebagai berikut.
n21  n12
APER  (2.30)
n
Keterangan :
𝑛 : Total pengamatan
2.6 Seleksi Mahasiswa Baru (SNMPTN)
Perguruan tinggi melakukan seleksi untuk mahasiswa barunya dengan beberapa
jalur. Untuk Perguruan Tinggi Negeri (PTN) dapat melakukan seleksi sendiri (mandiri)
dan seleksi secara bersama-sama secara nasional berupa SNMPTN dan SBMPTN.
Panitia jalur undangan (SNMPTN) pada menyatakan bahwa penerimaan mahasiswa
baru harus memenuhi prinsip kredibel, adil, transparan, fleksibel, efisien, dan akuntabel
serta tidak diskriminatif dengan memperhatikan potensi calon mahasiswa dan
kekhususan perguruan tinggi.
BAB 3 METODOLOGI PENELITIAN

3.1 Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh
dari data mahasiswa baru Institut Teknologi Sepuluh Nopember Surabaya. Data yang
dianalisis adalah data mahasiswa baru jalur SNMPTN dari tahun 2015 sampai 2019
dan faktor-faktor yang berhubungan.
3.2 Variabel Penelitian

Variabel yang digunakan dalam penelitian ini adalah variabel dependen atau
variabel respon yang biasanya disimbolkan dengan Y dan variabel independen atau
variabel prediktor yang disimbolkan dengan X.
Tabel 3.1 Variabel Penelitian

Variabel Kategori Skala
Keputusan Akhir 0 = Tidak Diterima Nominal
Pihak ITS (Y) 1 = Diterima
Nilai Rata-rata - Rasio
Rapor (X1)
Akreditasi Sekolah 0 = Belum Terakhreditasi Ordinal
Asal (X2) 1=C
2=B
3=A
Jumlah Alumsi - Rasio
Sekolah Asal di
ITS (X3)
Jumlah Sertifikat - Rasio
Prestasi (X4)
Lokasi Sekolah 0 = Luar Jawa Timur Nominal
Asal (X5) 1 = Jawa Timur
3.3 Langkah Analisis

Langkah-langkah analisis dalam penelitian ini adalah sebagai berikut.
1. Mengumpulkan data mahasiswa baru jalur SNMPTN dari tahun 2015 sampai
2019.
2. Melakukan uji independensi untuk mengetahui apakah terdapat hubungan antar
variabel respon terhadap masing-masing variabel prediktor.
3. Melakukan klasifikasi menggunakan metode regresi logistik.
4. Melakukan uji kesesuaian model untuk menguji apakah model yang dihasilkan
berdasarkan regresi logistik multivariabel sudah layak.
5. Melakukan klasifikasi menggunakan metode SVM.
6. Melakukan klasifikasi menggunakan metode decision tree.
7. Menentukan perbandingan antar metode.
8. Membuat kesimpulan dan saran serta rekomendasi.
3.4 Diagram Alir

Diagram alir menggambarkan alur perjalanan pembuatan laporan ini. mulai dari
proses perumusan masalah hingga pemberian kesimpulan dan saran. Diagram alir yang
dipakai dalam laporan ini adalah :
Mulai
Merumuskan Masalah dan Studi

literature
Mengumpulkan Data
Analisis Statistika Deskriptif
Tidak Apakah Variabel

Saling Berhubungan?
Ya
Klasifikasi dengan Regresi Logistik
Klasifikasi dengan SVM
Klasifikasi dengan SVM
Melakukan Perbandingan
Kesimpulan, Saran dan Rekomendasi
Selesai
Gambar 3.1 Diagram Alir
DAFTAR PUSTAKA
Agresti, A. (2013). Categorical Data Analysis. New Jersey: John Wiley & Sons, Inc.
Ginanjar, I. (2008). Aplikasi Multidimensional Scaling Untuk Memposisikan Produk

Pada Masalah Product Existing. Staf Pengajar Jurusan Statistika FMIPA UNPAD,
Bandung.
Hosmer, D.W., & Lemeshow (2000). Applied Logistic Regression, John Wiley and
Sons. USA.
http://snmptn.ac.id/. Diakses pada Kamis, 11 April 2019 Pukul 20.00 WIB.
Johnson, R., & Winchern, D. (2007). Applied Multivariate Statistical Analysis. New
Jersey: Pearson Education, Inc.
Walpole, Ronald E. (1993). Pengantar Metode Statistika Edisi ke-3. Jakarta: Gramedia
Pustaka Utama.

Proposalkuuu

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposalkuuu

Diunggah oleh

Hak Cipta:

Format Tersedia

Nama : Niam Zuhdi Yuliarto

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Manfaat Penelitian

1.5 Batasan Masalah

BAB II TINJAUAN PUSTAKA

2.2 Uji Independensi

2.3 Regresi Logistik

Sehingga diperoleh persamaan sebagai berikut.

Fungsi likelihood yang diperoleh dengan pengamatan yang diasumsikan

Konsep MLE menyatakan estimasi nilai 𝛽 yang memaksimalkan fungsi

Dengan mendiferensikan 𝐿(𝛽) untuk 𝛽𝑝 yang dihitung dengan cara menjadikan

Persamaan likelihood (2.11) pada metode maximum likelihood merupakan

Dengan mengasumsikan 𝐻 (𝑡) sebagai matriks non-singular. Untuk setiap langkah

Dengan menggunakan persamaan (2.20), diperoleh sebagai berikut :

2.2.2 Pengujian Parameter Model Regresi Logistik Biner

taksiran standar error parameter.

2.2.4 Interpretasi Koefisien Parameter

Berdasarkan Tabel 2.1, nilai odds rasio adalah :

Entropy(S )   p1 log 2 p1  p2 log 2 p2 (2.31)

Dimana p1 , p2 , ...., pn masing-masing menyatakan proposi kelas 1, kelas 2, ..., kelas n

BAB 3 METODOLOGI PENELITIAN

3.2 Variabel Penelitian

Tabel 3.1 Variabel Penelitian

3.3 Langkah Analisis

3.4 Diagram Alir

Merumuskan Masalah dan Studi

Analisis Statistika Deskriptif

Tidak Apakah Variabel

Klasifikasi dengan SVM

Klasifikasi dengan SVM

Kesimpulan, Saran dan Rekomendasi

Ginanjar, I. (2008). Aplikasi Multidimensional Scaling Untuk Memposisikan Produk

Anda mungkin juga menyukai