FAIZAL SYAWALLUDIN
16121223
1
hasil akurasi sebesar 82% . Data yang digunakan adalah data mahasiswa angkatan
2012/2013 sebagai data training dan data angkatan 2014/2015 sebagai data testing.
(Mustakim & Oktaviani, 2016)
Pada penelitian kali ini penulis ingin mencoba membandingkan dua metode
yaitu Naïve bayes dengan K-NN menggunakan atribut dan kelas penentu yang sama
dengan penelitian yang sebelumnya. Alasan mengapa penulis menggunakan karena
Metode naïve bayes memiliki proses yang lebih cepat dibandingkan dengan knn.
Selain itu, pada penelitian sebelumnya dilakukan perbandingan antara 5 metode
klasifikasi yaitu C4.5, ID3, K-nearest neighbor, Naive Bayes, SVM, ANN, dan hasil
kesimpulannya mengungkapkan bahwa K-NN mampu mengklasifikasi data tanpa
memisahkan kelas secara linier, tapi kekurangannya adalah K-NN sangat sensitive
dengan data outlier atau data yang tidak relevan selain itu keakuratan K-NN juga
tergantung pada banyaknya Dataset. Sedangkan Naïve Bayes memiliki kelebihan
yaitu mampu menghasilkan akurasi lebih baik walaupun dataset sedikit. Perhitungan
yang sederhana selain itu Naïve Bayes classifier menganggap bahwa keberadaan
(atau tidak adanya) fitur tertentu (atribut) kelas tidak ada keterkaitan dengan ada
(atau tidak adanya) dari fitur lain ketika variabel kelas diberikan. (Nikam, 2017)
Terdapat dua tujuan dari penelitian ini yaitu untuk membangun Early Warning
Sistem (EWS) untuk membantu Dosen Penasehat akademik dalam melihat
perkembangan mahasiswa bimbingannya secara periodic sehingga diharapkan bisa
mengurangi jumlah mahasiswa yang lulus tidak tepat waktu. Yang kedua adalah
untuk mengetahui tingkat kecocokan dari kedua algoritma yaitu K-NN dan naïve
bayes jika digunakan sebagai metode prediksi pada kasus penentuan predikat
prestasi.
Adapun perumusan masalah yang akan dijadikan acuan dalam penelitian ini
yaitu :
2
1. “Bagaimana memanfaatkan teknologi data mining untuk memprediksi Predikat
Prestasi Mahasiswa pada Universitas Sembilanbelas November Program Studi
Sistem Informasi?”
2. “Seberapa tingkat kecocokan Metode Naïve Bayes dibandingkan metode K-nn
jika digunakan untuk prediksi”
Agar penelitian ini lebih terarah dan tidak menyimpang, maka permasalahan
yang ada pada penelitian dibatasi pada :
1. Data yang digunakan data program studi Sistem Informasi tahun angkatan 2016
dan 2017.
2. Sedangkatn atribut yang akan digunakan adalah Jenis Kelamin, Umur, Jenis
Tinggal, Jumlah Nilai Mutu, dan Jumlah Satuan Kredit SKS. Sebagai kelas
penentu hasil prediksi adalah nilai Indeks Prestasi Kumulatif (IPK) Mahasiswa
yang dibagi kedalam empat predikat yaitu Pujian, Sangat memuaskan,
Memuaskan, dan Cukup.
3
khususnya dalam penerapan data mining yang dapat digunakan dalam kegiatan
masyarakat nantinya.
3. Bagi Pembaca, diharapkan dengan adanya penulisan ini dapat bermanfaat
sebagai sumber pembelajaran untuk penelitian selanjutnya serta untuk menambah
wawasan.
4
BAB II
LANDASAN TEORI
2.1.Kajian Pustaka
Adapun masalah penelitian yang akan dilakukan oleh penulis, didapatkan dari
hasil penelitian sebelumnya. yaitu dari Artikel yang berjudul “Algoritma K-Nearest
Neighbor Classification Sebagai Sistem Prediksi Predikat Prestasi Mahasiswa“
algoritma yang digunakan dalam penulisan ini adalah algoritma K-Nearest Neighbor,
Adapun data yang diproses dalam artikel ini adalah data Mahasiswa dari Universitas
Islam Negeri Sultan Syarif Kasim Riau angkatan 2012/2013 sebagai data training
dan data Mahasiswa angkatan 2014/2015 sebagai data testing. Sedangkatn atribut
yang akan digunakan adalah Jenis Kelamin, Umur, Jenis Tinggal, Jumlah Nilai
Mutu, dan Jumlah Satuan Kredit SKS. Sebagai kelas penentu hasil prediksi adalah
nilai Indeks Prestasi Kumulatif (IPK) Mahasiswa yang dibagi kedalam empat
predikat yaitu Pujian, Sangat memuaskan, Memuaskan, dan Cukup pada bulan juni
2009. Dari hasil pengujian algoritma dengan menggunakan perhitungan confusion
matriks, perhitungan algoritma K-NN yang diterapkan dalam memprediksi predikat
prestasi Mahasiswa mampu menghasilkan akurasi dengan nilai 82%. Proses analisa
yang digunakan dalam proses melakukan prediksi predikat prsetasi Mahasiswa dapat
dilakukan dengan beberapa metode lainnya seperti Decision Tree, Regresi linier dan
metode klasifikasi lainnya untuk mengetahui akurasi terbaik dari beberapa algoritma
pada kasus yang sama.(Mustakim & Oktaviani, 2016) Untuk itu penulis mencari
penelitian lainnya guna menemukan metode yang kiranya lebih bagus dari metode K-
NN. Dan berikut adalah penelitian yang berkaitan.
(Saputra, 2018) Dalam artikel yang berjudul “Analisis Data Mining Untuk
Pemetaan Mahasiswa Yang Membutuhkan Bimbingan Dan Konseling Menggunakan
Algoritma Naïve Bayes Classifier” mencoba mengklasifikasi mahasiswa yang
berkinerja akademik rendah dan dinilai membutuhkan proses Bimbingan dan
Konseling dengan memanfaatkan algoritma Naïve Bayes dan menggunakan data
mahasiswa dengan atribut Angkatan/Tahun Masuk, Nama Mahasiswa, Jenis
5
Kelamin, Status (aktif, cuti, lulus), Program Studi, Status Masuk, Jenis
SMTA, Pekerjaan Orang Tua (Ayah), IP Semester 1, IP Semester 2, IP
Semester 3, IP Semester 4, Masa Studi. Dan dari hasil penelitian teknik klasifikasi
menggunakan Algoritma Naïve Bayes Classifier sangat baik dalam melakukan
pemetaan dan mengidentifikasi mahasiswa yang memiliki kinerja akademik
rendah dan membutuhkan Bimbingan dan Konseling. Namun Tingkat akurasi
yang dihasilkan proses klasifikasi menggunakan algoritma Naïve Bayessangat
ditentukan oleh penentuan dan pemilihan data training
(Praningki & Budi, 2018) dalam artikel yang berjudul “Sistem Prediksi
Penyakit Kanker Serviks Menggunakan CART, Naive Bayes, dan k-NN”. Dalam
penelitian tersebut Data Mining digunakan untuk memprediksi apakah pasien
terjangkit penyakit Kanker Serviks dengan menggunakan data dari sampel pasien
dan atribut yang digunakan adalah Usia, jumlah anak, periode haid, tekanan darah,
bau keputihan, gatal-gatal, nyeri pinggang nyeri perut, terdapat benjolan, mengalami
erosit, berlendir, dan pendarahan . Pengujian menggunakan 4 parameter yaitu
Akurasi, Presisi, Recall, dan Kesalahan (Error Rating) dan dari hasil pengujian dari
ketiga metode diatas, metode naïve bayes yang paling tinggi tingkat akurasi dan
presisinya dan memiliki jumlah kesalahan yang peling sedikit.
(Kaur & Singh, 2016) Dalam penelitiannya yang berjudul “Prediction Of
Student Performance Using Weka Tool”. Pada penelitian tersebut dilakukan
perbandingan antara algoritma naïve bayes dan J48 untuk memprediksi kinerja
Mahasiswa . Dan hasil dari penelitian menunjukan bahwa Metode Naïve bayes
mampu memprediksi dengan benar sebanyak 63.59%, sedangkan metode J48 sebesar
61.53%.
6
tergantung pada banyaknya Dataset. Sedangkan Naïve Bayes memiliki kelebihan
yaitu mampu menghasilkan akurasi lebih baik walaupun dataset sedikit. Perhitungan
yang sederhana selain itu Naïve Bayes classifier menganggap bahwa keberadaan
(atau tidak adanya) fitur tertentu (atribut) kelas tidak ada keterkaitan dengan ada
(atau tidak adanya) dari fitur lain ketika variabel kelas diberikan.
Perbedaan penelitian yang penulis lakukan dengan penelitian sebelumnya
adalah penelitian dengan judul “Perbandingan Metode K-NN dan Naïve Bayes
Untuk Memprediksi Predikat Prestasi Mahasiswa”.dalam penelitian ini penulis
ingin kecocokan antara metode naïve bayes dan K-NN jika digunakan untuk
memprediksi Predikat Prestasi Mahasiswa dengan atribut yang digunakan adalah
Jenis Kelamin, Umur, Jenis Tinggal, Jumlah Nilai Mutu, dan Jumlah Satuan Kredit
SKS. Dan untuk pengujian metode, penulis menggunakan K-Fold Cross Validation.
Tabel 2.1
Penelitian Terdahulu
7
Serviks Naive Bayes yang termasuk dalam eager
Menggunakan K-NN learner (CART Decision Tree,
CART, Naive Naive Bayes) memiliki
Bayes, dan k-NN Confusion performa yang lebih baik
Matrix dibandingkan lazy learner (k-
(Pengujian) NN)
2) Clustering
8
Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah
ditentukan sebelumnya, clustering dapat dipakai untuk memberikan label pada
kelas data yang belum diketahui. Karena itu clustering sering digolongkan
sebagai metode unsupervised learning. Prinsip clustring adalah
memaksimalkan kesamaan antar cluster. Clustering dapat dilakukan pada data
yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
9
Integrasi data merupakan penggabungan data dari berbagai databaseke dalam
satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa database atau
file teks. Integrasi data dlakukan pada atribut – atribut yang
mengidentifikasikan entitas – entitas yang unik seperti atribut nama, jenis
produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara
cermat karena kesalaha pada integrasi data bisa menghasilkan hasil yang
menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada.
5. Proses Mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
10
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola – pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai
hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba metode data
mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang
di luar dugaan yang mungkin bermanfaat.
11
digunakan.Selanjutnyapresos normalisasi data. Hasil normalisasid dapat dilihat pada
Table 2.2
Normalisasi Data
Sebelum melakukan proses perhitungan KNN perlu disiapkan data kelas/ label,
data atribut, data lama (training), dan data baru (testing).
Tabel 2.3
Atribut Penentu
Tabel 2.3 merupakan jangkauan dan atribut penentu yang digunakan untuk
menentukan kelas pada klasifikasi.
Tabel 2.4
Atribut Predikator
Tabel 2.4 diatas memiliki 2 nilai atribut pada Jenis Kelamin dan 3 nilai atribut
12
pada Umur, Jumlah Satuan Kredit SKS, Jenis Tinggal dan Jumlah Nilai Mutu.
Tabel 2.5
Data Training
10 dari 250 Data awal digunakan sebagai data training pada simulasi pada
metode K-NN pada kasus prestasi mahasiswa. Data tersebut telah dinormalisasi
menggunakan min-max normalization.
Tabel 2.6
Data Testing
Tabel 2.6 menunjukkan 10 dari 50 data testing sebagai pengujian hasil model
trbaik yang dihasilkan K-NN. Dari data ini akan dihasilkan kesimpulan sebuah data
akan masuk kedalam kelas pertama, kedua, ketiga ataupun yang keempat
berdasarkan nilai ketetanggaan yang telah proses. Selanjutnya proses perhitungan K-
NN dilakukan dengan menggunakan persamaan Eulidean Distance. Sebagai contoh
perhitungan data baru yang akan dihiutng adalah data pertama dengan NIM
11453101916. Proses perhitungan dilakukan kesetiap data lama sehingga nantinya
akan menghasilkan nilai jarak sesuai dengan jumlah data lama. Dari perhitungan
tersebut diperoleh hasil jarak jarak seperti pada Tabel 2.7.
13
Tabel 2.7
Hasil Perhitungan KNN
Tabel 1.8
Pengurutan Nilai Jarak
Berdasarkn nilai K yang telah ditetapkan yaitu 5, maka nilai jarak yang diambil
adalah 5 terkecil seperti pada Tabel 2.9.
Tabel 2.9
Nilai 5 Jarak Terkecil
Dari 5 nilai jarak diatas, data menunjukkan nilai predikat bernilai sama,
sehingga sebagai nilai prediksi untuk data daru yang pertama adalah predikat nomor
2 yaitu Sangat Memuaskan. Dari hasil prediksi tersbut dilakukan pengujian
menggunakan confusionmatriks membandingkan nilai predikat sebelumnya dengan
nilai predikat hasil prediksi yang menghasilkan akurasi.
14
Tabel 2.10
Perbandingan Nilai Predikat
Dari Tabel diatas hitung jumlah point selanjutnya dibagi dengan jumlah data
dan dikali 100% sehingga didapat hasil sebesar 82%
15
ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk
menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian.
Naive Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata
yang komples dari pada yang diharapkan (Saleh, 2015) , Rumus Naïve Bayes adalah:
𝑃(𝑋|𝐻)𝑥𝑃(𝐻)
(𝑃(𝐻|𝑋) =
𝑃(𝑋)
Dimana :
X : data dengan classyang belum diketahui
H : hipotesis data menggunakan suatu class spesifik
P(H|X) : probabilitas hipotesis H berdasar kondisi X (parteriori
probabilitas)
P(H) : probabilitas hipotesis H (prior probabilitas)
P(X|H) : probabilitas X bedasarkan kondisi pada hipotesis
H P(X) : probabilitas H
16
tingkat keseluruhan akurasi prediksi p, dengan kesalahan standar √p(1 − p)/N.
(Bramer, 2007)
Ini adalah metode yang populer karena mudah dimengerti dan karena
umumnya menghasilkan estimasi yang kurang bias atau kurang optimis dari
keterampilan model daripada metode lain, seperti kereta sederhana / tes split.
Gambar 2.1
K-Fold Cross Validation
17
BAB III
METODE PENELITIAN
Dalam sebuah penelitian, metode merupakan salah satu factor penting. Tepat
atau tidaknya metode yang dipilih, sangat berpengaruh dengan keberhasilan suatu
penelitian. Metode penelitian merupakan urutan tentang bagaimana penelitian
dilakukan. (Sugiyono, 2014) menyatakan bahwa : “Metode penelitian dapat diartikan
sebagai cara ilmiah untuk mendapatkan data yang valid dengan tujuan dapat
ditemukan, dikembangkan, dan dibuktikan, suatu pengetahuan tertentu sehingga
dapat digunakan untuk memahami, memecahkan, dan mengantisispasi masalah”.
Oleh karena itu agar penelitian dapat mencapai keberhasilan maka penulis
menggunakan metode dengan ketentuan yang ada.
Pada penelitian ini penulis menggunakan metode kuantitatif deskriptif yaitu
dengan cara mencari informasi tentang gejala yang ada, didefinisikan dengan jelas
tujuan yang akan dicapai, merencanakan cara pendekatannya, mengumpulkan data
sebagai bahan untuk membuat laporan. Dalam penelitian ini penulis ingin
mengetahui atau mengukur keterkaitan antara ketersediaan e-Books 3D dengan
pemenuhan kebutuhan informasi pemustaka. Variabel penelitian yang akan dikaji
dalam penelitian ini dibagi menjadi dua variabel utama, yaitu variabel bebas (X)
yang terdiri satu variabel, yaitu ketersediaan e-Books 3D (X) Sedangkan variabel
terikat (Y) terdiri dari satu variabel, yaitu pemenuhan kebutuhan informasi
pemustaka.(Sugiyono, 2014)
18
Data yang diperoleh dari wawancara dosen pembimbing mengenai siswa
yang perlu adanya bimbingan secara langsung
b) Data Sekunder
Data yang diperoleh dari berbagai literatur-literatur baik dari buku, internet
yang berhubungan dengan penelitian.
19
3.4 Lokasi Penelitian
Lokasi yang dijadikan tempat penelitian adalah Fakultas Teknologi Informasi USN
Kolaka
Bulan
No Keterangan Maret April Mei
1 2 3 4 1 2 3 4 1 2 3 4
1 Studi Pustaka
2 Observasi
3 Wawancara
4 Perancangan Sistem
5 Implementasi
6 Pengujian
Analisys
Design
Coding
Testing
implementatio
20 n
Gambar 3.1 Metode Pengembangan Waterfall
1. Analisis
Pada tahap ini, penulis melakukan analisis kebutuan-kebutahan apa saja
yang diperlukan untuk membuat suatu sistem.
2. Desain
Pada tahap design, penulis membuat use case diagram dan Activity Diagram
untuk membuat spesifikasi mengenai arsitektur program, gaya, tampilan,
dan kebutuhan material/bahan untuk program.
3. Pengkodean
Untuk dapat dimengerti oleh mesin, dalam hal ini adalah komputer, maka
desain tadi harus diubah bentuknya menjadi bentuk yang dapat dimengerti
oleh mesin, yaitu ke dalam bahasa pemrograman melalui proses coding.
Pada tahap ini, penulis melakuan proses perancangan sistem menggunakan
basis komponen dengan VB NET ,XAMPP, MySQL, RapidMiner
4. Pengujian
Sesuatu yang dibuat haruslah diuji cobakan. Demikian juga dengan
software. Semua fungsi-fungsi software harus diujicobakan, agar software
bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan
yang sudah didefinisikan sebelumnya. Metode pengujian dengan
menggunakan metode pengujian Blackbox dengan memperhatikan proses
yang terjadi pada proses sistem yang dibuat.
5. Pemeliharaan
Pemeliharaan suatu software diperlukan, termasuk di dalamnya adalah
pengembangan, karena software yang dibuat tidak selamanya hanya seperti
itu. Ketika dijalankan mungkin saja masih ada errors kecil yang tidak
ditemukan sebelumnya, atau ada penambahan fitur-fitur yang belum ada
pada software tersebut.
21
3.7 Usulan Rancangan Sistem
b. Kebutuhan Software
perangkat lunak yang dibutuhkan dalam pembuatan sistem ini antara lain
22
sebagai berikut :
1. Sistem operasi Microsoft windows 10
2. Microsoft visual Studio 2010 sebagai media pembuatan aplikasinya
23
DAFTAR PUSTAKA
Ilyas. (2008). Peran Ideal Dosen Pembimbing Akademik Dan Prestasi Belajar
Mahasiswa Sebagai sebuah Alternatif Solusi, 6(1).
Kaur, G., & Singh, W. (2016). Prediction Of Student Performance Using Weka Tool.
International Journal of Engineering Sciences, 17(January), 2229–6913.
Praningki, T., & Budi, I. (2018). Sistem Prediksi Penyakit Kanker Serviks
Menggunakan CART, Naive Bayes, dan k-NN. Creative Information
Technology Journal, 4(2), 83. https://doi.org/10.24076/citec.2017v4i2.100
TAN, P.-N., STEINBACH, M., & VIPIN, K. (2005). Introducing To Data Mining.
24