Perbandingan Metode KNN Dan Naive Bayes Untuk Prediksi Predikat Prestasi Mahasiswa

PROPOSAL PENELITIAN
PERBANDINGAN METODE KNN DAN NAÏVE BAYES UNTUK

MEMPREDIKSI PREDIKAT PRESTASI MAHASISWA
FAIZAL SYAWALLUDIN
16121223
PROGRAM STUDI SISTEM INFORMASI

FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS SEMBILANBELAS NOVEMBER
KOLAKA
2019
BAB I
PENDAHULUAN
1.1. Latar Belakang

Program Studi Sistem Informasi Universitas Sembilan November mempunyai
2.157 mahasiswa dan jumlah tersebut meningkat dari tahun sebelumnya di tahun
2018 dengan jumlah 1.804 mahasiswa. Sayangnya peningkatan jumlah mahasiwa
tidak di imbangi dengan tingkat kelulusan mahasiswa sehingga mengakibatkan
jumlah mahasiswa yang semakin bertambah setiap tahunnya. Oleh karena itu peran
Dosen Penasehat akademi sangat deperlukan untuk mengontrol mahasiswa agar
dapat lulus tepat waktu. Dosen sebagai penasehat akademik turut menentukan
prestasi belajar mahasiswa. Dosen diharapkan mampu untuk memeberikan layanan
bantuan kepada para mahasiswa bimbingannya dalam upaya pencapaian keberhasilan
studi. (Ilyas, 2008)
Namun permasalahannya saat ini menurut data yang diperoleh penulis dari
Forlap Ristekdikti Fakultas Teknologi Informasi hanya memiliki 15 dosen penasehat
akademik sehingga kesulitan untuk mengetahui bagaimana perkembangan
mahasiswa karena tidak seimbangnya jumlah dosen penasehat akademik dan
mahasiswa. Maka dari itu diperlukan penggalian data (Data Mining). Menurut
Wijaya, Sudirman, (2004) Data mining adalah proses yang menggunakan teknik
statistik, matematika, kecerdasan buatan dan mechine learning untuk mengekstraksi
dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari
berbagai database besar. (Mustakim & Oktaviani, 2016)
Dari data mahasiswa yang sudah ada bisa kita gunakan untuk memprediksi
predikat mahasiswa dengan tujuan agar memudahkan Dosen penasehat akademik
untuk mengontrol mahasiwa yang dibimbingnya melalui Early Warning Sistem
(EWS) dengan melihat hasil prediksi tiap mahasiswanya. Sehingga Dosen Penasehat
akademik bisa mengetahui sejak dini adanya kemungkinan mahasiswa yang lulus
tidak tepat waktu dan dapat segera memberikan arahan.
Pada penelitian sebelumnya dan pada masalah yang serupa pada studi kasus di
UIN sultan Syarif Kasim (suska) dengan menggunakan algoritma k-nn diperoleh
1
hasil akurasi sebesar 82% . Data yang digunakan adalah data mahasiswa angkatan
2012/2013 sebagai data training dan data angkatan 2014/2015 sebagai data testing.
(Mustakim & Oktaviani, 2016)
Pada penelitian kali ini penulis ingin mencoba membandingkan dua metode
yaitu Naïve bayes dengan K-NN menggunakan atribut dan kelas penentu yang sama
dengan penelitian yang sebelumnya. Alasan mengapa penulis menggunakan karena
Metode naïve bayes memiliki proses yang lebih cepat dibandingkan dengan knn.
Selain itu, pada penelitian sebelumnya dilakukan perbandingan antara 5 metode
klasifikasi yaitu C4.5, ID3, K-nearest neighbor, Naive Bayes, SVM, ANN, dan hasil
kesimpulannya mengungkapkan bahwa K-NN mampu mengklasifikasi data tanpa
memisahkan kelas secara linier, tapi kekurangannya adalah K-NN sangat sensitive
dengan data outlier atau data yang tidak relevan selain itu keakuratan K-NN juga
tergantung pada banyaknya Dataset. Sedangkan Naïve Bayes memiliki kelebihan
yaitu mampu menghasilkan akurasi lebih baik walaupun dataset sedikit. Perhitungan
yang sederhana selain itu Naïve Bayes classifier menganggap bahwa keberadaan
(atau tidak adanya) fitur tertentu (atribut) kelas tidak ada keterkaitan dengan ada
(atau tidak adanya) dari fitur lain ketika variabel kelas diberikan. (Nikam, 2017)
Terdapat dua tujuan dari penelitian ini yaitu untuk membangun Early Warning
Sistem (EWS) untuk membantu Dosen Penasehat akademik dalam melihat
perkembangan mahasiswa bimbingannya secara periodic sehingga diharapkan bisa
mengurangi jumlah mahasiswa yang lulus tidak tepat waktu. Yang kedua adalah
untuk mengetahui tingkat kecocokan dari kedua algoritma yaitu K-NN dan naïve
bayes jika digunakan sebagai metode prediksi pada kasus penentuan predikat
prestasi.
1.2 Rumusan Masalah
Adapun perumusan masalah yang akan dijadikan acuan dalam penelitian ini
yaitu :
2
1. “Bagaimana memanfaatkan teknologi data mining untuk memprediksi Predikat
Prestasi Mahasiswa pada Universitas Sembilanbelas November Program Studi
Sistem Informasi?”
2. “Seberapa tingkat kecocokan Metode Naïve Bayes dibandingkan metode K-nn
jika digunakan untuk prediksi”
1.3 Batasan Masalah
Agar penelitian ini lebih terarah dan tidak menyimpang, maka permasalahan
yang ada pada penelitian dibatasi pada :
1. Data yang digunakan data program studi Sistem Informasi tahun angkatan 2016
dan 2017.
2. Sedangkatn atribut yang akan digunakan adalah Jenis Kelamin, Umur, Jenis
Tinggal, Jumlah Nilai Mutu, dan Jumlah Satuan Kredit SKS. Sebagai kelas
penentu hasil prediksi adalah nilai Indeks Prestasi Kumulatif (IPK) Mahasiswa
yang dibagi kedalam empat predikat yaitu Pujian, Sangat memuaskan,
Memuaskan, dan Cukup.
1.4 Tujuan dan Manfaat Penelitian

1.4.1 Tujuan Penelitian
Adapun tujuan dalam penelitian ini adalah antara lain :
1. Memberikan informasi dari data mahasiswa yang diolah menjadi prediksi predikat
prestasi.
2. Memudahkan dosen pembimbng dalam menentukan bimbingan pada mahasiswa yang
berpotensi bermasalah.
3. Mengetahui perbandingan antara Metode Naïve bayes dengan K-NN
1.4.2 Manfaat Penelitian

Adapun manfaat adanya penelitian ini adalah sebagai berikut :
1. Bagi Universitas Sembilan Belas November, untuk meningkatkan tingkat
kelulusan Mahasiswa.
2. Bagi Penulis, diharapkan dapat memberikan pengetahuan-pengetahuan yang
sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi berharga
3
khususnya dalam penerapan data mining yang dapat digunakan dalam kegiatan
masyarakat nantinya.
3. Bagi Pembaca, diharapkan dengan adanya penulisan ini dapat bermanfaat
sebagai sumber pembelajaran untuk penelitian selanjutnya serta untuk menambah
wawasan.
4
BAB II
LANDASAN TEORI
2.1.Kajian Pustaka
Adapun masalah penelitian yang akan dilakukan oleh penulis, didapatkan dari
hasil penelitian sebelumnya. yaitu dari Artikel yang berjudul “Algoritma K-Nearest
Neighbor Classification Sebagai Sistem Prediksi Predikat Prestasi Mahasiswa“
algoritma yang digunakan dalam penulisan ini adalah algoritma K-Nearest Neighbor,
Adapun data yang diproses dalam artikel ini adalah data Mahasiswa dari Universitas
Islam Negeri Sultan Syarif Kasim Riau angkatan 2012/2013 sebagai data training
dan data Mahasiswa angkatan 2014/2015 sebagai data testing. Sedangkatn atribut
yang akan digunakan adalah Jenis Kelamin, Umur, Jenis Tinggal, Jumlah Nilai
Mutu, dan Jumlah Satuan Kredit SKS. Sebagai kelas penentu hasil prediksi adalah
nilai Indeks Prestasi Kumulatif (IPK) Mahasiswa yang dibagi kedalam empat
predikat yaitu Pujian, Sangat memuaskan, Memuaskan, dan Cukup pada bulan juni
2009. Dari hasil pengujian algoritma dengan menggunakan perhitungan confusion
matriks, perhitungan algoritma K-NN yang diterapkan dalam memprediksi predikat
prestasi Mahasiswa mampu menghasilkan akurasi dengan nilai 82%. Proses analisa
yang digunakan dalam proses melakukan prediksi predikat prsetasi Mahasiswa dapat
dilakukan dengan beberapa metode lainnya seperti Decision Tree, Regresi linier dan
metode klasifikasi lainnya untuk mengetahui akurasi terbaik dari beberapa algoritma
pada kasus yang sama.(Mustakim & Oktaviani, 2016) Untuk itu penulis mencari
penelitian lainnya guna menemukan metode yang kiranya lebih bagus dari metode K-
NN. Dan berikut adalah penelitian yang berkaitan.
(Saputra, 2018) Dalam artikel yang berjudul “Analisis Data Mining Untuk
Pemetaan Mahasiswa Yang Membutuhkan Bimbingan Dan Konseling Menggunakan
Algoritma Naïve Bayes Classifier” mencoba mengklasifikasi mahasiswa yang
berkinerja akademik rendah dan dinilai membutuhkan proses Bimbingan dan
Konseling dengan memanfaatkan algoritma Naïve Bayes dan menggunakan data
mahasiswa dengan atribut Angkatan/Tahun Masuk, Nama Mahasiswa, Jenis
5
Kelamin, Status (aktif, cuti, lulus), Program Studi, Status Masuk, Jenis
SMTA, Pekerjaan Orang Tua (Ayah), IP Semester 1, IP Semester 2, IP
Semester 3, IP Semester 4, Masa Studi. Dan dari hasil penelitian teknik klasifikasi
menggunakan Algoritma Naïve Bayes Classifier sangat baik dalam melakukan
pemetaan dan mengidentifikasi mahasiswa yang memiliki kinerja akademik
rendah dan membutuhkan Bimbingan dan Konseling. Namun Tingkat akurasi
yang dihasilkan proses klasifikasi menggunakan algoritma Naïve Bayessangat
ditentukan oleh penentuan dan pemilihan data training
(Praningki & Budi, 2018) dalam artikel yang berjudul “Sistem Prediksi
Penyakit Kanker Serviks Menggunakan CART, Naive Bayes, dan k-NN”. Dalam
penelitian tersebut Data Mining digunakan untuk memprediksi apakah pasien
terjangkit penyakit Kanker Serviks dengan menggunakan data dari sampel pasien
dan atribut yang digunakan adalah Usia, jumlah anak, periode haid, tekanan darah,
bau keputihan, gatal-gatal, nyeri pinggang nyeri perut, terdapat benjolan, mengalami
erosit, berlendir, dan pendarahan . Pengujian menggunakan 4 parameter yaitu
Akurasi, Presisi, Recall, dan Kesalahan (Error Rating) dan dari hasil pengujian dari
ketiga metode diatas, metode naïve bayes yang paling tinggi tingkat akurasi dan
presisinya dan memiliki jumlah kesalahan yang peling sedikit.
(Kaur & Singh, 2016) Dalam penelitiannya yang berjudul “Prediction Of
Student Performance Using Weka Tool”. Pada penelitian tersebut dilakukan
perbandingan antara algoritma naïve bayes dan J48 untuk memprediksi kinerja
Mahasiswa . Dan hasil dari penelitian menunjukan bahwa Metode Naïve bayes
mampu memprediksi dengan benar sebanyak 63.59%, sedangkan metode J48 sebesar
61.53%.
(Nikam, 2017) dalam penelitiannya yang berjudul “A Comparative Study of

Classification Techniques in Data Mining Algorithms” membandingkan karakteristik
, kelebihan dan kelemahan dari berbagai macam metode klasifikasi. Dan dari hasil
penelitiannya disebutkan bahwa K-NN mampu mengklasifikasi data tanpa
memisahkan kelas secara linier, tapi kekurangannya adalah K-NN sangat sensitive
dengan data outlier atau data yang tidak relevan selain itu keakuratan K-NN juga
6
tergantung pada banyaknya Dataset. Sedangkan Naïve Bayes memiliki kelebihan
yaitu mampu menghasilkan akurasi lebih baik walaupun dataset sedikit. Perhitungan
yang sederhana selain itu Naïve Bayes classifier menganggap bahwa keberadaan
(atau tidak adanya) fitur tertentu (atribut) kelas tidak ada keterkaitan dengan ada
(atau tidak adanya) dari fitur lain ketika variabel kelas diberikan.
Perbedaan penelitian yang penulis lakukan dengan penelitian sebelumnya
adalah penelitian dengan judul “Perbandingan Metode K-NN dan Naïve Bayes
Untuk Memprediksi Predikat Prestasi Mahasiswa”.dalam penelitian ini penulis
ingin kecocokan antara metode naïve bayes dan K-NN jika digunakan untuk
memprediksi Predikat Prestasi Mahasiswa dengan atribut yang digunakan adalah
Jenis Kelamin, Umur, Jenis Tinggal, Jumlah Nilai Mutu, dan Jumlah Satuan Kredit
SKS. Dan untuk pengujian metode, penulis menggunakan K-Fold Cross Validation.
Tabel 2.1
Penelitian Terdahulu
NO PENELITI JUDUL METODE HASIL

1 Mustakim & Algoritma K-  K-Nearest Menghasilkan akurasi dengan
Oktaviani, Nearest Neighbor Neighbor nilai 82%.Pengujian algoritma
(2016) Classification  Confusion ini dilakukan menggunakan
Sebagai Sistem Matriks perhitungan confusion matriks
Prediksi Predikat (Pengujian)
Prestasi
Mahasiswa
2 Saputra, Analisis Data  Naïve Bayes Dari 657 data yang diuji, ada
(2018) Mining Untuk sebanyak 639 data yang
Pemetaan berhasil diklasifikasikan
Mahasiswa Yang benar.
Membutuhkan Correctly Classified Instance
Bimbingan dan = 97.26% Incorrectly
Konseling Classified Instance =2.74%.
Menggunakan
Algoritma Naive
Bayes Classifier
3 Praningki & Sistem Prediksi  CART Melalui hasil pengujian dapat
Budi, (2018) Penyakit Kanker Decision Tree diketahui bahwa algoritma
7
Serviks  Naive Bayes yang termasuk dalam eager
Menggunakan  K-NN learner (CART Decision Tree,
CART, Naive Naive Bayes) memiliki
Bayes, dan k-NN  Confusion performa yang lebih baik
Matrix dibandingkan lazy learner (k-
(Pengujian) NN)
4 Kaur & Prediction Of  Naïve Bayes Hasil dari penelitian

Student menunjukan bahwa Metode
Singh, (2016)
Performance Naïve bayes mampu
Using Weka Tool  K-Fold memprediksi dengan benar
Cross sebanyak 63.59%, sedangkan
Validation metode J48 sebesar 61.53%.
(Pengujian)
5 Sayali D. A Comparative Deskriptif Naïve bayes dapat mengatasi

Jadhav1 , H. Study of kelemahan dari kekurangan
P. Channe2 Classification yang dimiliki KNN yaitu
Techniques in sensitive dengan data outlier
Data Mining
Algorithms
2.2 Landasan Teori
2.2.1 Data Mining
Terdapat beberapa teknik data mining yang sering disebut-sebut dalam

literatur. Namun ada 3 teknik data mining yang popular (TAN, STEINBACH, &
VIPIN, 2005), yaitu :
1) Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, pendapatan rendah.
2) Clustering
8
Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah
ditentukan sebelumnya, clustering dapat dipakai untuk memberikan label pada
kelas data yang belum diketahui. Karena itu clustering sering digolongkan
sebagai metode unsupervised learning. Prinsip clustring adalah
memaksimalkan kesamaan antar cluster. Clustering dapat dilakukan pada data
yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
3) Association Rule Mining

Association Rule Mining adalah teknik mining untuk menemukan asosiatif
antara kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian di
suatu pasar swalayan dapat mengatur penempatan barangnya atau merancang
strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang
tertentu.
4) Text Minning
2.2.2 Tahap – Tahap Data Mining

Ada beberapa tahapan dalam data mining, yaitu (Bramer, 2007):
1. Pembersihan Data (Data Cleaning)
Pembersihan data merupakan langkah menghilangkan noisedan data yang tidak
konsisten atau data yang tidak relevan.pada umumnya data yang diperole, baik
dari database auatu perusahaan maupn hasil eksperimen, memiliki isian – isian
yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga
hanya sekedar salah ketik. Selain itu ada juga atribut – atribut data yang tidak
relevan dengan hipotesa data mining yang dimiliki. Data – data yang tidak
relevan itu juga lebih baik dibuang. Permbersihan data juga akan
mempengaruhi performasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah kompleksitasnya.
2. Integrasi Data (Data Integration)
9
Integrasi data merupakan penggabungan data dari berbagai databaseke dalam
satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa database atau
file teks. Integrasi data dlakukan pada atribut – atribut yang
mengidentifikasikan entitas – entitas yang unik seperti atribut nama, jenis
produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara
cermat karena kesalaha pada integrasi data bisa menghasilkan hasil yang
menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada.
3. Seleksi Data (Data Selection)

Data yang ada pada databasesering kali tidak semuanya dipakai, oleh karena itu
hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
4. Tranformasi Data (Data Transformation)

Data di ubah atau digabung ke dalam format yang sesuai untuk diproses dalam
data mining. Beberapa metode data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa motode standar
seperti analisis asosiasi dan clusteringhanya bisa menerima input data
kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-
bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.
5. Proses Mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi Pola (Pattern Evaluation)

Mengidentifikasi pola –pola menarik ke dalam knowledge based yang
10
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola – pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai
hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba metode data
mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang
di luar dugaan yang mungkin bermanfaat.
7. Presentasi Pengetahuan (Knowledge Presentation)

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang
digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap
terakhir dari proses ini data mining adalah bagaimana memformulasikan
keputusan atau aksi dari hasil analisis yang didapat. Adakalanya hal ini harus
melibatkan orang – orang yang tidak paham data mining. Karenanya hasil
presentasi data mining dalam bentuk pengetahuan yang bisa dipahami semua
orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam
presentasi ini, visualisai juga bisa membantu mengkomunikasikan hasil data
mining.
2.2.3 K-Nearest Neighbor (K-NN)
Algoritma K-Nearest Neighbor (K-NN) adalah sebuah metode untuk

melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya
paling dekat dengan obyek tersebut (Bramer, 2007). Algoritma KNN menggunakan
algoritma supervised.
Contoh perhitungan metode KNN dari penelitian yang dilakukan oleh
(Mustakim & Oktaviani, 2016). Langkah awal adalah pengumpulan data Mahasiswa
yang menjadi landasan utama dalam proses prediksi ini adalah menggunakan
wawancara dan penyebaran kuesioner online. Kedua mengurangi efek noise pada
saat proses perhitungan dan menghilangkan atribut yang tidak
11
digunakan.Selanjutnyapresos normalisasi data. Hasil normalisasid dapat dilihat pada
Table 2.2
Normalisasi Data
Sebelum melakukan proses perhitungan KNN perlu disiapkan data kelas/ label,
data atribut, data lama (training), dan data baru (testing).
Tabel 2.3
Atribut Penentu
Tabel 2.3 merupakan jangkauan dan atribut penentu yang digunakan untuk
menentukan kelas pada klasifikasi.
Tabel 2.4
Atribut Predikator
Tabel 2.4 diatas memiliki 2 nilai atribut pada Jenis Kelamin dan 3 nilai atribut
12
pada Umur, Jumlah Satuan Kredit SKS, Jenis Tinggal dan Jumlah Nilai Mutu.
Tabel 2.5
Data Training
10 dari 250 Data awal digunakan sebagai data training pada simulasi pada
metode K-NN pada kasus prestasi mahasiswa. Data tersebut telah dinormalisasi
menggunakan min-max normalization.
Tabel 2.6
Data Testing
Tabel 2.6 menunjukkan 10 dari 50 data testing sebagai pengujian hasil model
trbaik yang dihasilkan K-NN. Dari data ini akan dihasilkan kesimpulan sebuah data
akan masuk kedalam kelas pertama, kedua, ketiga ataupun yang keempat
berdasarkan nilai ketetanggaan yang telah proses. Selanjutnya proses perhitungan K-
NN dilakukan dengan menggunakan persamaan Eulidean Distance. Sebagai contoh
perhitungan data baru yang akan dihiutng adalah data pertama dengan NIM
11453101916. Proses perhitungan dilakukan kesetiap data lama sehingga nantinya
akan menghasilkan nilai jarak sesuai dengan jumlah data lama. Dari perhitungan
tersebut diperoleh hasil jarak jarak seperti pada Tabel 2.7.
13
Tabel 2.7
Hasil Perhitungan KNN
Setelah mendapatkan hasil jarak, selanjutnya diurutkan dari nilai terkecil

hingga nilai terbesar seperti pada Tabel 2.8.
Tabel 1.8
Pengurutan Nilai Jarak
Berdasarkn nilai K yang telah ditetapkan yaitu 5, maka nilai jarak yang diambil
adalah 5 terkecil seperti pada Tabel 2.9.
Tabel 2.9
Nilai 5 Jarak Terkecil
Dari 5 nilai jarak diatas, data menunjukkan nilai predikat bernilai sama,
sehingga sebagai nilai prediksi untuk data daru yang pertama adalah predikat nomor
2 yaitu Sangat Memuaskan. Dari hasil prediksi tersbut dilakukan pengujian
menggunakan confusionmatriks membandingkan nilai predikat sebelumnya dengan
nilai predikat hasil prediksi yang menghasilkan akurasi.
14
Tabel 2.10
Perbandingan Nilai Predikat
Dari Tabel diatas hitung jumlah point selanjutnya dibagi dengan jumlah data
dan dikali 100% sehingga didapat hasil sebesar 82%
2.2.4 Naïve Bayes
Naive Bayes merupakan sebuah pengklasifikasian probalistik sederhana yang

menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi
nilai dari dataset yang diberikan. Algoritma menggunakan teorema bayes dan
mengansumsikan semua atribut independen atau tidak saling ketergantungan yang
diberikan oleh nilai pada variabel kelas. Naive Bayes juga didefinisikan sebagai
pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh
ilmuan inggris Thomas Bayes, yaitu memprediksi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya (Saleh, 2015).
Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut
secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain,
diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari
probabilitas individu. Keuntungan penggunaan Naive Bayes adalah bahwa metode
15
ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk
menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian.
Naive Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata
yang komples dari pada yang diharapkan (Saleh, 2015) , Rumus Naïve Bayes adalah:
𝑃(𝑋|𝐻)𝑥𝑃(𝐻)
(𝑃(𝐻|𝑋) =
𝑃(𝑋)
Dimana :
X : data dengan classyang belum diketahui
H : hipotesis data menggunakan suatu class spesifik
P(H|X) : probabilitas hipotesis H berdasar kondisi X (parteriori
probabilitas)
P(H) : probabilitas hipotesis H (prior probabilitas)
P(X|H) : probabilitas X bedasarkan kondisi pada hipotesis
H P(X) : probabilitas H
2.2.5 K-Folds Cross Validation

Dalam penelitian ini, metode yang digunakan untuk menguji pola klasifikasi
adalah dengan metode k-fold cross validation. Cross Validation adalah prosedur
resampling yang digunakan untuk mengevaluasi model pembelajaran mesin pada
sampel data yang terbatas.
Pendekatan alternatif untuk 'melatih dan menguji' yang sering diadopsi ketika
jumlah contoh kecil (dan yang banyak lebih suka menggunakan terlepas dari ukuran)
dikenal sebagai k-fold cross-validation (Gambar 1.1). Jika dataset terdiri dari N
instance, ini dibagi menjadi k bagian yang sama, K biasanya berupa angka kecil
seperti 5 atau 10. (Jika N tidak dapat dibagi dengan k, bagian terakhir akan memiliki
instance lebih sedikit daripada bagian k - 1 lainnya.)
Serangkaian k menjalankan sekarang dilakukan. Masing-masing bagian k pada
gilirannya digunakan sebagai set tes dan bagian k-1 lainnya digunakan sebagai set
pelatihan. Jumlah total instance yang diklasifikasikan dengan benar (dalam semua k
run digabungkan) adalah dibagi dengan jumlah total instance N untuk memberikan
16
tingkat keseluruhan akurasi prediksi p, dengan kesalahan standar √p(1 − p)/N.
(Bramer, 2007)
Ini adalah metode yang populer karena mudah dimengerti dan karena
umumnya menghasilkan estimasi yang kurang bias atau kurang optimis dari
keterampilan model daripada metode lain, seperti kereta sederhana / tes split.
Gambar 2.1
K-Fold Cross Validation
Menghitung nilai akurasinya dapat dilakukan dengan menggunakan

𝐽𝑢𝑚𝑙𝑎ℎ 𝐾𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖 𝑏𝑒𝑛𝑎𝑟
persamaaan: Akurasi = 𝑥100%
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑢𝑗𝑖
17
BAB III
METODE PENELITIAN
3.1. Metode Penelitian
Dalam sebuah penelitian, metode merupakan salah satu factor penting. Tepat
atau tidaknya metode yang dipilih, sangat berpengaruh dengan keberhasilan suatu
penelitian. Metode penelitian merupakan urutan tentang bagaimana penelitian
dilakukan. (Sugiyono, 2014) menyatakan bahwa : “Metode penelitian dapat diartikan
sebagai cara ilmiah untuk mendapatkan data yang valid dengan tujuan dapat
ditemukan, dikembangkan, dan dibuktikan, suatu pengetahuan tertentu sehingga
dapat digunakan untuk memahami, memecahkan, dan mengantisispasi masalah”.
Oleh karena itu agar penelitian dapat mencapai keberhasilan maka penulis
menggunakan metode dengan ketentuan yang ada.
Pada penelitian ini penulis menggunakan metode kuantitatif deskriptif yaitu
dengan cara mencari informasi tentang gejala yang ada, didefinisikan dengan jelas
tujuan yang akan dicapai, merencanakan cara pendekatannya, mengumpulkan data
sebagai bahan untuk membuat laporan. Dalam penelitian ini penulis ingin
mengetahui atau mengukur keterkaitan antara ketersediaan e-Books 3D dengan
pemenuhan kebutuhan informasi pemustaka. Variabel penelitian yang akan dikaji
dalam penelitian ini dibagi menjadi dua variabel utama, yaitu variabel bebas (X)
yang terdiri satu variabel, yaitu ketersediaan e-Books 3D (X) Sedangkan variabel
terikat (Y) terdiri dari satu variabel, yaitu pemenuhan kebutuhan informasi
pemustaka.(Sugiyono, 2014)
3.2. Pengumpulan Data

3.2.1. Jenis Data
a) Data Kuantitatif
Data yang diperoleh langsung dari Fakultas Teknologi Informasi yang
berhubungan dengan penelitian
b) Data Kualitatif
18
Data yang diperoleh dari wawancara dosen pembimbing mengenai siswa
yang perlu adanya bimbingan secara langsung
3.2.2. Sumber Data

a) Data Primer
Data yang di peroleh secara langsung dari hasil wawancara dan observasi di
Fakultas Teknologi Informasi USN KOLAKA
b) Data Sekunder
Data yang diperoleh dari berbagai literatur-literatur baik dari buku, internet
yang berhubungan dengan penelitian.
3.3 Metode Pengumpulan Data

Pada tahap ini dilakukan pengumpulan data tentang penelitian, beberapa
metode yang akan dilakukan untuk pengumpulan data dalam melaksanakan
penelitian adalah:
1. Observasi
Penulis mengunjungi langsung dan mengamati lokasi objek penelitian
untuk mengetahui secara langsung keadaan lokasi penelitian.
2. Wawancara
penulis mengajukan pertanyaan atau tanya jawab secara langsung dengan
narasumber yang berkaitan dengan objek penelitian.
3. Studi Pustaka
Yang dilakukan adalah penulis mempelajari hal-hal yang mengenai studi
kasus tentang data mining prediksi dan klasifikasi dengan berbagai
algoritma dan metode pengujiannya dengan cara membaca artikel-artikel di
internet dan referensi yang terkait.
19
3.4 Lokasi Penelitian
Lokasi yang dijadikan tempat penelitian adalah Fakultas Teknologi Informasi USN
Kolaka
3.5 Jadwal Penelitian

Waktu yang dibutuhkan dalam penelitian ini dimulai sejak bulan ….. untuk lebih
rinci lagi dapat dilihat pada gambar berikut :
Tabel 3.1
Jadwal Penelitian
Bulan
No Keterangan Maret April Mei
1 2 3 4 1 2 3 4 1 2 3 4
1 Studi Pustaka
2 Observasi
3 Wawancara
4 Perancangan Sistem
5 Implementasi
6 Pengujian
3.6 Pengembangan Sistem
Pada rancangan pemprosesan sistem proses ini menggunakan tahapan

tahapan dari metode waterfall yang mana dimulai dari proses pemodelan
dengan mencari kebutuhan dari sistem, analisis, desain, coding, testing, dan
maintenance. Adapun penjelasan dari tahap-tahap yang dilakukan adalah:
Analisys
Design
Coding
Testing
implementatio
20 n
Gambar 3.1 Metode Pengembangan Waterfall
1. Analisis
Pada tahap ini, penulis melakukan analisis kebutuan-kebutahan apa saja
yang diperlukan untuk membuat suatu sistem.
2. Desain
Pada tahap design, penulis membuat use case diagram dan Activity Diagram
untuk membuat spesifikasi mengenai arsitektur program, gaya, tampilan,
dan kebutuhan material/bahan untuk program.
3. Pengkodean
Untuk dapat dimengerti oleh mesin, dalam hal ini adalah komputer, maka
desain tadi harus diubah bentuknya menjadi bentuk yang dapat dimengerti
oleh mesin, yaitu ke dalam bahasa pemrograman melalui proses coding.
Pada tahap ini, penulis melakuan proses perancangan sistem menggunakan
basis komponen dengan VB NET ,XAMPP, MySQL, RapidMiner
4. Pengujian
Sesuatu yang dibuat haruslah diuji cobakan. Demikian juga dengan
software. Semua fungsi-fungsi software harus diujicobakan, agar software
bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan
yang sudah didefinisikan sebelumnya. Metode pengujian dengan
menggunakan metode pengujian Blackbox dengan memperhatikan proses
yang terjadi pada proses sistem yang dibuat.
5. Pemeliharaan
Pemeliharaan suatu software diperlukan, termasuk di dalamnya adalah
pengembangan, karena software yang dibuat tidak selamanya hanya seperti
itu. Ketika dijalankan mungkin saja masih ada errors kecil yang tidak
ditemukan sebelumnya, atau ada penambahan fitur-fitur yang belum ada
pada software tersebut.
21
3.7 Usulan Rancangan Sistem
Adapun rancangan pemrosesan yang akan dilakukan dalam penerapan metode

DATA MINING yakni sebagai berikut :
Admin mulai Login dan memasukkan Data Training mahasiswa. untuk melakukan
perhitungan yang nantinya akan di jumlahkan menjadi sebuah prediksi prestasi
mahasiswa, maka akan muncul tampilan laporan prediksi prestasi mahasiswa.
3.8 Kebutuhan Sistem

Kebutuhan sistem diperlukan untuk mendukung kinerja dalam mengetahui
apakah sistem yang akan di rancang telah sesuai dengan kebutuhan atau belum.
Analisis kebutuhan sistem terbagi dua, yaitu kebutuhan fungsional dan kebutuhan
non – fungsional.
3.8.1 Kebutuhan Fungsional

Adapun kebutuhan fungsional pada aplikasi visual foxpro yang akan dibuat
adalah sebagai berikut :
 Admin perlu login
 Admin dapat menginput data
 Setelah data lengkap maka proses perhitungan dimulai
 Dan hasil prediksi predikat prestasi mahasiswa dapat dilihat
3.8.2 Kebutuhan Non-Fungsional

a. Kebutuhan Hardware
Perangkat keras yang digunakan dalam perancangan ini :
 Notebook Lenovo G40-45
 Printer Canon MP237
b. Kebutuhan Software
perangkat lunak yang dibutuhkan dalam pembuatan sistem ini antara lain
22
sebagai berikut :
1. Sistem operasi Microsoft windows 10
2. Microsoft visual Studio 2010 sebagai media pembuatan aplikasinya
23
DAFTAR PUSTAKA
Bramer, M. (2007). Principles Of Data Mining .pdf. Vasa.

https://doi.org/10.1007/978-1-84628-766-4
Ilyas. (2008). Peran Ideal Dosen Pembimbing Akademik Dan Prestasi Belajar
Mahasiswa Sebagai sebuah Alternatif Solusi, 6(1).
Kaur, G., & Singh, W. (2016). Prediction Of Student Performance Using Weka Tool.
International Journal of Engineering Sciences, 17(January), 2229–6913.
Mustakim, F., & Oktaviani, G. (2016). Algoritma K-Nearest Neighbor Classification,

13(2), 195–202.
Nikam, S. S. (2017). A Comparative Study of Classification Techniques in Data

Mining Algorithms. International Journal of Modern Trends in Engineering &
Research, 4(7), 58–63. https://doi.org/10.21884/ijmter.2017.4211.vxayk
Praningki, T., & Budi, I. (2018). Sistem Prediksi Penyakit Kanker Serviks
Menggunakan CART, Naive Bayes, dan k-NN. Creative Information
Technology Journal, 4(2), 83. https://doi.org/10.24076/citec.2017v4i2.100
Saleh. (2015). Implementasi Metode Klasifikasi Naïve Bayes dalam Memprediksi

Besarnya Penggunaan Listrik Rumah Tangga. Citec Journal, 2(3), 207–217.
https://doi.org/10.24076/CITEC.2015V2I3.49
Saputra, H. K. (2018). Analisis Data Mining Untuk Pemetaan Mahasiswa Yang

Membutuhkan Bimbingan dan Konseling Menggunakan Algoritma Naive Bayes
Classifier. Jurnal Teknologi Informasi & Pendidikan, 11(1), 14–26.
Sugiyono. (2014). Metode penelitian kuantitatif kualitatif dan r&d. intro.
TAN, P.-N., STEINBACH, M., & VIPIN, K. (2005). Introducing To Data Mining.
24

Perbandingan Metode KNN Dan Naive Bayes Untuk Prediksi Predikat Prestasi Mahasiswa

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perbandingan Metode KNN Dan Naive Bayes Untuk Prediksi Predikat Prestasi Mahasiswa

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL PENELITIAN

PERBANDINGAN METODE KNN DAN NAÏVE BAYES UNTUK

PROGRAM STUDI SISTEM INFORMASI

1.1. Latar Belakang

1.2 Rumusan Masalah

1.3 Batasan Masalah

1.4 Tujuan dan Manfaat Penelitian

1.4.2 Manfaat Penelitian

(Nikam, 2017) dalam penelitiannya yang berjudul “A Comparative Study of

NO PENELITI JUDUL METODE HASIL

4 Kaur & Prediction Of  Naïve Bayes Hasil dari penelitian

5 Sayali D. A Comparative Deskriptif Naïve bayes dapat mengatasi

2.2 Landasan Teori

2.2.1 Data Mining

Terdapat beberapa teknik data mining yang sering disebut-sebut dalam

3) Association Rule Mining

2.2.2 Tahap – Tahap Data Mining

2. Integrasi Data (Data Integration)

3. Seleksi Data (Data Selection)

4. Tranformasi Data (Data Transformation)

6. Evaluasi Pola (Pattern Evaluation)

7. Presentasi Pengetahuan (Knowledge Presentation)

2.2.3 K-Nearest Neighbor (K-NN)

Algoritma K-Nearest Neighbor (K-NN) adalah sebuah metode untuk

Setelah mendapatkan hasil jarak, selanjutnya diurutkan dari nilai terkecil

2.2.4 Naïve Bayes

Naive Bayes merupakan sebuah pengklasifikasian probalistik sederhana yang

2.2.5 K-Folds Cross Validation

Menghitung nilai akurasinya dapat dilakukan dengan menggunakan

3.1. Metode Penelitian

3.2. Pengumpulan Data

3.2.2. Sumber Data

3.3 Metode Pengumpulan Data

3.5 Jadwal Penelitian

3.6 Pengembangan Sistem

Pada rancangan pemprosesan sistem proses ini menggunakan tahapan

Adapun rancangan pemrosesan yang akan dilakukan dalam penerapan metode

3.8 Kebutuhan Sistem

3.8.1 Kebutuhan Fungsional

3.8.2 Kebutuhan Non-Fungsional

Bramer, M. (2007). Principles Of Data Mining .pdf. Vasa.

Mustakim, F., & Oktaviani, G. (2016). Algoritma K-Nearest Neighbor Classification,

Nikam, S. S. (2017). A Comparative Study of Classification Techniques in Data

Saleh. (2015). Implementasi Metode Klasifikasi Naïve Bayes dalam Memprediksi

Saputra, H. K. (2018). Analisis Data Mining Untuk Pemetaan Mahasiswa Yang

Sugiyono. (2014). Metode penelitian kuantitatif kualitatif dan r&d. intro.

Anda mungkin juga menyukai