Oleh :
2020
i
KATA PENGANTAR
Puji dan syukur kami panjatkan ke hadirat Tuhan Yang Maha Esa, atas
karunia-Nya kami dapat menyelesaikan makalah dengan topik Data Mining
Prediksi. Walaupun terdapat beberapa hambatan yang kami alami selama proses
pengerjaannya, tapi kami berhasil menyelesaikan makalah ini dengan tepat
waktu.
Tidak luput kami sampaikan terima kasih kepada dosen pengampu, Ibu
Amanda, S.Kom., M.Kom. yang telah memberikan tugas ini dan ikut serta
membantu kami dalam mengerjakan makalah. Tidak luput kami ucapkan terima
kasih terhadap teman-teman yang telah turut serta memberi kontribusi, baik
secara langsung ataupun tidak langsung dalam proses makalah ini. Kami
berharap, semoga makalah ini dapat memberikan dampak baik dan berguna bagi
kita semua.
Kami pun menyadari di dalam penulisan makalah ini masih sangat jauh
dari kata sempurna, maka kami sangat mengharapkan kritik dan saran yang
bersifat positif untuk mencapai sempurnanya makalah ini. Semoga makalah ini
dapat bermanfaat bagi penulis dan juga bagi para pembaca.
ii
DAFTAR ISI
COVER ................................................................................................................... i
KATA PENGANTAR ........................................................................................... ii
DAFTAR ISI ........................................................................................................... iii
BAB I PENDAHULUAN………………………………………………………... 1
3.1 Kesimpulan…………………………………………………………… 16
3.2 Saran………………………………………………………………….. 16
DAFTAR PUSTAKA…………………………………………………………….. 17
iii
BAB I
PENDAHULUAN
Banyak metode dan teknik yang sudah dilakukan dalam model prediksi,
teknik klasifikasi misalnya, teknik klasifikasi adalah sebuah metode dari data
mining yang digunakan untuk memprediksi kategori atau kelas dari suatu data
instance berdasarkan sekumpulan atribut-atribut dari data tersebut dan algoritma
C.45 sebagai pembangun decision tree. Decision tree adalah model prediksi yang
biasanya digunakan dalam penelitian, konsep dari decision tree adalah mengubah
data menjadi pohon keputusan dan aturan - aturan keputusan.
1
BAB II
LANDASAN TEORI
2
Jurnal ini bertujuan untuk memberikan kajian literatur secara sistematis terhadap
metode data mining Naive Bayes dalam memprediksi jumlah kelulusan tepat waktu
mahasiswa. Setelah membandingkan beberapa literatur, dapat disimpulkan bahwa metode ini
dapat digunakan untuk prediksi tersebut dengan tingkat keakuratan 90%. Kajian literatur ini
penting sebagai faktor pendukung bagi penelitian dengan topik itu.
Beradasarkan hasil identifikasi literatur yang digunakan, didapat bahwa metode data
mining naive bayes dapat membuat suatu prediksi mengenai kelulusan mahasiswa tepat waktu
dengan memperhitungkan atribut – atribut dari database perguruan tinggi yang digunakan.
Sedangkan untuk tingkat akurasi ketiga literatur menghasilkan akurasi di atas 90% walaupun
dengan menggunakan jumlah atribut dan aplikasi data mining yang berbeda. Atribut yang
terdapat pada semua literatur yang dapat menentukan prediksi adalah atribut IPK (Indeks
Prestasi Komulatif).
3
sebuah mata kuliah, sehingga, apabila terdapat mahasiswa yang tidak lulus disebuah mata
kuliah terutama mata kuliah di semester ganjil yang memilikiketerikatan dengan mata kuliah
di semester genap, akan mengalami kesulitan untuk mengambil mata kuliah tersebut, karena
mahasiswa itu harus melakukan pengambilan ulang mata kuliah yang gagal tersebut hanya di
semester ganjil yang akan datang, jika hal ini sering terjadi, dapat membuat mahasiswa tersebut
terlambat untuk diwisuda.Maksud dilakukannya penelitian ini adalah supaya mahasiswa dapat
mengetahui hal-hal apa saja yang dapat membuat seorang mahasiswa tidak lulus dari mata
kuliah. Dan apa saja yang dapat diperhatikan dosen agardapat mengetahui kinerja dan
kemampuan mahasiswanya di kemudian hari.
Tujuan penelitian ini adalah untuk mengetahui bagai mana cara mengolah data
mahasiswa yang dapat digunakan untuk memprediksi kelulusan mahasiswa dalam sebuah mata
kuliah menggunakan data mining algoritma K-means. Berdasarkan studi literatur terhadap
jurnal atau penelitian yang pernah dilakukan sebelumnya, dan dilakukannya wawancara, maka
atributyang digunakan pada penelitian ini adalah kehadiran, status tinggal, bahasa, tugas akhir,
nilai tugas, nilai tugas, nilai unit test, dan mid test, keaktifan kelas. Berdasarkan atributdi atas
terdapat atributnon numerik karna Metode K-meansadalah metode yang bisa di lakukan apabila
data yang digunakan adalah data yang berupa angka. Maka proses binning perlu dilakukan.
Proses Binning disebut juga proses normalisasi, yaitu proses untuk mentransformasi nilai -nilai
dari data-data non-numerik menjadi data-data yang bisa dikalkulasi.
4
yang dibutuhkan untuk menganalisis data selanjutnya disebut sebagai pengetahuan. Teknik
yang dilakukan untuk melakukan penggalian informasi tersebut untuk memperoleh
pengetahuan dikenal dengan istilah data mining. Tumpukan data pada saat ini tertimbun di
berbagai bidang dan menyebar dalam lapisan masyarakat luas dalam jumlah besar
memunculkan banyak sekali tools pendukung atau software aplikasi yang di desain untuk
membantu manusia melakukan proses penambangan maupun penggalian pengetahuan dalam
tumpukan data yang ada.
Berbagai tools yang ada sangat membantu manusia untuk dapat mengetahui hasil akhir
output yang dikehendaki serta bagaimana langkah yang dilalui dalam mendapatkan hasil akhir
yang dikehendaki pada khususnya pada era big data (Fitri, Nurjanah, & Astuti, 2018).
Database adalah kumpulan data, pada saat ini database tidak banyak memberikan keuntungan
yang signifikan terhadap perkembangan proses belajar mengajar. Pada saat proses akreditasi
lembaga maupun Akreditasi Program Studi Teknik Informatika di Politeknik Negeri Pontianak
dan untuk mengetahui identitas mahasiswa maupun dosen saat proses belajar mengajar di
kampus biasanya baru akan dibutuhkan database tersebut. Pada saat lulus kuliah data tersebut
akan menjadi tumpukan data yang jarang digunakan. Salah satu cara memanfaatkan data
tersebut adalah dengan mengolahnya, sehingga pola atau kecenderungan pada data tersebut
dapat ditemukan. Dengan mengetahui pola yang terdapat pada data mahasiswa, maka hal
tersebut akan dapat digunakan dalam membantu pengambilan keputusan. Pola atau rule data
mahasiswa ini bisa digunakan untuk memprediksi nilai prestasi seseorang mahasiswa serta
beberapa faktor yang berpengaruh terhadap performansi mahasiswa tersebut. Sehingga dengan
mengetahui potensi maupun faktor yang berpengaruh terhadap performansi mahasiswa
menjadi hal yang penting.
Sistem pembelajaran yang tepat untuk mahasiswa dapat dilakukan salah satunya
dengan mengetahui faktor- faktor tersebut, maka pihak universitas dapat menerapkan
pengetahuan tersebut. Mahasiswa yang memiliki performansi rendah juga dapat diantisipasi
dan segera ditangani oleh pihak universitas (Fahmi, 2014) Pada tahun 2019 Program Studi
Teknik Informatika memiliki jumlah total kelas sebanyak 12 kelas. Salah satu cara untuk
menghasilkan mahasiswa yang berkualitas adalah dengan menciptakan sistem pembelajaran
yang tepat terhadap mahasiswa di program studi teknik informatika supaya mahasiswa tersebut
memiliki prestasi yang baik dalam bidang teknik informatika. Oleh karena itu dibutuhkan
evaluasi performansi mahasiswa. Salah satu bentuk penerapan dalam data mining adalah
klasifikasi. Metode klasifikasi dapat digunakan untuk memprediksi atau meramalkan prestasi
mahasiswa di program studi teknik informatika berdasarkan variabel-variabel tertentu dan juga
diaplikasikan dalam mencari informasi penting berkaitan dengan upaya peningkatan prestasi
mahasiswa. Sebuah penelitian memprediksi masa studi mahasiswa dilakuakan sebuah
menajemen perguruan tinggi untuk menentukan kebijakan preventif terkait pencagahan dini
kasus drop out. (Meinanda, 2009) Berdasarkan teknik klasifikasi akan dapat diketahui faktor-
faktor yang berpengaruh terhadap performansi mahasiswa serta seberapa besar pengaruhnya
tersebut.
Performansi mahasiswa dalam hal ini direpresentasikan dengan nilai indeks prestasi.
Hasilnya diharapkan dapat menjadi pengetahuan atau rekomendasi kepada pihak akademik di
program studi teknik informatika dan khususnya manajemen di Program Studi Teknik
Informatika untuk membuat sistem pembelajaran yang tepat dan dapat menangani dengan
5
segera mahasiswa yang memiliki performansi rendah dan upaya dalam melihat faktor-faktor
yang berperan dalam peningkatan prestasi akademik mahasiswa.
6
mahasiswa berdasarkan data nilai akademik Harryanto & Hansun(2017) menggunakan
algoritma C4.5 untuk memprediksi penerimaan calon pegawai baru pada PT.WISE, serta
memberikan hasil pengujian terhadap keakurasian proses prediksi kepadacalon pegawai.
Penelitian Melissa & Oetama (2013) menggunakan data mining untuk melakukan
analisis data pembayaran kredit nasabah bank. Hasil penelitian dapat mengoptimalkan prediksi
pembayaran kredit nasabah bank. PenelitianNovriansyah dkk (2017) menggunakan data
mining dan algoritma Naive Bayesuntuk mengetahui minat beli pelanggan terhadap kartu
internet XL.
Hasil didapatkan bahwa metode klasifikasi dan algoritma Naive Bayes sangat cocok
dipakai untuk memberikan prediksi yang dapat dipakai di masa depan.
7
di teliti. Dari data penjualan CV Mitra Artha Sejati pada tahun 2017, 2018, 2019, dan 2020.
Hasil perhitungan prediksi menggunakan algoritma Naive Bayes menghasilkan tingkat akurasi
prediksi mencapai 94,59% dengan class precision yaitu “YA” 100.00%, “TIDAK” 94.44%,
dan untuk class recall yaitu “YA” 33.33%, dan “TIDAK” 100.00%.
CV Mitra Artha Sejati adalah salah satu perusahaan yang bergerak dalam bidang
penjualan pestisida yang sudah berdiri dari tahun 2012. Tingginya ketergantungan dan
pemakaian pestisida didalam pertanian menjadikan pangsa pasar bagi para pengusaha atau
perusahaan untuk berlomba dalam menciptakan dan memasarkan produk pestisida mengingat
penggunaan yang sangat tinggi dan wilayah Indonesia sebagai salah satu negara agraris yang
memiliki wilayah cukup luas. Namun dengan demikian akhirnya banyak bermunculan
perusahaan-perusahaan baru yang mengakibatkan ketatnya persaingan dilapangan. Banyaknya
jenis merk dagang yang beredar, ditambah banyaknya produsen juga cuaca yang tidak stabil
menjadi masalah baru bagi perusahaan baik mengatur strategi pemasaran, strategi produk,
ataupun dalam masalah pengadaan barang.
Pada pengumpulan data ini yang digunakan adalah data penjualan CV Mitra Artha
Sejati Bandung tahun 2017, 2018, 2019 dan 2020. Data yang diambil sebayak 968 data dan
yang dapat digunakan sebanyak 554 data. Kenapa data yang diambil berjumlah sekian karena
banyak data yang ada pada variabel tertentu bernilai null sehingga data tersebut tidak dapat
digunakan untuk proses data mining, Data asli yang dihasilkan penulis memiliki 28 atribut
diantaranya yaitu : Segment, PIC, Cust Code, Nama Toko, Alamat, Wilayah, No Telp, Nama
Pelanggan, Tanggal Kirim, Tanggal Jatuh tempo, Umur Faktur, No. PO, No.Surat Jalan, No
Faktur, Distribusi, Retur, Sales, Uang Masuk, Sisa Tagihan, Status Lunas, Group, Produk,
Kemasan, Isi perbox, Qty, Harga, Diskon, Konsinyasi
8
Pusat Kesehatan Masyarakat (Puskesmas) adalah unit pelaksanaan teknis dinas
kabupaten/kota yang bertanggung jawab menyelenggarakan pembangunan kesehatan di suatu
wilayah kerja. Puskesmas saat ini menjadi pilihan utama masyarakat untuk melakukan
pengobatan ataupun hal lainnya yang berhubungan dengan kesehatan dikarenakan lokasi yang
mudah dijangkau dan adanya program pengobatan gratis untuk masyarakat. nakan Pustu harus
mengatur persediaan obat agar nantinya dapat memonitor sekaligus memprediksi obat-obatan
untuk kedepannya. Manajemen pengaturan persediaan obat yang seharusnya dilakukan oleh
Pustu Mataram dengan cara memprediksi persediaan obat belum pernah dilakukan, sehingga
sering kali terjadi kekurangan persediaan dan permintaan obat untuk bulan berikutnya.
Adapun metode penelitian yang dilakukan untuk memprediksi jumlah persediaan obat
pada Pustu Mataram dengan menggunakan Algoritma Regresi Linier Berganda. Regresi Linier
Sederhana (Simple Regression) Regresi linier sederhana adalah sebuah metode yang digunakan
untuk menguji hubungan antara variabel bebas dan variabel terikat. Untuk melakukan analisa
regresi yaitu memerlukan perkiraan mengenai arah serta kekuatan dalam hubungan linier dan
variabel dengan melakukan pencarian mengenai koefisien korelasinya. Jika didapat
korelasinya berbeda dari nol, maka langkah berikutnya yaitu melakukan penjabaran dari suatu
persamaan untuk mengungkap hubungan linier antara dua variabel
Sebelumnya sudah dilakukan pencarian pola dengan menggunakan perhitungan secara
manual yaitu memprediksi persediaan obat Antasida sebagai sampel untuk tahun 2019,
selanjutnya akan dilakukan proses penemuan pola prediksi persediaan obat untuk tahun 2019
dengan bantuan tools Rapidminer. Tujuan dilakukannya analisis ini sendiri yaitu untuk
mengetahuai arah hubungan antara variabel independen dengan variabel dependen untuk
melihat prediksi apakah nilai dari variabel independen ini akan mengalami kenaikan atau
penurunan.
9
berbentuk Perseroan Terbatas (PT) atau yang biasa disebut emitmen. Saham menyatakan
bahwa pemilik saham tersebut adalah juga pemilik sebagian dari perusahaan tersebut .
Indonesia merupakan salah satu negara yang sangat aktif dalam investasi saham di
pasar modal. Pasar modal (capital market) merupakan pasar untuk berbagai instrument
keuangan jangka panjang yang bisa diperjual belikan, baik surat utang (obligasi), ekuiti
(saham), reksadana, instrument derivatif maupun instrument lainnya. Pasar modal merupakan
sarana pendanaan bagi perusahaan maupun institusi lain (misalnya pemerintah), dan sebagai
sarana bagi kegiatan berinvestasi. Dengan demikian, pasar modal memfasilitasi berbagai
sarana dan prasarana kegiatan jual-beli dan kegiatan terkait lainnya.
Harga saham di pasar modal berjalan secara acak. Tinggi rendahnya harga saham
dipengaruhi oleh banyak faktor seperti kondisi perekonomian, laju inflasi, penawaran dan
permintaan serta masih banyak lagi. Dengan kemungkinan perubahan faktor-faktor di atas
menyebabkan harga saham dapat naik atau turun. Para investor pada saat mengambil keputusan
untuk membeli, menahan, atau menjual saham memerlukan suatu informasi. Hasil prediksi
harga saham sangat membantu investor dalam mengambil keputusan. Hasil prediksi yang
akurat diperlukan untuk mengambil keputusan yang tepat. Oleh karena itu, perlu prediksi harga
saham sehingga bermanfaat bagi investor untuk dapat melihat bagaimana prospek investasi di
masa yang akan datang.
Ada beberapa penelitian tentang prediksi dengan menggunakan beberapa model
algortima yang mendukung penelitian ini. Dwi S. (2015) telah melakukan penelitian untuk
prediksi harga saham menggunakan algoritma Support Vector Machine (SVM). Penelitian ini
dilakukan prediksi dengan membandingkan variabel A (open, high, low, dan close) dengan
variabel B (open, high, low, close, dan factory news). Hasil penelitian menunjukkan variabel
A menghasilkan RMSE 4,695 dan variabel B menghasilkan RMSE 4,620.
Hasil penelitian ini menyimpulkan bahwa data harga saham GGRM dapat diprediksi
dengan menggunakan model algoritma Neural Network, dengan hasil akurasi prediksi RMSE
612.474 +/- 89.402 (mikro: 618.916 +/- 0.000) paling kecil dibandingkan dengan model
algoritma lainnya, sehingga dengan prediksi ini dapat membantu dalam memprediksi harga
saham GGRM di pasar modal.
10
Desa Wanacala, Kecamatan Harjamukti, Kota Cirebon, merupakan salah satu desa
yang memiliki peranan penting untuk membantu berjalannya program pemberantasan warga
miskin yang diprogramkan oleh pemerintah pusat, yang mewajibkan setiap desa untuk mendata
masyarakatnya yang miskin. Bantuan Pangan Non Tunai (BPNT) adalah bantuan yang
diberikan pemerintah kepada warga miskin guna mengurangi beban ekonomi yang semakin
menekan kehidupan mereka. Kriteria yang digunakan untuk menentukan apakah seorang
warga layak atau tidak menerima BPNT yaitu kondisi hunian, penghasilan perbulan, dan
tanggungan. Dengan penilaian terhadap kriteria tersebut aparat desa dapat mempertimbangkan
dan memberikan keputusan urutan prioritas kelayakannya. Sistem penyaluran bantuan pangan
ini diatur dalam Peraturan Presiden Nomor 63 Tahun 2017 tentang Penyaluran Bantuan Sosial
Secara Non Tunai.
Naïve Bayes Classification merupakan salah satu metode machine learning yang
menggunakan perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve Bayes
adalah teorema bayes yaitu teorema dalam statistika untuk menghitung peluang, bayes optimal
classifier menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada,
dan menentukan kelas mana yang paling optimal.
Naïve Bayes dapat digunakan untuk meneliti berbagai macam hal, diantaranya adalah
prediksi penggunaan listrik rumah tangga, klasifikasi kelulusan mahasiswa, penentuan
kelayakan calon Tenaga Kerja Indonesia (TKI), dan lain-lain. Sebelumnya juga telah ada yang
melakukan penelitian yang serupa dengan menggunakan metode ini, namun atribut yang
digunakan berbeda. Adapun pembeda lainnya adalah penelitian tersebut dilakukan untuk
menentukan kelayakan penerima bantuan renovasi rumah. Penelitian tersebut dilakukan oleh
Bety Wulan Sari dan Donni Prabowo Vol.18 No.4 Tahun 2017 dengan judul “Tingkat akurasi
yang dihasilkan dari metode Naïve Bayes ini sudah cukup tinggi, oleh karena itu dapat
disimpulkan metode ini cocok untuk diimplementasikan pada penelitian ini. Penentuan
Kelayakan Penerima Bantuan Renovasi Rumah Warga Miskin Menggunakan Naïve Bayes
Berdasarkan hasil penelitian yang telah dilakukan mengenai prediksi untuk
menentukan penerima Bantuan Pangan Non Tunai dengan metode Naïve Bayes pada Desa
Wanacala, maka dapat diambil beberapa kesimpulan sebagai berikut:
1. Penerapan data mining menggunakan algoritma Naïve Bayes dapat digunakan
untuk memprediksi penerima BPNT dengan objektif berdasarkan kriteria kondisi
hunian, penghasilan perbulan, dan tanggungan. Sehingga memudahkan pengurus
desa dalam menentukan keluarga yang berhak menerima bantuan tersebut.
2. Dari pengujian yang dilakukan dengan membandingkan hasil analisa sistem dengan
data training pada tools Rapid miner menghasilkan tingkat akurasi sebesar 96% dan
error sebesar 4%, sedangkan evaluasi dengan kurva ROC dengan nilai Area Under
Curve (AUC) model algoritma Naïve Bayes adalah 0.979.
3. Setelah dilakukan pengujian untuk menentukan hasil prediksi penerima Bantuan
Pangan Non Tunai dengan mengunakan perhitungan manual dan menggunakan
tools Rapid Miner, didapatkan hasil prediksi yang sama.
11
J. Data Mining Untuk Prediksi Status Pasien Covid-19 Dengan
Pengklasifikasi Naïve Bayes
Pandemi Covid-19 di tahun 2020 menjadi masalah kesehatan yang kompleks dan
membutuhkan penanganan cepat serta kolaborasi solusi dari berbagai disiplin ilmu. Pasien
Covid-19 yang mendapatkan perawatan di rumah sakit memiliki kondisi dan tingkat keparahan
yang berbeda-beda. Hal ini berpengaruh pada tindakan penanganan yang akan dilakukan oleh
petugas medis. Banyaknya pasien serta kurangnya tenaga medis mengakibatkan perlunya
dukungan teknologi untuk membantu mengklasifikasikan status pasien berdasarkan kondisinya
agar penanganan dikonsentrasikan pada pasien yang sangat gawat dan membutuhkan
penanganan cepat. Penelitian ini menerapkan teknik prediksi dari disiplin ilmu data mining
untuk mengklasifikasikan status kegawatan pasien. Pengklasifikasi Naive Bayes di terapkan
untuk membangun model berdasarkan dataset pasien yang terinfeksi Covid-19. Dataset pasien
Covid-19 di Indonesia diperoleh dari www.kaggle.com dan diaplikasikan menggunakan
RapidMiner. Model yang dibangun dapat memprediksi status kegawatan pasien berdasarkan
usia dan jenis kelamin yang memiliki kemungkinan tertinggi untuk sembuh dari Covid-19 dan
pasien yang memiliki kemungkinan tinggi untuk tetap menjalani pengobatan dan atau
meninggal dunia. Hasil penelitian ini menunjukkan bahwa klasifikasi metode Naive Bayes
memiliki tingkat akurasi yang tinggi dalam mengklasifikasikan status pasien yaitu 96,67%.
Corona Virus Disease 2019 atau disingkat Covid-19 merupakan penyakit baru yang
muncul di tahun 2019 dan dapat menyebabkan radang paruparu dan gangguan pernapasan.
Penyakit ini disebabkan oleh Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-
2) dan dapat menyebabkan kematian. Dunia tengah dilanda pandemi Covid-19 yang
melumpuhkan banyak sektor penting kehidupan baik di bidang ekonomi, sosial, dan keamanan.
Tatanan kehidupan dan tantangan akibat krisis Kesehatan global ini melanda semua negara di
dunia.
Pada bulan April 2021, angka kematian akibat virus Corona di Indonesia merupakan
yang tertinggi di Asia setelah China, dengan korban meninggal 41.815 orang. Jumlah total
kasus virus korona mencapai 1.537.967 kasus dengan 1.381.667 orang sembuh pada saat
makalah ditulis. Angka ini terus merangkak naik. Mengingat wabah Covid19 merupakan
masalah global di belahan dunia termasuk di Indonesia. Studi ini dilakukan sebagai bagian dari
upaya Mitigasi terhadap penyebaran penyakit Covid-19 di Indonesia.
Kebanyakan orang yang terinfeksi virus Covid-19 akan mengalami penyakit
pernapasan ringan hingga sedang dan sembuh tanpa memerlukan perawatan. Banyaknya pasien
yang di rumah sakit dan kapasitas tenaga medis menjadi permasalahan utama yang dihadapi di
berbagai daerah. Pasien dengan tingkat kegawatan tinggi memerlukan prioritas penanganan
dibanding pasien dengan gelaja sedang atau tanpa gejala. Tenaga medis memerlukan bantuan
untuk mengklasifikasi status pasien berdasarkan data pasien secara otomatis untuk mengurangi
kelelahan tenaga medis yang harus terus bertugas dan meminimalisir resiko penanganan yang
terlambat terhadap pasien.
Data mining adalah teknik yang digunakan untuk membangun model pembelajaran
mesin. Pembelajaran mesin (machine learning) adalah teknik kecerdasan buatan modern yang
belajar membangun model dengan menggunakan data empiris [11]. Data Mining digunakan
untuk menemukan pola dalam kumpulan besar data mentah. Data Mining menerapkan teknik
12
Machine Learning untuk menarik pengetahuan pada data. Dalam penelitian ini penulis
menerapkan teknik data mining untuk mengklasifikasikan dataset Covid-19 menggunakan
Algoritma Naive Bayes Classifier (NBC) karena NBC telah berhasil diterapkan dalam banyak
tugas klasifikasi berbasis probabilitas bersyarat pada populasi data [12].
Penelitian ini bertujuan memberikan solusi untuk mengklasifikasikan status pasien
Covid-19 secara otomatis berdasarkan gejala yang dialami pasien. Klasifikasi dilakukan
menggunakan algoritma Naïve-Bayes yang dikenal memiliki akurasi tinggi dengan
pembelajaran tersupervisi berbasis distribusi dataset. Pemilihan algoritma yang tepat
diharapkan dapat menghasilkan model klasifikasi yang baik dan berguna untuk
diimplementasikan secara riil pada penanganan dan skrining status kegawatan pasien Covid-
19.
Pada penelitian ini dikembangkan model Data Mining untuk prediksi status pasien
Covid-19 menggunakan algoritma Naive Bayes Classifier atau NBC. NBC digunakan karena
kehandalannya dalam mengklasifikasi data berdasarkan atribut-atribut yang dimiliki, baik
berupa nilai numerik maupun kategorik. Model dibangun menggunakan dataset pasien Covid-
19 yang didapat dari website www.kaggle.com dan diimplementasikan menggunakan
perangkat lunak RapidMiner. Hasil dari model NBC untuk prediksi status pasien Covid19 di
Indonesia memberikan hasil yang diukur dalam nilai presisi, recall, dan akurasi, berturut -turut
nilainya 92%, 88.72%, dan 96.67%. Nilai akurasi yang tinggi menunjukkan kinerja NBC yang
baik dalam mengklasifikasikan tiga status pasien, yaitu isolated, released, dan deceased. Hasil
dari penelitian ini bermanfaat untuk diterapkan pada situasi nyata, untuk membantu tenaga
medis menentukan tindakan. Ke depan, jumlah dataset nyata dan berukuran besar dengan
proporsi nilai setiap kelas yang seimbang sangat baik untuk mendapatkan akurasi prediksi yang
lebih tinggi.
13
14
15
BAB III
PENUTUP
3.1 Kesimpulan
Data mining adalah proses menemukan anomali, pola, maupun korelasi dalam data set
yang besar untuk memprediksi hasil. Dasar dari data mining sendiri berkaitan dengan disiplin
ilmu seperti statistik, AI, machine learning, dan teknologi database. Data mining juga dikenal
dengan sebutan lain seperti data atau pattern analysis, knowledge discovery, knowledge
extraction, dan information harvesting.
3.2 Saran
Penerapan data mining pada penelitian yang menggunakan beberapa metode untuk
fungsi klasifikasi dapat dilakukan perbandingan dengan algoritma lainnya untuk kasus yang
sama. Sehingga dapat diketahui algoritma yang mana yang lebih baik untuk diterapkan pada
bidang ini.
16
DAFTAR PUSTAKA
Agusta, Yudhi. 2007. ‘K-meanspenerapan permasalahan dan metode terkait’. Jurnal Sistem
dan Informatika, Vol 3
Baradwaj, B. K., & Pal, S. (2011). Mining Educational Data to Analyze Students‟
Performance. International Journal of Advanced Computer Science and Applications
Borkar, S., & Rajeswari, K. (2014). Atributes Selection for Predicting Student's Academic
Performance using Education Data miningand Artificial Neural Network. International
Journal of Computer Applications
C, D. A., Baskoro, D. A., Ambarwati, L., & Wicaksana , I. S. (2013). Belajar Data
miningDengan Rapid Miner. Jakarta: Remi Sanjaya
Herdianto. (2013). Prediksi Kerusakan Motor Induksi Menggunakan Metode Jaringan Saraf
Tiruan Back propagation”. Universitas Sumatera Utara, 8
17