Anda di halaman 1dari 7

JEPIN Vol.

x
No. y
(Jurnal Edukasi dan Penelitian Informatika) mm yy
ISSN(e): 2548-9364 / ISSN(p) : 2460-0741

Komparasi Algoritma KNN, NBC, DT dan RF


Untuk Rekomendasi Film di SMKN 1 Gunung
Sindur
Andika Pratama#1, Dian Erdiansyah*2, Imelda#3
#
Magister Ilmu Komputer, Universitas Budi Luhur
Jl. Ciledug Raya, Petukangan Utara, Jakarta Selatan, 12260. DKI Jakarta, Indonesia
1andika.bpme@gmail.com

2dian.erdiansyah.st@gmail.com

3imelda@budiluhur.ac.id

Abstrak— Industri perfilman merupakan salah satu industri (recommender system) adalah suatu sistem yang dapat
yang tidak terpengaruh dengan maraknya hiburan digital merekomendasikan hal yang sesuai dengan apa yang
seperti munculnya media sosial, program televisi yang beragam diinginkan dan dibutuhkan oleh seseorang. Salah satu sistem
dan game. Industri film yang terus melakukan produksi ini yang menjanjikan untuk hal ini yaitu Movie Recommender
semakin menambah informasi film yang melimpah di
internet. Permasalahan yang ada sekarang adalah belum
System atau Sistem Rekomendasi Film. Sistem rekomendasi
adanya media untuk memilih film yang direkomendasikan untuk film adalah teknologi yang memungkinkan individu untuk
siswa di SMKN 1 Gunung Sindur. Tujuan penelitian adalah menemukan film yang paling sesuai dengan preferensi mereka,
menyediakan informasi yang dapat memberikan rekomendasi berdasarkan sejumlah faktor seperti genre, aktor, sutradara,
film berdasarkan tahun film, review penonton, durasi pada film dan ulasan pengguna atau faktor-faktor terkait lainnya.
Indonesia. Pendekatan yang digunakan yaitu metode data SMKN 1 Gunung Sindur merupakan sekolah menengah
mining dengan menggunakan algoritma Decision Tree, Naive kejuruan yang memiliki 5 (lima) kompetensi keahlian salah
Bayes, K-Nearest Neighbors dan Random Forest, yang satunya yaitu Broadcasting dan Perfilman. Dalam penelitian
dikomparasi untuk menentukan algoritma yang mempunyai ini, penulis akan mengimplementasikan sistem rekomendasi
kinerja yang paling baik. Hasil perhitungan yang diperoleh
bahwa algoritma Decision Tree adalah algoritma yang
film menggunakan metode data mining analisis klasifikasi
mempunyai kinerja paling baik dengan nilai Accuracy sebesar dengan menggunakan algoritma K-Nearest Neighbors (KNN)
99,29%, nilai Precision sebesar 99,00% dan Recall sebesar dan Naive Bayes Classifier (NBC). Tujuan dari penelitian ini
98,72%. Hasil penelitian ini memberi manfaat bagi siswa di adalah untuk memberikan solusi bagi pengguna untuk
SMKN 1 Gunung Sindur sebagai keputusan untuk mengerjakan menemukan film yang sesuai dengan selera mereka. Sebagai
tugas dalam pelajaran perfilman. sebuah lembaga pendidikan, SMKN 1 Gunung Sindur
berusaha untuk mengintegrasikan teknologi informasi dalam
Kata kunci—Rekomendasi Film, K-Nearest Neighbors, Naïve kurikulumnya dan memberikan pengalaman belajar yang
Bayes Classifier, Decision Tree, Random Forest praktis bagi siswa terutama siswa dengan kompetensi keahlian
Broadcasting & Perfilman. Pengembangan Sistem
I. PENDAHULUAN Rekomendasi Film ini adalah salah satu contoh bagaimana
Perkembangan teknologi informasi dan komunikasi teknologi dapat diterapkan dalam konteks dunia nyata, dengan
berkembang begitu pesat dalam berbagai bidang, tak potensi untuk meningkatkan pemahaman siswa tentang
terkecuali industri hiburan. Dalam era digital saat ini, hiburan pemodelan data dan analisis prediktif.
dalam bentuk film telah menjadi salah satu aspek penting Penelitian sebelumnya tentang rekomendasi film sudah
dalam kehidupan manusia. Film tidak hanya menjadi sarana dilakukan yaitu sistem rekomendasi pemilihan film dengan
hiburan, tetapi juga sebuah bentuk seni dan budaya yang dapat teknik hybrid filtering dan algoritma KNN berhasil dibangun
mempengaruhi pemirsa secara mendalam. Namun, dengan (Ciaputra dan Hansun, 2020). Pada penelitian sebelumnya
berkembangnya industri film yang begitu pesat, pemilihan yang lain, metode Naïve Bayes Classifier dengan atribut yang
film yang sesuai dengan preferensi individu menjadi semakin sudah ditentukan, yaitu meliputi genre film, aktor film,
menantang. Jumlah film yang tersedia sangatlah banyak dan bahasa,warna, durasi film, negara, dan lainnya yang dapat
pengguna seringkali kesulitan dalam memilih film yang sesuai digunakan sebagai tolak ukur sutradara untuk membuat film
dengan preferensi mereka. Oleh karena itu, sistem [2].
rekomendasi film menjadi sebuah solusi yang sangat relevan Pada penelitian ini, penulis akan menggunakan teknik
dan berharga pada saat ini. Sistem rekomendasi data mining dalam implementasinya, salah satunya adalah

Submitted dd mm yy; Revised dd mm yy; Accepted dd mm yy 1


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

klasifikasi dengan metode algoritma K-Nearest Neighbors berdasarkan jarak dari suatu objek data dengan yang lainnya.
(KNN) dan Naive Bayes Classifier. Fokus pada penelitian ini KNN termasuk algoritma supervised learning, prinsip kerja
adalah melakukan Komparasi algoritma Decision Tree, K- KNN sendiri adalah mencari jarak terdekat antara data yang
Nearest Neighbors, Naïve Bayes Classifier dan Random dievaluasi dengan (K) tetangga terdekatnya dalam data
Forest untuk memberikan rekomendasi film di SMKN 1 pelatihan. Klasifikasi KNN dimulai dengan mencari k buah
Gunung Sindur. Penelitian memberikan kontribusi berupa tetangga terdekat dari data uji dan memilih kelas dengan
insight perfilman Indonesia dan rekomendasi film Indonesia anggota terbanyak. Jumlah data/tetangga terdekat ditentukan
yang dapat digunakan oleh siswa perfilman di SMKN 1 oleh user yang dinyatakan dengan k, misalnya ditentukan k-6,
Gunung Sindur pada khususnya dan penyuka film Indonesia maka setiap data testing dihitung jaraknya terhadap data
pada umumnya. training dan dipilih 6 data training yang jaraknya paling dekat
ke data testing. Berdasarkan labelnya masing-masing,
II. TINJAUAN PUSTAKA ditentukan output mana yang frekuensinya paling banyak.
Untuk mendefinisikan antara dua titik yaitu titik pada data
A. Data Mining
training (X) dan titik data testing (y) maka digunakan rumus
Data mining digunakan untuk menguraikan penemuan Euclidean, [4].
pengetahuan di dalam database. Data mining adalah proses
yang menggunakan teknik statistik, matematika, kecerdasan (1)
buatan, dan machine learning untuk mengekstraksi dan Dimana:
mengidentifikasi suatu informasi yang bermanfaat dan d merupakan jarak antara titik pada data training x dan titik
pengetahuan yang terkait dalam database besar. Menurut data testing y yang akan diklasifikasi,
Gartner Group data mining adalah suatu proses menemukan x=
hubungan yang berarti, pola, dan kecenderungan dengan cara y=
memeriksa dalam sekumpulan besar data yang tersimpan i merupakan nilai atribut serta
dalam penyimpanan dengan menggunakan teknik pengenalan n merupakan dimensi atribut.
pola seperti teknik statistik dan matematika. Kemampuan
algoritma data mining yang terdapat di dalam perangkat lunak D. Naïve Bayes Classifier
analisis yang terdapat saat ini memungkinkan terjadinya Algoritma Naïve Bayes merupakan klasifikasi yang
kesalahan dalam penggunaan yang berakibat fatal. Banyak mempresentasikan setiap kelas objek berdasarkan kesimpulan
pengguna menerapkan analisis yang tidak tepat terhadap atau rekapitulasi probabilistik dan menemukan kemungkinan
kumpulan data dengan menggunakan metode yang berbeda. besar kelas yang sesuai untuk tiap objek-objek yang akan
Oleh karena itu, dibutuhkan pemahaman tentang statistik dan ditentukan kelasnya dari objek-objek uji yang ada berdasarkan
struktur model matematika yang mendasari kerja perangkat atribut-atribut atau variabel yang telah diketahui nilai-nilainya
lunak. Data mining merupakan suatu bidang yang lama. (Arhami dan Nasir, 2020). Algoritma Naïve Bayes dapat
Kesulitan untuk mendefinisikan data mining adalah kenyataan digunakan untuk memprediksi probabilitas keanggotaan suatu
bahwa data mining mewarisi banyak aspek dan teknik dari kelas. Algoritma NBC sangat cocok untuk melakukan
bidang-bidang ilmu yang sudah terlebih dahulu mapan. Data klasifikasi pada dataset bertipe nominal. Rumus dari Teorema
mining memiliki akar yang panjang dari bidang ilmu seperti Bayes adalah sebagai berikut:
artificial intelligence, machine learning, statistik, database,
(1)
dan juga information retrieval.
Dimana:
B. Data Mining P(A|B) merupakan probabilitas bersyarat A yang diberikan
Klasifikasi merupakan salah satu pembelajaran yang paling oleh B, P(B|A) merupakan probabilitas bersyarat B yang
banyak dipakai di dalam data mining. Klasifikasi dapat diberikan oleh A, P(A) merupakan probabilitas kejadian A,
diartikan sebagai bentuk dari analisis data yang digunakan P(B) merupakan probabilitas kejadian B.
untuk mengekstrak model yang akan digunakan dalam Terdapat penelitian terdahulu yang berkaitan dengan
memprediksi label suatu kelas. Kelas yang terdapat dalam penerapan algoritma Naïve Bayes dan pengklasifikasian
klasifikasi merupakan atribut dalam satu set data yang paling penyakit stroke menggunakan data mining. Penelitian yang
unik yang merupakan variabel bebas yang terdapat dalam dilakukan (Doni et al., 2021) untuk mengklasifikasikan
statistik. Klasifikasi terdiri dari dua proses yaitu tahap tingkat kemungkinan hidup pasien yang telah didiagnosis
pembelajaran dan tahap pengklasifikasian. Tahap menderita penyakit Hepatocellular Carcinoma menunjukkan
Pembelajaran merupakan tahapan dalam pembentukan model performa akurasi yang dihasilkan sebesar 70,30%. Kemudian
klasifikasi, sedangkan tahap pengklasifikasian merupakan penelitian yang dilakukan (Ridwan, 2020) dalam
tahapan dalam penggunaan model klasifikasi yang digunakan mengklasifikasi data penyakit diabetes mellitus menunjukkan
untuk memprediksi label kelas pada data [3]. performa akurasi yang dihasilkan sebesar 90,20%.

C. Data Mining E. Decision Tree


Metode K-Nearest Neighbors (KNN) adalah metode data Decision Tree adalah sebuah metode klasifikasi yang
mining untuk klasifikasi berdasarkan kedekatan lokasi dibangun untuk mendapatkan sebuah kesimpulan dari

Korespondensi : Fulan Fulana 2


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

sejumlah data. Penarikan kesimpulan dalam bentuk pohon, entropy menggunakan rumus pada persamaan 1, dan nilai
yaitu berbentuk hierarki pohon yang terdiri dari akar, batang information gain pada rumus persamaan 5.
dan daun yang merepresentasikan hasil keputusan yang dibuat.
Sebuah node keputusan misalnya untuk mengklasifikasi
Cuaca, yang memiliki dua cabang atau lebih misalnya, cerah,
mendung dan hujan. Memiliki node daun, misalnya, Play, Dimana:
merupakan klasifikasi atau keputusan. Node keputusan paling L merupakan fungsi indikator
atas dalam pohon sesuai dengan prediktor terbaik disebut node ffin merupakan tree ke-n dari algoritma Random Forest
akar, penerapan Decision Tree dapat dilihat pada Gambar 1.
Pada gambar dapat dilihat Decision Tree memiliki 2 macam G. Evaluasi Data Mining
node yaitu node keputusan (Cuaca) dan node daun (Play=Ya Evaluasi terhadap hasi pemodelan menggunakan algoritma
atau Play=Tidak). klasifikasi, dapat digunakan metode cross validation,
confusion matrix, dan kurva ROC (Receiver Operating
Characteristic). Untuk mengembangkan aplikasi (development)
berdasarkan model yang dibuat, dapat digunakan Tools seperti:
Orange, WEKA, Rapid Miner. Metode cross-validation
adalah salah satu teknik untuk menilai keakuratan sebuah
model yang dibangun berdasarkan dataset tertentu. Confusion
Matrix adalah salah satu metode yang dapat digunakan untuk
evaluasi kinerja model klasifikasi. Matriks ini menunjukkan
jumlah prediksi benar dan salah yang dibuat oleh model untuk
setiap kelas. Dari matriks ini, kita dapat menghitung beberapa
metrik penting seperti akurasi, presisi, dan daya ingat [12].
Gambar. 1 Contoh resolusi gambar yang diterima Akurasi adalah rasio jumlah prediksi yang benar dengan
jumlah total prediksi. Presisi adalah rasio jumlah prediksi
Proses mining dengan algoritma Decision Tree dimulai positif yang sebenarnya terhadap jumlah total prediksi positif.
dengan menghitung nilai Entropy dan Gain dari masing- Recall adalah rasio jumlah prediksi positif yang benar dengan
masing atribut data training yang ada sehingga menghasilkan jumlah kelas positif yang sebenarnya. Dengan menggunakan
Gain Ratio. Rumus untuk menghitung Entropy dan Gain bisa Matriks Kebingungan, kami dapat mengevaluasi kinerja
dilihat pada persamaan 3,4 berikut: model klasifikasi secara lebih rinci dan mengidentifikasi area
Rumus mencari gain: yang memerlukan perbaikan. Confusion Matrix akan
(2) digunakan untuk menentukan akurasi, precision, dan recall.
Dimana: Dengan rumus perhitungan sebagai berikut:
S merupakan himpunan kasus (5)
A merupakan atribut
N merupakan banyaknya partisi S (6)
|Si| meruapakan jumlah kasus pada partisi ke-i
|S| meruapakan jumlah kasus dalam S
Dan rumus kedua adalah: (7)
(3) Dimana:
Dimana: TP merupakan jumlah record positif yang diklasifikasikan
S merupakan himpunan kasus sebagai positif, FP merupakam jumlah record negatif yang
N merupakan banyaknya partisi S diklasifikasikan sebagai positif, FN merupakan jumlah record
Pi merupakan probabilitas yang didapat dari kasus I dibagi positif yang diklasifikasikan sebagai negatif, dan TN
total kasus merupakan jumlah record negatif yang diklasifikasikan
sebagai negative.
F. Random Forest Hasil Kurva ROC dapat menunjukkan keakurasian dan
Metode Random Forest (RF) adalah salah satu metode membandingkan klasifikasi secara visual. ROC
untuk meningkatkan nilai akurasi klasifikasi. Metode RF mengekspresikan confusion matrix. Kurva ROC merupakan
dapat membangun pohon keputusan yang terdiri dari root grafik dua dimensi dengan false positives sebagai garis
node, internal node, dan leaf node dengan mengambil atribut horisontal dan true positives sebagai garis vertikal. Nilai Area
dan data secara acak sesuai ketentuan. Root node adalah under curve (AUC) dihitung untuk mengukur perbedaan
simpul yang terletak di atas akar dari sebuah pohon keputusan. performansi metode yang digunakan. AUC dihitung
Sedangkan internal node merupakan simpul percabangan, menggunakan rumus (Liao dan Evangelos, 2007):
node ini mempunyai satu input dan minimal dua output. Leaf (8)
node/terminal node yaitu simpul terakhir yang tidak memiliki
output dan hanya memiliki satu input. Perhitungan nilai Dimana:

Korespondensi : Fulan Fulana 3


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

Dimana:
K merupakan jumlah algoritma klasifikasi yang dikomparasi
X merupakan output positif
Gambar. 3 Contoh Data
Y merupakan output negatif
Pada penelitian sebelumnya algoritma DT lebih baik B. Preprocessing
dibanding algoritma NBC [6] dan KNN lebih baik dibanding Pada tahap data reduction dilakukan pengurangan data dari
algoritma NBC [7]. Komparasi untuk algoritma NBC, KNN, sisi atribut (dimensionality reduction) yang tidak digunakan
DT dan Random Forest pada penelitian lainnya diperoleh hasil dalam penelitian ini. Misalnya dalam dataset Film Indonesia
algoritma Random Forest dengan nilai akurasi 97.25%, terdapat banyak kolom data yang tidak akan digunakan. Pada
Decision Tree 94.78%, dan K-Nearest Neghbor sebesar tahap data transformation dilakukan pembentukan atribut baru
85.99%, lalu yang memiliki nilai akurasi terendah yaitu dari hasil pengolahan yang dapat digunakan dalam proses
algoritma Naive Bayes sebesar 84.07% [8]. analisis klasifikasi, yaitu: yaitu kolom
rekomendasi. Berdasarkan data yang digunakan diketahui
III. METODE PENELITIAN
bahwa dataset penelitian berjenis kategorikal. Sehingga, pada
Alur metode penelitian dari sistem rekomendasi film tahap ini, dilakukan transformasi data menjadi data numerik.
menggunakan pendekatan data mining secara garis besar Cleaning data merupakan tahap awal dalam mengolah data
seperti pada Gambar 2. input sebelum proses pengolahan data untuk menbuat data
mentah menjadi data yang berkualitas dan mendapat input
yang baik. Kegiatan yang dilakukan dalam preprocessing
seperti: menghapus data yang memiliki nilai kosong atau
mengisi nilai yang datanya kosong dengan nilai rata-rata.
C. Penerapan Metode Data Mining
Data yang banyak beserta informasi yang sudah ada, akan
dianalisis dengan model yang didapat yang paling
baik. Penentuan atribut sangat menentukan pola yang
terbentuk dapat menghasilkan model terbaik dan memberikan
insight untuk menentukan lokasi terbaik.
Langkah-langkah algoritma K-Nearest Neighbor:
1. Menentukan nilai parameter k (nilai k dipilih secara
manual)
2. Menghitung jarak antara data training dan data testing
menggunakan metode Euclidean distance
3. Mengurutkan data training berdasarkan jarak terkecil
4. Menetapkan kelas, dimana kelas yang dipilih adalah
Gambar. 2 Flowchart Prosedur Penelitian kelas dengan jumlah nilai k terbanyak pada data testing
Langkah-langkah algoritma Naive Bayes Classifier:
Penjelasan flowchart diatas merupakan tahapan prosedur
1. Menyiapkan dataset
penelitian akan dijelaskan selanjutnya.
2. Menghitung jumlah kelas pada data training
A. Pengumpulan Data 3. Menghitung jumlah kasus yang sama dengan kelas
Data yang digunakan dalam penelitian ini adalah data Film yang sama
Indonesia. Data diperoleh dari website kaggle dengan sumber 4. Mengalikan semua hasil sesuai dengan data testing
data berdasarkan meta datanya adalah tahun 2020 diakses yang akan ditentukan kelasnya
kembali pada 7 Januari 2023 di alamat URL: 5. Membandingkan hasil per kelas, nilai tertinggi
https://www.kaggle.com/code/habibisaifuddin/indonesian- diterapkan sebagai kelas baru.
films-over-the-years/. Dataset terdiri dari 1272 entri dan 12 Langkah-langkah algoritma Decision Tree:
kolom yang terdiri dari: movie_id, title, year, description, 1. Menyiapkan dataset
genre, rating, users_rating, votes, languages, directors, actors, 2. Menghitung nilai Entropy
dan runtime. 3. Menghitung nilai Gain
4. Membuat node dan cabang dari nilai Gain maksimal
5. Mengulangi langkah b, c, d, sampai semua node
terpartisi
Langkah-langkah algoritma Random Forest:

Korespondensi : Fulan Fulana 4


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

1. Pilih secara acak fitur “R” dari total fitur “m” dimana
R<<m.
2. Di antara fitur “R”, hitung simpul menggunakan titik
perpecahan terbaik.
3. Membagi node menjadi simpul anak menggunakan
split terbaik.
4. Ulangi langkah a hingga c hingga “1” jumlah node
telah tercapai.
5. Bangun forest dengan mengulangi langkah a hingga d
untuk jumlah “n” kali untuk membuat “n” jumlah
pohon.
D. Pengukuran Kinerja Algoritma
Pengukuran kinerja metode dapat dilakukan menggunakan
rumus Accuracy, Recall dan F Score. Pengukuran kinerja Gambar. 4 Desain Process Model dalam RapidMiner
metode dilakukan untuk menghitung tingkat kinerja pada
Berikut merupakan pemrosesan data training ke data testing
metode K-Nearest Neighbors, Naive Bayes Classifier,
untuk algoritma Decision Tree.
Decision Tree dan Random Forest sehingga didapatkan
kesamaan atau kedekatan suatu hasil perhitungan dengan
angka atau data yang sebenarnya.
E. Komparasi Kinerja Algoritma
Perbandingan kinerja metode dilakukan setelah tahap
pengukuran kinerja, perbandingan kinerja metode dilakukan
untuk mengetahui hasil perbandingan dari metode K-Nearest
Gambar. 5 Penggunaan data training dan testing DT
Neighbors, Naive Bayes Classifier, Decision Tree dan
Random Forest, sehingga dapat diketahui metode manakah Berikut merupakan pemrosesan data training ke data testing
yang memiliki kinerja yang paling baik dalam melakukan untuk algoritma Decision Tree.
klasifikasi sistem rekomendasi film.

IV. HASIL DAN ANALISIS


Dataset yang sudah diolah dengan preprocessing untuk
menjadikan data siap diterapkan dalam penerapan data mining
penelitian ini. Sebelumnya untuk menentukan film masuk ke
kategori direkomendasi atau tidak, diolah dengan algoritma Gambar. 6 Penggunaan data training dan testing NBC
clustering untuk membedakan film menjadi 2 cluster yaitu
film yang direkomendasi dan tidak. Parameter yang Berikut merupakan pemrosesan data training ke data testing
digunakan untuk metode klasifikasi dengan algoritma untuk algoritma Decision Tree.
Decision Tree, Naive Bayes Classifier, KNN dan Random
Forest adalah year, genre, rating, users_rating, votes,
languages, dan runtime. Pada penelitian ini analisis
perbandingan keempat metode tersebut menggunakan
software Data Mining RapidMiner. Untuk membandingkan
keempat algoritma dengan RapidMiner, desain model untuk
pemrosesan dataset adalah seperti pada gambar berikut: Gambar. 7 Penggunaan data training dan testing KNN

Berikut merupakan pemrosesan data training ke data testing


untuk algoritma Decision Tree.

Gambar. 8 Penggunaan data training dan testing RF

Berikut merupakan pemrosesan untuk membandingkan


keempat algoritma yang digunakan.

Korespondensi : Fulan Fulana 5


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

Berdasarkan data dari tabel diatas maka algoritma Decision


Tree mempunyai kinerja yang paling baik dibanding 3
algoritma yang lain, yang sudah diuji bersama menggunakan
RapidMiner. Perbandingan ROCs untuk keempat algoritma
adalah sebagai berikut:

Gambar. 9 Model perhitungan ROCs untuk semua algoritma

Hasil pengolahan dengan RapidMiner diperoleh nilai


Accuracy, Precision, Recall dan AUC
seperti pada tabel berikut: Gambar. 10 Hasil ROCs perbandingan 4 algoritma data mining
TABEL I
PERBANDINGAN KINERJA ALGORITMA DATA MINING V. KESIMPULAN
Algoritma Accuracy Precision Recall AUC
Kesimpulan yang dapat diambil adalah sebagai berikut:
Decision Tree 99.29% 99.00% 98.72% 0.989 5. Penggunaan data mining untuk rekomendasi film
Native Bayes Classified 88.80% 78.70% 87.64% 0.948 Indonesia dipilih algoritma Decision Tree karena
KNN 79.74% 73.16% 53.88% 0.830 memiliki kinerja yang paling baik dengan nilai
Random Forest 98.90% 98.76% 97.69% 1.000 Accuracy sebesar 99,29%, nilai Precision sebesar
99,00% dan Recall sebesar 98,72%.
TABEL II
CONFUSION MATRIX ALGORITMA DECISION TREE
6. Algoritma Decision Tree dapat digunakan untuk
membangun sistem rekomendasi film untuk
Aktual Aktual Class menyajikan informasi film rekomendasi yang
Rekomen Tidak Precision mempunyai kemiripan dan berdasarkan kriteria genre
Prediksi 876 5 99,43% dan score.
Rekomen
Saran yang dapat disampaikan adalah dataset bisa
Prediksi Tidak 4 383 98,97%
menggunakan yang berisi film dari luar yang dapat
Class Recall 99,55% 98,71%
didownload dari sumber kaggle.
TABEL III
CONFUSION MATRIX ALGORITMA NAIVE BAYES REFERENSI
Aktual Aktual Class [1] A. T. Ciaputra and D. S. Hansun, “Rekomendasi Pemilihan Film
Rekomen Tidak Precision Dengan Hybrid Filtering Dan K-Nearest Neighbor,” J. Rekayasa
Inf., vol. 9, no. 2, p. vol 9-2, 2020.
Prediksi 786 48 94,24% [2] Y. S. N. Riszki Wijayatun Pratiwi, “Prediksi Rating Film
Rekomen Menggunakan Metode Naïve Bayes,” Kinabalu, vol. 11, no. 2, pp.
Prediksi Tidak 94 340 78,34% 50–57, 2017.
Class Recall 89,32% 87,63% [3] A. N. Ikhsan, P. Subarkah, and R. S. Alifian, “Komparasi Algoritme
K-NN, Naïve Bayes, dan Cart untuk Memprediksi Penerima
TABEL IV Beasiswa,” JST (Jurnal Sains dan Teknol., vol. 12, no. 2, pp. 309–
CONFUSION MATRIX ALGORITMA KNN 316, 2023, doi: 10.23887/jstundiksha.v12i2.51745.
[4] N. L. W. S. R. Ginantra, “Deteksi Batik Parang Menggunakan Fitur
Aktual Aktual Class Co-Occurence Matrix Dan Geometric Moment Invariant Dengan
Rekomen Tidak Precision Klasifikasi KNN,” Lontar Komput. J. Ilm. Teknol. Inf., vol. 7, no. 1,
Prediksi 802 179 81,75% p. 40, 2016, doi: 10.24843/lkjiti.2016.v07.i01.p05.
Rekomen [5] W. Liao and T. Evangelos, Recent Advances in Data Mining of
Prediksi Tidak 78 209 72,82% Enterprise Data: Algorithms and Applications. World Scientific,
Class Recall 91,14% 53,87% 2007.
[6] H. Sastypratiwi, Yulianti, and H. Muhardi, “Uji Komparasi
TABEL V Algoritma Naïve Bayes dan Decision Tree Classification,” JEPIN
CONFUSION MATRIX ALGORITMA RF (Jurnal Edukasi dan Penelit. Inform., vol. 8, no. 1, pp. 1–6, 2022.
[7] R. R. Waliyansyah and C. Fitriyah, “Perbandingan Akurasi
Aktual Aktual Class Klasifikasi Citra Kayu Jati Menggunakan Metode Naive Bayes dan
Rekomen Tidak Precision k-Nearest Neighbor (k-NN),” J. Edukasi dan Penelit. Inform., vol. 5,
Prediksi 875 9 98,98% no. 2, p. 157, 2019, doi: 10.26418/jp.v5i2.32473.
Rekomen [8] A. Fauzi and A. H. Yunial, “Optimasi Algoritma Klasifikasi Naive
Bayes, Decision Tree, K – Nearest Neighbor, dan Random Forest
Prediksi Tidak 5 379 98,70%
menggunakan Algoritma Particle Swarm Optimization pada
Class Recall 99,43% 97,68% Diabetes Dataset,” J. Edukasi dan Penelit. Inform., vol. 8, no. 3, p.
470, 2022, doi: 10.26418/jp.v8i3.56656.

Korespondensi : Fulan Fulana 6


JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. x, No. y, mm yy

Korespondensi : Fulan Fulana 7

Anda mungkin juga menyukai