OLEH :
M DZUL ROMAINI AL
160411100175
Mengetahui, Menyetujui,
Ketua Program Studi Informatika Kepala Laboraturium
Jurusan Teknik Informatika
Yoga Dwitya Pramudita, S.Kom., M.Cs. Devie Rosa Anamisa, S.Kom., M.Kom
NIP. 19840413 200812 1 002 NIP. 19841104 200812 2 003
i
Perbandingan Algoritma Cosine Similarity dan Dice Similarity Dalam
Menghitung Kemiripan Dokumen
Penulis
Dosen Pembimbing I
Achmad Jauhari, S.T., M.Kom. Dosen Pembimbing II
NIP. 19810109 200604 1 003 Sigit Susanto Putro, S.Kom., M.Kom.
NIP. 19790313 200604 1 002
ABSTRAK
DAFTAR ISI
7
expansion memiliki nilai precision yang tinggi dibanding dengan metode lainnya,
yaitu sebesar 10,041% dan nilai f-measure yang tinggi dibandingkan metode
lainnya yaitu sebesar 17,061%[3].
Pada Penjelasan diatas dijelaskan bahwa betapa pentingnya sebuah system
pendeteksi kemiripan dan dengan ini peneliti melakukan perbandingan algoritma
pada Cosine dan Dice Similarity dalam menghitung kemiripan dokumen. Dice
Similarity adalah metode tentang mengukur tingkat kedekatan maupun kesamaan
(similarity) term dengan cara pembobotan term. Dokumen dipandang sebagi
sebuah vektor yang memiliki magnitude (jarak) dan direction (arah)[5]. Pada
tahun 2016 Fatkhul Amin, Purwatiningtyas, Edy Winarno melakukan sebuah
penelitian berjudul Rancang Bangun Sistem Temu Kembali Informasi
(Information Retrieval System) Dokumen Berbahasa Jawa menggunakan Metode
DICE Similarity untuk tujuan mempermudah melakukan pencarian dokumen teks
berbahasa Jawa penelitian itu menghasilkan rata-rata recall = 0,04 dan rata-rata
precision = 0,83[5].
Selain metode dice similarity ada juga metode lain yang menghitung
kemiripan antara query dengan dokumen seperti cosine similarity. Terdapat
penelitian yang telah dilakukan mengenai cosine similarity, yaitu penelitian
yang dilakukan oleh Viko Basmalah Wicaksono, dkk [6],yang memberi nilai rata-
rata precission 44,82983% dan recall 99,08165% dalam uraian latar belakang ini
peneliti akan melakukan penelitian berjudul “Perbandingan Algoritma Cosine
Dan Dice Similarity Dalam Menghitung Kemiripan Dokumen”. Pada
penelitian ini peneliti akan melakukan perbandingan algoritma metode Cosine
Similarity dan Dice Similarity dalam menghitung kesamaan didalam dokumen.
Diharapkan dengan adanya penelitian ini dapat mengetahui akurasi
perbandingan algoritma antara metode Cosain Similarity dan Dice Similarity
lebih jelas.
8
1.2. Perumusan Masalah
1.2.1. Permasalahan
Berdasarkan Latar belakang diatas maka permasalahan yang dirumuskan
dalam penelitian ini adalah Membandingkan Algoritma Cosine Similarity dan
Dice similarity untuk menghitung kemiripan dokumen.
1.2.2. Metode Usulan
Metode yang di usulkan yaitu penerapan Algoritma Cosine similarity dan
Dice Similarity untuk menghitung kemiripan dokumen.
1.2.3. Pertanyaan Penelitian
Bagaimana hasil perbandingan akurasi dan waktu untuk menghitung
kemiripan dokumen menggunakan Cosine similarity dan Dice Similarity .
2. Aplikasi ini akan berguna untuk untuk semua orang baik itu komunitas
maupun badan akademisi dan juga bisa berguna untuk pengembangan
penelitian maupun penelitian selanjutnya.
2.1. Similarity
Untuk mengetahui kemiripan(Similarity) peneliti disini menggunakan 2
metode untuk menghitung kemiripan dengan menggunakan Dice Coefficient
Similarity dan Cosine Similarity yang mana peneliti meggunakan query untuk
mencari kata yang relevan serta kemiripan pada suatu system maupun dokumen
yang ada pada sebuah kasus.[3]
d⃗ , ⃗q ∑ (W ij .W iq)
Similarity ( d⃗ q , ⃗q )= ⃗ q i=1
= … … … … ..(1)
|d q|,|q⃗| t t
√∑
i =1
W 2ij . ∑ W 2iq
i=1
| X ∩Y |
Similarity ( X , Y )= 1 1
… … … …..(2)
2 2
|X| .|Y |
Dimana |Ⅹ ∩ ү| adalah jumlah term dari dokumen X dan yang ada pada
dokumen Y,|X| adalah jumlah term yang ada pada dalam dokumen X dan |Y|
adalah jumlah term yang ada pada dalam dokumen Y[10].
2.3. Dice Similarity
Dice Similarity adalah metode untuk melihat tingkat kedekatan atau
kesamaan (smilarity) term antar dua buah objek dengan cara pembobotan term.
Untuk notasi himpunan dapat digunakan rumus [5]:
t
.
2 ∑ (W ij .W iq )
2|⃗d q|,|⃗q| i=1
Dice Similarity ( ⃗d q , q⃗ )= 2 2
= t t
=… … … … … ..(3)
|d⃗q| ,|q⃗| ∑ W .∑ W 2 2
ij iq
i=1 i=1
Pada persamaan diatas, dq dalah vector dokumen yang merupakan representasi matrik
dengan komponen wij. Sedangkan q adalah vector query yang merupakan representasi
matrik dengan komponen wiq.
Dan ada istilah lain dari Dice Similarity yang bisa disebut Dice Coefficient
yang mana merupakan suatu formula untuk menghitung nilai kesamaan dari 2
objek pengamatan,berikut bentuk dari formulanya[11]:
Ada beberapa proses yang terdiri dari tahapan Text mining yang
dinamakan Preprocessing, Preprocessing sendiri adalah suatu process yang
bertujuan untuk menghasilkan data text yang dirubah ke data numerik,
preprocessing memiliki tahapan yaitu case folding,tokenizing,filtering dan
stemming, seperti ditunjuk pada gambar 2[7][3] :
Gambar 1 Proses Text Processing
1. Case Folding
Case Folding sendiri berguna dalam processing text untuk mengubah
semua huruf besar menjadi kecil (lower case) didalam dokumen,yang
mana maksudnya adalah mengecilkan semua huruf yang ada atau semua
huruf disamakan[3].
2. Tokenizing
IDF(kata) adalah nilai IDF dari setiap kata yang akan di cari bobot
kata semakin besar jika sering muncul dalam suatu dokumen dan semakin
kecil jika muncul dalam banyak dokumen, td adalah jumlah keseluruhan
dokumen yang ada, df jumlah kemunculan kata pada semua dokumen. Untuk
menghitung nilai TF-IDF menggunakan persamaan (2)[12].
Keterangan :
W = nilai bobot dari query dalam sebuah dokumen
Tf = nilai kemunculan kata dalam sebuah dokumen
Idf = nilai inverse kemunculan kata dalam sebuah dokumen
2.6. Penelitian Terkait
Penelitian yang dilakukan oleh Viko Basmalah Wicaksono, Ristu Saptono,
Sari Widya Sihwi yang berjudul “Analisis Perbandingan Metode Vector Space
Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus
Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas”. Penelitian ini
untuk melakukan Pencarian Informasi Pedoman Pengobatan. Metode yang
digunakan Hamming Distance, Cosine Similarity, dan Weighted Tree
Similarity.Hasil yang diperoleh dari uji coba menunjukkan nilai precission
34,67% dan recall 85,69% [6].
Eric Siswanto dan Yo Ceng Giap tahun 2020 pada penelitiannya yang
berjudul “IMPLEMENTASI ALGORITMA RABIN-KARP DAN COSINE
SIMILARITY UNTUK PENDETEKSI PLAGIARISME PADA DOKUMEN”
Menerapkan Algoritma Rabin-Karp dengan perhitungan nilai perbandingan
plagiasi dokumen menggunakan Cosine Similarity pada dokumen, berdasarkan
algoritma tersebut pengujian dilakukan dengan jumlah karakter sebanyak 42432
memakan waktu sebanyak 12,49 - 16,17 Detik, waktu bertambah berdasarkan
banyaknya jumlah karakter dalam dokumen dengan hasil dari sample 1 =
32%,sample 2 = 33%, sample 3 = 27%[10].
Dwi Wahyudi, Teguh Susyanto dan Didik Nugroho 2017 yang berjudul
“Implementasi Dan Analisis Algoritma Stemming Nazief & Adriani Dan Porter
Pada Dokumen Berbahasa Indonesia” Menerapkan Algoritma Nazief & Adriani
dan Algoritma Porter, Berdasarkan algoritma tersebut pengujian dilakukan dengan
menghitung nilai Akurasi dan Waktu proses dimana mendapatkan nilai akurasi
95,26% dan waktu proses 22,1668348312 menggunakan Algoritma Nazief &
Adriani [13].
Rito Putriwana Pratama dkk melakukan penelitian tentang “Deteksi
Plagiarisme pada Artikel Jurnal Menggunakan Metode Cosine Similarity” Dari
penelitian tersebut telah mendapatkan hasil nilai recall untuk kasus ini yaitu 13%,
diperoleh dari jumlah dokumen relevan yang terambil dibagi dengan jumlah
dokumen yang ada dalam database dikali 100%, Sedangkan nilai precision yaitu
8%, diperoleh dari jumlah dokumen relevan yang terambil dibagi dengan jumlah
dokumen relevan yang ada dalam pencarian dikali 100%[4].
M Salim dan Y.Anistyasari melakukan penelitian tentang “Pengembangan
Aplikasi Penilaian Ujian Essay Berbasis Online Menggunakan Algoritma Nazief
Dan Adriani Dengan Metode Cosine Mohammad Agus Salim Yeni Anistyasari
Abstrak” Dari penelitian tersebut telah mendapatkan hasil hasil dari aspek
pengoperasian Aplikasi rata-rata indikator didapat nilai 94,61%, Dari aspek desain
aplikasi rata-rata indikator didapat nilai 93,33%, Dan dari aspek isi rata-rata
indikator didapat nilai 93,33%, Dapat disimpulkan kalau rata-rata indikator dalam
rentang 81%-100% bahwa aplikasi berjalan dengan baik dengan kriteria sangat
baik, Serta untuk soal ujian juga divalidasikan memperoleh nilai sedikit 75% yang
sudah masuk kriteria cukup valid sehingga soal untuk aplikasi sudah bisa
digunakan untuk mengambil data [14].
Jaswinder Singh tahun 2017 “Search Term Expansion using Dice
Similarity Measure” Menerapkan Algoritma genetika dengan perhitungan nilai
fitness menggunakan Dice similarity pada dokumen bahasa inggris. berdasarkan
algoritma tersebut pengujian dilakukan dengan menghitung peningkatan
kemiripan antar dokumen sebesar 10.58%.[15]
M. Didik dan R. Wahyudi 2019 yang berjudul “Penerapan Algoritma
Cosine Similarity pada text Mining Terjemahan Al-Qur’an Berdasarkan
Keterkaitan Topik”. Penelitian ini untuk mencari keterkaitan topik menggunakan
metode Cosine Similarity. Berdasarkan dasarkan hasil penelitian metode cosine
similarity memberikan kesesuaian paling optimal dengan rata-rata 46,42%
terhadap index dan tingkat kemiripan sebesar 90%[16]
Ogie Nurdiana dkk melakukan penelitian untuk membandingkan metode
cosine similarity dengan metode jaccard similarity pada aplikasi pencarian
terjemah al-qur’an dalam bahasa Indonesia. Dari hasil yang didapatkan, algoritma
cosine similarity lebih unggul dibandingkan algoritma jaccard similarity dari sisi
tingkat akurasi kemiripan. Cosine similarity menunjukkan tingkat kemiripannya
sebesar yaitu 41%. Sedangkan jaccard similarity menunjukkan tingkat kemiripan
sebesar 19%[7].
Penelitian yang dilakukan oleh Muhammad Haidar Ali dan Faisal Rahutomo
yang berjudul “Manhattan Distance And Dice Similarity Evaluation On Indonesian Essay
Examination System”. Penelitian ini untuk mencari persentase nilai kesalahan jawaban
ujian esai. Penelitian ini menerapkan metode manhattan distance dan dice similarity.
Berdasarkan dasarkan hasil penelitian metode dice similarity memperoleh rata-rata
terkecil tingkat kesalahan dengan persentase 33,7%[17].
Bening Herwijayanti Dkk melakukan penelitian yang berjudul “Klasifikasi
berita online dengan menggunakan pembobotan tf-idf dan cosine
similarity”,Penelitian ini mencari akurasi pada pembobotan td-idf menggunakan
metode cosine similarity,berdasarkan hasil yang dikeluarkan pada uji coba
menghasilkan akurasi persentase sebesar 91,25%[18].
Table 1 Rangkuman penelitian sebelumnya
M.Salim dan Pengembangan Algoritma Nilai Rata-Rata
Y.Anistyasari[14] Aplikasi Penelian Nazief dan Presentase
Ujian Essay Adriani mengeluarkan nilai
94,61%
Berbasis Online dan nilai yang bisa
Menggunakan dikatan cukup baik
Algoritma Nazief berada pada 75%
dan Adriani maka bisa
dikatakan aplikasi
berjalan dengan
sangat baik
cosine dice
# id_cosine Integer # id_dice Integer
o cosine_similarity Variable characters (60) o dice_similarity Float
o waktu_cosine Date & Time o waktu_dice Float
Relationship_4
dokumen
# id_dokumen Integer
o judul Variable characters (200) Relationship_3
o diskripsi Text
naz_dan_adr
# id_nazief Integer
o kata_nazief Variable characters (200)
Relationship_5
o tf_nazief Integer
o idf_nazief Float
o tfidf_nazief Float
bahasa
# id_bahasa Integer
o kata_bahsa Variable characters (200)
tb_query
id_query integer <pk>
query varchar(200)
FK_COSINE_RELATIONS_TB_QUERY FK_DICE_RELATIONS_TB_QUERY
cosine dice
id_cosine integer <pk> id_dice integer <pk>
id_dokumen integer <fk1> id_dokumen integer <fk1>
id_query integer <fk2> id_query integer <fk2>
cosine_similarity varchar(60) dice_similarity float
waktu_cosine timestamp waktu_dice float
FK_COSINE_RELATIONS_DOKUMEN
dokumen
id_dokumen integer <pk> FK_DICE_RELATIONS_DOKUMEN
judul varchar(200)
diskripsi long varchar
naz_dan_adr
id_nazief integer <pk>
id_dokumen integer <fk>
FK_NAZ_DAN__RELATIONS_DOKUMEN kata_nazief varchar(200)
tf_nazief integer
idf_nazief float
tfidf_nazief float
bahasa
id_bahasa integer <pk>
kata_bahsa varchar(200)
[1] P. Šprajc, M. Urh, J. Jerebic, D. Trivan, and E. Jereb, “Reasons for plagiarism in
higher education,” Organizacija, vol. 50, no. 1, pp. 33–45, 2017, doi: 10.1515/orga-
2017-0002.
[2] G. Sankalp Yadav, “Plagiarism - A Serious Scientific Misconduct.,” Int. J. Heal. Sci.
Res., vol. 6, no. 2, pp. 364–366, 2016.
[3] A. D. Fikri, “PERBANDINGAN METODE DICE SIMILARITY DENGAN COSINE
SIMILARITY MENGGUNAKAN QUERY EXPANSION PADA PENCARIAN
AYATUL AHKAM DALAM TERJEMAH ALQURAN BERBAHASA INDONESIA
SKRIPSI Oleh : AHMAD DZUL FIKRI,” 2019.
[4] R. P. Pratama, M. Faisal, and A. Hanani, “Deteksi Plagiarisme pada Dokumen Jurnal
Menggunakan Metode Cosine Similarity,” SMARTICS J., vol. 5, no. 1, pp. 22–26,
2019, doi: 10.21067/smartics.v5i1.2848.
[5] F. Amin and E. Winarno, “Rancang Bangun Sistem Temu Kembali Informasi
( Information Retrieval System ) Dokumen Berbahasa Jawa menggunakan Metode
DICE Similarity,” vol. 21, no. 2, pp. 99–106, 2016.
[6] V. Basmalah Wicaksono, R. Saptono, and S. Widya Sihwi, “Analisis Perbandingan
Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity
pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas,” J. Teknol.
Inf. ITSmart, vol. 4, no. 2, p. 73, 2016, doi: 10.20961/its.v4i2.1768.
[7] O. Nurdiana, J. Jumadi, and D. Nursantika, “Perbandingan Metode Cosine Similarity
Dengan Metode Jaccard Similarity Pada Aplikasi Pencarian Terjemah Al-Qur’an
Dalam Bahasa Indonesia,” J. Online Inform., vol. 1, no. 1, p. 59, 2016, doi:
10.15575/join.v1i1.12.
[8] M. Alewiwi, C. Orencik, and E. Savaş, “Efficient top-k similarity document search
utilizing distributed file systems and cosine similarity,” Cluster Comput., vol. 19, no.
1, pp. 109–126, 2016, doi: 10.1007/s10586-015-0506-0.
[9] J. T. Informatika, “APLIKASI DETEKSI PLAGIARISME MENGGUNAKAN
METODE COSINE SIMILARITY Oleh : RITO PUTRIWANA PRATAMA,” 2018.
[10] J. Algor, “IMPLEMENTASI ALGORITMA RABIN-KARP DAN COSINE
SIMILARITY UNTUK,” vol. 2, pp. 16–22, 2020.
[11] M. Chahal, “Information Retrieval using Jaccard Similarity Coefficient,” Int. J.
Comput. Trends Technol., vol. 36, no. 3, pp. 140–143, 2016, doi:
10.14445/22312803/ijctt-v36p124.
[12] V. Amrizal, “Penerapan Metode Term Frequency Inverse Document Frequency (Tf-
Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui
Syarah Hadits Berbasis Web (Studi Kasus: Hadits Shahih Bukhari-Muslim),” J. Tek.
Inform., vol. 11, no. 2, pp. 149–164, 2018, doi: 10.15408/jti.v11i2.8623.
[13] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis Algoritma
Stemming Nazief & Adriani Dan Porter Pada Dokumen Berbahasa Indonesia,” J. Ilm.
SINUS, vol. 15, no. 2, 2017, doi: 10.30646/sinus.v15i2.305.
[14] M. A. Salim and Y. Anistyasari, “Pengembangan Aplikasi Penilaian Ujian Essay
Berbasis Online Menggunakan Algoritma Nazief Dan Adriani Dengan Metode Cosine
Mohammad Agus Salim Yeni Anistyasari Abstrak,” vol. 02, no. 1, pp. 126–135, 2017.
[15] J. Singh, “S e a r c h T e r m E x p a n s i o n u s i n g D i c e S i m i l a r i t y M e a s u
r e,” pp. 308–314.
[16] M. D. R. Wahyudi, “Penerapan Algoritma Cosine Similarity pada Text Mining
Terjemah Al-Qur’an Berdasarkan Keterkaitan Topik,” Semesta Tek., vol. 22, no. 1, pp.
41–50, 2019, doi: 10.18196/st.221235.
[17] M. H. Ali and F. Rahutomo, “Manhattan Distance and Dice Similarity Evaluation on
Indonesian Essay Examination System,” JIPI (Jurnal Ilm. Penelit. dan Pembelajaran
Inform., vol. 4, no. 2, p. 156, 2019, doi: 10.29100/jipi.v4i2.1398.
[18] B. Herwijayanti, D. E. Ratnawati, and L. Muflikhah, “Klasifikasi Berita Online dengan
menggunakan Pembobotan TF-IDF dan Cosine Similarity,” Pengemb. Teknol. Inf. dan
Ilmu Komput., vol. 2, no. 1, pp. 306–312, 2018.