Anda di halaman 1dari 39

PROPOSAL SKRIPSI

Perbandingan Algoritma Cosine Dan Dice Similarity Dalam


Menghitung Kemiripan Dokumen

OLEH :
M DZUL ROMAINI AL

160411100175

Dosen Pembimbing 1 : Achmad Jauhari, S.T.,M.Kom. 19810109 200604 1 003


Dosen Pembimbing 2 : Sigit Susanto Putro, S.Kom., M.Kom. 19790313 200604 1 002

PROGRAM STUDI INFORMATIKA


JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS TRUNOJOYO MADURA
2020
LEMBAR PERSETUJUAN PROPOSAL

Nama : M Dzul Romaini AL


NRP : 160411100175
Program Studi : Informatika
Dosen Pembimbing : 1. Achmad Jauhari, S.T., M.Kom.
2. Sigit Susanto Putro, S.Kom., M.Kom.
Judul Tugas Akhir : Perbandingan Algoritma Cosine Dan Dice
Similarity Dalam Menghitung Kemiripan
Dokumen

Proposal ini telah disetujui di seminar pada


Tanggal,...................................2020

Dosen Pembimbing I Dosen Pembimbing II

Achmad Jauhari, S.T., M.Kom. Sigit Susanto Putro, S.Kom., M.Kom.


NIP. 19810109 200604 1 003 NIP. 19790313 200604 1 002

Mengetahui, Menyetujui,
Ketua Program Studi Informatika Kepala Laboraturium
Jurusan Teknik Informatika

Yoga Dwitya Pramudita, S.Kom., M.Cs. Devie Rosa Anamisa, S.Kom., M.Kom
NIP. 19840413 200812 1 002 NIP. 19841104 200812 2 003

i
Perbandingan Algoritma Cosine Similarity dan Dice Similarity Dalam
Menghitung Kemiripan Dokumen

Penulis

M Dzul Romaini AL 160411100175

Dosen Pembimbing I
Achmad Jauhari, S.T., M.Kom. Dosen Pembimbing II
NIP. 19810109 200604 1 003 Sigit Susanto Putro, S.Kom., M.Kom.
NIP. 19790313 200604 1 002

ABSTRAK
DAFTAR ISI

LEMBAR PERSETUJUAN PROPOSAL............................................................i


ABSTRAK..............................................................................................................ii
DAFTAR ISI.........................................................................................................iii
DAFTAR GAMBAR..............................................................................................v
DAFTAR TABEL.................................................................................................vi
BAB I PENDHULUAN..........................................................................................1
1.1. Latar Belakang..........................................................................................1
1.2. Perumusan Masalah.....................................................................................3
1.2.1. Permasalahan.........................................................................................3
1.2.2. Metode Usulan.......................................................................................3
1.2.3. Pertanyaan Penelitian.............................................................................3
1.3. Tujuan dan Manfaat Penelitian....................................................................3
1.3.1. Tujuan Penelitian...................................................................................3
1.3.2. Manfaat Penelitian.................................................................................3
1.4. Batasan Masalah..........................................................................................3
1.5. Sistematika Proposal....................................................................................4
BAB II KAJIAN PUSTAKA.................................................................................5
2.1. Information Retrieval....................................................................................5
2.2. Text Prepocessing.........................................................................................5
2.3. TIDF..............................................................................................................7
2.4. Cosine Similarity...........................................................................................8
2.5. Dice Similarity..............................................................................................8
2.6. Penelitian Terkait..........................................................................................8
BAB III METODE USULAN..............................................................................12
3.1. Similarity Mesure........................................................................................12
3.1.1. Cosine Similarity..................................................................................12
3.1.2. Dice Similarity......................................................................................12
3.2. Perhitungan Manual....................................................................................13
3.2.1. Perhitungan TF-IDF..............................................................................16
3.2.2. Perhitungan Cosine Similarity..............................................................18
3.2.3. Perhitungan Dice Similarity..................................................................19
3.3. Arsitektur Sistem.........................................................................................20
3.4. Diagram IPO...............................................................................................21
3.5. Use Case Diagram.......................................................................................21
3.6. Conceptual Data Model Sistem (CDM)......................................................22
3.7. Physical Data Model Sistem (PDM)...........................................................23
3.8. Data Set.......................................................................................................24
3.9. Tahapan Penelitian......................................................................................24
3.9.1 Metodelogi Penelitian............................................................................24
3.10. Skenario Pengujian Sistem........................................................................25
DAFTAR PUSTAKA...........................................................................................27
DAFTAR GAMBAR

Gambar 1 Proses Penambangan Teks......................................................................5


Gambar 2 flowchart perhitungan Cosine similarity...............................................12
Gambar 3 flowchart perhitungan Dice similarity..................................................13
Gambar 4 Arsitektur system..................................................................................20
Gambar 5 Diagram IPO.........................................................................................21
DAFTAR TABEL

Table 1 Rangkuman penelitian sebelumnya..........................................................10


Table 2 Contoh Dokumen......................................................................................13
Table 3 Contoh Query untuk pencarian.................................................................13
Table 4 Hasil Case Folding sekaligus Tokenizing Dokumen................................13
Table 5 Hasil Case Folding sekaligus Tokenizing Query......................................14
Table 6 Hasil Filtering Dokumen..........................................................................14
Table 7 Hasil Filtering Query................................................................................15
Table 8 Hasil Stemming Dokumen dengan Algoritma Nazief dan Adriani...........15
Table 9 Hasil Stemming Query dengan Algoritma Nazief dan Adriani.................16
Table 10 Hasil Perhitungan TF, DF dan IDF dari hasil Stemming Algoritma
Nazief dan Adriani...................................................................................................16
Table 11 Hasil Perhitungan TF-IDF dari hasil Stemming Algoritma Nazief Adriani
................................................................................................................................17
Table 12 Hasil Perhitungan Cosine Similarity.......................................................18
Table 13 Hasil Perhitungan Dice Similarity..........................................................19
Table 14 precision dan recall.................................................................................25
BAB I PENDHULUAN

1.1. Latar Belakang


Sebuah Informasi adalah kebutuhan yang berguna untuk segala pihak dari
pemerintahan maupun rakyat sipil atau masyarakat, bahkan informasi memiliki
kekuatan tersediri dan dapat mempengaruhi keadaan dari suatu tempat maupun
kejadian. Informasi bahkan bisa didapatkan secara mudah di internet yang dapat
diakses sepanjang waktu ketika di perlukan. dokumen merupakan salah satu
media yang menyajikan informasi bagi yang memerlukan dokumen tersebut. Kini
banyaknya dokumen yang tersebar di internet memungkinkan pencarian dokumen
menjadi mudah. Tetapi situs-situs tersebut tentu saja belum memberikan dokumen
yang valid dan cenderung memberikan informasi yang sama atau plagiarisme,
bahkan tanpa mengutip dan mengakuisisi ide asing menjadi milik mereka tanpa
sepengetahuan pemilik asli ide tersebut(plagiator)[1].

Plagiarisme sebuah tindakan dimana seseorang menjiplak suatu


pekerjaan,karya maupun suatu dokumen secara tidak sengaja/disengaja agar
mendapatkan keuntungan dari plagiarism tersebut,bahkan penelitian membuktikan
banyak sekali negara yang melakukan plagiasi sehingga menimbulkan
pencabutannya artikel yang negara tersebut terbitkan dan juga penyumbang
terbanyak jurnal plagiasi itu sendiri dari biomedis,lebih parahnya hanya sedikit
sekali artikel maupun jurnal yang diketahui melakukan plagiasi dicabut[2].

Banyak cara atau metode yang efektif untuk mencocokan antar


query,mulai dengan metode Jaccard,Dice,Cosine Similarity dll untuk menghitung
atau mencari sebuah kemiripan, Cosine dan Dice Similarity biasa digunakan pada
kasus Web Crawling,Plagiarisme,Search Engine,Mengukur/menghitung
kemiripan pada sebuah dokumen Serta program yang memiliki kaitan dengan
information retrieval system.[3][4]

Disini peneliti menggunakan Cosine dan Dice Similarity dikarenakan


hasil penelitian menunjukkan bahwa metode dice similarity dengan menggunakan
query expansion memiliki nilai recall paling tinggi yaitu sebesar 85,357%
dibanding metode lainnya. Metode Cosine similarity menggunakan query

7
expansion memiliki nilai precision yang tinggi dibanding dengan metode lainnya,
yaitu sebesar 10,041% dan nilai f-measure yang tinggi dibandingkan metode
lainnya yaitu sebesar 17,061%[3].
Pada Penjelasan diatas dijelaskan bahwa betapa pentingnya sebuah system
pendeteksi kemiripan dan dengan ini peneliti melakukan perbandingan algoritma
pada Cosine dan Dice Similarity dalam menghitung kemiripan dokumen. Dice
Similarity adalah metode tentang mengukur tingkat kedekatan maupun kesamaan
(similarity) term dengan cara pembobotan term. Dokumen dipandang sebagi
sebuah vektor yang memiliki magnitude (jarak) dan direction (arah)[5]. Pada
tahun 2016 Fatkhul Amin, Purwatiningtyas, Edy Winarno melakukan sebuah
penelitian berjudul Rancang Bangun Sistem Temu Kembali Informasi
(Information Retrieval System) Dokumen Berbahasa Jawa menggunakan Metode
DICE Similarity untuk tujuan mempermudah melakukan pencarian dokumen teks
berbahasa Jawa penelitian itu menghasilkan rata-rata recall = 0,04 dan rata-rata
precision = 0,83[5].
Selain metode dice similarity ada juga metode lain yang menghitung
kemiripan antara query dengan dokumen seperti cosine similarity. Terdapat
penelitian yang telah dilakukan mengenai cosine similarity, yaitu penelitian
yang dilakukan oleh Viko Basmalah Wicaksono, dkk [6],yang memberi nilai rata-
rata precission 44,82983% dan recall 99,08165% dalam uraian latar belakang ini
peneliti akan melakukan penelitian berjudul “Perbandingan Algoritma Cosine
Dan Dice Similarity Dalam Menghitung Kemiripan Dokumen”. Pada
penelitian ini peneliti akan melakukan perbandingan algoritma metode Cosine
Similarity dan Dice Similarity dalam menghitung kesamaan didalam dokumen.
Diharapkan dengan adanya penelitian ini dapat mengetahui akurasi
perbandingan algoritma antara metode Cosain Similarity dan Dice Similarity
lebih jelas.

8
1.2. Perumusan Masalah
1.2.1. Permasalahan
Berdasarkan Latar belakang diatas maka permasalahan yang dirumuskan
dalam penelitian ini adalah Membandingkan Algoritma Cosine Similarity dan
Dice similarity untuk menghitung kemiripan dokumen.
1.2.2. Metode Usulan
Metode yang di usulkan yaitu penerapan Algoritma Cosine similarity dan
Dice Similarity untuk menghitung kemiripan dokumen.
1.2.3. Pertanyaan Penelitian
Bagaimana hasil perbandingan akurasi dan waktu untuk menghitung
kemiripan dokumen menggunakan Cosine similarity dan Dice Similarity .

1.3. Tujuan dan Manfaat Penelitian


1.3.1. Tujuan Penelitian
Dari pertanyaan penelitian di atas maka dengan itu tujuan dari penelitian
ini adalah mengetahui perbandingan akurasi dan waktu pencarian kemiripan
menggunakan Cosine dan Dice Similarity pada dokumen yang diuji dan juga
membuat system yang membandingkan 2 metode tersebut, sehingga bisa di
gunakan di pada penelitian lanjutan
1.3.2. Manfaat Penelitian
1. Adapun manfaat penelitian ini adalah mengetahui mana metode yang lebih
baik antara cosine dan dice dalam mencari kemiripan dokumen

2. Aplikasi ini akan berguna untuk untuk semua orang baik itu komunitas
maupun badan akademisi dan juga bisa berguna untuk pengembangan
penelitian maupun penelitian selanjutnya.

1.4. Adapun Batasan Masalah


1. Dokumen berita akan diambil dari situs PTA Universitas Trunojoyo Madura
2. Metode yang dibandingkan adalah cosine similarity dan dice similarity
3. Pencarian hanya bisa digunakan/dilakukan untuk pencarian teks berbahasa
Indonesia.
4. Sistem yang akan dibuat berbasis web.
5. Yang di cari kemiripannya hanya abstrak pada dokumen yang diinginkan
6. Rentang waktu penelitian yang peneliti lakukan yaitu 4 bulan
1.5. Sistematika Proposal
Adapun sistematika yang digunakan dalam penelitian pada skripsi berikut:
BAB I PENDAHULUAN
Bab ini menjelaskan latar belakang masalah, rumusan masalah, batasan masalah,
tujuan dan manfaat penelitian, metode penelitian dan sistematika penulisan
proposal.
BAB II KAJIAN PUSTAKA
Pada bab akan menjelaskan mengenai konsep-konsep dan teori-teori yang mendukung
dalam penyusunan penelitian ini. Serta untuk memberikan dasar teori-teori yang
digunakan dalam menyelesaikan permasalahan.
BAB III METODE USULAN
Pada bab akan menjelaskan mengenai rancangan sistem yang akan dibuat, termasuk
adanya tahapan analisa permasalahan, perancangan sistem, pengujian sistem,
analisa evaluasi pengujian dan penarikan kesimpulan.
BAB II KAJIAN PUSTAKA

2.1. Similarity
Untuk mengetahui kemiripan(Similarity) peneliti disini menggunakan 2
metode untuk menghitung kemiripan dengan menggunakan Dice Coefficient
Similarity dan Cosine Similarity yang mana peneliti meggunakan query untuk
mencari kata yang relevan serta kemiripan pada suatu system maupun dokumen
yang ada pada sebuah kasus.[3]

2.2. Cosine Similarity


Cosine Similarity adalah algoritma yang digunakan untuk melakukan
proses Kesamaan katakunci,proses ini merupakan metode untuk menghitung
kemiripan antar objek yang dibandingkan melalui antar vector dengan
membandingkan kata kunci pada dokumen tersebut,dengan contoh perhitungan
Cosine Similarity yang dirumuskan seperti dibawah ini [7].
t

d⃗ , ⃗q ∑ (W ij .W iq)
Similarity ( d⃗ q , ⃗q )= ⃗ q i=1
= … … … … ..(1)
|d q|,|q⃗| t t

√∑
i =1
W 2ij . ∑ W 2iq
i=1

Cosine Similarity dalam sebuah penelitian ini juga digunakan untuk


menemukan fitur paling penting dalam dokumen yang memiliki kesamaan dan
dalam kasus ini ada 3 pendekatan yaitu deteksi duplikat,istilah penting atau umum
dan fase gabungan[8][9].

Tujuan Cosine Similarity sendiri ialah dengan menghitung tingkat


kesamaan dengan contoh rumus dibawah ini[10].

| X ∩Y |
Similarity ( X , Y )= 1 1
… … … …..(2)
2 2
|X| .|Y |

Dimana |Ⅹ ∩ ү| adalah jumlah term dari dokumen X dan yang ada pada
dokumen Y,|X| adalah jumlah term yang ada pada dalam dokumen X dan |Y|
adalah jumlah term yang ada pada dalam dokumen Y[10].
2.3. Dice Similarity
Dice Similarity adalah metode untuk melihat tingkat kedekatan atau
kesamaan (smilarity) term antar dua buah objek dengan cara pembobotan term.
Untuk notasi himpunan dapat digunakan rumus [5]:
t
.
2 ∑ (W ij .W iq )
2|⃗d q|,|⃗q| i=1
Dice Similarity ( ⃗d q , q⃗ )= 2 2
= t t
=… … … … … ..(3)
|d⃗q| ,|q⃗| ∑ W .∑ W 2 2
ij iq
i=1 i=1

Pada persamaan diatas, dq dalah vector dokumen yang merupakan representasi matrik
dengan komponen wij. Sedangkan q adalah vector query yang merupakan representasi
matrik dengan komponen wiq.

Dan ada istilah lain dari Dice Similarity yang bisa disebut Dice Coefficient
yang mana merupakan suatu formula untuk menghitung nilai kesamaan dari 2
objek pengamatan,berikut bentuk dari formulanya[11]:

Dice Coefficient =2∗¿ X ∩Y ∨ ¿ ¿


| X|+¿ Y ∨¿ … … … … … ..(4)¿

2.4. Text Mining


Text Mining adalah proses awal dimana tahapnya mengubah data text tak
teratur dan terstruktur untuk diekstraksi agar lebih mudah di proses, Text Mining
dibagi menjadi 2 tahap yaitu dengan menerapkan struktur terhadap sumber data
teks lalu mengekstrasi informasi serta pengetahuan yang relevan dari data teks
dokumen. Text Mining memiliki karakteristik diantaranya memiliki dimensi yang
tinggi,terdapat noise di datanya dan stuktur teks yang buruk[3].

Ada beberapa proses yang terdiri dari tahapan Text mining yang
dinamakan Preprocessing, Preprocessing sendiri adalah suatu process yang
bertujuan untuk menghasilkan data text yang dirubah ke data numerik,
preprocessing memiliki tahapan yaitu case folding,tokenizing,filtering dan
stemming, seperti ditunjuk pada gambar 2[7][3] :
Gambar 1 Proses Text Processing
1. Case Folding
Case Folding sendiri berguna dalam processing text untuk mengubah
semua huruf besar menjadi kecil (lower case) didalam dokumen,yang
mana maksudnya adalah mengecilkan semua huruf yang ada atau semua
huruf disamakan[3].

2. Tokenizing

Tokenization dilakukan dengan menghilangkan semua tanda baca dan


memisahkannya setiap spasi. Tahapan ini juga menghilangkan karakter-
karakter tertentu contohnya adalah tanda baca[7][3].

3. Stopword Removal atau Filtering


Stopwords removal merupakan proses penghilangan kata yang tidak
penting pada deskripsi dokumen dengan pengecekan tiap kata hasil parsing
deskripsi apakah termasuk di dalam daftar kata tidak penting (stoplist) atau
tidak[7][3].

4. Stemming Algoritma Nazief dan Adriani


stemming adalah tahap mencari kata dasar dari tiap kata dari kalimat
yang di dapat dari hasil proses filtering. Ada beberapa algoritma yang
dikhususkan untuk stemming Bahasa Indonesia dengan berbagai
keterbatasan didalamnya.[7][3] Algoritma Nazief dan Adriani misalnya,
algoritma ini memiliki kemampuan persentase keakuratan lebih baik dari
algoritma lainnya [12]. Algoritma ini memiliki tahapan-tahapan sebagai
rumus berikut [5]:
𝑃𝑟𝑒𝑓𝑖𝑘𝑠 1 + 𝑃𝑟𝑒𝑓𝑖𝑘𝑠 2 + 𝐾𝑎𝑡𝑎 𝐷𝑎𝑠𝑎𝑟 + 𝑆𝑢𝑓𝑖𝑘𝑠 3 + 𝑆𝑢𝑓𝑖𝑘𝑠 2 +
𝑆𝑢𝑓𝑖𝑘𝑠 1
 Pertama cari kata yang akan disistem dalam kamus kata dasar.
Jika ditemukan maka diasumsikan kata adalah kata dasar. Maka
algoritma berhenti.
 Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)
dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”)
maka langkah ini diulangi lagi untuk menghapus Possesive
Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.
 Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata
ditemukan di kamus, maka algoritma berhenti. Jika tidak maka
ke langkah c1
1. Jika “-an” telah dihapus dan huruf terakhir dari kata
tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika
kata tersebut ditemukan dalam kamus maka algoritma
berhenti. Jika tidak ditemukan maka lakukan langkah c2.

2. Akhiran yang dihapus (“-i”, “-an” atau “-kan”)


dikembalikan, lanjut ke langkah d.

 Hapus Derivation Prefix. Jika pada langkah c ada sufiks yang


dihapus maka pergi ke langkah d1, jika tidak pergi ke langkah
d2.
1. Periksa tabel kombinasi awalan-akhiran yang tidak
diijinkan. Jika ditemukan maka algoritma berhenti, jika
tidak
2. pergi ke langkah d2.

3. For i = 1 to 3, tentukan tipe awalan kemudian hapus


awalan. Jika kata dasar belum juga ditemukan lakukan
langkah e, jika sudah maka algoritma berhenti. Catatan:
jika awalan kedua sama dengan awalan pertama algoritma
berhenti.
 Melakukan Recording.
 Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata
awal diasumsikan sebagai kata dasar. Proses selesai
2.5. TIDF
Metode TF-IDF (Term Frequency – Inversed Document Frequency)
merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term)
kepada dokumen. Metode ini menggabungkan dua konsep untuk menghitung
bobot dengan lebih akurat yaitu, frekuensi munculnya sebuah kata didalam
sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung
kata tersebut [12].

IDF(kata) adalah nilai IDF dari setiap kata yang akan di cari bobot
kata semakin besar jika sering muncul dalam suatu dokumen dan semakin
kecil jika muncul dalam banyak dokumen, td adalah jumlah keseluruhan
dokumen yang ada, df jumlah kemunculan kata pada semua dokumen. Untuk
menghitung nilai TF-IDF menggunakan persamaan (2)[12].

𝑾𝒅𝒕 = 𝑻𝒇 × 𝒊𝒅𝒇 … … … (5)

Keterangan :
W = nilai bobot dari query dalam sebuah dokumen
Tf = nilai kemunculan kata dalam sebuah dokumen
Idf = nilai inverse kemunculan kata dalam sebuah dokumen
2.6. Penelitian Terkait
Penelitian yang dilakukan oleh Viko Basmalah Wicaksono, Ristu Saptono,
Sari Widya Sihwi yang berjudul “Analisis Perbandingan Metode Vector Space
Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus
Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas”. Penelitian ini
untuk melakukan Pencarian Informasi Pedoman Pengobatan. Metode yang
digunakan Hamming Distance, Cosine Similarity, dan Weighted Tree
Similarity.Hasil yang diperoleh dari uji coba menunjukkan nilai precission
34,67% dan recall 85,69% [6].
Eric Siswanto dan Yo Ceng Giap tahun 2020 pada penelitiannya yang
berjudul “IMPLEMENTASI ALGORITMA RABIN-KARP DAN COSINE
SIMILARITY UNTUK PENDETEKSI PLAGIARISME PADA DOKUMEN”
Menerapkan Algoritma Rabin-Karp dengan perhitungan nilai perbandingan
plagiasi dokumen menggunakan Cosine Similarity pada dokumen, berdasarkan
algoritma tersebut pengujian dilakukan dengan jumlah karakter sebanyak 42432
memakan waktu sebanyak 12,49 - 16,17 Detik, waktu bertambah berdasarkan
banyaknya jumlah karakter dalam dokumen dengan hasil dari sample 1 =
32%,sample 2 = 33%, sample 3 = 27%[10].
Dwi Wahyudi, Teguh Susyanto dan Didik Nugroho 2017 yang berjudul
“Implementasi Dan Analisis Algoritma Stemming Nazief & Adriani Dan Porter
Pada Dokumen Berbahasa Indonesia” Menerapkan Algoritma Nazief & Adriani
dan Algoritma Porter, Berdasarkan algoritma tersebut pengujian dilakukan dengan
menghitung nilai Akurasi dan Waktu proses dimana mendapatkan nilai akurasi
95,26% dan waktu proses 22,1668348312 menggunakan Algoritma Nazief &
Adriani [13].
Rito Putriwana Pratama dkk melakukan penelitian tentang “Deteksi
Plagiarisme pada Artikel Jurnal Menggunakan Metode Cosine Similarity” Dari
penelitian tersebut telah mendapatkan hasil nilai recall untuk kasus ini yaitu 13%,
diperoleh dari jumlah dokumen relevan yang terambil dibagi dengan jumlah
dokumen yang ada dalam database dikali 100%, Sedangkan nilai precision yaitu
8%, diperoleh dari jumlah dokumen relevan yang terambil dibagi dengan jumlah
dokumen relevan yang ada dalam pencarian dikali 100%[4].
M Salim dan Y.Anistyasari melakukan penelitian tentang “Pengembangan
Aplikasi Penilaian Ujian Essay Berbasis Online Menggunakan Algoritma Nazief
Dan Adriani Dengan Metode Cosine Mohammad Agus Salim Yeni Anistyasari
Abstrak” Dari penelitian tersebut telah mendapatkan hasil hasil dari aspek
pengoperasian Aplikasi rata-rata indikator didapat nilai 94,61%, Dari aspek desain
aplikasi rata-rata indikator didapat nilai 93,33%, Dan dari aspek isi rata-rata
indikator didapat nilai 93,33%, Dapat disimpulkan kalau rata-rata indikator dalam
rentang 81%-100% bahwa aplikasi berjalan dengan baik dengan kriteria sangat
baik, Serta untuk soal ujian juga divalidasikan memperoleh nilai sedikit 75% yang
sudah masuk kriteria cukup valid sehingga soal untuk aplikasi sudah bisa
digunakan untuk mengambil data [14].
Jaswinder Singh tahun 2017 “Search Term Expansion using Dice
Similarity Measure” Menerapkan Algoritma genetika dengan perhitungan nilai
fitness menggunakan Dice similarity pada dokumen bahasa inggris. berdasarkan
algoritma tersebut pengujian dilakukan dengan menghitung peningkatan
kemiripan antar dokumen sebesar 10.58%.[15]
M. Didik dan R. Wahyudi 2019 yang berjudul “Penerapan Algoritma
Cosine Similarity pada text Mining Terjemahan Al-Qur’an Berdasarkan
Keterkaitan Topik”. Penelitian ini untuk mencari keterkaitan topik menggunakan
metode Cosine Similarity. Berdasarkan dasarkan hasil penelitian metode cosine
similarity memberikan kesesuaian paling optimal dengan rata-rata 46,42%
terhadap index dan tingkat kemiripan sebesar 90%[16]
Ogie Nurdiana dkk melakukan penelitian untuk membandingkan metode
cosine similarity dengan metode jaccard similarity pada aplikasi pencarian
terjemah al-qur’an dalam bahasa Indonesia. Dari hasil yang didapatkan, algoritma
cosine similarity lebih unggul dibandingkan algoritma jaccard similarity dari sisi
tingkat akurasi kemiripan. Cosine similarity menunjukkan tingkat kemiripannya
sebesar yaitu 41%. Sedangkan jaccard similarity menunjukkan tingkat kemiripan
sebesar 19%[7].
Penelitian yang dilakukan oleh Muhammad Haidar Ali dan Faisal Rahutomo
yang berjudul “Manhattan Distance And Dice Similarity Evaluation On Indonesian Essay
Examination System”. Penelitian ini untuk mencari persentase nilai kesalahan jawaban
ujian esai. Penelitian ini menerapkan metode manhattan distance dan dice similarity.
Berdasarkan dasarkan hasil penelitian metode dice similarity memperoleh rata-rata
terkecil tingkat kesalahan dengan persentase 33,7%[17].
Bening Herwijayanti Dkk melakukan penelitian yang berjudul “Klasifikasi
berita online dengan menggunakan pembobotan tf-idf dan cosine
similarity”,Penelitian ini mencari akurasi pada pembobotan td-idf menggunakan
metode cosine similarity,berdasarkan hasil yang dikeluarkan pada uji coba
menghasilkan akurasi persentase sebesar 91,25%[18].
Table 1 Rangkuman penelitian sebelumnya
M.Salim dan Pengembangan Algoritma Nilai Rata-Rata
Y.Anistyasari[14] Aplikasi Penelian Nazief dan Presentase
Ujian Essay Adriani mengeluarkan nilai
94,61%
Berbasis Online dan nilai yang bisa
Menggunakan dikatan cukup baik
Algoritma Nazief berada pada 75%
dan Adriani maka bisa
dikatakan aplikasi
berjalan dengan
sangat baik

Jaswinder Singh, Search Term Dice Perhitungan nilai


Similarity,Algor
2017[15] Expansion using fitness
itma Genetika
Dice Similarity menggunakan dice
Measure similarity
mendapatkan hasil
pegujian yang
dilakukan dengan
menghitung
peningkatan
kemiripan antar
dokumen sebesar
10,58%
M. Didik dan R. Mendeteksi Dice similarity Persentase tingkat
Wahyudi, 2019[16] kempiripan kemiripan sebesar
topik 90%
terjemahan Al-
Qur’an
Ogie Nurdiana dkk. Membandingkan cosine similarity Cosine similarity
dan jaccard
2016 [7] Algoritma cosine menunjukkan
similarity
similarity dengan tingkat
jaccard similarity kemiripannya
sebesar yaitu 41%.
Sedangkan jaccard
similarity
menunjukkan
tingkat kemiripan
sebesar 19%
Muhammad Haidar Mencari Manhattan Metode Dice
Distance dan
Ali dan Faisal Persentase Nilai Similarity
Similarity terhadap nilai kemiripan dari pihak ke 3.
f. Dokumentasi dan Penyusunan Laporan
Dokumentasi dan Penyusunan pada Laporan ini akan dilakukan
selama penelitian ini berlangsung. Sehingga penyusunan laporan
pada penelitian ini dapat dilakukan sesuai dengan sistematika
penulisan penelitian.

3.2. Similarity Mesure


3.2.1. Cosine Similarity
Proses perhitungan cosine similarity dijelaskan dengan Blog Diagram
pada gambar 2 dibawah ini.

Gambar 2 Blog Diagram perhitungan Cosine similarity


3.2.2. Dice Similarity
Dice Similarity merupakan salah satu ukuran kemiripan atau kesamaan pad
metode ini. Proses perhitungan dice similarity dijelaskan dengan Blog Diagram
pada gambar 3 dibawah ini.
Gambar 3 Blog Diagram perhitungan Dice similarity

3.3. Arsitektur Sistem

Gambar 4 Arsitektur system


Pada Gambar/ilustrasi 4,sistem yang akan peneliti buat, Aplikasi ini
terdapat dua user yaitu admin dan (client). sistem pencarian teks berbahasa
Indonesia menggunakan metode Cosine Similarity dan Dice Similarity pada
Abstrak, Admin menyediakan Abstrak, selanjutnya diinputkan kedalam sistem
kemudian sistem akan mengolah data tersebut melalui tahapan Prepocessing
(Case Folding, Tokenizing, Stopword Removal / Filtering , Stemming) dan hasil
pembobotan TF-IDF setelah itu lalu akan disimpan kedalam database. Lalu user
melakukan penginputan query yang akan dicari selanjutnya pada query tersebut
akan dicocokkan dengan database dokumen abstrak kemudian akan diolah melalui
tahapan Prepocessing (Case Folding, Tokenizing, Stopword Removal / Filtering ,
Stemming) dan pembobotan TF-IDF dan dilakukan perhitungan kemiripan antara
query dengan abstrak dokumen tersebut menggunakan metode Cosine Similarity
dan Dice Similarity. Tahapan terakhir adalah menampilkan hasil dokumen sesuai
dengan kemiripan abstrak pada dokumen yang akan ditampilkan kepada user.
3.4. Diagram IPO
Diagram IPO (Input-Proses-Output) adalah sebuah pemprosesan data yang
diinputkan ke sistem untuk diproses lalu mengasilkan output sesuai seperti
inputan yang sudah dilakukan pada sebuah sistem sebelumnya. IPO tidak
menjelaskan secara lengkap mengenai proses dalam suatu sistem, namun IPO
berguna untuk menganalisis keseluruhan informasi pada sistem yang dihasilkan.
Diagram tersebut dapat dilihat pada gambar 5.

Gambar 5 Diagram IPO


3.5. Data Set
Dataset yang akan digunakan pada penelitian dalam sistem plagiasi
Dokumen ini didapatkan dari Portal Artikel Tugas Akhir kampus Universitas
Trunojoyo Madura (https://pta.trunojoyo.ac.id/). Dengan jumlah abstrak yang
digunakan berjumlah 70 dokumen yang menggunakan Bahasa Indonesia.

Peneliti mengambil 1 abstrak sebagai contoh data yang digunakan untuk


penelitian ini yaitu berjudul “Analisis Wacana Media Online Detik.com dalam
Memberitakan Peristiwa Kerusuhan Mahasiswa Papua di Surabaya”.:
Analisis wacana pemberitaan Detikcom dalam Memberitakan Peristiwa Kerusuhan
Mahasiswa Papua di Surabaya Tujuan dalam penelitian ini adalah untuk mengetahui
bagaimana analisis wacana kritis pemberitaan Detik.com dalam Memberitakan Peristiwa
Kerusuhan Mahasiswa Papua di Surabaya. Metode penelitian yang digunakan adalah
kualitatif deskrriptif dengan pendekatan Critical discourse analysis Fairclough. Penelitian ini
menggunakan teknik pengumpulan data yaitu Observasi dan wawancara dan dokumentasi.
Analisis data yang digunakan adalah analisis wacana kritis Norman Fairclough. Teori yang
digunakan dalam penelitian ini adalah Teori Analisis wacana kritis (Critical discourse
analysis) milik Norman Fairclough. Hasil penelitian ini menunjukan bahwa dalam
mewacanakan pemberitaan peristiwa kerusuhan mahasiswa Papua di Surabaya menunjukan
Detik.com relatif kurang proporsional. Hal ini terlihat dari lemahnya proses verifikasi serta
konfirmasi dalam kaidah jurnalistik. Detik.com hanya memakai satu partisipan sebagai
narasumber dalam empat berita. Dari analisis wacana kritis Norman Fairclough yang
dilakukan didapati bahwa Detikcom relatif lebih menyudutkan Mahasiswa Papua. Ini
tergambar saat menuliskan berita detikcom tidak menempatkan satupun narasumber dari
pihak mahasiswa papua.

3.6. Conceptual Data Model Sistem (CDM)


Conceptual Data Model (CDM) digunakan untuk menggambarkan system
secara detail pada struktur basisdata dalam bentuk logik tanpa relasi, sistem ini
dibangun menggunakan XAMPP Mysql, agar lebih jelas perancangan database
dalam bentuk CDM dapat dilihat pada gambar 6.
tb_query
# id_query Integer
o query Variable characters (200)
Relationship_6 Relationship_7

cosine dice
# id_cosine Integer # id_dice Integer
o cosine_similarity Variable characters (60) o dice_similarity Float
o waktu_cosine Date & Time o waktu_dice Float

Relationship_4

dokumen
# id_dokumen Integer
o judul Variable characters (200) Relationship_3
o diskripsi Text

naz_dan_adr
# id_nazief Integer
o kata_nazief Variable characters (200)
Relationship_5
o tf_nazief Integer
o idf_nazief Float
o tfidf_nazief Float

bahasa
# id_bahasa Integer
o kata_bahsa Variable characters (200)

Gambar 6 Conceptual Data Model (CDM)


3.7. Physical Data Model Sistem (PDM)
Physhical Data Model (PDM) merupakan bentuk tabel database secara
fisik kompleks dengan relasinya, tabel ini yang digunakan sesungguhnya pada
sistem. Agar lebih jelas mengenai struktur tabel dari sisem dapat dilihat pada
gambar 7.

tb_query
id_query integer <pk>
query varchar(200)
FK_COSINE_RELATIONS_TB_QUERY FK_DICE_RELATIONS_TB_QUERY

cosine dice
id_cosine integer <pk> id_dice integer <pk>
id_dokumen integer <fk1> id_dokumen integer <fk1>
id_query integer <fk2> id_query integer <fk2>
cosine_similarity varchar(60) dice_similarity float
waktu_cosine timestamp waktu_dice float

FK_COSINE_RELATIONS_DOKUMEN

dokumen
id_dokumen integer <pk> FK_DICE_RELATIONS_DOKUMEN
judul varchar(200)
diskripsi long varchar

naz_dan_adr
id_nazief integer <pk>
id_dokumen integer <fk>
FK_NAZ_DAN__RELATIONS_DOKUMEN kata_nazief varchar(200)
tf_nazief integer
idf_nazief float
tfidf_nazief float

bahasa
id_bahasa integer <pk>
kata_bahsa varchar(200)

Gambar 7 Physhical Data Model (CDM)


3.8. Design Algoritma
Design Algoritma merupakan gambaran atau rancangan alur program agar
bisa diketahui bagaimana jalan program nantinya, Design Algoritma hanya
menjelaskan alur secara simple dan tidak mendetail, Berikut contohnya bisa dilihat
pada gambar 8 dibawah ini:

Gambar 8 Design Algoritma


3.9. Design Interface
3.9.1. Halaman Pengguna/Client
Design interface merupakan bentuk sementara atau bisa disamakan dengan
sketsa untuk gambaran seperti apa nanti program tersebut akan dibuat, pada
gambaran design ini bukanlah hasil final dari program yang dibuat. Untuk tampilan
awal akan mencakup halaman pengguna atau Client, yang mana terdapat bagian
tombol login dibagian pojok kanan atas dan dibagian tengah terdapat tempat
menginputkan text/abstrak dokumen untuk mencari kemiripannya, pada bagian
bawah terdapat tombol submit dan text bertulisan “kemiripan=……%” untuk
mengetahui berapa persen kemiripan yang didapat dari pendeteksian tersebut,
tampilan dapat di lihat pada gambar 8 dibawah ini:

Gambar 9 Halaman Pengguna


3.9.2. Login Admin
Pada bagian Login Admin, Terdapat 2 text box di tengah yang terdiri dari
username dan password, dimana admin dapat mengisi agar bisa mengakses fitur yang
ada di dalamnya, berikut bisa lihat di gambar 9:

Gambar 10 Login Admin

3.9.3. Halaman Admin


Pada bagian halaman Admin, Terdapat 4 fitur di bagian menu kiri yang mana
di dalamnya terdapat fungsi masing-masing, untuk bagian pertama masuk, halaman
admin akan menampilkan dashboard dokumen sebagai tampilan utama yang hanya
berisi kata sambutan pada bagian tengahnya, Lalu terdapatmenu dokumen yang berisi
database dokumen yang tersedia didalamnya serta menu akurasi untuk melihat
perbandingan 2 metode yang di bandingkan dengan cara mengisi abstract yang ada di
dalamnya serta menu logout untuk keluar dari halaman admin, berikut contoh seperti
di bawah ini :
Gambar 11 Dashboard Admin

Pada gambar 11, terdapat table ditengah yang menampung data-data


yang tersedia di dalamnya. Dapat dilihat pada gambar dibawah:

Gambar 12 Dokumen Admin

Pada gambar 12, admin dapat mengetahui perbandingan dari 2 metode


yang di bandingkan berdasarkan presentase yang di dapat pada halaman awal
dengan cara memasukan abstrak, dapat dilihat pada gambar dibawah ini:
Gambar 13 Akurasi Admin

3.10. Skenario Pengujian Sistem

Pengujian ini bertujuan untuk mendeteksi seberapa tepat hasil


dari algoritma Cosine dan Dice Similarity pada sistem yang dibuat.
Plagiarism Checker X adalah aplikasi pendeteksi plagiasi yang dapat
membandingkan dokumen teks dan dapat menghasilkan output berupa
persentase kemiripan dokumen tersebut. Plagiarism Checker X menyatakan
bahwa aplikasinya merupakan alternatif terbaik dari Turnitin. Aplikasi yang
mengedepankan kecepatan, ketepatan, dan antarmuka pengguna yang
mudah dimengerti ini dipakai oleh beberapa institut terkenal, seperti Ohio
University, King Saud University, Delta-State-University-Abraka bahkan
juga digunakan oleh IEEE.Jika hasilnya sama persis atau sedikit sama,
berarti diasumsikan "sudah tepat”.
DAFTAR PUSTAKA

[1] P. Šprajc, M. Urh, J. Jerebic, D. Trivan, and E. Jereb, “Reasons for plagiarism in
higher education,” Organizacija, vol. 50, no. 1, pp. 33–45, 2017, doi: 10.1515/orga-
2017-0002.
[2] G. Sankalp Yadav, “Plagiarism - A Serious Scientific Misconduct.,” Int. J. Heal. Sci.
Res., vol. 6, no. 2, pp. 364–366, 2016.
[3] A. D. Fikri, “PERBANDINGAN METODE DICE SIMILARITY DENGAN COSINE
SIMILARITY MENGGUNAKAN QUERY EXPANSION PADA PENCARIAN
AYATUL AHKAM DALAM TERJEMAH ALQURAN BERBAHASA INDONESIA
SKRIPSI Oleh : AHMAD DZUL FIKRI,” 2019.
[4] R. P. Pratama, M. Faisal, and A. Hanani, “Deteksi Plagiarisme pada Dokumen Jurnal
Menggunakan Metode Cosine Similarity,” SMARTICS J., vol. 5, no. 1, pp. 22–26,
2019, doi: 10.21067/smartics.v5i1.2848.
[5] F. Amin and E. Winarno, “Rancang Bangun Sistem Temu Kembali Informasi
( Information Retrieval System ) Dokumen Berbahasa Jawa menggunakan Metode
DICE Similarity,” vol. 21, no. 2, pp. 99–106, 2016.
[6] V. Basmalah Wicaksono, R. Saptono, and S. Widya Sihwi, “Analisis Perbandingan
Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity
pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas,” J. Teknol.
Inf. ITSmart, vol. 4, no. 2, p. 73, 2016, doi: 10.20961/its.v4i2.1768.
[7] O. Nurdiana, J. Jumadi, and D. Nursantika, “Perbandingan Metode Cosine Similarity
Dengan Metode Jaccard Similarity Pada Aplikasi Pencarian Terjemah Al-Qur’an
Dalam Bahasa Indonesia,” J. Online Inform., vol. 1, no. 1, p. 59, 2016, doi:
10.15575/join.v1i1.12.
[8] M. Alewiwi, C. Orencik, and E. Savaş, “Efficient top-k similarity document search
utilizing distributed file systems and cosine similarity,” Cluster Comput., vol. 19, no.
1, pp. 109–126, 2016, doi: 10.1007/s10586-015-0506-0.
[9] J. T. Informatika, “APLIKASI DETEKSI PLAGIARISME MENGGUNAKAN
METODE COSINE SIMILARITY Oleh : RITO PUTRIWANA PRATAMA,” 2018.
[10] J. Algor, “IMPLEMENTASI ALGORITMA RABIN-KARP DAN COSINE
SIMILARITY UNTUK,” vol. 2, pp. 16–22, 2020.
[11] M. Chahal, “Information Retrieval using Jaccard Similarity Coefficient,” Int. J.
Comput. Trends Technol., vol. 36, no. 3, pp. 140–143, 2016, doi:
10.14445/22312803/ijctt-v36p124.
[12] V. Amrizal, “Penerapan Metode Term Frequency Inverse Document Frequency (Tf-
Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui
Syarah Hadits Berbasis Web (Studi Kasus: Hadits Shahih Bukhari-Muslim),” J. Tek.
Inform., vol. 11, no. 2, pp. 149–164, 2018, doi: 10.15408/jti.v11i2.8623.
[13] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis Algoritma
Stemming Nazief & Adriani Dan Porter Pada Dokumen Berbahasa Indonesia,” J. Ilm.
SINUS, vol. 15, no. 2, 2017, doi: 10.30646/sinus.v15i2.305.
[14] M. A. Salim and Y. Anistyasari, “Pengembangan Aplikasi Penilaian Ujian Essay
Berbasis Online Menggunakan Algoritma Nazief Dan Adriani Dengan Metode Cosine
Mohammad Agus Salim Yeni Anistyasari Abstrak,” vol. 02, no. 1, pp. 126–135, 2017.
[15] J. Singh, “S e a r c h T e r m E x p a n s i o n u s i n g D i c e S i m i l a r i t y M e a s u
r e,” pp. 308–314.
[16] M. D. R. Wahyudi, “Penerapan Algoritma Cosine Similarity pada Text Mining
Terjemah Al-Qur’an Berdasarkan Keterkaitan Topik,” Semesta Tek., vol. 22, no. 1, pp.
41–50, 2019, doi: 10.18196/st.221235.
[17] M. H. Ali and F. Rahutomo, “Manhattan Distance and Dice Similarity Evaluation on
Indonesian Essay Examination System,” JIPI (Jurnal Ilm. Penelit. dan Pembelajaran
Inform., vol. 4, no. 2, p. 156, 2019, doi: 10.29100/jipi.v4i2.1398.
[18] B. Herwijayanti, D. E. Ratnawati, and L. Muflikhah, “Klasifikasi Berita Online dengan
menggunakan Pembobotan TF-IDF dan Cosine Similarity,” Pengemb. Teknol. Inf. dan
Ilmu Komput., vol. 2, no. 1, pp. 306–312, 2018.

Anda mungkin juga menyukai