Anda di halaman 1dari 9

Techno.COM, Vol. 15, No.

4, November 2016 : 303-311

PENERAPAN ALGORITMA WINNOWING UNTUK


MENDETEKSI KEMIRIPAN TEKS PADA TUGAS AKHIR
MAHASISWA
Reynald Karisma Wibowo1, Khafiizh Hastuti2
1,2
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro
Jalan Imam Bonjol, 50131, telepon
E-mail : 111201206601@mhs.dinus.ac.id1, afis@dsn.dinus.ac.id2

Abstrak
Tugas Akhir merupakan dokumen yang merepresentasikan penelitian dan riset yang
dilakukan oleh mahasiswa jenjang Strata Satu. Untuk menghasilkan Tugas Akhir yang
berkualitas di butuhkan penelitian yang kompeten, salah satu faktornya adalah originalitas.
Kemampuan mahasiswa untuk menciptakan penelitian yang original menjadi faktor penting.
Teks plagiasi adalah bentuk plagiasi yang paling sering dijumpai. Deteksi plagiarisme
dibedakan menjadi dua berdasarkan tugasnya yaitu secara intrinsik dan ekstrinsik. Algoritma
winnowing merupakan metode deteksi plagiarisme secara ekstrinsik. Metode ini merupakan
ekstensi dari metode Rabin-Karp Fingerprint dengan menambahkan fitur window pada proses
agar hasil deteki lebih optimal. Penelitian ini menerapkan algoritma winnowing untuk
mendeteksi kemiripn teks pada dokumen tugas akhir mahasiswa Universitas Dian Nuswantoro.

Kata Kunci: Tugas akhir, deteksi plagiasi, plagiarisme, winnowing, rolling hash, jaccard
coefficient.

Abstract
Final Project (TA) itself is a document that represents the research and study author.
TA is a obligation for each student to do in order to get Bachelor degree. To produce a
exemplary final project it`s need research competence, one of the factor is its originality. The
ability of students to create original research is an important factor, with the internet searching
for resources become more easy and the more act of plagiarism that could occurs.Plagiarism
detection is a process of displaying the document, analyze its content, launching plagiarize
parts, and bring the sources of the same document, if available. Detection of plagiarism itself is
divided into two categoryof Intrinsic and Extrinsic plagiarism. Winnowing method is a method
of plagiarism detection in extrinsic category. This method is an extension of the fingerprinting
method by adding features in order to winnow the process to increase it`s accuration matching
results. In this study the authors will apply the Winnowing method to create it`s plagiarism
detection applications for student final project. This study is expected to be useful for future
research institutions as well as against plagiarism and text mining.

Keywords: Final project, plagiarism detection, plagiarism, winnowing, rolling hash, jaccard
coefficient

303
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

1. PENDAHULUAN dengan modifikasi superficial demi


menciptakan Deteksi Plagiarisme terbaik.
Plagiarisme adalah suatu tindakan
mencuri dan publikasi dari penulis lain Berdasarkan pemaparan singkat tentang
baik itu berupa bahasa, pikiran, gagasan, beberapa hal di atas yang menjadi
atau ekspresi dan merepresentasikan landasan untuk dilakukannya penelitian
mereka sebagai salah satu karya asli ini dibuat suatu aplikasi deteksi
sendiri [1]. Bentuk dan taksonomi dari plagiarisme untuk memproses file skala
plagiarisme sangat luas namun salah satu besar yaitu file tugas akhir mahasiswa
bentuk plagiarisme yang paling tinggi Universitas Dian Nuswantoro, dalam hal
probabilitas kemunculanya ialah Teks ini yang akan menjadi objek penelitian
plagiarisme. Teks plagiarisme mungkin adalah algoritma dan menggunakan data
salah satu bentuk tertua dari plagiarisme, set tugas akhir mahasiswa Universitas
yang, sampai hari ini, masih sulit untuk Dian Nuswantoro Semarang. Aplikasi
diidentifikasi dalam praktek. Karena yang diharapkan dapat menampilkan hasil
perkembangan cepat teknologi informasi, dari algoritma winnowing dan
informasi apapun dapat ditemukan menghasilkan presentasi tingkat
dengan mudah melalui internet. Informasi kesamaan dengan similarity metrik pada
ini banyak disalahgunakan oleh berbagai aplikasi berbasis web.
pihak yang menyebabkan plagiarisme.

Permasalahan yang terjadi bermacam- 2. METODE PENELITIAN


macam mulai dari hal yang sepele hingga
permasalahan yang kompleks. 2.1 N-Gram
Kebutuhan sistem komputerisasi untuk Ngrams adalah rangkaian token dengan
deteksi plagiarisme dikarenakan panjang n.. Dalam konteks komputasi
ketidakmampuan manusia untuk linguistik, token ini dapat berupa kata-
memproses dokumen skala besar dan kata, meskipun mereka dapat berupa
untuk mengambil semua dibukti bagian karakter atau himpunan bagian dari
plagiasi dan sumber-sumber asli. Dari karakter. Nilai n hanya mengacu pada
berbagai cara-cara pencegahan jumlah token. Metode n-grams ini
plagiarisme salah satunya adalah digunakan untuk mengambil potongan-
penggunaan deteksi plagiarisme. potongan karakter huruf sejumlah n dari
Beberapa software untuk deteksi sebuah kata yang secara kontinuitas
plagiarisme seperti Turnitin, WCopyFind dibaca dari teks sumber hingga akhir dari
yang digunakan oleh University of dokumen. Berikut ini adalah contoh n-
Virginia, Crosscheck yang ditemukan grams dengan n=5:
oleh Elsevier, Springer yang diciptakan “Teks: A do run run run, a do run run”
oleh Massachusetts Institute of dari teks tersebut dilakukan
Technology pers, dan penerbit ternama penghilangkan spasi menjadi.
lainnya, Docoloc yang terintegrasi “Teks: adorunrunrunadorunrun” dari teks
dengan sistem manajemen konferensi tersebut dihasilkan rangkaian 5-grams
EDAS [2]. Saat ini, banyak alat yang diturunkan menjadi “Teks: adoru
antiplagiarisme telah dibangun baik oleh dorun orunr runru unrun nrunr runru
individu maupun institusi atau kelompok unrun nruna runad unado nador adoru
dan dapat ditemukan di Internet. dorun orunr runru unrun”.
Kebanyakan dari mereka, mengatasi
beberapa macam tekstual plagiarisme

304
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

2.2 Preprocessing dimana input file akan melalui berbagai


Preprocessing, proses yang sering macam proses manipulasi text. Macam-
digunakan dalam deteksi plagiasi dimana macam metode preprocessing meliputi
input file akan melalui berbagai macam case folding, filtering, stemming, dan
proses manipulasi text. Macam-macam tokenizing. Namun pada penelitian ini
metode preprocessing meliputi case preprocessing yang digunakan case
folding, filtering, stemming, dan folding, dan filtering. Case folding adalah
tokenizing. Case folding adalah proses proses manipulasi case-sensitive.
manipulasi case-sensitive, semua input Sedangkan filtering atau sering dikenal
teks data akan diubah menjadi huruf dengan istilah stopword removal adalah
kecil/lower-case. Sedangkan filtering atau proses penghapusan kata yang tidak
sering dikenal dengan istilah stopword relevan dalam teks. Stemming ialah
removal adalah proses penghapusan kata proses pemisahan kata menjadi kata
yang tidak relevan dalam teks [3]. dasar. Tokenizing adalah proses
Stemming adalah pengubahan kata pemisahan kata berdasarkan susunan kata
menjadi kata dasar, dan tokenizing adalah [3]. Hasil dari proses ini akan
proses pengubahan kata string menjadi menghasilkan dokumen teks yang relevan
sekumpulan token. untuk diproses dan dicari kecocokanya.
Pada preprocess file teks akan dibentuk
2.3 Rolling Hash
menjadi rangkaian substring senilai k atau
Rolling hash merupakan salah satu k-gram. Berikut contoh dari preprocess.
metode hashing yang memberikan
kemampuan untuk menghitung nilai hash Terdapat sebuah string S1 = “--Reynald
tanpa mengulangi seluruh string. Berikut Karisma--”. Preprocessing akan
ini contoh string “abcdbbca” dan anda melakukan case folding dan filtering
ingin menemukan pola "bcdb" dalam sehingga S1 = ”reynaldkarisma”. Lalu
string ini. string tersebut akan disubstring menjadi
rangkaian string senilai k-gram. Pada
contoh ini diberikan perumpamaan k-
gram = 4. Dari S1 akan menjadi
rangkaian [“reyn”, ”eyna”, ”ynal”,
”nald”, ”aldk”, ”ldka”,
“dkar”,”kari”,”aris”,”rism”,”isma”].
Gambar 1. window rolling hash Setelah rangkaian string dibentuk dari
nilai rangkaian tersebut akan diproses
2.4 Algoritma Winnowing
menjadi rangkaian hash. Hashing adalah
Winnowing adalah algoritma yang proses untuk mengubah karakter string
digunakan untuk melakukan proses menjadi bilangan integer yang disebut
pengecekan kesamaaan kata (dokumen nilai hash. Proses pengubahan menjadi
fingerprinting) untuk mendeteksi nilai hash menggunakan fungsi rolling
plagiarisme [4]. Secara teknis winnowing hash. Berikut rumus rolling hash.
adalah ekstensi dari implementasi
algoritma rabin-karp fingerprint dengan
penambahan metode window. Berikut
penjelasan metode dari algoritma (1)
winnowing.
Pada rolling hash proses pengubahan
Preprocessing, proses awal dari metode nilai hash pada iterasi pertama

305
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

menggunakan rumus. Data yang digunakan pada penelitian ini


merupakan nilai hash pertama, dimana b adalah data mahasiswa TA yang berasal
adalah konstan bilangan prima, k adalah dari program studi Teknik Informatika
nilai kgram dan merupakan nilai ascii Universitas Dian Nuswantoro.
dari karakter. Pada perhitungan nilai hash
kedua dan seterusnya tidak perlu Dari data tersebut diambil atribut utama
dilakukan perhitungan lagi dari iterasi yang dibutuhkan pada penelitian ini, yaitu
pertama namun dengan melakukan nama penulis, dan data teks tugas akhir
perhitungan rumus (2). bab 1 sampai bab 3. Atribut tersebut akan
menjadi atribut acuan penting untuk
pembandingkan tingkat plagiasi antara
file TA satu dengan yang lainnya.
(2)
Pada penelitian ini penulis menggunakan
Setelah proses rangkaian hash terbentuk metode winnowing. Metode ini
dilanjutkan dengan proses winnowing. menggunakan konsep Rabin-Karp
Winnowing ialah proses pembentukan fingerprint dengan penambahan konsep
window dari rangkaian hash. Window window. Dari window tersebut nilai hash
adalah proses pembentukan substring dari akan disubstring dan dipilih nilai
nilai hash sepanjang wgram. Dari proses terendah.
winnowing akan menghasilkan fingerprint
yang nanti akan digunakan untuk
pencocokan plagiasi.

Gambar 2. Illustrasi Proses Winnowing


2.5 Jaccard Coefficient
Jaccard adalah nama yang sering
digunakan untuk mengukur kemiripan,
ketidakmiripan, dan jarak dari dataset.
Mengukur Jaccard similarity coefficient
antara dua dataset adalah hasil dari
pembagian antara jumlah data yang sama
dari kedua dataset dibagi dengan jumlah
semua data pada dataset, seperti rumus
berikut: Gambar 3. Blok diagram proses metode
winnowing
(3)
Dokumen harus melalui proses yang
2.6 Tahapan Penelitian

306
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

sama untuk mendapatkan nilai similarity Atribut Nilai Array


antar 2 file dokumen (gambar 3). Metode
ini bekerja secara sistematis, yang artinya Rangkaian [0] => rey
pengerjaan dari tiap proses dilakukan string dengan [1] => eyn
secara berurutan atau linear.
kgram 3 [2] => yna
a. Preprocessing
Pertama, sebelum file dokumen terhadap string [3] => nal
dicocokan, dokumen harus melalui “reynald” [4] => ald
langkah preprocessing. Langkah-langkah
preprocessing meliputi case folding,
parsing, filtering, stemming, dan c. Penghitungan Nilai Hash / Rolling
tokenizing. Namun pada penelitian ini Hash
preprocessing yang digunakan case
folding, dan filtering. Case folding adalah Proses transformasi dari rangkaian string
proses manipulasi case-sensitive. Pada menjadi rangkaian nilai hash
penelitian ini, semua input teks data akan menggunakan rolling hash. Rolling hash
diubah menjadi huruf kecil/lower-case. memungkinkan untuk menghitung nilai
Sedangkan filtering atau sering dikenal hash tanpa melakukan rehashing kembali
dengan istilah stopword removal adalah dari iterasi pertama.
proses penghapusan kata yang tidak
relevan dalam teks [3].
Tabel 1: Contoh preprocessing dengan string
sample
(4)
Tipe Hasil
Preprocessing Untuk menghitung nilai hash pertama
string awal @$%Reynald Karisma
dilakukan perhitungan menggunakan
rumus diatas. merupakan
Wibowo&* nilai hash pertama, dimana b adalah
case folding @$%reynald karisma wibowo&* konstan bilangan prima, k adalah nilai
whitespace @#$%reynaldkarismawibowo&* kgram dan merupakan nilai ascii dari
insensitivity
karakter. Pada perhitungan nilai hash
kedua dan seterusnya tidak perlu
Filter reynaldkarismawibowo dilakukan perhitungan lagi dari iterasi
pertama namun dengan melakukan
b. Pembentukan Rangkaian N-Gram / N- perhitungan rumus dibawah.
Gram Substring
Output dari preprocessing akan
menghasilkan data teks murni yang akan
digunakan pada proses n-gram substring. (5)
N-gram adalah substring penggabungan
karakter sejumlah k pada teks dokumen. Berikut contoh dari perhitungan rolling
Tiap-tiap substring tersebut akan diproses hash terhadap substring “rey”, dan “eyn”
dengan rolling hash dan akan dengan k-gram 3 dapat dilihat pada tabel
menghasilkan rangkaian nilai hash. 3.
Tabel 2: Contoh proses pembentukan rangkaian Tabel 3. Tabel contoh perhitungan rolling hash
n-gram Atribut Nilai Array

307
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

Perhitungan [0] => rey


rolling hash r = 114, e = 101, y = 121, b = 7, prime = 100007
iterasi H=c_r*b^(k-1)+c_e*b^(k-2)+c_y*b^(k-3)
pertama H=114*7^2+101*7^1+121*7^0 Gambar 6. Contoh fingerprint yang dipilih
H=5586+707+121
H=6414
Nilai fingerprint yang telah dipilih
Perhitungan [1] =>eyn
rolling hash e = 101, y = 121, n = 110, b = 7, prime = 100007
tersebut akan digunakan untuk
iterasi H(c_2…c_(n+1) )=(H(c_1…c_n )-c_1*b^((n-1) ) pencocokan terhadap fingerprint dari
kedua dan )*b+c_((n+1)) dokumen lain.
seterusnya =(6414-(7^2*114))*7^ +110
H=828 *7+110
H=5906 Gambar 7. Contoh fingerprint dengan informasi
posisi nilai hash
d. Pembentukan Window Dari Rangkaian e. Pencocokan Fingerprint Dengan
Hash & Pemilihan Fingerprint Jaccard Coefficient
Nilai fingerprint dari proses winnowing
Proses winnowing membutuhkan tiap dokumen akan dicocokan
parameter w-gram dimana nilai hash yang menggunakan jaccard coefficient untuk
didapat akan disubstring menghasilkan mengukur prosentase kemiripan teks.
rangkaian nilai hash sejumlah w. Dari Output dari proses ini adalah nilai
rangkaian nilai hash inilah akan dipilih persentasi kemiripan antara 2 dokumen.
nilai hash terkecil, jika terdapat 2 atau
lebih nilai yang sama, nilai hash terkecil
yang paling kanan yang akan di pilih.
Seperti pada gambar 4 adalah contoh dari (6)
rangkaian window dengan wgram = 4
terhadap nilai hash pada gambar 3. Penghitungan jaccard coefficient
dilakukan berdasarkan rumus(4) berikut:
( , )=| ∩ || ∪ |, dimana J(A, B)
Gambar 4. Contoh nilai hash adalah nilai kemiripan antara dataset A
dan B, ∩ adalah irisan/data yang sama
dari A dan B, dan ∪ adalah
union/gabungan data dari A dan B. Dari
hasil tersebut dikalikan 100 untuk
menghasilkan nilai persentase. Berikut
rumus dari jaccard coefficient

Gambar 5. Contoh rangkaian window dari nilai


hash 3. HASIL DAN PEMBAHASAN
Pemilihan fingerprint diambil Dari percobaan yang telah dilakukan data
berdasarkan nilai terkecil dari nilai hash yang diperoleh meliputi data dari tabel
tiap window. Jika pada window terdapat pengujian. Data yang digunakan adalah
dua nilai terkecil yang sama maka akan file TA tugas akhir penulis yang akan
diambil nilai yang paling kanan dari dibandingkan dengan 10 file TA.
window tersebut. Berikut adalah nilai
fingerprint yang diambil dari window Hasil dari percobaan terhadap 10 file TA
pada gambar 6. ditampilkan pada tabel 4.16, 4.17, 4.18,
4.19, 4.20, dan 4.21. Tiap tabel

308
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

menampilkan hasil uji 10 dataset dengan Tabel 5. Tabel pengaruh k-gram dan w-gram
nilai n-gram yang berbeda. Berikut hasil terhadap similarity
dari pengujian terhadap 10 dataset file Waktu Proses
No k- w- Similarity
TA. gram gram (%) Fingerprint Fingerprint
File User File Data
Tabel 4. Hasil tabel pengujian k-gram 6 & w- 1 6 6 10.21 % 39.98 10.79
gram 6 2 12 6 10.55 % 39.02 10.76
Waktu Proses 3 24 6 10.02 % 38.54 11.41
Id k- w- Similarity
gram gram (%) Fingerprint Pencocokan 4 6 12 9.11 % 35.45 9.37
1 6 6 13.89 % 24.67 43.27
5 12 12 9.26 % 33.92 9.05
2 6 6 12.33 % 24.67 27.88
6 24 12 8.98 % 33.92 9.34
3 6 6 6.86 % 24.67 4.6
7 6 24 8.75 % 35 8.75
4 6 6 14.59 % 24.67 57.3
8 12 24 8.49 % 33.15 8.65
5 6 6 11.32 % 24.67 18.8
9 24 24 8.04 % 33.31 8.66
6 6 6 13.45 % 24.67 42.95

7 6 6 13.82 % 24.67 50.56


8 6 6 12.13 % 24.67 22.78

9 6 6 12.94 % 24.67 34.18


10 6 6 12.65 % 24.67 29.83

Hasil pengujian pada tabel 4 menunjukan


nilai rata-rata similarity dari pengujian 10
file. Dapat disimpulkan bahwa file TA
yang diuji memiliki nilai tingkat plagiasi
yang rendah dengan rata-rata 12.356 %.
Dari percobaan diatas dapat diamati
bahwa nilai tersebut merupakan
pendeteksian umum kata-kata yang sering Gambar 8. Grafik pengaruh k-gram dan w-gram
muncul pada Tugas Akhir. Meskipun terhadap similarity
sudah dilakukan filterisasi terhadap data Tabel 5 menunjukkan bahwa nilai
teks hal ini masih dapat terjadi similarity rata-rata pada penggunaan w-
dikarenakan melakukan preprocessing gram 6 adalah 12.395%, rata-rata
file Tugas Akhir tidak mudah karena similarity pada penggunaan w-gram 12
terdapat beberapa syntax format adalah 9.11, dan rata-rata similarity pada
penulisan yang masih lolos dari filter penggunaan w-gram 24 adalah 8.42.
sehingga membuat objek yang dideteksi Waktu proses hanya berbeda beberapa
menjadi tidak relevan. Namun untuk milisecond pada penggunaan w-gram
mendeteksi plagiasi secara tekstual yang sama, namun penggunaan w-gram
algoritma winnowing cukup efektif yang lebih tinggi memiliki waktu proses
karena dapat mendeteksi plagiasi seperti yang lebih rendah. Hal ini dikarenakan
copy paste dan relokasi kata. proses pemilihan substring dan
perhitungan hash lebih sedikit, tiap-tiap
Pada pengujian berikutnya dilakukan substring memuat konten karakter lebih
observasi lebih dalam terhadap k-gram banyak sehingga jumlah dari banyaknya
dan w-gram. Pengujian dilakukan dengan substring akan berkurang.
menggunakan 2 file TA yang telah dipilih
dan dilakukan proses dengan k-gram dan Dari data tabel 5 dan grafik pada gambar
w-gram senilai 6, 12, dan 24. Berikut 8 dapat disimpulkan bahwa semakin
hasil pengujian tersebut pada tabel 4.2 tinggi nilai n-gram maka akan semakin

309
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

rendah nilai similarity yang dihasilkan penelitian ini sangat dibutuhkan input
dan semakin rendah nilai n-gram maka dari file yang akan diupload dengan
akan semakin tinggi nilai similarity. format yang tepat sesuai filter
Namun bukan berarti nilai n-gram yang preprocessing.
rendah akan memberikan nilai akurasi
yang akurat. Semakin kecil nilai n-gram Filter kata “latar belakang masalah” yang
maka semakin kecil karakter yang akan merupakan format penulisan sub bab
dicocokan dan semakin sering karakter yang akan dihilangkan. Lalu terdapat
tersebut akan ditemukan dalam teks. penulisan yang salah menjadi “ltar
Analisis terhadap hasil preprocessing belakng msalah” maka preprocessing
dilakukan pengamatan terhadap file tidak akan mendeteksinya sebagai salah
sebelum di lakukan preprocessing dengan satu kata yang akan dihapus dan akan
data teks setelah di lakukan dimasukan kedalam hasil teks yang akan
preprocessing. Pada gambar 8 dapat kita diubah menjadi nilai hash.
lihat dan bandingkan dengan hasil
preprocessing pada tabel 4. 4. KESIMPULAN
Berdasarkan hasil kegiatan penelitian
yang telah dilakukan penulis pada
penelitian ini, maka didapatkan
kesimpulan:
1. Algoritma winnowing dapat di
implementasikan pada sistem
berbasis web. Algoritma tersebut
mampu mendeteksi plagiasi file TA
dalam waktu yang cukup cepat.
Secara tekstual algoritma ini sangat
efektif dalam menangani plagiarisme
copy paste dan relokasi kata pada
Gambar 9. Contoh latar belakang file TA penulis
standart mesin aritmatik.
yang diuji 2. Kelemahan dari algoritma ini adalah
tidak dapat memberikan jaminan dan
bukti terhadap plagiarisme yang
ditemukan. Pendeteksian hanya dapat
dilakukan jika nilai modulo hash
adalah 0. Namun tanpa penggunaan
modulo nilai hash yang dihasilkan
akan overflow.
3. Pemilihan nilai n-gram akan
mempengaruhi nilai similarity dan
Gambar 10. Hasil preprocessing latar belakang waktu proses dari sistem. Nilai n-
file TA penulis gram yang kecil akan memberikan
Dari hasil analisis preprocessing tersebut nilai similarity yang lebih besar dan
dapat diambil kesimpulan bahwa proses nilai n-gram yang besar akan
preprocessing pada aplikasi ini mampu memberikan nilai similarity yang
memfilter latar belakang file TA penulis lebih kecil. Hal ini dikarenakan
menghasilkan hasil data teks yang relevan semakin kecil substring maka relatif
untuk pencocokan. Namun pada semakin kecil karakter yang akan

310
Techno.COM, Vol. 15, No. 4, November 2016 : 303-311

mempengaruhi nilai hash dan dapat TRANSACTIONS ON SYSTEMS, MAN,


memberikan nilai fingerprint yang AND CYBERNETICS—PART C:, vol.
identik sehingga pencocokan menjadi 42, no. 2, pp. 133-149, March 2012.
tidak relevan. [3] A. T. Wibowo, K. W. Sudarmadi and A.
4. Penggunaan algoritma winnowing M. Barnawi, "Comparison Between
untuk mendeteksi plagiasi file TA Fingerprint and Algorithm to Detect
membutuhkan pengecekan lebih Plagiarism Fraud on Bahasa Indonesia
lanjut terhadap file yang akan Document," in International Conference
diproses, karena efektitas of Information and Communication
preprocessing algoritma winnowing Technology, Bandung, 2013.
yang membutuhkan file teks tanpa
[4] A. Hidayat, "Algoritma Winnowing," 14
ada error penulisan yang sering
April 2016. [Online]. Available:
muncul pada Tugas Akhir.
arfianhidayat.com/algoritma-
winnowing.html. [Accessed 30 July
5. SARAN
2016].
Ada beberapa hal yang perlu diperhatikan
dalam melakukan penelitian lebih lanjut
terkait sistem rekomendasi ini, yaitu:
1. Algoritma winnowing akan lebih baik
jika digunakan pada objek penelitian
lain yang berskala lebih kecil, hal ini
dikarenakan mendeteksi file Tugas
Akhir dibutuhkan preprocessing
konten yang spesifik untuk dapat
menghasilkan hasil yang akurat.
2. Algoritma winnowing pada saat ini
belum mampu menampilkan bukti
teks yang memplagiasi. Diharapkan
penelitian kedepan dapat mengatasi
kekurangan algoritma winnowing
tersebut.
3. Penelitian kedepan terhadap
penentuan n-gram terhadap teks yang
efisien untuk meningkatkan performa
algoritma winnowing. Pemilihan n-
gram yang tepat dapat meningkatkan
akurasi dari deteksi plagiarisme.

DAFTAR PUSTAKA
[1] V. Stepchyshyn and R. S. Nelson,
Library plagiarism policies, Chicago:
America Library Association, (2007).
[2] S. M. Alzahrani, N. Salim and A.
Abraham, "Understanding Plagiarism
Linguistic Patterns, Textual Features
and Detection Methods," IEEE

311

Anda mungkin juga menyukai