Anda di halaman 1dari 8

Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)

Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

PERBANDINGAN PENDEKATAN DETEKSI PLAGIARISM DOKUMEN


DALAM BAHASA INGGRIS
1
Ana Kurniawati
2
I Wayan Simri Wicaksana
1,2
Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Gunadarma
({ana,iwayan}@staff.gunadarma.ac.id)

ABSTRAK

Praktik plagiarisme (penjiplakan) dalam penulisan penelitian cukup sering terjadi di


kalangan akademisi, khususnya mahasiswa. Plagiarisme adalah tindakan
penyalahgunaan, pencurian/perampasan, penerbitan, pernyataan, atau menyatakan
sebagai milik sendiri sebuah pikiran, ide, tulisan, atau ciptaan yang sebenarnya milik
orang lain. Di kalangan mahasiswa yang selalu berinteraksi dengan komputer yang
mempermudah praktik plagiat mengingat adanya fasilitas untuk menyalin dan
mengubah teks (copy and paste) dan fasilitas koneksi yang memungkinkan untuk
mengakses hasil karya orang lain secara bebas melalui internet, praktik plagiarisme
ini sering dilakukan. Untuk meminimalisasi praktik plagiarisme, diperlukan
pendeteksian terhadap penulisan. Pada makalah ini akan dipaparkan hasil analisis
dua metode untuk mendeteksi plagiarisme dokumen. Aspek kelebihan dan kekurangan
dari pendekatan-pendekatan tersebut digunakan sebagai tolak ukur untuk membangun
pendekatan yang lebih optimal untuk mendeteksi plagiarisme dokumen.

Kata Kunci : deteksi, dokumen, dokumen fingerprinting, perbandingan, plagiarism,

1. PENDAHULUAN plagiarisme, diperlukan pendeteksian


terhadap penulisan.
Praktek plagiarisme (penjiplakan) Untuk mengatasi praktik
dalam penulisan penelitian cukup sering plagiarisme, tidaklah cukup hanya
terjadi di kalangan akademisi, khususnya mengingatkan kepada mahasiswa bahwa
mahasiswa. Plagiarisme adalah tindakan tindakan plagiarisme tidak baik
penyalahgunaan, pencurian/perampasan, dilakukan. Pendeteksian praktik
penerbitan, pernyataan, atau menyatakan plagiarisme merupakan solusi yang
sebagai milik sendiri sebuah pikiran, ide, sebaiknya dilakukan sehingga tindakan
tulisan, atau ciptaan yang sebenarnya curang tersebut dapat diminimalisasi.
milik orang lain. Di kalangan mahasiswa Untuk meminimalisasi praktik
yang selalu berinteraksi dengan komputer plagiarisme, diperlukan pendeteksian
yang mempermudah praktik plagiat terhadap penulisan. Namun, proses
mengingat adanya fasilitas untuk pendeteksian secara manual sulit untuk
menyalin dan mengubah teks (copy and dilakukan karena jumlah penulisan yang
paste) dan fasilitas koneksi yang banyak. Sehingga diperlukan sistem untuk
memungkinkan untuk mengakses hasil mendeteksi plagiarisme.
karya orang lain secara bebas melalui
internet, praktik plagiarisme ini sering Metode untuk mendeteksi
dilakukan. Untuk meminimalisasi praktik plagiarisme dapat di klasifikasikan

284 Perbandingan Pendekatan Deteksi


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

menjadi tiga metode [2] yaitu metode Pengertian Plagiarisme


perbandingan teks lengkap, metode Mendahului pembahasan lebih
dokumen fingerprinting dan metode mendalam dari topik yang diangkat,
kesamaan kata kunci. Dalam paper ini penulis menjabarkan definisi yang
akan diuraikan untuk metode dokumen digunakan dalam menyatakan tindakan
fingerprinting. Penelitian-penelitian yang plagiarisme. Plagiarisme adalah tindakan
telah dilakukan untuk dokumen penyalahgunaan, pencurian/perampasan,
fingerprinting menggunakan algoritma penerbitan, pernyataan, atau menyatakan
yaitu Running Kap Robin Matching and sebagai milik sendiri sebuah pikiran, ide,
Greedy String Tiling (RKR-GST)[7], tulisan, atau ciptaan yang sebenarnya
pendekatan Manber [5], pendekatan milik orang lain. [1]
Heintze dan algoritma winnowing [8,11]
Pada makalah ini akan dipaparkan Sistem pendeteksi plagiarisme dapat di
hasil analisis pendekatan atau metode kembangkan untuk :
yang ada untuk mendeteksi plagiarisme 1. Data teks seperti essay, artikel,
dokumen. Pendekatan atau metode yang jurnal, penelitian dan sebagainya.
dipaparkan adalah pendekatan Manber 2. Dokumen teks yang lebih
dan algoritma winnowing. Analisis yang terstruktur seperti bahasa pemrograman.
dilakukan adalah dengan melihat aspek
kelebihan dan kekurangan dari Tipe-Tipe Plagiarisme
pendekatan-pendekatan atau metode- Beberapa tipe plagiarisme yaitu : [9]
metode tersebut. 1. Word-for-word plagiarism
Penelitian-penelitian yang Menyalin setiap kata secara
membahas tentang perbandingan atau langsung tanpa diubah sedikitpun.
evaluasi dari berbagai metode mendeteksi 2. Plagirism of authorship
plagiarisme telah dilakukan. Mengacu Mengakui hasil karya orang lain
kepada [10], perbandingan yang sebagai hasil karya sendiri dengan
dilakukan terhadap tool deteksi cara mencantumkan nama sendiri
plagiarisme dengan melihat beberapa menggantikan nama pengarang
atribut seperti tipe dari dokumen, tipe dari yang sebenarnya.
kumpulan dokumen, dan atribut yang lain 3. Plagiarism of ideas
seperti pengguna yang menggunakan tool Mengakui hasil pemikiran atau ide
tersebut. Penelitian yang lain tentang orang lain.
perbandingan metode mendeteksi 4. Plagiarism of sources
plagiarisme dilakukan oleh J. Evan, [4] Jika seorang penulis menggunakan
dipaparkan bahwa metode mendeteksi kutipan dari penulis lainnya tanpa
plagiarisme di klasifikasikan menjadi dua mencantumkan sumbernya.
kategori yaitu manual dan atomatis.
Untuk kategori otomatis dapat di bagi
Metode Pendeteksi Plagiarisme
menjadi tiga macam yaitu metode kuis,
metode tipe penulisan dan perbandingan
Metode Pendeteksi Plagiarisme di bagi
dengan sumber asli. Ketiga metode inilah
menjadi tiga bagian yaitu metode
yang di bandingkan.
perbandingan teks lengkap, metode
dokumen fingerprinting, dan metode
kesamaan kata kunci. Metode pendeteksi
2. METODE TERKINI PADA
plagiarisme dapat di gambarkan sebagai
DETEKSI PLAGARISME
berikut : [2]

Perbandingan Pendekatan Deteksi 285


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

Perbandingan Teks Lengkap

Metode Pendeteksi
Plagiarisme Dokumen Fingerprinting

Kesamaan Kata Kunci

Gambar 1. Klasifikasi Metode Pendeteksi Plagiarisme

Berikut ini penjelasan dari masing-masing 3. Kesamaan Kata Kunci.


metode dan algoritma pendeteksi Prinsip dari metode ini adalah
plagiarisme. Ketiga metode tersebut mengekstrak kata kunci dari dokumen
adalah : dan kemudian di bandingkan dengan
kata kunci pada dokumen yang lain.
1. Perbandingan Teks Lengkap Pendekatan yang digunakan pada
Metode ini di terapkan dengan metode ini adalah teknik dot.
membandingkan semua isi dokumen.
Dapat diterapkan untuk dokumen yang
besar. Pendekatan ini membutuhkan
waktu yang lama tetapi cukup efektif, Pendekatan Metode Dokumen
karena kumpulan dokumen yang Fingerprinting[8,11]
diperbandingkan adalah dokumen yang
di simpan pada penyimpanan lokal. Seperti yang telah diuraikan sebelumnya,
Metode perbandingan teks lengkap prinsip kerja dari metode dokumen
tidak dapat diterapkan untuk kumpulan fingerprinting ini adalah dengan
dokumen yang tidak terdapat pada menggunakan teknik hashing. Teknik
dokumen lokal. Algoritma yang hashing adalah sebuah fungsi yang
digunakan pada metode ini adalah mengkonversi setiap string menjadi
algoritma brute force, algoritma edit bilangan kemudian menyimpannya dalam
distance, algoritma boyer moore dan sebuah skema atau bagan. Ide dasar
algoritma lavenshtein distance metode dokumen fingerprinting adalah
menyimpan skema atau bagan kecil yang
2. Dokumen Fingerprinting berisi kumpulan angka atau bilangan yang
Dokumen fingerprinting merupakan akan dibandingkan dengan skema atau
metode yang digunakan untuk bagan antar dua dokumen. Skema digital
mendeteksi keakuratan salinan antar dokumen fingerprinting terdiri dari
dokumen, baik semua teks yang sejumlah posisi yang diberi tanda di
terdapat di dalam dokumen atau hanya dalam dokumen, algoritma fingerprinting
sebagian teks saja. Prinsip kerja dari yang akan memilih tanda yang akan di
metode dokumen fingerprinting ini tambahkan untuk setiap posisi tergantung
adalah dengan menggunakan teknik pada jumlah salinan.
hashing. Teknik hashing adalah sebuah
fungsi yang mengkonversi setiap string Secara umum prinsip kerja dari metode
menjadi bilangan. dokumen fingerprinting adalah dengan
tahapan sebagai berikut :

286 Perbandingan Pendekatan Deteksi


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

1. Asumsikan teks adalah string s


yang panjangnya t. Algoritma winnowing merupakan
2. Hilangkan tanda baca dan spasi algoritma dokumen fingerprinting yang
3. Sebelum melakukan fungsi hash digunakan untuk mendeteksi salinan
dengan menggunakan notasi k- dokumen dengan menggunakan teknik
gram. k-gram merupakan substring hashing. Untuk meng-hash dokumen
yang berdampingan dari panjang k. dengan menggunakan k-gram, panjang
Membagi dokumen menjadi k- substring k dimana k merupakan nilai
gram, dimana k merupakan yang dipilih oleh pengguna. Dokumen
parameter yang di pilih pengguna. akan dibagi ke dalam k-gram yang
4. Lakukan fungsi hash untuk setiap mungkin dan kemudian k-gram tersebut
k-grams akan di hash. Untuk memilih fingerprint
5. Memilih beberapa hasil hash dari hasil yang di hash, dilakukan
menjadi dokumen fingerprinting. pembagian dengan menggunakan window
w, dan dipilih nilai yang paling kecil.
Permasalahan yang muncul adalah
bagaimana memilih fingerprint dari hasil
hash. Terdapat beberapa pendekatan Difinisi Winnowing :[11]
untuk menangani masalah tersebut. Pada Dari setiap window dipilih nilai hash yang
makalah ini akan di bahas dua pendekatan paling minimum atau kecil. Jika terdapat
yaitu pendekatan Manber dan algoritma nilai minimum lebih dari satu nilai, maka
Winnowing. pilih dari window sebelah kanan.
Kemudian simpan semua hasil hash yang
telah dipilih yang merupakan fingerprint
Pendekatan Manber [5] dokumen.

Pendekatan Manber merupakan salah satu Diberikan kumpulan dokumen, ingin


pendekatan pada metode dokumen menemukan substring yang sama diantara
fingerprinting. Seperti yang telah dokumen-dokumen tersebut, propertis
diuraikan sebelumnya bahwa prinsip kerja yang dilakukan adalah :
dari metode dokumen finger printing ada 1. Jika terdapat string yang sama
lima langkah. Yang menjadi yang panjangnya sama dengan
permasalahan adalah pada langkah yang panjang t, dimana t merupakan
ke-lima yaitu bagaimana memilih hasil jaminan ambang nilai yang
dari proses hashing. Pendekatan Manber ditentukan, maka pencocokan
memilih hasil dari proses hashing dengan terdeteksi.
cara memilih semua hasil hashing dengan 2. Tidak dapat mendeteksi beberapa
yang memenuhi kriteria 0 mod p. Dengan pencocokan jika lebih pendek dari
cara ini fingerprints yang terpilih tidak gangguan nilai ambang, k.
tergantung dari posisinya. Pendekatan ini
mudah untuk diimplementasikan. Nilai konstan t dan k ≤ t dipilih oleh
pengguna. Menghindari pencocokan
string yang sama dibawah nilai gangguan
Pendekatan Metoda Algoritma nilai ambang dengan mempertimbangkan
Winnowing [8] hash k-grams.

Perbandingan Pendekatan Deteksi 287


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

3. DISKUSI

Pada bagian ini akan di paparkan contoh dan cara penyelesaiannya dengan
penggunakan pendekatan Manber dan winnowing. Diberikan contoh teks sebagai
berikut :

“A do run run run, a do run run”

Penyelesaian dengan menggunakan metode dokumen fingerprinting adalah


sebagai berikut :

1. Teks yang akan di deteksi yaitu A do run run run, a do run run
2. Hilangkan tanda baca dan spasi.
Pada langkah 1 diberikan contoh teks yaitu A do run run run, a do run run.
Kemudian pada langkah kedua adalah menghilangkan tanda baca, huruf besar diganti
huruf kecil dan spasi pada teks. Hasil dari langkah kedua dapat dilihat pada gambar 2
berikut ini :

adorunrunrunadorunrun

Gambar 2. Teks tanpa tanda baca dan spasi.

3. Kemudian dari hasil langkah kedua, teks tersebut di bagi menjadi 5-grams. Hasil
dari langkah ketiga dapat dilihat pada gambar 3 berikut ini.

adoru dorun orunr runru unrun nrunu runru


unrun nruna runad unado nador adoru dorun
orunr runru unrun

Gambar 3. Teks dengan 5-grams

4. Lakukan hashing
Pada langkah keempat ini, hasil dari langkah ketiga akan di hash. Hasil dari
langkah keempat ini dapat dilihat pada gambar 4 berikut ini :

77 74 42 17 98 50 17 98 8 88 67 39 77 74 42 17 98

Gambar 4. Hasil Hashing

5. Memilih hasil hash.


Untuk memilih hasil hash akan di selesaikan dengan 2 pendekatan yaitu
pendekatan Manber dan winnowing. Pendekatan pertama yang akan di bahas
adalah pendekatan monber.

Pendekatan Manber

288 Perbandingan Pendekatan Deteksi


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

Dari hasil pada langkah keempat atau dari hasil hashing, akan dipilih mana yang
menjadi finger print. Pemilihan dilakukan dengan cara 0 mod p, dimana p adalah
4 sehingga 0 mod 4. Maka hasilnya adalah :

72 8 88 72

Gambar 5. Hasil hash yang dipilih dengan menggunakan 0 mod 4.

Algoritma Winnowing
Pada algoritma winnowing, untuk menghasilkan fingerprint, terdapat 3 langkah
yaitu :

1. Untuk memilih hasil yang telah di hash, dilakukan dengan


menggunakan membagi ke window w dengan panjang yang
ditentukan oleh pengguna. Kemudian pilih nilai yang minimum, dan
beri tanda dengan menebalkan. Hasilnya dapat dilihat pada gambar 6
berikut ini.

(77, 74, 42, 17) (74, 42, 17, 98)


(42, 17, 98, 50) (17, 98, 50, 17)
(98, 50, 17, 98) (50, 17, 98, 8)
(17, 98, 8, 88) (98, 8, 88, 67)
( 8, 88, 67, 39) (88, 67, 39, 77)
(67, 39, 77, 74) (39, 77, 74, 72)
(77, 74, 42, 17) (74,42, 17, 98)

Gambar 6. Window hash dengan panjang 4

2. Setelah itu memilih hasil yang telah di bagi menjadi window. Hasilnya
dapatdilihat pada gambar 7 berikut ini :

17 17 8 39 17

Gambar 7. Fingerprint yang dipilih dengan menggunakan winnowing

3. Setelah itu ditambahkan informasi posisi fingerprint di dalam dokumen.


Hasilnya dapat dilihat pada gambar 8 berikut ini. Gambar 8 menampilkan
kumpulan pasangan fingerprint dan posisi untuk contoh ini.

[17,3] [17,6] [8,8] [39,11] [17,15]

Gambar 8. Hasil fingerprint dengan informasi posisi

Perbandingan Pendekatan Manber dan perbedaan tersebut adalah sebagai berikut


Algoritma Winnowing :
Dari penyelesaian yang diuraikan diatas 1. Jumlah Langkah
dapat dilihat perbedaan dari kedua Jika dilihat dari jumlah langkah
pendekatan tersebut. Perbedaan- atau tahapan penyelesaian dari

Perbandingan Pendekatan Deteksi 289


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

kedua pendekatan tersebut, maka 4. KESIMPULAN


pendekatan pertama yaitu
pendekatan Manber lebih sedikit Pada metode pendeteksi
yaitu satu langkah atau satu tahap. plagiarisme yaitu metode dokumen
Sedangkan pada pendekatan kedua fingerprinting menggunakan teknik
yaitu algoritma winnowing, lebih hashing. Dari kedua pendekatan yang
banyak yaitu tiga langkah atau 3 telah diuraikan pada makalah ini,
tahap. pendekatan atau algoritma winnowing
2. Informasi dari hasil atau output lebih baik dari pendekatan Manber karena
Jika dilihat dari output yang memberikan jaminan terdeteksinya
dihasilkan dari kedua pendekatan dokumen sama dan mempunyai nilai
tersebut, maka pendekatan kedua tambah yang lain yaitu terdapatnya
yaitu algoritma winnowing lebih informasi posisi fingerprint pada
informatif karena selain dokumen.
menghasilkan hasil fingerprint
juga terdapat informasi yang lain Penelitian berikutnya adalah
yaitu informasi posisi. Sedangkan menguji apakah algoritma winnowing ini
pendekatan pertama yaitu dapat memberikan hasil yang optimum
pendekatan Manber tidak terdapat juga jika diterapkan untuk dokumen
informasi posisi. berbahasa Indonesia.
3. Kekurangan
Kelemahan dari pendekatan
Manber tidak memberikan 4. DAFTAR PUSTAKA
jaminan bahwa kecocokan antar
dokumen terdeteksi. Hal ini Ardini Ridhatillah, Dealing with
dikarenakan dokumen terdeteksi Plagiarism in the Information System
jika hanya hasil hash memenuhi Research Community: A Look at
nilai 0 mod p. Dari fungsi hash Factors that Drive Plagiarism and
yang dipilih terdapat kemungkinan Ways to Address Them, MIS
terjadinya benturan sangat kecil. Quarterly; Vol. 27, No. 4, p. 511-
Kelemahan dari algoritma 532/December 2003
winnowing adalah waktu B. Stein, S. Meyer zu Eissen, Near
prosesnya lebih lama. Similarity Search and Plagiarism
Analysis, 29th Annual Conference of
the German Classification Society
4. Kelebihan (GfKl), Magdeburg, ISDN 1431-8814,
Kelebihan dari pendekatan manber pp. 430 – 437, 2006.
adalah proses penyelesaiannya George R.S Weir, Work in Progress –
sederhana, dengan waktu yang Technology in plagiarism detection
lebih cepat, dapat dengan mudah and management, 34th ASEE/IEEE
di implementasikan. Sedangkan Frontiers in Education Conference,
pendekatan kedua yaitu 2004.
winnowing mempunyai kelebihan J. Evan, Plagiarism Detection Software,
yaitu hasilnya lebih informatif Department of Computer Science,
karena terdapat informasi posisi Mathematic and Physics, Missouri
selain itu pendekatan ini Western State Collage.
memberikan jaminan terdeteksinya Manber Ubi, Finding Similar files in a
dokumen. large file system, In Proceedings of

290 Perbandingan Pendekatan Deteksi


(Ana Kurniawati)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

the USENIX Winter 1994 Technical Parvati Iyer and Abhipsita Singh,
Conference, 1994. Document Similarity Analysis for a
Maxim Mozgovoy, Fast and Reliable Plagiarism Detection System, 2nd
Plagiarism Detection System, 37th Indian International Conference on
ASEE/IEEE Frontiers in Education Artificial Intelegence (IICAI-05), pp.
Conference, 2007. 2534 – 2544, 2005.
Najib Baedlowi, Deka Aditia Adam, Romans Lukashenko, Computer Based
String Matching dengan Plagiarism Detection Methods and
Menggunakan Algoritma Rabin Karp, Tools : An Overview, International
Laboratorium Ilmu dan Rekayasa Conference on Computer System and
Komputasi Departemen Teknik Technologies, 2007.
Informatika, Institut Teknologi S. Schleimer, D. Wilkerson, and A.
Bandung, 2005. Aiken. Winnowing: Local Algorithms
Norzima Elbegbayan, Winnowing, a for Document Fingerprinting. In
Document Fingerprinting Algorithm, Proceedings of the ACM SIGMOD
Department of Computer Science, International Conference on
Linkoping University, TDDC03, Management of Data, pp. 76-85, June
Spring 2005. 2003.

Perbandingan Pendekatan Deteksi 291


(Ana Kurniawati)

Anda mungkin juga menyukai