1,2,
Abstrak
Pencarian informasi pada masa yang serba canggih ini sangatlah mudah didapatkan. Hal tersebut secara
tidak langsung membawa dampak positif dan negatif. Salah satu dampak negatifnya adalah terjadinya tindakan
plagiarisme baik disadari maupun tidak. Dalam lingkungan alademik, tindakan plagiarisme merupakan perbuatan
yang sangat tercela.
Untuk mencegah plagiarisme banyak cara dilakukan salah satunya pengecekan manual terhadap juduljudul karya ilmiah yang diajukan oleh mahasiswa kepada tim skripsi dengan skripsi-skripsi sebelumnya. Adapun
beberapa masalah yang timbul dari pengecekan manual seperti terlalu memakan banyak waktu.
Untuk membantu mendeteksi dokumen yang terindikasi plagiat, dibuatlah sebuah sistem yang dapat
menghitung nilai similarity antar dokumen dengan menggunakan metode Latent Semantic Analysis. Metode
Latent Semantic Analysis digunakan untuk mencari dokumen yang memiliki kesamaan teks dengan melalui
beberapa tahap seperti tokenizing, stoplist, dan stemming. Untuk perhitungannya menggunakan algoritma model
ruang vektor.
Pada Tugas Akhir ini dilakukan dua skenario pengujian yaitu intra class dan ekstra class untuk
mengetahui nilai similarity. Hasil pengujian skenario intra class ini dapat dilihat bahwa terdapat 119 abstrak
terindikasi plagiat yang menunjukkan bahwa missed detection pada system terdapat pada 1 dokumen. Sedangkan
pada skenario extra class pada fakultas yang sama maupun fakultas yang berbeda, masih menunjukkan terjadinya
false detection dan menghasilkan nilai similarity yang melebihi threshold indikasi plagiat.
Kata kunci: plagiat, Latent Semantic Analysis, Singular Value Decomposition, Metode Ruang Vector.
Abstract
Information retrieval during the all-powerful is very easy to get. It indirectly bring positive and
negative effects. One of the negative impacts is the act of plagiarism either consciously or unconsciously. In
alademik environment, acts of plagiarism is a very despicable act.
To prevent plagiarism is one of many ways done manually checking the titles of scientific papers
submitted by students to the team with the thesis-thesis thesis before. As for some of the problems arising from
manual checks as too time consuming.
To help detect plagiarism indicated documents, they invented a system that can calculate the value of
similarity between documents by using the method of Latent Semantic Analysis. Latent Semantic Analysis method
is used to find documents that have the same text in several stages such as tokenizing, stoplist and stemming. For
calculations using the vector space model algorithm.
In this final project conducted two test scenarios, namely intra-class and extra class to determine the
value of similarity. The results of intra-class testing scenarios can be seen that there were 119 abstracts
indicated that suggests that missed plagiarism detection system contained in one document. While in the
scenario of extra classes in the same school or a different school, it still shows the false detection and produce
similarity values which exceed the threshold indicative of plagiarism.
Keywords: Plagiarism, Latent Semantic Analysis, Singular Value Decomposition, Vector Space Model.
1. Pendahuluan
1.1 Latar Belakang
Pencarian informasi pada masa yang serba
canggih ini sangatlah mudah didapatkan. Hal
tersebut secara tidak langsung membawa dampak
positif dan negatif. Salah satu dampak negatifnya
adalah terjadinya tindakan plagiarisme baik disadari
maupun tidak. Dalam lingkungan alademik, tindakan
plagiarisme merupakan perbuatan yang sangat
tercela.
2. Dasar Teori
2.1 Plagiat
Plagiarisme atau sering disebut plagiat adalah
penjiplakan atau pengambilan karangan, pendapat,
dan sebagainya dari orang lain dan menjadikannya
seolah karangan dan pendapat sendiri.
Pada tugas akhir ini digunakan metode
Latent Semantic Analysis untuk mendeteksi
plagiarisme berdasarkan base of word, sehingga
besarnya nilai similarity ditentukan pada frekuensi
kemunculan kata. Untuk mendeteksi jumlah
dokumen yang terindikasi plagiat didasarkan pada
nilai threshold global yang ditentukan. Berikut dapat
dilihat ilustrasi dasar teori penentuan nilai threshold
:
2.5
Cosine Similarity
Cosine [16] merupakan langkah/tahap
perhitungan similarity (kemiripan) antar dua vektor
dari suatu n dimensi matriks dengan mencari nilai
cosine similarity dari sudut dua vektor (2.1)
tersebut.
Perhitungan cosine similarity umumnya digunakan
(2.2)
pada pencarian similarity (kemiripan) antar
dokumen. Rumus perhitungan dalam cosine
similarity dapat dituliskan sebagai berikut:
Similiarity Value = cos( ) =
Keterangan :
Similiarity Value = cos( ) = nilai similiarity
(kemiripan) Cosine
A
= vektor A
B
= vektor B
||A||
= Panjang vektor A
||B||
= Panjang vektor B
Nilai similarity dokumen pada metode LSA
berkisar antara range 0 hingga 1 dimana semakin
mendekati 1 maka semakin similar antar dua
dokumen sedangkan apabila semakin mendekati 0
maka semakin tidak similar antar dua dokumen.
3
3.1
Similarity
Tokenizing
Vector Space
Model
Stop List
Singular Value
Decomposition
Stemming
Term Weighting
3.1.2
Stoplist
Stop-word didefinisikan sebagai term
yang tidak berhubungan (irrelevant) dengan
subyek utama dari database meskipun kata
tersebut sering kali hadir di dalam dokumen [17].
3.1.3
Stemming
Dalam tugas
akhir ini, menggunakan
implementasi teknik stemming untuk teks berbahasa
indonesia dengan menggunakan algoritma Jelita
Asian. Pada algoritma Jelita Asian, dilakukan proses
penghilangan imbuhan (affixes) dan akhiran
(suffixes) terlebih dahulu.
3.1.4
Term Weighting
Pada pembobotan TF-IDF, kata dalam
dokumen diberi bobot. Pembobotan tersebut
berdasarkan pada rumus pembobotan TF-IDF
sebagai berikut :
Wij = TFij * IDFj,
dimana IDFi = 1+log ( n/DFi),
Keterangan :
Wij = bobot istilah kata i pada dokumen j
TFij = frekuensi istilah kata i dalam dokumen j
n
= jumlah dokumen
DFi = jumlah dokumen yang mengandung istilah
kata i
3.1.5
Singular Value Decomposition
Hasil pembobotan dari TF-IDF menjadi
masukan bagi proses SVD yang dijalankan pada
Matlab. Proses ini menghasilkan matriks U, S, dan
VT, dimana matriks U adalah matriks orthogonal,
matriks S adalah matriks diagonal yang berisi nilai
eigen.
3.1.6
3.2
3.2.1
Implementasi Sistem
Deskripsi Sistem
Sistem berfungsi untuk mengetahui indikasi
plagiarisme abstrak asli dengan abstrak plagiat
dalam bentuk aktif pasif, carbon copy, penambahan,
dan rearrange. Inputan sistem yang menggunakan
bahasa pemrograman PHP adalah abstrak Tugas
Akhir mahasiswa IT Telkom dengan output berupa
besarnya TF, IDF, beserta bobot (W) tiap dokumen.
Input sistem dengan bahasa pemrograman Matlab
adalah bobot (W) sebagai masukan proses SVD.
Sementara outputannya berupa cosine similarity
abstrak asli dengan abstrak hasil plagiat yang
merupakan indikasi plagiarisme.
4
[5] http://liyantanto.wordpress.com/2011/06/28/
pencarian-dengan-metode-vektor-spacemodel-vsm/
[6] http://web.ipb.ac.id/~julio/webaku/isi/kom47
1/slides/slide-4.swf diakses tanggal 24
september 2012 pukul 04.05
[7] http://lintaka.com/2012/02/21/algoritmasteming-nazief-adriani/
[8] http://journal.pcr.ac.id/wpcontent/uploads/2012/09/paper.pdf
[9] Wicaksana Wayan Simri :
Membandingkan Pendekatan Latent
Semantic untuk Semantic Similarity
Terhadap Wordnet, Cetakan Ke-1, Depok,
Indonesia : Universitas Gunadarma, 2006
[10] Rolly, Intan : Subject-Based Search
Engine Menggunakan TF-IDF dan Jaccards