Anda di halaman 1dari 5

Sistem Pendeteksi Plagiarisme Pada Dokumen Teks Bahasa

Indonesia Dengan Menggunakan Metode Latent Semantic


Analysis
Jessy Tawisa1, Tjokorda Agung Budi Wirayuda2
Fakultas Informatika Institut Teknologi Telkom, Bandung
1
dibacaisinya_yawh@yahoo.com, 2cok@ittelkom.ac.id

1,2,

Abstrak
Pencarian informasi pada masa yang serba canggih ini sangatlah mudah didapatkan. Hal tersebut secara
tidak langsung membawa dampak positif dan negatif. Salah satu dampak negatifnya adalah terjadinya tindakan
plagiarisme baik disadari maupun tidak. Dalam lingkungan alademik, tindakan plagiarisme merupakan perbuatan
yang sangat tercela.
Untuk mencegah plagiarisme banyak cara dilakukan salah satunya pengecekan manual terhadap juduljudul karya ilmiah yang diajukan oleh mahasiswa kepada tim skripsi dengan skripsi-skripsi sebelumnya. Adapun
beberapa masalah yang timbul dari pengecekan manual seperti terlalu memakan banyak waktu.
Untuk membantu mendeteksi dokumen yang terindikasi plagiat, dibuatlah sebuah sistem yang dapat
menghitung nilai similarity antar dokumen dengan menggunakan metode Latent Semantic Analysis. Metode
Latent Semantic Analysis digunakan untuk mencari dokumen yang memiliki kesamaan teks dengan melalui
beberapa tahap seperti tokenizing, stoplist, dan stemming. Untuk perhitungannya menggunakan algoritma model
ruang vektor.
Pada Tugas Akhir ini dilakukan dua skenario pengujian yaitu intra class dan ekstra class untuk
mengetahui nilai similarity. Hasil pengujian skenario intra class ini dapat dilihat bahwa terdapat 119 abstrak
terindikasi plagiat yang menunjukkan bahwa missed detection pada system terdapat pada 1 dokumen. Sedangkan
pada skenario extra class pada fakultas yang sama maupun fakultas yang berbeda, masih menunjukkan terjadinya
false detection dan menghasilkan nilai similarity yang melebihi threshold indikasi plagiat.
Kata kunci: plagiat, Latent Semantic Analysis, Singular Value Decomposition, Metode Ruang Vector.
Abstract
Information retrieval during the all-powerful is very easy to get. It indirectly bring positive and
negative effects. One of the negative impacts is the act of plagiarism either consciously or unconsciously. In
alademik environment, acts of plagiarism is a very despicable act.
To prevent plagiarism is one of many ways done manually checking the titles of scientific papers
submitted by students to the team with the thesis-thesis thesis before. As for some of the problems arising from
manual checks as too time consuming.
To help detect plagiarism indicated documents, they invented a system that can calculate the value of
similarity between documents by using the method of Latent Semantic Analysis. Latent Semantic Analysis method
is used to find documents that have the same text in several stages such as tokenizing, stoplist and stemming. For
calculations using the vector space model algorithm.
In this final project conducted two test scenarios, namely intra-class and extra class to determine the
value of similarity. The results of intra-class testing scenarios can be seen that there were 119 abstracts
indicated that suggests that missed plagiarism detection system contained in one document. While in the
scenario of extra classes in the same school or a different school, it still shows the false detection and produce
similarity values which exceed the threshold indicative of plagiarism.
Keywords: Plagiarism, Latent Semantic Analysis, Singular Value Decomposition, Vector Space Model.
1. Pendahuluan
1.1 Latar Belakang
Pencarian informasi pada masa yang serba
canggih ini sangatlah mudah didapatkan. Hal
tersebut secara tidak langsung membawa dampak
positif dan negatif. Salah satu dampak negatifnya
adalah terjadinya tindakan plagiarisme baik disadari
maupun tidak. Dalam lingkungan alademik, tindakan
plagiarisme merupakan perbuatan yang sangat
tercela.

Plagiarisme adalah mengambil kata-kata dan


pikiran orang lain (ide-ide mereka, konsep, gambar,
kalimat, dan sebagainya) dan mengakuinya sebagai
milik sendiri tanpa mengutip sumber. Anda dapat
ditemukan bersalah plagiarisme bila bahasa orang
lain akan digunakan tanpa kutipan yang tepat di
dalam teks anda[3]. Tindakan penjiplakan itu sendiri
makin hari makin marak terjadi dan pelakunya
bukan hanya berasal dari kalangan pelajar atau
mahasiswa akan tetapi pelaku plagiat tersebut telah

merambah pada dunia dosen, pengajar, guru besar


dan calon guru besar dengan berbagai modus.
Metode LSA digunakan untuk mencari
dokumen yang memiliki kesamaan teks dengan
melalui beberapa tahap. Untuk perhitungannya
menggunakan algoritma model ruang vektor.
Algoritma model ruang vektor adalah suatu model
yang digunakan untuk mengukur kemiripan antara
suatu dokumen asli dengan dokumen plagiat. Pada
model ini, dokumen plagiat dan dokumen asli
dianggap sebagai vektor-vektor pada ruang ndimensi, dimana n adalah jumlah dari seluruh term
yang ada. Pada algoritma vektor space model
menggunakan rumus untuk mencari nilai cosinus
sudut antara dua vector.
1.2 Perumusan Masalah
Berdasarkan latar belakang diatas, dapat
diuraikanrumusan masalahnya yaitu bagaimana
mengimplementasikan metode Latent Semantic
Analysis untuk membangun sistem pendeteksi
plagiarisme pada dokumen teks bahasa indonesia?
Batasan Masalah
Batasan masalah dalam Tugas Akhir ini adalah:
a) Dokumen teks bahasa indonesia yang
digunakan adalah abstrak tugas akhir
mahasiswa IT Telkom.
b) Tipe dokumen plagiat sudah ditentukan.
c) Daftar stoplist dan stemming sudah tersedia.
d) Threshold indikasi plagiat sudah ditentukan.
1.3 Tujuan
Tujuan yang ingin dicapai dalam pembuatan
tugas
akhir
ini
adalah
merancang
dan
mengimplementasikan
sistem
pendeteksi
plagiarisme dengan menggunakan metode Latent
Semantic Analysis.
1.4 Metode Penyelesaian Masalah
1. Studi Literatur
Mempelajari tentang implementasi Latent
Semantic Analysis melalui internet, paper, dan
beberapa sumber buku lainnya.
2. Perancangan Sistem
Melakukan perancangan sistem dengan
menguji algoritma yang digunakan terhadap
data-data yang ada dan melakukan perhitungan
tingkat akurasi.
3. Implementasi
Melakukan implementasi dengan metode
Latent Semantic Analysis untuk mencari
dokumen yang memiliki kesamaan teks.
4. Testing dan Evaluasi
Melakukan uji coba program yang telah dibuat
kemudian melakukan evaluasi terhadap
kekurangan program dan memperbaikinya.
5. Pengambilan Kesimpulan
Setelah melakukan testing dan evaluasi, dapat
diambil kesimpulan dari tugas akhir yang
dikerjakan

2. Dasar Teori
2.1 Plagiat
Plagiarisme atau sering disebut plagiat adalah
penjiplakan atau pengambilan karangan, pendapat,
dan sebagainya dari orang lain dan menjadikannya
seolah karangan dan pendapat sendiri.
Pada tugas akhir ini digunakan metode
Latent Semantic Analysis untuk mendeteksi
plagiarisme berdasarkan base of word, sehingga
besarnya nilai similarity ditentukan pada frekuensi
kemunculan kata. Untuk mendeteksi jumlah
dokumen yang terindikasi plagiat didasarkan pada
nilai threshold global yang ditentukan. Berikut dapat
dilihat ilustrasi dasar teori penentuan nilai threshold
:

Pada ilustrasi diatas dapat dilihat abstrak


intra class diuji di dalam kelas yang sama sedangkan
abstrak ekstra class diuji pada kelas yang berbeda.
Sehingga nilai extra class mempunyai selisih yang
cukup jauh dibandingkan nilai intra class.
2.2 Parsing Teks
Tahapan parsing teks meliputi [8]:
- Dokumen dipilah menjadi unit-unit yang lebih
kecil misalnya kata, frasa, atau kalimat.
- Unit hasil pemrosesan tersebut dinamakan
token. Proses parsing merujuk pada proses
pengenalan token yang terdapat dalam
rangkaian teks.
- Bagian dasar dalam parsing adalah algoritma
pengambilan token dari teks , yang disebut
sebagai tokenizer.
- Proses ini memerlukan pengetahuan bahasa
untuk menangani karakter-karakter khusus dan
menentukan batasan satuan unit dalam
dokumen.
2.3 Tokenizing
Tokenizing
[12]
merupakan
proses
mengidentifikasi unit terkecil (token) dari suatu
struktur kalimat. Tujuan dilakukannya tokenizing ini
adalah untuk mendapatkan term-term yang nantinya
akan diindeks. Pengidentifikasian token dilakukan
untuk teks yang dipisah dengan spasi atau
enter dalam suatu dokumen.
2.4 Stemming
Stemming [12] adalah suatu proses yang
bertujuan untuk mengambil kata dasar dari kata
berimbuhan maupun kata bentukan. Misalnya
mengubah kata bentuk jamak menjadi bentuk
tunggal atau kata berimbuhan menjadi kata dasar.

2.5

Pembobotan Term (Term Weighting)


Pembobotan term (term weighting) [13]
merupakan salah satu operasi yang dibutuhkan
dalam tugas akhir ini yaitu dengan menghitung
kemunculan frekuensi suatu kata atau term pada
sebuah dokumen.
2.5.1 TF-IDF (Term Frequency-Inverse
Document Frequency)
Bobot TFIDF (term frequency-inverse
document frequency) adalah suatu bobot yang sering
digunakan dalam information retrieval dan text
mining. Metode TF-IDF merupakan suatu cara untuk
memberikan bobot hubungan suatu kata (term)
terhadap dokumen. Metode ini menggabungkan dua
konsep untuk perhitungan bobot yaitu, frekuensi
kemunculan sebuah kata di dalam sebuah dokumen
tertentu dan inverse frekuensi dokumen yang
mengandung kata tersebut.
Adapun rumus umum TF-IDF adalah sebagai
berikut:
Wij = tf x idf
Wij = tfij x (1+log )
Keterangan:
Wij = bobot kata term terhadap dokumen
tfij = jumlah kemunculan kata / term dalam
N
= jumlah semua dokumen yang ada dalam
database
n
= jumlah dokumen yang mengandung kata /
term
2.6

Latent Semantic Analysis


Latent semantic analysis (LSA) adalah
sebuah teori dan metode untuk mengekstrak dan
merepresentasikan konteks yang digunakan sebagai
sebuah arti kata dengan memanfaatkan komputasi
statistik untuk sejumlah corpus yang besar dari teks.
Tahapan LSA meliputi 3 tahap utama yang
terdiri dari:
1. Parsing dan pembobotan
Parsing terhadap teks meliputi tokenizing,
filtering dan stemming. Pembobotan terhadap
teks yang terkandung dalam corpus
menggunakan metode pembobotan TF-IDF.
2. SVD (Singular value decomposition) dan
reduced SVD
Perhitungan dekomposisi matriks menjadi 3
bagian matriks baru dan pengerucutan matriks
hasil dekomposisi tersebut sehingga menjadi
matriks baru.
3. Vector manipulation
Manipulasi terhadap matriks vektor kolom
yang ada pada matriks sehingga menjadi
matriks dengan bobot antar vektor.
2.7

Singular Value Decomposition


SVD (Singular value decomposition)
merupakan salah satu tahapan proses yang ada
dalam metode LSA (Latent semantic analysis).
Matriks yang direpresentasikan menggunakan SVD

akan diuraikan menjadi 3 (tiga) komponen matriks,


yaitu matriks vektor singular kiri, martiks nilai
singular, dan matriks vektor singular kanan atau
dapat dirumuskan sebagai berikut :
Amn = Umm Smn VnnT
Dimana
A = matriks yang didekomposisi
U = matriks ortogonal U (matriks vektor singular
kiri) berdimensi mxm
S = matriks diagonal S (matriks nilai singular)
berdimensi mxn dengan nilai terurut menurun
(descending)
V = transpose matriks orthogonal V (matriks vektor
singular kanan) berdimensi nxn
m = jumlah baris matriks
n = jumlah kolom matriks
2.8

Cosine Similarity
Cosine [16] merupakan langkah/tahap
perhitungan similarity (kemiripan) antar dua vektor
dari suatu n dimensi matriks dengan mencari nilai
cosine similarity dari sudut dua vektor (2.1)
tersebut.
Perhitungan cosine similarity umumnya digunakan
(2.2)
pada pencarian similarity (kemiripan) antar
dokumen. Rumus perhitungan dalam cosine
similarity dapat dituliskan sebagai berikut:
Similiarity Value = cos( ) =
Keterangan :
Similiarity Value = cos( ) = nilai similiarity
(kemiripan) Cosine
A
= vektor A
B
= vektor B
||A||
= Panjang vektor A
||B||
= Panjang vektor B
Nilai similarity dokumen pada metode LSA
berkisar antara range 0 hingga 1 dimana semakin
mendekati 1 maka semakin similar antar dua
dokumen sedangkan apabila semakin mendekati 0
maka semakin tidak similar antar dua dokumen.
3
3.1

Perancangan dan Implementasi Sistem


Deskripsi dan Analisis Sistem
Abstrak Tugas
Akhir

Similarity

Tokenizing

Vector Space
Model

Stop List

Singular Value
Decomposition

Stemming

Term Weighting

Gambar 3-1 Flow Diagram Sistem


3.1.1 Tokenizing
Proses ini memotong setiap kata dalam teks
dan mengubah semua huruf dalam dokumen menjadi
huruf kecil. Jadi hasil dari proses tokenizing adalah
kata-kata yang merupakan penyusun kalimat/string
yang dimasukkan [17] .

3.1.2

Stoplist
Stop-word didefinisikan sebagai term
yang tidak berhubungan (irrelevant) dengan
subyek utama dari database meskipun kata
tersebut sering kali hadir di dalam dokumen [17].
3.1.3
Stemming
Dalam tugas
akhir ini, menggunakan
implementasi teknik stemming untuk teks berbahasa
indonesia dengan menggunakan algoritma Jelita
Asian. Pada algoritma Jelita Asian, dilakukan proses
penghilangan imbuhan (affixes) dan akhiran
(suffixes) terlebih dahulu.
3.1.4
Term Weighting
Pada pembobotan TF-IDF, kata dalam
dokumen diberi bobot. Pembobotan tersebut
berdasarkan pada rumus pembobotan TF-IDF
sebagai berikut :
Wij = TFij * IDFj,
dimana IDFi = 1+log ( n/DFi),
Keterangan :
Wij = bobot istilah kata i pada dokumen j
TFij = frekuensi istilah kata i dalam dokumen j
n
= jumlah dokumen
DFi = jumlah dokumen yang mengandung istilah
kata i
3.1.5
Singular Value Decomposition
Hasil pembobotan dari TF-IDF menjadi
masukan bagi proses SVD yang dijalankan pada
Matlab. Proses ini menghasilkan matriks U, S, dan
VT, dimana matriks U adalah matriks orthogonal,
matriks S adalah matriks diagonal yang berisi nilai
eigen.
3.1.6

Vector Space Model-Cosine Similarity


Kemiripan antar dokumen selanjutnya
dihitung menggunakan metode cosine similarity.
Rumusnya adalah sebagai berikut :

3.2
3.2.1

Implementasi Sistem
Deskripsi Sistem
Sistem berfungsi untuk mengetahui indikasi
plagiarisme abstrak asli dengan abstrak plagiat
dalam bentuk aktif pasif, carbon copy, penambahan,
dan rearrange. Inputan sistem yang menggunakan
bahasa pemrograman PHP adalah abstrak Tugas
Akhir mahasiswa IT Telkom dengan output berupa
besarnya TF, IDF, beserta bobot (W) tiap dokumen.
Input sistem dengan bahasa pemrograman Matlab
adalah bobot (W) sebagai masukan proses SVD.
Sementara outputannya berupa cosine similarity
abstrak asli dengan abstrak hasil plagiat yang
merupakan indikasi plagiarisme.
4

Analisis Hasil Pengujian

4.1 Skenario Pengujian Pertama


Abstrak diuji terhadap dirinya sendiri (intra
class), dalam hal ini 30 abstrak asli yang ada
dibandingkan dengan 4 jenis abstrak tipe plagiatnya
(carbon copy, aktif pasif, re-arrenge, dan
penambahan). Pengujian ini bertujuan untuk
mengetahui prosentase terjadinya missed detection
yaitu adanya kesalahan pengindikasian dokumen
yang seharusnya plagiat tetapi dianggap bukan
plagiat.
4.2 Skenario Pengujian Kedua
Abstrak diuji terhadap abstrak yang lain (extra
class), dalam hal ini abstrak asli dibandingkan
dengan abstrak asli beserta tipe plagiat yang lainnya.
Dalam skenario ini terdapat 2 tipe pengujian.
Pengujian pertama bertujuan menguji extra class
pada abstrak dalam satu fakultas. Sementara
pengujian kedua bertujuan untuk menguji extra class
(3.1)
pada abstrak pada fakultas yang berbeda. Pengujian
(3.2)
ini bertujuan untuk mengetahui persentase terjadinya
false detection yaitu kesalahan pengindikasian
dokumen yang seharusnya bukan plagiat tetapi
dianggap plagiat.
5
Kesimpulan dan saran
5.1 Kesimpulan
1. Metode Latent Semantic analysis digunakan
untuk mendeteksi plagiat berdasarkan base of
word.
2. Skenario pengujian yang digunakan ada 2 yaitu
intra class dan extra class.
3. Pada skenario intra class terdapat 119 abstrak
plagiat yang diuji terindikasi plagiat. Hal ini
menunjukkan missed detection hanya terdapat
pada 1 abstrak.
4. Pada skenario extra class dalam fakultas yang
sama terdapat 8 abstrak extra class yang
terindikasi plagiat yang menunjukkan masih
terjadinya false detection
5. Pada skenario extra class dalam fakultas yang
beda terdapat 1 abstrak extra class yang
terindikasi plagiat yang menunjukkan masih
terjadinya false detection
5.2 Saran
1. Pembuatan abstrak plagiat di-generate dengan
program khusus sehingga meminimalkan
human error
2. Dapat dilakukan penelitian lebih lanjut untuk
pendeteksi plagiat dengan metode lain.
6. Daftar Pustaka
[1] http://www.dcs.warwick.ac.uk/report/pdfs/cs
-rr-440.pdf diakses tanggal 24 september
2012 pukul 02.49 WIB.
[2] http://www.kaskus.co.id/thread/0000000000
00000008521714
[3] www.uky.edu/Ombud/Plagiarism.pdf
[4] papers.gunadarma.ac.id/index.php/industry/a
rticle/view/834/794

[5] http://liyantanto.wordpress.com/2011/06/28/
pencarian-dengan-metode-vektor-spacemodel-vsm/
[6] http://web.ipb.ac.id/~julio/webaku/isi/kom47
1/slides/slide-4.swf diakses tanggal 24
september 2012 pukul 04.05
[7] http://lintaka.com/2012/02/21/algoritmasteming-nazief-adriani/
[8] http://journal.pcr.ac.id/wpcontent/uploads/2012/09/paper.pdf
[9] Wicaksana Wayan Simri :
Membandingkan Pendekatan Latent
Semantic untuk Semantic Similarity
Terhadap Wordnet, Cetakan Ke-1, Depok,
Indonesia : Universitas Gunadarma, 2006
[10] Rolly, Intan : Subject-Based Search
Engine Menggunakan TF-IDF dan Jaccards

Coefficient , Cetakan Ke-1, Surabaya,


Indonesia : Universitas Kristen Petra, 2006.
[11] Landauer, T. K. : The Measurement of
Textual Coherence With Latent Semantic
Analysis , Cetakan Ke-1, Colorado, USA :
University of Colorado, 1998.
[12] http://digilib.its.ac.id/public/ITSUndergraduate-14856-paperpdf.pdf diakses
24 september 2012 pukul 16.19

Anda mungkin juga menyukai