Anda di halaman 1dari 14

library.uns.ac.id digilib.uns.ac.

id

IMPLEMENTASI VECTOR SPACE MODEL DENGAN


METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program
Studi Informatika

Disusun oleh :
ADE IRAWAN
M0510001

PROGRAM STUDI INFORMATIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
library.uns.ac.id digilib.uns.ac.id

HALAMAN JUDU L

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN


METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA

Disusun Oleh :
ADE IRAWAN
M0510001

ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh


gelar Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016

i
library.uns.ac.id digilib.uns.ac.id
HALAMAN P ERSETUJUAN

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN


METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :
ADE IRAWAN
M0510001

Telah disetujui oleh pembimbing pada tanggal

Pembimbing I Pembimbing II

Ristu Saptono, S.Si.,M.T. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.


NIP. 19790210 200212 1 001 NIP. 19830302 2016 1 001

ii
library.uns.ac.id digilib.uns.ac.id

HALAMAN P ENGESA HAN

SKRIPSI
IMPLEMENTASI VECTOR SPACE MODEL DENGAN
METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :
ADE IRAWAN
M0510001

Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji pada
tanggal :

Susunan Dewan Penguji

1. Ristu Saptono, S.Si.,M.T. ( )


NIP. 19790210 200212 1 001
2. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D. ( )
NIP. 19830302 2016 1 001
3. Dr.techn. Dewi Wisnu Wardani, S.Kom,M.S. ( )
NIP. 19781026 200501 2 002
4. Haryono Setiadi, ST., M.Eng ( )
NIP. 19800327 200501 1 002
Disahkan Oleh :
Kepala Program Studi Informatika

Drs. Bambang Harjito, M.App.Sc.,Ph.D.


NIP. 19621130 199103 1 002

iii
library.uns.ac.id digilib.uns.ac.id

HALAMAN MOTTO

“Life is like riding a bicycle. To keep your balance you must keep moving”

(Albert Einstein)

iv
library.uns.ac.id digilib.uns.ac.id

HALAMAN PERSEMBAHAN

“Skripsi ini saya persembahkan untuk orang tua dan keluarga tercinta,
serta kepada seluruh pembaca karya ini”

v
library.uns.ac.id digilib.uns.ac.id

KATA PENGANTAR

Segala puji penulis panjatkan kehadirat Allah SWT atas limpahan rahmat
dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul
“Implementasi Vector Space Model dengan Metode Cosine Similarity dan
Conditional Probability untuk Sistem Deteksi Plagiarisme Dokumen Skripsi
Mahasiswa”.

Penulis mengucapkan terima kasih kepada beberapa pihak yang telah


meluangkan waktu untuk memberikan bimbingan, dukungan, dan saran, sehingga
laporan ini dapat terselesaikan sebagaimana yang diharapkan, terutama kepada:

1. Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga skripsi
ini dapat diselesaikan.
2. Orang tua dan keluarga Penulis, yang selalu memberikan dukungan dan
doa kepada Penulis.
3. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D selaku Kepala Program
Studi Informatika, Fakultas MIPA, Universitas Sebelas Maret.
4. Bapak Ristu Saptono, S.Si.,M.T. selaku dosen pembimbing I yang telah
memberikan bimbingan dalam penyusunan skripsi ini.
5. Bapak Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D. selaku dosen
pembimbing II yang telah memberikan bimbingan dalam penyusunan
skripsi ini.
6. Bapak dan Ibu Dosen Program Studi Informatika FMIPA UNS yang telah
memberikan pengajaran kepada Penulis selama menempuh masa studi.
7. Teman-teman S1 Informatika yang telah memberikan semangat dalam
penyelesaian skripsi ini.
Penulis berharap agar skripsi ini dapat bermanfaat bagi berbagai pihak.

Surakarta,

Penulis

vi
library.uns.ac.id digilib.uns.ac.id

ABSTRACT

Plagiarism is one of negative impact derived from the internet growth. It


can takes place in various place, one of the example is higher education
environment. Plagiarism can cause many disadvantageous to another parties. So,
there must be a detection system to avoid this kind of bad thing. In this proposed
research, there will be made a plagiarism detection system by implementing Vector
Space Model (VSM). Cosine Similarity used to make the rank of the pragraphs
based on the formed angle from query vector and collection vector. The number of
the taken words from the query paragraph will derived from the calculation of the
conditional probability value. After testing phase has been finished, there will be a
conclusion that VSM can be implemented in the system. There are 10 testing
paragraph that compared with the collection paragraphs. The result of the
comparation are 65.05% for the number of the average precision and 98.57% for
the average recall with threshold 0.3 for the conditional probability and 0.25 for
cosine similarity.
Keywords : plagiarism, paragraph, Vector Space Model; Cosine Similarity;
Conditional Probability; precision; recall; threshold

vii
library.uns.ac.id digilib.uns.ac.id

ABSTRAK

Plagiarisme merupakan salah satu contoh dari dampak negatif yang


muncul akibat perkembangan internet yang sangat cepat. Plagiarisme dapat terjadi
di berbagai tempat, salah satu contohnya yaitu di Perguruan Tinggi. Hal ini
tentunnya dapat merugikan berbagai pihak. Oleh karena itu, diperlukan sistem
deteksi yang dapat mencegah terjadinya tindak plagiarisme. Pada penelitian ini,
akan dibuat suatu sistem deteksi plagiarisme dengan mengimplementasikan Vector
Space Model. Cosine Similarity digunakan untuk meranking paragraf-paragraf
berdasarkan pada nilai sudut yang terbentuk antara vector query dan vector library.
Banyak kata yang diambil oleh paragraf query akan dihitung dengan menggunakan
teori Conditional Probability. Setelah dilakukan pengujian, maka dapat diambil
kesimpulan bahwa VSM dapat diimplementasikan pada sistem. Terdapat 10
paragraf testing yang akan dibandingkan dengan paragraf koleksi. Hasil
perbandingan menunjukkan nilai sebesar 65.05% untuk rata-rata nilai precision dan
98.57% untuk rata-rata recall dengan threshold yang digunakan adalah 0.3 untuk
conditional probability dan 0.25 untuk Cosine Similarity.
Kata Kunci : plagiarisme, paragraf, Vector Space Model, Cosine Similarity,
Conditional Probability, precision, recall, threshold

viii
library.uns.ac.id digilib.uns.ac.id

DAFTAR ISI

Table of Contents
HALAMAN JUDUL................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN................................................................................ iii

HALAMAN MOTTO ............................................................................................ iv

HALAMAN PERSEMBAHAN ............................................................................. v

KATA PENGANTAR ........................................................................................... vi

ABSTRACT .......................................................................................................... vii

ABSTRAK ........................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xi

DAFTAR GAMBAR ........................................................................................... xii

DAFTAR LAMPIRAN ........................................................................................ xiii

1 BAB I. PENDAHULUAN .............................................................................. 1

1.1 Latar Belakang .......................................................................................... 1

1.2 Rumusan Masalah ..................................................................................... 4

1.3 Batasan Masalah ....................................................................................... 4

1.4 Tujuan Penelitian ...................................................................................... 4

1.5 Manfaat Penelitian .................................................................................... 5

1.6 Sistematika Penulisan ............................................................................... 5

2 BAB II. TINJAUAN PUSTAKA.................................................................... 6

2.1 Dasar Teori................................................................................................ 6

2.1.1 Plagiarisme ...................................................................................... 6

2.1.2 Text Preprocessing .......................................................................... 7

ix
library.uns.ac.id digilib.uns.ac.id

2.1.3 Algoritma Nazief Adriani ................................................................ 8

2.1.4 Pembobotan Term Frequency-Inverse Document Frequency (TF-


IDF) ....................................................................................................... 10

2.1.5 Vector Space Model ....................................................................... 11

2.1.6 Cosine Similarity ........................................................................... 13

2.1.7 Conditional Probability ................................................................. 15

2.2 Penelitian Terkait .................................................................................... 17

3 BAB III. METODOLOGI PENELITIAN .................................................... 23

3.1 Pengumpulan Data .................................................................................. 23

3.2 Preprocessing dan Indexing Library ....................................................... 23

3.3 Implementasi Vector Space Model ......................................................... 25

3.4 Implementasi Sistem ............................................................................... 27

3.5 Pengujian dan Analisis Hasil .................................................................. 28

4 BAB IV. PEMBAHASAN ............................................................................ 29

4.1 Pengumpulan Data .................................................................................. 29

4.2 Preprocessing dan Indexing Library ....................................................... 29

4.3 Implementasi Vector Space Model ......................................................... 34

4.4 Implementasi Sistem ............................................................................... 39

4.5 Pengujian dan Analisis Hasil .................................................................. 40

5 BAB V. PENUTUP ....................................................................................... 53

5.1 Kesimpulan ............................................................................................. 53

5.2 Saran ....................................................................................................... 53

DAFTAR PUSTAKA ........................................................................................... 54

LAMPIRAN .......................................................................................................... 57

x
library.uns.ac.id digilib.uns.ac.id

DAFTAR TABEL

Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan (Agusta, 2009) ..... 10
Tabel 2.2 PenelitianTerkait ................................................................................... 20
Tabel 4.1 Detail Jumlah Data ................................................................................ 29
Tabel 4.2 Contoh Hasil Tokenization .................................................................... 31
Tabel 4.3 Index kata dasar hasil stemming ........................................................... 32
Tabel 4.4 Contoh hasil pembobotan TF-IDF ........................................................ 33
Tabel 4.5 Contoh hasil pembobotan TF-IDF pada query ..................................... 38
Tabel 4.6 Contoh hasil perihitungan Cosine dan Conditional .............................. 39
Tabel 4.7 Data paragraf testing ............................................................................. 40
Tabel 4.8 Paragraf terambil Id 1630 ..................................................................... 44
Tabel 4.9 Paragraf terambil Id 2507 ..................................................................... 46
Tabel 4.10 Paragraf terambil Id 3701 ................................................................... 48
Tabel 4.11 Hasil precision, recall, dan F-measure skenario I ............................... 49
Tabel 4.12 Hasil precision, recall, dan F-measure skenario II .............................. 50
Tabel 4.13 Hasil precision, recall, dan F-measure skenario III ............................ 50
Tabel 4.14 Hasil precision, recall, dan F-measure skenario IV ............................ 51

xi
library.uns.ac.id digilib.uns.ac.id

DAFTAR GAMBAR

Gambar 2.1 Representasi Dokumen dan Vektor pada Ruang Vektor (Mandala &
Setiawan, 2002) ..................................................................................................... 12
Gambar 2.2 Matriks Term-Dokumen (Mandala, 2006) ........................................ 13
Gambar 2.3 Ilustrasi Peluang Bersyarat (Sahoo, 2013) ........................................ 16
Gambar 3.1 Diagram Metodologi Penelitian ........................................................ 23
Gambar 3.2 Tahap Preprocessing dan Indexing Library ...................................... 25
Gambar 3.3 Tahap Implementasi Vector Space Model ........................................ 27
Gambar 4.1 Contoh salah satu paragraf hasil parsing .......................................... 30
Gambar 4.2 Contoh hasil Case Folding ................................................................ 30
Gambar 4.3 Contoh 100 kata pada daftar StopWord Tala (Tala, 2003) ............... 32
Gambar 4.4 User Interface halaman testing untuk Id dokumen library 123 ........ 35
Gambar 4.5 Detail paragraf query Id 20 dengan paragraf nomor 1 pada library . 36
Gambar 4.6 User Interface halaman testing untuk Id dokumen library 63 .......... 37
Gambar 4.7 Detail paragraf query Id 10 dengan paragraf nomor 2 pada library . 37
Gambar 4.8 Contoh Parsing Paragraf Query ........................................................ 38
Gambar 4.9 Isi paragraf dengan id :1630 .............................................................. 44
Gambar 4.10 Isi paragraf dengan id :2507 ............................................................ 46
Gambar 4.11 Isi paragraf dengan id :3701 ............................................................ 47

xii
library.uns.ac.id digilib.uns.ac.id

DAFTAR LAMPIRAN

Lampiran 1 Data StopWord Tala .......................................................................... 57


Lampiran 2 Hasil Pengujian pada Skenario 1 ....................................................... 64
Lampiran 3 Hasil Pengujian pada Skenario 2 ....................................................... 73
Lampiran 4 Hasil Pengujian pada Skenario 3 ....................................................... 80
Lampiran 5 Hasil Pengujian pada Skenario 4 ....................................................... 85
Lampiran 6 Tipe Awalan dan Aturan Pemenggalannya ....................................... 90
Lampiran 7 User Interface Aplikasi ..................................................................... 92

xiii

Anda mungkin juga menyukai