net/publication/334753026
CITATION READS
1 310
2 authors, including:
Muhammad Wali
AMIK Indonesia
17 PUBLICATIONS 85 CITATIONS
SEE PROFILE
All content following this page was uploaded by Muhammad Wali on 01 December 2019.
abstrak
Kata Kunci:
Penelitian ini dimaksudkan untuk membuat sebuah teknik pengkodean dengan
Similar text, PHP, Aplikasi, fungsi mirip similar_text sebagai pendeteksi plagiat sebuah teks. Dengan
Plagiarisme menggunakan fungsi teks yang serupa, penelitian ini menghasilkan sebuah
deteksi dokumen terhadap 10 (sepuluh) jurnal yang dipilih dengan bahasa
indonesia, dokumen yang merupakan dokumen dengan ekstensi doc, docx, pdf,
dan txt. Dokumen tersebut akan dikonversi ke dalam bentuk html dan
selanjutnya akan dilakukan pembuatan string dengan penanda titik (.) Dan koma
(,) akan terambil sebuah string baru. Dengan menentukan persentase kemiripan
string sebesar 90% maka dihasilkan sebuah teks, pada kasus ini jurnal yang
terdeteksi plagiat adalah jurnal 1 dengan persentase kemiripan string sebesar
48%. Penggunaan teks serupa dapat digolongkan sebagai teknik pengkodean
untuk deteksi plagiarisme pada penggunaaan aplikasi deteksi anti plagiat .
menyajikan ikhtisar tentang Exactus Like { a plagia- semantik digunakan untuk melatih dan menerapkan
rism detection system. Penguraian yang dalam untuk SVM. Gambaran statistik yang digunakan adalah
keselarasan teks membantu system untuk melihat koefisien Jaccard, koefisien Dice, jarak Levenshtein,
bentuk plagiarisme tersembunyi. Hasil dari dan persamaan umum terpanjang. Untuk
penelitian ini menghasilkan sebuah prototype yang mendeteksi kesamaan semantik, sebuah metode
diberinama Exactus Like yang tersedia secara online baru yang disebut "Index Words Replacement"
di http://like.exactus.ru/index.php/en/. Penelitian diusulkan. Kerangka yang diusulkan diuji pada data
ini difokuskan pada deteksi plagiarisme yang sangat PAN. Hasilnya menunjukkan ketepatan 0,93337,
disamarkan. mengingat 0,70124 dan Plagdet dari 0,80083.
Al-Shamery dan Gheni (2016) melakukan penelitian Mengingat banyaknya metode dan algoritma yang
untuk mengetahui cara yang tepat untuk diterapkan untuk mendeteksi plagiarism, maka
mendeteksi plagiarisme semantic pada makna dan peneliti akan mengambil beberapa algoritma sebagai
memanfaatkan sinonim dan menggantinya dari pengujian deteksi dokumen, tetapi penelitian ini
kata-kata asli. Penelitian ini juga bertujuan untuk hanya menfokuskan fungsi similar text pada bahasa
menerapkan pre-processing untuk kata-kata pemrograman PHP.
penelitian dengan menggunakan tokenization dan stop
word remove processes, kemudian diuji apakah Similar text merupakan salah satu fungsi PHP yang
penelitian masuk di bawah spesialisasi ilmu merupakan algoritma sederhana untuk menghitung
komputer atau tidak, dimana hanya penelitian yang kesamaan antara dua string. String dimaksud dapat
akan terdeteksi plagiarisme semantik dengan berupa angka, karakter, huruf atau kata yang
menggunakan WordNet. Penelitian ini memberikan dikelompokkan secara Bersama maupun terpisah
cara yang efektif untuk mendeteksi plagiarisme sebagai string dengan variable panjang. Dalam
semantic penelitian tertulis, terutama oleh siswa prakteknya, similar text banyak digunakan di berbagai
yang memiliki plagiarisme besar dalam penelitian. situs web untuk mencari keunikan teks, mengitung
Vani dan Gupta (2016) juga melakukan penelitian jumlah duplikasi hingga mengindentifikasi konten
dengan menfokuskan dari teknik deteksi plagiat dan duplikat.
tools yang digunakan. Tetapi hanya menyajikan
ulasan singkat tentang alat danteknik plinatisme 2. Metode Penelitian
ekstrinsik teks.
Ada beberapa metode serta algoritma dalam dalam
Hal berbeda dilakukakan oleh Abdul‐Rahman et al mendeteksi sebuah dokumen, penelitian ini
(2017), untuk memudahkan interaksi manusia mengusulkan metode baru berdasarkan dokumen
dalam proses analisis visual untuk deteksi kesamaan yang diunggah dengan menggunakan beberapa
teks, diawali dengan memetakan masalah algoritma. Algoritma yang disarankan dalam bahasa
perbandingan urutan berpasangan dengan PHP. Skema usulan pendekatan disajikan pada
pemrosesan gambar, yang memungkinkan pola gambar 1. Fase yang berbeda dari usulan Proses
kemiripan divisualisasikan sebagai pixelmap 2D, pendeteksian plagiarisme akan dibahas di bawah ini.
kemudian merancang antarmuka visual untuk
memungkinkan pengguna membuat dan Parameter similar text diawali dengan string 1, string
bereksperimen dengan detektor yang berbeda 2, dan seterusnya string n, yang selanjutnya similar
menggunakan primitive metrics, dengan cara yang text akan menghitung kemiripan string dalam bentuk
serupa dengan pembuatan pipeline pengolahan citra. persen. Dengan model perhitungan yaitu; membagi
Selanjutnya, Esteki dan Esfahani (2016) melakukan hasil similar text dengan rata-rata panjang string
penelitian yang menggunakan fitur statistik dan sehingga akan menghasilkan hasil persentase yang
semantik untuk menentukan fungsionalitas Support tertinggi 100. Hasil persentase hasil similar text juga
Vector Machines (SVMs) dalam mendeteksi tindakan dapat diatur sesuai dengan berapa persentase yang
plagiarisme dalam bahasa Persia. Untuk diambil dari string tersebut. Sebagai contoh: string 1
meningkatkan akurasi, stemmer dirancang untuk berisi “similarity PHP” dan string 2 berisi “PHP
membendung kata-kata Persia. Fitur statistik dan similarity” maka jika ingin mengambil hasil
Journal JTIK (Jurnal Teknologi Informasi dan Komunikasi) 2(1) 2018, 1-74 15
Primary Candidate
File Text File Text
(doc, docx, Pre-Process (doc, docx,
Swapping pdf, txt) pdf, txt)
Results (%)
explode () Array
Gambar 1. Proses Similar PHP
Design
Build Prototype
Implement
Test
Gambar 3 menunjukkan sebuah proses diawali 3.3. Analisa Kode Similar text
dengan dokumen sebagai string baik berupa file Dari Analisa system dan memproses fitur pengkodean
word (doc, docx), Pdf, Txt akan dikonversi similar text maka dapat diterapkan kode PHP berikut:
sebelumnya menjadi sebuah file dalam bentuk
<?php
HTML sehingga dapat memudahkan dalam include('db.class.php');
proses pengulangan string. Seperti dijelaskan include('docx_reader.php');
sebelumnya, setiap string pertama akan dibuat $id = $_GET['similar-text'];
ketika sebuah kata-kata pada sebuah dokumen
$detail = mysqli_fetch_array(mysqli_query($db,
diakhiri dengan tanda titik ( . ) atau koma ( , ) "select * from table1 where id = $id"));
sehingga hasil dari pemisahan tersebut akan $list_compaire = mysqli_query($db, "select * from
table1 where id <> $id");
terbentuk sebuah string 1,2, n pada setiap
dokumen baik dokumen awal (primary) atau target $doc = new Docx_reader();
$doc-
(candidate). >setFile('uploads/dokumen/'.$detail['content']);
if(!$doc->get_errors()) {
3.2. Mengekstrak Fitur Penkodean $html = $doc->to_html();
Ada beberapa Teknik yang digunakan sehingga $plain_text = $doc->to_plain_text();
menghasilkan sebuah proses similar text: $total_plagiat = 0;
a. Konversi File Dokumen $final_read = '';
while ($data =
Sebelumnya file akan dikonversi ke HTML, mysqli_fetch_array($list_compaire)) {
hal ini diuntungkan karena file tidak perlu $doc-
>setFile('uploads/dokumen/'.$data['content']);
diunggah ke dalam database nantinya. Pada $read_doc = $doc->to_plain_text();
proses ini dibutuhkan beberapa reader
$final_read = explode('.',
dokumen. $read_doc);
Penjelasan dari kode diatas melibatkan 1 (satu) buah Tabel 1. Dokumen yang di Uji (Jurnal)
tabel dengan nama table1 dan field (id, content, Dokumen Jumlah String
persentase_plagiat). Ada beberapa file include terdiri Jurnal 1 562
dari 2 (dua) yaitu; db.class.php merupakan sebuah file Jurnal 2 480
untuk koneksi ke database MySQLi dan Jurnal 3 570
docx_reader.php merupakan sebuah file untuk Jurnal 4 640
mengeksekusi file dokumen menjadi sebuah string Jurnal 5 526
HTML dan ditampilkan pada sebuah browser. Jurnal 6 209
Jurnal 7 368
Hasil konversi dokumen akan dilakukan pemotongan Jurnal 8 344
string sebagai sebuah string dengan penggunaan Jurnal 9 487
fungsi explode (), karakter sebuah string akan Jurnal 10 521
dipisahkan dengan tanda titik dan koma. Pada kode
diatas hasil plagiat akan dimunculkan dengan Dari masing-masing jurnal tersebut, maka didapati
kesamaan string sebesar 90 persen. Dengan suatu string. Dimana dari suatu string tersebut akan
menggunakan matematika sederhana maka hasil dari diuji tingkat kesamaan kedalam fungsi similar text.
string array () akan didapati dan dibagi dengan jumlah Maka dari pengujian jurnal dengan kode diatas maka
dokumen yang dianalisa. dihasilkan persentase kesamaan secara rinci pada tabel
2.
3.4. Analisa Output Tabel 2. Hasil Pengujian Dokumen
Data keluaran (Output) yang dihasilkan dari Dokumen Persentase Plagiat
pengkodean ini adalah didapatkan sejumlah
Jurnal 1 12 %
kesamaan string dengan persentase berbeda. Pada
Jurnal 2 48 %
pengujian dilakukan melibatkan 10 (sepuluh) jurnal
Jurnal 3 0%
dengan rata-rata memilki kata 4.500, maka didapati
Jurnal 4 0%
string tertinggi pada jurnal 1 dengan jumlah 562 dan
Jurnal 5 0%
terendah pada jurnal 9 dengan jumlah 487, rincian
Jurnal 6 0%
string dapat dilihat pada tabel 1 berikut:
Jurnal 7 0%
Jurnal 8 0%
Jurnal 9 0%
Jurnal 10 11 %
50%
45%
40%
PERSENTASE
35%
30%
25%
20%
15%
10%
5%
0%
Jurnal 1 Jurnal 10 Jurnal 2 Jurnal 3 Jurnal 4 Jurnal 5 Jurnal 6 Jurnal 7 Jurnal 8 Jurnal 9
Persentase 12% 11% 48% 0% 0% 0% 0% 0% 0% 0%