Tugas Akhir
KK: SIDE (Software Engineering, Information Sistem and Data
Engineering)
Dennis Hidayat
1103110157
Dengan ini saya menyatakan bahwa Tugas Akhir saya dengan judul
Analisis dan Implementasi Deteksi Parafrasa Tweet Menggunakan Algoritma
BLEU, Meteor dan Edit Distance beserta seluruh isinya adalah benar-benar
diselesaikan berdasarkan hasil karya saya sendiri dan saya tidak melakukan
penjiplakan atau pengutipan dengan cara-cara yang tidak sesuai dengan etika
keilmuan dan penelitian yang berlaku. Dengan pernyataan ini, saya siap
menanggung resiko/sanksi yang dijatuhkan kepada saya apabila di kemudian hari
ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau
ada klaim dari pihak lain terhadap keaslian karya saya.
Dennis Hidayat
LEMBAR PENGESAHAN
Dennis Hidayat
1103110159
Tugas Akhir ini telah diterima dan disahkan untuk memenuhi sebagian dari syarat
untuk memperoleh gelar Sarjana Teknik Informatika
Fakultas Informatika
Universitas Telkom
Pembimbing I Pembimbing II
Dalam Penilitian ini akan digunakan algoritma BLEU, Meteor dan Edit
Distance
i
ABSTRACT
In this research we will use BLEU, Meteor and Edit Distance algorithm
ii
LEMBAR PERSEMBAHAN
Alhamdulillahirabbil aalamiin,
Segala puji dan syukur penulis panjatkan kepada Allah SWT atas segala nikmat,
karunia, kasih sayang serta kekuatan yang telah diberikan kepada penulis sehingga
dapat menyelesaikan Tugas Akhir yang belum sempurna ini dengan judul
Analisis dan Implementasi Deteksi Parafrasa Tweet Menggunakan Algoritma
BLEU, Meteor dan Edit Distance. Sholawat serta salam selalu terlimpahkan
kepada Nabi besar Muhammad SAW, yang telah menunjukkan jalan yang lurus
kepada kita semua selaku umatnya sampai akhir jaman. Dalam penelitian ini
penulis banyak dibantu, dibimbing, dan didukung oleh berbagai pihak. Oleh
karena itu, pada kesempatan kali ini penulis sangat ingin mengucapkan
terimakasih yang sebesar-besarnya kepada :
1. kepada Tuhan YME
2. Kedua orang tua tercinta, mukhzen mukhtar dan mismeri yang senantiasa
memberikan doa dan dukungannya.
3. Pak Arif Bijaksana selaku pembimbing satu, terimakasih banyak atas
bimbingan dan waktu luang yang telah diberikan selama ini, juga
terimakasih atas saran dan ilmu yang diberikan.
4. Seluruh dosen dan kawan-kawan di Universitas Telkom Bandung.
Terimakasih atas kebersamaannya.
3
5. Terima kasih untuk seluruh pihak baik yang langsung maupun yang tidak
langsung membantu, mendoakan dan mendukung penulis selama ini hingga
selesainya Tugas Akhir ini. Semoga Allah SWT membalas seluruh kebaikan
kalian.
Dennis Hidayat
4
KATA PENGANTAR
Bismillahirrahmaanirrahiim,
Segala puji bagi serta syukur penulis panjatkan ke hadirat Allah SWT yang
telah memberikan rahmat serta kasih sayangnya sehingga penulis dapat
menyelesaikan Tugas Akhir ini yang merupakan syarat bagi penulis untuk
memperoleh gelar sarjana Teknik Informatika, Fakultas Informatika, Universitas
Telkom.
Tugas Akhir ini adalah hasil penelitian penulis tentang Analisis dan
Implementasi Deteksi Parafrasa Tweet Menggunakan Algoritma BLEU, Meteor
dan Edit Distance. Penulis sangat sadar bahwa banyak sekali kekurangan dalam
penulisan tugas akhir ini, oleh karena itu penulis sangat mengharapakan adanya
kritik maupun saran yang dapat membangun untuk kemajuan, khususnya penulis
dan kita semua selaku insan akademik umumnya. Namun, penulis tetap berharap,
semoga penelitian yang telah dilakukan ini dapat bermanfaat bagi kita semua, baik
sekarang ataupun dimasa yang akan datang.
Dennis Hidayat
DAFTAR ISI
ABSTRAK ............................................................................................................... i
ABSTRACT ..............................................................................................................
ii LEMBAR PERSEMBAHAN ................................................................................
iii KATA PENGANTAR
............................................................................................ v DAFTAR ISI
.......................................................................................................... vi DAFTAR
GAMBAR ........................................................................................... viii DAFTAR
TABEL .................................................................................................. ix BAB I
...................................................................................................................... 1
PENDAHULUAN .................................................................................................. 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Perumusan Masalah.................................................................................. 2
1.3 Batasan Masalah ....................................................................................... 2
1.4 Tujuan....................................................................................................... 2
1.5 Manfaat Penelitian.................................................................................... 2
1.6 Metodologi Penyelesaian Masalah ........................................................... 3
1.7 Sistematika Penulisan ............................................................................... 3
BAB II ..................................................................................................................... 5
LANDASAN TEORI .............................................................................................. 5
2.1 Parafrasa ................................................................................................... 5
2.2 String......................................................... 6
2.2.1 Tokenizer.. ............................................................................. 6
2.2.2 Word Replacer .................................................................................. 6
2.2.3 Stemming .......................................................................... 6
2.2.3 Stop Word... .......................................................................... 6
2.2.5 Part-of-Speech Tagging..6
2.3 N-gram...................................................................................................... 7
2.4 Lexical String Similarity ...................................................... 8
2.5 Levensthein Edit Distance........................................................................ 9
2.6 Machine Translation Evaluation System (METEOR).............................. 9
2.7 BLEU................................................................................................... 10
vii
BAB III ................................................................................................................. 14
PERANCANGAN DAN IMPLEMENTASI ........................................................ 14
3.1 Gambaran Umum ................................................................................... 14
3.2 Perancangan Dataset ....................................................... 14
3.3 Deskripsi Sistem Yang Akan Dibangun ................................................ 15
A. Perancangan Preprocessing ............................................................. 15
B. Perancangan Machine Translation Evaluation Metrics .................... 16
C. Perancangan Classifier ......................... 16
D. Analisis Hasil Program..17
E. Hasil Akhir....17
BAB IV ................................................................................................................. 25
PENGUJIAN DAN ANALISIS ............................................................................ 25
4.1 Pengujian Sistem .................................................................................... 25
4.2 Tujuan Pengujian.25
4.3 Skenario Prengujian ............................................................................... 25
4.4 Hasil Pengujian dan Analisis.................................................................. 27
BAB V................................................................................................................... 34
PENUTUP............................................................................................................. 34
5.1 Kesimpulan............................................................................................. 34
5.2 Saran ....................................................................................................... 34
DAFTAR PUSTAKA ........................................................................................... 35
vii
DAFTAR GAMBAR
8
DAFTAR TABEL
Tabel 2.1 Perbandingan alih aksara Qalam dan kritis Indonesia ............................ 6
Tabel 2.2 Perbandingan alih aksara dengan kata serapan ....................................... 7
Tabel 2.3 Pedoman alih aksara................................................................................ 7
Tabel 2.1 Contoh sederhana hashing .................................................................... 10
Tabel 2.2 Tabel Karakter ASCII............................................................................ 12
Tabel 3.1 Aturan Metaphone untuk Arab Latin .................................................... 17
Tabel 3.2 Padanan ke kode fenotis........................................................................ 18
Tabel 4.1 Tabel hasil pengujian precision ............................................................ 27
Tabel 4.2 Tabel Korelasi ....................................................................................... 29
Tabel 4.3 Tabel hasil pengujian skenario kedua ................................................... 31
Tabel 4.4 Tabel hasil pengujian skenario ketiga (user) ........................................ 32
Tabel 4.4 Tabel hasil pengujian skenario ketiga (sistem) ..................................... 33
9
BAB I
PENDAHULUAN
1.1 Latar Belakang
10
Identifikasi Parafrasa merupakan sebuah percabangan dari studi tentang
Natural Language Processing (NLP) yang telah banyak dilakukan dengan
menggunakan berbagai macam Machine learning translation. Selain itu,
menganalisis Data sosial seperti tweet dari media sosial Twitter adalah bidang
yang banyak dikembangkan untuk tujuan yang bermacam-macam. Untuk
melakukan penilitian ini dalam deteksi parafrasa dapat dilakukan dengan
pendeketan semantic similarity, textual entailment dan machine translation
evaluation techniques, selanjutnya penulis ingin mengembangkan metode ini
kedalam aplikasi yang dapat menganalisis parafrasa dalam media sosial twitter.
Dalam mengembangkan sistem ini penulis memilih beberapa fitur berbeda mulai
dari yang sederhana (yang memiliki kesamaan string/kata, edit distance) ke yang
lebih kompleks (machine translation evaluation metrics) selanjutnya kalimat
tersebut dibentuk kedalam classified biner. Selain itu dalam sistem ini
menggunakan beberapa fitur secara independen ataupun bersama untuk mengukur
semantic similiarity dan juga untuk mengetahui parafrase dari dua kalimat tersebut
untuk mengevaluasi seberapa signifikan dari masing-masing fitur tersebut yang
selanjutnya dapat berguna untuk pengembangan sistem itu sendiri.
1.2 Perumusan Masalah
Berdasarkan latar belakang yang telah dipaparkan di atas, berikut rumusan
masalah yang telah ditetapkan pada tugas akhir ini :
1. Bagaimana penggunaan algortima BLEU, Meteor dan Damereu-
levensthein edit distance dalam mempredisi paraphrase dua buah
kalimat?
2. Bagaimana memperoleh nilai akurasi terbaik dari metode yang
digunakan?
1.4 Tujuan
Tujuan pembuatan tugas akhir dengan judul Analisis dan Implementasi
Deteksi Parafrasa Tweet Menggunakan Algoritma BLEU, Meteor dan Edit
Distance diantaranya yaitu :
1. Melakukan prediksi parafrasa dua buah kalimat tweet dengan
algoritma yang sudah ditentukan.
2. Mengatahui akurasi dari penggunaan algortma BLEU, Meteor dan Edit
distance terhadap pengukuran parafrasa dua buah tweet.
3. Mengetahui pengaruh penggunaan algoritma BLEU, Meteor dan Edit
distance terhadap akurasi prediksi paraphrase dua buah tweet.
1.5 Manfaat Penelitian
Dengan penilitian yang dilakukan diharapkan mendapatkan hasil dari
pengaplikasian metode-metode yang tercantum yang selanjutnya bisa diukur
seberapa efektifnya metode yang digunakan tersebut. Dalam penilitian ini penulis
mengharapkan dapat memberikan sebuah sistem yang dapat menjadi salah satu
cara dalam mengukur parafrase kalimat khususnya dalam twitter.
1.6 Metodologi Penyelesaian Masalah
Dalam tugas akhir ini, digunakan metodologi penelitian yang dapat
dijabarkan sebagai berikut :
1. Studi literatur
Dalam pengumpulan bahan penilitian penulis mengumpulkan referensi
dari berbagai jurnal, e-book, artikel, diskusi, internet dan sumber-
sumber lainnya. Termasuk pengumpulan data-data pendukung dan
melakukan analisa
sistem yang diperlukan dalam tahap implementasi.
2. Konsultasi dan diskusi
Tahap ini dilakukan dengan melakukan konsultasi dan diskusi dengan
dosen pembimbing tugas akhir dan senior atau teman yang mengambill
topik tugas akhir yang sama.
3. Analisis perancangan dan implementasi
Merancang sistem dengan menggunakan metode yang telah ditentukan
kemudian diimplementasikan dalam aplikasi untuk mendeteksi apakah
kedua kalimat sama atau tidak.
4. Uji coba sistem
Uji coba terhadap aplikasi perangkat lunak yang telah dibuat dan
menganalisa performansi dari algoritma yang digunakan.
5. Penulisan laporan
Tahap ini dilakukan penyusunan laporan sebagai prosespen
dokumentasian terhadap proses dan hasil dari pelaksanaan tugas akhir
ini
BAB I PENDAHULUAN
Pada bab pertama ini menjelaskan gambaran secara umum
tentang tentang tugas akhir yang dikerjakan mengenai latar
belakang masalah, batasan masalah, perumusan masalah,
tujuan penelitian, manfaat penelitian, metodologi penelitian
dan sistematika penulisan.
BAB II DASAR TEORI
Pada bab kedua ini akan dijelaskan dasar-dasar teori yang
mendukung penyelesaian tugas akhir, khususnya teori yang
berkaitan dengan masalah penelitian sehingga dapat
mendukung pengimplementasian algoritma serta
pengujiannya.
BAB III PERANCANGAN
Pada bab ketiga ini dijelaskan perancangan yang diperlukan
berdasarkan mekanisme dan batasan yang digunakan,
sehingga dapat diimplementasikan serta direalisasikan
software yang akan dibuat sesuai dengan yang diinginkan.
BAB IV ANALISIS DAN PENGUJIAN
Pada bab keempat ini akan dijelaskan hasil pengujian dari
perancangan dan implementasinya mengenai parameter-
parameter yang dibutuhkan sesuai metode yang digunakan
dalam sistem yang telah dibangun pada bab sebelumnya.
BAB V PENUTUP
Pada bab terakhir ini menyajikan kesimpulan terhadap hasil
penelitian yang telah dilakukan berikut saran yang perlu
dikemukakan dari hasil penelitian.
BAB II
LANDASAN TEORI
2.1 Parafrasa
Dalam Kamus Besar Bahasa Indonesia, parafrasa adalah penguraian
kembali suatu teks (karangan) dalam bentuk (susunan kata) yang lain, dengan
maksud untuk dapat menjelaskan makna yang tersembunyi.
2.2 String
Dalam ilmu komputer string adalah deretan karakter. Walaupun sering juga
dianggap sebagai data abstrak yang menyimpan sekuens nilai data, atau biasanya
berupa bytes yang mana merupakan elemen yang digunakansebagai pembentuk
karakter sesuai dengan encoding karakter yang disepakati seperti ASCII, ataupun
EBCDIC. Hubungan string dengan penelitian ini adalah bahwa karakteristik dari
informasi yang akan disimpan dalam database dapat dianggap serupa dengan
string. Hal ini akan memudahkan programmer dalam membangun sistem
pencocokan karakter dari sampel yang akan dikonversi terlebih dahulu menjadi
serupa dengan string ataupun deretan bytes. Konversi inilah yang nantinya akan
dibandingkan langsung dengan informasi karakteristik yang disimpan dalam
database.
Dalam tahapan preprocessing setiap string pada dataset akan dinormalisasi
kedalam bentuk yang lebih mudah untuk diproses selanjutnya pada Machine
Translation Evaluation Metrics (MTEM) dalam eksperimen ini terdapat beberapa
penggunaan metode pada tahap preprocessing diantaranya :
2.2.1 Tokenizer
Tokenizer adalah program dapat membaca string dari set data
sehingga dapat mengenali kata didalam kalimat. Teknik tokenisasi
adalah memisahkan karakter-karakter yang terpisahkan oleh karakter
spasi atau karakter tanda baca sebagai sebuah kata.
2.2.2 Word Replacer
Word Replacer merupakan cara dalam mengubah penulisan tidak
baku yang terkadang muncul dalam kalimat. kata yang memiliki multi-
karakter dimana karakter tersebut merupakan pengulangan dari karakter
sebelumnya dimana kata tersebut juga harus di masukan sebagai unsur
penentu paraphrase kalimat, sehingga hanya perlu di buat ke bentuk
baku kata tersebut. Dengan menggunakan kamus wordNet kata karakter
yang diperkirakan terdapat pengulangan karakter tersebut dihapus satu-
per-satu lalu di cek ke kamus wordNet, setiap pengapusan selalu
dicocokan dengan kata di kamus WordNet sampai kata tersebut cocok.
2.2.3 Stemming
Stemming adalah proses pengubahan setiap kata menjadi ke
bentuk dasar, tujuan dari stemming adalah agar proses pencarian
kemiripan kalimat menjadi lebih mudah. Pada proses stemming kata
yang memiliki peta keterhubungan kalimat menjadi lebih jelas jika
memiliki hierarki yang sama. Sebagai contoh stemming pada Bahasa
inggris kata "stems", "stemmer", "stemming" dan "stemmed" dapat
dirubah menjadi "stem", Kata "fishing", "fished", dan "fisher" menjadi
"fish". Tetapi dengan stemming kata "argue", "argued", "argues",
"arguing", dan "argus" dapat dirubah menjadi "argu" dimana sistem dari
stemming mengubah kata yang berbentuk verb 2 dan verb 3 menjadi
verb 1.
2.2.4 Stopwords
Stopwords dalah proses menghapus kata penghubung dan
karakter dalam kalimat. Kata atau karakter yang tidak terlalu
mempangaruhi dalam kesamaan makna dua buah kalimat, jadi dalam
proses selanjutnya kata pengubung tidak dimasukan kedalam
pengukuran paraphrase.
2.2.5 Part-Of-Speech Tagging
Part-of-Spech tagging adalah proses untuk menentukan subjek,
objek, predikat dan keterangan dari suatu kalimat. dengan menggunakan
kamus Bahasa inggris dari WordNet program mencocokan setiap
token/kata dari kalimat referensi dan kalimat original daan memberi
label dari setiap kata
2.3 N-gram
N-gram teks secara luas digunakan text mining dan tugas-tugas pengolahan
NLP. N-gram dapat di gambarkan seperti penggunaan sebuah perpindahan kata
setelah kata pertama secara berturut-turut dengan jumlah yang ditentukan hingga
menemui kata terakhir. Untuk lebih jelasnya lihat contoh berikut. Jika terdapat
sebuah kalimat yaitu java adalah salah satu bahasa pemrograman maka jika dibuat
bigram (if n=2) maka kalimat tersebut n-gramnya adalah :
Java adalah
Adalah salah
Salah Satu
Satu bahasa
Bahasa pemrograman
Terlihat dari contoh diatas maka jumlah kalimat tersebut adalah 4 n-gram.
max ( i , j )
Lev a ,b ( i1, j ) +1
Lev a , b ( i , j1 ) +1
j
ai b
Lev a ,b ( i1, j1 ) +1 jikamin (i , j)=0,lainnya
min
Lev a ,b ( i , j )=
T U N G G A L
0 1 2 3 4 5 6 7
T 1 0 1 2 3 4 5 6
A 2 1 1 2 3 4 5 6
N 3 2 2 1
G 4 3 3 1
G 5 4 4 1
A 6 5 5 1
L 7 6 6 1
Presisi, recall, dan Fmean semua berdasarkan perbandingan satu buah kata
tunggal, untuk penjelasan lebih jauh unigram mana pada kedua terjemahan
yang masih dalam ururtan yang sama dilakukan penghitungan fragmentasi
sebagai berikut. Pertama, urutan pada unigram yang cocok pada kedua buah
terjemahan dipisah hingga menjadi bagian terkecil sehingga unigram yang
cocok pada setiap pecahan berdekatan (di kedua buah string) dan pada
urutan yang identikal. Jumlah pecahan (ch) dan jumlah perbandingan (m)
kemudian digunakan untuk menghitung fraksi fragmentasi : frag = ch / m .
ini kemudian dihitung sebagai
Pen= frag
Nilai dari menentukan penalty maksimal (0 1) nilai tersebut
menentukan hubungan fungsional antara fragmentasi dan penalty-nya. Yang
akhirnya akan menghasilkan nilai keselarasan dari
Score=( 1 Pen ) F mean
2.7 BLEU
BLEU melakukan perbandingan n-gram pada sebuah kalimat dengan n-
gram pada kalimat referensi dan menghitung jumlah kecocokan, semakin
banyak kecocokan menunjukan semakin baik.
2.7.1 Modified n-gram precision
Landasan metrik pada BLEU adalah dengan mengukur precision.
Untuk melakukan penghitungan ini dapat menggunakan uni-gram dimana
kalimat referensi dibagi dengan kalimat kandidat . untuk mengurangi
inefficiency uni-gram dapat membatasi jumlah maksimal kata pada
kalimat kandidat. Contoh :
Kandidat : the the the the the the the.
Referensi 1: The cat is on the mat.
Referensi 2: There is a cat on the mat.
Pada contoh terlihat Modified Unigram Precision = 2=7.3
13
BAB III
PERANCANGAN DAN IMPLEMENTASI
22
Gambar 3.1 Contoh Data Training
Sedangkan untuk data test memiliki label nomor, Topik, kalimat 1, kalimat
2 dan parafrasa. Contoh data bisa dilihat dari gambar 3.2.
Selanjutnya untuk keperluan pengolahan data, data training dan data test
akan dibentuk ke dalam format .txt untuk input program.
23
Gambar 3.3 Alur Skenario Sistem
Penjelasan flowchart yang bisa dilihat dari gambar 3.3 diatas berikut adalah
penjelasan dari alur sistem yang akan dibuat :
A. Perancangan preprocessing
Pada tahap preprocessing ini bertujuan untuk mengubah bentuk string menjadi ke
bentuk yang lebih mudah untuk keperluan prediksi paraphrase. Dengan menggunakan
data uji yang telah di bentuk menjadi format .txt selanjutnya data masuk ke proses
preprocessing data pertama yang diolah adalah data training kemudian data test. Yang
terjadi didalam proses preprocessing adalah menghilangkan dan mengubah ke bentuk
yang diharapkan, contioh bentuk yang diharapkan bila terdapat string seperti dibawah ini.
24
em gimme 50k Announced First will quit
Print or Imma Quit.
1. Melakukan Tokenisasi
Pada proses pertama yang dilakukan kepada data adalah melakukan tokenisasi
data agar program dapat membaca kata dari string didalam dataset. tokenisasi
adalah memisahkan karakter-karakter yang terpisahkan oleh karakter spasi atau
karakter tanda baca sebagai sebuah kata.
2. Word Replacer
Dalam Twitter banyak pengguna membuat tweet yang menggunakan penulisan
tidak baku sehingga terkadang muncul kata yang memiliki multi-karakter dimana
karakter tersebut merupakan pengulangan dari karakter sebelumnya dimana kata
tersebut juga harus di masukan sebagai unsur penentu paraphrase kalimat,
sehingga hanya perlu di buat ke bentuk baku kata tersebut. Dengan menggunakan
kamus WordNet kata karakter yang diperkirakan terdapat pengulangan karakter
tersebut dihapus satu-per-satu lalu di cek ke kamus WordNet, setiap pengapusan
selalu dicocokan dengan kata di kamus WordNet sampai kata tersebut cocok.
3. Stop Words
Dalam proses menentukan paraphrase dua buah kalimat kalimat penghubung tidak
terlalu mempangaruhi dalam kesamaan makna dua buah kalimat, jadi dalam
proses selanjutnya kata pengubung tidak dimasukan kedalam pengukuran
paraphrase.
4. Stemming
Kedia kalimat dilakaukan proses Stemming. Stemming adalah proses
pembentukan kata menjadi bentuk kata dasar kata tersebut dengan membuat kata
menjadi kata dasar diharapkan kesamaan makna antar kalimat jadi semakin besar.
5. Mengapus Topik
Dalam melakukan identifikasi paraphrase, pengaruh dari munculnya kata topik
dalam tulisan tidak memberikan dampak signifikan terhadap akurasi akhir
paraphrase. Kemunculan topik pada String juga bisa berakibat mengecoh, maka
pada proses ini dilakukan penghapusan kata topik pada kalimat referensi dan
kalimat original.
6. Part-Of-Speech Tagging
Dengan menggunakan kamus Bahasa inggris dari WordNet program mencocokan
setiap token/kata dari kalimat referensi dan kalimat original daan memberi label
dari setiap kata, dengan menggunakan proses ini dapat menentukan subjek, objek,
predikat dan keterangan dari suatu kalimat.
E. Hasil Akhir
Hasil akhir dari program adalah nilai parafrasa atau non-parafrasa
26
BAB IV
PENGUJIAN DAN ANALISIS
Hasil dari preprocessing yang dilakukan aplikasi dari data training dan data testing
sebagai berikut:
Tokenisasi
Kode program untuk melakukan proses token adalah
# tokenize document without character
token=nltk.word_tokenize(sentence)
Dari hasil running program menggunakan source code seperti diatas didapatkan hasil
tokenisasi seperti terlihat pada tabel 4-1.
Dari hasil pengujian didapatkan hasil tokenisasi oleh program yang setelah diuji pada
beberapa data berhasil melakukan tokenisasi pada inputan string. Dari hasil pengujian
tersebut dapat disimpulkan bahwa proses tokenisasi dapat berjalan dengan baik.
Stop Word
from nltk.corpus import stopwords
stopword_sentence(sentence):
stopword_docs = []
for token in sentence:
words = sentence
stops=set(stopwords.words('english'))
Dari hasil pengujian didapatkan hasil Stop word oleh program yang setelah diuji pada
beberapa data berhasil melakukan Stop word pada inputan string. Kata penghubung yang
terdapat pada kalimat berhasil di identifikasi oleh program menggunakan kamus dari
WordNet lalu menghapus token yang di identifikasi sebagai kata penghubung. Dari hasil
pengujian tersebut dapat disimpulkan bahwa proses Stop word dapat berjalan dengan baik.
Stemmer
def stemmer_sentence(sentence):
stemmer_docs = []
stemmerporter = PorterStemmer()
for token in sentence:
stemmer = stemmerporter.stem(token)
stemmer_docs.append(stemmer)
return stemmer_docs
Dari hasil pengujian didapatkan hasil Stemmer oleh program yang setelah diuji pada
beberapa data berhasil melakukan Stemmer pada inputan string. Kata verb 3 masih belum
berhasil diubah menjadi verb 1 seperti kata went yang seharusnya menjadi go dan
gone menjadi go, hal itu disebabkan karena.. Dari hasil pengujian tersebut dapat
disimpulkan bahwa proses Stemmer tidak dapat berjalan dengan baik.
Remove Topic
topic_token=nltk.word_tokenize(topic)
new_sentence = []
for token in sentence:
isMatch = False
for token_t in topic_token:
if token == token_t:
isMatch = True
break
if isMatch == False:
new_sentence.append(token)
return new_sentence
Dari hasil pengujian didapatkan hasil Remove Topic oleh program yang setelah diuji pada
beberapa data berhasil melakukan Remove Topic pada inputan string. Hal ini disebabkan
karena input data test dan data training memiliki data topik dari kedua kalimat yang akan
dibandingkan dan program membaca data tersebut lalu menghapus token yang jika string
tersebut sama dengan string array pada data topik. Dari hasil pengujian tersebut dapat
disimpulkan bahwa proses Remove Topic dapat berjalan dengan baik.
Part-of-Speech Tagging
def parts_of_speech_tagging(sentence):
return nltk.pos_tag(sentence)
Dari hasil pengujian didapatkan hasil Part-of-Speech Tagging oleh program yang setelah
diuji pada beberapa data berhasil melakukan Part-of-Speech Tagging pada inputan string.
Hal ini disebabkan karena program menggunakan kamus dari WordNet untuk melihat
referensi setiap token kalimat dan disamakan dengan penilaian Part-of-Speech dari
WordNet. Dari hasil pengujian tersebut dapat disimpulkan bahwa proses Part-of-Speech
Tagging dapat berjalan dengan baik.
Edit distance
Proses untuk melakukan perhitungan jarak tiap kata yang telah diproses menggunakan
algoritma edit distance menghasilkan nilai seperti terlihat pada tabel 4
distance
Dengan semakin besar jumlah nGram maka akan mempengaruhi score bleu yang akan
didapatkan.
Fmean yang didapat dari meteor dipengaruhi oleh hasil yang didapat dari Bleu dan Edit
distance.
a. Melakukan prediksi paraphrase dua buah kalimat (tweet) dengan penerapan BLEU, METEOR
dan Edit Distance.
EJ manuel go draft but bro 757 EJ manuel Paraprase
gone
Berdasarkan data diatas, aplikasi yang dibangun dapat memprediksi paraphrase atau non
paraphrase untuk (seluruh/sebagian) data yang diujikan.
b. Mengatahui akurasi dari penggunaan algortima BLEU, Meteor dan Edit distance terhadap
pengukuran paraphrase dua buah kalimat (tweet).
c. Mengetahui pengaruh penggunaan algoritma BLEU, Meteor dan Edit distance terhadap akurasi
prediksi paraphrase dua buah kalimat (tweet).
Akurasi Ket
Precision = 0.38479020979
Recall = 0.417424242424 total data train = 10
F1 = 0.397747035573 total data testing = 7
Dengan menggunakan bleu meteor edit, tingkat akurasi dapat lebih baik jika
data training lebih banyak dibandingkan data yang akan diuji.
BAB V
PENUTUP
5.1 Kesimpulan
1. Dari Penggunaan ketiga algoritma hasil akurasi yang didapat masih kurang cukup,
sehingga nilai akurasi dari identifikasi program yang dibuat masih jauh dari
harapan
2. Dari pengujian ketiga algoritma terhadap 200 data testing menghasilkan nilai
Precision = 0.38479020979, Recall = 0.417424242424 dan
5.2 Saran
1.
2.
3.
DAFTAR PUSTAKA
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]