TUGAS UAS Statistika & Probabilitas Anita Septiani Putri (3 (20221) REG 2.
TUGAS UAS Statistika & Probabilitas Anita Septiani Putri (3 (20221) REG 2.
Disusun Oleh :
Npm : 2155201101
JEPIN
Vol. 4
No. 2
#Program
Studi Informatika Universitas
DesemTanjungpura
be Jalan Prof. Dr. H. Hadari Nawawi,
Pontianak, Kalimantan Barat
Mesin Penerjemah Statistik Bahasa
Inggris ke Bahasa Melayu Sambas
1dellawidyaningtyas@gmail.com
2hs@untan.ac.id
3safriadi@informatics.untan.ac.id
Abstrak - Perbedaan kemampuan berbahasa dalam Melayu yang dituturkan oleh masyarakat asli kabupaten
masyarakat dapat menjadi penghalang pertukaran informasi, Sambas. Bahasa Melayu Sambas sendiri sampai saat ini
salah satu cara untuk menanggulanginya adalah dengan memang jauh dari kepunahan, dikarenakan penutur bahasa
memanfaatkan teknologi mesin penerjemah. Saat ini relatif masih banyak walaupun tidak diketahui secara
ini masih sulit menemukan korpus paralel bahasa Inggris – pasti berapa penutur bahasa Melayu Sambas.
bahasa daerah, sehingga digunakan bahasa Indonesia Perbedaan bahasa dapat menjadi penghalang pertukaran
sebagai bahasa perantara (pivot language) untuk informasi, maka saat ini sedang dikembangkan teknologi
mempermudah dalam pembuatan korpus paralel bahasa mesin penerjemah. Telah banyak dilakukan penelitian
Inggris – bahasa daerah. Tujuan dari penelitian ini adalah mengenai pengembangan mesin penerjemah statistik
untuk mengetahui pengaruh pivot language terhadap nilai bahasa Inggris ke bahasa Indonesia dan bahasa Indonesia
akurasi mesin penerjemah statistik bahasa Inggris ke bahasa ke bahasa daerah sehingga sudah banyak tersedia korpus
Melayu Sambas. Penelitian menggunakan korpus paralel paralel bahasa Inggris – bahasa Indonesia dan korpus
sebanyak 3000 baris kalimat. Pengujian dilakukan dengan dua paralel bahasa Indonesia – bahasa daerah. Namun saat ini
cara yaitu pengujian secara otomatis menggunakan BLEU masih sulit menemukan korpus paralel bahasa Inggris –
(Bilingual Evaluation Understudy). Pengujian dilakukan bahasa daerah, sehingga digunakan bahasa Indonesia
dengan membandingkan nilai akurasi sebagai Bahasa perantara (pivot language) untuk
terjemahandari mesin penerjemah Bahasa Inggris
mempermudah dalam memperoleh korpus paralel bahasa
Inggris – bahasa daerah. Terdapat beberapa penelitian
– Melayu Sambas dan mesin penerjemah Bahasa Inggris –
pivot language, yang dilakukan berkaitan dengan
Melayu Sambas dengan Bahasa Indonesia sebagai pivot
diantaranya penelitian tentang perbandingan metode pivot
language. Dari hasil pengujian yang telah dilakukan,
untuk mesin penerjemah statistic berbasis frasa [1],
penggunaan pivot language pada mesin penerjemah statistik
penelitian tentang penggunaan bahasa Inggris sebagai pivot
Bahasa Inggris - Bahasa Melayu Sambas dapat
language pada mesin penerjemah statistik bahasa Arab -
mempengaruhi akurasi terjemahan, terlihat terjadi Cina [2], penelitian tentang pentingnya pemilihan pivot
peningkatan nilai akurasi sebesar 5,015% dari nilai pengujian language untuk mesin penerjemah statistik dengan meneliti
semula yang didapatkan dari mesin penerjemah tanpa pivot bahasa selain bahasa Inggris sebagai pivot language [3],
dengan metode BLEU. Berdasarkan data tersebut penggunaan penelitian tentang menggunakan pivot language dalam
pivot language pada mesin penerjemah statistik bahasa Inggris mesin penerjemah statistik bahasa Cina – Spanyol dengan
– bahasa Melayu Sambas dapat meningkatkan nilai akurasi bahasa Inggris, bahasa Arab dan bahasa Prancis sebagai
terjemahan. pivot language [4], dan penelitian tentang pendekatan pivot
untuk memisahkan pola parafrase dari korpus bilingual [5].
Berdasarkan permasalahan di atas, maka akan
Kata kunci— Pivot Language, BLEU, Mesin dilakukan penelitian dengan mengimplementasikan pivot
Penerjemah Statistik language pada mesin penerjemah statistik bahasa Inggris
ke bahasa Melayu Sambas, dimana bahasa Indonesia
I.PENDAHULUAN digunakan sebagai pivot language. Selanjutnya dilakukan
Bahasa merupakan alat komunikasi yang digunakan uji akurasi penerjemahan untuk mengetahui seberapa
seseorang untuk menyampaikan ide, gagasan, konsep atau
perasaan kepada orang lain. Ragam bahasa yang dimiliki
setiap orang berbeda, hal ini yang terkadang menghalangi
pertukaran informasi karena orang lain tidak memahami
maksud dan tujuan yang ingin disampaikan.
Sebagai salah satu bahasa daerah yang ada di Kalimantan
Barat, bahasa Melayu Sambas adalah bahasa
besar pengaruh dari penggunaan bahasa Indonesia sebagai menggunakan SRILM menghasilkan
pivot language terhadap hasil terjemahan. Korespondensi : Della Widya Ningtyas
BLE
U
BP = brevity penalty
Inggris, bahasa Indonesia dan bahasa Melayu Sambas. C.Implementasi Mesin Penerjemah
Jumlah korpus paralel yaitu 3000 pasang kalimat. Statistik BahasaInggris ke Bahasa Melayu
Sambas
B.Perancangan Mesin Penerjemah Statistik
Model bahasa digunakan sebagai sumber pengetahuan
Perancangan mesin penerjemah statistik yang akan dibuat berbasis teks dengan nilai-nilai probabilistik. Penelitian ini
dapat ditunjukkan pada Gambar 3 dan Gambar 4. menggunakan n-gram sebagai language model. Model
Bahasa dibangun dengan tool open source SRILM.
Bahasa Inggris Bahasa Melayu Berdasarkan Gambar 5 model bahasa menghasilkan n-
Sambas gram data yang terdiri dari n gram 1, n gram 2, n gram 3.
Unigram (n gram 1) mempunyai data satu token, bigram (n
Gambar 3 Perancangan Mesin Penerjemah Statistik
gram 2) mempunyai data dua token dan trigram (n gram 3)
mempunyai data tiga token dan masing-masing data dari n
gram disertakan nilai probabilitasnya.
Bahasa Melayu
Bahasa Inggris Bahasa Indonesia
Sambas
Gambar 4 Perancangan Mesin Penerjemah \data\
Statistik Menggunakan
ngram
Pivot Language 1=9832
4 S PQRT
JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. 4, No. 2, Desember 2018
token untuk bahasa Melayu Sambas. Dokumen alignment statistik bahasa Inggris – bahasa Melayu Sambas
dapat dilihat pada Gambar 8. mengalami peningkatan nilai BLEU sebesar 5,015%.
E.Analisis Hasil Pengujian
Berikut adalah contoh hasil terjemahan mesin
penerjemah statistik.
1.Kalimat masukan : among the dead were
two teenagegirls
Gambar. 8 Dokumen Alignment bahasa Inggris – bahasa Melayu a)di antare yang tewas adalah duak
Sambas remaja perempuan
b)para tewas ade di antare duak teenage
Dokumen alignment terdapat tiga baris kalimat. Baris perempuan
pertama berisi letak kalimat target (111) dalam korpus, c) 12,98%
panjang kalimat sumber (10), panjang kalimat target (13) d) di antare korban tewas adalah duak teenage
dan nilai alignment (1.19316e-12). Baris kedua perempuan
merupakan bahasa sumber dan baris ketiga merupakan e) 88,25%
alignment kalimat bahasa target terhadap kalimat bahasa 2.Kalimat masukan : president jokowi at the end of
sumber. Berdasarkan gambar tersebut kalimat bahasa target september 2015 has reviewed 500 hectares of
di-align ke kalimat bahasa sumber. Makna kata planting land in karawang regency , west java
”penumpang” ({ 5 }) pada kalimat bahasa target, di- align a)presiden jokowi pade akhir september 2015
ke kata kelima bahasa sumber yaitu “passengers”. telah meninjau lahan uji coba tanam seluas 500
hektar dikabupaten karawang , jawa barat
D.Pengujian Hasil Terjemahan
b)presiden jokowi pade akher september 2015
Pengujian hasil terjemahan dilakukan dengan pengujian udah reviewed 500 hektar kabon tanam di
otomatis BLEU. Mesin penerjemah statistik dibangun karawang regency , jawa barat
dengan dua tahap. Tahap pertama merupakan mesin c) 79,38%
penerjemah statistik bahasa Inggris ke bahasa Melayu d) presiden jokowi pade akher september 2015 udah
Sambas. Tahap kedua merupakan mesin penerjemah reviewed 500 hektar tanam lahan di kabupaten karawang
menggunakan bahasa Indonesia sebagai pivot language. , jawa barat
Pada tahap kedua ini dibangun dua mesin yaitu mesin e) 81,64%
penerjemah statistik bahasa Inggris ke bahasa Indonesia 3.Kalimat masukan : this surplus condition that makes
dan mesin penerjemah statistik bahasa Indonesia ke bahasa indonesia not import onion in 2016 , said amran
Melayu Sambas. sulaiman
Setelah membuat output berupa hasil terjemahan a) keadaan surplus itok yang muat indonesia
otomatis dari mesin penerjemah statistik, langkah daan mengimpor bawang merah pade 2016 ,
selanjutnya adalah mendapatkan nilai BLEU dari output nye amransulaiman
dengan cara membandingkan output tersebut dengan b)itok surplus condition yang muat indonesia
korpus bahasa target yang telah dibuat sebelumnya. Hasil daan impor bawang merah pade 2016 , jinye
pengujian terjemahan otomatis dapat dilihat pada Tabel 3. amran sulaiman
TABEL III. c) 90,76%
d) itok surplus kondisi yang muat indonesia daan
HASIL PENGUJIAN BLEU impor bawang merah pade 2016 , jinye amran sulaiman
e) 93,65%
MPS Inggris - Melayu MPS Inggris – Melayu 4.Kalimat masukan : two other hostages have been
Mesin Sambas Tanpa Pivot Sambas dengan Pivot
Language Language released earlier , and two are still detained
a) duak sandera laingnye dah kanak
1 21,16 22,55 bebaskan sebalomnye , dan duakk
2 23,09 24,68
maseh ditahan
3 24,79 25,04
4 15,84 16,8
b)duak laing sandera dah merilis awal ,
5 14,41 15,2 dan duakmaseh ditahan
Rata-rata 19,858 20,854 c) 72,47%
d) duak sandera laingnye dah merilis awal , dan duak
Berdasarkan Tabel 3 diperoleh nilai BLEU pada mesin maseh ditahan
penerjemah statistik Bahasa Inggris-bahasa Melayu e) 82,11%
Sambas dengan nilai rata-rata 19,858%. Nilai rata-rata 5.Kalimat masukan : he is believed to have
BLEU pada mesin penerjemah statistik bahasa Inggris- organized smuggling 1,500 people into australia
bahasa Melayu Sambas dengan pivot language adalah since 1999
20,854%. a) die diyakinek dah mengorganisir penyelundupan
Hasil perhitungan penilaian otomatis terhadap hasil 1.500 urang ke australia sejak 1999
terjemahan seluruh kalimat uji pada mesin penerjemah
JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. 4, No. 2, Desember 2018
b)die itok diyakinek ngelakukan organized Indonesia sebagai bahasa perantara atau pivot language,
penyelundupan 1.500 urang ke australia sejak sehingga kualitas mesin penerjemah menjadi lebih baik.
1999
c) 88,25% III.KESIMPULAN
d) die itok diyakinek untok udah mengorganisir A.Kesimpulan
penyelundupan 1,500 urang ke australia sejak
Berdasarkan hasil implementasi dan hasil analisis
1999
e) 92,99% pengujian terhadap mesin penerjemah statistik bahasa
Keterangan : Inggris – bahasa Melayu Sambas disimpulkan bahwa: 1.
Mesin penerjemah statistik dapat
a): kalimat referensi diimplementasikan untuk menerjemahkan
b): terjemahan MPS tanpa pivot language bahasa Inggris ke bahasa Melayu Sambas.
c) : skor BLEU MPS tanpa pivot language d): 2. Terjadi peningkatan nilai akurasi mesin
terjemahan MPS dengan pivot language penerjemah statistik dengan metode BLEU yaitu
e) : skor BLEU MPS dengan pivot language sebesar 5,015%.
3. Penggunaan pivot language dapat
Nomor satu frase “among the dead” diterjemahkan oleh mempengaruhi peningkatan akurasi
mesin penerjemah statistik tanpa pivot language penerjemahan pada mesin penerjemah statistik
menghasilkan output “para tewas ade di antare” dan skor bahasa Inggris – bahasa Melayu Sambas.
BLEU sebesar 12,98%. Mesin penerjemah statistik dengan 4. Bahasa Indonesia sebagai pivot language dapat
pivot language memperbaiki hasil terjemahan tersebut direkomendasikan sebagai bahasa perantara
dengan menghasilkan skor BLEU sebesar 88,25% dan pada mesin penerjemah statistik bahasa Inggris
output yang dihasilkan “di antare korban tewas”. Kalimat (bahasa asing lainnya) ke bahasa daerah.
nomor dua frase “in karawang regency, west java”
diterjemahkan oleh mesin penerjemah statistik tanpa pivot B. Saran
language menghasilkan output “di karawang regency , jawa Saran yang dapat diberikan sebagai pengembangan dari
barat” dan skor BLEU sebesar 79,38%. Mesin penerjemah penelitian ini adalah sebagai berikut.
statistik dengan pivot language memperbaiki hasil
1. Perlu adanya teknik penanganan Out-of-
terjemahan tersebut dengan menghasilkan skor BLEU
Vocabulary (OOV) untuk menerjemahkan
sebesar 81,64% dan output yang dihasilkan “di kabupaten
kata- kata yang tidak terdapat dalam
karawang , jawa barat”. Kalimat nomor tiga
sehingga dapat vocabulary corpus
frase “this surplus condition” diterjemahkan oleh mesin
meningkatkan kualitas terjemahan mesin
penerjemah statistik tanpa pivot language menghasilkan
penerjemah statistik.
output “itok surplus condition” dan skor BLEU sebesar
90,76%. Mesin penerjemah statistik dengan pivot language REFERE
memperbaiki hasil terjemahan tersebut dengan NSI
menghasilkan skor BLEU sebesar 93,65% dan output yang
dihasilkan “itok surplus kondisi”. Kalimat nomor empat [1]Utiyama, Masao., Isahara, Hitoshi. 2007. A Comparison of
frase “two other hostages” diterjemahkan oleh mesin pivot Methods for Phrase-based Statistical Machine
penerjemah statistik tanpa pivot language menghasilkan Translation. Jepang,Proceedings of NAACL HLT, pages
output “duak laing sandera” dan skor BLEU sebesar 484–491.
72,47%. Mesin penerjemah statistik dengan pivot language [2]Habash, Nizar., Hu, Jun. 2009. Improving Arabic-Chinese
Statistical Machine Translation using English as Pivot
memperbaiki hasil terjemahan tersebut dengan Language. Proceedings of the Fourth Workshop on
menghasilkan skor BLEU sebesar 82,11% dan output yang Statistical Machine Translation , pages 173–181.
dihasilkan “duak sandera laingnye”. Kalimat nomor lima [3]Paul, Michael., Y, Hirofumi., S, Eiichiro., N,Satoshi. 2009.
frase “he is believed to have organized” diterjemahkan On the Importance of Pivot Language
oleh mesin penerjemah statistik tanpa pivot language Selection for Statistical Machine Translation. Proceedings of
NAACL HLT: Short Papers, pages 221–224.
menghasilkan output “die itok diyakinek ngelakukan
[4]Costa-jussa, Marta R., Henriquez, Carlos., Banchs, Rafael
organized” dan skor BLEU sebesar 88,25%. Mesin E. 2011. Enhancing Scarce-Resource Language
penerjemah statistik dengan pivot language memperbaiki Translation Through Pivot Combinations. Proceeding of the
hasil terjemahan tersebut dengan menghasilkan skor BLEU 5th International Joint Conference on Natural Language
sebesar 92,99% dan output yang dihasilkan “die itok Processing, pages 1361- 1265.
diyakinek untok udah mengorganisir”. [5]Zhao, Shiqi., W, Haifeng., Liu, Ting., Li, Sheng. 2008. Pivot
Approach for Extracting Paraphrase Patterns from Bilingual
Skor BLEU pada mesin penerjemah statistik dengan Corpora. Proceedings of ACL-08: HLT, pages 780–788.
pivot language lebih tinggi dari pada skor BLEU pada [6]Hadi, Ibnu. 2014. Uji Akurasi Mesin Penerjemah Statistik Bahasa
mesin penerjemah statistik tanpa pivot language karena Indonesia ke Bahasa Melayu Sambas dan Mesin Penerjemahan
kalimat hasil terjemahan memiliki terjemahan yang Statistik Bahasa Melayu Sambas ke Bahasa Indonesia.
Pontianak, JUSTIN Vol 3 No 1.
mendekati dengan kalimat referensi. Hal ini disebabkan [7]Manning, Christopher D. dan Schutze, Hinrich. 2000.
mesin penerjemah statistik menggunakan bahasa Foundations Of Statistical Natural Language Processing.
London : The MIT Press Cambridge Massachusetts.
[8]Hasbiansyah, Muhammad. 2016. Tuning for Quality Untuk Uji
Akurasi Mesin Penerjemah Statistik (MPS) Bahasa
Indonesia – Dayak Kanayatn. Pontianak , JEPIN Vol. 1 No.
1 2016.
[9]Sujaini, Herry., Negara, Arif Bijaksana Putra. 2015.
Analysis of Extended Word Similarity Clustering
based Algorithm on Cognate Language. Gujarat:
ESRSA Publications Pvt. Ltd.
[10] Y.Jarob, H. Sujaini dan N. Safriadi. 2016. Uji
Akurasi Penerjemahan Bahasa Indonesia – Dayak
Taman dengan Penandaan Kata Dasar dan
Imbuhan. JEPIN, Vol. 2 No. 2.
TAHUN 2018