Anda di halaman 1dari 14

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Fitur Input Linguistik Meningkatkan Terjemahan Mesin Neural

Rico Sennrichdan Sekolah Informatika Barry Haddow,


Universitas
Edinburghrico.sennrich@ed.ac.uk,bhaddow@inf.e
d.ac.uk

Abstrak kata yang sama untuk secara eksplisit berbagi


representasi dalam model. Jenis anotasi lain,
Terjemahan mesin saraf baru-baru ini
seperti bagian-of-speech (POS) atau label
mencapai hasil yang mengesankan,
ketergantungan sintaksis, dapat membantu dalam
sementara menggunakan sedikit
disambiguasi. Dalam makalah ini kami
informasi linguistik eksternal. Dalam
menyelidiki apakah informasi linguistik
makalah ini kami menunjukkan bahwa
kemampuan belajar yang kuat dari model bermanfaat untuk model terjemahan saraf, atau
neural MT tidak membuat fitur linguistik apakah kemampuan belajar mereka yang kuat
menjadi mubazir; mereka dapat dengan membuat fitur linguistik eksplisit menjadi
mudah digabungkan untuk memberikan berlebihan.
peningkatan kinerja lebih lanjut. Kami Mari kita memotivasi penggunaan fitur
menggeneralisasi lapisan penyematan linguistik menggunakan contoh kesalahan
encoder dalam arsitektur encoder- terjemahan yang sebenarnya oleh sistem MT
decoder untuk mendukung penyertaan saraf. Dalam terjemahan dari bahasa Inggris, satu
fitur arbitrer, selain fitur kata dasar. Kami masalah adalah bahwa bentuk kata permukaan
menambahkan fitur morfologis, tag part- yang sama dapat digunakan bersama di antara
of-speech, dan label ketergantungan beberapa jenis kata, karena homonimi atau
sintaksis sebagai fitur input ke bahasa proses pembentukan kata seperti konversi.
Inggris↔.Jerman dan Inggris→Sistem Misalnya, close bisa berupa kata kerja, kata sifat,
terjemahan mesin saraf Rumania. Dalam atau kata benda, dan arti yang berbeda ini sering
eksperimen pada set pelatihan dan kali memiliki terjemahan yang berbeda ke dalam
pengujian WMT16, kami menemukan bahasa lain. Perhatikan bahasa Inggris berikut
bahwa fitur input linguistik ini→Contoh Jerman:
meningkatkan kualitas model menurut
1. Kami pikir kemenangan seperti ini mungkin
tiga metrik: kebingungan,
sudah dekat.
BLEU danCHRF3. Implementasi open-
source dari sistem MT saraf kami 2. Wir dachten, dass ein solcher Sieg nah sein
tersedia 1, seperti file sampel dan könnte.
konfigurasi2.
3. *Wir dachten, ein Sieg wie dieser könnte
1. Perkenalan schließen.
Terjemahan mesin saraf baru-baru ini mencapai Untuk kalimat sumber bahasa Inggris di Contoh
hasil yang mengesankan (Bahdanau et al., 2015; 1 (terjemahan kami di Contoh 2), sistem MT saraf
Jean et al., 2015), sambil belajar dari teks paralel (sistem dasar kami dari Bagian 4) salah
yang selaras dengan kalimat dan menggunakan menerjemahkan close sebagai kata kerja, dan
sedikit informasi linguistik eksternal. 3 menghasilkan kata kerja Jerman schließen
Namun, kami berhipotesis bahwa berbagai (Contoh 3) , meskipun close adalah kata sifat
tingkat anotasi linguistik dapat bermanfaat untuk dalam kalimat ini, yang memiliki terjemahan
terjemahan mesin saraf. Lemmatisasi dapat bahasa Jerman nah. Secara intuitif, anotasi part-
mengurangi kelangkaan data, dan of-speech dari input bahasa Inggris dapat
memungkinkan varian infleksional dari membedakan antara makna verba, nomina, dan
adjektiva close.
1
https://github.com/rsennrich/nematus Sebagai contoh kedua, perhatikan berikut ini
Jerman→contoh bahasa
inggris:
2
https://github.com/rsennrich/wmt16-scripts
3
Alat linguistik paling sering digunakan dalam 4. Gefährlich ist die Rute aber dennoch .
preprocessing, misalnya untuk segmentasi Turki (Gülçehre berbahaya adalah rute tapi tetap saja.
et al., 2015).
arXiv:1606.02892v2 [cs.CL] 27 Jun 2016
5. Namun rutenya berbahaya. vektor konteks csaya . Csayadihitung sebagai
6. *Berbahaya adalah rutenya. jumlah tertimbang dari anotasi hJ. Bobot setiap
anotasi hJdihitung melalui model keselarasanaku
Klausa utama Jerman memiliki urutan kata j, yang memodelkan probabilitas bahwa
verb-second (V2), sedangkan urutan kata bahasa ysayasejajar dengan xJ. Model keselarasan adalah
Inggris umumnya SVO. Kalimat Jerman (Contoh jaringan saraf umpan maju satu lapis yang
4; referensi bahasa Inggris dalam Contoh 5) dipelajari bersama dengan jaringan lainnya
mengoleskan predikat gefährlich 'berbahaya', melalui propagasi balik.
menempatkan subjek die Route 'the route' setelah Penjelasan rinci dapat ditemukan di (Bahdanau
kata kerja. Sistem dasar kami (Contoh 6) et al., 2015), meskipun implementasi kami
mempertahankan urutan kata asli, yang sangat didasarkan pada bentuk yang sedikit dimodifikasi
tidak biasa dalam bahasa Inggris, terutama untuk dari arsitektur ini, dirilis untuk tutorial dl4mt 4.
prosa dalam domain berita. Anotasi sintaksis dari Pelatihan dilakukan pada korpus paralel dengan
kalimat sumber dapat mendukung perhatian penurunan gradien stokastik. Untuk translasi,
encoder-decoder dalam mempelajari kata-kata digunakan beam search dengan ukuran beam
mana dalam sumber Jerman yang harus yang kecil.
diperhatikan (dan diterjemahkan) terlebih
dahulu. 2.1 Menambahkan Fitur
Masukan
Kami akan menyelidiki kegunaan fitur linguistik untuk
pasangan bahasa Jerman↔.bahasa Inggris, dengan Inovasi utama kami atas arsitektur encoder-
mempertimbangkan fitur linguistik berikut: decoder standar adalah bahwa kami mewakili
input encoder sebagai kombinasi fitur
•lemma (Alexandrescu dan Kirchhoff, 2006).
Kami di sini menunjukkan persamaan untuk maju
•tag subkata (lihat Bagian 3.2)
status encoder (untuk kasus RNN sederhana;
•fitur morfologi pertimbangkan (Bahdanau et al., 2015)
untuk GRU):
•tag POS

HJ= tanh(W ExJ+ U hj 1) (1)
•label
ketergantungan dimana E∈.Rm×Kxadalah kata penyisipan ma-
Dimasukkannya lemma dimotivasi oleh →W
trix, Rn×m, U ∈.Rn×nadalah matriks berat,
berharap untuk generalisasi yang lebih baik atas dengan m dan n masing-masing adalah ukuran
varian infleksional dari bentuk kata yang sama. penyisipan kata dan jumlah unit tersembunyi,
Fitur linguistik lainnya dimotivasi oleh dan Kxmenjadi ukuran kosakata bahasa sumber.
disambiguasi, seperti yang dibahas dalam contoh Kami menggeneralisasi ini ke sejumlah fitur yang
pendahuluan kami. berubah-ubah|F|:

2 Terjemahan Mesin Neural


|F |
→n
Kami mengikuti arsitektur terjemahan mesin saraf oleh
Bahdanau et al. (2015), yang akan kami HJ= tan(W ( Ekxjk) + U hj 1) (2)
ringkas di sini. k=1
Sistem terjemahan mesin saraf
diimplementasikan di manakadalah rangkaian vektor, Ek∈.
mented sebagai jaringan encoder-decoder RMk×Kkadalah matriks penyematan fitur, dengan
perhatian dengan jaringan saraf berulang. P| M = m, dan K adalah ukuran kosakata
Encoder adalah jaringan saraf dua arah dengan k=1 k k
dari fitur ke-k. Dengan kata lain, kami mencari
unit berulang yang terjaga keamanannya (Cho et vektor embedding terpisah untuk setiap fitur, yang
al., 2014) yang membaca urutan input x = (x 1 , ..., kemudian digabungkan. Panjang gabungan
xM)
dan menghitung urutan maju dari hidden
→vektor cocok dengan ukuran embedding total, dan semua
menyatakan ( h1 , ..., HM ), dan barisan mundur
←-←- ←-bagian lain dari model tetap tidak berubah.
( H1, ..., HM). Negara-negara HJdan HJadalah
tersembunyi
digabungkan untuk mendapatkan vektor anotasi Dekoder adalah jaringan saraf berulang yang
hJ. memprediksi urutan target y = (y 1 , ..., kamun).
Setiap kata ysayadiprediksi berdasarkan keadaan 3 Fitur Masukan Linguistik
tersembunyi berulang ssaya , kata yang
Model umum kami dari bagian sebelumnya
diprediksi sebelumnya ysaya1, dan
mendukung sejumlah fitur input yang berubah-
ubah.

4
https://github.com/nyu-dl/dl4mt-tutorial
Dalam makalah ini, kami akan fokus pada menggunakan segmentasi berdasarkan byte-pair
sejumlah fitur linguistik yang terkenal. Pertanyaan encoding (BPE)
empiris utama kami adalah jika menyediakan fitur
linguistik untuk encoder meningkatkan kualitas
terjemahan sistem terjemahan mesin saraf, atau
jika informasi muncul dari pelatihan model
encoder-decoder pada teks mentah, membuat
inklusi melalui eksplisit fitur yang berlebihan.
Semua fitur linguistik diprediksi secara otomatis;
kami menggunakan Stanford CoreNLP
(Toutanova et al., 2003; Minnen et al., 2001;
Chen dan Manning, 2014) untuk membubuhi
keterangan input bahasa Inggris untuk bahasa
Inggris→Jerman, dan ParZu (Sennrich et al.,
2013) untuk membubuhi keterangan input Jerman
untuk Jerman→Bahasa Inggris. Kami di sini
membahas fitur individu secara lebih rinci.

3.1
Menggunakan lemmas sebagai fitur input
menjamin berbagi informasi antara bentuk kata
yang memiliki bentuk dasar yang sama. Pada
prinsipnya, model saraf dapat mempelajari
bahwa varian infleksional terkait secara
semantik, dan merepresentasikannya sebagai titik
serupa dalam ruang vektor kontinu (Mikolov et
al., 2013). Namun, sementara ini telah
ditunjukkan untuk kata-kata frekuensi tinggi,
kami berharap bahwa representasi lemmatized
meningkatkan efisiensi data; varian frekuensi
rendah bahkan mungkin tidak diketahui oleh
model tingkat kata. Dengan model tingkat
karakter atau subkata, tidak jelas sejauh mana
mereka dapat mempelajari kesamaan antara
bentuk kata frekuensi rendah yang berbagi
lemma, terutama jika bentuk kata tidak mirip.
Perhatikan dua bentuk kata Jerman berikut, yang
memiliki lemma liegen 'liegen':

•kebohongan'kebohongan' (3.p.sg. sekarang)

•besar'lay' (3.p.sg. subjungtif II)

Lemmatiser yang kami gunakan didasarkan


pada metode keadaan hingga, yang memastikan
cakupan yang luas, bahkan untuk bentuk kata
yang jarang. Kami menggunakan penganalisis
Zmorge untuk bahasa Jerman (Schmid et al.,
2004; Sennrich dan Kunz, 2014), dan lemmatiser
dalam toolkit Stanford CoreNLP untuk bahasa
Inggris (Minnen et al., 2001).

3.2 Tag Subkata


Dalam percobaan kami, kami beroperasi pada
tingkat subkata untuk mencapai terjemahan
kosakata terbuka dengan kosakata simbol tetap,
(Sennrich et al., 2016c). Kami mencatat bahwa 4 Evaluasi
dalam segmentasi BPE, beberapa simbol
Kami mengevaluasi sistem kami pada tugas terjemahan
berpotensi ambigu, dan dapat berupa kata yang
bersama WMT16 Bahasa Inggris↔.Jerman. Data
terpisah, atau segmen sub-kata dari kata yang
pelatihan paralel terdiri dari sekitar 4,2 juta
lebih besar. Juga, teks direpresentasikan sebagai
pasangan kalimat.
urutan unit subkata tanpa batas kata yang
eksplisit, tetapi batas kata berpotensi membantu
untuk mempelajari simbol mana yang harus
diperhatikan, dan kapan harus melupakan
informasi di lapisan ulang. Kami mengusulkan
anotasi struktur sub-kata yang mirip dengan
format IOB populer untuk chunking dan
pengenalan entitas bernama, menandai jika
simbol dalam teks membentuk awal (B), di dalam
(I), atau akhir (E) dari sebuah kata . Sebuah tag
terpisah (O) digunakan jika simbol sesuai dengan
kata lengkap.
3.3 Fitur Morfologis
Untuk bahasa Jerman→Bahasa Inggris, parser
membubuhi keterangan input Jerman dengan
fitur morfologis. Jenis kata yang berbeda
memiliki set fitur yang berbeda – misalnya, kata
benda memiliki huruf besar/kecil, nomor dan
jenis kelamin, sedangkan kata kerja memiliki
orang, angka, tense, dan aspek.
– dan fitur mungkin kurang ditentukan. Kami
memperlakukan
penggabungan semua fitur morfologis sebuah
kata, menggunakan simbol khusus untuk fitur
yang tidak ditentukan, sebagai string, dan
memperlakukan setiap string tersebut sebagai
nilai fitur yang terpisah.
3.4 Tag POS dan Label
Ketergantungan
Dalam contoh pendahuluan kami, kami
memotivasi tag POS dan label ketergantungan
sebagai disambiguator yang mungkin. Setiap kata
dikaitkan dengan satu tag POS, dan satu label
ketergantungan. Yang terakhir adalah label tepi
yang menghubungkan sebuah kata ke kepala
sintaksisnya, atau 'ROOT' jika kata itu tidak
memiliki kepala sintaksis.
3.5 Tentang Menggunakan Fitur
tingkat Word di a
Model Subkata
Kami mengelompokkan kata-kata langka ke dalam unit
subkata menggunakan BPE. Tag subword mengkodekan
segmentasi kata ke dalam unit subword, dan tidak
memerlukan modifikasi lebih lanjut. Semua fitur lainnya
pada awalnya adalah fitur tingkat kata. Untuk membubuhi
keterangan teks sumber tersegmentasi dengan fitur, kami
menyalin nilai fitur kata ke semua unit subkata. Contohnya
ditunjukkan pada Gambar 1.
akar
akar
persiapan nsubj pobj
det

Leonidas memohon di itu arena .


NNP VBD DI
dala DT NN .
DAL
kata-kata Le: oni: das mengem ged di itu arena .
lemma Leonidas Leonidas Leonidas menge
is: mengem dala
di itu arena .
tag subkata B saya E misB is E dala
HAI HAI HAI HAI
POS NNP NNP NNP VBD VBD DI DT NN .
dalam nsubj nsubj nsubj akar akar DALA
persiapa det pobj akar
n
Gambar 1: Pohon ketergantungan asli untuk kalimat Leonidas memohon di arena ., dan representasi
fitur kami setelah segmentasi BPE.

Untuk mengaktifkan terjemahan kosakata terbuka, kami masukan fitur penyematan


kosakata EN DE model semua tag subkata tunggal 4 4 4 5
mengkodekan kata-kata melalui BPE bersama5(Sennrich 5
et al., 2016c), mempelajari 89 500 operasi Tag POS 46 54 54 10 10 morph. fitur - 1400 1400 10 10
penggabungan pada rangkaian sumber label ketergantungan 46 33 46 10 10
dan sisi target dari data pelatihan paralel. Kita lemma 800000 1500000 85000 115 167
6
gunakan minibatch ukuran 80, kalimat maksimum Kami menggunakan implementasi ulang yang disertakan
dengan kode subword
panjang 50, penyisipan kata berukuran 500, dan
lapisan tersembunyi berukuran 1024. Kami
memotong norma gradien menjadi 1,0 (Pascanu et
al., 2013). Kami melatih model dengan Adadelta
(Zeiler, 2012), merombak korpus pelatihan antar
zaman. Kami memvalidasi model setiap 10.000
minibatch melalui BLEU dan kebingungan pada set
validasi (newstest2013).
Untuk MT neural, kebingungan adalah ukuran
yang berguna tentang seberapa baik model dapat
memprediksi terjemahan referensi yang diberikan
kalimat sumber. Oleh karena itu, kebingungan
merupakan indikator yang baik apakah fitur
masukan memberikan manfaat apa pun bagi
model, dan kami melaporkan kebingungan set
validasi terbaik dari setiap eksperimen. Untuk
mengevaluasi apakah fitur tersebut juga
meningkatkan kinerja terjemahan, kami
melaporkan case-sensitive BLEU skor dengan
mteval-13b.perl pada dua set tes, newstest2015
dan newstest2016. Kami juga melaporkanCHRF3
(Popovic´, 2015), karakter n- gram F 3skor
yang ditemukan berkorelasi baik dengan penilaian
manusia, terutama untuk terjemahan dari bahasa
Inggris (Stanojevic´ et al., 2015).6Kedua metrik
terkadang tidak setuju, sebagian karena mereka
sangat sensitif terhadap panjang keluaran.
BLEU berbasis presisi, sedangkanCHRF3
mempertimbangkan presisi dan recall,
dengan bias untuk recall. Untuk B LEU , kami
juga melaporkan apakah perbedaan antara sistem
signifikan secara statistik menurut uji signifikansi
resampling bootstrap (Riezler dan Maxwell,
2005).
Kami melatih model selama sekitar satu minggu, dan
melaporkan

5
https://github.com/rsennrich/subword-nmt
kata-kata 78500 85000 85000 * *

Tabel 1: Ukuran kosakata, dan ukuran lapisan penyematan fitur


linguistik, dalam sistem yang mencakup semua fitur, dan
eksperimen kontrastif yang menambahkan fitur tunggal di atas
garis dasar. Ukuran lapisan penyematan dari fitur kata diatur
untuk membawa ukuran total menjadi 500.

hasil untuk ansambel dari 4 model yang terakhir


disimpan (dengan model disimpan setiap 12 jam).
Ansambel berfungsi untuk menghaluskan varians
antara model tunggal.
Decoding dilakukan dengan beam search dengan
ukuran beam 12.
Untuk memastikan bahwa peningkatan kinerja tidak hanya
karena peningkatan jumlah parameter model, kami menjaga
ukuran total lapisan penyematan tetap menjadi 500. Tabel 1
mencantumkan ukuran penyematan yang kami gunakan untuk
fitur linguistik – ukuran lapisan penyematan dari fitur tingkat
kata bervariasi, dan diatur untuk membawa total ukuran lapisan
penyematan menjadi 500. Jika kita menyertakan fitur lemma,
kita secara kasar membagi vektor penyematan satu-ke-dua
antara fitur lemma dan fitur kata. Tabel juga menunjukkan
ukuran kosakata jaringan; untuk semua fitur kecuali lemma,
kami dapat merepresentasikan semua nilai fitur dalam kosakata
jaringan – dalam hal kata, ini karena segmentasi BPE. Untuk
lemma, kami memilih ukuran kosakata yang sama dengan kata,
menggantikan lemma langka dengan simbol UNK khusus.
Sennrich dkk. (2016b) melaporkan keuntungan
besar dari penggunaan data pelatihan dalam domain
monolingual, auto-
secara otomatis diterjemahkan kembali ke dalam
bahasa sumber untuk menghasilkan korpus 7
Korporat tersedia di
pelatihan paralel sintetik. Kami menggunakan
corpora sintetis yang diproduksi dalam
eksperimen ini7(3,6–4,2 juta pasangan kalimat),
dan kami melatih sistem yang menyertakan data
ini untuk dibandingkan dengan keadaan seni.
Kami mencatat bahwa eksperimen kami dengan
data ini memerlukan anotasi sintaksis dari data
yang diterjemahkan secara otomatis, yang
mungkin menjadi sumber gangguan. Untuk sistem
dengan data sintetis, kami menggandakan waktu
pelatihan menjadi dua minggu.
Kami juga mengevaluasi fitur linguistik untuk arah
terjemahan bahasa Inggris dengan sumber daya yang lebih
rendah→Rumania, dengan 0,6 juta pasangan
kalimat dari data pelatihan paralel, dan 2,2 juta
pasangan kalimat dari data paralel sintetik. Kami
menggunakan fitur linguistik yang sama seperti
untuk bahasa Inggris→Jerman. Kami mengikuti
Sennrich et al. (2016a) dalam konfigurasi, dan
gunakan dropout untuk bahasa Inggris→sistem
Rumania. Kami mengeluarkan kata-kata lengkap
(baik di sisi sumber dan target) dengan
probabilitas 0,1. Untuk semua lapisan lainnya,
probabilitas putus sekolah diatur ke 0,2.

4.1 Hasil
Tabel 2 menunjukkan hasil utama kami untuk bahasa
Jerman→Inggris, dan Inggris→Jerman. Sistem
dasar adalah sistem MT saraf dengan hanya satu
fitur masukan, (sub) kata itu sendiri. Untuk kedua
arah terjemahan, fitur linguistik meningkatkan
kebingungan terbaik pada data pengembangan
(47,3→46.2, dan 54.9→52,9, masing-masing).
Untuk bahasa Jerman→Bahasa Inggris, fitur
linguistik menyebabkan peningkatan 1,5
BLEU (31.4→32.9) dan
0,5CHRF3 (58,0→58.5), di newstest2016
set tes. Untuk bahasa Inggris→Jerman, kami
mengamati peningkatan 0,6 BLEU (27.8→28.4)
dan 1.2
CHRF3 (56.0→57.2).
Untuk mengevaluasi keefektifan fitur linguistik yang
berbeda secara terpisah, kami melakukan eksperimen
kontrastif di mana hanya satu fitur yang ditambahkan ke
baseline. Hasilnya ditunjukkan pada Tabel 3. Tidak
mengherankan, kombinasi semua fitur (Tabel 2)
memberikan peningkatan tertinggi, dirata-ratakan di atas
metrik dan set pengujian, tetapi sebagian besar fitur sendiri
bermanfaat. Tag subword memberikan sedikit peningkatan
untuk bahasa Inggris→Jerman, tapi tidak untuk
Jerman→Bahasa Inggris. Semua fitur lain
mengungguli baseline dalam hal kebingungan,
dan menghasilkan peningkatan yang signifikan
dalam BLEU setidaknya
satu set tes. Keuntungan dari fitur yang berbeda dapat memperoleh peningkatan lebih lanjut
tidak sepenuhnya kumulatif; kami mencatat dengan menggabungkan keduanya.
bahwa informasi yang dikodekan dalam fitur yang Untuk bahasa Inggris→Jerman, perbaikan
berbeda tumpang tindih. Misalnya, label dalam pengembangan menyebabkan
ketergantungan dan fitur morfologis kebingungan (49,7→48.4), tetapi kami hanya
mengkodekan perbedaan antara subjek Jerman melihat perbedaan kecil dan tidak signifikan
dan objek akusatif, yang pertama melalui label dalam BLEU danCHRF3. Meskipun kami tidak
yang berbeda (subj dan obja), yang terakhir dapat dengan jelas memperhitungkan
melalui kasus tata bahasa (nominatif dan perbedaan antara kebingungan dan metrik
akusatif) . terjemahan, faktor-faktor yang berpotensi
Kami juga mengevaluasi penambahan fitur linguistik ke menurunkan kegunaan fitur linguistik dalam
dasar yang lebih kuat, yang mencakup data pelatihan paralel pengaturan ini adalah dasar yang lebih kuat,
sintetis. Selain itu, kami membandingkan sistem saraf kami terlatih pada lebih banyak data, dan
dengan sistem berbasis frase (PB- SMT) dan berbasis rendahnya kekokohan alat linguistik dalam
sintaks (SBSMT) oleh (Williams et al., 2016), yang anotasi dari kumpulan data sintetik yang
semuanya menggunakan anotasi linguistik pada sumber berisik. Baik sistem MT saraf dasar kami
dan/ atau sisi sasaran. Hasil ditunjukkan pada Tabel 4. dan sistem dengan fitur linguistik secara
Untuk bahasa Jerman→Bahasa Inggris, kami substansial mengungguli sistem berbasis
mengamati peningkatan serupa dalam frasa dan sintaksis untuk kedua arah
kebingungan pengembangan terbaik terjemahan.
(45.2→44.1), set uji BLEU (37,5→38.5) danCHRF3 Pada tabel sebelumnya, kami telah melaporkan
(62,2→62.8). Set pengujian kami BLEU setara kebingungan terbaik. Untuk menjawab pertanyaan
dengan sistem terbaik yang dikirimkan untuk tentang keacakan dalam kebingungan, dan apakah
tugas terjemahan bersama WMT 16 tahun ini, kebingungan terbaik kebetulan lebih rendah untuk
yang serupa dengan sistem MT dasar kami, tetapi sistem dengan fitur linguistik, kami menunjukkan
yang juga menggunakan dekoder kanan-ke-kiri kebingungan pada set pengembangan kami
untuk peringkat ulang (Sennrich et al., 2016a). sebagai fungsi waktu pelatihan untuk sistem yang
Kami berharap bahwa fitur input linguistik dan berbeda (Gambar 2 ). Kita bisa melihat itu
decoding dua arah adalah ortogonal, dan kami
http://statmt.org/rsennrich/wmt16_backtranslPSebuaheTRsayaPHailenxSsaya/tysecara konsisten
lebih rendah untuk sistem
Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
garis dasar 47.3 27.9 31.4 54.0 58.0 54.9 23.0 27.8 52.6 56.0
semua fitur 46.2 28.7* 32.9* 54.8 58.5 52.9 23.8* 28.4* 53.9 57.2

Tabel 2: Bahasa Jerman↔.Hasil terjemahan bahasa Inggris: kebingungan terbaik pada dev
(newstest2013), dan BLEU danCHRF3 pada test15 (newstest2015) dan test16 (newstest2016).
B LEU skor yang berbeda secara signifikan (p < 0,05) dari masing-masing baseline ditandai dengan (*).

Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
garis dasar 47.3 27.9 31.4 54.0 58.0 54.9 23.0 27.8 52.6 56.0
lemma 47.1 28.4 32.3* 54.6 58.7 53.4 23.8* 28.5* 53.7 56,7
tag subkata 47.3 27.7 31.5 54.0 58.1 54.7 23.6* 28.1 53.2 56.4
berubah fitur 47.1 28.2 32.4* 54.3 58.4 - - - - -
tag POS 46.9 28.1 32.4* 54.1 57.8 53.2 24.0* 28.9* 53.3 56.8
label ketergantungan 46.9 28.1 31,8* 54.2 58.3 54.0 23.4* 28.0 53.1 56,5

Tabel 3: Eksperimen kontrastif dengan fitur linguistik individual: kebingungan terbaik pada dev (new-stest2013), dan
BLEU danCHRF3 pada test15 (newstest2015) dan test16 (newstest2016). B LEU skor yang berbeda
secara signifikan (p < 0,05) dari masing-masing baseline ditandai dengan (*).

Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
PBSMT (Williams et al., 2016) - 29.9 35.1 56.2 60.9 - 23.7 28.4 52.6 56.6
SBSMT (Williams et al., 2016) - 29.5 34.4 56.0 61.0 - 24.5 30.6 55.3 59.9
garis dasar 45.2 31.5 37.5 57.0 62.2 49.7 27,5 33.1 56.3 60.5
semua fitur 44.1 32.1* 38.5* 57.5 62.8 48.4 27.1 33.2 56,5 60.6

Tabel 4: Bahasa Jerman↔.Hasil terjemahan bahasa Inggris dengan tambahan, data pelatihan sintetis:
kebingungan terbaik pada dev (newstest2013), dan B LEU danCHRF3 pada test15 (newstest2015)
dan test16 (newstest2016). B LEU skor yang berbeda secara signifikan (p < 0,05) dari masing-masing
baseline ditandai dengan (*).
kalimat sistem
EN-DE baseline (data sintetik)
sumber Gefährlich ist die Route aber dennoch.
EN-DE semua fitur (data synth)
120 referensi Namun rutenya berbahaya. baseline
DE-EN baseline (data synth)
D E - E N s e m u a fi t u r ( d a t a s y n t h . ) Berbahaya adalah rute, namun.
semua fitur Namun, rute berbahaya.
100 sumber [Kami pikir] kemenangan seperti ini mungkin
kebingu

sudah dekat. referensi [...] dass ein solcher Gewinn nah


sein könnte. baseline [...] ein Sieg wie dieser könnte
80 schließen.
semua fitur [...] ein Sieg wie dieser könnte nah sein.
60
Tabel 6: Contoh terjemahan yang mengilustrasikan efek
penambahan fitur input linguistik.
40
0 10 20 30 40 50 60
waktu pelatihan (minibatch·10000) 5 Pekerjaan Terkait
Fitur linguistik telah
Gambar 2: Bahasa Inggris→Jerman (hitam) dan digunakan dalam pemodelan bahasa saraf
Jerman→Perkembangan bahasa Inggris (merah) (Alexandrescu dan Kirchhoff, 2006), dan juga
mengatur kebingungan sebagai fungsi waktu digunakan dalam tugas lain yang model sarafnya
pelatihan (jumlah minibatch) dengan dan tanpa baru-baru ini digunakan, seperti penguraian
fitur linguistik. sintaksis (Chen dan Manning, 2014). Makalah ini
menjawab pertanyaan apakah fitur linguistik di
sisi sumber bermanfaat untuk terjemahan mesin
sistem ppl BLEU↑.CHRF3 (Peter et al., 2016) - 28,9 saraf. Di sisi target, fitur linguistik lebih sulit
57,1 baseline 74,9 23,8 52,5
semua fitur 72,7 24,8* 53,5 diperoleh untuk tugas generasi seperti terjemahan
baseline (+data synth) 50.9 28.2 56.1 semua fitur mesin, karena ini akan memerlukan penguraian
(+synth. data) 50.1 29.2* 56.6
hipotesis tambahan pada waktu pengujian, dan ini
Tabel 5: Bahasa Inggris→Hasil terjemahan bahasa mungkin pekerjaan di masa depan.
Rumania: kebingungan terbaik di newsdev2016, Antara lain, model kami menggabungkan
dan BLEU danCHRF3 di newstest2016. informasi dari anotasi ketergantungan, tetapi
B LEU skor yang berbeda secara signifikan (p < masih merupakan model urutan-ke-urutan.
0,05) dari masing-masing baseline ditandai Eriguchi dkk. (2016) mengusulkan model pohon-
dengan (*). ke-urutan yang encodernya menghitung
representasi vektor untuk setiap frasa di pohon
sumber. Fokus mereka adalah mengeksploitasi
struktur (tidak berlabel) dari anotasi sintaksis,
dilatih dengan fitur linguistik. sedangkan kami berfokus pada kekuatan
disambiguasi dari label ketergantungan
Tabel 5 menunjukkan hasil untuk pasangan bahasa
dengan sumber daya yang lebih rendah, bahasa fungsional.
Inggris→Rumania. Dengan fitur linguistik, kami Model terjemahan terfaktor sering digunakan
mengamati peningkatan 1.0 dalam SMT berbasis frase (Koehn dan Hoang,
B LEU di atas garis dasar, baik untuk sistem yang 2007) sebagai sarana untuk memasukkan
dilatih hanya pada data paralel (23,8 .)→24.8), dan informasi linguistik tambahan. Namun, MT saraf
sistem yang menggunakan data pelatihan sintetis dapat memberikan mekanisme yang jauh lebih
(28.2→29.2). Menurut BLEU , pengiriman terbaik fleksibel untuk menambahkan informasi tersebut.
ke WMT16 adalah kombinasi sistem oleh Peter et Karena model berbasis frase tidak dapat dengan
al. (2016). Sistem terbaik kami bersaing dengan mudah digeneralisasikan ke kombinasi fitur baru,
pengajuan ini. model individu memperlakukan setiap kombinasi
fitur sebagai unit atom, menghasilkan sparity data,
Tabel 6 menunjukkan contoh terjemahan dari baseline atau mengasumsikan independensi antara fitur,
kami, dan sistem ditambah dengan fitur linguistik. Kami misalnya dengan memiliki model bahasa yang
melihat bahwa sistem MT saraf yang diperbesar, berbeda terpisah. untuk kata-kata dan tag POS.
dengan garis dasar masing-masing, berhasil menyelesaikan Sebaliknya, kami mengeksploitasi kemampuan
pemesanan ulang untuk Jerman→Contoh bahasa generalisasi yang kuat dari jaringan saraf, dan
Inggris, dan disambiguasi dekat untuk bahasa berharap bahwa bahkan kombinasi fitur baru,
Inggris→contoh Jerman. misalnya kata yang muncul dalam fungsi sintaksis
baru, ditangani dengan baik.
Seseorang dapat mempertimbangkan Referensi
representasi input yang lemmatisasi sebagai teks
sumber kedua, dan melakukan terjemahan multi- [Alexandrescu dan Kirchhoff2006] Andrei
Alexandrescu dan Katrin Kirchhoff. 2006. Model
sumber (Zoph dan Knight, 2016). Perbedaan Bahasa Neural Terfaktor. Dalam Prosiding
teknis utama adalah bahwa dalam pendekatan Konferensi Teknologi Bahasa Manusia dari
kami, encoder dan lapisan perhatian dibagi di NAACL, Companion Volume: Short Papers,
antara fitur, yang kami anggap sesuai untuk jenis halaman 1-4, New York City, AS. Asosiasi
Linguistik Komputasi.
fitur yang kami uji.
[Bahdanau dkk.2015] Dzmitry Bahdanau, Kyunghyun
6. Kesimpulan Cho, dan Yoshua Bengio. 2015. Neural Machine
Translation dengan Jointly Learning to Align and
Dalam makalah ini kami menyelidiki apakah fitur Translate. Dalam Prosiding Konferensi
masukan linguistik bermanfaat untuk terjemahan Internasional tentang Representasi Pembelajaran
mesin saraf, dan bukti empiris kami menunjukkan (ICLR).
bahwa inilah masalahnya. [Chen dan Manning2014] Danqi Chen dan Christopher
Kami menjelaskan generalisasi encoder dalam arsitektur Manning. 2014. Dependency Parser yang Cepat
attentional encoder-decoder populer untuk terjemahan dan Akurat menggunakan Neural Networks. Dalam
mesin saraf yang memungkinkan untuk dimasukkannya Prosiding Konferensi 2014 tentang Metode Empiris
dalam Pemrosesan Bahasa Alami (EMNLP),
sejumlah fitur input yang berubah-ubah. Kami secara halaman 740–750, Doha, Qatar. Asosiasi
empiris menguji penyertaan berbagai fitur linguistik, Linguistik Komputasi.
termasuk lemma, tag bagian-of-speech, label
ketergantungan sintaksis, dan fitur morfologis, ke dalam [Cho et al.2014] Kyunghyun Cho, Bart van
Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau,
bahasa Inggris.↔.Jerman, dan Inggris→Sistem MT Fethi Bougares, Holger Schwenk, dan Yoshua
saraf Rumania. Eksperimen kami menunjukkan Bengio.
bahwa fitur linguistik menghasilkan peningkatan 2014. Pembelajaran Representasi Frase
di atas dasar kami, menghasilkan peningkatan menggunakan RNN Encoder–Decoder untuk
pada tes 2016 terbaru sebesar 1,5 B LEU untuk Statistical Machine Transla-
tion. Dalam Prosiding Konferensi 2014 tentang
bahasa Jerman→Inggris, 0.6 Metode Empiris dalam Pemrosesan Bahasa Alami
B LEU untuk bahasa Inggris→Jerman, dan 1,0 (EMNLP), halaman 1724–1734, Doha, Qatar.
BLEU untuk Asosiasi untuk Linguistik Komputasi.
bahasa [Eriguchi dkk.2016] Akiko Eriguchi, Kazuma
Inggris→Rumania. Hashimoto, dan Yoshimasa Tsuruoka. 2016.
Di masa mendatang, kami mengharapkan Terjemahan Mesin Neural Attentional Tree-to-
beberapa perkembangan yang akan lebih Sequence. ArXiv e-cetak.
menjelaskan kegunaan fitur masukan linguistik [Gülçehre et al.2015] aglar Gülçehre, Orhan Firat,
(atau lainnya), dan apakah fitur tersebut akan Kelvin Xu, Kyunghyun Cho, Loïc Barrault, Huei-
menjadi komponen inti dari terjemahan mesin Chi Lin, Fethi Bougares, Holger Schwenk, dan
saraf. Di satu sisi, kemampuan pembelajaran Yoshua Bengio. 2015. Tentang Penggunaan
Monolingual Corpora pada Neural Machine
mesin arsitektur saraf cenderung meningkat, Translation. CoRR, abs/1503.03535.
mengurangi manfaat yang diberikan oleh fitur
yang kami uji. Di sisi lain, ada potensi untuk [Jean dkk.2015] Sébastien Jean, Orhan Firat,
mengeksplorasi penyertaan fitur baru untuk MT Kyunghyun Cho, Roland Memisevic, dan Yoshua
Bengio. 2015. Sistem Terjemahan Mesin Neural
saraf, yang mungkin terbukti lebih membantu Montreal untuk WMT'15. Dalam Prosiding
daripada yang kami selidiki, dan fitur yang kami Lokakarya Kesepuluh tentang Terjemahan Mesin
selidiki mungkin terbukti sangat membantu untuk Statistik, halaman 134–140, Lisbon, Portugal.
beberapa pengaturan terjemahan, seperti sebagai Asosiasi Linguistik Komputasi.
pengaturan sumber daya yang sangat rendah [Koehn dan Hoang2007] Philipp Koehn dan Hieu
dan/atau pengaturan terjemahan dengan bahasa Hoang. 2007. Model Penerjemahan Terfaktor.
sumber yang sangat beragam. Dalam Proceedings of the 2007 Joint Conference
on Empirisical Methods in Natural Language
ucapan terima Processing and Computational Natural Language
Learning (EMNLP-CoNLL), halaman 868–876,
kasih Praha, Republik Ceko. Asosiasi Linguistik
Komputasi.
Proyek ini telah menerima dana dari program
penelitian dan inovasi Horizon 2020 Uni Eropa [Mikolov et al.2013] Tomas Mikolov, Wen-tau Yih, and
di bawah perjanjian hibah 645452 (QT21), dan Geoffrey Zweig. 2013. Keteraturan Linguistik dalam
644402 (HimL).
Representasi Kata Ruang Berkelanjutan. Dalam [Sennrich dkk.2016a] Rico Sennrich, Barry Haddow,
HLT-NAACL, halaman 746–751. Asosiasi
Linguistik Komputasi. dan Alexandra Birch. 2016a. Sistem Terjemahan
Mesin Neural Edinburgh untuk WMT 16. Dalam
Prosiding Konferensi Pertama tentang Terjemahan
[Minnen et al.2001] Guido Minnen, John A. Carroll,
Mesin (WMT16), Berlin, Jerman.
dan Darren Pearce. 2001. Pemrosesan morfologi
terapan bahasa Inggris. Rekayasa Bahasa Alami, [Sennrich dkk.2016b] Rico Sennrich, Barry Haddow,
7(3):207–223. dan Alexandra Birch. 2016b. Meningkatkan Model
Terjemahan Mesin Neural dengan Data
[Pascanu dkk.2013] Razvan Pascanu, Tomas Mikolov, Monolingual. Dalam Prosiding Pertemuan Tahunan
dan Yoshua Bengio. 2013. Tentang kesulitan ke-54 Asosiasi Linguistik Komputasi (ACL
melatih jaringan saraf berulang. Dalam Prosiding 2016), Berlin, Jerman.
Konferensi Internasional ke-30 tentang
Pembelajaran Mesin, ICML 2013, halaman 1310– [Sennrich dkk.2016c] Rico Sennrich, Barry Haddow,
1318, Atlanta, AS. dan Alexandra Birch. 2016c. Terjemahan Mesin
Neural Kata Langka dengan Unit Subword. Dalam
[Peter dkk.2016] Jan-Thorsten Peter, Tamer Alkhouli, Proceedings of the 54th Annual Meeting of the
Hermann Ney, Matthias Huck, Fabienne Braune, Association for Computational Linguistics (ACL
Alexander Fraser, Aleš Tamchyna, Ondˇrej Bojar, 2016), Berlin, Jerman.
Barry Haddow, Rico Sennrich, Frédéric Blain,
Lucia Specia, Jan Niehues, Alex Waibel, [Stanojevic et al.2015] Miloš Stanojevic, Amir
Alexandre Allauzen, Lauriane Aufrant, Franck Kamran, Philipp Koehn, dan Ondˇrej Bojar. 2015.
Burlot, Elena Knyazeva, Thomas Lavergne, Hasil Tugas Bersama Metrik WMT15. Dalam
François Yvon, dan Marcis Pinnis. 2016. Sistem Prosiding Lokakarya Kesepuluh tentang
Terjemahan Mesin Gabungan QT21/HimL. Dalam Terjemahan Mesin Statistik, halaman 256–273,
Prosiding Konferensi Pertama tentang Terjemahan Lisbon, Portugal. Asosiasi Linguistik Komputasi.
Mesin (WMT16), Berlin, Jerman.
[Toutanova dkk.2003] Kristina Toutanova, Dan Klein,
Christopher D. Manning, dan Yoram Singer. 2003.
[Popovic´2015] Maja Popovic´. 2015. chrF: karakter n-
Penandaan Part-of-Speech yang Kaya Fitur dengan
gram F-score untuk evaluasi MT otomatis. Dalam
Jaringan Ketergantungan Siklik. Dalam Prosiding
Prosiding Lokakarya Kesepuluh tentang
2003
Terjemahan Mesin Statistik, halaman 392–395,
Konferensi Teknologi Bahasa Manusia dari
Lisbon, Portugal. Asosiasi Linguistik Komputasi.
Asosiasi Bab Amerika Utara untuk
Linguistik Komputasi.
[Riezler dan Maxwell2005] Stefan Riezler dan John T.
Maxwell. 2005. Pada Beberapa Kesalahan dalam [Williams dkk.2016] Philip Williams, Rico Sennrich,
Evaluasi Otomatis dan Pengujian Signifikansi untuk Maria Nadejde, Matthias Huck, Barry Haddow,
MT. Dalam Prosiding Lokakarya ACL tentang dan Ondˇrej Bojar. 2016. Sistem Terjemahan
Tindakan Evaluasi Intrinsik dan Ekstrinsik untuk Mesin Statistik Edinburgh untuk WMT16. Dalam
Terjemahan Mesin
tion dan/atau Ringkasan, halaman 57–64, Ann Prosiding Konferensi Pertama tentang Terjemahan
Arbor, Michigan. Asosiasi Linguistik Komputasi. Mesin (WMT16).
[Zeiler2012] Matthew D. Zeiler. 2012. ADADELTA:
[Schmid et al.2004] Helmut Schmid, Arne Fitschen, Metode Adaptive Learning Rate. CoRR,
dan Ulrich Heid. 2004. Morfologi Komputasi abs/1212.5701.
Jerman yang Meliputi Derivasi, Komposisi, dan
Infleksi. Dalam Proceedings of the IVth [Zoph dan Knight2016] Barret Zoph dan Kevin Knight.
International Conference on Language Resources 2016. Terjemahan Neural Multi-Sumber. Di
and Evaluation (LREC 2004), halaman 1263–1266. NAACL HLT 2016.

[Sennrich dan Kunz2014] Rico Sennrich dan Kalahkan


Kunz. 2014. Zmorge: Sebuah Leksikon Morfologi
Jerman Disarikan dari Wiktionary. Dalam
Prosiding Konferensi Internasional ke-9 tentang
Sumber Daya dan Evaluasi Bahasa (LREC 2014),
Reykjavik, Islandia.

[Sennrich dkk.2013] Rico Sennrich, Martin Volk, dan


Gerold Schneider. 2013. Memanfaatkan Sinergi
Antara Sumber Daya Terbuka untuk Parsing
Ketergantungan Jerman, penandaan POS, dan
Analisis Morfologi. Dalam Prosiding Konferensi
Internasional Kemajuan Terbaru dalam Pemrosesan
Bahasa Alami
2013, halaman 601–609, Hissar,
Bulgaria.

Anda mungkin juga menyukai