com
4
https://github.com/nyu-dl/dl4mt-tutorial
Dalam makalah ini, kami akan fokus pada menggunakan segmentasi berdasarkan byte-pair
sejumlah fitur linguistik yang terkenal. Pertanyaan encoding (BPE)
empiris utama kami adalah jika menyediakan fitur
linguistik untuk encoder meningkatkan kualitas
terjemahan sistem terjemahan mesin saraf, atau
jika informasi muncul dari pelatihan model
encoder-decoder pada teks mentah, membuat
inklusi melalui eksplisit fitur yang berlebihan.
Semua fitur linguistik diprediksi secara otomatis;
kami menggunakan Stanford CoreNLP
(Toutanova et al., 2003; Minnen et al., 2001;
Chen dan Manning, 2014) untuk membubuhi
keterangan input bahasa Inggris untuk bahasa
Inggris→Jerman, dan ParZu (Sennrich et al.,
2013) untuk membubuhi keterangan input Jerman
untuk Jerman→Bahasa Inggris. Kami di sini
membahas fitur individu secara lebih rinci.
3.1
Menggunakan lemmas sebagai fitur input
menjamin berbagi informasi antara bentuk kata
yang memiliki bentuk dasar yang sama. Pada
prinsipnya, model saraf dapat mempelajari
bahwa varian infleksional terkait secara
semantik, dan merepresentasikannya sebagai titik
serupa dalam ruang vektor kontinu (Mikolov et
al., 2013). Namun, sementara ini telah
ditunjukkan untuk kata-kata frekuensi tinggi,
kami berharap bahwa representasi lemmatized
meningkatkan efisiensi data; varian frekuensi
rendah bahkan mungkin tidak diketahui oleh
model tingkat kata. Dengan model tingkat
karakter atau subkata, tidak jelas sejauh mana
mereka dapat mempelajari kesamaan antara
bentuk kata frekuensi rendah yang berbagi
lemma, terutama jika bentuk kata tidak mirip.
Perhatikan dua bentuk kata Jerman berikut, yang
memiliki lemma liegen 'liegen':
5
https://github.com/rsennrich/subword-nmt
kata-kata 78500 85000 85000 * *
4.1 Hasil
Tabel 2 menunjukkan hasil utama kami untuk bahasa
Jerman→Inggris, dan Inggris→Jerman. Sistem
dasar adalah sistem MT saraf dengan hanya satu
fitur masukan, (sub) kata itu sendiri. Untuk kedua
arah terjemahan, fitur linguistik meningkatkan
kebingungan terbaik pada data pengembangan
(47,3→46.2, dan 54.9→52,9, masing-masing).
Untuk bahasa Jerman→Bahasa Inggris, fitur
linguistik menyebabkan peningkatan 1,5
BLEU (31.4→32.9) dan
0,5CHRF3 (58,0→58.5), di newstest2016
set tes. Untuk bahasa Inggris→Jerman, kami
mengamati peningkatan 0,6 BLEU (27.8→28.4)
dan 1.2
CHRF3 (56.0→57.2).
Untuk mengevaluasi keefektifan fitur linguistik yang
berbeda secara terpisah, kami melakukan eksperimen
kontrastif di mana hanya satu fitur yang ditambahkan ke
baseline. Hasilnya ditunjukkan pada Tabel 3. Tidak
mengherankan, kombinasi semua fitur (Tabel 2)
memberikan peningkatan tertinggi, dirata-ratakan di atas
metrik dan set pengujian, tetapi sebagian besar fitur sendiri
bermanfaat. Tag subword memberikan sedikit peningkatan
untuk bahasa Inggris→Jerman, tapi tidak untuk
Jerman→Bahasa Inggris. Semua fitur lain
mengungguli baseline dalam hal kebingungan,
dan menghasilkan peningkatan yang signifikan
dalam BLEU setidaknya
satu set tes. Keuntungan dari fitur yang berbeda dapat memperoleh peningkatan lebih lanjut
tidak sepenuhnya kumulatif; kami mencatat dengan menggabungkan keduanya.
bahwa informasi yang dikodekan dalam fitur yang Untuk bahasa Inggris→Jerman, perbaikan
berbeda tumpang tindih. Misalnya, label dalam pengembangan menyebabkan
ketergantungan dan fitur morfologis kebingungan (49,7→48.4), tetapi kami hanya
mengkodekan perbedaan antara subjek Jerman melihat perbedaan kecil dan tidak signifikan
dan objek akusatif, yang pertama melalui label dalam BLEU danCHRF3. Meskipun kami tidak
yang berbeda (subj dan obja), yang terakhir dapat dengan jelas memperhitungkan
melalui kasus tata bahasa (nominatif dan perbedaan antara kebingungan dan metrik
akusatif) . terjemahan, faktor-faktor yang berpotensi
Kami juga mengevaluasi penambahan fitur linguistik ke menurunkan kegunaan fitur linguistik dalam
dasar yang lebih kuat, yang mencakup data pelatihan paralel pengaturan ini adalah dasar yang lebih kuat,
sintetis. Selain itu, kami membandingkan sistem saraf kami terlatih pada lebih banyak data, dan
dengan sistem berbasis frase (PB- SMT) dan berbasis rendahnya kekokohan alat linguistik dalam
sintaks (SBSMT) oleh (Williams et al., 2016), yang anotasi dari kumpulan data sintetik yang
semuanya menggunakan anotasi linguistik pada sumber berisik. Baik sistem MT saraf dasar kami
dan/ atau sisi sasaran. Hasil ditunjukkan pada Tabel 4. dan sistem dengan fitur linguistik secara
Untuk bahasa Jerman→Bahasa Inggris, kami substansial mengungguli sistem berbasis
mengamati peningkatan serupa dalam frasa dan sintaksis untuk kedua arah
kebingungan pengembangan terbaik terjemahan.
(45.2→44.1), set uji BLEU (37,5→38.5) danCHRF3 Pada tabel sebelumnya, kami telah melaporkan
(62,2→62.8). Set pengujian kami BLEU setara kebingungan terbaik. Untuk menjawab pertanyaan
dengan sistem terbaik yang dikirimkan untuk tentang keacakan dalam kebingungan, dan apakah
tugas terjemahan bersama WMT 16 tahun ini, kebingungan terbaik kebetulan lebih rendah untuk
yang serupa dengan sistem MT dasar kami, tetapi sistem dengan fitur linguistik, kami menunjukkan
yang juga menggunakan dekoder kanan-ke-kiri kebingungan pada set pengembangan kami
untuk peringkat ulang (Sennrich et al., 2016a). sebagai fungsi waktu pelatihan untuk sistem yang
Kami berharap bahwa fitur input linguistik dan berbeda (Gambar 2 ). Kita bisa melihat itu
decoding dua arah adalah ortogonal, dan kami
http://statmt.org/rsennrich/wmt16_backtranslPSebuaheTRsayaPHailenxSsaya/tysecara konsisten
lebih rendah untuk sistem
Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
garis dasar 47.3 27.9 31.4 54.0 58.0 54.9 23.0 27.8 52.6 56.0
semua fitur 46.2 28.7* 32.9* 54.8 58.5 52.9 23.8* 28.4* 53.9 57.2
Tabel 2: Bahasa Jerman↔.Hasil terjemahan bahasa Inggris: kebingungan terbaik pada dev
(newstest2013), dan BLEU danCHRF3 pada test15 (newstest2015) dan test16 (newstest2016).
B LEU skor yang berbeda secara signifikan (p < 0,05) dari masing-masing baseline ditandai dengan (*).
Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
garis dasar 47.3 27.9 31.4 54.0 58.0 54.9 23.0 27.8 52.6 56.0
lemma 47.1 28.4 32.3* 54.6 58.7 53.4 23.8* 28.5* 53.7 56,7
tag subkata 47.3 27.7 31.5 54.0 58.1 54.7 23.6* 28.1 53.2 56.4
berubah fitur 47.1 28.2 32.4* 54.3 58.4 - - - - -
tag POS 46.9 28.1 32.4* 54.1 57.8 53.2 24.0* 28.9* 53.3 56.8
label ketergantungan 46.9 28.1 31,8* 54.2 58.3 54.0 23.4* 28.0 53.1 56,5
Tabel 3: Eksperimen kontrastif dengan fitur linguistik individual: kebingungan terbaik pada dev (new-stest2013), dan
BLEU danCHRF3 pada test15 (newstest2015) dan test16 (newstest2016). B LEU skor yang berbeda
secara signifikan (p < 0,05) dari masing-masing baseline ditandai dengan (*).
Jerman→Inggris Inggris→Jerman
sistem ppl B LEU↑. CHRF3 ppl B LEU↑. CHRF3
dev tes15 tes16 tes15 tes16 dev tes15 tes16 tes15 tes16
PBSMT (Williams et al., 2016) - 29.9 35.1 56.2 60.9 - 23.7 28.4 52.6 56.6
SBSMT (Williams et al., 2016) - 29.5 34.4 56.0 61.0 - 24.5 30.6 55.3 59.9
garis dasar 45.2 31.5 37.5 57.0 62.2 49.7 27,5 33.1 56.3 60.5
semua fitur 44.1 32.1* 38.5* 57.5 62.8 48.4 27.1 33.2 56,5 60.6
Tabel 4: Bahasa Jerman↔.Hasil terjemahan bahasa Inggris dengan tambahan, data pelatihan sintetis:
kebingungan terbaik pada dev (newstest2013), dan B LEU danCHRF3 pada test15 (newstest2015)
dan test16 (newstest2016). B LEU skor yang berbeda secara signifikan (p < 0,05) dari masing-masing
baseline ditandai dengan (*).
kalimat sistem
EN-DE baseline (data sintetik)
sumber Gefährlich ist die Route aber dennoch.
EN-DE semua fitur (data synth)
120 referensi Namun rutenya berbahaya. baseline
DE-EN baseline (data synth)
D E - E N s e m u a fi t u r ( d a t a s y n t h . ) Berbahaya adalah rute, namun.
semua fitur Namun, rute berbahaya.
100 sumber [Kami pikir] kemenangan seperti ini mungkin
kebingu