Anda di halaman 1dari 10

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Tersedia online diwww.sciencedirect.com

Sains Langsung
Ilmu Komputer Procedia 117 (2017) 256–265

Konferensi Internasional Linguistik Komputasi Arab ke-3, ACLing 2017, 5-6 November
2017, Dubai, Uni Emirat Arab

AraVec: Satu set Model Penyematan Kata Arab untuk digunakan dalam bahasa Arab
NLP
Abu Bakar Soliman, Kareem Eissa, Samhaa R. El-Beltagy1
Pusat Ilmu Informatika, Universitas Nil, Giza 12588, Mesir

Abstrak

Kemajuan dalam jaringan saraf telah membawa perkembangan di bidang-bidang seperti visi komputer, pengenalan
suara, dan pemrosesan bahasa alami (NLP). Salah satu perkembangan terbaru yang paling berpengaruh dalam NLP
adalah penggunaan penyematan kata, di mana kata-kata direpresentasikan sebagai vektor dalam ruang kontinu,
menangkap banyak hubungan sintaksis dan semantik di antara kata-kata tersebut. AraVec adalah proyek sumber
terbuka representasi kata terdistribusi (penyematan kata) terlatih yang bertujuan untuk memberikan komunitas riset
NLP Arab model penyematan kata yang kuat dan gratis untuk digunakan. Versi pertama AraVec menyediakan enam
model penyematan kata berbeda yang dibangun di atas tiga domain konten berbahasa Arab yang berbeda; Tweet,
halaman World Wide Web, dan artikel Wikipedia berbahasa Arab. Jumlah total token yang digunakan untuk
membangun model berjumlah lebih dari 3,300,000,000.

© 2017 Para Penulis. Diterbitkan oleh Elsevier BV


Tinjauan sejawat di bawah tanggung jawab komite ilmiah Konferensi Internasional ke-3 tentang Linguistik
Komputasi Arab.

Kata kunci:Kata2Vec; Penyematan Kata; Arab; NLP

1. Perkenalan

Dalam beberapa tahun terakhir, manfaat menggunakan representasi kata terdistribusi (embeddings) telah diilustrasikan dan
disorot dalam banyak tugas NLP yang berbeda termasuk namun tidak terbatas pada, analisis sentimen Tang et al. [1], bernama
pengenalan entitas Sien [2], dan bagian dari penandaan ucapan Lin et al. [3] Sementara manfaat tersebut disertai dengan

1 Abu Bakar Soliman. Telp: +0-202-3854-1760.


Alamat email:ab.soliman@nu.edu.eg

1877-0509©2017 Para Penulis. Diterbitkan oleh Elsevier BV


Tinjauan sejawat di bawah tanggung jawab komite ilmiah Konferensi Internasional ke-3 tentang Linguistik Komputasi Arab.
10.1016/j.procs.2017.10.117
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 257

penyediaan beberapa model representasi kata open source dalam bahasa Inggris, hal yang sama tidak berlaku untuk bahasa Arab.
AraVec adalah proyek sumber terbuka representasi kata terdistribusi (penyematan kata) yang bertujuan untuk memberikan
komunitas riset NLP Arab model penyematan kata yang kuat dan gratis untuk digunakan. Model yang disajikan2dibangun dengan
hati-hati menggunakan berbagai sumber teks Arab untuk menyediakan cakupan domain yang luas. Secara khusus, model dibangun
menggunakan halaman web yang dikumpulkan dari World Wide Web, teks yang diambil dari platform sosial, dan teks yang diperoleh
dari entri ensiklopedia.
Karya yang disajikan dalam makalah ini menjelaskan berbagai langkah yang diikuti untuk pembuatan model ini. Pengumpulan data,
pembersihan dan prapemrosesan data, serta penyetelan hyper-parameter adalah beberapa langkah yang dijelaskan.
Sisa makalah ini disusun sebagai berikut: di bagian 2 kami meninjau pekerjaan terkait, di Bagian 3 kami menjelaskan sumber data dan
teknik pra-pemrosesan kami, di bagian 4 kami menjelaskan teknik penyematan kata yang digunakan dan bagaimana kami menggunakannya
untuk membangun model kami , di Bagian 5 kami menggunakan ukuran kualitatif dan kuantitatif untuk mengevaluasi model kami dan
terakhir, di Bagian 6 kami menyimpulkan makalah ini dan mendiskusikan pekerjaan di masa depan.

2. Pekerjaan Terkait

Menyediakan representasi kata terdistribusi untuk kata-kata menggunakan kumpulan data besar berkontribusi terhadap
peningkatan kinerja di banyak tugas NLP seperti yang ditunjukkan oleh Ma dan Hovy [4]. Konstruksi representasi kata
terdistribusi dalam bahasa Arab telah dilakukan oleh beberapa peneliti. Misalnya, karya Al-Rfou dkk. [5] telah menghasilkan
terciptanya model penyematan kata untuk 117 bahasa berbeda termasuk bahasa Arab. Soricut dan Och [6] memberikan
teknik agnostik bahasa tanpa pengawasan untuk menginduksi transformasi morfologi antar kata. Mereka mencoba
menemukan serangkaian aturan morfologi untuk membangun penganalisis morfologi. Mereka mengevaluasi teknik mereka
dalam enam bahasa berbeda termasuk bahasa Arab. Model bahasa Arab mereka dibuat menggunakan korpus GigaWord
Arab dari Parker, Robert et al. [7]
Beberapa peneliti telah menggunakan representasi kata Arab sebagai fitur untuk tugas umum NLP. Zirikly dan Diab
[8] misalnya, mengeksplorasi dampak penggunaan penyematan kata dalam mendeteksi entitas bernama dalam bahasa Arab. Dalam
karyanya, penulis menunjukkan bahwa skema representasi baru ini dapat menggantikan penggunaan kamus dan surat kabar dan
masih menghasilkan kinerja yang lebih baik meskipun penulis menggunakan korpus Twitter kecil yang hanya berisi 3.646 tweet
dalam bentuk Kumpulan Data Dialek Arab ( DA-EGY) [9] yang berisi sekitar 40 ribu token yang menargetkan dialek Mesir. Zahran dkk.
[10] mengumpulkan kumpulan data Arab Standar Modern yang besar dari Wikipedia, Gigaword Arab [7], beberapa Kawat Berita
Arab, serta dari sumber lain. Mereka membandingkan berbagai teknik untuk membangun representasi ruang yang divektorisasi
untuk bahasa Arab dan mengevaluasinya menggunakan tugas kesamaan kata standar dalam bahasa Arab. Mereka juga
mengevaluasinya dalam dua tugas:

3. Pengumpulan dan Persiapan Data AraVec

3.1. Pengumpulan data

Tujuan utama dari pekerjaan ini adalah untuk menyediakan model representasi kata terdistribusi yang efisien untuk berbagai
tugas NLP di domain teks yang berbeda. Untuk mencapai tujuan ini, kami telah memutuskan untuk mengumpulkan data untuk
membangun berbagai model representasi kata terdistribusi dari tiga sumber data yang berbeda yaitu: Twitter, World Wide Web, dan
Wikipedia. Alasan pengumpulan data ini serta langkah-langkah yang diambil untuk mengumpulkan data dari masing-masing sumber
dirinci dalam subbagian berikut.

3.1.1. Twitter
Banyak peneliti NLP baru-baru ini yang menargetkan analisis dan aplikasi media sosial telah menggunakan Twitter sebagai sumber data
utama untuk melaksanakan pekerjaan mereka. Hal ini dapat disebabkan oleh sejumlah alasan termasuk fakta bahwa Twitter dapat dengan
mudah ditanyakan dalam jangka waktu tertentu. Faktor lain terkait dengan fakta bahwa tweet sering diberi tag

2Semua model dapat diunduh dari tautan berikut: https://github.com/bakrianoo/aravec


258 Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265

dengan lokasi geografis, memiliki informasi pengguna dan banyak alat yang tersedia untuk melakukan penurunan topik dan sentimen
darinya.
Ketika membahas bahasa Arab dalam konteks media sosial, kita dapat mengklaim bahwa kita menghadapi banyak domain
linguistik yang berbeda; bukan hanya satu. Hal ini sebagian besar disebabkan oleh fakta bahwa pengguna media sosial
mengekspresikan diri mereka menggunakan berbagai dialek dan subdialek. Contohnya meliputi: Bahasa Arab Standar Modern (MSA
‫)ﻓﺼﺤﻰ‬, dialek Mesir atau lebih khusus lagi dialek Kairene, Teluk, Maroko, Tunisia, Aljazair, dan Levantine. Menangkap sebanyak
mungkin domain linguistik ini dalam konteks interaksi sosial sehari-hari adalah salah satu motivasi utama untuk menciptakan model
representasi kata menggunakan tweet.
Untuk mendapatkan akses ke tweet yang lebih luas dibandingkan yang disediakan oleh API Twitter standar, kami merancang crawler
untuk mengumpulkan tweet. Perayap sepenuhnya mematuhi aturan3yang menentukan apa yang dapat ditanyakan dari Twitter. Perayap
digunakan untuk menanyakan twitter berdasarkan dua parameter utama: (1) bahasa yang disetel ke bahasa Arab dan (2) rentang waktu untuk
melakukan pencarian. Lebih dari 2.100 permintaan pencarian digunakan untuk mengumpulkan kumpulan data twitter akhir kami. Pada
akhirnya kami mengumpulkan lebih dari 77.600.000 tweet berbahasa Arab yang diposting antara tahun 2008 dan 2016 yang diperoleh dari
berbagai lokasi geografis acak.

3.1.2. World Wide Web


Bahasa Arab adalah bahasa kelima yang paling banyak digunakan di dunia dengan lebih dari 420 juta penutur asli4. Lebih dari
41% penutur bahasa Arab menggunakan internet5mencakup sekitar 4% dari konteks Internet pada akhir tahun 20166. Situs web
publik yang terdapat di World Wide Web mencakup spektrum topik yang luas yang tersebar di situs berita, blog, situs layanan, forum
sosial, dan banyak lainnya. Saat memilih model untuk mengumpulkan data dari berbagai situs ini, kami harus memastikan bahwa
kebijakan privasi masing-masing situs dipatuhi. Untuk memastikan hal itu, kami menggunakan proyek Common Crawl. Perayapan
Umum7adalah organisasi nirlaba yang mengelola repositori terbuka data perayapan web. Data perayapan web mencakup 40+
bahasa termasuk bahasa Arab. Dalam model kami, kami telah menggunakan subset crawl dump Januari 2017. Dump tersebut berisi
lebih dari 3,14 miliar halaman web dan sekitar 250 Terabyte konten yang tidak terkompresi. Proyek Common Crawl menyediakan
data yang dirayapi dalam tiga format berbeda:
• File WARC yang merupakan data perayapan mentah
• File WAT yang merupakan metadata yang dihitung untuk data yang disimpan di WARC
• File WET yang merupakan teks biasa yang diekstraksi dari data yang disimpan di WARC
Kami menggunakan file WET karena kami hanya tertarik pada teks biasa untuk membangun model representasi kata terdistribusi. Karena
ukuran dump yang memerlukan daya pemrosesan dan waktu penanganan yang besar, kami hanya menggunakan 30% data yang ada di
dalamnya. Karena subset ini terdiri dari sekitar satu miliar halaman web (ditulis dalam berbagai bahasa), kami yakin bahwa subset ini cukup
besar untuk menyediakan halaman Web berbahasa Arab yang memadai sehingga kami dapat membangun model penyematan kata yang
representatif. Di sini penting untuk dicatat bahwa proyek Common Crawl tidak menyediakan teknik apa pun untuk mengidentifikasi atau
memilih bahasa halaman web yang akan diunduh. Jadi, kami harus mendownload datanya terlebih dahulu, lalu membuang halaman yang
tidak ditulis dalam bahasa Arab. Tahap pendeteksian bahasa Arab dilakukan dengan menggunakan beberapa perintah regex dan beberapa
teknik NLP untuk membedakan bahasa Arab dengan bahasa lain. Setelah selesainya fase ini kami berhasil memperoleh 4.379.697 halaman
web berbahasa Arab yang kemudian disegmentasi menjadi lebih dari 180.000.000 paragraf/dokumen untuk membangun model kami.

3.1.3. Wikipedia
Wikipedia8adalah ensiklopedia yang ditulis secara kolaboratif oleh pengguna di seluruh dunia. Sebagai sumber daya, ia
menyediakan lebih dari 45 juta artikel berkategori yang menargetkan 285 bahasa termasuk bahasa Arab. Bahasa Arab adalah
bahasa Semit pertama yang melebihi 100.000 artikel di Wikipedia. Bagian berbahasa Arab di Wikipedia kini memiliki lebih dari

3Aturannya dapat ditemukan di: https://twitter.com/robots.txt


4https://en.wikipedia.org/wiki/List_of_linguals_by_number_of_native_speakers

5http://www.internetworldstats.com/stats19.htm
6http://www.internetworldstats.com/stats5.htm
7http://commoncrawl.org

8https://www.wikipedia.org
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 259

520.000 artikel9. Sebagai proyek sumber terbuka yang dilisensikan di bawah Lisensi Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA),
Wikipedia menyediakan salinan gratis dari basis datanya untuk digunakan dalam berbagai tujuan. Untuk membangun model kami dari
Wikipedia, kami mengunduh dump berbahasa Arab tertanggal Januari 2017. Setelah mengelompokkan artikel menjadi beberapa paragraf,
kami mendapatkan 1.800.000 paragraf, masing-masing mewakili dokumen yang akan digunakan untuk membangun model kami.

3.2. Pemrosesan awal

Pemrosesan awal teks merupakan langkah penting dalam membangun model penyematan kata apa pun karena berpotensi
memengaruhi hasil akhir secara signifikan. Pada sub-bagian berikut, langkah-langkah pra-pemrosesan utama yang digunakan
dijelaskan.

3.2.1. Memfilter Konten Non-Arab


Langkah pra-pemrosesan pertama yang dilakukan terhadap data yang dikumpulkan adalah menyaring konten non-Arab. Hal ini
sangat penting ketika berhadapan dengan data dari “Web” atau “Twitter”. Meskipun bahasa Arab dapat dengan mudah dikenali
menggunakan alfabetnya (“‫ﺕ‬,‫ﺏ‬,‫ﺃ‬,..”), ada bahasa lain yang alfabetnya mengandung karakter yang tumpang tindih dengan alfabet
Arab seperti Urdu dan Persia. Tantangannya adalah mendeteksi teks Arab saja dan menyaring teks lainnya. Untuk melakukannya,
kami menggunakan perpustakaan Python untuk deteksi bahasa10yang dapat mendeteksi 55 bahasa termasuk Arab, Persia dan Urdu.
Perpustakaan memberikan perkiraan kepercayaan terhadap bahasa tersebut. Kami menggunakan ekspresi reguler untuk memfilter
bahasa yang menggunakan alfabet lain. Masih dalam banyak kasus perpustakaan akan mengklasifikasikan sebuah paragraf ke
dalam beberapa bahasa misalnya 60% Arab dan 40% Persia. Dalam kasus seperti ini, halaman yang sebagian besar kontennya non-
Arab akan dibuang.

3.2.2. Normalisasi
Normalisasi karakter Arab merupakan langkah preprocessing yang umum dilakukan ketika berhadapan dengan teks
Arab. Pada langkah ini, huruf “‫“ﺇ‬,”‫ ”ﺃ‬dan “‫ ”ﺁ‬diganti dengan “‫ ”ﺍ‬sedangkan huruf “‫ ”ﺓ‬diganti dengan “‫”ﻩ‬, dan huruf “‫ ”ﻯ‬diganti
dengan “‫”ﻱ‬. Diakritik juga dihilangkan pada langkah ini. Pada langkah ini kami juga menormalkan mention, URL, emoji dan
emoticon. Penyebutan dinormalisasi dengan mengganti teksnya dengan satu kata Arab non-standar seperti “‫”ﺣﺴﺎﺑﺸﺨﺼﻲ‬.
URL dinormalisasi dengan cara yang sama (istilah yang digunakan untuk menggantikan URL adalah “‫)”ﺭﺍﺑﻄﻮﻳﺐ‬. Demikian
pula emoji atau emotikon positif diganti dengan istilah “‫ ”ﺍﻳﻤﻮﺷﻨﻤﻮﺟﺐ‬sedangkan emoji/emotikon negatif diganti dengan “
‫”ﺍﻳﻤﻮﺷﻨﺴﺎﻟﺐ‬. Selain itu, kata-kata yang memanjang diubah kembali ke bentuk aslinya (contoh “‫ ”ﺳﺎﻻﺍﺍﺍﻡ‬akan diubah menjadi “
‫)”ﺳﺎﻟﻢ‬.

3.2.3. Pemfilteran Konten Berperingkat X:


Saat melakukan analisis sederhana terhadap sampel kumpulan data World Wide Web berbahasa Arab, kami menemukan bahwa sebagian
besar data tersebut didominasi oleh konten dengan rating X. Yang kami maksud dengan konten “X-Rated” adalah konten teks dari situs web
dewasa. Meskipun konten ini mungkin diinginkan karena nilai semantiknya, kami tidak ingin konten semacam ini mendominasi kumpulan
data kami karena hal ini akan menghasilkan kumpulan data yang condong ke arah konten semacam ini.
Untuk mengatasi masalah ini, kami membuat model penyematan kata sederhana menggunakan kumpulan data yang sama. Kemudian, dengan
menggunakan benih dari beberapa kata umum Berperingkat X, kami memanfaatkan kekuatan penyematan kata, untuk mendapatkan istilah yang paling
mirip dengan kata tersebut. Setelah merevisi daftar untuk menjamin bahwa tidak ada tumpang tindih antara kata-kata tersebut dan kata-kata lain yang
umum digunakan, kami mendapatkan daftar 85 kata yang dapat membantu mengklasifikasikan konten dengan rating X. Daftar ini dapat ditemukan
dalam file terpisah dalam repositori proyek. Kami telah menggunakan daftar ini untuk mendeteksi persentase kemunculan kata-kata Berperingkat X
dalam sebuah paragraf. Untuk memfilter paragraf, kami menghitung persentase kata dengan Nilai X yang terkandung di dalamnya. Jika persentase ini
lebih besar dari nilai α tertentu, kita membuang paragraf tersebut. Di sistem kami, dan setelah beberapa eksperimen, kami telah menetapkan α menjadi
20%

9https://en.wikipedia.org/wiki/List_of_Wikipedias

10https://pypi.python.org/pypi/langdetect?
260 Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265

4. Penyematan Kata

4.1. Teknik

Model ruang vektor (VSM) adalah salah satu skema representasi teks tertua dan paling terkenal. Secara tradisional, model ruang vektor terutama digunakan untuk representasi dokumen,

dengan karya-karya terbaru yang memperluas model ini ke representasi kata atau istilah. Dalam karya terbaru tersebut, kata-kata direpresentasikan dalam ruang kontinu di mana kata-kata yang

serupa secara semantik memiliki ukuran kemiripan yang tinggi dalam ruang tersebut. VSM mengandalkan 'Hipotesis Distribusi'11, yang menyatakan bahwa kata-kata yang muncul dalam konteks yang

sama cenderung mempunyai arti yang serupa. Dua pendekatan utama untuk membangun representasi ini adalah: pendekatan berbasis hitungan dan metode prediktif. Pendekatan berbasis hitungan

menghitung statistik kemunculan bersama antar kata, lalu memetakan statistik ini ke dalam vektor padat untuk setiap kata. Metode prediksi mencoba memprediksi sebuah kata dari tetangganya

dalam bentuk vektor padat yang dipelajari untuk setiap kata. Istilah “word embeddings” pertama kali diciptakan oleh Bengio et al. [11] . Model yang mereka usulkan didasarkan pada gagasan untuk

memperoleh nilai vektor kata atau embeddings dengan melatih model bahasa saraf. Pada tahun 2008, Collobert dan Weston [12] mendemonstrasikan penyematan kata sebagai alat yang efektif

dalam banyak tugas hilir. Itu adalah Mikolov dkk. [13] yang membawa ide ini ke garis depan penelitian dan berkontribusi terhadap penggunaannya secara luas melalui pembuatan toolkit Word2Vec

yang dapat dengan mudah digunakan dan disesuaikan untuk menghasilkan embeddings. Mikolov dkk. [13], mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam

ruang vektor multidimensi yaitu model continuous bag-of-words (CBOW) dan model skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu

konteks dengan mempertimbangkan kata-kata lain dalam konteks tersebut tanpa memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk

memprediksi konteks kata di sekitarnya berdasarkan kata utama. mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam ruang vektor multidimensi yaitu model

continuous bag-of-words (CBOW) dan model skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu konteks dengan mempertimbangkan

kata-kata lain dalam konteks tersebut tanpa memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk memprediksi konteks kata di sekitarnya

berdasarkan kata utama. mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam ruang vektor multidimensi yaitu model continuous bag-of-words (CBOW) dan model

skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu konteks dengan mempertimbangkan kata-kata lain dalam konteks tersebut tanpa

memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk memprediksi konteks kata di sekitarnya berdasarkan kata utama.

Gambar 1 (a) CBOW, (b) Lewati-gram

4.2. Membangun model

Model yang kami buat dibuat menggunakan Gensim12alat yang dikembangkan oleh Radim Rehurek [14], yang
merupakan toolkit efisien yang dibuat untuk menangani banyak tugas umum NLP dan mencakup implementasi
untuk model Word2Vec.
AraVec menyediakan enam model penyematan kata yang berbeda, di mana setiap domain teks (Tweets, WWW, dan Wikipedia) memiliki
dua model berbeda; satu dibangun menggunakan teknik CBOW dan yang lainnya menggunakan teknik Skip-Gram. Untuk membangun model
ini, kami menjalankan serangkaian eksperimen besar untuk menyesuaikan hyperparameter (jumlah minimum, ukuran jendela, . Untuk jumlah
kata minimum, kami memperhatikan bahwa ambang batas yang rendah, misalnya 5, menghasilkan peningkatan ukuran kosakata tanpa
menambah banyak kata nilai ke model. Oleh karena itu, kami telah menetapkan nilai ini ke 20 untuk korpus Wikipedia. Namun, kami melihat
bahwa ada masalah umum yang dihadapi untuk kumpulan data Twitter dan Common Crawl, yaitu terjadinya kata-kata yang salah eja dengan
frekuensi tinggi karena dengan besarnya corpora.Untuk mengatasi permasalahan tersebut, kami

11https://en.wikipedia.org/wiki/Distributional_semantics#Distributional_hypothesis
12https://radimrehurek.com/gensim/about.html
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 261

atur nilai hitungan minimum menjadi 500 untuk kedua kumpulan data. Sehubungan dengan ukuran jendela kami menggunakan ukuran
jendela kecil 3 untuk Twitter karena panjang maksimal sebuah tweet adalah 140 karakter. Kami meningkatkannya menjadi 5 untuk kumpulan
data Wikipedia dan Common Crawl karena paragraf di keduanya lebih panjang. Semua model yang dihasilkan memiliki dimensi vektor 300.

Model Wikipedia memerlukan waktu 10 jam untuk dilatih pada PC Quad core Intel i7-3770 @3,4 GHz dengan RAM 32 GB yang menjalankan Ubuntu 16.04,
sedangkan model Twitter memerlukan waktu 1,5 hari untuk dilatih dan Common Crawl memerlukan waktu 4 hari. Tabel 1, menunjukkan hyperparameter
yang digunakan untuk setiap model dan ukuran korpus yang digunakan.

Tabel 1 Konfigurasi Model

Nama model # Dokumen # Token kata minimal Jendela Teknik


(Jutaan) (Jutaan)
Frekuensi. Menghitung ukuran

Twt-CBOW CBOW
66.9 1090 500 3
Twt-SG Lewati-gram

WWW-CBOW CBOW
132.7 2225.3 500 5
WWW-SG Lewati-gram

Wiki-CBOW CBOW
1.8 78.9 20 5
Wiki-SG Lewati-gram

5. Evaluasi

Untuk mengevaluasi model yang dihasilkan, kami menggunakan metode kualitatif dan kuantitatif yang masing-masing
disajikan pada subbagian berikut.

5.1. Evaluasi Kualitatif

Tujuan melakukan evaluasi kualitatif pada model kami adalah untuk menguji seberapa baik model tersebut menangkap kesamaan antar
kata. Untuk melakukannya, kami menggunakan vektor kata untuk sebagian kecil kata sentimen dan menerapkan algoritme pengelompokan
untuk melihat apakah kata-kata dengan polaritas yang sama berkumpul atau tidak. Kami melakukan hal yang sama dengan sekumpulan
entitas bernama yang dipilih secara acak dari tipe yang diketahui. Masing-masing tugas tersebut dijelaskan lebih rinci pada subbagian berikut.

5.1.1. Pengelompokan kata-kata Sentimen


Seperti yang dinyatakan di atas, kami telah memilih sebagian kecil kata yang diambil dari leksikon sentimen. Subset yang digunakan dapat
ditemukan pada Tabel 2. Kami memperoleh vektor yang mewakili masing-masing kata tersebut dari setiap model yang kami hasilkan dan
menjalankan algoritme pengelompokan K-Means pada vektor tersebut (pengaturan k=2). Kami kemudian menggunakan alat t-Distributed
Stochastic Neighbor Embedding (t-SNE) oleh Ulyanov [15], untuk memvisualisasikan dan memeriksa hasilnya dalam grafik 2D. Hasilnya
ditunjukkan pada Gambar 2. Dengan memeriksa hasil ini, mudah untuk melihat bahwa dalam banyak kasus, kata-kata dengan polaritas yang
sama telah dikelompokkan bersama. Kami mencatat bahwa model Wikipedia menghasilkan cluster terburuk. Hal ini dapat dijelaskan dengan
sifat faktual Wikipedia dimana banyak kata yang mempunyai arti negatif atau positif dalam bahasa lisan, sebenarnya netral di Wikipedia (mis.
‫)ﻋﻤﻴﻞ‬.

Tabel 2 Kumpulan kata sentimen

Positif ya ‫ﺧﺮﺍﻓﻲ‬ baiklah ‫ﻣﺘﻄﻮﺭ‬ baiklah itu ‫ﻣﺘﻜﺎﻣﻞ‬

Negatif ‫ﻗﺬﺭ‬ baiklah ‫ﺗﻜﻔﻴﺮﻱ‬ itu ‫ﺯﻧﺪﻳﻖ‬ ‫ﻗﻮﺍﺩ‬ ya ‫ﻋﻤﻴﻞ‬


262 Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265

Model CBOW Twitter Model Lewati Gram Twitter

WWW Model CBOW WWW Model Lewati Gram

Model CBOW Wikipedia Model Lewati-Gram Wikipedia

Gambar 2: Hasil Pengelompokan Kata Sentimen

5.1.2. Pengelompokan Entitas Bernama


Mirip dengan apa yang telah kita lakukan ketika mengelompokkan kata-kata sentimen, di sini kita juga telah memilih sekumpulan entitas
bernama secara acak yang masing-masing termasuk dalam salah satu dari empat kategori utama: Orang, Lokasi, Organisasi dan Waktu/
Tanggal seperti yang ditunjukkan pada Tabel 4. K Algoritme pengelompokan -Means diterapkan pada vektor kata-kata ini dengan k disetel ke
4. Dengan memeriksa hasil pada Gambar 3, kita dapat melihat bahwa model tersebut menangkap sebagian besar kesamaan di antara Entitas
Bernama.
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 263

Tabel 3 Kumpulan entitas bernama

Orang itu itu ‫ﺧﺎﻟﺪ‬ ‫ﻋﺒﺪﺍﻟﺮﺣﻤﻦ‬ ‫ﻭﻟﻴﺪ‬ ya ya itu


Lokasi baiklah ‫ﺑﺮﻭﻛﺴﻞ‬ ‫ﺑﻮﺳﻄﻦ‬ ‫ﺩﺑﻲ‬ ‫ﻓﻠﻮﺭﻳﺪﺍ‬ ‫ﻧﻴﻮﻳﻮﺭﻙ‬ ‫ﻟﻨﺪﻥ‬
Organisasi baiklah baiklah ‫ﺍﻛﺎﺩﻳﻤﻴﺔ‬ baiklah baiklah ‫ﺑﻠﺪﻳﺔ‬

Waktu/Tanggal ‫ﺃﻳﻠﻮﻝ‬ baiklah baiklah ‫ﻳﻨﺎﻳﺮ‬ ‫ﺃﻛﺘﻮﺑﺮ‬ baiklah ‫ﺗﺸﺮﻳﻦ‬

Model CBOW Twitter Model Lewati Gram Twitter

WWW Model CBOW WWW Model Lewati Gram

Model CBOW Wikipedia Model Lewati-Gram Wikipedia

Gambar 3: hasil clustering entitas bernama


264 Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265

5.2. Evaluasi Kuantitatif

Untuk mengevaluasi model secara kuantitatif, kami menggunakan Tugas Kesamaan Tekstual Semantik SemEval-2017 113yang bertujuan
untuk mengukur derajat kesetaraan antar cuplikan teks berpasangan. SemEval menyempurnakan subtugas 2017 dengan menyediakan
kumpulan data berbahasa Arab untuk tugas ini. Data pengujian untuk bahasa Arab hanya memiliki 250 pasang cuplikan dan tantangannya
adalah memprediksi kemungkinan kesamaan kedua cuplikan tersebut. Tujuan kami bukan untuk menyelesaikan tugas ini sepenuhnya,
melainkan untuk menunjukkan bahwa hanya dengan menggunakan model penyematan kata yang baik, kami dapat memperoleh skor dasar
yang wajar untuk tugas tersebut. Untuk melakukannya, kami telah menghitung vektor untuk semua cuplikan dengan mengambil rata-rata
vektor untuk kata-kata dalam cuplikan setelah mengalikan setiap vektor dengan nilai TF–IDF (Frekuensi Istilah – Frekuensi Dokumen Terbalik14
). Kemudian kami menghitung kesamaan kosinus antara vektor dari masing-masing dua cuplikan untuk memperkirakan probabilitas
kesamaan tekstual. Kami kemudian menggunakan alat evaluasi resmi15untuk mengevaluasi setiap model seperti yang ditunjukkan pada Tabel
6. Hasilnya menunjukkan bahwa pendekatan yang sangat naif ini memberikan hasil yang sebanding dengan skor rata-rata kompetisi; hal ini
dicapai dengan rekayasa fitur apa pun atau pemanfaatan model pembelajaran mesin yang kompleks

Tabel 4 Hasil Tugas SemEval

Nama model Skor


Twt-CBOW 0,56813

Twt-SG 0,58459

WWW-CBOW 0,57268

WWW-SG 0,56135

Wiki-CBOW 0,52842

Wiki-SG 0,54533

Persaingan Terburuk 0,0033

Kompetisi Terbaik 0,7440

Rata-rata Persaingan 0,52033

6. Kesimpulan dan Pekerjaan Masa Depan

Dalam makalah ini, kami telah menyajikan bagaimana kami membangun 6 model penyematan kata yang berbeda untuk bahasa Arab
menggunakan tiga sumber berbeda: data perayapan halaman web Wikipedia, Twitter, dan Common Crawl. Kami telah menyediakan dua
model untuk setiap sumber daya; satu berdasarkan kumpulan kata Berkelanjutan dan satu lagi berdasarkan model Skip-gram. Kami telah
mengevaluasi model kami menggunakan ukuran kualitatif dan kuantitatif pada beberapa tugas untuk menunjukkan kemampuannya dalam
menangkap kesamaan antar kata. Kami percaya bahwa model terlatih ini dapat digunakan oleh peneliti lain di bidang NLP untuk
meningkatkan kinerja berbagai tugas NLP.
Di masa depan, kami ingin bereksperimen dengan penyematan tingkat karakter serta menerapkan model ini untuk
menyempurnakan banyak masalah yang telah kami bahas sebelumnya, di antaranya adalah analisis sentimen bahasa Arab dan
pengenalan entitas bernama.

Referensi

[1] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu dan B. Qin, “Mempelajari Penyematan Kata Khusus Sentimen untuk Klasifikasi
Sentimen Twitter.,” diACL (1), 2014.
[2] SK Siencnik, “Mengadaptasi word2vec ke Pengenalan Entitas Bernama,” diNODALIDA, 2015.
[3] C.-C. Lin, W. Ammar, C. Dyer dan L. Levin, “Induksi pos tanpa pengawasan dengan penyematan kata,”arXiv pracetak arXiv:1503.06760,2015.

13http://alt.qcri.org/semeval2017/task1/
14https://en.wikipedia.org/wiki/Tf%E2%80%93idf

15http://alt.qcri.org/semeval2017/task1/data/uploads/sts2017-trial-data.zip
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 265

[4] X. Ma dan E. Hovy, “Pelabelan Urutan Ujung ke Ujung melalui LSTM-CNNs-CRF Dua Arah,” diProsiding Pertemuan Tahunan ke-54
Asosiasi Linguistik Komputasi (Volume 1: Makalah Panjang),Berlin, 2016.
[5] R. Al-Rfou, B. Perozzi dan S. Skiena, “Polyglot: Representasi kata terdistribusi untuk nlp multibahasa,”arXiv pracetak arXiv:1307.1662,
2013.
[6] R. Soricut dan FJ Och, “Induksi Morfologi Tanpa Pengawasan Menggunakan Penyematan Kata.,” diHLT-NAACL, 2015.
[7] R.ea Parker, “Arabic Gigaword Edisi Kelima LDC2011T11,” Unduhan Web. Philadelphia: Konsorsium Data Linguistik, 2011.
[8] A. Zirikly dan MT Diab, “Pengakuan Entitas Bernama untuk Media Sosial Arab.,” diVS@ HLT-NAACL, 2015.
[9] K. Darwish, “Pengenalan Entitas Bernama menggunakan Sumber Daya Lintas Bahasa: Bahasa Arab sebagai Contoh,” diProsiding Pertemuan Tahunan
ke-51 Asosiasi Linguistik Komputasi (Volume 1: Makalah Panjang), Sofia, 2013.
[10] MA Zahran, A. Maggooda, AY Mahgoub, H. Raafat, M. Rashwan dan A. Atyia, “Representasi Kata dalam Ruang Vektor dan Penerapannya dalam
Bahasa Arab,” dalamLinguistik Komputasi dan Pemrosesan Teks Cerdas: Konferensi Internasional ke-16, CICLing 2015, Kairo, Mesir, 14-20
April 2015, Prosiding, Bagian I, A. Gelbukh, Ed., Cham, : Springer International Publishing, 2015, hlm.430-443.
[11] Y. Bengio, R. Ducharme, P. Vincent dan C. Janvin, “Model Bahasa Neural Probabilistik,”J.Mach. Mempelajari. Res.,jilid. 3, hal.1137-1155,
# Maret# 2003.

[12] R. Collobert dan J. Weston, “Arsitektur Terpadu untuk Pemrosesan Bahasa Alami: Jaringan Syaraf Dalam dengan Pembelajaran Multitask,” dalam
Prosiding Konferensi Internasional ke-25 tentang Pembelajaran Mesin, New York, NY, AS, 2008.
[13] T. Mikolov, K. Chen, G. Corrado dan J. Dean, “Estimasi representasi kata yang efisien dalam ruang vektor,”arXiv pracetak
arXiv:1301.3781,2013.
[14] R. Rehurek dan P. Sojka, “Kerangka perangkat lunak untuk pemodelan topik dengan corpora besar,” diDalam Prosiding Lokakarya LREC 2010 tentang
Tantangan Baru untuk Kerangka NLP, 2010.
[15] D.Ulyanov,Muticore-TSNE,GitHub, 2016.
[16] CR García-Alonso, LM Pérez-Naranjo dan JC Fernández-Caballero, “Algoritma evolusioner multiobjektif untuk mengidentifikasi area yang sangat
autokorelasi: kasus distribusi spasial di pertanian yang mengalami kompromi finansial,”Sejarah Riset Operasi,jilid. 219, hlm. 187-202, Agustus
2014.
[17] CO Alm, D. Roth dan R. Sproat, “Emosi dari Teks: Pembelajaran Mesin untuk Prediksi Emosi Berbasis Teks,” diProsiding Konferensi
Teknologi Bahasa Manusia dan Metode Empiris dalam Pemrosesan Bahasa Alami, Stroudsburg, 2005.

Anda mungkin juga menyukai