AraVec - A Set of Arabic Word Embedding Models For Use in Arabic - En.id
AraVec - A Set of Arabic Word Embedding Models For Use in Arabic - En.id
com
Sains Langsung
Ilmu Komputer Procedia 117 (2017) 256–265
Konferensi Internasional Linguistik Komputasi Arab ke-3, ACLing 2017, 5-6 November
2017, Dubai, Uni Emirat Arab
AraVec: Satu set Model Penyematan Kata Arab untuk digunakan dalam bahasa Arab
NLP
Abu Bakar Soliman, Kareem Eissa, Samhaa R. El-Beltagy1
Pusat Ilmu Informatika, Universitas Nil, Giza 12588, Mesir
Abstrak
Kemajuan dalam jaringan saraf telah membawa perkembangan di bidang-bidang seperti visi komputer, pengenalan
suara, dan pemrosesan bahasa alami (NLP). Salah satu perkembangan terbaru yang paling berpengaruh dalam NLP
adalah penggunaan penyematan kata, di mana kata-kata direpresentasikan sebagai vektor dalam ruang kontinu,
menangkap banyak hubungan sintaksis dan semantik di antara kata-kata tersebut. AraVec adalah proyek sumber
terbuka representasi kata terdistribusi (penyematan kata) terlatih yang bertujuan untuk memberikan komunitas riset
NLP Arab model penyematan kata yang kuat dan gratis untuk digunakan. Versi pertama AraVec menyediakan enam
model penyematan kata berbeda yang dibangun di atas tiga domain konten berbahasa Arab yang berbeda; Tweet,
halaman World Wide Web, dan artikel Wikipedia berbahasa Arab. Jumlah total token yang digunakan untuk
membangun model berjumlah lebih dari 3,300,000,000.
1. Perkenalan
Dalam beberapa tahun terakhir, manfaat menggunakan representasi kata terdistribusi (embeddings) telah diilustrasikan dan
disorot dalam banyak tugas NLP yang berbeda termasuk namun tidak terbatas pada, analisis sentimen Tang et al. [1], bernama
pengenalan entitas Sien [2], dan bagian dari penandaan ucapan Lin et al. [3] Sementara manfaat tersebut disertai dengan
penyediaan beberapa model representasi kata open source dalam bahasa Inggris, hal yang sama tidak berlaku untuk bahasa Arab.
AraVec adalah proyek sumber terbuka representasi kata terdistribusi (penyematan kata) yang bertujuan untuk memberikan
komunitas riset NLP Arab model penyematan kata yang kuat dan gratis untuk digunakan. Model yang disajikan2dibangun dengan
hati-hati menggunakan berbagai sumber teks Arab untuk menyediakan cakupan domain yang luas. Secara khusus, model dibangun
menggunakan halaman web yang dikumpulkan dari World Wide Web, teks yang diambil dari platform sosial, dan teks yang diperoleh
dari entri ensiklopedia.
Karya yang disajikan dalam makalah ini menjelaskan berbagai langkah yang diikuti untuk pembuatan model ini. Pengumpulan data,
pembersihan dan prapemrosesan data, serta penyetelan hyper-parameter adalah beberapa langkah yang dijelaskan.
Sisa makalah ini disusun sebagai berikut: di bagian 2 kami meninjau pekerjaan terkait, di Bagian 3 kami menjelaskan sumber data dan
teknik pra-pemrosesan kami, di bagian 4 kami menjelaskan teknik penyematan kata yang digunakan dan bagaimana kami menggunakannya
untuk membangun model kami , di Bagian 5 kami menggunakan ukuran kualitatif dan kuantitatif untuk mengevaluasi model kami dan
terakhir, di Bagian 6 kami menyimpulkan makalah ini dan mendiskusikan pekerjaan di masa depan.
2. Pekerjaan Terkait
Menyediakan representasi kata terdistribusi untuk kata-kata menggunakan kumpulan data besar berkontribusi terhadap
peningkatan kinerja di banyak tugas NLP seperti yang ditunjukkan oleh Ma dan Hovy [4]. Konstruksi representasi kata
terdistribusi dalam bahasa Arab telah dilakukan oleh beberapa peneliti. Misalnya, karya Al-Rfou dkk. [5] telah menghasilkan
terciptanya model penyematan kata untuk 117 bahasa berbeda termasuk bahasa Arab. Soricut dan Och [6] memberikan
teknik agnostik bahasa tanpa pengawasan untuk menginduksi transformasi morfologi antar kata. Mereka mencoba
menemukan serangkaian aturan morfologi untuk membangun penganalisis morfologi. Mereka mengevaluasi teknik mereka
dalam enam bahasa berbeda termasuk bahasa Arab. Model bahasa Arab mereka dibuat menggunakan korpus GigaWord
Arab dari Parker, Robert et al. [7]
Beberapa peneliti telah menggunakan representasi kata Arab sebagai fitur untuk tugas umum NLP. Zirikly dan Diab
[8] misalnya, mengeksplorasi dampak penggunaan penyematan kata dalam mendeteksi entitas bernama dalam bahasa Arab. Dalam
karyanya, penulis menunjukkan bahwa skema representasi baru ini dapat menggantikan penggunaan kamus dan surat kabar dan
masih menghasilkan kinerja yang lebih baik meskipun penulis menggunakan korpus Twitter kecil yang hanya berisi 3.646 tweet
dalam bentuk Kumpulan Data Dialek Arab ( DA-EGY) [9] yang berisi sekitar 40 ribu token yang menargetkan dialek Mesir. Zahran dkk.
[10] mengumpulkan kumpulan data Arab Standar Modern yang besar dari Wikipedia, Gigaword Arab [7], beberapa Kawat Berita
Arab, serta dari sumber lain. Mereka membandingkan berbagai teknik untuk membangun representasi ruang yang divektorisasi
untuk bahasa Arab dan mengevaluasinya menggunakan tugas kesamaan kata standar dalam bahasa Arab. Mereka juga
mengevaluasinya dalam dua tugas:
Tujuan utama dari pekerjaan ini adalah untuk menyediakan model representasi kata terdistribusi yang efisien untuk berbagai
tugas NLP di domain teks yang berbeda. Untuk mencapai tujuan ini, kami telah memutuskan untuk mengumpulkan data untuk
membangun berbagai model representasi kata terdistribusi dari tiga sumber data yang berbeda yaitu: Twitter, World Wide Web, dan
Wikipedia. Alasan pengumpulan data ini serta langkah-langkah yang diambil untuk mengumpulkan data dari masing-masing sumber
dirinci dalam subbagian berikut.
3.1.1. Twitter
Banyak peneliti NLP baru-baru ini yang menargetkan analisis dan aplikasi media sosial telah menggunakan Twitter sebagai sumber data
utama untuk melaksanakan pekerjaan mereka. Hal ini dapat disebabkan oleh sejumlah alasan termasuk fakta bahwa Twitter dapat dengan
mudah ditanyakan dalam jangka waktu tertentu. Faktor lain terkait dengan fakta bahwa tweet sering diberi tag
dengan lokasi geografis, memiliki informasi pengguna dan banyak alat yang tersedia untuk melakukan penurunan topik dan sentimen
darinya.
Ketika membahas bahasa Arab dalam konteks media sosial, kita dapat mengklaim bahwa kita menghadapi banyak domain
linguistik yang berbeda; bukan hanya satu. Hal ini sebagian besar disebabkan oleh fakta bahwa pengguna media sosial
mengekspresikan diri mereka menggunakan berbagai dialek dan subdialek. Contohnya meliputi: Bahasa Arab Standar Modern (MSA
)ﻓﺼﺤﻰ, dialek Mesir atau lebih khusus lagi dialek Kairene, Teluk, Maroko, Tunisia, Aljazair, dan Levantine. Menangkap sebanyak
mungkin domain linguistik ini dalam konteks interaksi sosial sehari-hari adalah salah satu motivasi utama untuk menciptakan model
representasi kata menggunakan tweet.
Untuk mendapatkan akses ke tweet yang lebih luas dibandingkan yang disediakan oleh API Twitter standar, kami merancang crawler
untuk mengumpulkan tweet. Perayap sepenuhnya mematuhi aturan3yang menentukan apa yang dapat ditanyakan dari Twitter. Perayap
digunakan untuk menanyakan twitter berdasarkan dua parameter utama: (1) bahasa yang disetel ke bahasa Arab dan (2) rentang waktu untuk
melakukan pencarian. Lebih dari 2.100 permintaan pencarian digunakan untuk mengumpulkan kumpulan data twitter akhir kami. Pada
akhirnya kami mengumpulkan lebih dari 77.600.000 tweet berbahasa Arab yang diposting antara tahun 2008 dan 2016 yang diperoleh dari
berbagai lokasi geografis acak.
3.1.3. Wikipedia
Wikipedia8adalah ensiklopedia yang ditulis secara kolaboratif oleh pengguna di seluruh dunia. Sebagai sumber daya, ia
menyediakan lebih dari 45 juta artikel berkategori yang menargetkan 285 bahasa termasuk bahasa Arab. Bahasa Arab adalah
bahasa Semit pertama yang melebihi 100.000 artikel di Wikipedia. Bagian berbahasa Arab di Wikipedia kini memiliki lebih dari
5http://www.internetworldstats.com/stats19.htm
6http://www.internetworldstats.com/stats5.htm
7http://commoncrawl.org
8https://www.wikipedia.org
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 259
520.000 artikel9. Sebagai proyek sumber terbuka yang dilisensikan di bawah Lisensi Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA),
Wikipedia menyediakan salinan gratis dari basis datanya untuk digunakan dalam berbagai tujuan. Untuk membangun model kami dari
Wikipedia, kami mengunduh dump berbahasa Arab tertanggal Januari 2017. Setelah mengelompokkan artikel menjadi beberapa paragraf,
kami mendapatkan 1.800.000 paragraf, masing-masing mewakili dokumen yang akan digunakan untuk membangun model kami.
Pemrosesan awal teks merupakan langkah penting dalam membangun model penyematan kata apa pun karena berpotensi
memengaruhi hasil akhir secara signifikan. Pada sub-bagian berikut, langkah-langkah pra-pemrosesan utama yang digunakan
dijelaskan.
3.2.2. Normalisasi
Normalisasi karakter Arab merupakan langkah preprocessing yang umum dilakukan ketika berhadapan dengan teks
Arab. Pada langkah ini, huruf ““ﺇ,” ”ﺃdan “ ”ﺁdiganti dengan “ ”ﺍsedangkan huruf “ ”ﺓdiganti dengan “”ﻩ, dan huruf “ ”ﻯdiganti
dengan “”ﻱ. Diakritik juga dihilangkan pada langkah ini. Pada langkah ini kami juga menormalkan mention, URL, emoji dan
emoticon. Penyebutan dinormalisasi dengan mengganti teksnya dengan satu kata Arab non-standar seperti “”ﺣﺴﺎﺑﺸﺨﺼﻲ.
URL dinormalisasi dengan cara yang sama (istilah yang digunakan untuk menggantikan URL adalah “)”ﺭﺍﺑﻄﻮﻳﺐ. Demikian
pula emoji atau emotikon positif diganti dengan istilah “ ”ﺍﻳﻤﻮﺷﻨﻤﻮﺟﺐsedangkan emoji/emotikon negatif diganti dengan “
”ﺍﻳﻤﻮﺷﻨﺴﺎﻟﺐ. Selain itu, kata-kata yang memanjang diubah kembali ke bentuk aslinya (contoh “ ”ﺳﺎﻻﺍﺍﺍﻡakan diubah menjadi “
)”ﺳﺎﻟﻢ.
9https://en.wikipedia.org/wiki/List_of_Wikipedias
10https://pypi.python.org/pypi/langdetect?
260 Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265
4. Penyematan Kata
4.1. Teknik
Model ruang vektor (VSM) adalah salah satu skema representasi teks tertua dan paling terkenal. Secara tradisional, model ruang vektor terutama digunakan untuk representasi dokumen,
dengan karya-karya terbaru yang memperluas model ini ke representasi kata atau istilah. Dalam karya terbaru tersebut, kata-kata direpresentasikan dalam ruang kontinu di mana kata-kata yang
serupa secara semantik memiliki ukuran kemiripan yang tinggi dalam ruang tersebut. VSM mengandalkan 'Hipotesis Distribusi'11, yang menyatakan bahwa kata-kata yang muncul dalam konteks yang
sama cenderung mempunyai arti yang serupa. Dua pendekatan utama untuk membangun representasi ini adalah: pendekatan berbasis hitungan dan metode prediktif. Pendekatan berbasis hitungan
menghitung statistik kemunculan bersama antar kata, lalu memetakan statistik ini ke dalam vektor padat untuk setiap kata. Metode prediksi mencoba memprediksi sebuah kata dari tetangganya
dalam bentuk vektor padat yang dipelajari untuk setiap kata. Istilah “word embeddings” pertama kali diciptakan oleh Bengio et al. [11] . Model yang mereka usulkan didasarkan pada gagasan untuk
memperoleh nilai vektor kata atau embeddings dengan melatih model bahasa saraf. Pada tahun 2008, Collobert dan Weston [12] mendemonstrasikan penyematan kata sebagai alat yang efektif
dalam banyak tugas hilir. Itu adalah Mikolov dkk. [13] yang membawa ide ini ke garis depan penelitian dan berkontribusi terhadap penggunaannya secara luas melalui pembuatan toolkit Word2Vec
yang dapat dengan mudah digunakan dan disesuaikan untuk menghasilkan embeddings. Mikolov dkk. [13], mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam
ruang vektor multidimensi yaitu model continuous bag-of-words (CBOW) dan model skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu
konteks dengan mempertimbangkan kata-kata lain dalam konteks tersebut tanpa memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk
memprediksi konteks kata di sekitarnya berdasarkan kata utama. mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam ruang vektor multidimensi yaitu model
continuous bag-of-words (CBOW) dan model skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu konteks dengan mempertimbangkan
kata-kata lain dalam konteks tersebut tanpa memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk memprediksi konteks kata di sekitarnya
berdasarkan kata utama. mengusulkan dua arsitektur model berbeda untuk merepresentasikan kata-kata dalam ruang vektor multidimensi yaitu model continuous bag-of-words (CBOW) dan model
skip-gram. Model CBOW bertujuan untuk mempelajari embeddings dengan memprediksi kata tengah dalam suatu konteks dengan mempertimbangkan kata-kata lain dalam konteks tersebut tanpa
memperhatikan urutannya dalam kalimat. Model Skip-Gram adalah kebalikan dari CBOW karena bertujuan untuk memprediksi konteks kata di sekitarnya berdasarkan kata utama.
Model yang kami buat dibuat menggunakan Gensim12alat yang dikembangkan oleh Radim Rehurek [14], yang
merupakan toolkit efisien yang dibuat untuk menangani banyak tugas umum NLP dan mencakup implementasi
untuk model Word2Vec.
AraVec menyediakan enam model penyematan kata yang berbeda, di mana setiap domain teks (Tweets, WWW, dan Wikipedia) memiliki
dua model berbeda; satu dibangun menggunakan teknik CBOW dan yang lainnya menggunakan teknik Skip-Gram. Untuk membangun model
ini, kami menjalankan serangkaian eksperimen besar untuk menyesuaikan hyperparameter (jumlah minimum, ukuran jendela, . Untuk jumlah
kata minimum, kami memperhatikan bahwa ambang batas yang rendah, misalnya 5, menghasilkan peningkatan ukuran kosakata tanpa
menambah banyak kata nilai ke model. Oleh karena itu, kami telah menetapkan nilai ini ke 20 untuk korpus Wikipedia. Namun, kami melihat
bahwa ada masalah umum yang dihadapi untuk kumpulan data Twitter dan Common Crawl, yaitu terjadinya kata-kata yang salah eja dengan
frekuensi tinggi karena dengan besarnya corpora.Untuk mengatasi permasalahan tersebut, kami
11https://en.wikipedia.org/wiki/Distributional_semantics#Distributional_hypothesis
12https://radimrehurek.com/gensim/about.html
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 261
atur nilai hitungan minimum menjadi 500 untuk kedua kumpulan data. Sehubungan dengan ukuran jendela kami menggunakan ukuran
jendela kecil 3 untuk Twitter karena panjang maksimal sebuah tweet adalah 140 karakter. Kami meningkatkannya menjadi 5 untuk kumpulan
data Wikipedia dan Common Crawl karena paragraf di keduanya lebih panjang. Semua model yang dihasilkan memiliki dimensi vektor 300.
Model Wikipedia memerlukan waktu 10 jam untuk dilatih pada PC Quad core Intel i7-3770 @3,4 GHz dengan RAM 32 GB yang menjalankan Ubuntu 16.04,
sedangkan model Twitter memerlukan waktu 1,5 hari untuk dilatih dan Common Crawl memerlukan waktu 4 hari. Tabel 1, menunjukkan hyperparameter
yang digunakan untuk setiap model dan ukuran korpus yang digunakan.
Twt-CBOW CBOW
66.9 1090 500 3
Twt-SG Lewati-gram
WWW-CBOW CBOW
132.7 2225.3 500 5
WWW-SG Lewati-gram
Wiki-CBOW CBOW
1.8 78.9 20 5
Wiki-SG Lewati-gram
5. Evaluasi
Untuk mengevaluasi model yang dihasilkan, kami menggunakan metode kualitatif dan kuantitatif yang masing-masing
disajikan pada subbagian berikut.
Tujuan melakukan evaluasi kualitatif pada model kami adalah untuk menguji seberapa baik model tersebut menangkap kesamaan antar
kata. Untuk melakukannya, kami menggunakan vektor kata untuk sebagian kecil kata sentimen dan menerapkan algoritme pengelompokan
untuk melihat apakah kata-kata dengan polaritas yang sama berkumpul atau tidak. Kami melakukan hal yang sama dengan sekumpulan
entitas bernama yang dipilih secara acak dari tipe yang diketahui. Masing-masing tugas tersebut dijelaskan lebih rinci pada subbagian berikut.
Untuk mengevaluasi model secara kuantitatif, kami menggunakan Tugas Kesamaan Tekstual Semantik SemEval-2017 113yang bertujuan
untuk mengukur derajat kesetaraan antar cuplikan teks berpasangan. SemEval menyempurnakan subtugas 2017 dengan menyediakan
kumpulan data berbahasa Arab untuk tugas ini. Data pengujian untuk bahasa Arab hanya memiliki 250 pasang cuplikan dan tantangannya
adalah memprediksi kemungkinan kesamaan kedua cuplikan tersebut. Tujuan kami bukan untuk menyelesaikan tugas ini sepenuhnya,
melainkan untuk menunjukkan bahwa hanya dengan menggunakan model penyematan kata yang baik, kami dapat memperoleh skor dasar
yang wajar untuk tugas tersebut. Untuk melakukannya, kami telah menghitung vektor untuk semua cuplikan dengan mengambil rata-rata
vektor untuk kata-kata dalam cuplikan setelah mengalikan setiap vektor dengan nilai TF–IDF (Frekuensi Istilah – Frekuensi Dokumen Terbalik14
). Kemudian kami menghitung kesamaan kosinus antara vektor dari masing-masing dua cuplikan untuk memperkirakan probabilitas
kesamaan tekstual. Kami kemudian menggunakan alat evaluasi resmi15untuk mengevaluasi setiap model seperti yang ditunjukkan pada Tabel
6. Hasilnya menunjukkan bahwa pendekatan yang sangat naif ini memberikan hasil yang sebanding dengan skor rata-rata kompetisi; hal ini
dicapai dengan rekayasa fitur apa pun atau pemanfaatan model pembelajaran mesin yang kompleks
Twt-SG 0,58459
WWW-CBOW 0,57268
WWW-SG 0,56135
Wiki-CBOW 0,52842
Wiki-SG 0,54533
Dalam makalah ini, kami telah menyajikan bagaimana kami membangun 6 model penyematan kata yang berbeda untuk bahasa Arab
menggunakan tiga sumber berbeda: data perayapan halaman web Wikipedia, Twitter, dan Common Crawl. Kami telah menyediakan dua
model untuk setiap sumber daya; satu berdasarkan kumpulan kata Berkelanjutan dan satu lagi berdasarkan model Skip-gram. Kami telah
mengevaluasi model kami menggunakan ukuran kualitatif dan kuantitatif pada beberapa tugas untuk menunjukkan kemampuannya dalam
menangkap kesamaan antar kata. Kami percaya bahwa model terlatih ini dapat digunakan oleh peneliti lain di bidang NLP untuk
meningkatkan kinerja berbagai tugas NLP.
Di masa depan, kami ingin bereksperimen dengan penyematan tingkat karakter serta menerapkan model ini untuk
menyempurnakan banyak masalah yang telah kami bahas sebelumnya, di antaranya adalah analisis sentimen bahasa Arab dan
pengenalan entitas bernama.
Referensi
[1] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu dan B. Qin, “Mempelajari Penyematan Kata Khusus Sentimen untuk Klasifikasi
Sentimen Twitter.,” diACL (1), 2014.
[2] SK Siencnik, “Mengadaptasi word2vec ke Pengenalan Entitas Bernama,” diNODALIDA, 2015.
[3] C.-C. Lin, W. Ammar, C. Dyer dan L. Levin, “Induksi pos tanpa pengawasan dengan penyematan kata,”arXiv pracetak arXiv:1503.06760,2015.
13http://alt.qcri.org/semeval2017/task1/
14https://en.wikipedia.org/wiki/Tf%E2%80%93idf
15http://alt.qcri.org/semeval2017/task1/data/uploads/sts2017-trial-data.zip
Abu Bakar Soliman dkk. / Procedia Ilmu Komputer 117 (2017) 256–265 265
[4] X. Ma dan E. Hovy, “Pelabelan Urutan Ujung ke Ujung melalui LSTM-CNNs-CRF Dua Arah,” diProsiding Pertemuan Tahunan ke-54
Asosiasi Linguistik Komputasi (Volume 1: Makalah Panjang),Berlin, 2016.
[5] R. Al-Rfou, B. Perozzi dan S. Skiena, “Polyglot: Representasi kata terdistribusi untuk nlp multibahasa,”arXiv pracetak arXiv:1307.1662,
2013.
[6] R. Soricut dan FJ Och, “Induksi Morfologi Tanpa Pengawasan Menggunakan Penyematan Kata.,” diHLT-NAACL, 2015.
[7] R.ea Parker, “Arabic Gigaword Edisi Kelima LDC2011T11,” Unduhan Web. Philadelphia: Konsorsium Data Linguistik, 2011.
[8] A. Zirikly dan MT Diab, “Pengakuan Entitas Bernama untuk Media Sosial Arab.,” diVS@ HLT-NAACL, 2015.
[9] K. Darwish, “Pengenalan Entitas Bernama menggunakan Sumber Daya Lintas Bahasa: Bahasa Arab sebagai Contoh,” diProsiding Pertemuan Tahunan
ke-51 Asosiasi Linguistik Komputasi (Volume 1: Makalah Panjang), Sofia, 2013.
[10] MA Zahran, A. Maggooda, AY Mahgoub, H. Raafat, M. Rashwan dan A. Atyia, “Representasi Kata dalam Ruang Vektor dan Penerapannya dalam
Bahasa Arab,” dalamLinguistik Komputasi dan Pemrosesan Teks Cerdas: Konferensi Internasional ke-16, CICLing 2015, Kairo, Mesir, 14-20
April 2015, Prosiding, Bagian I, A. Gelbukh, Ed., Cham, : Springer International Publishing, 2015, hlm.430-443.
[11] Y. Bengio, R. Ducharme, P. Vincent dan C. Janvin, “Model Bahasa Neural Probabilistik,”J.Mach. Mempelajari. Res.,jilid. 3, hal.1137-1155,
# Maret# 2003.
[12] R. Collobert dan J. Weston, “Arsitektur Terpadu untuk Pemrosesan Bahasa Alami: Jaringan Syaraf Dalam dengan Pembelajaran Multitask,” dalam
Prosiding Konferensi Internasional ke-25 tentang Pembelajaran Mesin, New York, NY, AS, 2008.
[13] T. Mikolov, K. Chen, G. Corrado dan J. Dean, “Estimasi representasi kata yang efisien dalam ruang vektor,”arXiv pracetak
arXiv:1301.3781,2013.
[14] R. Rehurek dan P. Sojka, “Kerangka perangkat lunak untuk pemodelan topik dengan corpora besar,” diDalam Prosiding Lokakarya LREC 2010 tentang
Tantangan Baru untuk Kerangka NLP, 2010.
[15] D.Ulyanov,Muticore-TSNE,GitHub, 2016.
[16] CR García-Alonso, LM Pérez-Naranjo dan JC Fernández-Caballero, “Algoritma evolusioner multiobjektif untuk mengidentifikasi area yang sangat
autokorelasi: kasus distribusi spasial di pertanian yang mengalami kompromi finansial,”Sejarah Riset Operasi,jilid. 219, hlm. 187-202, Agustus
2014.
[17] CO Alm, D. Roth dan R. Sproat, “Emosi dari Teks: Pembelajaran Mesin untuk Prediksi Emosi Berbasis Teks,” diProsiding Konferensi
Teknologi Bahasa Manusia dan Metode Empiris dalam Pemrosesan Bahasa Alami, Stroudsburg, 2005.