Tugas Akhir
diajukan untuk memenuhi salah satu syarat
memperoleh gelar sarjana
dari Program Studi Teknik Informatika
Fakultas Informatika
Universitas Telkom
1301168003
Pratiwi Citra Safitri
Analysis and Implementation Word Embedding for Creation The Word Analogy Using
Word2Vec on Wikipedia Article of Indonesian Language
NIM : 1301168003
Pratiwi Citra Safitri
Tugas akhir ini telah diterima dan disahkan untuk memenuhi sebagian syarat memperoleh
gelar pada Program Studi Sarjana Teknik Informatika
Fakultas Informatika
Universitas Telkom
Dengan ini saya, Pratiwi Citra Safitri, menyatakan sesungguhnya bahwa Tugas Akhir saya
dengan judul ”Analisis dan Implementasi Word Embedding Untuk Pembentukan
Analogi Kata Menggunakan Metode Word2Vec pada Artikel Wikipedia Bahasa
Indonesia” beserta dengan seluruh isinya adalah merupakan hasil karya sendiri, dan saya
tidak melakukan penjiplakan yang tidak sesuai dengan etika keilmuan yang belaku dalam
masyarakat keilmuan. Saya siap menanggung resiko/sanksi yang diberikan jika di kemudian
hari ditemukan pelanggaran terhadap etika keilmuan dalam buku TA atau jika ada klaim
dari pihak lain terhadap keaslian karya,
Abstrak
Word Embedding merupakan teknik representasi kata menjadi sebuah vektor real yang mewakili makna
dari suatu kata. Salah satu diantara teknik word embedding adalah model Word2Vec yang dipopulerkan
oleh Google. Hasil dari penerapan model Word2Vec ini berupa pre-trained model yang sering digunakan
dalam penyelesaian tugas-tugas terkait bidang NLP. Salah satu penerapannya adalah untuk pembentukan
analogi kata dengan menggunakan korpus artikel Wikipedia Bahasa Indonesia. Analogi kata dapat
terbentuk dengan melihat nilai vektor yang saling berdekatan atau dapat dikatakan memiliki kesamaan
semantik. Hasil dari penelitian ini menunjukkan bahwa untuk kasus analogi kata masih harus diperlukan
pengembangan penelitian. Karena hanya bebrapa kasus analogi kata yang sudah tepat. Sedangkan untuk
kasus kemunculan kedekatan kata sudah berfungsi baik, terutama pada contoh kata yang termasuk
kelompok nama kota. Tingkat korelasi kesamaan semantik yang dihasilkan dengan perbandingan gold
standart Simlex999 lebih unggul dengan skor 0.3671 daripada dibandingkan dengan gold standart
Wordsim353 yang hanya 0.3577.
Kata kunci : analogi kata, gold standart, NLP, semantik, word2Vec, vektor
Abstract
Word embedding is technique representation words into a vector real representing the meaning of a
word.One of technique word embedding is a model word2vec popularized by google.The result of the
application of model word2vec it will be pre-trained the model often used in the resolution of duties related
the field of nlp.One of the application is to the formation of analogy said using the corpus articles wikipedia
indonesian language.Analogy said can be formed with saw the value a vector that intense or it can be said
have in common semantic.The result of the research indicated that in the case of analogy said still have to
required development research. Because only some cases analogy a word was accurate.While in the case of
the proximity said have work well, especially on example a word including groups the name of the city. The
level of correlation in common of semantics that produced by comparison gold standard simlex999 superior
with a score of 0.3671 than compared with gold standard wordsim353 that only 0.3577
1. Pendahuluan
Akhir-akhir ini dalam dunia informatika, teknik word embedding menarik perhatian dalam penelitian.
Word embedding merupakan teknik representasi kata menjadi sebuah vektor real yang mewakili makna dari
suatu kata [1]. Vektor kata ini nantinya akan sangat bermanfaat pada penyelesaian tugas terkait bidang NLP
(Natural Language Processing) seperti analisis sentiment, name entity recognition, dan part of tagging
Namun word embedding lebih banyak diterapkan pada kata-kata Bahasa Inggris dan sedikit sekali yang
didedikasikan untuk bahasa lain seperti Bahasa Indonesia. Pada penelitian sebelumnya yang dilakukan oleh
Dosen Ilkom UPI dengan menerapkan word embedding pada artikel Bahasa Indonesia masih terdapat
kesalahan pada hasil penelitiannya yang menyatakan bahwa untuk kasus analogi kata masih tidak beraturan
(tidak sesuai pola) dalam beberapa iterasi. Kasus analogi kata minum : air = makan : ? menghasilkan kata air,
ceruk-ceruk, panorama, ceruk-ceruk, balangdaras [2]. Padahal secara logika manusia, hasil analogi yang benar
pada kata minum : air = makan : roti, nasi, telur. Analogi kata dapat terbentuk jika kata awal memiliki makna
yang sama (kedekatan semantik) dengan kata target. Semakin tinggi nilai semantiknya, berarti semakin tepat
pula pola naalogi kata yang terbentuk.
Hal inilah yang melatarbelakangi penulis untuk mealkukan penelitian terkait pembentukan analogi kata
pada artikel Wikipedia Bahasa Indonesia dengan menerapkan model Word2Vec. Yang mana model Word2Vec
dapat memeriksa dimensi vektor kata semantik sehingga dapat memprediksi kata-kata yang dengan dimesi
vektor serupa. Hail dari kesamaan semantik akan dilakukan uji tingkat korelasi kesamaam semantik dengan
membandingkan nilai pada pasangan kata di gold standart. Semakin nilai semantic mendekati angka 1, maka
semakin erat korelasi kesamaan semantiknya.
2. Studi Terkait
2.1 Word Embedding
Word embedding merupakan teknik model bahasa dan fitur pembelajaran dalam natural language
processing. Yang mana word embedding ini memetakan kata atau frasa dari vocabulary menjadi vektor
bilangan real. Teknik Word Embedding diperkenalkan oleh Bengio et al lebih dari 3 dekade.
W : kata → Rn merupakan fungsi parameter pemetaan kata untuk dimensi vektor tinggi(kira-kira 200-
500 dimensi)[3].
2.2 Word2Vec
Istilah Word2Vec adalah sebuah jaringan syaraf dua lapis yang memproses teks yang dipelopori oleh
Mikolov, Sutskever, Chen, Corrado, dan Dean pada tahun 2013 di Google Research. Input dari Word2Vec
ini adalah korpus teks dan outputnya berupa kumpulan vektor (vektor fitur untuk kata-kata di korpus itu).
Implementasi Word2Vec sangat baik pada kalimat parsing. Hal ini dapat diterapkan sama baiknya
rangkaian verbal atau simbolis lainnya yang mana pola dapat dilihat. Tujuan dan kegunaan Word2vec
adalah mengelompokkan vektor kata-kata yang serupa di dalam ruang vektor. Artinya, Word2vec
mendeteksi kemiripan secara matematis. Word2vec menciptakan vektor yang merepresentasi numerik
fitur kata, seperti konteks kata-kata individu. Dengan penggunaan data dan konteks yang cukup,
Word2Vec dapat membuat tebakan yang sangat akurat tentang makna kata berdasarkan kata sebelumnya.
Tebakan tersebut dapat digunakan untuk mendeteksi mendeteksi hubungan antara kata-kata atau analogi
kata. Word2Vec ini juga terbukti dapat membawa makna semantik [4].
2.2.1 Continuous Bag of Word (CBOW)
Continuous Bag of Word merupakan salah satu teknik dari Word2Vec yang mana mencoba
untuk memprediksi kata saat ini sesuai dengan konteks kecil di sekitar kata . Arsitektur model
CBOW ini mirip dengan NNLM(Neural Network Language Model). NNLM merupakan
komputasi dari antara proyeksi dan lapisan tersembunyi. Oleh karena itu, CBOW juga
mengusulkan arsitektur di mana lapisan tersembunyi dihapus dan lapisan proyek dibagi diantara
semua kata. Urutan kata dalam konteks tidak mempengaruhi proyeksi[3]. Pada skenario gambar
model CBOW ini, V adalah ukuran vocabulary dan N adalah ukuran lapisan tersembunyi.
Berikut adalah gambaran model CBOW [5].
Artikel Wikipedia
Bahasa Indonesia
Ekstrak dokumen
dengan
WikiExtractor
Teks artikel
Wikipedia
Preprocessing
Kumpulan
vocabulary
Training data
Vektor
dimensi
Proses Reduce
Dimensionality
Vektor di bidang
kartesius
Menghitung kesamaan
semantic dengan
cosine similarity
Komparasi semantic
Data Gold
similarity dengan
Standart
gold standart
Nilai similarity
yang sudah di
normalisasi
Menghitung
korelasi
Skor
korelasi
Selesai
3.3.2 Preprocessing
Setelah dokumen Wikipedia di ekstraksi, maka tahap selanjutnya adalah preprocessing.
Preprocessing dilakukan dengan tujuan untuk menormalisasi konten teks yag diperlukan saja.
Tahap preprocessing pada penelitian ini meliputi tokenisasi, case folding dan punctuation
removal dengan menggunakan library punkt NLTK
Berikut adalah hasil dari proses tokenisasi, case folding dan punctuation removal
Sebelum tokenisasi Sesudah tokenisasi
DNA merupakan sebuah polimer yang terdiri ‘DNA’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘-‘ , ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,
‘.’
Sebelum case folding Sesudah case folding
DNA merupakan sebuah polimer yang terdiri ‘dna’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘-‘ , ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,
‘.’
Sebelum punctuation removal Sesudah punctuation removal
DNA merupakan sebuah polimer yang terdiri ‘DNA’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,
Analogi kata target yag dihasilkan dengan penerapan model Word2Vec metode CBOW adalah sebagai
berikut
No. Analogi Kata Vektor
1. makan : roti = minum : soda (-20.69, -3.08) : (-19.67, 19.88) = (-2.21, 1.93) : (-19.97, 1.94)
2. makan : kurma = minum : teh (-20.69, -3.08) : (-16.08, 1.98) = (-2.21, 1.93) : (-18.37, 1.98)
3. makan:tempe = minum : susu (-20.69, -3.08) : (-18.12, 1.99) = (-2.21, 1.93) : (-19.24, 19.89)
4. makan : tahu = minum : air (-20.69, -3.08) : (-6.23, -10.53) = (-2.21, 1.93) : (-4.94, 19.59)
5. mobil:bensin = manusia: (-14.84, -637.51) : (17.77, 2.06) = (-9.91, -59.67) : (-20.69, -3.08)
makan
6. mobil:bensin = (8.40, -14.53) : (17.77, 2.06) = (-9.91, -59.67) : (-10.07, -5.85)
manusia:makhluk
7. bawang:siung = telur : tepung (-17.70, 20.03) : (-8.20, 15.62) = (-4.85, 20.84) : (-1.95, 19.96)
8. bawang:siung = telur : butir (-17.70, 20.03) : (-8.20, 15.62) = (-4.85, 20.84) : (-327.54, 20.28)
5. Kesimpulan
Berdasarkan evaluasi terhadap hasil penelitian yang sudah dijelaskan pada bagian sebelumnya, maka
diperoleh kesimpulan seperti berikut :
1. Hasil analogi kata yang dihasilkan oleh sistem tergantung pada nilai vector yang saling berdekatan, maka
berbeda pula dengan pola padanan analogi kata yang sering digunakan pada tes analogi verbal.
2. Untuk kedekatan suatu kata, teknik Word2Vec sudah bisa dikatakan baik terutama pada kata nama suatu
kota, namun masih memungkinkan terdapat bebrapa kata yang seharusnya tidak muncul dalam suatu
kelompok kata tertentu.
3. Tingkat korelasi yang dibandingkan dengan gold standard Simlex 999 lebih tinggi daripada tingkat
korelasi yang dibandingkan dengan gold standard Wordsim 353.
Untuk pengembangan penelitian selanjutnya, dapat menggunakan dataset dengan jumlah yang sangat besar
untuk menambah kumpulan vocabulary, sehingga dapat mempengaruhi kualitas nilai vektor yang dihasilkan.
Selain itu bisa juga dengan memperhatikan faktor-faktor yang mempengaruhi proses training data seperti
ukuran dimensi vektornya dan juga melakukan beberapa pendekatan untuk upaya meningkatkan hasil korelasi
kesamaan semantik.