Anda di halaman 1dari 10

Analisis dan Implementasi Word Embedding Untuk Pembentukan

Analogi Kata Menggunakan Metode Word2Vec pada Artikel


Wikipedia Bahasa Indonesia

Tugas Akhir
diajukan untuk memenuhi salah satu syarat
memperoleh gelar sarjana

dari Program Studi Teknik Informatika
Fakultas Informatika
Universitas Telkom

1301168003
Pratiwi Citra Safitri


Program Studi Sarjana Teknik Informatika


Fakultas Informatika

Universitas Telkom

Bandung

2018
LEMBAR PENGESAHAN

Analisis dan Implementasi Word Embedding Untuk Pembentukan Analogi Kata


Menggunakan Metode Word2Vec pada Artikel Wikipedia Bahasa Indonesia

Analysis and Implementation Word Embedding for Creation The Word Analogy Using
Word2Vec on Wikipedia Article of Indonesian Language

NIM : 1301168003
Pratiwi Citra Safitri

Tugas akhir ini telah diterima dan disahkan untuk memenuhi sebagian syarat memperoleh
gelar pada Program Studi Sarjana Teknik Informatika
Fakultas Informatika
Universitas Telkom

Bandung, 2 Juli 2018


Menyetujui

Pembimbing I, Pembimbing II,

Ibnu Asror, S.T., M.T. Dr. Moch. Arif Bijaksana,Ir.M.Tech.


NIP: 06840031 NIP: 03650029
Ketua Program Studi
Sarjana Teknik Informatika,

Said Al Faraby, S.T., M.Sc.


NIP: 15890019
LEMBAR PERNYATAAN

Dengan ini saya, Pratiwi Citra Safitri, menyatakan sesungguhnya bahwa Tugas Akhir saya
dengan judul ”Analisis dan Implementasi Word Embedding Untuk Pembentukan
Analogi Kata Menggunakan Metode Word2Vec pada Artikel Wikipedia Bahasa
Indonesia” beserta dengan seluruh isinya adalah merupakan hasil karya sendiri, dan saya
tidak melakukan penjiplakan yang tidak sesuai dengan etika keilmuan yang belaku dalam
masyarakat keilmuan. Saya siap menanggung resiko/sanksi yang diberikan jika di kemudian
hari ditemukan pelanggaran terhadap etika keilmuan dalam buku TA atau jika ada klaim
dari pihak lain terhadap keaslian karya,

Bandung, 2 Juli 2018


Yang Menyatakan

Pratiwi Citra Safitri


Analisis dan Implementasi Word Embedding Untuk Pembentukan Analogi Kata
Menggunakan Metode Word2Vec Pada Artikel Wikipedia Bahasa Indonesia

Pratiwi Citra Safitri1, Ibnu Asror2, Moch. Arif Bijaksana3


1,2,3
Fakultas Informatika, Universitas Telkom, Bandung
1
pratiwicitrasafitri@students.telkomuniversity.ac.id, 2iasror@telkomuniversity.ac.id,
3
arifbijaksana@telkomuniversity.ac.id

Abstrak
Word Embedding merupakan teknik representasi kata menjadi sebuah vektor real yang mewakili makna
dari suatu kata. Salah satu diantara teknik word embedding adalah model Word2Vec yang dipopulerkan
oleh Google. Hasil dari penerapan model Word2Vec ini berupa pre-trained model yang sering digunakan
dalam penyelesaian tugas-tugas terkait bidang NLP. Salah satu penerapannya adalah untuk pembentukan
analogi kata dengan menggunakan korpus artikel Wikipedia Bahasa Indonesia. Analogi kata dapat
terbentuk dengan melihat nilai vektor yang saling berdekatan atau dapat dikatakan memiliki kesamaan
semantik. Hasil dari penelitian ini menunjukkan bahwa untuk kasus analogi kata masih harus diperlukan
pengembangan penelitian. Karena hanya bebrapa kasus analogi kata yang sudah tepat. Sedangkan untuk
kasus kemunculan kedekatan kata sudah berfungsi baik, terutama pada contoh kata yang termasuk
kelompok nama kota. Tingkat korelasi kesamaan semantik yang dihasilkan dengan perbandingan gold
standart Simlex999 lebih unggul dengan skor 0.3671 daripada dibandingkan dengan gold standart
Wordsim353 yang hanya 0.3577.

Kata kunci : analogi kata, gold standart, NLP, semantik, word2Vec, vektor

Abstract
Word embedding is technique representation words into a vector real representing the meaning of a
word.One of technique word embedding is a model word2vec popularized by google.The result of the
application of model word2vec it will be pre-trained the model often used in the resolution of duties related
the field of nlp.One of the application is to the formation of analogy said using the corpus articles wikipedia
indonesian language.Analogy said can be formed with saw the value a vector that intense or it can be said
have in common semantic.The result of the research indicated that in the case of analogy said still have to
required development research. Because only some cases analogy a word was accurate.While in the case of
the proximity said have work well, especially on example a word including groups the name of the city. The
level of correlation in common of semantics that produced by comparison gold standard simlex999 superior
with a score of 0.3671 than compared with gold standard wordsim353 that only 0.3577

Keywords: word analogy , gold standart , NLP , semantic , word2vec , vector.

1. Pendahuluan
Akhir-akhir ini dalam dunia informatika, teknik word embedding menarik perhatian dalam penelitian.
Word embedding merupakan teknik representasi kata menjadi sebuah vektor real yang mewakili makna dari
suatu kata [1]. Vektor kata ini nantinya akan sangat bermanfaat pada penyelesaian tugas terkait bidang NLP
(Natural Language Processing) seperti analisis sentiment, name entity recognition, dan part of tagging
Namun word embedding lebih banyak diterapkan pada kata-kata Bahasa Inggris dan sedikit sekali yang
didedikasikan untuk bahasa lain seperti Bahasa Indonesia. Pada penelitian sebelumnya yang dilakukan oleh
Dosen Ilkom UPI dengan menerapkan word embedding pada artikel Bahasa Indonesia masih terdapat
kesalahan pada hasil penelitiannya yang menyatakan bahwa untuk kasus analogi kata masih tidak beraturan
(tidak sesuai pola) dalam beberapa iterasi. Kasus analogi kata minum : air = makan : ? menghasilkan kata air,
ceruk-ceruk, panorama, ceruk-ceruk, balangdaras [2]. Padahal secara logika manusia, hasil analogi yang benar
pada kata minum : air = makan : roti, nasi, telur. Analogi kata dapat terbentuk jika kata awal memiliki makna
yang sama (kedekatan semantik) dengan kata target. Semakin tinggi nilai semantiknya, berarti semakin tepat
pula pola naalogi kata yang terbentuk.
Hal inilah yang melatarbelakangi penulis untuk mealkukan penelitian terkait pembentukan analogi kata
pada artikel Wikipedia Bahasa Indonesia dengan menerapkan model Word2Vec. Yang mana model Word2Vec
dapat memeriksa dimensi vektor kata semantik sehingga dapat memprediksi kata-kata yang dengan dimesi
vektor serupa. Hail dari kesamaan semantik akan dilakukan uji tingkat korelasi kesamaam semantik dengan
membandingkan nilai pada pasangan kata di gold standart. Semakin nilai semantic mendekati angka 1, maka
semakin erat korelasi kesamaan semantiknya.
2. Studi Terkait
2.1 Word Embedding
Word embedding merupakan teknik model bahasa dan fitur pembelajaran dalam natural language
processing. Yang mana word embedding ini memetakan kata atau frasa dari vocabulary menjadi vektor
bilangan real. Teknik Word Embedding diperkenalkan oleh Bengio et al lebih dari 3 dekade.
W : kata → Rn merupakan fungsi parameter pemetaan kata untuk dimensi vektor tinggi(kira-kira 200-
500 dimensi)[3].
2.2 Word2Vec
Istilah Word2Vec adalah sebuah jaringan syaraf dua lapis yang memproses teks yang dipelopori oleh
Mikolov, Sutskever, Chen, Corrado, dan Dean pada tahun 2013 di Google Research. Input dari Word2Vec
ini adalah korpus teks dan outputnya berupa kumpulan vektor (vektor fitur untuk kata-kata di korpus itu).
Implementasi Word2Vec sangat baik pada kalimat parsing. Hal ini dapat diterapkan sama baiknya
rangkaian verbal atau simbolis lainnya yang mana pola dapat dilihat. Tujuan dan kegunaan Word2vec
adalah mengelompokkan vektor kata-kata yang serupa di dalam ruang vektor. Artinya, Word2vec
mendeteksi kemiripan secara matematis. Word2vec menciptakan vektor yang merepresentasi numerik
fitur kata, seperti konteks kata-kata individu. Dengan penggunaan data dan konteks yang cukup,
Word2Vec dapat membuat tebakan yang sangat akurat tentang makna kata berdasarkan kata sebelumnya.
Tebakan tersebut dapat digunakan untuk mendeteksi mendeteksi hubungan antara kata-kata atau analogi
kata. Word2Vec ini juga terbukti dapat membawa makna semantik [4].
2.2.1 Continuous Bag of Word (CBOW)
Continuous Bag of Word merupakan salah satu teknik dari Word2Vec yang mana mencoba
untuk memprediksi kata saat ini sesuai dengan konteks kecil di sekitar kata . Arsitektur model
CBOW ini mirip dengan NNLM(Neural Network Language Model). NNLM merupakan
komputasi dari antara proyeksi dan lapisan tersembunyi. Oleh karena itu, CBOW juga
mengusulkan arsitektur di mana lapisan tersembunyi dihapus dan lapisan proyek dibagi diantara
semua kata. Urutan kata dalam konteks tidak mempengaruhi proyeksi[3]. Pada skenario gambar
model CBOW ini, V adalah ukuran vocabulary dan N adalah ukuran lapisan tersembunyi.
Berikut adalah gambaran model CBOW [5].

Gambar 1. Model CBOW

2.2.2 Skip Gram


Arsitektur skip-gram adalah model yang berkebalikan dengan CBOW. Skip -gram memprediksi
konteks C diberikan masukan kata, di mana di CBOW memprediksi kata dari C. Pada dasarnya
tujuan pelatihan dari model skip-gram adalah untuk belajar representasi vektor kata yang baik
dalam memprediksi kata terdekat dalam konteks terkait. Untuk model skip-gram menggunakan
Wωi menunjukkan vektor input dari satu-satunya kata pada lapisan input, dan sebagai hasilnya
memiliki definisi sama dari lapisan tersembunyi h (hidden layer). Berikut adalah gambaran
model Skip Gram [6]
Gambar 2. Model Skip Gram
2.3 Neural Network
Ide mendasar dari Neural Network (NN) adalah mengadopsi mekanisme berpikir sebuah sistem atau
aplikasi yang menyerupai otak manusia, baik untuk pemrosesan berbagai sinyal elemen yang diterima,
toleransi terhadap kesalahan/error, dan juga paralel processing. Mereka melakukan kombinasi beberapa
processing unit sederhana bersama-sama yang mampu memberikan peningkatan secara keseluruhan pada
kekuatan komputasi. Hal ini dilanjutkan pada penelitian yang dikerjakan oleh Rosenblatt pada tahun
1950, dimana dia berhasil menemukan sebuah two layer network, yang disebut sebagai perceptron.
Perceptron memungkinkan untuk pekerjaan klasifikasi pembelajaran tertentu dengan penambahan bobot
pada setiap koneksi antar network. [7]

2.4 Cosine Similarity


Cosine similarity merupakan teknik untuk menghitung similarity (kesamaan) antara dua vektor yang
bukan nol yang mengukur cosinus sudut di antara sudut. Dua vektor dengan orientasi yang sama memiliki
cosine similarity 1, dua vektor berorientasi pada sudut 900 relatif terhadap yang lain yang mempunyai
kesamaan 0. Berikut adalah formula untuk menghitung cosine similarity
𝐴. 𝐵
similarity = cos (θ) = (1)
||𝐴|| ||𝐵||
2.5 Pearson Correlation
Pearson correlation merupakan ukuran korelasi yang digunakan untuk mengukur hubungan linier dua
variable. yang didefinisi kan sebagai covarians dari variabel dibagi dengan standar deviasinya. Berikut
adalah persamaan rumus pearson correlation.
𝑛𝛴𝑥𝑦 – (𝛴𝑥) (𝛴𝑦)
Pearson correlation (x,y) = . (2)
√{nΣx² – (Σx)²} {nΣy2 – (Σy)2}

3. Sistem yang Dibangun


3.1 Gambaran Umum Sistem
Sistem yang ingin dibangun oleh penulis melalui penelitian ini adalah untuk pembentukan analogi kata
dengan menerapkan teknik Word Embedding metode word2Vec pada artikel Wikipedia Bahasa Indonesia.
Analogi kata tersebut akan terbentuk dengan mengetahui kedekatan semantik kata. Untuk mengetahui
kedekatan semantik kata. Tahapan awal penulis adalah mempersiapkan dataset (artikel Wikipedia Bahasa
Indonesia) yang kemudian dataset tersebut dilakukan preprocessing untuk normalisasi konten teks artikel
Wikipedia Bahasa Indonesia. Selanjutnya teks akan di training dengan menerapkan metode Word2vec.
Setelah melalui proses training, maka akan dihasilkan vektor kata yang dapat menentukan kedekatan
semantik. Tahapan terakhir adalah dilakukan perhitungan korelasi kedekatan semantik sistem yang akan
dibandingkan dengan skor kedekatan semantik di gold standart dengan menggunakan pearson
correlation. Berikut adalah gambaran sistem yang dibangun oleh penulis
Mulai

Artikel Wikipedia
Bahasa Indonesia

Ekstrak dokumen
dengan
WikiExtractor

Teks artikel
Wikipedia

Preprocessing

Kumpulan
vocabulary

Training data

Model Skip Gram Model CBOW

Vektor
dimensi

Proses Reduce
Dimensionality

Vektor di bidang
kartesius

Menghitung kesamaan
semantic dengan
cosine similarity

Komparasi semantic
Data Gold
similarity dengan
Standart
gold standart

Nilai similarity
yang sudah di
normalisasi

Menghitung
korelasi

Skor
korelasi

Selesai

3.2 Pengumpulan Data


Data yang digunakan penulis untuk penelitian terbagi menjadi 2 jenis yaitu dataset artikel Wikipedia
Bahasa Indonesia dan dataset gold standart. Data set artikel Wikipedia Bahasa Indonesia diperoleh
penulis melalui dumps.wikimedia.org/idwiki/latest/ pada tanggal 3 Maret 2018 dengan ukuran 452.93
MB dalam format rar atau 463.806 KB. Setelah melalui proses menghilangkan tag tag xml dan cite
refrence pada seluruh artikel, ukuran artikel wikipedia menjadi 429 MB dengan jumlah kalimat sebanyak
2.500.000 dan jumlah kosa kata sebanyak 306.058. Sedangkan data set gold standart didapatkan dengan
download

3.3 Rancangan Sistem


3.3.1 Ekstraksi Dokumen Wikipedia Bahasa Indoesia
Dokumen Wikipedia Bahasa Indonesia yang sudah di download melalui
dumps.wikimedia.org/idwiki/latest/ akan dilakukan ekstraksi dengan tujuan untuk
membersihkan tag-tag xml dan cite reference dengan bantuan WikiExtractor menggunakan
python yang memakan waktu selama kurang lebih 1 jam. Output dari ekstrak ini adalah dokumen
di split menjadi beberapa file.

3.3.2 Preprocessing
Setelah dokumen Wikipedia di ekstraksi, maka tahap selanjutnya adalah preprocessing.
Preprocessing dilakukan dengan tujuan untuk menormalisasi konten teks yag diperlukan saja.
Tahap preprocessing pada penelitian ini meliputi tokenisasi, case folding dan punctuation
removal dengan menggunakan library punkt NLTK
Berikut adalah hasil dari proses tokenisasi, case folding dan punctuation removal
Sebelum tokenisasi Sesudah tokenisasi
DNA merupakan sebuah polimer yang terdiri ‘DNA’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘-‘ , ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,
‘.’
Sebelum case folding Sesudah case folding
DNA merupakan sebuah polimer yang terdiri ‘dna’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘-‘ , ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,
‘.’
Sebelum punctuation removal Sesudah punctuation removal
DNA merupakan sebuah polimer yang terdiri ‘DNA’, ‘merupakan’, ‘sebuah’, ‘polimer’,
dari satuan-satuan berulang yang disebut ‘yang’, ‘terdiri’, ‘dari, ‘satuan’, ‘satuan’,
nukleotida. ‘berualang’, ‘yang’, ‘disebut’, ‘nukleotida’,

3.3.3 Proses Training


Setelah data set di preprocessig, maka selanjutnya dilakukan proses training data dengan
menerapkan metode Word2Vec model Skip gram yang berlangsung selama 3 hari dua malam
untuk merepresentasikan kata menjadi vektor. Selain melakukan training data model Skip gram,
juga dilakukan proses training dengan menrapkan model CBOW yang berlangsung selama 3
hari. Setelah vektor dihasilkan, maka dilakukan reduce dimensionality untuk mengetahui
koordinat titik x dan koordinat di titik y sehingga gambar vektor dapat ditampilkan.

3.3.4 Menghitung Kesamaan Semantik


Untuk menghitung kesamaan semantik pada data yang sudah selesai di training yaitu dengan
menerapkan teknik cosine similarity.

3.3.5 Menghitung Tingkat Korelasi


Setelah nilai kesamaan sistem semantik pada sistem dihasilkan, maka tahap terakhir yaitu
mengukur tingkat korelasi semantik sistem dengan berpedoman pada dataset gold standart
wordsim335 dan simlex999.
4. Evaluasi

4.1 Hasil Pengujian


Setelah melakukan penelitian, berikut adalah hasil yang didapatkan oleh penulis.
a. Hasil pembentukan analogi kata
Analogi kata target yag dihasilkan dengan penerapan model Word2Vec metode Skip Gram adalah sebagai
berikut
No. Analogi Kata Vektor
1. makan : roti = minum : soda (-17.54, -3.08) : (-18.52, -1.93) = (-17.97, -2.86) : (-18.23, -2.45)
2. makan : kurma = minum : teh (-17.54, -3.08) : (-19.63, -0.47) = (-17.97, -2.86) : (-18.39, -1.96)
3. makan:tempe = minum : susu (-17.54, -3.08) : (-19.66, -0.77) = (-17.97, -2.86) : (-18.73,-2.61)
4. makan : tahu = minum : air (-17.54, -3.08) : (6.05, -11.37) = (-17.97, -2.86) : (23.09, 3.91)
5. mobil:bensin = manusia: (8.40, -14.53) : (21.17, 4.60) = (12.27, -7.27) : (-17.54, -3.08)
makan
6. mobil:bensin = (8.40, -14.53) : (21.17, 4.60) = (12.27, -7.27) : (0.31, 5.45)
manusia:makhluk
7. bawang:siung = telur : tepung (-19.93, -0.75) : (-13.51,18.66) = (29.80, -5.11) : (-19.63, -1.85)
8. bawang:siung = telur : butir (-19.93, -0.75) : (-13.51,18.66) = (29.80, -5.11) : (13.09, -0.006)

Analogi kata target yag dihasilkan dengan penerapan model Word2Vec metode CBOW adalah sebagai
berikut
No. Analogi Kata Vektor
1. makan : roti = minum : soda (-20.69, -3.08) : (-19.67, 19.88) = (-2.21, 1.93) : (-19.97, 1.94)
2. makan : kurma = minum : teh (-20.69, -3.08) : (-16.08, 1.98) = (-2.21, 1.93) : (-18.37, 1.98)
3. makan:tempe = minum : susu (-20.69, -3.08) : (-18.12, 1.99) = (-2.21, 1.93) : (-19.24, 19.89)
4. makan : tahu = minum : air (-20.69, -3.08) : (-6.23, -10.53) = (-2.21, 1.93) : (-4.94, 19.59)
5. mobil:bensin = manusia: (-14.84, -637.51) : (17.77, 2.06) = (-9.91, -59.67) : (-20.69, -3.08)
makan
6. mobil:bensin = (8.40, -14.53) : (17.77, 2.06) = (-9.91, -59.67) : (-10.07, -5.85)
manusia:makhluk
7. bawang:siung = telur : tepung (-17.70, 20.03) : (-8.20, 15.62) = (-4.85, 20.84) : (-1.95, 19.96)
8. bawang:siung = telur : butir (-17.70, 20.03) : (-8.20, 15.62) = (-4.85, 20.84) : (-327.54, 20.28)

b. Hasil kemunculan kesamaan kata


Terdapat beberapa kemiripan kata yang berdekatan terhadap input dari suatu kata seperti berikut
Kata Kata terdekat yang muncul
Semarang Surabaya (0.68), Purwokerto (0.65), Pekalongan (0.64), Salatiga (0.63), Magelang
(0.61), Surakarta (0.60), Yogyakarta (0.60), Banyumanik (0.59), Tembalang(0.60),
Tegal(0.59).
Bandung Bogor (0.71), Cimahi (0.63), Surabaya (0.60), Bekasi (0.60), Tasikmalaya (0.60),
Purwakarta (0.58), Malang (0.58), Depok (0.57), Sukabumi(0.57), Garut (0.57)
Air Airnya (0.63), mancur (0.58), debitnya (0.64), merasap (0.54), limpasan (0.54),
silancur (0.54), artesis (0.54), tawar (0.54), sedudo (0.54) , nokan (0.53).
Tempe Gembus (0.72) ,mendoan (0.67), alakatak (0.66), kedelai (0.64), rempeyek (0.63),
kerupuk (0.63), emping (0.63), bacem (0.63), bongkr (0.62), gejrot(0.62).
Raja Kerajaan (0.73), penguasa (0.64), ratunya (0.63), ayahandanya (0.60), takhta (0.63),
memerintah (0.62), rajanya (0.62), kastha (0.59), erisum (0.59), ratu (0.60)

c. Hasil tingkat korelasi semantik


Setelah nilai kesamaan semantik sistem dibandingkan dengan nilai pada gold standart, maka hasil
perhitungan tingkat korelasi semantik adalah sebagai berikut.
Korelasi terhadap gold standart Korelasi terhadap gold standart
(Wordsim 353) (Simlex 999)
0.3577 0.3671

4.2 Analisis Hasil Pengujian


Penelitian ini dilatarbelakangi oleh penelitian sebelumnya yang dilakukan oleh Pak Yudi Wibisono pada
tahun 2017 yang mana disebutkan bahwa analogi kata yang dihasilkan masih kurang tepat, seperti contoh hasil
penelitian sebelumnya adalah minum:air = makan: ? outputnya air, ceruk-ceruk, panoramanya,
bentuang,balangdaras. Sedangkan hasil yang penulis dapatkan adalah analogi makan:roti = minum: ? soda, teh,
susu, air.
Output analogi kata tersebut berdasarkan pada nilai vektor yang berdekatan dan mempunyai makna yang
berdekatan. Kata ”makan” mempunyai makna sama dengan kata “minum” yang ditunjukkan dengan nilai vektor
yang berdekatan (-17.54, -3.08) dan (-17.97, -2.86) begitu pula kata ”makan” dan kata “soda, teh, susu”
mempunyai nilai vektor yang berdekatan dengan kata ”makan” dan”minum” sebesar (-18.23, -2.45), (-18.39,
-1.96), (-18.73,-2.61). Kata-kata tersebut menunjukkan hubungan aktivitas dengan objek. Sedangkan pada hasil
analogi kata lainnya jika didasarkan aturan pola pembentukan padanan analogi kata verbal maka hasilnya masih
kurang tepat, karena berlainan nilai vektornya. Sedangkan untuk kasus semantik dalam menampilkan kata-kata
terdekat sudah tepat pada inputan kata “nama kota” seperti kata “semarang” , 10 kata yang berdekatan dengan kata
“semarang” akan muncul seperti kata surabaya, purwokerto, pekalongan, salatiga, magelang, Surakarta,
Yogjakarta, Banyumanik, Tembalang, Tegal. Namun pada inputan nama kota “Bandung” terdapat 2 kata yang
berdekatan yang masih kurang tepat seperti kata “Surabaya” dan “Malang”.
Sedangkan hasil korelasi yang dihitung menggunakan teknik pearson correlation masih tergolong rendah yaitu
sekitar 0.3577 untuk gold standard wordsim353 dan 0.3671 untuk simlex999. Hal ini dikarenakan masih terdapat
beberapa pasang kata yang nilai semantiknya 0 yang artinya tidak memiliki kesamaan semantik sama sekali.

5. Kesimpulan
Berdasarkan evaluasi terhadap hasil penelitian yang sudah dijelaskan pada bagian sebelumnya, maka
diperoleh kesimpulan seperti berikut :
1. Hasil analogi kata yang dihasilkan oleh sistem tergantung pada nilai vector yang saling berdekatan, maka
berbeda pula dengan pola padanan analogi kata yang sering digunakan pada tes analogi verbal.
2. Untuk kedekatan suatu kata, teknik Word2Vec sudah bisa dikatakan baik terutama pada kata nama suatu
kota, namun masih memungkinkan terdapat bebrapa kata yang seharusnya tidak muncul dalam suatu
kelompok kata tertentu.
3. Tingkat korelasi yang dibandingkan dengan gold standard Simlex 999 lebih tinggi daripada tingkat
korelasi yang dibandingkan dengan gold standard Wordsim 353.

Untuk pengembangan penelitian selanjutnya, dapat menggunakan dataset dengan jumlah yang sangat besar
untuk menambah kumpulan vocabulary, sehingga dapat mempengaruhi kualitas nilai vektor yang dihasilkan.
Selain itu bisa juga dengan memperhatikan faktor-faktor yang mempengaruhi proses training data seperti
ukuran dimensi vektornya dan juga melakukan beberapa pendekatan untuk upaya meningkatkan hasil korelasi
kesamaan semantik.

Anda mungkin juga menyukai