Disusun oleh:
Syahroni Wahyu Iriananda (156060300111006)
C. PEMBAHASAN
1. Optimasi Parameter Model
Pada artikel ini menggunakan metode Stochastic Gradient Ascent [12] sebagai fungsi untuk mengoptimasi.
Seandainya G(w,j) mewakili konten yang dilingkari oleh dua tanda penjumlahan ganda dalam fungsi obyektif.
Sehingga perhitungan Xw disederhanakan menjadi rumus (8). Lw adalah node pada jalur di pohon Huffman. Sejauh ini,
kami telah mendapat pendekatan dilatih untuk menghasilkan pendekatan vektor proses kata (Word Vector Process).
2. Membangun Word Vector Model
Langkah-langkah dari pembangunan model vektor kata dalam makalah ini adalah sebagai berikut:
1) Dapatkan kata-kata membentuk teks latihan.
2) Dapatkan frekuensi kata, paraf vektor kata dan kemudian menempatkan mereka ke dalam tabel hash
3) Membangun pohon Huffman, dapatkan Huffman jalan pohon setiap kata.
4) Hapus kata frekuensi tinggi, mendapatkan vektor kata dan mengoptimalkan fungsi tujuan.
5) Hitung jumlah kata-kata yang terlatih dan memperbarui tingkat pembelajaran saat learning rate saat itu
adalah lebih besar dari 1000.
6) Simpan vektor kata
Untuk mengoptimalkan vektor kata [13], kita perlu menghitung . Untuk pengoperasian yang mudah,
kami menggunakan perhitungan perkiraan metode dalam tulisan ini. Selama proses pelatihan, ukuran tingkat belajar
memiliki dampak yang besar pada hasil tingkat konvergensi jaringan dan pelatihan. Jika nilainya terlalu kecil, tingkat
pelatihan rendah. Jika tinggi, dapat menyebabkan osilasi atau divergen [14]. Nilai learning rate ditetapkan 0.025 di
awal. Dalam rangka mengoptimalkan tingkat belajar, kami menyesuaikan tingkat belajar setelah pelatihan 1000
dengan rumus yang telah disesuaikan pada rumus (9). Formula untuk menghapus kata dengan frekuensi tinggi terdapat
pada rumus (10)
3. Menghitung Jarak Semantik
Kata jarak semantik adalah tingkat kata sesuai [15]. Dalam tulisan ini, jika jarak panjang, tingkat kata kesesuaian
tinggi; jika pendek, tingkat kata kesesuaian rendah. Langkah-langkah menghitung kata jarak semantik adalah sebagai
berikut:
1) Jalankan model dan dapatkan vektor kata dilatih.
2) Hitung jarak semantik. pertama kami dapatkan kata pusat dan vektor kata-kata mereka. Kemudian, kita
menghitung jarak antara kata pusat dan kata lain di perpustakaan kata melalui aturan Cosine.
Untuk meningkatkan kenyamanan menghitung jarak semantik, kita membuat vektor dibagi dengan panjang
vektor mereka, seperti yang ditunjukkan pada rumus (11) Kata Vektor direpresentasikan sebagai Va1, Va2, Va3, ...,
Van dan vektor kata B direpresentasikan sebagai (Vb1, Vb2, Vb3, ..., Vbn). Jadi rumus menghitung dari semantik
antara kata A dan kata B tertera pada rumus (12).
4. Perhitungan Nilai Kemiripan Teks Semantik
Makalah ini membahas perhitungan kemiripan teks semantik melalui vektor kata, kita menggunakan vektor kata
yang disebutkan di atas untuk menghitung kemiripan teks semantik. Pikiran utama menghitung kemiripan teks untuk
membandingkan kemiripan teks dengan menghitung kemiripan semantik kata fitur. Langkah-langkah dari algoritma
adalah sebagai berikut:
1) Dapatkan kosakata teks.
2) Statistik frekuensi kata dan tidak termasuk kata-kata frekuensi rendah.
3) Menghasilkan kata-kata fitur dipersiapkan untuk menghitung kemiripan.
Dan Setelah mendapatkan kata-kata fitur teks, kita menggunakan vektor kata untuk menghitung jarak antara
mereka. Dengan asumsi ambang (threshold) k, mendapatkan jumlah kata-kata yang lebih besar dari k. Pada akhirnya,
kita menggunakan rumus (13) untuk mendapatkan kemiripan teks. Langkah-langkah dari algoritma adalah sebagai
berikut:
1) Muat model vektor biner.
2) Dapatkan kata-kata fitur teks LA dan LB.
3) Gunakan rumus untuk menghitung kemiripan teks.
No Rumus Keterangan
(1) Model Jaringan Syaraf terdiri dari satu lapisan masukan,
lapisan proyeksi dan lapisan output. Untuk berbagai kata
di dalam korpus, didapatkan kata c ganda sebelum dan
sesudah kata w untuk membentuk konteks dari w,
Context(w) [9].
(2)
(3)
Lapisan output adalah Huffman Tree, yang terdiri dari bobot setiap kata di corpus. Leaf Node (Simpul Daun) sesuai
dengan kata kata dalam kamus. Jumlah simpul daun adalah sama dengan ukuran kamus. Cabang Pohon sebelah kiri
dicatat sebagai kategori negatif "1", dan Cabang Pohon sebelah kanan disebut kelas positif "0". Penulis berasumsi
setiap node memiliki coding "d", sehingga nilai "d" dapat menjadi "0" atau "1".
(4)
(5) Probabilitas yang menyatakan sebuah node
diklasifikasikan ke dalam kelas yang positif