Bab1
Bab1
Pendahuluan
1.1 Latar Belakang
Part of Speech Tagging (POS Tagging) merupakan proses penentuan tag
kelas kata pada bahasa tertentu. POS Tagging memiliki peranan penting dalam
Natural Language Processing (NLP) seperti word sense disambiguation, parsing,
question answering, machine translation, speech recognition, dan yang lainnya
yang memerlukan sistem POS Tagging. Saat ini, sistem POS Tagging untuk bahasa
Indonesia masih sedikit. Padahal, Bahasa Indonesia sudah diucapkan lebih dari 200
juta jiwa orang dan salah satu dari 10 besar bahasa yang paling banyak digunakan
orang di dunia. POS Tagging untuk bahasa Indonesia dapat diimplementasikan
dengan jenis kelas kata yang berlaku dan mendukung pekerjaan NLP yang
digunakan dalam pemrosesan awalnya serta memenuhi kebutuhan pengguna dalam
mengakses sistem ini.
Dalam beberapa tahun terakhir, banyak peneliti menggunakan berbagai
metode dalam mengimplementasikan sistem POS Tagging. Pada awalnya, metode
yang paling banyak digunakan adalah metode Rule Based, dimana peneliti bahasa
menyusun kumpulan aturan bahasa yang kemudian disandikan ke dalam bahasa
mesin. Namun metode ini masih kurang efisien karena membutuhkan usaha yang
besar serta lamanya waktu yang dibutuhkan dalam penyusunan aturan bahasa
tersebut. Metode statistik pun diciptakan yang menganut konsep probabilitas dalam
melakukan pendekatan tanpa training untuk menentukan tag kelas kata dari suatu
kata sehingga diharapkan usaha yang dibutuhkan lebih efisien dalam POS Tagging.
Salah satunya, yaitu Latent Descriptor Clustering dimana metode ini tidak
membutuhkan usaha yang besar dan waktu yang lama untuk implementasi data
dalam jumlah yang besar. Maka, pada Tugas Akhir ini, sistem menggunakan Latent
Descriptor Clustering untuk mengetahui tag kelas kata yang ditentukan
berdasarkan nilai probabilitas yang didapat secara otomatis dari proses pelatihan
yang dilakukan sistem berdasarkan data yang digunakan.
Latent Descriptor Clustering merupakan langkah iteratif yang terdapat
algoritma K-Means Clustering dan algoritma Expectation-Maximization. Algoritma
K-Means Clustering melakukan pendekatan dengan menentukan jumlah klaster
untuk menemukan kelas kata pada vektor latent deskriptor dengan meminimalkan
jumlah jarak intraklaster antara titik latent dengan pusat klaster. Sedangkan,
algoritma Expectation-Maximization adalah algoritma yang digunakan untuk
mencari dan menemukan nilai estimasi dari parameter yang diinputkan dalam
sebuah model probabilistik, dimana model tergantung pada variabel yang telah
ditentukan sebelumnya. Dengan metode tersebut, dapat ditunjukkan hasil akhir
akurasi tag kelas kata dengan pemberian tag kelas kata yang dicapai dari
pemrosesan yang terjadi.
1
Bagaimana performansi sistem dalam menghasilkan akurasi tag kelas kata
berdasarkan input parameter yang dihasilkan Latent Descriptor Clustering?
Dalam Tugas Akhir ini, yang dibahas adalah POS Tagging untuk bahasa
Indonesia dengan metode Latent Descriptor Clustering dengan batasan masalah
sebagai berikut:
Menggunakan 200.000 token pertama dari korpus “UI-1M-tagged.txt”
Permasalahan ambiguitas kata tidak diujikan dalam Tugas Akhir ini.
Hampir semua kata pada korpus bertipe lowercase.
Penentuan tag kelas kata secara manual yang digunakan sebagai bahan
evaluasi hanya diterjemahkan oleh penulis.
1.3 Tujuan
Berdasarkan pada masalah yang telah diidentifikasi diatas, maka tujuan
yang ingin dicapai dalam Tugas Akhir ini adalah:
Mengimplementasikan Part of Speech Tagging untuk bahasa Indonesia
dengan metode Latent Descriptor Clustering.
Menganalisis performansi sistem dalam menghasilkan akurasi tag kelas kata
berdasarkan input parameter yang dihasilkan Latent Descriptor Clustering.
1.4 Hipotesa
Latent Descriptor Clustering merupakan algoritma iteratif yang
dihubungkan dengan pemodelan probabilistik dalam menangani kasus data dengan
pencarian pola terlebih dahulu dengan algoritma K-Means Clustering yang
merupakan salah satu algoritma Partitional Clustering yang paling banyak
digunakan dalam melakukan klastering dan algoritma Expectation-Maximization
yang berguna dalam permasalahan mencari dan menemukan nilai estimasi dari
parameter masukan dalam model probabilistik. Pada awalnya, metode yang paling
banyak digunakan adalah metode Rule Based, dimana para ahli bahasa secara
manual menyusun kumpulan aturan bahasa yang kemudian disandikan ke dalam
bahasa mesin. Namun, metode ini kurang efisien karena membutuhkan usaha yang
besar dan waktu yang lama dalam proses penyusunan aturannya. Latent Descriptor
Clustering merupakan salah satu metode statistik yang memberikan nilai
probabilitas terbaik dalam menghasilkan akurasi tag kelas kata pada data yang
besar serta tidak membutuhkan usaha yang besar dan waktu yang lama dalam
memprosesnya.
2
Descriptor Clustering, K-Means Clustering, Expectation-Maximization
Algorithm.