Bab1

1.
Pendahuluan
1.1 Latar Belakang
Part of Speech Tagging (POS Tagging) merupakan proses penentuan tag
kelas kata pada bahasa tertentu. POS Tagging memiliki peranan penting dalam
Natural Language Processing (NLP) seperti word sense disambiguation, parsing,
question answering, machine translation, speech recognition, dan yang lainnya
yang memerlukan sistem POS Tagging. Saat ini, sistem POS Tagging untuk bahasa
Indonesia masih sedikit. Padahal, Bahasa Indonesia sudah diucapkan lebih dari 200
juta jiwa orang dan salah satu dari 10 besar bahasa yang paling banyak digunakan
orang di dunia. POS Tagging untuk bahasa Indonesia dapat diimplementasikan
dengan jenis kelas kata yang berlaku dan mendukung pekerjaan NLP yang
digunakan dalam pemrosesan awalnya serta memenuhi kebutuhan pengguna dalam
mengakses sistem ini.
Dalam beberapa tahun terakhir, banyak peneliti menggunakan berbagai
metode dalam mengimplementasikan sistem POS Tagging. Pada awalnya, metode
yang paling banyak digunakan adalah metode Rule Based, dimana peneliti bahasa
menyusun kumpulan aturan bahasa yang kemudian disandikan ke dalam bahasa
mesin. Namun metode ini masih kurang efisien karena membutuhkan usaha yang
besar serta lamanya waktu yang dibutuhkan dalam penyusunan aturan bahasa
tersebut. Metode statistik pun diciptakan yang menganut konsep probabilitas dalam
melakukan pendekatan tanpa training untuk menentukan tag kelas kata dari suatu
kata sehingga diharapkan usaha yang dibutuhkan lebih efisien dalam POS Tagging.
Salah satunya, yaitu Latent Descriptor Clustering dimana metode ini tidak
membutuhkan usaha yang besar dan waktu yang lama untuk implementasi data
dalam jumlah yang besar. Maka, pada Tugas Akhir ini, sistem menggunakan Latent
Descriptor Clustering untuk mengetahui tag kelas kata yang ditentukan
berdasarkan nilai probabilitas yang didapat secara otomatis dari proses pelatihan
yang dilakukan sistem berdasarkan data yang digunakan.
Latent Descriptor Clustering merupakan langkah iteratif yang terdapat
algoritma K-Means Clustering dan algoritma Expectation-Maximization. Algoritma
K-Means Clustering melakukan pendekatan dengan menentukan jumlah klaster
untuk menemukan kelas kata pada vektor latent deskriptor dengan meminimalkan
jumlah jarak intraklaster antara titik latent dengan pusat klaster. Sedangkan,
algoritma Expectation-Maximization adalah algoritma yang digunakan untuk
mencari dan menemukan nilai estimasi dari parameter yang diinputkan dalam
sebuah model probabilistik, dimana model tergantung pada variabel yang telah
ditentukan sebelumnya. Dengan metode tersebut, dapat ditunjukkan hasil akhir
akurasi tag kelas kata dengan pemberian tag kelas kata yang dicapai dari
pemrosesan yang terjadi.
1.2 Perumusan Masalah

Dari penjelasan diatas, maka masalah yang akan dicari penyelesaiannya
dalam Tugas Akhir ini adalah:
 Bagaimana implementasi Part of Speech Tagging untuk bahasa Indonesia
dengan metode Latent Descriptor Clustering?
1
 Bagaimana performansi sistem dalam menghasilkan akurasi tag kelas kata
berdasarkan input parameter yang dihasilkan Latent Descriptor Clustering?
Dalam Tugas Akhir ini, yang dibahas adalah POS Tagging untuk bahasa
Indonesia dengan metode Latent Descriptor Clustering dengan batasan masalah
sebagai berikut:
 Menggunakan 200.000 token pertama dari korpus “UI-1M-tagged.txt”
 Permasalahan ambiguitas kata tidak diujikan dalam Tugas Akhir ini.
 Hampir semua kata pada korpus bertipe lowercase.
 Penentuan tag kelas kata secara manual yang digunakan sebagai bahan
evaluasi hanya diterjemahkan oleh penulis.
1.3 Tujuan
Berdasarkan pada masalah yang telah diidentifikasi diatas, maka tujuan
yang ingin dicapai dalam Tugas Akhir ini adalah:
 Mengimplementasikan Part of Speech Tagging untuk bahasa Indonesia
dengan metode Latent Descriptor Clustering.
 Menganalisis performansi sistem dalam menghasilkan akurasi tag kelas kata
berdasarkan input parameter yang dihasilkan Latent Descriptor Clustering.
1.4 Hipotesa
Latent Descriptor Clustering merupakan algoritma iteratif yang
dihubungkan dengan pemodelan probabilistik dalam menangani kasus data dengan
pencarian pola terlebih dahulu dengan algoritma K-Means Clustering yang
merupakan salah satu algoritma Partitional Clustering yang paling banyak
digunakan dalam melakukan klastering dan algoritma Expectation-Maximization
yang berguna dalam permasalahan mencari dan menemukan nilai estimasi dari
parameter masukan dalam model probabilistik. Pada awalnya, metode yang paling
banyak digunakan adalah metode Rule Based, dimana para ahli bahasa secara
manual menyusun kumpulan aturan bahasa yang kemudian disandikan ke dalam
bahasa mesin. Namun, metode ini kurang efisien karena membutuhkan usaha yang
besar dan waktu yang lama dalam proses penyusunan aturannya. Latent Descriptor
Clustering merupakan salah satu metode statistik yang memberikan nilai
probabilitas terbaik dalam menghasilkan akurasi tag kelas kata pada data yang
besar serta tidak membutuhkan usaha yang besar dan waktu yang lama dalam
memprosesnya.
1.5 Metodologi Penyelesaian Masalah

Metodologi penelitian yang akan digunakan untuk menyelesaikan Tugas
Akhir ini, yaitu:
 Studi Literatur
Dilakukan pencarian sumber – sumber referensi yang berhubungan dengan
penelitian ini. Topik – topik yang dipelajari mengenai POS Tagging, Latent
2
Descriptor Clustering, K-Means Clustering, Expectation-Maximization
Algorithm.
 Analisis Kebutuhan Sistem dan Perancangan Perangkat Lunak

Dilakukan analisis kebutuhan dan perancangan pada sistem POS Tagging
untuk pemberian tag kelas kata pada 200.000 token korpus bahasa
Indonesia. Korpus tersebut tersimpan dalam bentuk text yang berupa kata –
kata beserta kelas kata. Kata – kata yang terdapat dalam korpus tersebut
didefinisikan menjadi vektor latent deskriptor. Deskriptor tersebut diakses
dari konteks kiri dan konteks kanan pada setiap token di dalam korpus.
Keluarannya berupa hasil tag kelas kata dan akurasi tag kelas kata dari
sistem.
 Implementasi Rancangan Perangkat Lunak

Dilakukan realisasi terhadap sistem yang telah dirancang. Akan dirancang
sistem POS Tagging, yaitu POS Tagger bahasa Indonesia dengan metode
Latent Descriptor Clustering yang terdiri dari beberapa tahap seperti
preprocessing text, penerapan Latent Descriptor Clustering, dan analisis
performansi. Perancangan sistem ini dibangun dengan menggunakan tools
MATLAB R2010a.
 Pengujian dan Analisis Hasil

Dilakukan pengujian data dan metode terhadap sistem yang telah dibuat.
Dalam sistem ini, akan dianalisis akurasi tag kelas kata yang dihasilkan.
 Penarikan Kesimpulan dan Penyusunan Laporan Tugas Akhir

Membuat kesimpulan dari pengujian dan analisis hasil yang dilakukan.
Kemudian melakukan dokumentasi semua tahapan proses diatas berupa
laporan yang berisi tentang dasar teori dan hasil Tugas Akhir ini ke dalam
sebuah buku Tugas Akhir.

Bab1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab1

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

1.2 Perumusan Masalah

1.5 Metodologi Penyelesaian Masalah

 Analisis Kebutuhan Sistem dan Perancangan Perangkat Lunak

 Implementasi Rancangan Perangkat Lunak

 Pengujian dan Analisis Hasil

 Penarikan Kesimpulan dan Penyusunan Laporan Tugas Akhir

Anda mungkin juga menyukai