Anda di halaman 1dari 5

BAB I

PENDAHULUAN
1.1 Latar Belakang
Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual
yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi
dokumen yang spesifik. Akan tetapi, kemampuan manusia untuk membaca informasi
tersebut dan memahami isinya tidak bertambah cepat dari sebelumnya. Oleh karena
itu, dibutuhkan suatu mekanisme untuk menjadikan informasi tersebut ke dalam
format yang terstruktur, sebagai contohnya adalah ke dalam basis data relasional.
Ekstraksi informasi (Information Extraction atau IE) merupakan teknologi yang
berkaitan dengan cara menjadikan dokumen teks tidak terstruktur dengan domain
tertentu ke dalam sebuah struktur informasi yang relevan. Secara garis besar, proses
ekstraksi informasi terdiri dari dua tahap, yaitu mengidentifikasi informasi yang
relevan di dalam sebuah dokumen teks, kemudian menyimpannya ke dalam bentuk
terstruktur untuk digunakan kemudian. Riset dan pengembangan dari IE sebagian
besar termotivasi karena adanya Message Understanding Conferences (MUC) dan
Automatic Content Extraction (ACE).
Proses ekstraksi informasi dapat dilakukan dengan cara mendefinisikan aturan-aturan
ekstraksi secara manual untuk mengekstrak informasi yang diinginkan dari sebuah
dokumen teks. Akan tetapi, untuk dapat membangun sebuah sistem berbasis aturan
yang baik, aturan yang didefinisikan harus lengkap, sehingga membutuhkan effort dan
waktu yang sangat besar. Selain itu, aturan biasanya terbatas pada domain tertentu,
sehingga jika hendak diaplikasikan pada domain yang baru, proses pendefinisian
aturan harus dilakukan kembali.

I-1

I-2
Oleh

karena

itu,

diajukan

penerapan

teknik

pembelajaran

mesin

untuk

mengotomatisasi proses pembuatan aturan-aturan ekstraksi. Tantangannya adalah


menciptakan model ekstraksi informasi yang dapat diaplikasikan untuk berbagai
domain secara fleksibel. Terdapat dua pendekatan di dalam menerapkan teknik
pembelajaran mesin untuk proses ekstraksi informasi, yaitu pembelajaran aturan dan
statistik.
Pada pendekatan pembelajaran aturan, sistem mempelajari aturan-aturan yang dapat
digunakan untuk mengekstrak informasi dari suatu dokumen teks, berdasarkan
contoh-contoh data pelatihan. Sedangkan pendekatan statistik secara umum
mengurangi persoalan ekstraksi informasi menjadi persoalan prediksi, dengan
membangun model representasi formal secara matematis [SIE05a], seperti HMM
[FRE99], Maximum Entropy [CHI02], SVM [FIN06, ISO02, LI05a, MAY03], dan
Perceptron [CAR03]. Dengan menggunakan pendekatan ini, data pelatihan digunakan
secara efisien untuk mempelajari prediksi yang benar, sehingga dapat menghasilkan
model ekstraksi.
Yang akan dibahas secara lebih lanjut pada tugas akhir ini adalah proses ekstraksi
informasi dengan pendekatan statistik. Adapun metode yang digunakan untuk
memodelkan persoalan ekstraksi informasi adalah metode klasifikasi token. Secara
umum, yang dilakukan adalah membagi teks menjadi token-token, kemudian dengan
menggunakan classifier yang terlatih setiap token ditentukan apakah merupakan
bagian dari pengisi slot (slot filler) untuk template atau tidak. Misalnya, menentukan
apakah suatu token yang berada di dalam suatu dokumen teks mengenai iklan
lowongan pekerjaan, merupakan bagian dari nama perusahaan yang menawarkan
pekerjaan. Metode ini dipilih karena berdasarkan hasil eksperimen yang dilakukan
pada [SIE05a], sistem ekstraksi informasi yang menggunakan metode ini, yaitu
ELIEL2 [FIN06] dan TIE [SIE05b], memiliki tingkat akurasi yang lebih tinggi jika
dibandingkan dengan sistem lainnya.
Teknik pembelajaran mesin yang digunakan untuk mengklasifikasikan token-token di
dalam dokumen teks adalah teknik Support Vector Machine (SVM). SVM telah

I-3
mencapai performansi state-of-the-art untuk berbagai persoalan klasifikasi, termasuk
untuk persoalan named entity recognition [LI05a]. Sistem ekstraksi informasi yang
dijadikan sebagai pedoman penerapan Support Vector Machine untuk ekstraksi
informasi di dalam tugas akhir ini adalah sistem ekstraksi informasi yang
dikembangkan oleh Yaoyong Li dkk., yaitu GATE-SVM [LI05a].
Pada [LI05a], dataset yang digunakan adalah dataset standar yang digunakan untuk
mengevaluasi sebuah sistem ekstraksi informasi, yaitu Job Postings Corpus, yang
berisi 300 pesan newsgroup mengenai lowongan pekerjaan di Austin, Texas. Bahasa
yang digunakan di dalam dataset tersebut adalah Bahasa Inggris.
Di dalam tugas akhir ini, sistem ekstraksi informasi yang diadaptasi dari [LI05a] akan
diujicobakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa
Indonesia. Dataset dikumpulkan dari halaman-halaman web yang mengandung iklan
lowongan pekerjaan.

1.2 Rumusan Masalah


Dalam tugas akhir ini akan dilakukan penerapan Support Vector Machine (SVM)
untuk proses ekstraksi informasi dari dokumen teks, dengan domain lowongan
pekerjaan. Hal ini dilakukan untuk mengetahui:
1. Bagaimana memodelkan proses ekstraksi informasi sebagai persoalan klasifikasi
token dan strategi-strategi yang dapat digunakan.
2. Bagaimana penerapan SVM untuk proses ekstraksi informasi dari dokumen teks,
berdasarkan contoh sistem ekstraksi informasi yang sudah ada.
3. Bagaimana performansi penggunaan SVM untuk ekstraksi informasi, jika
digunakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa
Indonesia.
4. Parameter pembelajaran SVM terbaik yang dapat digunakan untuk ekstraksi
informasi pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa
Indonesia.
5. Bagaimana performansi algoritma klasifikasi SVM untuk ekstraksi informasi, jika
dibandingkan dengan algoritma klasifikasi lain.

I-4

1.3 Tujuan
Tujuan utama dari tugas akhir ini adalah melakukan studi dan implementasi ekstraksi
informasi dari dokumen teks dengan menerapkan teknik Support Vector Machine
(SVM). Tujuan tersebut dapat dijabarkan sebagai berikut:
1. Memahami bagaimana memodelkan proses ekstraksi informasi sebagai persoalan
klasifikasi token dan strategi-strategi yang dapat digunakan.
2. Memahami teknik pembelajaran SVM.
3. Memahami bagaimana cara menerapkan SVM untuk proses ekstraksi informasi
dari dokumen teks dengan metode klasifikasi token, berdasarkan contoh sistem
ekstraksi informasi yang sudah ada.
4. Menganalisis performansi penggunaan SVM untuk ekstraksi informasi jika
digunakan pada dataset berbahasa campuran.
5. Mengetahui parameter pembelajaran terbaik yang dapat digunakan untuk ekstraksi
informasi pada dataset berbahasa campuran.
6. Menganalisis performansi algoritma SVM untuk ekstraksi informasi jika
dibandingkan dengan algoritma klasifikasi lain.

1.4 Batasan Masalah


Batasan masalah yang akan digunakan dalam pelaksanaan tugas akhir ini adalah:
1. Dokumen teks yang digunakan sebagai dataset adalah berupa dokumen teks
dengan domain lowongan pekerjaan, dan sudah memiliki struktur target atau
template yang terdefinisi.
2. Parameter pembelajaran yang diuji adalah teknik implementasi multi class SVM
(one-against-all dan one-against-one), dan nilai parameter uneven margin.
3. Algoritma klasifikasi lain yang akan dibandingkan dengan algoritma SVM adalah
Nave Bayes dan KNN.

1.5 Metodologi
Berikut ini adalah tahapan-tahapan yang akan dilalui selama pelaksanaan tugas akhir.
1. Eksplorasi awal, melakukan eksplorasi mengenai proses ekstraksi informasi dari
dokumen teks dan teknik-teknik pembelajaran mesin yang dapat digunakan untuk
proses ekstraksi informasi tersebut.

I-5
2. Studi literatur, mempelajari literatur-literatur baik berupa buku (textbook), jurnal
dan artikel ilmiah, maupun dokumen web untuk memahami SVM dan
penerapannya untuk proses ekstraksi informasi dari dokumen teks.
3. Analisis penyelesaian masalah, menganalisis penerapan SVM untuk ekstraksi
informasi dari dokumen teks.
4. Pengumpulan dataset berbahasa campuran, mengumpulkan dataset lowongan
pekerjaan berbahasa campuran, baik untuk data pelatihan maupun untuk data tes.
5. Perancangan perangkat bantu eksperimen, membuat desain perangkat lunak yang
dapat

mengimplementasikan

hasil

analisis

penyelesaian

masalah

dan

mempermudah tahapan eksperimen.


6. Implementasi perangkat lunak bantu untuk eksperimen, dilakukan berdasarkan
hasil perancangan perangkat bantu eksperimen.
7. Eksperimen, menggunakan dataset yang diperoleh.
8. Analisis hasil eksperimen dan penarikan kesimpulan, berdasarkan hasil
eksperimen yang diperoleh.

1.6 Sistematika Pembahasan


Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut:
1. Bab I Pendahuluan, berisi penjelasan mengenai latar belakang, rumusan
masalah, tujuan, batasan masalah, metodologi, serta sistematika pembahasan yang
digunakan untuk menyusun laporan tugas akhir.
2. Bab II Studi Literatur, berisi hasil eksplorasi dan studi literatur mengenai
ekstraksi informasi, Support Vector Machine (SVM), dan penerapan SVM di
dalam ekstraksi informasi, yang menjadi landasan teori untuk digunakan di dalam
analisis, perancangan, dan implementasi tugas akhir.
3. Bab III Ekstraksi Informasi Menggunakan Support Vector Machine, berisi
penjelasan mengenai penerapan Suport Vector Machine untuk ekstraksi informasi,
beserta metode dan teknik yang digunakan.
4. Bab IV Eksperimen, berisi tujuan eksperimen, pelaksanaan, dan analisis
hasilnya.
5. Bab V Penutup, berisi kesimpulan dan saran yang didapatkan selama
pelaksanaan tugas akhir.