1. Pendahuluan
Question answering (QA) merupakan cabang ilmu komputer dalam bidang pencarian
informasi (Information Retrieval) dan pengolahan bahasa alami (Natural Language
Processing) yang berfokus pada pembangunan sistem penjawab pertanyaan secara
otomatis yang diajukan oleh manusia. Tujuan dari sistem penjawab pertanyaan otomatis
adalah menyajikan jawaban yang tepat dan cepat dari kumpulan dokumen atau database
(Asma Ben Abacha, 2015). Pengembangan sistem tersebut dianggap penting dikarenakan
makin bertambahnya informasi digital yang tersedia sehingga dengan adanya sistem
penjawab pertanyaan otomatis, akan memudahkan user untuk mendapatkan jawaban yang
diinginkan dengan tepat dan cepat.
Dalam QA system terdapat 3 modul inti yang hampir seluruh QA System miliki yaitu
question processing, document retrieval dan ekstraksi jawaban (Sucunuta M E, 2010).
Gambaran umum mengenai arsitektur dari QA System ditunjukkan pada Gambar 1.
2. Rancangan Sistem
Rancangan sistem yang akan digambarkan terdapat pada Gambar 2.
a. Query Analyzer
Pertanyaan yang diberikan oleh user akan dianalisis menggunakan beberapa teknik
pemrosesan Bahasa alami:
Analisis Sintaktis: Pada tahap ini pertanyaan dianalisis secara sintaksis menggunakan
Part of Speech Tagging (POS-Tag) dan Named Entity Recognition (NER).
Analisis Semantik: Pelabelan semantik merupakan langkah yang penting dalam tahapan
ini, karena sistem dapat menentukan dependensi antar kata sehingga memungkinkan
untuk menghilangkan set jawaban yang tidak relevan.
b. Question Classification
Focus Identification: Tujuan dari focus identification adalah untuk menentukan jenis
pertanyaan yang diajukan oleh user. Jenis pertanyaan dapat diketegorikan menjadi 7
kategori seperti yang terlihat pada Tabel 1.
Question Word
Question Focus
Siapa
Person (Orang)
Dimana
Lokasi
Kapan
Durasi atau Tanggal
Bagaimana + Adv/Adj
Seberapa Jauh
Jarak
Seberapa Lama
Durasi
Seberapa Banyak
Angka
Tabel 1. Kategori Jenis Pertanyaan.
Deteksi frasa dan klausa berfugsi untuk mendapatkan frasa dan klausa yang mengandung
informasi yang relefan dengan jawaban dan memudahkan penghilangan kumpulan kata
yang tidak relevan. Deteksi frasa dapat dilakukan dengan menggunakan shallow parsing
atau shallow chunking.
Frame detection: hasil pelabelan semantikdiidentifikasi dan dipetakan menjadi semantic
frame yang bertujuan untuk menghasilkan jawaban yang lebih baik serta digunakan untuk
meranking set jawaban.
c. Query Reformulation
Query yang diberikan oleh user dapat diformulasi ulang dengan menambahkan
pengetahuan mengenai domain teks dan informasi secara