Anda di halaman 1dari 5

Sistem Pembangkit Pertanyaan Otomatis Dengan Metode Template-Based

M. Fachrurrozi dan Novi Yusliani E-mail: fachrur@yahoo.com, novi.yusliani@gmail.com

AbstrakFokus dari penelitian ini adalah untuk membangun


sebuah sistem pembangkit pertanyaan Bahasa Indonesia otomatis. Terdapat tiga proses utama yang terjadi di dalam question generation system. Pertama adalah mengekstrak kalimat di dalam dokumen. Setelah itu, kalimat yang telah diekstrak akan diklasifikasi berdasarkan kata-kata yang terkandung di dalam kalimat tersebut. Pengklasifikasian kalimat bertujuan untuk menentukan kategori pertanyaan yang bisa dibangkitkan berdasarkan kalimat tersebut. Kategori pertanyaan yang dibangkitkan adalah pertanyaan non-factoid. Proses terakhir adalah membangkitkan pertanyaan berdasarkan kalimat tersebut dengan metode template-based. Metode template-based adalah salah satu metode yang dapat digunakan untuk membangkitkan pertanyaan. Metode ini menggunakan template-template yang telah didefinisikan sebelumnya untuk membangkitkan pertanyaan. Dengan menggunakan 30 dokumen sumber, terdapat 1871 pertanyaan non-factoid yang berhasil dibangkitkan oleh sistem. Abstract-The focus of this research is to develop an Indonesian automatic question generation system. There are three main process that occur in the question generation system. First is to extract the sentences in the document. After that, the extracted sentences will be classified based on the words contained in the sentence. Sentence classification aims to determine the categories of questions that could be generated. The generated question categories is non-factoid question. The final process is to generate questions based on template-based method. Template-based method is one of methods that can be used to generate questions. This method uses the templates that have been defined previously to generate questions. By using 30 source documents, there are 1871 'non-factoid questions' that successfully generated by the system.

I. INTRODUCTION In teaching and learning activity, results or achievements obtained by student is different, although students are guided by teachers with the same teaching materials, time, place, and method. Teachers are basically responsible for the overall learning activity in the classroom. Therefore, the help to overcome learning difficulties and enrich the learning outcomes are required to assist the learning activity outside the school. One of the solutions to solve this problem is by providing exercise to the students. This is expected to facilitate students in understanding the material provided. However, it is not easy to make many questions by considering the efficiency of time. Dengan adanya tuntutan untuk memenuhi kebutuhan membuat pertanyaan secara cepat dan tepat, maka dikembangkanlah sistem pembangkit pertanyaan otomatis. Penelitian dalam bidang ini berkaitan dengan bagaimana sistem dapat membangkitkan pertanyaan berdasarkan informasi atau teks yang ada. Selain itu, sistem ini diharapkan bekerja seperti halnya manusia yang dapat membuat pertanyaan ketika diberikan sebuah teks. Manusia dapat membuat pertanyaan dikarenakan manusia dapat memahami teks yang diberikan dan berdasarkan pengetahuan-pengetahuan yang dimiliki. By the demand to meet the needs of making inquiries quickly and appropriately, hence the automated question generation system is developed. The research in this field is linked with how the system can generate questions based on the information or text given. In addition, the system is supposed to work like human who can make questions when given a text. Humans can make questions because they understand the given text and knowledges-based. Penelitian di bidang sistem pembangkit pertanyaan otomatis sudah pernah dilakukan [7] [8]. Kontribusi yang diberikan dalam penelitian tersebut adalah membangkitkan pertanyaan secara otomatis dari sebuah teks. Pembangkitan pertanyaan dilakukan dengan melihat kalimat yang telah diekstraksi dari teks yang ada. Kategori pertanyaan yang dibangkitkan didasarkan pada hasil klasifikasi kalimat tersebut. Teks yang digunakan oleh mereka adalah teks berbahasa Inggris. Research in the field of automatic question generation system has been carried out [7] [8]. The contributions made in the research is to generate questions automatically from a text. Generation of questions conducted by the phrase that has been

Kata kunci: question generation, pertanyaan non-factoid Keywords : question generation, non-factoid question

I.

PENDAHULUAN

Pada peristiwa belajar dan pembelajaran, hasil atau prestasi yang diperoleh oleh siswa berbeda-beda, walaupun siswa dibimbing oleh guru dengan bahan pelajaran, waktu, tempat, dan metode yang sama. Guru pada dasarnya bertanggung jawab atas keseluruhan proses pembelajaran di kelas. Oleh karena itu, bantuan mengatasi kesulitan belajar dan memperkaya hasil belajar diperlukan untuk membantu proses belajar di luar sekolah. Salah satu bantuan untuk mengatasi masalah ini yaitu dengan memberikan latihan soal kepada siswa. Hal ini diharapkan dapat mempermudah siswa dalam memahami materi yang diberikan. Akan tetapi, jika pertanyaan yang dibuat banyak dengan mempertimbangkan waktu yang efisien maka tidaklah mudah.

extracted from the text. The categories of generated questions were based on the sentence classification. Text used is in English. Beberapa bahasa seperti bahasa Inggris, bahasabahasa di benua Asia bagian Timur, dan bahasa-bahasa di benua Eropa telah tersedia banyak sumber yang dapat digunakan untuk membantu penelitian sistem pembangkit pertanyaan otomatis. Sedangkan bahasabahasa di benua Asia selain bahasa Jepang, masih menyediakan sedikit sumber yang dapat digunakan untuk membantu penelitian sistem pembangkit pertanyaan otomatis termasuk salah satunya bahasa Indonesia. Karena itu, penelitian yang dilakukan yaitu membangun sebuah sistem yang dapat membangkitkan pertanyaan otomatis dalam teks berbahasa Indonesia dengan menggunakan metode template-based. Some languages such as English, the languages of the East Asian continent, and the languages of the European continent has many resources available that can be used to help study of automatic question generation system. While the languages in Asian continent beside Japanese, still provides a few resources that can be used to help automatic question generation system research including Indonesian. Therefore, the research carried out is developed a system that can generate questions automatically in Indonesian text by using a template-based method. Secara umum, pertanyaan dapat diklasifikasikan menjadi lima kategori, yaitu pertanyaan yang bersifat factoid (factoid question), pertanyaan yang bersifat non-factoid (non-factoid question), list question, yes/no question, dan opinion question. Question generation system (sistem pembangkit pertanyaan) bermanfaat dalam pembuatan soal-soal latihan secara otomatis yang dapat membantu siswa atau mahasiswa (pembelajar) belajar. Sistem ini dapat membangkitkan pertanyaan secara otomatis dengan memanfaatkan sekumpulan dokumen yang ada. In general, the question can be classified into five categories, namely, 'factoid' question (factoid question), 'non-factoid' question (non-factoid question), list question, yes / no question, and opinion question. Question generation system is useful in the manufacture of exercises that can automatically assist the students learning. The system can automatically generate questions by utilizing a set of documents. II. METODOLOGI

1.

Mengetahui sintaksis yang membentuk pertanyaan. Sintaksis untuk non-factoid question pada umumnya berbeda dengan sintaksis yang menyusun factoid-question. Kata tanya dalam bahasa Indonesia diantaranya apa, mengapa, siapa, bagaimana, kapan, dimana, dan sebagainya. Pada penelitian ini, pertanyaan yang dapat dibangkitkan merupakan pertanyaan non-factoid question dengan kata tanya apa, mengapa, dan bagaimana. 1. Knowing the syntactic form of questions. Syntax for 'non-factoid question' in general different syntactic construct 'factoid-question'. Question words in the Indonesian language such as what, why, who, how, when, where, and so on. In this study, the question to be raised is the question of 'non-factoid question' with the question words what, why, and how. Mengetahui kata khusus dari kalimat yang mencirikan kategori pertanyaan yang akan dibangkitkan Kata khusus untuk setiap kategori kalimat berbeda. Kata khusus yang diperlukan dapat dilihat pada tabel 1. Kata khusus dapat berfungsi sebagai kata penghubung atau konjungsi pada sebuah kalimat. Kalimat alasan merupakan kalimat yang mengandung sebab-akibat terhadap sesuatu. Kata penghubung yang biasa digunakan dalam kalimat ini adalah karena. Kata tanya yang membutuhkan jawaban berupa alasan adalah mengapa. Sehingga pertanyaan yang dapat dibangkitkan dari kalimat yang menyatakan sebab-akibat dengan kata khusus karena adalah pertanyaan alasan, yaitu dengan kata tanya mengapa. Contoh pertanyaan untuk tiap kategori dapat dilihat pada tabel 2. 2. Knowing the specific word of phrase that characterizes the category of questions which will be raised A special word for each category is different sentence. A special word on this can be seen in table 1. A special word can serve as a conjunction or conjunctions in a sentence. The sentence is a sentence containing the reasons of causality to something. Conjunctions used in this sentence is 'due'. Question words that need answers include the reason is 'why'. So the question that can be raised from the sentence that states the causal with a special word 'because' is a question of reason, that the question word 'why'. Sample questions for each category can be seen in table 2.
TABEL I DAFTAR KATA KHUSUS SETIAP KATEGORI Kata khusus Sebelum Kata khusus Setelah target kata untuk target kata untuk pertanyaan pertanyaan disebut, dikenal, adalah, yaitu, ialah, dinamakan, merupakan, diartikan mendefinisikan oleh sebab itu, jadi, sebab, karena, memungkinkan adanya, , bertujuan dengan demikian, maka, dikatakan, penyebab terjadinya, sehingga, mengapa, walau demikian, namun

2.

Question Generation berfungsi untuk membangkitkan pertanyaan dari dokumen yang diberikan kepada sistem. Proses yang dilakukan pada proses ini adalah membangkitkan pertanyaan dengan menggunakan kata tanya yang sesuai dengan kategori kalimat. Ada pun proses yang harus dilakukan untuk pembangkitan pertanyaan adalah: II. METHODOLOGY Question Generation serves to generate question of the documents provided to the system. The process which done is to generate questions by using suitable question words of category question. The steps that must be done to generate the questions are:

Kategori definisi alasan

metode

demikian, dengan cara

berfungsi untuk, berguna untuk

Kategori definisi alasan metode

TABEL II CONTOH PERTANYAAN SETIAP KATEGORI Contoh Pertanyaan Apa yang dimaksud dengan pencernaan kimiawi ? Apa yang dimaksud dengan fotosintesis ? Mengapa fotosintesis dapat terjadi pada siang maupun malam hari ? Mengapa astronot dapat melayang-layang di bulan ? Bagaimana cara mengubah protein menjadi asam amino ? Bagaimana cara dna membentuk rna ?

Gambar 1 merupakan arsitektur dari sistem pembangkit pertannyaan otomatis. Masukan sistem ini berupa dokumen teks yang telah disediakan dalam format teks (.txt) yang kemudian diekstrak ke dalam kumpulan kalimat. Keluaran dari sistem ini berupa sekumpulan pertanyaan yang dibangkitkan berdasarkan kalimat yang telah diklasifikasikan. Figure 1 is the architecture of the system generating automatic ticklish. Put the system in the form of text documents that have been provided in text format (. Txt) which is then extracted into a set of sentences. The output of this system in the form of a set of questions that are raised by the sentence that has been classified.

Dokumen Teks

Tahap 1 : Ekstraksi Kalimat, Pemrosesan Awal Dokumen

Tahap 2 : Pengklasifikasian Kalimat dengan Nave Bayes Classifier

akan dibangkitkan. Tahap terakhir yaitu pembangkitan pertanyaan otomatis menggunakan metode templatebased. Pada tahap ini, pertanyaan akan dibangkitkan dari kalimat yang telah diklasifikasikan pada tahap sebelumnya. Kalimat tersebut kemudian dimasukkan kedalam template-template pertanyaan yang telah disediakan sesuai kategorinya, sehingga proses pembangkitan pertanyaan dapat dilakukan. Template pertanyaan yang digunakan pada penelitian ini dapat dilihat pada gambar 2. The first stage is extracting the sentence and preprocessing of the document. At this stage, the entire sentence is in the extracted text documents, and then described the labeling classification on every word that referred to the POS tagger. The second stage is the classification with Naive Bayes Classifier sentence. There are three categories of phrases used in this research is the definition, rationale, and methods. The phrase is a phrase that explains the definition of a term. The sentence is a sentence containing the reasons causality. Sentence method is a sentence that describes how something is done or work. Classifying sentences at this stage using special words that represent each category of sentences. If words fall into any of the categories specified, then the sentence is one of the sources of the candidates questions that will be raised. The last stage is the generation of automatic query template-based method. At this stage, the question will be raised from the sentence that has been classified in the previous stage. The sentence is then incorporated into the templates of questions that have been provided according to category, so the question generation process can be carried out. Template questions used in this study can be seen in Figure 2.

Tahap 3 : Pembangkitan Pertanyaan Otomatis MenggunakanMetode Template-Based Pertanyaan yang dibangkitkan Generator

Template Pertanyaan

1. Apa yang dimaksud dengan . 2. Mengapa . 3. Bagaimana cara .


Gambar 2 Template Pertanyaan

Gambar 1 Arsitektur Sistem

III. Tahap pertama yaitu ekstraksi kalimat dan preprocessing awal dokumen. Pada tahap ini, seluruh kalimat yang ada pada dokumen teks diekstrak, kemudian diuraikan dengan pemberian label klasifikasi pada setiap kata yang disebut dengan POS Tagger. Tahap kedua yaitu melakukan klasifikasi kalimat dengan Nave Bayes Classifier. Terdapat tiga kategori kalimat yang digunakan dalam penelitian ini yaitu definisi, alasan, dan metode. Kalimat definisi merupakan kalimat yang menjelaskan suatu istilah. Kalimat alasan merupakan kalimat yang mengandung hubungan sebab-akibat. Kalimat metode merupakan kalimat yang menjelaskan bagaimana cara sesuatu dilakukan atau bekerja. Pengklasifikasian kalimat pada tahap ini menggunakan kata khusus yang mewakili masing-masing kategori kalimat. Jika kalimat termasuk ke dalam salah satu kategori yang telah ditentukan, maka kalimat tersebut merupakan salah satu kandidat sumber pertanyaan yang

HASIL DAN PEMBAHASAN

Pertanyaan yang dibangkitkan oleh sistem sebanyak 1871. Pertanyaan ini bersumber dari 30 dokumen teks yang masing-masing digunakan sebagai masukan. Contoh pertanyaan yang dibangkitkan oleh sistem dapat dilihat pada gambar 3. III. RESULTS AND DISCUSSION Questions raised by the system as much as 1871. This question originated from 30 text documents, each of which is used as input. Examples of questions generated by the system can be seen in Figure 3. Pengujian dilakukan terhadap pertanyaan yang telah dibangkitkan oleh sistem melalui kuisioner yang diberikan kepada 30 orang mahasiswa. Pertanyaan yang dinyatakan dapat diterima harus memenuhi salah satu ataupun sebagian dari kategori yang telah ditentukan. Kategori yang dapat menyatakan sebuah pertanyaan

dapat diterima atau tidak, jika pertanyaan tersebut memenuhi yaitu: Tests conducted on the question that has been raised by the system through a questionnaire given to 30 students. Questions are otherwise acceptable must meet one or some of the specified categories. The categories can state a question is acceptable or not, if the question meets are: 1. 2. 3. 4. Pertanyaan yang dibangkitkan sistem dituliskan dengan benar. Maksud dari pertanyaan yang dibangkitkan sistem dapat dimengerti. Pertanyaan yang dibangkitkan sistem sesuai dengan konteks. Jika pembaca membuat pertanyaan dari teks yang diberikan, pertanyaan yang pembaca buat sama seperti pertanyaan yang telah dibangkitkan sistem. Pertanyaan yang dibangkitkan sistem merupakan pertanyaan yang bermanfaat. 1. Questions were raised properly written system. 2. The purpose of the questions raised understandable system. 3. Questions were raised in the context of the system. 4. If the reader make of the questions given text, the reader made the same question as the question was raised system. 5. The question raised is the question of useful systems.

5.

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Metabolisme Ekosistem Ciri-ciri Khusus Makhluk Hidup Cahaya Klasifikasi Makhluk Hidup Bioteknologi Perubahan Sifat Benda Virus Peristiwa Alam Kerja Ilmiah Alat Pencernaan Keanekaragaman Makhluk Hidup Sistem Tubuh Alat Pernapasan Susunan Bumi Gaya dan Gerak Gaya Pembentukan Tanah Pelestarian Makhluk Hidup Dampak Peristiwa Alam Sifat Bahan Energi Listrik Penghantar Listrik Perubahan pada Benda Struktur dan Fungsi Jaringan pada Hewan Ekosistem (2) Alat Peredaran Darah Organisasi Kehidupan

181 101 35 28 61 77 21 91 18 51 69 109 56 39 40 40 41 36 30 18 31 47 20 60 81 150 65 52

76 18 18 20 41 42 10 41 11 22 45 95 36 26 27 29 29 25 22 9 18 34 12 45 39 105 35 26

41.98 17.82 51.42 71.42 67.21 54.54 47.61 45.05 61.11 43.13 65.21 87.15 64.28 66.66 67.5 72.5 70.73 69.44 73.33 50 58.06 72.34 60 75 48.14 70 53.84 50

Kalimat yang diekstrak: Flagela adalah struktur tambahan pada tubuh berupa bulu cambuk yang berfungsi sebagai alat gerak. Kata khusus: adalah Kategori: definisi Template: Apa yang dimaksud dengan . Pertanyaan yang dibangkitkan: Apa yang dimaksud dengan flagela? Kalimat yang diekstrak: Bumi dapat tetap berada pada orbitnya karena gaya gravitasi yang bekerja antara bumi dan matahari. Kata khusus: karena Kategori: alasan Template: Mengapa . Pertanyaan yang dibangkitkan: Mengapa bumi dapat tetap berada pada orbitnya? Kalimat yang diekstrak: Organisme pengurai memperoleh makanan dengan cara merombak sisa produk organisme dan organisme yang mati dengan enzim pencernaan yang dimilikinya. Kata khusus: dengan cara Kategori: metode Template: Bagaimana cara . Pertanyaan yang dibangkitkan: Bagaimana cara organisme pengurai memperoleh makanan?
Gambar 3 Contoh Pertanyaan yang Dbangkitkan Sistem TABEL II EVALUASI PERTANYAAN YANG DIBANGKITKAN SISTEM

Tabel 2 menunjukkan jumlah pertanyaan yang berhasil dibangkitkan oleh sistem berdasarkan dokumen yang digunakan sebagai masukan. Pt merupakan jumlah pertanyaan yang dibangkitkan oleh sistem. Pd merupakan jumlah pertanyaan yang diterima berdasarkan kategori yang telah ditentukan. Pr merupakan persentase yang dihasilkan antara jumlah pertanyaan yang dapat diterima dari seluruh pertanyaan yang dibangkitkan sistem. Nilai Pr didapatkan dari Pd/Pt*100. Dari 1871 pertanyaan yang dibangkitkan oleh sistem, 1047 diantaranya dapat diterima oleh tester, sehingga persentasenya adalah 55.95%. Table 2 shows the number of questions successfully generated by the system based on the document that is used as input. Pt is the number of questions raised by the system. Pd is the number of inquiries received by the specified categories. Pr is the percentage generated between the number of questions that can be received from all the questions raised system. Pr values obtained from the Pd / Pt * 100. From 1871 the question is raised by the system, of which 1047 can be accepted by the tester, so the percentage is 55.95%. IV. KESIMPULAN

No 1 2

Nama Artikel Tata Surya Evolusi

Pt 124 99

Pd 57 34

Pr 45.96 34.34

Sistem pembangkit pertanyaan otomatis dalam bahasa Indonesia yang dibangun menggunakan templatebased method. Pembangkitan pertanyaan dari sekumpulan dokumen teks yang disediakan dapat dilakukan dengan mengekstrak kalimat dari dokumen kemudian melakukan pengklasifikasi kalimat berdasarkan kata khusus yang terkandung dalam teks tersebut. Dengan adanya penelitian ini, maka dihasilkan sebuah sistem yang dapat membangkitkan pertanyaan

non-factoid dalam jumlah banyak mempertimbangkan waktu yang efisien. IV. CONCLUSION

dengan

Academic Writing Support. Dialogue and Discourse, School of Electrical and Information Engineering, University of Sydney, Sydney NSW 2006, Australia, 101124. [8] Manning, C. D., Prabhakar R., & Hinrich S. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press. [9] Mori, T. (2007). A Monolithic Approach and a Type-by-Type Approach for Non-Factoid QuestionAnswering. IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. [10] Niu, Y. (2007). Analysis of Semantic Classes: Toward Non-Factoid Question Answering. Toronto: Department of Computer Science, University of Toronto. [11] Saxena, A. K. (2007). IITD-IBMIRL System for Question Answering using Pattern Matching, Semantic Type, and Semantic Category Recognition. India: IBM India Research Lab. [12] Sukamto, R. A. (2009). Penguraian Bahasa Indonesia Dengan Menggunakan Pengurai Collins. Bandung: Institut Teknologi Bandung. [13] Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Universiteit van Amsterdam. [14] Wang, R. C. (2008). Automatic Set Expansion for List Question Answering. Proceeding EMNLP '08 Proceedings of the Conference on Empirical Methods in Natural Language Processing.

Generating system in the Indonesian language questions automatically built using the templatebased method. The generation of questions from a collection of text documents can be provided to extract sentences from documents and then perform the sentence classifiers based on specific words contained in the text. Given this research, it produced a system that can raise the question of 'non-factoid' in large quantities by considering time-efficient. Sistem pembangkit pertanyaan otomatis dalam bahasa Indonesia ini masih terdapat beberapa kekurangan, sehingga apabila dikembangkan maka sebaiknya menambahkan istilah biologi pada kamus kata dasar agar istilah tersebut dapat diberi kategori, menambahkan template pertanyaan untuk jenis pertanyaan yang lain, serta dapat menghasilkan pertanyaan yang tidak berulang dengan menerapkan penyaringan semantik. Automatic question generation system in the Indonesian language are still some shortcomings, so that if developed biological terms then you should add the word to the dictionary term basis so that it can be a category, add the template question for other types of questions, and can result in non-recurring question by applying semantic filtering. V. REFERENCES

[1] Adriani, M., Jelita, A., Bobby, N., Tahaghoghi, S., & F. W., H. (2006). Stemming Indonesian: A Confix-Stripping Approach. . ACM Transactions on Asian Language Information Processing Vol. 6, No. 4. [2] Agusta, L. (2009). Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief dan Adriani untuk Stemming Dokumen Teks Bahasa Indonesia. Konferensi Nasional Sistem dan Informatika. Bali. [3] Ali, H., Chali, Y., & Hasan, S. A. (2010). Automatic Question Generation from Sentences. TALN 2010, Montral. [4] Ayache, C., Grau, B., & Vilnat, A. (2006). EQueR : the French Evaluation campaign of Question Answering system EQueR/EVALDA. Proceedings of the 5th international Conference on Language Resources and Evaluation, 1157-1160. [5] Barakbah, A. R. (2010). Natural Processing Languange. [6] Iftene, A., Diana, T., Maria, H., & Mihai, A. (2010). Question Answering on Romanian, English, and French Languages. Padua Italia: CLEF 2010 LABs and Workshops, Notebook Papers. [7] Liu, M., & Calvo, R. (2012). G-Asks: An Intelligent Automatic Question Generation System for

Anda mungkin juga menyukai