An Evaluation of Classification Models for Question Topic
Categorization[1] 1. Field Establisment Klasifikasi dalam topik pertanyaan 2. Problem - Jumlah dataset yang sangat besar - Tidak memiliki kategori sebelumnya jikapun ada biasanya user melakukan pemilihan kategori secara manual - Melakukan klasifikasi berdasarkan kalimat pendek dari pertanyaan - Evaluasi efektivitas komponen pertanyaan dalam klasifikasi 3. Solution - Menemukan metode yang dapat mengkategorikan pertanyaan secara otomatis - menemukan metode yang dapat menangani CQA dengan memanfaatkan dataset dalam jumlah besar - melakukan klasifikasi yang tepat berdasarkan kalimat pendek dari pertanyaan - fiture extraction dari subjet lebih berguna jika fiture extraction dari komponen lain - N-gram tidak terlalu membantu dalam klasifikasi pertanyaan - SVM melebihi NB dan ME dalam hal efektivitas dalam hal waktu klasifikasi - SPH lebih efisien dari MPH dan RHC - 4. Evaluation - Micro average dan macro average F score - 5. Contribution - Mempelajari klasifikasi topik pertanaan (QA) otomatis pada yahoo answer - Mempelajari efektif dan efisien penggunaan dua jenis fitur representasi yaitu n-gram dan bag-of-words untuk klasifikasi - Mengevaluasi efektivitas dan efisiensi dari tiga metode klasifikasi dasar, Naif Bayes, Entropy Maksimum (ME), dan Support Vector Mechine (SVM) - Melakukan klasifikasi hierarki dengan metode single path hierarchical (SPH), Metode Multi path hierarchical (MPH) dan refined hierarchical classification (RHC) dan menggombinasikan dengan ketiga metode yang lain. 6. Critical Review Bisa memanfaatkan crowsourching
7. Referensi [1] B. Qu, G. Cong, C. Li, A. Sun, and H. Chen, “An Evaluation of Classification Models for Question Topic Categorization,” J. Am. Soc. Inf. Sci. Technol., vol. 65, no. 3, pp. 889–903, 2012.