1 SM

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.9, No.
3 Juni 2022 | Page 1952
Klasifikasi Teks Soal Ujian Berbahasa

Indonesia Berdasarkan Ranah Kognitif
Taksonomi Bloom
1st Justisio Yan Prawira Adam 2nd Ade Romadhony 3rd Erwin Budi Setiawan
Fakultas Informatika Fakultas Informatika Fakultas Informatika
Universitas Telkom Universitas Telkom Universitas Telkom
Bandung, Indonesia Bandung, Indonesia Bandung, Indonesia
prawiraadam@student.telkomuniv aderomadhony@telkomuniversity.ac.i erwinbudisetiawan@telkomuniversity.
ersity.ac.id d ac.id
Kata kunci : Taksonomi Bloom, Support Vector

Abstrak Machine, Naïve Bayes, TF-IDF
Ujian tertulis merupakan bentuk ujian yang paling
umum digunakan untuk mengukur capaian belajar Abstract
siswa, baik dari jenjang SD, SMP ataupun SMA. Written exam is the common type of exam to measure
Tingkat kesulitan dari ujian dapat bervariasi antar student’s learning achievement, from Elementary
soal, sehingga hasil ujian dari siswa dapat dianalisis School, Junior High School and Senior High School.
lebih jauh dengan melihat pada tingkat kesulitan apa The difficulty level of the exam may vary from one
siswa mampu dan tidak mampu menjawab dengan question to another, so that the exam result could be
benar. Taksonomi Bloom memiliki ranah kognitif yang analyzed further by observing in which difficulty
dapat dijadikan acuan dalam menentukan tingkat students can or cannot answer correctly. Bloom’s
kesulitan dari soal ujian. Dalam ranah kognitif Taxonomy has a cognitive domain that can be used as
tersebut, terdapat 6 kelas berbeda yang secara urut reference for determining the exam questions' difficulty.
diantaranya mengingat, memahami, menerapkan, The cognitive domain has 6 different classes which in
menganalisa, mengevaluasi dan mencipta. Pada Tugas order of them are remember, understand, apply, analyze,
Akhir ini, latihan soal diklasifikasikan ke dalam 6 evaluate, create. This final project aims to do a
kelas dari ranah kognitif Taksonomi Bloom. Data yang classification of exam questions into 6 classes of Bloom’s
digunakan berupa teks soal dalam Bahasa Indonesia Taxonomy cognitive field. The data used will be a text in
dari jenjang pendidikan Sekolah Dasar, Sekolah Bahasa Indonesia from Elementary School, Junior High
Menengah Pertama, dan Sekolah Menengah Atas. School and Senior High School. Methods used in this
Metode yang digunakan adalah Support Vector final project are Support Vector Machine and Naive
Machine dan Naive Bayes, karena terbukti pada Bayes, since both are proven in previous study to perform
penelitian sebelumnya mampu menghasilkan well in the same task. As for the feature extraction, this
performa yang cukup baik dalam melakukan final project will be using TF-IDF that has been modified
klasifikasi pada bidang yang sama. Selain itu, ekstraksi based on weight value from POS Tag. Such feature
fitur dilakukan menggunakan TF-IDF yang telah extraction method is already proven in previous study to
dimodifikasi berdasarkan nilai bobot dari POS Tag. perform better than the regular TF-IDF.
Metode ekstraksi fitur tersebut terbukti memiliki
performa yang lebih baik dibandingkan TF-IDF Keywords: Bloom Taxonomy, Support Vector Machine,
reguler pada penelitian sebelumnya. Naïve Bayes, TF-IDF
I. PENDAHULUAN untuk mengklasifikasikan soal-soal yang ada pada

sistem pendidikan [4]. Taksonomi Bloom memiliki 3
A. Latar Belakang domain di antaranya kognitif, afektif dan
Dalam lingkup pendidikan, ujian tulis menjadi psikomotorik dimana domain kognitif berfokus pada
hal yang umum diberikan untuk menguji capaian kemampuan berpikir seseorang [4]. Kemudian,
belajar pada siswa dan memiliki peran yang penting domain kognitif terbagi menjadi 6 tingkatan yang
dalam mengidentifikasi kemampuan kognitif [3]. diurutkan berdasarkan kompleksitasnya, diantaranya
Selain itu, identifikasi kemampuan kognitif siswa pengetahuan, pemahaman, penerapan, penguraian,
perlu dilakukan untuk memastikan pemahaman siswa pemaduan dan penilaian [2][4]. Keenam tingkatan
atas apa yang telah diajarkan. Hal tersebut dapat tersebut dapat dijadikan acuan untuk menentukan
dilakukan dengan memberikan soal ujian dengan tingkat kesulitan ujian yang diberikan, sehingga hasil
tingkat kesulitan yang mengacu pada Taksonomi ujian dapat digunakan sebagai patokan untuk
Bloom [1]. mengukur kemampuan kognitif siswa [1].
Taksonomi Bloom diperkenalkan oleh Klasifikasi soal ujian menggunakan Taksonomi
Benjamin Bloom pada tahun 1956 dengan tujuan Bloom dapat dilakukan secara manual oleh pengajar.
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.9, No.3 Juni 2022 | Page 1953
Akan tetapi, menurut Kusuma et al. [1] hal tersebut Struktur penulisan dari tugas akhir ini disusun
dapat memerlukan waktu yang cukup banyak. Selain sebagai berikut: Bagian pertama berisi pendahuluan
itu, klasifikasi secara manual rentan akan perbedaan terkait tugas akhir ini. Bagian kedua menjelaskan
persepsi antar pengajar. Hal tersebut dapat memicu studi yang terkait dengan tugas akhir ini. Bagian
terjadinya perbedaan dari hasil klasifikasi [3]. ketiga menjelaskan pemodelan dari sistem yang
Berkaitan dengan masalah diatas, pada Tugas dibangun dan data yang digunakan. Bagian keempat
Akhir ini akan dilakukan klasifikasi otomatis pada menjelaskan hasil dan evaluasi hasil pengujian yang
soal ujian menggunakan 2 metode pembelajaran telah dilakukan pada bagian ketiga. Kemudian, pada
mesin, yaitu Support Vector Machine (SVM) dan bagian terakhir menjelaskan kesimpulan dan saran
Naive Bayes (NB). Kedua metode tersebut dipilih berdasarkan hasil pengujian yang dilakukan pada
karena mampu menghasilkan performa yang baik tugas akhir ini.
pada penelitian sebelumnya yang dilakukan oleh Patil
et al. [5] dan Aninditya et al. [3]. Data yang II. KAJIAN TEORI
digunakan bersifat tekstual yang berisi 600 latihan
soal dalam Bahasa Indonesia untuk mata pelajaran Saat tugas akhir ini disusun, terdapat beberapa
Bahasa Indonesia, Ilmu Pengetahuan Alam dan penelitian yang telah dilakukan pada bidang yang
Matematika dari tingkat Sekolah Dasar (SD), Sekolah sama. Penelitian yang dilakukan oleh Kusuma et al.
Menengah Pertama (SMP) dan Sekolah Menengah [1] bertujuan untuk mengajukan pendekatan baru
Atas (SMA). Mata pelajaran IPA untuk SMP dan dalam melakukan klasifikasi soal ujian berbahasa
SMA mencakup soal tentang biologi, fisika dan Indonesia yang mengacu pada Taksonomi Bloom.
kimia. Metode yang digunakan berupa SVM dengan kernel
Penggabungan beberapa mata pelajaran ke linear, dan diaplikasikan pada dataset yang berisi 130
dalam sebuah dataset bertujuan supaya dataset berisi soal berbahasa Indonesia. Dataset yang digunakan
soal dengan karakteristik yang berbeda-beda. mencakup 5 mata pelajaran pada tingkat sekolah
Kemudian akan dilihat apakah algoritma klasifikasi dasar. Fitur leksikal dan sintaktik digunakan untuk
tetap mampu melakukan klasifikasi dengan baik. ekstraksi fitur. Penelitian ini berhasil mendapatkan
rata-rata nilai akurasi sebesar 88,6%. Penelitian
B. Topik dan Batasannya lainnya dilakukan oleh Aninditya et al. [2]
Topik yang dibahas dalam tugas akhir ini adalah menggunakan metode NB dalam melakukan
bagaimana melakukan klasifikasi teks berdasarkan klasifikasi soal berdasarkan tingkatan kognitif dari
Taksonomi Bloom dengan metode SVM dan NB serta Taksonomi Bloom. Ekstraksi fitur dilakukan dengan
mengukur performansi dari metode yang digunakan. metode Term Frequency — Inverse Document
Batasan masalah pada tugas akhir ini adalah Frequency (TF-IDF). Dataset yang digunakan berupa
sebagai berikut: Pertama, data yang digunakan berupa naskah soal ujian semester berbahasa Indonesia dari
teks Berbahasa Indonesia. Kedua, mata pelajaran Departemen Sistem Informasi Universitas Telkom.
yang digunakan hanya Bahasa Indonesia, Matematika Setiap soal pada dataset tersebut dilabeli Lower Order
dan Ilmu Pengetahuan Alam dari jenjang pendidikan (LO) atau High Order (HO). Hasil dari penelitian ini
SD, SMP, dan SMA. Ketiga, klasifikasi yang adalah NB dengan N-Gram TF-IDF mampu
dilakukan hanya untuk menentukan tingkatan menghasilkan nilai precision sebesar 85%.
kognitif yang sesuai dari sebuah soal berdasarkan Penelitian terkait klasifikasi teks dengan latihan
Taksonomi Bloom. soal berbahasa inggris dilakukan oleh Patil et al. [5]
menggunakan metode SVM dan K-Nearest Neighbor
C. Tujuan dan Manfaat (KNN). Dataset yang digunakan berupa 1000
Tujuan dari tugas akhir ini adalah melakukan pertanyaan yang berkaitan dengan kursus sistem
klasifikasi teks Berbahasa Indonesia dengan operasi, dan dilabeli berdasarkan 6 tingkatan kognitif
menggunakan metode SVM dan NB serta mengukur Taksonomi Bloom. Hasil dari penelitian ini adalah
performansi dari masing-masing metode. Mengenai performansi metode SVM mengungguli KNN dengan
manfaat dari penelitian ini, hasil ujian bisa digunakan nilai akurasi masing-masing sebesar 0.923 dan 0.666.
untuk menganalisis capaian belajar siswa Sementara itu, penelitian yang dilakukan oleh
berdasarkan jawaban yang mereka berikan [5]. Mohammed et al. [12] menggunakan metode
Kemudian, pengajar juga dapat menyesuaikan ekstraksi fitur yang dimodifikasi dari TF-IDF dan
pertanyaan yang dibuat untuk ujian sehingga bisa word2vec dalam melakukan klasifikasi berdasarkan
mengukur pemahaman siswa berdasarkan capaian Taksonomi Bloom. Dataset yang digunakan berupa
belajarnya [3]. Lebih lanjut, hasil klasifikasi dapat teks yang berisi pertanyaan terbuka dengan 6 label
dibuat menjadi alur pembelajaran untuk masing- berbeda, dan terdapat 2 dataset berbeda yang
masing siswa, sehingga ke depannya siswa digunakan pada penelitian ini. Dataset pertama
mengetahui urutan dari materi-materi yang harus dikumpulkan dari beberapa situs, buku dan penelitian
dipelajari [7]. sebelumnya sebanyak 141 pertanyaan, sementara
dataset kedua bersumber dari Yahya et al. (2012)
D. Organisasi Tulisan berupa pertanyaan terbuka sebanyak 600 buah. TF-
IDF dimodifikasi dengan cara dikalikan dengan bobot c. Penerapan (C3), kompetensi dalam
yang menyesuaikan dengan POSTag yang dimiliki mengaplikasikan konsep ke dalam situasi
tiap kata, yang kemudian diberi nama TFPOS-IDF. yang baru.
Kemudian word2vec dan TFPOS-IDF, yang diberi d. Analisa (C4), kompetensi dalam
nama W2V-TFPOSIDF, akan dikombinasikan memecahkan suatu konsep ke dalam
sehingga akan menghasilkan satu vektor. Pengujian beberapa komponen sehingga memahami
yang dilakukan dengan algoritma SVM menunjukkan korelasi komponen - komponen terhadap
W2V-TFPOSIDF mampu menghasilkan F1-measure konsep tersebut secara utuh.
yang paling tinggi pada kedua dataset, diikuti dengan e. Sintesa (C5), kompetensi dalam
TFPOS-IDF dan terakhir TF-IDF. menciptakan struktur yang baru dari
Penggunaan algoritma SVM didasari oleh komponen - komponen yang tersedia.
penelitian Kusuma et al. dan Patil et al. [1, 5], namun f. Evaluasi (C6), kompetensi dalam menilai
yang menjadi pembeda pada Tugas Akhir ini adalah dan mengevaluasi sesuatu berdasarkan
metode ekstraksi fitur yang digunakan yaitu kriteria tertentu.
menggunakan TFPOS-IDF. Kemudian, pemilihan Pada Tugas Akhir ini, Taksonomi Bloom yang
algoritma NB didasari oleh penelitian Aninditya et al. digunakan adalah versi revisi [16]. Perbedaan versi
[2] dengan pembeda berupa dataset yang digunakan ini dibandingkan versi sebelumnya adalah perubahan
yaitu dibagi menjadi 6 kelas daripada 2 kelas berbeda. nama untuk setiap tingkatan kognitif. Selain itu,
Selain itu, metode ekstraksi fitur berupa TFPOS-IDF dilakukan penukaran untuk tingkatan C5 dan C6 pada
yang diambil dari penelitian Mohammed et al. [12] versi sebelumnya, sehingga urutan tingkatan kognitif
akan diuji performansinya pada algoritma NB. Hal ini menjadi seperti berikut: mengingat (C1), memahami
dikarenakan algoritma NB tidak diuji menggunakan (C2), menerapkan (C3), menganalisa (C4),
TFPOS-IDF pada penelitian tersebut. Mengevaluasi (C5) dan Mencipta (C6). Pada setiap
tingkatan, terdapat beberapa kata kunci yang dapat
A. Taksonomi Bloom membantu menggambarkan karakteristik dari
Taksonomi Bloom merupakan kerangka konsep masing-masing tingkatan. Daftar kata kunci diambil
kemampuan berpikir yang mengidentifikasi dari peneilitian Setyaningsih et al. [22] dan dapat
kompetensi dari tingkat paling rendah hingga tingkat dilihat pada Tabel 1.
paling tinggi [2]. Terdapat tiga ranah kemampuan TABEL 1 Contoh Kata Kerja Tingkatan Kognitif
intelektual dalam Taksonomi Bloom diantaranya:
a. Kognitif, aspek yang ditekankan seperti Tingkatan
keterampilan berfikir dan pengetahuan. Contoh Kata Kerja
Kognitif
b. Afektif, ranah ini mencakup perasaan, menamai, menulis, mengutip,
motivasi dan sikap sebagai perilaku yang menyebutkan, menghafal,
terkait dengan emosi. melabeli, mendaftar,
c. Psikomotorik, aspek yang ditekankan menunujukkan,
berupa keterampilan motorik, seperti mengingat (C1) memasangkan,
berenang dan mengoperasikan mesin. mengidentifikasi, menandai,
Pada umumnya, ranah kognitif dapat diukur membaca, menyadari,
dengan membuat evaluasi berupa ujian tertulis. mencatat, mengulang,
Berdasarkan hal tersebut, Tugas Akhir ini akan memilih.
berfokus pada ranah kognitif, karena dataset yang mengartikan, menerangkan,
digunakan berbentuk soal ujian tertulis. Dalam ranah menyatakan kembali,
kognitif, terdapat 6 tingkatan, dimana 3 tingkatan menjelaskan, menguraikan,
pertama disebut Lower Order Thinking Skills menterjemahkan,
(LOTS), sedangkan tiga level berikutnya Higher menginterpretasikan,
Order Thinking Skill (HOTS). Siswa harus melalui memahami (C2)
menafsirkan, mendiskusikan,
tingkatan LOTS terlebih dahulu sebelum mulai menyeleksi, mendeteksi,
memasuki tingkat HOTS. Tingkatan tersebut melaporkan,
diantaranya adalah sebagai berikut: mengelompokkan, memberi,
a. Pengetahuan (C1), kompetensi dalam menduga.
menyebutkan atau menjelaskan kembali menerapkan, menggunakan,
terkait hal yang sudah dipelajari. memilih, melaksanakan,
b. Pemahaman (C2), kompetensi dalam mempraktekkan, mengubah,
menginterpretasi dan menyatakan kembali mendemonstrasikan,
berdasarkan pemahaman sendiri serta menerapkan
memodifikasi,
memahami instruksi / masalah yang (C3)
menginterpretasikan,
diberikan. membuktikan, menunjukkan,
menggambarkan,
mengoperasikan, memulai,
menjalankan,
memprogramkan.
membandingkan, mengkaji
ulang, membedakan,
mengkontraskan, memecah ke
dalam beberapa bagian,
menganalisa menunjukan korelasi antar
(C4) variabel, memisahkan,
menyisihkan,
menghubungkan, GAMBAR 1. Ilustrasi SVM [9]
mempertimbangkan,
menduga.
Pada Tugas Akhir ini, SVM akan
menilai, membenarkan, diimplementasikan menggunakan bahasa
mempertahankan, pemrograman Python dengan bantuan library dari
menyalahkan, mengkaji ulang, Scikit Learn.
mengevaluasi mempertahankan,
(C5) mendukung, menyeleksi, C. Naïve Bayes
mengevaluasi, menjustifikasi, Naive Bayes (NB) merupakan salah satu
mengkritik, mengecek, algoritma supervised learning yang mengaplikasikan
memprediksi.
teorema Bayes dengan asumsi ‘naif’ berupa tidak
membangun, merakit, adanya keterkaitan pada setiap pasang fitur yang ada
merancang, membuat, [10]. NB umum digunakan untuk melakukan
menemukan, menciptakan, klasifikasi pada dokumen dan deteksi spam. Rumus
memperoleh, yang digunakan adalah sebagai berikut:
mencipta (C6) mengembangkan,
memformulasikan, 𝑛
membentuk, melengkapi, 𝑦̂= arg 𝑚𝑎𝑥 𝑃(𝑦) 𝖦 𝑃(𝑥𝑖 | 𝑦) (1)
melakukan, mendisain, 𝑖=1
menghasilkan karya.
x merupakan fitur pada data, sementara y adalah
B. Support Vector Machine (SVM) kelas dari data. Algoritma ini akan menentukan kelas
Support Vector Machine (SVM) merupakan dengan mengambil nilai yang paling besar dari y
algoritma untuk supervised learning yang dapat setelah menghitung nilai probabilitas dari sebuah data
digunakan untuk mengklasifikasikan data dengan untuk semua kelas yang ada. Yang membedakan
dimensi yang besar [6, 7]. Metode ini diperkenalkan classifier dari NB adalah asumsi yang dibuat terkait
oleh Vapnik untuk mengklasifikasikan data ke dalam distribusi dari 𝑃(𝑥𝑖 | 𝑦)
2 kelas yang berbeda [8]. Walaupun demikian, SVM Walaupun dengan asumsi yang disederhanakan,
juga dapat digunakan untuk mengklasifikasikan data NB mampu memberikan performa yang baik dalam
ke dalam beberapa kelas yang berbeda [6]. kasus di dunia nyata. Selain itu, proses klasifikasi NB
Pada SVM, setiap data akan dipetakan sebagai dilakukan dengan sangat cepat jika dibandingkan
titik yang kemudian ditempatkan pada ruang dengan algoritma lain yang lebih mutakhir. Akan
berdimensi n (jumlah fitur pada data) yang kemudian tetapi, NB tidak mampu menghasilkan performa yang
akan dipisahkan secara linear menggunakan baik sebagai estimator [10].
hyperplane. Akan terdapat banyak hyperplane yang Pada Tugas Akhir ini, NB diimplementasikan
dapat digunakan untuk memisahkan data, oleh karena menggunakan bahasa pemrograman Python dengan
itu hyperplane yang dipilih adalah hyperplane dengan bantuan library dari Scikit Learn.
margin yang paling besar dari titik data terjauh
masing-masing kelas [9]. Hal tersebut dilakukan D. Term Frequency – Inverse Document
untuk memastikan algoritma mampu memberikan Frequency (TF-IDF)
klasifikasi yang tepat pada titik data yang baru. Jika TF-IDF merupakan salah satu metode untuk
data tidak dapat dipisahkan secara linear, maka data melakukan pembobotan kata yang tergabung dari 2
akan ditempatkan pada dimensi yang lebih besar istilah berbeda, yaitu Term Frequency (TF) dan
dengan bantuan fungsi kernel. Inverse Document Frequency (IDF). Tujuan dari
metode ini adalah memberikan bobot untuk setiap
kata, yang mengindikasikan seberapa penting kata
tersebut dalam sebuah dokumen. Metode ini
diperkenalkan oleh Sparck Jones dengan intuisi
heuristik bahwa kata yang sering muncul dalam
banyak dokumen yang berbeda tidak dapat dijadikan
pembeda, sehingga harus diberikan bobot yang lebih
kecil dibandingkan kata yang sedikit kemunculannya

pada dokumen [11]. Berikut adalah rumus yang
digunakan untuk menghitung nilai TF-IDF:
𝑁
𝑤𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × log ( ) (2)
𝑑𝑓𝑖
𝑤𝑖,𝑗 merupakan bobot kata i pada dokumen j, N

merupakan jumlah dokumen pada korpus, 𝑡𝑓𝑖,𝑗
merupakan TF dari kata i pada dokumen j, dan GAMBAR 2 Alur Kerja Sistem
𝑑𝑓𝑖 merupakan document frequency dari kata i pada
korpus. F. Pengumpulan Data
Dataset berupa teks latihan soal Berbahasa
Indonesia dikumpulkan secara manual dari berbagai
E. Modifikasi TF-IDF (TFPOS-IDF) sumber daring seperti EduBox, Blog Ruangguru [14]
Metode ini diperkenalkan oleh Mohammed M, dan penelitian oleh Syarifah et al. [15]. Dataset
et al. [12]. Tujuan dari metode ini adalah memberikan dilabeli secara manual berdasarkan tingkatan kognitif
bobot pada kata yang berdasarkan tagar Part-of- dalam Taksonomi Bloom. Data berhasil terkumpul
Speech (POS)nya masing-masing. Berikut adalah sebanyak 682 soal dengan persebaran seperti pada
nilai bobot yang optimal setelah dilakukan gambar 3.
eksperimen:
{ 𝑤1 𝑖𝑓 𝑡 𝑖𝑠 𝑣𝑒𝑟𝑏}
𝑤𝑝𝑜𝑠(𝑡) = { 𝑤2 𝑖𝑓 𝑡 𝑖𝑠 𝑛𝑜𝑢𝑛 𝑜𝑟 𝑎𝑑𝑗𝑒𝑐𝑡𝑖𝑣𝑒} (3
)
{ 𝑤3 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 }
Urutan dari bobot tersebut adalah 𝑤1 > 𝑤2 >

𝑤3 > 0 dengan asumsi 𝑤1 = 5, 𝑤2 = 3, 𝑤3 = 1. GAMBAR 3 Distribusi Dataset
Kemudian, berikut adalah rumus dari TFPOS:
G. POS Tagging
𝑐(𝑡, 𝑑) ∗ 𝑤𝑝𝑜𝑠(𝑡) POS Tagging diimplementasikan menggunakan
𝑇𝐹𝑃𝑂𝑆(𝑡, 𝑑) = (4)
∑ 𝑐 (𝑡 , 𝑑) ∗ 𝑤 (𝑡) library FlairNLP [17]. Untuk Bahasa Indonesia,
𝑖 𝑖 𝑝𝑜𝑠
FlairNLP menyediakan corpus dan 2 pre-trained
Selanjutnya, TFPOS-IDF dapat dihitung dengan word embedding yang bersumber dari FastText
rumus sebagai berikut: Wikipedia dan crawling situs. Model dilatih
menggunakan corpus dan kedua pre-trained word
embedding dengan parameter learning_rate = 0.1,
𝑇𝐹𝑃𝑂𝑆 − 𝐼𝐷𝐹(𝑡, 𝑑)
= 𝑇𝐹𝑃𝑂𝑆(𝑡, 𝑑). 𝐼𝐷𝐹(𝑡) (5) mini_batch_size = 32 dan max_epochs = 10. Skor
yang dihasilkan model setelah dilatih tertera pada
gambar 4.
Hasil dari perhitungan diatas adalah berupa
sparse matrix, atau vektor dengan dimensi besar.
Untuk mengurangi kompleksitas dari segi komputasi,
hasil tersebut akan dinormalisasi menggunakan L2
norm dengan rumus sebagai berikut:
𝑛
1
||𝑣⃗||2 = (∑ |𝑣𝑖 |2 )2 (6)
𝑖=1
III. METODE
Sistem dibangun menggunakan bahasa
pemrograman Python dengan alur seperti pada
gambar 2.
GAMBAR 4 Hasil Training Model untuk

POSTagging
H. Preprocessing menentukan mana yang lebih baik. Contoh hasil TF-

Preprocessing perlu dilakukan untuk IDF dan TFPOS-IDF dari dokumen nomor 6 pada
memastikan dataset siap digunakan untuk pelatihan dataset dapat dilihat pada Tabel 2.
dan pengujian. Perangkat yang digunakan pada
proses ini adalah Microsoft Excel dan bahasa TABEL 2 Hasil Ekstraksi Fitur Pada Dokumen
pemrograman Python dengan library Scikit Learn
nomor 6
[18]. Pada Microsoft Excel, preprocessing yang
dilakukan adalah sebagai berikut:
Teladan Tokoh Dasar Kutip
a. Pemeriksaan ejaan kata pada setiap latihan
(NOUN (NOUN (ADP (NOUN
soal. ) ) ) )
b. Penghapusan spasi yang berjumlah lebih
TF-IDF 0.402 0.521 0.638 0.402
dari 1.
Sementara itu, preprocessing yang dilakukan TFPOS
-IDF 0.689 0.563 0.145 0.434
dengan bahasa pemrograman Python adalah sebagai
berikut: *nilai dibulatkan ke atas.
a. Case folding
Pada bagian ini, semua huruf kapital pada J. Random OverSampling
teks diubah menjadi huruf kecil. Random Oversampling merupakan salah satu
metode resampling yang bertujuan untuk mengurangi
b. Penghapusan tanda baca
kesenjangan ukuran kelas pada dataset, sehingga
Pada bagian ini, semua tanda baca pada teks algoritma klasifikasi tidak membias pada kelas
dihapus. mayoritas [20]. Random oversampling
c. Penghapusan stopwords diimplementasikan menggunakan library
Pada bagian ini, ada 2 daftar stopwords Imbalanced-learn [19], dengan parameter
yang akan dijadikan acuan yaitu stopwords sampling_strategy = ‘not majority’, dan random_state
dari library PySastrawi (default), dan = 10. Mengacu pada distribusi data dari dataset yang
digunakan, maka kelas yang bukan mayoritas, yaitu
modifikasi dari PySastrawi. Modifikasi
selain C3, akan diduplikasi hingga jumlahnya setara
stopwords mengacu pada penelitian dengan kelas C3. Hasil random oversampling dapat
Mohammed et al. [12] yang mengatakan dilihat pada Tabel 3.
bahwa stopwords tertentu dapat memiliki
dampak yang signifikan dalam menentukan TABEL 3 Hasil Random Oversampling
tingkat kesulitan sebuah soal. Daftar
stopwords yang dikecualikan dari Sebelum
Setelah random
stopwords PySastrawi dapat dilihat pada Kelas random
oversampling
oversampling
gambar 5. Proses ini akan menghasilkan
data yang berbeda, dan akan dijadikan C1 130 248
pembanding untuk menentukan mana yang C2 134 248
lebih baik. C3 248 248
C4 113 248
C5 37 248
GAMBAR 5 Pengecualian Stopwords
C6 19 248
d. Stemming
Mengubah kata ke dalam bentuk dasar dari K. Pembagian Data
kata tersebut. Menurut penelitian Gholamy et al. [21],
pembagian data untuk pelatihan dan pengujian
dengan rasio 80:20 merupakan rasio yang terbaik
secara empiris. Maka dari itu, pembagian dataset
I. Ekstraksi Fitur
untuk pelatihan dan pengujian pada tugas akhir ini
Ekstraksi fitur dilakukan dengan metode TF-
dibagi dengan rasio 80:20 dan parameter
IDF reguler dan TFPOS-IDF. TF-IDF reguler
random_state = 23 untuk hasil pembagian data yang
diimplementasikan secara penuh menggunakan
konsisten pada setiap eksekusi. Data yang digunakan
library Scikit Learn. Sementara itu, untuk TFPOS-
untuk pengujian berjumlah 8 data dengan spesifikasi
IDF program akan dimodifikasi menyesuaikan
yang berbeda antar data. Skenario pengujian pada
dengan rumus (5) dan dinormalisasi menggunakan
Tugas Akhir ini dapat dilihat pada Tabel 4.
rumus (6). Proses ini akan menghasilkan data yang
berbeda, dan akan dijadikan pembanding untuk
TABEL 4 Skenario Pengujian mendekati 0 menandakan performa yang buruk,

sementara skor dengan nilai mendekati 1
Rando menandakan performa yang baik [12].
Feature m
Skenar Algorit Stopwor 𝑇𝑃 + 𝑇𝑁
Extracti Over- Accuracy = (7)
io ma ds 𝑛
on Sampli
ng
Precision = 𝑇𝑃
SVM TF-IDF Default N 𝑇𝑃 + 𝐹𝑃
(8)
1
NB TF-IDF Default N
Modifik Recall = 𝑇𝑃
SVM TF-IDF N (9)
asi 𝑇𝑃 + 𝐹𝑁
2
Modifik
NB TF-IDF N
asi
F1-Measure =
2 × (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙) (10)
SVM TF-IDF Default Y (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙)
3
NB TF-IDF Default Y
Modifik
SVM TF-IDF Y
asi
4
Modifik
NB TF-IDF Y
asi
TFPOS
SVM -IDF Default N
5
TFPOS
NB -IDF Default N
TFPOS Modifik
SVM -IDF N
asi
6
TFPOS Modifik
NB -IDF N GAMBAR 6 Confusion Matrix [13]
asi
TFPOS
SVM -IDF Default Y IV. HASIL DAN PEMBAHASAN
7
TFPOS
NB -IDF Default Y A. Hasil Pengujian
TFPOS Modifik Hasil eksekusi dari masing-masing skenario
SVM -IDF Y pengujian dapat dilihat pada tabel 5. Perhitungan F1-
asi
8 Measure dan akurasi dibulatkan dengan 3 desimal.
TFPOS Modifik
NB -IDF Y Algoritma dengan performa terbaik ditandai dengan
asi
shading berwarna hijau.
L. Algoritma Klasifikasi
Klasifikasi dilakukan dengan algoritma SVM TABEL 5 Hasil Pengujian
dan NB. Kedua algoritma tersebut akan
mengeksekusi beberapa skenario pengujian untuk Aku
Ak
menentukan spesifikasi yang terbaik pada dataset Ran rasi
uras
yang digunakan. Setiap algoritma selesai memberi Feat dom &
i
prediksi dan mendapatkan skor, parameter algoritma Ske Algo ure Stop Ove F1-
&
tersebut akan dioptimasi menggunakan nari ritm Extr word r- Mea
F1-
GridSearchCV dari library Scikit Learn dengan o a actio s Sam sure
Me
parameter scoring = ‘f1-micro’. Sebelum dioptimasi, n plin
asur
opti
SVM akan dijalankan dengan parameter C = 1 dan g mize
e
kernel = ‘linear’. Sementara untuk NB akan d
menggunakan MultinomialNB dengan parameter 0.4 0.44
default. SV TF- Defa 53 5
N
M IDF ult 0.4 0.43
M. Evaluasi dan Analisis 29 8
1
Evaluasi hasil klasifikasi dari algoritma SVM 0.4 0.44
dan NB akan diukur menggunakan metrik utama TF- Defa 23 5
NB N
yaitu F1-Measure. Perhitungan metrik berikut dapat IDF ult 0.4 0.43
dilakukan dengan bantuan confusion matrix. Skor 21 4
dari accuracy, precision, recall dan F1-Measure
memiliki rentang nilai 0 hingga 1. Skor dengan nilai
0.4 0.43 B. Analisis Hasil Pengujian

Modi
SV TF- 74 8
fikas N
M IDF 0.4 0.43 Berdasarkan hasil pengujian, penggunaan
i 52 4 stopwords versi modifikasi PySastrawi secara rata-
2 rata berpengaruh baik pada hasil F1-measure dan
0.4 0.46
Modi akurasi untuk algoritma SVM dan NB. Hal ini
TF- 01 7
NB fikas N didukung oleh pernyataan Mohammed et al. [12]
IDF 0.4 0.47
i 21 9 bahwa beberapa stopwords dapat berdampak
0.7 0.83 signifikan dalam menentukan tingkat kesulitan
SV TF- Defa 99 9 sebuah soal. Ekstraksi fitur menggunakan metode
Y TFPOS-IDF juga secara rata-rata berdampak baik
M IDF ult 0.7 0.83
98 7 pada hasil F1-measure dibandingkan dengan metode
3 TF-IDF. Melakukan pembobotan pada kata
0.7 0.81
TF- Defa 72 5 berdasarkan POSTag dapat membantu algoritma
NB IDF ult Y 0.7 0.81 klasifikasi untuk meningkatkan performansinya.
72 5 Dataset yang melalui proses random
0.8 0.84 oversampling mampu menghasilkan skor F1-measure
Modi dan akurasi yang lebih baik pada semua skenario
SV TF- 19 2
fikas Y pengujian dibandingkan data yang tidak melalui
M IDF 0.8 0.84
i 18 2 proses random oversampling. Hal ini dikarenakan
4 algoritma klasifikasi dapat dilatih dengan data yang
0.7 0.82
Modi lebih banyak, sehingga dapat melakukan klasifikasi
TF- 82 9
NB fikas Y pada data pengujian secara lebih baik. Sementara itu,
IDF 0.7 0.82
i 81 9 menggunakan parameter hasil optimasi
0.4 GridSearchCV secara rata-rata mampu meningkatkan
TFP 0.43 skor F1-measure dan akurasi untuk kedua algoritma.
SV Defa 38
OS- N 8 Untuk hasil optimasi yang menunjukkan penurunan
M ult 0.4
IDF 3 0.43 skor seperti pada skenario 2 dengan algoritma SVM
5 dan skenario 5 dengan algoritma NB, dapat
0.4
TFP 0.45 disebabkan karena cara kerja GridSearchCV yang
Defa 31
NB OS- N 3 menentukan parameter terbaik berdasarkan rata-rata
ult 0.4
IDF 0.45 tertinggi dari hasil cross validation.
63
0.4 0.50 SVM menghasilkan performa paling baik pada
TFP Modi skenario 8 dengan parameter C = 10 dan kernel =
SV 45 4
M
OS- fikas N
0.4 0.49 ‘linear’. Sementara itu, NB menghasilkan performa
IDF i 31 1 paling baik pada skenario 4 dengan parameter alpha
6 = 0. Hasil kesalahan klasifikasi kelas pada kedua
0.4 0.46
TFP Modi algoritma tersebut dapat dilihat pada Tabel 6,
01 7
NB OS- fikas N sementara untuk kesalahan klasikasi berdasarkan
0.4 0.47
IDF i 3 2 mata pelajaran dapat dilihat pada Tabel 7.
0.8 0.83 Berdasarkan Tabel 6, kelas C3 merupakan kelas
TFP dengan kesalahan klasifikasi terbanyak untuk kedua
SV Defa 15 6
OS- Y algoritma. Hal ini dapat disebabkan oleh strategi
M ult 0.8 0.83
IDF 14 6 random oversampling yang digunakan adalah ‘not
7 majority’, sehingga kelas C3 yang merupakan
0.7 0.79
TFP mayoritas kelas pada dataset ini tidak dilakukan
Defa 35 5
NB OS- Y random oversampling. Urutan kelas berikutnya yang
ult 0.7 0.79
IDF 32 3 dengan kesalahan klasifikasi terbanyak secara urut
adalah C2, C4 dan C1 untuk kedua algoritma.
0.8 0.84
TFP Modi Kemudian, pada Tabel 7 dapat dilihat bahwa urutan
SV 26 6
OS- fikas Y mata pelajaran yang paling banyak terdapat kesalahan
M 0.8 0.84
IDF i klasifikasi secara urut adalah bahasa indonesia,
25 6
8 matematika dan ipa untuk kedua algoritma.
0.7
TFP Modi 0.81
52
NB OS- fikas Y 2 TABEL 6 Jumlah Salah Prediksi per Kelas
0.7
IDF i 0.81
48
C1 C2 C3 C4 C5 C6
SVM 4 16 21 8 0 0
NB 5 14 21 9 0 3
TABEL 7 Jumlah Salah Prediksi per Mata [4] H. S. Bhargav, G. Akalwadi and N. V. Pujari,
Pelajaran "Application of Blooms Taxonomy in Day-to-
Day Examinations," 2016 IEEE 6th
Bahasa International Conference on Advanced
IPA Matematika
Indonesia Computing (IACC), 2016, pp. 825-829, doi:
SVM 22 9 18 10.1109/IACC.2016.157.
NB 26 9 19 [5] S. K. Patil and M. M. Shreyas, "A Comparative
Study of Question Bank Classification based on
V. KESIMPULAN Revised Bloom’s Taxonomy using SVM and K-
NN," 2017 2nd International Conference On
Pada Tugas Akhir ini, algoritma klasifikasi Emerging Computation and Information
dengan performa yang terbaik adalah SVM dengan Technologies (ICECIT), 2017, pp. 1-7, doi:
nilai akurasi dan F1-measure sebesar 0.846, disusul 10.1109/ICECIT.2017.8453305.
dengan algoritma NB dengan nilai akurasi dan F1- [6] A. B. Prasetijo, R. R. Isnanto, D. Eridani, Y. A.
measure sebesar 0.829. Kedua algoritma dapat A. Soetrisno, M. Arfan and A. Sofwan, "Hoax
dikategorikan memiliki performa yang baik karena detection system on Indonesian news sites based
nilai akurasi dan F1-measure sama-sama lebih
on text classification using SVM and SGD,"
mendekati 1 daripada mendekati 0 [12]. Walaupun
karakteristik soal pada dataset beragam, algoritma 2017 4th International Conference on
SVM dan NB masih dapat melakukan klasifikasi Information Technology, Computer, and
dengan baik. Ekstraksi fitur dengan TFPOS-IDF Electrical Engineering (ICITACEE), 2017, pp.
dapat memberikan performansi yang lebih baik 45-49, doi: 10.1109/ICITACEE.2017.8257673.
dibandingkan TF-IDF pada algoritma SVM. [7] E. Subiyantoro, A. Ashari and Suprapto,
Sementara itu, TF-IDF memiliki performansi yang
"Cognitive Classification Based on Revised
lebih baik dibandingkan dengan TFPOS-IDF pada
algoritma NB. Kemudian, memodifikasi stopwords Bloom’s Taxonomy Using Learning Vector
dapat membantu memberikan performansi yang baik Quantization," 2020 International Conference
untuk kedua algoritma. Selain itu, melakukan random on Computer Engineering, Network, and
oversampling pada data dapat meningkatkan Intelligent Multimedia (CENIM), 2020, pp.
performa yang dihasilkan untuk algoritma SVM dan 349-353, doi:
NB. Penelitian ini masih dapat dikembangkan dari 10.1109/CENIM51130.2020.9297879.
sisi ketersediaan jumlah data yang digunakan dan
[8] N. Kalcheva, M. Karova and I. Penev,
menggunakan kombinasi Word2Vec dan TFPOS-
IDF sebagai metode ekstraksi fitur. "Comparison of the accuracy of SVM kernel
functions in text classification," 2020
REFERENSI International Conference on Biomedical
Innovations and Applications (BIA), 2020, pp.
[1] S. F. Kusuma, D. Siahaan and U. L. Yuhana, 141-145, doi:
"Automatic Indonesia's questions classification 10.1109/BIA50171.2020.9244278.
based on bloom's taxonomy using Natural [9] Gandhi, Rohith. 2018. Support Vector Machine
Language Processing a preliminary study," — Introduction to Machine Learning
2015 International Conference on Information Algorithms. [Online]. Available at:
Technology Systems and Innovation (ICITSI), https://towardsdatascience.com/support-vector-
2015, pp. 1-6, doi: machine-introduction-to-machine-learning-
10.1109/ICITSI.2015.7437696. algorithms-934a444fca47 [Accessed 24
[2] Utari, Retno. 2011. Taksonomi Bloom Apa dan November 2021]
Bagaimana Menggunakannya? [10] Anonymous. Naive Bayes. [Online]. Available
[3] A. Aninditya, M. A. Hasibuan and E. Sutoyo, at: https://scikit-
"Text Mining Approach Using TF-IDF and learn.org/stable/modules/naive_bayes.html
Naive Bayes for Classification of Exam [Accessed 30 November 2021]
Questions Based on Cognitive Level of Bloom's [11] W Zhang, T Yoshida, and X Tang. 2011. A
Taxonomy," 2019 IEEE International comparative study of TFIDF, LSI and multi-
Conference on Internet of Things and words for text classification. Expert Systems
Intelligence System (IoTaIS), 2019, pp. 112- with Applications Volume 38 Issue 3 Pages
117, doi: 10.1109/IoTaIS47347.2019.8980428. 2758-2765. doi: 10.1016/j.eswa.2010.08.066.
[12] Mohammed M, Omar N (2020) Question Conference of the North American Chapter of
classification based on Bloom’s taxonomy the Association for Computational Linguistics
cognitive domain using modified TF-IDF and (Demonstrations) (pp. 54-59).
word2vec. PLoS ONE 15(3): e0230442. [18] Pedregosa, F. et al., 2011. Scikit-learn: Machine
https://doi.org/10.1371/journal.pone.0230442 learning in Python. Journal of machine learning
[13] Narkhede S. 2018. Understanding Confusion research, 12(Oct), pp.2825–2830.
Matrix. [Online]. Available at: [19] Guillaume Lemaître, Fernando Nogueira, and
https://towardsdatascience.com/understanding- Christos K. Aridas. 2017. Imbalanced-learn: a
confusion-matrix-a9ad42dcfd62 [Accessed 12 python toolbox to tackle the curse of imbalanced
December 2021] datasets in machine learning. J. Mach. Learn.
[14] [Online]. Available at: Res. 18, 1 (January 2017), 559–563.
https://www.ruangguru.com/blog/ [Accessed 21 [20] Padurariu C., Breaban M.E. 2019. Dealing with
December 2021] Data Imbalance in Text Classification. Procedia
[15] Syarifah L., Yenni Y., & Dewi W. (2020). Computer Science, Volume 159, Pages 736-
Analisis Soal-Soal Pada Buku Ajar Matematika 745.
Siswa Kelas XI Ditinjau Dari Aspek [21] Gholamy, Afshin; Kreinovich, Vladik; and
Kognitif. Jurnal Cendekia : Jurnal Pendidikan Kosheleva, Olga, "Why 70/30 or 80/20 Relation
Matematika, 4(2), 1259-1272. Between Training and Testing Sets: A
https://doi.org/10.31004/cendekia.v4i2.335 Pedagogical Explanation" (2018). Departmental
[16] David R. Krathwohl (2002) A Revision of Technical Reports (CS). 1209.
Bloom's Taxonomy: An Overview, Theory Into [22] E. R. Setyaningsih and I. Listiowarni,
Practice, 41:4, 212- "Categorization of Exam Questions based on
218, DOI: 10.1207/s15430421tip4104_2 Bloom Taxonomy using Naïve Bayes and
[17] Akbik A., Bergmann, T., Blythe, D., Rasul, K., Laplace Smoothing," 2021 3rd East Indonesia
Schweter, S. and Vollgraf, R., 2019, June. Conference on Computer and Information
FLAIR: An easy-to-use framework for state-of- Technology (EIConCIT), 2021, pp. 330-333,
the-art NLP. In Proceedings of the 2019 doi: 10.1109/EIConCIT50028.2021.9431862.

1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.9, No.

3 Juni 2022 | Page 1952

Klasifikasi Teks Soal Ujian Berbahasa

Kata kunci : Taksonomi Bloom, Support Vector

I. PENDAHULUAN untuk mengklasifikasikan soal-soal yang ada pada

kecil dibandingkan kata yang sedikit kemunculannya

𝑤𝑖,𝑗 merupakan bobot kata i pada dokumen j, N

Urutan dari bobot tersebut adalah 𝑤1 > 𝑤2 >

GAMBAR 4 Hasil Training Model untuk

H. Preprocessing menentukan mana yang lebih baik. Contoh hasil TF-

TABEL 4 Skenario Pengujian mendekati 0 menandakan performa yang buruk,

0.4 0.43 B. Analisis Hasil Pengujian

Anda mungkin juga menyukai