M0513035 Rl-Rev06
M0513035 Rl-Rev06
Disusun Oleh :
USULAN PENELITIAN
Disusun Oleh :
USULAN PENELITIAN
i
PERSETUJUAN
Dengan judul
KLASIFIKASI TEMA MENGGUNAKAN ALGORITMA
INFORMATION RETRIEVAL IMPROVED KNN PADA SOAL
UJIAN NASIONAL
Pembimbing I Pembimbing II
ii
DAFTAR ISI
PERSETUJUAN............................................................................................................... ii
DAFTAR ISI ................................................................................................................... iii
DAFTAR TABEL ............................................................................................................ v
DAFTAR GAMBAR....................................................................................................... vi
1. JUDUL ......................................................................................................................... 1
2. PENDAHULUAN ....................................................................................................... 1
2.1. Latar Belakang Masalah ........................................................................................ 1
2.2. Rumusan Masalah ................................................................................................. 5
2.3. Batasan Masalah .................................................................................................... 5
2.4. Tujuan Penelitian ................................................................................................... 5
2.5. Manfaat Penelitian ................................................................................................. 5
3. PENELITIAN TERKAIT ........................................... Error! Bookmark not defined.
4. DASAR TEORI ......................................................................................................... 11
4.1. Text Preprocessing .............................................................................................. 11
4.1.1.Case folding ............................................................................................ 12
4.1.2.Tokenizing ............................................................................................... 12
4.1.3.Stopword removal atau filtering ............................................................. 13
4.1.4.Stemming ................................................................................................. 14
4.2. Pembobotan Term Frequency Inverse Document Frequency (TF - IDF) ....... 15
4.3. Generalized Vector Space Model ........................................................................ 16
4.4. Text Similarity ..................................................................................................... 17
4.5. Improved KNN .................................................................................................... 19
5. METODOLOGI PENELITIAN ................................................................................ 21
5.1. Pengumpulan Data............................................................................................... 21
5.2. Text Preprocessing ........................................................................................... 22
5.3. Pemodelan GVSM ............................................................................................... 22
5.4. Pembobotan TF IDF ......................................................................................... 22
5.5. Text Similarity ..................................................................................................... 23
5.6. Perankingan ......................................................................................................... 23
5.7. Klasifikasi Improved KNN .................................................................................. 23
6. JADWAL PELAKSANAAN .................................................................................... 24
iii
7. DAFTAR PUSTAKA ................................................................................................ 24
iv
DAFTAR TABEL
Tabel 3.1. Penelitian Terkait............................................ Error! Bookmark not defined.
v
DAFTAR GAMBAR
Gambar 5.1. Flowchart Metodologi Penelitian .............................................................. 21
vi
1. JUDUL
Klasifikasi Tema Menggunakan Algoritma Information Retrieval Improved
KNN pada Soal Ujian Nasional.
2. PENDAHULUAN
1
Pelaksanaan ujian yang dilakukan di seluruh wilayah Indonesia secara nasional
atau yang biasa disingkat UAN atau UNAS atau UN diselenggarakan untuk siswa-siswa
tingkat akhir yang ada di sekolah dasar (SD), menengah pertama (SMP), hingga
menengah atas (SMA). Ujian nasional menggunakan soal-soal yang disesuaikan dan
ditetapkan berdasarkan Badan Standar Nasional Pendidikan (BSNP). Soal-soal yang
diberikan kepada siswa harus memenuhi Standar Kompetensi Lulusan (SKL) yang akan
digunakan sebagai bahan evaluasi untuk memantau keberhasilan para siswa di Indonesia
dalam memahami materi-materi mata pelajaran yang telah diberikan selama menempuh
pendidikan di sekolah. Mata pelajaran yang diujikan untuk siswa SD yaitu Bahasa
Indonesia, Matematika, dan Ilmu Pengetahuan Alam (IPA). Untuk siswa SMP, mata
pelajaran yang diujikan yaitu Bahasa Indonesia, Matematika, Bahasa Inggris, dan Ilmu
Pengetahuan Alam (IPA). Sedangkan, untuk siswa SMA yang terdiri dari 3 program,
yaitu program IPA, IPS, dan Bahasa, memiliki masing-masing mata pelajaran yang
harus diujikan kepada para peserta didik yang ada di tingkat akhir. Mata pelajaran yang
diujikan untuk siswa SMA Program IPA yaitu Bahasa Indonesia, Bahasa Inggris,
Matematika, Fisika, Kimia, dan Biologi. Mata pelajaran yang diujikan untuk siswa
SMA Program IPS yaitu Bahasa Indonesia, Bahasa Inggris, Matematika, Ekonomi,
Sosiologi, dan Geografi. Mata pelajaran yang diujikan untuk siswa SMA Program
Bahasa yaitu Bahasa Indonesia, Bahasa Inggris, Matematika, Sastra Indonesia,
Antropologi, dan Bahasa Asing.
Standarisasi penilaian yang ditentukan sebagai syarat lulus untuk peserta didik
semakin meningkat setiap tahun, maka membuat para siswa ini harus rajin belajar
supaya dapat mengerjakan ujian nasional dan lulus sesuai dengan kriteria yang telah
ditetapkan oleh pemerintah. Hal ini mendorong para guru untuk memberikan materi
mata pelajaran dan soal-soal latihan kepada peserta didiknya secara intensif, terutama
yang ada di dalam Standar Kompetensi Lulusan (SKL) yang telah ditetapkan. Guru
memberikan soal latihan kepada para siswanya untuk mengetahui materi yang belum
dikuasai oleh mereka. Saat memberikan soal, guru harus menentukan tema yang ada di
mata pelajaran yang bersangkutan sesuai dengan Standar Kompetensi (SKL) yang
ditetapkan atau tidak. Setiap SKL yang ditentukan akan mengandung tema tertentu.
Setiap soal yang diberikan memiliki tema yang menggambarkan indikator dalam
Standar Kompetensi Lulusan (SKL). Proses pembuatan soal harus diklasifikasikan atau
2
dikelompokkan berdasarkan dengan tema yang ada di SKL di mata pelajaran yang
berkaitan. Hal ini tentunya menyebabkan proses pembuatan soal menjadi tidak efisien
karena lamanya proses pengelompokkan yang dilakukan saat pembuatan soal yang
diberikan dan memungkinkan untuk melakukan kesalahan, diantaranya guru tidak teliti
saat memasukkan tema tertentu pada soal.
Beberapa penelitian mengenai klasifikasi teks atau classfication text telah
banyak dilakukan dengan berbagai macam metode, antara lain penelitian mengenai text
classification using naive bayes updateable algorithm in SBMPTN test questions
menyimpulkan bahwa data soal ujian dapat diklasifikasikan secara tepat dan benar
dengan akurasi 84,61%. Kegagalan klasifikasi disebabkan karena keterbatasan data
training (Saptono et al., 2016).
Klasifikasi teks sangat berkaitan erat dengan text preprocessing. Penelitian
mengenai text preprocessing juga telah banyak dilakukan, salah satunya penelitian
mengenai stemming indonesian : a confix stripping approach yang menyimpulkan
bahwa algoritma Nazief & Adriani sangat efektif diterapkan di dalam pencarian
informasi dalam teks berbahasa indonesia karena akurasinya yang tinggi, tetapi untuk
beberapa dokumen yang berasal dari query yang bukan bahasa indonesia memiliki hasil
akurasinya kurang tinggi (Adriani et al., 2007).
Text preprocessing memerlukan metode yang cepat dan tepat dalam mencari
informasi sebuah dokumen. Berbagai penelitian mengenai information retrieval telah
dilakukan, antara lain penelitian mengenai linked data enabled generalized vector space
model to improve document menyimpulkan bahwa linked data dapat digunakan untuk
meningkatkan pencarian dokumen disesuaikan dengan generalized vector space model
(GVSM). Ada 2 pendekatan yang digunakan, yaitu taxonomic dan connectedness
feature. Pada pendekatan connectedness dapat meningkatkan akurasi saat pendekatan
taxonomic meningkatkan recall. Hasil evaluasi dengan kedua pendekatan ini
menghasilkan hasil yang baik dibandingkan dengan traditional text retrieval (Waitelonis
et al., 2015).
Klasifikasi suatu dokumen tentu harus memperhatikan kemiripan antar informasi
satu dengan yang lain. Penelitian mengenai similarity suatu dokumen telah dilakukan,
antara lain penelitian mengenai perbandingan metode cosine similarity dengan metode
jaccard similarity pada aplikasi pencarian terjemah Al-Quran dalam bahasa indonesia
3
menyimpulkan bahwa metode cosine menghasilkan nilai kemiripan yang tinggi yaitu
sebesar 41% karena metode cosine similarity memiliki konsep normalisasi panjang
vektor data dengan membandingkan N-gram yang sejajar satu sama lain dari 2
pembanding. Hasil akurasi yang dicari berpengaruh pada keyword yang dicari.
Sehingga, kata kunci (keyword) harus sesuai dengan aturan penulisan bahasa indonesia.
Kelengkapan daftar stoplist dan hasil root dari stemming untuk kata bahasa indonesia
juga mempengaruhi keakuratan pengelompokkan dokumen teks dan pemilihan kata
untuk dijadikan term (Nurdiana et al., 2016).
Selain itu, penelitian lainnya yang berkaitan dengan klasifikasi, diantaranya
penelitian mengenai survey of improving k-nearest neighbor for classification
menyimpulkan bahwa untuk meningkatkan hasil akurasi dari K-Nearest Neighbor
(KNN), maka dilakukan modifikasi metode, yaitu menggunakan metode improved
KNN. Metode ini dapat menggunakan 3 model, yaitu dengan distance function,
neighbor size, dan class probability estimation (Jiang et al., 2007). Penelitian mengenai
Comparison between KNN and ANN Classification in Brain Balancing Application via
Spectogram Image menyimpulkan bahwa klasifikasi menggunakan algoritma K-Nearest
Neighbor (KNN) dan Artificial Neural menggunakan data sebanyak 80% untuk proses
training dan 20% untuk tesing. Keluaran dari klasifikasi akan diverifikasi bersama
dengan dominasi brain questionnaire. Model klasifikasi terbaik akan dipilih berdasarkan
akurasi yang tinggi dan MSE yang kecil. Akurasi yang dihasilkan untuk algoritma KNN
sebesar 90%, sedangkan ANN sebesar 87,5%. Selain itu, MSE yang dihasilkan untuk
algoritma KNN sebesar 0,1%, sedangkan ANN sebesar 0,7918% (Mustafa et al., 2012).
Selain, itu juga ada pengembangan penelitian dari KNN yaitu menggunakan improved
K-Nearest Neighbor pada analisis sentimen twitter berbahasa indonesia. Penelitian ini
menyimpulkan bahwa pengujian analisis sentimen pada twitter berbahasa indonesia
dengan metode improved K-Nearest Neighbor (KNN) menghasilkan rata-rata precision
atau akurasi sebesar 0,823, rata-rata recall (sensitifitas atau kemampuan sistem memilih
hasil yang sesuai) sebesar 0,865, dan rata-rata F-measure sebesar 0,843. (Putri et al.,
2013).
Klasifikasi soal ujian berdasarkan informasi yang ada dalam suatu soal
digunakan untuk mengidentifikasi tema tertentu di mata pelajaran. Proses klasifikasi
tersebut dilakukan sebagai proses training, sehingga diperlukan sebuah sistem yang
4
dapat memberikan soal yang memiliki berbagai tema berdasarkan SKL. Sistem yang
dibangun nantinya akan mampu mengklasifikasikan soal baru secara otomatis ke dalam
tema tertentu suatu mata pelajaran. Berdasarkan latar belakang yang telah dipaparkan
oleh penulis, maka sistem harus menggunakan algoritma yang cepat dan tepat untuk
memproses klasifikasi. Sehingga, di penelitian ini penulis menggunakan metode
information retrieval improved KNN dengan Generalized Vector Space Model
(GVSM) supaya guru dan siswa dapat mempelajari indikator soal mana saja yang
memenuhi Standar Kompetensi Lulusan (SKL) secara mudah, efisien, dan efektif.
5
3. PENELITIAN TERKAIT Commented [RS1]: Terlalu banyak penelitian terkaitnya.
Untuk VSM dan KNN tidak perlu dimasukkan, jika memang
Beberapa penelitian mengenai klasifikasi teks atau classfication text telah tidak akan dipakai
banyak dilakukan dengan berbagai macam metode, antara lain penelitian mengenai text
classification using naive bayes updateable algorithm in SBMPTN test questions
menyimpulkan bahwa data soal ujian dapat diklasifikasikan secara tepat dan benar
dengan akurasi 84,61%. Kegagalan klasifikasi disebabkan karena keterbatasan data
training (Saptono, Sulistyo et al. 2016).
Klasifikasi teks sangat berkaitan erat dengan text preprocessing. Penelitian
mengenai text preprocessing juga telah banyak dilakukan, salah satunya penelitian
mengenai stemming indonesian : a confix stripping approach yang menyimpulkan
bahwa algoritma Nazief & Adriani sangat efektif diterapkan di dalam pencarian
informasi dalam teks berbahasa indonesia karena akurasinya yang tinggi, tetapi untuk
beberapa dokumen yang berasal dari query yang bukan bahasa indonesia memiliki hasil
akurasinya kurang tinggi (Adriani, Asian et al. 2007).
Text preprocessing memerlukan metode yang cepat dan tepat dalam mencari
informasi sebuah dokumen. Berbagai penelitian mengenai information retrieval telah
dilakukan, antara lain penelitian mengenai linked data enabled generalized vector space
model to improve document menyimpulkan bahwa linked data dapat digunakan untuk
meningkatkan pencarian dokumen disesuaikan dengan generalized vector space model
(GVSM). Ada 2 pendekatan yang digunakan, yaitu taxonomic dan connectedness
feature. Pada pendekatan connectedness dapat meningkatkan akurasi saat pendekatan
taxonomic meningkatkan recall. Hasil evaluasi dengan kedua pendekatan ini
menghasilkan hasil yang baik dibandingkan dengan traditional text retrieval
(Waitelonis, Exeler et al. 2015).
Klasifikasi suatu dokumen tentu harus memperhatikan kemiripan antar informasi
satu dengan yang lain. Penelitian mengenai similarity suatu dokumen telah dilakukan,
antara lain penelitian mengenai perbandingan metode cosine similarity dengan metode
jaccard similarity pada aplikasi pencarian terjemah Al-Quran dalam bahasa indonesia
menyimpulkan bahwa metode cosine menghasilkan nilai kemiripan yang tinggi yaitu
sebesar 41% karena metode cosine similarity memiliki konsep normalisasi panjang
vektor data dengan membandingkan N-gram yang sejajar satu sama lain dari 2
pembanding. Hasil akurasi yang dicari berpengaruh pada keyword yang dicari.
6
Sehingga, kata kunci (keyword) harus sesuai dengan aturan penulisan bahasa indonesia.
Kelengkapan daftar stoplist dan hasil root dari stemming untuk kata bahasa indonesia
juga mempengaruhi keakuratan pengelompokkan dokumen teks dan pemilihan kata
untuk dijadikan term (Nurdiana, Jumadi et al. 2016).
Selain itu, penelitian lainnya yang berkaitan dengan klasifikasi, diantaranya
penelitian mengenai survey of improving k-nearest neighbor for classification
menyimpulkan bahwa untuk meningkatkan hasil akurasi dari K-Nearest Neighbor
(KNN), maka dilakukan modifikasi metode, yaitu menggunakan metode improved
KNN. Metode ini dapat menggunakan 3 model, yaitu dengan distance function,
neighbor size, dan class probability estimation (Jiang, Cai et al. 2007). Penelitian
mengenai Comparison between KNN and ANN Classification in Brain Balancing
Application via Spectogram Image menyimpulkan bahwa klasifikasi menggunakan
algoritma K-Nearest Neighbor (KNN) dan Artificial Neural menggunakan data
sebanyak 80% untuk proses training dan 20% untuk tesing. Keluaran dari klasifikasi
akan diverifikasi bersama dengan dominasi brain questionnaire. Model klasifikasi
terbaik akan dipilih berdasarkan akurasi yang tinggi dan MSE yang kecil. Akurasi yang
dihasilkan untuk algoritma KNN sebesar 90%, sedangkan ANN sebesar 87,5%. Selain
itu, MSE yang dihasilkan untuk algoritma KNN sebesar 0,1%, sedangkan ANN sebesar
0,7918% (Mustafa, RTaid et al. 2012). Selain, itu juga ada pengembangan penelitian
dari KNN yaitu menggunakan improved K-Nearest Neighbor pada analisis sentimen
twitter berbahasa indonesia. Penelitian ini menyimpulkan bahwa pengujian analisis
sentimen pada twitter berbahasa indonesia dengan metode improved K-Nearest
Neighbor (KNN) menghasilkan rata-rata precision atau akurasi sebesar 0,823, rata-rata
recall (sensitifitas atau kemampuan sistem memilih hasil yang sesuai) sebesar 0,865,
dan rata-rata F-measure sebesar 0,843. (Putri, Drs. Achmad Ridok et al. 2013).
Tabel 3.1. Penelitian Terkait Commented [RS2]: Style huruf untuk judul tabel tolong
diperbaiki
Penulis dan
No Judul Metode Hasil Kelebihan Kelemahan
Tahun
Text Data soal ujian dapat Ruang
Classification Naive diklasifikasikan lingkup untuk
Dapat
(Saptono et using Naive Bayes secara tepat dan klasifikasi
1. meningkatkan
al., 2016) Bayes Updateabl benar dengan akurasi tema masih
akurasi.
Updateable e 84,61%. Kegagalan terlalu luas
Algorithm in klasifikasi karena tidak
7
SBMPTN disebabkan karena melakukan
Test keterbatasan data klasifikasi
Questions training. terlebih
dahulu ke
dalam bidang
studi yang
berkaitan.
Algoritma Nazief &
Adriani sangat
efektif diterapkan di
dalam pencarian
informasi dalam teks
Stemming berbahasa indonesia Akurasi yang Akurasi tidak
Indonesian : Algoritma karena akurasinya baik untuk baik untuk
(Adriani et
2. A Confix Nazief & yang tinggi, tetapi terjemahan terjemahan
al., 2007)
Stripping Adriani untuk beberapa bahasa selain bahasa
Approach dokumen yang indonesia. indonesia.
berasal dari query
yang bukan bahasa
indonesia memiliki
hasil akurasinya
kurang tinggi.
Linked data dapat
digunakan untuk
meningkatkan
pencarian dokumen
disesuaikan dengan
generalized vector
space model
(GVSM). Ada 2
pendekatan yang
Model belum
digunakan, yaitu
Linked Data dilengkapi
taxonomic dan
Enabled Generalize tambahan
connectedness Dapat
Generalized d Vector knowledges
(Waitelonis feature. Pada meningkatkan
3. Vector Space Space base yang
et al., 2015) pendekatan akurasi dan
Model to Model lain,
connectedness dapat recall.
Improve (GVSM) misalnya
meningkatkan
Document dokumen
akurasi, sedangkan
nasional.
saat pendekatan
taxonomic
meningkatkan recall.
Hasil evaluasi
dengan kedua
pendekatan ini
menghasilkan hasil
yang baik
dibandingkan
8
dengan traditional
text retrieval.
Metode cosine
menghasilkan nilai
kemiripan yang
tinggi yaitu sebesar
41% karena metode
cosine similarity
memiliki konsep
normalisasi panjang
vektor data dengan
Perbandingan membandingkan N-
Metode gram yang sejajar
Metode cosine
Cosine satu sama lain dari 2
similarity
Similarity pembanding. Hasil
Cosine memiliki
dengan akurasi yang dicari
Similarity, tingkat
Metode berpengaruh pada Tidak adanya
Jaccard kemiripan
(Nurdiana et Jaccard keyword yang dicari. pengembanga
4. Similarity, yang paling
al., 2016) Similarity Sehingga, kata kunci n modifikasi
K-Nearest tinggi
pada Aplikasi (keyword) harus metode.
Neighbor dibandingkan
Pencarian sesuai dengan aturan
(KNN) jaccard
Terjemah Al- penulisan bahasa
similarity dan
Quran dalam indonesia.
KNN.
Bahasa Kelengkapan daftar
Indonesia stoplist dan hasil
root dari stemming
untuk kata bahasa
indonesia juga
mempengaruhi
keakuratan
pengelompokkan
dokumen teks dan
pemilihan kata untuk
dijadikan term.
Untuk meningkatkan
hasil akurasi dari K-
Nearest Neighbor
(KNN), maka
Model class
dilakukan modifikasi
Survey of probability
metode, yaitu
Improving K- Improved estimation
(Jiang et al., menggunakan Meningkatkan
5. Nearest K-Nearest dan
2007) metode improved akurasi.
Neighbor for Neighbor perangkingan
KNN. Metode ini
Classification belum
dapat menggunakan
dibahas.
3 model, yaitu
dengan distance
function, neighbor
size, dan class
9
probability
estimation.
Klasifikasi
menggunakan
algoritma K-Nearest
Neighbor (KNN)
dan Artificial Neural
menggunakan data
sebanyak 80% untuk
proses training dan
20% untuk tesing.
Keluaran dari
Comparison klasifikasi akan
between KNN diverifikasi bersama
K-Nearest
and ANN dengan dominasi
Neighbor KNN memiliki
Classification brain questionnaire. Akurasi ANN
(KNN), tingkat akurasi
(Mustafa et in Brain Model klasifikasi lebih kecil
6. Artificial tinggi dan
al., 2012) Balancing terbaik akan dipilih dibandingkan
Neural error yang
Application berdasarkan akurasi dengan KNN.
Network kecil.
via yang tinggi dan MSE
(ANN)
Spectogram yang kecil. Akurasi
Image yang dihasilkan
untuk algoritma
KNN sebesar 90%,
sedangkan ANN
sebesar 87,5%.
Selain itu, MSE
yang dihasilkan
untuk algoritma
KNN sebesar 0,1%,
sedangkan ANN
sebesar 0,7918%.
Pengujian analisis
Metode yang
sentimen pada
dibangun
twitter berbahasa
pada sistem
Implementasi indonesia dengan
kurang dapat
Metode metode improved K-
menangani
Improved K- Nearest Neighbor
jumlah data
Nearest (KNN)
Improved latih yang
(Putri et al., Neighbor menghasilkan rata- Meningkatkan
7. K-Nearest tidak
2013) pada Analisis rata precision atau akurasi.
Neighbor seimbang,
Sentimen akurasi sebesar
hanya 2
Twitter 0,823, rata-rata
parameter
Berbahasa recall (sensitifitas
yang
Indonesia atau kemampuan
digunakan
sistem memilih hasil
untuk
yang sesuai) sebesar
klasifikasi.
0,865, dan rata-rata
10
F-measure sebesar
0,843. Metode
improved KNN
untuk
mengklasifikasikan
sentimen dari
dokumen tweets
secara otomatis
dilakukan dengan
cara melakukan
preprocessing pada
dokumen sehingga
didapatkan kata-
kata, kemudian
menghitung bobot
dan similaritas dari
dokumen uji
terhadap dokumen
semua latih serta
mengurutkan
similaritasnya,
setelah itu dihitung
probabilitasnya pada
masing-masing kelas
terhadap n-tetangga
terdekat, dimana
nilai n adalah nilai k
masukan pengguna
yang sudah
dimodifikasi.
4. DASAR TEORI
11
sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang
terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan
menjadi nilai nilai numerik. Proses ini sering disebut text preprocessing (Feldman &
Sanger, 2007).
Beberapa proses yang dilakukan dalam text preprocessing sebagai berikut :
4.1.2. Tokenizing
Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap
kata yang menyusunnya (Bukhari, 2015).
Proses tokenizing :
perekonomian
disusun
sebagai
usaha
bersama
berdasar
atas
12
asas
kekeluargaan
pernyataan
tersebut
tercantum
dalam
uud
pasal
Proses filtering :
13
perekonomian
disusun
usaha
asas
kekeluargaan
pernyataan
tercantum
uud
pasal
4.1.4. Stemming
Proses stemming dapat dilakukan ke dalam berbagai bahasa, diantaranya
adalah proses stemming pada teks berbahasa indonesia dan berbahasa inggris. Proses
stemming yang dilakukan untuk teks berbahasa indonesia berbeda dengan teks
berbahasa inggris. Pada teks berbahasa inggris, proses yang dilakukan hanya proses
menghilangkan sufiks. Sedangkan, pada teks berbahasa indonesia, selain sufiks, prefiks,
dan konfiks juga dihilangkan (Agusta, 2009).
Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti
algoritma Porter untuk teks berbahasa inggris, algoritma Porter untuk teks berbahasa
indonesia, algoritma nazief & adriani untuk teks berbahasa indonesia (Agusta, 2009).
Porter stemming merupakan algoritma penghilangan imbuhan pada kata
berbahasa inggris yang digunakan untuk proses normalisasi kata yang biasanya
dilakukan saat preprocessing sistem temu kembali. Algoritma Porter pertama akan
mengidentifikasi kata berdasarkan huruf konsonan (C) dan vokal (V). Huruf a, i, u, e, o,
dan y akan dianggap sebagai huruf vocal, sedangkan selain huruf huruf tersebut
dianggap konsonan. Sebuah kata yang memiliki huruf konsonan dengan panjang lebih
dari 0 akan dianggap sebagai C, begitu juga sebaliknya. Contohnya (Porter, 1980):
TREE C(TR) V (EE) CV
COMPUTER C(C) V(O) C(MP) V(U) C(T) V(E) C(R) CVCVCVC
Dalam algoritmanya, digunakan perhitungan m yang merupakan jumlah
pengulangan VC pada tiap kata, yang tiap kata akan diawali dengan C dan diakhiri
dengan V. Jika awal dan akhir kata bukan C dan V, maka akan ditambahkan tanpa
14
mengindahkan susunan kata, namun jika ada maka C dan V dari kata tersebut akan
digunakan dalam perhitungan, misalnya :
COMPUTER [C] VCVCVC [V]; m = 3
Kata COMPUTER memiliki susunan kata CVCVCVC, sehingga C awal
digunakan sebagai penanda perhitungan awal. Setelah itu, VC terulang sebanyak 3 kali.
Karena susunan diakhiri dengan huruf konsonan (C), maka ditambahkan V di
penutupnya. Aturan dari algoritma Porter diantaranya adalah pengubahan SSES SS.
Hal ini berarti jika sebuah imbuhan kata adalah SSES, imbuhan tersebut akan diubah
menjadi SS. Selain itu, terdapat beberapa kondisi yang dipakai sebagai dasar
perhitungan nilai m, yaitu :
*S : kata berimbuhan yang diakhiri S
*v : kata yang berisi huruf vokal
*d : kata yang diakhiri dengan dobel konsonal (misal TT, -SS)
*o : kata berimbuhan yang huruf keduanya diakhiri dengan konsonan,
tetapi bukan W, X, atau Y (misal WIL, HOP)
15
1
( ) = (3)
()
( ) = log (4)
()
Keterangan :
: jumlah frekuensi term
: jumlah frekuensi kemunculan
: dokumen ke j
: term ke k
Inverse Document Frequency (IDF) merupakan nilai bobot suatu term yang
dihitung dari seringnya suatu term muncul dalam beberapa dokumen. Semakin sering
suatu term muncul dalam banyak dokumen, maka nilai IDF semakin kecil.
16
Term yang digunakan dalam pertimbangan kedekatan sense diprediksi lebih
akurat untuk merepresentasikan dokumen karena setiap term dinyatakan sebagai
kombinasi linier dari vektor 2 dimensi. Representasi vektor yang digunakan dalam
GVSM ada 2 yaitu, dengan free boolean algebra (tanpa external constraint) dan dengan
index term (Wong, Ziarko, & Wong, 1985).
2
=1
Jaccard : ( , ) = (10)
=1 + =1 =1
2
Euclidean distance : ( , ) = =1( ) (11)
1 ( ) ( )
Pearson correlation : ( , ) = (
+ 1) (12)
2 2 2
=1
Cosine similarity : ( , ) = 2
(13)
2
=1( ) =1( )
Berdasarkan persamaan (9) sampai dengan persamaan (13), fungsi similaritas cosine
merupakan perhitungan jarak fungsi yang paling baik untuk tujuan pengelompokkan
(Strehl, Ghosh, & Mooney, 2000).
Di VSM, vektor antar term dianggap sebagai pasangan ortogonal. Tetapi, asumsi
ini sangat tidak realistis karena istilah dalam suatu bahasa kebanyakan memiliki tingkat
keterkaitan satu dengan lain. Sehingga, dikembangkan metode VSM menjadi GVSM
yang ditunjukkan melalui persamaan (14) :
=1 =1
( ,) = (14)
=1 2 =1 2
17
Dimana ( , ) merupakan term vektor di sebuah ruang vektor 2 dimensi, dan
adalah vektor dokumen dan query, adalah bobot dari dokumen yang dihitung
dengan rumus TF IDF, dan adalah dimensi ruang (Tsatsaronis & Panagiotopoulou,
2009).
, merupakan besar relasi antara term , yang dapat dihitung dengan
perhitungan semantic relatedness yang SCM (semantic compactness) dan SPE
(semantic path elaboration) harus diketahui terlebih dahulu. Apabila ada sebuah
tesaurus O, sebuah bagan pembobotan (weight) yang menentukan weight (0,1)
untuk setiap edge, sepasang senses = (1 , 2) dan sebuah path dengan panjang l yang
menyambungkan 2 senses tersebut, maka semantic compactness dari dihitung melalui
persamaan (15) :
(, ) = (15)
=1
18
Dimana merupakan bobot baru pada edge yang menghubungkan kedua
sense, 1 dan 2 (Tsatsaronis, Varlamis, & Vazirgiannis, 2010). Apabila menggunakan
nilai maksimum dari keterkaitan semantik antar term, maka term , yang
dan t O maka (, , ) = 1. Apabila, O, tetapi O atau O, sedangkan
O, maka maka (, , ) = 0 (Tsatsaronis & Panagiotopoulou, 2009).
19
Penelitian oleh (Li, Yu, & Lu, 2003) untuk dokumen teks berbahasa cina
menunjukkan bahwa dengan algoritma improved k-Nearest Neighbor didapatkan
kestabilan pada proses kategorisasi dengan berapa pun variasi .
Setelah mengetahui nilai yang baru yang diinisialisasi sebagai pada
persamaan (19), maka persamaan (20) menunjukkan nilai probabilitas yang dihasilkan
untuk menentukan keputusan menggunakan algoritma improved KNN.
__( ) ( , )( . )
( ) = __( ) ( , )
(20)
Dimana :
( ) probabilitas dokumen ke i
__( ) = { | }
( , ) kemiripan antara dokumen dengan dokumen latih
( . ) fungsi atribut dari kategori yang memenuhi persamaan (21)
1,
( . ) = { (21)
0,
20
5. METODOLOGI PENELITIAN
Penelitian ini melalui tahap tahap kegiatan yang meliputi pengumpulan dan
pengelompokkan data, text preprocessing, pembobotan TF IDF, text similarity,
perangkingan, klasifikasi improved KNN, training, dan evaluasi. Kerangka berfikir
pada penelitian ini dapat dilihat melalui flowchart metodologi penelitian di bawah ini :
Pengumpulan Data
Text preprocessing
Pembobotan TF IDF
tidak ya
SR 0
Pemodelan VSM Pemodelan GVSM
?
Text similarity
Perankingan
Klasifikasi improved
KNN
21
5.2. Text Preprocessing
Pada proses ini terdapat 3 tahapan utama, yaitu tokenizing, filtering, dan
stemming. Dalam tahap ini, perlu dilakukan case folding terlebih dahulu untuk
menghilangkan karakter selain abjad a-z. Pada tahap filtering, untuk daftar stopword
mengambil referensi dari http://www.ranks.nl/stopwords/ untuk bahasa indonesia dan
bahasa inggris. Sedangkan, pada tahapan stemming yang digunakan adalah Porter
stemming untuk bahasa indonesia dan bahasa inggris karena lebih cepat.
22
dan tidak memperhatikan bobot term pada dokumen yang ada di dalam query yang
dimaksud. Hal ini disebabkan karena selisih rasio logaritma yang dihasilkan tidak
terlalu besar, yaitu 0,1 dan bahkan, dengan cara ini, diperoleh hasil nilai cosine
similarity yang lebih tinggi daripada memperhatikan bobot term pada dokumen yang
ada di dalam query yang dimaksud dan bobot term pada dokumen yang ada secara
keseluruhan.
5.6. Perankingan
Perankingan dilakukan ketika sudah selesai menghitung kemiripan yang terjadi
dalam dokumen dokumen yang ada. Perankingan diambil dari perhitungan cosine
similarity yang terbesar ke terkecil.
23
tingkat kebenaran pengklasifikasian data terhadap kelas yang sebenarnya. Semakin
rendah nilai akurasi, maka semakin tinggi kesalahan klasifikasi pada data baru
(Fernando, 2014). Rumus perhitungan akurasi dapat dilihat melalui persamaan (22) :
= (22)
6. JADWAL PELAKSANAAN
Waktu
Mei 2017 Juni 2017 Juli 2017 Agustus September Oktober 2017
No Aktivitas 2017 2017
Minggu Minggu Minggu Minggu Minggu Minggu
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1. Pengumpulan
data
2. Text
preprocessing
3. Pemodelan
GVSM
4. Pembobotan
TF IDF
5. Text similarity
6. Perankingan
7. Klasifikasi
improved KNN
7. DAFTAR PUSTAKA
Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M., & Williams, H. E. (2007).
Stemming Indonesian: A confix-stripping approach. ACM Transactions on
Asian Language Information Processing (TALIP), 6(4), 1-33.
Agusta, L. (2009). Perbandingan algoritma stemming Porter dengan algoritma Nazief &
Adriani untuk stemming dokumen teks bahasa indonesia. Konferensi Nasional
Sistem dan Informatika, 196-201.
Broto Poernomo, T. P., & Gunawan, I. (2015). SISTEM INFORMATION RETRIEVAL
PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA
24
INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA. Paper
presented at the Seminar Nasional "Inovasi dalam Desain dan Teknologi".
Bukhari, V. H. (2015). SENTIMENT ANALYSIS MENGGUNAKAN K-NEAREST
NEIGHBOR DENGAN PERBANDINGAN FUNGSI JARAK (STUDI KASUS:
TWITTER INDOSAT DAN TELKOMSEL). Universitas Widyatama.
Clara. (2006). Pengertian Ujian. Retrieved 05 November, 2016, from
http://repository.upi.edu/1343/2/s_d5451_0706537_chapter1.pdf
Doyle, D. (2014). Stopword Lists. Retrieved 17 Maret, 2017, from
http://www.ranks.nl/stopwords/
Feldman, R., & Sanger, J. (2007). The text mining handbook: advanced approaches in
analyzing unstructured data: Cambridge university press.
Fernando, V. (2014). Klasifikasi data spasial untuk kemunculan hotspot di Provinsi
Riau menggunakan algoritme ID3. Retrieved 27 Maret, 2017, from
http://repository.ipb.ac.id/handle/123456789/69424
Hamzah, A., Soesianto, F., Susanto, A., & Istiyanto, J. E. (2015). Studi kinerja fungsi-
fungsi jarak dan similaritas dalam clustering dokumen teks berbahasa
indonesia. Paper presented at the Seminar Nasional Informatika (SEMNASIF).
Harjono, K. D. (2005). Perluasan Vektor Pada Metode Search Vector Space. Integral,
10, 106-113.
Jiang, L., Cai, Z., Wang, D., & Jiang, S. (2007). Survey of improving k-nearest-
neighbor for classification. Paper presented at the Fuzzy Systems and
Knowledge Discovery, 2007. FSKD 2007. Fourth International Conference on.
KBBI. (2016). Kamus Besar Bahasa Indonesia (KBBI) Versi Online. Retrieved 5
November, 2016, from http://kbbi.web.id/
Li, B., Yu, S., & Lu, Q. (2003). An improved k-nearest neighbor algorithm for text
categorization. arXiv preprint cs/0306099.
Liu, N., Zhang, B., Yan, J., Yang, Q., Yan, S., Chen, Z., . . . Ma, W.-Y. (2004).
Learning similarity measures in non-orthogonal space. Paper presented at the
Proceedings of the thirteenth ACM international conference on Information and
knowledge management.
Mustafa, M., RTaid, M., Murat, Z. H., & Sulaiman, N. (2012). Comparison between
KNN and ANN classification in brain balancing application via spectrogram
image. JCSCM, 2(4), 17-22.
Nurdiana, O., Jumadi, J., & Nursantika, D. (2016). Perbandingan Metode Cosine
Similarity Dengan Metode Jaccard Similarity Pada Aplikasi Pencarian Terjemah
Al-Quran Dalam Bahasa Indonesia. Jurnal Online Informatika, 1(1).
Pardede, J., Barmawi, M. M., & Pramono, W. D. (2013). Implementasi Metode
Generalized Vector Space Model Pada Aplikasi Information Retrieval. Jurnal
Informatika Vol 4, 1.
Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3), 130-137.
Putri, P. A., Drs. Achmad Ridok, M. K., & Indriati, S., MKom. (2013).
IMPLEMENTASI METODE IMPROVED K-NEAREST NEIGHBOR PADA
ANALISIS SENTIMEN TWITTER BERBAHASA INDONESIA. 2.
Saptono, R., Sulistyo, M. E., & Trihabsari, N. S. (2016). TEXT CLASSIFICATION
USING NAIVE BAYES UPDATEABLE ALGORITHM IN SBMPTN TEST
QUESTIONS. Telematika, 13(2), 123-133.
25
Strehl, A., Ghosh, J., & Mooney, R. (2000). Impact of similarity measures on web-page
clustering. Paper presented at the Workshop on artificial intelligence for web
search (AAAI 2000).
Tombros, A. (2002). The effectiveness of query-based hierarchic clustering of
documents for information retrieval. University of Glasgow.
Tsatsaronis, G., & Panagiotopoulou, V. (2009). A generalized vector space model for
text retrieval based on semantic relatedness. Paper presented at the Proceedings
of the 12th Conference of the European Chapter of the Association for
Computational Linguistics: Student Research Workshop.
Tsatsaronis, G., Varlamis, I., & Vazirgiannis, M. (2010). Text relatedness based on a
word thesaurus. Journal of Artificial Intelligence Research, 37(1), 1-40.
Undang Undang Nomor 20 Tahun 2003 Retrieved from
sindikker.dikti.go.id/dok/UU/UU20-2003-Sisdiknas.pdf
Waitelonis, J., Exeler, C., & Sack, H. (2015). Linked data enabled generalized vector
space model to improve document retrieval. Paper presented at the NLP &
DBpedia 2015 workshop at 14th Int. Semantic Web Conf. CEUR-WS.
Wibowo, A., Handojo, A., & Widjaja, C. (2012). Implementasi Generalized Vector
Space Model Menggunakan WordNet. Petra Christian University.
Wong, S. M., Ziarko, W., & Wong, P. C. (1985). Generalized vector spaces model in
information retrieval. Paper presented at the Proceedings of the 8th annual
international ACM SIGIR conference on Research and development in
information retrieval.
26