M0513035 Rl-Rev06

PROPOSAL TUGAS AKHIR
KLASIFIKASI TEMA MENGGUNAKAN ALGORITMA

INFORMATION RETRIEVAL IMPROVED KNN PADA SOAL
UJIAN NASIONAL
Disusun Oleh :
Nurma Ayu Wigati S.Subroto

M0513035
USULAN PENELITIAN
Diajukan untuk menyusun skripsi

Program Studi Informatika
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET
SURAKARTA
2017
PROPOSAL TUGAS AKHIR

UJIAN NASIONAL
Disusun Oleh :
Nurma Ayu Wigati S.Subroto

M0513035
USULAN PENELITIAN
Diajukan untuk menyusun skripsi

Program Studi Informatika
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET
SURAKARTA
2017
i
PERSETUJUAN
Proposal Skripsi Mahasiswa :

NURMA AYU WIGATI S.SUBROTO
M0513035
Dengan judul
UJIAN NASIONAL
Telah disetujui untuk diseminarkan pada tanggal,

Persetujuan Pembimbing
Pembimbing I Pembimbing II
Ristu Saptono, S.Si, M.T.

NIP. 197902102002121001 NIP.
ii
DAFTAR ISI
PERSETUJUAN............................................................................................................... ii
DAFTAR ISI ................................................................................................................... iii
DAFTAR TABEL ............................................................................................................ v
DAFTAR GAMBAR....................................................................................................... vi
1. JUDUL ......................................................................................................................... 1
2. PENDAHULUAN ....................................................................................................... 1
2.1. Latar Belakang Masalah ........................................................................................ 1
2.2. Rumusan Masalah ................................................................................................. 5
2.3. Batasan Masalah .................................................................................................... 5
2.4. Tujuan Penelitian ................................................................................................... 5
2.5. Manfaat Penelitian ................................................................................................. 5
3. PENELITIAN TERKAIT ........................................... Error! Bookmark not defined.
4. DASAR TEORI ......................................................................................................... 11
4.1. Text Preprocessing .............................................................................................. 11
4.1.1.Case folding ............................................................................................ 12
4.1.2.Tokenizing ............................................................................................... 12
4.1.3.Stopword removal atau filtering ............................................................. 13
4.1.4.Stemming ................................................................................................. 14
4.2. Pembobotan Term Frequency Inverse Document Frequency (TF - IDF) ....... 15
4.3. Generalized Vector Space Model ........................................................................ 16
4.4. Text Similarity ..................................................................................................... 17
4.5. Improved KNN .................................................................................................... 19
5. METODOLOGI PENELITIAN ................................................................................ 21
5.1. Pengumpulan Data............................................................................................... 21
5.2. Text Preprocessing ........................................................................................... 22
5.3. Pemodelan GVSM ............................................................................................... 22
5.4. Pembobotan TF IDF ......................................................................................... 22
5.5. Text Similarity ..................................................................................................... 23
5.6. Perankingan ......................................................................................................... 23
5.7. Klasifikasi Improved KNN .................................................................................. 23
6. JADWAL PELAKSANAAN .................................................................................... 24
iii
7. DAFTAR PUSTAKA ................................................................................................ 24
iv
DAFTAR TABEL
Tabel 3.1. Penelitian Terkait............................................ Error! Bookmark not defined.
v
DAFTAR GAMBAR
Gambar 5.1. Flowchart Metodologi Penelitian .............................................................. 21
vi
1. JUDUL
Klasifikasi Tema Menggunakan Algoritma Information Retrieval Improved
KNN pada Soal Ujian Nasional.
2. PENDAHULUAN
2.1. Latar Belakang Masalah

Pendidikan merupakan proses pengubahan sikap dan tata laku seseorang atau
kelompok orang dalam usaha mendewasakan manusia melalui upaya pengajaran dan
pelatihan, atau juga bisa melalui proses, cara, dan perbuatan mendidik (KBBI 2016).
Proses yang dilakukan tentu harus memperhatikan kaidah-kaidah prinsip
penyelenggaraan pendidikan yang baik. Prinsip yang dimaksud adalah sejalan dengan
tujuan pendidikan nasional, yaitu mengembangkan kemampuan dan membentuk watak,
serta peradaban bangsa yang bermartabat dalam rangka mencerdaskan kehidupan
bangsa, mengembangkan potensi peserta didik agar menjadi manusia yang beriman dan
bertakwa kepada Tuhan Yang Maha Esa, berakhak mulia, sehat, berilmu, cakap, kreatif,
mandiri, dan menjadi warga negara yang demokratis, serta bertanggung jawab. Dengan
kata lain, peserta didik secara aktif dapat mengembangkan potensi dirinya untuk
memiliki kemampuan spiritual, pengendalian terhadap diri sendiri, kepribadian,
kecerdasan, akhlak mulia, dan keterampilan yang diperlukan dirinya, masyarakat,
bangsa, dan negara.
Proses pendidikan dapat dilakukan dengan berbagai cara, salah satunya adalah
dengan melakukan evaluasi untuk memantau perkembangan pendidikan. Menurut
(Undang Undang Nomor 20 Tahun 2003) tentang sistem pendidikan nasional
menyatakan bahwa evaluasi dilakukan dalam rangka pengendalian mutu pendidikan
sebagai bentuk akuntabilitas penyelenggara pendidikan kepada pihak-pihak yang
berkepentingan, misalnya dengan melakukan ujian. Ujian merupakan salah satu cara
untuk mengevaluasi proses belajar. Dalam dunia pendidikan ujian dimaksudkan untuk
mengukur taraf pencapaian suatu tujuan pengajaran oleh siswa sebagai peserta didik,
sehingga siswa dapat mengetahui tingkat kemampuannya dalam memahami bidang
studi yang sedang ditempuh. Bila ternyata hasilnya belum maksimal, maka proses
belajar harus ditingkatkan baik kualitas maupun kuantitas (Clara 2006).
1
Pelaksanaan ujian yang dilakukan di seluruh wilayah Indonesia secara nasional
atau yang biasa disingkat UAN atau UNAS atau UN diselenggarakan untuk siswa-siswa
tingkat akhir yang ada di sekolah dasar (SD), menengah pertama (SMP), hingga
menengah atas (SMA). Ujian nasional menggunakan soal-soal yang disesuaikan dan
ditetapkan berdasarkan Badan Standar Nasional Pendidikan (BSNP). Soal-soal yang
diberikan kepada siswa harus memenuhi Standar Kompetensi Lulusan (SKL) yang akan
digunakan sebagai bahan evaluasi untuk memantau keberhasilan para siswa di Indonesia
dalam memahami materi-materi mata pelajaran yang telah diberikan selama menempuh
pendidikan di sekolah. Mata pelajaran yang diujikan untuk siswa SD yaitu Bahasa
Indonesia, Matematika, dan Ilmu Pengetahuan Alam (IPA). Untuk siswa SMP, mata
pelajaran yang diujikan yaitu Bahasa Indonesia, Matematika, Bahasa Inggris, dan Ilmu
Pengetahuan Alam (IPA). Sedangkan, untuk siswa SMA yang terdiri dari 3 program,
yaitu program IPA, IPS, dan Bahasa, memiliki masing-masing mata pelajaran yang
harus diujikan kepada para peserta didik yang ada di tingkat akhir. Mata pelajaran yang
diujikan untuk siswa SMA Program IPA yaitu Bahasa Indonesia, Bahasa Inggris,
Matematika, Fisika, Kimia, dan Biologi. Mata pelajaran yang diujikan untuk siswa
SMA Program IPS yaitu Bahasa Indonesia, Bahasa Inggris, Matematika, Ekonomi,
Sosiologi, dan Geografi. Mata pelajaran yang diujikan untuk siswa SMA Program
Bahasa yaitu Bahasa Indonesia, Bahasa Inggris, Matematika, Sastra Indonesia,
Antropologi, dan Bahasa Asing.
Standarisasi penilaian yang ditentukan sebagai syarat lulus untuk peserta didik
semakin meningkat setiap tahun, maka membuat para siswa ini harus rajin belajar
supaya dapat mengerjakan ujian nasional dan lulus sesuai dengan kriteria yang telah
ditetapkan oleh pemerintah. Hal ini mendorong para guru untuk memberikan materi
mata pelajaran dan soal-soal latihan kepada peserta didiknya secara intensif, terutama
yang ada di dalam Standar Kompetensi Lulusan (SKL) yang telah ditetapkan. Guru
memberikan soal latihan kepada para siswanya untuk mengetahui materi yang belum
dikuasai oleh mereka. Saat memberikan soal, guru harus menentukan tema yang ada di
mata pelajaran yang bersangkutan sesuai dengan Standar Kompetensi (SKL) yang
ditetapkan atau tidak. Setiap SKL yang ditentukan akan mengandung tema tertentu.
Setiap soal yang diberikan memiliki tema yang menggambarkan indikator dalam
Standar Kompetensi Lulusan (SKL). Proses pembuatan soal harus diklasifikasikan atau
2
dikelompokkan berdasarkan dengan tema yang ada di SKL di mata pelajaran yang
berkaitan. Hal ini tentunya menyebabkan proses pembuatan soal menjadi tidak efisien
karena lamanya proses pengelompokkan yang dilakukan saat pembuatan soal yang
diberikan dan memungkinkan untuk melakukan kesalahan, diantaranya guru tidak teliti
saat memasukkan tema tertentu pada soal.
Beberapa penelitian mengenai klasifikasi teks atau classfication text telah
banyak dilakukan dengan berbagai macam metode, antara lain penelitian mengenai text
classification using naive bayes updateable algorithm in SBMPTN test questions
menyimpulkan bahwa data soal ujian dapat diklasifikasikan secara tepat dan benar
dengan akurasi 84,61%. Kegagalan klasifikasi disebabkan karena keterbatasan data
training (Saptono et al., 2016).
Klasifikasi teks sangat berkaitan erat dengan text preprocessing. Penelitian
mengenai text preprocessing juga telah banyak dilakukan, salah satunya penelitian
mengenai stemming indonesian : a confix stripping approach yang menyimpulkan
bahwa algoritma Nazief & Adriani sangat efektif diterapkan di dalam pencarian
informasi dalam teks berbahasa indonesia karena akurasinya yang tinggi, tetapi untuk
beberapa dokumen yang berasal dari query yang bukan bahasa indonesia memiliki hasil
akurasinya kurang tinggi (Adriani et al., 2007).
Text preprocessing memerlukan metode yang cepat dan tepat dalam mencari
informasi sebuah dokumen. Berbagai penelitian mengenai information retrieval telah
dilakukan, antara lain penelitian mengenai linked data enabled generalized vector space
model to improve document menyimpulkan bahwa linked data dapat digunakan untuk
meningkatkan pencarian dokumen disesuaikan dengan generalized vector space model
(GVSM). Ada 2 pendekatan yang digunakan, yaitu taxonomic dan connectedness
feature. Pada pendekatan connectedness dapat meningkatkan akurasi saat pendekatan
taxonomic meningkatkan recall. Hasil evaluasi dengan kedua pendekatan ini
menghasilkan hasil yang baik dibandingkan dengan traditional text retrieval (Waitelonis
et al., 2015).
Klasifikasi suatu dokumen tentu harus memperhatikan kemiripan antar informasi
satu dengan yang lain. Penelitian mengenai similarity suatu dokumen telah dilakukan,
antara lain penelitian mengenai perbandingan metode cosine similarity dengan metode
jaccard similarity pada aplikasi pencarian terjemah Al-Quran dalam bahasa indonesia
3
menyimpulkan bahwa metode cosine menghasilkan nilai kemiripan yang tinggi yaitu
sebesar 41% karena metode cosine similarity memiliki konsep normalisasi panjang
vektor data dengan membandingkan N-gram yang sejajar satu sama lain dari 2
pembanding. Hasil akurasi yang dicari berpengaruh pada keyword yang dicari.
Sehingga, kata kunci (keyword) harus sesuai dengan aturan penulisan bahasa indonesia.
Kelengkapan daftar stoplist dan hasil root dari stemming untuk kata bahasa indonesia
juga mempengaruhi keakuratan pengelompokkan dokumen teks dan pemilihan kata
untuk dijadikan term (Nurdiana et al., 2016).
Selain itu, penelitian lainnya yang berkaitan dengan klasifikasi, diantaranya
penelitian mengenai survey of improving k-nearest neighbor for classification
menyimpulkan bahwa untuk meningkatkan hasil akurasi dari K-Nearest Neighbor
(KNN), maka dilakukan modifikasi metode, yaitu menggunakan metode improved
KNN. Metode ini dapat menggunakan 3 model, yaitu dengan distance function,
neighbor size, dan class probability estimation (Jiang et al., 2007). Penelitian mengenai
Comparison between KNN and ANN Classification in Brain Balancing Application via
Spectogram Image menyimpulkan bahwa klasifikasi menggunakan algoritma K-Nearest
Neighbor (KNN) dan Artificial Neural menggunakan data sebanyak 80% untuk proses
training dan 20% untuk tesing. Keluaran dari klasifikasi akan diverifikasi bersama
dengan dominasi brain questionnaire. Model klasifikasi terbaik akan dipilih berdasarkan
akurasi yang tinggi dan MSE yang kecil. Akurasi yang dihasilkan untuk algoritma KNN
sebesar 90%, sedangkan ANN sebesar 87,5%. Selain itu, MSE yang dihasilkan untuk
algoritma KNN sebesar 0,1%, sedangkan ANN sebesar 0,7918% (Mustafa et al., 2012).
Selain, itu juga ada pengembangan penelitian dari KNN yaitu menggunakan improved
K-Nearest Neighbor pada analisis sentimen twitter berbahasa indonesia. Penelitian ini
menyimpulkan bahwa pengujian analisis sentimen pada twitter berbahasa indonesia
dengan metode improved K-Nearest Neighbor (KNN) menghasilkan rata-rata precision
atau akurasi sebesar 0,823, rata-rata recall (sensitifitas atau kemampuan sistem memilih
hasil yang sesuai) sebesar 0,865, dan rata-rata F-measure sebesar 0,843. (Putri et al.,
2013).
Klasifikasi soal ujian berdasarkan informasi yang ada dalam suatu soal
digunakan untuk mengidentifikasi tema tertentu di mata pelajaran. Proses klasifikasi
tersebut dilakukan sebagai proses training, sehingga diperlukan sebuah sistem yang
4
dapat memberikan soal yang memiliki berbagai tema berdasarkan SKL. Sistem yang
dibangun nantinya akan mampu mengklasifikasikan soal baru secara otomatis ke dalam
tema tertentu suatu mata pelajaran. Berdasarkan latar belakang yang telah dipaparkan
oleh penulis, maka sistem harus menggunakan algoritma yang cepat dan tepat untuk
memproses klasifikasi. Sehingga, di penelitian ini penulis menggunakan metode
information retrieval improved KNN dengan Generalized Vector Space Model
(GVSM) supaya guru dan siswa dapat mempelajari indikator soal mana saja yang
memenuhi Standar Kompetensi Lulusan (SKL) secara mudah, efisien, dan efektif.
2.2. Rumusan Masalah

Rumusan masalah pada kasus klasifikasi ujian adalah bagaimana kinerja
algoritma information retrieval improved KNN dalam mengklasifikasikan soal-soal
ujian nasional ke dalam suatu tema.
2.3. Batasan Masalah

1. Soal ujian nasional untuk SMA program IPA dan IPS. Soal ujian yang
diklasifikasikan meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris,
Matematika, Fisika, Kimia, dan Biologi untuk program IPA. Sedangkan, mata
pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika, Ekonomi,
Sosiologi, dan Geografi untuk program IPS.
2. Soal yang diujikan diklasifikasikan berupa teks. Soal yang mengandung
gambar, tabel, dan bagan alur tidak disertakan.
2.4. Tujuan Penelitian

Tujuan yang ingin dicapai dalam penelitian ini adalah untuk mengukur kinerja
algoritma information retrieval improved KNN dalam melakukan klasifikasi soal-soal
ujian nasional berdasarkan tema.
2.5. Manfaat Penelitian

Manfaat penelitian adalah membantu para siswa dan guru untuk menguasai
materi apa saja yang ada di dalam soal ujian nasional berdasarkan Standar Kompetensi
Lulus (SKL). Sehingga, untuk guru dapat mengetahui tema mana saja yang belum
masuk ke dalam Standar Kompetensi Lulus (SKL) yang akan diberikan siswa untuk
latihan, sedangkan untuk siswa dapat mengetahui indikator Standar Kompetensi Lulus
(SKL) yang belum dikuasai berdasarkan tema yang diberikan pada soal.
5
3. PENELITIAN TERKAIT Commented [RS1]: Terlalu banyak penelitian terkaitnya.
Untuk VSM dan KNN tidak perlu dimasukkan, jika memang
Beberapa penelitian mengenai klasifikasi teks atau classfication text telah tidak akan dipakai
banyak dilakukan dengan berbagai macam metode, antara lain penelitian mengenai text
classification using naive bayes updateable algorithm in SBMPTN test questions
menyimpulkan bahwa data soal ujian dapat diklasifikasikan secara tepat dan benar
dengan akurasi 84,61%. Kegagalan klasifikasi disebabkan karena keterbatasan data
training (Saptono, Sulistyo et al. 2016).
Klasifikasi teks sangat berkaitan erat dengan text preprocessing. Penelitian
mengenai text preprocessing juga telah banyak dilakukan, salah satunya penelitian
mengenai stemming indonesian : a confix stripping approach yang menyimpulkan
bahwa algoritma Nazief & Adriani sangat efektif diterapkan di dalam pencarian
informasi dalam teks berbahasa indonesia karena akurasinya yang tinggi, tetapi untuk
beberapa dokumen yang berasal dari query yang bukan bahasa indonesia memiliki hasil
akurasinya kurang tinggi (Adriani, Asian et al. 2007).
Text preprocessing memerlukan metode yang cepat dan tepat dalam mencari
informasi sebuah dokumen. Berbagai penelitian mengenai information retrieval telah
dilakukan, antara lain penelitian mengenai linked data enabled generalized vector space
model to improve document menyimpulkan bahwa linked data dapat digunakan untuk
meningkatkan pencarian dokumen disesuaikan dengan generalized vector space model
(GVSM). Ada 2 pendekatan yang digunakan, yaitu taxonomic dan connectedness
feature. Pada pendekatan connectedness dapat meningkatkan akurasi saat pendekatan
taxonomic meningkatkan recall. Hasil evaluasi dengan kedua pendekatan ini
menghasilkan hasil yang baik dibandingkan dengan traditional text retrieval
(Waitelonis, Exeler et al. 2015).
Klasifikasi suatu dokumen tentu harus memperhatikan kemiripan antar informasi
satu dengan yang lain. Penelitian mengenai similarity suatu dokumen telah dilakukan,
antara lain penelitian mengenai perbandingan metode cosine similarity dengan metode
jaccard similarity pada aplikasi pencarian terjemah Al-Quran dalam bahasa indonesia
menyimpulkan bahwa metode cosine menghasilkan nilai kemiripan yang tinggi yaitu
sebesar 41% karena metode cosine similarity memiliki konsep normalisasi panjang
vektor data dengan membandingkan N-gram yang sejajar satu sama lain dari 2
pembanding. Hasil akurasi yang dicari berpengaruh pada keyword yang dicari.
6
Sehingga, kata kunci (keyword) harus sesuai dengan aturan penulisan bahasa indonesia.
Kelengkapan daftar stoplist dan hasil root dari stemming untuk kata bahasa indonesia
juga mempengaruhi keakuratan pengelompokkan dokumen teks dan pemilihan kata
untuk dijadikan term (Nurdiana, Jumadi et al. 2016).
Selain itu, penelitian lainnya yang berkaitan dengan klasifikasi, diantaranya
penelitian mengenai survey of improving k-nearest neighbor for classification
menyimpulkan bahwa untuk meningkatkan hasil akurasi dari K-Nearest Neighbor
(KNN), maka dilakukan modifikasi metode, yaitu menggunakan metode improved
KNN. Metode ini dapat menggunakan 3 model, yaitu dengan distance function,
neighbor size, dan class probability estimation (Jiang, Cai et al. 2007). Penelitian
mengenai Comparison between KNN and ANN Classification in Brain Balancing
Application via Spectogram Image menyimpulkan bahwa klasifikasi menggunakan
algoritma K-Nearest Neighbor (KNN) dan Artificial Neural menggunakan data
sebanyak 80% untuk proses training dan 20% untuk tesing. Keluaran dari klasifikasi
akan diverifikasi bersama dengan dominasi brain questionnaire. Model klasifikasi
terbaik akan dipilih berdasarkan akurasi yang tinggi dan MSE yang kecil. Akurasi yang
dihasilkan untuk algoritma KNN sebesar 90%, sedangkan ANN sebesar 87,5%. Selain
itu, MSE yang dihasilkan untuk algoritma KNN sebesar 0,1%, sedangkan ANN sebesar
0,7918% (Mustafa, RTaid et al. 2012). Selain, itu juga ada pengembangan penelitian
dari KNN yaitu menggunakan improved K-Nearest Neighbor pada analisis sentimen
twitter berbahasa indonesia. Penelitian ini menyimpulkan bahwa pengujian analisis
sentimen pada twitter berbahasa indonesia dengan metode improved K-Nearest
Neighbor (KNN) menghasilkan rata-rata precision atau akurasi sebesar 0,823, rata-rata
recall (sensitifitas atau kemampuan sistem memilih hasil yang sesuai) sebesar 0,865,
dan rata-rata F-measure sebesar 0,843. (Putri, Drs. Achmad Ridok et al. 2013).
Tabel 3.1. Penelitian Terkait Commented [RS2]: Style huruf untuk judul tabel tolong
diperbaiki
Penulis dan
No Judul Metode Hasil Kelebihan Kelemahan
Tahun
Text Data soal ujian dapat Ruang
Classification Naive diklasifikasikan lingkup untuk
Dapat
(Saptono et using Naive Bayes secara tepat dan klasifikasi
1. meningkatkan
al., 2016) Bayes Updateabl benar dengan akurasi tema masih
akurasi.
Updateable e 84,61%. Kegagalan terlalu luas
Algorithm in klasifikasi karena tidak
7
SBMPTN disebabkan karena melakukan
Test keterbatasan data klasifikasi
Questions training. terlebih
dahulu ke
dalam bidang
studi yang
berkaitan.
Algoritma Nazief &
Adriani sangat
efektif diterapkan di
dalam pencarian
informasi dalam teks
Stemming berbahasa indonesia Akurasi yang Akurasi tidak
Indonesian : Algoritma karena akurasinya baik untuk baik untuk
(Adriani et
2. A Confix Nazief & yang tinggi, tetapi terjemahan terjemahan
al., 2007)
Stripping Adriani untuk beberapa bahasa selain bahasa
Approach dokumen yang indonesia. indonesia.
berasal dari query
yang bukan bahasa
indonesia memiliki
hasil akurasinya
kurang tinggi.
Linked data dapat
digunakan untuk
meningkatkan
pencarian dokumen
disesuaikan dengan
generalized vector
space model
(GVSM). Ada 2
pendekatan yang
Model belum
digunakan, yaitu
Linked Data dilengkapi
taxonomic dan
Enabled Generalize tambahan
connectedness Dapat
Generalized d Vector knowledges
(Waitelonis feature. Pada meningkatkan
3. Vector Space Space base yang
et al., 2015) pendekatan akurasi dan
Model to Model lain,
connectedness dapat recall.
Improve (GVSM) misalnya
meningkatkan
Document dokumen
akurasi, sedangkan
nasional.
saat pendekatan
taxonomic
meningkatkan recall.
Hasil evaluasi
dengan kedua
pendekatan ini
menghasilkan hasil
yang baik
dibandingkan
8
dengan traditional
text retrieval.
Metode cosine
menghasilkan nilai
kemiripan yang
tinggi yaitu sebesar
41% karena metode
cosine similarity
memiliki konsep
normalisasi panjang
vektor data dengan
Perbandingan membandingkan N-
Metode gram yang sejajar
Metode cosine
Cosine satu sama lain dari 2
similarity
Similarity pembanding. Hasil
Cosine memiliki
dengan akurasi yang dicari
Similarity, tingkat
Metode berpengaruh pada Tidak adanya
Jaccard kemiripan
(Nurdiana et Jaccard keyword yang dicari. pengembanga
4. Similarity, yang paling
al., 2016) Similarity Sehingga, kata kunci n modifikasi
K-Nearest tinggi
pada Aplikasi (keyword) harus metode.
Neighbor dibandingkan
Pencarian sesuai dengan aturan
(KNN) jaccard
Terjemah Al- penulisan bahasa
similarity dan
Quran dalam indonesia.
KNN.
Bahasa Kelengkapan daftar
Indonesia stoplist dan hasil
root dari stemming
untuk kata bahasa
indonesia juga
mempengaruhi
keakuratan
pengelompokkan
dokumen teks dan
pemilihan kata untuk
dijadikan term.
Untuk meningkatkan
hasil akurasi dari K-
Nearest Neighbor
(KNN), maka
Model class
dilakukan modifikasi
Survey of probability
metode, yaitu
Improving K- Improved estimation
(Jiang et al., menggunakan Meningkatkan
5. Nearest K-Nearest dan
2007) metode improved akurasi.
Neighbor for Neighbor perangkingan
KNN. Metode ini
Classification belum
dapat menggunakan
dibahas.
3 model, yaitu
dengan distance
function, neighbor
size, dan class
9
probability
estimation.
Klasifikasi
menggunakan
algoritma K-Nearest
Neighbor (KNN)
dan Artificial Neural
menggunakan data
sebanyak 80% untuk
proses training dan
20% untuk tesing.
Keluaran dari
Comparison klasifikasi akan
between KNN diverifikasi bersama
K-Nearest
and ANN dengan dominasi
Neighbor KNN memiliki
Classification brain questionnaire. Akurasi ANN
(KNN), tingkat akurasi
(Mustafa et in Brain Model klasifikasi lebih kecil
6. Artificial tinggi dan
al., 2012) Balancing terbaik akan dipilih dibandingkan
Neural error yang
Application berdasarkan akurasi dengan KNN.
Network kecil.
via yang tinggi dan MSE
(ANN)
Spectogram yang kecil. Akurasi
Image yang dihasilkan
untuk algoritma
KNN sebesar 90%,
sedangkan ANN
sebesar 87,5%.
Selain itu, MSE
yang dihasilkan
untuk algoritma
KNN sebesar 0,1%,
sedangkan ANN
sebesar 0,7918%.
Pengujian analisis
Metode yang
sentimen pada
dibangun
twitter berbahasa
pada sistem
Implementasi indonesia dengan
kurang dapat
Metode metode improved K-
menangani
Improved K- Nearest Neighbor
jumlah data
Nearest (KNN)
Improved latih yang
(Putri et al., Neighbor menghasilkan rata- Meningkatkan
7. K-Nearest tidak
2013) pada Analisis rata precision atau akurasi.
Neighbor seimbang,
Sentimen akurasi sebesar
hanya 2
Twitter 0,823, rata-rata
parameter
Berbahasa recall (sensitifitas
yang
Indonesia atau kemampuan
digunakan
sistem memilih hasil
untuk
yang sesuai) sebesar
klasifikasi.
0,865, dan rata-rata
10
F-measure sebesar
0,843. Metode
improved KNN
untuk
mengklasifikasikan
sentimen dari
dokumen tweets
secara otomatis
dilakukan dengan
cara melakukan
preprocessing pada
dokumen sehingga
didapatkan kata-
kata, kemudian
menghitung bobot
dan similaritas dari
dokumen uji
terhadap dokumen
semua latih serta
mengurutkan
similaritasnya,
setelah itu dihitung
probabilitasnya pada
masing-masing kelas
terhadap n-tetangga
terdekat, dimana
nilai n adalah nilai k
masukan pengguna
yang sudah
dimodifikasi.
4. DASAR TEORI
4.1. Text Preprocessing

Text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif
dimana pengguna berinteraksi dengan koleksi dokumen dari waktu ke waktu dengan
menggunakan berbagai macam analisis. Dalam cara yang sejalan dengan data mining,
text mining berusaha mengekstrak informasi yang berguna dari sumber data melalui
identifikasi dan eksplorasi patterns. Text mining menjadi menarik karena sumber data
koleksi dokumen dan pola yang menarik tidak ditemukan dari database formal, namun
ditemukan dalam data tekstual yang tidak terstruktur pada dokumen dalam koleksi.
Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada
text mining, informasi yang akan digali berisi informasi informasi yang strukturnya
11
sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang
terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan
menjadi nilai nilai numerik. Proses ini sering disebut text preprocessing (Feldman &
Sanger, 2007).
Beberapa proses yang dilakukan dalam text preprocessing sebagai berikut :
4.1.1. Case folding

Case folding adalah mengubah semua huruf dalam dokumen menjadi
huruf kecil hanya huruf a sampai dengan z yang diterima. Karakter selain huruf
dianggap delimiter (Feldman & Sanger, 2007).
Contoh :
Perekonomian disusun sebagai usaha bersama berdasar
atas asas kekeluargaan. Pernyataan tersebut tercantum
dalam UUD 1945 pasal ...
Proses case folding :

perekonomian disusun sebagai usaha bersama berdasar
atas asas kekeluargaan pernyataan tersebut tercantum
dalam uud pasal
4.1.2. Tokenizing
Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap
kata yang menyusunnya (Bukhari, 2015).
Proses tokenizing :
perekonomian
disusun
sebagai
usaha
bersama
berdasar
atas
12
asas
kekeluargaan
pernyataan
tersebut
tercantum
dalam
uud
pasal
4.1.3. Stopword removal atau filtering

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token.
Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting). Stoplist
atau stopword adalah kata kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag of words (Feldman & Sanger, 2007).
Contoh :
perekonomian
disusun
sebagai
usaha
bersama
berdasar
atas
asas
kekeluargaan
pernyataan
tersebut
tercantum
dalam
uud
pasal
Proses filtering :
13
perekonomian
disusun
usaha
asas
kekeluargaan
pernyataan
tercantum
uud
pasal
4.1.4. Stemming
Proses stemming dapat dilakukan ke dalam berbagai bahasa, diantaranya
adalah proses stemming pada teks berbahasa indonesia dan berbahasa inggris. Proses
stemming yang dilakukan untuk teks berbahasa indonesia berbeda dengan teks
berbahasa inggris. Pada teks berbahasa inggris, proses yang dilakukan hanya proses
menghilangkan sufiks. Sedangkan, pada teks berbahasa indonesia, selain sufiks, prefiks,
dan konfiks juga dihilangkan (Agusta, 2009).
Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti
algoritma Porter untuk teks berbahasa inggris, algoritma Porter untuk teks berbahasa
indonesia, algoritma nazief & adriani untuk teks berbahasa indonesia (Agusta, 2009).
Porter stemming merupakan algoritma penghilangan imbuhan pada kata
berbahasa inggris yang digunakan untuk proses normalisasi kata yang biasanya
dilakukan saat preprocessing sistem temu kembali. Algoritma Porter pertama akan
mengidentifikasi kata berdasarkan huruf konsonan (C) dan vokal (V). Huruf a, i, u, e, o,
dan y akan dianggap sebagai huruf vocal, sedangkan selain huruf huruf tersebut
dianggap konsonan. Sebuah kata yang memiliki huruf konsonan dengan panjang lebih
dari 0 akan dianggap sebagai C, begitu juga sebaliknya. Contohnya (Porter, 1980):
TREE C(TR) V (EE) CV
COMPUTER C(C) V(O) C(MP) V(U) C(T) V(E) C(R) CVCVCVC
Dalam algoritmanya, digunakan perhitungan m yang merupakan jumlah
pengulangan VC pada tiap kata, yang tiap kata akan diawali dengan C dan diakhiri
dengan V. Jika awal dan akhir kata bukan C dan V, maka akan ditambahkan tanpa
14
mengindahkan susunan kata, namun jika ada maka C dan V dari kata tersebut akan
digunakan dalam perhitungan, misalnya :
COMPUTER [C] VCVCVC [V]; m = 3
Kata COMPUTER memiliki susunan kata CVCVCVC, sehingga C awal
digunakan sebagai penanda perhitungan awal. Setelah itu, VC terulang sebanyak 3 kali.
Karena susunan diakhiri dengan huruf konsonan (C), maka ditambahkan V di
penutupnya. Aturan dari algoritma Porter diantaranya adalah pengubahan SSES SS.
Hal ini berarti jika sebuah imbuhan kata adalah SSES, imbuhan tersebut akan diubah
menjadi SS. Selain itu, terdapat beberapa kondisi yang dipakai sebagai dasar
perhitungan nilai m, yaitu :
*S : kata berimbuhan yang diakhiri S
*v : kata yang berisi huruf vokal
*d : kata yang diakhiri dengan dobel konsonal (misal TT, -SS)
*o : kata berimbuhan yang huruf keduanya diakhiri dengan konsonan,
tetapi bukan W, X, atau Y (misal WIL, HOP)
4.2. Pembobotan Term Frequency Inverse Document Frequency (TF - IDF)

Term Frequency Inverse Document Frequency (TF IDF) adalah cara
pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen
tunggal tiap kalimat dianggap sebagai dokumen. Basis ini menggabungkan dua konsep
untuk perhitungan bobot, yaitu Term Frequency (TF) merupakan frekuensi kemunculan
kata (t) pada kalimat (d). Document Frequency (DF) adalah banyaknya kalimat dimana
suatu kata (t) muncul (Broto Poernomo & Gunawan, 2015).
Berikut rumus TF IDF pada persamaan (1) :
( , ) = ( , ) ( ) (1)
Keterangan :
: dokumen ke j
: term ke k
Berikut rumus TF pada persamaan (2) :
( , ) = ( , ) (2)
TF merupakan frekuensi kemunculan suatu term di setiap dokumen.
Berikut rumus IDF pada persamaan (3) dan persamaan (4) :
15
1
( ) = (3)
()

( ) = log (4)
()
Keterangan :
: jumlah frekuensi term
: jumlah frekuensi kemunculan
: dokumen ke j
: term ke k
Inverse Document Frequency (IDF) merupakan nilai bobot suatu term yang
dihitung dari seringnya suatu term muncul dalam beberapa dokumen. Semakin sering
suatu term muncul dalam banyak dokumen, maka nilai IDF semakin kecil.
4.3. Generalized Vector Space Model

Generalized vector space model (GVSM) merupakan salah satu model sistem
information retrieval (IR) yang termasuk dalam algebraic model yang merupakan
perluasan dari vector space model atau yang sering dikenal dengan sebutan VSM
(Pardede, Barmawi, & Pramono, 2013).
VSM sebagai metode yang mengukur kemiripan antara suatu dokumen dengan
suatu query user dengan menggunakan cosinus dari sudut antar vektor yang dibentuk
oleh dokumen dengan vektor dari kata kunci yang diinputkan oleh user (Liu et al.,
2004). Menurut (Wibowo, Handojo, & Widjaja, 2012) yang mengutip pernyataan
(Harjono, 2005) menyimpulkan bahwa salah satu kelemahan dari VSM adalah metode
ini menganggap bahwa setiap term pada dokumen bersifat independen, yaitu metode ini
tidak melihat hubungan makna dengan term lain. Sebagai contoh, apabila user
melakukan pencarian dengan kata kunci programming, maka hasil pencariannya
adalah semua dokumen yang hanya memiliki kata programming saja, padahal masih
banyak dokumen-dokumen yang masih berhubungan makna dengan kata
programming seperti PHP, Java, dan lain lain. Dengan adanya kasus ini, maka
terjadi penurunan recall dari hasil pencarian. Karena itu, dibutuhkan metode yang dapat
mengembangkan VSM ini dengan menambahkan fungsi sense pada model ini, yaitu
GVSM (Wibowo et al., 2012).
16
Term yang digunakan dalam pertimbangan kedekatan sense diprediksi lebih
akurat untuk merepresentasikan dokumen karena setiap term dinyatakan sebagai
kombinasi linier dari vektor 2 dimensi. Representasi vektor yang digunakan dalam
GVSM ada 2 yaitu, dengan free boolean algebra (tanpa external constraint) dan dengan
index term (Wong, Ziarko, & Wong, 1985).
4.4. Text Similarity

Kemiripan teks dalam suatu dokumen satu dengan yang lain atau yang sering
disebut dengan text similarity dapat diukur dengan fungsi similaritas atau dengan fungsi
jarak (Hamzah, Soesianto, Susanto, & Istiyanto, 2015). Beberapa fungsi similaritas dan
fungsi jarak yang dapat dijumpai antara lain dice, jaccard, euclidean distance, pearson
correllation, dan cosine similarity (Tombros, 2002). Persamaan (9) sampai dengan
persamaan (13) menunjukkan formula fungsi similaritas dan jarak :
2 =1
Dice : ( , ) = (9)
=1 + =1
2
=1
Jaccard : ( , ) = (10)
=1 + =1 =1
2
Euclidean distance : ( , ) = =1( ) (11)

1 ( ) ( )
Pearson correlation : ( , ) = (
+ 1) (12)
2 2 2

=1
Cosine similarity : ( , ) = 2
(13)
2
=1( ) =1( )
Berdasarkan persamaan (9) sampai dengan persamaan (13), fungsi similaritas cosine
merupakan perhitungan jarak fungsi yang paling baik untuk tujuan pengelompokkan
(Strehl, Ghosh, & Mooney, 2000).
Di VSM, vektor antar term dianggap sebagai pasangan ortogonal. Tetapi, asumsi
ini sangat tidak realistis karena istilah dalam suatu bahasa kebanyakan memiliki tingkat
keterkaitan satu dengan lain. Sehingga, dikembangkan metode VSM menjadi GVSM
yang ditunjukkan melalui persamaan (14) :
=1 =1

( ,) = (14)

=1 2 =1 2
17
Dimana ( , ) merupakan term vektor di sebuah ruang vektor 2 dimensi, dan
adalah vektor dokumen dan query, adalah bobot dari dokumen yang dihitung
dengan rumus TF IDF, dan adalah dimensi ruang (Tsatsaronis & Panagiotopoulou,
2009).
, merupakan besar relasi antara term , yang dapat dihitung dengan
perhitungan semantic relatedness yang SCM (semantic compactness) dan SPE
(semantic path elaboration) harus diketahui terlebih dahulu. Apabila ada sebuah
tesaurus O, sebuah bagan pembobotan (weight) yang menentukan weight (0,1)
untuk setiap edge, sepasang senses = (1 , 2) dan sebuah path dengan panjang l yang
menyambungkan 2 senses tersebut, maka semantic compactness dari dihitung melalui
persamaan (15) :

(, ) = (15)
=1
Dimana 1 , 2 , 3 , adalah paths edge. Apabila 1 = 2 maka

(, ) = 1 dan jika tidak ada path antar keduanya maka (, ) = 0. Apabila
ada sebuah tesaurus O dan sepasang senses = (1 , 2 ), dimana 1 2 O dan 1
2 dan sebuah path dengan panjang l yang menyambungkan 2 senses tersebut, maka
semantic path elaboration dari dihitung melalui persamaan (16) :
2 +1 1
(, ) = . (16)
=1 + +1
Dimana adalah kedalaman sense yang didasarkan pada O dan adalah
kedalaman maksimum dari O. Apabila 1 = 2 dan = 1 = 2 maka (, ) =
dan jika tidak ada path antar keduanya maka (, ) = 0. Kemudian,

mencari SR melalui persaman (17) :

(, , ) = max{(, ). (, )} (17)
Perhitungan dapat melalui dua cara yaitu dengan menghitung nilai
maksimum dari keterkaitan semantik antar sense dan nilai maksimum dari keterkaitan
semantik antar term. Apabila menggunakan nilai maksimum dari keterkaitan semantik
antar sense maka untuk mendapatkan nilai SR dengan mempertimbangkan bobot dapat
dilihat pada persamaan (18) :
2 . .
= . (18)
( + )
18
Dimana merupakan bobot baru pada edge yang menghubungkan kedua
sense, 1 dan 2 (Tsatsaronis, Varlamis, & Vazirgiannis, 2010). Apabila menggunakan
nilai maksimum dari keterkaitan semantik antar term, maka term , yang
dan t O maka (, , ) = 1. Apabila, O, tetapi O atau O, sedangkan
O, maka maka (, , ) = 0 (Tsatsaronis & Panagiotopoulou, 2009).
4.5. Improved KNN

Penentuan yang tepat diperlukan agar mendapatkan akurasi yang
tinggi dalam proses kategorisasi dokumen uji. Algoritma improved k-Nearest Neighbor
melakukan modifikasi dalam penentuan . Dimana penetapan
tetap dilakukan, hanya saja tiap-tiap kategori memiliki yang berbeda.
Perbedaan yang dimiliki pada setiap kategori disesuaikan dengan besar-
kecilnya jumlah dokumen latih yang dimiliki kategori tersebut. Sehingga, ketika
semakin tinggi, hasil kategori tidak terpengaruh pada kategori yang memiliki
jumlah dokumen latih yang lebih besar (Putri et al., 2013).
Perhitungan penetapan pada algoritma improved k-Nearest
Neighbor dilakukan dengan menggunakan persamaan (19) :
( )
= [ ] (19)
{ ( )| = 1 }
Algoritma improved k-Nearest Neighbor memiliki variabel baru yaitu yang
merupakan yang baru. Persamaan (19) menunjukkan bahwa
adalah baru,
adalah yang ditetapkan,
( ) adalah jumlah dokumen latih di kategori/kategori m,
{ ( )|
= 1 } adalah jumlah dokumen latih terbanyak pada semua kategori
Sejumlah dokumen yang dipilih pada setiap kategori adalah top dokumen atau
dokumen teratas yaitu dokumen yang mempunyai similaritas paling besar di setiap
kategorinya yang mana sebelumnya, kita harus mengurutkan terlebih dahulu secara
menurun hasil perhitungan similaritas pada setiap kategori.
19
Penelitian oleh (Li, Yu, & Lu, 2003) untuk dokumen teks berbahasa cina
menunjukkan bahwa dengan algoritma improved k-Nearest Neighbor didapatkan
kestabilan pada proses kategorisasi dengan berapa pun variasi .
Setelah mengetahui nilai yang baru yang diinisialisasi sebagai pada
persamaan (19), maka persamaan (20) menunjukkan nilai probabilitas yang dihasilkan
untuk menentukan keputusan menggunakan algoritma improved KNN.
__( ) ( , )( . )

( ) = __( ) ( , )
(20)

Dimana :
( ) probabilitas dokumen ke i
__( ) = { | }
( , ) kemiripan antara dokumen dengan dokumen latih
( . ) fungsi atribut dari kategori yang memenuhi persamaan (21)
1,
( . ) = { (21)
0,
20
5. METODOLOGI PENELITIAN
Penelitian ini melalui tahap tahap kegiatan yang meliputi pengumpulan dan
pengelompokkan data, text preprocessing, pembobotan TF IDF, text similarity,
perangkingan, klasifikasi improved KNN, training, dan evaluasi. Kerangka berfikir
pada penelitian ini dapat dilihat melalui flowchart metodologi penelitian di bawah ini :
Pengumpulan Data
Text preprocessing
Pembobotan TF IDF
tidak ya
SR 0
Pemodelan VSM Pemodelan GVSM
?
Text similarity
Perankingan
Klasifikasi improved
KNN
Gambar 5.1. Flowchart Metodologi Penelitian
5.1. Pengumpulan Data

Data yang digunakan dalam penelitian ini bersumber dari buku kumpulan soal
ujian nasional dari salah satu penerbit bimbingan belajar di kota Solo, yaitu Ganesha
Operation untuk tingkat SMA dengan jurusan IPA dan IPS tahun 2013.
21
5.2. Text Preprocessing
Pada proses ini terdapat 3 tahapan utama, yaitu tokenizing, filtering, dan
stemming. Dalam tahap ini, perlu dilakukan case folding terlebih dahulu untuk
menghilangkan karakter selain abjad a-z. Pada tahap filtering, untuk daftar stopword
mengambil referensi dari http://www.ranks.nl/stopwords/ untuk bahasa indonesia dan
bahasa inggris. Sedangkan, pada tahapan stemming yang digunakan adalah Porter
stemming untuk bahasa indonesia dan bahasa inggris karena lebih cepat.
5.3. Pemodelan GVSM

Keterkaitan suatu kata dalam dokumen satu dengan dokumen lainnya dapat
dilihat melalui ada atau tidaknya sinonim dalam dokumen yang terkait. Untuk
mengetahui besarnya keterkaitan tersebut, maka diperlukan nilai SR (Semantic
Relatedness). Dalam tahapan ini, model yang digunakan adalah model GVSM atau
Generalized Vector Space Model. Pemodelan GVSM dilakukan apabila ada keterkaitan
antara makna query dengan kata yang ada di dalam dokumen yang dihitung melalui
persamaan (15) sampai persamaan (18). Persamaan (15) sampai persamaan (18)
dilakukan apabila besarnya nilai SR (Semantic Relatedness) tidak sama dengan 0.
Sedangkan apabila, nilai SR sama dengan 0 maka disimpulkan tidak adanya hubungan
makna antara query dengan kata yang ada di dokumen, sehingga pemodelan dilakukan
dengan model VSM yaitu pemodelan yang dihitung dengan langsung memberikan nilai
bobot antar query dengan kata yang ada di dokumen.
5.4. Pembobotan TF IDF

Proses ini dilakukan untuk mendapatkan nilai dari setiap term yang berhasil
diekstrak. Untuk menjalankan metode pembobotan TF IDF ini, maka menggunakan
rumus pada persamaan (2) untuk mencari TF, kemunculan kata di setiap dokumen
terlebih dahulu. Setelah itu, mencari IDF, yaitu inverse document frequency, logaritma
dari rasio jumlah keseluruhan dokumen yang diproses dengan jumlah dokumen yang
memiliki term yang berkaitan. Hal ini dapat dilihat pada rumus persamaan (3) atau (4).
Kemudian, barulah dicari bobot antar term pada dokumen yang ada, dengan
menggunakan rumus persamaan (1).
Dalam tahapan ini, maka akan dibangun sistem yang menggunakan pembobotan
TF IDF dengan mengutamakan bobot term pada dokumen yang ada terlebih dahulu
22
dan tidak memperhatikan bobot term pada dokumen yang ada di dalam query yang
dimaksud. Hal ini disebabkan karena selisih rasio logaritma yang dihasilkan tidak
terlalu besar, yaitu 0,1 dan bahkan, dengan cara ini, diperoleh hasil nilai cosine
similarity yang lebih tinggi daripada memperhatikan bobot term pada dokumen yang
ada di dalam query yang dimaksud dan bobot term pada dokumen yang ada secara
keseluruhan.
5.5. Text Similarity

Proses ini dilakukan untuk menghitung kemiripan dokumen yang ada. Pada
proses menghitung kemiripan, maka diterapkan model cosine similarity. Hal ini dapat
dilihat melalui persamaan (13) apabila tidak ada keterkaitan antara dokumen dengan
query, sedangkan untuk persamaan (14) digunakan apabila ada keterkaitan antara
dokumen dengan query.
5.6. Perankingan
Perankingan dilakukan ketika sudah selesai menghitung kemiripan yang terjadi
dalam dokumen dokumen yang ada. Perankingan diambil dari perhitungan cosine
similarity yang terbesar ke terkecil.
5.7. Klasifikasi Improved KNN

Setelah melakukan perankingan cosine similarity, maka langkah selanjutnya
yang dilakukan adalah melakukan klasifikasi menggunakan improved KNN. Proses
kategorisasi dokumen menggunakan algoritma improved K-Nearest Neighbor melalui
langkah langkah sebagai berikut (Li et al., 2003) :
1. Menentukan kemudian melakukan perhitungan penetapan
baru () pada masing-masing kategori cm menggunakan persamaan
(19). Pemilihan dokumen pada setiap kategori berdasarkan dokumen latih
yang memiliki similaritas terbesar dengan dokumen uji (top tetangga).
2. Setelah didapatkan nilai yang menyatakan sebagai top tetangga dari
langkah 1, maka langkah selanjutnya adalah menentukan kategori dokumen
uji berdasarkan hasil perhitungan menggunakan persamaan (20).
Berdasarkan perhitungan pada persamaan (20), maka dokumen akan
dikategorikan ke dalam kategori yang memiliki ( ) terbesar.
Pada metodologi ini menghitung akurasi dari model klasifikasi yang diperoleh
berasal dari data training dan testing yang telah dilakukan. Akurasi menunjukkan
23
tingkat kebenaran pengklasifikasian data terhadap kelas yang sebenarnya. Semakin
rendah nilai akurasi, maka semakin tinggi kesalahan klasifikasi pada data baru
(Fernando, 2014). Rumus perhitungan akurasi dapat dilihat melalui persamaan (22) :

= (22)

6. JADWAL PELAKSANAAN
Waktu
Mei 2017 Juni 2017 Juli 2017 Agustus September Oktober 2017
No Aktivitas 2017 2017
Minggu Minggu Minggu Minggu Minggu Minggu
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1. Pengumpulan
data
2. Text
preprocessing
3. Pemodelan
GVSM
4. Pembobotan
TF IDF
5. Text similarity
6. Perankingan
7. Klasifikasi
improved KNN
7. DAFTAR PUSTAKA
Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M., & Williams, H. E. (2007).
Stemming Indonesian: A confix-stripping approach. ACM Transactions on
Asian Language Information Processing (TALIP), 6(4), 1-33.
Agusta, L. (2009). Perbandingan algoritma stemming Porter dengan algoritma Nazief &
Adriani untuk stemming dokumen teks bahasa indonesia. Konferensi Nasional
Sistem dan Informatika, 196-201.
Broto Poernomo, T. P., & Gunawan, I. (2015). SISTEM INFORMATION RETRIEVAL
PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA
24
INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA. Paper
presented at the Seminar Nasional "Inovasi dalam Desain dan Teknologi".
Bukhari, V. H. (2015). SENTIMENT ANALYSIS MENGGUNAKAN K-NEAREST
NEIGHBOR DENGAN PERBANDINGAN FUNGSI JARAK (STUDI KASUS:
TWITTER INDOSAT DAN TELKOMSEL). Universitas Widyatama.
Clara. (2006). Pengertian Ujian. Retrieved 05 November, 2016, from
http://repository.upi.edu/1343/2/s_d5451_0706537_chapter1.pdf
Doyle, D. (2014). Stopword Lists. Retrieved 17 Maret, 2017, from
http://www.ranks.nl/stopwords/
Feldman, R., & Sanger, J. (2007). The text mining handbook: advanced approaches in
analyzing unstructured data: Cambridge university press.
Fernando, V. (2014). Klasifikasi data spasial untuk kemunculan hotspot di Provinsi
Riau menggunakan algoritme ID3. Retrieved 27 Maret, 2017, from
http://repository.ipb.ac.id/handle/123456789/69424
Hamzah, A., Soesianto, F., Susanto, A., & Istiyanto, J. E. (2015). Studi kinerja fungsi-
fungsi jarak dan similaritas dalam clustering dokumen teks berbahasa
indonesia. Paper presented at the Seminar Nasional Informatika (SEMNASIF).
Harjono, K. D. (2005). Perluasan Vektor Pada Metode Search Vector Space. Integral,
10, 106-113.
Jiang, L., Cai, Z., Wang, D., & Jiang, S. (2007). Survey of improving k-nearest-
neighbor for classification. Paper presented at the Fuzzy Systems and
Knowledge Discovery, 2007. FSKD 2007. Fourth International Conference on.
KBBI. (2016). Kamus Besar Bahasa Indonesia (KBBI) Versi Online. Retrieved 5
November, 2016, from http://kbbi.web.id/
Li, B., Yu, S., & Lu, Q. (2003). An improved k-nearest neighbor algorithm for text
categorization. arXiv preprint cs/0306099.
Liu, N., Zhang, B., Yan, J., Yang, Q., Yan, S., Chen, Z., . . . Ma, W.-Y. (2004).
Learning similarity measures in non-orthogonal space. Paper presented at the
Proceedings of the thirteenth ACM international conference on Information and
knowledge management.
Mustafa, M., RTaid, M., Murat, Z. H., & Sulaiman, N. (2012). Comparison between
KNN and ANN classification in brain balancing application via spectrogram
image. JCSCM, 2(4), 17-22.
Nurdiana, O., Jumadi, J., & Nursantika, D. (2016). Perbandingan Metode Cosine
Similarity Dengan Metode Jaccard Similarity Pada Aplikasi Pencarian Terjemah
Al-Quran Dalam Bahasa Indonesia. Jurnal Online Informatika, 1(1).
Pardede, J., Barmawi, M. M., & Pramono, W. D. (2013). Implementasi Metode
Generalized Vector Space Model Pada Aplikasi Information Retrieval. Jurnal
Informatika Vol 4, 1.
Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3), 130-137.
Putri, P. A., Drs. Achmad Ridok, M. K., & Indriati, S., MKom. (2013).
IMPLEMENTASI METODE IMPROVED K-NEAREST NEIGHBOR PADA
ANALISIS SENTIMEN TWITTER BERBAHASA INDONESIA. 2.
Saptono, R., Sulistyo, M. E., & Trihabsari, N. S. (2016). TEXT CLASSIFICATION
USING NAIVE BAYES UPDATEABLE ALGORITHM IN SBMPTN TEST
QUESTIONS. Telematika, 13(2), 123-133.
25
Strehl, A., Ghosh, J., & Mooney, R. (2000). Impact of similarity measures on web-page
clustering. Paper presented at the Workshop on artificial intelligence for web
search (AAAI 2000).
Tombros, A. (2002). The effectiveness of query-based hierarchic clustering of
documents for information retrieval. University of Glasgow.
Tsatsaronis, G., & Panagiotopoulou, V. (2009). A generalized vector space model for
text retrieval based on semantic relatedness. Paper presented at the Proceedings
of the 12th Conference of the European Chapter of the Association for
Computational Linguistics: Student Research Workshop.
Tsatsaronis, G., Varlamis, I., & Vazirgiannis, M. (2010). Text relatedness based on a
word thesaurus. Journal of Artificial Intelligence Research, 37(1), 1-40.
Undang Undang Nomor 20 Tahun 2003 Retrieved from
sindikker.dikti.go.id/dok/UU/UU20-2003-Sisdiknas.pdf
Waitelonis, J., Exeler, C., & Sack, H. (2015). Linked data enabled generalized vector
space model to improve document retrieval. Paper presented at the NLP &
DBpedia 2015 workshop at 14th Int. Semantic Web Conf. CEUR-WS.
Wibowo, A., Handojo, A., & Widjaja, C. (2012). Implementasi Generalized Vector
Space Model Menggunakan WordNet. Petra Christian University.
Wong, S. M., Ziarko, W., & Wong, P. C. (1985). Generalized vector spaces model in
information retrieval. Paper presented at the Proceedings of the 8th annual
international ACM SIGIR conference on Research and development in
information retrieval.
26

M0513035 Rl-Rev06

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

M0513035 Rl-Rev06

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL TUGAS AKHIR

KLASIFIKASI TEMA MENGGUNAKAN ALGORITMA

Nurma Ayu Wigati S.Subroto

Diajukan untuk menyusun skripsi

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

KLASIFIKASI TEMA MENGGUNAKAN ALGORITMA

Nurma Ayu Wigati S.Subroto

Diajukan untuk menyusun skripsi

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Proposal Skripsi Mahasiswa :

Telah disetujui untuk diseminarkan pada tanggal,

Ristu Saptono, S.Si, M.T.

2.1. Latar Belakang Masalah

2.2. Rumusan Masalah

2.3. Batasan Masalah

2.4. Tujuan Penelitian

2.5. Manfaat Penelitian

4.1. Text Preprocessing

4.1.1. Case folding

Proses case folding :

4.1.3. Stopword removal atau filtering

4.2. Pembobotan Term Frequency Inverse Document Frequency (TF - IDF)

4.3. Generalized Vector Space Model

4.4. Text Similarity

Dimana 1 , 2 , 3 , adalah paths edge. Apabila 1 = 2 maka

mencari SR melalui persaman (17) :

4.5. Improved KNN

Gambar 5.1. Flowchart Metodologi Penelitian

5.1. Pengumpulan Data

5.3. Pemodelan GVSM

5.4. Pembobotan TF IDF

5.5. Text Similarity

5.7. Klasifikasi Improved KNN

Anda mungkin juga menyukai