Proposal Sistem Penilaian Otomatis Cosine Similarity

SISTEM PENILAIAN OTOMATIS DENGAN METODE COSINE
SIMILARITY PADA UJIAN ESAI BERBAHASA INDONESIA
Proposal Penelitian
Diajukan oleh
Muh. Alfian Asmar
20142105075
kepada
JURUSAN SISTEM INFORMASI
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
STMIK AKBA
MAKASSAR
April, 2018
KATA PENGANTAR
Puji syukur tetap tercurah limpahkan kehadirat Allah SWT atas segala
rahmat dan hidayah-Nya sehingga proposal dengan judul “Sistem Penilaian
Otomatis dengan Metode Cosine Similarity pada Ujian Esai Berbahasa
Indonesia” dapat diselesaikan.
Proposal ini disusun dengan tujuan agar dapat meningkatkan kualitas
pendidikan di Indonesia telebih khususnya di kota Makassar ini, dengan
membangun sebuah sistem yang dapat mengevaluasi hasil belajar siswa
secara obyektif, akurat dan cepat sehingga dapat dilakukan perbaikan dan
pengembangan metode pendidikan yang tepat sasaran pula.
Ucapan terima kasih sebesar-besarnya disampaikan kepada seluruh
pihak yang telah membantu dalam penulisan proposal ini, terlbih khusus
kepada para dosen pembimbing yang tak habis kesabarannya untuk terus
memotivasi dan mengajarkan peneliti tentang bagaimana cara menulis
proposal penelitian yang baik dan benar.
Demikian yang dapat disampaikan. Proposal ini tidak lepas dari banyak
kesalahan baik dalam penulisan maupun isinya. Oleh karena itu, kritik dan
saran yang membangun sangat diharapkan agar dapat menjadi bahan
evaluasi dalam penulisan proposal berikutnya.
Makassar, 05 April 2018
Peneliti
ii
DAFTAR ISI
HALAMAN JUDUL ......................................................................................i
KATA PENGANTAR .................................................................................. ii
DAFTAR ISI .............................................................................................. iii
DAFTAR TABEL ........................................................................................v
DAFTAR GAMBAR ................................................................................... vi
BAB I PENDAHULUAN............................................................................. 1
Latar Belakang Masalah ................................................................. 1
Rumusan Masalah ......................................................................... 4
Tujuan Penelitian ........................................................................... 4
Batasan Masalah ........................................................................... 4
Manfaat Penelitian.......................................................................... 5
Sistematika Penulisan .................................................................... 6
BAB II LANDASAN TEORI ....................................................................... 8
Evaluasi Hasil Belajar ..................................................................... 8
Pengujian Berbasis Komputer ...................................................... 11
Tahapan Pengembangan Sistem dengan Metode Waterfall ......... 15
Sistem Temu Kembali Informasi (Information Retrieval System) .. 17
Text Preprocessing ...................................................................... 20
Metode Pembobotan Dokumen dengan TF-IDF ........................... 25
Metode Pengukuran Similaritas Dokumen .................................... 29
Algoritma Cosine Similarity ........................................................... 29
Perangkat Lunak Pendukung ....................................................... 31
BAB III METODOLOGI PENELITIAN ...................................................... 35
Tinjauan Umum ............................................................................ 35
iii
Metode Pengumpulan Data .......................................................... 36
Temuan Data ............................................................................... 37
Diagram Blok Model Sistem Usulan ............................................. 38
Tahapan Pengembangan Sistem ................................................. 40
DAFTAR PUSTAKA................................................................................ 52
iv
DAFTAR TABEL
Tabel 2. 1 Contoh Case Folding ..............................................................21

Tabel 2. 2 Contoh Tokenizing ..................................................................22
Tabel 2. 3 Contoh Filtering.......................................................................23
Tabel 2. 4 Contoh Stemming ...................................................................23
Tabel 2. 5 Perhitungan Term Frequency..................................................26
Tabel 2. 6 Contoh Perhitungan Document Frequency .............................28
Tabel 2. 7 Contoh Perhitungan Inverse Documen Frequency ..................28
Tabel 2. 8 Perhitungan Dot Product .........................................................30
Tabel 2. 9 Perhitungan Panjang Vektor ...................................................30
Tabel 2. 10 Hasil Perhitungan Cosine similarity .......................................31
Tabel 3. 1 Tabel Konversi Nilai ................................................................40
Tabel 3. 2 Analisis Kebutuhan Fungsional ...............................................41
Tabel 3. 3 Tabel User ..............................................................................43
Tabel 3. 4 Tabel Dosen ...........................................................................43
Tabel 3. 5 Tabel Mahasiswa ....................................................................44
Tabel 3. 6 Tabel Mata Kuliah ...................................................................44
Tabel 3. 7 Tabel Ujian ..............................................................................44
Tabel 3. 8 Tabel Soal ...............................................................................45
Tabel 3. 9 Tabel Jawaban ........................................................................45
Tabel 3. 10 Tabel Nilai .............................................................................46
v
DAFTAR GAMBAR
Gambar 2. 1 Alur Metode Waterfall ..........................................................15

Gambar 2. 2 Alur Text Preprocessing ......................................................20
Gambar 3. 1 Contoh Soal Esai ................................................................37
Gambar 3. 2 Diagram Blok Model Sistem ................................................38
Gambar 3. 3 Dashboard Admin ...............................................................46
Gambar 3. 4 Dashboard Dosen ...............................................................47
Gambar 3. 5 Dashboard Mahasiswa ........................................................48
Gambar 3. 6 Form Tambah Ujian ............................................................49
Gambar 3. 7 Form Kerja Ujian .................................................................49
Gambar 3. 8 Lihat Hasil Ujian ..................................................................50
vi
BAB I
PENDAHULUAN
Latar Belakang Masalah
Dalam dunia pendidikan, evaluasi hasil belajar merupakan komponen
yang sangat penting dalam proses pembelajaran, karena hasil dari evaluasi
tersebut akan dijadikan sebagai indikator untuk mengukur tingkat
pemahaman pelajar terhadap materi yang telah diberikan. Ada berbagai
macam cara untuk melakukan evaluasi hasil belajar, salah satunya adalah
dengan ujian esai. Ujian esai dianggap sebagai bentuk evaluasi belajar
yang sangat tepat, karena melibatkan kemampuan siswa dalam mengingat,
mengorganisasikan, mengekspresikan dan mengintegrasikan gagasan
yang dimiliki siswa terkait dengan soal esai tersebut.
Ujian esai biasanya banyak diterapkan di pendidikan tingkat tinggi,
sebagaimana yang diterapkan di STMIK AKBA. Akan tetapi, dalam
penerapannya dosen memerlukan waktu yang banyak untuk memeriksa
jawaban esai, semakin banyak jumlah ujian dan banyaknya jumlah
mahasiswa yang mengikuti ujian, maka semakin banyak jumlah ujian yang
dikoreksi oleh dosen. Hal ini menyebabkan kualitas penilaian menurun dan
terkadang penilaian tidak bersifat objektif lagi.
Salah satu kesulitan penilaian ujian esai adalah subjektivitas. Banyak
peneliti menyatakan bahwa sifat subjektif dari penilaian esai menyebabkan
variasi penilaian di kelas yang diberikan oleh penilai manusia yang
1
2
berbeda, yang dirasakan oleh siswa sebagai sumber ketidakadilan.
Selanjutnya penilaian esai adalah kegiatan memakan waktu (Valenti, Neri,
& Cucchiarelli, 2003).
Beberapa peneitian telah dilakukan untuk mengatasi masalah penilaian
ujian esai dengan membangun sistem penilaian ujian esai secara otomatis.
Para peneliti menerapkan metode yang berbeda-beda dalam masalah ini,
diantaranya ada yang menerapkan algoritma Rabin Karp (Bahri, 2014),
Winnowing (Astutik, Cahyani, & Sophan, 2014) maupun Cosine Similarity
(Fitri & Asyikin, 2015).
Astutik, Cahyani, & Sophan (2014) dalam penelitian mereka yang
berjudul “Sistem Penilaian Esai Otomatis Pada E-Learning Dengan
Algoritma Winnowing” menyatakan bahwa penilaian menggunakan
algoritma winnowing menghasilkan akurasi yang lebih baik pada teks
jawaban yang memiliki struktur kalimat jawaban yang sama dengan kunci
jawaban yaitu sebesar 75–80%. Namun, hasil penilaian degan algoritma ini
sangat dipengaruhi oleh nilai n-gram yang digunakan, semakin kecil nilai n-
gram yang digunakan maka akan semakin tidak peka algoritma winnowing
mengukur kesamaan jawaban dengan kunci jawaban.
Fitri dan Asyikin (2015) pada penelitian mereka yang berjudul “Aplikasi
Penilaian Ujian Esai Otomatis Menggunakan Metode Cosine Similarity”
menyatakan bahwa system penilaian esai otomatis menggunakan metode
cosine similarity berjalan dengan baik untuk ujian esai dalam bahasa
Inggris dengan kesesuaian nilai sistem dengan nilai yang diberikan oleh
3
pengajar adalah rata-rata 89,48%.
Pramukantoro (2016) dalam penelitiannya yang berjudul “Sistem
penilaian otomatis jawaban esai pada elearning belajardisini.com”
menyatakan bahwa cosine similarity digunakan dalam elearning karena
cosine similarity lebih unggul dalam hal komputasi dibandingkan dengan
LSA (Latent Semantic Analysis). Proses uji performa system disimpulkan
bahwa semakin besar pengguna mengakses sistem, maka semakin besar
CPU Usage yang dibutuhkan. Untuk pengujian page load time dan memory
usage tidak ditemukan perbedaan yang cukup signifikan ketika digunakan
oleh satu pengguna maupun oleh banyak pengguna hanya berada di antara
1,49 % sampai 1,56 %.
Dari beberapa penelitian sebelumnya maka didapatkan sebuah
hipotesa awal bahwa penilaian ujian esai otomatis dapat dilakukan dengan
menggunakan algoritma cosine similarity dengan asumsi bahwa algoritma
ini lebih baik daripada LSA dari sisi performa, dan algoritma ini memberikan
akurasi penilaian yang lebih baik jika dibandingkan dengan algoritma
winnowing. Maka, pada penelitian ini akan dibangun sebuah sistem
penilaian otomatis dengan menggunakan algoritma cosine similarity pada
ujian esai berbahasa Indonesia sebagai solusi dari permasalahan yang
telah dijelaskan sebelumnya.
Peneltian ini bertujuan untuk menerapkan algoritma cosine similarity
pada sistem penilaian ujian esai secara otomatis. Sehingga mengurangi
waktu dosen yang terbuang untuk melakukan penilaian dan memberikan

4
nilai yang lebih objektif kepada mahasiswa.
Rumusan Masalah
Berdasarkan latar belakang masalah yang telah diuraikan di atas, maka
dapat ditarik rumusan masalah sebagai berikut:
1. Bagaimana membangun sistem untuk melakukan penilaian ujian esai
secara otomatis?
2. Bagaimana implementasi algoritma cosine similarity pada sistem
penilaian ujian esai secara otomatis?
3. Bagaimana pengaruh algoritma cosine similarity pada akurasi penilaian
ujian esai secara otomatis?
Tujuan Penelitian
Adapun tujuan dari dilakukannya penelitian ini adalah:
1. Membangun sistem untuk melakukan penilaian ujian esai secara
otomatis.
2. Mengimplementasikan algoritma cosine similarity pada sistem
penilaian ujian esai secara otomatis.
3. Mengetahui pengaruh algoritma cosine similarity pada akurasi
penilaian ujian esai secara otomatis
Batasan Masalah
Penelitian ini dibatasi pada ruang lingkup masalah-masalah antara lain:
1. Bentuk soal yang digunakan adalah soal esai dengan Bahasa
Indonesia.
5
2. Sistem yang akan dibuat hanya untuk soal-soal berbahasa Indonesia
yang bertuliskan latin saja, tidak untuk soal eksakta seperti fisika kimia
dan matematika.
3. Soal yang akan diteliti difokuskan pada satu sub pokok materi pada
mata kuliah tata tulis dan komunikasi ilmiah.
4. Penilaian yang dilakukan mengabaikan kata-kata yang memiliki makna
yang sama (sinonim).
5. Penilaian yang dilakukan tidak memperhatikan kesalahan penulisan
kata maupun karakter.
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat-manfaat sebagai
berikut:
1. Peneltian ini diharapkan dapat memberikan manfaat secara teoritis,
sekurang-kurangnya dapat memberikan sumbangsih pengetahuan
dalam dunia pendidikan dan teknologi dalam hal penerapan algoritma
cosine similarity.
2. Menambah wawasan penulis tentang penerapan metode cosine
similarity.
3. Menjadi bahan referensi bagi instansi pendidikan guna meningkatkan
kualitas pendidikan dengan evaluasi hasil belajar yang baik dan tepat
mengukur tingkat pemahaman siswa terhadap pelajaran.

6
Sistematika Penulisan
Untuk membahas permasalahan yang telah disampaikan sebelumnya,
penelitian ini akan ditulis dengan sistematika penulisan sebagai berikut :
Bab I
Pada bab ini akan dibahas mengenai masalah-masalah yang
mendasari penelitian ini dan solusi untuk menyelesaikan masalah-masalah
tersebut. Akan dibahas pula mengenai tujuan dan batasan dari penelitian
ini agar penelitian ini lebih terarah dan tersusun secara sistematis.
Bab II
Pada bab ini akan dibahas secara mendalam tentang teori-teori yang
berkaitan dengan penelitian ini. Teori yang dimaksud seperti penilaian hasil
belajar, sistem penilaian otomatis, dan algoritma cosine similarity.
Bab III
Pada bab ini akan dibahas mengenai objek penelitan secara umum,
Teknik pengumpulan data, data-data yang dibutuhkan dalam penelitian,
perancangan sistem dan bagaimana pegujiannya.
Bab IV
Pada bab ini akan dibahas mengenai hasil penelitian ini yang meliputi
seperti apa sistem penilian otomatis yang dibangun, bagaimana akurasi
penilian dengan menggunakan algoritma cosine similarity dan masalah-
masalah yang terjadi dalam penellitian ini.
Bab V
Pada bab ini akan dibahas tentang kesimpulan dari penelitian yang
7
sudah dilakukan, apakah sudah memenuhi tujuan yang diharapkan atau
tidak, dan juga saran-saran untuk penelitian kedepannya yang
berhubungan dengan penelitian ini.

BAB II
LANDASAN TEORI
Evaluasi Hasil Belajar
Penilaian hasil belajar menurut Sudjana (2005) merupakan proses
pemberian nilai terhadap hasil belajar yang dicapai siswa dengan kriteria
tertentu. Hal ini menunjukkan bahwa hasil belajar siswa merupakan objek
penilaian. Penilaian dilakukan dengan menggunakan alat penilaian yang
merupakan alat ukur.
Fungsi penilaian menurut Sudjana (2005) adalah alat untuk
mengetahui tercapai atau tidaknya tujuan instruksional, umpan balik bagi
perbaikan proses belajar mengajar dan dasar dalam penyusunan laporan
kemajuan belajar siswa kepada orang tuanya. Fungsi penilaian menurut
Jihad dan Haris (2008) sebagai pemantauan kinerja komponen-komponen
kegiatan proses belajar mengajar dalam mencapai tujuan yang diharapkan
dalam proses belajar mengajar. Fungsi penilaian dapat disimpulkan untuk
memantau dan mengetahui perkembangan komponen dalam kegiatan
belajar dan mengajar sehingga dapat diambil tindakan selanjutnya sesuai
dengan tujuan yang ditentukan.
Tujuan penilaian menurut Sudjana (2005) adalah untuk: 1)
mendeskripsikan kecakapan belajar siswa, 2) mengetahui keberhasilan
proses pendidikan dan pengajaran di sekolah, 3) menentukan tindak lanjut
hasil penilaian, 4) memberikan pertanggungjawaban dari pihak sekolah ke
8
9
pihak yang berkepentingan. Kecakapan belajar siswa yaitu untuk
mengetahui kelebihan dan kekurangan siswa pada mata pelajaran dan level
kemampuan siswa dibandingkan dengan siswa lain. Keberhasilan proses
pendidikan dan pengajaran di sekolah yaitu untuk mengetahui keefektifan
komponen pendidikan dalam mencapai tujuan yang telah ditentukan.
Tindak lanjut hasil penilaian yaitu tindakan berupa penyempurnaan proses
belajar mengajar maupun merubah hal-hal yang dirasa kurang tepat.
Pertanggungjawaban kepada pihak yang berkepentingan yaitu berupa
laporan keberhasilan pendidikan maupun hambatan yang terjadi dalam
proses pendidikan.
1. Penilaian Non Tes
Penggunaan non tes untuk penilaian proses dan hasil belajar mengajar
masih terbatas dibandingkan dengan tes. Guru umumnya lebih memilih tes
untuk menilai proses dan hasil belajar mengajar karena lebih mudah untuk
dibuat dan lebih praktis. Penilaian non tes terdiri dari observasi,
wawancara, skala, sosiometri, studi kasus dan check list (Sudjana, 2005).
Kelebihan non tes adalah kemampuannya untuk menilai dari berbagi aspek
kognitif, afektif, maupun psikomotorik.
2. Penilaian Tes
Penilain tes terdiri dari tes objektif dan tes subjektif. Tes merupakan
pertanyaan untuk mendapat jawaban dari siswa dalam bentuk lisan, tulisan
atau tindakan (Sudjana, 2005). Ranah yang diukur menggunakan tes
umumnya adalah ranah kognitif atau pengetahuan. Tes sebenarnya juga

10
bisa untuk mengukur ranah afektif dan psikomotorik.
a) Tes Obyektif
Tes objektif merupakan tes yang banyak digunakan dalam menilai hasil
belajar. Tes objektif dipilih karena cakupan materi pelajaran yang luas dan
mudah dalam melakukan penilaian. Bentuk soal objektif menurut Sudjana
(2005, hal. 44) antara lain: 1) jawaban singkat, 2) benar-salah, 3)
menjodohkan, 4) pilihan ganda. Bentuk tes selain jawaban singkat dalam
soal telah tersedia kemungkinan jawaban yang dapat dipilih.
b) Tes Subyektif (Tes Esai)

Tes esai merupakan salah satu model tes yang paling tua dan sering
digunakan dalam evaluasi pembelajaran. Menurut Sudjana (2005) tes esai
merupakan pertanyaan yang menuntut siswa menjawabnya dalam bentuk
menguraikan, menjelaskan, mendiskusikan membandingkan, memberikan
alasan dan bentuk lain yang sejenis sesuai dengan tuntutan pertanyaan
dengan menggunakan kata dan bahasa sendiri.
Kelebihan model tes esai menurut Sudjana (2005) adalah sebagai
berikut: a) dapat mengukur proses mental yang tinggi atau aspek kognitif
tingkat tinggi; b) dapat mengembangkan kemampuan berbahasa, baik lisan
maupun tulisan dengan baik dan benar sesuai dengan kaidah-kaidah
bahasa; c) dapat melatih kemampuan berpikir teratur atau penalaran, yakni
berpikir logis, analitis dan sistematis; d) mengembangkan kemampuan
pemecahan masalah (problem solving); e) adanya keuntungan teknis
seperti mudah dalam penyusunan soal, guru dapat langsung melihat
proses berpikir siswa.

11
Kelemahan soal tes esai antara lain: a) sampel tes sangat terbatas
sebab dengan tes ini tidak mungkin dapat menguji semua bahan; b)
sifatnya sangat subjektif, baik dalam menanyakan, membuat pertanyaan
maupun cara memeriksanya; c) tes ini biasanya kurang reliabel,
mengungkap aspek yang terbatas, pemeriksaannya memerlukan waktu
lama.
Pengujian Berbasis Komputer
Penilaian dengan menggunakan komputer digunakan untuk
menggantikan PPT (paper-pencil test). Menurut Hadi (2013) pemanfaatan
komputer untuk melakukan pengujian disebut dengan Computerized Based
Testing (CBT), yaitu secara prinsip sama dengan PPT tetapi soal disajikan
dengan bantuan komputer. Penyajian dengan bantuan komputer ini
memungkinkan dilakukan pengacakan soal yang diberikan, sehingga
kesempatan peserta tes mencontek menjadi lebih kecil.
Pengujian berbasis komputer menurut Rudner (gmac.com: 2012)
dibagi menjadi beberapa jenis, antara lain: computerized based
testing(CBT), fixed form computerized based testing, linear on the fly test
(LOFT), computerized adaptive testing (CAT). Tempat penyimpanan butir
soal dalam CBT dibagi menjadi: 1) dalam komputer individu, 2) dalam
komputer server melalui local area network (LAN), 3) dalam komputer
server melalui internet.

12
1. Model Computerized Based Testing
Computerized based testing merupakan model paling simpel dari
pengujian berbasis komputer. Tes (CBT) dikelola dan umumnya penilaian
dilakukan secara elektronik. Berbagai tipe pertanyaan dapat ditampilkan
melalui layar komputer dan merupakan konversi dari tes dengan
menggunakan media kertas. Model pertanyaan berupa pertanyaan objektif
maupun subjektif. Pertanyaan mungkin disimpan pada komputer individu,
local area network (LAN), atau pada komputer server luar dengan media
komunikasi internet. CBT memungkinkan tes dapat dikelola dan dinilai lebih
akurat, cepat dan lebih aman dari tes menggunakan kertas.
2. Model Fixed Form Computerized Based Testing
Fixed form CBT merupakan tes dimana semua peserta tes memperoleh
soal yang sama. Fixed form CBT merupakan model paper and pencil (PPT)
test yang dalam penyajiannya diubah menggunakan bantuan komputer.
Pola penyajian tes fixed form CBT yang membedakannya dengan PPT
adalah dengan perubahan urutan penyajian butir soal kepada peserta tes.
Kesempatan menyontek pada model fixed form CBT cukup besar karena
butir soal secara isi sama. Kelebihan fixed form CBT butir soal yang
dikembangkan relatif lebih sedikit.
3. Model Linear On the Fly Test (LOFT)
LOFT merupakan pengembangan lebih lanjut dari CBT. Pada LOFT
komputer memiliki koleksi butir soal yang berjumlah banyak dan bervariasi
dari tingkat kesulitan butir soal. Peserta tes pada model LOFT menerima
13
butir soal yang bervariasi dan berbeda pada setiap peserta tes. Model
LOFT butir soal yang disajikan walaupun berbeda secara isi namun secara
karakteristik statistik memiliki bobot yang sama. Kelebihan tes ini yaitu
peserta tes memiliki kesempatan menyontek yang kecil karena butir soal
yang berbeda. Kelemahan LOFT yaitu butir soal yang dikembangkan untuk
bank soal berjumlah banyak.
4. Model Computerized Adaptive Testing (CAT)
Pengujian komputer yang lebih maju adalah Computerized Adaptive
Testing (CAT). CAT memanfaatkan kemampuan komputasi dari komputer
untuk memilih butir soal yang tepat. Butir soal yang diberikan pada peserta
tes disesuaikan dengan tingkat kemampuan peserta tes. Tingkat
kemampuan peserta tes ini dilihat dengan data respon tiap butir soal.
peserta tes jika menjawab butir soal dengan benar maka tingkat kesulitan
butir soal dinaikkan, sebaliknya jika menjawab butir soal tidak tepat maka
tingkat kesulitan butir diturunkan. Peserta tes model CAT akan lebih aman
dari kemungkinan menyontek karena butir soal berbeda. CAT memiliki
kelemahan yaitu lebih mahal dalam pengembangannya dan butir soal yang
dikembangkan untuk bank soal berjumlah banyak.
5. Pengembangan Tes Esai Berbantuan Komputer
Tes esai berbantuan komputer merupakan bentuk dari CBT yang
dikembangkan peneliti. Tes esai menggunakan bantuan komputer untuk
menyajikan tes dan menilai tes. Tes esai berbantuan komputer mempunyai
dua fungsi utama yaitu untuk membuat soal esai dan menilai jawaban esai
14
soal. Jawaban esai dalam melakukan koreksinya menggunakan metode
string similarity yaitu dengan membandingkan jawaban soal dengan
jawaban yang ada pada bank soal.
Software Model Tes Esai Berbantuan Komputer dalam memberi skor
berdasarkan perbandingan text kunci jawaban dan jawaban. Perbandingan
text menurut Gomaa dan Fahmy (2012) dibagi menjadi dua yaitu: 1) String
based Similarity, merupakan penentuan kesamaan kata berdasarkan
urutan huruf dan komposisi huruf, String based similarity dibagi menjadi 13
jenis yang terdiri dari 6 character based distance measures dan 7 term
based distance measures; 2) Corpus Based Similarity, merupakan
penentuan persamaan kalimat dengan mencari sinonim dari tiap kata dari
database (library).
Character based distance measures diantaranya: 1) Damerau-
Lavenshtein distance, 2) Jaro algorithm, 3) Jaro-Winkler distance, 4)
Needleman-Wunsch algorithm, 5) Smith-Waterman algorithm, 6) N-Gram
similarity algorithm. Term based distance measures diantarnya: 1) Block
Distance, 2) Cosine similarity, 3) Dice’s coefficient,4) Euclideandistance, 5)
Jaccard similarity, 6) Matching coefficient, 7) Overlap coefficient. Corpus
based similarity diantaranya: 1) Latent semantic analysis, 2) Explicit
semantic analysis, 3) Pointwise mutual information, 4) Extracting DIS
tributionally similar word using CO-occurrences (DISCO).

15
Tahapan Pengembangan Sistem dengan Metode Waterfall
Metode waterfall (air terjun) memacu tim pengembang untuk merinci
apa yang seharusnya perangkat lunak lakukan (mengumpulkan dan
menentukan kebutuhan sistem) sebelum sistem tersebut dikembangkan.
Kemudian, model ini memungkinkan pemecahan misi pengembangan yang
rumit menjadi beberapa langkah logis (desain, kode, pengujian, dan
seterusnya) denga beberapa langkah yang pada akhirnya akan menjadi
produk akhir yang siap pakai (Simarmata, 2010).
Gambar 2. 1 Alur Metode Waterfall
Dalam pengembangannya, metode waterfall memiliki beberapa
tahapan yang berurut yaitu: Requirement (analisis kebutuhan), System
design (desain sistem), Coding (pengkodean), Testing (pengujian),
Penerapan Program dan pemeliharaan. Tahapan tahapan dari metode
waterfall akan dijelaskan di bawah ini:

16
1. Requirement Analysis
Tahap ini pengembang sistem melakukan komunikasi dengan
pengguna yang bertujuan untuk memahami perangkat lunak yang
diharapkan oleh pengguna dan batasan perangkat lunak tersebut.
Informasi ini biasanya dapat diperoleh melalui wawancara, diskusi atau
survei langsung. Informasi dianalisis untuk mendapatkan data yang
dibutuhkan oleh pengguna.
2. System Design
Spesifikasi kebutuhan dari tahap sebelumnya akan dipelajari dalam
fase ini dan desain sistem disiapkan. Desain Sistem membantu dalam
menentukan perangkat keras(hardware) dan sistem persyaratan dan juga
membantu dalam mendefinisikan arsitektur sistem secara keseluruhan.
3. Implementation
Pada tahap ini, sistem pertama kali dikembangkan di program kecil
yang disebut unit, yang terintegrasi dalam tahap selanjutnya. Setiap unit
dikembangkan dan diuji untuk fungsionalitas yang disebut sebagai unit
testing.
4. Integration & Testing
Seluruh unit yang dikembangkan dalam tahap implementasi
diintegrasikan ke dalam sistem setelah pengujian yang dilakukan masing-
masing unit. Setelah integrasi seluruh sistem diuji untuk mengecek setiap
kegagalan maupun kesalahan.

17
5. Operation & Maintenance
Tahap akhir dalam model waterfall adalah operationa & maintenance.
Perangkat lunak yang sudah jadi dijalankan serta dilakukan pemeliharaan.
Pemeliharaan termasuk dalam memperbaiki kesalahan yang tidak
ditemukan pada langkah sebelumnya. Perbaikan implementasi unit sistem
dan peningkatan jasa sistem sebagai kebutuhan baru.
Kelebihan menggunakan metode air terjun (waterfall) adalah metode
ini memungkinkan untuk departementalisasi dan kontrol. Proses
pengembangan model fase one by one, sehingga meminimalisir kesalahan
yang mungkin akan terjadi. Pengembangan bergerak dari konsep, yaitu
melalui desain, implementasi, pengujian, instalasi, penyelesaian masalah,
dan berakhir di operasi dan pemeliharaan (Galandi, 2016).
Sistem Temu Kembali Informasi (Information Retrieval
System)
Pada dasarnya sistem temu kembali informasi adalah suatu proses
untuk mengidentifikasi, kemudian memanggil (retrieve) suatu dokumen dari
suatu simpanan (file), sebagai jawaban atas pemintaan informasi.
Pengertian lain menyatakan bahwa sistem temu kembali informasi adalah
proses yang berhubungan dengan representasi, penyimpanan, pencarian
dengan pemanggilan informasi yang relevan dengan kebutuhan informasi
yang diinginkan pengguna (Ingwersen, 1992, hal. 49).Pendapat ini
menunjukan bahwa pada sistem temu kembali informasi terkandung
sejumlah kegiatan yang meliputi proses penyimpanan, penyediaan

18
representasi, identifikasi serta pencarian atau penelusuran dokumen yang
relevan pada suatu database, dalam rangka memenuhi kebutuhan
informasi dari pengguna.
Sistem temu kembali informasi merupakan suatu sistem yang
menemukan (retrieve) informasi yang sesuai dengan kebutuhan user dari
kumpulan informasi secara otomatis. Prinsip kerja sistem temu kembali
informasi jika ada sebuah kumpulan dokumen dan seorang user yang
memformulasikan sebuah pertanyaan (request atau query). Jawaban dari
pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan
membuang dokumen yang tidak relevan (Salton, 1989).
Sistem temu kembali informasi akan mengambil salah satu dari
kemungkinan tersebut. Sistem temu kembali informasi dibagi dalam dua
komponen utama yaitu sistem pengindeksan (indexing) menghasilkan
basis data sistem dan temu kembali merupakan gabungan dari user
interface dan look-up-table. Sistem temu kembali informasi didesain untuk
menemukan dokumen atau informasi yang diperlukan oleh user (Amin,
2012).
Dari sekian banyak sistem temu kembali yang ada,salah satu
diantaranya adalah sistem temu kembali informasi berbasis teks atau
tekstual. Sistem temu kembali tekstual adalah salah satu dari berbagai
sistem yang mengelola penyimpanan teks secara terkomputerisasi,
kemudian temu kembali informasinya (Rownlands, 1986). Dalam sistem
temu kembali tekstual, fokus utama ialah terletak pada penyimpanan dan
19
temu kembali informasi berbasis teks, dan bukan data numerik, tabulasi,
atau data grafis semata. Tetapi dalam kenyataannya, dokumen- dokumen
yang ada saat ini jarang yang hanya terdiri dari informasi berbasis teks
semata, melainkan dokumen yang berupa gabungan dari numerik, tabel,
grafis, image dan sebagainya dengan teks.
Rowlands (1986) mengidentifikasikan ada empat fungsi yang paling
penting, yang bisa terbukti dalam segala jenis sistem temu kembali
informasi tekstual yang baik, yaitu bahwa suatu sistem temu kembali
informasi tekstual yang baik, seharusnya dapat untuk: (a) menerima dan
menyusun berbagai teks dari berbagai sumber; (b) menetapkan
penyimpanan yang sesuai untuk semua teks, (c)
mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan
dalam merespon queries yang diberikan; (d) memproses teks yang
didapatkan, dan menyajikannya kepada pengguna dalam format yang
dapat diterima (acceptable).
Model Information Retrieval adalah model yang digunakan untuk
melakukan pencocokkan antara term-term dari query dengan term-term
dalam document collection, model yang terdapat dalam Information
Retrieval terbagi dalam 3 model besar, yaitu:
1. Set-theoritic Model, model yang merepresentasikan dokumen sebagai
himpunan kata atau frase. Contoh dari model ini adalah Standard
Boolean Model dan Extended Boolean Model.
2. Algebratic Model, model ini merepresentasikan dokumen dan query

20
sebagai vector atau matriks similarity antara vektor dokumen dan
vektor query yang direpresentasikan sebagai sebuah nilai scalar.
Contoh model ini adalah Vector Space Model dan Latent Semantic
Indexing.
3. Probabilistic Model, model ini memperlakukan proses pengembalian
dokumen sebagi probabilistic inference. Contoh model ini adalah
penerapan teorama bayes dalam model probabilistik.
Text Preprocessing
Text Preprocessing adalah suatu tahap untuk mengolah sebuah teks
mentah menjadi kata-kata yang telah siap dihitung bobot katanya. Proses-
proses dalam Text Preprocessing yaitu case folding, tokenizing, filtering,
dan stemming sebagaimana pada gambar 2.2 di bawah ini:
Case Folding
Tokenizing
Filtering
Stemming
Gambar 2. 2 Alur Text Preprocessing
Berikut ini adalah penjelasan dari masing-masing alurnya:

21
1. Case Folding
Tidak semua dokumen konsisten dalam penggunaan huruf kapital.
Oleh karena itu, peran Case Folding dibutuhkan dalam mengkonversi
keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya
huruf kecil atau lowercase). Case folding adalah proses mengubah semua
isi dokumen menjadi karakter dengan huruf kecil dan membuang semua
karakter selain a-z. Jika terdapat tanda baca, bilangan numerik dan symbol
semua akan dihilangkan dan dianggap sebagai delimeter. Contohnya
terlihat pada tabel:
Tabel 2. 1 Contoh Case Folding

Kalimat Hasil case folding
- Membuang sampah - membuang sampah
sembarangan dapat sembarangan dapat
menyebabkan banjir. Aliran air menyebabkan banjir. aliran air
akan tersumbat karena sampah. akan tersumbat karena sampah.
Banjir merugikan manusia. banjir merugikan manusia
2. Tokenizing
Tokenizing adalah suatu proses untuk mengubah bentuk kalimat
menjadi kata-kata tunggal. Pemotongan kalimat berdasarkan delimeter
yang menyusunnya, yaitu spasi (“ “) dan tanda baca, seperti tanda titik (.),
tanda koma (,), tanda seru (!), dan tanda Tanya (?). Proses ini bertujuan
agar nantinya dapat melakukan proses stemming. Contoh hasil tokenizing
dapat dilihat pada tabel 2.2.

22
Tabel 2. 2 Contoh Tokenizing

Hasil Case Folding Hasil Tokenizing
- membuang sampah - membuang
sembarangan dapat - sampah
menyebabkan banjir - sembarangan
- dapat
- menyebabkan banjir
3. Filtering
Pada proses filtering yang dilakukan yaitu penghapusan stopword.
Stopword merupakan kata-kata yang tidak memiliki makna atau kata yang
kurang berarti dan selalu muncul dalam kumpulan kata-kata. Proses
pembuangan kata-kata yang tidak penting bisa dilakukan dengan
mengecek pada kamus stopword. Jika sebuah kata terdapat pada kamus
stopword maka akan dibuang atau dihapus. Seandainya stopword tidak
dilhilangkan maka stopword akan memiliki bobot yang besar karena sering
muncul dalam teks, sehingga akan mempengaruhi hasil penilaian.
Stopword dapat berupa kata penghubung, kata ganti, preposisi, dan lain-
lain. Contoh kata yang termasuk stopword adalah : dia, dan, antara, yang,
akan, demi, karena, atau, bahwa, bila, kecuali, oleh, dan lain-lain. Contoh
filtering dapat dilihat pada tabel 2.3

23
Tabel 2. 3 Contoh Filtering

Teks Hasil filtering
- membuang sampah - membuang sampah
sembarangan dapat sembarangan meyebabkan
menyebabkan banjir banjir
4. Stemming
Proses selanjutnya yaitu stemming, stemming adalah proses
megembalikan suatu kata ke bentuk akarnya (root word) dengan aturan-
aturan tertentu, sehingga setiap kata memilki representasi yang sasma.
Stemming dalam penelitian ini akan menggunakan Algoritma Nazief &
Adriani. Algoritma ini dikembangkan berdasarkan morfologi Bahasa
Indonesia dengan mengelompokkan imbuhan menjadi awalan (prefix),
akhiran (suffix), dan gabungan (confixes). Contoh Stemming terlihat pada
tabel:
Tabel 2. 4 Contoh Stemming

Hasil Filtering Hasil Stemming
- membuang sampah - buang sampah sembarang
sembarangan dapat sebab banjir
menyebabkan banjir
Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna
Adriani ini memiliki tahap-tahap sebagai berikut:
a. Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika
24
ditemukan maka diasumsikan kata adalah root word. Maka algoritma
berhenti.
b. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika
berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini
diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau
“-nya”), jika ada.
c. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan
di kamus, maka algoritma berhenti. Jika tidak maka ke langkah C1.
1) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah
“-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam
kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan
langkah C2.
2) Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke
langkah D.
d. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus
maka pergi ke langkah D1, jika tidak pergi ke langkah D2.
1) Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika
ditemukan maka algoritma berhenti, jika tidak pergi ke langkah D2
2) For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika
root word belum juga ditemukan lakukan langkah 5, jika sudah maka
algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan
pertama algoritma berhenti.
e. Melakukan Recoding.
25
f. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata
awal diasumsikan sebagai root word. Proses selesai.
Metode Pembobotan Dokumen dengan TF-IDF
Term Frequency merupakan frekuensi dokumen berdasarkan
kemunculan sebuah term (istilah) dalam dokumen yang bersangkutan.
Semakin sering sebuah kata muncul, semakin tinggi bobot dokumen untuk
istilah tersebut, begitu pula sebaliknya (Wahib, Pasnur, Santika, & Arifin,
2015).
Pada Term Frequency, terdapat beberapa jenis formula yang dapat
digunakan:
1. TF biner (binary TF), hanya memperhatikan apakah suatu kata atau
term ada atau tidak ada dalam dokumen, jika ada diberi nilai satu (1),
dan jika tidak diberi nilai nol (0).
2. TF mumi (raw TF), nilai TF diberikan berdasarkan jumlah kemunculan
suatu term di dokumen. Contohnya jika muncul delapan (8) kali maka
kata tersebut akan bernilai delapan (8).
3. TF logaritmik, hal ini untuk menhindari dominansi dokumen yang
mengandung sedikit term dalam query, namum mempunyai frekuensi
tinggi.
𝑇𝐹 = 1 + log⁡(𝑡𝑓) ............................................................................ (2.1)
4. TF normalisasi, menggunakan perbandingan antara frekuensi sebuah
term dengan nilai maksimum dari keseluruhan atau kumpulan frekuensi
term yang ada pada suatu dokumen.

26
𝑡𝑓
𝑇𝐹 = 0.5 + 0.5⁡𝑥⁡ [max 𝑡𝑓]................................................................. (2.2)
Adapun contoh perhitungan term frequency sebagai berikut:
D1 = Saya sedang belajar menghitung tf.idf.
D2 = Tf.idf merupakan frekuensi kemunculan term pada dokumen.
D3 = Langkah awal perhitungan tersebut adalah menghitung tf,
kemudian menghitung df dan idf.
D4 = Langkah terakhir menghitung nilai tf.idf.
D5 = Mari kita belajar.
Tabel 2. 5 Perhitungan Term Frequency

Term (t) D1 D2 D3 D4 D5
Akhir 0 0 0 1 0
Awal 0 0 1 0 0
Belajar 1 0 0 0 1
Dokumen 0 1 0 0 0
Frekuensi 0 1 0 0 0
Hitung 1 0 3 1 0
Idf 1 1 1 1 0
Kita 0 0 0 0 1
Langka 0 0 1 1 0
Muncul 0 1 0 0 0
Saya 1 0 0 0 0
Term 0 1 0 0 0
Tf 1 1 1 1 0
Inverse Document Frequency merupakan metode pembobotan yang
dipadukan dengan Term Frequency yang menghitung banyaknya istilah
tertentu dalam keseluruhan dokumen. Metode Inverse Document
Frequency merupakan perhitungan dari bagaimana term di distribusikan
secara pada koleksi dokumen yang bersangkutan (Ashari, 2017).

27
Inverse Document Frequency menunjukkan hubungan ketersediaan
term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang
mengandung term yang dimaksud, maka nilai IDF semakin besar.
Sedangkan untuk IDF dihitung dengan sebuah term menggunakan formula
sebagai berikut:
𝐷
𝐼𝐷𝐹𝑗 = 𝑙𝑜𝑔 𝑑𝑓 ................................................................................. (2.3)
𝑗
Dimana:
D : jumlah semua dokumen
dfj : jumlah dokumen yang mengandung term
Adapun contoh perhitungan Inverse Document Frequency adalah
sebagai berikut:
1. Menhitung Document Frequency (DF)
Document Frequency (df) adalah banyaknya dokumen dimana suatu
term (t) muncul. Contoh: Dari soal yang sama pada menghitung tf, tentukan
nilai df.
28
Tabel 2. 6 Contoh Perhitungan Document Frequency

Term (t) D1
Akhir 1
Awal 1
Belajar 2
Dokumen 1
Frekuensi 1
Hitung 5
Idf 4
Kita 1
Langka 2
Muncul 1
Saya 1
Term 1
Tf 4
2. Menghitung Inverse Document Frequency (IDF)

𝐷
𝐼𝐷𝐹𝑗 = 𝑙𝑜𝑔10 𝑑𝑓 ............................................................................ (2.4)
𝑗
Contoh dari soal yang sama pada menghitung df, hitung nilai idf.
Tabel 2. 7 Contoh Perhitungan Inverse Documen Frequency

Term (t) D1 D1
Akhir 1 Log (4/1)=0.602
Awal 1 Log (4/1)=0.602
Belajar 2 Log (4/2)=0.301
Dokumen 1 Log (4/1)=0.602
Frekuensi 1 Log (4/1)=0.602
Hitung 5 Log (4/5)=0.097
Idf 4 Log (4/4)=0
Kita 1 Log (4/1)=0.602
Langka 2 Log (4/2)=0.301
Muncul 1 Log (4/1)=0.602
Saya 1 Log (4/1)=0.602
Term 1 Log (4/1)=0.602
Tf 4 Log (4/4)=0
29
Metode Pengukuran Similaritas Dokumen
Pengukuran similaritas teks atau dokumen menurut Gomaa dan Fahmy
(2013) dibagi menjadi dua yaitu:
1) String based Similarity, merupakan penentuan kesamaan kata
berdasarkan urutan huruf dan komposisi huruf, String based similarity
dibagi menjadi 13 jenis yang terdiri dari 6 character based distance
measures dan 7 term based distance measures. Character based distance
measures diantaranya: 1) Damerau-Lavenshtein distance, 2) Jaro
algorithm, 3) Jaro-Winkler distance, 4) Needleman-Wunsch algorithm, 5)
Smith-Waterman algorithm, 6) N-Gram similarity algorithm. Term based
distance measures diantarnya: 1) Block Distance, 2) Cosine similarity, 3)
Dice’s coefficient,4) Euclideandistance, 5) Jaccard similarity, 6) Matching
coefficient, 7) Overlap coefficient.
2) Corpus Based Similarity, merupakan penentuan persamaan kalimat
dengan mencari sinonim dari tiap kata dari database (library). Corpus
based similarity diantaranya: 1) Latent semantic analysis, 2) Explicit
semantic analysis, 3) Pointwise mutual information, 4) Extracting DIS
tributionally similar word using CO-occurrences (DISCO).
Algoritma Cosine Similarity
Menurut Manning, Ragahvan, dan Schutze (2009) cosine similarity
digunakan untuk mengukur kedekatan antara dua vektor. Cosine similarity
merupakan hasil dot product kedua vektor tersebut yang dinormalisasikan
dengan dibagi dengan Eucledian Distance antar kedua vektor tersebut.

30
Rumus yang didapat adalah sebagai berikut:
𝑑𝑗 .𝑞 ∑𝑁
𝑖=1 𝜔𝑖 ,𝑗𝜔𝑖 ,𝑞
𝑆𝑖𝑚(𝑑𝑗 , 𝑞) = ||𝑑 = 𝑖𝑚(𝑑𝑗 , 𝑞) = ....................... (2.5)
||||𝑞||
𝑗 √∑𝑁 2 𝑁 2
𝑖=1 𝜔 𝑗√∑𝑖=1 𝜔 𝑞
Keterangan:
Dj = Dokumen j
q = Query Dokumen
√∑𝑁 2
𝑖=1 𝜔 𝑗 = Jumlah bobot kata I pada dokumen j
√∑𝑁 2
𝑖=1 𝜔 𝑞 = JUmlah bobot kata I pada dokumen query
Tabel 2. 8 Perhitungan Dot Product

WD*Wdi
D1 D2 D3 D4 D5
0,021316 0 0 0,021316 0,021316
0 0,004356 0,004356 0,004356 0,004356
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0,021316 0,004356 0,004356 0,02173 0,02173
Tabel perhitungan hasil dot product antara kedua dokumen Q dan Dj
merupakan hasil penjumlahan dari perkalian query dan dokumen.
Tabel 2. 9 Perhitungan Panjang Vektor

Panjang Vektor
Q1 D1 D2 D3 D4 D5
0,0213 0,0213 0 0 0,0213 0,0213
0,0043 0 0,0043 0,0043 0,0043 0,0043
0 0,714 0 0 0 0
0 0,714 0 0 0 0
0 0,714 0 0 0 0
0,02173 1,23686 0,0043 0,0043 0,02173 0,02173
Tabel perhitungan panjang vektor merupakan hasil penjumlahan nilai

31
kuadrat pembobotan setiap term dalam setiap dokumen.
Maka perhitungan kemiripan antara Q dan Dj dalam rumus cosine
similarity sebagai berikut:
Sim (Q,D1) = 0,0213/(1,2368*0,0217) = 0,0213/0,0268 = 0,7947
Sim (Q,D2) = 0,0043/(0,0043*0,0217) = 0,0043 /9,3310 = 0,0004
Sim (Q,D3) = 0,0043/(0,0043*0,0217) = 0,0043 /9,3310 = 0,0004
Sim (Q,D4) = 0,0256/(0,0217*0,0217) = 0,0256 /0,0004 = 64
Sim (Q,D5) = 0,0256/(0,0217*0,0217) = 0,0256 /0,0004 = 64
Tabel 2. 10 Hasil Perhitungan Cosine similarity

Urutan Dokumen Nilai Cosine similarity
1 D4 64
2 D5 64
3 D1 0,7947
4 D2 0,0004
5 D3 0,0004
Jadi tingkat kemiripan dokumen berada pada D4 dan D5 = 64
Perangkat Lunak Pendukung
Adapun perangkat-perangkat lunak yang digunakan akan diuraikan
pada di bawah ini:
1. PHP (PHP: Hypertext Preprocessor)
Menurut Arief (2011) PHP adalah bahasa server-side scripting yang
menyatu dengan HTML (Hypertext Markup Language) untuk membuat
halaman web yang dinamis. Karena PHP merupakan server-side scripting
maka sintaks dan perintah-perintah PHP akan dieksekusi di server
kemudian hasilnya dikirimkan ke browser ke dalam format HTML. Dengan

32
demikian kode program yang ditulis dalam PHP tidak akan terlihat oleh user
sehingga keamanan halaman web lebih terjamin. PHP dirancang untuk
membentuk halaman web yang dinamis, yaitu halaman web yang dapat
membentuk suatu tampilan berdasarkan permintaan terkini, seperti
meampilkan isi basis data ke halaman web.
PHP termasuk ke dalam Open Source Product, sehingga source code
PHP dapat diubah dan didistribusikan secara bebas. Versi terbaru PHP
dapat diunduh secara gratis di situs resmi PHP:http://www.php.net. PHP
juga dapat berjalan pada berbagai web server seperti IIS (Internet
Information Server), PWS (Personal Web Server), Apache, Nginx. PHP
juga memiliki kemampuan lintas platform, artinya PHP dapat berjalan di
banyak sistem operasi yang beredar saat ini, di antaranya Windows, Linux,
Mac OS, dan Solaris. PHP dapat dibangun sebagai modul pada web server
Apache dan sebagai binary yang dapat berjalan sebaga CGI (Common
Gateway Interface).
Salah satu keunggulan yang dimiliki oleh PHP adalah kemampuannya
untuk melakukan koneksi ke berbagai macam sofware sistem manajemen
basis data/Database Manaegement Systems (DBMS), sehigga dapat
menciptakan suatu halaman web yang dinamis. PHP mempunyai
konektifitas yang baik dena beberapa DBMS antara lain Oracle, Sybase,
mSQL, MySQL, PostgreSQL, dan tak terkecuali semua database ber-
interface ODBC. PHP juga memiliki integrasi denga beberapa library
eksternal yang dapat membuat Anda melakukan segalanya dari dokume

33
PDF hingga mem-parse XML. PHP mendukung komunikasi engan layanan
lain melalui protokol IMAP, SNMP, NNTP, POP3 atau bahkan HTTP. Bila
PHP berada dalam halaman web anda, maka tidak lagi dibutuhkan
pengemangan lingkungan khusus atau direktori khusus. Hampir seluruh
aplikasi berbasis web dapat dibuat denga PHP. Namun kekuatan utama
adalah konektifitas basis data denga web. Dengan kemampuan ini kita
akan mempunyai suatu sistem basis data yang dapat diakses dari web.
2. MySQL
Nugroho (2004) mengemukakan, MySQL (My Structure Query
Language) atau yang biasa disebut “mai-se-kuel” adalah sebuah program
pembuat database yang bersifat open-source, artinya siapa saja boleh
menggunakannya dan tidak dicekal.
MySQL sebenarnya produk yang berjalan pada platform Linux, Karena
sifatnya yang open source, MySQL dapat berjalan pada semua platform
baik Windows maupun Linux. Selain itu, MySQL juga merupakan program
pengakses database yang bersifat jaringan sehingga dapat digunakan
untuk aplikasi multiuser (banyak pengguna). Saat ini database MySQL
telah digunakan oleh kebanyakan pemrogram database, terlebih dalam
pemrograman web.
Kelebihan lain dari MySQL adalah pengunaan Bahasa query yang
dimiliki SQL (Structured Query Language). SQL adalah suatu Bahasa
permintaan yang terstruktur dan telah distandarisasi untuk semua program
pengakses database, seperti Oracel, PostgreSQL, SQL Server, dan lain-

34
lain.
Sebagai program penghasil database, MySQL tidak dapat berjalan
sendiri tanpa adanya sebuah aplikasi lain (interface). MySQL dapat
didukung oleh hampir semua program aplikasi baik yang open-source
seperti PHP maupun yang tidak.
a. DDL ( Data Definition Language) adalah suatu bentuk Bahasa yang
digunakan untuk melakukan pendefinisian data. Hal ini menyangkut
pembuatan tabel, perubahan tabel serta penambahan struktur tabel.
b. DML (Data Manipulation Language) adalah suatu bahasa
pemanipulasian data dimana seorang pengguna dapat melakukan
operasi-operasi input data, edit data, hapus data dan melihat data.
BAB III
METODOLOGI PENELITIAN
Tinjauan Umum
STMIK AKBA adalah salah satu perguruan tinggi swasta di Makassar
yang didirikan oleh Yayasan Pendidikan Kartini (Yapenka). Yayasan ini
berdiri pada tanggal 10 Februari 1995. Pada awalnya Yapenka
menyelenggarakan kursus-kursus keterampilan komputer, bahasa Inggris,
akuntansi, menjahit, dan musik. Akan tetapi, berdasarkan pengalaman
pengelola, para peserta lebih dominan mengikuti kursus komputer, bahasa
inggris, dan akuntansi. Ketiga keterampilan tersebut yang masih melekat
pada nuansa pendidikan STMIK AKBA sekarang ini.
Sebagaimana perguruan tinggi lainnya, STMIK AKBA juga menerapkan
ujian sebagai bahan evaluasi hasil belajar mahasiswanya. Namun,
pelaksanaan ujian dan pemeriksaannya masih dilakukan secara manual.
Hal ini menyebabkan banyak waktu dosen yang terbuang untuk melakukan
pemeriksaan hasil ujian. Bahkan, pengumuman nilai ujian mahasiswa
sering kali tertunda karena keterlambatan dosen dalam menyerahkan hasil
pemeriksaan ujian mahasiswa ke bagian yang bersangkutan.
Subjektifitas merupakan alasan lain dari kurang efektifnya pemeriksaan
hasil ujian secara manual. Nilai yang diberikan akan bergantung dari
bagaimana dosen melihat mahasiswa yang diperiksa hasil ujiannya.
Sehingga, nilai yang dihasilkan tidak murni mengukur tingkat pemahaman
35
36
mahasiswa. Mahasiswa juga akan merasa nilai yang diberikan tidak adil.
Beberapa masalah yang dijelaskan sebelumnya merupakan dasar dari
munculnya ide penelitian ini. Karena kasus semacam ini tidak hanya terjadi
di STMIK AKBA, di instansi pendidikan lainnya pun juga mengalami
masalah yang kurang lebih sama dengan yang terjadi saat ini.
Metode Pengumpulan Data
Metode pengumpulan data yang digunakan dalam penelitian ini adalah
sebagai berikut:
1. Observasi
Penulis melakukan pengamatan langsung ke lapangan (observasi).
Tahap ini dilakukan untuk mengetahui seperti apa permasalahan yang ada
di STMIK AKBA terutama yang terkait dengan masalah evaluasi hasil
belajar mahasiswa.
2. Wawancara
Penulis melakukan wawancara dengan dosen pengampu mata kuliah
Tata Tulis dan Komunikasi Ilmiah. Data yang dikumpulkan dari proses
wawancara ini berupa contoh soal ujian, dan kunci jawabannya. Data-data
ini yang nanti akan digunakan sebagai data utama untuk sistem penilaian
otomatis yang akan dibangun.

37
Temuan Data
Data yang digunakan dalam penelitian ini adalah data mata kuliah Tata
Tulis dan Komunikasi Ilmiah yang merupakan salah satu mata kuliah wajib
di STMIK AKBA. Data yang dimaksud daftar soal ujian, kunci jawaban,
jawaban mahasiswa dan hasil penilaian dosen secara manual.
Keseluruhan data ini akan digunakan untuk menghitung nilai ujian
mahasiswa secara otomatis dan untuk mengukur akurasi penilaian
otomatis yang dibuat.
Gambar 3. 1 Contoh Soal Esai
Gambar 3.1 di atas adalah contoh soal ujian pada mata kuliah Tata
Tulis dan Komunikasi Ilmiah. Contoh soal seperti inilah yang nanti akan
38
digunakan untuk sistem penilaian otomatis, dimana soal-soal lebih
mengarah kepada uraian dan penjelasa teori.
Diagram Blok Model Sistem Usulan
Diagram blok model dari sistem yang akan dibangun digambarkan
pada gambar 3.2:
Gambar 3. 2 Diagram Blok Model Sistem
Berdasarkan gambar diatas, maka tahapan-tahapan sistem penilaian
otomatis dengan cosine similairity yaitu:
1. Input Dokumen
Langkah awal dari sistem usulan ini adalah penginputan data. Data
yang dimasukkan ke dalam sistem berasal dari dua sumber, yaitu dari
dosen berupa soal dan kunci jawaban, dan dari mahasiswa berupa jawaban
mahasiswa. data-data ini akan disimpan ke dalam database untuk
digunakan kembali pada proses-proses selanjutnya.
2. Pemrosesan teks
Data yang sudah disimpan dalam database akan dilakukan
pemrosesan awal. Yaitu sebagaimana yang telah dijelaskan mengenai text

39
preprocessing, teks akan diolah dengan dilakukan case folding, tokenisasi,
filtering dan stemming. pemrosesan teks ini dilakukan agar kata-kata yang
dihasilkan siap untuk dihitung bobotnya.
3. Perhitungan bobot
Perhitugan bobot merupakan langkah selanjutnya yang harus
dilakukan. Setelah pemrosesan teks dilakuan, teks akan dihitung bobotnya
menggunakan metode TF-IDF berdasarkan frekuensi kemunculan term
dalam teks. Pembobotan ini akan menhasilkan nilai vektor untuk masing-
masing jawaban dan kunci jawaban yang kemudian akan digunakan dalam
perhitungan cosine similarity.
4. Pehitungan kemiripan dengan Cosine Similarity
Perhitungan kemiripan dengan cosine similarity merupakan tahap inti
dari sistem usulan ini. Setelah teks jawaban dan kunci jawaban telah
melalui proses pembobotan, maka hasil dari pembobotan tersebut akan
dihitung tingkat kemiripannya antara vektor kunci jawaban dengan vektor
jawaban mahasiswa. Proses ini akan menghasilkan nilai dengan rentang
nilai 0-1.
5. Konversi nilai
Konversi nilai merupakan tahap untuk menghitung nilai hasil ujian yang
didapatkan oleh mahasiswa. Konversi nilai dilakukan dengan mengubah
nilai yang dihasilkan dari pehitungan cosine similarity menjadi nilai ujian
dengan mengacu pada tabel 3.4.

40
Tabel 3. 1 Tabel Konversi Nilai

Nilai Kemiripan Nilai Ujian
0.01 – 0.10 10
0.11 – 0.20 20
0.21 – 0.30 30
0.31 – 0.40 40
0.41 – 0.50 50
0.51 – 0.60 60
0.61 – 0.70 70
0.61 – 0.80 80
0.81 – 0.90 90
0.91 – 0.100 100
Tahapan Pengembangan Sistem
Sistem penilaian otomatis pada penelitian ini akan dibangun dengan
metode waterfall (air terjun). Tahapan-tahapannya adalah analisis, desain,
implementasi, testing dan maintenance. Berikut penjelasan masing-masing
tahapannya:
1. Analisis Kebutuhan Sistem
Analisis kebutuhan sistem pada penelitian ini akan dijabarkan kedalam
beberapa sub, yaitu analisis kebutuhan fungsional, non-fungsional dan
informasi.
a) Analisis Kebutuhan Fungsional

Kebutuhan fungsional adalah jenis kebutuhan yang berisi proses-
proses apa saja yang nantinya dilakukan oleh sistem. Kebutuhan
fungsional juga berisi informasi-informasi apa saja yang harus dilakukan
oleh sistem.
Adapun kebutuhan fungsional pada penelitian ini akan dijabarkan pada
tabel 3.2:
41
Tabel 3. 2 Analisis Kebutuhan Fungsional

Aktor Deskripsi
Admin - Mengelola data Mahasiswa dan
Dosen
Dosen - Membuat soal ujian
- Melaksanakan ujian
- Melihat nilai mahasiswa
Mahasiswa - Menjawab soal ujian
- Melihat nilai ujian
b) Analisis Kebutuhan Non Fungsional

Kebutuhan Non Fungsional adalah jenis kebutuhan yang berisi property
perilaku yang dimiliki oleh sistem. Kebutuhan non fungsional meliputi
kebutuhan operasional, kinerja, operasi, informasi dan ekonomi.
1) Operasional
Kebutuhan operasional dari sistem ini dibagi ke dalam dua sub, yaitu
kebutuhan perangkat keras dan kebutuhan perangkat lunak.
(a) Perangkat Keras
Perangkat keras yang dibutuhkan untuk membuat sistem peniaian soal
esai secara otomatis adalah sebuah unit PC/Laptop dengan spesifikasi
sebagai berikut:
(1) Harddisk berkapasitias minimum 50GB
(2) RAM minimal 1GB
(3) Processor Intel Pentium 4
(4) Monitor dengan resolusi minimal 800x600 pixel.
(b) Perangkat Lunak
Perangkat lunak yang dibutuhkan untuk membuat sistem penilaian soal

42
esai secara otomatis sebagai berikut:
(1) Windows 7
(2) Mysql versi 5.xx ke atas
(3) PHP versi 5.xx ke atas
(4) Teks editor (Sublime/Atom)
(5) Web Browser (versi terbaru direkomendasikan)
2) Kinerja
Sistem ini diharapkan mampu memberikan penilaian terhadap jawaban
mahasiswa dengan akurat dan cepat. Akurasi penilaian dihitung
berdasarkan tingkat kemiripannya dengan penilaian yang dilakukan oleh
dosen.
3) Informasi
Informasi yang akan ditampilkan berupa hasil ujian mahasiswa. hasil
ujian yang dimaksud adalah hasil dari penilaian otomatis menggunakan
cosine similarity yang tela dikonvensi menjadi nilai hasil ujian.
4) Ekonomi
Kebutuhan ekonomi adalah penilaian sistem dari segi ekonominya.
Adapun segi ekonomi yang dimaksud adalah bagimana sistem dapat
menghemat pengeluaran kertas.
2. Desain Sistem
Dalam penelitian ini, rancangan sistem dibagi dalam 2 tahapan.
Tahapan yang pertama yaitu rancangan database dan yang kedua adalah
rancangan interface sistem. Berikut penjelasannya:

43
a) Rancangan Database
Berikut tabel-tabel yang akan dibuat dalam database penelitian ini,
primary key ditandai dengan (*) sedangkan foreign key ditandai dengan (**):
1) Tabel User
Tabel 3. 3 Tabel User

No Nama Field Tipe Data Panjang Data
1 id_user* int 3
2 Username varchar 30
3 Password varchar 20
4 Level int 1
Tabel User memiliki sebuah primary key, yaitu ‘id_user’. Tabel ini akan
digunakan sebagai referensi pengecekan data untuk login user baik itu
admin, dosen maupun mahasiswa.
2) Tabel Dosen
Tabel 3. 4 Tabel Dosen

1 id_dosen* int 3
2 Nama varchar 30
3 Nidn varchar 15
4 id_user** int 3
Tabel dosen memiliki primary key yaitu ‘id_dosen’ dan sebuah foreign
key yaitu ‘id_user’. Setiap penginputan data dosen akan menambahkan
user baru pada tabel user.

44
3) Tabel Mahasiswa
Tabel 3. 5 Tabel Mahasiswa

1 id_mhs* int 3
2 Nama varchar 30
3 Nim varchar 15
4 Id_user** int 3
Tabel mahasiswa memiliki primary key yaitu ‘id_mahasiswa dan
sebuah foreign key yaitu ‘id_user’. Setiap penginputan data mahasiswa
akan menambahkan user baru pada tabel user.
4) Tabel Matkul
Tabel 3. 6 Tabel Mata Kuliah

1 id_matkul* int 3
2 nama_matkul varchar 30
3 id_dosen** int 3
Tabel mata kuliah memiliki primary key berupa ‘kd_matkul’. Tabel ini
berelasi dengan tabel dosen, dimana setiap mata kuliah memiliki satu
dosen pengampu.
5) Tabel Ujian
Tabel 3. 7 Tabel Ujian

1 kd_ujian * int 3
2 Nama_ujian varchar 30
3 Tanggal date
4 Status enum open,close
5 kd_matkul** Int 3
Tabel Ujian memiliki primary key berupa ‘kd_ujian’ dan foreign key
‘kd_matkul’. Tabel ini berelasi tabel matkul dimana setiap ujian merupakan
45
ujian dari mata kuliah tertentu.
6) Tabel Soal
Tabel 3. 8 Tabel Soal

1 kd_soal * int 3
2 kd_ujian** int 3
3 Soal text
4 Kunci text
5 Bobot Int 3
Tabel Soal memiliki primary key berupa ‘kd_soal’ dan sebuah foreign
key yaitu ‘kd_ujian. Tabel ini berelasi dengan tabel ujian, dimana setiap soal
merupakan bagian dari sebuah ujian tertentu.
7) Tabel Jawaban
Tabel 3. 9 Tabel Jawaban

1 kd_jawaban * int 3
2 kd_soal** int 3
3 id_mhs** int 3
4 kd_ujian** int 3
5 Jawaban text
Tabel Jawaban memiliki primary key ‘kd_jawaban’ dan beberapa
foreign key. Field ‘kd_soal’ sebagai penanda bahwa jawaban tersebut
merupakan jawaban dari soal yang terdapat pada tabel soal, field ‘id_mhs’
menunjukkan bahwa jawaban itu adalah jawaban dari mahasiswa yang
tertera id-nya pada tabel mahasiswa, sedangkan field ‘kd_ujian’
menunjukkan bahwa itu merupakan jawaban dari ujian yang tertera pada
tabel ujian.
46
8) Tabel Nilai
Tabel 3. 10 Tabel Nilai

1 kd_nilai * int 3
2 nilai int 3
3 kd_ujian** int 3
4 id_mhs** int 3
Tabel Nilai memiiliki primary key ‘kd_nilai’ dan duah foreign key yaitu
‘kd_ujian’ dan ‘id_mhs’. Tabel ini berelasi dengan tabel ujian dan tabel
mahasiswa yang menunjukkan bahwa nilai yang tertera adalah nilai dari
mahasiswa ini pada ujian ini seperti yang ada dalam tabel..
b) Rancangan Interface
Berikut ini rancangan interface/antarmuka dari sistem penilaian ujian
esai otomatis yang akan dibangun:
1) Dashboard Admin
Gambar 3. 3 Dashboard Admin
;Halaman admin memiliki 2 fitur yaitu untuk mengelola data dosen dan
47
data mahasiswa. pengelolaah data ini mulai dari penginputan data sampai
pada penghapusan data.
2) Dashboard Dosen
Gambar 3. 4 Dashboard Dosen
Pada halaman dosen disediakan 3 menu. Yaitu menu daftar ujian yang
menampilkan ujian-ujian yang telah dibuat dan statusnya, kemudian ada
menu untuk membuat soal ujian, dan menu untuk mengganti password.
48
3) Dashboard Mahasiswa
Gambar 3. 5 Dashboard Mahasiswa
Pada halaman mahasiswa juga terdapat tiga pilihan menu. Yaitu daftar
nilai yang menampilkan nilai-nilai dari ujian yang sudah pernah diikuti oleh
mahasiswa, kemudian ada menu ujian untuk mengikuti ujian dengan
memasukkan kode ujian pada form yang akan tampil, dan disediakan pula
menu untuk mengganti password.

49
4) Form Tambah Ujian
Gambar 3. 6 Form Tambah Ujian
Form tambah ujian merupakan form yang perlu diisi oleh dosen ketika
ingin membuat ujian baru. Data-data yang perlu dimasukkan antara lain:
nama mata kuliah, tanggal pelaksanaan, soal, kunci jawaban, dan bobot
nilai untuk masing-masing soal.
5) Form Kerja Ujian
Gambar 3. 7 Form Kerja Ujian
Form kerja ujian merupakan form yang akan tampil ketika mahasiswa
sudah memasukkan kode ujian. Pada form ini mahasiswa dapat langsung
50
menjawab soal-soal yang ditampilkan dengan mengisi form yang
disediakan, lalu menekan tombol simpan ketika semua jawaban dirasa
sudah benar.
6) Lihat Hasil Ujian
Gambar 3. 8 Lihat Hasil Ujian
Dosen dapat melihat hasil ujian mahasiswa dengan menekan tombol
lihat hasil ujian pada tabel yang tampil di dashboard. Ketika menekan
tombol lihat hasil ujian ini sistem akan menghitung nilai mahasiswa dengan
menggunakan cosine similarity lalu menampilkannya dalam bentuk tabel
seperti pada gambar 3.8.
3. Implementasi Sistem
Sistem akan diimplementasikan atau dikodekan dengan menggunakan

51
bahasa pemrograman PHP sesuai dengan rancangan yang dibuat
sebelumnya. Pada pengkodean sistem ini akan digunakan aplikasi text
editor Sublime yang cukup ringan dan powerful. Dan untuk melihat hasil
pengkodean sedikit demi sedikit akan ditampilkan dengan browser Chrome.
4. Pengujian Sistem
Pengujian sistem dilakukan dengan mengukur akurasi sistem dalam
melakukan penilaian dengan menghitung korelasi antara hasil penilaian
otomatis dengan hasil penilaian manual yang dilakukan oleh ahli (dosen).
Adapun rumus persamaan yang digunakan untuk menghitung korelasi
tersebut adalah:
∑𝑁 𝑋𝑌−(∑ 𝑋)(∑ 𝑌)
𝑟𝑥𝑦 = ....................................................... (3.1)
√{∑𝑁 𝑋 2 −(∑ 𝑋 2 )}{∑𝑁 𝑌 2 −(∑ 𝑌 2 )}
Dimana:
X = hasil penilaian otomatis
Y = hasil penilaian manual
5. Operasi dan Pemeliharaan
Setelah sistem diuji akurasi penilaiannya, sistem akan dioperasikan
sambil dilakukan pemeliharaan untuk memperbaiki kesalahan-kesalahan
yang mungkin terjadi. Seperti adanya error saat pengisian jawaban atau
ada data yang tiba-tiba hilang setelah melakukan aksi tertentu.

52
DAFTAR PUSTAKA
Amin, F. (2012). Sistem Temu Kembali Informasi dengan Metode Vector

Space Model. Jurnal Sistem Informasi Bisnis.
Arief, M. R. (2011). Pemrograman Web Dinamis Menggunakan PHP dan

MySQL. Yogyakarta: Andi.
Ashari, A. Y. (2017). Implementasi Pembobotan Term Frequency Inverse

Dokumen Frequency pada Sistem Temu Kembali Dokumen Skripsi
Berdasarkan Kemiripan Judul dan Latar Berlakang. Makasssar: STMIK
AKBA.
Astutik, S., Cahyani, A. D., & Sophan, M. K. (2014). Sistem Penilaian Esai
Otomatis Pada E-Learning Dengan Algoritma Winnowing. Jurnal
Informatika. doi:10.9744/informatika.12.2.47-52
Bahri, S. (2014). Penilaian Otomatis Ujian Essay Online berbasis Algoritma

Rabin Karp. SWABUMI, I.
Fitri, R., & Asyikin, A. N. (2015). APLIKASI PENILAIAN UJIAN ESSAY

OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY.
POROS TEKNIK.
Galandi, F. (2016). Metode Waterfall : Definisi, Tahapan, Kelebihan dan

Kekurangan. Diambil 25 Maret 2018, dari
http://www.pengetahuandanteknologi.com/2016/09/metode-waterfall-
definisi-tahapan.html
Goma, W. H., & Fahmi, A. A. (2012). Short Answer Grading Using String
Similarity and Corpus Based Similarity. International Journal of
Advanced Computer Science and Application.
Gomaa, W. H., & Fahmy, A. A. (2013). A Survey of Text Similarity

Approaches. International Journal of Computer Applications.
doi:10.5120/11638-7118
Hadi, S. (2013). Pengembangan Computerized Adaptive Test Berbasis

Web. Yogyakarta: Aswaja Pressindo.
Ingwersen, P. (1992). Information Retrieval Interaction. Information

Processing & Management. London: Taylor Graham Publishing.
doi:10.1016/0306-4573(93)90108-P
Jihad, A., & Haris, A. (2008). Evaluasi Pembelajaran. Yogyakarta: Multi

Pressindo.
53
Manning, C. D., Ragahvan, P., & Schutze, H. (2009). An Introduction to

Information Retrieval. Information Retrieval.
doi:10.1109/LPT.2009.2020494
Nugroho, B. (2004). Aplikasi Pemrograman Web Dinamis dengan PHP dan

MySQL. YOgyakarta: Gava Media.
Pramukantoro, E. S. (2016). Sistem penilaian otomatis jawaban esai pada

elearning belajardisini.com. Jurnal Teknologi Informasi dan Ilmu
Komputer (JTIIK).
Rownlands, I. (1986). Text Retrieval : an Introduction. London: Taylor

Graham.
Salton, G. (1989). Automatic Text Processing, The Transformation,

Analysis, and Retrieval of information by computer. USA: Addison –
Wesly Publishing Company, Inc.
Simarmata, J. (2010). Rekayasa Perangkat Lunak. Yogyakarta: Penerbit

Andi.
Sudjana, N. (2005). Penilaian Hasil Proses Belajar Mengajar. Bandung:

Remaja Rosdakarya.
Valenti, S., Neri, F., & Cucchiarelli, A. (2003). An Overview of Current

Research on Automated Essay Grading. Journal of Information
Technology Education. Diambil dari
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.5757&
amp;rep=rep1&type=pdf
Wahib, A., Pasnur, Santika, P. P., & Arifin, A. Z. (2015). Perangkingan

Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing.
Jurnal Buana Informatika. Diambil dari
https://ojs.uajy.ac.id/index.php/jbi/article/view/411

Proposal Sistem Penilaian Otomatis Cosine Similarity

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Sistem Penilaian Otomatis Cosine Similarity

Diunggah oleh

Hak Cipta:

Format Tersedia

SISTEM PENILAIAN OTOMATIS DENGAN METODE COSINE

SIMILARITY PADA UJIAN ESAI BERBAHASA INDONESIA

Muh. Alfian Asmar

JURUSAN SISTEM INFORMASI

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

rahmat dan hidayah-Nya sehingga proposal dengan judul “Sistem Penilaian

Otomatis dengan Metode Cosine Similarity pada Ujian Esai Berbahasa

Indonesia” dapat diselesaikan.

Proposal ini disusun dengan tujuan agar dapat meningkatkan kualitas

pendidikan di Indonesia telebih khususnya di kota Makassar ini, dengan

membangun sebuah sistem yang dapat mengevaluasi hasil belajar siswa

pengembangan metode pendidikan yang tepat sasaran pula.

Ucapan terima kasih sebesar-besarnya disampaikan kepada seluruh

memotivasi dan mengajarkan peneliti tentang bagaimana cara menulis

proposal penelitian yang baik dan benar.

saran yang membangun sangat diharapkan agar dapat menjadi bahan

evaluasi dalam penulisan proposal berikutnya.

Makassar, 05 April 2018

HALAMAN JUDUL ......................................................................................i

KATA PENGANTAR .................................................................................. ii

DAFTAR ISI .............................................................................................. iii

DAFTAR TABEL ........................................................................................v

DAFTAR GAMBAR ................................................................................... vi

Latar Belakang Masalah ................................................................. 1

Rumusan Masalah ......................................................................... 4

Tujuan Penelitian ........................................................................... 4

Batasan Masalah ........................................................................... 4

Sistematika Penulisan .................................................................... 6

BAB II LANDASAN TEORI ....................................................................... 8

Evaluasi Hasil Belajar ..................................................................... 8

Pengujian Berbasis Komputer ...................................................... 11

Tahapan Pengembangan Sistem dengan Metode Waterfall ......... 15

Sistem Temu Kembali Informasi (Information Retrieval System) .. 17

Text Preprocessing ...................................................................... 20

Metode Pembobotan Dokumen dengan TF-IDF ........................... 25

Metode Pengukuran Similaritas Dokumen .................................... 29

Algoritma Cosine Similarity ........................................................... 29

Perangkat Lunak Pendukung ....................................................... 31

BAB III METODOLOGI PENELITIAN ...................................................... 35

Tinjauan Umum ............................................................................ 35

Temuan Data ............................................................................... 37

Diagram Blok Model Sistem Usulan ............................................. 38

Tahapan Pengembangan Sistem ................................................. 40

Tabel 2. 1 Contoh Case Folding ..............................................................21

Gambar 2. 1 Alur Metode Waterfall ..........................................................15

Latar Belakang Masalah

Dalam dunia pendidikan, evaluasi hasil belajar merupakan komponen

tersebut akan dijadikan sebagai indikator untuk mengukur tingkat

pemahaman pelajar terhadap materi yang telah diberikan. Ada berbagai

yang sangat tepat, karena melibatkan kemampuan siswa dalam mengingat,

mengorganisasikan, mengekspresikan dan mengintegrasikan gagasan

yang dimiliki siswa terkait dengan soal esai tersebut.

Ujian esai biasanya banyak diterapkan di pendidikan tingkat tinggi,

sebagaimana yang diterapkan di STMIK AKBA. Akan tetapi, dalam

penerapannya dosen memerlukan waktu yang banyak untuk memeriksa

jawaban esai, semakin banyak jumlah ujian dan banyaknya jumlah

terkadang penilaian tidak bersifat objektif lagi.

Salah satu kesulitan penilaian ujian esai adalah subjektivitas. Banyak

peneliti menyatakan bahwa sifat subjektif dari penilaian esai menyebabkan

variasi penilaian di kelas yang diberikan oleh penilai manusia yang

berbeda, yang dirasakan oleh siswa sebagai sumber ketidakadilan.

Selanjutnya penilaian esai adalah kegiatan memakan waktu (Valenti, Neri,

& Cucchiarelli, 2003).

Beberapa peneitian telah dilakukan untuk mengatasi masalah penilaian