tahapan metode penelitian, luaran yang ditargetkan, serta uraian TKT penelitian yang
diusulkan.
RINGKASAN
Tuntutan publikasi yang dilakukan komunitas akademik Perguruan Tinggi memberikan
dampak yang cukup besar pentingnya melakukan kajian, penelitian serta menulis karya ilmiah.
Perkembangan karya ilmiah di Indonesia relatif makin baik, terutama sejak diberlakukannya
regulasi pemerintah, yang mewajibkan mahasiswa S1, S2 hingga S3 untuk menulis artikel di
jurnal ilmiah sebagai salah satu prasyarat kelulusan. Sehingga kebutuhan terhadap informasi
dalam bentuk jurnal atau artikel ilmiah semakin meningkat. Dengan meningkatnya kebutuhan
Dalam menggali data dan informasi yang terdapat didalam jurnal yang berupa topik
atau kategori yang menggambarkan pokok pembahasan secara umum. Apabila data atau
informasi yang dicari berada pada kumpulan jurnal yang berjumlah sedikit, pencarian dapat
dilakukan secara manual dengan membaca satu-persatu untuk menemukan topik atau bahasan
dari jurnal. Namun , apabila jumlah jurnal yang tersedia banyak, proses pencarian secara
manual tidak akan dapat dilakukan. Sehingga pemberian label topik diharapkan membantu
dalam memahami isi jurnal, tanpa harus membaca secara keseluruhan. Dalam kenyataannya,
pengelompokan jurnal yang mengacu topik atau kategori tertentu sulit dilakukan jika hanya
mengandalkan pencarian menggunakan query biasa. Query adalah standard query language
yang digunakan dalam memanipulasi database dan mendefinisikan didukung oleh database
server. Sehingga terkadang hasil jurnal pada peringkat awal belum tentu sesuai dan
dengan sebuah sistem klasifikasi dan pencarian yang menghasilkan jurnal-jurnal yang
memiliki kemiripan berdasarkan tingkat kesamaan dengan metode yang terdapat pada text
menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari
dataset yang diberikan. Metode Vector Space Model atau Term Vector Model adalah sebuah
model aljabar untuk menggambarkan dokumen teks (beberapa objek) sebagai vektor dari
informasi (information retrieval), indexing dan pemberian ranking yang saling relevan. Proses
dari perhitungan metode ini adalah indexing dokumen, pembobotan term dan perhitungan
kesamaan. Pengujian tingkat akurasi kinerja algoritma Naïve Bayes dan Vector Space Model
menggunakan Recall, dan Precision. Tujuan dari penelitian ini didapatkan metoda yang tepat
Latar belakang penelitian tidak lebih dari 500 kata yang berisi latar belakang dan permasalahan
yang akan diteliti, tujuan khusus, dan urgensi penelitian. Pada bagian ini perlu dijelaskan
uraian tentang spesifikasi khusus terkait dengan skema.
LATAR BELAKANG
Teknologi informasi yang berkembang dengan cepat telah banyak dimanfaatkan
berbagai bidang, mulai dari sekedar bidang pendidikan, pemerintahan, dan bidang lainnya. Pada
bidang pendidikan, adanya akses luas bagi pada penggunanya untuk mendapatkan informasi
apapun yang dibutuhkan. Salah satu kemudahan dalam mengakses informasi di dunia
pendidikan dapat dilihat diperguruan tinggi dimana hal tersebut sangat berperan penting bagi
sebuah perguruan tinggi dalam usaha peningkatan mutu pendidikan dan dapat mewujudkan
Salah satu poin penting dalam menjalankan fungsi Tridharma Perguruan Tinggi oleh
dosen dalam melaksanakan penelitian dan mempublikasikan hasil pemikiran serta analisisnya
tersebut. Kinerja dosen yang selanjutnya menjadi kinerja jurusan, fakultas dan perguruan tinggi
sangat dipengaruhi oleh seberapa luas dan berkualitasnya publikasi para dosen tetapnya.
dampak yang cukup besar pentingnya melakukan kajian, penelitian serta menulis karya ilmiah.
Perkembangan karya ilmiah di Indonesia relatif makin baik, terutama sejak diberlakukannya
regulasi pemerintah, yang mewajibkan mahasiswa S1, S2 hingga S3 untuk menulis artikel di
jurnal ilmiah sebagai salah satu prasyarat kelulusan. Sehingga kebutuhan terhadap informasi
dalam bentuk jurnal atau artikel ilmiah semakin meningkat. Dengan meningkatnya kebutuhan
Dalam menggali data dan informasi yang terdapat didalam jurnal yang berupa topik
atau kategori yang menggambarkan pokok pembahasan secara umum. Apabila data atau
informasi yang dicari berada pada kumpulan jurnal yang berjumlah sedikit, pencarian dapat
dilakukan secara manual dengan membaca satu-persatu untuk menemukan topik atau bahasan
dari jurnal. Namun , apabila jumlah jurnal yang tersedia banyak, proses pencarian secara
manual tidak akan dapat dilakukan. Sehingga pemberian label topik diharapkan membantu
dalam memahami isi jurnal, tanpa harus membaca secara keseluruhan. Dalam kenyataannya,
pengelompokan jurnal yang mengacu topik atau kategori tertentu sulit dilakukan jika hanya
mengandalkan pencarian menggunakan query biasa. Query adalah standard query language
yang digunakan dalam memanipulasi database dan mendefinisikan didukung oleh database
server. Sehingga terkadang hasil jurnal pada peringkat awal belum tentu sesuai dan
dengan sebuah sistem klasifikasi dan pencarian yang menghasilkan jurnal-jurnal yang
memiliki kemiripan berdasarkan tingkat kesamaan dengan metode yang terdapat pada text
mining seperti metode Naïve Bayes, dan algoritma Vector Space Model .
Tinjauan pustaka tidak lebih dari 1000 kata dengan mengemukakan state of the art dalam
bidang yang diteliti. Bagan dapat dibuat dalam bentuk JPG/PNG yang kemudian disisipkan
dalam isian ini. Sumber pustaka/referensi primer yang relevan dan dengan mengutamakan hasil
penelitian pada jurnal ilmiah dan/atau paten yang terkini. Disarankan penggunaan sumber
pustaka 10 tahun terakhir.
TINJAUAN PUSTAKA
Penelitian mengenai penggunaan metode Naive Bayes Classifier dan Vector Space Model
sudah pernah dibahas pada penelitian sebelumnya, berikut merupakan yang mendukung
penelitian ini adalah bagaimana pencarian dan perbandingan kata yang terdapat dalam penelitian
yang akan dibuat. Penelitian ini sebelumnya sudah pernah di lakukan oleh Amir Hamzah (2012)
menyatakan bahwa Naive Bayes memiliki kelebihan yaitu cepat, sederhana dan memiliki akurasi
tinggi. Hasil penelitian menunjukkan akurasi terbaik yaitu metode SVM dengan akurasi 92%,
Naive Bayes Classification (NBC) akurasi 90%, C4.5 akurasi 77,5% dan yang terendah K-NN
akurasi 50%.
Penelitian kedua dilakukan oleh Irmawati (2014) yang berjudul Sistem Temu Kembali
Informasi pada Dokumen dengan Metode Vector Space Model. Hasil yang diperoleh dalam
penelitian ini didapatkannya sebuah perhitungan yang dapat memperkecil ukuran informasi
dokumen online dari sifat yang tidak terstruktur dengan ukuran yang besar menjadi lebih
Metode atau cara untuk mencapai tujuan yang telah ditetapkan ditulis tidak melebihi 600 kata.
Bagian ini dilengkapi dengan diagram alir penelitian yang menggambarkan apa yang sudah
dilaksanakan dan yang akan dikerjakan selama waktu yang diusulkan. Format diagram alir
dapat berupa file JPG/PNG. Bagan penelitian harus dibuat secara utuh dengan penahapan yang
jelas, mulai dari awal bagaimana proses dan luarannya, dan indikator capaian yang ditargetkan.
Di bagian ini harus juga mengisi tugas masing-masing anggota pengusul sesuai tahapan
penelitian yang diusulkan.
METODE
2.1 Text Mining
Menurut Feldman (2007, 1) text mining adalah sebuah proses pengetahuan intensif dimana
pengguna berinteraksi dan bekerja dengan sekumpulan dokumen dengan menggunqkan beberapa
alat analisis. Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang
terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur
yang terus berubah, dan data noise. Perbedaan diantara keduanya adalah pada data yang
digunakan, pada data mining, data yang digunakan adalah structured data, sedangkan pada text
mining, data yangdigunakan pada umumnya adalah unstructured data, atau minimal
semistructured.
Text mining mencoba untuk mengekstrak informasi yang berguna dari sumber data melalui
identifikasi dan eksplorasi dari suatu pola menarik. Sumber data berupa sekumpulan dokumen
dan pola menarik yang tidak ditemukan dalam bentuk database record, tetapi dalam data teks
yang tidak terstruktur. Tahapan proses text mining dibagi menjadi 4 tahap utama. Tahapan-
tahapan dalam Text Mining bertujuan untuk mencari kata-kata yang mewakili isi dokumen dan
menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari
dataset yang diberikan. Algoritma mengunakan teorema Bayes dan mengasumsikan semua
atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel
kelas. Definisi lain mengatakan Naive Bayes merupakan pengklasifikasian dengan metode
probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes, yaitu
pengklasifikasian teks terdapat dua tahapan yaitu : tahap pelatihan( training ) dan tahap
pengujian (testing) .Tahap Pelatihan merupakan tahap pelatihan sejumlah dokumen contoh,
sedangkan tahan pengujian merupakan proses klasifikasi dokumen baru dan belum diketahui
menggambarkan dokumen teks (beberapa objek) sebagai vektor dari identifier. Biasanya
(information retrieval), indexing dan pemberian ranking yang saling relevan. Proses dari
perhitungan metode ini adalah indexing dokumen, pembobotan term dan perhitungan kesamaan.
Proses indexing dokumen adalah proses melaluitahapan-tahapan dalam text mining. Proses
selanjutnya adalah pembobotan term dengan menggunakan algoritma TF/DF. Proses yang
terakhir adalah perhitungan kesamaan dengan pendekatan Cosine, yang dinyatakan dalam rumus:
n
∑ ( td jj X tqik )
i=1
Similarity ( dj , qk )= ...................................................(1)
n n
√∑ i=1
tdjj X ∑ tqik
i=1
Keterangan:
Similarity(dj,qk) : tingkat kesamaan suatu dokumen dengan query tertentu.
tdij : term ke-i dalam vektor untuk dokumen ke-j
tqik : term ke-i dalam vektor untuk query ke-k
n : jumlah term yang unik dalam data set.
2.4 Recall
Recall adalah tingkat keberhasilan mengenali suatu kejadian dari seluruh kejadian yang
seharusnya dikenali. Persamaan Recall dapat dituliskan seperti pada persamaan (2).
|{ Relevant } ∩ { Retrieved }|
Recall= ...................................................(2)
|{ Relevant }|
Keterangan :
Recall : Tingkat keberhasilan.
{Relevant} : Kumpulan dokumen yang relevan.
{Retrieved} : Kumpulan dokumen yang ditemukan.
2.5 Precision
Precision adalah dapat diartikan sebagai kepersisan atau kecocokan (antara permintaan
informasi dengan jawaban terhadap permintaan itu). Artinya seberapa persis atau cocok
dokumen tersebut untuk keperluan pencari informasi, bergantung pada seberapa relevan
dokumen tersebut bagi sipencari. Precision dapat dituliskan dalam persamaan seperti pada
persamaan (3)
|{ Relevant } ∩ { Retrieved }|
Precision = ............................................(3)
|{ Retrieved }|
Keterangan :
Precision : Tingkat ketepatan
{Relevant} : Kumpulan dokumen yang relevan
{Retrieved} : Kumpulan dokumen yang ditemukan
Jadwal penelitian disusun dengan mengisi langsung tabel berikut dengan memperbolehkan
penambahan baris sesuai banyaknya kegiatan.
JADWAL
Bulan
No Nama Kegiatan 1 1
1 2 3 4 5 6 7 8 9 0 1 12
1 Penyusunan Proposal
2 Pengumpulan Data
3 Data Preprocessing
4 Perancangan Sistem
5 Pembangunan Sistem
6 Pengujian dan Evaluasi Sistem
7 Penyusunan Laporan
8 Publikasi Ilmiah
Daftar pustaka disusun dan ditulis berdasarkan sistem nomor sesuai dengan urutan pengutipan.
Hanya pustaka yang disitasi pada usulan penelitian yang dicantumkan dalam Daftar Pustaka.
DAFTAR PUSTAKA
[1] D. N. Chandra, G. Indrawan, and I. N. Sukajaya, “Klasifikasi Berita Lokal Radar Malang
Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram,” J. Ilm. Teknol. dan Inf. ASIA,
vol. 10, no. 1, pp. 11–19, 2016.
[2] F. Gorunescu, “Data Mining: Concept and Technique,” Chemistry&, 2011.
[3] H. Amir, “Klasifikasi Teks Dengan Naïve Bayes Clasifier (NBC) Untuk Pengelompokan
Teks Berita Dan Abstract Akademis,” Pros. Semin. Nas. Apl. Sains Teknol., 2012.
[4] Irmawati, “Sistem Temu Kembali Informasi Pada Dokumen Dengan Metode Vector
Space Model,” J. Ilm. FIFO, 2014.
[5] M. K. J. Berry, “Text Mining: Application and Theory,” DI.Acm. Org, 2010.
.