Anda di halaman 1dari 11

LAPORAN PREPROCESS DAN CLASSIFY

SISTEM TEMU KEMBALI INFORMASI

Nama : Achmad Yuszril Oiszy (A11.2017.10209)


Aprilia Dhammashanti (A11.2017.10236)
Kelas : A11.4705
Matkul : Sistem Temu Kembali Informasi

PROGRAM STUDI TEKNIK INFORMATIKA

UNIVERSITAS DIAN NUSWANTORO

TAHUN 2019
BAB 1
PENDAHULUAN

1.1. Latar Belakang


Perkembangan teknologi informasi dan komunikasi mendorong konsumen untuk
meningkatkan intensitas penggunaan teknologi dalam kehidupan sehari-hari. Teknologi
informasi dan komunikasi yang pada awalnya sangat terbatas dalam menunjang
kebutuhan sehari-hari, saat ini telah menjadi bagian yang tidak terpisahkan atau telah
menjadi kebutuhan hidup.
Semakin pesat perkembangan teknologi informasi dan komunikasi , maka
semakin pesat juga perkembangan data. Data adalah suatu pernyataan yang diterima apa
adanya, jadi pernyataan yang masuk setiap harinya adalah masih berupa data mentah yang
belum diolah.
Banyaknya data yang masuk mengakibatkan kesulitan untuk mengelolahnya,
karena data yang masuk memiliki kemiripan satu sama lain. Di dunia saat ini data
merupakan hal yang sangat penting dan banyak dicari orang , dikalangan perusahaan atau
badan instansi data digunakan sebagai asset penting untuk kelangsungan usahanya. Selain
itu data juga penting untuk proses pencarian dokumen/file-file penting seperti contohnya
sistem pencarian.
Weka merupakan sebuah perangkat lunak yang menerapkan berbagai algoritma
machine learning untuk melakukan beberapa proses yang berkaitan dengan sistem temu
kembali informasi atau data mining. Perangkat lunak ini di gunakan untuk melakukan
klasifikasi, preprocess data, yang nantinya data akan diolah dan hasilnya langsung dapat
diketahui. Hasil dari proses tersebut nanti akan di jadikan label untuk nantinya di jadikan
perbadingan data untuk kedepannya.

1.2. Rumusan masalah


Rumusan masalah yang diambil dari kasus ini yaitu bagaimana cara
mengklasifikasi data set yang masuk dan metode apa yang di ambil untuk klasifisikan
data tersebut ?
1.3. Manfaat
Manfaat Belajar Weka ini yaitu mahasiswa dapat mengklasifikasin data sehingga
data tersebut dapat memberikan hasil yang di inginkan. Seperti ingin mengetahui nilai
yang yang digunakan dalam data mining.

BAB 2
LANDASAN TEORI

2.1. Pengertian analisis

Dalam Kamus Besar Bahasa Indonesia karangan Suharso dan Ana


Retnoningsih (2005), analisis adalah penyelidikan terhadap suatu peristiwa (karangan,
perbuatan dan sebagainya) untuk mengetahui keadaan yang sebenarnya (sebab
musabab, duduk perkara dan sebagainya). Dan kinerja adalah sesuatu yang dicapai.

Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional


(2005) menjelaskan bahwa analisis adalah penyelidikan terhadap suatu peristiwa
untuk mengetahui keadaan yang sebenarnya. Kinerja adalah kemampuan kerja,
sesuatu yang dicapai, prestasi yang diperlihatkan.
2.2 Weka
Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining.
Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda
sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan
asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran
mesin baru.
Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU
General PublicLicense Introduction Mesin algoritma pembelajaran berfungsi untuk
mendorong aturanklasifikasi dari Dataset contoh dan dengan demikian memperluas
pengetahuan domain dan pemahaman.
2.3. Naïve Bayes
Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana
berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas
(independen). Dalam hal ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu
kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan
dari kejadian lainnya.
Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain
untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi
lainnya. Dalam hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk
spam filtering. Dan untuk menghitung klasifikasi teorema bayes berikut mengggunakan
rumus dibawah ini

Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan


X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh dalam
kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior
probability X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah
posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap
data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X
(protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung
probabilitas ke-empat kelas lainnya

BAB 3
METODOLOGI
3.1. Menentukan data
Data yang diambil untuk melakukan klasifikasi harus kelompokan secara manual
yang nantinya digunakan training set awal. Dalam kasus ini data yang digunakan adalah
sebuah data berita dari salah satu sumber website, data telah dikelompokan sesuai
kategorinya. Berikut gambar datanya.
3.2. Mengubah data
Setelah menentukan data yang akan di klasifikasikan, langkah selanjutnya mengubah
data dari bentuk text kebentuk arff. Pengubahan ini dilakukan karena weka hanya
mengenali data dengan tipe arff bukan text, proses pengubahan sebagai berikut.

3.3. Melakukan prepocess


Tahap selanjutnya yaitu melakukan preprocess, tahap ini dilakukan untuk mengubah data
dari bentuk paragraph ke bentuk kata baku atau bisa juga mengubah data dalam bentuk
kata. Metode yang dilakukan adalah vector model, berikut caranya.
a) Pilih menu Exploler
b) Lalu buka file yang telah di konversi menjadi tipe arff

c) Setelah itu di area filletr pilih choose untuk memilih metode stringtowordvector.
Lalu klik pada kolom choose untuk mensetting metode tersebut.
Hasilnya , dan lakukan save data yang sudah di preprocess.
d) Setelah melakukan prepocess langkah selanjutnya masih di menu exploler lalu
pilih classify

e) Lalu pilih choose untuk memilih metode naïve bayes, lalu selanjutnya lakukan
setting di kolom choose .
f) Tahap selanjutnya adalah pilih supplied test set, lalu pilih file yang akan di
bandingankan dengan hasil prepocessnya. Sebagai contoh akan mengambil data
hasil1.arff yang telah di save sebelumnya, lalu klik start untuk memulai.
Berikut hasilnya :

Dari hasil diatas menunjukan tingkat kecocokan antara label dan data
pembanding bernilai 100, yang berarti memiliki tingkat kecocokan sama. Data
pembanding diatas merupakan hasil proses sebelumnya jadi sangat wajar menunjukan niai
100, tapi misalkan data pembanding di pilih secara acak maka hasil akan berbeda dengan
sebelumnya. Dengan ini proses Classify telah selesai dan label yang telah digunakan
sebelumnya dapat digunakan lagi untuk bahan pembanding.
BAB 4
KESIMPULAN

Dari pejelasan diatas dapat disimpulkan bahwa pengklasifikasian dengan metode


naïve bayes yaitu klasifikasi berpeluang sederhana berdasarkan aplikasi terorema bayes
dengan asumsi antara variable penjelas saling bebas. Dalam hal ini, diasumsikan bahwa
lanjut atau berhenti dari suatu kejadian tertentu dari suatu data tidak berhubungan lanjut
atau berhenti dari kejadian lainnya.
Dan Juga dapat Disimpulkan bahawa Setiap Tes Option Memili Correctly
Classified Instances, Incorrectly Classified Instances, Relative absolute error, Root
relative squared error dan Nilai TP, FB, Precesion Recall dan T-Measure yang berbeda.

Anda mungkin juga menyukai