Alfa Saleh
Abstrak
Penentuan jurusan bagi siswa SMA/MA sederajat merupakan proses untuk memfokuskan siswa dalam
bidang konsentrasi tertentu, hal ini dilakukan agar setiap siswa dapat mempelajari lebih dalam mata pelajaran
– mata pelajaran yang sesuai dengan jurusan yang telah ditentukan untuk setiap siswa. untuk menentukan
jurusan siswa, maka diterapkanlah metode Naive Bayes dalam mengklasifikasikan jurusan siswa berdasarkan
data yang dilatih, data tersebut akan ditentukan probabilitasnya baik yang menggunakan data dengan nilai
string maupun numerik dan dari probabilitas tersebut dapat diprediksi jurusan yang sesuai untuk siswa. dalam
penelitian ini ada 100 data siswa yang digunakan sebagai data untuk melihat keakuratan metode Naive Bayes
dalam mengklasifikasikan jurusan siswa. hasilnya, dari 100 data siswa yang diuji, terdapat 90 data siswa
yang berhasil diklasifikasikan dengan presentasi keberhasilan 90 % sedangkan 10 data siswa tidak berhasil
diklasifikasikan.
351
Seminar Nasional Informatika 2015
kemudian mengekstraksi data tersebut menjadi masa depan berdasarkan pengalaman dimasa
informasi – informasi yang nantinya dapat sebelumnya[10].
digunakan. Naive Bayes didasarkan pada asumsi
penyederhanaan bahwa nilai atribut secara
Tahap-tahap Data Mining konditional saling bebas jika diberikan nilai
output. Dengan kata lain, diberikan nilai output,
Sebagai suatu rangkaian proses, Data probabilitas mengamati secara bersama adalah
Mining dapat dibagi menjadi beberapa tahap produk dari probabilitas individu[8]. Keuntungan
proses. Tahap-tahap tersebut bersifat interaktif, penggunaan Naive Bayes adalah bahwa metode
pemakai terlibat langsung atau dengan ini hanya membutuhkan jumlah data pelatihan
perantaraan knowledge base. (Training Data) yang kecil untuk menentukan
Tahap-tahap Data Mining adalah sebagai estimasi paremeter yang diperlukan dalam proses
berikut[8]: pengklasifikasian. Naive Bayes sering bekerja
a. Pembersihan data (Data Cleaning) jauh lebih baik dalam kebanyakan situasi dunia
Pembersihan data merupakan proses nyata yang kompleks dari pada yang
menghilang-kan noise dan data yang tidak diharapkan[11].
konsisten atau data tidak relevan.
b. Integrasi data (Data Integration) Persamaan Metode Naive Bayes
Integrasi data merupakan penggabungan data
dari berbagai database ke dalam satu database Persamaan dari teorema Bayes adalah
baru. (Bustami,2013) :
c. Seleksi data (Data Selection)
Data yang ada pada database sering kali tidak
semuanya dipakai, oleh karena itu hanya data
yang sesuai untuk dianalisis yang akan diambil
dari database. Di mana :
d. Transformasi data (Data Transformation) X :Data dengan class yang belum
Data diubah atau digabung ke dalam format diketahui
yang sesuai untuk diproses dalam Data Mining. H : Hipotesis data merupakan suatu class
e. Proses Mining spesifik
Merupakan suatu proses utama saat metode P(H|X) :Probabilitas hipotesis H berdasar
diterapkan untuk menemukan pengetahuan kondisi X (posteriori probabilitas)
berharga dan tersembunyi dari data. Beberapa P(H) : Probabilitas hipotesis H (prior
metode yang dapat digunakan berdasarkan probabilitas)
pengelompokan Data Mining. P(X|H) :Probabilitas X berdasarkan kondisi
f. Evaluasi pola (Pattern Evaluation) pada hipotesis H
Untuk mengidentifikasi pola-pola menarik ke P(X) : Probabilitas X
dalam knowledge based yang ditemukan. Untuk menjelaskan metode Naive Bayes, perlu
g. Presentasi pengetahuan (Knowledge diketahui bahwa proses klasifikasi memerlukan
Presentation) sejumlah petunjuk untuk menentukan kelas apa
Merupakan visualisasi dan penyajian yang cocok bagi sampel yang dianalisis tersebut.
pengetahuan mengenai metode yang digunakan Karena itu, metode Naive Bayes di atas
untuk memperoleh pengetahuan yang diperoleh disesuaikan sebagai berikut :
pengguna.
352
Seminar Nasional Informatika 2015
itu, rumus diatas dapat pula ditulis secara kategori yang sama dibagi dengan jumlah
sederhana sebagai berikut : data pada kategori tersebut.
3. Mendapatkan nilai dalam tabel mean,
standart deviasi dan probabilitas.
4. solusi kemudian dihasilkan.
Untuk klasifikasi dengan data kontinyu digunakan
rumus Densitas Gauss : 2. Pembahasan
Penerapan Metode Naive Bayes
353
Seminar Nasional Informatika 2015
Adapun nilai probabilitas setiap kriteria diklasifikasikan dengan benar. Dengan begitu
didapatkan dari data latih pada tabel 1. Adapun keakuratan metode Naive Bayes dalam
nilai probabilitas setiap kriteria dapat dilihat pada mengklasifikasikan 100 data siswa adalah sebesar
pengujian dengan tools Weka di bawah ini. 90%. Persentasi ini dapat dilihat pada gambar 5
berikut :
3. Kesimpulan
Berdasarkan penelitian tentang
menentukan jurusan siswa dapat ditarik beberapa
kesimpulan sebagai berikut :
1. Berdasarkan data akademik siswa yang
diperoleh, proses Data Mining membantu
dalam penerapan metode Naive Bayes dalam
mendapatkan informasi dari hasil klasifikasi
jurusan siswa.
2. Metode Naive Bayes memanfaatkan data
training untuk menghasilkan probabilitas
setiap kriteria untuk class yang berbeda,
sehingga nilai-nilai probabilitas dari kriteria
tersebut dapat dioptimalkan untuk
memprediksi jurusan siswa berdasarkan
Gambar 4. Hasil Klasifikasi Naive Bayes proses klasifikasi yang dilakukan oleh
metode Naive Bayes itu sendiri.
Berdasarkan gambar 4 di atas, dapat diketahui 3. Berdasarkan data akademik siswa yang
dari 100 data siswa yang diuji dengan 6 buah dijadikan data training, metode Naive Bayes
kriteria sebagai pendukung pengklasifikasian di berhasil mengklasifikasikan 90 data siswa
mana setiap kriteria memiliki nilai probabilitas dari 100 data yang diuji. Sehingga dengan
tersendiri untuk setiap class-nya terdapat 90 data demikian metode Naive Bayes ini berhasil
siswa yang berhasil diklasifikasikan dengan benar memprediksi jurusan siswa dengan
sementara sebanyak 10 data siswa tidak berhasil persentase keakuratan sebesar 90 %.
354
Seminar Nasional Informatika 2015
355