SEMINAR
diajukan oleh:
MUHAMMAD AMMAR SHADIQ
056946/PS/IK/05
Kepada
TIM SEMINAR PROGRAM STUDI ILMU KOMPUTER
PROGRAM STUDI ILMU KOMPUTER
FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM
i|Page
Pembimbing Utama
Mengetahui,
Ketua Jurusan/Program Studi
Ilmu Komputer
FPMIPA UPI FPMIPA UPI
ii | P a g e
KATA PENGANTAR
Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi
sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah di
tentukan sebelumnya Naive Bayes adalah salah satu Algoritma Klasifikasi yang
populer, Performa nave bayes yang kompetitif dalam proses klasifikasi walaupun
menggunakan asumsi keidependenan atribut (tidak ada kaitan antar atribut). Asumsi
keidependenan atribut ini pada data sebenarnya jarang terjadi, namun walaupun
asumsi keidependenan atirbut tersebut dilanggar performa pengklasifikasian nave
bayes cukup tinggi, hal ini dibuktikan pada berbagai penelitian empiris.
Pada karya tulis ini penulis mencoba mengesplorasi alasan mengapa performa
Algoritma Klasifikasi Nave Bayes memiliki performa yang bersaing dibandingkan
dengan Algoritma-algoritma klasifikasi lainnya dengan cara melakukan penelitian
teoritis terhadap algoritma Nave Bayes dalam tugas klasifikasi.
iii | P a g e
DAFTAR ISI
KATA PENGANTAR ............................................................................................... iii
DAFTAR ISI ................................................................................................................ iv
ABSTRAKSI ................................................................................................................ 1
BAB I PENDAHULUAN ............................................................................................. 2
1.1 Latar Belakang .................................................................................................... 2
1.2 Rumusan Masalah ............................................................................................... 5
1.3 Batasan Masalah.................................................................................................. 5
1.4 Tujuan dan Manfaat Penelitian ........................................................................... 5
BAB II TELAAH PUSTAKA ...................................................................................... 6
2.1 Pengklasifikasian dalam Data Mining & Machine Learning ............................. 6
2.1.1 Pendefinisian istilah dalam klasifikasi ......................................................... 6
2.1.2 Proses pembentukan model .......................................................................... 7
2.2 Peluang Bersyarat dalam Statistika ..................................................................... 8
2.3 Teorema Bayes dalam statistika ........................................................................ 10
2.4 Teorema Bayes dalam Klasifikasi pada Data Mining & Machine Learning .... 13
2.4.1 Perkalian Kartesius(cartesian product) ...................................................... 14
2.4.2 Contoh Teorema Bayes dalam Klasifikasi ................................................. 15
2.4.3 Kekurangan Teorema Bayes dalam Klasifikasi ......................................... 16
2.5 Algoritma Nave Bayes dalam Data Mining & Machine Learning .................. 16
2.5.1 Contoh Teorema Bayes dalam Klasifikasi ................................................. 17
2.5.2 Perbandingan Teorema Bayes dan Nave Bayes dalam Nilai Probabilitas
dan Nilai Klasifikasi ............................................................................................ 17
BAB III METODOLOGI PENULISAN ..................................................................... 18
BAB IV ANALISIS INTESIS .................................................................................... 19
4.1 Bukti Nave Bayes tidak saja optimal pada asumsi idependen ......................... 19
4.2 Keoptimalan Lokal ............................................................................................ 21
4.3 Keoptimalan global ........................................................................................... 25
BAB V KESIMPULAN .............................................................................................. 26
DAFTAR PUSTAKA ................................................................................................. 27
iv | P a g e
ABSTRAKSI
Nave Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif
dan efisien untuk machine learning dan data mining. Performa nave bayes yang
kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keidependenan
atribut (tidak ada kaitan antar atribut). Asumsi keidependenan atribut ini pada data
sebenarnya jarang terjadi, namun walaupun asumsi keidependenan atirbut tersebut
dilanggar performa pengklasifikasian nave bayes cukup tinggi, hal ini dibuktikan
pada berbagai penelitian empiris.
Pada paper ini, penulis akan memaparkan penggunaan nave bayes dalam tugas
klasifikasi data, membuktikan potensi nave bayes untuk digunakan dalam data yang
memiliki korelasi antara atribut dan mengajukan penjelasan mengenai keoptimalan
nave bayes dalam kondisi tertentu.
Kata Kunci : Bayesian Theorem, Nave Bayes, Data Mining, Classification, Optimal
Classification.
1|Page
BAB I PENDAHULUAN
1.1 Latar Belakang
Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi
sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah di
tentukan sebelumnya. Performa pengklasifikasi biasanya diukur dengan ketepatan
(atau tingkat galat) [6].
Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung
peluang untuk suatu hipotesis, Bayes Optimal Classifier [2] menghitung peluang dari
suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas
mana yang paling optimal.
Umumnya kelompok atribut E direpresentasikan dengan sekumpulan nilai atribut
(x1,x2,x3,.,xn) dimana xi adalah nilai atribut Xi. C adalah variable klasifikasi dan c
adalah nilai dari C.
Pengklasifikasian adalah sebuah fungsi yang menugaskan data tertentu kedalam
sebuah kelas. Dari sudut pandang peluang [7], berdasarkan aturan Bayes kedalam
kelas c adalah :
Untuk menentukan pilihan kelas, digunakan peluang maksimal dari seluruh c dalam
C, dengan fungsi :
Karena nilai
menghasilkan fungsi :
(1)
2|Page
3|Page
(2)
Dampak negative dari asumsi Nave tersebut adalah keterkaitan yang ada antara nilainilai atribut diabaikan sepenuhnya. Dampak ini secara intuitif akan berpengaruh
dalam pengklasifikasian, namun percobaan empiris mengatakan sebaliknya. Hal ini
tentu saja cukup mengejutkan, karena dalam pengaplikasian dunia nyata, asumsi
diabaikannya keterkaitan antara atribut selalu dilanggar [1].
Pertanyaan yang muncul adalah apakah yang menyebabkan baiknya performa yang
didapatkan dari pengaplikasian asumsi Nave ini? Karena secara intuitif, asumsi
keidependenan atribut dalam dunia nyata hampir tidak pernah terjadi. Seharusnya
dengan asumsi tersebut performa yang dihasilkan akan buruk.
Domingos dan Pazzani (1997) pada papernya untuk menjelaskan performa Nave
Bayes dalam fungsi zero-one loss. Fungsi zero-one loss ini mendefinisikan error
hanya sebagai pengklasifikasian yang salah. Tidak seperti fungsi error yang lain
4|Page
seperti squared error, fungsi zero-one loss tidak memberi nilai suatu kesalahan
perhitungan peluang selama peluang maksimum ditugaskan kedalam kelas yang
benar. Ini berarti bahwa Nave Bayes dapat mengubah peluang posterior dari tiap
kelas, tetapi kelas dengan nilai peluang posterior maksimum jarang diubah. Sebagai
contoh, diasumsikan peluang sebenarnya dari
sedangkan peluang yang dihasilkan oleh Nave Bayes adalah
dan
,
dan
. nilai peluang tersebut tentu saja berbeda jauh, namun pilihan kelas
tetap tidak terpengaruh.
5|Page
terdapat dalam data (seperti nama = Frank Jones, umur = >40, pendapatan = Tinggi, dan
rating_kredit = baik) disebut sebagai kumpulan nilai atribut, dimana seterusnya akan disebut
sebagai kumpulan atribut saja. Aturan Klasifikasi yang dibuat dari kumpulan-kumpulan atribut
pada data pelatihan dan Algoritma Klasifikasi disebut sebagai model klasifikasi.
Interpretability : adalah tingkat kejelasan dan kemengertian yang di berikan oleh model.
Hal-hal tersebut diatas akan didiskusikan dalam bab ini. Kontribusi komunitas peneliti
database kepada klasifikasi dan prediksi untuk data mining menegaskan pada aspek skalabilitas,
khususnya pada induksi pohon keputusan.
konjungsi (dan) dengan lambang , irisan dan konjungsi dilakukan terhadap nilai himpunan c
dan E.
Diagram Venn untuk E
E
1
1
0
0
c
1
0
1
0
Ec
1
0
0
0
8|Page
Namun jika hanya dengan operator-operator tersebut, penghitungan peluang yang terjadi
bukanlah penghitungan peluang bersyarat, untuk penghitungan peluang bersyarat kita
membutuhkan peluang nisbi dari E, yaitu peluang E dan c muncul ditambah peluang E dan
cmuncul, ditambah E dan c muncul, dst. Atau dengan kata lain peluang E muncul pada masingmasing kasus c. Rumusnya dapat di tuliskan sebagai berikut :
(P(E c)+P(E c)+P(E c)+..+P(E cn)).
Nilai peluang bersyarat P(c|E) di dapatkan dari nilai irisan atau konjungsi dari E dan c dibagi
dengan Peluang nisbi dari E. didapatkanlah rumus :
Catatan : Karena pada kasus data mining kebanyakan data yang dikomputasi berbentuk himpunan, maka disini dan seterusnya akan digunakan
operator irisan himpunan untuk mendefinisikan rumus peluang bersyarat.
Pendapatan
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Rendah
Rendah
Sedang
Rendah
Sedang
Sedang
Sedang
Tinggi
Sedang
Beli Komputer
Tidak
Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya
Ya
Ya
Ya
Ya
Tidak
Jawaban :
c : Beli Komputer = Ya.
c : Beli Komputer = Tidak.
E : Pendapatan = sedang.
P(c|E) = P(membeli komputer = ya | pendapatan = sedang).
9|Page
P(E) adalah peluang nisbi pelanggan berpendapatan sedang, yaitu peluang pelanggan
berpendapatan sedang yang membeli komputer ditambah pelanggan berpendapatan
sedang yang tidak membeli komputer. P(E
P(E
c)+P(E
c) = (4/14)+(2/14) = 6/14.
Yaitu pelanggan yang berpendapatan sedang 2/3-nya akan membeli komputer, yaitu 66.6%
kemungkinan bahwa pelanggan berpendapatan sedang membeli komputer.
Untuk peluang pelanggan berpendapatan sedang Tidak membeli komputer, peluangnya dihitung
dengan :
Sedangkan untuk peluang pelanggan yang berpendapatan tinggi dan rendah membeli komputer,
nilainya secara berurut adalah 2/4 dan 3/4.
Misalkan C adalah beberapa kelas. Untuk masalah klasifikasi, kita ingin menentukan P(c|E),
yaitu probabilitas bahwa hipotesis kelas c adalah benar untuk bukti atau data observasi
kumpulan atribut data E. dengan kata lain, kita mencari probabilitas bahwa kumpulan atribut E
termasuk kepada kelas C, dengan kita mengetahui gambaran atribut dari E.
P(c|E) adalah Probabilitas Posterior*, atau sebuah Probabilitas Posteriori, dari c yang diujikan
pada E. sebagai contoh, misalkan dunia tuple data kita dibatasi oleh data pelanggan dengan
atribut umur dan pendapatan, dan E adalah pelanggan dengan umur 35 tahun dengan pendapatan
Rp 4.000.000. Misalkan c adalah Hypotesis bahwa pelanggan akan membeli sebuah komputer.
10 | P a g e
Maka P(c|E) merefleksikan probabilitas bahwa pelanggan E (dengan atribut umur=35 thn,
pendapatan Rp 4.000.000) akan membeli sebuah komputer dengan informasi yang didapatkan
berupa umur dan pendapatan pelanggan.
Secara kontras, P(c) adalah Probabilitas Prior***, atau Probabilitas Priori, dari c. sebagai
contoh, ini adalah probabilitas bahwa pelanggan manapun akan membeli sebuah komputer atau
tidak, tidak memandang dari umur, pendapatan ataupun informasi lainnya :
Jumlah data = 14
c1 = Membeli Komputer = ya
c2 = Membeli Komputer = tidak
Dari 14 data, yang membeli_komputer=ya= 9 orang, dan yang tidak membeli_komputer = tidak = 5 orang. Maka P(C) adalah :
P(c1) = P(Membeli_Komputer = ya) = 9 /14 = 0.643
P(c2) = P(Membeli_Komputer = tidak) = 5/14 = 0.357
Sama halnya, P(E|c) adalah Probabilitas Posteriori dari E yang diujicobakan dengan Kelas c.
yaitu probabilitas bahwa sebuah pelanggan, E, berumur 35 thn(3140) dengan pendapatan
$40K (sedang) :
Jumlah data = 14
c1 = Membeli Komputer = ya
c2 = Membeli Komputer = tidak
Dari 14 data, yang membeli_komputer=ya= 9 orang, dan yang tidak membeli_komputer = tidak = 5 orang
E1 = Pelanggan berumur 3140 thn yang Membeli_komputer = ya berjumlah 4 orang.
E2 = Pelanggan berumur 3140 thn yang Membeli_komputer = tidak berjumlah 0 orang.
E3 = Pelanggan dengan pendapatan sedang yang membeli_komputer = ya berjumlah 4 orang.
E4 = Pelanggan dengan pendapatan sedang yang membeli_komputer = tidak berjumlah 2 orang.
Maka P(E|C) adalah :
P(E1|c1) = P( umur = 3140 | beli_komputer = ya) = 4/9 = 0.444
P(E2|c2) = P( umur = 3140 | beli_komputer = tidak) = 0/5 = 0
P(E3|c1) = P( pendapatan = sedang | beli_komputer = ya) = 4/9 = 0.444
P(E4|c2) = P( pendapatan = sedang | beli_komputer = tidak) = 2/5 = 0.4
P(X) adalah Probabilitas Prior dari X. menggunakan contoh diatas, adalah probabilitas bahwa
seseorang dari kumpulan pelanggan adalah berumur 35 thn dan berpenghasilan $40K :
Jumlah Data = 14
Dari 14 data, pelanggan dengan umur 3140 = 4 orang, <30 = 5 orang dan >40 = 5 orang.
Pelanggan dengan pendapatan sedang = 6 orang, rendah = 4 orang dan tinggi = 4 orang.
P(X11) = P( umur = 3140 ) = 4/14 = 0.285
P(X21) = P( Pendapatan = sedang) = 6/14 = 0.428
Untuk nilai atribut lain (selain diatas), dihitung dengan cara yang sama:
P(X12) = P( umur = <30 ) = 5/14 = 0.357
P(X13) = P( umur = >40 ) = 5/14 = 0.537
P(X22) = P( pendapatan = rendah ) = 4/14 = 0.285
P(X23) = P( pendapatan = tinggi ) = 4/14 = 0.285
11 | P a g e
Untuk lebih memahami pengertian-pengertian yang sulit diatas, mari kita amati sebuah contoh
kasus.
Contoh Pengklasifikasian 2 kelas:
Pada suatu universitas, mahasiswanya terdiri dari 60% Laki-laki dan 40% Perempuan.
Mahasiswa perempuan menggunakan rok atau celana panjang dengan perbandingan yang sama.
Sedangkan seluruh mahasiswa Laki-laki menggunakan celana panjang. Seorang pengamat
melihat seorang mahasiswa (acak) dari kejauhan. Yang dapat di lihat pengamat tersebut adalah
bahwa mahasiswa tersebut menggunakan celana panjang. Berapakah probabilitas mahasiswa
yang dilihat oleh pengamat tersebut adalah mahasiswa perempuan?
Jawaban :
Jelas bahwa probabilitasnya kurang dari 40%, tetapi berapakah tepatnya? Apakah setengahnya,
karena hanya setengah mahasiswa Perempuan yang menggunakan celana panjang? Jawaban
yang benar dapat dihitung dengan teorema bayes.
Hipotesis H adalah mahasiswa yang diamati adalah Perempuan, dan bukti X adalah mahasiswa
yang diamati menggunakan celana panjang. Untuk menghitung P(H|X), pertama-tama kita harus
mengetahui:
P(H), atau probabilitas bahwa mahasiswa tersebut adalah perempuan, tanpa memandang
informasi lainnya. Karena pengamat mengamati seorang mahasiswa secara acak, artinya
seluruh mahasiswa memiliki probabilitas yang sama untuk diamati, dan banyaknya
mahasiswa perempuan adalah 40%, maka probabilitasnya adalah 0.4.
P(H), atau probabilitas bahwa mahasiswa tersebut adalah Laki-laki, tanpa memandang
informasi lainnya (H adalah komplemen dari H). Banyaknya mahasiswa laki-laki adalah
60%, maka probabilitasnya adalah 0.6.
12 | P a g e
P(X|H), atau probabilitas bahwa mahasiswa yang diamati menggunakan celana panjang
adalah perempuan. Karena mahasiswa perempuan menggunakan Rok dan celana panjang
dengan perbandingan yang sama(50%), maka probabilitasnya adalah 0.5.
P(X|H), atau probabilitas bahwa mahasiswa yang diamati menggunakan celana panjang
adalah laki-laki. Karena seluruh laki-laki di universitas tersebut menggunakan celana
panjang(100%), maka probabilitasnya adalah 1.
P(X), atau probabilitas dari seorang mahasiwa (yang dipilih secara acak) menggunakan
celana panjang, tanpa memandang informasi lainnya. Karena P(X) =
P(X|H)P(H)+P(X|H)P(H), maka nilainya adalah (0.5 0.4) + (1 0.6) = 0.8.
Seperti yang telah di ramalkan sebelumnya, probabilitasnya kurang dari 40%. Tepatnya 25%.
Cara lainnya untuk mendapatkan hasil yang sama sebagai berikut.
Dimisalkan pada universitas tersebut ada 100 orang mahasiswa, 60 mahasiswa laki-laki dan 40
mahasiswa perempuan. Diantara seluruh mahasiswa ini, 60 mahasiswa laki-laki dan 20
mahasiswa perempuan menggunakan celana panjang, berarti yang menggunakan celana panjang
berjumlah 80 orang, dengan 20 diantaranya perempuan. Oleh karenanya kemungkinan
mahasiswa yang menggunakan celana panjang adalah perempuan sama dengan 20/80 = 0.25
2.4 Teorema Bayes dalam Klasifikasi pada Data Mining & Machine Learning
Pengklasifikasian adalah sebuah fungsi yang menugaskan data atau kelompok atribut tertentu
kedalam sebuah kelas. Dari sudut pandang peluang [7], berdasarkan aturan Bayes kedalam kelas
c adalah :
Untuk menentukan pilihan kelas, digunakan peluang maksimal dari seluruh c dalam C, dengan
fungsi :
Karena nilai
menghasilkan fungsi :
13 | P a g e
(1)
Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal
(waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai
probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas.
2.4.1 Perkalian Kartesius(cartesian product)
Perkalian Kartresian digunakan karena merupakan salah satu operasi dasar dalam
Himpunan.
Himpunan digunakan untuk mengelompokkan objek secara bersama-sama. [Matematika
Diskrit, Rinaldi Munir 2005]
Operasi dari Perkalian Kartesius adalah operasi menghubungkan tiap elemen dari suatu
himpunan atribut dengan tiap elemen dari himpunan atribut lainnya.
Contoh :
Himpunan atribut A memiliki anggota : {1,2}
Himpunan atribut B memiliki anggota : {a, b, c}
Himpunan atribut C memiliki anggota : {x, y}
Kardinalitas A x B x C, yaitu |A x B x C| = |A|.|B|.|C| = 2.3.2 = 12.
Semua anggota dari elemen A x B x C dapat di peroleh dengan bantuan pohon berikut :
14 | P a g e
Jadi, A x B x C = {(1, a, x), (1, a, y), (1, b, x), (1, b, y), (1, c, x), (1, c, y), (2, a, x), (2, a,
y), (2, b, x), (2, b, y), (2, c, x) , (2, c, y)}
IPK
Bagus
Bagus
Bagus
Bagus
Bagus
Bagus
Cukup
Cukup
Cukup
Cukup
Kurang
Kurang
Kurang
Psikologi
Tinggi
Tinggi
Tinggi
Sedang
Sedang
Rendah
Tinggi
Sedang
Sedang
Rendah
Tinggi
Sedang
Rendah
Wawancara
Baik
Baik
Baik
Baik
Buruk
Buruk
Baik
Baik
Buruk
Buruk
Baik
Buruk
Baik
Diterima
Ya
Ya
Tidak
Ya
Ya
Tidak
Ya
Ya
Ya
Tidak
Ya
Tidak
Ya
Class Name =
Penerimaan Pegawai
Identifier =
Pelamar
Kelompok Atribut E adalah IPK = Bagus, Psikologi = Tinggi, Wawancara = Baik, Kelas-kelas C
adalah c1 = diterima, c2 = ditolak. maka kelas kelompok atribut E adalah :
15 | P a g e
Karena yang dipilih adalah nilai yang terbesar, maka kelompok atribut E ditugaskan pada kelas
c1.
2.4.3 Kekurangan Teorema Bayes dalam Klasifikasi
Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh
kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis
Boolean [0,1] tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema
Bayes untuk digunakan dalam klasifikasi adalah 216 = 65.536 data, sehingga ada 3 masalah yang
dihadapi untuk menggunakan teorema Bayes dalam pengklasifikasian, yaitu :
(1) kebanyakan data latih tidak memiliki varian klasifikasi sebanyak itu (oleh karenanya
sering diambil sample)
(2) jumlah atribut dalam data sample dapat berjumlah lebih banyak (lebih dari 16)
(3) jenis nilai atribut dapat berjumlah lebih banyak [lebih dari 2 Boolean] terlebih lagi
untuk jenis nilai atribut yang bersifat tidak terbatas 1 - seperti numeric dan kontiniu.
jika suatu data X tidak ada dalam data latih, maka data X tidak dapat di klasifikasikan, karena
peluang untuk data X di klasifikasikan kedalam suatu kelas adalah sama untuk tiap kelas yang
ada.
2.5 Algoritma Nave Bayes dalam Data Mining & Machine Learning
Untuk mengatasi berbagai permasalahan diatas, berbagai varian dari pengklasifikasian
yang menggunakan Teorema Bayes diajukan, salah satunya adalah Nave Bayes, yaitu
penggunaan Teorema Bayes dengan asumsi keidependenan atribut. Asumsi keidependenan
atribut akan menghilangkan kebutuhan banyaknya jumlah data latih dari perkalian kartesius
seluruh atribut yang dibutuhkan untuk mengklasifikasikan suatu data [4].
(2)
16 | P a g e
Karena yang dipilih adalah nilai yang terbesar, maka kelompok atribut E ditugaskan pada c1.
2.5.2 Perbandingan Teorema Bayes dan Nave Bayes dalam Nilai Probabilitas dan
Nilai Klasifikasi
Nilai Peluang atau probabilitas biasanya digunakan sebagai nilai acuan didalam pengambilan
keputusan, namun berbeda halnya dengan klasifikasi. Pada klasifikasi nilai probabilitas kelas
yang terbesar yang dipilih untuk mengklasifikasikan suatu kelompok atribut terhadap kelas-kelas
lainnya.
Teorema Bayes
Nave Bayes
Kelas c1 = Diterima
Kelas c2 = Ditolak
= 72/468
= (72/468)/(72/468+36/468)
= 2/3 = 66.666%
2160/28561
=(2160/28561)/( 2160/28561+960/28561)
= 2160/3120 = 9/13 = 69.230%
= 36/468
= (36/468)/(72/468+36/468)
= 1/3 = 33.333%
960/28561
=(960/28561)/( 2160/28561+960/28561)
=960/3120 = 4/13 = 30.769%
Tabel 3 menunjukkan perbandingan nilai probabilitas pada data latih di table 2 untuk Kelompok
Atribut E untuk e1 IPK = Bagus, e2 Psikologi = Tinggi, e3 Wawancara = Baik, Kelas-kelas C
adalah c1 = diterima, c2 = ditolak. Walaupun nilai peluang yang diperhitungkan bernilai salah,
namun pemilihan kelas tetap sama, yaitu ditunjukkan untuk nilai probabilitas yang terbesar pada
kelas c1.
17 | P a g e
18 | P a g e
. A dan
jika :
jika :
Kelas acak :
Sedangkan prosedur klasifikasi Nave Bayes yang tidak optimal memperhitungkan juga
nilai B seperti halnya nilai B sama sekali tidak berkorelasi dengan nilai A. hal ini sama
dengan menghitung nilai A dua kali. Untuk nave bayes rumusnya adalah :
Kelas positif
Kelas negatif
Kelas Acak :
Dengan mengaplikasikan nave bayes untuk pengklasifikasian yang optimal, maka
dapat di representasikan sebagai
19 | P a g e
Karena
, maka nilai
dan
diabaikan dalam perhitungan, nilai P(A) dan P(C) juga mengeliminasi satu sama lainnya
dalam operasi pengurangan, sehingga nilai P(A) dan nilai P(C) tidak perlu di hitung,
sehingga setelah pengeliminasian perhitungan yang tidak di perlukan dan didapatkan :
Untuk perhitungan korelasi optimal.
Sedangkan untuk perhitungan korelasi dengan Nave Bayes :
Karena dalam peluang nilai peluang maksimal adalah 1, maka dapat dituliskan
P( |A) + P(
|C) = 1
P( |A) =1 - P(
Misalkan P(
|C)
20 | P a g e
21 | P a g e
(3)
Zero-one loss adalah ukuran yang tepat jika tugas yang harus dilakukan adalah
klasifikasi. Dimana zero-one loss memberikan ukuran nilai 1 kepada kesalahan
pengklasifikasian. Pada situasi tertentu, kesalahan pengklasifikasian memiliki ukuran
prioritas yang berbeda, sebagai contohnya, pada diagnosa medis, ukuran kesalahan
mengklasifikasikan seorang pasien yang sakit sebagai sehat berbeda dengan
mengklasifikasikan pasian sehat sebagai sakit.
Umumnya, seringkali muncul data latih dengan nilai kelompok atribut yang sama tetapi
memiliki kelas yang berbeda. Ini merefleksikan fakta bahwa atribut-atribut tersebut
tidak mengandung seluruh informasi untuk menentukan kelas. Maka, secara umum,
sebuah data latih E tidak akan dihubungkan dengan suatu kelas saja, tetapi dengan
peluang kelas P(Ci|E) yang berbentuk vektor, dimana komponen ke I merepresentasikan
perbandingan nilai munculnya E pada kelas Ci. Ukuran Kesalahan zero-one loss dari X
pada E adalah :
Dimana
adalah
keakuratan dari X pada E. definisi ini disederhanakan menjadi persamaan 3 saat sebuah
kelas memiliki probabilitas 1 diberikan E.
Definisi 2 :
Ukuran bayes untuk sebuah data latih adalah nilai galat zero-one loss yang
terendah yang didapatkan dari pengklasifikasian manapun pada data latih
tersebut [1].
Definisi 3:
sebuah pengklasifikai adalah optimal secara lokal untuk sample jika dan hanya
jika nilai zero-one loss pada sample tersebut adalah sama dengan ukuran bayes.
Definisi 4:
Sebuah pengklasifikasi adalah optimal secara global untuk sample jika dan hanya
jika pengklasifikasian tersebut bernilai optimal untuk tiap sample pada kumpulan
sample tersebut. Sebuah pengklasifikasi adalah optimal secara global untuk sebuah
22 | P a g e
masalah jika dan hanya jika pengklasifikasi tersebut optimal secara lokal untuk
tiap sample yang mungkin dari masalah tersebut.
Zero one loss harus dibedakan dengan squared error loss untuk perhitungan galat
peluang, perbedaan ini didifenisikan sebagai :
Dimana X adalah prosedur hampiran dan C adalah variable kelas dimana peluangnya
ingin dicari. Jika ada ketidakpastian yang berhubungan dengan P(C|E), square error
loss didefinisikan sebagai nilai yang diharapkan dari expresi diatas. Fikiran utama dari
paper ini, di deskripsikan pada bagian ini, yang dapat dijelaskan sebagai berikut. Saat
asumsi independen dilanggar, persamaan 2 akan menjadi suboptimal sebagai
probabilitas.
Sebagai contoh, misalkan ada dua kelas, yaitu kelas
dan
, dan
dan
error loss sangat besar, tetapi nave bayes masih mendapatkan keputusan klasifikasi
yang benar, dan meminimalisir zero-one loss.
Misalkan ada dua kelas secara umum, yaitu kelas
dan
seperti sebelumnya,
Sekarang kita akan menciptakan kondisi yang dibutuhkan untuk keoptimalan local dari
nave bayes dan memperlihatkan bahwa volume dari daerah keoptimalan nave bayes
adalah setengah dari volume
Teorema 1
Nave bayes optimal secara local dibawah zero-one loss untuk data E jika dan
hanya jika
untuk E.
Bukti : Pengklasifikasian nave bayes optimal saat zero-one loss memiliki nilai yang
paling minimum. Saat
didapatkan dari
23 | P a g e
menugaskan
ke kelas
ke kelas
saat
,
, dimana
. Olehkarenanya pengklasifikasian
. Saat
hanya menempati nilai dalam kubus [0,1] 3. Daerah dari kubus tersebut yang
memuaskan kondisi pada teorema 1 ditunjukkan oleh daerah abu-abu pada gambar 4.
Dapat di perhatikan bahwa daerah abu-abu menempati setengah dari volume total
kubus. Tetapi tidak seluruh pasangan
Karena
dan
adalah area
24 | P a g e
Secara kontras dibawah squared error loss, persamaan 2 optimal sebagai kumpulan
estimasi peluang P(Ci|E) hanya pada saat asumsi independen bertahan, yaitu pada
bidang
dan
persamaan 2 dibawah squared error loss adalah sangat kecil dibandingkan dengan
zero-one loss. Pengklasifikasian nave bayes efektif sebagai pemprediksi optimal
untuk kelas yang paling sering muncul pada sebuah kondisi yang lebih besar dimana
asumsi independen dilanggar. Notasi sebelumnya dari keterbatasan pengklasifikasi
nave bayes sekarang dapat dilihat sebagai kesalahan pengaplikasian intuisi
berdasarkan keterbatasan squared error loss pada performa pengklasifikasi nave
bayes pada zero-one loss.
Teorema 2
Pengklasifikasian nave bayes optimal secara global pada zero-one loss untuk
sebuah sample (data set) jika dan hanya jika
25 | P a g e
BAB V KESIMPULAN
26 | P a g e
DAFTAR PUSTAKA
[1] Domingos, P., and Pazzani, M. (1997). On the optimality of the Simple Bayesian
Classifier under Zero-One Loss.
[2] Tom M. Mitchell (1997). Machine Learning. New York, NY: McGraw-Hill.
[3] Duda, R.O., and Hart, P.E. (1973). Pattern classification and scene analysis. New
York, NY: Wiley.
[4] Berson, A., and Smith S. J. (2001). Data Warehousing, Data Mining, & OLAP.
New York, NY : McGraw-Hill.
[5] Han, J., and Kamber M. (2000). Data Mining, Concept and Techniques. New
York, NY : Morgan Kaufmann.
[6] Walpole, E. R., Myers, R. H. (1995). Ilmu Peluang dan Statistika untuk Insinyur
dan Ilmuan, Edisi ke-4. Bandung, ITB.
[7] Prof. DR. Sudjana., M.A., M.Sc (1996). Metoda Statistika, Edisi ke-6. Bandung,
Tarsito.
27 | P a g e