Datang calon kreditur dengan kriteria: Data histori dapat dijadikan sebagai data latihan
Refund: No; untuk mendapatkan pengetahuan (berupa
Marital Status: Married; deskripsi atau prediksi) terhadap data sets.
Income: 80k
Klasifikasi merupakan salah satu teknik untuk
Kira-kira calon kreditur ini akan berbuat mengekstrak pengetahuan tersebut!
curangkah atau tidak?
3 4
Terdapat sekumpulan data histori Data histori (data set) yang akan dianalisis
Setiap data memiliki beberapa atribut dengan salah biasanya dibagi menjadi 2:
atributnya berupa kelas (class)
Training set: digunakan untuk membangun
Tentukan model yang dapat digunakan untuk model.
menentukan nilai kelas untuk data berikutnya!
Testing set: digunakan untuk menentukan
Tujuan: kelas yang belum diketahui dari data keakuratan (validasi) model.
baru harus dapat dinyatakan seakurat mungkin.
5 6
1
4/6/2017
6 No Medium 60K No
Learn
atau penipuan.
7 Yes Large 220K No
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
7 8
2
4/6/2017
Normalization Constant
Asumsi Nave Bayes : Jika diberikan nilai kelas Y, P(Y)P(X1, , Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)
maka seluruh atribut X bersifat independen P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,.
(tidak tergantung satu sama lain) Tidak ada .. Xn-1).
hubungan antar atribut X.
Y Y P(Y)P(X1, , Xn|Y)
= P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y)
X1 X2
...
Xn
P(Y) = Jumlah kemunculan Y/Jumlah data
X1 X2 Xn
... P(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y
3
4/6/2017
P (naik) = Jumlah keuntungan naik / jumlah P (turun) = Jumlah keuntungan turun / jumlah
keseluruhan data keseluruhan data
= 5/10 = 5/10
P (usia aset=baru|naik) = Jumlah usia aset baru dan P (usia aset=baru|turun) = Jumlah usia aset baru dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 3/5 = 0/5
P (nilai saing=ada|naik) = Jumlah nilai saing ada dan P (nilai saing=ada|turun) = Jumlah nilai saing ada dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 1/5 = 3/5
P (jenis=hardware|naik) = Jumlah jenis hardware dan P (jenis=hardware|turun) = Jumlah jenis hardware dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 2/5 = 2/5
4
4/6/2017
Laplacian Correction
Perhitungan probabilitas dengan Laplace Correction:
P(usia aset=baru|turun) =