Anda di halaman 1dari 5

4/6/2017

Materi Kuliah 06:


Data Mining Tid Refund Marital
Status
Taxable
Income Cheat

1 Yes Single 125K No


2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10

Datang calon kreditur dengan kriteria: Data histori dapat dijadikan sebagai data latihan
Refund: No; untuk mendapatkan pengetahuan (berupa
Marital Status: Married; deskripsi atau prediksi) terhadap data sets.
Income: 80k
Klasifikasi merupakan salah satu teknik untuk
Kira-kira calon kreditur ini akan berbuat mengekstrak pengetahuan tersebut!
curangkah atau tidak?

3 4

Terdapat sekumpulan data histori Data histori (data set) yang akan dianalisis
Setiap data memiliki beberapa atribut dengan salah biasanya dibagi menjadi 2:
atributnya berupa kelas (class)
Training set: digunakan untuk membangun
Tentukan model yang dapat digunakan untuk model.
menentukan nilai kelas untuk data berikutnya!
Testing set: digunakan untuk menentukan
Tujuan: kelas yang belum diketahui dari data keakuratan (validasi) model.
baru harus dapat dinyatakan seakurat mungkin.

5 6

1
4/6/2017

Tid Attrib1 Attrib2 Attrib3 Class Learning


1 Yes Large 125K No
algorithm
2 No Medium 100K No

Memprediksi sel tumor jinak atau ganas.


3 No Small 70K No

4 Yes Medium 120K No


Induction

Klasifikasi transaksi kartu kredit sebagai sah


5 No Large 95K Yes

6 No Medium 60K No
Learn
atau penipuan.
7 Yes Large 220K No

8 No Small 85K Yes Model


9
10
No
No
Medium
Small
75K
90K
No
Yes
Kategorisasi berita sebagai keuangan, cuaca,
Model
hiburan, olahraga, dsb.
10

Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ? Deduction


14 No Small 95K ?

15 No Large 67K ?
10

Test Set
7 8

Nave Bayes dan Bayesian Belief Networks


k-Nearest Neighbour Algorithm Problem:
Support Vector Machines Diberikan himpunan atribut X = {x1, x2... xn}
Prediksi nilai kelas Y
Pohon Keputusan (Decision Tree)
--------------------------------------------
Klasifikasi Berbasis Aturan (Rule-based Methods)
Solusi:
Penalaran berbasis Memory (Memory based
Cari probabilitas tertinggi untuk nilai Y jika
reasoning) diberikan himpunan atribut X.
Jaringan Syaraf (Neural Networks)

Tid Refund Marital Taxable Himpunan atribut X =


Status Income Cheat
{Refund, Marital status, Cari probabilitas:
1 Yes Single 125K No Taxable income} P1 = P(Cheat=yes|Refund=No,
2 No Married 100K No Nilai kelas Y: Cheat= {Yes, Marital Status=Married, Taxable Income=80K)
3 No Single 70K No No}
4 Yes Married 120K No Jika terdapat data sbb: P2 = P(Cheat=no|Refund=No,
5 No Divorced 95K Yes Marital Status=Married, Taxable Income=80K)
R
efu
ndMa
r ita
l Tax
able
6 No Married 60K No S
tatu s In
comeC h
eat

7 Yes Divorced 220K No N


o M
arrie
d 8
0K ? Jika P1 > P2, maka Cheat = yes.
Jika P1 < P2, maka Cheat = no.
1
0

8 No Single 85K Yes


Berapakah probabilitas
9 No Married 75K No
kustomer akan berbuat P1 = P2? Pilih salah satu.
10
10 No Single 90K Yes
curang?

2
4/6/2017

Bagaimana mencari nilai P(Y|x1,...xn) ? P(Y)P(X1, , Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1)


Gunakan Teorema Bayes: = P(Y)P(X1|Y)P(X2|Y,X1)
Likelihood Prior P(X3,..,Xn|Y,X1,X2)
= P(Y)P(X1|Y)P(X2|Y,X1)
P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-
1).

Normalization Constant

Fungsi normalization constant: tidak Lama


Tempat yang besar
tergantung nilai Y sehingga nilainya tetap antara Terlalu banyak parameter
Data yang banyak
P1 dan P2 tidak perlu dihitung.

Asumsi Nave Bayes : Jika diberikan nilai kelas Y, P(Y)P(X1, , Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)
maka seluruh atribut X bersifat independen P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,.
(tidak tergantung satu sama lain) Tidak ada .. Xn-1).
hubungan antar atribut X.

Y Y P(Y)P(X1, , Xn|Y)
= P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y)

X1 X2
...
Xn
P(Y) = Jumlah kemunculan Y/Jumlah data
X1 X2 Xn
... P(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y

Sebuah perusahaan memiliki usia aset yang


baru, memiliki nilai saing dan bergerak di bidang
hardware.

Tentukan peluang perusahaan tersebut


memperoleh keuntungan naik dan turun
berdasarkan tabel tersebut di atas
menggunakan Naive Bayes.

3
4/6/2017

Atribut Nilai Jml Kelas Kelas


Langkah 1: Tentukan himpunan atribut X dan Kasus Meningkat Menurun
nilai kelas Y:
Total 10 5 5
Usia Aset Lama 3 0 3
Himpunan atribut X = {Usia aset, nilai saing, jenis} Tengah 4 2 2
Nilai kelas Y = Keuntungan Baru 3 3 0
Nilai Saing Ada 4 1 3
Langkah 2: Buat Tabel hubungan setiap atribut Tdk Ada 6 4 2
Jenis Software 6 3 3
dengan atribut kelas.
Hardware 4 2 2

Langkah 3: Hitung probabilitas

P1 = P(naik | usia aset=baru, nilai saing=ada, jenis=hw) Langah 4: Bandingkan P1 dan P2


= P(naik) * P(usia aset=baru | naik) *
P(nilai saing = ada | naik) * P(jenis = hw |naik) IF
P1>P2 keuntungan naik,
P2 = P(turun | usia aset=baru, nilai saing=ada,jenis=hw)
= P(turun) * P(usia aset=baru|turun) * ELSE
P(nilai saing = ada | turun) * P(jenis = hw | turun)
keuntungan turun

P (naik) = Jumlah keuntungan naik / jumlah P (turun) = Jumlah keuntungan turun / jumlah
keseluruhan data keseluruhan data
= 5/10 = 5/10
P (usia aset=baru|naik) = Jumlah usia aset baru dan P (usia aset=baru|turun) = Jumlah usia aset baru dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 3/5 = 0/5
P (nilai saing=ada|naik) = Jumlah nilai saing ada dan P (nilai saing=ada|turun) = Jumlah nilai saing ada dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 1/5 = 3/5
P (jenis=hardware|naik) = Jumlah jenis hardware dan P (jenis=hardware|turun) = Jumlah jenis hardware dan
keuntungan naik / Jumlah keuntungan naik keuntungan turun / Jumlah keuntungan turun
= 2/5 = 2/5

4
4/6/2017

P1 = P(naik) P(naik | usia aset=baru, nilai Untuk menghindari probabilitas 0.


saing=ada, jenis=hardware)
= 0.5 x 0.6 x 0.2 x 0.4 = 0.024 Ditambahkan data dummy pada data set.

P2 = P(turun)P(turun | usia aset=baru, nilai P(X=A|Y=B) =


saing=ada, jenis=hardware) (Jumlah kemunculan X=A dan Y=B)+1 /
= 0.5 * 0 * 0.6 * 0.2 = 0
{(Jumlah kemunculan Y=B) + (Jumlah
Kesimpulan : P1 > P2 keuntungan naik kemungkinan nilai X)}

Laplacian Correction
Perhitungan probabilitas dengan Laplace Correction:

P(usia aset=baru|turun) =

(Jumlah usia aset baru dan keuntungan


turun)+1/(Jumlah keuntungan turun) + |Kemungkinan
usia aset| = (0+1)/(5+3) = 1/8

|Kemungkinan usia aset| = 3 yaitu: Lama, Tengah, Baru

Lakukan laplace correction untuk atribut lainnya. Apakah


hasilnya masih sama? P1 > P2?

Anda mungkin juga menyukai