Anda di halaman 1dari 6

STMIK ERESHA

MAGISTER KOMPUTER

TUGAS MANDIRI DATA MINING

NAMA : Yudisti Prayigo Permana Nama Dosen : Dr. Sudarno


NIM : 191022000045 Mata Kuliah : Data Mining

SOAL

Klasifikasi untuk calon pembeli mobil.

CREDIT
UMUR PENGHASILAN WILAYAH BELI MOBIL
RATING
<25 Tinggi Rendah A Tidak
<25 Tinggi Tinggi A Tidak
25..40 Tinggi Rendah A Ya
>40 Sedang Rendah A Ya
>40 Rendah Rendah B Ya
>40 Rendah Tinggi B Tidak
>40 Sedang Rendah B Ya
25..40 Rendah Tinggi B Ya
25..40 Sedang Tinggi A Ya
<25 Sedang Rendah A Tidak
<25 Rendah Rendah B Ya
25..40 Tinggi Rendah B Ya
<25 Sedang Tinggi B Ya
>40 Sedang Tinggi A Tidak

Catatan : Untuk pemodelan Decision Tree dan naïve Bayes, uraikan tahapan
tahapannya.
Pertanyaan :
1. Buatlah satu model Decision Tree menggunakan Hunt’s Algorithm.
2. Buatlah model Decision Tree menggunakan algoritma ID3.
3. Tentukan akurasi dari Decision Tree ID3 tersebut (jawaban no 2)
4. Tentukan Keputusan Beli Mobil untuk data = (Umur >40, Penghasilan
Tinggi, Credit rating tinggi, tinggal di wilayah B).
5. Jawablah soal no 4 tersebut menggunakan klasifikasi Naïve Bayes.

*************

Tugas Mandiri – Data Mining


JAWAB

Prosedur umum Decision Tree:


1. Jika Dt mengandung record yang memiliki class yang sama yt, kemudia t dalah
sebuah leaf node yang dinamai sebagai yt
2. Jika Dt mengandung record dengan nilai atribut yang sama, maka t adalah leaf
node yang dinamai dengan class mayoritas yt
3. Jika Dt adalah sebuah data set kosong, maka t adalah leaf node yang dinamai
dengan class bawaan, Yd
4. Jika Dt mengandung record yang memiliki lebih dari satu class, menggunakan
sebuah atribut tes untuk memisahkan data kedalam subset yang lebih kecil.
5. Terapkan prosedur secara rekursif ke setiap subset.
Tahapan Algoritma Naïve Bayes
1. Baca Data Training
2. Hitung jumlah class
3. Hitung jumlah kasus yang sama dengan class yang sama
4. Kalikan semua nilai hasil sesuai dengan data X yang dicari class-nya

1. Buatlah satu model Decision Tree menggunakan Hunt’s Algorithm.

Beli Mobil -> Penghasilan


Tinggi, Sedang Rendah

Ya Penghasilan
Tinggi Rendah

Penghasilan Ya

A B

Penghasilan Ya

<25 >40, 25..40

Tidak Ya

Tugas Mandiri – Data Mining


2. Buatlah model Decision Tree menggunakan algoritma ID3 dan Tentukan akurasi dari
Decision Tree ID3 tersebut. (nomor 2 dan 3)

JUMLAH
TIDAK
NODE ATRIBUT KASUS YA (Si) ENTROPHY GAIN
(Si)
(S)
1 TOTAL 14 9 5 0.940286
UMUR 0.24674982
<25 5 2 3 0.9709506
25..40 4 4 0 0
>40 5 3 2 0.9709506
PENGHASILAN 0.064238637
TINGGI 4 2 2 1
SEDANG 6 4 2 0.9182958
RENDAH 3 2 1 0.9182958
CREDIT RATING 0.04812703
TINGGI 6 3 3 1
RENDAH 8 6 2 0.8112781
WILAYAH 0.151835501
A 7 3 4 0.9852281
B 7 6 1 0.5916728

Menghitung Entrophy :
Entrophy (total) = ((-(5/14)xlog2(5/14))+(-(9/14)xlog2(9/14))) = 0.940286
Entrophy (umur) :
<25 = ((-(3/5)xlog2(3/5))+(-(2/5)xlog2(2/5))) = 0.9709506
25..40 = ((-(0/4)xlog2(0/4))+(-(4/4)xlog2(4/4))) = 0
>40 = ((-(2/5)xlog2(2/5))+(-(3/5)xlog2(3/5))) = 0.9709506
Entrophy (penghasilan) :
Tinggi = ((-(2/4)xlog2(2/4))+(-(2/4)xlog2(2/4))) = 1
Sedang = ((-(2/6)xlog2(2/6))+(-(4/6)xlog2(4/6))) = 0.9182958
Rendah= ((-(2/4)xlog2(2/4))+(-(2/4)xlog2(2/4))) = 0.9182958
Entrophy (credit rating) :
Tinggi = ((-(3/6)xlog2(3/6))+(-(3/6)xlog2(3/6))) = 1
Rendah= ((-(2/8)xlog2(2/8))+(-(6/8)xlog2(6/8))) = 0.8112781
Entrophy (wilayah) :
A = ((-(4/7)xlog2(4/7))+(-(3/7)xlog2(3/7))) = 0.9852281
B = ((-(1/7)xlog2(1/7))+(-(6/7)xlog2(6/7))) = 0.5916728

Perhitungan Gain Akar :


Gain (total, umur) = 0.940286-((5/14)x(0.9709506))+((4/14)x(0))+((5/14)x(0.9709506))
= 0.24675
Gain (total, peng) = 0.940286-((4/14)x(1))+((6/14)x(0.9182958))+((3/14)x(0.9182958))
= 0.064239
Gain (total, CR) = 0.940286-((6/14)x(1))+((8/14)x(0.8112781))
= 0.064239
Gain (total, wil) = 0.940286-((7/14)x(0.9852281))+((7/14)x(0.5916728))
= 0.151836

Tugas Mandiri – Data Mining


Dari hasil node 1 dapat diketahui atribut dengan Gain tertinggi adalah Umur yaitu sebesar
0.24674982. Demikian Umur dapat menjadi node akar.

Umur

<25 >40
25..40

???? Ya Ya

Ada 3 nilai atribut dari UMUR yaitu <25, 25..40 dan >40. Dari ketiga nilai tersebut, nilai
atribut 25..40 dan >40 sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya
Ya, sehingga tidak perlu dilakukan perhitungan lebih lanjut tetapi untuk nilai atribut <25
masih perlu dilakukan perhitungan lagi.

JUMLAH
YA TIDAK
NODE ATRIBUT KASUS ENTROPHY GAIN
(Si) (Si)
(S)
1 UMUR 5 2 3 0.9709506
PENGHASILAN 0.631315773
TINGGI 3 1 2 0.9182958
RENDAH 2 1 1 1
CREDIT RATING 0.631315773
TINGGI 2 1 1 1
RENDAH 3 1 2 0.9182958
WILAYAH 0.970950594
A 3 0 3 0
B 2 2 0 0

Menghitung Entrophy :
Entrophy (umur) = ((-(3/5)xlog2(3/5))+(-(2/5)xlog2(2/5))) = 0.9709506
Entrophy (penghasilan) :
Tinggi = ((-(2/3)xlog2(2/3))+(-(1/3)xlog2(1/3))) = 0.9182958
Rendah= ((-(1/2)xlog2(1/2))+(-(1/2)xlog2(1/2))) = 1
Entrophy (credit rating) :
Tinggi = ((-(1/2)xlog2(1/2))+(-(1/2)xlog2(1/2))) = 1
Rendah= ((-(2/3)xlog2(2/3))+(-(1/3)xlog2(1/3))) = 0.9182958
Entrophy (wilayah) :
A = ((-(3/3)xlog2(3/3))+(-(0/3)xlog2(0/3))) = 0
B = ((-(0/2)xlog2(0/2))+(-(2/2)xlog2(2/2))) = 0

Perhitungan Gain Akar :


Gain (umur, peng) = 0.9709506-((3/5)x(0.9182958))+((2/5)x(1)) = 0.631315773
Gain (umur, CR) = 0. 9709506-((2/5)x(1))+((3/5)x(0.9182958)) = 0.631315773
Gain (umur, wil) = 0. 9709506-((3/5)x(0))+((2/5)x(0)) = 0.970950594

Tugas Mandiri – Data Mining


Dari hasil node 1 dapat diketahui atribut dengan Gain tertinggi adalah Wilayah yaitu
sebesar 0.970950594. Demikian Umur dapat menjadi node kedua.

Umur

<25 >40
25..40

Wilayah Ya Ya

A B

Tidak Ya

Karena semua kasus sudah masuk dalam kelas jadi, pohon keputusan pada gambar
merupakan pohon keputusan terakhir yang terbentuk.
3. Tentukan Keputusan Beli Mobil untuk data = (Umur >40, Penghasilan Tinggi, Credit
rating tinggi, tinggal di wilayah B). menggunakan klasifikasi Naïve Bayes. (nomor 4
dan 5)

Diketahui :
• Class 1 -> Beli Mobil = Ya -> 9 record
• Class 2 -> Beli Mobil = Tidak -> 5 record
• Total = 14 record
Maka :
• P (Class 1) = 9/14 = 0.643
• P (Class 2) = 5/14 = 0.357
Pertanyaan :
• Data = (Umur= >40, Penghasilan= tinggi, Credit rating= Tinggi, Wilayah= B)
• Beli mobil = ya atau tidak ?
Hitung jumlah kasus yang sama dengan class yang sama :
• P(umur = “>40” | Beli_mobil = “Ya”) = 3/9 = 0.333
• P(umur = “>40” | Beli_mobil = “Tidak”) = 2/5 = 0.4
• P(penghasilan = “Tinggi” | Beli_mobil = “Ya”) = 2/9 = 0.222
• P(penghasilan = “Tinggi” | Beli_mobil = “Tidak”) = 3/5 = 0.6
• P(credit rating = “Tinggi” | Beli_mobil = “Ya”) = 3/9 = 0.333
• P(credit rating = “Tinggi” | Beli_mobil = “Tidak”) = 3/5 = 0.6
• P(wilayah = “B” | Beli_mobil = “Ya”) = 6/9 = 0.667
• P(wilayah = “B” | Beli_mobil = “Ya”) = 1/5 = 0.2

Tugas Mandiri – Data Mining


X = (Umur= >40, Penghasilan= tinggi, Credit rating= Tinggi, Wilayah= B)
P(X|Ci) : P(X|Beli_mobil = “Ya”) = 0.333 x 0.222 x 0.333 x 0.667 = 0.016
P(X|Beli_mobil = “Tidak”) = 0.4 x 0.6 x 0.6 x 0.2 = 0.029
P(X|Ci)*P(Ci) :
P(X|Beli_mobil = “Ya”) * P(Beli_mobil = “Ya”) = 0.016 x 0.643
P(X|Beli_mobil = “Tidak”) * P(Beli_mobil = “Tidak”) = 0.016 x 0.643
Oleh karena itu, X memiliki class (“Beli_mobil = Ya”)

Tugas Mandiri – Data Mining

Anda mungkin juga menyukai