DMKDD-5 (Revisi 23-08-2015)
DMKDD-5 (Revisi 23-08-2015)
in Databases (IS704)
dan Data Mining
(CS704)
Kuliah #5:
Classification (Bagian 1)
Gunawan
Jurusan Teknik Informatika
Sekolah Tinggi Teknik Surabaya
Revisi 23 Agustus 2015
Classification (1)
Sebelum bicara terlalu jauh, adalah baik jika kita
mencoba memperhatikan beberapa captured slides yang
menarik untuk memahami hakikat dasar Machine
Learning
Sumber:
www.cs.ucr.edu/~eamonn/205/MachineLearning.ppt.
Machine Learning.
Learning
December 15, 2015
Classification (2)
Termasuk dalam Data Mining Task: Predictive Modeling.
Diberikan himpunan examples (instances) yang telah
dipreklasifikasi (dilabeli) sebelumnya, {p1,t1}, {p2,t2}, .....
{pn,tn}, konstruksilah sebuah model yang dapat
menyarikan pengetahuan dalam examples tersebut dan
dapat digunakan untuk keperluan prediksi, yaitu
memprediksi class/target dari instance yang belum
dilabeli.
pi adalah vektor input, sedangkan ti adalah target (class) terkait.
Examples yang digunakan untuk membentuk model disebut
Classification (3)
Ukuran sukses klasifikasi biasanya diukur dengan
menguji data baru (fresh data) yang tidak
digunakan sebagai training set, tetapi labelnya
juga telah diketahui sebelumnya.
Kemudian dihitung proporsi jumlah data/instance
yang dapat diklasifikasi secara benar (akurasinya).
Dikenal term-term seperti 80:20 atau 75:25 atau
70:30 yang menunjukkan perbandingan
persentase (training set : testing set).
December 15, 2015
Classification (4)
Definisi yang lebih memperjelas peran
classification dalam mining database:
Diberikan sebuah database P = {p 1, p2, ....., pn} dari
Contoh Classification
Diberikan examples berikut:
Main memory
(Kb)
Cache
(Kb)
Channels
Performance
MYCT
MMIN
MMAX
CACH
CHMIN
CHMAX
PRP
125
256
6000
256
16
128
198
29
8000
32000
32
32
269
207
125
2000
8000
14
52
208
480
512
8000
32
67
209
480
1000
4000
45
1R
Diperkenalkan oleh Robert C. Holte (1983).(*)
Dikenal juga dengan 1-R Holte.
1R sendiri adalah kependekan dari 1-rule
atau Infering Rudimentary Rule (?)
Output algoritma 1R adalah one level decision tree yang dapat
disajikan juga melalui sebuah classification rule sets.
1R tidak menekankan akurasi sempurna atau 100% benar pada
rule sets yang dihasilkan.
1R tidak pernah dipertimbangkan sebagai salah satu pendekatan
formal dalam Machine Learning atau Data Mining.
Namun tetap harus diingat: Mengapa harus dipusingkan dengan
sebuah decision tree yang kompleks, ketika sebuah rule sets
sederhana dapat melakukannya?
(*) Holte, Robert C. 1993. Very simple classification rules perform well on most commonly used datasets.
Machine Learning, 11:63-90. Holte bekerja di Computer Science Departement, University of Ottawa.
Algoritma Original 1R
Sumber:
10
Algoritma 1R
FOR EACH atribut
FOR EACH value dari atribut ini, bentuk sebuah
rule sets dengan cara
Menghitung seberapa sering sebuah kelas
dihasilkan dari pasangan atribut=value ini
Dapatkan sebuah kelas yang paling banyak
dihasilkan atribut dengan value ini
Tambahkan sebuah rule IF atribut = value
THEN kelas ke dalam rule sets
Hitunglah tingkat kesalahan dari rules set ini
Pilihlah sebuah rules set dengan tingkat
kesalahan terkecil
December 15, 2015
11
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Windy
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
Play
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
12
13
PRISM
Diperkenalkan oleh J. Cendrowska (1987).(*)
Termasuk kategori algoritma covering, berbeda dengan
ID3 yang termasuk dalam kategori algoritma divide and
conquer.
Disebut dengan pendekatan covering, karena pada setiap
stage diidentifikasi rule yang mengcover sejumlah
instances.
Output algoritma PRISM adalah sejumlah classification
rules.
PRISM hanya menghasilkan rule-rule yang sempurna
atau 100% benar..
14
15
Sumber:
16
Algoritma PRISM
FOR EACH kelas c
Inisialisasi E dengan instance set
WHILE E mengandung instances dalam kelas C
Bentuk sebuah rule dengan LHS kosong yang meprediksi kelas C
UNTIL R sempurna (tak ada atribut yang dapat dipakai), lakukan
FOR EACH atribut A yang tidak termasuk R,dan tiap nilai v,
Pertimbangkan untuk menambah kondisi A=v pada LHS dari R
Pilih A dan v untuk memaksimalkan akurasi p/t
(tips: pilih kondisi dengan nilai P yang terbesar)
Tambahkan A=v ke dalam R
Hapuslah semua instance yang tercover oleh R dari E
Catatan:
p = positive examples dari suatu kelas
t = total instances
December 15, 2015
17
18
spectacle
prescription
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
myope
myope
myope
myope
hypermetrope
hypermetrope
hypermetrope
hypermetrope
Astigmatism
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
no
no
yes
yes
tear production
rate
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reccomended
lenses
none
soft
none
hard
none
soft
none
hard
none
soft
none
hard
none
soft
none
none
none
none
none
hard
none
soft
none
none
19
1/8
= myope 3/12
= hypermetrope 1/12
0/12
4/12
reduced 0/12
normal
4/12
dipilih bagian yang terbesar = 4/12, secara acak dipilih salah satu antara
nomor 7 dan nomor 9 pada daftar di atas, misalnya nomor 7:
IF astigmatism = yes THEN recommended = hard
December 15, 2015
20
spectacle
prescription
myope
myope
hypermetrope
hypermetrope
myope
myope
hypermetrope
hypermetrope
myope
myope
hypermetrope
hypermetrope
Astigmatism
yes
yes
yes
yes
yes
yes
yes
yes
yes
yes
yes
yes
tear production
rate
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reduced
normal
reccomended
lenses
none
hard
none
hard
none
hard
none
none
none
hard
none
none
recommended = hard
December 15, 2015
21
1/4
= myope 3/6
= hypermetrope 1/6
reduced 0/6
normal
4/6
22
spectacle
prescription
young
myope
young
hypermetrope
pre-presbyopic myope
pre-presbyopic hypermetrope
presbyopic
myope
presbyopic
hypermetrope
Astigmatism
yes
yes
yes
yes
yes
yes
tear production
rate
normal
normal
normal
normal
normal
normal
reccomended
lenses
hard
hard
hard
none
hard
none
23
24
spectacle
prescription
young
myope
pre-presbyopic myope
presbyopic
myope
astigmatism
yes
yes
yes
tear production
rate
normal
normal
normal
reccomended
lenses
hard
hard
hard
25
26
27
akhirnya.....
AWAS!!!
JANGAN DICOBA untuk
mengatasi Gangguan Mata
Anda yang sebenarnya.
28