Anda di halaman 1dari 11

11/7/2012

Kompetensi & Indikator
Materi Kuliah – [08&09]:
INTELIGENSIA BUATAN Kompetensi Dasar
• Mahasiswa mampu memahami konsep 
Pengenalan Pola dan aplikasi pengenalan pola.

Dr. Sri Kusumadewi


Indikator Pencapaian
Indikator Pencapaian
• Mahasiswa dapat menyelesaikan masalah klasifikasi 
& clustering.
Magister Ilmu Komputer – Program Pascasarjana FMIPA UGM • Mahasiswa dapat memberikan contoh 
permasalahan yang dapat diselesaikan dengan 
klasifikasi atau clustering.
2

Referensi Pengertian

Referensi Utama
Pengenalan pola merupakan 
P l l k
• Russell S & Norvig P. (2009).  klasifikasi data yang didasarkan 
Artificial Intelligence: A Modern  pada pengetahuan yang telah 
Approach (3rd edition). New  dibangkaitkan sebelumnya atau 
Jersey:  Prentice Hall informasi statistik yang diekstrak 
dari pola dan atau representasinya.

3
4

1
11/7/2012

Bentuk Pengenalan Pola Classification
• Klasifikasi adalah suatu proses pengelom‐
pokan data dengan didasarkan pada ciri‐ciri 
k d t d did k d ii ii
Klasifikasi tertentu ke dalam kelas‐kelas yang telah 
ditentukan pula. 
Clustering • Metode dalam klasifikasi, antara lain:
– Tabel Keputusan
Tabel Keputusan
– Pohon Keputusan
– Naive Bayes 
– K Nearest Neighbours (kNN)
5

Tabel Keputusan Tabel Keputusan


• Pada tabel keputusan, nilai kebenaran suatu 
• Tabel keputusan merupakan metode 
g dari 
kondisi diberikan berdasarkan nilai logika
pengambilan keputusan yang cukup sederhana. 
bil k k d h
setiap atribut Ek.
• Metode ini menggunakan bantuan tabel yang 
• Hanya ada dua nilai kebenaran, yaitu Ek = benar
berisi hubungan antara beberapa atribut yang  atau Ek = salah. 
mempengaruhi atribut tertentu. 
• Secara umum, tabel keputusan berbentuk:
• Umumnya, tabel keputusan ini digunakan untuk 
Umumnya tabel keputusan ini digunakan untuk
penyelesaian masalah yang tidak melibatkan  D = E {E1, E2, ..., EK}
banyak alternatif.  dengan D adalah nilai kebenaran suatu kondisi, 
dan Ei adalah nilai kebenaran atribut ke‐i (i = 1, 
2, ... K).

2
11/7/2012

Tabel Keputusan Tabel Keputusan


• Contoh‐1: Variabel
Ekspresi Logika
Logika
– Jurusan Teknik Informatika akan melakukan  E1 Memiliki IPK > 3,00
rekruitmen asisten untuk beberapa laboratorium 
E2 Minimal tengah duduk di semester 3
di lingkungannya. 
E3 Nilai matakuliah algoritma pemrograman = A
– Persyaratan untuk menjadi asisten di suatu 
E4 Nilai matakuliah kecerdasan buatan = A
laboratorium ditentukan oleh nilai beberapa 
E5 Nilai matakuliah basisdata = A
matakuliah. 
E6 Nilai matakuliah grafika komputer = A
– Setiap laboratorium dimungkinkan memiliki syarat 
E7 Nilai matakuliah jaringan komputer = A
nilai yang berbeda.
E8 Nilai matakuliah informatika kedokteran minimal B

Tabel Keputusan Tabel Keputusan


Atribut* – Kombinasi untuk semua Ei (i=1,2,...,8) pada aturan tersebut 
No Laboratorium merupakan pengetahuan untuk menentukan pemilihan 
E1 E2 E3 E4 E5 E6 E7 E8
Pemrograman & asisten laboratorium. 
1 Y Y Y
Informatika Teori – Sebagai contoh untuk laboratorium Pemrograman & 
2 Y Y Komputasi & Sist. Cerdas Informatika Teori dapat digunakan aturan pertama, yaitu:
3 Y Y Y Sistem Informasi & RPL D  E1  E 2  E 3
4 Y Y Grafika & Multimedia – Untuk laboratorium Informatika Kedokteran dapat 
5 Y Y Y Sistem & Jaringan Komp. digunakan aturan ke‐6
digunakan aturan ke 6, ke
ke‐7
7, ke
ke‐8
8, dan ke
dan ke‐9
9, yaitu:
yaitu:
6 Y Y Y Informatika Kedokteran D  E1  E 3  E 8  E1  E 4  E 8  E1  E 5  E 8  E1  E 6  E 8
7 Y Y Y Informatika Kedokteran dengan  adalah operator AND; dan + adalah operator OR. 
8 Y Y Y Informatika Kedokteran
9 Y Y Y Informatika Kedokteran

3
11/7/2012

Pohon Keputusan Pohon Keputusan: Contoh


• Pohon keputusan adalah salah satu metode 
penyelesaian masalah keputusan dengan cara
penyelesaian masalah keputusan dengan cara 
merepresentasikan pengetahuan dalam bentuk 
pohon. 
• Suatu pohon memiliki conditional node yang 
menunjukkan kebenaran suatu ekspresi atau atribut. 
• Conditional node tersebut memberikan beberapa 
k
kemungkinan nilai, dapat berupa nilai boolean 
ki il i d b il i b l
(Benar atau Salah), atau beberapa alternatif nilai 
yang mungkin dimiliki oleh suatu atribut, misal untuk 
atribut Tekanan Darah (Rendah, Normal, Tinggi).

Naïve Bayesian Classification Naïve Bayesian Classification
• Teorema Bayes: • Apabila diberikan k atribut yang saling bebas 
P(C|X) = P(X|C)∙P(C) / P(X) (i d
(independence), nilai probabilitas dapat 
d ) il i b bilit d t
– P(X) bernilai konstan utk semua klas diberikan sebagai berikut.
– P(C) merupakan frek relatif sample klas C  P(x1,…,xk|C) = P(x1|C) x … x P(xk|C) 
• Dicari P(C|X) bernilai maksimum, sama halnya  • Jika atribut ke‐i bersifat diskret, maka P(xi|C) 
dengan P(X|C)∙P(C) juga bernilai maksimum
dengan P(X|C)∙P(C) juga bernilai maksimum diestimasi sebagai frekwensi relatif dari
diestimasi sebagai frekwensi relatif dari 
• Masalah: menghitung P(X|C) tidak mungkin! sampel yang memiliki nilai xi sebagai atribut 
ke‐i dalam kelas C.

4
11/7/2012

Naïve Bayesian Classification Naïve Bayesian Classification
• Namun jika atribut ke‐i bersifat kontinu, maka  • Contoh:
P( i|C) diestimasi dengan fungsi densitas Gauss.
P(x |C) di ti id f i d it G – Untuk menetapkan suatu daerah akan dipilih 
sebagai lokasi untuk mendirikan perumahan, telah 
  x  2
1 dihimpun 10 aturan. 
f (x)  e 22

2  – Ada 4 atribut yang digunakan, yaitu: 
• harga tanah per meter persegi (C1), 
dengan  = mean, dan  = deviasi standar. • jarak daerah tersebut dari pusat kota (C2), 
• ada atau tidaknya angkutan umum di daerah tersebut 
(C3), dan 
• keputusan untuk memilih daerah tersebut sebagai 
lokasi perumahan (C4). 

Naïve Bayesian Classification Naïve Bayesian Classification
– Tabel Aturan 
Jarak dari Ada angkutan
g Dipilih
p untuk
– Probabilitas kemunculan setiap nilai untuk 
Harga tanah
Aturan ke-
(C1)
pusat kota umum perumahan atribut Harga Tanah
b h (C1)
( )
(C2) (C3) (C4)
1 Murah Dekat Tidak Ya
Jumlah kejadian
Harga Probabilitas
2 Sedang Dekat Tidak Ya “Dipilih”
tanah
3 Mahal Dekat Tidak Ya Ya Tidak Ya Tidak
4 Mahal Jauh Tidak Tidak Murah 2 1 2/5 1/5
5 Mahal Sedang Tidak Tidak
Sedang 2 1 2/5 1/5
6 Sedang Jauh Ada Tidak
7 Murah Jauh Ada Tidak Mahal 1 3 1/5 3/5
8 Murah Sedang Tidak Ya Jumlah 5 5 1 1
9 Mahal Jauh Ada Tidak
10 Sedang Sedang Ada Ya

5
11/7/2012

Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk  – Probabilitas kemunculan setiap nilai untuk 
atribut Jarak dari pusat kota
b kd k ( )
(C2) atribut Ada angkutan umum
b d k ( )
(C3)
Jumlah kejadian Jumlah kejadian
Harga Probabilitas
“Dipilih” Harga “Dipilih”
Probabilitas
tanah tanah
Ya Tidak Ya Tidak Ya Tidak Ya Tidak
Dekat 3 0 3/5 0 Ada 1 3 1/5 3/5
Sedang 2 1 2/5 1/5 Tidak 4 2 4/5 2/5
Jauh 0 4 0 4/5 Jumlah 5 5 1 1
Jumlah 5 5 1 1

Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk  • Berdasarkan data tersebut, apabila diketahui suatu daerah 
dengan harga tanah MAHAL jarak dari pusat kota SEDANG
dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, 
atribut Dipilih untuk perumahan
b lh k h (C4)
( )
dan ADA angkutan umum, maka dapat dihitung:
Jumlah kejadian
Harga Probabilitas
“Dipilih” – Likelihood Ya = 
tanah
Ya Tidak Ya Tidak 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
Jumlah 5 5 1/2 1/2
– Likelihood Tidak = 
3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

6
11/7/2012

Naïve Bayesian Classification Naïve Bayesian Classification
• Nilai probabilitas dapat dihitung dengan melakukan  – Modifikasi data 
normalisasi terhadap likelihood tersebut sehingga jumlah
normalisasi terhadap likelihood tersebut sehingga jumlah  Harga tanah
Jarak dari Ada angkutan Dipilih untuk
nilai yang diperoleh = 1. Aturan ke- pusat kota umum perumahan
(C1)
(C2) (C3) (C4)
0,008 1 100 2 Tidak Ya
– Probabilitas Ya =   0,182.
0,008  0,036 2 200 1 Tidak Ya
3 500 3 Tidak Ya
4 600 20 Tidak Tidak
0,036
 0,818. 5 550 8 Tid k
Tidak Tid k
Tidak
– Probabilitas Tidak =  0,008  0,036 6 250 25 Ada Tidak
7 75 15 Ada Tidak
8 80 10 Tidak Ya
9 700 18 Ada Tidak
10 180 8 Ada Ya

Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk  – Probabilitas kemunculan setiap nilai untuk atribut 
atribut Harga Tanah (C1)
atribut Harga Tanah Jarak dari pusat kota (C2)
Jarak dari pusat kota

Ya Tidak Ya Tidak

1 100 600 1 2 20
2 200 550 2 1 8
3 500 250 3 3 25
4 80 75 4 10 15
5 180 700 5 8 18
Mean () 212 435 Mean () 4,8 17,2
Deviasi standar () 168,8787 261,9637 Deviasi standar () 3,9623 6,3008

7
11/7/2012

Naïve Bayesian Classification Naïve Bayesian Classification
• Berdasarkan hasil penghitungan tersebut, apabila diberikan  • Sehingga:
C1 = 300, C2 
C1  300 C2 = 17, C3 
17 C3 = Tidak, maka: 
Tidak maka: – Likelihood Ya  =  (0,0021) x (0,0009) x 4/5 x 5/10 
( ) ( )
 300  212  2
=  0,000000756.
1 – Likelihood Tidak  =  (0,0013) x (0,0633) x 2/5 x 5/10 
f (C1  300 | ya)  e 2 (168,8787 )  0,0021.
2

2 (168,8787) =  0,000016458.
 300  435 2
1 • Nilai probabilitas dapat dihitung dengan melakukan 
f (C1  300 | tidak )  e 2 ( 261.9637 )  0,0013.
2

2 (261.9637) normalisasi terhadap likelihood tersebut sehingga jumlah 
 17  4 ,8 2
nilai yang diperoleh = 1
nilai yang diperoleh = 1.
1 0,000000756
f (C2  17 | ya)  e 2 (3.9623)  0,0009.
2
– Probabilitas Ya =   0,0439.
2 (3.9623) 0,000000756  0,000016458
 17 17 , 2 2
1 0,000016458
f (C2  17 | tidak )  e 2 ( 6,3008)  0,0633.  0,9561.
2

2 (6,3008) – Probabilitas Tidak =  0,000000756  0,000016458

K‐Nearest Neighbor K‐Nearest Neighbor
• Algoritma
• Konsep dasar dari K‐NN adalah mencari jarak  – Tentukan parameter K = jumlah tetangga terdekat.
t d k t antara data yang akan dievaluasi 
terdekat t d t k di l i – Hitung jarak antara data yang akan dievaluasi dengan 
dengan K tetangga terdekatnya dalam data  semua data pelatihan. 
– Urutkan jarak yang terbentuk (urut naik) dan tentukan 
pelatihan.  jarak terdekat sampai urutan ke‐K.
• Penghitungan jarak dilakukan dengan konsep  – Pasangkan kelas (C) yang bersesuaian.
Euclidean.  – Cari jumlah kelas terbanyak dari tetangga terdekat 
t
tersebut, dan tetapkan kelas tersebut sebagai kelas data 
b t d t t k k l t b t b ik l d t
• Jumlah kelas yang paling banyak dengan jarak  yang dievaluasi.
terdekat tersebut akan menjadi kelas dimana 
File: Kasus KNN.pdf
data evaluasi tersebut berada. 

8
11/7/2012

Clustering Clustering
• Clustering adalah proses pengelompokan objek yang  • Suatu metode clustering dikatakan baik apabila 
didasarkan pada kesamaan antar objek. 
p j metode tersebut dapat menghasilkan cluster‐cluster 
p g
• Tidak seperti proses klasifikasi yang bersifat  dengan kualitas yang sangat baik. 
supervised learning, pada clustering proses  • Metode tersebut akan menghasilkan cluster‐cluster 
pengelompokan dilakukan atas dasar unsupervised  dengan objek‐objek yang memiliki tingkat kesamaan 
learning.  yang cukup tinggi dalam suatu cluster, dan memiliki 
• Pada proses klasifikasi, akan ditentukan lokasi dari  tingkat ketidaksamaan yang cukup tinggi juga apabila 
suatu kejadian pada klas tertentu dari beberapa klas  objek‐objek tersebut terletak pada cluster yang 
yang telah teridentifikasi sebelumnya. 
l h id ifik i b l berbeda. 
berbeda
• Sedangkan pada proses clustering, proses  • Untuk mendapatkan kualitas yang baik, metode 
pengelompokan kejadian dalam klas akan dilakukan  clustering sangat tergantung pada ukuran kesamaan 
secara alami tanpa mengidentifikasi klas‐klas  yang akan digunakan dan kemampuannya untuk 
sebelumnya.  menemukan beberapa pola yang tersembunyi.

K‐Means K‐Means
• Konsep dasar dari K‐Means adalah pencarian  • Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas 
pusat cluster secara iteratif. 
t l t it tif (sembarang) ckj (k=1,...,K; j=1,...,m). 
(sembarang), c (k 1 K; j 1 m)
• Kemudian dihitung jarak antara setiap data dengan setiap 
• Pusat cluster ditetapkan berdasarkan jarak  pusat cluster. 
setiap data ke pusat cluster.  • Untuk melakukan penghitungan jarak data ke‐i (Xi) pada pusat 
• Proses clustering dimulai dengan  cluster ke‐k (Ck), diberi nama (dik), dapat digunakan formula 
Euclidean, yaitu:
mengidentifikasi data yang akan dicluster xij
mengidentifikasi data yang akan dicluster, x
(i=1,...,n; j=1,...,m) dengan n adalah jumlah 
 x  c kj 
m
d ik 
2
data yang akan dicluster dan m adalah jumlah  ij
j1
variabel. 

9
11/7/2012

K‐Means K‐Means 
• Suatu data akan menjadi anggota dari cluster ke‐J 
• Algoritma:
apabila jarak data tersebut ke pusat cluster ke‐J 
p j p
– Tentukan jumlah cluster (K), tetapkan pusat cluster 
bernilai paling kecil jika dibandingkan dengan jarak ke  sembarang.
pusat cluster lainnya. 
– Hitung jarak setiap data ke pusat cluster.
• Selanjutnya, kelompokkan data‐data yang menjadi  – Kelompokkan data ke dalam cluster yang dengan jarak 
anggota pada setiap cluster.  yang paling pendek.
• Nilai pusat cluster yang baru dapat dihitung dengan  – Hitung pusat cluster.
cara mencari nilai rata‐rata dari data yang menjadi 
i il i t t d id t j di – Ulangi langkah 2 ‐
Ul i l k h 2 4 hingga sudah tidak ada lagi data 
4 hi d h id k d l i d
anggota pada cluster tersebut, dengan rumus: yang berpindah ke cluster yang lain.
p

y hj
File: Contoh KMeans.pdf

c kj  h 1
; y hj  x ij  cluster ke  k
p

Penentuan Jumlah Cluster Penentuan Jumlah Cluster


• Hitung rata‐rata jarak antara Xi dengan data yang menjadi 
• Salah satu masalah yang dihadapi pada proses  anggota dari C, sebut sebagai d(Xi, C). 
clustering adalah pemilihan jumlah cluster yang
clustering adalah pemilihan jumlah cluster yang  • Cari rata‐rata jarak terkecil dari semua cluster, sebut sebagai b
C i t t j k t k il d i l t b t b i bi, b bi
optimal.  = min(d(Xi,C)) dengan CA.
• Kauffman dan Rousseeuw (1990) memperkenal‐kan  • Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai 
suatu metode untuk menentukan jumlah cluster yang  berikut (Chih‐Ping, 2005):
optimal, metode ini disebut dengan silhouette  
1  a i , a i  b i
measure.   bi

• Misalkan kita sebut A sebagai cluster dimana data Xi s i  0, a i  bi
berada, hitung ai sebagai rata‐rata jarak Xi ke semua  
data yang menjadi anggota A.  
 b i  1, a i  b i
• Anggaplah bahwa C adalah sembarang cluster selain A.   a i

10
11/7/2012

Penentuan Jumlah Cluster


• Rata‐rata si untuk semua data untuk k cluster 
tersebut disebut sebagai rata‐rata
tersebut disebut sebagai rata rata silhouette ke
silhouette ke‐
~s
k,        
k

• Nilai rata‐rata silhouette terbesar pada jumlah 
cluster (katakanlah: k) menunjukkan bahwa k 
merupakan jumlah cluster yang optimal. 

11

Anda mungkin juga menyukai