308 Ais - Database.model - file.PertemuanFileContent Pertemuan 08&09 Pengenalan Pola
308 Ais - Database.model - file.PertemuanFileContent Pertemuan 08&09 Pengenalan Pola
Kompetensi & Indikator
Materi Kuliah – [08&09]:
INTELIGENSIA BUATAN Kompetensi Dasar
• Mahasiswa mampu memahami konsep
Pengenalan Pola dan aplikasi pengenalan pola.
Referensi Pengertian
Referensi Utama
Pengenalan pola merupakan
P l l k
• Russell S & Norvig P. (2009). klasifikasi data yang didasarkan
Artificial Intelligence: A Modern pada pengetahuan yang telah
Approach (3rd edition). New dibangkaitkan sebelumnya atau
Jersey: Prentice Hall informasi statistik yang diekstrak
dari pola dan atau representasinya.
3
4
1
11/7/2012
Bentuk Pengenalan Pola Classification
• Klasifikasi adalah suatu proses pengelom‐
pokan data dengan didasarkan pada ciri‐ciri
k d t d did k d ii ii
Klasifikasi tertentu ke dalam kelas‐kelas yang telah
ditentukan pula.
Clustering • Metode dalam klasifikasi, antara lain:
– Tabel Keputusan
Tabel Keputusan
– Pohon Keputusan
– Naive Bayes
– K Nearest Neighbours (kNN)
5
2
11/7/2012
3
11/7/2012
Naïve Bayesian Classification Naïve Bayesian Classification
• Teorema Bayes: • Apabila diberikan k atribut yang saling bebas
P(C|X) = P(X|C)∙P(C) / P(X) (i d
(independence), nilai probabilitas dapat
d ) il i b bilit d t
– P(X) bernilai konstan utk semua klas diberikan sebagai berikut.
– P(C) merupakan frek relatif sample klas C P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)
• Dicari P(C|X) bernilai maksimum, sama halnya • Jika atribut ke‐i bersifat diskret, maka P(xi|C)
dengan P(X|C)∙P(C) juga bernilai maksimum
dengan P(X|C)∙P(C) juga bernilai maksimum diestimasi sebagai frekwensi relatif dari
diestimasi sebagai frekwensi relatif dari
• Masalah: menghitung P(X|C) tidak mungkin! sampel yang memiliki nilai xi sebagai atribut
ke‐i dalam kelas C.
4
11/7/2012
Naïve Bayesian Classification Naïve Bayesian Classification
• Namun jika atribut ke‐i bersifat kontinu, maka • Contoh:
P( i|C) diestimasi dengan fungsi densitas Gauss.
P(x |C) di ti id f i d it G – Untuk menetapkan suatu daerah akan dipilih
sebagai lokasi untuk mendirikan perumahan, telah
x 2
1 dihimpun 10 aturan.
f (x) e 22
2 – Ada 4 atribut yang digunakan, yaitu:
• harga tanah per meter persegi (C1),
dengan = mean, dan = deviasi standar. • jarak daerah tersebut dari pusat kota (C2),
• ada atau tidaknya angkutan umum di daerah tersebut
(C3), dan
• keputusan untuk memilih daerah tersebut sebagai
lokasi perumahan (C4).
Naïve Bayesian Classification Naïve Bayesian Classification
– Tabel Aturan
Jarak dari Ada angkutan
g Dipilih
p untuk
– Probabilitas kemunculan setiap nilai untuk
Harga tanah
Aturan ke-
(C1)
pusat kota umum perumahan atribut Harga Tanah
b h (C1)
( )
(C2) (C3) (C4)
1 Murah Dekat Tidak Ya
Jumlah kejadian
Harga Probabilitas
2 Sedang Dekat Tidak Ya “Dipilih”
tanah
3 Mahal Dekat Tidak Ya Ya Tidak Ya Tidak
4 Mahal Jauh Tidak Tidak Murah 2 1 2/5 1/5
5 Mahal Sedang Tidak Tidak
Sedang 2 1 2/5 1/5
6 Sedang Jauh Ada Tidak
7 Murah Jauh Ada Tidak Mahal 1 3 1/5 3/5
8 Murah Sedang Tidak Ya Jumlah 5 5 1 1
9 Mahal Jauh Ada Tidak
10 Sedang Sedang Ada Ya
5
11/7/2012
Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk – Probabilitas kemunculan setiap nilai untuk
atribut Jarak dari pusat kota
b kd k ( )
(C2) atribut Ada angkutan umum
b d k ( )
(C3)
Jumlah kejadian Jumlah kejadian
Harga Probabilitas
“Dipilih” Harga “Dipilih”
Probabilitas
tanah tanah
Ya Tidak Ya Tidak Ya Tidak Ya Tidak
Dekat 3 0 3/5 0 Ada 1 3 1/5 3/5
Sedang 2 1 2/5 1/5 Tidak 4 2 4/5 2/5
Jauh 0 4 0 4/5 Jumlah 5 5 1 1
Jumlah 5 5 1 1
Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk • Berdasarkan data tersebut, apabila diketahui suatu daerah
dengan harga tanah MAHAL jarak dari pusat kota SEDANG
dengan harga tanah MAHAL, jarak dari pusat kota SEDANG,
atribut Dipilih untuk perumahan
b lh k h (C4)
( )
dan ADA angkutan umum, maka dapat dihitung:
Jumlah kejadian
Harga Probabilitas
“Dipilih” – Likelihood Ya =
tanah
Ya Tidak Ya Tidak 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
Jumlah 5 5 1/2 1/2
– Likelihood Tidak =
3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
6
11/7/2012
Naïve Bayesian Classification Naïve Bayesian Classification
• Nilai probabilitas dapat dihitung dengan melakukan – Modifikasi data
normalisasi terhadap likelihood tersebut sehingga jumlah
normalisasi terhadap likelihood tersebut sehingga jumlah Harga tanah
Jarak dari Ada angkutan Dipilih untuk
nilai yang diperoleh = 1. Aturan ke- pusat kota umum perumahan
(C1)
(C2) (C3) (C4)
0,008 1 100 2 Tidak Ya
– Probabilitas Ya = 0,182.
0,008 0,036 2 200 1 Tidak Ya
3 500 3 Tidak Ya
4 600 20 Tidak Tidak
0,036
0,818. 5 550 8 Tid k
Tidak Tid k
Tidak
– Probabilitas Tidak = 0,008 0,036 6 250 25 Ada Tidak
7 75 15 Ada Tidak
8 80 10 Tidak Ya
9 700 18 Ada Tidak
10 180 8 Ada Ya
Naïve Bayesian Classification Naïve Bayesian Classification
– Probabilitas kemunculan setiap nilai untuk – Probabilitas kemunculan setiap nilai untuk atribut
atribut Harga Tanah (C1)
atribut Harga Tanah Jarak dari pusat kota (C2)
Jarak dari pusat kota
Ya Tidak Ya Tidak
1 100 600 1 2 20
2 200 550 2 1 8
3 500 250 3 3 25
4 80 75 4 10 15
5 180 700 5 8 18
Mean () 212 435 Mean () 4,8 17,2
Deviasi standar () 168,8787 261,9637 Deviasi standar () 3,9623 6,3008
7
11/7/2012
Naïve Bayesian Classification Naïve Bayesian Classification
• Berdasarkan hasil penghitungan tersebut, apabila diberikan • Sehingga:
C1 = 300, C2
C1 300 C2 = 17, C3
17 C3 = Tidak, maka:
Tidak maka: – Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
( ) ( )
300 212 2
= 0,000000756.
1 – Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
f (C1 300 | ya) e 2 (168,8787 ) 0,0021.
2
2 (168,8787) = 0,000016458.
300 435 2
1 • Nilai probabilitas dapat dihitung dengan melakukan
f (C1 300 | tidak ) e 2 ( 261.9637 ) 0,0013.
2
2 (261.9637) normalisasi terhadap likelihood tersebut sehingga jumlah
17 4 ,8 2
nilai yang diperoleh = 1
nilai yang diperoleh = 1.
1 0,000000756
f (C2 17 | ya) e 2 (3.9623) 0,0009.
2
– Probabilitas Ya = 0,0439.
2 (3.9623) 0,000000756 0,000016458
17 17 , 2 2
1 0,000016458
f (C2 17 | tidak ) e 2 ( 6,3008) 0,0633. 0,9561.
2
K‐Nearest Neighbor K‐Nearest Neighbor
• Algoritma
• Konsep dasar dari K‐NN adalah mencari jarak – Tentukan parameter K = jumlah tetangga terdekat.
t d k t antara data yang akan dievaluasi
terdekat t d t k di l i – Hitung jarak antara data yang akan dievaluasi dengan
dengan K tetangga terdekatnya dalam data semua data pelatihan.
– Urutkan jarak yang terbentuk (urut naik) dan tentukan
pelatihan. jarak terdekat sampai urutan ke‐K.
• Penghitungan jarak dilakukan dengan konsep – Pasangkan kelas (C) yang bersesuaian.
Euclidean. – Cari jumlah kelas terbanyak dari tetangga terdekat
t
tersebut, dan tetapkan kelas tersebut sebagai kelas data
b t d t t k k l t b t b ik l d t
• Jumlah kelas yang paling banyak dengan jarak yang dievaluasi.
terdekat tersebut akan menjadi kelas dimana
File: Kasus KNN.pdf
data evaluasi tersebut berada.
8
11/7/2012
Clustering Clustering
• Clustering adalah proses pengelompokan objek yang • Suatu metode clustering dikatakan baik apabila
didasarkan pada kesamaan antar objek.
p j metode tersebut dapat menghasilkan cluster‐cluster
p g
• Tidak seperti proses klasifikasi yang bersifat dengan kualitas yang sangat baik.
supervised learning, pada clustering proses • Metode tersebut akan menghasilkan cluster‐cluster
pengelompokan dilakukan atas dasar unsupervised dengan objek‐objek yang memiliki tingkat kesamaan
learning. yang cukup tinggi dalam suatu cluster, dan memiliki
• Pada proses klasifikasi, akan ditentukan lokasi dari tingkat ketidaksamaan yang cukup tinggi juga apabila
suatu kejadian pada klas tertentu dari beberapa klas objek‐objek tersebut terletak pada cluster yang
yang telah teridentifikasi sebelumnya.
l h id ifik i b l berbeda.
berbeda
• Sedangkan pada proses clustering, proses • Untuk mendapatkan kualitas yang baik, metode
pengelompokan kejadian dalam klas akan dilakukan clustering sangat tergantung pada ukuran kesamaan
secara alami tanpa mengidentifikasi klas‐klas yang akan digunakan dan kemampuannya untuk
sebelumnya. menemukan beberapa pola yang tersembunyi.
K‐Means K‐Means
• Konsep dasar dari K‐Means adalah pencarian • Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas
pusat cluster secara iteratif.
t l t it tif (sembarang) ckj (k=1,...,K; j=1,...,m).
(sembarang), c (k 1 K; j 1 m)
• Kemudian dihitung jarak antara setiap data dengan setiap
• Pusat cluster ditetapkan berdasarkan jarak pusat cluster.
setiap data ke pusat cluster. • Untuk melakukan penghitungan jarak data ke‐i (Xi) pada pusat
• Proses clustering dimulai dengan cluster ke‐k (Ck), diberi nama (dik), dapat digunakan formula
Euclidean, yaitu:
mengidentifikasi data yang akan dicluster xij
mengidentifikasi data yang akan dicluster, x
(i=1,...,n; j=1,...,m) dengan n adalah jumlah
x c kj
m
d ik
2
data yang akan dicluster dan m adalah jumlah ij
j1
variabel.
9
11/7/2012
K‐Means K‐Means
• Suatu data akan menjadi anggota dari cluster ke‐J
• Algoritma:
apabila jarak data tersebut ke pusat cluster ke‐J
p j p
– Tentukan jumlah cluster (K), tetapkan pusat cluster
bernilai paling kecil jika dibandingkan dengan jarak ke sembarang.
pusat cluster lainnya.
– Hitung jarak setiap data ke pusat cluster.
• Selanjutnya, kelompokkan data‐data yang menjadi – Kelompokkan data ke dalam cluster yang dengan jarak
anggota pada setiap cluster. yang paling pendek.
• Nilai pusat cluster yang baru dapat dihitung dengan – Hitung pusat cluster.
cara mencari nilai rata‐rata dari data yang menjadi
i il i t t d id t j di – Ulangi langkah 2 ‐
Ul i l k h 2 4 hingga sudah tidak ada lagi data
4 hi d h id k d l i d
anggota pada cluster tersebut, dengan rumus: yang berpindah ke cluster yang lain.
p
y hj
File: Contoh KMeans.pdf
c kj h 1
; y hj x ij cluster ke k
p
10
11/7/2012
• Nilai rata‐rata silhouette terbesar pada jumlah
cluster (katakanlah: k) menunjukkan bahwa k
merupakan jumlah cluster yang optimal.
11