308 Ais - Database.model - file.PertemuanFileContent Pertemuan 08&09 Pengenalan Pola

11/7/2012
Kompetensi & Indikator
Materi Kuliah – [08&09]:
INTELIGENSIA BUATAN Kompetensi Dasar
• Mahasiswa mampu memahami konsep
Pengenalan Pola dan aplikasi pengenalan pola.
Dr. Sri Kusumadewi

Indikator Pencapaian
Indikator Pencapaian
• Mahasiswa dapat menyelesaikan masalah klasifikasi
& clustering.
Magister Ilmu Komputer – Program Pascasarjana FMIPA UGM • Mahasiswa dapat memberikan contoh
permasalahan yang dapat diselesaikan dengan
klasifikasi atau clustering.
2
Referensi Pengertian
Referensi Utama
Pengenalan pola merupakan
P l l k
• Russell S & Norvig P. (2009). klasifikasi data yang didasarkan
Artificial Intelligence: A Modern pada pengetahuan yang telah
Approach (3rd edition). New dibangkaitkan sebelumnya atau
Jersey: Prentice Hall informasi statistik yang diekstrak
dari pola dan atau representasinya.
3
4
1
11/7/2012
Bentuk Pengenalan Pola Classification
• Klasifikasi adalah suatu proses pengelom‐
pokan data dengan didasarkan pada ciri‐ciri
k d t d did k d ii ii
Klasifikasi tertentu ke dalam kelas‐kelas yang telah
ditentukan pula.
Clustering • Metode dalam klasifikasi, antara lain:
– Tabel Keputusan
Tabel Keputusan
– Pohon Keputusan
– Naive Bayes
– K Nearest Neighbours (kNN)
5
Tabel Keputusan Tabel Keputusan

• Pada tabel keputusan, nilai kebenaran suatu
• Tabel keputusan merupakan metode
g dari
kondisi diberikan berdasarkan nilai logika
pengambilan keputusan yang cukup sederhana.
bil k k d h
setiap atribut Ek.
• Metode ini menggunakan bantuan tabel yang
• Hanya ada dua nilai kebenaran, yaitu Ek = benar
berisi hubungan antara beberapa atribut yang atau Ek = salah.
mempengaruhi atribut tertentu.
• Secara umum, tabel keputusan berbentuk:
• Umumnya, tabel keputusan ini digunakan untuk
Umumnya tabel keputusan ini digunakan untuk
penyelesaian masalah yang tidak melibatkan D = E {E1, E2, ..., EK}
banyak alternatif. dengan D adalah nilai kebenaran suatu kondisi,
dan Ei adalah nilai kebenaran atribut ke‐i (i = 1,
2, ... K).
2
11/7/2012

• Contoh‐1: Variabel
Ekspresi Logika
Logika
– Jurusan Teknik Informatika akan melakukan E1 Memiliki IPK > 3,00
rekruitmen asisten untuk beberapa laboratorium
E2 Minimal tengah duduk di semester 3
di lingkungannya.
E3 Nilai matakuliah algoritma pemrograman = A
– Persyaratan untuk menjadi asisten di suatu
E4 Nilai matakuliah kecerdasan buatan = A
laboratorium ditentukan oleh nilai beberapa
E5 Nilai matakuliah basisdata = A
matakuliah.
E6 Nilai matakuliah grafika komputer = A
– Setiap laboratorium dimungkinkan memiliki syarat
E7 Nilai matakuliah jaringan komputer = A
nilai yang berbeda.
E8 Nilai matakuliah informatika kedokteran minimal B

Atribut* – Kombinasi untuk semua Ei (i=1,2,...,8) pada aturan tersebut
No Laboratorium merupakan pengetahuan untuk menentukan pemilihan
E1 E2 E3 E4 E5 E6 E7 E8
Pemrograman & asisten laboratorium.
1 Y Y Y
Informatika Teori – Sebagai contoh untuk laboratorium Pemrograman &
2 Y Y Komputasi & Sist. Cerdas Informatika Teori dapat digunakan aturan pertama, yaitu:
3 Y Y Y Sistem Informasi & RPL D  E1  E 2  E 3
4 Y Y Grafika & Multimedia – Untuk laboratorium Informatika Kedokteran dapat
5 Y Y Y Sistem & Jaringan Komp. digunakan aturan ke‐6
digunakan aturan ke 6, ke
ke‐7
7, ke
ke‐8
8, dan ke
dan ke‐9
9, yaitu:
yaitu:
6 Y Y Y Informatika Kedokteran D  E1  E 3  E 8  E1  E 4  E 8  E1  E 5  E 8  E1  E 6  E 8
7 Y Y Y Informatika Kedokteran dengan adalah operator AND; dan + adalah operator OR.
8 Y Y Y Informatika Kedokteran
9 Y Y Y Informatika Kedokteran
3
11/7/2012
Pohon Keputusan Pohon Keputusan: Contoh

• Pohon keputusan adalah salah satu metode
penyelesaian masalah keputusan dengan cara
penyelesaian masalah keputusan dengan cara
merepresentasikan pengetahuan dalam bentuk
pohon.
• Suatu pohon memiliki conditional node yang
menunjukkan kebenaran suatu ekspresi atau atribut.
• Conditional node tersebut memberikan beberapa
k
kemungkinan nilai, dapat berupa nilai boolean
ki il i d b il i b l
(Benar atau Salah), atau beberapa alternatif nilai
yang mungkin dimiliki oleh suatu atribut, misal untuk
atribut Tekanan Darah (Rendah, Normal, Tinggi).
Naïve Bayesian Classification Naïve Bayesian Classification
• Teorema Bayes: • Apabila diberikan k atribut yang saling bebas
P(C|X) = P(X|C)∙P(C) / P(X) (i d
(independence), nilai probabilitas dapat
d ) il i b bilit d t
– P(X) bernilai konstan utk semua klas diberikan sebagai berikut.
– P(C) merupakan frek relatif sample klas C P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)
• Dicari P(C|X) bernilai maksimum, sama halnya • Jika atribut ke‐i bersifat diskret, maka P(xi|C)
dengan P(X|C)∙P(C) juga bernilai maksimum
dengan P(X|C)∙P(C) juga bernilai maksimum diestimasi sebagai frekwensi relatif dari
diestimasi sebagai frekwensi relatif dari
• Masalah: menghitung P(X|C) tidak mungkin! sampel yang memiliki nilai xi sebagai atribut
ke‐i dalam kelas C.
4
11/7/2012
• Namun jika atribut ke‐i bersifat kontinu, maka • Contoh:
P( i|C) diestimasi dengan fungsi densitas Gauss.
P(x |C) di ti id f i d it G – Untuk menetapkan suatu daerah akan dipilih
sebagai lokasi untuk mendirikan perumahan, telah
  x  2
1 dihimpun 10 aturan.
f (x)  e 22
2  – Ada 4 atribut yang digunakan, yaitu:
• harga tanah per meter persegi (C1),
dengan  = mean, dan  = deviasi standar. • jarak daerah tersebut dari pusat kota (C2),
• ada atau tidaknya angkutan umum di daerah tersebut
(C3), dan
• keputusan untuk memilih daerah tersebut sebagai
lokasi perumahan (C4).
– Tabel Aturan
Jarak dari Ada angkutan
g Dipilih
p untuk
– Probabilitas kemunculan setiap nilai untuk
Harga tanah
Aturan ke-
(C1)
pusat kota umum perumahan atribut Harga Tanah
b h (C1)
( )
(C2) (C3) (C4)
1 Murah Dekat Tidak Ya
Jumlah kejadian
Harga Probabilitas
2 Sedang Dekat Tidak Ya “Dipilih”
tanah
3 Mahal Dekat Tidak Ya Ya Tidak Ya Tidak
4 Mahal Jauh Tidak Tidak Murah 2 1 2/5 1/5
5 Mahal Sedang Tidak Tidak
Sedang 2 1 2/5 1/5
6 Sedang Jauh Ada Tidak
7 Murah Jauh Ada Tidak Mahal 1 3 1/5 3/5
8 Murah Sedang Tidak Ya Jumlah 5 5 1 1
9 Mahal Jauh Ada Tidak
10 Sedang Sedang Ada Ya
5
11/7/2012
– Probabilitas kemunculan setiap nilai untuk – Probabilitas kemunculan setiap nilai untuk
atribut Jarak dari pusat kota
b kd k ( )
(C2) atribut Ada angkutan umum
b d k ( )
(C3)
Jumlah kejadian Jumlah kejadian
Harga Probabilitas
“Dipilih” Harga “Dipilih”
Probabilitas
tanah tanah
Ya Tidak Ya Tidak Ya Tidak Ya Tidak
Dekat 3 0 3/5 0 Ada 1 3 1/5 3/5
Sedang 2 1 2/5 1/5 Tidak 4 2 4/5 2/5
Jauh 0 4 0 4/5 Jumlah 5 5 1 1
Jumlah 5 5 1 1
– Probabilitas kemunculan setiap nilai untuk • Berdasarkan data tersebut, apabila diketahui suatu daerah
dengan harga tanah MAHAL jarak dari pusat kota SEDANG
dengan harga tanah MAHAL, jarak dari pusat kota SEDANG,
atribut Dipilih untuk perumahan
b lh k h (C4)
( )
dan ADA angkutan umum, maka dapat dihitung:
Jumlah kejadian
Harga Probabilitas
“Dipilih” – Likelihood Ya =
tanah
Ya Tidak Ya Tidak 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
Jumlah 5 5 1/2 1/2
– Likelihood Tidak =
3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
6
11/7/2012
• Nilai probabilitas dapat dihitung dengan melakukan – Modifikasi data
normalisasi terhadap likelihood tersebut sehingga jumlah
normalisasi terhadap likelihood tersebut sehingga jumlah Harga tanah
Jarak dari Ada angkutan Dipilih untuk
nilai yang diperoleh = 1. Aturan ke- pusat kota umum perumahan
(C1)
(C2) (C3) (C4)
0,008 1 100 2 Tidak Ya
– Probabilitas Ya =  0,182.
0,008  0,036 2 200 1 Tidak Ya
3 500 3 Tidak Ya
4 600 20 Tidak Tidak
0,036
 0,818. 5 550 8 Tid k
Tidak Tid k
Tidak
– Probabilitas Tidak = 0,008  0,036 6 250 25 Ada Tidak
7 75 15 Ada Tidak
8 80 10 Tidak Ya
9 700 18 Ada Tidak
10 180 8 Ada Ya
– Probabilitas kemunculan setiap nilai untuk – Probabilitas kemunculan setiap nilai untuk atribut
atribut Harga Tanah (C1)
atribut Harga Tanah Jarak dari pusat kota (C2)
Jarak dari pusat kota
Ya Tidak Ya Tidak
1 100 600 1 2 20
2 200 550 2 1 8
3 500 250 3 3 25
4 80 75 4 10 15
5 180 700 5 8 18
Mean () 212 435 Mean () 4,8 17,2
Deviasi standar () 168,8787 261,9637 Deviasi standar () 3,9623 6,3008
7
11/7/2012
• Berdasarkan hasil penghitungan tersebut, apabila diberikan • Sehingga:
C1 = 300, C2
C1 300 C2 = 17, C3
17 C3 = Tidak, maka:
Tidak maka: – Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
( ) ( )
 300  212  2
= 0,000000756.
1 – Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
f (C1  300 | ya)  e 2 (168,8787 )  0,0021.
2
2 (168,8787) = 0,000016458.
 300  435 2
1 • Nilai probabilitas dapat dihitung dengan melakukan
f (C1  300 | tidak )  e 2 ( 261.9637 )  0,0013.
2
2 (261.9637) normalisasi terhadap likelihood tersebut sehingga jumlah
 17  4 ,8 2
nilai yang diperoleh = 1
nilai yang diperoleh = 1.
1 0,000000756
f (C2  17 | ya)  e 2 (3.9623)  0,0009.
2
– Probabilitas Ya =  0,0439.
2 (3.9623) 0,000000756  0,000016458
 17 17 , 2 2
1 0,000016458
f (C2  17 | tidak )  e 2 ( 6,3008)  0,0633.  0,9561.
2
2 (6,3008) – Probabilitas Tidak = 0,000000756  0,000016458
K‐Nearest Neighbor K‐Nearest Neighbor
• Algoritma
• Konsep dasar dari K‐NN adalah mencari jarak – Tentukan parameter K = jumlah tetangga terdekat.
t d k t antara data yang akan dievaluasi
terdekat t d t k di l i – Hitung jarak antara data yang akan dievaluasi dengan
dengan K tetangga terdekatnya dalam data semua data pelatihan.
– Urutkan jarak yang terbentuk (urut naik) dan tentukan
pelatihan. jarak terdekat sampai urutan ke‐K.
• Penghitungan jarak dilakukan dengan konsep – Pasangkan kelas (C) yang bersesuaian.
Euclidean. – Cari jumlah kelas terbanyak dari tetangga terdekat
t
tersebut, dan tetapkan kelas tersebut sebagai kelas data
b t d t t k k l t b t b ik l d t
• Jumlah kelas yang paling banyak dengan jarak yang dievaluasi.
terdekat tersebut akan menjadi kelas dimana
File: Kasus KNN.pdf
data evaluasi tersebut berada.
8
11/7/2012
Clustering Clustering
• Clustering adalah proses pengelompokan objek yang • Suatu metode clustering dikatakan baik apabila
didasarkan pada kesamaan antar objek.
p j metode tersebut dapat menghasilkan cluster‐cluster
p g
• Tidak seperti proses klasifikasi yang bersifat dengan kualitas yang sangat baik.
supervised learning, pada clustering proses • Metode tersebut akan menghasilkan cluster‐cluster
pengelompokan dilakukan atas dasar unsupervised dengan objek‐objek yang memiliki tingkat kesamaan
learning. yang cukup tinggi dalam suatu cluster, dan memiliki
• Pada proses klasifikasi, akan ditentukan lokasi dari tingkat ketidaksamaan yang cukup tinggi juga apabila
suatu kejadian pada klas tertentu dari beberapa klas objek‐objek tersebut terletak pada cluster yang
yang telah teridentifikasi sebelumnya.
l h id ifik i b l berbeda.
berbeda
• Sedangkan pada proses clustering, proses • Untuk mendapatkan kualitas yang baik, metode
pengelompokan kejadian dalam klas akan dilakukan clustering sangat tergantung pada ukuran kesamaan
secara alami tanpa mengidentifikasi klas‐klas yang akan digunakan dan kemampuannya untuk
sebelumnya. menemukan beberapa pola yang tersembunyi.
K‐Means K‐Means
• Konsep dasar dari K‐Means adalah pencarian • Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas
pusat cluster secara iteratif.
t l t it tif (sembarang) ckj (k=1,...,K; j=1,...,m).
(sembarang), c (k 1 K; j 1 m)
• Kemudian dihitung jarak antara setiap data dengan setiap
• Pusat cluster ditetapkan berdasarkan jarak pusat cluster.
setiap data ke pusat cluster. • Untuk melakukan penghitungan jarak data ke‐i (Xi) pada pusat
• Proses clustering dimulai dengan cluster ke‐k (Ck), diberi nama (dik), dapat digunakan formula
Euclidean, yaitu:
mengidentifikasi data yang akan dicluster xij
mengidentifikasi data yang akan dicluster, x
(i=1,...,n; j=1,...,m) dengan n adalah jumlah
 x  c kj 
m
d ik 
2
data yang akan dicluster dan m adalah jumlah ij
j1
variabel.
9
11/7/2012
K‐Means K‐Means
• Suatu data akan menjadi anggota dari cluster ke‐J
• Algoritma:
apabila jarak data tersebut ke pusat cluster ke‐J
p j p
– Tentukan jumlah cluster (K), tetapkan pusat cluster
bernilai paling kecil jika dibandingkan dengan jarak ke sembarang.
pusat cluster lainnya.
– Hitung jarak setiap data ke pusat cluster.
• Selanjutnya, kelompokkan data‐data yang menjadi – Kelompokkan data ke dalam cluster yang dengan jarak
anggota pada setiap cluster. yang paling pendek.
• Nilai pusat cluster yang baru dapat dihitung dengan – Hitung pusat cluster.
cara mencari nilai rata‐rata dari data yang menjadi
i il i t t d id t j di – Ulangi langkah 2 ‐
Ul i l k h 2 4 hingga sudah tidak ada lagi data
4 hi d h id k d l i d
anggota pada cluster tersebut, dengan rumus: yang berpindah ke cluster yang lain.
p
y hj
File: Contoh KMeans.pdf
c kj  h 1
; y hj  x ij  cluster ke  k
p
Penentuan Jumlah Cluster Penentuan Jumlah Cluster

• Hitung rata‐rata jarak antara Xi dengan data yang menjadi
• Salah satu masalah yang dihadapi pada proses anggota dari C, sebut sebagai d(Xi, C).
clustering adalah pemilihan jumlah cluster yang
clustering adalah pemilihan jumlah cluster yang • Cari rata‐rata jarak terkecil dari semua cluster, sebut sebagai b
C i t t j k t k il d i l t b t b i bi, b bi
optimal. = min(d(Xi,C)) dengan CA.
• Kauffman dan Rousseeuw (1990) memperkenal‐kan • Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai
suatu metode untuk menentukan jumlah cluster yang berikut (Chih‐Ping, 2005):
optimal, metode ini disebut dengan silhouette 
1  a i , a i  b i
measure.  bi

• Misalkan kita sebut A sebagai cluster dimana data Xi s i  0, a i  bi
berada, hitung ai sebagai rata‐rata jarak Xi ke semua 
data yang menjadi anggota A. 
 b i  1, a i  b i
• Anggaplah bahwa C adalah sembarang cluster selain A.  a i
10
11/7/2012
Penentuan Jumlah Cluster

• Rata‐rata si untuk semua data untuk k cluster
tersebut disebut sebagai rata‐rata
tersebut disebut sebagai rata rata silhouette ke
silhouette ke‐
~s
k,
k
• Nilai rata‐rata silhouette terbesar pada jumlah
cluster (katakanlah: k) menunjukkan bahwa k
merupakan jumlah cluster yang optimal.
11

308 Ais - Database.model - file.PertemuanFileContent Pertemuan 08&09 Pengenalan Pola

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

308 Ais - Database.model - file.PertemuanFileContent Pertemuan 08&09 Pengenalan Pola

Diunggah oleh

Hak Cipta:

Format Tersedia

11/7/2012

Dr. Sri Kusumadewi

Tabel Keputusan Tabel Keputusan

Tabel Keputusan Tabel Keputusan

Tabel Keputusan Tabel Keputusan

Pohon Keputusan Pohon Keputusan: Contoh

2 (6,3008) – Probabilitas Tidak = 0,000000756  0,000016458

Penentuan Jumlah Cluster Penentuan Jumlah Cluster

Penentuan Jumlah Cluster

Anda mungkin juga menyukai