Anda di halaman 1dari 2

TEORY----------------------------------------------------------------- NAIVE BAYES----------------------------------------------------

1. Machine Learning : disiplin ilmu dari komputer Science - Rumus :


yang mempelajari bagaimana membuat komputer/mesin Probabilitas X di dalam Y
itu mempunyai suatu kecerdasan. P(X|Y) prosentase
2. Teknik data mining, 2 pendekatan : banyaknya X di dalam Y
- Supervised : Metode dengan adanya latihan.
Metode : regresi, ANN (Artificial Neural Network), SVM Ex :
(Support Vector Machine) - P(Olahraga=Ya) = 3/6 (Target)
- P(cuaca=cerah dan Olahraga=Ya) = 2/6 (Target & Atribut)
- Unsupervised : tanpa ada latihan (training) dan tanpa ada Jadi, P(cuaca cerah | olahraga ya) (2/6) / (3/6) = 2/3
guru (teacher = label dalam data). - HMAP (Hypothesis Maximum Appropri Probability)
Metode : Klatering dan SOM(Self Organizing Map) hipotesa yang diambil berdasarkan nilai probabilitas
Misal: kita punya sekelompok pengamatan atau data tanpa berdasarkan kondisi prior yang diketahui.
ada label (output)tertentu, maka dalam unsupervised Ex:
dilakukan pengelompokan data tersebut kedalam kelas - 90% penduduk yang sakit paru-paru,
yang kita kehendaki. - 60% adalah perokok (dari 90%),
- 20% perokok tidak sakit paru-paru
Contoh : X=sakit paru-paru dan Y=perokok.
Sekelompok mahasiswa didalam kelas. Seorang dosen Maka : P(X) = 0.9
akan mengelompokkan beberapa orang ini kedalam P(~X) = 0.1
beberapa kelompok. Misalkan jumlah kelompok ada 4. P(Y|X) = 0.6 P(~Y|X) = 0.4
Maka mahasiswa dikelompokkan menurut kesamaan P(Y|~X) = 0.2 P(~Y|~X) = 0.8
ciri-ciri (atribut): berdasarkan indeks prestasi, jarak Dengan metode bayes dapat dihitung:
tempat tinggal atau gabungan keduanya. Dalam dua P({Y}|X) = P(Y|X).P(X) = (0.6) . (0.9) = 0.54
dimensi sumbu x merepresentasikan indeks prestasi, P({Y}|~X) = P(Y|~X) P(~X) = (0.2).(0.1) = 0.02
sumbu y merepresentasikan jarak tempat tinggal.
Teknik unsupervised : mahasiswa sebagai objek dari - HMAP dari keadaan tabel data:
tugas kita, bisa dikempokkan dalam 4 kelompok Reminder : P(X1, X3 | Y) {P(X1 | Y).P(X3 | Y)}.P(Y)
menurut kedekatan IP dan jarak tempat tinggal. P( X1=cerah,X3=kencang | Y=ya )
Pengelompokan ini, diasumsikan dalam satu kelompok, = { P(X1=cerah|Y=ya).P(X3=kencang|Y=ya) } . P(Y=ya)
anggota-anggotanya harus memunyai kemiripan yang = { (1) . (1/4) } . (4/6) = 1/6
tinggi dibanding anggota dari kelompok lain. P( X1=cerah,X3=kencang | Y=tidak )
Teknik supervised : output dari unsupervised dipakai = { P(X1=cerah|Y=tidak).P(X3=kencang|Y=tidak) } .
sebagai guru dalam proses training dengan P(Y=tidak) { (0) . (1/2) } . (2/6) = 0
menggunakan teknik pengenalan pola , Dan dalam (metode clasifier bayes)
pemisahkan data training dan data testing (pelatih) - Kelebihan metode bayes :
maka diperlukan fungsi pemisah. Digunakan untuk data yang tidak konsisten dan data yang
bias (Find-S tidak mampu).
3. K-means : metode clustering non hirarki yang berusaha Metode baik dalam mesin pembelajaran berdasarkan data
mempartisi data yang ada ke dalam bentuk satu atau lebih training, menggunakan dasar probabilitas bersyarat.
cluster. Metode ini mempartisi data ke dalam cluster - Kelemahan metode bayes :
sehingga data yang memiliki karakteristik yang sama Metode Bayes hanya bisa digunakan untuk persoalan
dikelompokkan ke dalam satu cluster yang sama dan data klasifikasi dengan supervised learning.
yang mempunyai karateristik yang berbeda di kelompokan Metode Bayes memerlukan pengetahuan keputusan.
ke dalam cluster yang lain. Tingkat keberhasilan metode ini tergantung pada
Kelebihan dan Kekurangan pengetahuan awal yang diberikan.
Kelebihan :
1. Mudah untuk diimplementasikan dan dijalankan.
2. Waktu yang dibutuhkan untuk menjalankan
JOINT, MARGINAL, CONDITIONAL--------------
pembelajaran ini relatif cepat.
3. Mudah untuk diadaptasi.
4. Umum digunakan.
Kekurangan :
1. Sebelum algoritma dijalankan, k buah titik diinisialisasi
secara random sehingga pengelompokkan data yang
dihasilkan dapat berbeda-beda. Jika
nilai random untuk inisialisasi kurang baik, maka - Joint : Probability 2 peristiwa yang akan terjadi.
pengelompokkan yang dihasilkan pun menjadi kurang Ex P(A1 AND B2) = 0,29
optimal. - Marginal : Probability kejadian dalam 1 peristiwa
Ex Total B2 = 0.83
- Conditional : (Solusi dari kejadian) Ex P(A1|B2) = P (A1
AND B2) / P(B2) Dependent events (A1 A1 AND B2)
K-NEARESTNEIGHBOUR-------------------------------- Contoh: K-means, residual analysis.
- Konsep NN(Nearest Neighbour) : Hierarchical clustering
method untuk mengklasifikasikan suatu data baru Setiap data harus termasuk ke cluster tertentu
berdasarkan similaritas dengan labeled data data cluster tertentu pada suatu tahapan proses,
Similaritas biasanya memakai metrik jarak tidak dapat berpindah ke cluster lain
Satuan jarak umumnya menggunakan euclidian Contoh: Single Linkage, Centroid Linkage, Complete
- Nama lain NN : Linkage, Average Centroid
lazy algorithm, memory-based, instance-based, Overlapping clustering
exemplar-based,case-based, experience-based Setiap data bisa termasuk ke beberapa cluster
- Jenis NN : Data mempunyai nilai keanggotaan (membership)
1-NN, k-NN : klasifikasi dilakukan terhadap k labeled pada beberapa cluster
data terdekat (k > 1). Contoh: Fuzzy C-means, Gaussian Mixture
- Algoritma 1-NN : Hybrid (gabungan ketiganya)
Hitung jarak antara data baru ke setiap labeled data - K-Means : partitioning clustering yang memisahkan data
Tentukan 1 labeled data yang mempunyai jarak yang ke k daerah bagian yang terpisah.
paling minimal Algoritma K-Means :
Klasifikasikan data baru ke dalam labeled data tersebut 1. Tentukan k jumlah cluster yang ingin dibentuk
- Penghitungan jarak 2. Bangkitkan k centroids (titik pusat cluster).
Euclidian distance ak = akar 3. Hitung jarak setiap data ke masing-masing centroids
a2 = b2 + c2 a = ak(b2 + c2) ak(40 10)2 + (30 20)2 4. Setiap data memilih centroids yang terdekat
Vector 5. Tentukan posisi centroids baru dengan cara
menghitung nilai rata-rata dari data-data yang
memilih pada centroid yang sama
6. Kembali ke langkah 3 jika posisi centroids baru
dengan centroids lama tidak sama.
Algoritma Hierarchical :
1. Tentukan k sebagai jumlah cluster yang ingin dibentuk
2. Setiap data dianggap sebagai cluster. Kalau N=jumlah
data dan n=jumlah cluster, berarti ada = .
3. Hitung jarak antar cluster
4. Cari 2 cluster yang mempunyai jarak antar cluster
- Penyelesaian : jika, k = 3 yang paling minimal dan gabungkan (berarti n=n-1)
5. Jika n>k, kembali ke langkah 3
Kesamaan cluster :
- Single Linkage : Minimum distance between cluster
- Centroid Linkage : Centroid distance between cluster
- Complete Linkage : Maximum distance between cluster
- Average Linkage : Average distance between cluster

Kelebihan :
Analytically tractable
Implementasi sangat sederhana
Memungkinkan parallel implementation
Kelemahan :
Butuh memori besar
Komputasi besar

CLUSTERING-------------------------------------------------- Perhitungan cluster menggunakan : metode NN


- Perbandingan :

- Karakeristik (tipe) :
Partitioning clustering (exclusive clustering)
Setiap data harus termasuk ke cluster tertentu
data cluster tertentu pada tahapan proses, pada
tahapan berikutnya berpindah ke cluster yang lain

Anda mungkin juga menyukai