P ( x|x ) P ( c )
P ( C| X )=
P(x)
Keterangan:
x = data dengan class yang belum diketahui
c = hipotesis darta merpakan suatu class spesifik
P(c|x) : Probabilitas hipotesis berdasar kondisi (posteriori probability)
P(c) : Probabilitas hipotesis (prior probability)
P(x|c) : Probabilitas berdasarkan kondisi pada hipotesis
P(x) : Probabilitas dari c
b. SVM
SVM atau Support Vector Machine merupakan algoritma yang menggunakan
statistika untuk menghitung peluang suatu hipotesis dari suatu kelas dari masing-
masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.
Algoritma SVM merupakan penyederhanaan dari algoritma naïve bayes dengan
mengkombinasikan prior probability dan probabilitas bersyarat untuk menghitung
probabilitas tiap klasifikasi yang mungkin terjadi. Algortima SVM mempunyai
kelebihan yaitu jumlah dataset yang diperlukan tidak terlalu tinggi, proses komputasi
juga cepat dikarenakan penentuan jarak yang menggunakan support vector.
Formula dari algortima SVM
P ( x| y )=P ( y|x ) P ( x )
c. K-NN
K-NN atau K-Nearest Neighbors merupakan algoritma yang digunakan untuk
mencari kasus dengan menghitung kedekatan antara problem baru dengan problem
lama berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. K didalam K-
NN merupakan jumlah tetangga yang diambil untuk menentukan keputusan.
Tahapan dari algoritma K-NN:
1. Tentukan k bilangan bulat positif berdasarkan ketersediaan data pembelajaran
yang sudah dilabeli.
2. Pilih tetangga terdekat dari data baru sebanyak k.
3. Tentukan klasifikasi paling umum pada langkah ke 2, dengan menggunakan
frekuensi terbanyak.
4. Keluaran klasifikasi dari data sampel baru.
5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas maka
dapat dipredisikan kategori objek
d= √( x −x ) 2+ ( y 2− y 1 ) 2
2 1
Keterangan:
x1 = Nilai dari AP ke-1 pada lokasi yang sudah diketahui
x2 = Nilai dari AP ke-2 pada lokasi yang sudah diketahui
y1 = Nilai dari AP ke-1 pada lokasi yang tidak diketahui
y2 = Nilai dari AP ke-2 pada lokasi yang tidak diketahui
Hamming Distance, cara mencari jarak antar 2 titik yang dihitung dengan
panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode
biner.
Manhattan Distance, suatu cara yang digunakan untuk mencari jarak d antar 2
vektor p,q pada ruang dimensi n.
Minkowski Distance, suatu cara untuk melakukan pengukuran antar 2 titik
pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi
euclidean distance dan mahattan distance.
Banyaknya k Tetangga Terdekat, Untuk menggunakan algoritma k nearest
neighbors, perlu ditentukan banyaknya k tetangga terdekat yang digunakan
untuk melakukan klasifikasi data baru. Banyaknya k, sebaiknya merupakan
angka ganjil, misalnya k = 1, 2, 3, dan seterusnya. Penentuan nilai k
dipertimbangkan berdasarkan banyaknya data yang ada dan ukuran dimensi
yang dibentuk oleh data. Semakin banyak data yang ada, angka k yang dipilih
sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka
k yang dipilih sebaiknya semakin tinggi.
Pertanyaan dan Jawaban Pertemuan 9
1. Sebutkan dan jelaskan secara ringkas algoritma yang digunakan untuk melakukan
klasifikasi?
a. Naïve Bayes
Algoritma naïve bayes merupakan suatu algoritma klasifikasi dengan
menggunakan metode probabilitas dan statistic yang digunakan untuk
memprediksi peluang di masa depan dengan pengalaman di masa lalu.
b. SVM
SVM atau Support Vector Machine merupakan algoritma yang menggunakan
statistika untuk menghitung peluang suatu hipotesis dari suatu kelas dari
masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang
paling optimal.
c. K-NN
K-NN atau K-Nearest Neighbors merupakan algoritma yang digunakan untuk
mencari kasus dengan menghitung kedekatan antara problem baru dengan
problem lama berdasarkan pada pencocokan bobot dari sejumlah fitur yang
ada. K didalam K-NN merupakan jumlah tetangga yang diambil untuk
menentukan keputusan.
3. Sebutkan dan jelaskan secara ringkas macam-macam cara perhitungan jarak yang
digunakan dalam algoritma K-NN?
Terdapat beberapa cara untuk melakukan perhitungan jarak pada algoritma K-NN
yaitu:
Euclidean Distance, formula untuk mencari jarak antara 2 titik dalam ruang
dimensi.
Hamming Distance, cara mencari jarak antar 2 titik yang dihitung dengan
panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode
biner.
Manhattan Distance, suatu cara yang digunakan untuk mencari jarak d antar 2
vektor p,q pada ruang dimensi n.
Minkowski Distance, suatu cara untuk melakukan pengukuran antar 2 titik
pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi
euclidean distance dan mahattan distance.
Pertemuan 10 Decision Tree dan Studi Kasus
Decision Tree (Pohon Keputusan) adalah pohon dimana setiap cabangnya menunjukkan
pilihan diantara sejumlah alternatif pilihan yang ada, dan setiap daunnya menunjukkan
keputusan yang dipilih. Decision tree biasa digunakan untuk mendapatkan informasi untuk
tujuan pengambilan sebuah keputusan. Decision tree dimulai dengan sebuah root node (titik
awal) yang dipakai oleh user untuk mengambil tindakan, dari node root tersebut user
memecahnya sesuai degan algoritma decision tree.
Decision tree terdapat 3 jenis node yaitu:
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak
mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat satu input
dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat
satu input dan tidak mempunyai output.
Algoritma untuk induksi decision tree yaitu:
Pohon dibangun dalam suatu metode rekursif topdown divide and conquer.
Seluruh contoh pelatihan dimulai dari simpul root, lalu lakukan pengujiannya.
Cabang ke jalur yang benar berdasarkan hasil pengujian.
Simpul Leaf apakah ditemukan? Jika YES masukkan ke dalam contoh kelas
target jika NO kembali ke langkah 1.
Atribut-atribut berada dalam suatu kategori.
Atribut terpilih dipartisi secara rekursif.
Atribut-atribut uji dipilih berdasarkan heuristic atau pengukuran statistik.
Contoh pemanfaaan decision tree:
Diagnosa beberapa penyakit seperti kanker, hipertensi, stroke.
Menentukan apakah dengan kondisi yang ada layak untuk bermaintenis atau tidak
Menentukan apakah sebuah investasi bisnis layak dilakukan atau tidak
Pemilihan pegawai teladan sesuai dengan kriteria tertentu
Deteksi gangguan pada komputer atau jaringan komputer
Pemilihan produk seperti rumah, kendaraan dan lain lain
Jika menggunakan decision tree atau pohon keputusan maka algoritma yang banyak
digunakan adalah algoritma C4.5. Algoritma C4.5 adalah pohon keputusan yang dapat
melakukan klasifikasi dan prediksi yang sangat kuat dan familiar. Metode keputusan dapat
digunakan untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah
calon variable input dengan sebuah variable target. Karena pohon keputusan memadukan
antara eksplorasi data dan pemodelan, dia sangat bagus sebagai langkah awal dalam proses
pemodelan.
Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma C4.5 :
1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan
dalam kelas-kelas tertentu.
2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih,
dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling
tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut,
hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus :
n
Entropy ( S ) =∑ ❑t =1− pi log 2 pi
Keterangan:
S = himpuan kasus
N = jumlah partisi s
Pi = proporsi Si terhadap S
3. Kemudian hitung nilai gain menggunakan rumus:
n |S i|
Gain ( S , A )=entropy ( S )−∑ ❑t=1= ∗Entropy ( Si )
S
Keterangan:
S = Himpunan kasus
A = Fitur
N = jumlah partisi atribut A
|Si| = proporsi Si terhadap S
|S| = jumlah kasus dalam s
4. Ulangi langkah ke-2 dan langkah ke-3 hingga semua record terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua record dalam simpul N mendapat kelas yang sama.
b. Tidak ada atribut didalam record yang dipartisi lagi.
c. Tidak ada record didalam cabang yang kosong.
Pertanyaan dan Jawaban Pertemuan 10
1. Sebutkan dan jelaskan node yang terdapat pada decision tree?
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa
tidak mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat
satu input dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya
terdapat satu input dan tidak mempunyai output.
( D ( xk , vi )
)
c 2
ua =∑ ❑ m−1
j=t D ( xk , v j )
Keterangan:
Uik : Membership function data ke-k ke cluster ke-i
vi: Nilai centroid cluster ke-i
m : Weighting Exponent Membership function
Clustering banyak digunakan dalam berbagai aplikasi seperti business intelligence,
pengenalan pola citra, pencarian situs, bidang ilmu biologi, dan untuk security. Di dalam
business intelligence, pengelompokkan bisa mengatur banyak customer ke dalam banyak
kelompok. Clustering juga dikenal sebagai data segmentasi karena clustering mempartisi
banyak data set ke dalam banyak grup berdasarkan kesamaannya. Selain itu clustering juga
bisa digunakan sebagai outlier detection. Manfaat dari metode clustering juga dapat
melakukan segmentasi pada data yang berguna dalam membuat prediksi dan analisis masalah
bisnis tertentu. Misalnya segmentasi pasar, marketing dan pemetaan zonasi wilayah.
Contohnya adalah mengelompokkan customer ke dalam beberapa cluster dengan kesamaan
karakteristik yang kuat.
Walaupun metode clustering dapat mengidentifikasi objek dalam berbagai bidang seperti
computer vision dan image processing, bukan berarti metode ini tidak memiliki tantangan
kedepannya. Terdapat beberapa tantangan dan syarat yang dihadapi oleh algoritma clustering
diantaranya harus mampu menangani skalabilitas yang besar, mampu menganalisis beragam
bentuk data, mampu menemukan kelompok (cluster) lain dalam bentuk tak terduga serta
harus sensitive dalam perubahan input (masukan). Beberapa kelebihan dari Mixture
Modelling dari K-Means adalah adanya pengembangan metode penentuan jumlah cluster
yang paling sesuai untuk suatu data tertentu yang secara teori sama dengan proses
pengalokasian data item ke masing-masing cluster. Kelebihan lainnya adalah Mixture
Modelling mempunyai kemampuan untuk mendeteksi keberadaan suatu cluster yang overlap
dengan cluster yang lain. Distribusi statistik yang diterapkan di dalam Mixture Modelling
mempunyai kelebihan dalam menangani masalah overlapping ini. Beberapa perlengkapan
juga memungkinkan untuk ditambahkan dalam mengakomodasi pendeteksian outliers
ataupun menangani bentuk-bentuk cluster yang tidak normal.
Pertanyaan dan Jawaban Pertemuan 11
1. Sebutkan dua jenis pendekatan dalam metode clustering?
Terdapat dua pendekatan yang digunakan dalam pengembangan metode clustering
yaitu pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan
pendakatan partisi (partition-based clustering) adalah pengelompokkan data dengan
mengklasterisasi data yang akan dinalisis ke dalam cluster-cluster yang telah ada.
Clustering dengan pendekatan hirarki (hierarchical clustering) adalah
pengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatka pada hirarki yang berdekatan dan yang tidak pada hirarki
yang berjauhan.