NIM : 200105010
Kelas : Reguler
Business Intelegence
Dimana P(B) != 0
Pada dasarnya, kita mencoba mencari peluang kejadian A, apabila kejadian B bernilai benar.
Kejadian B juga disebut sebagai bukti.
P(A) adalah apriori dari A (probabilitas sebelumnya, yaitu probabilitas peristiwa sebelum bukti
terlihat). Bukti adalah nilai atribut dari instance yang tidak diketahui (peristiwa B).
P(A|B) adalah probabilitas posteriori dari B, yaitu probabilitas kejadian setelah bukti terlihat.
Ciri utama dari algoritma Naive Bayes Classifier adalah adanya asumsi yg sangat kuat (naif) akan
independensi dari masing-masing kondisi / kejadian.
Contoh Cara Kerja Algoritma Naive Bayes Classifier
Untuk memudahkan penjelasan, kita akan mengambil contoh kasus. Misalkan kita memiliki
dataset yang ditunjukkan oleh tabel di bawah.
Tabel di atas menggambarkan kondisi cuaca untuk bermain golf. Dengan mempertimbangkan
kondisi cuaca, setiap tuple mengklasifikasikan keputusan untuk bermain golf atau tidak.
Dataset di atas dibagi menjadi dua bagian, yaitu matriks fitur dan vektor respons.
Matriks fitur berisi semua vektor (baris) dari dataset di mana setiap vektor terdiri dari
nilai fitur dependen. Dalam dataset di atas, fitur-fiturnya adalah 'Outlook',
'Temperature', 'Humidity' dan 'Windy'.
Vektor respons berisi nilai variabel kelas (prediksi atau keluaran) untuk setiap baris
matriks fitur. Dalam dataset di atas, nama variabel kelas adalah ‘Play golf’'.
Dengan menggunakan formula naive bayes, probabilitas masing-masing fitur dependen dapat
dihitung.
Pada gambar di atas, kita telah menghitung masing-masing fitur dependen secara manual pada tabel 1-
4. Misalnya, peluang bermain golf jika suhunya dingin, yaitu P(temp. = cool | play golf = Yes) = 3/9.
Juga kita perlu mencari peluang kelas (P(y)) yang telah dihitung pada tabel 5. Misalnya, P(Play golf = Yes)
= 9/14.
Penerapan Algoritma Naive Bayes Classifier
1. Pengenalan wajah
Sebagai algoritma klasifikasi, Naive Bayes Classifier dapat digunakan untuk mengidentifikasi
wajah atau fitur lainnya, seperti hidung, mulut, mata, dll.
2. Prediksi cuaca
Algoritma ini dapat digunakan untuk memprediksi apakah cuaca akan baik atau buruk.
3. Diagnosa medis
Dokter dan profesional kesehatan dapat menggunakan Naive Bayes untuk mendiagnosis apakah
pasien berisiko tinggi untuk penyakit dan kondisi tertentu, seperti penyakit jantung, kanker, dan
penyakit lainnya.
4. Klasifikasi berita
Dengan bantuan Naive Bayes, Google News dapat mengenali apakah sebuah berita bersifat
politik, berita dunia, dan sebagainya.
K-Means clustering adalah algoritma unsupervised learning yang dipakai untuk mengelompokkan
dataset yang belum dilabel ke dalam kluster yang berbeda. Simbol K pada K-means clustering
menandakan jumlah kluster yang digunakan. Kluster mengacu pada kumpulan titik data yang
dikumpulkan bersama karena kesamaan tertentu. Jika K = 2, maka akan ada 2 kluster, dan jika K = 3
maka terdapat 3 kluster, begitu seterusnya. Dengan demikian K-means clustering dapat didefinisikan
sebagai algoritma iteratif yang membagi kumpulan data (dataset) yang tidak berlabel menjadi k kluster
yang berbeda sedemikian rupa sehingga setiap kumpulan data hanya dimiliki oleh satu kelompok yang
memiliki properti serupa.
Algoritma ini didesain untuk memungkinkan kita mengelompokkan data ke dalam grup yang berbeda
dengan cara yang lebih mudah berdasarkan variabel tertentu tanpa perlu melakukan proses training. Hal
ini karena k-means clustering merupakan algoritma unspervised learning berbasis centroid, dimana
setiap cluster diasosiasikan dengan centroid. Tujuan utama dari algoritma ini adalah untuk
meminimalkan jumlah jarak antara titik data dan cluster yang sesuai. Algoritma K-means mengambil
dataset yang tidak berlabel sebagai input, kemudian membagi dataset menjadi sejumlah k cluster, dan
mengulangi proses tersebut sampai tidak menemukan cluster terbaik. Nilai k harus ditentukan
sebelumnya dalam algoritma ini. Algoritma k-means clustering melakukan dua tugas utama, yakni:
1. Menentukan nilai terbaik untuk titik pusat K atau centroid dengan proses iteratif (perulangan).
2. Menetapkan setiap titik data ke pusat k terdekat. Titik-titik data yang dekat dengan pusat-k
tertentu, kemudian dibuatkan sebuah kluster
Oleh karena itu setiap cluster memiliki titik data dengan beberapa kesamaan, dan cukup jauh dari
cluster lainnya.
Langkah-3: Tetapkan setiap titik data ke centroid terdekat, yang akan membentuk cluster K yang telah
ditentukan.
Langkah-4: Hitung varians dan tempatkan centroid baru dari setiap cluster.
Langkah-5: Ulangi langkah ketiga, yang berarti menetapkan kembali setiap titik data ke centroid
terdekat baru dari setiap cluster.
Langkah-6: Jika ada penugasan ulang, lanjutkan ke langkah-4 jika tidak, lanjutkan ke FINISH.
Clustering adalah teknik yang banyak digunakan dalam industri. Teknik ini sebenarnya
digunakan di hampir setiap bidang, mulai dari perbankan hingga mesin rekomendasi,
pengelompokan dokumen hingga segmentasi gambar.
Segmentasi pasar
Pengelompokan dokumen
Segmentasi gambar
Kompresi gambar
Kuantisasi vektor
Analisis klaster
Identifikasi daerah rawan kejahatan
Deteksi penipuan asuransi
Analisis data angkutan umum
Pengelompokan aset IT
Segmentasi pelanggan
Mengidentifikasi data kanker
Referensi : https://www.trivusi.web.id/2022/07/algoritma-naive-bayes.html
https://algorit.ma/blog/naive-bayes-2022/
https://www.trivusi.web.id/2022/06/algoritma-kmeans-clustering.html