Anda di halaman 1dari 7

Nama : Muhammad Rifki Nur Afra

NIM : 200105010

Kelas : Reguler

Business Intelegence

Pengertian Naive Bayes Classifier


Naive Bayes Classifier adalah sekumpulan algoritma yang didasarkan pada Teorema Bayes.
Dengan kata lain, algoritma ini bukan algoritma tunggal melainkan satu grup algoritma dimana
masing-masing memiliki prinsip kerja yang mirip. Algoritma ini bekerja berdasarkan prinsip
probabilitas bersyarat, seperti yang diberikan oleh Teorema Bayes. Teorema Bayes menemukan
probabilitas atau kemungkinan suatu peristiwa akan terjadi dengan memberikan probabilitas peristiwa
lain yang telah terjadi. Dalam istilah yang lebih sederhana, Teorema Bayes adalah metode untuk
menemukan probabilitas ketika kita mengetahui probabilitas tertentu lainnya. Teorema Bayes
dinyatakan secara matematis dalam persamaan berikut:

Dimana P(B) != 0

 Pada dasarnya, kita mencoba mencari peluang kejadian A, apabila kejadian B bernilai benar.
Kejadian B juga disebut sebagai bukti.
 P(A) adalah apriori dari A (probabilitas sebelumnya, yaitu probabilitas peristiwa sebelum bukti
terlihat). Bukti adalah nilai atribut dari instance yang tidak diketahui (peristiwa B).
 P(A|B) adalah probabilitas posteriori dari B, yaitu probabilitas kejadian setelah bukti terlihat.

Ciri utama dari algoritma Naive Bayes Classifier adalah adanya asumsi yg sangat kuat (naif) akan
independensi dari masing-masing kondisi / kejadian.
Contoh Cara Kerja Algoritma Naive Bayes Classifier
Untuk memudahkan penjelasan, kita akan mengambil contoh kasus. Misalkan kita memiliki
dataset yang ditunjukkan oleh tabel di bawah.

No Outlook Temperature Humidity Windy Play Golf


0 Rainy Hot High FALSE No
1 Rainy Hot High TRUE No
2 Overcast Hot High FALSE Yes
3 Sunny Mild High FALSE Yes
4 Sunny Cool Normal FALSE Yes
5 Sunny Cool Normal TRUE No
6 Overcast Cool Normal TRUE Yes
7 Rainy Mild High FALSE No

Tabel di atas menggambarkan kondisi cuaca untuk bermain golf. Dengan mempertimbangkan
kondisi cuaca, setiap tuple mengklasifikasikan keputusan untuk bermain golf atau tidak.

Dataset di atas dibagi menjadi dua bagian, yaitu matriks fitur dan vektor respons.

 Matriks fitur berisi semua vektor (baris) dari dataset di mana setiap vektor terdiri dari
nilai fitur dependen. Dalam dataset di atas, fitur-fiturnya adalah 'Outlook',
'Temperature', 'Humidity' dan 'Windy'.
 Vektor respons berisi nilai variabel kelas (prediksi atau keluaran) untuk setiap baris
matriks fitur. Dalam dataset di atas, nama variabel kelas adalah ‘Play golf’'.
Dengan menggunakan formula naive bayes, probabilitas masing-masing fitur dependen dapat
dihitung.

Pada gambar di atas, kita telah menghitung masing-masing fitur dependen secara manual pada tabel 1-
4. Misalnya, peluang bermain golf jika suhunya dingin, yaitu P(temp. = cool | play golf = Yes) = 3/9.

Juga kita perlu mencari peluang kelas (P(y)) yang telah dihitung pada tabel 5. Misalnya, P(Play golf = Yes)
= 9/14.
Penerapan Algoritma Naive Bayes Classifier

Naive Bayes Classifier banyak digunakan pada tugas klasifikasi seperti:

1. Pengenalan wajah
Sebagai algoritma klasifikasi, Naive Bayes Classifier dapat digunakan untuk mengidentifikasi
wajah atau fitur lainnya, seperti hidung, mulut, mata, dll.
2. Prediksi cuaca
Algoritma ini dapat digunakan untuk memprediksi apakah cuaca akan baik atau buruk.
3. Diagnosa medis
Dokter dan profesional kesehatan dapat menggunakan Naive Bayes untuk mendiagnosis apakah
pasien berisiko tinggi untuk penyakit dan kondisi tertentu, seperti penyakit jantung, kanker, dan
penyakit lainnya.
4. Klasifikasi berita
Dengan bantuan Naive Bayes, Google News dapat mengenali apakah sebuah berita bersifat
politik, berita dunia, dan sebagainya.

Keunggulan Algoritma Naive Bayes Classifier

Adapun keunggulan dari algoritma Naive Bayes Classifier adalah sbb:

 sederhana dan mudah diterapkan


 tidak membutuhkan banyak data pelatihan
 menangani data kontinu dan diskrit
 sangat skalabel dengan jumlah prediktor dan titik data
 cepat dan dapat digunakan untuk membuat prediksi realtime
 tidak sensitif terhadap fitur yang tidak relevan

TIPE NAIVE BAYES CLASSIFIER


Metode Naive Bayes digolongkan menjadi beberapa tipe berdasarkan fungsinya. Berikut ini
penjelasannya.
1. MULTINOMIAL NAIVE BAYES
Salah satu tipe metode Naive Bayes adalah Multinomial yang sebagian besar digunakan untuk
mengklasifikasi kategori dokumen. Sebuah dokumen dapat dikategorikan bertema olahraga, politik,
teknologi, atau lain-lain berdasarkan frekuensi kata-kata yang muncul dalam dokumen.
2. BERNOULLI NAIVE BAYES
Tipe ini mirip dengan tipe Multinomial, namun klasifikasinya lebih berfokus pada hasil ya/tidak.
Prediktor yang di-input adalah variabel boolean. Misalnya, prediksi atas sebuah kata muncul dalam teks
atau tidak.
3. GAUSSIAN NAIVE BAYES
Distribusi Gaussian adalah asumsi pendistribusian nilai kontinu yang terkait dengan setiap fitur berisi
nilai numerik. Ketika diplot, akan muncul kurva berbentuk lonceng yang simetris tentang rata-rata nilai
fitur.
Pengertian K-means Clustering

K-Means clustering adalah algoritma unsupervised learning yang dipakai untuk mengelompokkan
dataset yang belum dilabel ke dalam kluster yang berbeda. Simbol K pada K-means clustering
menandakan jumlah kluster yang digunakan. Kluster mengacu pada kumpulan titik data yang
dikumpulkan bersama karena kesamaan tertentu. Jika K = 2, maka akan ada 2 kluster, dan jika K = 3
maka terdapat 3 kluster, begitu seterusnya. Dengan demikian K-means clustering dapat didefinisikan
sebagai algoritma iteratif yang membagi kumpulan data (dataset) yang tidak berlabel menjadi k kluster
yang berbeda sedemikian rupa sehingga setiap kumpulan data hanya dimiliki oleh satu kelompok yang
memiliki properti serupa.

Cara Kerja Algoritma K-Means

Algoritma ini didesain untuk memungkinkan kita mengelompokkan data ke dalam grup yang berbeda
dengan cara yang lebih mudah berdasarkan variabel tertentu tanpa perlu melakukan proses training. Hal
ini karena k-means clustering merupakan algoritma unspervised learning berbasis centroid, dimana
setiap cluster diasosiasikan dengan centroid. Tujuan utama dari algoritma ini adalah untuk
meminimalkan jumlah jarak antara titik data dan cluster yang sesuai. Algoritma K-means mengambil
dataset yang tidak berlabel sebagai input, kemudian membagi dataset menjadi sejumlah k cluster, dan
mengulangi proses tersebut sampai tidak menemukan cluster terbaik. Nilai k harus ditentukan
sebelumnya dalam algoritma ini. Algoritma k-means clustering melakukan dua tugas utama, yakni:

1. Menentukan nilai terbaik untuk titik pusat K atau centroid dengan proses iteratif (perulangan).
2. Menetapkan setiap titik data ke pusat k terdekat. Titik-titik data yang dekat dengan pusat-k
tertentu, kemudian dibuatkan sebuah kluster

Oleh karena itu setiap cluster memiliki titik data dengan beberapa kesamaan, dan cukup jauh dari
cluster lainnya.

Cara kerja algoritma K-Means dijelaskan dalam langkah-langkah di bawah ini:

Langkah-1: Pilih angka K untuk menentukan jumlah cluster.

Langkah-2: Pilih titik K atau centroid secara acak.

Langkah-3: Tetapkan setiap titik data ke centroid terdekat, yang akan membentuk cluster K yang telah
ditentukan.

Langkah-4: Hitung varians dan tempatkan centroid baru dari setiap cluster.

Langkah-5: Ulangi langkah ketiga, yang berarti menetapkan kembali setiap titik data ke centroid
terdekat baru dari setiap cluster.

Langkah-6: Jika ada penugasan ulang, lanjutkan ke langkah-4 jika tidak, lanjutkan ke FINISH.

Langkah-7: Model sudah siap.


Kelebihan Algoritma K-means

Adapun kelebihan dari algoritma K-Means adalah sebagai berikut:

 Relatif sederhana dan mudah untuk diterapkan.


 Dapat diskalakan untuk dataset dalam jumlah besar.
 Mudah beradaptasi dengan contoh baru.
 Umum diimplementasikan ke cluster dengan bentuk dan ukuran yang berbeda, seperti cluster
elips.

Kekurangan Algoritma K-means

Adapun kelemahan atau kekurangan dari algoritma K-means di antaranya:

 Perlu menentukan nilai k secara manual


 Sangat bergantung pada inisialisasi awal. Jika nilai random untuk inisialisasi kurang baik, maka
pengelompokkan yang dihasilkan pun menjadi kurang optimal.
 Dapat terjadi curse of dimensionality. Masalah ini timbul jika dataset memiliki dimensi yang
sangat tinggi. Cara kerja algoritma ini adalah mencari jarak terdekat antara k buah titik dengan
titik lainnya. Mencari jarak antar titik pada 2 dimensi, kemungkinan masih mudah dilakukan.
Namun apabila dimensi bertambah menjadi 20 tentunya hal ini akan menjadi sulit.
 K-means mengalami kesulitan mengelompokkan data di mana cluster memiliki ukuran dan
kepadatan yang bervariasi.

Contoh Penerapan K-means Clustering

Clustering adalah teknik yang banyak digunakan dalam industri. Teknik ini sebenarnya
digunakan di hampir setiap bidang, mulai dari perbankan hingga mesin rekomendasi,
pengelompokan dokumen hingga segmentasi gambar.

Berikut adalah beberapa penerapan dari K-means clustering

 Segmentasi pasar
 Pengelompokan dokumen
 Segmentasi gambar
 Kompresi gambar
 Kuantisasi vektor
 Analisis klaster
 Identifikasi daerah rawan kejahatan
 Deteksi penipuan asuransi
 Analisis data angkutan umum
 Pengelompokan aset IT
 Segmentasi pelanggan
 Mengidentifikasi data kanker
Referensi : https://www.trivusi.web.id/2022/07/algoritma-naive-bayes.html

https://algorit.ma/blog/naive-bayes-2022/

https://www.trivusi.web.id/2022/06/algoritma-kmeans-clustering.html

Anda mungkin juga menyukai