Pertemuan 6

Pertemuan 6
Konsep Dasar Klasifikasi Lanjutan

Pembahasan
1. Metode Membandingkan Pengklasifikasi
2. Algoritma Nearest Neighbor
3. Bayesian
4. Ensemble Methods
5. Imbalance Class
Metode Membandingkan Pengklasifikasi
Algoritma K-Nearest Neighbour
• Algoritma machine learning yang bersifat non-parametic dan lazy
learning.
• Algoritma non-parametric seperti KNN menggunakan sejumlah
parameter yang fleksibel, dan jumlah parameter seringkali bertambah
seiring data yang semakin banyak. Algoritma non-parametric secara
komputasi lebih lambat, tetapi membuat lebih sedikit asumsi tentang
data.
• Tujuan dari algoritma k-nearest neighbor adalah untuk
mengidentifikasi tetangga terdekat dari titik kueri yang diberikan,
sehingga kita dapat menetapkan label kelas ke titik tersebut.
Poin Penting KNN
1. Menentukan Metrik Jarak
Untuk menentukan titik data mana yang paling dekat dengan titik kueri
tertentu, jarak antara titik kueri dan titik data lainnya perlu dihitung. Metrik
jarak ini membantu membentuk batasan keputusan, yang mengarahkan kueri
partisi ke kelas yang berbeda. Untuk menemukan titik serupa terdekat, kita bisa
menggunakan perhitungan jarak seperti Euclidean distance, Hamming distance,
Manhattan distance dan Minkowski distance.
2. Mendefinisikan Nilai K
Nilai k pada algoritma KNN mendefinisikan berapa banyak tetangga yang akan
diperiksa untuk menentukan klasifikasi titik kueri tertentu. Misalnya, jika k=1,
instance akan ditugaskan ke kelas yang sama dengan tetangga terdekatnya.
Kelebihan dan Kekurangan KNN
NO Kelebihan Kekurangan
1 Mudah Diterapkan Tidak berfungsi baik pada dataset

berukuran besar
2 Mudah Beradaptasi Kurang cocok untuk dimensi tinggi
3 Memiliki Sedikit Perlu penskalaan fitur

Hyperparameter
4 Sensitif terhadap noise data, missing
value dan outliers
Cara Kerja KNN
• KNN bekerja berdasarkan prinsip bahwa setiap titik data yang berdekatan satu
sama lain akan berada di kelas yang sama. Dengan kata lain, KNN
mengklasifikasikan titik data baru berdasarkan kemiripan.
• Langkah-1: Pilih nilai banyaknya tetangga K

• Langkah-2: Hitung jarak dari jumlah tetangga K (bisa menggunakan salah satu
metrik jarak, misalnya Euclidean distance)
• Langkah-3: Ambil tetangga terdekat K sesuai jarak yang dihitung.
• Langkah-4: Di antara tetangga k ini, hitung jumlah titik data di setiap kategori.
• Langkah-5: Tetapkan titik data baru ke kategori yang jumlah tetangganya paling
banyak.
• Langkah-6: Model sudah siap.
Bayesian
• Naïve bayes merupakan algoritma pengklasifikasi probabilistic
(mempelajari probabilitas suatu objek dengan ciri tertentu)
• Dikatakan naïve karena algoritma ini membuat asumsi bahwa
kemunculan sebuah fitur tidak tergantung pada kemunculan fitur
lainnya.
• Naïve bayes dapat diaplikasikan pada beberapa aplikasi seperti:
1. Prediksi real-time
2. Prediksi multi-kelas
3. Klasifikasi teks
4. Sistem rekomendasi
Pemodelan Naïve Bayes
1. Gaussian Naïve Bayes
Tipe naïve bayes yang paling sederhana yang mengikuti distribusi normal
gaussian dan mendukung data kontinu
2. Multinomial Naïve Bayes
Tipe naïve bayes dimana fitur-fitur nya adalah diasumsikan diambil dari
distribusi multinomial sederhana. Algoritma ini banyak digunakan untuk
memecahkan masalah klasifikasi dokumen.
3. Bernoulli Naïve Bayes
Variabel pada algoritma ini adalah variable Boolean dimana fitur diasumsikan
dengan nilai biner.
Kelebihan dan Kekurangan NB
NO KELEBIHAN KEKURANGAN
1 Mudah diimplementasikan dengan cepat Fiturnya yang kuat kemandirian karena
2 NB akan menyatu lebih cepat daripada dalam kehidupan nyata hampir tidak
model diskriminatif seperti regresi logistic mungkin untuk memiliki seperangkat fitur
yang benar-benar independen satu sama lain
3 Membutuhkan data latih lebih sedikit
4 Sifatnya sangat skalabel (skalanya linier 'Frekuensi nol' yang berarti bahwa jika
dengan jumlah predictor dan titik data) variabel kategori memiliki kategori tetapi
5 Dapat membuat prediksi probabilistic dan tidak diamati dalam data pelatihan set, maka
dapat menangani kontinu beserta diskrit model Naive Bayes akan menetapkan
data probabilitas nol untuk itu dan itu tidak akan
dapat untuk membuat prediksi
6 Dapat digunakan untuk biner maupun
multi-kelas
Penerapan NB dengan Rapidminer
Hasil Confussion Matrix
Ensemble Methods
• Metode di mana beberapa algoritma pembelajaran digunakan secara
bersamaan, lalu dikombinasikan untuk mendapatkan hasil pemodelan
yang lebih akurat.
• Jenis ensemble method :
1. Bagging (Boostrap Aggregating)
Proses dengan menggunakan beberapa model dari algoritma yang sama, dan melatih
setiap model pada sampel berbeda dari dataset yang sama. Prediksi yang dibuat oleh
setiap model kemudian digabungkan menggunakan statistik sederhana, seperti voting atau
rata-rata.
2. Boosting
Variasi bagging, di mana setiap model individu dibangun secara berurutan,
mengulangi yang sebelumnya. Dalam prosesnya, setiap titik data yang salah
diklasifikasikan oleh model sebelumnya ditekankan dalam model
berikutnya. Hal ini dilakukan untuk meningkatkan akurasi model secara
keseluruhan.
3. Stacking
Melibatkan pemasangan banyak jenis model yang berbeda pada data yang
sama dan menggunakan model lain untuk mempelajari cara terbaik
menggabungkan prediksi.
Elemen Kunci dalam proses stacking :
• Set data pelatihan tidak berubah.
• Algoritma ML yang berbeda untuk setiap anggota ensemble (ensemble member).
• Model ML digunakan untuk mempelajari cara terbaik menggabungkan model
prediksi.
Kelebihan dan Kekurangan Ensemble
Method
NO KELEBIHAN KEKURANGAN
1 Hasil pemodelan lebih akuratPengurangan kemampuan
interpretasi model
2 Hasil yang stabil dan lebih Waktu komputasi dan desain
kuat (robust) tinggi
3 Metode ensemble dapat Tingkat kesulitan yang tinggi
digunakan untuk menangkap dalam pemilihan model dalam
hubungan linier maupun non- proses pembuatan model
linier dalam data ensemble
Contoh Penerapan Bagging Method
Dengan Rapid Miner
Hasil Running Metode Bagging
Contoh Penerapan Boosting Method
Dengan Rapid Miner
Hasil Running Methode Boosting
Contoh Penerapan Stacking Method
Dengan Rapid Miner
Imbalance Class
• Situasi yang terjadi ketika salah satu class memiliki jumlah lebih besar
dari pada class lainnya
• Contoh: misal pada suatu himpunan data yang terdiri dari dua kelas
memiliki perbandingan rasio 1:100 atau 1:1000 dan seterusnya.
Kondisi tersebut menyebabkan imbalance data yang dampaknya
menyebabkan hasil analisis bias dan tidak optimal
Mengatasi Imbalance
1. SMOTE(Syntetic Minority Oversampling Technique)
2. SHRINK
3. C4.5
4. Sampling
a. Over Sampling
b. Under Sampling
c. Both Sampling.
Sumber referensi
1. Dqlab.id
2. algorit.ma
3. Id.linkedin.com
4. Geospasialis.com
5. Staf.ulm.ac.id

Pertemuan 6

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 6

Diunggah oleh

Hak Cipta:

Format Tersedia

Pertemuan 6

Konsep Dasar Klasifikasi Lanjutan

1 Mudah Diterapkan Tidak berfungsi baik pada dataset

3 Memiliki Sedikit Perlu penskalaan fitur

• Langkah-1: Pilih nilai banyaknya tetangga K

Anda mungkin juga menyukai