Pembahasan 1. Metode Membandingkan Pengklasifikasi 2. Algoritma Nearest Neighbor 3. Bayesian 4. Ensemble Methods 5. Imbalance Class Metode Membandingkan Pengklasifikasi Algoritma K-Nearest Neighbour • Algoritma machine learning yang bersifat non-parametic dan lazy learning. • Algoritma non-parametric seperti KNN menggunakan sejumlah parameter yang fleksibel, dan jumlah parameter seringkali bertambah seiring data yang semakin banyak. Algoritma non-parametric secara komputasi lebih lambat, tetapi membuat lebih sedikit asumsi tentang data. • Tujuan dari algoritma k-nearest neighbor adalah untuk mengidentifikasi tetangga terdekat dari titik kueri yang diberikan, sehingga kita dapat menetapkan label kelas ke titik tersebut. Poin Penting KNN 1. Menentukan Metrik Jarak Untuk menentukan titik data mana yang paling dekat dengan titik kueri tertentu, jarak antara titik kueri dan titik data lainnya perlu dihitung. Metrik jarak ini membantu membentuk batasan keputusan, yang mengarahkan kueri partisi ke kelas yang berbeda. Untuk menemukan titik serupa terdekat, kita bisa menggunakan perhitungan jarak seperti Euclidean distance, Hamming distance, Manhattan distance dan Minkowski distance. 2. Mendefinisikan Nilai K Nilai k pada algoritma KNN mendefinisikan berapa banyak tetangga yang akan diperiksa untuk menentukan klasifikasi titik kueri tertentu. Misalnya, jika k=1, instance akan ditugaskan ke kelas yang sama dengan tetangga terdekatnya. Kelebihan dan Kekurangan KNN NO Kelebihan Kekurangan
1 Mudah Diterapkan Tidak berfungsi baik pada dataset
berukuran besar 2 Mudah Beradaptasi Kurang cocok untuk dimensi tinggi
3 Memiliki Sedikit Perlu penskalaan fitur
Hyperparameter 4 Sensitif terhadap noise data, missing value dan outliers Cara Kerja KNN • KNN bekerja berdasarkan prinsip bahwa setiap titik data yang berdekatan satu sama lain akan berada di kelas yang sama. Dengan kata lain, KNN mengklasifikasikan titik data baru berdasarkan kemiripan.
• Langkah-1: Pilih nilai banyaknya tetangga K
• Langkah-2: Hitung jarak dari jumlah tetangga K (bisa menggunakan salah satu metrik jarak, misalnya Euclidean distance) • Langkah-3: Ambil tetangga terdekat K sesuai jarak yang dihitung. • Langkah-4: Di antara tetangga k ini, hitung jumlah titik data di setiap kategori. • Langkah-5: Tetapkan titik data baru ke kategori yang jumlah tetangganya paling banyak. • Langkah-6: Model sudah siap. Bayesian • Naïve bayes merupakan algoritma pengklasifikasi probabilistic (mempelajari probabilitas suatu objek dengan ciri tertentu) • Dikatakan naïve karena algoritma ini membuat asumsi bahwa kemunculan sebuah fitur tidak tergantung pada kemunculan fitur lainnya. • Naïve bayes dapat diaplikasikan pada beberapa aplikasi seperti: 1. Prediksi real-time 2. Prediksi multi-kelas 3. Klasifikasi teks 4. Sistem rekomendasi Pemodelan Naïve Bayes 1. Gaussian Naïve Bayes Tipe naïve bayes yang paling sederhana yang mengikuti distribusi normal gaussian dan mendukung data kontinu 2. Multinomial Naïve Bayes Tipe naïve bayes dimana fitur-fitur nya adalah diasumsikan diambil dari distribusi multinomial sederhana. Algoritma ini banyak digunakan untuk memecahkan masalah klasifikasi dokumen. 3. Bernoulli Naïve Bayes Variabel pada algoritma ini adalah variable Boolean dimana fitur diasumsikan dengan nilai biner. Kelebihan dan Kekurangan NB NO KELEBIHAN KEKURANGAN 1 Mudah diimplementasikan dengan cepat Fiturnya yang kuat kemandirian karena 2 NB akan menyatu lebih cepat daripada dalam kehidupan nyata hampir tidak model diskriminatif seperti regresi logistic mungkin untuk memiliki seperangkat fitur yang benar-benar independen satu sama lain 3 Membutuhkan data latih lebih sedikit 4 Sifatnya sangat skalabel (skalanya linier 'Frekuensi nol' yang berarti bahwa jika dengan jumlah predictor dan titik data) variabel kategori memiliki kategori tetapi 5 Dapat membuat prediksi probabilistic dan tidak diamati dalam data pelatihan set, maka dapat menangani kontinu beserta diskrit model Naive Bayes akan menetapkan data probabilitas nol untuk itu dan itu tidak akan dapat untuk membuat prediksi 6 Dapat digunakan untuk biner maupun multi-kelas Penerapan NB dengan Rapidminer Hasil Confussion Matrix Ensemble Methods • Metode di mana beberapa algoritma pembelajaran digunakan secara bersamaan, lalu dikombinasikan untuk mendapatkan hasil pemodelan yang lebih akurat. • Jenis ensemble method : 1. Bagging (Boostrap Aggregating) Proses dengan menggunakan beberapa model dari algoritma yang sama, dan melatih setiap model pada sampel berbeda dari dataset yang sama. Prediksi yang dibuat oleh setiap model kemudian digabungkan menggunakan statistik sederhana, seperti voting atau rata-rata. 2. Boosting Variasi bagging, di mana setiap model individu dibangun secara berurutan, mengulangi yang sebelumnya. Dalam prosesnya, setiap titik data yang salah diklasifikasikan oleh model sebelumnya ditekankan dalam model berikutnya. Hal ini dilakukan untuk meningkatkan akurasi model secara keseluruhan. 3. Stacking Melibatkan pemasangan banyak jenis model yang berbeda pada data yang sama dan menggunakan model lain untuk mempelajari cara terbaik menggabungkan prediksi. Elemen Kunci dalam proses stacking : • Set data pelatihan tidak berubah. • Algoritma ML yang berbeda untuk setiap anggota ensemble (ensemble member). • Model ML digunakan untuk mempelajari cara terbaik menggabungkan model prediksi. Kelebihan dan Kekurangan Ensemble Method NO KELEBIHAN KEKURANGAN 1 Hasil pemodelan lebih akuratPengurangan kemampuan interpretasi model 2 Hasil yang stabil dan lebih Waktu komputasi dan desain kuat (robust) tinggi 3 Metode ensemble dapat Tingkat kesulitan yang tinggi digunakan untuk menangkap dalam pemilihan model dalam hubungan linier maupun non- proses pembuatan model linier dalam data ensemble Contoh Penerapan Bagging Method Dengan Rapid Miner Hasil Running Metode Bagging Contoh Penerapan Boosting Method Dengan Rapid Miner Hasil Running Methode Boosting Contoh Penerapan Stacking Method Dengan Rapid Miner Imbalance Class • Situasi yang terjadi ketika salah satu class memiliki jumlah lebih besar dari pada class lainnya • Contoh: misal pada suatu himpunan data yang terdiri dari dua kelas memiliki perbandingan rasio 1:100 atau 1:1000 dan seterusnya. Kondisi tersebut menyebabkan imbalance data yang dampaknya menyebabkan hasil analisis bias dan tidak optimal Mengatasi Imbalance 1. SMOTE(Syntetic Minority Oversampling Technique) 2. SHRINK 3. C4.5 4. Sampling a. Over Sampling b. Under Sampling c. Both Sampling. Sumber referensi 1. Dqlab.id 2. algorit.ma 3. Id.linkedin.com 4. Geospasialis.com 5. Staf.ulm.ac.id