Tugas Review Imbalance Dataset
Tugas Review Imbalance Dataset
Kelebihan dari metode ini adalah dapat menangani distribusi data yang kompleks dengan
menerapkan mekanisme khusus untuk setiap kelompok spesifik contoh kelas
minoritas dan juga dapat menangani ketidakpastian dengan memberi label ulang data
mayoritas yang ambigu. Namun, ada juga beberapa kekurangan metode ini yaitu dalam
kasus masalah yang sangat kompleks, algoritma VIS dapat berkontribusi pada pembuatan
objek berisik dan metode ini hanya diterapkan pada masalah dua kelas dan set data yang
ditandai oleh atribut nominal.
7) CCR(2017)
Combined Cleaning and Resampling merupakan teknik yang terdiri dari beberapa
langkah sebagai berikut:
1. Pembersihan data untuk menghilangkan contoh mayoritas yang terlalu dekat dengan
contoh minoritas, sehingga memperjauh batas keputusan antara kelas mayoritas dan
minoritas.
2. Melakukan oversampling dengan menghasilkan data sintetis di sekitar contoh yang
dianggap tidak aman. Data sintetis ini dihasilkan dengan jumlah yang lebih tinggi
daripada contoh minoritas yang asli.
Terdapat kekurangan metode CCR, yaitu tidak dirancang untuk menangani data
kategorikal dan karena metode ini berbasis jarak, performanya terbaik ketika fitur
mengambil nilai dalam rentang yang serupa.
8) NCL + ASUWO (2018)
Metode undersampling yang digunakan adalah Neighborhood Cleaning Rule (NCL),
sedangkan metode oversampling yang digunakan adalah Adaptive Semi-unsupervised
Weighted Oversampling (A-SUWO).
Kelebihan dari metode NCL dan A-SUWO adalah metode NCL yang sangat
mempertimbangkan kualitas data yang akan dihapus dengan tidak hanya berfokus pada
pengurangan data tetapi lebih pada pembersihan data (data cleaning), dan metode A-
SUWO mampu mengatasi overfitting data sehingga mombinasi metode NCL dan A-
SUWO mampu meningkatkan nilai akurasi dan nilai ROC secara konsisten. Adapun
kekurangan dari metode ini adalah dapat menghapus data yang sebenarnya relevan dan
penting untuk proses klasifikasi dan sering kali tumpang tindih dengan data dalam kelas
mayoritas sehingga dapat menghasilkan penurunan kinerja klasifikasi yang signifikan.
9) MDOTE (2019)
MDOTE (Manifold Distance-Based Over-Sampling Technique) adalah teknik yang
menghasilkan sampel minoritas dengan menciptakan sampel baru sepanjang garis antara
sampel kelas minoritas dan tetangganya berdasarkan jarak manifold. Kelebihan MDOTE
adalah dapat membantu menyeimbangkan dataset dan menunjukkan akurasi klasifikasi
yang lebih baik dibandingkan dengan metode baseline lainnya, namun, ada juga potensi
keterbatasan MDOTE yaitu bergantung pada kualitas pembelajaran manifold, dan
struktur yang diekstrak oleh pembelajaran manifold mungkin perlu ditingkatkan dengan
teknik optimasi yang lebih canggih.
10) SMOTE-RkNN (2022)
SMOTE-RkNN adalah algoritma hybrid sampling baru untuk penanganan
ketidakseimbangan dataset dengan menggabungkan Teknik Oversampling SMOTE dan
Reverse k-Nearest Neighbors (RkNN). Fungsi SMOTE (Synthetic Minority Over-
sampling Technique) dalam metode ini adalah untuk menghasilkan set pelatihan yang
seimbang dari set data yang tidak seimbang. Algoritma oversampling SMOTE akan
membuat sampel sintetis dari kelas minoritas. Namun, SMOTE juga memiliki kelemahan
yaitu cenderung menyebabkan penyebaran noise. Algoritma undersampling RkNN
dilakukan setelah prosedur oversampling SMOTE untuk membersihkan instance noise
tersebut.
Algoritma 1. SMOTE
Input: A class imbalance data set Ψ, a parameter k
Output: A new balanced data set Φ
Procedure:
1. Bagi Ψ masing-masing menjadi Ψ+ and Ψ- berdasarkan label kelas setiap instance di Ψ,
dan catat jumlah instance sebagai | Ψ+ | and | Ψ-|;
2. Ω = ∅ ;
3. for i =1:| Ψ-|-| Ψ+ |
4. Pilih sebuah instance Χ in Ψ+ secara acak;
5. Cari k nearest neighbors dari Χ in Ψ+;
6. Pilih salah satu k nearest neighbors dari Χ secara acak, dan catat sebagai y;
7. Hasilkan instance minoritas baru zi = x + δΧ (y-x), dimana δ adalah angka acak yang
berada di antara 0 dan 1;
8. Ω = Ω ∪ zi ;
9. end
10. Φ = Ψ ∪ Ω.
Dari algoritma SMOTE, diamati bahwa setiap instance sintetik dihasilkan antara instance
minoritas dan salah satu dari k minority nearest neighbors. Oleh karena itu, SMOTE
berisiko menimbulkan kebisingan sintetis (synthetic noise). Fenomena ini disebut juga
perambatan kebisingan (noise propagation).
Algoritma 2. RkNN
Input: A dataset Φ ={x1, x2, ..., xn}, a parameter k
Output: A vector ξ ={r1, r2,...rn} containing the reserve k-nearest neighbors counts for all
instances in Φ
Procedure:
1. Tetapkan zero vector ξ dengan panjang n;
2. Tetapkan n x n zero matrix θ;
3. for i =1: n
4. for j =1:n
5. Hitung jarak Euclidean antara xi dan xj, dan gunakan untuk menggantikan θ(i, j);
6. end
7. end
8. for i =1: n
9. Urutkan θ (i, :) dalam urutan menaik, dan temukan nomor urut instance dari peringkat
ke-2 hingga peringkat (k + 1);
10. Untuk setiap nomor seri yang tercatat, temukan varians r yang sesuai di ξ, dan buat r =
r +1;
11. end
12. Output ξ.
Dalam deskripsi algoritma RkNN, matriks θ digunakan untuk menyimpan jarak antara
dua instance, dan ξ digunakan untuk mencatat jumlah cadangan k-nearest neighbors
untuk semua instance. Selain itu, mengingat bahwa setiap instance selalu memiliki jarak
terpendek dengan dirinya sendiri, maka dikecualikan dari perhitungan penghitungan
kebalikan k-nearest neighbors, yang diimplementasikan oleh baris 9 pada jalur aliran
algoritma RkNN.
Algortima 3. SMOTE-RkNN
Input: A class imbalance data set Ψ, a parameter k1 for SMOTE, a parameter k2 for
RkNN, a threshold parameter λ
Output: A noiseless data set Җ
Procedure:
1. Җ=Ø;
2. Panggil SMOTE dan terapkan pada Ψ, dan dapatkan kumpulan data baru yang
seimbang Φ;
3. Bagi Φ masing-masing menjadi Φ+ and Φ- berdasarkan label kelas setiap instance di Φ,
dan catat jumlah kejadiannya sebagai |Φ+| dan |Φ-|;
4. Panggil RkNN and masing-masing terapkan pada Φ + and Φ- untuk mendapatkan ξ+ and
ξ- ;
5. Hitung Σj|Φ+|rj and Σj|Φ-|rj, secara terpisah;
6. for i =1:| Φ |
n
7. Hitung pi dan p’i untuk instance xi dari persamaan pi = ri / Σ j rj, secara terpisah;
8. Anggap jenis xi dari persamaan:
'
¿ xixi ∈∈ Normal,if'
p i< λ x pi
Noise ,if p i ≥ λ x pi
¿
Apabila termasuk normal instance, terapkan Җ=Җ∪xi ;
9. end
10. Output Җ.
Pada prosedur di atas, baris 2 melakukan prosedur SMOTE pada kumpulan data asli yang
tidak seimbang Ψ untuk memperoleh himpunan baru yang seimbang Φ, baris 3 membagi
instance positif dan negatif dari Φ, baris 4 dan 5 melakukan RkNN prosedur perhitungan
untuk memperoleh informasi densitas probabilitas global, dan pada baris 6 hingga 8,
instance yang mengandung noise dihilangkan dan instance tanpa noise yang tersisa
dicadangkan di Җ. Hanya instance yang masih ada di Җ yang digunakan untuk melatih
model supervised learning. Selain itu, untuk membedakan parameter k, ditetapkan k 1
untuk SMOTE dan k2 untuk RkNN. Kebanyakan varian berbasis SMOTE, termasuk
SMOTE itu sendiri, menetapkan nilai k1 sebagai 5. Sedangkan untuk k2 menjadi √n secara
empiris, di mana n menunjukkan jumlah kejadian.
Pengujian SMOTE-RkNN
Metode ini diuji pada 46 dataset kelas biner yang tidak seimbang, dimana 11 dataset
diambil dari UCI machine learning repository, 29 dataset diambil dari Keel data repository, 2
dataset bioinformatika, dan 4 dataset dari Kaggle. Kumpulan data ini memiliki 3 ~ 32
atribut, 169 ~ 20.000 instance, dan rasio ketidakseimbangan kelas (Imbalance Ratio - IR)
yang bervariasi dari 1,78 hingga 129,92.
Untuk memvalidasi efektivitas dan keunggulan algoritma SMOTE-RkNN, dilakukan
perbandingan dengan dua algoritma dasar: ORI, di mana model klasifikasi dilatih langsung
pada data asli, dan SMOTE. Selain itu algoritma SMOTE-RkNN dibandingkan dengan
beberapa algoritma hybrid sampling berbasis SMOTE, seperti SMOTE-TL, SMOTE-ENN,
SMOTE-RSB dan SMOTE-IPF. Parameter k 1 diatur menjadi nilai yang umum digunakan
yaitu 5 (k1 = 5) untuk diterapkan pada semua algoritma. Adapun parameter lain diberi nilai λ
= 2 dan k2 = √n. G-mean digunakan sebagai metrik evaluasi kinerja. Metrik G-mean
mengevaluasi pertukaran antara akurasi kelas minoritas dan kelas mayoritas. Gaussian Naive
Bayes (GNB) digunakan sebagai classifer. Terakhir, untuk membandingkan kinerja berbagai
algoritme secara tidak memihak, 10-fold cross-validation eksternal acak dilakukan sebanyak
10 kali untuk menghitung hasil akhir. Ini disajikan dalam bentuk mean ± standar deviasi.
Gambar 3. Hasil G-mean dari 7 algoritma komparatif pada 46 kumpulan data tidak seimbang
berdasarkan GNB Classifier
SMOTE-RkNN menunjukkan kinerja yang lebih akurat dan kuat dibandingkan
pesaingnya. Secara khusus, ini memiliki performa terbaik pada 20 kumpulan data dengan
GNB Classifier. Oleh karena itu, dapat disimpulkan bahwa SMOTE-RkNN dapat
beradaptasi dengan distribusi data dengan baik, sehingga mengurangi risiko kegagalan
pengambilan sampel.
Gambar 4. Waktu berjalan (detik) dari 7 algoritma komparatif berdasarkan GNB Classifier
Dalam segi waktu berjalan, algoritma SMOTE-RkNN tidak lebih unggul dibandingkan
algoritma lainnya. Terlihat bahwa urutan algoritma dari yang tercepat adalah ORI < SMOTE
< SMOTE-TL < SMOTE-ENN < SMOTE-IPF < SMOTE-RSB < SMOTE-RkNN. ORI
tidak mengolah data melainkan hanya membangun model klasifikasi pada data asli.
Sebaliknya, SMOTE menambahkan perhitungan lingkungan parsial dalam ruang minoritas,
sedangkan SMOTE-TL dan SMOTE-ENN memperluas perhitungan lingkungan ke seluruh
ruang contoh. SMOTE-IPF melakukan prosedur iterasi yang rumit untuk mencari dan
menghilangkan noise, yang lebih memakan waktu. SMOTE-RSB menghitung perkiraan
yang lebih rendah untuk setiap atribut; dengan demikian, kompleksitas waktunya meningkat
seiring dengan bertambahnya jumlah atribut.