Tugas Review Imbalance Dataset

Tugas Data Science
Review Paper ‘Handling Imbalance Dataset’

Nama : Anastia Ivanabilla Novanti
NIM : 23/524856/PPA/06580
1. Pengertian Imbalance Dataset

Imbalance dataset atau ketidakseimbangan dataset merupakan sebuah permasalahan khusus
yang terjadi sebagai hambatan dalam bidang data science. Permasalahan ini muncul ketika data
di satu kelas (kelas positif/kelas minoritas) lebih sedikit dan sangat kurang terwakili
dibandingkan data yang terkait dengan kelas lain (kelas negatif/kelas mayoritas).
Ketidakseimbangan berarti jumlah titik data yang tersedia untuk kelas-kelas yang berbeda tidak
terdistribusi secara merata, atau bahkan mendekati. Beberapa kasus yang sering terjadi
ketidakseimbangan dataset adalah deteksi panggilan telepon palsu, diagnosis penyakit langka,
pengambilan informasi, kategorisasi teks, dan tugas filtering. Ketidakseimbangan kelas pada
dataset dapat mengurangi akurasi dan kinerja klasifikasi. Misalnya, sebuah dataset yang kelas
mayoritasnya mewakili 99% datanya, dan kelas minoritasnya mewakili 1% datanya (rasio
ketidakseimbangan 99 : 1). Dalam kasus seperti ini, pengklasifikasi naıve, yang selalu
memprediksi kelas mayoritas, akan memiliki akurasi sebesar 99%.
Berikut adalah karakteristik dari imbalance dataset:
a. Disjungsi kecil
Adanya dataset yang tidak seimbang berkaitan erat dengan masalah disjungsi kecil (small
disjuncts). Masalah disjungsi kecil terjadi ketika subkelompok kecil dari kelas minoritas
yang mungkin sangat berbeda dari mayoritas kelas minoritas. Small disjuncts ini dapat
membuat sulit bagi classifier untuk belajar pola yang mendasari data.
b. Kurangnya kepadatan (lack of density)
Salah satu masalah terbesar yang dapat muncul dalam klasifikasi adalah ukuran sampel
yang kecil. Masalah ini terkait dengan ''kurangnya kepadatan'' atau ''kurangnya
informasi'', di mana algoritma induksi tidak memiliki cukup data untuk membuat
generalisasi tentang distribusi sampel.
c. Noisy data
Dataset yang tidak seimbang seringkali memiliki tingkat kebisingan yang tinggi, di mana
contoh dari kelas minoritas mungkin dikelilingi oleh contoh dari kelas mayoritas. Ini
dapat menyebabkan classifier salah mengklasifikasikan contoh dari kelas minoritas.
d. Pergeseran Dataset
Masalah lain yang sering terjadi adalah perpindahan dataset antara data pelatihan dan data
pengujian. Ini berarti bahwa distribusi kelas dalam data pelatihan mungkin tidak sama
dengan distribusi kelas dalam data pengujian, yang dapat mempengaruhi kinerja model.
2. Pendekatan untuk menangani ketidakseimbangan dataset

Beberapa pendekatan yang digunakan untuk mengatasi ketidakseimbangan dataset terbagi
menjadi dua kelompok, yakni pendekatan berorientasi data dan pendekatan berorientasi
algoritma.
2.1. Pendekatan berorientasi data
Pada pendekatan berorientasi data, data dimodifikasi dengan mengambil sampel ulang
ruang data pelatihan utama untuk menyeimbangkan kedua kelas dengan lebih baik. Secara
umum, di kelas minoritas, pada data dilakukan oversampling untuk menyeimbangkan kumpulan
data. Dalam kasus kelas mayoritas, pada data dilakukan undersampling untuk menyeimbangkan
kumpulan data.
a. Oversampling
Oversampling yang memasukkan objek buatan ke dalam ruang data. Teknik yang paling
dikenal pada oversampling adalah SMOTE, meskipun baru-baru ini, terdapat alternatif
yang lebih baik seperti ADASYN atau RAMO. Namun metode oversampling juga dapat
menyebabkan masalah lain, seperti pergeseran distribusi kelas ketika menjalankan terlalu
banyak iterasi.
b. Undersampling
Metode ini dilakukan dengan mengeliminasi beberapa sampel kelas mayoritas secara
acak. Undersampling dibagi menjadi dua bentuk: informative undersampling dan random
undersampling. Metode Informative Undersampling memilih instance kelas mayoritas
berdasarkan kriteria yang telah ditentukan untuk membuat data lebih seimbang. Random
undersampling adalah metode yang menghapus contoh positif dari kumpulan data asli
secara acak hingga jumlah contoh positif mendekati jumlah contoh negatif. Teknik ini
memiliki kekurangan, yaitu dapat menyebabkan hilangnya informasi karena contoh yang
dihapus mungkin berisi informasi yang berguna.
c. Hybrid method
Metode ini merupakan gabungan antara metode oversampling dan metode
undersampling. Meskipun oversampling dan undersampling dapat menyeimbangkan
distribusi kelas, keduanya memiliki kelemahan, seperti generalisasi berlebihan dan
penghapusan data berguna. Oleh karena itu, beberapa metode hybrid telah dikembangkan
untuk menggabungkan SMOTE dan under-sampling sebagai metode pembersihan data
untuk mengurangi masalah.
1) SMOTE+ENN (2004)
Tahapan yang dilakukan pada metode Smote + ENN adalah sebagai berikut:
1. Pertama, data set asli di oversampling dengan menggunakan metode Smote.
2. Kemudian, metode Edited Nearest Neighbors (ENN) diaplikasikan untuk
mengidentifikasi dan menghapus contoh-contoh yang salah diklasifikasikan oleh tiga
tetangga terdekatnya.
Kelebihan dari metode SMOTE+ENN adalah dapat membantu dalam menghapus
contoh-contoh yang mengandung noise atau salah diklasifikasikan, yang pada akhirnya
dapat membantu dalam menemukan kluster kelas yang lebih baik didefinisikan. Selain
itu metode ini juga dapat meningkatkan kinerja model klasifikasi, terutama dalam kasus
di mana jumlah contoh positif sangat sedikit. Namun, metode ini memiliki beberapa
kekurangan yaitu dapat menghapus terlalu banyak contoh sehingga menyebabkan
hilangnya informasi penting, menambahkan terlalu banyak contoh sintetis yang dapat
menyebabkan overfitting, dan memerlukan waktu komputasi yang lebih lama
dibandingkan dengan metode lainnya.
2) DBSMOTE (2011)
Density-Based Synthetic Minority Over-sampling Technique adalah teknik
oversampling yang didasarkan pada konsep kepadatan kluster dan dirancang untuk
over-sample kluster berbentuk sembarang yang ditemukan oleh DBSCAN. Teknik ini
telah terbukti meningkatkan presisi, nilai-F, dan AUC lebih efektif daripada teknik
oversampling lainnya. Tahapan dalam DBSMOTE adal sebagai berikut:
1. DBSCAN dimulai untuk menghasilkan m kluster yang tidak beririsan C1, C2, ...,
Cm, dan mendeteksi sekumpulan instance noise N, yang akan dihapus pada langkah
berikutnya dari kelas minoritas D+.
2. DBSMOTE kemudian menghasilkan m set instance sintetis: C'1, C'2, ..., C'm.
Akhirnya, set-set ini digabungkan dengan dataset asli D untuk menciptakan dataset
over-sampled D'.
3. Setelah kerangka kerja ini berakhir, hasilnya adalah n - t instance sintetis, di mana n
dan t adalah jumlah instance dalam D+ dan N, masing-masing.
4. Over-sampling sepanjang jalur terpendek menghindari masalah tumpang tindih
karena jalur terpendek ini adalah jalur kerangka.
Kelebihan DBSMOTE adalah dapat menghasilkan instance sintetis di tempat yang
paling tepat, yang menyebabkan classifier berkonsentrasi pada inti kelas minoritas yang
penting. Ini berkontribusi pada peningkatan kinerja classifier. Sedangkan Kekurangan
DBSMOTE yaitu dapat terpengaruh oleh masalah over-generalization karena SMOTE
secara buta memperluas seluruh kelas minoritas tanpa mempertimbangkan kelas
mayoritas, terutama di wilayah yang tumpang tindih.
3) E-SMOTE (2011)
Evolutionary Synthetic Minority Over Sampling Technique adalah metode yang
didasarkan pada Algoritma Genetik dan menghasilkan contoh minoritas sintetis untuk
over-sample kelas minoritas. Tahapan dari E-SMOTE adalah sebagai berikut:
1. Membuat populasi awal secara acak.
2. Menghitung dan menyimpan kecocokan untuk setiap data.
3. Mendefinisikan probabilitas seleksi.
4. Menghasilkan probabilitas seleksi.
5. Mengulangi langkah 2 hingga 4 sampai proses seleksi terpenuhi.
6. Berdasarkan iterasi terakhir, teknik SMOTE diterapkan.
Kelebihan dari E-SMOTE adalah membantu dalam menghindari masalah overfitting
dengan menyebabkan batas keputusan untuk kelas minoritas menyebar lebih jauh ke
dalam ruang kelas mayoritas. Namun, E-SMOTE juga memiliki beberapa
kekurangan yaitu mungkin tidak efektif jika kelas minoritas memiliki variasi yang
tinggi, tidak selalu menghasilkan peningkatan kinerja jika data sudah cukup seimbang
dan dalam proses pembuatan contoh sintetis dapat memerlukan waktu dan sumber daya
komputasi yang signifikan, terutama untuk dataset yang sangat besar.
4) SMOTE-IPF (2015)
SMOTE-IPF adalah metode yang menggabungkan Synthetic Minority Over-sampling
Technique (SMOTE) dan Iterative Partitioning Filter (IPF) untuk menangani dataset
yang tidak seimbang. Pendekatan ini telah ditemukan dapat meningkatkan hasil
dibandingkan dengan tidak melakukan pra-pemrosesan atau hanya melakukan pra-
pemrosesan dengan SMOTE. Filter IPF sangat cocok untuk jenis masalah ini ketika
diproses terlebih dahulu dengan SMOTE karena proses deteksi dan eliminasi noise yang
iteratif dan kemungkinan untuk mengontrol keragaman antara classifier. Tahapan dari
metode SMOTE-IPF adalah sebagai berikut:
1. Menggunakan algoritma SMOTE untuk menyeimbangkan distribusi kelas dan
mengisi bagian dalam sub-bagian dari kelas minoritas.
2. Menerapkan filter IPF untuk menghapus contoh yang berisik yang awalnya ada di
dataset dan yang dibuat oleh SMOTE
3. Melakukan iterasi dalam proses deteksi dan eliminasi noise.
4. Mengontrol keragaman antara classifier.
Kelebihan dari SMOTE-IPF adalah sangat cocok untuk jenis masalah yang paling
kompleks, seperti dataset sintetis non-linear dan masalah dunia nyata yang memiliki
noise. Namun, SMOTE-IPF juga memiliki kekurangan yaitu tantangan dalam
parametrisasinya, karena ada banyak parameter dan perilaku filter sangat bergantung
pada nilai-nilai mereka.
5) GASMOTE (2016)
Genetic Algorithm-based SMOTE terdiri dari beberapa langkah sebagai berikut:
1. Pengumpulan data yang tidak seimbang yang akan digunakan untuk klasifikasi.
2. Preprocessing data untuk mempersiapkan data sebelum dilakukan algoritma
GASMOTE.
3. Penerapan algoritma GASMOTE yang menggunakan pendekatan genetika untuk
menghasilkan tingkat sampling yang optimal untuk setiap instance kelas minoritas.
Algoritma ini menggabungkan teknik SMOTE dengan algoritma genetika untuk
mencapai hasil yang lebih baik dalam klasifikasi data yang tidak seimbang.
6) VIS-RST (2016)
Metode ini menggabungkan metode Versatile Improved SMOTE (VIS) dan Rough Sets.
Metode ini terdiri dari beberapa langkah, yaitu:
1. Preprocessing data menggunakan metode Versatile Improved SMOTE (VIS) untuk
mengatasi ketidakseimbangan kelas pada data.
2. Pembersihan data menggunakan metode Rough Sets untuk mengatasi kompleksitas
distribusi data, seperti adanya tumpang tindih kelas, noise, dan disjunct kecil.
3. Pengklasifikasian data menggunakan algoritme klasifikasi yang sesuai.
Kelebihan dari metode ini adalah dapat menangani distribusi data yang kompleks dengan
menerapkan mekanisme khusus untuk setiap kelompok spesifik contoh kelas
minoritas dan juga dapat menangani ketidakpastian dengan memberi label ulang data
mayoritas yang ambigu. Namun, ada juga beberapa kekurangan metode ini yaitu dalam
kasus masalah yang sangat kompleks, algoritma VIS dapat berkontribusi pada pembuatan
objek berisik dan metode ini hanya diterapkan pada masalah dua kelas dan set data yang
ditandai oleh atribut nominal.
7) CCR(2017)
Combined Cleaning and Resampling merupakan teknik yang terdiri dari beberapa
langkah sebagai berikut:
1. Pembersihan data untuk menghilangkan contoh mayoritas yang terlalu dekat dengan
contoh minoritas, sehingga memperjauh batas keputusan antara kelas mayoritas dan
minoritas.
2. Melakukan oversampling dengan menghasilkan data sintetis di sekitar contoh yang
dianggap tidak aman. Data sintetis ini dihasilkan dengan jumlah yang lebih tinggi
daripada contoh minoritas yang asli.
Terdapat kekurangan metode CCR, yaitu tidak dirancang untuk menangani data
kategorikal dan karena metode ini berbasis jarak, performanya terbaik ketika fitur
mengambil nilai dalam rentang yang serupa.
8) NCL + ASUWO (2018)
Metode undersampling yang digunakan adalah Neighborhood Cleaning Rule (NCL),
sedangkan metode oversampling yang digunakan adalah Adaptive Semi-unsupervised
Weighted Oversampling (A-SUWO).
Kelebihan dari metode NCL dan A-SUWO adalah metode NCL yang sangat
mempertimbangkan kualitas data yang akan dihapus dengan tidak hanya berfokus pada
pengurangan data tetapi lebih pada pembersihan data (data cleaning), dan metode A-
SUWO mampu mengatasi overfitting data sehingga mombinasi metode NCL dan A-
SUWO mampu meningkatkan nilai akurasi dan nilai ROC secara konsisten. Adapun
kekurangan dari metode ini adalah dapat menghapus data yang sebenarnya relevan dan
penting untuk proses klasifikasi dan sering kali tumpang tindih dengan data dalam kelas
mayoritas sehingga dapat menghasilkan penurunan kinerja klasifikasi yang signifikan.
9) MDOTE (2019)
MDOTE (Manifold Distance-Based Over-Sampling Technique) adalah teknik yang
menghasilkan sampel minoritas dengan menciptakan sampel baru sepanjang garis antara
sampel kelas minoritas dan tetangganya berdasarkan jarak manifold. Kelebihan MDOTE
adalah dapat membantu menyeimbangkan dataset dan menunjukkan akurasi klasifikasi
yang lebih baik dibandingkan dengan metode baseline lainnya, namun, ada juga potensi
keterbatasan MDOTE yaitu bergantung pada kualitas pembelajaran manifold, dan
struktur yang diekstrak oleh pembelajaran manifold mungkin perlu ditingkatkan dengan
teknik optimasi yang lebih canggih.
10) SMOTE-RkNN (2022)
SMOTE-RkNN adalah algoritma hybrid sampling baru untuk penanganan
ketidakseimbangan dataset dengan menggabungkan Teknik Oversampling SMOTE dan
Reverse k-Nearest Neighbors (RkNN). Fungsi SMOTE (Synthetic Minority Over-
sampling Technique) dalam metode ini adalah untuk menghasilkan set pelatihan yang
seimbang dari set data yang tidak seimbang. Algoritma oversampling SMOTE akan
membuat sampel sintetis dari kelas minoritas. Namun, SMOTE juga memiliki kelemahan
yaitu cenderung menyebabkan penyebaran noise. Algoritma undersampling RkNN
dilakukan setelah prosedur oversampling SMOTE untuk membersihkan instance noise
tersebut.
Algoritma 1. SMOTE
Input: A class imbalance data set Ψ, a parameter k
Output: A new balanced data set Φ
Procedure:
1. Bagi Ψ masing-masing menjadi Ψ+ and Ψ- berdasarkan label kelas setiap instance di Ψ,
dan catat jumlah instance sebagai | Ψ+ | and | Ψ-|;
2. Ω = ∅ ;
3. for i =1:| Ψ-|-| Ψ+ |
4. Pilih sebuah instance Χ in Ψ+ secara acak;
5. Cari k nearest neighbors dari Χ in Ψ+;
6. Pilih salah satu k nearest neighbors dari Χ secara acak, dan catat sebagai y;
7. Hasilkan instance minoritas baru zi = x + δΧ (y-x), dimana δ adalah angka acak yang
berada di antara 0 dan 1;
8. Ω = Ω ∪ zi ;
9. end
10. Φ = Ψ ∪ Ω.
Dari algoritma SMOTE, diamati bahwa setiap instance sintetik dihasilkan antara instance
minoritas dan salah satu dari k minority nearest neighbors. Oleh karena itu, SMOTE
berisiko menimbulkan kebisingan sintetis (synthetic noise). Fenomena ini disebut juga
perambatan kebisingan (noise propagation).
Algoritma 2. RkNN
Input: A dataset Φ ={x1, x2, ..., xn}, a parameter k
Output: A vector ξ ={r1, r2,...rn} containing the reserve k-nearest neighbors counts for all
instances in Φ
Procedure:
1. Tetapkan zero vector ξ dengan panjang n;
2. Tetapkan n x n zero matrix θ;
3. for i =1: n
4. for j =1:n
5. Hitung jarak Euclidean antara xi dan xj, dan gunakan untuk menggantikan θ(i, j);
6. end
7. end
8. for i =1: n
9. Urutkan θ (i, :) dalam urutan menaik, dan temukan nomor urut instance dari peringkat
ke-2 hingga peringkat (k + 1);
10. Untuk setiap nomor seri yang tercatat, temukan varians r yang sesuai di ξ, dan buat r =
r +1;
11. end
12. Output ξ.
Dalam deskripsi algoritma RkNN, matriks θ digunakan untuk menyimpan jarak antara
dua instance, dan ξ digunakan untuk mencatat jumlah cadangan k-nearest neighbors
untuk semua instance. Selain itu, mengingat bahwa setiap instance selalu memiliki jarak
terpendek dengan dirinya sendiri, maka dikecualikan dari perhitungan penghitungan
kebalikan k-nearest neighbors, yang diimplementasikan oleh baris 9 pada jalur aliran
algoritma RkNN.
Algortima 3. SMOTE-RkNN
Input: A class imbalance data set Ψ, a parameter k1 for SMOTE, a parameter k2 for
RkNN, a threshold parameter λ
Output: A noiseless data set Җ
Procedure:
1. Җ=Ø;
2. Panggil SMOTE dan terapkan pada Ψ, dan dapatkan kumpulan data baru yang
seimbang Φ;
3. Bagi Φ masing-masing menjadi Φ+ and Φ- berdasarkan label kelas setiap instance di Φ,
dan catat jumlah kejadiannya sebagai |Φ+| dan |Φ-|;
4. Panggil RkNN and masing-masing terapkan pada Φ + and Φ- untuk mendapatkan ξ+ and
ξ- ;
5. Hitung Σj|Φ+|rj and Σj|Φ-|rj, secara terpisah;
6. for i =1:| Φ |
n
7. Hitung pi dan p’i untuk instance xi dari persamaan pi = ri / Σ j rj, secara terpisah;
8. Anggap jenis xi dari persamaan:
'
¿ xixi ∈∈ Normal,if'
p i< λ x pi
Noise ,if p i ≥ λ x pi
¿
Apabila termasuk normal instance, terapkan Җ=Җ∪xi ;
9. end
10. Output Җ.
Pada prosedur di atas, baris 2 melakukan prosedur SMOTE pada kumpulan data asli yang
tidak seimbang Ψ untuk memperoleh himpunan baru yang seimbang Φ, baris 3 membagi
instance positif dan negatif dari Φ, baris 4 dan 5 melakukan RkNN prosedur perhitungan
untuk memperoleh informasi densitas probabilitas global, dan pada baris 6 hingga 8,
instance yang mengandung noise dihilangkan dan instance tanpa noise yang tersisa
dicadangkan di Җ. Hanya instance yang masih ada di Җ yang digunakan untuk melatih
model supervised learning. Selain itu, untuk membedakan parameter k, ditetapkan k 1
untuk SMOTE dan k2 untuk RkNN. Kebanyakan varian berbasis SMOTE, termasuk
SMOTE itu sendiri, menetapkan nilai k1 sebagai 5. Sedangkan untuk k2 menjadi √n secara
empiris, di mana n menunjukkan jumlah kejadian.
Gambar 1. Distribusi data dalam kumpulan data sintetis.

Gambar 2. Distribusi data setelah diolah dengan SMOTE dan berbagai varian sampling hybrid
SMOTE.
Gambar 1 menyajikan distribusi data dari kumpulan data sintetik yang dihasilkan, dan
Gambar 2 mengilustrasikan distribusi data setelah diproses oleh SMOTE, SMOTE-TL,
SMOTE-ENN, SMOTE-RSB, SMOTE-IPF, dan algoritma SMOTE-RkNN yang
diusulkan.
Seperti yang ditunjukkan pada Gambar 2, SMOTE menyebarkan noise untuk kelas
minoritas, dan meskipun beberapa algoritma sampling hibrid yang diusulkan sebelumnya
dapat mengurangi fenomena ini pada tingkat yang lebih besar atau lebih kecil, mereka
masih menyimpan banyak noise. SMOTE-RkNN dapat menyediakan data dengan
distribusi yang lebih murni, memverifikasi efektivitas dan kelayakan penerapan RkNN
sebagai alat untuk menghilangkan noise pada data. Dengan demikian, SMOTE-RkNN
diharapkan memiliki kinerja yang lebih baik dibandingkan algoritma lainnya pada
distribusi data yang lebih kompleks
Analisis kompleksitas waktu SMOTE-RkNN

Algoritma SMOTE-RkNN dapat dibagi menjadi tiga sub-prosedur. Misalkan kumpulan
data berisi n instance yang setiap instancenya menyertakan m atribut. Pertama, di SMOTE,
menghasilkan setiap instance baru membutuhkan waktu O(nm) untuk menghitung jarak, dan
O(nlogn) waktu untuk peringkat. Saat SMOTE menghasilkan total | Ψ -|-| Ψ+ | Misalnya,
yang dapat dianggap sebagai fungsi linier terhadap n, ia menghabiskan total waktu O(n 2m +
n2logn). Selanjutnya, RkNN membutuhkan waktu O(n2m) dan O(n2logn) untuk masing-
masing menghitung jarak dan peringkat. Yang terakhir, menghitung densitas probabilitas
dalam kelas dimana sebuah instance berada membutuhkan waktu O(n), yang menunjukkan
penghematan waktu yang ekstrim, sedangkan menghitung densitas probabilitas di kelas lain
juga memerlukan waktu O(n2m + n2logn), yang setara dengan melakukan prosedur RkNN,
lagi. Selain itu, menyelesaikan penilaian apakah suatu instance merupakan noise atau normal
akan memakan waktu O(n), yang juga menghemat waktu. Ringkasnya, kompleksitas waktu
pada algoritma SMOTE-RkNN adalah O(n2m + n2logn).
Meskipun SMOTE-RkNN memiliki kompleksitas waktu yang sama dengan SMOTE,
namun lebih memakan waktu dibandingkan SMOTE. Hal ini karena SMOTE hanya
menghasilkan n X (IR – 1)/(IR + 1) instance, dimana IR adalah | Ψ -|/| Ψ+ | , sedangkan
SMOTE-RkNN menyertakan dua prosedur yang lebih memakan waktu, yaitu RkNN dan
penghitungan kepadatan probabilitas, setelah menyelesaikan proses SMOTE. Oleh karena
itu, meskipun algoritma SMOTE-RkNN efektif dan tangguh, terdapat kelemahan dalam hal
waktu berjalan dibandingkan dengan pendahulunya.
Pengujian SMOTE-RkNN
Metode ini diuji pada 46 dataset kelas biner yang tidak seimbang, dimana 11 dataset
diambil dari UCI machine learning repository, 29 dataset diambil dari Keel data repository, 2
dataset bioinformatika, dan 4 dataset dari Kaggle. Kumpulan data ini memiliki 3 ~ 32
atribut, 169 ~ 20.000 instance, dan rasio ketidakseimbangan kelas (Imbalance Ratio - IR)
yang bervariasi dari 1,78 hingga 129,92.
Untuk memvalidasi efektivitas dan keunggulan algoritma SMOTE-RkNN, dilakukan
perbandingan dengan dua algoritma dasar: ORI, di mana model klasifikasi dilatih langsung
pada data asli, dan SMOTE. Selain itu algoritma SMOTE-RkNN dibandingkan dengan
beberapa algoritma hybrid sampling berbasis SMOTE, seperti SMOTE-TL, SMOTE-ENN,
SMOTE-RSB dan SMOTE-IPF. Parameter k 1 diatur menjadi nilai yang umum digunakan
yaitu 5 (k1 = 5) untuk diterapkan pada semua algoritma. Adapun parameter lain diberi nilai λ
= 2 dan k2 = √n. G-mean digunakan sebagai metrik evaluasi kinerja. Metrik G-mean
mengevaluasi pertukaran antara akurasi kelas minoritas dan kelas mayoritas. Gaussian Naive
Bayes (GNB) digunakan sebagai classifer. Terakhir, untuk membandingkan kinerja berbagai
algoritme secara tidak memihak, 10-fold cross-validation eksternal acak dilakukan sebanyak
10 kali untuk menghitung hasil akhir. Ini disajikan dalam bentuk mean ± standar deviasi.
Gambar 3. Hasil G-mean dari 7 algoritma komparatif pada 46 kumpulan data tidak seimbang
berdasarkan GNB Classifier
SMOTE-RkNN menunjukkan kinerja yang lebih akurat dan kuat dibandingkan
pesaingnya. Secara khusus, ini memiliki performa terbaik pada 20 kumpulan data dengan
GNB Classifier. Oleh karena itu, dapat disimpulkan bahwa SMOTE-RkNN dapat
beradaptasi dengan distribusi data dengan baik, sehingga mengurangi risiko kegagalan
pengambilan sampel.
Gambar 4. Waktu berjalan (detik) dari 7 algoritma komparatif berdasarkan GNB Classifier
Dalam segi waktu berjalan, algoritma SMOTE-RkNN tidak lebih unggul dibandingkan
algoritma lainnya. Terlihat bahwa urutan algoritma dari yang tercepat adalah ORI < SMOTE
< SMOTE-TL < SMOTE-ENN < SMOTE-IPF < SMOTE-RSB < SMOTE-RkNN. ORI
tidak mengolah data melainkan hanya membangun model klasifikasi pada data asli.
Sebaliknya, SMOTE menambahkan perhitungan lingkungan parsial dalam ruang minoritas,
sedangkan SMOTE-TL dan SMOTE-ENN memperluas perhitungan lingkungan ke seluruh
ruang contoh. SMOTE-IPF melakukan prosedur iterasi yang rumit untuk mencari dan
menghilangkan noise, yang lebih memakan waktu. SMOTE-RSB menghitung perkiraan
yang lebih rendah untuk setiap atribut; dengan demikian, kompleksitas waktunya meningkat
seiring dengan bertambahnya jumlah atribut.
Analisis kelebihan dan kekurangan

Metode SMOTE-RkNN memiliki beberapa kelebihan sebagai berikut:
1. SMOTE-RkNN dapat mencerminkan distribusi densitas (kepadatan) data secara
menyeluruh, memberikan hasil denoising yang akurat dan kuat.
2. Metode ini mengurangi risiko gagal mengidentifikasi instance noise yang sebenarnya.
3. SMOTE-RkNN menunjukkan peningkatan kinerja yang signifikan dibandingkan dengan
variasi hybrid sampling berbasis SMOTE lainnya.
4. SMOTE-RkNN dapat beradaptasi dengan baik dengan distribusi data, mengurangi risiko
kegagalan dalam sampling.
Namun, metode ini juga memiliki beberapa kekurangan:

1. SMOTE-RkNN memiliki kompleksitas waktu yang lebih tinggi dibandingkan dengan
beberapa algoritma lainnya karena memerlukan perhitungan jarak dan peringkat yang
memakan waktu untuk setiap instance dalam set data.
2. Meskipun SMOTE-RkNN efektif dalam mengidentifikasi dan menghapus noise, ada
risiko bahwa beberapa instance yang bukan noise mungkin juga dihapus.
3. Seperti semua teknik oversampling, SMOTE-RkNN mungkin tidak efektif jika kelas
minoritas terdiri dari beberapa kluster yang terpisah atau jika ada overlap yang signifikan
antara kelas.
2.2. Pendekatan Berorientasi Algoritma

Pendekatan berbasis algoritma yang juga dikenal sebagai pendekatan tingkat
pengklasifikasi menjaga dataset pelatihan tidak berubah-ubah dan menyesuaikan algoritma
inferensi untuk memfasilitasi tugas pembelajaran khususnya yang terkait dengan kelas minoritas.
Metode ini mencakup metode hybrid seperti ensemble dan metode klasik thresolding, one class
classification and cost sensitive learning.

Tugas Review Imbalance Dataset

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Review Imbalance Dataset

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Data Science

Review Paper ‘Handling Imbalance Dataset’

1. Pengertian Imbalance Dataset

2. Pendekatan untuk menangani ketidakseimbangan dataset

Gambar 1. Distribusi data dalam kumpulan data sintetis.

Analisis kompleksitas waktu SMOTE-RkNN

Analisis kelebihan dan kekurangan

Namun, metode ini juga memiliki beberapa kekurangan:

2.2. Pendekatan Berorientasi Algoritma

Anda mungkin juga menyukai