Dengan model machne learning yang lebih baik, studi tentang prediksi kebangkrutan menunjukkan
peningkatan akurasi. Makalah ini mengusulkan tiga metode yang relatif baru dikembangkan untuk
memprediksi kebangkrutan berdasarkan real-life data. Hasilnya menunjukkan di antara metode
(support vector machine, neural network, autoencoder), neural network dengan lapisan tambahan
memiliki akurasi tertinggi. Dan perbandingan dengan metode sebelumnya (logistic regression,
algoritma genetika, pembelajaran induktif) menunjukkan akurasi yang lebih tinggi.
Keywords
Support Vector Machine, Autoencoder, Neural Network, Kebangkrutan, Machine Learning.
1. Latar Belakang
Machine learning adalah subbidang ilmu komputer yang
memungkinkan komputer untuk membangun model analitik data dan
menemukan wawasan tersembunyi secara otomatis, tanpa dikodekan
dengan tegas. Ini telah diterapkan pada berbagai aspek dalam
masyarakat modern, mulai dari klasifikasi urutan DNA, deteksi
penipuan kartu kredit, penggerak robot, hingga pemrosesan bahasa
alami. Ini juga dapat digunakan untuk menyelesaikan banyak jenis
tugas seperti klasifikasi. Prediksi kebangkrutan adalah contoh lain
dari masalah-masalah klasifikasi.
Machine learning lahir dari pengenalan pola. Karya sebelumnya
dari topik yang sama (machine learning dalam kebangkrutan)
menggunakan model termasuk logistic regression, algoritma
genetika, dan pembelajaran induktif.
logistic regression adalah metode statistik yang memungkinkan
peneliti untuk membangun fungsi predikat berdasarkan
sampel. Model ini paling baik digunakan untuk memahami
bagaimana beberapa variabel independen mempengaruhi variabel
hasil tunggal. Meskipun berguna dalam beberapa hal, logistic
regression juga terbatas.
Algoritma genetika didasarkan pada seleksi alam dan evolusi. Itu bisa
digunakan untuk mengekstrak aturan dalam logika proposisional dan
orde pertama, dan untuk memilih set persetujuan jika aturan untuk
masalah klasifikasi rumit.
Kategori utama pembelajaran induktif adalah algoritma decision
tree. Ini mengidentifikasi data pelatihan atau pola pengetahuan
sebelumnya dan kemudian ekstrak aturan umum yang kemudian
digunakan dalam pemecahan masalah.
2. Motif
Tiga model yang kami pilih (SVM, neural network, autoencoder)
relatif baru dikembangkan tetapi telah diterapkan ke banyak bidang.
SVM telah berhasil digunakan dalam banyak masalah dunia nyata
seperti teksisasi, pelacakan objek, dan bioinformatika (Klasifikasi
protein, klasifikasi Kanker). Kategorisasi teks sangat membantu
dalam kehidupan sehari-hari, pencarian web dan penyaringan email
memberikan kemudahan dan efisiensi kerja yang sangat besar.
Neural network dengan contoh, bukan algoritma, sehingga mereka
telah banyak diterapkan untuk masalah di mana sulit atau tidak
mungkin untuk menerapkan metode algoritmik. Misalnya,
pengenalan sidik jari. Orang-orang sekarang dapat menggunakan
sidik jari mereka sebagai kunci untuk membuka kunci ponsel dan
akun pembayaran mereka, tidak perlu lagi menggunakan kata sandi
panjang yang mengganggu.
Autoencoders sangat berhasil dalam menyelesaikan tugas-tugas
sulit seperti pemrosesan bahasa alami (NLP). Mereka telah digunakan
untuk memecahkan masalah yang tampaknya sulit diselesaikan
sebelumnya di NLP, termasuk embeddings word, terjemahan mesin,
pengelompokan dokumen, sentiment analisis, dan deteksi parafrase.
Namun, penggunaan ketiga model di bidang ekonomi atau
keuangan sulit untuk ditemukan. Jadi, kami bertujuan untuk
mengetahui apakah ketiganya masih bekerja dengan baik di bidang
ekonomi dengan menjalankannya dengan data kehidupan nyata dalam
memprediksi kebangkrutan.
Motivasi lain adalah mencari tahu apakah keakuratan masalah
khusus ini (prediksi kebangkrutan) dapat ditingkatkan setelah
membaca karya-karya sebelumnya — Penemuan aturan keputusan
para ahli dari data kebangkrutan kualitatif menggunakan algoritma
genetic, dan Memprediksi Kebangkrutan dengan Logistic regression
yang kuat yang menggunakan model lama. Jadi, perbandingan model
dan hasilnya termasuk dalam makalah ini.
3. Related Work
Dalam hal lain, penemuan aturan keputusan para ahli dari data
kebankrutan kualitatif menggunakan algoritma genetika, pada tahun
2003 oleh Myoung-Jong Kim dan Ingoo Han menggunakan dataset
yang sama seperti yang kami lakukan. Mereka menerapkan model
lama algoritma pembelajaran induktif (decision tree), algoritma
genetika, dan neural network tanpa dropout. Karena panjangnya
genom dalam algoritma genetika adalah tetap, masalah yang
diberikan tidak dapat dengan mudah dikodekan. Dan algoritma
genetika tidak memberikan jaminan untuk menemukan maxima
global. Masalah pembelajaran induktif adalah dengan memecah satu
langkah di depan tanpa mundur ke belakang, yang dapat
menghasilkan pohon suboptimal. Juga, decision tree dapat menjadi
tidak stabil karena variasi kecil dalam data mungkin menghasilkan
pohon yang benar-benar berbeda dari yang seharusnya
dihasilkan. Dan tidak adanya dropout dalam model neural network
meningkatkan kemungkinan overfitting yang mempengaruhi
akurasi. Akurasi keseluruhan adalah 89,7%, 94,0%, dan 90,3%
masing-masing.
Model yang kami pilih baik berisi teknik yang baru dikembangkan,
seperti dropout, atau model yang sama sekali baru yang hampir tidak
digunakan dalam prediksi kebangkrutan.
4. Deskripsi Model
Bagian ini menjelaskan tiga model yang diusulkan.
Mengacu pada
( )
yi ω Tφ ( xi ) + b ≥ 1− ζ i
Dengan dual
min 1 α T Qα − eTα
α 2
yTα = 0, 0 ≤ αi ≤ C , i = 1, , n
n
sgn ∑ yiα i K (xi , x) + ρ
i =1
n
ξ = ∑ w i xi
i=1
z ( l + 1 ) = w ( l + 1 ) y l + b ( l + 1 ) , iii
y ( l + 1 ) = f ( z ( l + 1 ) ) , ii
Gambar 2. Model neural network.
r ( l ) -Bernoulli ( p ), j
y ( l ) = r ( l ) y ( l ) ,
z ( l + 1 ) = w ( l + 1 ) y l + b ( l + 1 ) , iii
4.3. Autoencoder
Pertimbangkan autoencoder n / p / n.
Q tersisa ( θ ) = ( x , y ) x j ≤ t m
Q benar ( θ ) = Q \ Q tersisa ( θ )
Perlengkapan
Kumpulan data Kematraan Contoh latihan Set Tes Validasi
Variasi ketepatan
truncate = 50 0,9899
truncate = 100 0,9933
Variasi ketepatan
tanpa dropout 0,9867 dengan kerugian 0,0462
dengan putus sekolah (tingkat dropout = 0,1) 0,9867 dengan kerugian 0,0292
dengan putus sekolah (angka putus sekolah = 0,3) 0,9933 dengan kerugian 0,0300
dengan putus sekolah (angka putus sekolah = 0,4) 0,9933 dengan kerugian 0,0401
dengan putus sekolah (angka putus sekolah = 0,5) 0,9933 dengan kerugian 0,0278
dengan putus sekolah (angka putus = 0,7) 0,9933 dengan kerugian 0,0428
dengan putus sekolah (tingkat dropout = 0,8) 0,9867 dengan kerugian 0,0318
6. Kesimpulan
Dukungan SVM, neural network, dan autoencoder adalah tiga model
yang relatif baru diterapkan dalam masalah prediksi
kebangkrutan. Keakuratan ketiganya mengalahkan tiga model lama
(logistic regression yang kuat, algoritma pembelajaran induktif,
algoritma genetika). Aspek yang ditingkatkan termasuk kontrol untuk
overfitting, peningkatan probabilitas untuk menemukan maxima
global, dan kemampuan untuk menangani ruang fitur yang
besar. Tulisan ini membandingkan dan menyimpulkan kemajuan
model machine learning mengenai prediksi kebangkrutan, dan
diperiksa untuk melihat kinerja model yang relatif baru dalam konteks
prediksi kebangkrutan yang jarang diterapkan di bidang tersebut.
Tabel 4. Akurasi Model Jaringan Saraf dengan Dua, Tiga, dan Empat Lapisan.
variasi akurasi
dua lapis dengan dropout (angka dropout = 0,5) 0.9933 dengan kerugian
0.0278
tiga lapis (ditambahkan lapisan dengan tebal 200)
dengan dropout (angka dropout = 0,5) 0.9933 dengan kerugian
0.0221
variasi Ketepatan
Tabel 6. Akurasi Model Neural Network dengan SVM atau dengan Decision Tree.
variasi Ketepatan
Model Ketepatan
Jika sampel data tidak cukup besar, terutama ketika kalah jumlah
dengan sejumlah fitur, SVM cenderung memberikan kinerja yang
buruk. Dengan dropout, waktu untuk melatih neural network akan
2 hingga 3 kali lebih lama daripada melatih neural network
standar. Autoencoder menangkap informasi sebanyak mungkin,
tidak selalu informasi yang relevan. Dan ini bisa menjadi masalah
Gambar 5. Kerugian Neural network.
[8] Sima, J. (1998) Pengantar Jaringan Saraf. Laporan Teknis No. 755.