Anda di halaman 1dari 12

Abstrak

Dengan model machne learning yang lebih baik, studi tentang prediksi kebangkrutan menunjukkan
peningkatan akurasi. Makalah ini mengusulkan tiga metode yang relatif baru dikembangkan untuk
memprediksi kebangkrutan berdasarkan real-life data. Hasilnya menunjukkan di antara metode
(support vector machine, neural network, autoencoder), neural network dengan lapisan tambahan
memiliki akurasi tertinggi. Dan perbandingan dengan metode sebelumnya (logistic regression,
algoritma genetika, pembelajaran induktif) menunjukkan akurasi yang lebih tinggi.

Keywords
Support Vector Machine, Autoencoder, Neural Network, Kebangkrutan, Machine Learning.

1. Latar Belakang
Machine learning adalah subbidang ilmu komputer yang
memungkinkan komputer untuk membangun model analitik data dan
menemukan wawasan tersembunyi secara otomatis, tanpa dikodekan
dengan tegas. Ini telah diterapkan pada berbagai aspek dalam
masyarakat modern, mulai dari klasifikasi urutan DNA, deteksi
penipuan kartu kredit, penggerak robot, hingga pemrosesan bahasa
alami. Ini juga dapat digunakan untuk menyelesaikan banyak jenis
tugas seperti klasifikasi. Prediksi kebangkrutan adalah contoh lain
dari masalah-masalah klasifikasi.
Machine learning lahir dari pengenalan pola. Karya sebelumnya
dari topik yang sama (machine learning dalam kebangkrutan)
menggunakan model termasuk logistic regression, algoritma
genetika, dan pembelajaran induktif.
logistic regression adalah metode statistik yang memungkinkan
peneliti untuk membangun fungsi predikat berdasarkan
sampel. Model ini paling baik digunakan untuk memahami
bagaimana beberapa variabel independen mempengaruhi variabel
hasil tunggal. Meskipun berguna dalam beberapa hal, logistic
regression juga terbatas.
Algoritma genetika didasarkan pada seleksi alam dan evolusi. Itu bisa
digunakan untuk mengekstrak aturan dalam logika proposisional dan
orde pertama, dan untuk memilih set persetujuan jika aturan untuk
masalah klasifikasi rumit.
Kategori utama pembelajaran induktif adalah algoritma decision
tree. Ini mengidentifikasi data pelatihan atau pola pengetahuan
sebelumnya dan kemudian ekstrak aturan umum yang kemudian
digunakan dalam pemecahan masalah.

Untuk melihat apakah akurasi prediksi kebangkrutan dapat lebih


ditingkatkan, kami mengusulkan tiga model terbaru — mendukung
support vector machine (SVM), neural network, dan autoencoder.

Support vector machine adalah metode pembelajaran yang diawasi


yang sangat efektif dalam kasus dimensi tinggi, dan memori efisien
karena menggunakan subset training poin dalam fungsi
keputusan. Juga, menspesifikasi fungsi kernel sesuai dengan fungsi
keputusan. Properti matematika yang bagus menjamin masalah
optimasi simple convex untuk menyatu menjadi satu masalah global.
Neura network, tidak seperti komputer konvensional, adalah model
ekspresif yang dipelajari oleh contoh. Mereka mengandung beberapa
lapisan tersembunyi, sehingga mampu mempelajari hubungan yang
sangat rumit antara input dan output. Dan mereka beroperasi secara
signifikan lebih cepat daripada teknik konvensional. Namun, karena
data pelatihan yang dipadukan, overfitting akan mempengaruhi
akurasi tertinggi. Untuk mencegah hal ini, teknik yang disebut dropout
- sementara dan secara acak menghapus unit (tersembunyi dan
terlihat) - ke neural network.

Autoencoder, juga dikenal sebagai jaringan Diabolo, adalah


algoritma pembelajaran tanpa pengawasan yang menetapkan nilai
target agar sama dengan input. Dengan melakukan ini, ia menekan
perhitungan mewakili beberapa fungsi, yang meningkatkan
akurasi. Juga, jumlah data pelatihan yang diperlukan untuk
mempelajari fungsi-fungsi ini berkurang.
Makalah ini disusun sebagai berikut. Bagian 2 menjelaskan
motivasi untuk ide ini. Bagian 3 menjelaskan pekerjaan sebelumnya
yang relevan. Bagian 4 secara resmi menjelaskan tiga model. Dalam
Bagian 5 kami menyajikan hasil eksperimen kami di mana kami
melakukan perbandingan paralel dalam tiga model yang kami pilih
dan perbandingan longitudinal dengan tiga model lama. Bagian 6
adalah kesimpulannya. Bagian 7 adalah referensi.

2. Motif
Tiga model yang kami pilih (SVM, neural network, autoencoder)
relatif baru dikembangkan tetapi telah diterapkan ke banyak bidang.
SVM telah berhasil digunakan dalam banyak masalah dunia nyata
seperti teksisasi, pelacakan objek, dan bioinformatika (Klasifikasi
protein, klasifikasi Kanker). Kategorisasi teks sangat membantu
dalam kehidupan sehari-hari, pencarian web dan penyaringan email
memberikan kemudahan dan efisiensi kerja yang sangat besar.
Neural network dengan contoh, bukan algoritma, sehingga mereka
telah banyak diterapkan untuk masalah di mana sulit atau tidak
mungkin untuk menerapkan metode algoritmik. Misalnya,
pengenalan sidik jari. Orang-orang sekarang dapat menggunakan
sidik jari mereka sebagai kunci untuk membuka kunci ponsel dan
akun pembayaran mereka, tidak perlu lagi menggunakan kata sandi
panjang yang mengganggu.
Autoencoders sangat berhasil dalam menyelesaikan tugas-tugas
sulit seperti pemrosesan bahasa alami (NLP). Mereka telah digunakan
untuk memecahkan masalah yang tampaknya sulit diselesaikan
sebelumnya di NLP, termasuk embeddings word, terjemahan mesin,
pengelompokan dokumen, sentiment analisis, dan deteksi parafrase.
Namun, penggunaan ketiga model di bidang ekonomi atau
keuangan sulit untuk ditemukan. Jadi, kami bertujuan untuk
mengetahui apakah ketiganya masih bekerja dengan baik di bidang
ekonomi dengan menjalankannya dengan data kehidupan nyata dalam
memprediksi kebangkrutan.
Motivasi lain adalah mencari tahu apakah keakuratan masalah
khusus ini (prediksi kebangkrutan) dapat ditingkatkan setelah
membaca karya-karya sebelumnya — Penemuan aturan keputusan
para ahli dari data kebangkrutan kualitatif menggunakan algoritma
genetic, dan Memprediksi Kebangkrutan dengan Logistic regression
yang kuat yang menggunakan model lama. Jadi, perbandingan model
dan hasilnya termasuk dalam makalah ini.

3. Related Work

Machine learning memungkinkan komputer untuk menemukan


wawasan dari data secara otomatis. Ide menggunakan machine
learning untuk memprediksi kebangkrutan sebelumnya telah
digunakan dalam konteks Memprediksi Kebangkrutan dengan Robust
Logistic Regression oleh Richard P. Hauser dan David
Booth. Makalah ini menggunakan logistic regression yang kuat yang
menemukan korelasi terpangkas maksimum antara sampel yang
kembali tersisa setelah menghapus sampel terlalu besar dan model
yang diperkirakan menggunakan logistic regression. Model ini
memiliki keterbatasannya. Nilai dari teknik ini sangat bergantung
pada kemampuan peneliti untuk memasukkan variabel independen
yang benar.
Dengan kata lain, jika peneliti gagal mengidentifikasi semua
variabel independen yang relevan, logistic regression akan memiliki
nilai prediktif yang sedikit. Akuntabilitas keseluruhannya adalah
75,69% dalam set pelatihan dan 69,44% dalam set pengujian.

Dalam hal lain, penemuan aturan keputusan para ahli dari data
kebankrutan kualitatif menggunakan algoritma genetika, pada tahun
2003 oleh Myoung-Jong Kim dan Ingoo Han menggunakan dataset
yang sama seperti yang kami lakukan. Mereka menerapkan model
lama algoritma pembelajaran induktif (decision tree), algoritma
genetika, dan neural network tanpa dropout. Karena panjangnya
genom dalam algoritma genetika adalah tetap, masalah yang
diberikan tidak dapat dengan mudah dikodekan. Dan algoritma
genetika tidak memberikan jaminan untuk menemukan maxima
global. Masalah pembelajaran induktif adalah dengan memecah satu
langkah di depan tanpa mundur ke belakang, yang dapat
menghasilkan pohon suboptimal. Juga, decision tree dapat menjadi
tidak stabil karena variasi kecil dalam data mungkin menghasilkan
pohon yang benar-benar berbeda dari yang seharusnya
dihasilkan. Dan tidak adanya dropout dalam model neural network
meningkatkan kemungkinan overfitting yang mempengaruhi
akurasi. Akurasi keseluruhan adalah 89,7%, 94,0%, dan 90,3%
masing-masing.

Model yang kami pilih baik berisi teknik yang baru dikembangkan,
seperti dropout, atau model yang sama sekali baru yang hampir tidak
digunakan dalam prediksi kebangkrutan.

4. Deskripsi Model
Bagian ini menjelaskan tiga model yang diusulkan.

4.1. Support Vector Machine

Secara khusus, kami menggunakan dukungan pengklasifikasian


vektor (SVC), subkategori SVM, dalam tugas ini. Ini membangun
hyper-plane, seperti yang ditunjukkan pada Gambar 1 , dalam ruang
dimensi tinggi yang digunakan untuk klasifikasi. Secara umum,
pemisahan yang baik diwakili oleh garis padat pada Gambar 1 berarti
jarak (ruang antara garis putus-putus) ke titik data pelatihan terdekat
(titik merah dan biru) kelas apa pun (diwakili oleh warna merah dan
biru) adalah yang terbesar. Ini juga dikenal sebagai margin fungsional.

Dengan training vektor dalam dua kelas dan satu vektor,


xi ∈ p
, i = 1, , n, y ∈ {1, −1}n

masing-masing, SVM bertujuan memecahkan masalah:


n
1 T
min ω ω + C∑ζ i
ω ,b,ζ 2 i=1

Mengacu pada
( )
yi ω Tφ ( xi ) + b ≥ 1− ζ i

Dengan dual

min 1 α T Qα − eTα
α 2

yTα = 0, 0 ≤ αi ≤ C , i = 1, , n

di mana e adalah vektor umum, C > 0 adalah batas atas, Q adalah n


oleh n semi-positif matriks pasti, Q ij ≡ y i y j k ( x i ∙ x j ) , dan K ( x
i , x j ) = φ ( x i ) T φ ( x j ) adalah kernel.
Gambar 1. Model SVM

Ini adalah fungsi secara implisit memetakan vektor-vektor pelatihan ke


dalam ruang dimensi yang lebih tinggi.

Fungsi keputusannya adalah:

n
sgn ∑ yiα i K (xi , x) + ρ
i =1

4.2. Neural Network with Dropout

Masukan neural network dimodelkan sebagai lapisan


neuron. Strukturnya ditunjukkan pada gambar berikut.

Seperti yang ditunjukkan pada Gambar 1 , neuron formal


menggunakan n input x 1 , x 2 ,, x n untuk mengklasifikasikan sinyal
yang berasal dari dendrit, dan kemudian secara sinoptik ditimbang
dengan benar dengan w 1 , w 2 ,, w n yang mengukur permeabilitas
mereka. Kemudian, tingkat eksitasi neuron dihitung sebagai jumlah
nilai input:

n
ξ = ∑ w i xi
i=1

f in Gambar 2 mewakili fungsi aktivasi.

Ketika nilai tingkat eksitasi x mencapai ambang h,


output y (keadaan) dari neuron diinduksi. Ini mensimulasikan impuls
listrik yang dihasilkan oleh akson.
Dropout adalah teknik yang selanjutnya meningkatkan akurasi
neural network. Pada Gambar 3, anggap L menjadi jumlah lapisan
yang tersembunyi, l ∈ { 1,, L } lapisan tersembunyi
neural network, z ( l ) dan y ( l ) vektor input dan output lapisan l ,
masing-masing. W ( l ) dan b ( l ) adalah bobot dan bias pada
lapisan l . Untuk l ∈ { 0, , L - 1 } dan unit tersembunyi i ,
jaringan kemudian dapat digambarkan sebagai:

z ( l + 1 ) = w ( l + 1 ) y l + b ( l + 1 ) , iii
y ( l + 1 ) = f ( z ( l + 1 ) ) , ii
Gambar 2. Model neural network.

Gambar 3. Artificial neural network.

di mana f adalah fungsi aktivasi apa pun.


Dengan putus sekolah, operasi umpan-maju menjadi:

r ( l ) -Bernoulli ( p ), j

y ( l ) = r ( l ) y ( l ) ,

z ( l + 1 ) = w ( l + 1 ) y l + b ( l + 1 ) , iii

4.3. Autoencoder
Pertimbangkan autoencoder n / p / n.

Pada Gambar 4 , anggap F dan G menandakan


set, n dan p adalah bilangan bulat positif di mana 0 < p < n , dan B
menjadi kelas fungsi dari F n ke G p .

Tentukan X = { x 1 ,, x m } sebagai seperangkat vektor pelatihan


di F n .
Ketika ada target eksternal, anggap Y = { y 1 ,, y m } menunjukkan
kumpulan vektor target yang sesuai dalam F n . Dan ∆ adalah fungsi
distorsi (misalnya norma Lp, jarak Hamming) yang didefinisikan
lebih dari F n .
Untuk A apa pun ∈ A dan B ∈ B , vektor input x ∈ F n menjadi
vektor output A ◦ B ( x ) ∈ F n melalui autoencoder. Tujuannya
adalah untuk menemukan A ∈ A dan B ∈ B itu meminimalkan fungsi
distorsi keseluruhan:

min E ( A , B ) = mnt E (X t ) = mnt ∆ A B (X t ) , x t

4.4. Decision Tree


Diberikan vektor x i ∈ R n , i =1,, l dan vektor label y ∈ R l
decision tree sampel sesuai dengan label yang sama.
Anggap Q mewakili data pada simpul m . Pohon itu memecah
data θ = ( j , t m )

Gambar 4. An n/p/n Autoencoder Architecture


[Pierre Baldi, 2012].

(masukan j dan threshold t m ) ke


dalam Q tersisa ( θ ) dan Q benar ( θ ) subset:

Q tersisa ( θ ) = ( x , y ) x j ≤ t m

Q benar ( θ ) = Q \ Q tersisa ( θ )

Fungsi impurity H () digunakan untuk menghitung impurity di m,


pilihan yang tergantung pada tugas yang sedang diselesaikan
(klasifikasi atau regresi)
n
n
G (Q ,θ ) = left
H (Qleft (θ )) +
right
(
H Qright (θ ))
N N
m m

Pilih parameter yang meminimalkan impurity


θ ∗ = arg min θ G (Q,θ )
Samapai mencapai nilai
Lalu ulangi subsets Qleft (θ ∗ ) and Qright (θ ∗ ) maksimum
, Nm < minsamples or Nm = 1
5. Hasil Eksperimental

Data yang kami gunakan ditunjukkan pada Tabel 1 disebut database


Kepailitan Kualitatif, dibuat oleh Martin. A, Uthayakumar. j, dan
Nadarajan. m pada Februari 2014. Atribut termasuk risiko industri,
risiko manajemen, fleksibilitas keuangan, daya tahan, daya saing, dan
risiko operasi.

5.1. Perbandingan Paralel

5.1.1. SVM (Linear Kernel)

Seperti yang ditunjukkan pada Tabel 2, akurasi meningkat ketika


memotong meningkat dalam model SVM.

5.1.2. Neural Network (Aktivasi = Softmax, Num_Classes = 2,


Optimizer = Adam, Loss = Categorical _Crossentropy,
Metrik = Akurasi)

Seperti ditunjukkan pada Tabel 3 , ketika hal-hal lain dalam model


memegang sama, tingkat dropout 0,5 menghasilkan akurasi tertinggi.

Tabel 1. Deskripsi Dataset.

Perlengkapan
Kumpulan data Kematraan Contoh latihan Set Tes Validasi

Kebangkrutan 6 kali1 250 80% 10% 10%

Tabel 2. Akurasi Model Neural Network dengan Truncate 50 atau 100.

Variasi ketepatan
truncate = 50 0,9899
truncate = 100 0,9933

Tabel 3. Akurasi Model Neural Network dengan dan Tanpa Dropout.

Variasi ketepatan
tanpa dropout 0,9867 dengan kerugian 0,0462
dengan putus sekolah (tingkat dropout = 0,1) 0,9867 dengan kerugian 0,0292
dengan putus sekolah (angka putus sekolah = 0,3) 0,9933 dengan kerugian 0,0300
dengan putus sekolah (angka putus sekolah = 0,4) 0,9933 dengan kerugian 0,0401
dengan putus sekolah (angka putus sekolah = 0,5) 0,9933 dengan kerugian 0,0278
dengan putus sekolah (angka putus = 0,7) 0,9933 dengan kerugian 0,0428
dengan putus sekolah (tingkat dropout = 0,8) 0,9867 dengan kerugian 0,0318

Seperti yang ditunjukkan pada Tabel 4 dan Tabel 5 , kita dapat


menyimpulkan bahwa menambahkan lapisan ke dalam kekusutan
akurasi. Gambar 5 dan Gambar 6 menggambarkan Tabel 5 .

5.1.3. Autoencoder (Encoding_Dim = 2, Aktivasi = “Relu”,


Pengoptimal = "Adam", Kalah = "Mse")

Seperti yang ditunjukkan pada Tabel 6 , autoencoder dengan


decision tree menghasilkan akurasi yang lebih tinggi.

5.2. Perbandingan Longitudinal


Seperti yang ditunjukkan pada Tabel 7 , neural network dengan
truncate = 100 dengan lapisan tambahan dropout memiliki akurasi
tertinggi. Dan semua model baru memiliki akurasi yang lebih tinggi
daripada yang lama.

6. Kesimpulan
Dukungan SVM, neural network, dan autoencoder adalah tiga model
yang relatif baru diterapkan dalam masalah prediksi
kebangkrutan. Keakuratan ketiganya mengalahkan tiga model lama
(logistic regression yang kuat, algoritma pembelajaran induktif,
algoritma genetika). Aspek yang ditingkatkan termasuk kontrol untuk
overfitting, peningkatan probabilitas untuk menemukan maxima
global, dan kemampuan untuk menangani ruang fitur yang
besar. Tulisan ini membandingkan dan menyimpulkan kemajuan
model machine learning mengenai prediksi kebangkrutan, dan
diperiksa untuk melihat kinerja model yang relatif baru dalam konteks
prediksi kebangkrutan yang jarang diterapkan di bidang tersebut.

Namun, ketiga model itu juga memiliki kelemahan. SVM tidak


secara langsung memberikan perkiraan probabilitas, tetapi
menggunakan cross-validation lima kali lipat sebagai gantinya.

Tabel 4. Akurasi Model Jaringan Saraf dengan Dua, Tiga, dan Empat Lapisan.

variasi akurasi

dua lapis dengan dropout (angka dropout = 0,5) 0.9933 dengan kerugian
0.0278
tiga lapis (ditambahkan lapisan dengan tebal 200)
dengan dropout (angka dropout = 0,5) 0.9933 dengan kerugian
0.0221

empat lapisan (lapisan ditambahkan dengan padat 16)


dengan dropout (angka dropout = 0,5) 1.000 dengan kerugian
0.0004
Tabel 5. Akurasi Model Neural Network dengan Truncate 50 atau 100 dan Dengan
Empat Lapisan.

variasi Ketepatan

truncate = 50 dengan empat lapisan


0,9950 dengan kerugian 0,0389
(lapisan tambah padat 16.200) dengan angka dropout 0,5

truncate = 100 dengan empat lapisan


1,0000 dengan loss 0,0004
(lapisan tambah padat 16.200) dengan angka dropout 0,5

Tabel 6. Akurasi Model Neural Network dengan SVM atau dengan Decision Tree.

variasi Ketepatan

dengan SVM 0,9867

dengan decision tree 0,9933

Tabel 7. Akurasi Model Neural Network dengan model yang berbeda.

Model Ketepatan

Logistic regression yang kuat 0,6944

algoritma pembelajaran induktif (decision tree) 0,897

algoritma genetika 0,94

Neural network tanpa dropout 0,903

SVM truncate = 100 0,9933


Truncate = 100 dengan empat lapisan (lapisan tambah padat
16.200)
1,0000 dengan loss 0,0004
dengan angka dropout 0,5

autoencoder (dengan decision tree) 0,9933

Jika sampel data tidak cukup besar, terutama ketika kalah jumlah
dengan sejumlah fitur, SVM cenderung memberikan kinerja yang
buruk. Dengan dropout, waktu untuk melatih neural network akan
2 hingga 3 kali lebih lama daripada melatih neural network
standar. Autoencoder menangkap informasi sebanyak mungkin,
tidak selalu informasi yang relevan. Dan ini bisa menjadi masalah
Gambar 5. Kerugian Neural network.

Figure 6. Akurasi Neural network.

ketika informasi yang paling relevan hanya membuat


sebagian kecil dari input.

Solusi untuk mengatasi kekurangan ini belum ditemukan.


Referensi

[1] Hauser, RP dan Booth, D. (2011) Memprediksi Kebangkrutan dengan Regressi


Logistik yang Kuat. Jurnal Ilmu Data, 9, 565-584.
[2] Kim, M.-J. dan Han, I. (2003) Penemuan Keputusan Para Ahli Kehancuran dari
Data Kepailitan Kuantitatif Menggunakan Algoritma Genetika. Sistem Pakar
dengan Aplikasi, 25, 637-646,

[3] Pedregosa, et al. (2011) Scikit-Learn: Pembelajaran Mesin dengan


Python. Jurnal Penelitian Belajar Machine, 12, 2825-2830.
[4] Sirvastava, N., dkk. (2014) Dropout: Cara Sederhana untuk Mencegah Jaringan
Saraf dari Overfitting. Jurnal Penelitian Pembelajaran Mesin, 15, 1929-1958.
[5] Dev, D. (2017) Pembelajaran Mendalam dengan Hadoop. Penerbitan Paket,
Birmingham, 52.

[6] Nielsen, F. (2001) Neural Networks — Algoritma dan


Aplikasi. https://www.mendeley.com/research-papers/neural-networks-
algorithms-applicatio ns-5 /

[7] Robinson, N. (nd) Kekurangan Regresi


Logistik. http://classroom.synonym.com/disadvantages-logistic-regression-
8574447.html

[8] Sima, J. (1998) Pengantar Jaringan Saraf. Laporan Teknis No. 755.

[9] Baldi, P. (2012) Autoencoders, Unsupervised Learning, dan Deep


Architectures. Jurnal Penelitian Mesin Pembelajaran, 27 , 37-50.
[10] Martin, A., Uthayakumar, J. dan Nadarajan, M. (2014) Data Kepailitan
Kualitatif, UCI. https://archive.ics.uci.edu/ml/datasets/qualitative_bankruptcy

Anda mungkin juga menyukai