Paper Review 1
Paper Review 1
Algoritma yang digunakan dalam kasus klasifikasi selalu bertujuan untuk meminimumkan tingkat kesalahan
atau presentase prediksi kesalahan dari label kelas. Apabila algoritma klasifikasi diterapkan secara tidak hatihati pada set data training yang imbalanced, maka akan menghasilkan informasi akurasi prediksi yang bias
yakni kelas mayoritas mempunyai akurasi yang lebih tinggi dibandingkan kelas minoritas. Oleh karena itu,
diperlukan suatu tindakan khusus pada kasus imbalanced dataset agar classifier yang digunakan dapat
memberikan hasil prediksi yang akurat.
Secara garis besar, terdapat dua pendekatan yang dapat digunakan untuk mengatasi masalah imbalanced
datasets, yaitu pada level data dan level agoritma. Pendekatan pada level data (sampling approach),
merupakan langkah berupa resampling set data yang ada, baik berupa oversampling maupun undersampling
(Ganganwar, 2012). Pendekatan kedua, yakni berbasis algoritma, dilakukan dengan cara menciptakan
algoritma baru atau mengatur sedemikian rupa algoritma classifier yang sudah ada untuk meningkatkan
kinerja dalam mengolah imbalanced datasets (Liu, et al., 2011). Kedua pendekatan tersebut dapat
diterapkan pada penelitian prediksi financial distress yang memiliki permasalahan set data tak imbang.
Faktor lain yang juga memp engaruhi akurasi prediksi financial distress adalah fitur atau variabel yang
digunakan dalam peneliti an (Lin, Liang dan Chen, 2011). Adanya perbedaan variabel prediktor yang
digunakan dalam suatu penelitian akan memberikan keragaman hasil. Sebagian besar penelitian prediksi
financial distress perusahaan menekankan pada variabel keuangan, padahal terdapat variabel lain seperti
non keuangan dan makroekonomi yang mempengaruhi kondisi tersebut (Tirapat dan Nittayagasetwat,
1999). Dengan demikian, diperlukan suatu langkah berupa pemilihan variabel, sehingga dapat
memanfaatkan sejumlah variabel penting dalam suatu set data dan mengeliminasi variabel yang tidak
relevan (Zhou, Lai dan Yen, 2012). Salah satu langkah yang dapat dilakukan dalam tahap seleksi variabel
adalah mengg unakan metode LP-SVM (Santosa, 2007).
Di Indonesia, penelitian mengenai prediksi kondisi financial distress yang menggunakan imbalanced datasets
cukup terbatas. Mayoritas penelitian tersebut menggunakan proporsi jumlah sampel yang berimbang antar
dua kelas. Faktanya, data perusahaan yang mengalami financial distress di Indonesia memiliki jumlah yang
jauh lebih sedikit dibandingkan perusahaan yang tidak mengalami financial distress. Oleh sebab itu,
diperlukan adanya penelitian yang membahas mengenai penyeimbangan data pada kasus imbalanced
dataset seperti financial distress .
Penelitian prediksi kondisi financial distress perusahaan yang ada selama ini juga seringkali menggunakan
indikator financial distress melalui perhitungan variabel rasio keuangan dari laporan keuangan tahunan.
Indikator financial distress sendiri biasanya lebih dari satu tahun. Menurut Sun, He dan Li (2011),
memprediksi da lam masa satu tahun merupakan periode yang relatif panjang, sedangkan prediksi pada
periode yang lebih pendek, misal setengah tahun, masih sedikit mendapat perhatian. Penelitian yang
menggunakan variabel prediktor non keuangan dan makroekonomi telah banyak dilakukan (Almilia, 2004;
Hidayat, 2009; Iramani, 2008), namun sebagian besar belum menggunakan teknik machine learning .
Penggunaan teknik klasifikasi data mining yang melibatkan ketiga variabel tersebut juga masih jarang
dilakukan di Indonesia.
Berdasarkan penjelasan di atas, maka di perlukan suatu penelitian berupa model prediksi kondisi financial
distress di Indonesia menggunakan teknik klasifikasi data mining yang melibatkan variabel keuangan, non
keuangan dan makroekonomi. Guna mengetahui berbagai variabel yang signifikan mempengaruhi model
prediksi tersebut, diperlukan langkah pemilihan variabel. Selanjutnya, sampel yang digunakan dalam
penelitian ini adalah perusahaan manufaktur yang sudah go public di Indonesia. Selain dikarenakan
kemudahan dalam mendapatkan data (accessibility ), hal ini juga dilatarbelakangi adanya karakteristik
imbalanced datasets pada perusahaan manufaktur go public di Indonesia. Perusahaan tersebut mengacu
pada klasifikasi Jakarta Stock Industrial Classification (JASICA) serta memiliki laporan keuangan semester
yang lengkap selama periode amatan Januari 2013 Juni 2014.
Perusahaan amatan diasumsikan memiliki umur dan besar aset yang sama. Penelitian ini menggunakan
teknik sampling sebagai penyeimbang, yang kemudian diprediksi dengan menggunakan teknik Support
Vector Machines dan teknik Linear Discriminant Analysis .
II. METODE
Beberapa tahap dalam penelitian ini antara lain: identifikasi dan perumusan masalah, pengumpulan data,
pengolahan data, analisis dan interpretasi, serta kesimpulan dan saran.
Adapun penjelasan dari setiap tahapan tersebut adalah sebagai berikut:
1. Tahap Identifikasi dan Perumusan Masalah
Pada tahap ini dilakukan identifikasi masalah yakni financial distress pada perusahaan manufaktur go public
di Indonesia pada Januari 2013 Desember 2014. imana kelas positif (perusahaan yang mengalami financial
distress) berjumlah sebanyak 20 perusahaan, sedangkan perusahaan yang tidak mengalami financial distress
berjumlah 100 perusahaan. Indikator adanya financial distress adalah perusahaan memiliki total aset kurang
dari total kewajiban atau memiliki Earning Per Share negatif.
2. Tahap Pengumpulan Data
Penelitian ini merupakan penelitian dengan data sekunder. Laporan keuangan semester perusahaan nmatan
didapatkan dari Bursa Efek Indonesia (www.idx.co.id), sedangkan variabel makroekonomi didapatkan dari
Bank Indonesia (www.bi.go.id) dan International Financial Statistics (IFS).
3. Tahap Pengolahan Data
Setelah data terkait obyek amatan didapatkan, maka langkah selanjutnya adalah melakukan pre-processing
data. Tahap preprocessing yang pertama kali dilakukan adalah mengidentifikasi dan melakukan
operasionalisasi variabel. Adapun variabel yang digunakan dalam penelitian ini adalah:
Langkah preprocessing selanjutnya adalah melakukan transformasi data dengan cara scaling kedalam
rentang [-1 1]. Tahap terakhir dalam preprocessing adalah menyeleksi variabel yang paling signifikan dengan
menggunakan metode Linear Programming Support Vector Machines. Setelah tahap preprocessing selesai,
langkah selanjutnya adalah tahap processing data. Dalam tahap ini, data awal yang tersedia dibagi kedalam
dua kelompok, yakni data training sebesar 70% dari total data, dipilih secara acak, dan sisanya digunakan
sebagai data testing . Setelah itu, guna menyeimbangkan karakter set data yang imbalanced, maka dilakukan
upaya sampling data dengan cara random oversampling .
Pada penelitian ini, data dari kelas positif diduplikasi sebesar 300%, 400% dan 500% dari total data kelas
positif. Dengan demikian, diketahui bahwa terdapat empat macam set data yang dapat dijadikan sebagai
input dalam membangun model prediksi.
Teknik yang digunakan dalam penelitian ini adalah Support Vector Machines (SVM) dan Linear Discriminant
Analysis (LDA). Teknik SVM pada penelitian ini menggunakan jenis kernel linear serta RBF dengan rentang
nilai parameter P sebesar 2-1, 20, 21, 22,23 dan parameter C sebesar 1, 10, 100, 1000, dan 10000.
Langkah terakhir adalah menghitung akurasi dari setiap model prediksi yang telah dibuat dengan
menggunakan confussion matrix. Parameter akurasi yang digunakan dalam penelitian ini adalah sensitivity,
spesificity, precision dan overall accuracy . Pengukuran tersebut akan menghasilkan informasi berupa tipe
set data dan teknik klasifikasi yang memiliki akurasi terbaik. Adapun confussion matrix untuk mengukur
perusahaan yang mengalami financial distress dapat dilihat dalam Tabel 4 berikut:
Setelah data uji dimasukkan ke dalam confussion matrix , nilai-nilai yang telah dimasukkan dihitung dengan
pengukuran sebagai berikut:
Sensitivity, yakni proporsi jumlah perusahaan yang mengalami financial distress yang berhasil
Specificity, yakni proporsi jumlah perusahaan yang tidak mengalami financial distress yang berhasil
Berdasarkan Tabel 5 diatas dapat diketahui bahwa terdapat 30 variabel yang akan menjadi input data dalam
tahap konstruksi model selanjutnya. Berdasarkan Tabel 5 tersebut dapat diketahui bahwa varaibel yang
siginifikan berpengaruh adalah varaibel keuangan dan non keuangan, sedangkan variabel makroekonomi
tidak berpengaruh.
2. Membagi set data training dan data testing
Penelitian ini pada dasarnya membandingkan hasil prediksi pada kasus imbalanced data sets pada data
aslinya dan balanced datasets melalui proses random oversampling.
3. Hasil pengujian dengan Teknik Support Vector Machines
Setiap set data, dilakukan uji SVM dengan menggunakan kernel linear dan kernel RBF. Hasil pengujian
tersebut kemudian diukur dengan confussion matrix. Berikut adalah ringkasan hasil dari keempat set data
tersebut dengan teknik SVM.
Berdasarkan Tabel 6 diatas, dapat diketahui bahwa dari parameter akurasi memiliki nilai tertinggi dengan
menggunakan set data yang telah diseimbangkan sebesar 400%.
4. Hasil Pengujian dengan Teknik Linear Discriminant Analysis
Selain menggunakan teknik SVM, teknik yang digunakan dalam memprediksi kondisi financial distress pada
penelitian ini adalah dengan LDA. Empat macam set data diuji dengan teknik tersebut, dan hasilnya di
paparkan dalam Tabel 7 sebagai berikut:
Berdasarkan Tabel 7, hasil pengujian dengan teknik LDA memiliki akurasi tertinggi pada set data yang
diseimbangkan dengan random oversampling 300%, sedangkan akurasi terendah didapatkan pada
perhitungan dengan set data yang imbalanced .
5. Hasil Perbandingan dari kedua Teknik
Secara umum perb andingan rata-rata overall accuracy pada kedua teknik tersebut dipaparkan dalam Tabel
8 berikut ini:
DAFTAR PUSTAKA
Almilia, L. S. (2004). Analisis Faktor-Faktor yang Mempengaruhi Kondisi Financial Distress Suatu
Perusahaan yang Terdaftar di Bursa Efek Jakarta. Jurnal Riset Akuntansi Indonesia, Vol. 7, No.2, p. 122.
Chen, M.-Y. (2011). Bankruptcy Prediction in Firms with Statistical and Intelligent Techniques and a
Comparison of Evolutionary Approaches, Computers and Mathematics with Aplications, Vol. 62, p.
4514-4524.
Fitriandini, 2012, Prediksi Kebangkrutan Perusahaan Menggunakan Support Vector Machine
(SVM), International Journal of Electrical and Computer Engineering (IJECE), Vol 2 No. 3: June 2012.
Ganganwar, V. (2012). An Overview of Classification Algorithms for Imbalanced Datasets.
International Journal of Emerging Technology and Advanced Engineering, Vol. 2, No. 4, p. 42-47.
Gong, R. dan Huang, S. H. (2012). A Kolm ogorov-Smirnov Statistic Based Segmentation Approach to
Learning from Imbalanced Datasets: With Application in Property Refinance Prediction. Expert
Systems with Applications, Vol. 39, p. 6192-6200.
Hidayat, W. (2009). Analisis Financial Dist ress Perusahaan Manufaktur yang Listed Sebagai Dampak
Krisis Ekonomi Asia. Jurnal Akuntansi, Manajemen Bisnis dan Sektor Publik, Vol. 5, No. 3, p. 304-323.
Lin, F., Liang, D., dan Chen, E. (2011). Financial Ratio Selection for Business Crisis Prediction. Expert
Systems with Applications, Vol. 38, p. 15094-15102.
Liu, Y., Yu, X., Huang, J. X., dan An, A. (2011). Combining Integrated Sampling with SVM Ensembles
for Learning from Imbalanced Datasets. Information Processing and Management, Vol. 47, p. 617631.
Pandu, 2011, Analisis Arus Kas Dan Laba Dalam Memprediksi Financial Distress Perusahaan, Fakultas
Ekonomi Akuntansi, Universitas Jember.
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis, Graha Ilmu,
Yogyakarta.
Sun, J. dan Li, H. (2009). Financial Dist ress Early Warning Based on Group Decision Making. Computers
and Operations Research, Vol. 36, p. 885-906.
Umi Zhahratun Nisa, Budi Santosa, dan Stefanus Eko Wiratno, 2013, Model Prediksi Financial Distress
Pada Perusahaan Manufaktur Go Public Di Indonesia, Prosiding Seminar Nasional Manajemen
Teknologi XVIII, Program Studi MMT-ITS, Surabaya 27 Juli 2013.
Zhou, L., Lai, K. K., dan Yen, J. (2012). Empirical Model Based on Features Ranking Techniques for
Corporate Financial Distress Prediction. Computers and Mathematics with Applications, Vol 64, p.
2484-2496.
REVIEW PAPER
Judul
Tujuan
Penelitian
Kata Kunci
Metode
Data Set
Review
Penelitian ini berupaya untuk membandingkan hasil akurasi prediksi financial distress
pada perusahaan manufaktur go public di Indonesia dengan menggunakan set data
tak imbang dan set data imbang. Keseimbangan data antar kedua kelas dilakukan
melalui duplikasi kelas positif secara acak (random oversampling)
Kasus set data tak imbang (imbalanced datasets) pada model prediksi financial
distress masih mendapat sedikit perhatian. Sebagian besar penelitian menggunakan
jumlah sampel yang sama antara perusahaaan yang mengalami financial distress
(kelas positif) dengan perusahaan yang tidak mengalami financial distress (kelas
negatif). Pada kenyataannya, tidak semua kasus memiliki besar distribusi yang sama.
Salah satu solusi dalam mengatasi masalah ketidakseimbangan adalah dengan
melakukan resampling.
Hasil
Hasil penelitian membuktikan bahwa akurasi prediksi dari kedua classifier akan lebih
optimal bila menggunakan set data yang memiliki jumlah kelas positif dan negatif yang
seimbang.