Nama
ROSA D. S. A. BIDA
NIM
1106082008
ILMU KOMPUTER
FAKULTAS SAINS DAN TEKNIK
UNIVERSITAS NUSA CENDANA
2013/2014
BAB I
PENDAHULUAN
1.1 Latar Belakang
Perbankan merupakan perusahaan yang dalam kegiatannya berhubungan
langsung dengan masyarakat. Salah satu kegiatan perbankan yang berhubungan
langsung dengan masyarakat adalah pemberian kredit. Pemberian kredit
merupakan kegiatan usaha yang mengandung risiko tinggi dan berpengaruh
terhadap keberlangsungan usaha perbankan. Saat nasabah melakukan pengajuan
kredit, pihak perbankan tidak memenfaatkan data-data kredit nasabah sebelumya
sehingga sering terjadi kredit macet.
Data mining adalah suatu proses yang digunakan untuk mencari informasi
dan pengetahuan yang berguna, yang diperoleh dari data-data yang dimiliki. Data
mining mampu memanfaatkan aset penting perusahaan berupa data bisnis yang
jumlahnya sangat besar sehingga dapat menghasilkan informasi yang belum
pernah terpelajari sebelumnya. Dalam kasus pemberian kredit, perbankan dapat
memenfaatkan data-data kredit nasabah sebelumnya untuk menganalisa risiko
kredit dari pengajuan kredit nasabah saat ini. Algoritma yang dapat digunakan
adalah algoritma klasifikasi data mining diantaranya SVM (Support Vector
Machine), association rule, bayesian classification, decision tree, dan k nearest
neighbors.
Suatu algoritma yang dianggap paling baik pada proses klasifikasi suatu
permasalahan belum tentu baik juga untuk memecahkan permasalahan yang lain.
Berdasarkan penelitian yang pernah dilakukan sebelumnya, didapat hasil tidak ada
algoritma yang paling baik untuk diterapkan pada setiap permasalahan yang
berbeda. Untuk mendapatkan hasil prediksi risiko kredit yang paling akurat pada
kasus
dengan
menggunakan
data
mining
algoritma
bayesian
classification?
2. Apakah prediksi risiko kredit yang dihasilkan dengan algoritma bayesian
classification memiliki tingkat akurasi yang tinggi?
1.3 Batasan Masalah
Batasan masalah pada penelitian ini antara lain:
1. Parameter yang digunakan dalam penelitian ini terdiri atas: pekerjaan, jaminan,
penghasilan, dan besar pinjaman.
2. Metode yang digunakan dalam penelitian ini adalah algoritma bayesian
classification.
3. Output dari penelitian ini adalah risiko kredit dan dari 5 kriteria penggolongan
kualitas kredit berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12
November 1998, dalam penelitian ini digunakan 2 kriteria yaitu kredit lancar
dan kredit tidak lancar.
1.4 Tujuan Penelitian
Tujuan dari Penelitian ini adalah untuk menghasilkan aplikasi pediksi
kredit yang dapat dijadikan pertimbangan untuk membantu pihak perbankan
dalam menyeleksi pengajuan kredit nasabah sehingga menghindari kesalahan
dalam penerimaan pengajuan kredit dari nasabah yang berisiko tidak dapat
melunasi kreditnya.
1.5 Manfaat Penelitian
Adapun beberapa manfaat yang diharapkan pada penelitian ini adalah:
1. Bagi Penulis
Penulis dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah
dipelajari selama ini dalam merancang dan membuat aplikasi menggunakan
data mining algoritma bayesian classification.
Nama Peneliti
Henry Nugroho
Metode
fuzzy
Hasil Penelitian
Dengan
menggunakan
Kelayakan
dan
metode
naive
digabungkan
bayes
metode
Motor (2013)
Kredit
Sepeda
fuzzy
yang
dengan
naive
bayes
Based
Reasoning
(CBR)
2.
Mohamad
Perbandingan
Abdul Kadir
Algoritma
Performansi
Decision
Tree
didapat
hasil
Decision
akurasi 85 %.
Dalam kasus
Tree
CART
dan
CHAID
predictor
prediksi
dan
didapat
dan
deviasi
standar
1,51 sedangkan
Liya
Misdiati
dan
standar
Kredit
Newton
deviasi 2,19.
Variabel prediktor
Metode
Truncate
digunakan
Truncated-Kernel
d-Kernel
variabel.
Logistic
KLR) (2012)
Regressi
on
(NTR-
KLR)
Analisis
Klasifikasi
Menggunakan
Rahayu
Newton
terdiri
29
Pemodelan
Sebagai
pembanding
digunakan
pula
NTR-RLR
pengklasifikasian
total
yang
akurasi
metode
dalam
dengan
yang
Studi Pustaka
kredit
dan
dapat
Perancangan Sistem
Penulis merancang sistem dengan menggunakan metode yang telah
dipilih sebelumnya.
d) Implementasi
Penulis mengimplementasikan rancangan sistem ke dalam pengkodean
menggunakan bahasa pemrograman.
e) Pengujian
Pengujian dilakukan untuk menguji perangkat lunak yang dihasilkan
apakah sesuai dengan tujuan dan menjawab rumusan masalah atau tidak.
1.9 Sistematika Penulisan
Sistematika penulisan laporan ini, secara ringkas dapat dijelaskan
sebagai berikut:
BAB I Pendahuluan
Pada
bab ini
perumusan
akan
masalah,
dijelaskan
tentang
latar
belakang
masalah,
penelitian,
manfaat
Pada bab ini memuat uraian tentang: jenis penelitian, batasan penelitian,
jenis dan sumber data, prosedur dan pengumpulan data, analisis
kebutuhan sistem dan perancanagna sistem.
BAB IV Implementasi
Pada bab ini menguraikan tentang pembuatan perangkat lunak sesuai
dengan perancangan sitem yang telah ditentukan.
BAB V Hasil Penelitian Dan Pembahasan
Pada bab ini dimuat hasil pengujian dari aplikasi prediksi risiko kredit
yang telah dirancang pada bab sebelumnya.
BAB VI Penutup
Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil
penelitian, berikut saran-saran untuk penelitian selanjutnya.
BAB II
LANDASAN TEORI
2.1
Prediksi
Dibawah ini akan membahas mengenai pengertian, kendala-kendala,
Pengertian prediksi
Efektivitas prediksi
Efektivitas sistem peramalan dalam membantu organisasi dapat dievaluasi
4.
Timing. Agar sistem peramalan dapat efektif, maka ramalan harus tersedia
tepat waktu.
5.
Benefit to Cost Ratio. Merupakan rasio yang dapat dijadikan sebagai kriteria
tunggal bagi perlu tidaknya sistem peramalan dalam perusahaan.
Perbankan
Dibawah ini akan diuraikan mengenai pengertian perbankan dan bank
pada umumnya.
2.2.1 Pengertian perbankan
Perbankan adalah lembaga keuangan yang berperan sangat vital dalam
aktivitas perdagangan internasional serta pembangunan nasional. Perbankan di
jalankan oleh 2 jenis bank saja, yaitu:
1.
Usaha Bank Umum, diatur dalam Pasal 6 UU No. 7 Tahun 1992. Namun
setelah adanya UU yang diubah (UU No. 10 Tahun 1998) ketentuan dalam
huruf m diganti, dan berbunyi: menyediakan pembiayaan dan atau
melakukan kegiatan lain berdasarkan prinsip syariah, sesuai dengan
ketentuan yang ditetapkan oleh Bank Indonesia.
2.
pembayaran
baik
dalam
negeri
maupun
luar
negeri.
2.3
Kredit
2.3.1
Kategori kredit
Berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12 November
2.3.2
Data Mining
Decision Trees oleh Da Rocha & Timteo (2010) mengatakan metodologi Cross
Industri Standard
Process
for
Data Mining
digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data
mining untuk memecahkan suatu masalah. Metodologi ini terdiri dari enam tahap
proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan
dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data
mining yang berukuran kecil pun dapat memperoleh 6 keuntungan dari
CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut
sebagai siklus:
beberapa
teknik
dalam
mengolah
data
seperti
data
Proses metode ini adalah untuk mencari atribut terbaik dari seluruh
data set dan di masukkan ke dalam data set baru berdasarkan atribut
terbaik yang telah dipilih.
b. Stepwise backward elimination
Proses metode ini adalah untuk mencari atribut yang tidak berkaitan
dengan data mining yang dicari, lalu langsung menghapusnya dari
data set.
c. Combination of forward selection and backward elimination
Proses metode ini adalah penggabungan dari metode stepwise
forward selection dan stepwise backward elimination.
d. Decision tree induction
Proses metode ini menggunakan algoritma decision tree, seperti
algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik.
4. Missing value
Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang
terdapat dalam data, yaitu:
a. Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null.
b. Fill in the missing value manually: mengisi sendiri nilai null yang
terdapat dalam data.
c. Use global constant to fill in the missing value: mengganti nilai null
dengan label constant, seperti Unknown.
d. Use the attribute mean to fill in the missing value: mengganti
nilai null dengan rata-rata yang dimiliki atribut.
e. Use the attribute mean for all samples belonging to the same
class the given tuple: mengganti nilai null dengan nilai rata-rata
yang dimilik atribut berdasarkan target kelas yang dicari.
f. Use the most probable value to fill in the missing value :
mengganti nilai null dengan nilai yang paling mungkin muncul
berdasarkan atribut target kelas yang dicari.
4. Fase pemodelan (modelling phase)
a. Memilih dan mengaplikasikan teknik pemodelan yang sesuai.
2.4.3
fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi
(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining
secara umum :
1. Classification
Fungsi dari classification adalah untuk mengklasifikasikan suatu target
kelas ke dalam kategori yang dipilih. Contohnya : bayesian classification.
2. Clustering
Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke
dalam segmentasi-segmentasi berdasarkan similaritas.
3. Association
Fungsinya adalah untuk mencari keterkaitan antara atribut atau item set,
berdasarkan jumlah item yang muncul dan rule association yang ada.
4. Regression
Klasifikasi
Klasifikasi merupakan proses untuk menempatkan suatu objek ke
Data mining
Bayesian Classification
Bayesian Classification
of
Training
Web
Pages
mengatakan
bahwa
Bayesian
classifier lainnya.
Menurut Han dan Kamber (2011:351) Proses dari Bayesian classification,
atau Simple Bayesian Classifier, sebagai berikut:
1.
Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas.
Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X=(x1, x2, ...,
xn), ini menggambarkan pengukuran n dibuat pada
2.
(2.1)
Ci
X |Ci ) P()
P
P(CiX )=
(2.2)
Keterangan :
P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X
(Posterior probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling
P(Ci)
P(X)
besar (likelihood)
= Prior probability dari X (Prior probability)
= Jumlah probability tuple yg muncul
3. Ketika P (X) adalah konstan untuk semua kelas, hanya P(X | Ci) P (Ci) butuh
dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka
umumnya diasumsikan ke dalam kelas yang sama, yaitu, P(C1) = P(C2) =
= P (C m), maka dari itu akan memaksimalkan P(X | Ci). Jika tidak, maka
akan memaksimalkan P(X | Ci) P(Ci). Perhatikan bahwa probabilitas sebelum
kelas dapat diperkirakan oleh P(Ci) = | Ci, D| / | D |, dimana |Ci, D| adalah
jumlah tuple pelatihan kelas Ci di D.
4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit
dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi
perhitungan dalam mengevaluasi P(X|Ci), asumsi nave independensi kelas
bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional
independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak
ada hubungan ketergantungan diantara atribut) dengan demikian :
n
P ( X|Ci ) = P ( xk|Ci )
k=1
(2.3)
tapi
perhitunganya
cukup
sederhana.
Sebuah atribut
(2.4)
sehingga
(2.5)
Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean(rata-rata) dan
standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci. Setelah
itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan xk,
untuk memperkirakan P (xk| Ci).
5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap
kelas Ci. Classifier memprediksi kelas label dari tuplex adalah kelas Ci, jika
(2.6)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P (Ci)
adalah maksimal. Pengklasifikasi
Bayesian memiliki
tingkat
kesalahan
yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari
kelas yang berbeda. TP dan TN memberikan informasi ketika classifier
benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh
gambar Confusion matrix ditunjukan pada gambar 2.2.
Gambar 2.2 The Confusion Matrix menampilkan total positif dan negatif tuple
Sumber: (Han & Kamber, 2011, p366)
true
negatives
rate (proporsi
tuple negatif
yang
Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan
spesifisitas:
(2.9)
Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error
Rate:
DAFTAR PUSTAKA
Han, Jiawei, dan Micheline Kamber. 2001. Data Mining: Concepts and
Techniques. San Francisco: Morgan Kaufmann.
Kadir, M., Perbandingan Performansi Algoritma Decision Tree CART dan
CHAID, skripsi, jurusan TI, Institut Teknologi Bandung, 2010.
Kusrini., dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. ANDI.
Yogyakarta.
Misdiati, L. dan Rahayu, S.P., Analisis Klasifikasi Kredit Menggunakan Metode
Newton Truncated-Kernel Logistic Regression (NTR-KLR) (2012)
Nave
Bayes
Example.
http://jmvidal.cse.sc.edu/talks/Bayesian
learning/nbex.xml. Tanggal Akses: 15 Juni 2014.
Nugroho, F.X.H., Case Based Reasoning untuk Kelayakan Mendapatkan Kredit
Sepeda Motor, Tesis, Universitas Gadjah Mada, 2013.
Santoso, B. 2007. Data Mining : Teknik
Keperluan Bisnis.Yogyakarta : Graha Ilmu.
Pemanfaatan
Data
Untuk
Wikipedia:
Nave
Bayes
classifier.
http://en.wikipedia.org/wiki/
Naive_Bayes_classifier. Tanggal Akses : 18 Juni 2014.