Contoh Penulisan Metodologi Penelitian Bab 1 Dan 2

METODOLOGI PENELITIAN
PREDIKSI RISIKO KREDIT NASABAH PERBANKAN

MENGGUNAKAN DATA MINING ALGORITMA
BAYESIAN CLASSIFICATION
Nama
ROSA D. S. A. BIDA
NIM
1106082008
ILMU KOMPUTER
FAKULTAS SAINS DAN TEKNIK
UNIVERSITAS NUSA CENDANA
2013/2014
BAB I
PENDAHULUAN
1.1 Latar Belakang
Perbankan merupakan perusahaan yang dalam kegiatannya berhubungan
langsung dengan masyarakat. Salah satu kegiatan perbankan yang berhubungan
langsung dengan masyarakat adalah pemberian kredit. Pemberian kredit
merupakan kegiatan usaha yang mengandung risiko tinggi dan berpengaruh
terhadap keberlangsungan usaha perbankan. Saat nasabah melakukan pengajuan
kredit, pihak perbankan tidak memenfaatkan data-data kredit nasabah sebelumya
sehingga sering terjadi kredit macet.
Data mining adalah suatu proses yang digunakan untuk mencari informasi
dan pengetahuan yang berguna, yang diperoleh dari data-data yang dimiliki. Data
mining mampu memanfaatkan aset penting perusahaan berupa data bisnis yang
jumlahnya sangat besar sehingga dapat menghasilkan informasi yang belum
pernah terpelajari sebelumnya. Dalam kasus pemberian kredit, perbankan dapat
memenfaatkan data-data kredit nasabah sebelumnya untuk menganalisa risiko
kredit dari pengajuan kredit nasabah saat ini. Algoritma yang dapat digunakan
adalah algoritma klasifikasi data mining diantaranya SVM (Support Vector
Machine), association rule, bayesian classification, decision tree, dan k nearest
neighbors.
Suatu algoritma yang dianggap paling baik pada proses klasifikasi suatu
permasalahan belum tentu baik juga untuk memecahkan permasalahan yang lain.
Berdasarkan penelitian yang pernah dilakukan sebelumnya, didapat hasil tidak ada
algoritma yang paling baik untuk diterapkan pada setiap permasalahan yang
berbeda. Untuk mendapatkan hasil prediksi risiko kredit yang paling akurat pada
kasus
ini, dicoba melakukan penelitian menggunakan algoritma bayesian
classification yang dinilai sesuai karena bayesian classification merupakan salah

satu algoritma klasifikasi yang sederhana namun memiliki kemampuan dan
akurasi tinggi (Rish, 2006).
1.2 Rumusan Masalah

Berdasarkan latar belakang dan permasalahan yang ada, maka dapat
dirumuskan beberapa masalah sebagai berikut:
1. Bagaimana memprediksi risiko kredit yang diajukan nasabah pada perusahaan
perbankan
dengan
menggunakan
data
mining
algoritma
bayesian
classification?
2. Apakah prediksi risiko kredit yang dihasilkan dengan algoritma bayesian
classification memiliki tingkat akurasi yang tinggi?
1.3 Batasan Masalah
Batasan masalah pada penelitian ini antara lain:
1. Parameter yang digunakan dalam penelitian ini terdiri atas: pekerjaan, jaminan,
penghasilan, dan besar pinjaman.
2. Metode yang digunakan dalam penelitian ini adalah algoritma bayesian
classification.
3. Output dari penelitian ini adalah risiko kredit dan dari 5 kriteria penggolongan
kualitas kredit berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12
November 1998, dalam penelitian ini digunakan 2 kriteria yaitu kredit lancar
dan kredit tidak lancar.
1.4 Tujuan Penelitian
Tujuan dari Penelitian ini adalah untuk menghasilkan aplikasi pediksi
kredit yang dapat dijadikan pertimbangan untuk membantu pihak perbankan
dalam menyeleksi pengajuan kredit nasabah sehingga menghindari kesalahan
dalam penerimaan pengajuan kredit dari nasabah yang berisiko tidak dapat
melunasi kreditnya.
1.5 Manfaat Penelitian
Adapun beberapa manfaat yang diharapkan pada penelitian ini adalah:
1. Bagi Penulis
Penulis dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah
dipelajari selama ini dalam merancang dan membuat aplikasi menggunakan
data mining algoritma bayesian classification.
2. Bagi Perusahaan Perbankan

Diharapkan dengan adanya aplikasi ini dapat membantu pengambil
keputusan untuk memberikan kredit pada nasabah yang tepat sehingga tidak
menimbulkan permasalahan di kemudian hari.
1.6 Tinjauan Pustaka
Penelitian mengenai prediksi risiko pemberian kredit telah banyak
dilakukan oleh para peneliti sebelumnya. Hal ini tidak terlepas dari manfaat yang
diperoleh yaitu membantu mengantisipasi permasalahan dikemudiaan hari.
Nugroho(2013) dalam jurnal Case Based Reasoning untuk Kelayakan Kredit
Sepeda Motor menyelesaikan masalahnya menggunakan metode fuzzy yang
digabungkan dengan metode naive bayes dalam membangun sistem Case
Based Reasoning (CBR). Kadir (2010) dalam jurnalnya Perbandingan
Performansi Algoritma Decision Tree CART dan CHAID, menggunakan 11
variabel predictor dalam menyelesaikan kasus prediksi status resiko kredit bank
melalui credit scoring. Rahayu (2012) dalam jurnalnya Analisis Klasifikasi
Kredit Menggunakan Metode Newton Truncated-Kernel Logistic Regression
(NTR-KLR) menyelesaikan permasalahannya menggunakan 29 variabel
prediktor. Rangkuman dari penelitian yang telah dilakukan sebelumnya mengenai
prediksi risiko kredit dapat dilihat pada tabel 1.1.
Tabel 1.1 Tinjauan pustaka

No
1.
Nama Peneliti
Henry Nugroho
Judul Penelitian dan Tahun

Case Based Reasoning untuk
Metode
fuzzy
Hasil Penelitian
Dengan
menggunakan
Kelayakan
dan
metode
naive
digabungkan
bayes
metode
Motor (2013)
Kredit
Sepeda
fuzzy
yang
dengan
naive
bayes
dalam membangun sistem

Case
Based
Reasoning
(CBR)
2.
Mohamad
Perbandingan
Abdul Kadir
Algoritma
Performansi
Decision
Tree
CART dan CHAID (2010)
didapat
hasil
Decision
akurasi 85 %.
Dalam kasus
Tree
status resiko kredit bank
CART
melalui credit scoring, set
dan
data terdiri dari 11 variabel
CHAID
predictor
prediksi
dan
didapat
hasil keakuratan rata-rata

Algoritma CART sebesar
87,28%
dan
deviasi
standar
1,51 sedangkan
CHAID rata-rata sebesar

87,15%
3.
Liya
Misdiati
dan
standar
Kredit
Newton
deviasi 2,19.
Variabel prediktor
Metode
Truncate
digunakan
Truncated-Kernel
d-Kernel
variabel.
Logistic Regression (NTR-
Logistic
NTRKLR pada data Bank
KLR) (2012)
Regressi
X diwakili oleh satu data
on
testing pada fold pertama
(NTR-
memberikan total akurasi
KLR)
klasifikasi sebesar 82,61%.
Analisis
Klasifikasi
dan Santi Puteri
Menggunakan
Rahayu
Newton
terdiri
29
Pemodelan
Sebagai
pembanding
digunakan
pula
NTR-RLR
pengklasifikasian
total
yang
akurasi
metode
dalam
dengan
yang
dihasilkan sebesar 80,43%.
1.7 Keaslian Penelitian

Penelitian mengenai prediksi pemberian kredit telah dilakukan oleh
beberapa peneliti sebelumnya, namun para peneliti menggunakan metode dan
tahap-tahap yang berbeda. Penelitian ini menggunakan metode yang belum pernah
digunakan sebelumnya yaitu metode bayesian classification.
1.8 Metodologi Penelitian
Metode yang digunakan dalam penelitian ini adalah:
a)
Studi Pustaka
Penulis melakukan studi pustaka berupa pencarian berbagai jurnal,

artikel tentang
kredit
dan
metode bayesian classification yang
dapat
digunakan dalam penelitian.

b) Pengumpulan Data
Penulis melakukan pengumpulan data mengenai tema yang diambil. Data
yang digunakan merupakan data sekunder yang diperoleh dari website.
c)
Perancangan Sistem
Penulis merancang sistem dengan menggunakan metode yang telah
dipilih sebelumnya.
d) Implementasi
Penulis mengimplementasikan rancangan sistem ke dalam pengkodean
menggunakan bahasa pemrograman.
e) Pengujian
Pengujian dilakukan untuk menguji perangkat lunak yang dihasilkan
apakah sesuai dengan tujuan dan menjawab rumusan masalah atau tidak.
1.9 Sistematika Penulisan
Sistematika penulisan laporan ini, secara ringkas dapat dijelaskan
sebagai berikut:
BAB I Pendahuluan
Pada
bab ini
perumusan
akan
masalah,
dijelaskan
tentang
latar
batasan masalah, tujuan
belakang
masalah,
penelitian,
manfaat
penelitian, metode, sistematika penulisan.

BAB II Landasan Teori
Pada bab ini dijelaskan tentang landasan teori yang digunakan dalam
penelitian ini.
BAB III Analisis Dan Perancangan Sistem
Pada bab ini memuat uraian tentang: jenis penelitian, batasan penelitian,
jenis dan sumber data, prosedur dan pengumpulan data, analisis
kebutuhan sistem dan perancanagna sistem.
BAB IV Implementasi
Pada bab ini menguraikan tentang pembuatan perangkat lunak sesuai
dengan perancangan sitem yang telah ditentukan.
BAB V Hasil Penelitian Dan Pembahasan
Pada bab ini dimuat hasil pengujian dari aplikasi prediksi risiko kredit
yang telah dirancang pada bab sebelumnya.
BAB VI Penutup
Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil
penelitian, berikut saran-saran untuk penelitian selanjutnya.
BAB II
LANDASAN TEORI
2.1
Prediksi
Dibawah ini akan membahas mengenai pengertian, kendala-kendala,
efektifitas dan manfaat prediksi.

2.1.1
Pengertian prediksi
Prediksi adalah sama dengan ramalan atau perkiraan. Menurut Kamus

Besar Bahasa Indonesia, prediksi adalah hasil dari kegiatan memprediksi atau
meramal atau memperkirakan. Prediksi bisa berdasarkan metode ilmiah ataupun
subjektif belaka. Kesimpulannya, pengertian prediksi secara istilah akan sangat
tergantung pada konteks atau permasalahannya. Berbeda dengan pengertian
prediksi secara bahasa yang berarti ramalan atau perkiraaan yang sudah menjadi
pengertian yang baku.
2.1.2
Kendalakendala dalam membuat prediksi

Ada beberapa kendala yang membuat prediksi menjadi terhambat, yaitu:
1. Waktu yang diperlukan untuk melakukan persiapan melakukan peramalan.

2. Kurangnya data yang relevan, baik dari sumber internal maupun eksternal.
3. Kualitas data-data yang tersedia.
4. Fasilitas pengolahan data dan tenaga ahli.
Jenis kendala yang disebut pertama, kedua dan ketiga akan berpengaruh
pada kualitas data, sedang kendala yang disebut terakhir lebih banyak bergantung
pada kebijakan pengalokasian dana untuk kepentingan prediksi.
2.1.3
Efektivitas prediksi
Efektivitas sistem peramalan dalam membantu organisasi dapat dievaluasi
berdasarkan empat kriteria berikut:

1.
Accuracy. Ini merupakan aspek terpenting dari ramalan, karena perbedaan

antara aktual dan ramalan berarti biaya.
2. Stability vs Responsiveness. Artinya ramalan harus mampu mengkover

kompleksitas dan ketidakpastian lingkungan baik yang disebabkan oleh long
term growth trend maupun seasonal influences.
3.
Objectivity. Kadang-kadang kondisi yang diramalkan tidak ada kaitannya

dengan data historis yang digunakan dalam peramalan.
4.
Timing. Agar sistem peramalan dapat efektif, maka ramalan harus tersedia
tepat waktu.
5.
Benefit to Cost Ratio. Merupakan rasio yang dapat dijadikan sebagai kriteria
tunggal bagi perlu tidaknya sistem peramalan dalam perusahaan.
2.1.4 Manfaat prediksi

Manfaat prediksi adalah:
1. Mengetahui kondisi masa mendatang.
2. Merencanakan produksi, pemasaran, keuangan, dan lain-lain.
3. Untuk keperluan investasi pada sebuah perusahaan.
2.2
Perbankan
Dibawah ini akan diuraikan mengenai pengertian perbankan dan bank
pada umumnya.
2.2.1 Pengertian perbankan
Perbankan adalah lembaga keuangan yang berperan sangat vital dalam
aktivitas perdagangan internasional serta pembangunan nasional. Perbankan di
jalankan oleh 2 jenis bank saja, yaitu:
1.
Usaha Bank Umum, diatur dalam Pasal 6 UU No. 7 Tahun 1992. Namun
setelah adanya UU yang diubah (UU No. 10 Tahun 1998) ketentuan dalam
huruf m diganti, dan berbunyi: menyediakan pembiayaan dan atau
melakukan kegiatan lain berdasarkan prinsip syariah, sesuai dengan
ketentuan yang ditetapkan oleh Bank Indonesia.
2.
Usaha Bank Perkreditan Rakyat, diatur dalam Pasal 13 Undang-Undang No.

7 Tahun 1992. Namun setelah diubah dengan UU No. 10 tahun 1998,
ketentuan dalam huruf c diganti, dan berbunyi: menyediakan pembiyaan
dan penempatan uang berdasarkan prinsip Syariah, sesuai dengan ketentuan
yang ditetapkan oleh Bank Indonesia.
2.2.2 Bank pada umumnya
Pada dasarnya Bank adalah lembaga keuangan yang melayani kebutuhan

masyarakat, baik untuk menyimapn uang, meminjam uang dan jasa pelayanan lalu
lintas
pembayaran
baik
dalam
negeri
maupun
luar
negeri.
Menurut UU No. 10 tahun 1998 tentang perbankan, menetapkan bahwa Bank

adalah badan usaha yang menghimpun dana dari masyarakat dalam bentuk
simpanan dan menyalurkannnya dalam bentuk kredit dan atau dalam bentuk
lainnya dalam rangka meningkatkan taraf hidup orang banyak (UU RI No. 10 /
1998 Tentang Perubahan UU RI No.7 / 1992 Tentang Perbankan, pasal 1 ayat 1).
Menurut Stuart (1999:1) dalam bukunya Bank Politik yang dikutip oleh
Thomas Suyatno mengemukakan bahwa Bank adalah suatu badan yang bertujuan
untuk memuaskan kebutuhan kredit, baik dengan alat-alat pembayaran sendiri
maupun dengan uang yang diperolehnya dari orang lain, maupun dengan jalan
memperedarkan alat-alat penukar baru berupa uang giral. Menurut Barata (1994 :
74) mengemukakan pengertian bank dalam bukunya Dasar-Dasar Perbankan,
bahwa Bank adalah suatu lembaga keuangan yang pada pokoknya berusaha
memberikan pelayanan kepada semua pihak dalam bidang penyediaan jasa
pengelolaan dana, lalu lintas pembayaran, peredaran uang dan pemberian kredit,
baik dengan menggunakan modalnya sendiri maupun dana-dana yang
dikumpulkan dari pihak ketiga. Dari sini dapat disimpulkan bahwa bank adalah
lembaga keuangan yang usaha pokoknya mengumpulkan dana dengan menarik
dana dari masyarakat berupa tabungan, deposito, giro dan lain-lain, dan kemudian
disalurkan kembali kepada masyarakat dalam bentuk kredit.
2.3
Kredit
2.3.1
Kategori kredit
Berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12 November
1998, penggolongan kualitas kredit berdasarkan kemampuan membayar adalah

sebagai berikut:
1. Pembayaran tepat waktu, perkembangan rekening baik dan tidak ada
tunggakan serta sesuai dengan persyaratan kredit (lancar).
2. Terdapat tunggakan pembayaran pokok dan/atau bunga sampai dengan
90 hari (dalam perhatian khusus).
3. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui
90 hari sampai dengan 180 hari (kurang lancar).
180 hari sampai dengan 270 hari (diragukan).
270 hari (macet).
Berdasarkan SK diatas maka disesuaikan dalam penelitian ini, dibagi dalam 2
kategori yaitu kredit lancar dan tidak lancar, dengan pembagian:
1.
2.
Bila termasuk dalam poin 1 dan 2 maka dikatakan kredit lancar.

Bila termasuk dalam pion 3, 4, dan 5 maka dikatakan kredit tidak lancar.
2.3.2
Analisa kredit The 5 C of Credit Analysis

Dalam upaya memperkecil risiko dalam memberikan kredit, bank
mempertimbangkan beberapa hal yang terkait dengan itikad baik (willingness to

pay) dan kemampuan membayar (ability to pay) nasabah untuk melunasi kembali
pinjaman beserta bunganya. Hal-hal tersebut tertuang dalam istilah The Five C of
Credit Analysis.
1. Aspek karakter (character), memuat data tentang penilaian terhadap
karakter calon debitur dilihat dari berbagai sifat misalnya watak, kemauan,
kejujuran dan pengalaman hutang masa lalu.
2. Aspek kemampuan (capacity), memuat data tentang penilaian terhadap
kemampuan berusaha, kemampuan pemasaran, kemampuan membayar
kembali hutangnya masa lalu dan hubungan dengan rekan usahanya.
3. Aspek permodalan (capital), memuat data tentang penilaian terhadap data

keuangan calon debitur yang meliputi harta lancar, harta tetap, hutang dan
sebagainya.
4. Aspek kondisi ekonomi (conditions of economi), memuat data tentang
kondisi usaha, kondisi rumah tangga, kondisi usaha yang berkaitan dengan
kondisi ekonomi pada umumnya, dan sebagainya.
5. Aspek jaminan (collateral), memuat data tentang agunan yang akan
disediakan, kebendaannya, keberadaaanya, kondisi jaminannya, nilai
jualnya, penilaian terhadap kelayakannya, dan sebagainya.
2.4
Data Mining
2.4.1 Pengertian data mining

Menurut Han dan Kamber (2011:6), Data Mining merupakan pemilihan
atau menggali pengetahuan dari jumlah data yang banyak. Berbeda
dengan Segall et al. (2008:127) menjelaskan Data Mining disebut penemuan
pengetahuan atau menemukan pola yang tersembunyi dalam data. Data
mining adalah proses menganalisis data dari perspektif yang berbeda dan
meringkas menjadi informasi yang berguna. Bisa disimpulkan data mining
adalah proses menganalisis data yang banyak dan membuat suatu pola untuk
menjadi informasi yang berguna.
2.4.2
Cross Industry Standard Process for Data Mining (CRISP DM)

Dalam jurnal Identifying Bank Frauds Using CRISP-DM and
Decision Trees oleh Da Rocha & Timteo (2010) mengatakan metodologi Cross
Industri Standard
Process
for
Data Mining
(CRISP-DM) telah banyak
digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data
mining untuk memecahkan suatu masalah. Metodologi ini terdiri dari enam tahap
proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan
dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data
mining yang berukuran kecil pun dapat memperoleh 6 keuntungan dari
CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut
sebagai siklus:
1. Fase pemahaman bisnis (business understanding phase)

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan
data mining.
c. Menyiapkan strategi awal yang merupakan rencana proyek untuk mencapai
tujuan.
2. Fase pemahaman data (data understanding phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data
dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan memilih sebagian kecil group data yang mungkin
mengandung pola dari permasalahan.
3. Fase pengolahan data (data preparation phase)
a. Menyiapkan kumpulan data yang akan digunakan untuk keseluruhan fase
berikutnya.
b. Pilih kasus dan atribut yang ingin di analisa dan yang sesuai dengan
analisis yang akan dilakukan.
c. Melakukan perubahan pada atribut jika dibutuhkan.
d. Menyiapkan data awal sehingga siap untuk perangkat pemodelan.
Terdapat
beberapa
teknik
dalam
mengolah
data
seperti
data
transformation, data reduction dan data cleaning, diantaranya :

1. Generalization: mengubah data atribut low level menjadi atribut high
level. contoh: atribut numerical menjadi ordinal.
2. Attribute construction: penambahan atribut baru untuk kepentingan
proses mining.
3. Attribute subset selection: pemilihan atribut yang menjadi atribut
prediktor. Ada 4 metode yang dapat digunakan, yaitu:
a. Stepwise forward selection
Proses metode ini adalah untuk mencari atribut terbaik dari seluruh
data set dan di masukkan ke dalam data set baru berdasarkan atribut
terbaik yang telah dipilih.
b. Stepwise backward elimination
Proses metode ini adalah untuk mencari atribut yang tidak berkaitan
dengan data mining yang dicari, lalu langsung menghapusnya dari
data set.
c. Combination of forward selection and backward elimination
Proses metode ini adalah penggabungan dari metode stepwise
forward selection dan stepwise backward elimination.
d. Decision tree induction
Proses metode ini menggunakan algoritma decision tree, seperti
algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik.
4. Missing value
Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang
terdapat dalam data, yaitu:
a. Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null.
b. Fill in the missing value manually: mengisi sendiri nilai null yang
terdapat dalam data.
c. Use global constant to fill in the missing value: mengganti nilai null
dengan label constant, seperti Unknown.
d. Use the attribute mean to fill in the missing value: mengganti
nilai null dengan rata-rata yang dimiliki atribut.
e. Use the attribute mean for all samples belonging to the same
class the given tuple: mengganti nilai null dengan nilai rata-rata
yang dimilik atribut berdasarkan target kelas yang dicari.
f. Use the most probable value to fill in the missing value :
mengganti nilai null dengan nilai yang paling mungkin muncul
berdasarkan atribut target kelas yang dicari.
4. Fase pemodelan (modelling phase)
a. Memilih dan mengaplikasikan teknik pemodelan yang sesuai.
b. Mengkalibrasi aturan model untuk mengoptimalkan hasil.

c. Memperhatikan kemungkinan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase evaluasi (evaluation phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase penyebaran (deployment phase)
a. Menggunakan model yang dihasilkan.
b. Contoh sederhana penyebaran : pembuatan laporan.
c. Contoh kompleks penyebaran : penerapan proses data mining secara
paralel pada departemen lain.
Gambar 2.1 Tahapan data mining CRISP-DM

(Sumber: CRISP-DM.org)
2.4.3
Fungsi data mining

Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu
fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi
(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining
secara umum :
1. Classification
Fungsi dari classification adalah untuk mengklasifikasikan suatu target
kelas ke dalam kategori yang dipilih. Contohnya : bayesian classification.
2. Clustering
Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke
dalam segmentasi-segmentasi berdasarkan similaritas.
3. Association
Fungsinya adalah untuk mencari keterkaitan antara atribut atau item set,
berdasarkan jumlah item yang muncul dan rule association yang ada.
4. Regression
Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari

regression adalah bertujuan untuk mencari prediksi dari suatu pola yang
ada.
5. Forecasting
Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang
berdasarkan tren yang telah terjadi di waktu sebelumnya.
6. Sequence analysis
Fungsi dari sequence analysis adalah untuk mencari pola urutan dari
rangkaian kejadian.
7. Deviation analysis
Fungsi dari devation analysis adalah untuk mencari kejadian langka yang
sangat berbeda dari keadaan normal (kejadian abnormal).
2.4.4
Klasifikasi
Klasifikasi merupakan proses untuk menempatkan suatu objek ke
dalam suatu kategori/kelas yang sudah didefinisikan sebelumnya berdasarkan

model tertentu.
Data mining
merupakan penjelasan tentang masa lalu dan
prediksi masa depan berdasarkan analisa pada sekelompok data. Dalam

proses memprediksi masa depan ini data mining menggunakan beberapa
model yaitu pemodelan prediktif dan deskriptif.
a. Pemodelan prediktif diawali dengan pembentukan model untuk memprediksi
hasil. Jika hasil pemodelan dalam bentuk kategori (diskrit) maka disebut
sebagai klasifikasi sedangkan jika hasil pemodelan bernilai kontinu maka
disebut regresi.
b. Pemodelan deskriptif atau lebih dikenal dengan istilah clustering, merupakan
proses pengamatan terhadap kelompok data kemudian diikuti dengan
pengelompokan data/cluster terhadap data yang mempunyai kesamaan ciri.
Ada dua proses penting yang dilakukan saat melakukan klasifikasi. Proses
yang pertama adalah learning (training) yaitu proses pembelajaran menggunakan
training set. Untuk kasus bayesian classification, perhitungan probabilitas dari
data berdasarkan data pembelajaran dilakukan. Proses yang kedua adalah proses
testing yaitu menguji model menggunakan data testing.
2.5
Bayesian Classification
Bayesian Classification
merupakan pengklasifikasian dengan metode
probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas

Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di
masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson
dan Delen (2008:102) menjelaskan bayesian classification untuk setiap kelas
keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah
benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan
bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam
memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master"
tabel keputusan.
Bayesian classification bekerja sangat baik dibanding dengan model
classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam
jurnalnya Nave Bayes vs. Decision Trees vs. Neural Networks in the
Classification
Classification
of
Training
Web
Pages
mengatakan
bahwa
Bayesian
memiliki tingkat akurasi yang lebih baik dibanding model
classifier lainnya.
Menurut Han dan Kamber (2011:351) Proses dari Bayesian classification,
atau Simple Bayesian Classifier, sebagai berikut:
1.
Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas.
Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X=(x1, x2, ...,
xn), ini menggambarkan pengukuran n dibuat pada
2.
tuple dari atribut n,
masing-masing, A1, A2, ..., An.

Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan
memprediksi X yang masuk kelompok memiliki probabilitas posterior
tertinggi, kondisi-disebutkan pada X. Artinya, Bayesian memprediksi bahwa
X tuple milik kelas Ci jika dan hanya jika :
P(Ci|X) > P(Cj|X) for 1 j m, j i.
(2.1)
Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan

disebut hipotesis posteriori maksimal. Dengan teorema Bayes :
Ci
X |Ci ) P()
P
P(CiX )=
(2.2)
Keterangan :
P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X
(Posterior probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling
P(Ci)
P(X)
besar (likelihood)
= Prior probability dari X (Prior probability)
= Jumlah probability tuple yg muncul
3. Ketika P (X) adalah konstan untuk semua kelas, hanya P(X | Ci) P (Ci) butuh
dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka
umumnya diasumsikan ke dalam kelas yang sama, yaitu, P(C1) = P(C2) =
= P (C m), maka dari itu akan memaksimalkan P(X | Ci). Jika tidak, maka
akan memaksimalkan P(X | Ci) P(Ci). Perhatikan bahwa probabilitas sebelum
kelas dapat diperkirakan oleh P(Ci) = | Ci, D| / | D |, dimana |Ci, D| adalah
jumlah tuple pelatihan kelas Ci di D.
4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit
dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi
perhitungan dalam mengevaluasi P(X|Ci), asumsi nave independensi kelas
bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional
independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak
ada hubungan ketergantungan diantara atribut) dengan demikian :
n
P ( X|Ci ) = P ( xk|Ci )
k=1
P ( x 1|Ci ) x P ( x 2|Ci ) x P(xnCi)
(2.3)
Maka dapat dengan mudah memperkirakan probabilitas P(x1|Ci), P(x2|

Ci),...P(xn|Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu pada nilai
atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut
tersebut kategorikal atau continuous-valued . Misalnya, untuk menghitung
P(X | Ci) mempertimbangkan hal-hal berikut:
a) Jika Ak adalah kategorikal, maka P (Xk| Ci) adalah jumlah tuple kelas Ci
di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci, D |, jumlah
tuplekelas Ci di D.
b) Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak
pekerjaan,
tapi
perhitunganya
cukup
sederhana.
Sebuah atribut
continuous-valued biasanya diasumsikan memiliki distribusi Gaussian

dengan rata-rata dan standar deviasi , didefinisikan oleh
(2.4)
sehingga
(2.5)
Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean(rata-rata) dan
standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci. Setelah
itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan xk,
untuk memperkirakan P (xk| Ci).
5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap
kelas Ci. Classifier memprediksi kelas label dari tuplex adalah kelas Ci, jika
(2.6)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P (Ci)
adalah maksimal. Pengklasifikasi
Bayesian memiliki
tingkat
kesalahan
minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya

hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk
penggunaannya, seperti kondisi kelas independen, dan kurangnya data

probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam
memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak
secara eksplisit menggunakan teorema Bayes.
2.6
Evaluasi Kinerja Classifier

Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat
yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari
kelas yang berbeda. TP dan TN memberikan informasi ketika classifier
benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh
gambar Confusion matrix ditunjukan pada gambar 2.2.
Gambar 2.2 The Confusion Matrix menampilkan total positif dan negatif tuple
Sumber: (Han & Kamber, 2011, p366)
Langkah sensitivity dan specificity dapat digunakan untuk pengklasifikasian

akurasi. Sensitivity dapat ditunjuk sebagai true positives (recognition) rate
(proporsi dari tuple positif yang diidentifikasi dengan benar). Sedangakan
specificity adalah
true
diidentifikasi secara benar).
negatives
rate (proporsi
tuple negatif
yang
Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan
spesifisitas:
(2.9)
Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error
Rate:
DAFTAR PUSTAKA
Han, Jiawei, dan Micheline Kamber. 2001. Data Mining: Concepts and
Techniques. San Francisco: Morgan Kaufmann.
Kadir, M., Perbandingan Performansi Algoritma Decision Tree CART dan
CHAID, skripsi, jurusan TI, Institut Teknologi Bandung, 2010.
Kusrini., dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. ANDI.
Yogyakarta.
Misdiati, L. dan Rahayu, S.P., Analisis Klasifikasi Kredit Menggunakan Metode
Newton Truncated-Kernel Logistic Regression (NTR-KLR) (2012)
Nave
Bayes
Example.
http://jmvidal.cse.sc.edu/talks/Bayesian
learning/nbex.xml. Tanggal Akses: 15 Juni 2014.
Nugroho, F.X.H., Case Based Reasoning untuk Kelayakan Mendapatkan Kredit
Sepeda Motor, Tesis, Universitas Gadjah Mada, 2013.
Santoso, B. 2007. Data Mining : Teknik
Keperluan Bisnis.Yogyakarta : Graha Ilmu.
Pemanfaatan
Data
Untuk
Wikipedia:
Nave
Bayes
classifier.
http://en.wikipedia.org/wiki/
Naive_Bayes_classifier. Tanggal Akses : 18 Juni 2014.

Contoh Penulisan Metodologi Penelitian Bab 1 Dan 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Contoh Penulisan Metodologi Penelitian Bab 1 Dan 2

Diunggah oleh

Hak Cipta:

Format Tersedia

METODOLOGI PENELITIAN

PREDIKSI RISIKO KREDIT NASABAH PERBANKAN

ini, dicoba melakukan penelitian menggunakan algoritma bayesian

classification yang dinilai sesuai karena bayesian classification merupakan salah

1.2 Rumusan Masalah

2. Bagi Perusahaan Perbankan

Tabel 1.1 Tinjauan pustaka

Judul Penelitian dan Tahun

dalam membangun sistem

CART dan CHAID (2010)

status resiko kredit bank

melalui credit scoring, set

data terdiri dari 11 variabel

hasil keakuratan rata-rata

CHAID rata-rata sebesar

Logistic Regression (NTR-

NTRKLR pada data Bank

X diwakili oleh satu data

testing pada fold pertama

memberikan total akurasi

klasifikasi sebesar 82,61%.

dan Santi Puteri

dihasilkan sebesar 80,43%.

1.7 Keaslian Penelitian

Penulis melakukan studi pustaka berupa pencarian berbagai jurnal,

metode bayesian classification yang

digunakan dalam penelitian.

batasan masalah, tujuan

penelitian, metode, sistematika penulisan.

efektifitas dan manfaat prediksi.

Prediksi adalah sama dengan ramalan atau perkiraan. Menurut Kamus

Kendalakendala dalam membuat prediksi

1. Waktu yang diperlukan untuk melakukan persiapan melakukan peramalan.

berdasarkan empat kriteria berikut:

Accuracy. Ini merupakan aspek terpenting dari ramalan, karena perbedaan

2. Stability vs Responsiveness. Artinya ramalan harus mampu mengkover

Objectivity. Kadang-kadang kondisi yang diramalkan tidak ada kaitannya

2.1.4 Manfaat prediksi

Usaha Bank Perkreditan Rakyat, diatur dalam Pasal 13 Undang-Undang No.

2.2.2 Bank pada umumnya

Pada dasarnya Bank adalah lembaga keuangan yang melayani kebutuhan

Menurut UU No. 10 tahun 1998 tentang perbankan, menetapkan bahwa Bank

1998, penggolongan kualitas kredit berdasarkan kemampuan membayar adalah

Bila termasuk dalam poin 1 dan 2 maka dikatakan kredit lancar.

Analisa kredit The 5 C of Credit Analysis

mempertimbangkan beberapa hal yang terkait dengan itikad baik (willingness to

3. Aspek permodalan (capital), memuat data tentang penilaian terhadap data

2.4.1 Pengertian data mining

Cross Industry Standard Process for Data Mining (CRISP DM)

(CRISP-DM) telah banyak

1. Fase pemahaman bisnis (business understanding phase)

transformation, data reduction dan data cleaning, diantaranya :

b. Mengkalibrasi aturan model untuk mengoptimalkan hasil.

Gambar 2.1 Tahapan data mining CRISP-DM

Fungsi data mining

Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari

dalam suatu kategori/kelas yang sudah didefinisikan sebelumnya berdasarkan

merupakan penjelasan tentang masa lalu dan

prediksi masa depan berdasarkan analisa pada sekelompok data. Dalam

merupakan pengklasifikasian dengan metode

probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas

memiliki tingkat akurasi yang lebih baik dibanding model

tuple dari atribut n,

masing-masing, A1, A2, ..., An.