Anda di halaman 1dari 23

METODOLOGI PENELITIAN

PREDIKSI RISIKO KREDIT NASABAH PERBANKAN


MENGGUNAKAN DATA MINING ALGORITMA
BAYESIAN CLASSIFICATION

Nama

ROSA D. S. A. BIDA

NIM

1106082008

ILMU KOMPUTER
FAKULTAS SAINS DAN TEKNIK
UNIVERSITAS NUSA CENDANA
2013/2014

BAB I
PENDAHULUAN
1.1 Latar Belakang
Perbankan merupakan perusahaan yang dalam kegiatannya berhubungan
langsung dengan masyarakat. Salah satu kegiatan perbankan yang berhubungan
langsung dengan masyarakat adalah pemberian kredit. Pemberian kredit
merupakan kegiatan usaha yang mengandung risiko tinggi dan berpengaruh
terhadap keberlangsungan usaha perbankan. Saat nasabah melakukan pengajuan
kredit, pihak perbankan tidak memenfaatkan data-data kredit nasabah sebelumya
sehingga sering terjadi kredit macet.
Data mining adalah suatu proses yang digunakan untuk mencari informasi
dan pengetahuan yang berguna, yang diperoleh dari data-data yang dimiliki. Data
mining mampu memanfaatkan aset penting perusahaan berupa data bisnis yang
jumlahnya sangat besar sehingga dapat menghasilkan informasi yang belum
pernah terpelajari sebelumnya. Dalam kasus pemberian kredit, perbankan dapat
memenfaatkan data-data kredit nasabah sebelumnya untuk menganalisa risiko
kredit dari pengajuan kredit nasabah saat ini. Algoritma yang dapat digunakan
adalah algoritma klasifikasi data mining diantaranya SVM (Support Vector
Machine), association rule, bayesian classification, decision tree, dan k nearest
neighbors.
Suatu algoritma yang dianggap paling baik pada proses klasifikasi suatu
permasalahan belum tentu baik juga untuk memecahkan permasalahan yang lain.
Berdasarkan penelitian yang pernah dilakukan sebelumnya, didapat hasil tidak ada
algoritma yang paling baik untuk diterapkan pada setiap permasalahan yang
berbeda. Untuk mendapatkan hasil prediksi risiko kredit yang paling akurat pada
kasus

ini, dicoba melakukan penelitian menggunakan algoritma bayesian

classification yang dinilai sesuai karena bayesian classification merupakan salah


satu algoritma klasifikasi yang sederhana namun memiliki kemampuan dan
akurasi tinggi (Rish, 2006).

1.2 Rumusan Masalah


Berdasarkan latar belakang dan permasalahan yang ada, maka dapat
dirumuskan beberapa masalah sebagai berikut:
1. Bagaimana memprediksi risiko kredit yang diajukan nasabah pada perusahaan
perbankan

dengan

menggunakan

data

mining

algoritma

bayesian

classification?
2. Apakah prediksi risiko kredit yang dihasilkan dengan algoritma bayesian
classification memiliki tingkat akurasi yang tinggi?
1.3 Batasan Masalah
Batasan masalah pada penelitian ini antara lain:
1. Parameter yang digunakan dalam penelitian ini terdiri atas: pekerjaan, jaminan,
penghasilan, dan besar pinjaman.
2. Metode yang digunakan dalam penelitian ini adalah algoritma bayesian
classification.
3. Output dari penelitian ini adalah risiko kredit dan dari 5 kriteria penggolongan
kualitas kredit berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12
November 1998, dalam penelitian ini digunakan 2 kriteria yaitu kredit lancar
dan kredit tidak lancar.
1.4 Tujuan Penelitian
Tujuan dari Penelitian ini adalah untuk menghasilkan aplikasi pediksi
kredit yang dapat dijadikan pertimbangan untuk membantu pihak perbankan
dalam menyeleksi pengajuan kredit nasabah sehingga menghindari kesalahan
dalam penerimaan pengajuan kredit dari nasabah yang berisiko tidak dapat
melunasi kreditnya.
1.5 Manfaat Penelitian
Adapun beberapa manfaat yang diharapkan pada penelitian ini adalah:

1. Bagi Penulis
Penulis dapat lebih mengetahui cara menerapkan ilmu-ilmu yang telah
dipelajari selama ini dalam merancang dan membuat aplikasi menggunakan
data mining algoritma bayesian classification.

2. Bagi Perusahaan Perbankan


Diharapkan dengan adanya aplikasi ini dapat membantu pengambil
keputusan untuk memberikan kredit pada nasabah yang tepat sehingga tidak
menimbulkan permasalahan di kemudian hari.
1.6 Tinjauan Pustaka
Penelitian mengenai prediksi risiko pemberian kredit telah banyak
dilakukan oleh para peneliti sebelumnya. Hal ini tidak terlepas dari manfaat yang
diperoleh yaitu membantu mengantisipasi permasalahan dikemudiaan hari.
Nugroho(2013) dalam jurnal Case Based Reasoning untuk Kelayakan Kredit
Sepeda Motor menyelesaikan masalahnya menggunakan metode fuzzy yang
digabungkan dengan metode naive bayes dalam membangun sistem Case
Based Reasoning (CBR). Kadir (2010) dalam jurnalnya Perbandingan
Performansi Algoritma Decision Tree CART dan CHAID, menggunakan 11
variabel predictor dalam menyelesaikan kasus prediksi status resiko kredit bank
melalui credit scoring. Rahayu (2012) dalam jurnalnya Analisis Klasifikasi
Kredit Menggunakan Metode Newton Truncated-Kernel Logistic Regression
(NTR-KLR) menyelesaikan permasalahannya menggunakan 29 variabel
prediktor. Rangkuman dari penelitian yang telah dilakukan sebelumnya mengenai
prediksi risiko kredit dapat dilihat pada tabel 1.1.

Tabel 1.1 Tinjauan pustaka


No
1.

Nama Peneliti
Henry Nugroho

Judul Penelitian dan Tahun


Case Based Reasoning untuk

Metode
fuzzy

Hasil Penelitian
Dengan
menggunakan

Kelayakan

dan

metode

naive

digabungkan

bayes

metode

Motor (2013)

Kredit

Sepeda

fuzzy

yang
dengan

naive

bayes

dalam membangun sistem


Case

Based

Reasoning

(CBR)
2.

Mohamad

Perbandingan

Abdul Kadir

Algoritma

Performansi
Decision

Tree

CART dan CHAID (2010)

didapat

hasil

Decision

akurasi 85 %.
Dalam kasus

Tree

status resiko kredit bank

CART

melalui credit scoring, set

dan

data terdiri dari 11 variabel

CHAID

predictor

prediksi

dan

didapat

hasil keakuratan rata-rata


Algoritma CART sebesar
87,28%

dan

deviasi

standar

1,51 sedangkan

CHAID rata-rata sebesar


87,15%
3.

Liya

Misdiati

dan

standar

Kredit

Newton

deviasi 2,19.
Variabel prediktor

Metode

Truncate

digunakan

Truncated-Kernel

d-Kernel

variabel.

Logistic Regression (NTR-

Logistic

NTRKLR pada data Bank

KLR) (2012)

Regressi

X diwakili oleh satu data

on

testing pada fold pertama

(NTR-

memberikan total akurasi

KLR)

klasifikasi sebesar 82,61%.

Analisis

Klasifikasi

dan Santi Puteri

Menggunakan

Rahayu

Newton

terdiri

29

Pemodelan

Sebagai

pembanding

digunakan

pula

NTR-RLR
pengklasifikasian
total

yang

akurasi

metode
dalam
dengan
yang

dihasilkan sebesar 80,43%.

1.7 Keaslian Penelitian


Penelitian mengenai prediksi pemberian kredit telah dilakukan oleh
beberapa peneliti sebelumnya, namun para peneliti menggunakan metode dan
tahap-tahap yang berbeda. Penelitian ini menggunakan metode yang belum pernah
digunakan sebelumnya yaitu metode bayesian classification.
1.8 Metodologi Penelitian
Metode yang digunakan dalam penelitian ini adalah:
a)

Studi Pustaka

Penulis melakukan studi pustaka berupa pencarian berbagai jurnal,


artikel tentang

kredit

dan

metode bayesian classification yang

dapat

digunakan dalam penelitian.


b) Pengumpulan Data
Penulis melakukan pengumpulan data mengenai tema yang diambil. Data
yang digunakan merupakan data sekunder yang diperoleh dari website.
c)

Perancangan Sistem
Penulis merancang sistem dengan menggunakan metode yang telah
dipilih sebelumnya.

d) Implementasi
Penulis mengimplementasikan rancangan sistem ke dalam pengkodean
menggunakan bahasa pemrograman.
e) Pengujian
Pengujian dilakukan untuk menguji perangkat lunak yang dihasilkan
apakah sesuai dengan tujuan dan menjawab rumusan masalah atau tidak.
1.9 Sistematika Penulisan
Sistematika penulisan laporan ini, secara ringkas dapat dijelaskan
sebagai berikut:

BAB I Pendahuluan
Pada

bab ini

perumusan

akan

masalah,

dijelaskan

tentang

latar

batasan masalah, tujuan

belakang

masalah,

penelitian,

manfaat

penelitian, metode, sistematika penulisan.


BAB II Landasan Teori
Pada bab ini dijelaskan tentang landasan teori yang digunakan dalam
penelitian ini.
BAB III Analisis Dan Perancangan Sistem

Pada bab ini memuat uraian tentang: jenis penelitian, batasan penelitian,
jenis dan sumber data, prosedur dan pengumpulan data, analisis
kebutuhan sistem dan perancanagna sistem.
BAB IV Implementasi
Pada bab ini menguraikan tentang pembuatan perangkat lunak sesuai
dengan perancangan sitem yang telah ditentukan.
BAB V Hasil Penelitian Dan Pembahasan
Pada bab ini dimuat hasil pengujian dari aplikasi prediksi risiko kredit
yang telah dirancang pada bab sebelumnya.
BAB VI Penutup
Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil
penelitian, berikut saran-saran untuk penelitian selanjutnya.

BAB II
LANDASAN TEORI
2.1

Prediksi
Dibawah ini akan membahas mengenai pengertian, kendala-kendala,

efektifitas dan manfaat prediksi.


2.1.1

Pengertian prediksi

Prediksi adalah sama dengan ramalan atau perkiraan. Menurut Kamus


Besar Bahasa Indonesia, prediksi adalah hasil dari kegiatan memprediksi atau
meramal atau memperkirakan. Prediksi bisa berdasarkan metode ilmiah ataupun
subjektif belaka. Kesimpulannya, pengertian prediksi secara istilah akan sangat
tergantung pada konteks atau permasalahannya. Berbeda dengan pengertian
prediksi secara bahasa yang berarti ramalan atau perkiraaan yang sudah menjadi
pengertian yang baku.
2.1.2

Kendalakendala dalam membuat prediksi


Ada beberapa kendala yang membuat prediksi menjadi terhambat, yaitu:

1. Waktu yang diperlukan untuk melakukan persiapan melakukan peramalan.


2. Kurangnya data yang relevan, baik dari sumber internal maupun eksternal.
3. Kualitas data-data yang tersedia.
4. Fasilitas pengolahan data dan tenaga ahli.
Jenis kendala yang disebut pertama, kedua dan ketiga akan berpengaruh
pada kualitas data, sedang kendala yang disebut terakhir lebih banyak bergantung
pada kebijakan pengalokasian dana untuk kepentingan prediksi.
2.1.3

Efektivitas prediksi
Efektivitas sistem peramalan dalam membantu organisasi dapat dievaluasi

berdasarkan empat kriteria berikut:


1.

Accuracy. Ini merupakan aspek terpenting dari ramalan, karena perbedaan


antara aktual dan ramalan berarti biaya.

2. Stability vs Responsiveness. Artinya ramalan harus mampu mengkover


kompleksitas dan ketidakpastian lingkungan baik yang disebabkan oleh long
term growth trend maupun seasonal influences.
3.

Objectivity. Kadang-kadang kondisi yang diramalkan tidak ada kaitannya


dengan data historis yang digunakan dalam peramalan.

4.

Timing. Agar sistem peramalan dapat efektif, maka ramalan harus tersedia
tepat waktu.

5.

Benefit to Cost Ratio. Merupakan rasio yang dapat dijadikan sebagai kriteria
tunggal bagi perlu tidaknya sistem peramalan dalam perusahaan.

2.1.4 Manfaat prediksi


Manfaat prediksi adalah:
1. Mengetahui kondisi masa mendatang.
2. Merencanakan produksi, pemasaran, keuangan, dan lain-lain.
3. Untuk keperluan investasi pada sebuah perusahaan.
2.2

Perbankan
Dibawah ini akan diuraikan mengenai pengertian perbankan dan bank

pada umumnya.
2.2.1 Pengertian perbankan
Perbankan adalah lembaga keuangan yang berperan sangat vital dalam
aktivitas perdagangan internasional serta pembangunan nasional. Perbankan di
jalankan oleh 2 jenis bank saja, yaitu:
1.

Usaha Bank Umum, diatur dalam Pasal 6 UU No. 7 Tahun 1992. Namun
setelah adanya UU yang diubah (UU No. 10 Tahun 1998) ketentuan dalam
huruf m diganti, dan berbunyi: menyediakan pembiayaan dan atau
melakukan kegiatan lain berdasarkan prinsip syariah, sesuai dengan
ketentuan yang ditetapkan oleh Bank Indonesia.

2.

Usaha Bank Perkreditan Rakyat, diatur dalam Pasal 13 Undang-Undang No.


7 Tahun 1992. Namun setelah diubah dengan UU No. 10 tahun 1998,
ketentuan dalam huruf c diganti, dan berbunyi: menyediakan pembiyaan
dan penempatan uang berdasarkan prinsip Syariah, sesuai dengan ketentuan
yang ditetapkan oleh Bank Indonesia.

2.2.2 Bank pada umumnya

Pada dasarnya Bank adalah lembaga keuangan yang melayani kebutuhan


masyarakat, baik untuk menyimapn uang, meminjam uang dan jasa pelayanan lalu
lintas

pembayaran

baik

dalam

negeri

maupun

luar

negeri.

Menurut UU No. 10 tahun 1998 tentang perbankan, menetapkan bahwa Bank


adalah badan usaha yang menghimpun dana dari masyarakat dalam bentuk
simpanan dan menyalurkannnya dalam bentuk kredit dan atau dalam bentuk
lainnya dalam rangka meningkatkan taraf hidup orang banyak (UU RI No. 10 /
1998 Tentang Perubahan UU RI No.7 / 1992 Tentang Perbankan, pasal 1 ayat 1).
Menurut Stuart (1999:1) dalam bukunya Bank Politik yang dikutip oleh
Thomas Suyatno mengemukakan bahwa Bank adalah suatu badan yang bertujuan
untuk memuaskan kebutuhan kredit, baik dengan alat-alat pembayaran sendiri
maupun dengan uang yang diperolehnya dari orang lain, maupun dengan jalan
memperedarkan alat-alat penukar baru berupa uang giral. Menurut Barata (1994 :
74) mengemukakan pengertian bank dalam bukunya Dasar-Dasar Perbankan,
bahwa Bank adalah suatu lembaga keuangan yang pada pokoknya berusaha
memberikan pelayanan kepada semua pihak dalam bidang penyediaan jasa
pengelolaan dana, lalu lintas pembayaran, peredaran uang dan pemberian kredit,
baik dengan menggunakan modalnya sendiri maupun dana-dana yang
dikumpulkan dari pihak ketiga. Dari sini dapat disimpulkan bahwa bank adalah
lembaga keuangan yang usaha pokoknya mengumpulkan dana dengan menarik
dana dari masyarakat berupa tabungan, deposito, giro dan lain-lain, dan kemudian
disalurkan kembali kepada masyarakat dalam bentuk kredit.

2.3

Kredit

2.3.1

Kategori kredit
Berdasarkan SK Direksi BI NO.31/147/KEP/DIR tanggal 12 November

1998, penggolongan kualitas kredit berdasarkan kemampuan membayar adalah


sebagai berikut:
1. Pembayaran tepat waktu, perkembangan rekening baik dan tidak ada
tunggakan serta sesuai dengan persyaratan kredit (lancar).
2. Terdapat tunggakan pembayaran pokok dan/atau bunga sampai dengan
90 hari (dalam perhatian khusus).
3. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui
90 hari sampai dengan 180 hari (kurang lancar).
4. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui
180 hari sampai dengan 270 hari (diragukan).
5. Terdapat tunggakan pembayaran pokok dan/atau bunga yang telah melampaui
270 hari (macet).
Berdasarkan SK diatas maka disesuaikan dalam penelitian ini, dibagi dalam 2
kategori yaitu kredit lancar dan tidak lancar, dengan pembagian:
1.
2.

Bila termasuk dalam poin 1 dan 2 maka dikatakan kredit lancar.


Bila termasuk dalam pion 3, 4, dan 5 maka dikatakan kredit tidak lancar.

2.3.2

Analisa kredit The 5 C of Credit Analysis


Dalam upaya memperkecil risiko dalam memberikan kredit, bank

mempertimbangkan beberapa hal yang terkait dengan itikad baik (willingness to


pay) dan kemampuan membayar (ability to pay) nasabah untuk melunasi kembali
pinjaman beserta bunganya. Hal-hal tersebut tertuang dalam istilah The Five C of
Credit Analysis.
1. Aspek karakter (character), memuat data tentang penilaian terhadap
karakter calon debitur dilihat dari berbagai sifat misalnya watak, kemauan,
kejujuran dan pengalaman hutang masa lalu.
2. Aspek kemampuan (capacity), memuat data tentang penilaian terhadap
kemampuan berusaha, kemampuan pemasaran, kemampuan membayar
kembali hutangnya masa lalu dan hubungan dengan rekan usahanya.

3. Aspek permodalan (capital), memuat data tentang penilaian terhadap data


keuangan calon debitur yang meliputi harta lancar, harta tetap, hutang dan
sebagainya.
4. Aspek kondisi ekonomi (conditions of economi), memuat data tentang
kondisi usaha, kondisi rumah tangga, kondisi usaha yang berkaitan dengan
kondisi ekonomi pada umumnya, dan sebagainya.
5. Aspek jaminan (collateral), memuat data tentang agunan yang akan
disediakan, kebendaannya, keberadaaanya, kondisi jaminannya, nilai
jualnya, penilaian terhadap kelayakannya, dan sebagainya.
2.4

Data Mining

2.4.1 Pengertian data mining


Menurut Han dan Kamber (2011:6), Data Mining merupakan pemilihan
atau menggali pengetahuan dari jumlah data yang banyak. Berbeda
dengan Segall et al. (2008:127) menjelaskan Data Mining disebut penemuan
pengetahuan atau menemukan pola yang tersembunyi dalam data. Data
mining adalah proses menganalisis data dari perspektif yang berbeda dan
meringkas menjadi informasi yang berguna. Bisa disimpulkan data mining
adalah proses menganalisis data yang banyak dan membuat suatu pola untuk
menjadi informasi yang berguna.
2.4.2

Cross Industry Standard Process for Data Mining (CRISP DM)


Dalam jurnal Identifying Bank Frauds Using CRISP-DM and

Decision Trees oleh Da Rocha & Timteo (2010) mengatakan metodologi Cross
Industri Standard

Process

for

Data Mining

(CRISP-DM) telah banyak

digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data
mining untuk memecahkan suatu masalah. Metodologi ini terdiri dari enam tahap
proses siklus. Metodologi ini membuat data mining yang besar dapat dilakukan
dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, data
mining yang berukuran kecil pun dapat memperoleh 6 keuntungan dari
CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam tahap yang disebut
sebagai siklus:

1. Fase pemahaman bisnis (business understanding phase)


a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan
data mining.
c. Menyiapkan strategi awal yang merupakan rencana proyek untuk mencapai
tujuan.
2. Fase pemahaman data (data understanding phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data
dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan memilih sebagian kecil group data yang mungkin
mengandung pola dari permasalahan.
3. Fase pengolahan data (data preparation phase)
a. Menyiapkan kumpulan data yang akan digunakan untuk keseluruhan fase
berikutnya.
b. Pilih kasus dan atribut yang ingin di analisa dan yang sesuai dengan
analisis yang akan dilakukan.
c. Melakukan perubahan pada atribut jika dibutuhkan.
d. Menyiapkan data awal sehingga siap untuk perangkat pemodelan.
Terdapat

beberapa

teknik

dalam

mengolah

data

seperti

data

transformation, data reduction dan data cleaning, diantaranya :


1. Generalization: mengubah data atribut low level menjadi atribut high
level. contoh: atribut numerical menjadi ordinal.
2. Attribute construction: penambahan atribut baru untuk kepentingan
proses mining.
3. Attribute subset selection: pemilihan atribut yang menjadi atribut
prediktor. Ada 4 metode yang dapat digunakan, yaitu:
a. Stepwise forward selection

Proses metode ini adalah untuk mencari atribut terbaik dari seluruh
data set dan di masukkan ke dalam data set baru berdasarkan atribut
terbaik yang telah dipilih.
b. Stepwise backward elimination
Proses metode ini adalah untuk mencari atribut yang tidak berkaitan
dengan data mining yang dicari, lalu langsung menghapusnya dari
data set.
c. Combination of forward selection and backward elimination
Proses metode ini adalah penggabungan dari metode stepwise
forward selection dan stepwise backward elimination.
d. Decision tree induction
Proses metode ini menggunakan algoritma decision tree, seperti
algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik.
4. Missing value
Ada 6 metode yang dapat digunakan dalam mengolah nilai null yang
terdapat dalam data, yaitu:
a. Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null.
b. Fill in the missing value manually: mengisi sendiri nilai null yang
terdapat dalam data.
c. Use global constant to fill in the missing value: mengganti nilai null
dengan label constant, seperti Unknown.
d. Use the attribute mean to fill in the missing value: mengganti
nilai null dengan rata-rata yang dimiliki atribut.
e. Use the attribute mean for all samples belonging to the same
class the given tuple: mengganti nilai null dengan nilai rata-rata
yang dimilik atribut berdasarkan target kelas yang dicari.
f. Use the most probable value to fill in the missing value :
mengganti nilai null dengan nilai yang paling mungkin muncul
berdasarkan atribut target kelas yang dicari.
4. Fase pemodelan (modelling phase)
a. Memilih dan mengaplikasikan teknik pemodelan yang sesuai.

b. Mengkalibrasi aturan model untuk mengoptimalkan hasil.


c. Memperhatikan kemungkinan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase evaluasi (evaluation phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase penyebaran (deployment phase)
a. Menggunakan model yang dihasilkan.
b. Contoh sederhana penyebaran : pembuatan laporan.
c. Contoh kompleks penyebaran : penerapan proses data mining secara
paralel pada departemen lain.

Gambar 2.1 Tahapan data mining CRISP-DM


(Sumber: CRISP-DM.org)

2.4.3

Fungsi data mining


Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu

fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi
(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining
secara umum :
1. Classification
Fungsi dari classification adalah untuk mengklasifikasikan suatu target
kelas ke dalam kategori yang dipilih. Contohnya : bayesian classification.
2. Clustering
Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke
dalam segmentasi-segmentasi berdasarkan similaritas.
3. Association
Fungsinya adalah untuk mencari keterkaitan antara atribut atau item set,
berdasarkan jumlah item yang muncul dan rule association yang ada.

4. Regression

Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari


regression adalah bertujuan untuk mencari prediksi dari suatu pola yang
ada.
5. Forecasting
Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang
berdasarkan tren yang telah terjadi di waktu sebelumnya.
6. Sequence analysis
Fungsi dari sequence analysis adalah untuk mencari pola urutan dari
rangkaian kejadian.
7. Deviation analysis
Fungsi dari devation analysis adalah untuk mencari kejadian langka yang
sangat berbeda dari keadaan normal (kejadian abnormal).
2.4.4

Klasifikasi
Klasifikasi merupakan proses untuk menempatkan suatu objek ke

dalam suatu kategori/kelas yang sudah didefinisikan sebelumnya berdasarkan


model tertentu.

Data mining

merupakan penjelasan tentang masa lalu dan

prediksi masa depan berdasarkan analisa pada sekelompok data. Dalam


proses memprediksi masa depan ini data mining menggunakan beberapa
model yaitu pemodelan prediktif dan deskriptif.
a. Pemodelan prediktif diawali dengan pembentukan model untuk memprediksi
hasil. Jika hasil pemodelan dalam bentuk kategori (diskrit) maka disebut
sebagai klasifikasi sedangkan jika hasil pemodelan bernilai kontinu maka
disebut regresi.
b. Pemodelan deskriptif atau lebih dikenal dengan istilah clustering, merupakan
proses pengamatan terhadap kelompok data kemudian diikuti dengan
pengelompokan data/cluster terhadap data yang mempunyai kesamaan ciri.
Ada dua proses penting yang dilakukan saat melakukan klasifikasi. Proses
yang pertama adalah learning (training) yaitu proses pembelajaran menggunakan
training set. Untuk kasus bayesian classification, perhitungan probabilitas dari
data berdasarkan data pembelajaran dilakukan. Proses yang kedua adalah proses
testing yaitu menguji model menggunakan data testing.
2.5

Bayesian Classification

Bayesian Classification

merupakan pengklasifikasian dengan metode

probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas


Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di
masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson
dan Delen (2008:102) menjelaskan bayesian classification untuk setiap kelas
keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah
benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan
bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam
memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master"
tabel keputusan.
Bayesian classification bekerja sangat baik dibanding dengan model
classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam
jurnalnya Nave Bayes vs. Decision Trees vs. Neural Networks in the
Classification
Classification

of

Training

Web

Pages

mengatakan

bahwa

Bayesian

memiliki tingkat akurasi yang lebih baik dibanding model

classifier lainnya.
Menurut Han dan Kamber (2011:351) Proses dari Bayesian classification,
atau Simple Bayesian Classifier, sebagai berikut:
1.

Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas.
Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X=(x1, x2, ...,
xn), ini menggambarkan pengukuran n dibuat pada

2.

tuple dari atribut n,

masing-masing, A1, A2, ..., An.


Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan
memprediksi X yang masuk kelompok memiliki probabilitas posterior
tertinggi, kondisi-disebutkan pada X. Artinya, Bayesian memprediksi bahwa
X tuple milik kelas Ci jika dan hanya jika :
P(Ci|X) > P(Cj|X) for 1 j m, j i.

(2.1)

Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan


disebut hipotesis posteriori maksimal. Dengan teorema Bayes :

Ci
X |Ci ) P()

P
P(CiX )=

(2.2)

Keterangan :
P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X
(Posterior probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling
P(Ci)
P(X)

besar (likelihood)
= Prior probability dari X (Prior probability)
= Jumlah probability tuple yg muncul

3. Ketika P (X) adalah konstan untuk semua kelas, hanya P(X | Ci) P (Ci) butuh
dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka
umumnya diasumsikan ke dalam kelas yang sama, yaitu, P(C1) = P(C2) =
= P (C m), maka dari itu akan memaksimalkan P(X | Ci). Jika tidak, maka
akan memaksimalkan P(X | Ci) P(Ci). Perhatikan bahwa probabilitas sebelum
kelas dapat diperkirakan oleh P(Ci) = | Ci, D| / | D |, dimana |Ci, D| adalah
jumlah tuple pelatihan kelas Ci di D.
4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit
dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi
perhitungan dalam mengevaluasi P(X|Ci), asumsi nave independensi kelas
bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional
independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak
ada hubungan ketergantungan diantara atribut) dengan demikian :
n

P ( X|Ci ) = P ( xk|Ci )
k=1

P ( x 1|Ci ) x P ( x 2|Ci ) x P(xnCi)

(2.3)

Maka dapat dengan mudah memperkirakan probabilitas P(x1|Ci), P(x2|


Ci),...P(xn|Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu pada nilai
atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut
tersebut kategorikal atau continuous-valued . Misalnya, untuk menghitung
P(X | Ci) mempertimbangkan hal-hal berikut:
a) Jika Ak adalah kategorikal, maka P (Xk| Ci) adalah jumlah tuple kelas Ci
di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci, D |, jumlah
tuplekelas Ci di D.
b) Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak
pekerjaan,

tapi

perhitunganya

cukup

sederhana.

Sebuah atribut

continuous-valued biasanya diasumsikan memiliki distribusi Gaussian


dengan rata-rata dan standar deviasi , didefinisikan oleh

(2.4)
sehingga
(2.5)
Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean(rata-rata) dan
standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci. Setelah
itu gunakan kedua kuantitas dalam Persamaan, bersama-sama dengan xk,
untuk memperkirakan P (xk| Ci).
5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap
kelas Ci. Classifier memprediksi kelas label dari tuplex adalah kelas Ci, jika
(2.6)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P (Ci)
adalah maksimal. Pengklasifikasi

Bayesian memiliki

tingkat

kesalahan

minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya


hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk

penggunaannya, seperti kondisi kelas independen, dan kurangnya data


probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam
memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak
secara eksplisit menggunakan teorema Bayes.
2.6

Evaluasi Kinerja Classifier


Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat

yang berguna untuk menganalisis seberapa baik classifier mengenali tuple dari
kelas yang berbeda. TP dan TN memberikan informasi ketika classifier
benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh
gambar Confusion matrix ditunjukan pada gambar 2.2.

Gambar 2.2 The Confusion Matrix menampilkan total positif dan negatif tuple
Sumber: (Han & Kamber, 2011, p366)

Langkah sensitivity dan specificity dapat digunakan untuk pengklasifikasian


akurasi. Sensitivity dapat ditunjuk sebagai true positives (recognition) rate
(proporsi dari tuple positif yang diidentifikasi dengan benar). Sedangakan
specificity adalah

true

diidentifikasi secara benar).

negatives

rate (proporsi

tuple negatif

yang

Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan
spesifisitas:

(2.9)
Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error
Rate:

DAFTAR PUSTAKA

Han, Jiawei, dan Micheline Kamber. 2001. Data Mining: Concepts and
Techniques. San Francisco: Morgan Kaufmann.
Kadir, M., Perbandingan Performansi Algoritma Decision Tree CART dan
CHAID, skripsi, jurusan TI, Institut Teknologi Bandung, 2010.
Kusrini., dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. ANDI.
Yogyakarta.
Misdiati, L. dan Rahayu, S.P., Analisis Klasifikasi Kredit Menggunakan Metode
Newton Truncated-Kernel Logistic Regression (NTR-KLR) (2012)
Nave
Bayes
Example.
http://jmvidal.cse.sc.edu/talks/Bayesian
learning/nbex.xml. Tanggal Akses: 15 Juni 2014.
Nugroho, F.X.H., Case Based Reasoning untuk Kelayakan Mendapatkan Kredit
Sepeda Motor, Tesis, Universitas Gadjah Mada, 2013.
Santoso, B. 2007. Data Mining : Teknik
Keperluan Bisnis.Yogyakarta : Graha Ilmu.

Pemanfaatan

Data

Untuk

Wikipedia:
Nave
Bayes
classifier.
http://en.wikipedia.org/wiki/
Naive_Bayes_classifier. Tanggal Akses : 18 Juni 2014.

Anda mungkin juga menyukai