BAB 2
Landasan Teori
tersembunyi dalam data. Data mining adalah proses menganalisis data dari
perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa
disimpulkan Data mining adalah Proses menganalisis data yang banyak dan
2.2 Cross industry Standard Process for Data Mining (CRISP– DM)
Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak
digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses
data mining untuk memecahkan suatu masalah”. Metodologi ini terdiri dari
enam tahap proses siklus. Metodologi ini membuat data mining yang besar
dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur.
keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam
1. Business understanding
rencana proyek.
2. Data understanding
3. Data preparation
Generalization
Attribute construction
elimination
elimination.
8
yang terbaik.
Missing Value
data, yaitu :
nilai null.
yang dicari.
4. Modeling
Tujuan dari pemodelan data mining adalah untuk mencari hasil dari
berbagai situasi yang ada. Alat perangkat lunak untuk data mining
baik secara bersamaan) dapat berguna untuk analisis awal model yang
5. Evaluation
Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama
Pada akhir dari tahap ini, keputusan penggunaan hasil data mining
telah ditentukan.
6. Deployment
Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu
fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi
(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining
secara umum :
1. Classification
2. Clustering
3. Association
atau item set, berdasarkan jumlah item yang muncul dan rule association
yang ada.
4. Regression
regression adalah bertujuan untuk mencari prediksi dari suatu pola yang
ada.
12
5. Forecasting
Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang
6. Sequence Analysis
Fungsi dari sequence analysis adalah untuk mencari pola urutan dari
rangkaian kejadian.
7. Deviation Analysis
Fungsi dari devation analysis adalah untuk mencari kejadian langka yang
Credit scoring atau penilaian kredit adalah sistem cara yang digunakan
oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan
apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman.
1. Application scoring
2. Behavioural scoring
permohonan kreditnya.
3. Customer scoring
4. Collections scoring
dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu
tabel keputusan.
model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone
dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the
classifier lainnya”.
Classifier and a Rough Set” oleh Jiang juga mengatakan “Untuk membangun
Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian
1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan
kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X
= (x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari
2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier
bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika :
(2.1)
(2.2)
Keterangan :
16
(Posterior probability)
3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci)
kondisional independen satu sama lain, diberikan kelas label dari tuple
demikian :
(2.3)
Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu
pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari
17
didefinisikan oleh
(2.4)
sehingga :
(2.5)
Setelah itu hitung μCi dan σCi, yang merupakan deviasi mean (rata-rata)
dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci.
kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,
jika
(2.6)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P
ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk
Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set
independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang
dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test
set. Training set digunakan untuk memperoleh model. Test set digunakan untuk
menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370).
Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang
berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas
Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple
(recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar).
Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang
(2.7)
(2.8)
Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan
spesifisitas:
(2.9)
Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error
Rate:
20
pustaka untuk mendapatkan data dan informasi yang terkait dengan topik
skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set
kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk
gambar 2.10.
CRISP-DM
Studi lapangan:
Survei, “BRI-
wawancara, dan SCORING
observasi ”
Studi pustaka: Data Set
buku literature,
tesis dan jurnal
Sensitivity
Specificity
Model Result
Accuracy
Data Preprocessing (App-Status :
Naïve Bayes Error Rate
“BRI-SCORING” Approve/Reject)