Proposal Euis 15045 Rev3

KLASIFIKASI DATA MINING UNTUK PENENTUAN
POTENSI KREDIT MACET PADA KPRI

KOPERASI GURU RAWAMERTA
PROPOSAL SKRIPSI
Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer
dari Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang
Oleh:
Euis
1510631170045
PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER
UNIVERSITAS SINGAPERBANGSA KARAWANG
KARAWANG
2019
KATA PENGANTAR
Puji dan Syukur penulis panjatkan kepada Allah SWT yang senantiasa
memberikan Rahmat beserta Karunia-Nya sehingga penulis dapat menyelesaikan
proposal skripsi ini sesuai dengan waktu yang telah direncanakan.
Dengan mengucapkan rasa syukur yang mendalam, penulis dapat
menyelesaikan proposal skripsi ini dengan judul “Klasifikasi Data Mining
Untuk Penentuan Potensi Kredit Macet Pada KPRI Koperasi Guru
Rawamerta”.
Sehubungan dengan selesainya proposal skripsi ini, penulis mengucapkan
banyak terimakasih kepada semua pihak yang telah membantu penulis baik dalam
segi moril maupun materil sehingga proposal skripsi ini dapat selesai tanpa ada
hambatan apapun. Terimakasih juga penulis ucapkan kepada:
1. Prof. Dr. H. Moh. Wahyudin Zarkasyi, SE., MS, Ak, CPA selaku Rektor
Universitas Singaperbangsa Karawang.
2. Ade Andri Hendriadi S.Si, M.Kom selaku Dekan Fakultas Ilmu Komputer
yang tidak pernah lelah memberi motivasi dan membimbing mahasiswa/I
dalam mencari topik skripsi serta mengarahkannya.
3. Aries Suharso, S.Si., M.Kom selaku Wakil Dekan Fakultas Ilmu Komputer
yang senantiasa mendampingi mahasiswa dalam proses pembuatan proposal
skripsi ini.
4. Jajam Haerul Jaman S.E, M.Kom selaku Koordinator Program Studi Teknik
Informatika yang tidak pernah bosan memberikan motivasinya kepada
mahasiswa/i dalam menyelesaikan tugas ini.
5. Mohamad Jajuli, M.Si selaku dosen pembimbing yang selalu sabar dalam
mengarahkan, mendampingi, dan memberikan motivasi kepada penulis dalam
proses pembuatan proposal ini.
6. Mayudin selaku Wakil Ketua Koperasi Guru Rawamerta yang sudah
memberikan izin untuk penulis dalam melakukan penelitian serta memberikan
dukungan.
7. Dosen-dosen Fakultas Ilmu Komputer yang telah memberikan ilmu beserta
pengetahuannya dan pemupukan moral serta memberikan pelatihan mental
yang baik kepada penulis.
i
8. Yang teristimewa kepada kedua Orangtua yang telah memberikan dukungan
baik moril maupun materil, nasehat, dan do’a kepada penulis sehingga penulis
dapat menyelesaikan proposal skripsi ini tanpa hambatan yang berat.
9. Kakak tercinta Roni Nahroni, S.Pd. dan Evi Sapriyah, S.M. yang senantiasa
memberikan semangat dan do’a kepada penulis seingga penyusunan proposal
skripsi ini dapat terlaksana dengan baik.
10. Rekan-rekan mahasiswa/i kelas A Fakultas Ilmu Komputer yang telah
memberikan motivasi kepada penulis sehingga terwujudnya proposal skripsi
ini.
11. Aryasa Miftah Mubaraq Siagian yang senantiasa menjadi motivator pribadi
bagi penulis dan tanpa hentinya memberikan dukungan dan semangat agar
penulis dapat berusaha lebih baik dan bekerja keras dalam mengerjakan
proposal skripsi ini. You’re the best!
Akhir kata, penulis mengharapkan semoga proposal skripsi ini dapat
bermanfaat dan semoga Allah SWT senantiasa memberikan perlindungan kepada
kita semua. Dalam hal ini, penulis menghapkan saran dan kritik yang membangun
demi menambah kesempurnan proposal ini.
Karawang, Januari 2019
Penulis
ii
DAFTAR ISI
KATA PENGANTAR..............................................................................................i
DAFTAR ISI..........................................................................................................iii
DAFTAR TABEL....................................................................................................v
DAFTAR GAMBAR..............................................................................................vi
BAB I PENDAHULUAN.......................................................................................1
1.1. Latar Belakang.................................................................................................1
1.2. Rumusan Masalah...........................................................................................4
1.3. Batasan Masalah..............................................................................................4
1.4. Tujuan Penelitian.............................................................................................4
1.5. Manfaat Penelitian...........................................................................................4
1.5.1. Manfaat Teoritis.................................................................................4
1.5.2. Manfaat Praktis..................................................................................4
1.6. Metodologi Penelitian...............................................................................5
1.7. Sistematika Penulisan................................................................................5
1.8. Jadwal Penelitian.......................................................................................5
BAB II LANDASAN TEORI..................................................................................7
2.1. Data Mining..................................................................................................7
2.1.1. Pengertian Data Mining............................................................................7
2.1.2. Tahapan Data Mining................................................................................8
2.1.3. Pengelompokkan Data Mining................................................................10
2.2. Klasifikasi Data Mining..............................................................................12
2.3. KDD (Knowledge Discovery in Databases)...............................................13
2.4. Algoritma C4.5...........................................................................................14
2.4.1. Contoh Perhitungan C4.5........................................................................16
2.4.2. Confusion Matrix....................................................................................32
2.5. Kredit..........................................................................................................33
2.5.1. Definisi Kredit.........................................................................................33
2.5.2. Tujuan dan Fungsi Kredit........................................................................34
2.6. Definisi Kredit Macet.................................................................................34
2.7. WEKA (Waikato Environment for Knowledge Analysis)...........................35
2.8. Kajian Terdahulu........................................................................................36
iii
BAB III OBJEK DAN METODOLOGI PENELITIAN.......................................40
3.1. Objek Penelitian......................................................................................40
3.1.1. Sejarah Singkat Koperasi Guru Rawamerta....................................40
3.1.2. Visi Misi...........................................................................................41
3.1.3. Struktur Organisasi..........................................................................41
3.2. Metodologi Penelitian.............................................................................41
DAFTAR PUSTAKA............................................................................................44
iv
DAFTAR TABEL
Tabel 1. 1 Data Kredit Macet Tahun 2015-2017....................................................2
Tabel 1. 2 Jadwal Penelitian....................................................................................6
Tabel 2. 1 Data Training 16

Tabel 2. 2 Data yang telah difilter.........................................................................17
Tabel 2. 3 Hasil Perhitungan Nilai Entropy..........................................................19
Tabel 2. 4 Hasil Perhitungan Nilai Gain...............................................................20
Tabel 2. 5 Hasil Perhitungan SplitInfo..................................................................21
Tabel 2. 6 Hasil Perhitungan Gain Ratio...............................................................22
Tabel 2. 7 Data Set yang difilter...........................................................................23
Tabel 2. 8 Hasil Perhitungan Nilai Entropy Humidity High.................................24
Tabel 2. 9 Hasil Perhitungan Nilai Gain Humidity High......................................25
Tabel 2. 10 Hasil Perhitungan Nilai SplitInfo Humidity High.............................26
Tabel 2. 11 Hasil Perhitungan Nilai Gain Ratio Humidity High..........................27
Tabel 2. 12 Hasil Perhitungan Nilai Entropy Outlook Rainy...............................29
Tabel 2. 13 Hasil Perhitungan Nilai Gain Outlook Rainy.....................................29
Tabel 2. 14 Hasil Perhitungan Nilai SplitInfo Outlook Rainy..............................30
Tabel 2. 15 Hasil Perhitungan Nilai Gain Ratio Outlook Rainy...........................31
Tabel 2. 16 Tabel Confusion Matrix.....................................................................32
Tabel 2. 17 Kajian Terdahulu................................................................................36
v
DAFTAR GAMBAR
Gambar 2. 1 Tahapan Data Mining Menurut Han..................................................8
Gambar 2. 2 Gain Tertinggi Sebagai Node Akar.................................................23
Gambar 2. 3 Outlook Sebagai Node Akar Selanjutnya........................................28
Gambar 2. 4 Hasil Pohon Keputusan Akhir.........................................................31
Gambar 3. 1 Struktur Organisasi 41

Gambar 3. 2 Flowchart Penelitian........................................................................42
vi
vii
BAB I
PENDAHULUAN
1.1. Latar Belakang
Saat ini pembangunan ekonomi merupakan bagian dari
pembangunan nasional yang salah satu upaya untuk mencapai masyarakat
adil dan makmur berdasarkan UUD 1945. Untuk mencapai tujuan berikut,
pelaksanaan pembangunan harus senantiasa dengan memperhatikan
keserasian, keselarasan dan keseimbangan dengan berbagai unsur
pembangunan khususnya bidang ekonomi yaitu keuangan. Lembaga
finansial merupakan suatu lembaga yang bergerak di bidang keuangan
dimana para nasabahnya merupakan masyarakat dari berbagai perilaku.
Dalam menjalankan usahanya, setiap lembaga keuangan menawarkan
berbagai produknya seperti contohnya pemberian fasilitas kredit. Menurut
KBBI (Kamus Besar Bahasa Indonesia), kredit itu sendiri merupakan
pinjaman uang dengan pembayaran pengembalian secara mencicil atau
mengangsur. Kredit yang diberikan oleh pihak lembaga keuangan
merupakan pemberian kepercayaan kepada nasabah. Oleh karena itu,
lembaga keuangan hanya memberikan kredit kepada nasabah yang Ia
betul-betul yakin bahwa debitor akan mengembalikan pinjaman yang
diterimanya sesuai dengan jangka waktu yang telah disepakati oleh kedua
belah pihak.
Koperasi simpan pinjam merupakan salah satu bentuk lembaga
finansial yang berperan penting dalam membantu meningkatkan taraf
hidup masyarakat dengan cara menghimpun dana dan menyalurkannya
dalam bentuk kredit atau pinjaman kepada nasabahnya (Iqbal, Nanang,
Fitria: 2018). Adapun, proses pengajuan kredit di koperasi simpan pinjam
terbilang lebih sederhana namun diperlukan analisa yang mendalam agar
terhindar dari resiko kredit. Dalam penelitian (Nanang, Supiyanto: 2017),
mengungkapkan bahwa resiko kredit merupakan resiko yang timbul
sebagai akibat dari kegagalan para pihak dalam memenuhi kewajibannya
untuk membayar angsuran kredit. Pokok utama yang dihadapi oleh setiap
lembaga yang menyediakan fasilitas kredit yaitu tidak tertagihnya piutang
2
sehingga terjadi kredit macet. Masalah kredit macet di Indonesia, yang

dalam istilah perbankan disebut dengan Non-Performing Loan (NPL)
menduduki posisi tertinggi, yakni 55%. Persentase ini adalah
perbandingan antara kredit macet atau bermasalah dengan total pemberian
kredit perbankan (Novemy, Khabib: 2018).
Koperasi Guru Rawamerta merupakan salah satu koperasi yang
bergerak dibidang simpan pinjam dan menawarkan permohonan kredit
kepada nasabahnya. Namun, permohonan kredit pada koperasi ini
dilakukan secara sederhana tidak seperti di Bank, tetapi masih tetap
memenuhi persyaratan prinsip dari sebuah kredit. Proses tersebut masih
menggunakan pendekatan intuitif (bentuk pemecahan masalah dengan
menggunakan gerakan hati untuk mengerti dan memahami sesuatu) dan
berdasarkan pengalaman yang sudah ada. Ada beberapa hal yang juga
menjadi penilaian terkait dengan permohonan kredit seperti jumlah
pinjaman, waktu pinjaman, jumlah tanggungan, jumlah pendapatan,
ketentuan lain yang mengikat seperti pembayaran pajak, listrik, telfon dan
lain sebagainya. Permohonan kredit tersebut diisi oleh calon nasabah
dengan blanko yang telah diberikan oleh pihak koperasi untuk pengajuan
kredit, selanjutnya ditentukan oleh pimpinan koperasi apakah kreditnya
akan disetujui atau tidak.
Koperasi Guru Rawamerta memang belum cukup dana untuk
mendatangkan analisa kredit seperti layaknya Bank, mengingat kondisi
keuangan yang belum memungkinkan dalam mendatangkan pihak analisa
kredit. Angka kredit macet pada Koperasi Guru Rawamerta ini berada
diangka yang cukup aman dari standar Bank Indonesia yaitu 5%, sehingga
menyebabkan pihak koperasi harus mengeluarkan dana untuk menutupi
kredit macet tersebut. Berikut merupakan contoh kredit macet Koperasi
Guru Rawamerta mulai tahun 2015 sampai dengan 2018, yaitu:
Tabel 1. 1 Data Kredit Macet Tahun 2015-2017

Tahun Jumlah Anggota yang Persentase Macet Nilai Rupiah Kredit
Anggota mengalami Macet
kredit macet
3
2015 307 21 5.2% Rp. 258.320.565,-

2016 300 21 4.8% Rp. 244.784.536,-
2017 271 23 5.3% Rp. 262.719.218,-
Sumber: Koperasi Guru Rawamerta (2017)
Pada Tabel 1.1 Data Kredit Macet Tahun 2015 – 2017

menunjukkan kenaikan angka kredit macet pada Koperasi Guru
Rawamerta, dimana setiap tahunnya mengalami kenaikan serta setiap
tahunnya pun jumlah anggota mengalami penurunan. Hal tersebut
dikarenakan ada beberapa nasabah yang tidak dapat membayar kreditnya
sehingga harus masuk kedalam daftar blacklist koperasi, atau ada yang
sudah meninggal dan lain sebagainya.
Pada penelitian terdahulu yang berjudul “Prediksi Kredit Macet
Melalui Perilaku Nasabah pada Koperasi Simpan Pinjam dengan
Menggunakan Algoritma C.45” oleh Sucipto (2015), menggunakan
algoritma C4.5 dengan diuji secara terukur menggunakan uji ROC/AUC
dan juga T-Test. Hasil yang didapat secara keseluruhan dalam penelitian
tersebut adalah tingkat akurasi sebesar 91,06%, dengan precision sebesar
100% dan juga nilai recall sebesar 78%.
Penelitian dengan judul “Klasifikasi Data Mining untuk Potensi
Kredit Macet Pada Koperasi Simpan Pinjam Primkoveri Waleri
Menggunakan Algoritma Decision Tree C4.5” oleh Awaludin dan
Yuniarsi (2016), menggunakan algoritma yang sama yaitu algoritma C4.5
menghasilkan tingkat akurasi sebesai 86%.
Sedangkan pada yang dilakukan oleh Iqbal, Nanang, dan Fitria
(2018) dengan judul “Prediksi Kredit Macet Berdasarkan Preferensi
Nasabah Menggunakan Metode Klasifikasi C4.5 pada Koperasi Simpan
Pinjam Mitra Raya Wates”, hasil akurasi yang diperoleh dengan
menggunakan algoritma C4.5 yaitu sebesar 94,594% dengan melakukan
pengujian melalui kurva ROC sehingga menghasilkan nilai AUC sebesar
0,9689, dan usabilitas yang dihasilkan dengan memanfaatkan SUS adalah
sebesar 82,5%.
4
Berdasarkan paparan dan penelitian terdahulu diatas, maka

penelitian ini akan melakukan prediksi kredit macet pada Koperasi Guru
Rawamerta dengan menggunakan teknik klasifikasi data mining. Adapun,
algoritma yang digunakan yaitu algoritma C4.5 yang diharapkan memiliki
tingkat akurasi dengan nilai yang tinggi dan dapat berguna bagi Koperasi
Guru Rawamerta khususnya sebagai acuan dalam pengembilan kredit
selanjutnnya.
1.2. Rumusan Masalah

Berdasarkan latar belakang diatas, maka terdapat beberapa
rumusan masalah yang diambil yaitu sebagai berikut:
1. Bagaimana metode data mining dengan menggunakan algoritma C.45 dapat
diterapkan pada klasifikasi kredit macet?
2. Bagaimana hasil evaluasi persentase tingkat akurasi dari algoritma C4.5?
3. Bagaimana knowledge yang diperoleh dari hasil persentase tingkat keakuratan
prediksi yang dihasilkan?
1.3. Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut:
1. Penelitian ini menggunakan data nasabah dari Koperasi Guru Rawamerta
terhitung dari tahun 2015 sampai 2017.
2. Hasi klasifikasi kredit macet akan diimplementasikan dalam bentuk
dashboard.
1.4. Tujuan Penelitian
Tujuan penelitian ini adalah:
1. Untuk mengetahui penerapan algoritma C.45 pada klasifikasi kredit macet.
2. Untuk mengetahui hasil evaluasi persentase tingkat akurasi dari algoritma
C4.5.
3. Untuk dapat mengetahui knowledge yang diperoleh dari hasil persentase
tingkat keakuratan prediksi yang dihasilkan.
1.5. Manfaat Penelitian
5
Adapun, manfaaat dari penelitian ini adalah:

1.5.1. Manfaat Teoritis
Meningkatkan pengetahuan mengenai teknik klasifikasi data
mining dengan menggunakan algoritma C4.5.
1.5.2. Manfaat Praktis
1. Bagi peneliti:
Memperoleh sebuah karya cipta yang dapat digunakan oleh Lembaga
Keuangan seperti Koperasi khususnya Koperasi Guru Rawamerta.
2. Bagi Koperasi Guru Rawamerta:
Dapat membantu untuk masalah kredit macet yang setiap tahunnya mengalami
perubahan.
1.6. Metodologi Penelitian

Metode yang digunakan dalam penelitian ini yaitu algoritma C.45
dengan menggunakan proses KDD (Knowledge Discovery in Databases).
Adapun, proses dalam KDD adalah sebagai berikut:
1. Data selection
2. Pre-processing data
3. Transformation
4. Data Mining
5. Evaluasi
1.7. Sistematika Penulisan
Sistematika penulisan proposal skripsi ini meliputi 3 bagian yaitu:
BAB I PENDAHULUAN
Pada bab ini melingkupi latar belakang, rumusan masalah, batasan
masalah, tujuan penelitian, manfaat penelitian, metodologi
penelitian dan sistematika penulisan.
BAB II LANDASAN TEORI
Pada bab ini yang menguraikan landasan-landasan teori yang
mendukung pemecahan masalah yang relevan dengan penelitian
ini.
BAB III OBJEK DAN METODOLOGI PENELITIAN
6
Pada bab ini dijelaskan langkah-langkah penelitian, objek yang

akan diteliti dan juga algoritma yang digunakan pada penelitian ini
yaitu algoritma C4.5 dalam kasus prediksi klasifikasi jumlah
pembaca pada artikel online dengan metode KDD (Knowledge
Discovery in Databases).
1.8. Jadwal Penelitian
Berikut adalah jadwal penelitian yang diestimasikan, selama
kurang lebih enam bulan dalam melaksanakan penelitian ini.
Bulan Bulan Bulan Bulan Bulan Bulan

No. Kegiatan
ke-1 ke-2 ke-3 ke-4 ke-5 ke-6
1. Data Selection
2. Pre-Processing Data
3. Transformation
4. Data Mining
Klasifikasi
5. Evaluation
Tabel 1. 2 Jadwal Penelitian

7
BAB II
LANDASAN TEORI
2.1. Data Mining

2.1.1. Pengertian Data Mining
Menurut Larose dan Daniel dalam Awaludin, Yuniarsi (2016) data mining
merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari
pembelajaran mesin, pengenalan pola, statistik, database dan visulisasi untuk
penanganan permasalahan pengambilan informasi dari database yang besar.
Menurut Suyanto, data mining adalah sebuah proses yang mempekerjakan
satu atau lebih teknik pembelajaran komputer (machine learning) untuk
menganalisis dan mengintegrasi suatu pengetahuan (knowledge) secara otomatis.
Data mining digunakan untuk mengekstrak (mengambil intisari) pengetahuan dari
sekumpulan data sehingga didapatkan sebuah struktur yang dapat dimengerti
manusia serta meliputi basis data dan manajemen data, pemrosesan data,
pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan
kompleksitas, pasca pemrosesan terhadap struktur yang ditemukan, visualisasi dan
online updating.
Dalam penelitiannya, Ardiansyah, Panny, Reza (2018) mengemukakan
bahwa data mining adalah suatu disiplin ilmu yang bertujuan untuk menemukan,
menggali atau menambahkan pengetahuan dari data atau informasi yang kita
miliki. Menurut Gartner Group dalam Yuli (2017), mengemukakan bahwa data
mining adalah proses menemukan hubungan baru yang mempunyai arti, pola dan
kebiasaan dengan memilah-milah sebagian besar data yang disimpan dalam media
penyimpanan dengan menggunakan teknologi pengenalan pola seperti statistika
dan matematika.
Dari definisi yang telah disampaikan, dapat disimpulkan bahwa data
mining merupakan suatu proses penambangan data dengan menggunakan data
yang sangat besar sehingga mendapatkan hubungan atau pola baru yang mungkin
memberikan pengetahuan atau indikasi yang bermanfaat bagi penggunanya.
8
9
2.1.2. Tahapan Data Mining

Tahapan-tahapan data mining terdiri dari 6 tahapan menurut Han, yaitu:
Gambar 2. 1 Tahapan Data Mining Menurut Han

(Sumber: Jiawei Han, 2012)
1. Data cleaning (Pembersihan Data)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan. Pada umumnya, data yang diperoleh, baik
dari konsisten atau data tidak relevan dengan hipotesa data mining yang
dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang.
Pembersihan data juga akan mempengaruhi pemformasi dari teknik data
mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2. Data integration (Integrasi Data)
Integrasi data merupakan penggabungan data dari berbagai database kedalam
satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tapi juga berasal dari beberapa database atau
10
file teks. Integrasi data dilakukan pada atibut-atribut yang mengidentifikasikan

entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan
dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan
pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan
menyesatkan pengambilan aksi nantinya.
3. Data selection (Seleksi Data)
Data yang ada pada database sering kali tidak semuanya terpakai, oleh karena
itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang
membeli dalam kasus market based analysis, tidak perlu mengambil nama
pelanggan, cukup dengan id pelanggan saja.
4. Data transformation (Transformasi Data)
Data diubah atau digabung kedalam format yang sesuai untuk diproses dalam
data mining. Beberapa metode data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standart
seperti analisis asosiasi dan clustering hanya bisa menerima input data
kategorial. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-
bagi menjadi beberapa interval. Proses ini sering disebut dengan transformasi
data.
5. Proses Mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetauan berharga dan tersembunyi dari data.
6. Pattern evaluation (Evaluasi Pola)
Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai
hipotesa ada beberapa alternative yang dapat diambil seperti menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba metode data
mining yang lain atau menerima hasil hipotesa sebagai suatu hasil yang tidak
diharapkan yang mungkin akan bermanfaat dilain waktu.
11
7. Knowledge Presentation (Presentasi Pengetahuan)

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang
digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap
akhir dari proses data mining adalah bagaimana memformulasikan keputusan
atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan
orang-orang yang tidak memahami data mining. Karenanya presentasi hasil
dari data mining dalam bentuk pengetahuan yang bisa dipahami semua orang
adalah satu tahap yang diperlukan dalam proses data mining. Dalam presentasi
ini, visualisasi juga bisa membantu mengkounikasi hasil data mining.
2.1.3. Pengelompokkan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dilakukan yaitu sebagai berikut:
1. Description (deskripsi)
Terkadang, peneliti dan analis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan
keterangan atau fakta bahwa siapa yang tidak cukup professional akan sedikit
didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan
sering memberikan kemungkinan penjelasan untuk suatu pola atau
kecenderungan.
2. Estimation (estimasi)
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih
ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai
prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel
target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh yaitu estimasi
nilai indeks prestasi kumulatif mahasiswa program pasca sarjana dengan
melihat nilai indeks prestasi mahasiswa tersebut pada saat mengikuti program
sarjana.
3. Prediction (Prediksi)
12
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa prediksi
nilai dari hasil aka nada dimasa mendatang. Contoh prediksi dalam bisnis dan
penelitian adalah prediksi harga beras dalam tiga bulan yang akan datang, dan
prediksi tingkat pengangguran dalam 5 tahun yang akan datang. Beberapa
metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula
digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Classification (Klasifikasi)
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori yaitu
pendapatan tinggi, pendapatan sedang dan pendapatan rendah. Contoh lain
klasifikasi dalam bisnis dan penelitian adalah menentukan aakah suatu
transaksi kartu kredit merupakan transaksi yang curang atau bukan,
memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan
suatu kredit yang baik atau buruk, dan mendiagnosis penyakit seorang pasien
untuk mendapatkan termasuk penyakit apa.
5. Clustering (Pengklusteran)
Pengklusteran merupakan pengelompokkan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang
lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain.
Pengklusteran beda dengan klasifikasi yaitu tidak adanya variabel target
dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan
tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian
terhadap keseluruhan data menjadi kelompok-kelompok (homogen), yang
mana kemiripan record dalam satu kelompok akan bernilai maksimal,
sedangkan kemiripan dengan record dalam kelompok lain akan bernilai
minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah:
a. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari
suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang
besar.
13
b. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap

perilaku finansial dalam baik dan mencurigakan.
c. Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan
kemiripan perilaku dari gen dalam jumlah besar.
6. Association (Asosiasi)
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang
belanja. Contoh asosiasi dalam bisnis dan penelitian adalah:
a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respons positif terhadap penawaran
upgrade layanan yang diberikan.
b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan
barang yang tidak pernah dibeli secara bersamaan.
2.2. Klasifikasi Data Mining
Menurut Han & Kamber dalam Nurbaiti (2018), menjelaskan bahwa
klasifikasi adalah suatu proses untuk menemukan satu model atau fungsi yang
menjelaskan dan memisahkan class dari suatu data dengan tujuan agar dapat
menggunakan model atau fungsi tersebut untuk memprediksi suatu class dari satu
objek batu yang belum dikenali. Dalam penelitian Yuli Mardi (2017),
menjelaskan bahwa salah satu tugas yang dapat dilakukan dengan data mining
adalah pengklasifikasian. Klasifikasi pertama kali diterapkan pada bidang
tanaman yang mengklasifikasi suatu spesies tertentu, seperti yang dilakukan oleh
Carolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama
kali mengklasifikasi spesies berdasarkan karakteristik fisik, yang selanjutnya
Beliau dikenal dengan sebutan Bapak Klasifikasi.
Klasifikasi terbagi menjadi dua tahap yaitu pengklasifikasian dan

pembelajaran. Pada tahap pembelajaran, sebuah algoritma klasifikasi akan
membangun sebuah model klasifikasi dengan cara menganalisis training data.
Tahap ini dapat juga dipandang sebagai tahap pembentukan fungsi atau pemetaan
y=f(x) dimana y adalah kelas hasil prediksi dan x adalah truple yang ingin
diprediksi kelasnya. Sedangkan pada tahapan pengklasifikasian, model yang telah
dihasilkan akan digunakan untuk melakukan klasifikasi terhadap data-data yang
14
berlum diketahui. Namun, sebuah model hanya boleh digunakan untuk klasifikasi
jika model tersebut mempunyai tingkat akurasi yang cukup tinggi (Awaludin &
Yuniarsi, 2016).
2.3. CRISP-DM (Cross-Industry Standart Process for Data Mining)

CRISP-DM yang dikembangkan tahun 1996 oleh analis dari beberapa
industry seperti Daimler Chrysler, SPSS, dan NCR. CRISP-DM menyediakan
standar proses data mining sebagai strategi pemecahan masalah secara umum dari
bisnis atau unit penelitian.
Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hodup

yang terbagi dalam 6 fase. Keseluruhan fase berurutan yang ada tersebut bersifat
adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase
sebelumnya. Hubungan penting antarfase digambarkan dengan panah. Sebagai
contoh jika proses berada dalam fase modelling. Berdasarkan pada perilaku dan
karakteristik model, proses mungkin harus kembali kepada fase data preparation
untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase
evaluation. Seperti pada Gambar 2.2 Fase dari CRISP-DM
Gambar 2. 2 Fase Dari CRISP-DM

15
Menurut Larose (2005) dalam bukunya yang berjudul “Discovering

Knowledge in Data: An Introducing to Data Mining” mengemukakan bahwa
enam fase CRISP-DM adalah sebagai berikut:
1. Pemahaman bisnis (Business Understanding)

Pada tahap ini dimulai dengan memahami tujuan dan kebutuhan dari sudut
pandang bisnis, kemudian menerjemahkan pengetahuan ini ke dalam
pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan
rencana dan strategi utnuk mencapai tujuan tersebut. Adapun, tahapannya
adalah sebagai berikut:
a. Determine Business Objectives
Tahap menentukan tujuan bisnis dan mengungkap faktor-faktor penting
yang terlibat dalam penelitian yang direncanakan dan untuk memastikan
bahwa penelitian tidak menghasilkan jawaban yang benar untuk
pertanyaan yang salah. Tujuan bisnis bukan merupakan tujuan langsung
penelitian, namun lebih sebagai tujuan jangka panjang dalam dunia nyata.
b. Asses the Situation
Tugas ini melibatkan pencarian fakta lebih rinci tentang semua sumber
daya, kendala, asumsi, dan faktor lain yang harus diperhatikan dalam
menentukan tujuan analisis data dan rencana proyek.
c. Determine the Data Mining Goals
Tahap mengubah pengetahuan pada domain bisnis menjadi sebuah definisi
masalah data mining dan menentukan tujuan data mining (penelitian).
2. Pemahaman Data (DataUnderstanding)
Pada tahap ini dimulai dengan mengumpulkan data yang kemudian akan
dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam
tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi
adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa
dari informasi yang tersembunyi. Adapun tahapannya adalah sebagai berikut:
a. Collect the Initial Data
Mendapatkan data atau akses ke data yang tercantum dalam sumber daya
proyek. Upaya ini mungkin mengarah pada langkah persiapan data awal.
16
b. Describe the Data

Periksa sifat dari data yang diperoleh dan laporkan hasilnya.
c. Explore the Data
Memperbaiki deskripsi data dan laporan kualitas, dan memberi umpan ke
dalam transformasi dan langkah-langkah persiapan data lainnya yang
diperlukan untuk analisis lebih lanjut.
d. Verify Data Quality
Pemeriksaan kualitas data, meliputi kelengkapan data, kebenaran data dan
pemeriksaan terhadap nilai yang hilang.
3. Pengolahan Data (Data Preparation)
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang
akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini
dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel,
record, dan atribut-atribut data, termasuk proses pembersigan dan
transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan
(modeling). Adapun tahapannya adalah sebagai berikut:
a. Select Data
Tentukan data yang akan digunakan untuk analisis. Kriteria meliputi
relevansi dengan tujuan data mining, kualitas dan kendala teknis seperti
batasan volume data atau tipe data. Perhatikan bahwa pemilihan data
mencakup seleksi atribut (kolom) serta pemilihan record (baris) dalam
sebuah tabel.
b. Clean Data
Mengangkat kualitas data ke tingkat uang dibutuhkan oleh teknik analisis
yang dipilih. Ini mungkin melibatkan seleksi dari himpunan bagian data,
penyisipan default yang sesuai.
c. Construct Data
Tugas ini mencakup operasi penyiapan data yang konstruktif seperti
produksi atribut turunan atau seluruh catatan baru, atau nilai yang
ditransformasilkan untuk atribut yang ada.
17
d. Format Data
Transformasi pemformatan mengacu pada modifikasi sintaksis yang
dilakukan pada data yang tidak berubah, tapi mungkin dibutuhkan oleh
alat pemodelan.
4. Pemodelan (Modeling)
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik
pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan
nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat
diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik
pemodelan yang membutuhkan dormat data khusus sehingga pada tahap ini
masih memungkinkan kembali ke tahapan sebelumnya. Adapun tahapannya
adalah sebagai berikut:
a. Select Modelint Techniques
Sebagai langkah awal dalam pemodelan, pilih teknik pemodelan
sebenarnya yang akan digunakan. Tugas ini mengacu pada yang spesifik
teknik pemodelan. Jika beberapa teknik diterapkan, lakukan tugas ini
secara terpisah untuk setiap teknik.
b. Generate Test Design
Sebelum kita benar-benar membangun sebuah model, kita perlu
menghasilkan sebuah prosedur atau mekanisme untuk menguji modelnya
seperti kualitas dan validitasnya. Misalnya. Dalam tugas penambangan
data yang diawasi seperti klasifikasi, adalah pada umumnya menggunakan
tingkat kesalahan sebagai ukuran kualitas untuk model data mining.
c. Build Model
Menjalankan alat pemodelan pada dataset yang disiapkan untuk membuat
satu atau lebih model, dengan menentukan parameternya terlebih dahulu.
d. Asses Model
Menginterpretasikan model sesuai dengan pengetahuan domainnya, data
mining kriteria keberhasilan, dan desain uji yang diinginkan. Teknis data
mining menilai keberhasilan penerapan teknik pemodelan dan penermuan
secara teknis.
18
5. Evaluasi (Evaluation)
Pada tahapan ini, model sudah terbentuk dan diharapkan memiliki kualitas
baik jika dilihat dari sudut pandang analisa data. Tahap ini akan dilakukan
evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan
menentukan apakah model dapat mencapai tujuan yang ditentukan pada fase
awal (Business Understanding). Kunci dari tahapan ini yaitu untuk
memnentukan apakah ada masalah binsis yang belum dipertimbangkan. Akhir
dari tahapan ini harus ditentukan penggunaan hasil proses data mining.
6. Penyebaran (Deployment)
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diataur
dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap deployment dapat berupa embuatan laporan sederhana atau
mengimplementasikan proses data mining yang berulang dalam perusahaan.
Dalam banyak kasus, tahap deployment melibatkan konsumen, disamping
analis data, karena sangat penting bagi konsumen untuk memahami tindakan
apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
Dengan tahapan sebagai berikut:
a. Plan Deployment
Tugas ini mengambil hasil evaluasi dan menentukan strategi penyebaran.
Jika prosedur umum yang dimiliki telah diidentifikasi untuk membuat
model yang relevan, prosesdur ini didokumentasikan disini utnuk
penerapan selanjutnya.
b. Plan Monitoring and Maintenance
Pemantauan dan pemeliharaan merupakan hal penting jika hasil data
mining menjadi bagian dari bisnis dan lingkunannya. Persiapan strategi
pemeliharaan yang hati-hati membantu menghindari hal yang tidak perlu
seperti penggunaan data mining yang salah. Untuk memantau penyebaran
hasil data mining, proyek memerlukan rencana pemantauan terperinci.
Rencaa ini diperhitungkan dengan jenis penyebaran yang spesifik.
c. Produce Final Report
Kemudian pada tahap akhir adalah menulis sebuah laporan. Bergantung
pada rencana penggelaran, laporan ini mungkin hanya ringkasan proyek
19
atau merupakan presentasi akhir dan komprehensif dari hasil data mining
(Siti dalam Muhammad Rizky, 2018).
2.4. Algoritma C4.5

Salah satu algoritma yang dapat digunakan untuk kalsifikasi data mining
yaitu algoritma C4.5. Saat ini, algoritma C4.5 merupakan algoritma yang popular
dan sering digunakan oleh banyak peneliti baik dalam maupun luar negeri.
Menurut Purushottam, 2016 dalam Yogiek menjelaskan bahwa algoritma C4.5
merupakan algoritma yang dipergunakan dalam membentuk decision tree
(pengambilan keputusan). Algoritma C4.5 adalah salah satu algoritma dalam
induksi decision tree yaitu ID3 (Iterative Dichotomiser 3) yang dikembangan oleh
J. Ross Quinlan. Dalam prosedur algoritma ID3, input berupa sampel training,
label training dan atribut. Algoritma C4.5 ini merupakan pengembangan dari ID3.
Ide dasar dari algoritma ini adalah pembuatan pohon keputusan berdasarkan
pemilihan atribut yang memiliki prioritas tertinggi atau dapat disebut memiliki
nilai gain tertinggi berdasarkan nilai entropy atribut tersebut sebagai poros atribut
klasifikasi. Kemudian secara rekursif cabang-cabang pohon diperluas sehingga
seluruh pohon terbentuk.
Ada beberapa proses yang perlu diperhatikan dalam membentuk struktur
pohon keputusan, yaitu:
1. Pilih root berdasarkan gain ratio terbesar

2. Pilih interval root/cabang root berdasarkan gain ratio terbesar setelah
menghapus atribut yang terpilih sebagai root
3. Ulangi sampai semua atribut terhitung nilai gain rationya
Parameter yang tepat untuk digunakan dalam pengukuran efektivitas suatu
atribut dalam melakukan teknik pengklasifikasian sampel data, salah satunya
adalah dengan menggunakan information gain. Sebelum mencari nilai gain,
terlebih dahulu mencari peluang kemunculan suatu record dalam atribut
(entropy). Adapun, tahapan perhitungan algoritma C4.5 adalah sebagai berikut:
1. Perhitungan nilai entropy
20
Untuk mendapatkan nilai information gain, terlebih dahulu kita harus

mengetahui parameter yang lain mempengaruhi nilai gain, dimana parameter
ini sangat diperlukan untuk mendapatkan nilai gain. Parameter tersebut adalah
entropy. Parameter ini sangat sering digunakan untuk mengukur tingkat
heterogenitas suatu kumpulan sampel data. Secara sistematis, nilai entropy
dapat dihitung dengan menggunakan formula sebagai berikut:
n
Entropy ( S ) =∑ −Pi∗log 2 Pi
i=1
S = himpunan kasus
n = jumlah partisi S
Pi = jumlah sampel pada kelas i
2. Perhitungan information gain
Ketika sudah memperoleh suatu nilai entropy, maka langkah selanjutnya
adalah melakukan perhitungan terhadap information gain. Berdasarkan
perhitungan matematis information gain dari suatu atribut A dapat
diformulasikan sebagai berikut:
n
Gain ( S , A )=Entropy ( S )−∑ ¿ Si∨ ¿ ¿¿
i=1 ¿ S∨¿∗Entropy (S i)
S = himpunan kasus
A = atribut
N = jumlah partisi
¿ Si∨¿ = jumlah kasus pada partisi ke-i
¿ S∨¿ = jumlah kasus dalam S
3. Gain ratio
Untuk menghitung gain ratio kita perlu mengetahui suatu term baru yang
disebut split information. Split information dihitung dengan formula sebagai
berikut:
n
SplitInfoA ( D )=−∑ ¿ Dv∨ ¿ ¿¿
j=1 ¿ D∨¿∗log2 ¿ ¿
Dv = jumlah kasus pada partisi ke-v
D = jumlah kasus dalam D

Selanjutnya gain ratio dihitung dengan cara:
21
Gain( A)
Gain Ratio ( A ) =
SplitInfo( A)
(Saraswati, 2017)
2.4.1. Contoh Perhitungan C4.5
1. Siapkan Data Training
Tabel 2.1 Data Training merupakan tabel yang akan digunakan sebagai data
training untuk proses perhitungan algoritma C4.5.
Tabel 2. 1 Data Training

No. Outlook Temperature Humidity Windy Play
1. Sunny Hot High False No
2. Sunny Hot High True No
3. Cloudy Hot High False Yes
4. Rainy Mild High False Yes
5. Rainy Cool Normal False Yes
6. Rainy Cool Normal True Yes
7. Cloudy Cool Normal True Yes
8. Sunny Mild High False No
9. Sunny Cool Normal False Yes
10. Rainy Mild Normal False Yes
11. Sunny Mild Normal True Yes
12. Cloudy Mild High True Yes
13. Cloudy Hot Normal False Yes
14. Rainy Mild High True No
2. Perhitungan nilai entropy

Sebelum menghitung nilai entropy pada data awal di-filter terlebih dahulu,
dan hasilnya berada pada Tabel 2. 2 Data yang telah difilter.
Tabel 2. 2 Data yang telah difilter
Atribut Field Jumlah Entropy Gain Split Gain
Atribut kasus info ratio
Total 14
OUTLOOK
Sunny 5
Cloudy 4
22
Rainy 5
TEMPERATUR
E
Hot 4
Mild 6
Cool 4
HUMIDITY
High 8
Normal 6
WINDY
False 8
True 6
Entropy (Total) = ( −4
14
∗log 2
4
14
+ ( )) (
−10
14
∗log 2
10
14 ( ))
= 0.873120569
Entropy (Outlook)
Entropy (Sunny) = ( −3
5
∗log 2
3
5
+( )) (
−2
5
∗log 2
2
5 ( ))
= 0.970950594
Entropy (Cloudy) = ( −0
4
∗log 2( )) (
0
4
+
−4
4
∗log 2
4
4 ( ))
=0
Entropy (Rainy) = ( −1
5
∗log 2
1
5( )) (
+
−4
5
∗log 2
4
5 ( ))
= 0.721928095
Entropy (Temperature)
Entropy (Hot) = ( −2
4
∗log2
2
4
+ ( )) (
−2
4
∗log 2
2
4 ( ))
23
=1
Entropy (Mild) = ( −2
6
∗log2
2
6( )) (
+
−4
6
∗log 2
4
6 ( ))
= 0.918295834
Entropy (Cold) = ( −0
4
∗log 2 ( )) (
0
4
+
−4
4
∗log 2
4
4( ))
=0
Entropy (Humidity)
Entropy (High) = ( −2
4
∗log2
2
4( )) (
+
−2
4
∗log 2
2
4 ( ))
=0
Entropy (Normal) = ( −4
7 ( )) (
∗log 2
4
7
+
−3
7
∗log 2( ))
3
7
=0
Entropy (Windy)
Entropy (False) = ( −2
8
∗log2
2
8 ( )) (
+
−6
8
∗log 2
6
8 ( ))
= 0.8112781
Entropy (True) = ( −2
6
∗log2
2
6( )) (
+
−4
6
∗log 2
4
6 ( ))
= 0.9182958
Setelah nilai entropy selesai dihitung, berikut hasilnya terdapat pada Tabel
2. 3 Hasil Perhitungan Nilai Entropy
Tabel 2. 3 Hasil Perhitungan Nilai Entropy

24
Total 14 0.863120569
OUTLOOK
Sunny 5 0.970950594
Cloudy 4 0
Rainy 5 0.721928095
TEMPERATURE
Hot 4 1
Mild 6 0.918295834
Cool 4 0
HUMIDITY
High 8 1
Normal 6 0
WINDY
False 8 0.8112781
True 6 0.9182958
3. Perhitungan Gain
Setelah menghitung nilai entropy, maka langkah selanjutnya adalah
menghitung nilai gain.
Gain ( Total , Outlook ) =0.8631206− ( 145 ∗0.970950594 )+( 144 ∗0)+( 145 ∗0.7219)
Gain ( Total , Outlook ) =0.28521
Gain ( Total , Temperature )=0.8631206− ( 146 ∗0.918295834 )+( 144 ∗0)

Gain ( Total , Temperature )=0.1838509
Gain ( Total , Humidity )=0.8631206− ( 147 ∗1)+( 147 ∗0)

Gain ( Total , Humidity )=0.3705065
Gain ( Total , Windy )=0.8631206− ( 148 ∗0.8112781)+( 146 ∗0.9182958 )

Gain ( Total , Windy )=0.0059777
Setelah menghitung nilai gain, berikut hasilnya terdapat pada Tabel

2.4 Hasil Perhitungan Nilai Gain.
25
Tabel 2. 4 Hasil Perhitungan Nilai Gain

Total 14 0.863120569
OUTLOOK 0.258521
Sunny 5 0.970950594
Cloudy 4 0
Rainy 5 0.721928095
TEMPERATURE 0.1838509
Hot 4 1
Mild 6 0.918295834
Cool 4 0
HUMIDITY 0.3705065
High 8 1
Normal 6 0
WINDY 0.0059777
False 8 0.8112781
True 6 0.9182958
4. Perhitungan SplitInfo
Setelah perhitungan nilai gain maka selanjutnya adalah menghitung nilai
SplitInfo.
SplitInfoOUTLOOK(D) = ( −514∗log 145 )+( −414 ∗log 144 )+¿

2 2
( −514∗log 145 ) 2
= 1.57740628
SplitInfoTEMPERATURE(D) = ( −414 ∗log 144 )+(−6

2
14
∗log
14 )
6
+¿
2
( −414 ∗log 144 )

2
= 1.55665671
SplitInfoHUMIDITY(D) = ( −714∗log 147 )+( −7

2
14
∗log
14 )
7
2
26
=1
SplitInfoWINDY(D) = ( −814∗log 148 )+( −614∗log 146 )

2 2
= 0.98522814
Setelah mendapat SplitInfo, maka nilai dimasukkan ke dalam Tabel 2.5
Hasil Perhitungan Splitinfo.
Tabel 2. 5 Hasil Perhitungan SplitInfo

Atribut Field Jumlah Entropy Gain Split info Gai
Atribut kasus n
rati
o
Total 14 0.86312056
9
OUTLOOK 0.258521 1.57740628
Sunny 5 0.97095059
4
Cloudy 4 0
Rainy 5 0.72192809
5
TEMPERATUR 0.1838509 1.55665671
E
Hot 4 1
Mild 6 0.91829583
4
Cool 4 0
HUMIDITY 0.3705065 1
High 8 1
Norma 6 0
l
WINDY 0.0059777 0.98522814
False 8 0.8112781
True 6 0.9182958
5. Perhitungan Gain Ratio

Setelah menghitung nilai SplitInfo, maka langkah selanjutnya adalah
perhitungan gain ratio.
27
0.28521
Gain Ratio(OUTLOOK) =
1.57740628
= 0.16388995
0.1838509
Gain Ratio(TEMPERATURE) =
1.55665671
= 0.118106275
0.3705065
Gain Ratio(HUMIDITY) =
1
= 0.370506501
0.0059777
Gain Ratio(OUTLOOK) =
0.98522814
= 0.006067337
Setelah mendapatkan hasil dari perhitungan gain ratio, berikut hasilnya
terdapat pada Tabel 2.6 Hasil Perhitungan Gain Ratio
Tabel 2. 6 Hasil Perhitungan Gain Ratio

Atribut Field Jumla Entropy Gain Split info Gain ratio
Atribut h
kasus
Total 14 0.863120569
OUTLOOK 0.258521 1.57740628 0.16388995
Sunny 5 0.970950594
Cloudy 4 0
Rainy 5 0.721928095
TEMPERATUR 0.183850 1.55665671 0.11810627
E 9 5
Hot 4 1
Mild 6 0.918295834
Cool 4 0
HUMIDITY 0.370506 1 0.37050650
5 1
High 8 1
Norma 6 0
l
WINDY 0.005977 0.98522814 0.00606673
28
7 37
False 8 0.8112781
True 6 0.9182958
Gain Ratio Tertinggi Sebagai Node Akar

1. Dari hasil 4 perhitungan sebelumnya, dapat diketahui bahwa atribut dengan
gain ratio tertinggi adalah HUMIDITY yaitu sebesar 0.370506501. Dengan
demikian HUMIDITY menjadi node akar.
2. Ada 2 nilai atribut dari HUMIDITY yaitu HIGH dan NORMAL. Dari kedua
nilai atribut tersebut, nilai atribut NORMAL sudah mengklasifikasi kasus
menjadi 1 keputusan Yes, sehingga tidak perlu dilakukan perhitungan lebih
lanjut. Tetapi, untuk nilai atribut HIGH masih perlu dilakukan perhitungan
lagi.
Gambar 2. 3 Gain Tertinggi Sebagai Node Akar

HUMIDITY
High Normal
??? Yes
1. Buat Cabang untuk Tiap-Tiap Nilai

Untuk memudahkan, data set difilter dengan mengambil data yang memiliki
kelembaban HUMIDITY-HIGH untuk membuat node akar selanjutnya.
2. Perhitungan Nilai Entropy pada Humidity High
Setelah data set difilter maka langkah selanjutnya adalah perhitungan pada
nilai entropy. Data set yang sudah difilter dapat dilihat pada Tabel 2.7.
Tabel 2. 7 Data Set yang difilter

OUTLOOK TEMPERATUR HUMIDITY WINDY PLAY
E
29
Sunny Hot High False No

Sunny Hot High True No
Cloudy Hot High False Yes
Rainy Mild High False Yes
Sunny Mild High False No
Cloudy Mild High True Yes
Rainy Mild High True No
Entropy Humidity(High) = ( −37∗log 37 )+(−47 ∗log 74 )

2 2
= 0.985228136
Entropy (Outlook)
Entropy (Sunny) = ( −3
3
∗log 2
3
3( )) (
+
−0
3
∗log 2
0
3 ( ))
=0
Entropy (Cloudy) = ( −0
3 ( )) (
∗log 2
0
3
+
−2
2
∗log2
2
2 ( ))
=0
Entropy (Rainy) = ( −1
2
∗log 2 ( )) (
1
2
+
−1
2
∗log 2
1
2( ))
= 0.721928095
Entropy (Hot) = ( −2
3
∗log2
2
3
+
−2
3 ( )) (
∗log 2
1
3 ( ))
= 0.918295834
4
∗log2
2
4
+ ( )) (
−2
4
∗log 2
2
4 ( ))
=1
Entropy (Windy)
4
∗log2
2
4
+ ( )) (
−2
4
∗log 2
2
4 ( ))
=1
30
3
∗log2 ( )) (
2
3
+
−1
3
∗log 2
1
3 ( ))
= 0.918295834
Tabel 2. 8 Hasil Perhitungan Nilai Entropy Humidity High

HUMIDITY 7 0.98522813
High 6
OUTLOOK Sunny 3 0
Cloudy 2 0
Rainy 2 1
TEMPERATUR
E
Hot 3 0.91829583
4
Mild 4 1
WINDY
False 8 1
True 6 0.98129583
4
Setelah nilai Entropy Humidity High selesai dihitung, maka nilai tersebut
dimasukkan ke dalam Tabel 2.8 Hasil perhitngan Entropy Humidity High.
3. Perbandingan Gain Humidity High
Setelah nilai Entropy Humidity High dihitung, maka selanjutnya menghitung
nilai Gain Humidity High.
Gain (Humidity (High, (Outlook))) =
0.985228136 − ( 37 ∗0)+( 27∗0)+( 72∗1)

Gain (Humidity (High, (Outlook))) = 0.69951
Gain (Humidity (High, (Temperature))) =
0.985228136 − ( 37 ∗0.918295834 )+( 47 ∗1)

31
Gain (Humidity (High, (Temperature))) = 0.02024
Gain (Humidity (High, (Windy))) =
0.985228136 − ( 47 ∗1)+( 37 ∗0.918295834 )

Gain (Humidity (High, (Windy))) = 0.02024
Setelah selesai menghitung nilai Gain Humidity High, maka nilai tersebut
akan dimasukkan kedalam Tabel 2.9 Hasil Perhitungan Nilai Gain Humidity
High.
Tabel 2. 9 Hasil Perhitungan Nilai Gain Humidity High

HUMIDITY 7 0.98522813
High 6
OUTLOOK Sunny 3 0 0.69951
Cloudy 2 0
Rainy 2 1
TEMPERATUR 0.02024
E
Hot 3 0.91829583
4
Mild 4 1
WINDY 0.02024
False 8 1
True 6 0.98129583
4
4. Perhitungan SplitInfo Humidity High
Setelah perhitungan Gain, maka selanjutnya adalah menghitung SplitInfo
Humidity High.
SplitInfo Humidity (High) OUTLOOK =
( −37∗log 37 )+(−27∗log 27 )+( −27∗log 72 )

2 2 2
SplitInfo Humidity (High) OUTLOOK = 1.556656707

32
SplitInfo Humidity (High) TEMPERATURE = ( −37∗log 37 )+(−47 ∗log 74 )

2 2
= 0.985228136
SplitInfo Humidity (High) WINDY = ( −47 ∗log 47 )+( −37∗log 37 )

2 2
= 0.985228136
Setelah mendapatkan hasil dari perhitungan SplitInfo Humidity High, maka
hasilnya akan dimasukkan ke dalam Tabel 2.10 Hasil Perhitungan Nilai
SplitInfo Humidity High.
Tabel 2. 10 Hasil Perhitungan Nilai SplitInfo Humidity High

Atribut Field Jumla Entropy Gain Split info Gai
Atribu h n
t kasus rati
o
HUMIDITY 7 0.985228136
High
OUTLOOK 0.69951 1.55665670
7
Sunny 3 0
Cloud 2 0
y
Rainy 2 1
TEMPERATUR 0.02024 0.98522813
E 6
Hot 3 0.918295834
Mild 4 1
WINDY 0.02024 0.98522813
6
False 8 1
True 6 0.981295834
5. Perhitungan Gain Ratio Humidity High

Setelah menghitung nilai SplitInfo Humidity High, maka selanjutnya
menghitung nilai Gain Ratio Humidity High.
0.69951
Gain Ratio (OUTLOOK) =
1.56656707
33
= 0.449369374
0.02024
Gain Ratio (TEMPERATURE) =
0.985228136
= 0.020547736
0.02024
Gain Ratio (WINDY) =
0.985228136
= 0.020547736
Setelah selesai menghitung niali Gain Ratio Huumidity High, maka nilai
tersebut dimasukkan ke dalam Tabel 2.11 Hasil Perhitungan Nilai Gain Ratio
Humidity High.
Tabel 2. 11 Hasil Perhitungan Nilai Gain Ratio Humidity High

Atribu h
t kasus
HUMIDITY 7 0.98522813
High 6
OUTLOOK 0.6995 1.55665670 0.44936937
1 7 4
Sunny 3 0
Cloud 2 0
y
Rainy 2 1
TEMPERATUR 0.0202 0.98522813 0.02054773
E 4 6 6
Hot 3 0.91829583
4
Mild 4 1
WINDY 0.0202 0.98522813 0.02054773
4 6 6
False 8 1
True 6 0.98129583
4
34
Gain Ratio Tertinggi Sebagai Node Akar Selanjutnya

1. Dari hasil 4 perhitungan sebelumnya, dapat diketahui bahwa atribut dengan
Gain Ratio tertinggi adalah OUTLOOK yaitu sebesar 0.449369374. Dengan
demikian, OUTLOOK menjadi node akar selanjutnya.
2. Atribut CLOUDY = YES dan SUNNY = NO sudah mengklasifikasikan kasus
menjadi 1 keputusan, sehingga tidak perlu dilakukan perhitungan lanjut.
Tetapi untuk nilai atribut RAINY masih perlu dilakukan perhitungan.
HUMIDITY
High
Normal
Outlook Yes
Cloudy
Rainy Sunny
Yes ??? No
Gambar 2. 4 Outlook Sebagai Node Akar Selanjutnya

1. Perhitungan Entropy Outlook Rainy
Entropy OUTLOOK (Rainy) = ( −12∗log 12 )+( −12∗log 12 )

2 2
=1
2 ( )) (
∗log 2
1
2
+
−1
2
∗log 2
1
2( ))
=1
Entropy (Windy)
1 ( )) (
∗log 2
1
1
+
−0
1
∗log 2
0
1( ))
35
=0
1
∗log 2 ( )) (
1
1
+
−0
1
∗log 2
0
1 ( ))
=0
Setelah menghitung nilai Entropy Outlook Rainy, maka hasilnya akan
dimasukkan ke dalam Tabel 2.12 Hasil Perhitungan Nilai Entropy Outlook
Rainy.
Tabel 2. 12 Hasil Perhitungan Nilai Entropy Outlook Rainy

Atribut Field Jumlah Entropy Gain Split info Gain
Atribu kasus ratio
t
OUTLOOK 2 1
Rainy
TEMPERATUR
E
Mild 2 1
WINDY
False 1 0
True 1 0
2. Perhitungan Gain Outlook Rainy

Setelah nilai Entropy Outlook Rainy dihitung, maka selanjutnya menghitung
nilai Gain Outlook Rainy.
Gain (Outlook (Rainy, Temperature))) = 1− ( 22∗1)

Gain (Outlook (Rainy, Temperature))) = 0
Gain (Outlook (Rainy, Windy))) = 1− ( 12∗0)+( 12∗0)

Gain (Outlook (Rainy, Windy))) = 1
Setelah selesai menghitung nilai Gain Outlook Rainy, maka nilai
tersebut akan dimasukkan ke dalam Tabel 2.13 Hasil Perhitungan Nilai
Gain Outlook Rainy.
36
Tabel 2. 13 Hasil Perhitungan Nilai Gain Outlook Rainy

Atribu kasus ratio
t
OUTLOOK 2 1
Rainy
TEMPERATUR 0
E
Mild 2 1
WINDY 1
False 1 0
True 1 0
3. Perhitungan SplitInfo Outlook Rainy

Setelah perhitungan Gain Outlook Rainy, maka selanjutnya adalah
menghitung SplitInfo Outlook Rainy.
SplitInfo Outlook (Rainy) TEMPERATURE = ( −22∗log 22 )2
=0
SplitInfo Outlook (Rainy) WINDY = ( −12∗log 12 )+( −12∗log 12 )

2 2
=1
Setelah mendapatkan hasil dari perhitungan SplitInfo Outlook Rainy, maka
hasilnya akan dimasukkan ke dalam Tabel 2.14 Hasil Perhitungan Nilai
SplitInfo Outlook Rainy.
Tabel 2. 14 Hasil Perhitungan Nilai SplitInfo Outlook Rainy

Atribu kasus ratio
t
OUTLOOK 2 1
Rainy
TEMPERATUR 0 0
E
Mild 2 1
37
WINDY 1 1
False 1 0
True 1 0
4. Perhitungan Gain Ratio Outlook Rainy

Setelah menghitung nilai SplitInfo Outlook Rainy, maka selanutnya
menghitung nilai Gain Ratio Outlook Rainy.
0
Gain Ratio (TEMPERATURE) =
0
= tidak terdefinisi
1
Gain Ratio (WINDY) =
1
=1
Setelah selesai menghitung nilai Gain Ratio Outlook Rainy, maka nilai
tersebut dimasukkan ke dalam Tabel 2.15 Hasil Perhitungan Nilai Gain Ratio
Outlook Rainy.
Tabel 2. 15 Hasil Perhitungan Nilai Gain Ratio Outlook Rainy

Atribu h
t kasus
OUTLOOK 2 1
Rainy
TEMPERATUR 0 0 Tidak
E terdefinisi
Mild 2 1
WINDY 1 1 1
False 1 0
True 1 0
Gain Tertinggi Sebagai Node Cabang dari Atribut Rainy

1. Dari tabel, Gain Ratio tertinggi adalah WINDY dan menjadi node cabang dari
atribut RAINY.
38
HUMIDITY
High Normal
Outlook Yes
Cloudy
y Sunn
Rain y
y
Yes Windy No
False True
Yes No
Gambar 2. 5 Hasil Pohon Keputusan Akhir
2. Karena semua kasus sudah masuk kedalam kelas. Jadi pohon keputusan pada
Gambar 2.4 merupakan Pohon Keputusan Akhir yang terbentuk.
2.4.2. Confusion Matrix
Confusion matrix adalah tools yang digunakan untuk evaluasi model
klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari
prediksi yang akan dibandingkan dengan kelas yang asli dari inputan atau dengan
kata lain berisi informasi nilai actual dan prediksi pada klasifikasi. Pada Tabel
2.16 merupakan tabel confusion matrix.
Tabel 2. 16 Tabel Confusion Matrix

1. Predicted Class
Classification
Class = Yes Class = No
Class = Yes a (true positive-TP) b (false negative-FN)
Class = No c (false positive-FP) d (true negative-TN)
True positive (TP) menunjukkan bahwa dokumen yang termasuk dalam hasil
pengelompokkan oleh sistem memag merupakan anggota kelas.
2. False negative (FN) menunjukkan bahwa dokumen yang tidak termasuk
dalam hasil pengelompokkan oleh system ternyata seharusnya merupakan
anggota kelas.
39
3. False positive (FP) menunjukkan bahwa dokumen yang termasuk dalam hasil
pengelompokkan oleh system ternyata seharusnya bukan merupakan anggota
kelas.
4. True negative (TN) menunjukkan bahwa dokumen yang tidak termasuk dalam
hasil pengelompokkan oleh system ternyata seharusnya bukan merupakan
anggota kelas (Akbar dalam Novia, 2016 p. 33)
Evaluasi dan validasi hasil hitung menggunakan rumus akurasi, precision
recall dan f-measure berikut ini:
1. Akurasi
Perhitungan akurasi dilakukan dengan cara membagi jumlah data yang
diklasifikasi secara benar dengan total sampel data testing yang diuji.
Jumlah prediksi yang benar
Akurasi=
Jumlah total prediksi
Jumlah prediksi salah
Laju Error=
Jumla total prediksi
2. Precision
Menghitung nilai precision dengan cara membagi jumlah data benar yang
bernilai positif (True Positive) dibagi dengan jumlah data benar yang bernilai
positif (True Positive) dan data salah yang bernilai positif (False Negative).
TP
Precision=
TP+ FP
3. Recall
Sedangkan recall dihitung dengan cara membagi data benar yang bernilai
positive (True Positive) dengan nilai penjumlahan dari data benar yang
bernilai positif (True Positive) dan data salah yang bernilai negative (False
Negative).
TP
Recall=
TP+ FN
4. F-Measure
Nilai F-measure didapat dari perhitungan pembagian hasil dari perkalian
precision dan recall dengan hasil penjumlahan precision dan recall, kemudian
dikalikan dua.
2∗precision∗recall
F−Measure=
precision+recall
40
(Menurut Maulina dan Fanani dalam Saraswati, 2018 p. 31)

2.5. Kredit
2.5.1. Definisi Kredit
Istilah kredit berasal dari bahas Yunani yaitu credere yang berarti
kepercayaan. Oleh karena itu, dasar arti kredit adalah percaya atau kepercayaan,
kredit akan diberikan kepada seseorang apabila kepercayaannya sudah disepakati.
Dalam Wikipedia, kredit merupakan suatu fasilitas keuangan yang
memungkinkan seseorang atau badan usaha untuk membeli produk dan
membayarnya kembali dalam jangka waktu yang telah ditentukan.
Dalam Pasal I angka II Undang-Undang Nomor 10 Tahun 1998 tentang
Perubahan Atas Undang-Undang Nomor 7 Tahun 1992 tentang Perbankan,
mendefinisikan kredit sebagai berikut: “Kredit adalah penyediaan uang atau
tagihan yang dapat dipersamakan dengan itu, berdasarkan persetujuan atau
kesepakatan pinjam meminjam antara bank dengan pihak lain yang mewajibkan
pihak peminjam untuk melunasi utangnya setelah jangka waktu tertentu dengan
pemberian bunga.”
Berdasarkan penelitian tersebut dapat disimpulkan bahwa kredit

merupakan sebuah pembiayaan dapat berupa uang atau tagihan yang nlainya dapat
diukur. Adanya kredit memerlukan kesepakatan antara bank (kreditor) dengan
nasabah penerima kredit (debitur), bahwa kreditor dan debitur tersebut sepakat
sesuai dengan perjanjian yang telah dibuat sebelumnya baik itu bunga maupun
tenggang waktu yang telah ditetapkan, dan sanksi yang diperoleh oleh debitur
yang telah dibuat bersama.
2.5.2. Tujuan dan Fungsi Kredit
Pemberian suatu fasilitas kredit mempunyai beberapa tujuan yang hendak
dicapai dan tergantung kepada tujuan dari Koperasi itu sendiri serta misi Koperasi
tersebut didirikan. Menurut Kasmir dalam Amir (2018), tujuan pemberian kredit
adalah mencari keuntungan, membantu usaha nasabah, dan membantu
pemerintah. Disamping memiliki tujuan pemberian kredit juga memiliki suatu
fungsi yang sangat luas. Fungsi kredit secara luas tersebut antara lain:
1. Untuk meningkatkan daya guna uang
2. Untuk meningkatkan peredaran dan lalu lintas uang
41
3. Untuk meningkatkan daya guna barang

4. Meningkatkan peredaran barang
5. Sebagai alat stabilitas ekonomi
6. Untuk meningkatkan kegairahan berusaha
7. Untuk meningkatkan pemerataan pendapatan
8. Untuk meningkatkan hubungan internasional
2.6. Definisi Kredit Macet
Dalam penelitiannya, Novemy dan Khabib (2017) mengungkapkan bahwa
kredit macet merupakan kredit bermasaah yang dapat mengakibatkan hambatan
untuk lembaga keuangan dalam mengembangkan usahanya, karena perputaran
uang yang digunakan untuk pembiayaan berkurang dan beresiko terjadi kesulitan
keuangan atau disebut dengan financial distress. Menurut Kuncoro dan
Suhardjono, pengertian kredit bermasalah adalah suatu keadaan dimana nasabah
sudah tidak sanggup lagi membayar sebagaian atau seluruh kewajiban kepada
bank seperti yang telah diperjanjikan.
Menurut Siamat, kredit bermasalah adalah kredit yang mengalami

kesulitan pelunasan akibat adanya unsur kesenjangan atau karena kondisi diluar
kemampuan debitur. Ada beberapa pengertian kredit bermasalah menurut Rivai
dalam Achmad Fauzi (2018) yaitu sebagai berikut:
1. Kredit yang di dalam pelaksanaannya belum mencapai/memenuhi target yang
diinginkan oleh pihak bank.
2. Kredit yang memiliki kemungkinan timbulnya resiko di kemudian hari bagi
bank dalam arti luas.
3. Mengalami kesulitan di dalam penyelesaian kewajiban-kewajibannya, baik
dalam bentuk pembayaran kembali pokoknya/pembayaran bunga.
4. Kredit dimana pembayaran kembalinya dalam bahaya, terutama apabila
sumber-sumber pembayaran kembali yang diharapkan diperkirakan tidak
cukup untuk membayar kredit.
Semakin dini menganggap kredit yang diberikan akan bermasalah, maka
semakin baik karena hal ini akan berdampak kepada upaya penyelamatannya
sehingga tidak terlanjur parah dan menjadi sulit dalam penyelesaiannya (Achmad
Fauzi, 2018).
42
2.7. WEKA (Waikato Environment for Knowledge Analysis)

Weka atau kepanjangan dari Waikato Environment for Knowledge
Analysis merupakan sebuah perangkat lunak pembelajaran mesin yang ditulis
dalam Java, dikembangkan di Universitas Waikato, Selandia Baru. Weka mampu
mengatasi masalah-masalah data mining di dunia nyata, khususnya klasifikasi
yang mendasari pendekatan machine learning. Proyek Weka bertujuan untuk
menyediakan algoritma yang komprehensif untuk machine learning dan
preprocessing data yang biasa digunakan oleh para peneliti.
2.8. Visual Basic

Dalam Wikipedia, microsoft visual basic (sering disingkat dengan vb)
merupakan sebuah bahasa pemrograman yang menawarkan Integrated
Development Environment (IDE) visual untuk membuat program perangkat lunak
berbasis system operasi Microsoft Windows dengan menggunakan model
pemrograman (COM). Visual basic merupakan turunan bahasa pemrograman
basic dan menawarkan pengembangan perangkat lunak computer berbasis grafik
dengan cepat.
Visual basic menjadi popula

43
2.9. Kajian Terdahulu

Penelitian sebelumnya mengenai algoritma classification yang dijadikan reverensi pada penelitian ini dijelaskan pada tabel dibawah
ini:
Tabel 2. 17 Kajian Terdahulu

No. Judul (Penulis, Tahun) Algoritma/Metode Perbedaan Kesimpulan
yang digunakan
1. Prediksi Kredit Macet Melalui C4.5 Atribut, studi kasus penelitian, Menggunakan metode klasifikasi data mining
Perilaku Nasabah pada Koperasi pengujian algoritma, tools yang dengan menggunakan algoritma C4.5 untuk
Simpan Pinjam dengan digunakan. deteksi kredit macet telah menghasilkan nilai
Menggunakan Algoritma C.45 akurasi, dimana akurasi tersebut adalah
(Sucipto, 2015) Atribut yang digunakan pada algoritma C4.5 sebesar 92,00%. Setelah
penelitian ini yaitu nama, umur, dilakukan pengujian menggunakan algoritma C
penghasilan, jumlah kredit dan 4.5 mendapatkan hasil perbandingan
atribut target yaitu kredit macet keseluruhan dengan uji statistic T-Test, maka
atau kredit lancar. Tools yang dapat diketahui algoritma C 4.5 yang
digunakan yaitu rapid miner. mempunyai nilai uji test cukup tinggi yaitu
nilai probalitas sebesar 0,05, karena memiliki
nilai probalitas kurang dari ≤ 0.05
2. Klasifikasi Data Mining untuk C4.5 Atribut, studi kasus, tools yang Metode desicion tree terhadap data 50 data
Potensi Kredit Macet Pada digunakan nasabah kredit Koperasi Primkoveri Waleri
Koperasi Simpan Pinjam tahun 2014 memiliki tingkat akurasi yang baik
Primkoveri Waleri Menggunakan dalam menyelesaikan solusi klasifikasi data
Algoritma Decision Tree C4.5 Atribut yang digunakan pada mining dengan algoritma C4.5 yaitu sebesar
(Awaludin dan Yuniarsi, 2016) penelitian ini adalah umur, status, 86%.
pekerjaan, penghasilan, maks
kredit, jangka waktu kredit dan
angsuran. Tools yang digunakan
dalam penelitian ini yaitu rapid
miner.
44
3. Prediksi Kredit Macet Berdasarkan C.45 Atribut yang digunakan, studi Hasil yang didapatkan dari confussion matrix
Preferensi Nasabah Menggunakan kasus, dan pengujian algoritma. adalah tingkat akurasi sebesar 94,5946%.
Metode Klasifikasi C4.5 pada Sedangkan berdasarkan kurva ROC dihasilkan
Koperasi Simpan Pinjam Mitra Atribut yang digunakan dalam nilai AUC sebesar 0,9689. Usabilitas yang
Raya Wates (Iqbal, Nanang, dan penelitian ini yaitu jenis kelamin, dihasilkan dengan memanfaatkan SUS adalah
Fitria, 2018) jumlah tanggungan, status sebesar 82,5.
pernikahan, pendapatan utama,
total biaya hidup, dan status
pinjaman.
4. Prediksi Ketepatan Masa Studi C4.5 Atribut, masalah yang terjadi, Algoritma C.45 dapat digunakan untuk
Mahasiswa dengan Algoritma studi kasus dan teknik pengujian memprediksi ketepatan masa studi mahasiswa
Pohon Keputusan C45 (Sri algoritma. dengan menggunakan data latih mahasiswa
Yunianita, Novi Setiani, Sri Teknik Informatika UII angkatan 2010 hingga
Mulyati, 2018) Atribut yang digunakan dalam 2013. Dengan menggunakan teknik filter dan
penelitian ini yaitu nilai kuis, nilai wrapper terhadap subset atribut, maka
tugas, dan nilai ujian. ditemukan pengetahuan bahwa IPK, jumlah
SKS, nilai matakuliah Aljabar Linear dan
Matriks, Basisdata, Metode Numerik, Sistem
Informasi, Pemrograman Web, Pemrograman
Berorientasi Obyek, dan Sistem Operasi
memiliki pengaruh yang cukup signifikan
terhadap tingkat kelulusan mahasiswa.
Pengujian terhadap model klasifikasi berbasis
pohon keputusan C4.5 memberikan hasil yang
cukup baik, yaitu dengan dicapainya akurasi
sebesar 73.9%.
5. Analisa Kinerja Decision Tree C4.5 C4.5 Menggunakan data latih debitur Hasil pengujian melalui 5 kategori uji yang
dalam Prediksi Potensi Pelunasan pembiayaan kendaraan sepeda dilakukan dalam proses generate tree
Kredit Calon Debitur (Bambang, motor kemudian diprediksi potensi dibutuhkan rata-rata waktu 112 detik dengan
Azhari, dan Fajri, 2017) pelunasan kredit dari calon debitur perolehan waktu tercepat pada kategori uji
tersebut, melakukan proses pertama dengan jumlah data 3000 record
pengujian dengan membaginya senilai 9 detik. Sedangkan dalam proses
kedalam 5 kategori uji generate rules dibutuhkan rata-rata waktu 1,78
berdasarakan pemetaan data detik dengan perolehan waktu tercepat pada
45
pengujian yang ditetapkan. kategori uji pertama dengan dengan jumlah

data 3000 record senilai 1,23 detik.
Perbandingan jumlah data disetiap kategori uji
mempengaruhi nilai execution time, makin
banyak datanya maka semakin lama untuk
proses generate tree dan rules. Pada pengujian
akurasi data diperoleh prosentase rata-rata nilai
akurasi data 51,2% dengan perolehan tertinggi
pada kategori uji pertama dengan total data
3000 record senilai 54%.
6. Perbandingan Algoritma Naive C4.5 dan Naïve bayes Atribut yang digunakan, masalah Pada kasus penentuan kelayakan calon anggota
Bayes Dan C.45 Dalam Klasifikasi yang terjadi, algoritma kredit pada koperasi, algoritma Naive Bayes
Data Mining (Yogiek Indra memberikan nilai yang lebih baik pada
Kurniawan, 2018) Atribut yang digunakan dalam precision, tapi untuk recall dan accuracy,
penelitian ini yaitu kategori algoritma C.45 memberikan hasil yang lebih
kelayakan kredit dengan lancar, baik. Dengan menggunakan 400 data testing
kurang lancar, dan macet, jenis pada algoritma naïve bayes menghasilkan
kelamin, umur, jenis pekerjaan, tingkat akurasi sebesar 69.54% dan untuk C4.5
jumlah pinjaman, jangka waktu menghasilkan akutasi 80.23%.
pengembalian, jaminan dan
penghasilan.
Melihat dari penelitian sebelumnya, dari penelitian yang melakukan komparasi antara algoritma C4.5 dan Naïve bayes
menunjukkan bahwa hasil penelitian yang dilakukan menggunakan algoritma C4.5 memiliki tingkat akurasi yang lebih baik daripada
algoritma Naïve bayes. Dalam beberapa penelitian sebelumnya menunjukkan bahwa prediksi kredit macet dapat di klasifikasikan dengan
data mining menggunakan algoritma C4.5 dan menghasilkan tingkat akurasi yang tinggi dengan menggunakan beberapa macam pengujian
algoritma. Oleh karena itu, berdasarkan kajian terdahulu tersebut diatas penelitian ini memiliki perbedaan dengan tempat penelitian yang
dilakukan yaitu Koperasi Guru Rawamerta Karawang, atribut yang digunakan, implementasi hasil dari algoritma C4.5 akan diterapkan
46
pada sebuah dashboard sederhana berbasis desktop menggunakan bahasa pemrograman Visual Basic yang nantinya dapat digunakan oleh
staff koperasi dalam menentukan status kredit nasabah yang akan meminjam uang kepada koperasi.
BAB III
OBJEK DAN METODOLOGI PENELITIAN
3.1. Objek Penelitian

Objek penelitian yang akan diteliti mengenai kredit macet dilakukan di
Koperasi Guru Rawamerta dimana di Koperasi tersebut terdapat angka kredit
macet yang cukup tinggi pada tahun 2017 serta membutuhkan penelitian ini untuk
dapat mengatasi masalah tersebut. Metodologi penelitian yang akan digunakan
dalam mengklasifikasikan potensi kredit macet di Koperasi Guru Rawamerta
menggunakan metode CRISP-DM fd
3.1. Metodologi Penelitian
3.2. Rancangan Penelitian

DAFTAR PUSTAKA
Astuti, N. I. (2018). Penerapan Algoritma C4.5 untuk Penentuan Penerima

Beasiswa (Studi Kasus: SDN Karawang Kulon III). Karawang: Universitas
Singaperbangsa Karawang.
Awaludin, Y. (2016). Klasifikasi Data Mining Untuk Menentukan Potensi Kredit
Macet Pada Koperasi Simpan Pinjam Primkoveri Waleri Menggunakan
Algoritma Decision Tree C4.5.
Fauzi, A. (2018). Kredit Maace, NPL dan Pengaruhnya Terhadap Kinerja
Perusahaan Pada Perusahaan Pembiayaan. Jurnal Manajemen dan Bisnis.
Iqbal Taufik Ahmad Nur, N. Y. (2018). Prediksi Kredit Macet Berdasarkan
Preferensi Nasabah Menggunakan Metode Klasifikasi C4.5 pada Koperasi
Simpan Pinjam Mitra Raya Wates. Jurnal Pengembangan Teknologi
Informasi dan Ilmu Koputer.
Kurniawan, Y. I. (2018). Perbandingan Algoritma Naive Bayes dan C4.5 Dalam
Klasifikasi Data Mining. Jurnal Teknologi Informasi dan Ilmu Komputer
(JTIIK).
Mardi, Y. (2017). Data Mining: Klasifikasi Menggunakan Algoritma C4.5. Jurnal
Edik Informatika.
Nanang Tri Budiman, S. (2017). Tanggung Jawab Direksi Bank Perkreditan
Rakyat (BPR) Terhadap Penyelesaian Kredit Macet di Wilayah Kerja
Bank Indonesia Jember. Jurnal Rechtens.
Novemy Triyandari Nugroho, K. A. (2017). Stategi Penyelesaian Kredit
Bermasalah Untuk Mencegah Financial Distress Pada Koperasi Jasa
Keuangan Syariah. Seminar Nasional Teknologi Informasi dan Bisnis
(SENATIB).
Nurbaiti. (2018). Kriteria Nasabah Non Muslim Menabung (Penggalian Data
Menggunakan Klasifikasi Algoritma C4.5 Studi Kasus di PT. Bank BRI
Syariah Kantor Cabang Medan). Jurnal Tansiq.
Saraswati. (2017). Perbandingan Algoritma C4.5 dan Fuzzy Unordered Induction
Algorithm untuk Memprediksi Produktivitas Tanaman Padi di Kabupaten
Karawang. Karawang: Universitas Singaperbangsa Karawang.
Sri Yunianita, Novi Setiani, Sri Mulyati. (2018). Prediksi Ketepatan Masa Studi
Mahasiswa dengan Algoritma Pohon Keputusan C4.5. Seminar Nasional
Aplikasi Teknologi Informasi (SNATI).
Sucipto, A. (2015). Prediksi Kredit Macet Melalui Perilaku Nasabah Pada
Koperasi Simpan Pinjam Dengan Menggunakan Metode Algoritma
Klasifikasi C4.5. Jurnal DISPROTEK.
48

Proposal Euis 15045 Rev3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Euis 15045 Rev3

Diunggah oleh

Hak Cipta:

Format Tersedia

KLASIFIKASI DATA MINING UNTUK PENENTUAN

POTENSI KREDIT MACET PADA KPRI

PROGRAM STUDI TEKNIK INFORMATIKA

Karawang, Januari 2019

Tabel 2. 1 Data Training 16

Gambar 3. 1 Struktur Organisasi 41

sehingga terjadi kredit macet. Masalah kredit macet di Indonesia, yang

Tabel 1. 1 Data Kredit Macet Tahun 2015-2017

2015 307 21 5.2% Rp. 258.320.565,-

Pada Tabel 1.1 Data Kredit Macet Tahun 2015 – 2017

Berdasarkan paparan dan penelitian terdahulu diatas, maka

1.2. Rumusan Masalah

Adapun, manfaaat dari penelitian ini adalah:

1.6. Metodologi Penelitian

Pada bab ini dijelaskan langkah-langkah penelitian, objek yang

Bulan Bulan Bulan Bulan Bulan Bulan

Tabel 1. 2 Jadwal Penelitian

2.1. Data Mining

2.1.2. Tahapan Data Mining

Gambar 2. 1 Tahapan Data Mining Menurut Han

1. Data cleaning (Pembersihan Data)

file teks. Integrasi data dilakukan pada atibut-atribut yang mengidentifikasikan

7. Knowledge Presentation (Presentasi Pengetahuan)

b. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap

Klasifikasi terbagi menjadi dua tahap yaitu pengklasifikasian dan

2.3. CRISP-DM (Cross-Industry Standart Process for Data Mining)

Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hodup

Gambar 2. 2 Fase Dari CRISP-DM

Menurut Larose (2005) dalam bukunya yang berjudul “Discovering

1. Pemahaman bisnis (Business Understanding)

b. Describe the Data

2.4. Algoritma C4.5

1. Pilih root berdasarkan gain ratio terbesar

Untuk mendapatkan nilai information gain, terlebih dahulu kita harus

Dv = jumlah kasus pada partisi ke-v

D = jumlah kasus dalam D

Tabel 2. 1 Data Training

2. Perhitungan nilai entropy

Tabel 2. 3 Hasil Perhitungan Nilai Entropy

Gain ( Total , Temperature )=0.8631206− ( 146 ∗0.918295834 )+( 144 ∗0)

Gain ( Total , Humidity )=0.8631206− ( 147 ∗1)+( 147 ∗0)

Gain ( Total , Windy )=0.8631206− ( 148 ∗0.8112781)+( 146 ∗0.9182958 )

Setelah menghitung nilai gain, berikut hasilnya terdapat pada Tabel

Tabel 2. 4 Hasil Perhitungan Nilai Gain

SplitInfoOUTLOOK(D) = ( −514∗log 145 )+( −414 ∗log 144 )+¿

SplitInfoTEMPERATURE(D) = ( −414 ∗log 144 )+(−6

( −414 ∗log 144 )

SplitInfoHUMIDITY(D) = ( −714∗log 147 )+( −7

SplitInfoWINDY(D) = ( −814∗log 148 )+( −614∗log 146 )

Tabel 2. 5 Hasil Perhitungan SplitInfo

5. Perhitungan Gain Ratio

Tabel 2. 6 Hasil Perhitungan Gain Ratio

Gain Ratio Tertinggi Sebagai Node Akar

Gambar 2. 3 Gain Tertinggi Sebagai Node Akar

1. Buat Cabang untuk Tiap-Tiap Nilai

Tabel 2. 7 Data Set yang difilter

Sunny Hot High False No

Entropy Humidity(High) = ( −37∗log 37 )+(−47 ∗log 74 )

Tabel 2. 8 Hasil Perhitungan Nilai Entropy Humidity High

0.985228136 − ( 37 ∗0)+( 27∗0)+( 72∗1)

Gain (Humidity (High, (Temperature))) =

0.985228136 − ( 37 ∗0.918295834 )+( 47 ∗1)

Gain (Humidity (High, (Temperature))) = 0.02024