Anda di halaman 1dari 85

SKRIPSI

IMPLEMENTASI DATA MINING MENGGUNAKAN


ALGORITMA C4.5 UNTUK PREDIKSI KEPUASAN
PELANGGAN TAKSI KOSTI

IMPLEMENTATION OF DATA MINING USING C4.5


ALGORITHM FOR PREDICTION OF CUSTOMER
SATISFACTION AT KOSTI TAXI
Diajukan untuk memenuhi salah satu syarat
memperoleh gelar Sarjana Teknik Informatika – S1

Disusun Oleh :
Nama : Mochamad Rizki Ilham S
NIM : A11.2012.07233
Program Studi : Teknik Informatika- S1

FAKULTAS ILMU KOMPUTER


UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2016
SKRIPSI

IMPLEMENTASI DATA MINING MENGGUNAKAN


ALGORITMA C4.5 UNTUK PREDIKSI KEPUASAN
PELANGGAN TAKSI KOSTI

IMPLEMETATION OF DATA MINING USING C4.5


ALGORITHM FOR PREDICTION CUSTOMER SATISFACTION
AT KOSTI TAXI
Diajukan untuk memenuhi salah satu syarat
memperoleh gelar Sarjana Teknik Informatika – S1

Disusun Oleh :
Nama : Mochamad Rizki Ilham S
NIM : A11.2012.07233
Program Studi : Teknik Informatika- S1

FAKULTAS ILMU KOMPUTER


UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2016

i
ii

HALAMAN PERSETUJUAN SKRIPSI

Nama : Mochamad Rizki Ilham Saputra


NIM : A11.2012.07233
Program Studi : Teknik Informatika – S1
Fakultas : Ilmu Komputer
Judul Tugas Akhir : Implementasi Data Mining Menggunakan Algoritma C4.5
Untuk Prediksi Kepuasan Pelanggan Taksi KOSTI

Telah diperiksa dan disetujui oleh pembimbing tugas akhir guna mencapai gelar
Sarjana Komputer Strata Satu pada Fakultas Ilmu Komputer, Universitas Dian
Nuswantoro Semarang.

Semarang, 17 Februari 2016

Menyetujui Mengetahui
Pembimbing Dekan Fakultas Ilmu Komputer

Purwanto.Ph.D Dr. Drs. Abdul Syukur, MM


NPP.0686.11.1994.051 NPP.0686.11.1992.017

ii
iii

PENGESAHAN DEWAN PENGUJI

Nama : Mochamad Rizki Ilham S


NIM : A11.2012.07233
Program Studi : Teknik Informatika – S1
Fakultas : Ilmu Komputer
Judul Tugas Akhir : Implementasi Data Mining Menggunakan Algoritma C4.5
Untuk Prediksi Kepuasan Pelanggan Taksi Kosti

Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang Tugas Akhir tanggal 17 Februari 2016 Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelas
Sarjana Komputer (S. Kom)

Semarang, 17 Februari 2016


Dewan Penguji,

Ketua Penguji

Heru Agus Santoso, Ph.D


NPP. 0686.11.1998.165

Penguji 1 Penguji 2

Aisyatul Karima, S.Kom, MCS Ricardus Anggi Pramunendar, MCS


NPP. 0686.11.2012.441 NPP. 0686.11.2011.416

iii
iv

PERNYATAAN KEASLIAN SKRIPSI

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah


ini, saya :
NAMA : MOCHAMAD RIZKI ILHAM SAPUTRA
NIM : A11.2012.07233
Menyatakan bahwa karya ilmiah saya yang berjudul :
“Implementasi Data Mining Menggunakan Algoritma C4.5 Untuk Prediksi
Kepuasan Pelanggan Taksi KOSTI”

Merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya dan perangkat pendukung). Apabila di kemudian hari,
karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-
bukti yang cukup, maka saya bersedia untuk dibatalkan gelas saya beserta hak dan
kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat
dengan sebenarnya.

Dibuat di : Kota Semarang,


Pada tanggal : 17 Februari 2016

Yang menyatakan

Mochamad Rizki Ilham S

iv
v

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH


UNTUK KEPENTINGAN AKADEMIS

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah


ini, saya :
NAMA : MOCHAMAD RIZKI ILHAM SAPUTRA
NIM : A11.2012.07233
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul :

“Implementasi Data Mining Menggunakan Algoritma C4.5 Untuk Prediksi


Kepuasan Pelanggan Taksi Kosti”
Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-
Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data
(database), mendistribusikannya dan menampilkan/ mempublikasikannya di internet
atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya
selama tetap mencantumkan nama saya sebagai penulis/ pencipta.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas
Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak
Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan
sebenarnya.

Dibuat di : Kota Semarang,


Pada tanggal : 17 Februari 2016

Yang menyatakan

Mochamad Rizki Ilham S

v
vi

UCAPAN TERIMA KASIH

Puji syukur kepada Tuhan yang Maha Esa atas segala berkat yang telah diberikan-
Nya, sehingga Laporan Tugas Akhir ini dapat diselesaikan.

Laporan Tugas Akhir dengan judul “IMPLEMENTASI DATA MINING


MENGGUNAKAN ALGORITMA C4.5 UNTUK PREDIKSI KEPUASAN
PELANGGAN TAKSI KOSTI” ini ditujukan untuk memenuhi sebagian
persyaratan akademik guna menyelesaikan studi di Program Studi Teknik
Informatika Strata Satu Universitas Dian Nuswantoro Semarang.

Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak,
Laporan Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh
karena itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada semua
pihak yang telah membantu dalam proses penulisan Laporan Tugas Akhir ini, yaitu
kepada :

1) Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian


Nuswantoro.
2) Dr. Abdul Syukur, selaku Dekan Fakultas Ilmu Komputer.
3) Dr. Heru Agus Santoso, M.Kom, selaku Ketua Program Studi Teknik
Informatika – S1
4) Purwanto, Phd. selaku Dosen Pembimbing Tugas Akhir yang telah
memberikan bimbingan dan banyak memberikan masukan kepada penulis.
5) Ibu, Bapak, dan keluarga yang telah memberikan dukungan moril, doa dan
kasih sayang.
6) Bapak Zaenal Arifin yang telah membantu dalam pembagian kuisioner
7) Ninik Setiyaningrum atas motivasi dan dukungan selama ini.
8) Alfareno yang telah membantu dalam proses pembuatan program saya.
9) Semua pihak yang namanya tidak dapat disebutkan satu per satu yang terlibat
dalam penyusunan Laporan Tugas Akhir ini sehingga dapat selesai dengan
baik.

Akhir kata, penulis menyadari bahwa mungkin masih terdapat kekurangan dalam
Laporan Tugas Akhir ini. Oleh karena itu, kritik dan saran dari pembaca sangat
bermanfaat bagi penulis. Semoga Laporan Tugas Akhir ini dapat bermanfaat bagi
semua pihak yang membacanya.
Semarang, 17 Februari 2016

Mochamad Rizki Ilham S

vi
vii

ABSTRAK
Banyak cara dilakukan oleh masing-masing perusahaan penyedia jasa, khususnya
transportasi untuk memenangkan persaingan, antara lain dengan meningkatkan
kepuasan pelanggan transportasi. Salah satu perusahaan penyedia jasa transportasi
yang berkomitmen dalam meningkatkan kepuasan pelangganya adalah Taksi KOSTI.
Penelitian ini bertujuan untuk menganalisis kepuasan pelanggan Taksi KOSTI
dengan menggunakan teknik data mining dengan algoritma C4.5. Atrribut masukan
kepuasan pelanggan dalam penelitian ini mencangkup harga, fasilitas, pelayanan dan
loyalitas. Dalam penelitian ini, didapatkan bahwa hasil yang didapatkan berasal dari
beberapa atribut masukan menghasilkan hubungan sebab-akibat dalam
mengklasifikasikan konsumen puas dan tidak puas. Penelitian ini di harapkan dapat
membantu pihak KOSTI dalam meningkatkan kepuasan konsumen untuk
mempertahankan pelanggan dan meningkatkan laba perusahaan taksi KOSTI
tersebut. Berdasarkan Hasil klasifikasi menggunakan algoritma C4.5 menunjukkan
bahwa diperoleh akurasi mencapai 88.01%, yang menunjukkan bahwa algoritma
C4.5 cocok digunakan untuk mengukur tinggkat kepuasan pelanggan taksi KOSTI.

Kata Kunci : Data mining, Decision Tree, Algoritma C4.5, Kepuasan Pelanggan,
Perusahaan Jasa Transportasi.

vii
DAFTAR ISI

HALAMAN JUDUL ......................................................................... i


PERSETUJUAN SKRIPSI ............................................................... ii
PENGESAHAN DEWAN PENGUJI ............................................... iii
PERNYATAAN KEASLIAN SKRIPSI ........................................... iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS .......................... v
KATA PENGANTAR ...................................................................... vi
ABSTRAK ....................................................................................... vii
DAFTAR ISI ..................................................................................... viii
DAFTAR GAMBAR ........................................................................ x
DAFTAR TABEL ............................................................................. xi
BAB I PENDAHULUAN ................................................................. 1
1.1 Latar Belakang ........................................................................ 1
1.2 Identifikasi Masalah ................................................................ 4
1.3 Rumusan Masalah ................................................................... 5
1.4 Batasan Masalah...................................................................... 5
1.5 Tujuan Penelitian .................................................................... 5
1.6 Manfaat Penelitian .................................................................. 6
1.7 Sistematika Penulisan.............................................................. 6
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI ......... 8
2.1 Penelitian Terkait .................................................................... 8
2.2 Literatur yang Mendkung Penelitian....................................... 13
2.2.1 Kualitas Jasa dan Pelayanan ........................................ 13
2.2.2 Kepuasan Konsumen .................................................... 14
2.2.3 Loyalitas Pelanggan ..................................................... 14
2.2.4 Variabel Kuisioner ....................................................... 14
2.2.5 Desain Kuesioner dan Skala Pengukuran .................... 17
2.2.6 Data Mining ................................................................. 18
2.2.6.1 Tahap – Tahap Data Mining ............................ 19
2.2.7 CRISP-DM ................................................................... 21
2.2.8 Klasifikasi .................................................................... 24
2.2.9 Decision Tree Algoritma C4.5 ..................................... 25
2.2.10 Confusion Matrix ......................................................... 27
2.3 Rapid Miner ............................................................................ 29
2.4 Java .......................................................................................... 30
2.5 Netbeans Integrated Development Environment (IDE) .......... 30
2.6 Kerangka Pemikiran ................................................................ 32
BAB II METODE PENELITIAN ..................................................... 33
3.1 Instrumen Penelitian................................................................ 33

viii
ix

3.1.1 Kebutuhan Perangkat Lunak .......................................... 33


3.1.2 Kebutuhan Perangkat Keras ........................................... 33
3.1.3 Desain Kuisioner dan Skala Pengukuran ....................... 33
3.2 Objek Penelitian ...................................................................... 35
3.3 Metode Pengumpulan Data ..................................................... 35
3.4 Teknik Analisis Data ............................................................... 36
BAB IV ANALISIS HASIL DAN PEMBAHASAN ....................... 39
4.1 Pengolahan Data...................................................................... 39
4.2 Proses Data Mining ................................................................. 43
4.3 Pengujian Rules Terhadap Data Kepuasan Pelanggan
Taksi KOSTI dengan Variabel Data Kuisioner ...................... 47
4.3.1 Pengujian 1 ..................................................................... 48
4.3.2 Pengujian 2 ..................................................................... 50
4.3.3 Pengujian 3 ..................................................................... 52
4.4 Analisa Hasil Pengujian .......................................................... 54
4.5 Implementasi ........................................................................... 54
BAB V KESIMPULAN DAN SARAN............................................ 55
5.1 Kesimpulan ............................................................................. 55
5.2 Saran ........................................................................................ 55
DAFTAR PUSTAKA ....................................................................... 56
LAMPIRAN ...................................................................................... 58

ix
x

DAFTAR GAMBAR

Gambar 2.1 Tahap – Tahap Data Mining ............................................................. 19

Gambar 2.2 Gambar Siklus Hidup CRISP-DM .................................................... 22

Gambar 2.3 Konsep Decision Tree ....................................................................... 25

Gambar 2.4 Contoh Pohon Keputusan ................................................................. 26

Gambar 2.5 Tampilan Awal Netbeans IDE .......................................................... 31

Gambar 2.6 Kerangka Pemikiran.......................................................................... 32

Gambar 3.1 Prosedur Penelitian ........................................................................... 37

Gambar 4.1 Kuisioner Bagian 1 ........................................................................... 40

Gambar 4.2 Kuisioner Bagian 2 ........................................................................... 41

Gambar 4.3 Alur Pengolahan Data ....................................................................... 45

Gambar 4.4 Proses pengolahan data pada RapidMiner ........................................ 46

Gambar 4.5 Pohon Keputusan Hasil Pegolahan dengan Rapid Miner ................. 47

Gambar 4.6 Pengujian model K-Fold Validation 10 ............................................ 51

Gambar 4.7 Pengujian model K-Fold Validation 10 ............................................ 51

Gambar 4.8 AUC (Area Under Curve) Pengujian 1 ............................................. 53

Gambar 4.9 Pengujian model K-Fold Validation 5 .............................................. 54

Gambar 4.10 Pengujian model K-Fold Validation 5 ............................................ 54

Gambar 4.11 AUC (Area Under Curve) Pengujian 2 ........................................... 56

Gambar 4.12 Pengujian model K-Fold Validation 3 ............................................ 57

Gambar 4.13 Pengujian model K-Fold Validation 3 ............................................ 57

Gambar 4.14 AUC (Area Under Curve) Pengujian 3 ........................................... 59

x
xi

DAFTAR TABEL

Tabel 1.1 Perusahaan Taksi Di Semarang ............................................................ 2

Tabel 2.1 Tabel Penelitian Terkait ........................................................................ 12

Tabel 2.2 Confusion matrix 2 kelas ...................................................................... 28

Tabel 4.1 Keterangan Data Kuisioner................................................................... 42

Tabel 4.2 Pemilihan Atribut.................................................................................. 42

Tabel 4.3 Data Awal Sebelum Pemilihan Atribut ................................................ 43

Tabel 4.4 Data Setelah Pemilihan Atribut ............................................................ 44

Tabel 4.5 Data yang akan di import ke dalam Rapid Miner ................................. 45

Tabel 4.6 Data Error ............................................................................................. 49

Tabel 4.7 Confusion Matrix Pengujian 1 .............................................................. 52

Tabel 4.8 Evaluasi dan Validasi 1 ........................................................................ 53

Tabel 4.9 Confusion Matrix Pengujian 2 .............................................................. 55

Tabel 4.10 Evaluasi dan Validasi 2 ...................................................................... 56

Table 4.11 Hasil Akurasi Pengujian 3 .................................................................. 58

Tabel 4.12 Evaluasi dan Validasi 3 ...................................................................... 59

Tabel 4.13 Hasil Pengujian 1, 2, dan 3 ................................................................. 60

xi
BAB I
PENDAHULUAN
1.1. Latar Belakang

Seiring dengan tingginya aktifitas manusia untuk memenuhi keperluan


dan kebutuhan hidupnya sehari-hari, baik dalam bekerja, belanja, ataupun
sekedar jalan-jalan untuk melepas rasa penat. Maka, hal ini perlu didukung
dengan adanya sarana transportasi yang memadai, baik transportasi milik
pribadi ataupun transportasi umum. Karena pada kenyataannya tidak semua
masyarakat memiliki kendaraan pribadi. Dengan adanya kebutuhan akan
sarana transportasi umum tersebut, maka hal ini mendorong berdirinya
perusahaan jasa yang bergerak dibidang transportasi umum. Saat ini terdapat
bermacam-macam jasa transportasi umum yang dapat digunakan, salah
satunya diantaranya adalah taksi [1].
Taksi adalah angkutan umum yang menggunakan mobil sedan untuk
mengangkut penumpangnya yang dilengkapi dengan radio komunikasi.
Perbedaan utama antara taksi dengan angkutan umum darat lainnya seperti
bus terletak pada jumlah penumpangnya. Taksi memiliki kapasitas maksimal
4 penumpang dengan 1 pengemudi, yang siap mengantar kemana saja sesuai
dengan keinginan penumpang, dan penumpangnya tersebut biasanya berada
dalam satu kelompok [2]. Oleh karena itu taksi sering disebut jasa
transportasi eksklusif, karena taksi dapat memberikan sisi privacy yang lebih
dibanding dengan angkutan umum darat lainnya.
Sejalan dengan kemajuan dalam pendidikan dan perekonomian yang
lebih makmur, serta perkembangan ilmu pengetahuan dan teknologi, maka
kesadaran masyarakat terhadap unsur – unsur pelayanan yang dapat diberikan
oleh perusahaan semakin meningkat. Pada saat ini kesadaran konsumen akan
pentingnya nilai kualitas pelayanan (Service Quality) yang diberikan oleh
perusahaan, baik dalam bentuk jasa maupun dalam bentuk barang semakin
meningkat. Dari beberapa pengalaman menunjukan bahwa atas pemberian
suatu kualitas jasa/ pelayanan tertentu akan menimbulkan penilaian yang

1
2

berbeda dari setiap konsumen, karena tergantung dari bagaimana konsumen


mengharapkan kualitas jasa/ pelayanan tersebut [3].
Konsumen adalah orang yang menilai baik tidaknya kualitas
pelayanan. Konsumen menilai pelayanan tersebut dengan cara
membandingkan pelayanan yang mereka terima dengan pelayanan yang
mereka harapkan. Bila konsumen merasa sangat puas terhadap pelayanan
yang diberikan oleh suatu perusahaan akan mengakibatkan konsumen
tersebut akan kembali lagi untuk menggunakan jasa perusahaan lagi. Dengan
kata lain perusahaan yang dapat memuaskan konsumen akan memiliki
konsumen yang loyal. Sehingga secara tidak langsung konsumen yang loyal
tersebut akan merekomendasikan kepada konsumen lain dari mulut ke mulut
tanda dipaksa mengenai pelayanan yang pernah diterimanya [1].
Pada saat ini industri jasa transportasi taksi semakin marak di
Indonesia. Perusahaan KOSTI (Koperasi Sopir Taksi Indonesia) Semarang
merupakan salah satu badan usaha yang mengkonsentrasikan salah satu
bidang usahanya di sektor industri jasa transportasi yaitu taksi. Sebagai suatu
perusahaan swasta tentu saja KOSTI (Koperasi Sopir Taksi Indonesia) hadir
untuk mendapatkan keuntungan sekaligus memberikan pelayanan yang
memuaskan bagi konsumen. Akan tetapi bukan hanya KOSTI (Koperasi
Sopir Taksi Indonesia) sendiri yang bergerak di bidang jasa transportasi taksi
ini sehingga hal ini menimbulkan persaingan antar perusahaan yang bergerak
di bidang ini.
Berikut ini akan disajikan tabel yang berisi perusahaan-perusaahaan
yang bergerak di bidang jasa transportasi taksi di Semarang:
Tabel 1.1 Perusahaan Taksi Di Semarang
Nama Perusahaan Alamat
Puri Kencana Rogojembangan Raya No 68
New Atlas Telogo Bodas No.1
Kosti Semarang Pamularsih Raya No 15
Satria Express Perdana Bumi Rejo 11 No 9
Centries Multi Persada Majapahit No. 583
Astra Utama Taksi Telogo Bodas 57 Gajahmungkur
3

Pandu Persada Sarana Mukti Kaligawe Km 4/46 Semarang


Blue bird Pusaka Brigjen Sufiarto No.492
Sumber : Dinas Perhubungan Kota Semarang 2009 [1].

Dapat dilihat pada tabel diatas bahwa sangat banyak perusahaan yang
bergerak dibidang jasa transportasi taksi ini dan jumlahnya terus bertambah.
Sekarang ini tercatat sampai tahun 2015 Kosti Semarang memiliki anggota
633 orang. Kosti berdiri sejak tahun 1998, dengan memberikan pelayanan-
pelayanan yang baik maka kosti dapat bertahan hingga sekarang [4].
Namun perkembangan dunia usaha yang semakin pesat ini
menyebabkan perusahaan harus menghadapi persaingan yang ketat.
Perusahaan pada umumnya menginginkan pelanggan yang dimilikinya dapat
dipertahankan selama-lamanya. Untuk mewujudkan hal itu bukanlah sesuatu
yang mudah diiklim persaingan usaha yang sangat ketat saat ini mengingat
adanya perubahan-perubahan yang cepat dapat terjadi setiap saat seperti
perubahan pada diri pelanggan, pesaing maupun perubahan kondisi secara
luas yang selalu dinamis. Hal ini menuntut para pengambil kebijakan untuk
mengembangkan suatu strategi yang mampu mancapai sasaran pertumbuhan
penjualan, peningkatan porsi pasar perusahaan, serta pencapaian kemampuan
sebagai dasar pertumbuhan berkelanjutan [3].
Sementara itu, Data mining adalah proses pengekstrakan informasi
dari kumpulan data yang besar [5]. Pengekstrakan informasi dilakukan
berdasarkan metode data mining yang akan digunakan. Ada beberapa metode
serta algoritma data mining yang digunakan untuk mengekstrak informasi
antara lain: metode klasifikasi, metode asosiasi, metode clustering, metode
prediksi, dan metode estimasi.
Algoritma C4.5 adalah salah satu algoritma dari metode klasifikasi
algoritma C4.5 adalah algoritma yang digunakan untuk membuat pohon
keputusan. Pohon keputusan merupakan metode klasifikasi dan prediksi yang
sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang
sangat besar menjadi pohon keputusan yang merepresentasikan aturan.
Aturan dapat dengan mudah dipahami dengan bahasa alami.
4

Ibnu Fatchur Rohman [6] dalam penelitianya menggunakan algoritma


C4.5 pada kepuasan pelanggan perum DAMRI menghasilkan akurasi sebesar
93%. Selanjutnya Teguh budi santoso [7] melakukan penelitian untuk
prediksi loyalitas pelanggan dengan menggunakan algoritma C4.5 dan
menunjukan bahwa diperoleh akurasi mencapai 97,5% yang menunjukan
bahwa algoritma C4.5 cocok digunakan untuk mengukur tingkat loyalitas
pelanggan.
David Hartanto Kamagi [8] melaporkan bahwa penelitianya
menggunakan Algoritma C4.5 mendapatkan hasil yang bagus. Dari hasil uji
coba terhadap 100 data, peneliti mendapatkan tingkat akurasi dari hasil
prediksi kelulusan terhadap data testing sebesar 87.5%. Selanjutnya Anik
Andriani [9] Penelitianya terhadap Klasifikasi mahasiswa Dropout
menggunakan Algoritma C4.5 memperoleh hasil yang baik. Hasil evaluasi
dan validasi dengan confussion matrix menunjukkan tingkat akurasi pada
algoritma C4.5 sebesar 97,75%. Dan Dyah satiti [10] memperoleh hasil yang
baik pada penelitian Analisis kepuasan konsumen terhadap restoran cepat saji
melalui pendekatan data mining.
Untuk mengetahui apakah perusahaan telah memberikan kualitas jasa
yang sesuai dengan harapan pelanggan, maka perlu dilakukan evaluasi dari
sisi pelanggannya untuk mengetahui apakah pelanggan puas atau tidak puas
dengan pelayanan yang di berikan. Oleh karena itu melihat permasalahan di
atas maka dilakukan dengan penelitian dengan mengambil judul :
“Implementasi Data Mining Menggunakan Algoritma C4.5 Untuk Prediksi
Kepuasan Pelanggan Taksi Kosti”.

1.2. Identifikasi Masalah

Dari latar belakang diatas terdapat beberapa masalah yang timbul dan
dapat di identifikasikan sebagai berikut :
1. Belum diketahuinya apakah pelanggan sudah puas atau belum dengan
layanan yang diberikan oleh perusahaan Kosti
2. Perlu adanya pengolahan data melalui survey dengan mengajukan
pertanyaan–pertanyaan dalam bentuk kuisioner yang melibatkan faktor–
5

faktor yang mempengaruhi kepuasan pelanggan untuk menyesuaikan


pelayanan yang lebih baik hingga sesuai dengan yang diharapkan
pelanggan.

1.3. Rumusan Masalah


Berdasarkan uraian latar belakang, penulis dapat merumuskan
masalah sebagai berikut :
1. Bagaimana akurasi algoritma C4.5 untuk memprediksi kepuasan
pelanggan pada taksi KOSTI?
2. Bagaimana cara menerapkan algortima C4.5 pada kepuasan pelanggan
taksi KOSTI?

1.4. Batasan Masalah


Agar penyusunan tugas akhir ini tidak terlalu meluas dan keluar dari
pokok permasalahan yang dirumuskan, penulis merasa perlu memberikan
batasan permasalahan sebagai berikut:
1. Dataset yang penulis analisa ini difokuskan pada data kuisioner yang
dibagikan kepada 200 responden pelanggan taksi KOSTI Semarang pada
bulan Oktober – November 2015.
2. Dataset yang penulis analisa ini difokuskan untuk prediksi kepuasan
pelanggan dengan parameter yang digunakan meliputi harga, fasilitas,
pelayan dan loyalitas.
3. Pengembangan analisa ini akan dititik beratkan pada implementasi
metode klasifikasi data mining dengan algoritma decision tree C4.5.

1.5. Tujuan Penelitian


Berdasarkan rumusan masalah diatas maka tujuan pada penelitian ini
adalah sebagai berikut :
1. Mengetahui akurasi algoritma C4.5 untuk memprediksi kepuasan
pelanggan pada taksi KOSTI.
2. Menerapkan algoritma C4.5 pada kepuasan pelanggan taksi KOSTI.
6

1.6. Manfaat Penelitian

1.6.1 Untuk Akademik


Penelitian ini dapat memberikan informasi bagi peneliti atau
calon peneliti lain untuk menerapkannya kedalam sistem yang lebih
luas dan lebih kompleks atau sebagai bahan acuan yang dapat
dikembangkan bagi kemungkinan pengembang konsep dan materi
lebih lanjut serta dapat melengkapi referensi pustaka akademik
1.6.2 Untuk Perusahaan
Untuk mendapatkan pendukung keputusan bagi KOSTI
Semarang untuk memperbaiki pelayanannya dalam mempertahankan
pelanggan.
1.6.3 Untuk Penulis
Penulis dapat mengaplikasikan ilmu dan keterampilan yang
diperoleh di perkuliahan Teknik Informatika, dan untuk memenuhi
salah satu syarat kelulusan Strata Satu (S1) Teknik Informatika
Universitas Dian Nuswantoro, serta menambah wawasan pengetahuan
dan pengalaman mengenai dunia bisnis khususnya dalam kepuasan
pelanggan atas pelayanan yang didapatkan.

1.7. Sistematika Penulisan

Adapun sistematika penulisan dari penelitian ini adalah :


Bab I : Pendahuluan
Bab ini merupakan bagian pendahuluan yang berisi latar belakang
masalah mengapa kepuasan pelanggan taksi KOSTI di kota semarang
menjadi menarik untuk diteliti, identifikasi masalah, rumusan
masalah, batasan masalah, tujuan penelitian, manfaat penelitian serta
sistematika penulisan.
Bab II : Landasan Teori
Bab ini berisikan landasan teori yang menjadi dasar penelitian. Teori
yang digunakan merupakan teori yang berpijak pada bidang data
mining dengan menggunakan metode algoritma C4.5 dan beberapa
penelitian terdahulu yang dijadikan acuan dalam melakukan
7

penelitian. Selain itu disusun juga kerangka pemikiran penulis tentang


penelitian yang akan dilakukan.
Bab III : Metode Penelitian
Pada bab ini berisi deskripsi tentang bagaimana penelitian akan
dilaksanakan dengan menggunakan metode algoritma C4.5, jenis dan
sumber data, metode klasifikasi data, serta metode analisis.
Bab IV : Hasil Dan Analisis
Bab ini menjelaskan secara singkat keadaan KOSTI Semarang sebagai
objek penelitian, kemudian menuju ke analisis dan klasifikasi data
serta pembahasan hasil analisis dari penelitian ini.
Bab V : Penutup
Bab ini merupakan bab terakhir yang berisikan kesimpulan dan saran
atas penelitian yang dilakukan berkaitan tentang kepuasan pelanggan
di Kosti Semarang.
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
2.1. Penelitian Terkait

Kualitas Jasa dan Pelayanan merupakan salah satu unsur yang sangat
penting dalam menciptakan kepuasan konsumen. Salah satu cara untuk
menempatkan hasil pelayanan yang lebih unggul daripada pesaing adalah
dengan memberikan pelayanan yang baik, efisien, dan cepat [11]. Umumnya
konsumen melihat dari suatu pelayanan yang diberikan oleh perusahaan
kepada pelanggan. Jika pelayanan yang diberikan sangat memuaskan dan
mencapai tingkat kepuasan konsumen, maka konsumen akan merasa puas
akan jasa atau pelayanan tersebut. Semua pelayanan dan fasilitas yang
diberikan harus disesuaikan dengan kebutuhan konsumen dan dievaluasi
melalui opini atau presepsi konsumen. Opini atau presepsi konsumen
merupakan suatu penilaian terhadap kelebihan atau kekurangan suatu jasa
atau pelayanan.
Atas dasar presepsi konsumen yang merupakan suatu penilaian terhadap
jasa atau pelayanan suatu perusahaan, maka perusahaan harus melakukan
peningkatan kualitas pelayanan yang diharapkan akan semakin meningkatnya
konsumen untuk menggunakan jasa atau layanan yang di tawarkan oleh suatu
perusahaan yang diharapkan dapat memenuhi kebutuhan setiap konsumen
sehingga konsumen dapat merasa puas.
Berdasarkan kualitas jasa dan kepuasan pelanggan yang saling berkaitan
maka dilakukanlah penelitian ini dengan terlebih dahulu melakukan studi
kepuasan pelanggan dari penelitian-penelitian sebelumnya dan sumber lain.
Dari penelitian-penelitian sebelumnya penulis menemukan beberapa
penelitian yang membahas tentang topik yang terkait dengan penelitian
penulis, antara lain adalah algortima yang akan digunakan oleh penulis pada
penelitian ini.
Penelitian pertama dilakukan oleh Ibnu Fatchur Rochman [6] yang
membuat penelitian pada kepuasan pelanggan perum damri menggunkan
algoritma C4.5. Dari hasil pengujian algortima C4.5 dalam memprediksi

8
9

kepuasan pelanggan perum DAMRI atas 90 sample data pelanggan yang diuji
dalam penelitian ini, menunjukan bahwa algoritma C4.5 memiliki tingkat
akurasi yang cukup tinggi yaitu sebesar 93%. Pada penelitian ini peneliti
membuat kuisioner dengan jumlah yang telah di tentukan sejumlah 150
kuisioner yang selanjutnya kuisioner tersebut akan menjadi bahan acuan awal
untuk menentukan jumlah puas dan tidak puas pada prosentasi kepuasan
pelanggan Bus Perum DAMRI. Hasil dari perhitungan manual jumlah puas
dan tidak puas pada kuisioner tersebut dimasukkan kedalam rumus algoritma
C4.5.
Kuisioner di bagi dalam tiga kategori yang masing-masing kategori
memiliki beberapa pertanyaan, kategori kuisioner yang diajukan oleh peneliti
meliputi Harga, Pelayanan, dan Fasilitas.
Peneliti melakukan 3 kali pengujian terhadap data pelanggan dengan
jumlah data testing dan data training yang berbeda yaitu :

a. Data training 40% dan data testing 60%

b. Data training 60% dan data testing 40%

c. Data training 80% dan data testing 20%

Setelah dilakukan penelitian dan percobaan sebanyak 3 kali, maka dapat


disimpulkan sebagai berikut :
a. Dari percobaan yang telah dilakukan penulis sebanyak 3x, maka dapat
di ketauhi bahwa percobaan 1, 2, dan 3 ini dapat dikatakan baik dan
berhasil, karena sudah terlihat jelas bahwa nilai akurasi yang terus
bertambah dan semakin akurat.
b. Algoritma C4.5 pada kepuasan pelanggan di Perum DAMRI dapat
diterapkan dengan baik.
Penelitian kedua dilakukan oleh Teguh Budi Santoso [7] Penelitian ini
meneliti tentang prediksi loyalitas pelanggan data seluler menggunakan
metode klasifikasi dengan Algoritma C4.5 dan hasil klasifikasi menggunakan
algortima C4.5 menunjukan bahwa diperoleh akurasi mencapai 97,5% yang
menunjukan bahwa algoritma C4.5 cocok digunakan untuk mengukur
tingkat loyalitas pelanggan data seluler. Data yang digunakan adalah data
10

primer dari penyebaran kuisioner berupa penyataan embentukan model


prediksi menggunakan metode C4.5. pada algoritma C4.5 dilakukan
perhitungan entropy dan information gain dimana atribut loyalitas pelanggan
sebagai atribut tujuan, sedangkan harga, pelayanan, promosi, citra
perusahaan, dan kepercayaan sebagai atribut sumber untuk memperoleh node
akar dan node lainnya.
Tahap pertama peneliti melakukan perhitungan nilai entropy dan
information gain terhadap 40 sample, pada tahap selanjutnya peneliti
membagi data dari hasil yang diperoleh dari konsep algoritma C4.5 menjadi 2
bagian yaitu data testing dan data training. Berdasarkan analisa penggunaan
data minning dengan algoritma C4.5 dapat digunakan pada data set pelanggan
kedalam kegiatan manajemen strategi sehingga dapat menahan selama
mungkin pelanggannya dengan baik.
Selanjutnya, Penelitian yang dilakukan oleh David Hartanto dan Seng
Hansun [8] meneliti tentang Tingkat Kelulusan Mahasiswa yang akan di
prediksi menggunakan Algorita C4.5. Peneliti menggunakan 100 data yang
diperoleh dari department IT Universitas multimedia nusantara program studi
Teknik Informatika.
Dari hasil uji coba terhadap 100 data peneliti mendapatkan tingkat
akurasi dari hasil prediksi kelulusan terhadap data testing sebesar 87.5%.
Peneliti menyimpulkan bahwa IPS semester 6 merupakan attribute yang
paling berpengaruh dari keputusan yang ada. Berdasarkan penelitian ini
terbukti bahwa datamining dengan Algoritma C4.5 dapat di Implementasikan
untuk memprediksi tingkat kelulusan mahasiswa. Dan hasil prediksi
kelulusan dapat membantu bagian program studi untuk mengetahui status
kelulusan mahasiwa.
Penelitian keempat dilakukan oleh Anik Andriani [9] dari AMIK BSI
Jakarta meneliti tentang mahasiswa yang dinyatakan layak untuk melanjutkan
studi atau harus dinyatakan putus kuliah atau dropout (DO). Penelitian ini
menggunakan metode klasifikasi dengan menggunakan Algoritma C4.5
Dalam proses Klasifikasi peneliti menggunakan beberapa atribut data antara
lain nama, nim, jenis kelamin, Usia masuk, Asal daerah, Jurusan SLTA,
11

status orangtua, penghasilan Orangtua/wali, waktu kuliah, IPK Semester 1,


Kehadiran semester 1, Status Beasiswa, Biaya Studi, status Bekerja., peneliti
menguji data menggunakan confusion matrix dan kurva ROC
Hasil evaluasi dan validasi dengan confussion matrix menunjukkan
tingkat akurasi pada algoritma C4.5 sebesar 97,75%. Hasil dari penelitian ini
menunjukan nilai lebih dari 0,9 sehingga penelitian ini dapat dikategorika
sebagai excellent classification.
Penelitian yang dilakukan oleh Dyah Satiti, Sucipto dan Shyntia Atica
[10] tentang analisis preferensi konsumen waralaba makanan cepat saji
dengan menggunakan pendekatan data mining di restoran x Surabaya. Suatu
Restoran pastinya membutuhkan strategi pemasaran yang tepat dengan
mengetahui preferensi konsumen sebagai upaya mempertahankan posisi di
tengah persaingan restoran cepat saji. Maka Dyah satiti melakukan penelitian
ini yang bertujuan untuk mengetahui urutan atribut-atribut, preferensi
pelanggan berdasarkan segmen, dan segmen priorita restoran X di Surabaya.
Peneliti menggunakan pendekatan data mining menggunakan metode K-
means cluster analysis untuk memperoleh segmen konsumen berdasar
karakterpenilaian preferensi dan neural network backpropgataion untuk
membuat model pengenalan pola preferensi konsumen. Penelitian ini
menunjukkan Hasil lima atribut yang penting bagi konsumen yaitu :
a. lokasi yang strategis
b. suasana yang bersih dan rapi
c. adanya areal parker
d. suasanya nyaman
e. serta rasa makanan yang lezat
Begitu juga ada tiga segmen konsumen yaitu :
a. konsumen penyuka pelayanan yang ramah
b. konsumen yang kritis dan,
c. konsumen penyuka suasana yang bersih dan nyaman.
Segmen prioritas restoran X adalah segmen ketiga (konsumen penyuka
suasana yang bersih dan nyaman) dengan anggota terbanyak yakni 49,5%.
Selain itu, segmen kedua (konsumen yang kritis) perlu dipertimbangkan
12

melihat anggotanya sebesar 45,5%. Dibutuhkan perbaikan kualitas kondisi


restoran, menu makanan, pelayanan dan intensitas promosi untuk membidik
dua segmen ini.
Tabel 2.1 Tabel Penelitian Terkait
No Penulis Topik Metode Variabel Hasil
1 Ibnu Prediksi Algoritma Harga Dari hasil pengujian algortima C4.5
Fatchur Kepuasan C4.5 Fasilitas dalam memprediksi kepuasan
Rochman Pelanggan di Pelayanan pelanggan perum DAMRI atas 90
perum DAMRI sample data pelanggan yang diuji
dalam penelitian ini, menunjukan
bahwa algoritma C4.5 memiliki
tingkat akurasi yang cukup tinggi
yaitu sebesar 93%.
2 Teguh Analisa dan Algoritma Usia hasil klasifikasi menggunakan
Budi prediksi C4.5 Pelayanan algortima C4.5 menunjukan bahwa
Santoso Loyalitas Promosi diperoleh akurasi mencapai 97,5%
pelanggan data Harga yang menunjukan bahwa algoritma
seluler Citra C4.5 cocok digunakan untuk
Perusahaan mengukur tingkat loyalitas
Kepercayaan pelanggan data seluler.
3 David Implementasi Algoritma IPS1,IPS2 Dari hasil uji coba terhadap 100
Hartanto data mining C4.5 IPS3,IPS4 data peneliti mendapatkan tingkat
kamagi dan yang di IPS5,IPS6 akurasi dari hasil prediksi kelulusan
Seng implementasikan Jumlah SKS terhadap data testing sebesar
Hansun untuk Ketepatan 87.5%. Peneliti menyimpulkan
memprediksi Lulus bahwa IPS semester 6 merupakan
kelulusan attribute yang paling berpengaruh
mahasiswa dari keputusan yang ada.
4 Anik Penerapan Algoritma Waktu Kuliah Hasil evaluasi dan validasi dengan
Andriani metode C4.5 IPK Smt 1 confussion matrix menunjukkan
klasifikasi untuk Kehadiran Smt tingkat akurasi pada algoritma C4.5
mengklasifikasi 1 sebesar 97,75%. Hasil dari
13

mahasiswa Status Orang penelitian ini menunjukan nilai


dropout tua lebih dari 0,9 sehingga penelitian
Penghasilan ini dapat dikategorika sebagai
Orang tua excellent classification.
Beasiswa
5 Dyah Analisis K-Means Kondisi Terdapat 2 Segmen, Segmen
Satiti, preferensi Restoran prioritas restoran X adalah segmen
Sucipto, konsumen Menu ketiga (konsumen penyuka suasana
Shyntia waralaba makanan yang bersih dan nyaman) dengan
Atica Putri terhadap Jenis anggota terbanyak yakni 49,5%.
makanan cepat Pelayanan Selain itu, segmen kedua
saji Bentuk (konsumen yang kritis) perlu
Pemasaran dipertimbangkan melihat
anggotanya sebesar 45,5%.
Dibutuhkan perbaikan kualitas
kondisi restoran, menu makanan,
pelayanan dan intensitas promosi
untuk membidik dua segmen ini.

2.2. Literatur yang Mendukung Penelitian


2.2.1 Kualitas Jasa dan Pelayanan
Pelayanan merupakan salah satu unsur yang sangat penting dalam
menciptakan kepuasan konsumen. Agar harapan konsumen terpenuhi,
perusahaan harus memberikan pelayanan yang berkualitas. Kualitas dapat
diartikan sebagai pengukuran seberapa baik tingkat pelayanan yang diberikan
dan sesuai dengan harapan konsumen, jadi dengan kata lain memberikan
pelayanan berkualitas berarti menyesuaikan diri dengan harapan konsumen.
Ini merupakan salah satu faktor keberhasilan dalam persaingan yang makin
ketat. Pelayanan yang berkualitas adalah orientasi semua sumber daya
manusia dalam suatu perusahaan terhadap kepuasan pelanggan [11].
Definisi kualitas jasa ada beberapa macam antara lain:
14

Menurut Wirasasmita, Sitorus dan Manurung [11], definisi kualitas jasa


adalah:
“Suatu sifat atau ciri yang membedakan nilai dari suatu barang atau jasa
dengan nilai dari barang atau jasa yang lain yang sejenis”.
2.2.2 Kepuasan Konsumen
Kepuasan konsumen merupakan hal yang sangat penting dalam industri
jasa. Karena dalam industri jasa, pelayanan yang dapat memuaskan
konsumen akan memberikan imbalan yang menguntungkan, serta
meningkatkan daya saing perusahaan.
Kotler [12] mendefinisikan kepuasan pelanggan adalah:
“Satisfaction is a person’s feelings of pleasure or disappointment resulting
from comparing a product’s perceived performance (or outcome) in relation
to his or her expectations. “
Secara umum kepuasan konsumen dan ketidakpuasan konsumen merupakan
hasil dari perbedaan antara harapan dengan kinerja yang dirasakan oleh
konsumen, Atau dengan kata lain ada dua kemungkinan yang akan terjadi,
yaitu:
1. Kinerja yang dirasakan konsumen lebih besar dari yang diharapkan, artinya
konsumen merasa puas dengan kualitas pelayanan yang diberikan oleh
perusahaan
2. Kinerja yang dirasakan konsumen lebih kecil dari yang diharapkan, artinya
konsumen tidak puas dengan kualitas pelayanan yang diberikan
perusahaan.
2.2.3 Loyalitas Pelanggan
Loyalitas pelanggan secara umum dapat diartikan kesetiaan seseorang atas
suatu produk, baik barang maupun jasa tertentu. Istilah loyalitas pelanggan
menurut Swastha [21] sebetulnya berasal dari loyalitas merek yang
mencerminkan loyalitas pelanggan pada merek tertentu. Pelanggan yang setia
pada merek tertentu cenderung terikat pada merek tersebut dan akan membeli
produk yang sama lagi sekalipun tersedia banyak alternatif lainnya.
15

2.2.4 Variabel Kuisioner


1. Harga
Menurut Basu Swastha definisi dari harga adalah “sejumlah uang yang
dibutuhkan untuk mendapat sejumlah kombinasi dari barang beserta
pelayannya”[21].
2. Kualitas Pelayanan
Kualitas Pelayanan adalah seberapa jauh perbedaan antara kenyataan dan
harapan pelanggan atas layanan yang mereka terima. Terdapat lima
dimensi dalam kualitas pelayanan yaitu tangibles, reliability,
responsiveness, assurance,dan empathy yaitu:
a. Berwujud (tangible)
Yaitu kemampuan suatu perusahaan dalam menunjukkan eksistensinya
kepada pihak eksternal. Penampilan dan kemampuan sarana dan
prasarana fisik perusahaan yang dapat diandalkan keadaan lingkungan
sekitarnya merupakan bukti nyata dari layanan yang diberikan oleh para
pemberi jasa. Hal ini meliputi fasilitas fisik (contoh : gedung, gudang
dan lain-lain), perlengkapan dan peralatan yang digunakan (teknologi)
serta penampilan pegawainya.
b. Keandalan (reliability)
Yaitu kemampuan perusahaan untuk memberikan layanan sesuai
dengan dijanjikan secara akurat dan terpercaya. Kinerja harus sesuai
dengan harapan pelanggan yang berarti ketepatan waktu, layanan yang
sama untuk semua pelanggan tanpa kesalahan, sikap yang simpatik dan
dengan akurasi yang tinggi.
c. Ketanggapan (responsiveness)
Yaitu suatu kebijakan untuk membantu dan memberikan layanan yang
cepat (responsive) dan tepat kepada pelanggan dengan penyampaian
informasi yang jelas. Membiarkan konsumen menunggu, persepsi yang
negatif dalam kualitas layanan.
d. Jaminan dan kepastian (assurance)
Yaitu pengetahuan, kesopansantunan dan kemampuan para pegawai
perusahaan untuk menumbuhkan rasa percaya para pelanggan kepada
16

perusahaan. Hal ini meliputi beberapa komponen anatara lain


komunikasi (communication), kredibilitas (credibility), keamanan
(security), kompetensi (competence) dan sopan santun (courtesy).
e. Empati (empathy)
Yaitu memberikan perhatian yang tulus dan bersifat individual atau
pribadi yang diberikan kepada para pelanggan dengan berupaya
memahami keinginan konsumen. Dimana suatu perusahaan diharapkan
memilki pengertian dan pengetahuan tentang pelanggan, memahami
kebutuhan pelanggan secara spesifik, serta memiliki waktu
pengoperasian yang nyaman bagi pelanggan.
3. Fasilitas
Menurut Kotler [12], mendefinisikan fasilitas yaitu segala sesuatu yang
bersifat peralatan fisik dan disediakan oleh pihak penjual jasa untuk
mendukung kenyamanan konsumen.
4. Loyalitas Konsumen
a. Behaviour
Keinginan konsumen untuk menggunakan taksi KOSTI di masa yang
akan datang (Repurchase Behaviour)
Kecenderungan niat konsumen untuk selalu menggunakan taksi KOSTI
disaat ingin menggunakan jasa transportasi taksi (Repeat Purchase
Intensions)
b. Attitude
Niat konsumen untuk merekomendasikan taksi KOSTI kepada orang
lain (word of mouth)
Niat konsumen untuk mengatakan hal-hal positif tentang taksi KOSTI
kepada orang lain
Niat konsumen untuk mendorong orang lain agar menggunakan taksi
KOSTI
c. Cognitive
Kerelaan konsumen untuk tetap menggunakan taksi KOSTI walaupun
harga untuk menggunakan taksi KOSTI lebih mahal (Willingness to
pay more)
17

Komitmen dari konsumen bahwa harga bukanlah masalah yang penting,


dan akan tetap lebih memilih taksi KOSTI (Preference)
Kecenderungan niat konsumen untuk selalu menggunakan taksi KOSTI
dan tidak mau menggunakan taksi merk lain (choice reduction
behavior)
Kecenderungan untuk menempatkan taksi KOSTI sebagai pilihan
utama (first choice in mind)
2.2.5 Desain Kuesioner dan Skala Pengukuran

Untuk memperoleh data tentang variable perlu menggunakan


kuesioner. Kuesioner adalah alat ukur yang terdiri dari sejumlah pertanyaan
atau pernyataan tertulis yang harus dijawab atau diisi oleh responden
[19].Ada tiga macam format dasar yang digunakan dalam kuesioner yaitu :
1. Close Ended Questions
Format ini berisi pertanyaan yang memberikan pilihan respon di
dalam kuesioner.
2. Open Ended Questions
Format pertanyaan yang tidak memberikan pilihan respon kepada
responden. Responden diminta untuk mengisi pertanyaan dengan
kata-kata nya sendiri.
3. Scale Response Questions
Format ini menggunakan skala untuk mengukur respon konsumen
atas pelayanan yang diberikan.
Dalam penelitian pengukuran perilaku reponden yang sifatnya
subjektif tidak dapat diukur secara langsung karena menyangkut aspek
mental, untuk itu digunakan skala. Skala tersebut akan menunjukkan hasil
berupa angka yang diperoleh dari suatu proses pengukuran [20].
Ada 2 skala pengukuran yang dapat digunakan :
1. Skala Nominal
Skala yang paling sederhana dimana angka yang diberikan kepada suatu
kategori lainnya, hanya berupa kode atau label
Contoh : gender atau status
18

2. Skala Interval
Skala yang memiliki jarak yang tetap antar respon yang ditawarkan,
biasanya 1 unit skala [19].
2.2.6 Data Mining

Data mining [13] adalah proses yang menggunakan teknik statistik,


matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi
dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang
terkait dari berbagai database besar. Dalam data mining terdapat dua
pendekatan metode pelatihan, yaitu [14]:

a. Unsupervised learning, metode ini diterapkan tanpa adanya latihan


(training) dan tanpa ada guru (teacher). Guru di sini adalah label dari
data.
b. Supervised learning, yaitu metode belajar dengan adanya latihan dan
pelatih. Dalam pendekatan ini, untuk menemukan fungsi keputusan,
fungsi pemisah atau fungsi regresi, digunakan beberapa contoh data yang
mempunyai output atau label selama proses training.

Ada beberapa teknik yang dimiliki data mining berdasarkan tugas yang
bisa dilakukan, setiap teknik memiliki algoritma masing-masing. Teknik
dalam data mining terbagi menjadi enam kategori, yaitu [16] :
a. Deskripsi
Para peneliti biasanya mencoba menemukan cara untuk mendeskripsikan
pola dan trend yang tersembunyi dalam data.
b. Estimasi
Estimasi mirip dengan klasifikasi, kecuali variabel tujuan yang lebih
kearah numerik dari pada kategori.
c. Prediksi
Prediksi memiliki kemiripan dengan estimasi dan klasifikasi. Hanya saja,
prediksi hasilnya menunjukkan sesuatu yang belum terjadi (mungkin
terjadi dimasa depan).
19

d. Klasifikasi
Dalam klasifikasi variabel, tujuan bersifat kategorik. Misalnya, kita akan
mengklasifikasikan pendapatan dalam tiga kelas, yaitu pendapatan tinggi,
pendapatan sedang, dan pendapatan rendah.
e. Klastering
Clustering lebih ke arah pengelompokan record, pengamatan, atau
kasusdalam kelas yang memiliki kemiripan.
f. Asosiasi
Mengidentifikasi hubungan antara berbagai peristiwa yang terjadi pada
satu waktu.
2.2.6.1 Tahap-tahap Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat
langsung atau dengan perantaraan knowledge base [17].

Processing Data mining

Selection Transformation Evaluation

Data Warehouse Processed data Transformed Pattern Knowledge


data

Gambar 2.1 : Tahap – tahap data mining

Tahap-tahap data mining yaitu :

1. Pembersihan data (data cleaning)


Pembersihan data merupakan proses menghilangkan noise dan data
yang tidak konsisten atau data tidak relevan. Pada umumnya data yang
diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen,
memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang
tidak valid atau juga hanya sekedar salah ketik.Selain itu, ada juga atribut-
atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki.
Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data
20

juga akan mempengaruhi performasi dari teknik data mining karena data
yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data (data integration)


Integrasi data merupakan penggabungan data dari berbagai database
ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data
mining tidak hanya berasal dari satu database tetapi juga berasal dari
beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut
yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis
produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara
cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang
menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebgai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar
produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu
dilakukan transformasi dan pembersihan data karena seringkali data dari dua
database berbeda tidak sama cara penulisannya atau bahkan data yang ada di
satu database ternyata tidak ada di database lainnya.

3. Seleksi Data (Data Selection)


Data yang ada pada database sering kali tidak semuanya dipakai, oleh
karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari
database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan
orang membeli dalam kasus market basket analysis, tidak perlu mengambil
nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)


Beberapa teknik data mining membutuhkan format data yang khusus
sebelum bisa diaplikasikan. Data diubah atau digabung ke dalam format yang
sesuai untuk diproses dalam data mining. Beberapa metode data mining
membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai
contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya
bisa menerima input data kategorikal. Karenanya data berupa angka numerik
yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering
21

disebut transformasi data.Transformasi dan pemilihan data ini juga


menentukan kualitas dari hasil data mining nantinya karena ada beberapa
karakteristik dari teknik-teknik data mining tertentu yang tergantung pada
tahapan ini

5. Proses mining
Merupakan suatu proses utama saat metode diterapkan untuk
menemukan pengetahuan berharga dan tersembunyi dari data.

6. Evaluasi pola (pattern evaluation)


Untuk mengidentifikasi pola-pola menarik kedalam knowledge based
yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-
pola yang khas maupun model prediksi dievaluasi untuk menilai apakah
hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak
sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti
menjadikannya umpan balik untuk memperbaiki proses data mining,
mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini
sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

7. Presentasi pengetahuan (knowledge presentation)


Tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisis yang didapat.
Visualisasi dan penyajian pengetahuan mengenai metode yang digunakan
untuk memperoleh pengetahuan yang diperoleh pengguna.Ada kalanya hal ini
harus melibatkan orang-orang yang tidak memahami data mining. Karenanya
presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami
semua orang adalah satu tahapan yang diperlukan dalam proses data mining.
Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan
hasil data mining.

2.2.7 CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining)
merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa
pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data
mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.2
22

menjelaskan tentang siklus hidup pengembangan data mining yang telah


ditetapkan dalam CRISP-DM.

Business Data
Understanding Understanding

Data
Preparation

Deployment Evaluation Modeling

Gambar 2.2 : gambar siklus CRISP-DM

Berikut ini adalah enam tahap siklus hidup pengembangan data mining [16]:

1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut
pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam
pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan
rencana dan strategi untuk mencapai tujuan tersebut.

2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan
dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam
tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi
adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa
untuk informasi yang tersembunyi.

3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir
(data yang akan diproses pada tahap pemodelan/modeling) dari data mentah.
Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup
pemilihan tabel, record, dan atribut-atribut data, termasuk proses
23

pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam


tahap pemodelan (modeling).

4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai
teknik pemodelan dan beberapa parameternya akan disesuaikan untuk
mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda
yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain
ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada
tahap ini masih memungkinan kembali ke tahap sebelumnya.

5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki
kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan
dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum
digunakan dan menentukan apakah model dapat mencapat tujuan yang
ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini
adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan.
Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.

6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan
diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan
oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana
atau mengimplementasikan proses data mining yang berulang dalam
perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di
samping analis data, karena sangat penting bagi konsumen untuk memahami
tindakan apa yang harus dilakukan untuk menggunakan model yang telah
dibuat.

2.2.8 Klasifikasi
Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas
yang dapat dilakukan, yaitu : Deskripsi, Estimasi, Prediksi, Klasifikasi,
Pengklusteran, dan Asosiasi.
24

Klasifikasi merupakan bagian dari algoritma data mining, klasifikasi


ini adalah algoritma yang menggunakan data dengan target (class/label) yang
berupa nilai kategorikal/nominal. Menurut Gorunescu [15] proses klasifikasi
didasarkan pada empat komponen mendasar, yaitu:

1. Kelas (Class)
Variabel dependen dari model, merupakan variabel kategorikal yang
merepresentasikan “label” pada objek setelah klasifikasinya. Contoh kelas
semacam ini adalah: adanya kelas penyakit jantung, loyalitas pelanggan,
kelas bintang (galaksi), kelas gempa bumi (badai), dll.
2. Prediktor (Predictor)
Variabel independen dari model, direpresentasikan oleh karakteristik
(atribut) dari data yang akan diklasifikasikan dan berdasarkan klasifikasi yang
telah dibuat. Contoh prediktor tersebut adalah : merokok, konsumsi alkohol,
tekanan darah, frekuensi pembelian, status perkawinan, karakteristik (satelit)
gambar, catatan geologi yang spesifik, kecepatan dan arah angin, musim ,
lokasi terjadinya fenomena , dll.

3. Pelatihan dataset (Training dataset)


Kumpulan data yang berisi nilai-nilai dari kedua komponen
sebelumnya dan digunakan untuk melatih model dalam mengenali kelas yang
cocok/sesuai, berdasarkan prediktor yang tersedia. Contoh set tersebut
adalah: kelompok pasien yang diuji pada serangan jantung, kelompok
pelanggan supermarket (diselidiki oleh intern dengan jajak pendapat),
database yang berisi gambar untuk monitoring teleskopik dan pelacakan
objek astronomi, database badai, database penelitian gempa.

4. Dataset Pengujian (Testing Dataset)


Berisi data baru yang akan diklasifikasikan oleh (classifier) model
yang telah dibangun di atas sehingga akurasi klasifikasi (model performance)
dapat dievaluasi.
25

Berikut beberapa model (metode) klasifikasi yang paling popular [15] :

1. Decision/classification trees;
2. Bayesian classifiers/Naive Bayes classifiers;
3. Neural networks;
4. Statistical analysis;
5. Genetic algorithms;
6. Rough sets;
7. k-nearest neighbor classifier;
8. Rule-based methods;
9. Memory based reasoning;
10. Support vector machines.
2.2.9 Decision Tree Algoritma C4.5
Pohon keputusan adalah salah satu metode klasifikasi yang kuat dan
terkenal. Metode Decision Tree mengubah fakta besar menjadi pohon
keputusan yang mewakili aturan, sehingga aturan tersebut dapat dengan
mudah dipahami oleh manusia. Decision Tree juga berfungsi untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah
variabel input dan variabel tujuan [14].
Model pohon keputusan terdiri dari satu set keputusan untuk membagi
sejumlah populasi yang besar menjadi satu aturan yang kecil dengan
memperhatikan target berupa objek. Objek target biasanya diklasifikasikan
dan model pohon keputusan lebih fokus pada perhitungan probabilitas dari
setiap record data dari beberapa kategori atau untuk mengklasifikasikan tiap
record berdasarkan kelompok menjadi suatu kelas. Sebuah keputusan dapat
dibangun dengan menerapkan salah satu algoritma Decision tree untuk
memodelkan sekelompok data yang belum terklasifikasi. Konsep dari
Decision tree adalah mengubah data menjadi pohon keputusan dan aturan
keputusan.

DATA DECISION TREE RULE

Gambar 2.3 : Konsep Decision Tree


26

Dalam pohon keputusan sangat berhubungan dengan algoritma C4.5,


karena dasar algoritma C4.5 adalah pohon keputusan. Algoritma data mining
C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan
klasifikasi atau segmentasi atau pengelompokan yang bersifat prediktif.
Cabang-cabang pohon keputusan merupakan pertanyaan klasifikasi dan daun-
daunnya merupakan kelas-kelas atau segmen-segmennya.

Piagam
Penghargaan

Tidak Ada Ada

IPK Layak
Tinggi
Cukup Rendah
Layak
Tidak Layak
Penghasilan
Orang Tua

Tinggi Rendah

Layak
Tidak Layak

Gambar 2.4 : Contoh Pohon Keputusan


Algoritma C4.5 merupakan salah satu algoritma machine learning.
Dengan algoritma ini, mesin (komputer) akan diberikan sekelompok data
untuk dipelajari yang disebut learning dataset. Kemudian hasil dari
pembelajaran selanjutnya akan digunakan untuk mengolah data-data yang
baru yang disebut test dataset. Karena algoritma C4.5 digunakan untuk
melakukan klasifikasi, jadi hasil dari pengolahan test dataset berupa
pengelompokkan data ke dalam kelas-kelasnya Umumnya, langkah-langkah
algoritma C4.5 yang digunakan untuk membentuk pohon keputusan adalah
[17].
a. Pilih atribut sebagai root.
b. Buat cabang untuk setiap nilai.
27

c. Bagi tiap cabang kedalam kelas.


d. Ulangi proses untuk setiap cabang sampai semua kasus pada tiap
cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai root, didasarkan pada nilai gain tertinggi
dari atribut yang tersedia.Sementara itu, untuk mendapat nilai gain tertinggi
kita harus menghitung nilai entropy dari semua nilai didalam atribut.Entropy
berperan sebagai parameter untuk mengukur varian dari data sampel. Setelah
nilai entropy dalam data sampel diketahui, atribut yang paling berpengaruh
akan menjadi pengukur dalam pengklasifikasian data, ukuran ini disebut
sebagai Information gain.
Rumus menghitung entropy pada algoritma C4.5
k
Entropi (S) =   pi *log
i 1
2 pi

Keterangan :
 S adalah Himpunan (dataset) kasus
 k adalah banyaknya partisi S
 Pi adalah probabilitaas yang didapat dari Sum (Ya) atau Sum
(Tidak) dibagi total kasus

Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada


setiap atribut dan nilai-nilainya dan hitung entropinya. Langkah berikutnya
yaitu dengan menghitung Gain, rumus daripada Gain adalah sebagai berikut:
k

 | S | xEntropi(S )
| Si |
Gain (A) = Entropi (S) - i

i 1

2.2.10 Confusion Matrix


Confusion Matrix adalah tool yang digunakan untuk evaluasi model
klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix
dari prediksi yang akan dibandingkan dengan kelas yang asli dari inputan atau
dengan kata lain berisi informasi nilai actual dan prediksi pada klasifikasi
[17].
28

Tabel 2.2 : Confusion Matrix 2 kelas

Classification Predicted class

Class = Yes Class = No

Class=Yes a (true positive-TP) b (false negative-FN)

Class=No c (false positive-FP) d (true negative-TN)

vRumus untuk menghitung tingkat akurasi pada matriks adalah:

TP  TN ad
Akurasi =  x 100%
TP  FP  TN  FN a  b  c  d

2.3 Rapid Miner

Rapid Miner merupakan perangakat lunak yang bersifat terbuka (open


source). Rapid Miner adalah sebuah solusi untuk melakukan analisis terhadap
data mining, text mining dan analisis prediksi. Rapid Miner menggunakan
berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada
pengguna sehingga dapat membuat keputusan yang paling baik. Rapid Miner
memiliki kurang lebih 500 operator data mining, termasuk operator untuk
input, output, data preprocessing dan visualisasi. Rapid Miner merupakan
software yang berdiri sendiri untuk analisis data dan sebagai mesin data
mining yang dapat diintegrasikan pada produknya sendiri. Rapid Miner
ditulis dengan munggunakan bahasa java sehingga dapat bekerja di semua
sistem operasi.

Rapid Miner sebelumnya bernama YALE (Yet Another Learning


Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001
oleh RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial
Intelligence Unit dari University of Dortmund. Rapid Miner didistribusikan
di bawah lisensi AGPL (GNU Affero General Public License) versi 3.
Hingga saat ini telah ribuan aplikasi yang dikembangkan mengunakan Rapid
Miner di lebih dari 40 negara. Rapid Miner sebagai software open source
29

untuk data mining tidak perlu diragukan lagi karena software ini sudah
terkemuka di dunia. Rapid Miner menempati peringkat pertama sebagai
Software data mining pada polling oleh KDnuggets, sebuah portal data-
mining pada 2010-2011.

Rapid Miner menyediakan GUI (Graphic User Interface) untuk


merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML
(Extensible Markup Language) yang mendefenisikan proses analitis
keingginan pengguna untuk diterpkan ke data. File ini kemudian dibaca oleh
Rapid Miner untuk menjalankan analis secara otomatis.

Rapid Miner memiliki beberapa sifat sebagai berikut:


a. Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di
berbagai sistem operasi.
b. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
c. Representasi XML internal untuk memastikan format standar pertukaran
data.
d. Bahasa scripting memungkinkan untuk eksperimen skala besar dan
otomatisasi eksperimen.
e. Konsep multi-layer untuk menjamin tampilan data yang efisien dan
menjamin penanganan data.
f. Memiliki GUI, command line mode, dan Java API yang dapat dipanggil
dari program lain.
Beberapa Fitur dari Rapid Miner, antara lain:
a. Banyaknya algoritma data mining, seperti decision tree dan self-
organization map.
b. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram,
tree chart dan 3D Scatter plots.
c. Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis
teks.
d. Menyediakan prosedur data mining dan machine learning termasuk: ETL
(extraction, transformation, loading), data preprocessing, visualisasi,
modelling dan evaluasi
30

e. Proses data mining tersusun atas operator-operator yang nestable,


dideskripsikan dengan XML, dan dibuat dengan GUI
f. Mengintegrasikan proyek data mining Weka dan statistika R [14].
2.4 Java

Java adalah suatu teknologi di dunia software komputer, yang


merupakan suatu bahasa pemrograman sekaligus suatu platform. Sebagai
bahasa pemrograman, Java dikenal sebagai bahasa pemrograman tingkat
tinggi yang berorientasi objek. Sebagai bahasa pemrograman Java dirancang
agar dapat dijalankan di semua platform.
Java diciptakan oleh suatu tim yang dipimpin oleh Patrick Naughton
dan James Gosling dalam suatu proyek dari Sun Microsystem yang memiliki
kode Green dengan tujuan untuk menghasilkan bahasa komputer sederhana
yang dapat dijalankan di peralatan sederhana dengan tidak terikat pada
arsitektur tertentu.
Program yang ditulis menggunakan Java berjalan pada suatu Virtual
Machine dengan nama Java Runtime Environment (JRE).
Pada Java, terdapat lima fase pada pembuatan dan eksekusi program.
Fase pertama yaitu editing kode sumber (source code) Java menjadi file
*.java pada penyimpanan sekunder (HDD). Fase kedua yaitu kompilasi
source code *.java menjadi file dengan ekstensi *.class. Setelah terbentuk file
dengan ekstensi *.class, dilakukan class loading pada fase ketiga kedalam
memori primer (RAM) untuk dilakukan cek error sebelum dieksekusi.
Setelah file *.class diload pada RAM, dilakukan bytecode verification pada
fase empat. Setelah bytecode diverifikasi kemudian dieksekusi pada Java
Virtual Machine (JVM) agar dapat digunakan oleh user [14].
2.5 Netbeans Integrated Development Environment (IDE)

Netbeans adalah sebuah integrated development environment (IDE)


untuk pengembangan terutama dengan java, tetapi netbeans juga support
bahasa pemrograman lain seperti di php tertentu, C/C++, dan html 5.
Netbeans juga merupakan aplikasi platform framework untuk aplikasi
desktop Java dan lainnya [15]. Beberapa karakteristik dari Netbeans IDE :
31

a. User Interface Framework


b. Data Editor
c. Customization Display
d. Wizard Framework
e. Data Systems
f. Internationalization
g. Help System
Fitur yang ditawarkan oleh Netbeans dapat dikostumisasi oleh
pemrogram dengan mudah dan cepat dalam membangun software.

Gambar 2.5. Tampilan Awal Netbeans IDE


32

2.6 Kerangka Pemikiran


Penulis perlu membuat gambaran singkat sebagai alur penyusunan
laporan ini dengan kerangka pemikiran sebagai berikut:

Masalah Studi Pustaka

Bagaimana Akurasi dan penerapan algortima C4.5 Buku dan jurnal tentang data mining, Algoritma C4.5
pada kepuasan pelanggan taksi KOSTI Semarang. dan kepuasan pelanggan taksi.

Metode

Algoritma C4.5

Penerapan

Data kuisioner pelanggan taksi KOSTI

Pengembangan

Tools RapidMiner & Java

Pengujian

Cross Validation

Hasil
Akurasi dan Penerapan Algoritma
C4.5 terhadap kepuasan pelanggan
taksi KOSTI

Gambar 2.6: kerangka pemikiran


BAB III
METODOLOGI PENELITIAN

3.1 Instrumen Penelitian


Instrumen penelitian ini diperlukan agar penelitian dapat berjalan dengan
lancar dan baik. Instrumen tersebut terdiri dari perangkat keras dan perangkat
lunak.

3.1.1 Kebutuhan Perangkat Lunak

Perangkat lunak yang digunakan dalam penelitian ini antara lain :

1. Microsoft Windows 8 sebagai OS notebook.


2. Microsoft Excel 2013 sebagai media penulisan datashet.
3. RapidMiner, framework yang akan digunakan untuk melihat hasil
akurasi dari algoritma yang digunakan terhadap datashet yang
sedang diteliti.
4. NetBeans IDE 7.4, digunakan untuk membuat program dengan rule
yang di dapat dari pengolahan data.

3.1.2 Kebutuhan Perangkat Keras (Hardware)


Selain kebutuhan perangkat lunak, juga dibutuhkan perangkat keras
yang digunakan dalam penelitian ini, Notebook dengan spesifikasi :

- Prosesor intel(R) Celeron(R) 1.10 GHz

- 64-bit Operating System

- RAM 4GB

- 150GB HDD

33
34

3.1.3 Desain Kuesioner dan Skala Pengukuran

Untuk memperoleh data tentang variable dalam penelitian ini digunakan


instrumen penelitian berupa kuesioner. Kuesioner adalah alat ukur yang
terdiri dari sejumlah pertanyaan atau pernyataan tertulis yang harus
dijawab atau diisi oleh responden, Kuesioner pada penelitian ini di
ambil dari penelitian yang dilakukan oleh Deddy Setyawan Wicaksono
[1] yang berjudul “analisis kepuasan pengguna jasa transportasi taksi
untuk meningkatkan loyalitas [ studi pada pt. blue bird pusaka di
semarang]” Variable Kuisioner terdiri dari :
1. Harga
Bagaimanakah Harga atau tarif yang diberikan Taksi KOSTI kepada
Pelanggan.
2. Fasilitas
Apakah Fasilitas yang diberikan sudah sesuai dengan apa yang
diharapkan oleh pelanggan taksi KOSTI.
3. Pelayanan
Apakah Pelayanan yag diberikan oleh perusahaan taksi KOSTI/
sopir Taksi Kosti sudah sesuai dengan harapan pelanggan taksi
KOSTI.
4. Loyalitas
Seberapa Loyalkah pelanggan taksi KOSTI terhadap taksi KOSTI.
Dalam penelitian pengukuran perilaku reponden yang sifatnya subjektif
tidak dapat diukur secara langsung karena menyangkut aspek mental,
untuk itu digunakan skala. Skala tersebut akan menunjukkan hasil
berupa angka yang diperoleh dari suatu proses pengukuran [20].
Ada 2 skala pengukuran yang dapat digunakan :
1. Skala Nominal
Skala yang paling sederhana dimana angka yang diberikan kepada suatu
kategori lainnya, hanya berupa kode atau label
Contoh : gender atau status
35

2. Skala Interval
Skala yang memiliki jarak yang tetap antar respon yang ditawarkan,
biasanya 1 unit skala [19].
Untuk menilai jawaban dari setiap pertanyaan dari kuesioner, dilakukan
dengan menggunakan metode Skala Likert. Metode ini mengukur setiap
penilaian responden melalui pemberian bobot pada setiap jawaban
pertanyaan sebagai berikut :
1. Sangat Tidak Setuju Bobot 1
2. Tidak Setuju Bobot 2
3. Netral Bobot 3
4. Setuju Bobot 4
5. Sangat Setuju Bobot 5

3.2 Objek Penelitian


Dalam penelitian tugas akhir ini, dilakukan dengan mengambil objek
penelitian 200 data kuisioner kepuasan pelanggan pada taksi KOSTI
Semarang yang dilakukan pada bulan Oktober - November 2015.

3.3 Metode Pengumpulan Data


Penelitian ini dilakukan pada bulan Oktober sampai dengan bulan
November 2015. KOSTI Semarang dipilih sebagai objek penelitian, karena
perusahaan taksi KOSTI hanya ada di Kota Semarang, dan sudah 17 tahun
perusahaan KOSTI berdiri dan bertahan di tengah banyaknya perusahaan
taksi yang beridiri di Kota Semarang. Dan hal ini menyebabkan peneliti ingin
mengetahui tingkat kepuasan pelanggan taksi KOSTI. Adapun metode yang
digunakan dalam pengumpulan data kepuasan pelanggan KOSTI Semarang
adalah metode kuisioner.
Melalui metode ini diharapkan peneliti dapat memperoleh data-data yang
akurat, relevan dan terpercaya. Kuisioner merupakan suatu teknik
pengumpulan data dengan cara memberikan seperangkat pertanyaan-
pertanyaan tertulis kepada responden untuk dijawabnya [18]. Pada penelitian
ini peneliti membagikan sebanyak 200 kuisioner yang dibagikan kepada
36

responden yaitu pelanggan KOSTI Semarang. Kuisioner ini dibagikan


menjadi 2 kelompok, Untuk kelompok pertama kuisioner dibagikan melalui
bantuan sopir taksi KOSTI Semarang yang dibagikan langsung kepada
penumpang taksi KOSTI, kelompok dua kuisioner dibagikan oleh peneliti
kepada pelanggan - pelanggan yang sudah pernah naik taksi KOSTI
Semarang. Kuisioner terdiri dari 19 Pertanyaan dan 4 Kategori dan jawaban –
jawabn yang sudah disediakan oleh peneliti untuk di pilih oleh responden.
Untuk Atribut kuisioner terdiri dari tarif pada argo taksi KOSTI, fasilitas
yang di berikan di dalam taksi kepada pelanggan, Pelayanan dari Sopir taksi
KOSTI dalam mengantar / menjawab pertanyaan pelanggan, Loyalitas dari
pelanggan terhadap taksi KOSTI, dan hasil Puas tidak puasnya pelanggan
terhadap jasa transportasi taksi KOSTI.

3.4 Teknik Analisis Data


Data yang digunakan dalam penelitian ini adalah data berdasarkan pada
survey yang dilakukan dilapangan dengan membuat kuisioner yang diberikan
melalui sopir taksi kepada pelanggan taksi KOSTI Semarang. Metode yang
digunakan untuk penelitian ini yaitu dengan menggunakan metode Algoritma
C4.5. Prosedur perhitungan penentuan kepuasan pelanggan taksi KOSTI
sebagai berikut :
37

Mulai
Pengumpulan Data

Pengumpulan Data
Kuisioner pelanggan Pembagian Kuisioner
taksi KOSTI Semarang terhadap Pelanggan
KOSTI Semarang

Praproses

Data Selection Cleaning


(Missing Value)

Menghitung data dengan rumus pohon keputusan yang ada


pada Algoritma C4.5

Hasil dari perhitungan tersebut digunakan sebagai acuan untuk


dimasukan pada perhitungan dengan menggunakan aplikasi
RapidMiner

Pengujian dilakukan tigakali agar Hasil lebih akurat dengan


menggunakan perbandinan yang berbeda dengan tiap tingkat
pengujiannya.

Hasil Keputusan kepuasan pelanggan pada


Taksi KOSTI Semarang

Validasi dan Evaluasi tingkat akurasi


menggunakan confusion matrix

Selesai
Implementasi Rule pada Netbeans

Gambar 3.1 Prosedur Penelitian


38

Penjelasan
Penjelasan dari prosedur penelitian kepuasan pelanggan :

1. Penulis membuat kuisioner dengan jumlah yang telah di tentukan, yaitu


sebanyak 200 kuisioner dan selanjutnya kuisioner tersebut akan digunakan
sebagai bahan atau data awal untuk menentukan jumlah puas dan tidak
puas pada prosentasi kepuasan pelanggan taksi KOSTI Semarang.

2. Menghitung secara manual hasil dari kuisioner yang telah dibagikan di


lapangan untuk menentukan jumlah puas dan tidak puas pada pelanggan
taksi KOSTI Semarang.

3. Data Selection, memilih himpunan data yang akan digunakan pada


penelitian ini yaitu data kuisioner pelanggan taksi KOSTI.

4. Cleaning, yaitu membersihkan data kuisioner pelanggan taksi KOSTI


degan menghapus data yang tidak digunakan atau yang tidak memiliki
nilai attribute lengkap (missing value).

5. Hasil Jumlah dari perhitungan manual untuk puas dan tidak puas pada
kuisioner tersebut dimasukan kedalam rumus algoritma C4.5

6. Hasil dari perhitungan menggunakan algoritma C4.5

7. Penulis menyiapkan Rapidminer yang di gunakan untuk menghitung data


kuisioner menggunakan Algoritma C4.5.

8. Untuk mengetahui keakuratan dari hasil perhitungan menggnakan


RapidMiner. Pengujian dilakukan sebanyak tiga kali dengan tingkat acuan
pengujian yang berbeda.

9. Didapatkan Hasil dari penelitian ini bahwa dapat diketahui sejauh mana
kepuasan pelanggan pada taksi KOSTI Semarang.

10. Validasi dan Evaluasi


Dalam tahapan ini akan dilakukan validasi serta pengukuran keakuratan
hasil yang dicapai oleh model menggunakan beberapa teknik yang
39

terdapat dalam framework RapidMiner yaitu Confusion Matrix untuk


pengukuran tingkat akurasi model, dan split validation untuk validasi.
11. Implementasi
Pembuatan program dengan mengimplementasikan rule yang telah
didapat dari pengolahan data RapidMiner dengan menggunakan tools
Netbeans
BAB IV
ANALISIS HASIL DAN PEMBAHASAN

4.1 Pengolahan Data


Data yang digunakan dalam penelitian ini adalah sumber data kuisioner.
Data diperoleh dari pembagian kuisioner sebanyak 200 kuisioner. Data yang
dikumpulkan yaitu data kuisioner yang dibagikan kepada pelanggan setia taksi
KOSTI di kota Semarang pada bulan Oktober – November 2015 dengan
attribute nama, jenis kelamin, umur, harga, fasilitas, pelayanan, loyalitas,
kepuasan. Contoh dari kuisioner tersebut seperti gambar yang terlihat di bawah
ini:

Gambar 4.1 Kuisioner Bagian 1

40
41

Gambar 4.2 Kuisioner Bagian 2

Dari Pembagian 200 data kuisioner kepada pelanggan taksi KOSTI di


peroleh 135 kuisioner yang menyatakan PUAS dan 65 Kuisioner yang
menyatakan TIDAK PUAS.
42

Adapun keterangan dari Kuisioner diatas yang di jelaskan pada tabel di


bawah ini :
Tabel 4.1 Keterangan Data Kuisioner
Nama Atribut yang difungsikan sebagai ID
Jenis Kelamin Atribut ini menginformasikan jenis kelamin pelanggan taksi
Umur Atribut ini menginformasikan umur pelanggan taksi
Harga Atribut ini menginformasikan jawaban pelanggan tentang
pertanyaan dalam kategori harga
Fasilitas Atribut ini menginformasikan jawaban pelanggan tentang
pertanyaan dalam kategori fasilitas
Pelayanan Atribut ini menginformasikan jawaban pelanggan tentang
pertanyaan dalam kategori pelayanan
Loyalitas Atribut ini menginformasikan jawaban pelanggan tentang
pertanyaan dalam kategori loyalitas
Kepuasan Atribut ini menginformasikan keterangan Pelanggan puas
atau tidak puas

Selanjutnya adalah pemilihan atribut data yang digunakan.

Tabel 4.2 Pemilihan Atribut


Atribut Detail penggunaan
Nama √ ID
Jenis Kelamin X No
Umur X No
Harga √ Variabel Bebas
Fasilitas √ Variabel Bebas
Pelayanan √ Variabel Bebas
Loyalitas √ Variabel Bebas
Kepuasan √ Label Target

Setelah data kuesioner terkumpul, lalu data tersebut di olah dalam


Microsoft Office Excel seperti yang terlihat pada tabel dibawah ini :
43

Tabel 4.3 Data Awal Sebelum Pemilihan Atribut


44

Setelah data sudah diolah menggunakan Microsoft Office Excel, maka


dilakukan lagi pengolahan data kuesioner tersebut dengan cara mengambil data
rata-rata x1 (Harga), rata-rata x2 (Fasilitas), rata-rata x3 (Pelayanan), rata-rata x4
(Loyalitas) dan Y (Hasil) dan dilakukan pemilihan atribut pada proses
pengolahan data maka hasil tabel seperti tabel 4.4 dibawah ini :
Tabel 4.4 Data Setelah Pemilihan Atribut

4.2 Proses Data Mining


Pada tahap selanjutnya data akan di proses menggunakan bantuan Tools
Rapid Miner dan untuk pengujianya menggunakan cross validation yang ada di
dalam Rapid Miner, maka data akan dilihat nilai akurasi, pohon keputusan, dan
rulenya. Berikut adalah Tabel 4.5 Data yang akan di import ke dalam Rapid
Miner:
45

Tabel 4.5 Data yang akan di import ke dalam Rapid Miner


Nama Harga Fasilitas Pelayanan Loyalitas Hasil
Polynomial Numeric numeric Numeric numeric Binomial
Id Attribute attribute Attributr attribute Label
Rosid 4 4 3 3 PUAS
Pandi 5 5 3.400 3.200 PUAS
Yuli 4 3.800 2.600 3 PUAS
Risa 2 3.800 1.900 2.400 TIDAK PUAS
.... .... .... .... .... ....
Alim 2 5 2.100 2.200 TIDAK PUAS
Suci 5 5 4.400 3.600 PUAS
Keterangan : : Nama Variabel
: Jenis atau Tipe data
: attribute / label
Dan selanjutnya adalah proses pengolahan data menggunakan algoritma
C4.5 untuk melihat pohon keputusan dan rule.

POHON
KEPUTUSAN

ALGORITMA
DATA
C4.5

RULE
Gambar 4.3 Alur Pengolahan Data
46

Berikut adalah gambar 4.4 proses pengolahan data menggunakan algoritma


C4.5 untuk mendapatkan pohon keputusan dan rule pada rapidMiner.

Gambar 4.4 Proses pengolahan data pada RapidMiner


47

Setelah dilakukan perhitungan metode algoritma C4.5 pada Rapid Miner,


maka terbentuk pohon keputusan seperti gambar 4.5 :

Gambar 4.5 Pohon Keputusan Hasil Pegolahan dengan Rapid Miner


48

Pohon Keputusan diatas menghasilkan rule yang akan diimplementasikan


pada program. Rule yang dihasilkan sebagai berikut :
Rules untuk Hasil = PUAS
1. IF nilai Loyalitas>2.700 and nilai Fasilitas>2.900 THEN hasil = PUAS
2. IF nilai Loyalitas>2.700 and nilai Fasilitas<=2.900 and nilai
Loyalitas>3.100 THEN Hasil = PUAS
3. IF nilai Loyalitas>2.700 and nilai Fasilitas<=2.900 and nilai Loyalitas
<=3.100 and nilai Pelayanan<=2.750 THEN Hasil = PUAS
4. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and fasilitas>4.400 THEN Hasil = PUAS
5. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and Fasilitas<=4.400 and nilai Fasilitas >3.650 and nilai
Fasilitas<=4.150 and nilai Loyalitas >2.500 THEN Hasil = PUAS
6. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and Fasilitas<=4.400 and nilai Fasilitas <=3.650 and nilai
Loyalitas >2.500 THEN Hasil = PUAS
Rules untuk Hasil = TIDAK PUAS
1. IF nilai Loyalitas>2.700 and nilai Fasilitas<=2.900 and nilai Loyalitas
<=3.100 and nilai Pelayanan >2.75 THEN Hasil =TIDAK PUAS
2. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and Fasilitas<=4.400 and nilai Fasilitas >3.650 and nilai
Fasilitas>4.150 THEN Hasil = TIDAK PUAS
3. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and Fasilitas<=4.400 and nilai Fasilitas >3.650 and nilai
Fasilitas<=4.150 and Loyalitas <=2.500 THEN Hasil = TIDAK PUAS
4. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
>3.400 and Fasilitas<=4.400 and nilai Fasilitas <=3.650 and nilai
Loyalitas <=2.500 THEN Hasil = TIDAK PUAS
5. IF nilai Loyalitas<=2.700 and nilai Harga>2.500 and nilai Fasilitas
<=3.400 THEN Hasil = TIDAK PUAS
6. IF nilai Loyalitas<=2.700 and nilai Harga<=2.500 THEN Hasil =
TIDAK PUAS
49

Rule diatas yang nantinya akan digunakan pada implementasi program.


Terdapat Leaf Node sejumlah 12, dengan pembagian ke kiri sejumlah 4 Leaf
Node dan ke kanan sejumlah 8 Leaf Node.
Dari hasil pohon keputusan dan rule diatas terdapat beberapa data yang
mengalami kesalahan atau error dalam proses klasifikasi, sebagai berikut :
Tabel 4.6 Data error
No. Data Harga Fasilitas Pelayanan Loyalitas Hasil Prediksi
75 2 3.8 3.8 3.4 TIDAK PUAS PUAS
80 3 3.8 2.8 2.6 TIDAK PUAS PUAS
83 2 3.5 2.8 2.8 TIDAK PUAS PUAS
98 2 2.8 2.3 2.8 TIDAK PUAS PUAS
101 4 4 3 3.2 TIDAK PUAS PUAS
122 4 2.8 2 2.6 PUAS TIDAK PUAS
125 4 3.5 3.1 3 TIDAK PUAS PUAS
126 4 4.3 3.6 4 TIDAK PUAS PUAS
128 4 4.3 4.1 4 TIDAK PUAS PUAS
133 2 3.8 3.3 3.2 TIDAK PUAS PUAS
170 4 3.5 3.4 2.4 PUAS TIDAK PUAS

4.3 Pengujian Rules Terhadap Data Kepuasan Pelanggan Taksi KOSTI dengan
Variabel Data Kuisioner
Pengujian ini dilakukan untuk mengetahui kinerja dari metode algoritma
C4.5 dalam melakukan klasifikasi terhadap kelas yang telah ditentukan dalam uji
coba ini. Pengujian ini dilakukan sebanyak 3 kali dengan K-Fold Validation yang
berbeda pada operator cross validation. K-Fold Validation berfungsi untuk
membagi jumlah data training dan data testing pada data yang di uji. Pengujian
tediri dari :
1. K-Fold Validation 10
2. K-Fold Validation 5
3. K-Fold Validation 3
50

Algoritma C4.5 melakukan training terhadap data – data yang telah dibagi
oleh cross validation menjadi dua kotak yaitu training dan testing. Training
terdiri dari decision tree, sedangkan testing terdiri dari apply model dan
performance.
Berikut dijelaskan mengenai parameter dan operator yang digunakan pada
model algoritma C4.5 sebagai berikut :
1. Retreiving Data adalah operator yang digunakan untuk mengimport
dataset yang akan digunakan, pada penelitian ini data diimport dari file
excel.
2. Validation operator yang digunakan dalam penelitian ini adalah split
validation, validation ini hanya membagi total dari keseluruhan dataset
menjadi data training dan data testing.
3. Decision tree adalah metode klasifikasi yang digunakan dalam
penelitian ini.
4. Apply model adalah operator yang digunakan dalam penelitian ini yaitu
algoritma C4.5.
5. Performance adalah operator yang digunakan untuk mengukur performa
akurasi dari model.
4.3.1 Pengujian 1
Pengujian ini dilakukan dengan membagi sebanyak 10 bagian pada 200
data kuisioner yang akan di uji. 10 bagian tersebut terdiri dari 9 bagian data
training dan 1 bagian data testing. Dan dalam pengujian ini akan menghasilkan
nilai akurasi, precision, recall dan AUC(Area Under Curve).

Berikut adalah gambar 4.6 pengujian algoritma C4.5 pada Rapid Miner,
51

digunakan cross validation untuk pengujian model dengan number of validation


10.
Gambar 4.6 Pengujian model K-Fold Validation 10
Pada gambar 4.6 dataset kepuasan pelanggan taksi KOSTI dihubungkan
dengan operator cross validation yang didalamnya terdapat proses seperti
gambar 4.7 dibawah ini.

Gambar 4.7 Pengujian model K-Fold Validation 10


Algoritma C4.5 melakukan training terhadap data – data yang telah dibagi
oleh cross validation menjadi dua kotak yaitu training dan testing. Training
terdiri dari decision tree, sedangkan testing terdiri dari apply model dan
performance.
Hasil akurasi confusion matrix pada pengujian 1 sebagai berikut :
Tabel 4.7 Confusion Matrix Pengujian 1

Actual
Puas Tidak Puas
Pred. Puas 124 16
Pred. Tidak Puas 11 49

Jumlah true positive (tp) sebanyak 124 record, false positive (fp) sebanyak
11 record, jumlah true negative (tn) sebanyak 49 record dan jumlah false
negative (fn) sebanyak 16 record.
52

Akurasi yang dihasilkan dari pengujian 1 pada Rapid Miner sebesar 86,50%.
Berikut adalah perhitungan akurasi :
tp  tn
Akurasi = x100%
tp  tn  fp  fn
124  49
= x100%
124  49  11  16
= (173 / 200) x 100%
= 0,865 x 100%
= 86,50%
Nilai precision dihitung dengan cara membagi jumlah data benar yang
bernilai positif (True Positive) dibagi dengan jumlah data benar yang bernilai
positif (True Positive) dan data salah yang bernilai negatif (False Negative)
TP
Precision = x100%
TP  FN
124
= x100%
124  16
124
= x100%
140
= 88,57%
Nilai recall dihitung dengan cara membagi jumlah data benar yang bernilai
positif (True Positive) dibagi dengan jumlah data benar yang bernilai positif
(True Positive) dan data salah yang bernilai positif (False Positive)
TP
Recall = x100%
TP  FP
124
= x100%
124  11
124
= x100%
135
= 91,85%
53

Hasil AUC (Area Under Curve) pada Pengujian 1 sebagai berikut

Gambar 4.8 AUC (Area Under Curve) Pengujian 1


Hasil AUC adalah 0,843 yang berarti pengujian 1 termasuk good classification
Tabel 4.8 Evaluasi dan Validasi 1
K-Fold Validasi Akurasi Precision Recall AUC
10 86,50% 88,57% 91,85% 0.843

4.3.2 Pengujian 2
Pengujian ini dilakukan dengan membagi sebanyak 5 bagian pada 200 data
kuisioner yang akan di uji. 5 bagian tersebut terdiri dari 4 bagian data training
dan 1 bagian data testing. Dan dalam pengujian ini akan menghasilkan nilai
akurasi, precision, recall dan AUC(Area Under Curve).
54

Berikut adalah gambar 4.9 pengujian algoritma C4.5 pada Rapid Miner,
digunakan cross validation untuk pengujian model dengan number of validation
5.

Gambar 4.9 Pengujian model K-Fold Validation 5


Pada gambar 4.9 dataset kepuasan pelanggan taksi KOSTI dihubungkan
dengan operator cross validation yang didalamnya terdapat proses seperti
gambar 4.10 dibawah ini.

Gambar 4.10 Pengujian model K-Fold Validation 5


Algoritma C4.5 melakukan training terhadap data – data yang telah dibagi
oleh cross validation menjadi dua kotak yaitu training dan testing. Training
terdiri dari decision tree, sedangkan testing terdiri dari apply model dan
performance.
Hasil akurasi confusion matrix pada pengujian 2 sebagai berikut :
55

Tabel 4.9 confusion matrix Pengujian 2

Actual
Puas Tidak Puas
Pred. Puas 125 15
Pred. Tidak Puas 10 50

Jumlah true positive (tp) sebanyak 125 record, false positive (fp) sebanyak
10 record, jumlah true negative (tn) sebanyak 50 record dan jumlah false
negative (fn) sebanyak 15 record.
Akurasi yang dihasilkan dari pengujian 2 pada Rapid Miner sebesar 87,50%.
Berikut adalah perhitungan akurasi :
tp  tn
Akurasi = x100%
tp  tn  fp  fn
125  50
= x100%
125  50  10  15
= (175 / 200) x 100%
= 0,875 x 100%
= 87,50%
Nilai precision dihitung dengan cara membagi jumlah data benar yang
bernilai positif (True Positive) dibagi dengan jumlah data benar yang bernilai
positif (True Positive) dan data salah yang bernilai negatif (False Negative)
TP
Precision = x100%
TP  FN
125
= x100%
125  15
125
= x100%
140
= 89,29%
Nilai recall dihitung dengan cara membagi jumlah data benar yang bernilai
positif (True Positive) dibagi dengan jumlah data benar yang bernilai positif
(True Positive) dan data salah yang bernilai positif (False Positive)
56

TP
Recall = x100%
TP  FP
125
= x100%
125  10
125
= x100%
135
= 92,59%
Hasil AUC (Area Under Curve) pada Pengujian 2 sebagai berikut

Gambar 4.11 Kurva AUC (Area Under Curve) Pengujian 2


Hasil AUC adalah 0,774 yang berarti pengujian 2 termasuk fair classification
Tabel 4.10 Evaluasi dan Validasi 2
K-Fold Validasi Akurasi Precision Recall AUC
5 87,50% 89,29% 92,59% 0.774

4.3.3 Pengujian 3
Pengujian ini dilakukan dengan membagi sebanyak 3 bagian pada 200 data
kuisioner yang akan di uji. 3 bagian tersebut terdiri dari 2 bagian data training
dan 1 bagian data testing. Dan dalam pengujian ini akan menghasilkan nilai
akurasi, precision, recall dan AUC(Area Under Curve).
57

Berikut adalah gambar 4.12 pengujian algoritma C4.5 pada Rapid Miner,
digunakan cross validation untuk pengujian model dengan number of validation
3.

Gambar 4.12 Pengujian model K-Fold Validation 3


Pada gambar 4.12 dataset kepuasan pelanggan taksi KOSTI dihubungkan
dengan operator cross validation yang didalamnya terdapat proses seperti
gambar 4.13 dibawah ini.

Gambar 4.13 Pengujian model K-Fold Validation 3


Algoritma C4.5 melakukan training terhadap data – data yang telah dibagi
oleh cross validation menjadi dua kotak yaitu training dan testing. Training
terdiri dari decision tree, sedangkan testing terdiri dari apply model dan
performance.
Hasil akurasi confusion matrix pada pengujian 3 sebagai berikut :
58

Table 4.11 Hasil Akurasi Pengujian 3

Actual
Puas Tidak Puas
Pred. Puas 128 17
Pred. Tidak Puas 7 48

Jumlah true positive (tp) sebanyak 128 record, false positive (fp) sebanyak
7 record, jumlah true negative (tn) sebanyak 48 record dan jumlah false negative
(fn) sebanyak 17 record.
Akurasi yang dihasilkan dari pengujian 3 pada Rapid Miner sebesar 88,00%.
Berikut adalah perhitungan akurasi :
tp  tn
Akurasi = x100%
tp  tn  fp  fn
128  48
= x100%
125  50  7  17
= (176 / 200) x 100%
= 0,88 x 100%
= 88,00%
Nilai precision dihitung dengan cara membagi jumlah data benar yang
bernilai positif (True Positive) dibagi dengan jumlah data benar yang bernilai
positif (True Positive) dan data salah yang bernilai negatif (False Negative)
TP
Precision = x100%
TP  FN
128
= x100%
128  17
128
= x100%
145
= 88,28%
Nilai recall dihitung dengan cara membagi jumlah data benar yang bernilai
positif (True Positive) dibagi dengan jumlah data benar yang bernilai positif
(True Positive) dan data salah yang bernilai positif (False Positive)
59

TP
Recall = x100%
TP  FP
128
= x100%
128  7
128
= x100%
135
= 94,81%
Hasil AUC (Area Under Curve) pada Pengujian 3 sebagai berikut

Gambar 4.14 AUC (Area Under Curve) Pengujian 3


Hasil AUC adalah 0,866 yang berarti pengujian 3 termasuk good classification
Tabel 4.12 Evaluasi dan Validasi 3
K-Fold Validasi Akurasi Precision Recall AUC
3 88,01% 88,28% 94,81% 0,866
60

4.4 Analisa Hasil Pengujian


Pengujian 1, 2, dan 3 menghasikan akurasi, precision, recall, dan AUC
(Area Under Curve) sebagai berikut :
Tabel 4.13 Hasil Pengujian 1, 2, dan 3
K-Fold Validasi Akurasi Precision Recall AUC
3 88,01% 88,28% 94,81% 0,866
5 87,50% 89,29% 92,59% 0.774
10 86,50% 88,57% 91,85% 0.843

Berdasarkan table yang telah dijelaskan di atas, maka dapat diketahui bahwa
pada K-Fold Validasi 10 memiliki nilai akurasi 86,50%, Precision 88,28%, dan
recall 94,81%. sedangkan K-Fold Validasi 5 memiliki nilai akurasi 87,50%,
Precision 89,29%, dan recall 92,59%. Dan untuk K-Fold Validasi 3 memiliki
nilai akurasi tertinggi yaitu 88,00%, Precision 88,28%, dan recall 94,81%. Maka
semakin kecil nilai K-Fold Validation semakin tinggi nilai akurasi yang di dapat.

4.5 Implementasi
Berdasarkan proses pengolahan data menggunakan Algoritma C4.5 yang
telah menghasilkan pohon keputusan dan rule yang telah terbentuk, selanjutnya
akan diimplementasikan rule tersebut untuk membuat program prediksi data
kuisioner menggunakan tools NetBeans. Adapun design tampilan program dan
codingnya berada di lampiran.
BAB V

KESIMPULAN DAN SARAN


5.1 Kesimpulan
Dari hasil penelitian yang telah dilakukan oleh peneliti, maka dapat
disimpulkan bahwa kepuasan pelanggan taksi KOSTI dapat diprediksi dan
dievaluasi dengan memanfaatkan teknik data mining menggunakan algoritma
decision tree C4.5 untuk memprediksi (menentukan kelas) dari kepuasan
pelanggan dengan data training yang telah diperoleh.

Dari 3 kali percobaan dan pengujian prediksi kepuasan pelanggan taksi


KOSTI dengan rapidMiner menggunakan metode decision tree C4.5, diperoleh
akurasi sebesar 88,01% dengan kriteria akurasi Good classification
menggunakan confusion matrix.

5.2 Saran
Untuk meningkatkan kinerja dan menyempurnakan penelitian yang telah
dibuat, peneliti memberikan saran sebagai berikut :

1. Penelitian ini dapat dikembangkan dengan menggabungkan atau


membandingkan dengan algortima klasifikasi lain untuk mendapatkan
hasil prediksi yang lebih baik.
2. Sebaiknya jumlah data kuisioner ditambah, sehingga dapat diperoleh
hasil akurasi fungsi algoritma yang lebih baik.
3. Penyempurnaan aplikasi java agar lebih baik dan dapat digunakan oleh
pihak yang membutuhkan.

61
DAFTAR PUSTAKA

[1] Deddy Setyawan, “Analisis Kepuasan Pengguna Jasa Transportasi Taksi Untuk
Meningkatkan Loyalitas,” Universitas Diponegoro, 2010.

[2] Syukria Darman, “ Pengaruh Kualitas Pelayanan Jasa Transportasi Taksi


Terhadap Loyalitas Konsumen Pada PT Putra Transpor Nusantara Bandung,”
Bandung, Universitas Widyatama, 2012.

[3] Resty Mardiana, “Faktor – Faktor Yang Memperngaruhi Kepuasan Pengguna


Jasa Taksi Blue Bird,” Jakarta, Universitas Gunadarma, 2010.

[4] Administrator, “SHU Kosti Semarang Naik,” 30 Agustus 2015. [Online].


Available : http://kostisemarang.com/index.php/news. [Accessed 10 September
2015].

[5] Han, Jiawei dan Kamber, Micheline, “Data Mining Concepts and Techniques
Second Edition,” San Francisco: Morgan Kauffman, 2001.

[6] Ibnu Fathur Rochman, “Penerapan Algoritma C4.5 Pada Kepuasan Pelanggan
Perum DAMRI,” Universitas Dian Nuswantoro, 2015.

[7] Teguh Budi Santoso, “Analisa dan penerapan metode C4.5 Untuk Prediksi
Loyalitas Pelanggan,” Universitas Satya Negara Indonesia, 2014.

[8] David Hartanto Kamagi, Seng Hansun, “ Implementasi Data Mining dengan
Algoritma C4.5 untuk memprediksi Tingkat Kelulusan Mahasiswa,” Universitas
Multimedia Nusantara, Juni 2014.

[9] Anik Andriani, “ Penerapan Algoritma C4.5 Pada Progam Klasifikasi Mahasiswa
Dropout,” AMIK BSI Jakarta, 2012.

[10]Dyah Satiti, Sucipto, Shyntia Atica, “ Analisis Preferensi Konsumen Waralaba


Makanan Cepat Saji Dengan Menggunakan Pendekatan Data Mining Di
Restoran X Surabaya,” Universitas Brawijaya, 2014.

[11]Wirasasmita, Rivai , Sitorus, Roland, Manurung, Brenggan, “ Kamus Lengkap


Ekonomi,” Pionir Jaya, Bandung, 1999.

62
63

[12]Kotler, Philip, “ Marketing Management: Analysis. Planning. Implementation.


And Control, Ninth Edition,” Prentice-Hall .Inc, New Jersey, 1997.

[13] Santosa, B. “ Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis,”
Graha Ilmu, Yogyakarta. 2007.

[14] Undavia J N, Patel dan Dolia, “Comparison of Classification Algorithms to


Predict Students’ Post Graduation Course in Weka Environment,” International
Journal of Advanced Research in Computer Science and Software Engineering.
vol. 3. no. 9. 2013.

[15] Gorunescu F, “ Data Mining Concept Model Technique,” Craiova, Romania:


Springer, 2011.

[16] Chapman P, “ CRISP-DM 1.0: Step-by-step Data Mining Guide, SPSS,” 2000.

[17] Kusrini dan Emha Taufiq Luthfi, “Alogaritma Data Mining.” Yogyakarta: Andi
Publisher, 2009.

[18] Basuki dan Syarif, "Modul Ajar Decision Tree," Surabaya, 2003

[19] Burns, Alvin C. dan Bush, Ronald F, “Marketing Research”, Prentice Hall, New
Jersey, 2000

[20] Aritonang, Lerbin, “Penelitian Pemasaran”, UPT Penerbitan Universitas


Tarumanagara, Jakarta, 1998.

[21] Swasta, Basu. “Manajeman penjualan” , cetakan kedua belas, Yogyakarta:


BFSE, 2005.
LAMPIRAN 1
KUISIONER PENELITIAN
KEPUASAN PELANGGAN TERHADAP PELAYANAN
JASA TRANSPORTASI TAKSI KOSTI SEMARANG
Sehubungan dengan dilakukanya penelitian untuk tugas akhir program sarjana strata I
(S1),saya mengharapkan bantuan anda untuk memberikan masukan anda dengan mengisi
kuesioner ini dengan keadaan sebenarnya. Bantuan anda sangat berharga sekali dalam
penelitian ini. Terima kasih atas kebaikan anda yang telah memberikan waktu dan kesediaan
menanggapi hal ini
Nama :
Jenis Kelamin : Laki-Laki Perempuan
Umur : …… Tahun

Isilah kuisioner ini sesuai dengan penilaian anda, dengan tanda ( √ )


STS = Sangat Tidak Setuju =1
TS = Tidak Setuju =2
N = Netral =3
S = Setuju =4
SS = Sangat Setuju =5

1. HARGA

NO PERTANYAAN STS TS N S SS
(1) (2) (3) (4) (5)
1. Taksi kosti tarif harganya relatif terjangkau

2. FASILITAS

NO PERTANYAAN STS TS N S SS
(1) (2) (3) (4) (5)
Fasilitas di dalam mobil seperti (Argo, AC, pembuka
1.
jendela, dll) dengan lengkap serta dapat berfungsi
dengan baik.
2. Tempat duduk sangat bersih, rapih, dan bagus.
3. Taksi yang digunakan memiliki mesin yang selalu
baik sehingga jarang mengalami kerusakan di jalan.
4. Taksi Dilengakapi Dengan Asuransi Untuk Tiap
Penumpang

64
65

3. PELAYANAN

NO PERTANYAAN STS TS N S SS
(1) (2) (3) (4) (5)

1. Sopir atau karyawan yang sedang bekerja


menunjukkan penampilan yang menyenangkan
2. Kemampuan sopir dalam menjawab tempat yang
dituju meyakinkan saya bahwa saya merasa aman
3. Taksi melaju dengan kecepatan yang sesuai di jalan
4. Taksi tepat waktu dengan tempat yang dituju
5. Taksi kosti menjamin keselamatan para penumpang
6. Sopir atau karyawan memberikan respon terhadap
penumpang dengan baik
7. Sopir selalu konsisten melayani penumpang dengan
baik dalam memberikan tarif argo
8. Taksi Kosti selalu mudah untuk di dapatkan di mana
saja dan kapan saja.

4. LOYALITAS

NO PERTANYAAN STS TS N S SS
(1) (2) (3) (4) (5)

1. Secara keseluruhan anda lebih sering menggunakan


taksi Kosti dibandingkan taksi merk lain.
Jika ada seseorang yang meminta saran anda taksi
2.
apa yang sebaiknya digunakan, anda akan
menyarankan taksi Kosti pada orang tersebut.
3. Anda akan mengatakan hal-hal yang baik / positif
mengenai taksi Kosti kepada orang lain.
4. Harga bukanlah masalah yang penting bagi anda
untuk menggunakan taksi Kosti.
5. Jika anda naik taksi,anda akan menempatkan taksi
Kosti sebagai pilihan utama anda.
66

5. Bagaimana kepuasan anda tentang tarif, pelayanan, dan fasilitas yang


diberikan taksi kosti?

Puas
Tidak puas
LAMPIRAN 2

1. Design Program Prediksi Kepuasan Pelanggan Taksi KOSTI

Bagian – Bagian dari program :


a. Nama : Digunakan untuk mengisikan nama dari pengisi kuisioner
b. Umur : Digunakan untuk mengisikan umur dari pengisi kuisioner
c. Jenis Kelamin : Digunakan untuk mengisikan jenis kelamin dari pengisi
kuisioner
d. Kolom Harga : Terdapat 1 pertanyaan yang dapat diisi oleh pengisi kuisioner
dengan rentang jawaban dari 1 – 5

67
68

e. Kolom Fasilitas : Terdapat 4 pertanyaan yang dapat diisi oleh pengisi kuisioner
dengan rentang jawaban dari 1 – 5
f. Kolom Pelayanan : Terdapat 8 pertanyaan yang dapat diisi oleh pengisi
kuisioner dengan rentang jawaban dari 1 – 5
g. Kolom Loyalitas : Terdapat 5 pertanyaan yang dapat diisi oleh pengisi kuisioner
dengan rentang jawaban dari 1 – 5
h. Tombol Rata-rata sebagai fungsi untuk mendapatkan rata-rata dari setiap
kelompok variable yang terdiri dari beberapa pertanyaan
i. Tombol Hasil digunakan untuk melihat hasil dari tingkat kepuasan konsumen
apakah PUAS atau TIDAK PUAS
j. Tombol Refresh digunakan untuk mereset data atau program agar kosong
kembali.
k. Tombol Simpan digunakan untuk menyimpan data dari pengisi kuisioner ke
dalam database.

2. Coding dari tiap fungsi


a. Filter Angka

Filter angka digunakan agar pada kolom pengisian nama hanya bisa diisi
dengan huruf dan tidak bisa diisi dengan angka.

b. Pemanggilan Filter Angka pada nama


c. Filter Huruf
Filter Huruf digunakan agar pada kolom pengisian umur hanya bisa diisi

dengan angka dan tidak bisa diisi dengan huruf.


d. Pemanggilan Filter Huruf pada umur.
69

e. Jenis Kelamin mengunakan JRadiobutton


Pada Jeniskelamin menggunakan tipe String,pada JK1(JRadiobutton1) di beri
fungsi bahwa jk1 adalah laki-laki dan pada JK2(JRadiobutton2) di beri fungsi

bahwa jk2 adalah perempuan.


f. Kolom Harga

Kolom harga memiliki 1 pertanyaan dan tiap pertanyaan memiliki 5


JRadiobutton jadi tiap nilai JRadiobutton yang di pilih langsung di arahkan
kedalam kolom rata-rata.

g. Kolom Fasilitas (Fungsi Rata-rata Fasilitas)


70

Sama Seperti Kolom Harga Tiap pertanyaan memiliki JRadiobutton yang akan
dipilih dan memiliki nilai. yang membedakan adalah pada rata-rata pada
kolom fasilitas rata-rata berbentuk tombol karena Kolom Fasilitas terdiri dari
4 pertanyaan, jadi nilai rata-rata fasilitas di dapat dari jumlah nilai masing-
masing pertanyaan dan di bagi jumlah pertanyaan itu.
h. Kolom Pelayanan (Fungsi Rata-rata Pelayanan)

Fungsi rata-rata pada kolom Pelayanan, rata-rata berbentuk tombol karena


Kolom Pelayanan terdiri dari 8 pertanyaan, jadi nilai rata-rata Pelayanan di
dapat dari jumlah nilai masing-masing pertanyaan dan di bagi jumlah
pertanyaan itu.
i. Kolom Loyalitas (Fungsi Rata-rata Loyalitas)

Fungsi rata-rata pada kolom Loyalitas, rata-rata berbentuk tombol karena


Kolom Loyalitas terdiri dari 5 pertanyaan, jadi nilai rata-rata Loyalitas di
dapat dari jumlah nilai masing-masing pertanyaan dan di bagi jumlah
pertanyaan itu.
71

j. Fungsi Hasil (Rule)

Fungsi Diatas merupakan Rule yang digunakan untuk memprediksi


pengolahan data kuisioner yang di dapat dari pengolahan data kuisioner
menggunakan Algoritma C4.5
k. Pemanggilan fungsi Rule pada Hasil
72

l. Fungsi Refresh (Riset)

Fungsi ini dilakukan untuk merefresh Form/Program agar kosong kembali.


m. Pemanggilan Fungsi Reset pada Refresh
73

n. Fungsi Simpan

Anda mungkin juga menyukai