Anda di halaman 1dari 76

Implementasi Data Mining Dalam Penerbitan

Surat Penetapan Tarif Dan Nilai Pabean Menggunakan


Metode Classification Pada Direktorat Jenderal Bea Dan
Cukai

SKRIPSI

Diajukan sebagai salah satu syarat kelulusan program Strata-1 (S-1)


Program Studi: Sistem Informasi

Tahun Akademik 2017/2018

Disusun Oleh:
Nama : Herta Apriani Silaban
NIM : 1602112087

SEKOLAH TINGGI ILMU KOMPUTER CIPTA KARYA


INFORMATIKA
(STIKOMCKI)

JAKARTA

2018
TANDA PERSETUJUAN
Nama : Herta Apriani Silaban
Nim : 1602112087
Program Studi : Sistem Informasi/ S-1
Judul Skripsi : Implementasi Data Mining Dalam Penerbitan Surat
Penetapan Tarif Dan Nilai Pabean Menggunakan
Metode Classification Pada Direktorat Jenderal Bea
Dan Cukai

Jakarta, Agustus 2018

Menyetujui,
Pembimbing

Sri Lestari, S.Pd.,MM

Mengetahui,

Ketua Program Studi Ketua


Sistem Informasi STIKOM CKI

Veri Arinal, M.Kom Mesra Betty Yel, M.M, M.Kom.


PENGESAHAN UJIAN

Skripsi ini diujikan pada tanggal …… bulan …… tahun ……., dan


dinyatakan: LULUS

NAMA PENGUJI : TANDA TANGAN

1. ............................................. ………………........

2. ............................................. ……………………

Mengetahui,
Ketua Sidang Skripsi

………………………….
SURAT KETERANGAN KEASLIAN

Saya yang bertanda tangan dibawah ini menyatakan bahwa, skripsi ini merupakan
karya saya sendiri (ASLI), dan isi dalam skripsi ini tidak terdapat karya yang pernah
diajukan oleh orang lain untuk memperolah gelar akademis di suatu institusi
pendidikan tinggi manapun, dan sepanjang penegtahuan saya juga tidak terdapat
karya atau pendapat yang pernah ditulis dan/atau diterbitkan oleh orang lain, kecuali
yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.

Segala sesuatu yang terkait dengan naskah dan karya yang telah dibuat adalah
menjadi tanggung jawab saya pribadi.

Jakarta, Agustus 2018

Herta Apriani Silaban


NIM. 1602112087
ABSTRACT

Directorate General of Customs and Excise, which is an agency under the


Ministry of Finance which has the duties and strategic functions in carrying out
supervision in the field of export imports. Submission of customs documents is self
assessment because only company know about the goods imported so needs to be
inspected by Customs and Excise Officials. In the event that the customs inspection
result is found a wrong notification, the Customs and Excise Officer will make a
correction and be stated in a letter called Surat Penetapan Tarif dan Nilai Pabean
(SPTNP).
Data mining is a term used to describe the discovery of knowledge in a
database. Data mining classification method using CRISP-DM research model can
be used to provide predictions in the determination of SPTNP. Classification
process is done by comparing three classification algorithms, namely Decision
Tree, Naive Bayes, and Logistic Regression. The results of the classification
process are evaluated using Confusion Matrix and T-Test to get the best accuracy
logarithms. This research also uses Correlation Matrix to determine the
relationship between factors.

Keyword: Data Mining, Classification, CRISP-DM, Logistic Regression


ABSTRAK

Direktorat Jenderal Bea dan Cukai, yang merupakan instansi dibawah


Kementerian Keuangan yang memiliki tugas dan fungsi strategis dalam melakukan
pengawasan dalam bidang impor ekspor. Penyampaian dokumen kepabeanan
bersifat self assessment karena karena pengguna jasa yang lebih tahu atas barang
yang diimpornya sehingga perlu dilakukan pemeriksaan oleh Pejabat Bea dan
Cukai. Dalam hal hasil pemeriksaan pabean ditemui adanya kesalahan
pemberitahuan, Pejabat Bea dan Cukai akan melakukan koreksi dan dituangkan
dalam Surat Penetapan Tarif dan Nilai Pabean (SPTNP).
Data mining adalah suatu istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database. Metode klasifikasi data mining dengan
menggunakan model penelitian CRISP-DM dapat digunakan untuk memberikan
prediksi dalam penetapan SPTNP. Proses klasifikasi dilakukan dengan
membandingkan tiga algoritma klasifikasi, yaitu algoritma Decision Tree, Naive
Bayes, dan Logistic Regression. Hasil proses klasifikasi dievaluasi dengan
menggunakan Confusion Matrix dan uji beda (T-Test) untuk mendapatkan
logaritma dengan akurasi terbaik. Penelitian ini juga menggunakan Correlation
Matrix untuk mengetahui hubungan antar faktor.

Kata kunci: Data Mining, Classification, CRISP-DM, Logistic Regression


KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa yang senantiasa
melimpahkan rahmat-Nya sehingga dapat terselesaikannya skripsi ini yang
berjudul:
“Implementasi Data Mining Dalam Penerbitan Surat Penetapan Tarif Dan
Nilai Pabean Menggunakan Metode Classification
Pada Direktorat Jenderal Bea Dan Cukai”
Skripsi ini dibuat dengan maksud untuk memenuhi salah satu persyaratan guna
menyelesaikan studi di Sekolat Tinggi Ilmu Komputer Cipta Karya Informatika.
Dalam kesempatan ini, penulis menghaturkan terimakasih kepada semua pihak
yang telah membantu menyumbangkan ide dan pikiran demi terwujudnya skripsi
ini.
Penulis menyadari dalam penulisan skripsi ini masih jauh dari sempurna, dan
banyak kekurangan baik dalam metode penulisan maupun dalam pembahasan
materi. Hal tersebut dikarenakan keterbatasan kemampuan penulis. Sehingga
penulis mengharapkan saran dan kritik yang bersifat membangun mudah-mudahan
dikemudian hari dapat memperbaiki segala kekuranganya. Akhir kata, penulis
berharap semoga skripsi ini dapat bermanfaat bagi para pembaca dan mendorong
penelitian-penelitian selanjutnya. Dan semoga Tuhan Yang Maha Esa memberi
lindungan bagi kita semua.

Jakarta, Agustus 2018

Penulis
DAFTAR ISI
1
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang Masalah ........................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Ruang Lingkup dan Pembatasan Masalah ................................................ 3
1.3.1 Ruang Lingkup .................................................................................. 3
1.3.2 Batasan Masalah................................................................................ 3
1.4 Maksud dan Tujuan Penulisan ................................................................. 3
1.5 Metode Penelitian ..................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 4
BAB II LANDASAN TEORI ................................................................................ 6
2.1 Tinjauan Studi .......................................................................................... 6
2.2 Landasan Teori ....................................................................................... 13
2.2.1 Data Mining .................................................................................... 13
2.2.2 Naive Bayes ..................................................................................... 19
2.2.3 Decision Tree (Pohon Keputusan) .................................................. 21
2.2.4 Logistic Regression ......................................................................... 21
2.2.5 Confusion Matrix ............................................................................ 22
2.2.6 Pungutan Impor di Bidang Kepabeanan ......................................... 22
2.2.7 Self Assessment ............................................................................... 23
2.3 Kerangka Pemikiran ............................................................................... 24
2.4 Hipotesis ................................................................................................. 25
BAB III METODE PENELITIAN....................................................................... 26
3.1 Desain Penelitian .................................................................................... 26
3.1.1 Business Understanding .................................................................. 26
3.1.2 Data Understanding ........................................................................ 26
3.1.3 Data Preparation ............................................................................ 27
3.1.4 Eksperimen dan Pengujian Model .................................................. 27
3.1.5 Evaluasi ........................................................................................... 28
3.1.6 Deployment ..................................................................................... 28
3.2 Metode Penelitian ................................................................................... 29
3.3 Populasi .................................................................................................. 29
3.4 Instrumen Penelitian ............................................................................... 29
3.5 Analisis Data .......................................................................................... 30
BAB IV HASIL PENELITIAN DAN PEMBAHASAN ..................................... 32
4.1 Business Understanding ......................................................................... 32
4.1.1 Motivasi .......................................................................................... 32
4.1.2 Objektif ........................................................................................... 32
4.2 Data Understanding ............................................................................... 33
4.3 Data Preparation ................................................................................... 34
4.4 Eksperimen dan Pengujian Model .......................................................... 37
4.5 Evaluasi .................................................................................................. 40
4.6 Deployment ............................................................................................. 53
BAB V KESIMPULAN DAN SARAN ............................................................... 54
5.1 Kesimpulan ............................................................................................. 54
5.2 Saran ....................................................................................................... 56
DAFTAR GAMBAR

Gambar 2. 1 Model penelitian Ika Menarianti (2015:39-45) ................................. 7


Gambar 2. 2 Model penelitian Danny Ibrahim (2017:24-31) ................................ 9
Gambar 2. 3 Model penelitian Nahot Frastian. dkk, (2018:65-74) ...................... 10
Gambar 2. 4 Langkah Proses Klasifikasi ............................................................. 15
Gambar 2. 5 Tahapan Data Mining ..................................................................... 19
Gambar 2. 6 Alur Metode Naive Bayes ............................................................... 20
Gambar 2. 7 Kerangka pemikiran ........................................................................ 24
Gambar 3. 1 Metode CRISP-DM ......................................................................... 26
Gambar 3. 2 Desain Penelitian Yang Diusulkan .................................................. 28
Gambar 4. 1 Dataset Importasi SPTNP................................................................. 33
Gambar 4. 2 Statistik Dataset Importasi SPTNP (terdapat missing value) ........... 34
Gambar 4. 3 Proses Pembersihan Dataset ............................................................ 35
Gambar 4. 4 Statistik Dataset Importasi SPTNP (clean) ...................................... 35
Gambar 4. 5 Proses Transformasi Dataset ............................................................ 36
Gambar 4. 6 Dataset Importasi SPTNP Setelah Transformasi Data ..................... 37
Gambar 4. 7 Model Komparasi Algoritma Klasifikasi ......................................... 38
Gambar 4. 8 Model Komparasi Feature Selection pada Algoritma Logistic
Regression ........................................................................................ 39
Gambar 4. 9 Model Pengambilan Sampel Data Testing ....................................... 39
Gambar 4. 10 Uji Coba Model Terhadap Data Testing ........................................ 40
Gambar 4. 11 Model Correlation Matrix.............................................................. 40
Gambar 4. 12 Pohon Keputusan Penetapan SPTNP ............................................ 41
Gambar 4. 13 Rule Pohon Keputusan Penetapan SPTNP ................................... 41
Gambar 4. 14 Confusion Matrix Accuracy Algoritma Logistic Regression ......... 42
Gambar 4. 15 Confusion Matrix Precision Algoritma Logistic Regression ......... 43
Gambar 4. 16 Confusion Matrix Recall Algoritma Logistic Regression .............. 43
Gambar 4. 17 Hasil Uji Beda (T-Test) Algoritma Klasifikasi .............................. 43
Gambar 4. 18 Grafik ROC-AUC Algoritma Logistic Regression ........................ 44
Gambar 4. 19 Confusion Matrix Accuracy Algoritma Logistic Regression +
Backward Elimination ................................................................... 45
Gambar 4. 20 Confusion Matrix Precision Algoritma Logistic Regression +
Backward Elimination ................................................................... 46
Gambar 4. 21 Confusion Matrix Recall Algoritma Logistic Regression +
Backward Elimination ................................................................... 46
Gambar 4. 22 Grafik ROC-AUC Algoritma Logistic Regression dan Backward
Elimination .................................................................................... 47
Gambar 4. 23 Tabel Hasil Uji Coba Algoritma Dengan Data Testing.................. 48
Gambar 4. 24 Statistik Dataset Testing Importasi SPTNP.................................... 49
Gambar 4. 25 Statistik Dataset Testing Importasi SPTNP Hasil Prediksi ............ 49
Gambar 4. 26 Hasil Correlation Matrix................................................................ 51
Gambar 4. 27 Scatter Importasi SPTNP Berdasarkan Profil dan Jalur................. 51
Gambar 4. 28 Scatter Importasi SPTNP Berdasarkan
Profil dan Status Perusahaan ......................................................... 52
DAFTAR TABEL
1
Tabel 2. 1 Ringkasan Penelitian Terkait .............................................................. 11
Tabel 4. 1 Hasil Akurasi Algoritma Klasifikasi .................................................... 42
Tabel 4. 2 Hasil Komparasi Feature Selection ..................................................... 45
BAB I
PENDAHULUAN

1.1 Latar Belakang Masalah


Direktorat Jenderal Bea dan Cukai, yang merupakan instansi dibawah
Kementerian Keuangan Republik Indonesia, juga kini menggunakan sistem
komputerisasi baik dalam proses bisnis maupun proses administrasi melalui suatu
sistem yang bernama CEISA (Customs and Excise Integrated System and
Automation). Salah satu aplikasi yang terdapat pada CEISA yaitu CEISA Impor.
Peraturan Kementerian Keuangan Republik Indonesia Nomor 228/PMK.04/2015
menyatakan bahwa pembuatan dan pengisian dokumen pemberitahuan impor
barang dan perhitungan pungutan bea masuk, cukai, dan/ atau pajak dalam rangka
impor yang harus dibayar dilakukan oleh pengguna jasa. Pengguna jasa
menyampaikan informasi mengenai barang yang diimpornya antara lain berupa
jumlah, jenis, spesifikasi barang yang diimpornya termasuk harga barang untuk
perhitungan bea masuk. Selanjutnya pengguna jasa menyetorkan pungutan impor
ke kas negara melalui bank devisa persepsi. Sistem penyampaian dokumen ini
disebut sebagai self assessment. Hal ini karena pengguna jasa yang lebih tahu atas
barang yang diimpornya. Oleh karena bersifat self assessment, penyampaian
pemberitahuan impor barang dilakukan pemeriksaan oleh Pejabat Bea dan Cukai.
Hal ini untuk memastikan pemberitahuan yang disampaikan oleh pengguna jasa
sudah benar dan memenuhi syarat. Sesuai dengan Peraturan Direktur Jenderal Bea
Dan Cukai Nomor 25/BC/2009, dalam hal hasil pemeriksaan pabean ditemui
adanya kesalahan pemberitahuan, Pejabat Bea dan Cukai akan melakukan koreksi.
Hasil koreksi dituangkan dalam Surat Penetapan Tarif dan Nilai Pabean (SPTNP).
Seiring dengan meningkatnya penggunaan komputer, maka penyimpanan
dokumen secara digital juga berkembang pesat. Kita kebanjiran data tetapi miskin
akan pengetahuan. Data mining adalah suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di dalam database. “Data mining adalah
proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi yang

1
2

bermanfaat dan pengetahuan yang terkait dari berbagai database besar” (Turban,
dkk. 2005:263). Salah satu kategori utama data mining adalah predictive mining,
yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa
variabel lain di masa depan. “Classification adalah proses untuk menemukan model
atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan
tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui” (Han dan Kamber, 2012:327).
Metode classification dipilih karena mampu memetakan (mengklasifikasi)
sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah
didefinisikan. Hal ini bertujuan agar Pejabat Bea dan Cukai dapat mengetahui
faktor yang sangat berpengaruh terhadap penetapan SPTNP dan dapat dilakukan
prediksi terhadap dokumen yang akan terkena SPTNP sehingga dapat dilakukan
mitigasi dari awal guna mengamankan penerimaan negara di sektor kepabeanan.
Berdasarkan latar belakang di atas, maka penulis tertarik untuk melakukan
penelitian terhadap penerbitan SPTNP yang dituangkan dalam sebuah skripsi yang
diberi judul “IMPLEMENTASI DATA MINING DALAM PENERBITAN SURAT
PENETAPAN TARIF DAN NILAI PABEAN MENGGUNAKAN METODE
CLASSIFICATION PADA DIREKTORAT JENDERAL BEA DAN CUKAI”.

1.2 Rumusan Masalah


Beberapa lingkup permasalahan yang akan dibahas dalam penelitian ini
diantaranya:
a. Bagaimana metode CRISP-DM pada Classification dapat menentukan faktor
dominan yang paling berpengaruh dalam penetapan SPTNP?
b. Bagaimana metode CRISP-DM pada Classification dapat menentukan
algoritma data mining yang terbaik dalam penetapan SPTNP?
c. Bagaimana metode CRISP-DM pada Classification dapat menentukan korelasi
antar atribut dalam penetapan SPTNP?
d. Bagaimana metode CRISP-DM pada Classification dapat memberikan
prediksi dalam penetapan SPTNP?
3

1.3 Ruang Lingkup dan Pembatasan Masalah


1.3.1 Ruang Lingkup
Dari latar belakang yang diuraikan di atas, maka secara garis besar ruang
lingkup yang akan dibahas adalah tentang implementasi data mining dalam
penerbitan SPTNP menggunakan classification dan dengan metode CRISP-DM.

1.3.2 Batasan Masalah


Dari topik yang ada pada penelitian ini maka diberikan batasan-batasan yaitu:
a. Penelitian ini menggunakan metode CRISP-DM pada Classification dalam
penetapan SPTNP dengan memanfaatkan tools RapidMiner Studio versi
8.2.001
b. Data yang diambil dalam penelitian ini hanya sebatas data importasi SPTNP

1.4 Maksud dan Tujuan Penulisan


Berdasarkan ruang lingkup dan pembatasan masalah di atas, maka dapat
ditentukan maksud penulis dalam melakukan penulisan ini adalah untuk memenuhi
salah satu syarat dalam menyelesaikan pendidikan Strata-1 (S1) Jurusan Sistem
Informasi pada Sekolah Tinggi Ilmu Komputer Cipta Karya Informatika.
Adapun tujuan dari penelitian ini adalah untuk mengetahui faktor yang sangat
berpengaruh terhadap penetapan SPTNP sehingga dapat memberikan prediksi
penetapan SPTNP terhadap suatu dokumen impor. Selain itu, penelitian ini juga
bertujuan untuk memberikan solusi ataupun mitigasi awal terhadap permasalahan
SPTNP yang ada di lingkungan Direktorat Jenderal Bea dan Cukai.

1.5 Metode Penelitian


a. Sifat Penelitian
Sifat penelitian adalah Prediktif yaitu menganalisis sistem penerbitan
SPTNP, yaitu dengan mempelajari dan menemukan pola dari data dengan
menggunakan beberapa variabel dan dari teori-teori umum yang
mendukung yang terdapat pada buku referensi, jurnal dan website.
4

b. Teknik Pengumpulan Data


Pengumpulan data dilakukan secara sistematik dan data yang diambil
adalah data yang relevan serta lengkap untuk menunjang penelitian yang
dilakukan, teknik pengumpulan data yang dilakukan adalah:
1) Studi Pustaka
Merupakan metode pengumpulan data dengan mencari referensi,
literatur atau bahan-bahan teori yang diperlukan dari berbagai sumber
wacana seperti buku, jurnal, paper, e-book dan lainnya untuk
memperoleh informasi yang berhubungan dengan implementasi data
mining dalam penerbitan SPTNP.
2) Observasi
Merupakan metode pengumpulan data yang penulis lakukan dengan
cara melakukan pengamatan dan pencatatan data-data serta berbagai hal
yang akan dibutuhkan dalam proses penelitian dengan cara peninjauan
langsung ke lokasi penelitian.

1.6 Sistematika Penulisan

BAB I PENDAHULUAN

Bab ini berisi latar belakang, ruang lingkup dan pembatasan masalah,
maksud dan tujuan penulisan, metode penelitian dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini berisi semua teori yang digunakan dalam penelitian. Dasar-dasar
teori tersebut berhubungan dengan metode pemecahan masalah yang
diterapkan pada penelitian.
BAB III METODE PENELITIAN

Bab ini berisi software, hardware dan struktur tabel yang digunakan
dalam melakukan penelitian. Alur sistem, prosedur kerja, proses replikasi dan
5

model replikasi yang digunakan akan dibahas pada proses pedoman


pelaksanaan. Pada bab ini dijelaskan semua unsur yang digunakan pada
proses penelitian.

BAB IV HASIL PEMBAHASAN

Bab ini berisi uraian proses hasil penelitian terhadap implementasi data
mining dalam penerbitan SPTNP menggunakan metode classification.

BAB V PENUTUP
Bab ini berisi beberapa kesimpulan dan saran yang diambil dari hasil
penelitian yang dilakukan oleh penulis.
BAB II
2 LANDASAN TEORI

2.1 Tinjauan Studi


Model penelitian yang dilakukan (Ika Menarianti, 2015:39-45) adalah
sebuah penelitian yang menerapkan metode klasifikasi data mining dalam
menentukan pemberian kredit bagi nasabah koperasi. Keluaran yang
dihasilkan oleh klasifikasi data mining dapat digunakan untuk memperbaiki
pengambilan keputusan bagi analis kredit dalam pemberian kredit. Sumber
data berasal dari data kredit yang diambil dari Koperasi Borobudur Agung
pada tahun-tahun sebelumnya sebagai acuan untuk menemukan pola-pola
tertentu yang bisa dijadikan atribut penentu. Data yang dapat digunakan
adalah data agunan, data pinjaman nasabah dan data piutang lancar. Metode
yang digunakan dalam penelitian ini adalah cross validation, confussion
matrix, ROC curve dan T-Test. Hal ini dilakukan untuk melihat sejauh mana
perbedaan data setelah dan sebelum dilakukan preprocessing data. Klasifikasi
data mining yang digunakan adalah Logistic Regression, Discriminant
Analys, K-Nearest Neighbour, Naive Bayes, Decision Tree, Neural Network
dan Support Vector Machine.
Metode pengujian pada penelitian ini mengikuti cara pengukuran dengan
mengukur tingkat akurasi dari masing-masing algoritma berdasarkan data set
kredit yang dibagi kedalam variabel-variabel penentu keputusan. Dari hasil
pre-processing data, terdapat 588 data kredit dengan total data nasabah yang
tidak bermasalah sebanyak 514 data dan 74 data nasabah bermasalah dalam
keharusan membayar kredit. Evaluasi dan validasi hasil klasifikasi dilakukan
dengan menggunakan bantuan software Rapid Miner, dimana semua data di
pisah secara acak menjadi dua yaitu data testing dan data training. Dari hasil
analisis komparasi dengan menggunakan cross validation, confusion matrix,
ROC curve dan T-Test pada beberapa algoritma klasifikasi data mining dapat
disimpulkan bahwa algoritma yang paling akurat adalah algoritma Logistic
Regression karena memiliki nilai akurasi tertinggi yaitu 87,41% dengan uji
T-test paling dominan terhadap algortima lainnya, dengan nilai AUC paling

6
7

tinggi yaitu 1.000. Model penelitian yang dilakukan oleh Ika Menarianti dapat
dilihat pada gambar berikut:

Pengumpulan
Data

Pengolahan
Awal Data

Pemilihan
Metode

Eksperimen
dan

Evaluasi dan
Validasi

Gambar 2. 1 Model penelitian Ika Menarianti (2015:39-45)

Penelitian yang dilakukan (Danny Ibrahim, 2017:24-31) adalah mengenai


penerapan metode klasifikasi dalam penentuan penerbangan. Pada penelitian
ini akan dilakukan pencarian hubungan antar faktor serta komparasi algoritma
klasifikasi dalam menentukan penundaan penerbangan dan melakukan
perbandingan algoritma Feature Selection pada algoritma terbaik untuk
menentukan penundaan penerbangan. Dengan demikian dapat membantu
dalam pengambilan keputusan penundaan penerbangan yang yang tepat
sehingga dapat mengurangi terjadinya kecelakaan pesawat. Penelitian ini
menggunakan dataset penundaan penerbangan Bandara A. Yani Semarang.
Dengan menggunakan sumber data penundaan penerbangan dari database
bandara, dibuat dataset dengan atribut sebagai berikut:
1. Arah Angin: Arah dari mana angin tersebut bertiup dan dinyatakan
dengan sudut kompas (⁰)
2. Suhu: suhu rata rata di bandara diukur dalam ⁰C
3. Kecepatan Angin: Kecepatan aliran udara (angin) di bandara (knot)
8

4. Tekanan Udara: Tekanan udara di bandara saat akan penerbangan (mb)


5. Visibility: Jarak pandang yang terjangkau oleh penglihatan (m)
6. Cuaca: Kondisi cuaca di bandara ketika akan dilakukan penerbangan.
Cerah (SN), Hujan (RA), Halilintar (TS), Halilintar sekitar bandara
(VCTS)
Penelitian ini menggunakan Correlation Matrix untuk mengetahui
hubungan antar faktor atribut yang dapat mendeskripsikan bentuk dan
kekuatan hubungan antar faktor tersebut. Untuk metode klasifikasi, dengan
membandingkan 5 algoritma yaitu: Decision Tree, Naive Bayes, K-NN,
Random Forest, dan Logistic Regression untuk diketahui yang terbaik.
Digunakan Uji beda (T-Test) Untuk membandingkan kinerja (performa) dari
5 algoritma tersebut. Dengan uji beda (T-Test) dapat diketahui akurasi untuk
klasifikasi dan perbedaan signifikan dari kelima algoritma. Untuk
memperbaiki kinerja (performa) dari masing-masing metode dapat digunakan
metode Feature Selection. Adapun metode yang digunakan dalam penelitian
ini adalah filter (information gain) dan Wrapper (Backward Elimination).
Dari hasil Correlation Matrix dapat diketahui bahwa faktor yang paling
berpengaruh dalam menentukan penundaan penerbangan adalah visibility
(jarak pandang). Kemudian dari hasil uji beda (T-Test) diketahui bahwa pada
algoritma klasifikasi yang terbaik adalah Naive Bayes (NB) karena memiliki
tingkat akurasi yang tertinggi dan tidak memiliki perbedaan signifikan. Dari
kurva ROC-AUC model NB memiliki AUC sebesar 0.925 ini berarti
termasuk dalam kategori klasifikasi excellent. Hasil metode Feature Selection
pada klasifikasi yang terbaik adalah Backward Elimination (BE) sehinggga
model terbaik yang digunakan adalah NB+BE. Dengan Feature Selection ini
performanya lebih baik dari sebelumnya karena akurasi meningkat dari
92.00% menjadi 94.00% dan AUC meningkat dari 0.925 menjadi 0.950.
Model penelitian yang dilakukan oleh Danny Ibrahim (2017:24-31) dapat
dilihat pada gambar berikut:
9

Business
Understanding

Data
Understanding

Data
Preparation

Modeling

Evaluation

Deployment

Gambar 2. 2 Model penelitian Danny Ibrahim (2017:24-31)

Penelitian yang dilakukan (Nahot Frastian. dkk, 2018:65-74) adalah


mengenai komparasi algoritma klasifikasi dalam menentukan kelulusan pada
matakuliah. Pada penelitian ini, fokus utama data mining yang akan dibahas
adalah klasifikasi, dimana algoritma yang akan digunakan untuk
mengklasifikasikan dataset adalah Algoritma C4.5 (Decision Tree), Naïve
Bayes, dan Random Forest. Data yang digunakan dalam penelitian ini
bersumber dari absensi mata kuliah Pemrograman 2, dimana penulis sebagai
Dosen pengajar disalah satu universitas di Jakarta. Data merupakan hasil
pemeriksaan terhadap 87 mahasiswa dengan atribut yang terdiri dari NPM,
nama, jenis kelamin, jenjang , program studi, mata kuliah, kehadiran, tugas,
UTS, UAS, nilai, dan status. Kriteria penilaian kelulusan mata kuliah antara
lain nilai kehadiran, nilai tugas, nilai UTS dan nilai UAS dengan tujuan akhir
adalah keputusan lulus atau tidak terhadap mata kuliah tersebut.
Penelitian ini menggunakan Rapid Miner dengan operator 10-fold cross-
validation untuk mendapatkan hasil accuracy dan AUC pada setiap algoritma
yang diuji menggunakan dataset mahasiswa. Hasil perbandingan antara C4.5,
Naive Bayes dan Random Forest diukur tingkat akurasinya menggunakan
pengujian Confusion Matrix dan Kurva ROC. Berdasarkan hasil pengukuraan
10

tingkat akurasi algoritma tersebut, diketahui bahwa nilai akurasi C4.5


(Decision Tree) adalah 98.89% dan nilai AUC adalah 0.500. Selanjutnya nilai
akurasi Naive Bayes 96.67% dan nilai AUC adalah 1.000. Sedangkan nilai
akurasi Random Forest adalah 95.56% serta nilai UAC adalah 1.000. Dapat
disimpulkan bahwa dengan menggunakan model C4.5 (Decision Tree) lebih
tinggi tingkat akurasinya, dengan peningkatan akurasi sebesar 2.22%. Model
penelitian yang dilakukan oleh (Nahot Frastian. dkk, 2018:65-74) dapat
dilihat pada gambar berikut:

Pengumpulan
Data

Pengolahan
Awal Data

Pengukuran
Penelitian

Analisa
Komparasi
Hasil

Gambar 2. 3 Model penelitian (Nahot Frastian. dkk, 2018:65-74)


11

2.1.1 Ringkasan Penelitian Terkait

Tabel 2. 1 Ringkasan Penelitian Terkait

Nama Penulis Judul Penelitian Nama Jurnal Hasil Penelitian

Ika Menarianti Klasifikasi Data Mining Jurnal Ilmiah Teknosains, Vol. 1 Algoritma yang paling akurat
Dalam Menentukan No. 1 November 2015 adalah algoritma Logistic Regression karena
Pemberian Kredit Bagi memiliki nilai akurasi tertinggi yaitu 87,41%
Nasabah Koperasi dengan uji T-test paling dominan terhadap
algortima lainnya, dengan nilai AUC paling
tinggi yaitu 1.000. Tingkat akurasi yang
dicapai dapat membantu para analis kredit
dalam pengambilan keputusan mengenai
pemberian kredit bagi nasabah koperasi.
12

Danny Ibrahim Analisis Hubungan antar 2nd Seminar Nasional IPTEK - Faktor yang paling berpengaruh dalam
Faktor dan Komparasi Terapan (SENIT) 2017 menentukan penundaan penerbangan adalah
Algoritma Klasifikasi pada visibility (jarak pandang)
Penentuan Penundaan - Dari hasil uji beda (T-Test) diketahui bahwa
Penerbangan algoritma klasifikasi yang terbaik adalah
Naive Bayes (NB) karena memiliki tingkat
akurasi yang tertinggi dan tidak memiliki
perbedaan signifikan.
- Hasil metode Feature Selection yang terbaik
adalah Backward Elimination (BE)
sehinggga model terbaik yang digunakan
adalah NB+BE karena performanya
meningkat dari 92.00% menjadi 94.00% dan
AUC meningkat dari 0.925 menjadi 0.950.
14

Nahot Frastian. Komparasi Algoritma Faktor Exacta 11 (1): 65-74, 2018 Model algortima C4.5 (Decision Tree)
dkk Klasifikasi memiliki tingkat akurasi yang lebih tinggi
Menentukan Kelulusan dengan peningkatan akurasi sebesar 2,22%.
Mata Kuliah Pada
Universitas
2.2 Landasan Teori
2.2.1 Data Mining
“Data mining adalah proses menemukan pola yang menarik dan
pengetahuan dari data yang berjumlah besar” (Han dan Kamber, 2012:36).
Sedangkan (Larose, 2005:2) mengatakan bahwa “data mining adalah suatu
proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan
dengan menggunakan teknik pengenalan pola seperti teknik statistik dan
matematika”. Menurut (Vercellis, 2009:77), “data mining adalah aktivitas
yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada
database yang besar, dengan tujuan mengekstrak informasi dan knowledge
yang akurat dan berpotensial berguna untuk knowledge workers yang
berhubungan dengan pengambilan keputusan dan pemecahan masalah”.

a. Pengelompokan data mining


Data mining menurut (Larose, 2005:8) dibagi menjadi beberapa
kelompok berdasarkan tugas yang dapat dilakukan, yaitu:
1) Deskripsi
Terkadang peneliti dan analis secara sederhana ingin mencoba
mencari cara untuk menggambarkan pola dan kecendrungan yang
terdapat dalam data. Sebagai contoh, petugas pengumpul suara
mungkin tidak menemukan keterangan atau fakta bahwa siapa yang
tidak cukup profesional akan sedikit didukung dalam pemilihan
presiden. Deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2) Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target
estimasi lebih ke arah numerik dari pada ke arah kategori. Model
dibangun dengan record lengkap menyediakan nilai dari variabel
target sebagai nilai prediksi. Selanjutnya, pada peninjauan

13
14

berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai


variabel prediksi.

3) Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk
prediksi.

4) Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori,
yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Menurut (Han dan Kamber, 2012:329) dasar pengukuran untuk
mengukur kualitas dari klasifikasi, yaitu:
a) Precision: tingkat ketepatan hasil klasifikasi terhadap suatu
kejadian.
b) Recall: tingkat keberhasilan mengenali suatu kejadian dari
seluruh kejadian yang seharusnya dikenali.

Langkah proses klasifikasi menurut (Han dan Kamber, 2012:329)


adalah:
15

Gambar 2. 4 Langkah Proses Klasifikasi

5) Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan. Kluster adalah kumpulan record yang memiliki
kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan
dengan record-record dalam kluster lain. Pengklusteran berbeda
dengan klasifikasi yaitu tidak adanya variabel target dalam
pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel
target. Akan tetapi, algoritma pengklusteran mencoba untuk
16

melakukan pembagian terhadap keseluruhan data menjadi


kelompok-kelompok yang memiliki kemiripan record dalam satu
kelompok akan bernilai maksimal, sedangkan kemiripan dengan
record dalam kelompok lain akan bernilai minimal.

6) Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang
muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut
analisis keranjang belanja (market basket analysis).

b. Metode Penelitian data mining


Salah satu metode yang digunakan pada pembangunan aplikasi data
mining ini adalah Cross-Industry Standard Process for Data Mining
(CRISP-DM) yang dikembangkan pada tahun 1996 oleh analis dari
beberapa industri seperti Daimler Chrysler (Daimler-Benz), SPSS (ISL),
NCR. CRISP-DM menyediakan standar proses data mining sebagai
strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Berikut ini adalah enam tahap siklus hidup pengembangan data
mining (Chapman, 2000:10):
1) Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut
pandang bisnis, kemudian menerjemakan pengetahuan ini ke dalam
pendefinisian masalah dalam data mining. Selanjutnya akan
ditentukan rencana dan strategi untuk mencapai tujuan tersebut.

2) Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan
dilanjutkan dengan proses untuk mendapatkan pemahaman yang
mendalam tentang data, mengidentifikasi masalah kualitas data, atau
untuk mendeteksi adanya bagian yang menarik dari data yang dapat
digunakan untuk hipotesa untuk informasi yang tersembunyi.
17

3) Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir
(data yang akan diproses pada tahap pemodelan/modeling) dari data
mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga
mencakup pemilihan tabel, record, dan atribut-atribut data,
termasuh proses pembersihan dan transformasi data untuk kemudian
dijadikan masukan dalam tahap pemodelan (modeling).

4) Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai
teknik pemodelan dan beberapa parameternya akan disesuaikan
untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa
teknik berbeda yang dapat diterapkan untuk masalah data
mining yang sama. Di pihak lain ada teknik pemodelan yang
membutuhan format data khusus. Sehingga pada tahap ini masih
memungkinan kembali ke tahap sebelumnya.

5) Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki
kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap
ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model
sebelum digunakan dan menentukan apakah model dapat mencapat
tujuan yang ditetapkan pada fase awal (Business Understanding).
Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis
yang belum dipertimbangkan. Diakhir dari tahap ini harus
ditentukan penggunaan hasil proses data mining.

6) Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh
akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat
digunakan oleh pengguna. Tahap deployment dapat berupa
18

pembuatan laporan sederhana atau mengimplementasikan


proses data mining yang berulang dalam perusahaan. Dalam banyak
kasus, tahap deployment melibatkan konsumen, disamping analis
data, karena sangat penting bagi konsumen untuk memahami
tindakan apa yang harus dilakukan untuk menggunakan model yang
telah dibuat.

c. Tahapan Data Mining


Menurut (Han dan Kamber, 2012:6) berikut ini merupakan proses atau
langkah-langkah dalam melakukan data mining:
1) Data Cleaning, merupakan tahap pembersihan data yang tidak
konsisten.
2) Data Integration, merupakan langkah menggabungkan data dari
beberapa sumber.
3) Data Selection, merupakan data yang tidak dikembalikan lagi ke
database setelah proses data cleaning.
4) Data Transformation, merupakan data berubah atau bersatu menjadi
bentuk yang tepat untuk menambang dengan ringkasan performa
atau operasi regresi.
5) Data Mining, merupakan proses yang digunakan untuk mengolah
suatu data dengan menggunakan metode.
6) Evaluation and presentation, merupakan pengidentifikasian pola
berdasarkan tindakan yanag digunakan.
7) Knowledge, yaitu sebuah hasil yang dicapai berupa pengetahuan
atau sebuah informasi.
19

Gambar 2. 5 Tahapan Data Mining

2.2.2 Naive Bayes


“Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut
secara kondisional saling bebas jika diberikan nilai output”. Dengan kata lain,
diberikan nilai output, probabilitas mengamati secara bersama adalah produk
dari probabilitas individu (Ridwan. dkk, 2013:61). “Keuntungan penggunaan
Naive Bayes adalah bahwa metode ini hanya membutuhkan jumlah data
pelatihan (Training Data) yang kecil untuk menentukan estimasi paremeter
yang diperlukan dalam proses pengklasifikasian. Naive Bayes sering bekerja
jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks dari
pada yang diharapkan” (Pattekari. dkk, 2012:292). “Naive Bayes adalah
model klasifikasi probabilitas sederhana. Penggunaan algoritma Naive Bayes
sangat mudah dan nyaman karena tidak memerlukan estimasi parameter yang
rumit. Sehingga Naive Bayes bisa digunakan pada dataset yang sangat besar”
20

(X. Wu & Kumar, 2009:163). Selain pada dataset yang besar Naive Bayes
juga menyajikan hasil klasifikasi kepada pengguna dengan sangat mudah
tanpa harus memiliki pengetahuan teknologi klasifikasi terlebih dahulu.

Gambar 2. 6 Alur Metode Naive Bayes

Dasar dari teorema Naive Bayes yang dipakai adalah rumus bayes yaitu
sebagai berikut (Han and Kamber, 2012:351):

dimana P(H|X) merupakan probabilitas H di dalam X atau dengan bahasa


lain P(H|X) adalah persentase banyaknya H di dalam X, P(X|H) merupakan
probabilitas X di dalam H, P(H) merupakan probabilitas prior dari H dan P(X)
merupakan probabilitas prior dari X.
21

2.2.3 Decision Tree (Pohon Keputusan)


“Decision Tree (DT) atau pohon keputusan adalah struktur pohon seperti
diagram alir, dimana setiap node menunjukkan tes pada nilai atribut, setiap
cabang mewakili hasil tes, dan daun pohon mewakili kelas atau distribusi
kelas. Pohon keputusan dapat dengan mudah dikonversi ke aturan klasifikasi”
(Han and Kamber, 2012:330).
Menurut (Han and Kamber, 2012:330) pada DT terdapat tiga jenis node,
yaitu:
1. Root node, merupakan node paling atas, pada node ini tidak ada input
dan bisa tidak mempunyai output lebih dari satu.
2. Internal node, merupakan node percabangan, pada node ini hanya
terdapat satu input dan mempunyai output minimal 2.
3. Leaf node atau terminal node, merupakan node terakhir, pada node
ini hanya terdapat satu input dan tidak mempunyai output.

2.2.4 Logistic Regression


Tujuan dari model Logistic Regression adalah untuk mendapatkan
persamaan regresi yang dapat memprediksi dua atau lebih kelompok objek
yang dapat ditempatkan yaitu apakah mahasiswa diklasifikasikan sebagai
mahasiswa aktif atau non aktif (Budi Santoso, 2007). Diberikan set sampel
dengan jumlah dimensi dan label kelas yi∈ {1, 2, ... , K}. Kemudian LR
mencoba untuk memperkirakan probabilitas posterior dari sampel x yang
baru. LR dapat diterapkan ke dalam klasifikasi biner dengan y∈ {0, 1}. Maka
probabilitas posterior sampel x dapat dihitung:

dan
22

Model matematika yang digunakan adalah:

dimana , , ,… , merupakan parameter yang dicari. Perbandingan antara


disebut dengan odds ratio.

2.2.5 Confusion Matrix


Menurut (Han dan Kamber, 2012:365) “Confusion Matrix adalah alat yang
berguna untuk menganalisis seberapa baik classifier mengenali tuple dari
kelas yang berbeda”. TP dan TN memberikan informasi ketika classifier
benar, sedangkan FP dan FN memberitahu ketika classifier salah. Contoh
gambar Confusion Matrix menurut (Han dan Kamber, 2012:365) ditunjukkan
pada gambar 2.7.

Gambar 2. 7 Contoh Confusion Matrix

2.2.6 Pungutan Impor di Bidang Kepabeanan


a. Kepabeanan
Menurut Undang-Undang Republik Indonesia Nomor 17 Tahun 2006:
1) Kepabeanan adalah segala sesuatu yang berhubungan dengan
pengawasan lalulintas barang yang masuk atau keluar Daerah
Pabean dan dilakukan pemungutan Bea masuk atau Bea keluar.
2) Daerah pabean adalah wilayah Republik Indonesia yang meliputi
darat, perairan dan ruang udara di atasnya, serta tempat-tempat
tertentu di zona ekonomi eksklusif dan landasan kontinen yang di
dalamnya berlaku undang-undang ini.
23

3) Pemberitahuan pabean adalah pernyataan yang dibuat oleh orang


dalam rangka melaksanakan kewajiban pabean dalam bentuk dan
syarat yang ditetapkan dalam Undang-Undang Kepabeanan.
4) Direktorat Jenderal Bea dan Cukai adalah unsur pelaksana tugas
pokok dan fungsi Departemen Keuangan di bidang kepabeanan dan
cukai.
5) Impor adalah kegiatan memasukkan barang ke dalam daerah pabean.
6) Bea masuk adalah pungutan negara berdasarkan Undang-Undang ini
yang dikenakan terhadap barang yang diimpor.
7) Barang impor adalah barang yang dimasukkan ke dalam daerah
pabean, diperlakukan sebagai barang impor dan terkena bea masuk,
yang harus melewati pemeriksaan pabean meliputi pemeriksaan
dokumen dan pemeriksaan barang secara fisik.

b. Surat Penetapan Tarif dan Nilai Pabean (SPTNP)


SPTNP adalah surat penetapan tarif dan nilai pabean atas penelitian
dokumen impor yang dilakukan oleh Pejabat Bea dan Cukai. Hal ini
berdasarkan regulasi Peraturan Menteri Keuangan Nomor
51/PMK.04/2008 tentang Tata Cara Penetapan Tarif, Nilai Pabean, dan
Sanksi Administrasi, serta Penetapan Direktur Jenderal Bea dan Cukai
atau Pejabat Bea dan Cukai dan Peraturan Direktur Jenderal Bea dan
Cukai Nomor 25/BC/2009 tentang Bentuk Dan Isi Surat Penetapan,
Surat Keputusan, Surat Teguran, Dan Surat Paksa.

2.2.7 Self Assessment


Peraturan Kementerian Keuangan Republik Indonesia Nomor
228/PMK.04/2015 menyatakan bahwa pembuatan dan pengisian dokumen
pemberitahuan impor barang dan perhitungan pungutan bea masuk, cukai,
dan/ atau pajak dalam rangka impor yang harus dibayar dilakukan oleh
pengguna jasa. Pengguna jasa menyampaikan informasi mengenai barang
yang diimpornya antara lain berupa jumlah, jenis, spesifikasi barang yang
24

diimpornya termasuk harga barang untuk perhitungan bea masuk.


Selanjutnya pengguna jasa menyetorkan pungutan impor ke kas negara
melalui bank devisa persepsi. Sistem penyampaian dokumen ini disebut
sebagai self assessment.

2.3 Kerangka Pemikiran


Kerangka pemikiran yang peneliti gunakan dalam penelitian ini adalah
penerapan metode klasifikasi, yang merupakan salah satu tugas utama dari
data mining. Klasifikasi digunakan untuk menempatkan bagian yang tidak
diketahui pada data ke dalam kelompok yang sudah diketahui. Peneliti akan
menggunakan metode CRISP-DM pada klasifikasi yang dapat membantu
penetapan SPTNP. Secara rinci kerangka pemikirannya dapat dilihat pada
gambar berikut:

Business
Understanding Faktor Dominan
Penetapan SPTNP
Data
Understanding
Algoritma Data Mining
Dalam Penetapan
Data SPTNP
Preparation

Korelasi Atribut
Modeling Penetapan SPTNP

Evaluation
Prediksi Penetapan
SPTNP
Deployment

Gambar 2. 8 Kerangka pemikiran


25

2.4 Hipotesis
Hipotesis merupakan dugaan sementara yang dilakukan oleh peneliti yang
akan dibuktikan kebenarannya melalui pengujian. Hipotesis yang diajukan
dalam penelitian ini merupakan uraian sementara dari permasalahan yang
diajukan, yaitu sebagai berikut:
H1: Terdapat faktor/atribut dominan yang paling berpengaruh dalam
penetapan SPTNP
H2: Terdapat algoritma klasifikasi data mining dengan akurasi yang paling
baik dalam membantu penetapan SPTNP
H3: Terdapat korelasi atau hubungan antar atribut-atribut dalam penetapan
SPTNP
H4: Implementasi data mining dapat membantu memberikan prediksi dalam
penetapan SPTNP
BAB III
3 METODE PENELITIAN

3.1 Desain Penelitian


Penelitian dilakukan dengan metode CRISP-DM yang terdiri dari 6 fase
seperti gambar berikut:

Gambar 3. 1 Metode CRISP-DM

3.1.1 Business Understanding


Tahapan ini merupakan fase awal untuk mengetahui masalah yang akan
diselesaikan untuk mencapai tujuan yang dinginkan. Pada fase ini dibutuhkan
pemahaman tentang substansi dari kegiatan data mining yang akan dilakukan,
kebutuhan dari perspektif bisnis. Kegiatannya antara lain menentukan sasaran
atau tujuan bisnis, memahami situasi bisnis, menentukan tujuan data mining
dan membuat perencanaan strategi serta jadwal penelitian.

3.1.2 Data Understanding


Tahap ini diperlukan untuk mempersiapkan data yang akan diolah agar
dapat dimodelkan dengan memeriksa apakah data tersebut normal, lengkap
dan konsisten sehingga dapat dimodelkan sesuai dengan metode data mining
yang akan digunakan. Ada dua tipe dalam pengumpulan data, yaitu
pengumpulan data primer dan pengumpulan data sekunder. Data primer
adalah data yang dikumpulkan mula-mula untuk melihat apa yang sebenarnya

26
27

terjadi. Data sekunder adalah data yang pernah dibuat oleh orang lain baik
diterbitkan atau tidak. Pada penelitian ini data yang digunakan adalah data
primer, yaitu data yang didapatkan langsung dari Direktorat Jenderal Bea dan
Cukai dengan ruang lingkup hanya sebatas data importasi yang terkena
SPTNP.

3.1.3 Data Preparation


Tahap ini meliputi semua aktivitas untuk membuat dataset final.
Dataset yang dihasilkan seringkali bersifat mentah dan kurang berkualitas,
misal terdapat nilai yang hilang, salah input nilai, dan tidak konsisten.
Akibatnya perlu dilakukan prapemrosesan data terlebih dahulu. Proses
pembersihan mencakup menghilangkan duplikasi data, mengisi/membuang
data yang hilang, memperbaiki data yang tidak konsisten, dan memperbaiki
kesalahan ketik.

3.1.4 Eksperimen dan Pengujian Model


Merupakan fase pemilihan teknik data mining dengan menentukan
algoritma yang akan digunakan. Dalam tahap ini, berbagai macam teknik
pemodelan dipilih dan diterapkan ke dataset yang sudah disiapkan untuk
mengatasi kebutuhan bisnis tertentu. Tahap pembuatan model juga mencakup
penilaian dan analisa komparatif dari berbagai model yang dibangun.
Algoritma klasifikasi yang akan digunakan dalam penelitian ini adalah
Decision Tree, Naive Bayes dan Logistic Regression. Ketiga algoritma
tersebut akan dilakukan komparasi untuk dapat diketahui algoritma dengan
akurasi terbaik. Serta untuk memperbaiki kinerja (performa) dari masing-
masing metode akan digunakan metode Feature Selection filter (information
gain) dan Wrapper (Backward Elimination)
28

3.1.5 Evaluasi
Dalam tahapan ini akan dilakukan validasi serta pengukuran keakuratan
hasil yang dicapai oleh model yang telah dibuat. Untuk membandingkan
performa kinerja dari ketiga algoritma tersebut, digunakan Uji Beda (T-Test).
Dengan T-Test dapat diketahui akurasi untuk klasifikasi dan perbedaan
signifikan dari ketiga algoritma tersebut. Untuk mengetahui hubungan antar
faktor atribut digunakan Correlation Matrix yang dapat mendeskripsikan
bentuk dan kekuatan hubungan antar faktor tersebut. Model yang dihasilkan
akan dianalisa untuk mengetahui apakah pola yang dihasilkan sudah sesuai
dengan standar yang terdapat pada Direktorat Jenderal Bea dan Cukai.

3.1.6 Deployment
Pembuatan dari model bukanlah akhir dari proyek data mining. Meskipun
tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data,
pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat
pada satu bentuk yang dapat digunakan oleh pengguna. Tahap ini merupakan
tahap implementasi (penyebaran) dari data mining. Pada tahap ini akan
ditentukan langkah selanjutnya yang akan dilakukan oleh Pejabat Bea dan
Cukai melalui hasil pemodelan yang telah dibuat.

Processing Modelling Evaluation


- Pemilihan - Menggunakan - Menggunakan
atribut algoritma Correlation
- Konversi data Decision Tree, Matrix
- Filtering data Naive Bayes dan
Data Set Logistic - Menggunakan
Regression Uji Beda (T-
New
- Menggunakan Test)
Data Set
Feature
Selection filter
Data
dan Wrapper Training

Data
Training

Gambar 3. 2 Desain Penelitian Yang Diusulkan


29

3.2 Metode Penelitian


Menurut Sugiyono (2016:2), “metode penelitian pada dasarnya merupakan
cara ilmiah untuk mendapatkan data dengan tujuan dan kegunaan tertentu”.
Metode penelitian yang digunakan dalam penelitian ini adalah Metode
Deskriptif. Metode deskriptif menurut Moh. Nazir (2005:54) adalah “suatu
metode dalam meneliti status kelompok manusia, suatu objek, suatu set
kondisi, suatu sistem pemikiran, ataupun suatu kelas peristiwa pada masa
sekarang”. Dengan kata lain penelitian deskriptif yaitu penelitian yang
memusatkan perhatian kepada masalah-masalah sebagaimana adanya saat
penelitian dilaksanakan. Dikatakan deskriptif karena bertujuan memperoleh
pemaparan yang objektif khususnya mengenai analisis penetapan SPTNP
pada dokumen impor yang terdapat pada Direktorat Jenderal Bea dan Cukai.

3.3 Populasi
Populasi dari penelitian ini adalah semua data importasi yang dimiliki oleh
Direktorat Jenderal Bea dan Cukai yang dikenakan SPTNP dari tahun 2014
sampai dengan tahun 2018. Berdasarkan data yang didapatkan, jumlah
dokumen impor yang dikenakan SPTNP per Juni 2018 adalah sebesar
297.088 dokumen.

3.4 Instrumen Penelitian


Penelitian ini membutuhkan perangkat keras dan perangkat lunak sebagai
penunjang agar dapat berjalan sesuai dengan fungsinya. Kebutuhan tersebut
diantaranya:
a. Kebutuhan Hardware (Perangkat Keras)
Satu buah Personal Computer (PC) untuk melakukan perancangan dan
pembangunan data mining, dengan spesifikasi berikut:
Processor : Intel® Xeon®
Operating Sustem : Windows 8, 64-bit
Memory : 16384 MB
30

b. Kebutuhan Software (Perangkat Lunak)


1) Microsoft Office Excel 2013
Software ini digunakan sebagai media penulisan datasheet.
2) RapidMiner Studio 8.2.001
Software yang akan digunakan untuk pengolahan data mining,
seperti melihat hasil akurasi dari algoritma yang digunakan terhadap
dataset yang sedang diteliti

3.5 Analisis Data


Menurut Lexy J. Moleong (2002:103), “analisis data adalah proses
mengurutkan data kedalam pola, kategori, dan satuan uraian dasar sehingga
dapat ditemukan dan dapat dirumuskan hipotesis kerja seperti yang
disarankan oleh data”. Atau dengan kata lain analisis data adalah proses
mencari dan menyusun secara sistematis data yang telah diperoleh dari hasil
observasi lapangan, dan dokumentasi dengan cara mengorganisasikan data
kedalam kategori, menjabarkan kedalam unit-unit, melakukan sintesa,
menyusun kedalam pola, memilih mana yang lebih penting dan yang akan
dipelajari, dan membuat kesimpulan sehingga mudah dipahami oleh diri
sendiri maupun orang lain.
Analisis data yang dilakukan dalam penelitian ini, yaitu sebagai berikut:
a. Tahap Pertama, penentuan data yang akan diolah. Dari data yang telah
diperoleh, tidak semua data akan diolah karena penelitian yang akan
dilakukan memiliki batasan-batasan data yang akan digunakan.

b. Tahap Kedua, menentukan atribut yang akan digunakan dari tahap


pertama. Atribut yang akan digunakan adalah:
1) NPWP: Nomor Pokok Wajib Pajak dari perusahaan
2) Profil: menunjukkan profil resiko perusahaan
3) Status perusahaan: menunjukkan status dari perusahaan (Importir
produsen, Importir Umum)
4) Komoditi: menunjukkan komoditi yang diimpor oleh perusahaan
31

5) Jalur: menunjukkan status penjaluran dokumen impor perusahaan


6) Flag SPTNP: merupakan flag yang menunjukkan bahwa dokumen
tersebut terkena SPTNP

c. Tahap Ketiga, melakukan transformasi data. Data dengan atribut yang


telah dipilih kemudian ditansformasikan untuk memudahkan proses data
mining pada sebagian atribut, karena data akan diproses dengan bantuan
tools data mining. Pada penelitian ini, transformasi data dilakukan pada
atribut Flag SPTNP, dimana 0 = tidak terkena SPTNP dan 1 = terkena
SPTNP.

d. Tahap Keempat, penanganan data missing value. Missing value adalah


data yang tidak lengkap dikarenakan atribut tidak tercatat maupun atribut
memang tidak dimiliki. Pada tahap ini semua nilai-nilai dalam dataset
diidentifikasi dan dipelajari. Jika terdapat nilai yang kosong/hilang, akan
diisi dengan nilai yang memiliki kemungkinan paling besar atau dapat
juga diabaikan dan menghapus record yang kosong.
BAB IV
4 HASIL PENELITIAN DAN PEMBAHASAN

4.1 Business Understanding


4.1.1 Motivasi
a. Pengisian dokumen kepabeanan bersifat self assessment yang
menyebabkan kemungkinan terjadai kesalahan dalam pengisian data.
b. Dokumen kepabeanan impor perlu dilakukan pemeriksaan oleh Pejabat
Bea dan Cukai.
c. Dalam hal terjadi kesalahan dalam pengisian dokumen, maka akan
dituangkan dalam surat penetapan tarif dan nilai pabean atas penelitian
dokumen impor yang dilakukan oleh Pejabat Bea dan Cukai atau
disebut dengan SPTNP.
d. Pejabat Bea dan Cukai perlu mengetahui faktor-faktor yang
berpengaruh dalam penetapan SPTNP sehingga dengan mengetahui
hubungan antar faktor tersebut, Pejabat Bea dan Cukai dapat
mengambil keputusan yang lebih baik dalam penetapan SPTNP.
e. Pejabat Bea dan Cukai memilih korelasi sebagai cara untuk model
hubungan antar faktor untuk diketahui. Korelasi adalah pengukuran
statistik bagaimana kekuatan hubungan antar atribut dalam Dataset.
f. Pejabat Bea dan Cukai juga perlu untuk mencari metode klasifikasi
yang tepat dalam menentukan penetapan SPTNP.
g. Metode klasifikasi yang tepat dapat membantu Pejabat Bea dan Cukai
dalam menentukan penetapan SPTNP dengan baik

4.1.2 Objektif
a. Untuk mencari hubungan antar faktor yang mempengaruhi penetapan
SPTNP.
b. Untuk mencari metode klasifikasi yang terbaik dengan melakukan
perbandingan tiga algoritma klasifikasi.

32
33

c. Untuk meningkatkan performa dari metode klasifikasi dapat dilakukan


dengan menggunakan feature selection.

4.2 Data Understanding


Dengan menggunakan sumber data yang didapatkan langsung dari
Direktorat Jenderal Bea dan Cukai, dibuat dataset dengan atribut sebagai
berikut:
1. NPWP: Nomor Pokok Wajib Pajak dari perusahaan
2. Profil: menunjukkan profil resiko perusahaan
3. Status perusahaan: menunjukkan status dari perusahaan (Importir
produsen, Importir Umum)
4. HS_CODE (Komoditi): menunjukkan komoditi yang diimpor oleh
perusahaan
5. Jalur: menunjukkan status penjaluran dokumen impor perusahaan
6. Flag SPTNP: merupakan flag yang menunjukkan bahwa dokumen
tersebut terkena SPTNP (0=tidak terkena SPTNP; 1=terkena SPTNP)

Gambar 4. 1 Dataset Importasi SPTNP


34

4.3 Data Preparation


Atribut tersebut disesuaikan dengan metode data mining yang akan
digunakan yaitu untuk korelasi atributnya bisa tipe numerik atau nominal dan
tidak ada label, untuk metode klasifikasi maka atributnya bisa numerik atau
nominal dan labelnya harus dalam bentuk nominal. Dalam hal ini atribut yang
berperan sebagai label adalah Flag SPTNP dan keterangannya adalah 1 jika
terkena SPTNP atau 0 jika tidak terkena SPTNP.
Kemudian setelah dievaluasi kualitas datanya ternyata terdapat missing
value pada datasetnya yaitu pada atribut NPWP.

Gambar 4. 2 Statistik Dataset Importasi SPTNP (terdapat missing value)

Dataset tersebut harus dilakukan pembersihan data (data cleaning) terlebih


dahulu agar normal/bersih dan tidak ada data yang kosong dan sudah
konsisten sehingga dapat dimodelkan. Dataset dibersihkan dengan
menggunakan fitur Filter Example yang terdapat pada tools RapidMiner.
Data yang digunakan adalah data yang nilainya bersih dan tidak ada yang
hilang.
35

Gambar 4. 3 Proses Pembersihan Dataset

Hasil dari dataset yang telah dibersihkan apabila diperlihatkan dalam statistik
akan tampak seperti gambar berikut:

Gambar 4. 4 Statistik Dataset Importasi SPTNP (clean)

Pada penelitian ini, metode Correlation Matrix digunakan untuk


mengetahui korelasi antar atribut, yang mana atirbutnya harus bertipe
numerik atau nominal dan tidak ada label. Oleh sebab itu, perlu dilakukan
transformasi data pada dataset karena masih terdapat atribut yang tidak
36

bertipe nominal atau numerik, antara lain atribut Profil, Status Perusahaan,
dan Jalur. Transformasi dataset dilakukan menggunakan fitur Map dengan
mengubah nilai dari masing – masing atribut menjadi nilai yang baru dengan
tipe numerik.

Gambar 4. 5 Proses Transformasi Dataset


37

Gambar 4. 6 Dataset Importasi SPTNP Setelah Transformasi Data

4.4 Eksperimen dan Pengujian Model


Merupakan fase pemilihan teknik data mining dengan menentukan
algoritma yang akan digunakan. Penelitian ini menggunakan metode Cross
Validation untuk membandingkan tiga algortima klasifikasi yaitu Decision
Tree, Naive Bayes dan Logistic Regression. Dan menggunakan uji beda (T-
Test) untuk membandingkan kinerja (performa) dari ketiga algoritma
tersebut.
38

Gambar 4. 7 Model Komparasi Algoritma Klasifikasi

Untuk memperbaiki kinerja (performa) dari algoritma yang telah dipilih


(algoritma dengan akurasi terbaik), dapat digunakan metode Feature
Selection, yaitu Information Gain dan Backward Elimination. Untuk
membandingkan metode Feature Selection tersebut juga digunakan uji beda
(T-Test) untuk mengetahui metode yang terbaik.
39

Gambar 4. 8 Model Komparasi Feature Selection pada Algoritma Logistic


Regression

Algoritma dengan akurasi terbaik akan dilakukan uji coba terhadap data
sampel. Data sampel akan diambil secara acak dari populasi data training
dengan menggunakan tools, dimana jumlah data sampel yang digunakan
sebagai data testing adalah 10% dari total populasi data.

Gambar 4. 9 Model Pengambilan Sampel Data Testing


40

Gambar 4. 10 Uji Coba Model Terhadap Data Testing

Penelitian ini menggunakan Correlation Matrix untuk mengetahui


hubungan antar faktor atribut.

Gambar 4. 11 Model Correlation Matrix

4.5 Evaluasi
a. Pohon Keputusan
Dari hasil pemodelan dengan menggunakan decision tree, diketahui
bahwa faktor yang paling ebrpengaruh dalam penetapan SPTNP adalah profil
perusahaan.
41

Gambar 4. 12 Pohon Keputusan Penetapan SPTNP

Pola/pengetahuan yang didapatkan dari pohon keputusan pada Gambar 4.12


adalah:
1. Apabila profil perusahaan Very High dan status perusahaan lainnya,
maka dominan terkena SPTNP
2. Apabila profil perusahaan Very High dengan status perusahaan Importir
Umum dan jalur dokumen merah, maka dominan terkena SPTNP
3. Apabila profil perusahaan Very High dengan status perusahaan Importir
Umum dan jalur dokumen hijau, maka tidak terkena SPTNP

Gambar 4. 13 Rule Pohon Keputusan Penetapan SPTNP


42

b. Accuracy
Berdasarkan proses Cross Validation pada Gambar 14, diperoleh hasil
bahwa algoritma yang paling baik digunakan untuk dataset penentuan SPTNP
adalah algoritma Logistic Regression karena memiliki tingkat akurasi terbaik,
yaitu 95.58%. Diurutan kedua adalah algoritma Decision Tree dengan tingkat
akurasi 93.98%.
Tabel 4. 1 Hasil Akurasi Algoritma Klasifikasi

Algoritma Accuracy AUC


Decision Tree 93.98% 0.500
Naive Bayes 91.33% 0.902
Logistic Regression 95.58% 0.888

Gambar 4. 14 Confusion Matrix Accuracy Algoritma Logistic Regression

c. Precision
Precision adalah jumlah data yang true positive (jumlah data positif
yang dikenali secara benar sebagai positif) dibagi dengan jumlah data yang
dikenali sebagai positif. Dari hasil pengujian nilai precision yaitu 96.64%
untuk class “No” (tidak terkena SPTNP) dan 70.00% untuk class “Yes”
(terkena SPTNP).
43

Gambar 4. 15 Confusion Matrix Precision Algoritma Logistic Regression

d. Recall
Recall adalah jumlah data yang true positive dibagi dengan jumlah data
yang sebenarnya positif (true positive + true negative). Untuk nilai recall
yaitu 98.73% untuk class “No” (tidak terkena SPTNP) dan 46.45% untuk
class “Yes” (terkena SPTNP).

Gambar 4. 16 Confusion Matrix Recall Algoritma Logistic Regression

Gambar 4. 17 Hasil Uji Beda (T-Test) Algoritma Klasifikasi


44

e. ROC
Kurva Receiver Operating Characteristic (ROC) digunakan untuk
mengekspresikan data confusion matrix. Garis horizontal mewakili nilai false
positives (FP) dan garis vertikal mewakili nilai true positives (TP). Grafik
ROC (Receiver Operating Characteristic) - AUC dari algoritma Logistic
Regression adalah sebagai berikut:

Gambar 4. 18 Grafik ROC-AUC Algoritma Logistic Regression

Kategori Klasifikasi AUC:


1. 0.90 - 1.00 = excellent classification
2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification
4. 0.60 - 0.70 = poor classification
45

5. 0.50 - 0.60 = failure


(Gorunescu, 2011:325)

Dari kurva ROC-AUC Algoritma Logistic Regression memiliki AUC sebesar


0.888 ini berarti termasuk dalam kategori good classification.

f. Feature Selection
Dari hasil komparasi Feature Selection, diketahui bahwa metode yang
paling baik untuk meningkatkan akurasi algoritma adalah Backward
Elimination. Dengan Feature Selection ini performanya lebih baik dari
sebelumnya karena akurasi meningkat 0.81% dari 95.58% menjadi 96.39%
sehinggga model terbaik yang digunakan adalah Logistic Regression +
Backward Elimination. Hasil peningkatan akurasi dapat dilihat pada tabel
berikut:
Tabel 4. 2 Hasil Komparasi Feature Selection
Algoritma Accuracy AUC
Logistic Regression (LR) 95.58% 0.888
LR + Information Gain 95.68% 0.889
LR + Backward Elimination 96.39% 0.818

Gambar 4. 19 Confusion Matrix Accuracy Algoritma Logistic Regression +


Backward Elimination
46

Gambar 4. 20 Confusion Matrix Precision Algoritma Logistic Regression +


Backward Elimination

Gambar 4. 21 Confusion Matrix Recall Algoritma Logistic Regression +


Backward Elimination
47

Gambar 4. 22 Grafik ROC-AUC Algoritma Logistic Regression dan Backward


Elimination

Dari kurva ROC-AUC Algoritma Logistic Regression dan Backward


Elimination memiliki AUC sebesar 0.818 ini berarti termasuk dalam kategori
good classification.
48

g. Uji Coba Model

Gambar 4. 23 Tabel Hasil Uji Coba Algoritma Dengan Data Testing

Gambar 4. 23 menunjukkan hasil uji coba algoritma Logistic Regression +


Backward Elimination terhadap data testing SPTNP. Dari 206 data sampel
yang digunakan sebagai testing, terdapat 41 dokumen yang diprediksi terkena
SPTNP dan 165 dokumen yang diprediksi tidak terkena SPTNP.
49

Gambar 4. 24 Statistik Dataset Testing Importasi SPTNP

Gambar 4. 25 Statistik Dataset Testing Importasi SPTNP Hasil Prediksi

Dari Gambar 4.24 dan Gambar 4.25 dapat diketahui bahwa hanya terdapat
satu dokumen yang seharusnya terkena SPTNP tetapi diprediksi tidak terkena
SPTNP atau 99% hasil prediksi sesuai dengan kenyataannya. Hal ini
menandakan bahwa model yang dihasilkan dapat digunakan dengan baik
dalam melakukan prediksi penetapan SPTNP.
50

h. Correlation Matrix
Dari hasil pemodelan Correlation Matrix, maka diperoleh:
1) Atribut (faktor) yang paling signifikan berpengaruh pada penetapan
SPTNP adalah Profil Perusahaan (hubungan positif)
2) Atribut (faktor) kedua yang paling berpengaruh adalah Jalur
Dokumen (hubungan positif)
3) Atribut (faktor) Hs Code / Komoditi tidak terlalu berpengaruh pada
penetapan SPTNP
4) Atribut (faktor) Status Perusahaan boleh dikatakan tidak
berpengaruh pada penetapan SPTNP

Kemudian dari nilai correlationnya dapat juga diketahui


hubungan antar faktor diantaranya adalah hubungan positif (berbanding
lurus) seperti pada hubungan antara profil perusahaan komoditi (Hs
Code). Dan juga hubungan negatif (berbanding terbalik) seperti pada
hubungan antara profil dan status perusahaan.
Selain itu dapat diketahui juga kekuatan hubungannya. Apabila
semakin besar nilai correlationnya maka semakin kuat/banyak
hubungannya. Begitu juga sebaliknya semakin kecil nilai
correlationnya maka semakin lemah/sedikit hubungannya. Contohnya
adalah hubungan antara profil perusahaan dengan komoditi memiliki
hubungan yang sangat kuat karena resiko profil perusahaan sangat
tergantung pada komoditi yang diimpor. Sedangkan untuk yang
hubungannya lemah/sedikit contohnya adalah hubungan antara status
perusahaan dengan komoditi (Hs Code) karena status perusahaan tidak
tergantung pada komoditi yang diimpor. Sedangkan yang nilai
correlationnya sangat kecil bisa dikatakan tidak berhubungan, seperti
yang ditunjukkan pada gambar hasil correlation matrix berikut ini:
51

Gambar 4. 26 Hasil Correlation Matrix

Gambar 4. 27 Scatter Importasi SPTNP Berdasarkan Profil dan Jalur

Dari Gambar 4. 27 dapat diketahui bahwa dominan importasi yang


terkena SPTNP adalah improtasi oleh perusahaan profil dengan very
high dan jalur dokumen merah dan kuning. Dan juga perusahaan
dengan profil medium dan jalur dokumen kuning. Sedangkan pada
52

perusahaan dengan jalur MITA Prioritas tidak terdapat dokumen


SPTNP.

Gambar 4. 28 Scatter Importasi SPTNP Berdasarkan Profil dan Status Perusahaan

Dan dari Gambar 4. 28 dapat diketahui bahwa dominan importasi yang


terkena SPTNP adalah perusahaan profil very high dengan status perusahaan
importir umum dan lainnya serta perusahaan dengan profil high dan status
perusahaan importir umum.
53

4.6 Deployment
Telah dihasilkan suatu informasi, dan pola pengetahuan baru dalam proses
data mining. Pola pengetahuan tersebut didapat dari metode Korelasi,
Klasifikasi, dan Feature Selection untuk menentukan SPTNP
berdasarkan dataset importasi SPTNP yang terdapat pada Direktorat Jendeal
Bea dan Cukai. Untuk atribut yang tidak terlalu berpengaruh dalam metode
klasifikasi tersebut dapat dihilangkan seperti NPWP. Klasifikasi penetapan
SPTNP sangat tergantung pada penjaluran dokumen akibat status profil
perusahaan. Keakuratan algoritma klasifikasi dapat ditingkatkan dengan
menggunakan Backward Elimination sehingga dapat menghasilkan
keputusan klasifikasi yang lebih akurat. Pengetahuan yang diperoleh dapat
digunakan sebagai dasar dalam mengambil keputusan untuk menentukan
penetapan SPTNP sehingga pejabat pemeriksa dapat melakukan mitigasi
untuk mengurangi resiko kesalahan penetapan SPTNP dan dapat memberikan
prediksi penetapan SPTNP terhadap dokumen impor.
BAB V
5 KESIMPULAN DAN SARAN

5.1 Kesimpulan
Berdasarkan hasil penelitian implementasi data mining dalam penetapan
SPTNP yang telah dilakukan dengan menggunakan metode CRISP-DM pada
Classification, didapat kesimpulan yaitu:
a. Faktor dominan dalam penetapan SPTNP.
Melalui penerapan metode CRISP-DM pada Classification dapat
diketahui bahwa:
1) Faktor yang paling berpengaruh dalam penetapan SPTNP adalah
profil perusahaan
2) Faktor yang tidak terlalu berpengaruh dalam penetapan SPTNP
adalah status perusahaan
3) Semakin tinggi resiko dari profil perusahaan, semakin tinggi juga
status penjaluran dokumennya dan semakin berpengaruh terhadap
penetapan SPTNP

b. Algoritma Klasifikasi
Melalui penerapan metode CRISP-DM pada Classification dapat
diketahui bahwa:
1) Algoritma dengan akurasi terbaik adalah Logistic Regression dengan
akurasi 76.35% dan AUC 0.745 dan tidak memiliki perbedaan yang
cukup signifikan
2) Algoritma Logistic Regression dapat digunakan untuk klasifikasi
dalam melakukan prediksi terhadap penetapan SPTNP
3) Feature Selection dapat mengurangi faktor/atribut yang tidak terlalu
berpengaruh sehingga dapat meningkatkan akurasi dan AUC
4) Metode Feature Selection yang terbaik untuk Algortima Logistic
Regression pada penelitian ini adalah Backward Elimination

54
55

5) Metode dengan model Logistic Regression + Backward Elimination


memiliki tingkat akurasi yang tinggi sehingga metode ini dapat
digunakan sebagai rekomendasi dalam membantu mengambil
keputusan yang tepat untuk menetapkan SPTNP

c. Hubungan antar faktor / atribut


Melalui penerapan metode CRISP-DM pada Classification dapat
diketahui bahwa:
1) Hubungan antara flag SPTNP dengan profil perusahaan memiliki
hubungan positif dan sangat kuat karena penetapan SPTNP sangat
dipengaruhi oleh profil perusahaan
2) Hubungan antara profil perusahaan dengan komoditi memiliki
hubungan positif karena resiko profil perusahaan sangat tergantung
pada komoditi yang diimpor
3) Hubungan antara profil perusahaan dengan status importir memiliki
hubungan negatif karena semakin tinggi profil perusahaan maka
status perusahaan akan semakin rendah

d. Prediksi SPTNP
Metode CRISP-DM pada klasifikasi dapat digunakan untuk
mendapatkan algoritma terbaik dalam memberikan prediksi penetapan
SPTNP. 99% hasil prediksi sesuai dengan data yang sebenarnya.
56

5.2 Saran
Berdasarkan hasil penelitian yang telah dilakukan, saran bagi instansi
Direktorat Jenderal Bea dan Cukai agar lebih selektif dan teliti dalam
menetapkan profil perusahaan serta melakukan evaluasi secara berkala
terhadap perilaku perusahaan sehingga profil perusahaan yang sudah
ditetapkan masih sesuai atau perlu dilakukan perubahan profil. Oleh karena
pengisian dokumen kepabeanan bersifat self assessment, maka perlu
dilakukan training atau sosialisasi kepada perusahaan - perusahaan yang
memiliki resiko tinggi, untuk dapat mengisi dokumen importasi dengan tepat
guna meminimalisir kesalahan pengisian dokumen. Selain itu, masih perlu
dilakukan uji coba terlebih dahulu terhadap implementasi data mining dalam
memberikan prediksi SPTNP.
DAFTAR PUSTAKA

Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data Untuk Keperluan
Bisnis, 1st ed. Yogyakarta, Indonesia: Graha Ilmu.

Bustami. Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data Nasabah


Asuransi. TECHSI: Jurnal Penelitian Teknik Informatika. Vol. 3, No.2. 2013.

Carlo, Vercellis. 2009. Business intelligence: data mining and optimization for
decision making. United Kingdom: John Wiley and Sons Ltd.

Chapman, Pete, dkk. 2000. CRISP-DM v.1.0 Step-by-step data mining guide. SPSS
Inc.

Ibrahim, Danny. Analisis Hubungan Antar Faktor Dan Komparasi Algoritma


Klasifikasi Pada Penentuan Penundaan Penerbangan. 2nd Seminar Nasional
IPTEK Terapan (SENIT). 2017.

Han, J, Kamber, M, & Pei, J. 2012. Data Mining: Concept and Techniques, Third
Edition. Waltham: Morgan Kaufmann Publishers.

Menarianti, Ika. Klasifikasi Data Mining Dalam Menentukan Pemberian Kredit


Bagi Nasabah Koperasi. Jurnal Ilmiah Teknosains. Vol. 1 No. 1. 2015.

Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data


Mining. John Willey & Sons, Inc.

Moleong, Lexy. 2002. Metodologi Penelitian Kualitatif. Bandung: PT. Remaja


Rosdakarya.

Frastian, Nahot, dkk. Komparasi Algoritma Klasifikasi Menentukan Kelulusan


Mata Kuliah Pada Universitas. Faktor Exacta 11. Vol. 1. 2018.

Nazir, Moh. 2005. Metode Penelitian. Jakarta: Ghalia Indonesia.

Pattekari, S. A., Parveen, A., Prediction System for Heart Disease Using Naive
Bayes. International Journal of Advanced Computer and Mathematical
Sciences. Vol. 3, No 3. 2012.

Ridwan, M., Suyono, H., Sarosa, M. Penerapan Data Mining untuk Evaluasi
Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes
Classifier. Jurnal EECCIS. Vol 1, No. 7. 2013.

Sugiyono. 2016. Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung:


Alfabeta
Turban, E., dkk. 2005. Decision Support Systems and Intelligent Systems.
Yogyakarta: Andi Offset.

Wu, X., & Kumar, V. 2010. The Top Ten Algorithms in Data Mining. Taylor &
Francis Group.
Lampiran 1
Form Pemberitahuan Impor Barang (PIB)
Lampiran 2
Surat Penetapan Tarif dan/atau Nilai Pabean (SPTNP)
Lampiran 3
Petunjuk Pengisian Form SPTNP

Anda mungkin juga menyukai