BAB I - II - III - IV - V-Herta Silaban-Revisi
BAB I - II - III - IV - V-Herta Silaban-Revisi
SKRIPSI
Disusun Oleh:
Nama : Herta Apriani Silaban
NIM : 1602112087
Menyetujui,
Pembimbing
Mengetahui,
1. ............................................. ………………........
2. ............................................. ……………………
Mengetahui,
Ketua Sidang Skripsi
………………………….
SURAT KETERANGAN KEASLIAN
Saya yang bertanda tangan dibawah ini menyatakan bahwa, skripsi ini merupakan
karya saya sendiri (ASLI), dan isi dalam skripsi ini tidak terdapat karya yang pernah
diajukan oleh orang lain untuk memperolah gelar akademis di suatu institusi
pendidikan tinggi manapun, dan sepanjang penegtahuan saya juga tidak terdapat
karya atau pendapat yang pernah ditulis dan/atau diterbitkan oleh orang lain, kecuali
yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.
Segala sesuatu yang terkait dengan naskah dan karya yang telah dibuat adalah
menjadi tanggung jawab saya pribadi.
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa yang senantiasa
melimpahkan rahmat-Nya sehingga dapat terselesaikannya skripsi ini yang
berjudul:
“Implementasi Data Mining Dalam Penerbitan Surat Penetapan Tarif Dan
Nilai Pabean Menggunakan Metode Classification
Pada Direktorat Jenderal Bea Dan Cukai”
Skripsi ini dibuat dengan maksud untuk memenuhi salah satu persyaratan guna
menyelesaikan studi di Sekolat Tinggi Ilmu Komputer Cipta Karya Informatika.
Dalam kesempatan ini, penulis menghaturkan terimakasih kepada semua pihak
yang telah membantu menyumbangkan ide dan pikiran demi terwujudnya skripsi
ini.
Penulis menyadari dalam penulisan skripsi ini masih jauh dari sempurna, dan
banyak kekurangan baik dalam metode penulisan maupun dalam pembahasan
materi. Hal tersebut dikarenakan keterbatasan kemampuan penulis. Sehingga
penulis mengharapkan saran dan kritik yang bersifat membangun mudah-mudahan
dikemudian hari dapat memperbaiki segala kekuranganya. Akhir kata, penulis
berharap semoga skripsi ini dapat bermanfaat bagi para pembaca dan mendorong
penelitian-penelitian selanjutnya. Dan semoga Tuhan Yang Maha Esa memberi
lindungan bagi kita semua.
Penulis
DAFTAR ISI
1
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang Masalah ........................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Ruang Lingkup dan Pembatasan Masalah ................................................ 3
1.3.1 Ruang Lingkup .................................................................................. 3
1.3.2 Batasan Masalah................................................................................ 3
1.4 Maksud dan Tujuan Penulisan ................................................................. 3
1.5 Metode Penelitian ..................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 4
BAB II LANDASAN TEORI ................................................................................ 6
2.1 Tinjauan Studi .......................................................................................... 6
2.2 Landasan Teori ....................................................................................... 13
2.2.1 Data Mining .................................................................................... 13
2.2.2 Naive Bayes ..................................................................................... 19
2.2.3 Decision Tree (Pohon Keputusan) .................................................. 21
2.2.4 Logistic Regression ......................................................................... 21
2.2.5 Confusion Matrix ............................................................................ 22
2.2.6 Pungutan Impor di Bidang Kepabeanan ......................................... 22
2.2.7 Self Assessment ............................................................................... 23
2.3 Kerangka Pemikiran ............................................................................... 24
2.4 Hipotesis ................................................................................................. 25
BAB III METODE PENELITIAN....................................................................... 26
3.1 Desain Penelitian .................................................................................... 26
3.1.1 Business Understanding .................................................................. 26
3.1.2 Data Understanding ........................................................................ 26
3.1.3 Data Preparation ............................................................................ 27
3.1.4 Eksperimen dan Pengujian Model .................................................. 27
3.1.5 Evaluasi ........................................................................................... 28
3.1.6 Deployment ..................................................................................... 28
3.2 Metode Penelitian ................................................................................... 29
3.3 Populasi .................................................................................................. 29
3.4 Instrumen Penelitian ............................................................................... 29
3.5 Analisis Data .......................................................................................... 30
BAB IV HASIL PENELITIAN DAN PEMBAHASAN ..................................... 32
4.1 Business Understanding ......................................................................... 32
4.1.1 Motivasi .......................................................................................... 32
4.1.2 Objektif ........................................................................................... 32
4.2 Data Understanding ............................................................................... 33
4.3 Data Preparation ................................................................................... 34
4.4 Eksperimen dan Pengujian Model .......................................................... 37
4.5 Evaluasi .................................................................................................. 40
4.6 Deployment ............................................................................................. 53
BAB V KESIMPULAN DAN SARAN ............................................................... 54
5.1 Kesimpulan ............................................................................................. 54
5.2 Saran ....................................................................................................... 56
DAFTAR GAMBAR
1
2
bermanfaat dan pengetahuan yang terkait dari berbagai database besar” (Turban,
dkk. 2005:263). Salah satu kategori utama data mining adalah predictive mining,
yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa
variabel lain di masa depan. “Classification adalah proses untuk menemukan model
atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan
tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui” (Han dan Kamber, 2012:327).
Metode classification dipilih karena mampu memetakan (mengklasifikasi)
sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah
didefinisikan. Hal ini bertujuan agar Pejabat Bea dan Cukai dapat mengetahui
faktor yang sangat berpengaruh terhadap penetapan SPTNP dan dapat dilakukan
prediksi terhadap dokumen yang akan terkena SPTNP sehingga dapat dilakukan
mitigasi dari awal guna mengamankan penerimaan negara di sektor kepabeanan.
Berdasarkan latar belakang di atas, maka penulis tertarik untuk melakukan
penelitian terhadap penerbitan SPTNP yang dituangkan dalam sebuah skripsi yang
diberi judul “IMPLEMENTASI DATA MINING DALAM PENERBITAN SURAT
PENETAPAN TARIF DAN NILAI PABEAN MENGGUNAKAN METODE
CLASSIFICATION PADA DIREKTORAT JENDERAL BEA DAN CUKAI”.
BAB I PENDAHULUAN
Bab ini berisi latar belakang, ruang lingkup dan pembatasan masalah,
maksud dan tujuan penulisan, metode penelitian dan sistematika penulisan.
Bab ini berisi semua teori yang digunakan dalam penelitian. Dasar-dasar
teori tersebut berhubungan dengan metode pemecahan masalah yang
diterapkan pada penelitian.
BAB III METODE PENELITIAN
Bab ini berisi software, hardware dan struktur tabel yang digunakan
dalam melakukan penelitian. Alur sistem, prosedur kerja, proses replikasi dan
5
Bab ini berisi uraian proses hasil penelitian terhadap implementasi data
mining dalam penerbitan SPTNP menggunakan metode classification.
BAB V PENUTUP
Bab ini berisi beberapa kesimpulan dan saran yang diambil dari hasil
penelitian yang dilakukan oleh penulis.
BAB II
2 LANDASAN TEORI
6
7
tinggi yaitu 1.000. Model penelitian yang dilakukan oleh Ika Menarianti dapat
dilihat pada gambar berikut:
Pengumpulan
Data
Pengolahan
Awal Data
Pemilihan
Metode
Eksperimen
dan
Evaluasi dan
Validasi
Business
Understanding
Data
Understanding
Data
Preparation
Modeling
Evaluation
Deployment
Pengumpulan
Data
Pengolahan
Awal Data
Pengukuran
Penelitian
Analisa
Komparasi
Hasil
Ika Menarianti Klasifikasi Data Mining Jurnal Ilmiah Teknosains, Vol. 1 Algoritma yang paling akurat
Dalam Menentukan No. 1 November 2015 adalah algoritma Logistic Regression karena
Pemberian Kredit Bagi memiliki nilai akurasi tertinggi yaitu 87,41%
Nasabah Koperasi dengan uji T-test paling dominan terhadap
algortima lainnya, dengan nilai AUC paling
tinggi yaitu 1.000. Tingkat akurasi yang
dicapai dapat membantu para analis kredit
dalam pengambilan keputusan mengenai
pemberian kredit bagi nasabah koperasi.
12
Danny Ibrahim Analisis Hubungan antar 2nd Seminar Nasional IPTEK - Faktor yang paling berpengaruh dalam
Faktor dan Komparasi Terapan (SENIT) 2017 menentukan penundaan penerbangan adalah
Algoritma Klasifikasi pada visibility (jarak pandang)
Penentuan Penundaan - Dari hasil uji beda (T-Test) diketahui bahwa
Penerbangan algoritma klasifikasi yang terbaik adalah
Naive Bayes (NB) karena memiliki tingkat
akurasi yang tertinggi dan tidak memiliki
perbedaan signifikan.
- Hasil metode Feature Selection yang terbaik
adalah Backward Elimination (BE)
sehinggga model terbaik yang digunakan
adalah NB+BE karena performanya
meningkat dari 92.00% menjadi 94.00% dan
AUC meningkat dari 0.925 menjadi 0.950.
14
Nahot Frastian. Komparasi Algoritma Faktor Exacta 11 (1): 65-74, 2018 Model algortima C4.5 (Decision Tree)
dkk Klasifikasi memiliki tingkat akurasi yang lebih tinggi
Menentukan Kelulusan dengan peningkatan akurasi sebesar 2,22%.
Mata Kuliah Pada
Universitas
2.2 Landasan Teori
2.2.1 Data Mining
“Data mining adalah proses menemukan pola yang menarik dan
pengetahuan dari data yang berjumlah besar” (Han dan Kamber, 2012:36).
Sedangkan (Larose, 2005:2) mengatakan bahwa “data mining adalah suatu
proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan
dengan menggunakan teknik pengenalan pola seperti teknik statistik dan
matematika”. Menurut (Vercellis, 2009:77), “data mining adalah aktivitas
yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada
database yang besar, dengan tujuan mengekstrak informasi dan knowledge
yang akurat dan berpotensial berguna untuk knowledge workers yang
berhubungan dengan pengambilan keputusan dan pemecahan masalah”.
2) Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target
estimasi lebih ke arah numerik dari pada ke arah kategori. Model
dibangun dengan record lengkap menyediakan nilai dari variabel
target sebagai nilai prediksi. Selanjutnya, pada peninjauan
13
14
3) Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk
prediksi.
4) Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori,
yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Menurut (Han dan Kamber, 2012:329) dasar pengukuran untuk
mengukur kualitas dari klasifikasi, yaitu:
a) Precision: tingkat ketepatan hasil klasifikasi terhadap suatu
kejadian.
b) Recall: tingkat keberhasilan mengenali suatu kejadian dari
seluruh kejadian yang seharusnya dikenali.
5) Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan. Kluster adalah kumpulan record yang memiliki
kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan
dengan record-record dalam kluster lain. Pengklusteran berbeda
dengan klasifikasi yaitu tidak adanya variabel target dalam
pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel
target. Akan tetapi, algoritma pengklusteran mencoba untuk
16
6) Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang
muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut
analisis keranjang belanja (market basket analysis).
2) Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan
dilanjutkan dengan proses untuk mendapatkan pemahaman yang
mendalam tentang data, mengidentifikasi masalah kualitas data, atau
untuk mendeteksi adanya bagian yang menarik dari data yang dapat
digunakan untuk hipotesa untuk informasi yang tersembunyi.
17
3) Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir
(data yang akan diproses pada tahap pemodelan/modeling) dari data
mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga
mencakup pemilihan tabel, record, dan atribut-atribut data,
termasuh proses pembersihan dan transformasi data untuk kemudian
dijadikan masukan dalam tahap pemodelan (modeling).
4) Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai
teknik pemodelan dan beberapa parameternya akan disesuaikan
untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa
teknik berbeda yang dapat diterapkan untuk masalah data
mining yang sama. Di pihak lain ada teknik pemodelan yang
membutuhan format data khusus. Sehingga pada tahap ini masih
memungkinan kembali ke tahap sebelumnya.
5) Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki
kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap
ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model
sebelum digunakan dan menentukan apakah model dapat mencapat
tujuan yang ditetapkan pada fase awal (Business Understanding).
Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis
yang belum dipertimbangkan. Diakhir dari tahap ini harus
ditentukan penggunaan hasil proses data mining.
6) Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh
akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat
digunakan oleh pengguna. Tahap deployment dapat berupa
18
(X. Wu & Kumar, 2009:163). Selain pada dataset yang besar Naive Bayes
juga menyajikan hasil klasifikasi kepada pengguna dengan sangat mudah
tanpa harus memiliki pengetahuan teknologi klasifikasi terlebih dahulu.
Dasar dari teorema Naive Bayes yang dipakai adalah rumus bayes yaitu
sebagai berikut (Han and Kamber, 2012:351):
dan
22
Business
Understanding Faktor Dominan
Penetapan SPTNP
Data
Understanding
Algoritma Data Mining
Dalam Penetapan
Data SPTNP
Preparation
Korelasi Atribut
Modeling Penetapan SPTNP
Evaluation
Prediksi Penetapan
SPTNP
Deployment
2.4 Hipotesis
Hipotesis merupakan dugaan sementara yang dilakukan oleh peneliti yang
akan dibuktikan kebenarannya melalui pengujian. Hipotesis yang diajukan
dalam penelitian ini merupakan uraian sementara dari permasalahan yang
diajukan, yaitu sebagai berikut:
H1: Terdapat faktor/atribut dominan yang paling berpengaruh dalam
penetapan SPTNP
H2: Terdapat algoritma klasifikasi data mining dengan akurasi yang paling
baik dalam membantu penetapan SPTNP
H3: Terdapat korelasi atau hubungan antar atribut-atribut dalam penetapan
SPTNP
H4: Implementasi data mining dapat membantu memberikan prediksi dalam
penetapan SPTNP
BAB III
3 METODE PENELITIAN
26
27
terjadi. Data sekunder adalah data yang pernah dibuat oleh orang lain baik
diterbitkan atau tidak. Pada penelitian ini data yang digunakan adalah data
primer, yaitu data yang didapatkan langsung dari Direktorat Jenderal Bea dan
Cukai dengan ruang lingkup hanya sebatas data importasi yang terkena
SPTNP.
3.1.5 Evaluasi
Dalam tahapan ini akan dilakukan validasi serta pengukuran keakuratan
hasil yang dicapai oleh model yang telah dibuat. Untuk membandingkan
performa kinerja dari ketiga algoritma tersebut, digunakan Uji Beda (T-Test).
Dengan T-Test dapat diketahui akurasi untuk klasifikasi dan perbedaan
signifikan dari ketiga algoritma tersebut. Untuk mengetahui hubungan antar
faktor atribut digunakan Correlation Matrix yang dapat mendeskripsikan
bentuk dan kekuatan hubungan antar faktor tersebut. Model yang dihasilkan
akan dianalisa untuk mengetahui apakah pola yang dihasilkan sudah sesuai
dengan standar yang terdapat pada Direktorat Jenderal Bea dan Cukai.
3.1.6 Deployment
Pembuatan dari model bukanlah akhir dari proyek data mining. Meskipun
tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data,
pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat
pada satu bentuk yang dapat digunakan oleh pengguna. Tahap ini merupakan
tahap implementasi (penyebaran) dari data mining. Pada tahap ini akan
ditentukan langkah selanjutnya yang akan dilakukan oleh Pejabat Bea dan
Cukai melalui hasil pemodelan yang telah dibuat.
Data
Training
3.3 Populasi
Populasi dari penelitian ini adalah semua data importasi yang dimiliki oleh
Direktorat Jenderal Bea dan Cukai yang dikenakan SPTNP dari tahun 2014
sampai dengan tahun 2018. Berdasarkan data yang didapatkan, jumlah
dokumen impor yang dikenakan SPTNP per Juni 2018 adalah sebesar
297.088 dokumen.
4.1.2 Objektif
a. Untuk mencari hubungan antar faktor yang mempengaruhi penetapan
SPTNP.
b. Untuk mencari metode klasifikasi yang terbaik dengan melakukan
perbandingan tiga algoritma klasifikasi.
32
33
Hasil dari dataset yang telah dibersihkan apabila diperlihatkan dalam statistik
akan tampak seperti gambar berikut:
bertipe nominal atau numerik, antara lain atribut Profil, Status Perusahaan,
dan Jalur. Transformasi dataset dilakukan menggunakan fitur Map dengan
mengubah nilai dari masing – masing atribut menjadi nilai yang baru dengan
tipe numerik.
Algoritma dengan akurasi terbaik akan dilakukan uji coba terhadap data
sampel. Data sampel akan diambil secara acak dari populasi data training
dengan menggunakan tools, dimana jumlah data sampel yang digunakan
sebagai data testing adalah 10% dari total populasi data.
4.5 Evaluasi
a. Pohon Keputusan
Dari hasil pemodelan dengan menggunakan decision tree, diketahui
bahwa faktor yang paling ebrpengaruh dalam penetapan SPTNP adalah profil
perusahaan.
41
b. Accuracy
Berdasarkan proses Cross Validation pada Gambar 14, diperoleh hasil
bahwa algoritma yang paling baik digunakan untuk dataset penentuan SPTNP
adalah algoritma Logistic Regression karena memiliki tingkat akurasi terbaik,
yaitu 95.58%. Diurutan kedua adalah algoritma Decision Tree dengan tingkat
akurasi 93.98%.
Tabel 4. 1 Hasil Akurasi Algoritma Klasifikasi
c. Precision
Precision adalah jumlah data yang true positive (jumlah data positif
yang dikenali secara benar sebagai positif) dibagi dengan jumlah data yang
dikenali sebagai positif. Dari hasil pengujian nilai precision yaitu 96.64%
untuk class “No” (tidak terkena SPTNP) dan 70.00% untuk class “Yes”
(terkena SPTNP).
43
d. Recall
Recall adalah jumlah data yang true positive dibagi dengan jumlah data
yang sebenarnya positif (true positive + true negative). Untuk nilai recall
yaitu 98.73% untuk class “No” (tidak terkena SPTNP) dan 46.45% untuk
class “Yes” (terkena SPTNP).
e. ROC
Kurva Receiver Operating Characteristic (ROC) digunakan untuk
mengekspresikan data confusion matrix. Garis horizontal mewakili nilai false
positives (FP) dan garis vertikal mewakili nilai true positives (TP). Grafik
ROC (Receiver Operating Characteristic) - AUC dari algoritma Logistic
Regression adalah sebagai berikut:
f. Feature Selection
Dari hasil komparasi Feature Selection, diketahui bahwa metode yang
paling baik untuk meningkatkan akurasi algoritma adalah Backward
Elimination. Dengan Feature Selection ini performanya lebih baik dari
sebelumnya karena akurasi meningkat 0.81% dari 95.58% menjadi 96.39%
sehinggga model terbaik yang digunakan adalah Logistic Regression +
Backward Elimination. Hasil peningkatan akurasi dapat dilihat pada tabel
berikut:
Tabel 4. 2 Hasil Komparasi Feature Selection
Algoritma Accuracy AUC
Logistic Regression (LR) 95.58% 0.888
LR + Information Gain 95.68% 0.889
LR + Backward Elimination 96.39% 0.818
Dari Gambar 4.24 dan Gambar 4.25 dapat diketahui bahwa hanya terdapat
satu dokumen yang seharusnya terkena SPTNP tetapi diprediksi tidak terkena
SPTNP atau 99% hasil prediksi sesuai dengan kenyataannya. Hal ini
menandakan bahwa model yang dihasilkan dapat digunakan dengan baik
dalam melakukan prediksi penetapan SPTNP.
50
h. Correlation Matrix
Dari hasil pemodelan Correlation Matrix, maka diperoleh:
1) Atribut (faktor) yang paling signifikan berpengaruh pada penetapan
SPTNP adalah Profil Perusahaan (hubungan positif)
2) Atribut (faktor) kedua yang paling berpengaruh adalah Jalur
Dokumen (hubungan positif)
3) Atribut (faktor) Hs Code / Komoditi tidak terlalu berpengaruh pada
penetapan SPTNP
4) Atribut (faktor) Status Perusahaan boleh dikatakan tidak
berpengaruh pada penetapan SPTNP
4.6 Deployment
Telah dihasilkan suatu informasi, dan pola pengetahuan baru dalam proses
data mining. Pola pengetahuan tersebut didapat dari metode Korelasi,
Klasifikasi, dan Feature Selection untuk menentukan SPTNP
berdasarkan dataset importasi SPTNP yang terdapat pada Direktorat Jendeal
Bea dan Cukai. Untuk atribut yang tidak terlalu berpengaruh dalam metode
klasifikasi tersebut dapat dihilangkan seperti NPWP. Klasifikasi penetapan
SPTNP sangat tergantung pada penjaluran dokumen akibat status profil
perusahaan. Keakuratan algoritma klasifikasi dapat ditingkatkan dengan
menggunakan Backward Elimination sehingga dapat menghasilkan
keputusan klasifikasi yang lebih akurat. Pengetahuan yang diperoleh dapat
digunakan sebagai dasar dalam mengambil keputusan untuk menentukan
penetapan SPTNP sehingga pejabat pemeriksa dapat melakukan mitigasi
untuk mengurangi resiko kesalahan penetapan SPTNP dan dapat memberikan
prediksi penetapan SPTNP terhadap dokumen impor.
BAB V
5 KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil penelitian implementasi data mining dalam penetapan
SPTNP yang telah dilakukan dengan menggunakan metode CRISP-DM pada
Classification, didapat kesimpulan yaitu:
a. Faktor dominan dalam penetapan SPTNP.
Melalui penerapan metode CRISP-DM pada Classification dapat
diketahui bahwa:
1) Faktor yang paling berpengaruh dalam penetapan SPTNP adalah
profil perusahaan
2) Faktor yang tidak terlalu berpengaruh dalam penetapan SPTNP
adalah status perusahaan
3) Semakin tinggi resiko dari profil perusahaan, semakin tinggi juga
status penjaluran dokumennya dan semakin berpengaruh terhadap
penetapan SPTNP
b. Algoritma Klasifikasi
Melalui penerapan metode CRISP-DM pada Classification dapat
diketahui bahwa:
1) Algoritma dengan akurasi terbaik adalah Logistic Regression dengan
akurasi 76.35% dan AUC 0.745 dan tidak memiliki perbedaan yang
cukup signifikan
2) Algoritma Logistic Regression dapat digunakan untuk klasifikasi
dalam melakukan prediksi terhadap penetapan SPTNP
3) Feature Selection dapat mengurangi faktor/atribut yang tidak terlalu
berpengaruh sehingga dapat meningkatkan akurasi dan AUC
4) Metode Feature Selection yang terbaik untuk Algortima Logistic
Regression pada penelitian ini adalah Backward Elimination
54
55
d. Prediksi SPTNP
Metode CRISP-DM pada klasifikasi dapat digunakan untuk
mendapatkan algoritma terbaik dalam memberikan prediksi penetapan
SPTNP. 99% hasil prediksi sesuai dengan data yang sebenarnya.
56
5.2 Saran
Berdasarkan hasil penelitian yang telah dilakukan, saran bagi instansi
Direktorat Jenderal Bea dan Cukai agar lebih selektif dan teliti dalam
menetapkan profil perusahaan serta melakukan evaluasi secara berkala
terhadap perilaku perusahaan sehingga profil perusahaan yang sudah
ditetapkan masih sesuai atau perlu dilakukan perubahan profil. Oleh karena
pengisian dokumen kepabeanan bersifat self assessment, maka perlu
dilakukan training atau sosialisasi kepada perusahaan - perusahaan yang
memiliki resiko tinggi, untuk dapat mengisi dokumen importasi dengan tepat
guna meminimalisir kesalahan pengisian dokumen. Selain itu, masih perlu
dilakukan uji coba terlebih dahulu terhadap implementasi data mining dalam
memberikan prediksi SPTNP.
DAFTAR PUSTAKA
Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data Untuk Keperluan
Bisnis, 1st ed. Yogyakarta, Indonesia: Graha Ilmu.
Carlo, Vercellis. 2009. Business intelligence: data mining and optimization for
decision making. United Kingdom: John Wiley and Sons Ltd.
Chapman, Pete, dkk. 2000. CRISP-DM v.1.0 Step-by-step data mining guide. SPSS
Inc.
Han, J, Kamber, M, & Pei, J. 2012. Data Mining: Concept and Techniques, Third
Edition. Waltham: Morgan Kaufmann Publishers.
Pattekari, S. A., Parveen, A., Prediction System for Heart Disease Using Naive
Bayes. International Journal of Advanced Computer and Mathematical
Sciences. Vol. 3, No 3. 2012.
Ridwan, M., Suyono, H., Sarosa, M. Penerapan Data Mining untuk Evaluasi
Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes
Classifier. Jurnal EECCIS. Vol 1, No. 7. 2013.
Wu, X., & Kumar, V. 2010. The Top Ten Algorithms in Data Mining. Taylor &
Francis Group.
Lampiran 1
Form Pemberitahuan Impor Barang (PIB)
Lampiran 2
Surat Penetapan Tarif dan/atau Nilai Pabean (SPTNP)
Lampiran 3
Petunjuk Pengisian Form SPTNP