Anda di halaman 1dari 18

LAPORAN PENELITIAN

PENERAPAN DATA MINING DENGAN METODE KALSIFIKASI


MENGGUNAKAN DECISION TREE PEKERJA MIGRAN INDONESIA ASAL
KABUPATEN KENDAL PADA KANTOR BP3TKI SEMARANG

Disusun oleh:
SAUFIKA SUKMAWATI - 18.01.55.5004

FAKULTAS TEKNOLOGI INFORMASI


UNIVERSITAS STIKUBANK SEMARANG
2019
BAB I
PENDAHULUAN

1.1 Latar Belakang


Sebagai salah satu organisasi pemerintahan Badan Nasional Penmpatan dan
Perlindungan TKI (BNP2TKI) dalam melaksanakan tugas dan fungsinya mengemangkan
sebuah sistem yang disebut SISKOTKLN, Sistem Komputerisasi Tenaga Kerja Luar
Negeri atau lebih dikenal dengan SISKOTKLN sebelumnya dikelola oleh Kementerian
Tenaga Kerja dan Transmigrasi pada tahun 2006, namun setelah di bentuknya Badan
Nasional Penempatan dan Perlindungan Tenaga Kerja Indonesia pada tahun 2007,
SISKOTKLN mulai aktif dan dikembangkan kembali oleh BNP2TKI pada pertengahan
tahun 2009. Dan pada tahun 2011 SISKOTKLN bisa digunakan secara online yang
melibatkan stakeholder dan instansi terkait.
SISKOTKLN yang merupakan sistem pendataan online calon TKI ini sudah
diterapkan di wilayah Indonesia. Sebagai pulau dengan jumlah penduduk terbanyak, maka
antusisias masyarakat di Pulau Jawa untuk bekerja di luar negeri juga paling tinggi diantara
wilayah lain.
Berdasarkan data dari BNP2TKI selama tahun 2018 terdapat ±7.825 data TKI asal
asal Kabupaten Kendal yang terekam di BNP2TKI. Dengan adanya penelitian ini
diharapkan terdapat gambaran terkait bagaimana klasifikasi Pekerja Migran Indonesia
yang berasal dari Kab. Kendal dan jika memungkinkan dapat digunakan sebagai bahan
pertimbangan untuk menentukan kebijakan terkait peningkatan kompetensi bagi PMI.

1.2 Rumusan Masalah


Berdasarkan permasalahan yang terdapat pada latar belakang, maka rumusan
masalah dalam penelitian ini adalah bagaimana mengklasifikasikan Pekerja Migran asal
Kab. Kendal?

1.3 Batasan Masalah


Agar pembahasan tidak menyimpang dari ruang lingkup pembahasan, maka perlu dibuat
suatu batasan masalah sebagai berikut :
1. Data yang dianalisis adalah data sample pekerja migran Indonesia asal Kab. Kendal
dari SISKOTKLN BNP2TKI di pada tahun 2018.
2. Algoritma yang digunakan adalah klasifikasi dengan decision tree.
1.4 Tujuan Penelitian
Tujuan pembuatan makalah ini adalah melakukan klasifikasi pekerja migran asal
Kab. Kendal yang terdaftar pada Sistem Informasi di BNP2TKI.
1.5 Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini adalah :
1. Bagi instansi BNP2TKI penelitian ini membantu agar program – program pemerintah
terkait penempatan dan perlindungan TKI lebih tepat sasaran.
2. Bagi Peneliti Manfaat yang didapat bagi peneliti adalah dapat mengimplementasikan
ilmu yang sudah didapat di perkuliahan maupun yang tidak didapat di perkuliahan.
BAB II
TINJAUAN PUSTAKA
2.1 Data Mining
2.1.1 Pengertian Data Mininig
Data mining adalah langkah analisis terhadap proses penemuan pengetahuan didalam
basisdata atau knowledge discovery in databases yang disingkat KDD. Pengetahuan bisa
berupa pola data atau relasi antar data yang valid (yang tidak diketahui sebelumnya). Data
mining merupakan gabungan sejumlah disiplin ilmu komputer yang didefinisikan sebagai
proses penemuan pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi
metode -metode yang merupakan irisan dari artificial intelligence, machine learning,
statistics, dan database systems (Suyanto, 2017).
Data mining ditujukan untuk mengekstrak (mengambil intisari) pengethuan dari
sekumpulan data sehingga didapatkan struktur yang dapat dimengerti manusia serta
meliputi basisdata dan managemen data, pemprosesan data, pertimbangan model dan
inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pasca pemprosesan terhadap
struktur yang ditemukan, visualisasi, dan online updating (suyanto, 2017).
2.1.2 Metode Data Mining
Secara umum, metode data mining dapat dibagi menjadi dua : deskriptif dan
prediktif. Deskriptif berarti data mining digunakan untuk mencari pola-pola yang dapat
dipahami manusia yang menjelaskan karakteristik data. Sedangkan prediktif berarti data
mining digunakan untuk membentuk sebuah model pengetahuan yang akan digunakan
untuk melakukan prediksi (Suyanto, 2017).
Metode yang ada dalam data mining adalah sebagai berikut :
1. Classification
Klasifikasi merupakan proses untuk menemukan sekumpulan model yang dijelaskan
kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai
suatu kelas yang belum diketahui 6 pada sebuah objek. Untuk mendapatkan model,
kita harus melakukan analisis terhadap data latih. Sedangkan data uji digunakan
untuk mengetahui tingkat akurasi dan model yang telah dihasilkan. Klasifikasi dapat
digunakan untuk memprediksi nama atau nilai dari suatu objek data.
2. Clustering
Pengelompokan data yang tidak diketahui label kelasnya kedalam sejumlah
kelompok tertentu sesuai dengan ukuran kemiripanya. Metode inilah yang
digunakan dalam tugas akhir ini.
3. Association
Tujuan dari metode ini yaitu untuk menghasilkan sejumlah rule yang menjelaskan
sejumlah data yang terhubung kuat dengan yang lainya.
4. Regression
Regression mirip dengan klasifikasi. Perbedaan utamanya adalah terletak pada
atribut yang diproduksi nilai yang kontinyu.
5. Forecasting
Prediksi (forecasting) berfungsi untuk melakukan prediksi kejadian yang akan
diproses berdasarkan data sejarah yang ada.
6. Sequence
Analiysis Tujuan dari metode ini adalah untuk mengenali pola dari data diskrit
sebagai contoh adalah menemukan kelompok gen dengan tingkat ekspresi yang
mirip.
7. Deviation
Analiysis Tujuan dari metode ini adalah untuk menemukan penyebab perbedaan
antara data yang satu dengan data yang lain dan biasa disebut sebagai outlier
detection. Sebagai contoh adalah apakah sudah terjadi penipuan terhadap pengguna
kartu kredit dengan melihat catatan transaksi yang tersimpan dalam basis data
perusahaan tersebut.

2.1 KLASIFIKASI

2.1.1 Asumsi Dalam Klasifikasi


Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:
1. Setiap record diasumsikan sudah mempunyai kelas yang dikenal seperti
ditentukan oleh label kelas atribut,
2. Kumpulan record yang digunakan untuk membuat model disebut kumpulan
pelatihan (training set),
3. Model direpresentasikan sebagai classification rules, decision tree atau formula
matematis.
Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek
yang belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi
dari model,
2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang
diklasifikasikan secara tepat oleh model,
3. Kumpulan tes tidak terikat pada kumpulan pelatihan,
4. Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data
record yang label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma
klasifikasi, dapat dilakukan dengan menghitung jumlah dari testing record yang
diprediksi secara benar (akurasi) dan salah (error rate) oleh model tersebut. Akurasi
dan error rate didefinisikan sebagai berikut :

Model di klasifikasi dapat dikatakan baik untuk digunakan apabila mempunyai akurasi
yang tinggi atau error rate yang rendah ketika model diterapkan pada testing set.
2.1.2 Klasifikasi Decision Tree
1. Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan
keputusan (rule).

Gambar 4. Konsep Decision Tree


2) Tipe Simpul Pada Tree
Tree mempunyai 3 tipe simpul, yaitu:
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada
edge keluaran.
Pada decision tree setiap simpul daun menandai label kelas. Simpul yang
bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi
tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda.
Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun
ditandai dengan bentuk segi empat.

Gambar 5. Decision tree untuk masalah klasifikasi

3) Konsep Data Dalam Decision Tree


a) Data dinyatakan dalam bentuk tabel dengan atribut dan record.
b) Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan
atribut yang menyatakan data solusi per-item data yang disebut dengan target
atribut.
c) Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut
cuaca mempunyai instance berupa cerah, berawan dan hujan.
Customer Jumlah Beli Keadaan Barang Diskon
Cinta Banyak Tidak Cacat Tidak Diskon
Jojo Sedikit Cacat Diskon
Shinta Sedang Tidak Cacat Tidak Diskon
Lala Sedikit Cacat Diskon
Maya Banyak Cacat Diskon

Instance Label Kelas


Gambar 6. Contoh data untuk Decision Tree
4) Proses Dalam Decision Tree
a ) Proses Mengubah Data Menjadi Tree

Gambar 7. Mengubah Data Menjadi Tree

b ) Ukuran untuk Memilih Split Terbaik


Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah),
tahap awal yang dilakukan adalah mengevaluasi semua atribut yang ada
menggunakan suatu ukuran statistik (yang banyak digunakan adalah
information gain) untuk mengukur efektifitas suatu atribut dalam
mengklasifikasikan suatu kumpulan sampel data. Atribut yang diletakkan pada
root node adalah atribut yang memiliki information gain terbesar. Semua atribut
adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous
harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai
informasi dari data yang merupakan nilai yang diperlukan untuk

mengklasifikasikan keputusan akhir. Secara matematis dapat dirumuskan


dengan:

c ) Entropy
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin
kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu
kelas.
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang
kode untuk menyatakan informasi secara optimal adalah p2log− bits untuk messages
yang mempunyai probabilitas p.
Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu ukuran
lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk
mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan
sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis,
nilai entropy masing-masing instance dirumuskan sebagai berikut :

Keterangan :
S = ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria
tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:

d) Information Gain
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat
diukuer efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini
disebut Information Gain. Secara matematis, information gain dari suatu atribut,
dituliskan sebagai berikut:

Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang
disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information
gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut
(simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap
nilai atribut.

Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang
bernilai diskrit dengan keputusan seperti diterima = “ya” atau “tidak”. Namun jika kita
menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk
menyelesaikannya adalah dengan mengubah nilai-nilai kontinyu menjadi nilai - nilai diskrit
dengan cara mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.
BAB III
METODE PENELITIAN

3.1 Lokasi Penelitian


Lokasi penelitian klasifikasi pekerja migran Indonesia asal Kab. Kendal dengan
metode Decision Tree adalah Balai Pelayanan Penempatan dan Perlindungan TKI
(BP3TKI) Semarang. Penelitian difokuskan di Kab. Kendal karena jumlah penempatan
TKI di Kab. Kendal termasuk paling tinggi dibanding wilayah lain di Jawa Tengah.
3.2 Objek Penelitian
Badan Nasional Penempatan dan Perlindungan Tenaga Kerja Indonesia yang
selanjutnya disebut BNP2TKI adalah Lembaga Pemerintah Non Departemen yang berada di
bawah dan bertanggung jawab kepada presiden. Badan Nasional Penempatan dan
Perlindungan Tenaga Kerja Indonesia beranggotakan wakil-wakil instansi pemerintah terkait
yang meliputi bidang ketenagakerjaan, keimigrasian, hubungan luar negeri, administrasi
kependudukan, kesehatan, kepolisian, dan bidang lain yang dianggap perlu mempunyai fungsi
pelaksanaan kebijakan di bidang penempatan dan perlindungan Tenaga Kerja Indonesia di luar
negeri secara terkoordinasi dan terintegrasi.
BNP2TKI telah mengembangakn Sistem Komputerisasi Online Tenaga Kerja Luar
Negeri yang selanjutnya disebut SISKOTKLN, yaitu sebuah sistem pelayanan administrasi
penempatan TKI yang melibatkan seluruh stakeholder terkait. SISKOTKLN ini bertujuan agar
seluruh pemangku kepentingan (stakeholder) dapat memberikan pelayanan penempatan TKI
secara layak, cepat, murah, dan efisien.
Balai Pelayanan Penempatan dan Perlindungan TKI (BP3TKI) Semarang adalah UPT
dari BNP2TKI yang berada diwilayah Jawa Tengah.

3.3 Metode Pengumpulan Data


Data untuk penelitian klasifikasi pekerja migran Indonesia asal Kab. Kendal dengan
metode Decision Tree diperoleh dari Balai Pelayanan Penempatan dan Perlindungan TKI
(BP3TKI) Semarang.

Sumber Data yang digunakan dalam penelitian adalah data primer dan data sekunder.
Sumber data primer merupakan sumber data yang diperoleh secara langsung dari sumber asli dan
tidak melalui media perantara. Data data Pekerja Migran Indonesia asal Kab. Kendal yang
digunakan diperoleh secara langsung dari objek penelitian melalui wawancara dan dokumentasi.
Sedangkan data sekunder merupakan sumber data penelitian yang diperoleh secara tidak langsung
melalui media perantara diperoleh dan dicatat oleh pihak lain. Data sekunder pada umumnya
berupa bukti catatan atau laporan historis yang dipublikasikan. Data sekunder yang di maksud
dalam penelitian ini adalah sumber data yang digunakan untuk menunjang kelengkapan teori data
primer.

3.4 Tahapan Penelitian


Sebagaimana telah dijelaskan pada subbab sebelumnya berikut adalah flowchart
tahapan penelitian :

START

Studi Lapangan

Perumusan masalah

Studi literatur

Pengumpulan data

Pengolahan data

Analisa data

Hasil penelitian

Selesai
BAB IV
PERSIAPAN DAN PENGOLAHAN DATA

4.1 Deskripsi Data


Data yang diperoleh dari BP3TKI Semarang diolah berdasarkan nama Kabupaten
atau Kota, serta jumlah penempatan berdasarkan jenis kelamin (laki – laki atau perempuan)
dan sector (formal untuk TKI yang bekerja pada tempat berbadan hukum, informal untuk
TKI yang bekerja pada perseorangan). Jenis data yang digunakan adalah data kuantitatif.
Data pekerja migran asal Kab. Kendal memiliki beberapa atribut yang akan dijelaskan
sebagai berikut:

Deskripsi Atribut yang Digunakan

Pada penelitian klasifikasi pekerja migran Indonesia asal Kab. Kendal dengan metode
Decision Tree atribut data yang digunakan ada 6 (enam). Berikut adalah penjelasan atribut
yang akan digunakan dalam penelitian ini:

Jk = Jenis Kelamin (P/L)


Pendidikan = Pendidikan terakhir (SD, SMP, SMU, Diploma, S1, Lainnya)
Status_kawin = Status Pernikahan (Kawin, Belum Kawin, Cerai)
Negara_tujuan = Negara tujuan bekerja
Sector = Sektor bekerja (Formal / Informal)
Tahapan Pengolahan Data menggunakan R
Tahapan Pengolahan Data menggunakan R penelitian klasifikasi pekerja migran
Indonesia asal Kab. Kendal dengan metode Decision Tree adalah sebagai berikut:
1. Import database

2. Jalankan code berikut:


> library(rpart)
> dat <- tkiuas
> dat$nama<-NULL
> dat$no_paspor<-NULL
> dat$usia<-NULL
> summary (tkiuas)
> model <- rpart(
+ negara_tujuan ~ jk + status_kawin + pendidikan + sektor,
+ data = dat,
+ control = rpart.control(minsplit = 2))
>
> par(xpd = NA, mar = rep(0.7, 4))
> plot(model, compress = TRUE)
> text(model, cex = 0.7, use.n = TRUE, fancy = FALSE, all = TRUE)
BAB V
PEMBAHASAN

5.1 Tampilan hasil running script R dan penjelasannya


- Langkah pertama tampilkan dataset yang akan diklasifikasikan, kali ini file yang
digunakan adalah tkiuas.csv. Dari output berikut dapat dilihat bahwa terdapat 8
(delapa) kolom, namun kolom nomor paspor; nama dan usia tidak diolah sehingga
tidak diikutkan dalam proses.
> library(rpart)
> dat <- tkiuas
> dat$nama<-NULL
> dat$no_paspor<-NULL
> dat$usia<-NULL
-
Selanjutnya lakukan summary data untuk mengetahui jumlah dari
maing – masing variable

> summary (tkiuas)


jk pendidikan status_kawin negara_tujuan sektor
L: 20 SD : 25 Belum Kawin: 36 HONGKONG :57 Formal : 24
P:131 SMP:107 Cerai : 8 SINGAPURA :32 Informal:127
SMU: 19 Kawin :107 T A I W A N :30
MALAYSIA :24
BRUNAI DARUSSALAM: 3
Q A T A R : 2
(Other) : 3

Selanjutnya kode berikut untuk membuat decision tree


> model <- rpart(
+ negara_tujuan ~ jk + status_kawin + pendidikan + sektor,
+ data = dat,
+ control = rpart.control(minsplit = 2))
>
> par(xpd = NA, mar = rep(0.7, 4))
> plot(model, compress = TRUE)
> text(model, cex = 0.7, use.n = TRUE, fancy = FALSE, all = TRUE)
Berdasarkan hasil klasifikasi sample data pekerja migran asal Kab. Kendal dengan metode
decision tree dapat dilihat bahwa kecenderungan pekerja migran masih bekerja pada sector
informal, hal ini bisa dipengaruhi beberapa factor misalnya pendidikan terakhir yang relative
rendah, permasalahan perekonomian keluarga, serta adanya peluang kerja di luar negeri
BAB VI
KESIMPULAN DAN SARAN

6.1 Kesimpulan
Klasifikasi data mining mengunakan decision tree bisa diterapkan untuk melihat
kriteria data pekerja migran. Hasil ini dapat digunakan untuk memberikan saran
pertimbangan dalam menentukan program – program pemerintah terkait peningkatan
kompetensi bagi pekerja migran Indonesia agar lebih memiliki daya saing di pasar global.
6.2 Saran
Klasifikasi data mining mengunakan decision tree dapat dilakukan pengembangan
lebih lanjut dengan melakukan klasifikasi data – data lain pada BP3TKI Semarang,
misalnya data kasus – kasus pekerja migran, atau data pemetaan supply potensi calon
tenaga sehingga pemerintah khususnya BNP2TKI bisa membuat kebijakan yang tepat dari
hasil klasifikasi data tersebut.
DAFTAR PUSTAKA

Meilina, Popy. 2014. Penerapan Data Mining Dengan Metode Klasifikasi Menggunakan Decision
Tree dan Regresi. Jurnal Teknologi Universitas Muhammadiyah. Jakarta.

Suyanto. 2017 Data Mining untuk Klasifikasi dan Klasterisasi Data. informatika Bandung

Hendrian, Senna. 2018. Algoritma Klasifikasi Data Mining Untuk Memprediksi Siswa dalam
Memperoleh Bantuan Dana Pendidikan. Jurnal Informatika Universitas Indraprasta PGRI. Jakarta
Timur.

Anda mungkin juga menyukai