Disusun oleh:
SAUFIKA SUKMAWATI - 18.01.55.5004
2.1 KLASIFIKASI
Model di klasifikasi dapat dikatakan baik untuk digunakan apabila mempunyai akurasi
yang tinggi atau error rate yang rendah ketika model diterapkan pada testing set.
2.1.2 Klasifikasi Decision Tree
1. Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan
keputusan (rule).
c ) Entropy
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin
kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu
kelas.
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang
kode untuk menyatakan informasi secara optimal adalah p2log− bits untuk messages
yang mempunyai probabilitas p.
Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu ukuran
lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk
mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan
sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis,
nilai entropy masing-masing instance dirumuskan sebagai berikut :
Keterangan :
S = ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria
tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
d) Information Gain
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat
diukuer efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini
disebut Information Gain. Secara matematis, information gain dari suatu atribut,
dituliskan sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang
disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information
gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut
(simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap
nilai atribut.
Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang
bernilai diskrit dengan keputusan seperti diterima = “ya” atau “tidak”. Namun jika kita
menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk
menyelesaikannya adalah dengan mengubah nilai-nilai kontinyu menjadi nilai - nilai diskrit
dengan cara mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.
BAB III
METODE PENELITIAN
Sumber Data yang digunakan dalam penelitian adalah data primer dan data sekunder.
Sumber data primer merupakan sumber data yang diperoleh secara langsung dari sumber asli dan
tidak melalui media perantara. Data data Pekerja Migran Indonesia asal Kab. Kendal yang
digunakan diperoleh secara langsung dari objek penelitian melalui wawancara dan dokumentasi.
Sedangkan data sekunder merupakan sumber data penelitian yang diperoleh secara tidak langsung
melalui media perantara diperoleh dan dicatat oleh pihak lain. Data sekunder pada umumnya
berupa bukti catatan atau laporan historis yang dipublikasikan. Data sekunder yang di maksud
dalam penelitian ini adalah sumber data yang digunakan untuk menunjang kelengkapan teori data
primer.
START
Studi Lapangan
Perumusan masalah
Studi literatur
Pengumpulan data
Pengolahan data
Analisa data
Hasil penelitian
Selesai
BAB IV
PERSIAPAN DAN PENGOLAHAN DATA
Pada penelitian klasifikasi pekerja migran Indonesia asal Kab. Kendal dengan metode
Decision Tree atribut data yang digunakan ada 6 (enam). Berikut adalah penjelasan atribut
yang akan digunakan dalam penelitian ini:
6.1 Kesimpulan
Klasifikasi data mining mengunakan decision tree bisa diterapkan untuk melihat
kriteria data pekerja migran. Hasil ini dapat digunakan untuk memberikan saran
pertimbangan dalam menentukan program – program pemerintah terkait peningkatan
kompetensi bagi pekerja migran Indonesia agar lebih memiliki daya saing di pasar global.
6.2 Saran
Klasifikasi data mining mengunakan decision tree dapat dilakukan pengembangan
lebih lanjut dengan melakukan klasifikasi data – data lain pada BP3TKI Semarang,
misalnya data kasus – kasus pekerja migran, atau data pemetaan supply potensi calon
tenaga sehingga pemerintah khususnya BNP2TKI bisa membuat kebijakan yang tepat dari
hasil klasifikasi data tersebut.
DAFTAR PUSTAKA
Meilina, Popy. 2014. Penerapan Data Mining Dengan Metode Klasifikasi Menggunakan Decision
Tree dan Regresi. Jurnal Teknologi Universitas Muhammadiyah. Jakarta.
Suyanto. 2017 Data Mining untuk Klasifikasi dan Klasterisasi Data. informatika Bandung
Hendrian, Senna. 2018. Algoritma Klasifikasi Data Mining Untuk Memprediksi Siswa dalam
Memperoleh Bantuan Dana Pendidikan. Jurnal Informatika Universitas Indraprasta PGRI. Jakarta
Timur.