Abstrak—Pengangguran merupakan masalah besar yang Statistika mencatat 7,7 juta orang Indonesia tidak terlibat
selalu dihadapi oleh negara-negara berkembang. Tingginya dalam kegiatan ekonomi nasional yang dikarenakan
pengangguran disuatu negara mengakibatkan rendahnya pengangguran. Sulawesi Utara sebagai provinsi besar ditimur
pastisipasi masyarakat dalam pertumbuhan ekonomi yang dapat Indonesia mengalami banyak permasalahan, salah satunya
berdampak pada pembangunan nasional. Badan Pusat Statistika adalah pengangguran. Sulawesi Utara menempati peringkat
mencatat 7,7 juta orang Indonesia tidak terlibat dalam kegiatan
ekonomi nasional yang dikarenakan pengangguran. Sulawesi
keenam pengangguran tertinggi di Indonesia. Hal tersebut
Utara sebagai provinsi dengan peringkat keenam pengangguran berarti Sulawesi Utara menyumbangkan 1,3 persen
tertinggi di Indonesia menyumbangkan 1,3 persen pengangguran pengangguran di Indonesia. Salah satu metode yang digunakan
di Indonesia. CART (Classification and Regression Tree) untuk menggolongkan pengangguran berdasarkan faktor yang
merupakan salah satu metode yang digunakan untuk mempengaruhi adalah Classification and Regression Trees
pengklasifikasian. CART dapat digunakan pada skala data (CART). Kedua metode ini merupakan metode yang bisa
kategorik maupun rasio. Data yang digunakan pada penelitian ini diterapkan untuk data dalam jumlah besar, variabel yang sangat
adalah data sekunder dari hasil survei angkatan kerja nasional banyak dan melalui prosedur pemilah biner. Pada penelitian ini
(SAKERNAS) bulan Agustus 2012. Variabel respon yaitu mengklasifikasikan pengangguran terbuka di provinsi Sulawesi
angkatan kerja yang bekerja dan tidak bekerja (pengangguran),
Utara yang dilakukan degan menerapkan metode CART. Data
dengan variabel prediktor jenis kelamin, tingkat pendidikan, usia,
status dalam rumah tangga, pengalaman pelatihan kerja, status yang digunakan dalam penelitian data sekunder angkatan kerja
perkawinan, dan klasifikasi tempat tinggal. Klasifikasi provinsi Sulawesi Utara dari hasil survey angkatan kerja
pengangguran provinsi Sulawesi Utara dengan metode CART nasional (SAKERNAS) Bulan Agustus 2012. Berdasarkan latar
adalah status dalam rumah tangga, jenis kelamin, usia, belakang yang telah dipaparkan penelitian ini membahas
pendidikan terakhir, dan status perkawinan. mengenai klasifikasi pengangguran berdasarkan faktor yang
mempengaruhi pengangguran terbuka provinsi di Sulawesi
Kata Kunci—Klasifikasi, CART, Pengangguran Terbuka Utara dengan metode CART.
t12 t13
dengan
: proporsi kelas j pada simpul
Gambar 2 Struktur Pohon Klasifikasi : jumlah pengamatan kelas j pada simpul t
Sampel data Learning (L) yang masih bersifat heterogen : jumlah pengamatan pada simpul t.
digunakan untuk pembentukan pohon klasifikasi. Sampel
tersebut akan dipilah berdasarkan aturan pemilahan dan kriteria 2. Pemangkasan pohon klasifikasi
goodness-of-split dan pemilihan pemilah tergantung pada jenis Bagian pohon yang kurang penting dilakukan pemangkasan
variabel responnya.Metode pemilihan pemilah menggunakan sehingga didapatkan pohon kalsifikasi yang optimal.
Impurity measure i(t) merupakan pengukuran tingkat Pemangkasan didasarkan pada suatu penilaian ukuran sebuah
keheterogenan suatu kelas dari suatu simpul tertentu dalam pohon tanpa mengorbankan kebaikan ketepatan melalui
pohon klasifikasi yang dapat membantu kita menemukan pengurangan simpul pohon sehingga dicapai ukuran pohon
fungsi pemilah yang optimal. Beberapa fungsi Impurity yang layak. Ukuran pemangkasan yang digunakan untuk
measure i(t) adalah sebagai berikut : memperoleh ukuran pohon yang layak tersebut adalah Cost
i. complexity minimum [6]. I
Sebagai ilustrasi, untuk sembarang pohon T yang
indeks Gini : (1) terbesar Tmax (T < Tmax)
merupakan sub pohon dari pohon
ii. ukuran cost complexity yaitu I
indeks Informasi (2)
dimana :
iii. I (Proporsi kesalahan pada sub
R(T) = Resubtitusion Estimate
ndeks Twoing : pohon) (3)
iv. = kompleksitas parameter I(complexity parameter)
= ukuran banyaknya simpul terminal pohon T
indeks Entropi : (4)
p(j|t) adalah peluang j pada simpul t. Goodness of Split 3. Penentuan Pohon Klasifikasi Optimal
merupakan suatu evaluasi pemilahan oleh pemilah s pada Ukuran pohon yang besar akan menyebabkan nilai
simpul t yang didefinisikan sebagai penurunan keheterogenan kompleksitas yang tinggi karena struktur data yang
dan didefinisikan sebagai digambarkan cenderung komplek, sehingga perlu dipilih pohon
(5)
optimal yang berukuran sederhana tetapi memberikan nilai
Pemilah yang menghasilkan nilai lebih tinggi penduga pengganti cukup kecil. Ada dua jenis penduga
merupakan pemilah yang lebih baik karena hal ini pengganti, penduga sampel uji (test sample estimate) dan
memungkinkan untuk mereduksi keheterogenan secara lebih penduga validasi silang lipat V (cross validation V-fold
signifikan. Metode pemilahan yang sering digunakan adalah estimate). Penelitian ini menggunakan penduga sampel uji (test
indeks Gini, hal tersebut dikarenakan lebih mudah dan sesuai sample estimate) karena cross validation V-fold estimate
untuk diterapkan dalam berbagai kasus dan mempunyai digunakan untuk jumlah sampel kecil (kurang dari 3000).
perhitungan yang sederhana dan cepat [5]. Penelitian ini menggunakan penduga sampel uji (test sample
b. Penentuan Simpul Terminal estimate) untuk penentuan pohon optimal.
Suatu simpul t akan menjadi simpul terminal atau tidak, 1. Penduga Sampel Uji (test sample estimate)
akan dipilah kembali bila pada simpul t tidak terdapat Penduga sampel uji L dibagi menjadi dua himpunan data,
penurunan keheterogenan secara berarti atau adanya batasan yaitu L1 (learning set) dan L2 (testing set). Data yang masuk
minimum n seperti hanya terdapat satu pengamatan pada tiap kedalam kelompok L1 digunakan untuk pembentukan pohon
simpul anak. Jumlah kasus minimum dalam suatu terminal
JURNAL SAINS DAN SENI POMITS Vol. 3, No.1, (2014) 2337-3520 (2301-928X Print) D-57
Tabel 1. Tabel 2.
Struktur Data Hasil Klasifikasi Pohon Optimal Variabel Penelitian
Prediksi No Variabel Skala Keterangan
Aktual Total
1 2 1: Bukan Pengangguran
1 Status (Y) Nominal
1 n11 n12 N1. 2: Pengangguran
2 n21 n22 N2. Jenis Kelamin 1: Laki-laki
2 Nominal
Total N.1 N.2 N (X1) 2: Perempuan
1 : Rendah (≤ SD)
Tingkat
3 Nominal 2 : Sedang (SMP-SMA)
Pendidikan (X2)
klasifikasi. Data yang masuk kedalam kelompok L2 digunakan 3 : Tinggi (> SMA)
untuk menduga Rts(Tt) dimana N2 adalah jumlah amatan dalam 1: Sekolah ( 10-14 tahun)
L2. adalah total proporsi dari kesalahan klasifikasi 4 Usia (X3) Nominal 2 : Produktif (15-64 tahun)
pohon klasifikasi. Pohon optimal adalah T * yang memenuhi 3 : Tidak Produktif (> 64 tahun)
kriteria . Status dalam 1: Kepala Rumah Tangga
5 Rumah Tangga Nominal
Pohon klasifikasi optimal yang terlah terbentuk dilakukan (X4) 2: Bukan Kepala Rumah Tangga
evaluasi dari hasil klasifikasi. Cara untuk mengevaluasi hasil Pengalaman 1 : Pernah
klasifikasi adalah dengan menghitung akurasi klasifikasi. 6 Pelatihan Kerja Nominal
(X5) 2 : Tidak Pernah
Sensitivity menggambarkan akurasi pada sampel kelas i
1 : Belum Kawin
sedangkan specificity menggambarkan akurasi pada sampel 7 Status Perkawinan (X6) Nominal
2 : Kawin
kelas j. G-means dapat menggambarkan bagaimana sebuah Klasifikasi Tempat 1 : Perkotaan
8 Nominal
metode klasifikasi mampu mengukur sensitivity dan specificity. Tinggal (X7) 2 : Pedesaan
Semakin besar nilai G-means menunjukkan metode klasifikasi C. Identifikasi Variabel
tersebut mampu memprediksi data di tiap kelas dengan baik. 3. Tingkat Pendidikan
Tingkat pendidikan adalah suatu kondisi jenjang
pendidikan tertinggi yang dimiliki oleh seseorang melalui
pendidikan formal yang dipakai oleh pemerintah serta
disahkan oleh departemen pendidikan.
Kategori dalam jenjang pendidikan adalah sebagai
berikut:
a. Pendidikan rendah adalah Sekolah Dasar
Keterangan :
n11 : jumlah observasi dari kelas 1 yang tepat diprediksi sebagai kelas 1 b. Pendidikan sedang adalah sekolah menengah baik itu
n22 : jumlah observasi dari kelas 2 yang tepat diprediksi sebagai kelas 2 Sekolah Menengah Pertama (SMP) maupun Sekolah
n12 : jumlah observasi dari kelas 1 yang salah diprediksi sebagai kelas 2 Menengah Atas (SMA)
n21 : jumlah observasi dari kelas 2 yang salah diprediksi sebagai kelas 1 c. Pendidikan tinggi yang meliputi Diploma, Sarjana,
N1. : jumlah observasi dari kelas 1
N2. : jumlah observasi dari kelas 2 dan Pascasarjana.
N : jumlah observasi 4. Usia
Se : Sensitivity (ketepatan klasifikasi kelas 1 terhadap jumlah total observasi Usia adalah satuan waktu yang mengukur waktu
kelas 1) keberadaan suatu benda atau makhluk, baik yang hidup
Sp : Specificity (ketepatan klasifikasi kelas 2 terhadap jumlah total observasi
kelas 2) maupun mati. Usia dapat dibedakan menjadi 3 kategori
yaitu :
III. METODOLOGI PENELITIAN a. Usia sekolah adalah usia ≤ 14 tahun
A. Sumber Data b. Usia produktif adalah usia antara 15-64 tahun
Data yang digunakan dalam penelitian ini merupakan data c. Usia tidak produktif adalah usia > 64 tahun
sekunder. Data tersebut merupakan data angkatan kerja 5. Status dalam Rumah Tangga
provinsi Sulawesi Utara yang berasal dari hasil survei angkatan Status dalam rumah tangga adalah status atau
kerja nasional (SAKERNAS) bulan Agustus 2012. Jumlah data kedudukan yang dimiliki seseorang dalam rumah tangga
dalam penenlitian ini sebanyak 14597 responden. atau keluarga. Objek dalam penelitian ini adalah seluruh
B. Definisi Operasional Variabel responden pada SAKERNAS 2012.
1. Pengangguran 6. Pelatihan Kerja
Pengangguran di Indonesia merupakan bagian dari Pelatihan kerja adalah suatu pelatihan/seminar/kursus
angkatan kerja. Angkatan kerja digolongkan menjadi dua yang menumbuhkan kreatifitas ataupun ketrampilan untuk
kategori, yaitu pengangguran dan bukan pengangguran. mendukung seseorang memasuki dunia kerja atau agar
2. Jenis Kelamin dapat mandiri membuka lapangan pekerjaan.
Jenis kelamin adalah kondisi biologis dengan 7. Status Perkawinan
pembagian alamiah manusia yang masing-masing Status perkawinan adalah status yang dimiliki
menunjukkan karakteristik laki-laki atau perempuan. seseorang apakah memiliki/ pernah memiliki ikatan
perkawinan, baik secara formal negara, agama atau adat
8. Klasifikasi Tempat Tinggal
JURNAL SAINS DAN SENI POMITS Vol. 3, No.1, (2014) 2337-3520 (2301-928X Print) D-58
Tabel 5. Tabel 8.
Skor Variabel Prediktor dalam Pohon Klaifikasi Maksimal Ketepatan Klasifikasi Data Testing
Variabel Score (%) Prediksi Kesalahan/
X4 100.00 Observasi Total Misklasifikasi
1 2
X1 69.51 (%)
X3 49.39 Data 1 258 116 374 31
X6 12.61 Testing 2 38 318 356 10,67
X2 9.38 Tingkat Akurasi Total (%) 78,90
X5 0.00 Total Tingkat Kesalahan (%) 21,1
X7 0.00 Sencitivity (%) 87,16
Tabel 6. Specificity (%) 73,27
Karakteristik Pengangguran Terbuka Provinsi Sulawesi Utara Keterangan :
Simpul 1 : Bukan Pengangguran
No. Karakteristik
Terminal 2 : Pengangguran
a. Kepala rumah tangga 72,48 persen.
1 2
b. Usia tidak produktif (> 64 tahun)
a. Bukan kepala rumah tangga
4. Validasi Pohon Klasifikasi
b. Usia produktif (15 - 64 tahun) Ketepatan klasifikasi pohon optimal yang dihasilkan
2 6 c. Memiliki pendidikan sedang (SMP – SMA) adalah sebesar 78,90 persen. Nilai senciticity pada data testing
d. Laki-laki adalah 87,16 persen yang berarti tingkat akurasi pada angkatan
e. Belum menikah
a. Bukan kepala rumah tangga
kerja yang tergolong bekerja adalah sebesar 87,16 persen.
b. Usia produktif (15 – 64 tahun) Tingkat akurasi pada angkatan kerja yang tergolong
3 7*
c. Tidak berpendidikan tinggi ( ≤ SMA) pengangguran adalah sebesar 73,27 persen yang ditunjukkan
d. Laki-laki oleh nilai specifity. Tingkat akurasi total antara data learning
a. Bukan kepala rumah tangga
4 8*
b. Usia produktif (15 – 64 tahun)
dan data testing seimbang sehingga dapat dikatakan klasifikasi
Keterangan : pohon optimal yang terbentuk sudah baik.
(*) Simpul terminal dengan jumlah pengangguran tertinggi
Tabel 7. V. KESIMPULAN DAN SARAN
Ketepatan Klasifikasi Data Learning Faktor yang mempengaruhi pengangguran terbuka di
Prediksi Kesalahan/
Observasi Total Misklasifikasi
provinsi Sulawesi Utara dengan menggunakan CART yaitu
1 2 Jenis Kelamin, Pendidikan terakhir, Usia, Status dalam Rumah
(%)
Data 1 4615 2344 6959 33,68 Tangga, dan Status Perkawinan. Metode CART pada penelitian
Learning 2 735 6173 6908 10,64 ini memiliki ketepatan klasifikasi 78,90 persen sehingga
Tingkat Akurasi Total (%) 77,80 diperlukan penelitian dengan menggunakan metode yang
Total Tingkat Kesalahan (%) 22,20
Sencitivity (%) 86,26
berbeda (SVM ataupun CHAID). Hal tersebut bertujuan agar
Specificity (%) 72,48 didapatkan ketepatan klasifikasi yang lebih tinggi. Perlu
Keterangan : dilakukan penambahan variabel lain, missal pendapatan dan
1 : Bukan Pengangguran klasifikasi kabupaten atau kota agar dapat lebih mewakili karakteristik
2 : Pengangguran pengangguran di provinsi Sulawesi Utara.
3 Pohon Klasifikasi
Pohon klasifikasi optimal yang terbentuk menghasilkan 8 DAFTAR PUSTAKA
simpul terminal. Klasifikasi angkatan kerja yang tergolong [1] Suryana. 2000. Ekonomi Pembangunan Problematika dan Pendekatan,
Bandung: Salemba Empat
kedalam kategori pengangguran terbentuk dalam 4 simpul
[2] Widodo, S T. 1990, Indikator Ekonomi, Yogyakarta: Kanisius.
terminal. Delapan puluh persen pengangguran terklasifikasi [3] Sistem Informasi Rujukan Statistik. 2011. Survei Angkatan Kerja Nasional
pada simpul terminal 7 dan simpul terminal 8. (SAKERNAS) [Online]. Avaible : diakses tanggal 17 Januari 2014
Prosentase kesalahan pengklasifikasian angkatan kerja yang [4] Sadono, Sukirno . 2004. Makro Ekonomi Edisi Ketiga. Jakarta : PT. Raja
Grafindo Persada
tergolong dalam bekerja untuk data learning adalah sebesar
[5] Breiman L., Friedman J.H Olshen R.A & Stone C.J. 1984. Classification
33,68 persen dan dengan ketepatan pengklasifikasiannya And Regression Tree. New York, NY: Chapman And Hall
sebesar 77,80 persen. Untuk angkatan kerja yang dikategorikan [6] Lewis, M.D dan Roger, J. 2000. An Introduction to Classification and
sebagai pengangguran terdapat sebanyak 6908 orang, diduga Regression Tree (CART) Analysis. Presented at the 2000 Anual Meeting
of Society For Academy Emergency Medicine in San Fransisco, California
sebanyak 735 orang salah diklasifikasikan dengan prosentase
[Online]. Avaible: diakses tanggal 28 September 2013
kesalahan pengklasifikasian sebesar 10,64 persen dan dengan [7] Badan Pusat Statistika (BPS) Provinsi Sulawesi Utara. 2013. Keadaan
ketepatan klasifikasi sebesar 89,36 persen. Ketenagakerjaan Sulawesi Utara Tahun 2012 [Online]. Avaible: diakses
Dapat disimpulkan untuk nilai total akurasi pada data learning tanggal 30 September 2013
[8] Walpole, R E. 1995. Pengantar Metode Statistika Edisi Keempat, Institut
sebesar 77,80 persen artinya pohon klasifikasi yang terbentuk
Teknologi Bandung: Bandung.
mampu memprediksi dengan tepat pengamatan sebesar 77,80 [9] Yuniarto. 2009. Klasifikasi Angkatan Kerja Provinsi Bengkulu
persen. Tingkat akurasi pada angkatan kerja yang tergolong Menggunakan Metode CART dan Regresi Logistik [Tugas Akhir],
bekerja ditunjukkan oleh nilai sencitivity sebesar 86,26 persen Surabaya: Institut Teknologi Sepuluh Nopember.
dan tingkat akurasi pada angkatan kerja yang tergolong
pengangguran ditunjukkan oleh nilai specificity yaitu sebesar