Anda di halaman 1dari 6

Journal of Data Mining

Analisa Dan Komparasi Algoritma Data Mining Untuk


Pengklasifikasian Pekerjaan Lulusan Mahasiswa
D2 Manajemen Informatika di Akademi Komunitas Negeri
Bojonegoro
Aries Alfian Prasetyo
Prodi Magister Teknik Informatika, Universitas Dian Nuswantoro
aries.alfian@gmail.com

Abstrak: Idealnya Indeks Prestasi Komulatif (IPK) dapat Selain mengasah kemampuan mahasiswa untuk
dijadikan sebagai tolok ukur bagi prestasi dan kemampuan berorganisasi, mahasiswa juga harus memiliki pengakuan dan
mahasiswa dalam karir mereka setelah lulus, namun penilaian dari skill yang telah mereka terima dan miliki. Hal
kenyataan dilapangan berkata lain. Diperlukan faktor lain itu akan didapat melalui kegiatan sertifikasi keahlian,
yang dapat mendukung IPK agar industri atau dunia kerja sertifikasi keahlian yang diikuti tentunya sesuai dengan fokus
bisa menerima mereka untuk bekerja, jika berwirausaha skill bidang Informatika masing-masing mahasiswa. Dengan
produk yang dihasilkan disukai pelanggan, factor tersebut pengakuan dari sertifikasi keahlian dan keikutsertaan
adalah pengalaman berorganisasi dan sertifikasi keahlian. mahasiswa dalam berorganisasi, diharapkan saat lulus nanti
Metode penelitian yang digunakan adalah dengan kedua hal tersebut dapat menjadi nilai tambah bagi Indeks
menggunakan dataset pekerjaan mahasiswa lulusan Akademi Prestasi Komulatif (IPK) yang didapat mahasiswa saat lulus
Komunitas Negeri Bojonegoro, Komparasi menggunakan 5 nanti.
Algoritma klasifikas, dengan model validasi 10 fold cross Idealnya IPK dapat dijadikan sebagai tolok ukur bagi
validation, metode evalusi dengan accuracy, dan Uji Beda T- prestasi dan kemampuan mahasiswa dalam karir mereka
Test digunakkan untuk mencari perbandingan performa dari setelah lulus, namun kenyataan dilapangan berkata lain,
masing-masing Algoritma. Dari hasil analisa perbandingan diperlukan factor pendukung lain yang dapat mendukung IPK
algoritma untuk pengklasifikasian pekerjaan mahasiswa agar industry bisa menerima mereka maupun pelanggan bisa
setelah lulus, algoritma dengan akurasi paling tinggi adalah membeli produk mereka, factor yang dimaksud adalah adalah
algoritma Decision Tree (C4.5), dan yang terendah adalah pengalaman berorganisasi dan sertifikasi keahlian
algoritma ID3. Dalam proses uji beda dengan menggunakan t- 2 TINJAUAN STUDI
test hasil klasifikasi pekerjaan mahasiswa setelah lulus, tidak Berbagai penelitian mengenai Pekerjaan Mahasiwa
ada perbedaan performa yang signifikan antara, Decision Tree lulusan telah dilakukan sebelumnya. Perbedaan yang paling
(C4.5), K-NN Naïve Bayes, dan random forest perbedaan menonjol dari tiap penelitian terletak pada dataset dan fitur-
muncul pada algoritma terdapat pada algoritma ID3. fitur yang digunakkan. Perbedaan lain juga terletak pada
Kata Kunci: Pengklasifikasian Pekerjaan Lulusan, Komparasi metode klasifikasi.
Algoritma Klasifikasi Data Mining. Parameter penentuan atribut atau variable bebas dalam
penelitian ini akan menentukan hasil atau label yang akan
1 PENDAHULUAN didapatkan, seperti diketahui atribut yang digunakan dalam
Akademi komunitas merupakan Perguruan Tinggi yang penelitian ini adalah Prestasi Akademik, Sertifikasi
menyelenggarakan pendidikan vokasi setingkat diploma satu Kompetensi dan Minat atau Kegiatan Pendukung. Dari hasil
dan/atau diploma dua dalam satu atau beberapa cabang Ilmu survei menunjukkan bahwa ketiga atribut atau tersebut dapat
pengetahuan dan/atau Teknologi tertentu berbasis keunggulan dijadikan sebagai acuan dalam analisa pekerjaan yang sesuai
local atau untuk memenuhi kebutuhan khusus, (Menteri bagi mahasiswa lulusan,(Sugiyanto, Suprapedi, 2009).
Pendidikan Nasional, 2012). Sebagai sebuah lembaga Setelah diketahui atribut yang dapat menentukan hasil,
pendidikan tinggi, AKN Bojonegoro memiliki kewajiban pembobotan dilakukan dengan metode perbandingan
untuk membina dan mengembangkan bakat dari setiap anak berpasangan (pairwise comparisons) untuk menentukan
didik atau mahasiswanya, (Komunitas, Pendidlkan, tingkat relatifitas terhadap kriteria lainnya.
Kebudayaan, & Indonesia, 2013). Dalam masa pendidikan 2 Penelitian lain disebutkan (Kaswidjanti, Charibaldi, &
tahun mahasiswa diasah skil dan mental mereka hingga Mallisa, 2010), untuk akumulasi total relasi dapat
akhirnya ketika lulus mahasiswa siap untuk berkarir, menggunakan metode AHP dengan prinsip pembobotan direct
khususnya dibidang informatika dan bidang lain pada data entry serta himpunan Fuzzy pada Logika Fuzzy. Penetuan
umumnya. pekerjaan yang sesuai dilakukan dengan kriteria yang telah
Dalam mengasah skil dan mental mahasiswa, lembaga dimasukkan.
telah mempersiapkan berbagai kegiatan yang bisa diikuti Dari penelitian-penelitian tersebut, penentuan pekerjaan
mahasiswa selama melakukan studi, diantaranya organisasi dapat dilakukan dengan menggunakan metode perbandingan
mahasiswa dan sertifikasi keahlian untuk mahasiswa. berpasangan (pairwise comparisons), AHP dan menggunakan
Tujuannya dengan berorganisasi mahasiswa memiliki Logika Fuzzy. Dalam proses klasifikasi masalah yang akan
pengalaman bekerja kelompok dan memecahkan masalah muncul adalah tingkat akurasi dari sebuah metode yang
secara bersama-sama, sekaligus sebagai ajang sosialisasi digunakan untuk analisa, semakin tinggi tingkat akurasi
sehingga pemikiran bidang social mahasiswa semakin luas penentuan label atau hasil akan lebih baik.
dan terbuka. Tingkat akurasi dalam analisa suatu data dapat diukur
apabila dilakukan komparasi dari algoritma, selain tingkat
Copyright @ 2015 aries alfian prasetyo
Prodi Magister Teknik Informatika, Universitas Dian Nuswantoro
1
Journal of Data Mining

akurasi performa dari tiap algoritma yang digunakan juga dari statistika dan (2) algoritme pencarian, teknik pemodelan,
dapat diketahui. Sebelumnya teknik komparasi algoritma dan teori pembelajaran dari kecerdasan buatan, pengenalan
telah dilakukan oleh, (Yu, Chen, Koronios, Zhu, & Guo, pola, dan machine learning.
2007). Dalam penelitian tersebut komparasi algoritma Data mining juga telah mengadopsi ide-ide dari area lain
digunakan untuk penentuan resiko kredit, hasil dari meliputi optimisasi, evolutionary computing, teori informasi,
penelitian tersebut algoritma CBA memiliki akurasi dan pemrosesan sinyal, visualisasi dan information retrieval. .
performa terbaik untuk pencarian resiko kredit. Gambaran lebih jelas pada data mining ada pada gambar 3.1
Dalam penelitian ini, analisa klasifikasi pekerjaan Tahapan data mining.
dilakukan dengan mengkomparasi algoritma, 5 algoritma
yaitu Decision Tree (C4.5), K-NN Naïve Bayes, dan random
forest dan ID3. untuk menentukan algoritma mana yang
memiliki tingkat akurasi tinggi dan performa terbaik untuk
menentukan suatu pekerjaan yang cocok bagi mahasiswa
lulusan.
3 TINJAUAN PUSTAKA
3.1 Profesi Dalam Bidang Informatika
Dalam berkarir dibidang Informatika secara umum,
pekerjaan di bidang teknologi informatika setidaknya terbagi
dalam 3 kelompok sesuai bidangnya, (Habibie, 2005).
a. Kelompok pertama, system, analis dan programmer adalah
mereka yang bergelut di dunia perangkat lunak (software),
baik mereka yang merancang dan mengimplementasikan
system operasi,database maupun system aplikasi.
b. Kelompok kedua, Technical engineer adalah mereka yang
bergelut di bidang perangkat keras (hardware). sering juga Gambar 3.1 Tahapan Data Mining
disebut teknisi, yaitu orang yang berkecimpung dalam
bidang teknik, baik mengenai pemeliharaan maupun 3.3 Klasifikasi
perbaikan perangkat system computer, jaringan computer Klasifikasi adalah suatu bentuk analisa data yang
dari maintenance sampai pada troubleshooting-nya. mengekstrak data atau atribut dan menggambarkanya
c. Kelompok ketiga, System Administrator dan Operator kedalam data yang lebih penting, (Han, Kamber, & Pei,
adalah mereka yang berkecimpung dalam administrasi dan 2012).
operasional system informasi, memiliki kewenangan Klasifikasi adalah proses menemukan model (fungsi) yang
meng¬gunakan hak akses terhadap system, serta hal-hal menjelaskan dan membedakan kelas-kelas atau konsep,
lain yang berhubungan dengan pengaturan operasional dengan tujuan agar model yang diperoleh dapat digunakan
sebuah system. untuk memprediksikan kelas atau objek yang memiliki label
b. Jenis Sertifikasi Bidang Informatika kelas tidak diketahui. Model yang turunkan didasarkan pada
Pada dasarnya ada 2 jenis sertifikasi yang umum analisis dari training data (yaitu objek data yang memiliki
dikenal di masyarakat, yaitu label kelas yang diketahui). Model yang diturunkan dapat
• Sertifikasi akademik (sebetulnya tidak tepat disebut direpresentasikan dalam berbagai bentuk seperti aturan IF-
sertifikasi) yang memberiakan gelar, Sarjana, Master dll THEN klasifikasi, pohon keputusan, formula matematika atau
• Sertifikasi profesi. Yaitu suatu sertifikasi yang diberikan jaringan syarf tiruan.(Larose, 2005)
berdasarkan keahlian tertentu untuk profesi tertentu. Dalam penelitian ini, analisa klasifikasi pekerjaan
Dalam Sertifikasi Profesi Bidang Informatika terdapat dilakukan dengan mengkomparasi 5 algoritma yaitu Decision
beberapa jenis, Tree (C4.5), K-NN Naïve Bayes, dan random forest dan ID3.
1) Sertifikasi untuk Bahasa Pemrograman untuk menentukan algoritma mana yang memiliki tingkat
2) Sertifikasi untuk Database akurasi tinggi dan paling optimal untuk menentukan suatu
3) Sertifikasi untuk office pekerjaan yang cocok bagi mahasiswa lulusan.
4) Sertifikasi di bidang Jaringan a. Decision Tree
5) Sertifikasi dibidang Graphics dan Multimedia Decision Tree adalah metodologi klasifikasi, dimana proses
klasifikasi dimodelkan dengan menggunakan satu set
Dari jenis pekerjaan dan sertifikasi tersebut akan keputusan secara hirakis pada tiap variable diwujudkan dalam
ditentukan jenis pekerjaan yang paling banyak digeluti oleh struktuk seperti pohon. (Aggarwal, 2015).
mahasiswa setelah lulus, jika dilihat dari tolok ukur IPK,
pengalaman berorganisasi dan sertifikasi keahlian. A
Yes No
3.2 Data Mining
Data mining merupakan proses untuk menemukan pola
B C
(pattern) dari suatu data. Pola (pattern) yang ditemukan harus Yes No
memiliki arti atau mengandung informasi penting (Witten, No Yes
Frank, & Hall, 2011)
Data mining adalah proses analisis dari dataset (berukuran X C D
besar) untuk menemukan suatu hubungan tak terduga serta
meringkas data tersebut dengan cara baru yang dapat Gambar 3.2 Pohon Keputusan
dimengerti dan bermanfaat bagi pemilik data Tahapan-tahapan pencarian dalam algoritma
Secara khusus, data mining menggunakan ide-ide seperti decision tree (C4.5) diawali dengan memilih informasi
(1) pengambilan contoh, estimasi, dan pengujian hipotesis, tertinggi pada suatu atribut atau disebut dengan Gain. Gain
Journal of Data Mining

mengukur seberapa baik suatu attribute memisahkan training depan. Dimana antar atribut tidak saling berkaitan atau tidak
example ke dalam kelas target. Dengan tujuan untuk menentukan.(Mitchell, 2015).
mendefiniskan gain, pertama-tama digunakanlah ide dari teori Dalam mencari kemungkinan peluang dalam sebuah kasus
informasi yang disebut entropi. Entropi mengukur jumlah algoritma naïve bayes menggunakan rumus:
informasi yang ada pada atribut. Rumus Entropi adalah:
( | ). ( ) (4)
( | ) =
( ) = − ∑ p (1) ( )
B = Label atau kelas pada sebuah table kasus
S = Himpunan dataset kasus A = Atribut dalam suatu table kasus
P = Probabilitas yang didapat dari jumlah P(B) = Probabilitas dari suatu kelas
kasus pada partisi dibagi total kasus P(A) = Probabilitas dari suatu atribut
P(A|B) = Ketentuan dari atribut A yang memberikan
Rumus untuk menghitung gain adalah: probabilitas pada kelas B
(2) P(B|A) = Probabilitas dari class B yang memberikan
| | ketentuan terhadap atribut A
( , ) = ( ) − ( )
| | Tahapan Algoritma Naïve Bayes, sebagai berikut:

S = himpunan kasus 1) Hitung P(B) : berapa jumlah kemungkinan dari semua
A = atribut data.
|Sa| = Jumlah kasus pada bagian ke-a 2) Tentukan atribut yang memiliki probabilitas yang sama P
|S| = Jumlah kasus dalam S (A|B)
3) Hitung hasil dengan probabilitas data sesuai hipotesis.
Setelah mendapatkan informasi dari semua atribut yang 4) Cari nilai maksimum dari hasil hitung.
dihitung, atribut dengan information gain tertinggi dipilih d. Random Forest
sebagai atribut node awal (root node) serta cabang-cabangnya Metode random forest adalah pengembangan dari metode
CART, yaitu dengan menerapkan metode bootstrap
di buat sesuai nilai-nilai kemungkinan. Proses ini terus
aggregating (bagging) dan random feature selection (Breiman
berulang sepanjang atau pada setiap cabang. 2001). Dalam random forest, banyak pohon ditumbuhkan
b. K-NN (K-Nearest Neighboor) sehingga terbentuk hutan (forest), kemudian analisis
Algoritma k-nearest neighbor adalah algoritma klasifikasi dilakukan pada kumpulan pohon tersebut. Pada gugus data
yang mengklasifikasikan titik data dengan mengambil suara yang terdiri atas n amatan dan p peubah penjelas, random
terbanyak yang paling mirip dengan k titik data. (Hastie, forest dilakukan dengan cara (Breiman 2001; Breiman &
Tibshirani, Friedman, 2009). Cutler 2003):
Jika D adalah sekumpulan data pelatihan maka ketika data 1. Lakukan penarikan contoh acak berukuran n dengan
uji d disajikan, algoritma akan menghitung jarak antara setiap pemulihan pada gugus data. Tahapan ini merupakan
data dalam D dengan data uji d. perhitungan jaraj dilakukan tahapan bootstrap.
menggunakan Euclidian distance. Kemudian, k buah data 2. Dengan menggunakan contoh bootstrap, pohon dibangun
dalam D yang memiliki jarak terdekat denagn d diambil. sampai mencapai ukuran maksimum (tanpa pemangkasan).
Himpunan k merupakan k-nearest neighbor. Pada setiap simpul, pemilihan pemilah dilakukan dengan
Tahapan-tahapan algoritma k-nearest neighbor (k-NN): memilih m peubah penjelas secara acak, dimana m << p.
1. Tentukan parameter K (jumlah tetangga terdekat), Pemilah terbaik dipilih dari m peubah penjelas tersebut.
2. Hitung jarak antara data baru dengan semua data Tahapan ini adalah tahapan random feature selection.
training. Jarak antara data baru dengan semua data 3. Ulangi langkah 1 dan 2 sebanyak k kali, sehingga
training (jarak euclidian) dapat diperoleh dengan terbentuk sebuah hutan yang terdiri atas k pohon.
menggunakan rumus: Respons suatu amatan diprediksi dengan menggabungkan
(aggregating) hasil prediksi k pohon. Pada masalah klasifikasi
(3) dilakukan berdasarkan majority vote (suara terbanyak). Error
klasifikasi random forest diduga melalui error OOB yang
( , ) = ( )
diperoleh dengan cara (Breiman 2001; Breiman & Cutler
2003; Liaw & Wiener 2002):
Keterangan : 1. Lakukan prediksi terhadap setiap data OOB pada pohon
d = jarak Euclidian (jarak antara titik yang bersesuaian. Data OOB (out of bag) adalah data yang
pada data training x dan titik ata tidak termuat dalam contoh bootstrap.
testing y yang akan diklasifikasi. 2. Secara rata-rata, setiap amatan gugus data asli akan menjadi
, ,….., = nilai atribut data OOB sebanyak sekitar 36% dari banyak pohon. Oleh
, ,….., = nilai atribut karena itu, pada langkah 1, masing-masing amatan gugus
i = nilai atribut data asli mengalami prediksi sebanyak sekitar sepertiga kali
n = dimensi atribut dari banyaknya pohon. Jika a adalah sebuah amatan dari
3. Urutkan jarak tersebut dan tetapkan tetangga terdekat gugus data asli, maka hasil prediksi random forest terhadap
berdasarkan jarak minimum ke-K, a adalah gabungan dari hasil prediksi setiap kali a menjadi
4. Periksa class dari tetangga terdekat, data OOB.
5. Gunakan mayoritas sederhana dari class tetangga 3. Error OOB dihitung dari proporsi misklasifikasi hasil
terdekat sebagai nilai prediksi data baru prediksi random forest dari seluruh amatan gugus data asli.
c. Naïve Bayes Breiman dan Cutler (2003) menyarankan untuk mengamati
Merupakan metode klasifikasi dengan menggunakan error OOB saat dan k kecil, lalu memilih m yang
probabilitas dan statistik untuk menentukan peluang dimasa menghasilkan error OOB terkecil. Jika random forest
Copyright @ 2015 aries alfian prasetyo
Prodi Magister Teknik Informatika, Universitas Dian Nuswantoro
3
Journal of Data Mining

dilakukan dengan menghasilkan variable importance, Data yang digunakan adalah data yang didapatkan dari
disarankan untuk menggunakan banyak pohon, misalnya hasil rekap staff administrasi AKN Bojonegoro, data tersebut
1000 pohon atau lebih. Jika peubah penjelas yang dianalisis berisi Nama Mahasiswa, Jenis Kelamin, Organisasi,
sangat banyak, nilai tersebut dapat lebih besar agar variable Sertifikat, IPK dan Bidang Kerja.. Untuk lebih jelas lihat pada
importance yang dihasilkan semakin stabil. gambar 4.1 Struktur Metodologi Penelitian.
e. ID3 (Iterative Dichotomiser 3)
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3)
merupakan sebuah metode yang digunakan untuk Dataset
membangkitkan pohon keputusan. Algoritma pada metode ini
menggunakan konsep dari entropy informasi. Pemilihan Dataset Pekerjaan Mahasiswa
Lulusan Akademi Komunitas
atribut dengan menggunakan Information Gain. Pemilihan Negeri Bojonegoro
atribut pada ID3 dilakukan dengan properti statistik, yang
disebut dengan information gain. Gain mengukur seberapa
baik suatu atribut memisahkan training example ke dalam
kelas target. Atribut dengan informasi tertinggi akan dipilih.
Dengan tujuan untuk mendefinisikan gain, pertama-tama Algoritma Klasifikasi
digunakanlah ide dari teori informasi yang disebut entropy.
Entropy mengukur jumlah dari informasi yang ada pada Decision
K-NN
Naïve Random
ID3
Tree (C4.5) Bayes Forest
atribut dengan rumus.

( ) = − ∑ p (5)
Metode Validasi
S = Himpunan dataset kasus
P = Probabilitas yang didapat dari jumlah 10 fold cross
Validation
kasus pada partisi dibagi total kasus
Pada algoritma ID3 pengurangan entropy disebut dengan
informasi gain. Pembagian sample S terhadap atribut A dapat
dihitung information gain dengan rumus Metode Evaluasi
(6)
| | Accuracy
( , ) = ( ) − ( )
| |

S = himpunan kasus
A = atribut Metode Perbandingan
|Sa| = Jumlah kasus pada bagian ke-a
T-Test
|S| = Jumlah kasus dalam S
Pilih atribut yang memiliki nilai information gain terbesar,
ulangi proses perhitungan information gain akan terus
Gambar 4.1 Struktur Metodologi Penelitian
dilaksanakan sampai semua data telah masuk dalam kelas
yang sama. Atribut yang telah dipilih tidak diikutkan lagi
Sebagai label dalam data ini adalah atribut Bidang Kerja,
dalam perhitungan nilai information gain
sehingga tolak ukur klasifikasinya mahasiswa dengan IPK
tinggi, mengikuti organisasi dan mempunyai sertifikat akan
4 METODOLOGI PENELITIAN bekerja sebagai Admin, Teknisi, Operator atau berwirausaha,
Dalam mengetahui bidang pekerjaan yang paling banyak
begitu juga sebaliknya jika mahasiswa tidak berorganisasi dan
digeluti oleh mahasiswa setelah lulus, jika dilihat dari tolok memiliki sertifikat bidang kerja apa yang akan mereka tekuni.
ukur IPK, pengalaman berorganisasi dan sertifikasi keahlian. Tabel 4.2 Dataset Pekerjaan Mahasiswa Lulusan.
Digunakan perbandingan dengan 5 algoritma yaitu; 1)
Decision Tree (C4.5), 2) K-NN, 3). Naïve bayes, 4). Random Tabel 4.2 Dataset Pekerjaan Mahasiswa Lulusan
Forest, 5). ID3. Lebih jelas dijabarkan dalam Tabel 4.1
Klasifikasi algoritma. BIDANG
Tabel 4.1 Klasifikasi Algoritma Nama Jenis Kelamin Organis Sertifik IPK KERJA
asi at
Decision Nearest Statistical Abdul LAKI-LAKI YA YA 3.25 Teknisi
Ghofur
Tree Neighbor Clasifier Achmad Aris LAKI-LAKI TIDAK YA 3.12 Programmer
C4.5 K-NN Naïve Bayes Prayogo
Adik Mei LAKI-LAKI TIDAK YA 3.23 Programmer
Random Praja
Forest Aditya LAKI-LAKI TIDAK YA 3.5 Programmer
ID3 Mahatma
Agung Dwi LAKI-LAKI YA YA 3.45 Teknisi
Suprayogo
Agung LAKI-LAKI TIDAK YA 3.1 Programmer
Langkah awal dalam penelitian adalah melakukan validasi Supramono
terhadap dataset dengan model validasi 10 fold cross Agus LAKI-LAKI TIDAK YA 3.24 Programmer
validation, kemudian melakukan evaluasi dengan Rudianto
Ahmad Azmi LAKI-LAKI TIDAK YA 3.5 Programmer
menggunakan metode evalusi accuracy, dan Uji Beda T-Test Muhyiddin
digunakkan untuk mencari perbandingan performa dari Ahmad LAKI-LAKI YA TIDAK 2.81 Wirausaha
masing-masing algoritma. Khafidzyi
Ahmad Lutfi LAKI-LAKI YA YA 3.45 Teknisi

Copyright @ 2015 aries alfian prasetyo


Prodi Magister Teknik Informatika, Universitas Dian Nuswantoro
4
Journal of Data Mining

Masruri M.
Ahmad LAKI-LAKI YA TIDAK 3.05 Admin Qomarudin LAKI-LAKI YA YA 3.13
Muharom Prima Admin
Alfry Aryo LAKI-LAKI YA TIDAK 3.4 Wirausaha M.
Arifiansyah Salahhuddin LAKI-LAKI TIDAK YA 3.28
Alifatun PEREMPUAN YA YA 3.12 Teknisi Abdurohim Programmer
Nurma Diatik Maulana
Amim LAKI-LAKI TIDAK YA 2.98 Programmer Panji Lintang LAKI-LAKI YA TIDAK 3.1
Thobary Pati Wirausaha
Andon Arifin LAKI-LAKI TIDAK YA 3.03 Programmer
Michael
Anggie Indah PEREMPUAN TIDAK YA 3.34 Programmer
Febry
Purwitaning LAKI-LAKI TIDAK TIDAK 3.35
Prawindaput
Ari Wijayanti LAKI-LAKI YA YA 3.25 Admin
ra Kuliah
Ariq Ro'iyah LAKI-LAKI YA YA 3.21 Teknisi
Ashofi Miftahul
LAKI-LAKI TIDAK YA 3.4
Arsyad LAKI-LAKI YA YA 3.54 Programmer Hadi Heri D Programmer
Bahtyar Alim Moch. Edvin
LAKI-LAKI TIDAK YA 3.31
Arya Andrianto Programmer
LAKI-LAKI YA YA 3.21 Moh, Luluk
Suprayoga Teknisi LAKI-LAKI TIDAK YA 3.15
Aryanti Sekar Nur Azis Programmer
PEREMPUAN YA TIDAK 3.2 Mohamad
Wahyu Wirausaha LAKI-LAKI TIDAK YA 3.3
Asrorul Juwahir Programmer
PEREMPUAN TIDAK YA 3.11 Much. Umar
Mufidah Programmer LAKI-LAKI TIDAK YA 3.25
Audina Gufron Programmer
Meycher PEREMPUAN TIDAK TIDAK 3.35 Muhammad
LAKI-LAKI YA YA 3.03
Novita Kuliah Ali Imron Teknisi
Awalluddin Muhammad
Syaroni LAKI-LAKI TIDAK YA 3.21 Aminur LAKI-LAKI YA YA 3.27
Ahmad Programmer Rohman Teknisi
Azis Amrozi LAKI-LAKI TIDAK YA 3.12 Programmer Muhammad
Badrus Rico Satrio LAKI-LAKI TIDAK YA 3.1
LAKI-LAKI YA YA 3.52 Agung Teknisi
Sholeh Programmer
Bagus Muhammad
LAKI-LAKI TIDAK TIDAK 2.98 LAKI-LAKI TIDAK YA 3.28
Hermanu Kuliah Sucondro Programmer
Bagus Try Muhammad
LAKI-LAKI YA YA 3.19
Hatmojo LAKI-LAKI TIDAK YA 3.11 Syamsul Arif Admin
Nugroho Programmer Muhlas
LAKI-LAKI YA YA 2.96
Bagus Amirudin Admin
LAKI-LAKI YA YA 3.25 Muizza Ainur
Wicaksono Admin PEREMPUAN YA YA 3.12
Beni Pranata LAKI-LAKI TIDAK YA 3.26 Programmer Rasyida Admin
Bobit Ahmad Mula Agung
LAKI-LAKI TIDAK YA 3.46 LAKI-LAKI YA YA 3.32
Mustain Programmer Barata Kuliah
Choirun Nisa' Nauwarotul
PEREMPUAN YA TIDAK 3.18 PEREMPUAN TIDAK TIDAK 3.23
Al Hikmah Kuliah Fariidah Kuliah
Danang Nova Faizal
LAKI-LAKI TIDAK TIDAK 3.19
Samudra LAKI-LAKI YA YA 3.12 Chariz Kuliah
Prasetya Teknisi Nova Luvian
LAKI-LAKI YA YA 3.29
Dedy Rusadi Sovie Kuliah
LAKI-LAKI TIDAK YA 3.22 Novianti PEREMPUAN YA TIDAK 3.03 Admin
Wira Winata Programmer
Dewi Indah Novita
PEREMPUAN TIDAK YA 3.1 PEREMPUAN YA TIDAK 3.22
Novitasari Teknisi Tiyana Putri Wirausaha
Didin Candra Panji
LAKI-LAKI TIDAK YA 3.25 LAKI-LAKI YA YA 3.12
Rahmadani Programmer Prasiyanto Teknisi
Doni Parlina Ratna
LAKI-LAKI TIDAK YA 3.34 PEREMPUAN YA YA 3.16
Christopher Programmer Kusuma Admin
Eko Sandi Raden Risda
LAKI-LAKI YA YA 3.18 LAKI-LAKI YA YA 3.21
Hermawan Admin Anom Rahino Admin
Eko Wahyu Radita Dwi
LAKI-LAKI TIDAK YA 3.16 PEREMPUAN YA YA 3.18
Nugroho Programmer Stitaningrum Admin
Ellentiya Rahma
PEREMPUAN TIDAK YA 3.24 Ananta PEREMPUAN YA YA 3.2
Candra Dewi Programmer
Emylia Pratama Admin
PEREMPUAN YA TIDAK 2.97 Rahmat Tri
Indriasari Wirausaha LAKI-LAKI YA YA 3.23
Erika Evi Nuryanto Admin
PEREMPUAN YA YA 3.12 Ria Lestari PEREMPUAN TIDAK YA 3.23 Programmer
Rahmawati Admin
Handayani
Fendy Dwi
LAKI-LAKI TIDAK YA 3.18 Rico Wahyu LAKI-LAKI YA YA 3.18 Admin
Kurniawan Programmer
Prasetiyo
Gupron LAKI-LAKI YA TIDAK 3.02 Wirausaha
Riska Nurul PEREMPUAN YA YA 3.28 Admin
Hendra Deni Armei Lia
LAKI-LAKI YA YA 3.2
Afriliya Teknisi Riyadi LAKI-LAKI TIDAK YA 3.31 Programmer
Hilda Rozika Afifi PEREMPUAN YA YA 3.12 Admin
PEREMPUAN TIDAK YA 3.34
Prastika Putri Programmer Rumpoko LAKI-LAKI YA TIDAK 3.01 Wirausaha
Irfandi Jati Kusumo
LAKI-LAKI YA YA 3.13
Alamsyah Teknisi Saeful Anwar LAKI-LAKI YA YA 3.2 Admin
Isna Fitria Sakti Wiku LAKI-LAKI YA YA 3.28 Teknisi
PEREMPUAN TIDAK YA 3.16
Nurrohma Programmer Wicaksono
Khusnul Santri PEREMPUAN YA YA 3.1 Admin
PEREMPUAN YA YA 3.12
Khotimah Admin Wahyuning
Khusnul Pangastuti
PEREMPUAN TIDAK YA 3.12 Septian Adi LAKI-LAKI YA YA 3.23 Teknisi
Khotimah Programmer
Lailatul Nugraha
PEREMPUAN YA YA 3.26 Siti Khusnul PEREMPUAN TIDAK YA 3.26 Programmer
Aisyah Admin
M. Chotibul Khotimah
LAKI-LAKI TIDAK YA 3.04 Suharyanto LAKI-LAKI YA TIDAK 3.03 Wirausaha
Umam Programmer
Syech LAKI-LAKI YA YA 3.54 Wirausaha
M. Fajar
LAKI-LAKI YA TIDAK 3.02 Alifiansyah
Apriliyanto Wirausaha
Mustafa
Copyright @ 2015 aries alfian prasetyo
Prodi Magister Teknik Informatika, Universitas Dian Nuswantoro
5
Journal of Data Mining

Teguh LAKI-LAKI YA YA 3.01 Teknisi 6 KESIMPULAN


Pranoto
Tita Safaatin PEREMPUAN YA TIDAK 3.04 Wirausaha Komparasi yang dilakukan untuk menganalisa performa
Tutut PEREMPUAN TIDAK YA 3.32 Programmer algoritma klasifikasi dengan menggunakan dataset pekerjaan
Pamungkas mahasiswa lulusan AKN Bojonegoro, dengan menggunakan 5
Widya Tanti PEREMPUAN YA YA 2.9 Admin
Oktavia Algoritma, model validasi 10 fold cross validation, metode
Wulan PEREMPUAN YA YA 3.12 Teknisi evalusi dengan accuracy, dan T-Test digunakkan untuk
Novitasari
Yella PEREMPUAN TIDAK YA 3.26 Programmer
mencari perbandingan performa. Dari hasil analisa
Ndarullyana perbandingan algoritma untuk pengklasifikasian pekerjaan
Yoga Septian LAKI-LAKI YA YA 3.1 Wirausaha mahasiswa setelah lulus, algoritma dengan akurasi paling
Haryomurti
Yudhistira tinggi adalah algoritma Decision Tree (C4.5), dan yang
Miftakhul LAKI-LAKI YA YA 3 terendah adalah algoritma ID3. Dalam proses uji beda dengan
Firdaus Admin menggunakan t-test hasil klasifikasi pekerjaan mahasiswa
Zaenal
Mahbubin
LAKI-LAKI TIDAK YA 3.12
Programmer setelah lulus, bahwa algoritma Decision Tree (C4.5) K-NN,
Zakta Naïve Bayes, dan Random Forest memiliki performa yang
LAKI-LAKI YA YA 3.01
Okcendra Admin bagus dan tidak memiliki perbedaan signifikan , perbedaan
performa muncul pada hasil algoritma ID3 .
5 HASIL DAN PEMBAHASAN
Eksperimen dilakukan menggunakan sebuah laptop 7 DAFTAR PUSTAKA
dengan prosessor berbasis Intel Core I5 2.4 Ghz CPU, 4,00
GB RAM, dan system operasi Windows 7 Ultimate Service Aggarwal, C. C. (2015). Data Mining, The Textbook.
Pack 1 64-bit. Software yang digunakkan adalah RapidMiner http://doi.org/10.1007/978-3-319-14142-8
6.2 library. Habibie, I. (2005). Jenis profesi IT. Depok: Universitas Gunadarma.
Hasil pengukuran kinerja confusion matrix dari 5 Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and
algoritma yang diterapkan pada dataset pekerjaan yang cocok Techniques. (Elsevier, Ed.) (3rd ed.). USA: Morgan Kaufman.
untuk mahasiswa setelah lulus kuliah dengan data mahasiswa Hastie, Tibshirani, Friedman. (2009). Springer Series in Statistics
The Elements of. The Mathematical Intelligencer, 27(2), 83–
yang ada diperoleh hasil sebagai berikut;
85. http://doi.org/10.1007/b94608
Tabel 5.1 Accuracy dari 5 algoritma Kaswidjanti, W., Charibaldi, N., & Mallisa, D. L. (2010).
Pengembangan aplikasi pendukung keputusan untuk
Decision K- Naïve Random ID3 menentukan pekerjaan di bidang teknologi informasi,
Tree NN Bayes Forest 2010(semnasIF), 71–79.
(C4.5) Komunitas, A., Pendidlkan, M., Kebudayaan, D. a N., & Indonesia,
Accuracy 71.27 70.09 62.5 61.55 23.82 R. (2013). Nomor 12 Tahun 2012 tentang.
% % % % % Larose, D. T. (2005). Discovering Knowledge in Data an
introduction to data mining. Vasa. Retrieved from
http://medcontent.metapress.com/index/A65RM03P4874243
Dari Tabel 5.1 Accuracy dapat dilihat bahwa algoritma N.pdf
Decision Tree (C4.5) menunjukkan tingkat akurasi paling Menteri Pendidikan Nasional. (2012). Undang -Undang Republik
tinggi dengan capaian 71.27 %, diikuti K-NN dengan 70,09 % Indonesia Nomor 12 Tahun 2012 Tentang Pendidikan Tinggi,
berikutnya Naïve Bayes dengan 62,5 % dan terakhir Random 1–97. Retrieved from http://www.dikti.go.id/id/peraturan-
Forest dengan 61,55 % sedangkan tingkat akurasi paling perundangan/
rendah ditunjukkan oleh algoritma ID3 dengan tingkat akurasi Mitchell, T. M. (2015). CHAPTER 3 GENERATIVE AND
23.82 %. DISCRIMINATIVE CLASSIFIERS : NAIVE BAYES AND
Selanjutnya untuk memperoleh tingkat perbedaan dari LOGISTIC REGRESSION Learning Classifiers based on
Bayes Rule, 1–17.
kelima algoritma tersebut akan ditunjukkan hasil t-test pada
Sugiyanto, Suprapedi,. (2009). Penentuan Kompetensi Mahasiswa
table dibawah ini. Berdasarkan Prestasi Akademik, Sertifikasi Kompetensi,
Tabel 5.2 Hasil T-Test Minat, dan Kegiatan Pendukung. Universitas Dian
Deccision K- Naïve Random ID3 Nuswantoro, 5, 766–774.
Tree NN Bayes Forest Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Third
Deccision 0.790 0.064 0.064 0.002 Edition. Elsevier Inc.
Tree Yu, L., Chen, G., Koronios, A., Zhu, S., & Guo, X. (2007).
K-NN 0.096 0.093 0.002 Application and Comparison of Classification Techniques in
Controlling Credit Risk, 111–145.
Naïve 0.830 0.007
Bayes
Random 0.009
Biografi Penulis
Forest Aries Alfian Prasetyo. Lulus S.Pd di Prodi
ID3 Pendidikan Teknik Informatika dari
Universitas Negeri Malang, dan sedang
menempuh pendidikan Magister Teknik
Dari Tabel 5.2 Hasil T-Test menunjukkan bahwa algoritma Informatika di Universitas Dian Nuswantoro,
Decision Tree (C4.5) K-NN, Naïve Bayes, dan Random Semarang. Dia adalah Dosen di Prodi D2
Forest memiliki performa yang bagus dan tidak memiliki Manajemen Informatika Akademi Komunitas
perbedaan yang signifikan , perbedaan performa muncul pada Negeri Bojonegoro, Indonesia, dan Juga
hasil algoritma ID3. Sehingga algoritma Decision Tree (C4.5) berwirausaha dalam bidang software dan jaringan yaitu Oklek
K-NN, Naïve Bayes, dan Random Forest baik digunakan Digital House sebagai wakil direktur. Tertarik dalam bidang
untuk mencari hasil dari klasifikasi pekerjaan mahasiswa penelitian software engineering dan machine learning.
setelah lulus.

Anda mungkin juga menyukai