Anda di halaman 1dari 30

KLASIFIKASI KOMPETENSI ALUMNI BERDASARKAN

MASA TUNGGU UNTUK MENDAPATKAN PEKERJAAN


MENGGUNAKAN ALGORITMA C4.5

PROPOSAL SKRIPSI

Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer
dari Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang

Oleh :
FEBBYOLA REZKIKA
1710631170097

PROGRAM STUDI TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER
UNIVERSITAS SINGAPERBANGSA KARAWANG
KARAWANG
2021
LEMBAR PENGESAHAN

KLASIFIKASI KOMPETENSI ALUMNI BERDASARKAN


MASA TUNGGU UNTUK MENDAPATKAN PEKERJAAN
MENGGUNAKAN ALGORTIMA C4.5

PROPOSAL SKRIPSI
Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer
dari Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang

oleh :
FEBBYOLA REZKIKA
1710631170097

disetujui oleh:

Pembimbing Penguji

Betha Nurina Sari, M.Kom. XXXXX


NIDN. 198910232018032001 NIDN. XXXX

Karawang, xxxxxx
diketahui dan disahkan
oleh:
Koordinator Program Studi

Betha Nurina Sari, M.Kom.


NIDN. 198910232018032001

i
KATA PENGANTAR

Assalamualaikum Warahmatullahi Wabarakatuh.

Alhamdulillah, segala puji serta syukur kehadirat Allah SWT atas


karunia dan rahmat-Nya sehingga penulis dapat menyelesaikan proposal
dengan judul “Klasifikasi Kompetensi Alumni Berdasarkan Masa Tunggu
Untuk Mendapatkan Pekerjaan Menggunakan Algoritma C4.5 ”.
Sholawat serta salam semoga senantiasa tercurahkan kepada baginda
Nabi Besar Muhammad SAW beserta seluruh keluarga dan sahabatnya.
Adapun tujuan dari disusunnya proposal ini adalah sebagai salah satu syarat
untuk memperoleh gelar Strata-1 (S1) dari Program Studi Teknik
Informatika, Fakultas Ilmu Komputer, Universitas Singaperbangsa
Karawang.
Dalam pelaksanaannya, penulis menyadari dan mensyukuri telah
mendapat banyak bantuan baik moril maupun materil dari berbagai pihak.
Oleh karena itu, penulis mengucapkan terima kasih kepada :
1. Kedua Orang Tua saya yang selalu mendoakan, memberikan kasih
sayang dan dukungannya baik moral ataupun material.
2. Prof. Dr. Sri Mulyani Ak. CA. selaku Rektor Universitas Singaperbangsa
Karawang.
3. Dr. Mayasari S.S., M.Hum. selaku Dekan Fakultas Ilmu Komputer.
4. Garno S.Kom, M.Kom. selaku Wakil Dekan Bidang Umum dan
Kemahasiswaan Fakultas Ilmu Komputer.
5. Mohamad Jajuli S.Si., M.Si. selaku Wakil Dekan Bidang Umum dan
Keuangan Kemahasiswaan Fakultas Ilmu Komputer.
6. Betha Nurina Sari, M.Kom. selaku Koordinator Program Studi Teknik
Informatika, dan selaku dosen pembimbing proposal yang selalu
membimbing serta mengarahkan penulis dalam menyusun skripisi ini.
7. Seluruh Dosen dan Staf Tata Usaha Fakultas Ilmu Komputer.

ii
8. Sahabat seperjuangan Dinda Fitriani, Amelia Pratiwi, Rika Nur Syafitri,
dan Adi Kurniawan yang selalu bekerja sama dan senantiasa menemani
perjalanan perkuliahan sejak awal hingga sampai saat ini.
9. Sahabat-sahabat wanita saya yang selalu memberikan support hingga
detik ini yaitu, Erika Dwi Astuti, Pajriniah Dwi Napanti, Yeni Farida,
Elida Iskandar, Ravika Damayanti, terimakasih untuk selalu
mengingatkan dalam kebaikan.
10. Teman-teman kelas E angkatan 2017 yang telah melewati hari-hari
bersama dengan tawa, canda, serta diskusi bersama sejak hampir 4 tahun
silam.
11. Seluruh teman perjuangan Fasilkom angkatan 2017.
12. Pihak lainnya yang tidak dapat disebutkan satu per satu serta yang tidak
diketahui telah mendoakan kelancaran penelitian ini.
Dalam proposal ini, penulis menyadari bahwa terdapat kekurangan
sehingga penulis berharap dikemudian hari ada yang berminat untuk
mengembangkan dan menangani kelemahan dari skripsi ini. Selain itu,
kritik dan saran yang membangun akan sangat penulis sambut dengan
tangan terbuka. Mohon maaf penulis sampaikan secara tulus apabila dalam
penelitian ini terdapat kesalahan ataupun terdapat pihak yang merasa
dirugikan. Penulis harap, skripsi ini dapat bermanfaat bagi pembaca.
Wassalamualaikum Warahmatullahi Wabarakatuh.
Karawang,
Penulis

Febbyola Rezkika

iii
DAFTAR ISI

LEMBAR PENGESAHAN ............................................................................................... i


KATA PENGANTAR ....................................................................................................... ii
DAFTAR ISI..................................................................................................................... iv
DAFTAR GAMBAR ........................................................................................................ vi
DAFTAR TABEL ........................................................................................................... vii
BAB 1 PENDAHULUAN ................................................................................................. 1
1.1 Latar Belakang .................................................................................................... 1
1.2 Rumusan Masalah ............................................................................................... 4
1.3 Batasan Masalah ................................................................................................. 4
1.4 Tujuan Penelitian ................................................................................................ 4
1.5 Manfaat Penelitian .............................................................................................. 4
1.5.1 Manfaat Teoritis................................................................................................. 5
1.5.2 Manfaat Praktis ................................................................................................. 5
1.6 Metodologi Penelitian ......................................................................................... 5
1.7 Sistematika Penelitian ......................................................................................... 5
1.8 Jadwal Penelitian................................................................................................. 6
BAB 2 LANDASAN TEORI ........................................................................................... 7
2.1 Kompetensi ......................................................................................................... 7
2.2 Alumni ................................................................................................................ 7
2.3 Waktu Tunggu Kerja........................................................................................... 7
2.4 Tracer Study ........................................................................................................ 8
2.5 Data Mining ........................................................................................................ 8
2.6 Knowladge Discovery in Database (KDD) ........................................................ 9
2.7 Klasifikasi ......................................................................................................... 10
2.8 Decision Tree .................................................................................................... 10
2.9 Algoritma C4.5 ................................................................................................. 10
2.10 Seleksi Fitur ...................................................................................................... 11
2.10.1 Forward Selection .......................................................................................... 11
2.11 Evaluasi Model ................................................................................................. 12
2.11.1 K- Fold Cross Validation ............................................................................... 12
2.11.2 Confusion Matrix ........................................................................................... 12
2.11.3 Kurva ROC .................................................................................................... 13
2.12 RapidMiner ....................................................................................................... 13
2.13 Penelitian Sebelumnya ...................................................................................... 14
2.14 Penelitian Sekarang ........................................................................................... 16

iv
BAB 3 OBJEK DAN METODOLOGI PENELITIAN ............................................... 17
3.1 Objek Penelitian ................................................................................................ 17
3.2 Metodologi Penelitian ....................................................................................... 17
3.3 Rancangan Penelitian ........................................................................................ 18
DAFTAR PUSTAKA ...................................................................................................... 20

v
DAFTAR GAMBAR
Gambar 1. 1 Grafik Jumlah Alumni Fasilkom .................................................................. 2
Gambar 2. 1 Tahapan Knowladge Discovery in Database (KDD).................................... 9
Gambar 3. 1 Diagram Alir Penelitian Berdasarkan KDD ............................................... 17
Gambar 3. 2 Flowchart Algoritma Decision Tree (C4.5) ............................................... 19

vi
DAFTAR TABEL
Tabel 2. 1 Confusion Matrix 2 Kelas ............................................................................... 12
Tabel 2. 2 Penelitian Sebelumnya .................................................................................... 14
Tabel 2. 3 Penelitian Sebelumnya (lanjutan) .................................................................... 15

vii
BAB 1
PENDAHULUAN

1.1 Latar Belakang

Perguruan Tinggi (PT) adalah suatu lembaga pendidikan taraf akhir yang
mencetak lulusan yang nantinya akan memasuki dunia kerja. Persaingan dunia
global kerja yang semakin kompleks membawa setiap perguruan tinggi pada
suatu konflik yang sama, yakni seberapa relevankah keluaran perguruan tinggi
terhadap kebutuhan pengguna lulusan perguruan tinggi waktu ini. Hal penting
yang dihadapi institusi pendidikan tinggi di Indonesia saat ini yaitu persaingan
global. Akibat dari persaingan global tersebut muncul suatu tantangan dalam
bidang pendidikan, termasuk pendidikan tinggi.

Mendapatkan pekerjaan merupakan salah satu perihal yang akan dicapai


oleh alumni setelah menyelesaikan masa kuliahnya. Akan tetapi pada prosesnya
perlu memerlukan waktu tunggu dalam mendapatkan pekerjaan tersebut.
Dimana salah satu tolak ukur keberhasilan suatu perguruan tinggi dalam bidang
pendidikan adalah terserapnya alumni di dunia kerja. Setiap perguruan tinggi
tentu memiliki strategi yang berbeda guna meningkatkan mutu lulusannya untuk
memenuhi kebutuhan dunia kerja (I Made Budi, 2020). Oleh karena itu, untuk
mengetahui lulusan mahasiswa dari suatu perguruan tinggi telah memperoleh
pekerjaan dilihat dari data tracer study.

Tracer study diadakan tiap tahunnya oleh setiap perguruan tinggi guna
memenuhi keperluan data akreditasi, perbaikan dalam proses pembelajaran serta
pengembangan kurikulum yang diwajibkan oleh Dirjen Pembelajaran
Kemahasiswaan (Ristekdikti, 2019). Alumni mahasiswa Fakultas Ilmu
Komputer Universitas Singaperbangsa Karawang dari tahun 2015 sampai tahun
2020 berjumlah 1.190 orang. Berdasarkan pada Gambar 1.1, bahwa setiap tahun-
nya terjadi peningkatan jumlah lulusan alumni. Pada penelitian ini data tracer
study ini diolah untuk mengetahui dan mendapatkan informasi dari status
pekerjaan yang diperoleh dari alumni Fakultas Ilmu Komputer Universitas
Singaperbangsa Karawang. Data tracer study pada penelitian ini menggunakan

1
2

data tahun 2015 sampai 2020 yang diolah menggunakan aplikasi RapidMiner
dengan metode klasifikasi dengan algoritma decision tree (C4.5).

Tahun Lulus
350
300
250
200
150
100
50
0
2015 2016 2017 2018 2019 2020

2015 2016 2017 2018 2019 2020

Gambar 1. 1 Grafik Jumlah Alumni Fasilkom


(Sumber: Akademik Fasilkom 2021)

Data mining telah berkembang pesat seiring dengan perkembangan


tekonlogi data warehouse. Data mining melakukan proses penggalian
pengetahuan dan informasi yang berguna termasuk pola, asosiasi, perubahan
anomali dan struktur signifikan dari data transaksi tersimpan dalam basis data,
data warehouse, atau tempat penyimpanan informasi lainnya (Han & Kamber,
2012). Klasifikasi adalah metode data mining untuk memprediksi jenis atau
kategori data instance berdasarkan sekumpulan atribut dalam data. Atribut yang
digunakan bisa berupa kategorikal misal berupa bilangan ordinal (seperti urutan:
kecil, sedang dan besar), nilai integer (jumlah kata dalam paragraf), nilai rill
(seperti suhu). Klasifikasi adalah proses yang meliputi dua tahap yaitu tahap
pembelajaran dan tahap pengklasifikasian. Pada tahap pembelajaran algoritma
klasifikasi akan membangun data latih melalui analisis data (Reny Wahyuning
et al, 2019).

Algoritma C4.5 merupakan algoritma klasifikasi dengan metode decision


tree (pohon keputusan) yang populer karena mempunyai kelebihan.
Kelebihannya merupakan dapat mencerna informasi numerik (kontinyu) dan
diskret, dapat menanggulangi nilai atribut yang hilang, serta menciptakan
ketentuan yang mudah di interpretasikan. Decision tree merupakan sebuah
3

struktur yang dapat digunakan untuk membagi kumpulan informasi yang besar
menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan
serangkaian etentuan keputusan. Dengan setiap rangkaian pembagian, anggota
himpunan hasil menjadi mirip satu dengan yang lain (Novi Wulandari, 2019).

Penelitian yang sebelumnya dilakukan oleh (Rizqia Cahyaningtyas,


Luqman, & R. Yolana Inas H, 2020) yang berjudul “Klasifikasi Kompetensi
Alumni Berdasarkan Masa Tunggu Alumni untuk Mendapatkan Pekerjaaan
Menggunakan Metode Algoritma C4.5” menyatakan bahwa kompetensi yang
paling berpengaruh atau yang merupakan akar (root) dari pohon keputusan yaitu,
data kelulusan pada tahun 2015 adalah pengetahuan disiplin ilmu, data kelulusan
pada tahun 2016 adalah manajemen waktu, data kelulusan pada tahun 2017
adalah kemampuan analisis, data kelulusan pada tahun 2018 adalah pengetahuan
disiplin ilmu, dan data kelulusan pada tahun 2019 adalah kemampuan komputer.
Berdasarkan penelitian yang telah dilakukan, tingkat akurasi yang dihasilkan
dari data 2015 sebesar 63,64%, data 2016 sebesar 82,86%, data 2017 sebesar
69,60%, data 2018 sebesar 56,82% dan data 2019 sebesar 48,25%.

Pada penelitian yang sebelumnya yang dilakukan (Wahyono & Agung


Nugroho, 2018) yang berjudul “Penerapan Algoritma C4.5 Untuk Prediksi
Tingkat Kompetensi Karyawan PT Multistarda Arah Sarana” bahwa penerapan
algoritma C4.5 terhadap kompetensi karyawan memliki tingkat akurasi yang
cukup tinggi yaitu dari 51 data yang diprediksi terdapat 41 data yang diprediksi
dengan tepat, yaitu berarti akurasi algoritma C4.5 pada penelitian ini mencapai
80,39% serta menghasilkan nilai precision, dan recall masing-masing 85% dan
70,83%, dengan didapatkan nilai AUC Optimistic sebesar 0,907 menjadikan
penelitian ini masuk dalam kategori klasifikasi yang sangat baik (Excellent
Classification) karena masuk kedalam range nilai antara 0.90 – 1.00.

Berdasarkan uraian di atas, maka akan dilakukan penelitian dengan judul


“Klasifikasi Kompetensi Alumni Berdasarkan Masa Tunggu Untuk
Mendapatkan Pekerjaan Menggunakan Algoritma C4.5”. Hasil dari
penelitian ini diharapkan dapat menjadi bahan evaluasi bagi pihak kampus untuk
memprediksi waktu tunggu alumni dalam mendapatkan pekerjaannya.
4

1.2 Rumusan Masalah

Berdasarkan masalah yang telah diuraikan pada latar belakang diatas, maka
dapat dirumuskan masalah sebagai berikut:

1. Bagaimana menerapkan algoritma C4.5 dalam mengklasifikasi kompetensi


alumni berdasarkan masa tunggu untuk mendapatkan pekerjaan?

2. Bagaimana mengevaluasi hasil dari algoritma C4.5 dalam mengklasifikasi


kompetensi alumni berdasarkan masa tunggu untuk mendapatkan
pekerjaan?

1.3 Batasan Masalah

Agar penelitian lebih terarah dan tidak menyimpang dari tujuan yang akan
dicapai, maka dibentuklah batasan masalah yaitu sebagai berikut:

1. Penelitian dilakukan berdasarkan data tracer study alumni di Fasilkom


Universitas Singaperbangsa Karawang.

2. Algoritma yang digunakan adalah algoritma C4.5.

3. Metode yang digunakan adalah KDD (Knowladge Discovery in Database).

4. Tools yang digunakan dalam menganalisa algoritma C4.5 pada penelitian


ini adalah RapidMiner Studio.

1.4 Tujuan Penelitian

Adapun tujuan dari penelitian yang telah terangkum sebagai berikut:

1. Mengetahui cara penerapan algoritma C4.5 dalam mengklasifikasi


kompetensi alumni berdasarkan masa tunggu untuk memperoleh
pekerjaannya.
2. Mengevaluasi hasil dari perhitungan algoritma C4.5 dalam
mengklasifikasi kompetensi alumni berdasarkan masa tunggu untuk
memperoleh pekerjaannya.

1.5 Manfaat Penelitian

Adapun manfaat dari penelitian ini antara lain:


5

1.5.1 Manfaat Teoritis


Manfaat teoritis dari penelitian ini yaitu dapat menambah wawasan dan
pemahaman dalam bidang klasifikasi dengan menggunakan algoritma C4.5
khususnya dalam mengklasifikasi kompetensi alumni berdasarkan masa
tunggu untuk mendapatkan pekerjaannya.
1.5.2 Manfaat Praktis
Adapun manfaat praktis dari penelitian ini yaitu setelah klasifikasi dari
hubungan kompetensi alumni berdasarkan masa tunggu mendapatkan
pekerjaannya, penelitian ini diharapkan bisa digunakan oleh pihak fakultas
sebagai bahan pertimbangan dan langkah awal untuk meningkatkan kualitas
serta kompetensi mahasiswa agar siap bersaing untuk karir kedepannya.

1.6 Metodologi Penelitian

Dalam melakukan penelitian, penulis menggunakan pendekatan Knowledge


Discovery in Database (KDD) sebagai metodologi penelitian. Adapun tahapan-
tahapan dari KDD (Han, Kamber, & Pei, 2012), yaitu :
1. Data Cleaning
2. Data Integration
3. Data Selection
4. Data Transformation
5. Data mining
6. Evaluation
7. Knowledge

1.7 Sistematika Penelitian


Berikut merupakan sistematika penulisan dimana terbagi menjadi tiga bab
dengan urutan sebagai berikut :

BAB 1 PENDAHULUAN
Pada bab pendahuluan akan diuraikan latar belakang, rumusan
masalah, batasan masalah, tujuan, manfaat penelitian, metodologi
penelitian, dan sistematika penulisan.
BAB 2 LANDASAN TEORI
Pada bab kedua akan diuraikan landasan teori yang mendukung
6

pemecahan masalah yang relevan terkait dengan penelitian.


BAB 3 OBJEK DAN METODOLOGI PENELITIAN
Pada bab ketiga akan dijelaskan mengenai objek yang akan diteliti,
metodologi serta rancangan penelitian.

1.8 Jadwal Penelitian

Jadwal penelitian dapat dilihat pada tabel 1.1 berikut.


Tabel 1. 1 Jadwal Penelitian
Bulan ke -
No Jenis Kegiatan 1 2 3 4 5
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1. Studi Literatur
2. Data Cleaning
Data 3
3.
Integration
4. Data Selection
5. Data
Transformation
6. Data mining
7. Evaluation
8. Knowladge
BAB 2
LANDASAN TEORI

2.1 Kompetensi
Kompetensi merupakan kemampuan yang dibutuhkan untuk melakukan
pekerjaan berdasarkan pengetahuan, keterampilan dan sikap. Setiap organisasi baik
itu organisasi swasta maupun negeri diperlukan sumber daya manusia (SDM) yang
memiliki kompetensi secara profesional dan berkemampuan tinggi. Menghadapi
lingkungan bisnis dan lingkungan sosial yang terus berubah, sumber daya manusia
yang berkualitas akan menjadi pusat keunggulan organisasi dan memberikan
dukungan bagi daya saing organisasi memasuki era globalisasi (Eka Suhartini et.
al, 2016).

2.2 Alumni
Menurut Kamus Besar Bahasa Indonesia (KBBI) alumni adalah “orang-orang
yang telah mengikuti atau tamat dari suatu sekolah atau perguruan tinggi” (Badan
Pengembangan dan Pembinaan Bahasa, 2021). Kualitas alumni sendiri bergantung
dari kualitas perguruan tinggi sehingga alumni memiliki peranan penting dalam
meningkatkan performa perguruan tinggi baik di tingkat nasional maupun
internasional serta menjadi bagian dari penilaian sertifikasi lembaga pendidikan.
Dengan bertambahnya jumlah alumni dari tahun ke tahun dapat dikembangkan cara
baru dan media dalam pengembangan pelacakan alumni (Van Berton & Aqwam
Rosadi, 2019).

2.3 Waktu Tunggu Kerja


Waktu tunggu kerja adalah masa dimana lulusan menunggu untuk
mendapatkan pekerjaan dari awal lulus kuliah hingga mendapatkan pekerjaan. Pada
dasarnya kalimat waktu menunggu pekerjaan disini dapat diartikan juga sebagai
masa menganggur, karena dalam jangka menunggu seseorang akan menjadi
seorang pengangguran. Hakikat dari pengangguran adalah suatu keadaan dimana
orang yang mampu bekerja tidak dapat memperoleh pekerjaan (Gustiara Dayu,
2018).

7
8

2.4 Tracer Study


Tracer Study merupakan riset pelacakan jejak alumni yang telah lulus
bertujuan untuk mengenali outcome pembelajaran dalam wujud transisi dari dunia
pendidikan ke dunia kerja. Output pendidikan yaitu berupa penilaian diri terhadap
kemampuan dan memperoleh kompetensi. Tracer study perlu dilakukan agar setiap
perguruan tinggi khususnya program studi mampu mengevaluasi seberapa besar
lulusannya dapat direkrut dalam di dunia pekerjaan sesuai bidang ilmunya serta
berapa lama masa tunggu alumni dalam mendapatkan pekerjaannya (M. Ilham &
Suciani, 2017).

2.5 Data Mining


Data mining merupakan proses mengekstraksi dan menambang pengetahuan
dari sejumlah data yang besar atau database. Tujuan utama dari data mining sendiri
yaitu menemukan pengetahuan baru yang tersembunyi dalam database. Data
mining mempunyai fungsi penting yang dapat membantu mendapatkan informasi
yang berguna serta pengetahuan bagi pengguna (Hermanto Wahwono & Dwiza
Riana, 2020).
Ada beberapa teknik atau metode dalam data mining yang dapat dilakukan,
sebagai berikut (Elmayati, 2017) :
1. Deskripsi, merupakan sebuah teknik penggambaran pola yang terdapat
dari suatu data.
2. Estimasi, merupakan sebuah teknik yang mirip dengan klasifikasi namun
dalam estimasi kelas target lebih cenderung kearah numerik dari pada
kategori.
3. Prediksi, merupakan sebuah teknik yang mirip dengan klasifikasi dan
estimasi, namun untuk hasilnya merupakan sebuah kejadian yang belum
terjadi.
4. Klasifikasi, merupakan sebuah teknik pengelompokkan data berdasarkan
variabel tertentu yang biasanya variabel ini bersifat kategori.
9

5. Klastering, merupakan sebuah teknik pengelompokan data berdasarkan


kemiripian data satu sama lain, perbedaannya dengan klasifikasi ialah
tidak adanya kelas target dalam klastering.
6. Asosiasi, merupakan sebuah teknik untuk mengidentifikasi hubungan
kejadian atau insiden yang terjadi dalam suatu waktu.

2.6 Knowladge Discovery in Database (KDD)


Knowladge Discovery in Database (KDD) adalah sebuah proses mencari
sebuah ilmu yang berguna dari sekumpulan data. Proses ini bersifat interaktif dan
iteratif, meliputi sejumlah langkah yang melibatkan pengguna dalam membuat
keputusan dan dapat mengulang pada beberapa langkash sebelumnya (Apriliana et.
al, 2017).

Gambar 2. 1 Tahapan Knowladge Discovery in Database (KDD)


Sumber : (Manurung & Hasugian, 2019)

Tahapan yang terdapat pada Knowladge Discovery in Database (KDD) adalah


sebagai berikut (Aziz et. al, 2018) :
1. Data Cleaning
2. Data Integration
3. Data Selection
4. Data Transformation
5. Data mining
6. Interpretasi/ Evaluasi
7. Knowladge (Pengetahuan)
10

2.7 Klasifikasi
Klasifikasi merupakan sebuah proses penemuan pola atau fungsi yang
mendeskripsikan serta memisahkan satu kelas dengan kelas lain guna penentuan
sebuah objek tersebut masuk ke dalam jenis yang sudah ditentukan. Proses
klasifikasi dapat dilakukan dengan cara manual maupun dengan bantuan komputer,
cara manual yaitu menghitung secara langsung sesuai konsep dari algoritma yang
digunakan sedangkan dengan bantuan komputer dilakukan perhitungan
menggunakan perangkat lunak yang tersedia seperti RapidMiner, WEKA, RStudio.
(Novandya, 2017).

2.8 Decision Tree


Decision tree atau pohon keputusan merupakan mengubah data menjadi aturan
keputusan. Keuntungan utama dalam penggunaan pohon keputusan adalah
kemampuannya untuk mengubah proses pengambilan keputusan yang kompleks
menjadi proses pengambilan keputusan yang sederhana, sehingga membuat proses
pengambilan keputusan menjadi lebih mudah untuk memecahkan masalah (Indera
Cahyo et. al, 2019).

2.9 Algoritma C4.5


Algoritma C4.5 merupakan metode pembuatan pohon keputusan berdasarkan
data latih yang sebelumnya disediakan. Algortitma C4.5 merupakan salah satu
bentuk pengembangan ID3. Beberapa pengembangan yang dilakukan C4.5
mencakup berpotensi untuk proses data lanjutan dan pemangkasan. Secara umum
algortma C4.5 akan membangun pohon keputusan sebagai berkut (Dedi Hartama
et. al, 2019) :
1. Pilih atribut sebagai root (akar)
|𝑆𝑖|
Gain (S,A) = Entropy (S) - ∑ 𝑛 × Entropy (Si) (2,1)
𝑖=1 |𝑆|

dengan:
S : Himpunan kasus
Si : Himpunan kasus pada partisi ke i
A : Variabel
n : Jumlah partisi atribut A
11

|Si| : Jumlah kasus pada partisi ke i


|S| : Jumlah kasus dalam S
Untuk menghitung Entropy dapat dilihat pada persamaan (2,2)
𝑛
Entropy(S) = - ∑ Pi log2 Pi (2,2)
𝑖=1
dengan:
S : Himpunan Kasus
n : Jumlah partisi S
Pi : Proporsi dari Si terhadap S
𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟
Presentase = x 100% (2,3)
𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎

2. Buat cabang untuk setiap skor


3. Membagi kasus di cabang
4. Ulangi proses untuk setiap cabang sehingga semua kasus di cabang
tersebut memiliki nilai yang sama.

2.10 Seleksi Fitur


Seleksi fitur merupakan salah satu faktor yang penting dalam mempengaruhi
tingkat akurasi klasifikasi, karena jika sekumpulan data berisi banyak elemen
ukuran dataset nantinya akan berubah dan memebuat menurunnya nilai akurasi
klasifikasi. Masalah dalam seleksi fitur adalah reduksi dimensi, dimana semua
atribut diperlukan untuk mendapatkan akurasi yang maksimal (M. Fajarianditya &
Setyoningsih, 2017).

2.10.1 Forward Selection


Forward selection merupakan proses langkah yang bertujuan untuk
meningkatkan variabel yang dikendalikan satu per satu ke dalam persamaan yang
didasari oleh Alpha tertentu untuk inputan. Dimana Alpha adalah nilai yang
memastikan apakah salah satu prediktor yang saat ini tidak ada dalam model, harus
ditambahkan ke dalam model (Muis Nanja, 2015). Tahapan forward selection
diawali dengan fitur himpunan kosong lalu menambahkan fitur yang terpakai,
kemudian seluruh fitur dievaluasi. Salah satu fitur ditambahkan pada fitur
himpunan yang merupakan bagian dari fitur sebelumnya dan juga fitur yang baru
12

dibuat, lalu dievaluasi kembali. Untuk mengurangi jumlah evaluasi, hanya subset
fitur terbaik yang disimpan (Fanani, 2020).

2.11 Evaluasi Model


Evalusi model adalah salah satu komponen penting dari proses analisis data
mining. Evaluasi model merupakan proses untuk mengukur seberapa jauh
klasifikasi yang dilakukan dapat diterapkan pada kasus yang sebenarnya
(Novakovic, 2017).

2.11.1 K- Fold Cross Validation


K-Fold Cross Validation merupakan teknik verifikasi yang membagi
data menjadi k bagian, dan setiap bagian dimasukkan dalam proses
klasifikasi. Dengan menggunakan validasi K-fold cross, maka uji k akan di
lakukan. Setiap pengujian menggunakan satu data pengujian, dan bagian k-1
tersebut akan menjadi data latih, kemudian data pengujian tersebut ditukar
dengan satu data latih sehingga diperoleh data yang berbeda untuk setiap
pengujian (Andi Bode, 2017).
2.11.2 Confusion Matrix
Confusion matrix merupakan alat yang sangat berguna untuk
menganalisis dan mengenali kelengkapan klasifikasi tupel dari berbagai
kategori. Penilaian dengan menggunakan fungsi confusion matrix akan
menghasilkan nilai accuracy, precision, dan recall. Confusion matrix
merupakan tabel matriks yang terdiri dari dua kelas, yaitu kelas yang
dianggap sebagai kelas positif dan kelas yang dianggap sebagai kelas negatif
(Eka Firiani, 2020).
Tabel 2. 1 Confusion Matrix 2 Kelas

Classification Predicted Class


Class = Yes Class = No
Class = Yes a (true positive-TP) b (false negative-FN)
Class = No c (false positive-FP) d (true negative-TN)
13

Keterangan :
1. True Positif (TP), data yang diprediksi benar dan bersifat positif
2. True Negatif (TN), data yang diprediksi benar dan bersifat negatif
3. False Positif (FP), data positif yang diprediksi sebagai data positif
4. False Negatif (FN), data positif yang diprediksi data negatif
Rumus untuk menghitung tingkat akurasi pada matrix adalah :
𝑇𝑃+𝑇𝑁 𝐴+𝐷
Accuracy = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁= 𝐴+𝐵+𝐶+𝐷 (2,4)

2.11.3 Kurva ROC


Kurva ROC (Receiver Operatting Characteristic) digunakan untuk
membandingkan dan menampilkan akurasi klasifikasi secara visual. ROC
merupakan grafik dua dimensi dimana false positive sebagai garis horizontal
dan true positive sebagai garis vertikal yang mengekspresikan confusion
matrix (Eka Fitriani, 2020).

2.12 RapidMiner
RapidMiner merupakan sebuah software bersifat open source yang dapat
melakukan analisis terhadap data minig, text mining, dan analisis predikasi.
RapidMiner menggunakan berbagai metode deskriptif dan prediktif dalam
memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang
paling baik. Berdiri dikhususkan untuk menganalisis data serta sebagai mesin data
pre-processing yang bisa di integrasikan. RapidMiner ditulis menggunakan bahasa
java sehingga dapat bekerja disemua sistem operasi (Dian Ardiansyah & Walim,
2018).
14

2.13 Penelitian Sebelumnya


Sebagai perbandingan penelitian digunakan beberapa jurnal sebagai referensi yang dijelaskan pada Tabel 2.2 di bawah ini:
Tabel 2. 2 Penelitian Sebelumnya

No. Judul Penulis Hasil


1. Klasifikasi Kompetensi Alumni Rizqia Berdasarkan penelitian yang telah dilakukan, tingkat akurasi yang dihasilkan dari data
Berdasarkan Masa Tunggu Cahyaningtyas, 2015 sebesar 63,64%, data 2016 sebesar 82,86%, data 2017 sebesar 69,60%, data
Alumni untuk Mendapatkan Luqman, dan R. 2018 sebesar 56,82% dan data 2019 sebesar 48,25%.
Pekerjaaan Menggunakan Yolana Inas H
Metode Algoritma C4.5
2. Prediksi Bidang Kerja Bagi Dyah Retno Utari Hasil algoritma pohon keputusan (J.48) memiliki kinerja yang terbaik dalam proses
Lulusan Program Studi Vokasi klasifikasi, dengan nilai akurasi mencapai 95,8% sedangkan algoritma Naïve Bayes
Sekretaris Menggunakan memiliki akurasi sebesar 81,9%.
Teknik Klasifikasi Data mining
3. Implementasi Teorema Naive Reny Wahyuning Hasil prediksi dengan metode Naive Bayes terhadap ketepatan bidang pekerjaan
Bayes Pada Analisa Dan Astuti, Sukma alumni dari 100 data alumni didapat 48 alumni masuk kedalam cluster kurang tepat,
Prediksi Bidang Pekerjaan Puspitorini, Fajri 35 alumni masuk kedalam cluster tepat dan 17 alumni masuk kedalam cluster sangat
Alumni Prodi Teknik Kurnia Akbar tepat, seperti penelitian yang telah dilakukan sebelumnya dengan metode K-Means
Informatika STMIK Nurdin Clustering.
Hamzah Jambi
15

Tabel 2. 3 Penelitian Sebelumnya (lanjutan)


No. Judul Penulis Hasil
4. Penerapan Algoritma C4.5 Asroni, Berdasarkan pohon keputusan (decision tree) atribut yang paling berpengaruh terhadap
untuk Klasifikasi Jenis Badrahini jenis pekerjaan alumni adalah Fakultas. Hal itu terjadi karena fakultas sebagai akar dari
Pekerjaan Alumni di Masajeng pohon keputusannya, dan memiliki nilai gain ratio yang paling tinggi di antara atribut
Universitas Muhammadiyah Respati, Slamet yang lain.
Yogyakarta Riyadi
5. Analisa Pola Pekerjaan Anisa, Mesran Berdasarkan hasil analisis dan percobaan yang dilakukan algoritma C4.5 dapat dengan
Lulusan STMIK Budi Darma mudah memproses data karena mudah beradapatasi pada interaksi kompleks antar
Menerapkan Metode C4.5 variabel. Setiap cabang pohon dapat terdiri atas kombinasi dari variabel dan variabel
yang sama dapat muncul lebih dari satu di berbagai cabang pohon. Dengan nilai entropy
0.7949 dan nilai gain 0.133.
16

2.14 Penelitian Sekarang


Penelitian yang akan dilakukan saat ini yaitu mengenai pengklasifikasian
kompetensi alumni berdasarkan masa tunggu untuk mendapatkan pekerjaannya.
Penelitian ini menggunakan metodologi KDD (Knowladge Discover in Database),
dan menggunakan Feature Selection dan Confusion Matrix untuk menghasilkan
model yang paling akurat dengan algoritma C4.5 data yang digunakan yaitu data
alumni pada tahun 2015 sampai tahun 2020 dengan menggunakan perangkat lunak
RapidMiner Studio.
BAB 3
OBJEK DAN METODOLOGI PENELITIAN

3.1 Objek Penelitian


Objek penelitian yang akan diteliti yaitu mengenai kompetensi alumni
berdasarkan masa tunggu dalam mendapatkan pekerjaannya dengan metode
klasifikasi menggunakan algoritma C4.5. Pada penelitian ini data yang digunakan
adalah data sekunder. Data sekunder sendiri merupakan data yang didapatkan
dengan media perantara atau secara tidak langsung. Data tersebut diperoleh dari
pihak fakultas yaitu data tracer study alumni dari tahun 2015 sampai 2020.

3.2 Metodologi Penelitian


Metodologi pada penelitian ini menggunakan tahapan yang terdapat pada data
mining yaitu tahapan Knowladge Discovery in Database (KDD). Adapun tahapan
dari penelitian ini yaitu seperti Gambar 3.1

Gambar 3. 1 Diagram Alir Penelitian Berdasarkan KDD


17
18

3.3 Rancangan Penelitian


Dalam melakukan analisa algoritma decision tree (C4.5) menggunakan
metode Knowledge Discovery in Database (KDD), berikut merupakan rancangan
penelitian pada proses data mining:
1. Data Cleaning
Pada tahapan ini didapat dari data alumni Fakultas Ilmu Komputer
Singaperbangsa Karawang. Pembersihan data ini dilakukan dengan cara
menghapus data yang tidak lengkap isinya (missing value), duplikasi data,
dan data yang tidak konsisten.
2. Data Integration
Pada tahap ini data yang telah dilakukan proses cleaning akan dilakukan
penggabungan data yaitu data alumni dari tahun 2015-2020. Kemudian data
akan diolah menjadi sebuah data baru dan akan diproses pada tahap
selanjutnya.
3. Data Selection
Pada tahap ini merupakan tahapan pemilihan data yang yang relevan
yang berada pada tabel, tidak semua data digunakan, hanya data yang sesuai
untuk dianalisis yang akan diambil dari tabel. Penyeleksian atribut untuk
memilih data yang relevan sesuai dengan analisis yang ingin dicapai.
4. Data Transformation
Pada tahap ini merupakan tahap data yang disederhanakan atau
dikelompokkan. Data yang digunakan dalam penelitian ini adalah data dari
alumni tahun 2015 sampai tahun 2020 yang akan digunakan di ubah dalam
bentuk yang dapat dipahami oleh software RapidMiner untuk
mempermudah dalam pembacaan proses data mining.
5. Data mining
Pada tahap data mining akan dilakukan proses pengolahan data dari
proses sebelumnya dengan menggunakan algoritma yang telah dipilih.
Algoritma yang akan digunakan pada proses ini ialah menggunakan
algoritma decision tree (C4.5).
19

Gambar 3. 2 Flowchart Algoritma Decision Tree (C4.5)


6. Evaluasi
Tahap dari dilakukan evaluasi ini merupakan tahap interpretasi terhadap
permodelan data mining menggunakan teknik evaluasi feature selection
dan confusion matrix untuk menghasilkan model decision tree yang paling
akurat.
7. Knowledge
Pada tahapan terakhir ini yaitu dimana pola yang sudah diolah bisa
dievaluasi kembali. Hasil yang telah didapat disimpulkan dan diubah ke
dalam bentuk yang mudah dipahami dan dimengerti.
DAFTAR PUSTAKA

Adnyana I Made Budi. (2020). Implementasi Naive Bayes Untuk Memprediksi


Waktu Tunggu Alumni Dalam Memeperoleh Pekerjaan. Seminar Nasional
Teknologi & Sains (SAINTEKS), 131-134.
Amrinda Gustiara Dayu. (2018). Analisis Klasifikasi Waktu Tunggu Kerja Dengan
Metode Support Vector Machine dan Naive Bayes Classification. Skripsi
MIPA. Universitas Islam Indonesia, Yogyakarta.
Anisa, Mesran. (2018). Analisa Pola Pekerjaan Lulusan STMIK Budi Darma
Menerapkan Metode C4.5. Konferensi Nasional Teknologi Informasi dan
Komputer, Vol 2. 446-449.
Apriliana, Natalis Ransi, & Jumadil Nangi. 2017. Implementasi Text Mining
Klasifikasi Skripsi Menggunakan Metode Naïve Bayes Classifier. Semantik,
Vol 3. 187–94.
Ardianysah Dian dan Walim. (2018). Algoritma C4.5 Untuk Klasifikasi Calon
Peserta Lomba Cerdas Cermat Siswa SMP Dengan Menggunakan Aplikasi
RapidMiner. Jurnal Inkofar, Vol 1. 5-12.
Asroni, Respati Badrahini Masajeng, & Riyadi Slamet (2018). Penerapan
Algoritma C4.5 untuk Klasifikasi Jenis Pekerjaan Alumni di Universitas
Muhammadiyah Yogyakarta. Semesta Teknika, Vol. 21. 158-165.
Aziz, M. F., Defiyanti, S., & Sari, B. N. (2018). Perbandingan Algoritma Cart dan
K-Nearest Neighbor Untuk Prediksi Luas Lahan Panen Tanaman Padi di
Kabupaten Karawang. Jurnal TAM ( Technology Acceptance Model), 74-
78.
Bakhtiar Muhammad Ilham & Latif Suciani. (2017). Tracer Study Alumni : Upaya
Pengembangan Prodi Bimbingan Konseling Universitas Negeri Makassar.
Jurnal Kajian Bimbingan dan Konseling, Vol 2. 32-40.
Bode Andi. (2017). K-Nearest Neighbor Dengan Feature Selection Menggunakan
Backward Elimination Untuk Prediksi Harga Komoditi Kopi Arabika.
Jurnal Ilmiah. Vol 9. 188-195.
Cahyaningtyas Rizqia, Luqman. R., & Yolana Inas H. (2020). Klasifikasi
Kompetensi Alumni Berdasarkan Masa Tunggu Alumni untuk

20
21

Mendapatkan Pekerjaaan Menggunakan Metode Algoritma C4.5. KILAT, Vol 9.


297-310.
Eka Suhartini, Murtiadi Awaluddin, & Muh. Ikhsan Alif. S. (2016). Analisis
Kesesuaian Kompetensi Alumni Uin Alauddin Terhadap Kepuasan
Stakeholder. Vol 3, 27-58.
Fitriani Eka, Aryanti Riska, Saepudin Atang, & Dian Ardiansyah. (2020).
Penerapan Algoritma C4.5 Untuk Klasifikasi Penempatan Tenaga
Marketing. Paradigma - Jurnal Informatika Dan Komputer, Vol 22. 72-78.
Fitriani Eka. (2020). Perbandingan Algoritma C4.5 dan Naïve Bayes Untuk
Menentukan Kelayakan Penerima Bantuan Program Keluarga Harapan.
SISTEMASI:Jurnal Sistem Informasi, Vol 9. 103-115.
Han, J., Kamber, M., & Pei, J. (2012). Data mining Concepts and Techniques.
Waltham: Morgan Kaufmann.
Larose, D. T. (2005). Discovering Knowledge In Data An Introduction. A John
Wiley & Sons, Inc.
Mardi Yuli. (2019). Datta Mining : Klasifikasi Menggunakan Algoritma C4.5.
Jurnal Edik Informatika, Vol 2. 213-219.
N. Nuraeni. (2017). Penentuan Kelayakan Kredit Dengan Algoritma Naïve Bayes
Classifier : Studi Kasus Bank Mayapada Mitra Usaha Cabang Pgc, Vol. 1.
9–15.
Nanja Muis, Purwanto. (2015). Metode K-Nearest Neighbor Berbasis Forward
Selection Untuk Prediksi Harga Komoditi Lada. Jurnal Pseudocode, Vol 2.
53-64.
Novakovic, J. D., Veljovic´, A., Ilic, S. S., Papic, Z., & Tomovic, M. (2017).
Evaluation of Classification Models in Machine Learning. Theory and
Applications of Mathematics & Computer Science, 39-46.
Nugroho Mohamad Fajarianditya, & Wibowo Setyoningsih. (2017). Fitur Seleksi
Forward Selection Untuk Menentukan Atribut Yang Berpengaruh Pada
Klasifikasi Kelulusan Mahasiswa Fakultas Ilmu Komputer UNAKI
Semarang Menggunakan Algoritma Naive Bayes. Jurnal informatika
UPGRIS, Vol 3. 63-70.
Purba, S. D., Sirait, P., & Arwin. (2020). Credit Card Risk Classification Using
22

KNearest Neighbor Weighted Algorithm Based on Forward Selection.


Jurnal Mantik, 1551-1559.
Putra, Eko. 2019. The Influence of Promotion and Brand Image Toward Purchase
Decision of Honda Vario. Jurnal Apresiasi Ekonomi, Vol 7.121–130.
Siahaan Van Berton & Kardian Aqwam Rosadi. (2019). Penerapan Algoritma K-
Means Untuk Analisis Tracer Alumni Universitas Gunadarma Jurusan
Sistem Informasi Dan Sistem Komputer Angkatan 2013. Jurnal Ilmiah
Komputasi. Vol 18. 215-228.
Utari Dyah Retno. (2018). Prediksi Bidang Kerja Bagi Lulusan Program Studi
Vokasi Sekretaris Menggunakan Teknik Klasifikasi Data mining. Jurnal
Sekretari dan Administrasi, Vol 16. 115-123.
Wahono Hermanto & Dwiza Riana (2020). Prediksi Calon Pendonor Darah
Potensial Dengan Algoritma Naive Bayes, K-Nearest Neighbors dan
Decision Tree C4.5. JURIKOM (Jurnal Riset Komputer), Vol 7. 7-14.
Wahyono, Nugroho Agung. (2018). Penerapan Algoritma C4.5 Untuk Prediksi
Tingkat Kompetensi Karyawan PT Multistarda Arah Sarana. JOUTICA,
Vol 3.
Wibowo Indera Cahyo, Fauzan Abd Charis. (2019). Komparasi Algoritma Naive
Bayes dan Decision Tree Untuk Memprediksi Lama Studi Mahasiswa.
Journal of Computer Science and Applied Informatics, Vol 1. 65-74.
Wulandari Novi, Etikasari Prilly. (2019). Analisis Minat Belajar Siswa Pada
Lembaga Pendidikan Indonesia Amerika Perumnas 3 Bekasi Dengan
Metode C4.5. Jurnal Rekaya Informasi, Vol 8. 22-31.

Anda mungkin juga menyukai