Anda di halaman 1dari 8

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/267757302

Penerapan Decision Tree untuk Penentuan Pola Data Penerimaan


Mahasiswa Baru

Article · July 2011

CITATIONS
READS
3
26,203

4 authors, including:

Aradea Dipalokareswara
Siliwangi University
45 PUBLICATIONS 55 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Self-Adaptive Engine View project

All content following this page was uploaded by Aradea Dipalokareswara on 05 November 2014.

The user has requested enhancement of the downloaded file.


Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA


PENERIMAAN MAHASISWA BARU

Aradea, Satriyo A., Ariyan Z., Yuliana A.


Teknik Informatika Universitas Siliwangi
Tasikmalaya Ilmu Komputer Universitas Diponegoro
Semarang

Abstrak
Penerimaan mahasiswa baru (PMB) adalah proses penyaringan calon mahasiswa
yang diterima pada suatu perguruan tinggi. Mengidentifikasi pola dari PMB dapat
memberikan informasi yang bermanfaat baik kepada perguruan tinggi dalam hal ini
program studi atau calon mahasiswa yang mendaftar pada suatu program studi.
Penentuan pola tersebut dapat dilakukan dengan model klasifikasi, model klasifikasi
dibuat dengan cara menganalisis training data, model yang dihasilkan nantinya dapat
digunakan untuk memprediksi kelas dari unknown data. Model klasifikasi dapat
digambarkan dalam berbagai bentuk, salah satunya adalah dengan menggunakan
Decision Tree. Dalam makalah ini akan dibahas model klasifikasi menggunakan Decision
Tree dengan algoritma Interactive Dichotomicer 3 (ID3), untuk penentuan pola dari
sebuah data PMB dengan mengacu pada parameter atribut yang digunakan pada saat
calon mahasiswa tersebut mendaftar dan melaksanakan ujian masuk. Dari hasil
pembahasan studi kasus didapatkan atribut yang berpengaruh pada penentuan pola data
PMB terdiri dari tiga atribut, yaitu prioritas pilihan program studi, skor ujian masuk dan
jurusan saat SMA.

Kata Kunci : Data Mining, Model Klasifikasi, Decision Tree, Algoritma ID3, Penerimaan
Mahasiswa Baru

1. PENDAHULUAN mahasiswa yang akan mendaftar pada


Suatu hal penting yang suatu program studi, informasi tersebut
seharusnya dilakukan perguruan tinggi dapat dijadikan dasar untuk pemilihan
pada saat melakukan PMB, yaitu dengan program studi dengan informasi kriteria
mengidentifikasi pola dari data PMB penilaian suatu program studi terhadap
yang sudah dilaksanakan, dengan calon mahasiswanya.
melakukan klasifikasi dari paramenter Klasifikasi adalah suatu
atribut yang ditentukan. Informasi yang fungsionalitas yang akan menghasilkan
dapat diterima program studi dari model yang mampu memprediksi kelas
penentuan pola tersebut dapat dijadikan atau kategori dari objek-objek. Dalam
dasar penentuan kebijakan sistem PMB permsalahan ini klasifikasi dapat
yang akan datang untuk kriteria penilaian digunakan oleh suatu program studi
calon mahasiswanya. Informasi yang untuk menentukan atau mengidentifikasi
dihasilkan juga bermanfaat bagi calon pola dari data PMB yang sudah

dilaksanakan. Pada kasus ini model pola data untuk kelas status “diterima” atau
klasifikasi dibuat untuk mengidentifikasi “tidak diterima”, dari hasil penentuan pola
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

training data. Pola atau model dari besarnya kebutuhan akan nilai tambah
training data tersebut selanjutnya diuji dari database dengan skala besar. DM
dengan menggunakan test set data. adalah serangkaian proses untuk
Singkatnya Model klasifikasi dibuat menggali nilai tambah berupa
dengan cara menganalisis training data pengetahuan yang selama ini tidak
(terdiri dari variable variabel yang diketahui secara manual dari suatu
kelasnya sudah diketahui). Model yang kumpulan data. DM memiliki hubungan
dihasilkan kemudian akan digunakan dari bidang ilmu seperti artificial
untuk memprediksi kelas dari unknown intelligent, machine learning, statistik
data (variable-variabel yang kelasnya dan database. Beberapa teknik DM
belum diketahui), test set data digunakan antara lain: clustering, classification,
untuk pengujian dari model yang telah association rule mining, neural network,
didapatkan pada training data. Model genetic algorithm dan lain-lain.
klasifikasi yang digunakan dalam kasus
ini adalah Decision Tree. Perangkat lunak Proses Data Mining
bantu yang digunakan untuk DM dapat dibagi menjadi beberapa tahap
implementasi adalah WEKA 36.2. yang diilustrasikan pada Gambar 1
Diharapakan dengan dilakukannya model
klasifikasi ini program studi akan
menemukan pola dari data PMB yang
sudah dilaksanakan, sebagai dasar untuk
penentuan kebijakan bagi PMB yang
akan datang.

2. LANDASAN TEORI
Data Mining
Data Mining (DM) adalah salah satu
Gambar 1 Tahapan Data Mining
bidang yang berkembang pesat karena
Klasifikasi
Klasifikasi adalah proses untuk
menemukan model atau fungsi yang
menjelaskan atau membedakan konsep
atau kelas data, dengan tujuan untuk

dapat memperkirakan kelas dari suatu “jika-maka”, berupa decision tree, formula
objek yang labelnya tidak diketahui. matematis atau neural network. Proses
Model itu sendiri bisa berupa aturan classification biasanya dibagi menjadi dua
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

fase: learning dan test. Pada fase digunakan untuk membangkitkan


learning, sebagian data yang telah Decision Tree yang mendapatkan
diketahui kelas datanya diumpankan informasi berdasarkan entropy yang
untuk membentuk model perkiraan. merupakan sistem pengukuran statistik.
Kemudian pada fase test model yang Sample data yang digunakan oleh
sudah terbentuk diuji dengan sebagian ID3 memiliki beberapa syarat, yaitua
data lainnya untuk mengetahui akurasi tribut yang sama harus mendeskripsikan
dari model tersebut. Bila akurasinya tiap contoh dan memiliki jumlah nilai
mencukupi model ini dapat dipakai untuk yang sudah ditentukan. Pemillihan atribut
prediksi kelas data yang belum diketahui. pada ID3 dilakukan dengan properti
statistik, yang disebut dengan
3. METODOLOGI information gain. Gain mengukur
Metode yang digunakan untuk seberapa baik suatu atribut memisahkan
menangani permasalahan yang ada training example ke dalam kelas target.
bertujuan untuk memperlihatkan Atribut dengan informasi tertinggi akan
bagaimana sebuah model data mining dipilih. Dengan tujuan untuk
dapat digunakan untuk membantu mendefinisikan gain, pertama-tama
mengetahui pola Penerimaan Mahasiswa digunakanlah ide dari teori informasi
Baru (PMB) di salah satu Program Studi yang disebut entropi. Entropi mengukur
X di Perguruan Tinggi Z berdasarkan jumlah informasi yang ada pada atribut.
atribut-atribut dari data mahasiswa yang Rumus entropi adalah:
mendaftar pada program studi tersebut.
Dari berbagai model klasifikasi
yang ada digunakan model Decision Rumus untuk menghitung gain adalah:
Tree, yaitu dengan menggunakan
algoritma Iterative Dichotomiser 3 (ID3)
merupakan sebuah metode yang
Setelah mendapatkan informasi
dari semua atribut yang dihitung, atribut
dengan information gain tertinggi dipilih
sebagai atribut node awal (root node)
serta cabang-cabangnya di buat sesaui
nilai-nilai kemungkinan. Proses ini terus
berulang sepanjang/ pada setiap cabang

4. HASIL DAN PEMBAHASAN Pada makalah ini, data yang


Arsitektur Sistem digunakan merupakan data calon
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

mahasiswa yang mendaftar pada suatu e) Prioritas pilihan Program Studi.


program studi di Universitas X. Jumlah Attribut ini dibagi menjadi 3 label,
data yang diproses adalah 1458 sampel yaitu :
data. Yang dibagi kedalam 7 attribut 1. Pilihan 1.
Atribut-atribut tersebut adalah : 2. Pilihan 2.
a) Jurusan pilihan. 3. Pilihan 3.
Dibagai kedalam 2 label, yaitu : f) Skor ujian masuk.
1. Ilmu Pengetahuan Sosial (IPS) Attribut skor ujian masuk dibagi
2. Ilmu Pengetahuan Campuran (IPC). menjadi 4 label, yaitu :
b) Jurusan sewaktu SMA. 1. Skor ujian < 25.
Attribut jurusan sewaktu SMA dibagi 2. Skor ujian >= 25 dan <50.
menjadi 3 label, yaitu : 3. Skor ujian >= 50 dan <75.
1. Ilmu Pengetahuan Alam (IPA). 4. Skor ujian >= 75 dan <=100.
2. Ilmu Pengetahuan Sosial (IPS). g) Status diterima atau tidak diterimanya
3. Kejuruan. siswa tersebut.
c) Daerah asal. Attribut ini dibagi menjadi 2 label,
Attribut daerah asal siswa dibagi yaitu :
menjadi 5 label, yaitu : 1. Diterima
1. Banten. 2. Tidak diterima.
2. DKI. Dari total sampel yang digunakan
3. Jawa Barat. kemudian dibagi menjadi 2 subset, subset
4. Jawa Tengah. 1 untuk training dengan jumlah sampel
5. Jawa Timur. data 972 dan subset 2 untuk testing
d) Rata-rata nilai Ujian Nasional (UN). dengan jumlah sampel data 486.
Attribut rata-rata nilai UN dibagi
menjadi 3 label, yaitu : Pembahasan
1. Rataan < 6. Penelitian ini menggunakan data
2. Rataan >= 6 dan < 8 sejumlah 1.458 yang dibagi menjadi dua
3. Rataan >= 8 dan <= 10. subset yaitu :
1. S1 = 972 data sebagai training set
2. S2 = 486 data sebagai test set
Dengan metode yang digunakan, maka
perhitungan entropi dan nilai information

gain masing-masing variabel dengan Tabel 1.


menggunakan data subset S1 (972 data) Tabel 1. Entropi dan Information Gain
sebagai training set dapat dilihat pada
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

pertaman. Sehingga deskripsi dari Gambar 2.


Decision Treenya dapat dilihat pada
Pilihan Ke
3
1 2
1 Tidak Diterima
3
Skor 24 Skor

Bandingan Tidak Diterima


Variabel Nilai Jml (0/1) Entropi GAIN Diterima
1 3
Jurusan 4

1 Pilihan 2 854 514 340 0.970 Diterima Diterima 2


-0.675
3 118 98 20 0.657 TidakTidak
Jurusan SMA DiterimaDiterima
Jurusan Tidak Diterima

2 SMA 1 310 222 88 0.861


1 3
2
2 642 376 266 0.979 -1.770
Tidak Diterima
NULL
3 20 14 6 0.881
Diterima

3 Asal 1 46 32 14 0.887
2 116 58 58 1.000 Gambar 2. Decision Tree
3 126 74 52 0.978 -3.762
4 654 428 226 0.930 Keterangan Gambar
Variabel Isi
5 30 20 10 0.918
Jurusan [ 2 | 3 ] / [ IPS | IPC ]
4 Rataan 1 20 12 8 0.971 Pilihan
2 654 392 262 0.971 -1.875 Jurusan SMA [ 1| 2 | 3 ] / [ IPA | IPS |
3 298 208 90 0.884 IPC ]
5
Pilihan
Ke 1 560 216 344 0.962 Asal [1|2|3|4|5]/[
0.262 -0.273 Banten | DKI | Jabar |
2 360 344 16
Jateng | Jatim ]
3 52 52 0 0.000
Rataan [1 | 2 | 3 ] / [ <6 | 6 – 8 |
6 Skor 1 316 316 0 0.000 8 – 10]
2 404 198 206 1.000
-1.674
Pilihan Ke [1|2|3]
3 202 90 112 0.991 Skor [ 1 | 2 | 3 | 4 ] / [ 0 – 25 |
4 50 8 42 0.634 25 – 50 | 50 – 75 | 75 –
100 ]
7 Diterima 0 612
0.951
1 360 NULL Data tidak tersedia

Berdasarkan Decision Tree yang


Berdasarkan hasil yang didapatkan pada
terbentuk, variabel-variabel yang
tabel 1, maka sebagai langkah pertama
berpengaruh pada penerimaan mahasiswa
variabel Pilihan Ke menjadi NODE
baru adalah :
pertama dalam Decision Tree karena
1. Pilihan Ke (1 atau 2 atau 3)
memiliki nilai information gain paling
2. Skor (1 atau 2 atau 3 atau 4)
tinggi. Pada langkah selanjutnya adalah
3. Jurusan SMA (1 atau 2 atau 3)
menentukan NODE kedua dan seterusnya
Variabel-variabel yang tidak
hingga Decision Tree didapatkan dengan
mempengaruhi diantaranya :
perhitungan cara yang sama pada langkah

1. Jurusan pilihan (2 atau 3) telah dilakukan dengan metode


2. Asal (1 atau 2 atau 3 atau 4 atau 5) Decision Tree menggunakan
3. Rataan (1 atau 2 atau 3) algoritma ID3 untuk menghasilkan
Dalam aturan klasifikasi yang output dari penentuan pola pada
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670

training data dan hasil evaluasi test set atribut yang ada, teridentifikasi bahwa
data digunakan perangkat lunak bantu atribut yang berpengaruh pada penentuan
WEKA. Dan hasil yang diperoleh seperti status akhir dari data terdapat tiga atribut
ditunjukan pada gambar 3. yaitu atribut prioritas pilihan program
studi, skor ujian masuk dan jurusan saat
SMA. Hasil evaluasi dari data test set,
didapatkan bahwa nilai keakuratan
penentuan dari pola menunjukan hasil
maksimal yaitu 100%, artinya setiap data
pada status akhir/ kelas tujuan semuanya
terpasang dengan benar. Dari data
confusion matrix data test set
menunjukan nilai klasifikasi sesuai dan
tidak terdapat kesalahan klasifikasi yaitu
a = 306 data dan b= 108 data untuk total
486 data tes set.

5. KESIMPULAN
Penentuan pola data PMB pada
pembahasan studi kasus penelitian ini
dapat diidentifikasi dengan model
klasifikasi menggunakan model Decision
Tree dengan algoritma ID3. Dari
Gambar 3. Output Decision Tree. pembahasan studi kasus pada penelitian
Pada gambar 3 output dari hasil ini klasifikasi yang dilakukan mengacu
pengolahan diketahui bahwa dari semua pada enam atribut data PMB, dan setelah
melakukan pengolahan atribut yang
berpengaruh pada penentuan pola untuk
mendapatkan status data final hanya
diperoleh tiga atribut saja yaitu : prioritas
pilihan program studi, skor ujian masuk
dan jurusan saat SMA. Akurasi hasil dari
studi kasus yang dibahas mencapai nilai
keakuratan yang maksimal yaitu 100%.
Penelitian lanjutan perlu dilakukan untuk
menambah cakupan atribut yang dapat
dijadikan penentu peningkatan nilai dari
status akhir data yang dibutuhkan,
misalnya dengan penambahan kelompok
atribut dari atribut hasil atau skor test
masuk, yang didekomposisi menjadi
beberapa atribut baru, misalnya skor nilai
kemampuan verbal, skor nilai
kemampuan kuantitatif, skor nilai
kemampuan logika, skor nilai test
psikologis, dan lain lain.

DAFTAR PUSTAKA

Ayu Purwarianti, (2010). Sistem


Informasi Inteligen. Magister Informatika
STEI ITB.

Han, Jiawei, Micheline Kamber, (2006),


Data Mining Concept and Techniques
(2nd edition), Morgan Kaufmann Publish.

Ian H. Witten, Eibe Frank,(2005), Data


Mining : Practical Machine Learning
Tools and Techniques, Second Edition,
Morgan Kaufmann Publishers.

Jian Wang Bo Yuan Wenhuang Liu.


(2008). Application of Decision Trees in
Mining High-Value Credit Card
Customers. Proceedings of the 11th Joint
Conference on Information Sciences.

Q. Wang, Y. Wu, J. Xiao, and F. Guang,


(2007). The Applied Research Based on
Decision Tree of Data Mining In Third-
Party Logistics”, IEEE International
Conference on Logistics, pp. 1540-1544.

View publication stats

Anda mungkin juga menyukai