Anda di halaman 1dari 50

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi informasi yang begitu maju saat ini,


menyebabkan tingkat akurasi suatu data sangat dibutuhkan dalam
kehidupan sehari-hari. Setiap informasi yang ada menjadi suatu hal
penting untuk menentukan setiap keputusan dalam situasi tertentu. Hal ini
menyebabkan penyediaan informasi menjadi sarana untuk dianalisa dan
diringkas menjadi suatu pengetahuan dari data yang bermanfaat ketika
pengambilan suatu keputusan dilakukan [1]. Pengetahuan dari data pada
suatu informasi saja tidak cukup untuk mengambil suatu keputusan.
Diperlukan juga suatu analisa dari setiap data yang ada untuk mendapatkan
bahan pertimbangan dari informasi yang tersedia. Dengan menggunakan
data mining, setiap kumpulan atau gudang data dapat memberikan
pengetahuan penting yang menjadi informasi yang sangat berharga bagi
suatu organisasi, seperti pada organisasi pendidikan. Pada organisasi
pendidikan, suatu sistem informasi dapat digunakan untuk memperoleh
informasi yang menunjang setiap kegiatan pada pengambilan suatu
keputusan. Data mining algoritma C4.5 dapat digunakan untuk menyusun
sistem yang mempunyai kemampuan melihat pola kelulusan mahasiswa,
untuk selanjutnya bisa menjadi strategi dalam proses perkuliahan [1].
Universitas Multimedia Nusantara merupakan salah satu organisasi
pendidikan yang bergerak di bidang multimedia dan teknologi. Informasi
tingkat kelulusan dari mahasiswa Universitas Multimedia Nusantara
sangat penting untuk meningkatkan pelayanan yang dapat membuat
mahasiswa nyaman dan bisa lulus tepat waktu. Penggunaan data mining
dapat digunakan sebagai pertimbangan dalam mengambil keputusan lebih
lanjut tentang faktor yang mempengaruhi kelulusan khususnya faktor
dalam data induk mahasiswa [1]. Pada penelitian Mujib Ridwan dan
kawankawan (2013) menjelaskan bahwa faktor yang paling berpengaruh
dalam penentuan klasifikasi kinerja akademik mahasiswa adalah Indeks
Prestasi Komulatif (IPK), Indeks Prestasi Semester (IPS) semester 1, IPS
semester 4 dan jenis kelamin [2]. Pada penelitian ini peneliti menggunakan
algoritma C4.5 dalam menentukan prediksi kelulusan berdasarkan attribute
jenis kelamin, asal sekolah SMA dan IPS semester satu sampai dengan
semester enam.
Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan
yang banyak digunakan Karena memiliki kelebihan utama dari algoritma
yang lainnya. Kelebihan algoritma C4.5 dapat menghasilkan pohon
keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang
dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat
menangani atribut bertipe diskret dan numerik [3]. Dalam mengkonstruksi
pohon, algoritma C4.5 membaca seluruh sampel data training dari storage
dan memuatnya ke memori. Hal inilah yang menjadi salah satu kelemahan
algoritma C4.5 dalam kategori 16 ULTIMATICS, Vol. VI, No. 1 | Juni
2014 ISSN 2085-4552 skalabilitas adalah algoritma ini hanya dapat
digunakan jika data training dapat disimpan secara keseluruhan dan pada
waktu yang bersamaan di memori [4]. Data training yang akan digunakan
oleh peneliti adalah data alumni mahasiswa program studi Teknik
Informatika Universitas Multimedia Nusantara angkatan 2007 dan 2008,
sedangkan untuk data testing akan digunakan data alumni angkatan 2009.
Dari kumpulan data training dan data testing, dapat diketahui informasi
kelulusan yang dapat mempengaruhi beberapa keputusan program studi
menggunakan data mining dengan algoritma C4.5.

1.2 Rumusan Masalah


Berdasarkan penjabaran latar belakang diatas, didapat rumusan masalah
penelitian ini yaitu sebagai berikut :
1. Bagaimana proses penerapan Data Mining untuk mengolah data Mata
Kuliah dan IPKMahasiswa?
2. Bagaimana proses membangun model desain sistem prediksi kelulusan
Mahasiswa Teknik Informatika Universitas Multimedia Nusantara
dengan Algoritma C 4.5 ?
3. Bagaimana menganalisa kelulusan Mahasiswa menggunakan Algoritma
C 4.5 ?

1.3 Batasan Masalah


Untuk memfokuskan penelitian, maka ditentukan beberapa batasan
masalah, yaitu sebagai berikut :
1. Data yang diperlukan yaitu berupa data nilai Mahasiswa angkatan 2007
dan 2008 yaitu sebanyak 192 datakemudian yang diproses hanya
datadari semester 1 sampai dengan semester 5.
2. Data Mahasiswa angkatan 2007 dan 2008 yang akan di proses
untuktraining dan testingsebanyak192data.
3. Dari semester 1 sampai dengan semester 5 data yang di ujihanya
mengambil 1 mata kuliah per semester nya.
4. Mata kuliah yang di proses hanya beberapa mata kuliah seperti
Pemrograman Terstruktur, Metodologi Penelitian & Penulisan Ilmiah,
Sistem Operasi, Metode Numerik, Basis Data dan nilai IPK dari mata
kuliah tersebut.
5. Data Mahasiswa yang akan diproses sebanyak192 data dari Mahasiswa
angkatan 2008baik yang sudah lulus maupun yang belum lulus.

1.4 Tujuan Penelitian


Tujuan yang ingin dicapai dari hasil penelitian ini adalah :
1. Mengimplementasikan model klasifikasi menggunakan metode
Decision Tree berdasarkan nilai-nilai akademis para Mahasiswauntuk
memprediksi kelulusannya.
2. Dengan dilakukannya penelitian ini diharapkan dapat menjawab
apakah nilai-nilai akademis Mahasiswa dapat mempengaruhi hasil
kelulusannya.
3. Bisa mendesain model sistem prediksi kelulusan Mahasiswa Teknik,
khusus nya Teknik Informatika menggunakan Algoritma C 4.5.

1.5 Manfaat Penelitian


Diharapkan dengan adanya penelitian ini bisa memberikan manfaat-
manfaat sebagai berikut :
1. Diharapkan dengan adanya aplikasi ini dapat membantu menyajikan
informasi tentang hubungan tingkat kelulusan dengan data nilai Mata
Kuliah Mahasiswa dan IPK.
2. Diharapkan bisa memperkirakan hasil dari tingkat kelulusan
Mahasiswa berdasarkan nilai Mata Kuliah dan IPK.
3. Diharapkan aplikasi ini dapat memberikan manfaat bagi Fakultas
Teknik khusus nya Teknik Informatika di Universitas Multimedia
Nusantara untuk menentukan tingkat kelulusan Mahasiswanya.
BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

1.1. Tinjauan Pustaka

Penerapan algoritma C4.5 untuk klasifikasi predikat kelulusan mahasiswa

Fakultas Komunikasi dan Informatika Universitas Muhammadiyah Surakarta [1].

Penelitian yang dilakukan bertujuan untuk menganalisa data yang telah bertambah

banyak didalam database yang dimiliki. Sementara itu, data-data yang melimpah
ini bisa dimanfaatkan sebagai sumber informasi strategis bagi program studi untuk

memprediksi masa studi dan predikat kelulusan mahasiswa dengan menggunakan

teknik teknik data mining. Penelitian ini menggunakan algoritma C4.5 guna

mendukung proses penelitian. Ada 7 tahap yang dilakukan dalam penelitian ini

yang pertama yaitu, studi literatur atau kepustakaan yang dilakukan dengan

menelusuri literatur untuk menggali teori-teori yang sedang berkembang, mencari

metode penelitian yang digunakan terdahulu dan untuk memperoleh orientasi

yang ada dalam permasalahan. Kedua, pemilihan obyek penelitian yang dilakukan

untuk memprediksi dan mengklasifikasikan indeks prestasi komulatif mahasiswa

Fakultas Komunikasi dan Informatika UMS. Ketiga, penentuan variabel data

mining. Variabel-variabel yang akan digunakan untuk proses data mining ini

ditentukan berdasarkan tujuan penelitian. Keempat, penentuan nilai class variabel.

Kelima, pengumpulan data. Sesudah data terkumpul langkah selanjutnya yaitu,

mengelolah data. Olah data yang dilakukan menurut meliputi pemisahan atribut-

atribut yang diperlukan untuk proses data mining. Tahap terakhir yaitu,

menganilisis data.
Berikutnya penulis mengutip dari artikel dengan judul Data mining

menggunakan algoritma Nave bayes untuk klasifikasi kelulusan mahasiswa

Universitas dian nuswantoro [2]. Data mahasiswa dan data kelulusan mahasiswa

Dian Nuswantoro menghasilkan data yang sangat berlimpah berupa data profil

mahasiswa dan data akademik. Hal tersebut terjadi secara berulang dan

menimbulkan penumpukan terhadap data mahasiswa sehingga mempengaruhi

pencarian informasi terhadap data tersebut. Penelitian ini bertujuan untuk

melakukan klasifikasi terhadap data mahasiswa Universitas Dian Nuswantoro

Fakultas Ilmu Komputer angkatan 2009 berjenjang DIII dan S1 dengan

memanfaatkan proses data mining dengan menggunakan teknik klasifikasi.

Metode yang digunakan adalah CRISP-DM dengan melalui proses business

understanding, data understanding data preparation, modeling, evaluation dan

deployment. Algoritma yang digunakan untuk klasifikasi kelulusan adalah

algoritma Nave Bayes. Nave Bayes merupakan teknik prediksi berbasis

probabilistik sederhana yang berdasar pada penerapan teorema atau aturan bayes

dengan asumsi independensi yang kuat pada fitur, artinya bahwa sebuah fitur pada

sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang

sama. Implemtasi menggunakan RapidMiner 5.3 digunakan untuk membantu

menemukan nilai yang akurat. Atribut yang digunakan adalah NIM, Nama,

Jenjang, Progdi, Provinsi Asal, Jenis Kelamin, SKS, IPK, dan tahun lulus. Hasil

dari penelitian ini digunakan sebagai salah satu dasar pengambilan keputusan

untuk menentukan kebijakan oleh pihak Fasilkom.


Selanjutnya penulis mengambil referensi jurnal dari internet dengan judul
Implementasi data mining dengan algoritma C4.5 untuk memprediksi tingkat

kelulusan mahasiswa [3]. Pada penelitian ini penulis menggunakan algoritma

C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan

karena memiliki kelebihan utama dari algoritma yang lainya. Kelebihan algoritma

C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan,

memiliki tingkat akurasi yang dapat diterima,efisien dalam menangani atribut

bertipe diskrit dan numeric. Dalam mengkontruksi pohon, Algoritma C4.5

membaca seluruh sampel data training dari stoage dan memuatnya ke memori.

Hal ini lah yang menjadi salah satu kelemahan algoritma C4.5 dalam kategori

skalabilitas adalah algoritma ini hanya dapat digunakan jika data training dapat

disimpan secara keseluruhan dan pada waktu yang bersamaan dimemori. Data

training yang akan digunakan oleh peneliti adalah data alumni mahasiswa

program studi teknik informatika universitas multimedia nusantara angkatan

2007dan 2008 sedangkan untuk data testing akan digunakan data alumni angkatan

2009. Dari kumpulan data training dan data testing, dapat diketahui informasi

kelulusan yang dapat mempengaruhi beberapa keputusan program studi

menggunakan data mining algoritma C4.5.

Hasil penelitian yang telah diuraikan oleh para peneliti diatas, memiliki

penerapan data mining yang beragam. Penelitian pertama, kedua dan ketiga

memiliki tujuan yang hampir sama yaitu memfokuskan mencari sebuah informasi
pada data yang telah menumpuk di dalam database sebuah Universitas. Informasi

yang dicari di dalam database ini yaitu tentang faktor yang mempengaruhi tingkat

kelulusan mahasiswa agar informasi yang di dapat bisa dijadikan sebagai salah

satu bahan evaluasi bagi Universitas untuk selanjutnya bisa menjadi strategi dalam

proses perkuliahan, supaya tingkat kelulusan semakin meningkat. Perbedaan

penelitian yang dilakukan oleh peneliti diatas terletak pada atribut dan algoritma

yang digunakan, peneliti yang pertama dan ketiga menggunakan algoritma C4.5

sedangkan peneliti kedua menggunakan algoritama Nave bayes.

Penelitian yang pertama dan ketiga hampir sama kasusnya dengan yang

dibuat oleh penulis, perbedaan terletak pada atribut dan algoritma yang digunakan.

Data Mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan

tren baru yang bermakna dengan menyaring data yang sangat besar, yang tersimpan

dalam penyimpanan, menggunakan teknik pengenalan pola seperti teknik Statistik dan

Matematika [5]. Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu

kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining

mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih

dahulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki

teknik tradisional sehingga bisa menangani:

1. Jumlah data yang sangat besar

2. Dimensi data yang tinggi

3. Data yang heterogen dan berbeda sifat


Menurut para ahli, data mining merupakan sebuah analisa dari observasi data

dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan

dua metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk

pemilih data [6].

2.2. Landasan Teori

2.2.1. Data Mining


Data mining adalah suatu istilah yang digunakan untuk menguraikan

penemuan pengetahuan didalam database. Data mining adalah prosses yang

menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine

learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat

dan pengetahuan yang terakit dari berbagai database besar [4].

Kemampuan luar biasa yang terus berlanjut dalam bidang data mining

didorong oleh beberapa factor, antara lain [4]:

1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh

perusahaan memiliki akses kedalam database yang andal.

3. Adanya peningkatan akses data melalui navigasi web dan internet.

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan

pasar dalam globalisasi ekonomi.

5. Perkembangan teknologi perangkat lunak untuk data mining

(ketersedian Teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan

pengembangan kapasitas media penyimpanan.

Gambar 2.1 Bidang ilmu data mining.

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu

kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining

mewarisi banyak aspek dan teknik dari bidang-bidang ilmu Yang sudah mapan

terlebih dahulu. Gambar 2.1 menunjukan bahwa data mining memiliki akar yang

panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),

machine learning, statistic, database dan juga information retrieval [4].

Istilah data mining dan knowledge discovery in databases (KDD) sering

kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi

tersembunyi dalam suatu basis data yag besar. Sebenarnya kedua istilah tersebut

memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu

tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara

garis besar dapat dijelaskan sebagai berikut [4]:


1. Data selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan

sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil

seleksi yang akan digunakan untuk proses data mining, disimpan dalam

suatu berkas, terpisah dari basis data operasional.

2. Pre-processing

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses

cleaning pada data yang menjadi focus KDD. Proses cleaning mencakup

antara lain membuang duplikasi data, memeriksa yang inkonsiste, dan

memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga

dilakukan proses enrichment, yaitu proses memperkaya data yang sudah

ada dengan data atau informasi lain yang relevan dan diperlukan untuk

KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga

data tersebut sesuai untuk proses data mining. Proses coding dalam KDD
merupakan proses kreatif dan sangat tergantung pada jenis atau
pola
informasi yang akan dicari dalam basis data.

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam

data teripilih dengan menggunakan teknik atau metode tertentu.

Teknik, metode, atau algoritma dalam data mining sangat bervariasi.

Pemilihan metode atau algoritma yang tepat sangat bergantung pada

tujuan dan proses KDD secara keseluruhan.

5. Interpretationall

Pola informasi yang dihasilkan dari proses data mining perlu

ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang

berkepentingan. Tahap ini merupakan bagian dari proses KDD yang

disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola

atau informasi yang ditemukan bertentangan dengan fakta atau

hipotesis yang ada sebelumnya.

2.2.1.1. Pengelompokan data mining


Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan yaitu [4]:
1. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencoba

mencari cara untuk menggambarkan pola dan kecenderungan yang

terdapat dalam data. Sebagai contoh, petugas pengumpulan suara

mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa

yang tidak cukup professional akan sedikit didukung dalam pemilihan

presiden. Deskripsi dari pola dan kecenderungan sering memberikan

kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variable target

estimasi lebih kearah numeric dari pada ke arah kategori. Model

dibangun menggunakan record lengkap yang menyediakan nilai dari

variable target sebagai nilai prediksi. Selanjutnya, pada peninjauan

berikutnya estimasi nilai dari variable target dibuat berdasarkan nilai

variable prediksi. Sebagai contoh, akan dilakukan estimasi tekanan

darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis

kelamin, indeks berat badan, dan level sodium darah. Hubungan antara

tekanan darah sistolik dan nilai variable prediksi dalam proses

pembelajaran akan menghasilkan model estimasi. Model estimasi yang

dihasilkan dapat digunakan untuk kasus baru lainya.

3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa

dalam prediksi nilai dari hasil akan ada dimasa mendatang.

4. Klasifikasi

Dalam klasifikasi, terdapat target variable kategori. Sebagai contoh,

penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu

pendapatan tinggi pendapatan sedang, pendapatan rendah.

Contoh lain dalam klasifikasi dalam bisnis dan penelitian adalah:

Menentukan apakah suatu transaksi kartu

kredit merupakan transaksi yang curang apa

bukan.

Memperkirakan apakah suatu pengajuan

hipotek oleh nasabah merupakan suatu

kredit yang baik atau buruk.

Mendiagnosis penyakit seseorang pasien

untuk mendapatkan termasuk kategori

penyakit apa.

5. Clustering

Clustering merupakan pengelompokan record, pengamatan, atau

memperhatikan dan membentuk kelas objek-objek yang memiliki

kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu

dengan yang lainya dan memiliki ketidakmiripan dengan record-record

dalam kluster lain.


Keseluruhan data menjadi kelompok-kelompokan yang memiliki

kemiripan (homogen), yang mana kemiripan record dalam satu kelompok

akan bernilai maksimal, sedangkan kemiripan dengan record dalam

kelompok lain akan bernilai minimal.

Contoh clustering dalam bisnis dan penelitian adalah:

Mendapatkan kelompok-kelompok

konsumen untuk target pemasaran dari suatu

produk bagi perusahaan yang tidak memiliki

dana pemasaran yang besar.

Untuk tujuan audit akuntansi, yaitu

melakukan pemisahan terhadap prilaku

finansial dalam baik dan mencurigakan.

Melakukan pengklusteran terhadap ekspresi

dari gen, untuk mendapatkan kemiripan

perilaku dari gen dalam jumlah besar.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul

dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis

keranjang belanja.
2.2.2. Pohon keputusan (Decision Tree).
Seiring dengan perkembangan kemajuan pola pikir manusia, manusia

mulai mengembangkan sebuah sistem yang dapat membantu manusia dalam

menghadapi masalah-masalah yang timbul sehingga dapat menyelesaikannya

dengan mudah. Pohon keputusan atau yang lebih dikenal dengan istilah Decision

Tree ini merupakan implementasi dari sebuah sistem yang manusia kembangkan

dalam mencari dan membuat keputusan untuk masalah-masalah tersebutdengan

memperhitungkan berbagai macam faktor yang berkaitan di dalam lingkup

masalah tersebut. Dengan pohon keputusan, manusia dapat dengan mudah

mengidentifikasi dan melihat hubungan antara faktor-faktor yang mempengaruhi

suatu masalah sehingga dengan memperhitungkan faktor-faktor tersebut dapat

dihasilkan penyelesaian terbaik untuk masalah tersebut. Pohon keputusan ini juga

dapat menganalisa nilai resiko dan nilai suatu informasi yang terdapat dalam suatu

alternatif pemecahan masalah[5].

Pohon keputusan dalam analisis pemecahan masalah pengambilan

keputusan merupakan pemetaan alternatif-alternatif pemecahan masalah yang

dapat diambil dari masalah tersebut. Pohon keputusan juga memperlihatkan

faktor-faktor kemungkinan yang dapat mempengaruhi alternative-alternatif

keputusan tersebut, disertai dengan estimasi hasil akhir yang akan didapat bila kita

mengambil alternatif keputusan tersebut. Secara umum, pohon keputusan adalah

suatu gambaran permodelan dari suatu persoalan yang terdiri dari serangkaian

keputusan yang mengarah kepada solusi yang dihasilkan. Peranan pohon

keputusan sebagai alat bantu dalam mengambil keputusan telah dikembangkan


oleh manusia sejak perkembangan teori pohon yang dilandaskan pada teori graf.

Seiring dengan perkembangannya, pohon keputusan kini telah banyak

dimanfaatkan oleh manusia dalam berbagai macam sistem pengambilan

keputusan[5].

Decision tree adalah struktur flowchart yang menyerupai tree (pohon),

dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang

merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau

distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul

daun yang memegang prediksi.

Gambar 2.2 Bentuk Decision Tree Secara Umum[5].


2.2.3. Algoritma Induction Decision Tree (ID3)

ID3 merupakan sebuah metode yang digunakan untuk membangkitkan

pohon keputusan. Input dari algoritma ini adalah sebuah database dengan

beberapa variable yang juga dikenal dengan atribut. Setiap masukan dalam

database menyajikan sebuah objek dari domain yang disebut dengan variable

bebas (independent variable). Sebuah atribut didesain untuk mengklasifikasikan

objek yang disebut dengan variable tidak bebas (dependent variable).

Proses klasifikasi dilakukan dari node yang paling atas yaitu akar pohon

(root). Dilanjutkan kebawah melalui cabang-cabang sampai dihasilkan node daun

(leaves) dimana node daun ini menunjukan hasil akhir klasifikasi. Sebuah objek

yang diklasifikasikan dalam pohon harus dites nilai entropynya. Entropy adalah

ukuran dari teori informasi yang dapat mengetahui karateristik impurity dan

homogeneity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung

nilai information gain (IG) masing-masing atribut independent terhadap atribut

dependent-nya. IG merupakan nilai rata-rata entropy pada semua atribut[11].

2.2.3.1 Konsep Entropy

Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk

dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang

sampel S. Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu

kelas. Semakin kecil nilai entropy maka akan semakin entropy digunakan dalam

mengekstrak suatu kelas. Entropy digunakan untuk mengukur ketidakaslian S[4].


2.2.3.2 Konsep Gain

Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap

output data S. Perolehan informasi didapat dari output data atau variable dependent

S yang dikelompokan berdasarkan atribut A, dinotasikan dengan gain

2.2.4. Software Development Life Cycle (SDLC)

Dalam alur penelitian, metode yang digunakan adalah model SDLC

(Software Development Life Cycle). Metode ini merupakan siklus pengembangan

perangkat lunak yang terdiri dari beberapa tahapan penting dalam membangun

perangkat lunak yang dilihat dari segi pengembanganya. Metode ini ada 4 macam

model yaitu waterfall, prototype, RAD, Agile Software Development. Disini penulis

menggunakan waterfall.

Menurut Pressman(2010) Classic life cycle atau model waterfall

merupakan model yang paling banyak digunakan di dalam software engginering.

Model ini melakukan pendekatan secara sistematis. Model ini disebut juga model

berulang karena jika terjadi kesalahan dalam salah satu daftar tahapan maka dapat

kembali ketahapan sebelumnya sampai selesai sehingga bisa melanjutkan

ketahapan selanjutnya.
2.2.5 RapidMiner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open

source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data

mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai

teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna

sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang

lebih 500 operator data mining, termasuk operator untuk input, output, data

preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri

untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada

produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga

dapat bekerja di semua sistem operasi [5]. RapidMiner sebagai software open

source untuk data mining tidak perlu diragukan lagi karena software ini sudah

terkemuka di dunia. RapidMiner menempati peringkat pertama sebagai Software

data mining pada polling oleh KDnuggets, sebuah portal data-mining pada 2010-

2011[5].

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang

sebuah pipeline analitis. GUI ini akan menghasilkan file XML(Extensible Markup

Language) yang mendefenisikan proses analitis keinginan pengguna untuk

diterapkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan

analis secara otomatis[5].

RapidMiner memiliki beberapa sifat sebagai berikut[5]:


Ditulis dengan bahasa pemegroman java sehingga dapat dijalankan

di berbagai sistem operasi.


Proses penemuan pengetahuan dimodelkan sebagai operator trees.

Representasi XML internal untuk memastikan format standar

pertukaran data.

Bahasa scripting memungkinkan untuk eksperiman skala besar dan

otomatisasi eksperimen.

Konsep multi-layer untuk menjamin tampilan data yang efisien dan

menjamin penangan data.

Memiliki GUI, command line mode dan Java API yang dapat

dipanggil dari program lain.

Beberapa fitur dari RapidMiner, antara lain [5]:

Banyaknya algoritma data mining, seperti decision tree dan self-


organization map.

Bentuk grafis yang canggih, seperti tumbang tindih diagram


histogram, tree chart dan 3D scatter plots.

Banyaknya variasi plugin, seperti text plugin untuk melakukan


analisis teks.

Menyediakan prosedur data mining dan machine learning


termasuk: ETL (extraction, transformation, loading) data

preprocessing, visualisasi, modeling dan evalualisasi.

Proses data mining tersusun atas operator-operator yang nestable,


dideskripsikan dengan XML, dan dibuat dengan GUI.

Mengintegrasikan proyek data mining Weka dan statistic R.

2.2.5.1. Pengenalan Interface


RapidMiner menyediakan tampilan yang user friendly untuk memudahkan

penggunanya ketika menjalankan aplikasi. Tampilan pada RapidMiner dikenal


dengan istilah Perspective, yaitu; welcome perspective, design perspective dan

result perspective.[5]

a. Welcome Perspective

Ketika membuka aplikasi anda akan disambut dengan tampilan


yang disebut dengan welcome perspective, seperti yang ditunjukan
gambar 2.3. Pada bagian toolbar, terdapat toolbar perspective yang
terdiri dari ikon-ikon untuk menampilkan persepective dari
RapidMiner. Toolbar ini dapat dikonfigurasikan sesuai dengan
kebutuhan Anda. Sedangkan Views menunjukkan pandangan
(view) yang sedang Anda tampilkan

Jika komputer Anda terhubung dengan internet, maka pada bagian


bawah welcome perspective akan menampilkan berita terbaru
mengenai RapidMiner. Bagian ini dinamakan news. Pada bagian
tengah halaman terlihat daftar last processes (Recent Processes),
bagian ini menampilkan daftar proses analisis yang baru saja
dilakukan. Hal ini akan memudahkan Anda jika ingin melanjutkan
proses sebelumnya yang sudah ditutup, dengan mengklik dua kali
salah satu proses yang ada pada daftar tersebut. Bagian actions
menunjukkan daftar aksi yang dapat Anda lakukan setelah
membuka RapidMiner. Berikut ini rincian lengkap daftar aksi
tersebut:

New : Aksi ini berguna untuk memulai proses analis baru. Untuk

memulai proses analisis, pertama-tama Anda harus menentukan

nama dan lokasi proses dan Data repository. Setelah itu, Anda bisa

mulai merancang sebuah analisis baru.

Open Recent Process: Aksi ini berguna untuk membuka proses

yang baru saja ditutup. Selain aksi ini, Anda juga bisa membuka

proses yang baru ditutup dengan mengklik dua kali salah satu
daftar yang ada pada Recent Process. Kemudian tampilan welcome

perspective akan otomotasi beralih ke design perspective.

Open Process : Aksi ini untuk membuka repository browser yang

berisi daftar proses. Anda juga bisa memilih proses untuk dibuka

pada design perspective.

Open Template : Aksi ini menunjukkan pilihan lain yang sudah

ditentukan oleh proses analisis.

Online Tutorial : Aksi digunakan untuk memulai tutorial secara


online

(terhubung internet). Tutorial yang dapat secara langsung

digunakan dengan RapidMiner ini, memberikan perkanalan dan

beberapa konsep data mining. Hal ini direkomendasikan untuk

Anda yang sudah memiliki pengetahuan dasar mengenai data

mining dan sudah akrab dengan operasi dasar RapidMiner. Berikut

ini beberapa aksi yang dapat Anda lakukan:

Close : Aksi ini untuk menutup view yang ditampilkan pada

perspective. Anda bisa menampilkan view kembali dengan

mengklik menu view dan memilih view yang ingin ditampilkan.

Maximize : Aksi ini untuk memperbesar ukuran view pada


perspective.

Minimize : Aksi ini untuk memperkecil ukuran view pada


perspective.

Detach : Aksi ini untuk melepaskan view dari perspective menjadi

jendela terpisah, kemudian Anda juga dapat memindahkannya

sesuai dengan keinginan Anda.


b. Design Perspective

Design Perspective merupakan lingkungan kerja RapidMiner.


Dimana
design perspective ini merupakan perspective utama dari

RapidMiner yang digunakan sebagai area kerja untuk membuat dan

mengelola proses analisis. Seperti yang ditunjukkan pada Gambar

2.6, perspective ini memiliki beberapa view dengan fungsinya

masing-masing yang dapat mendukung Anda dalam melakukan

proses analisis data mining. Anda bisa mengganti perspective

dengan mengklik salah satu ikon dari tollbar perspective yang

sebelumnya telah dijelaskan. Selain dengan cara tersebut, Anda

juga bisa mengganti perspective dengan mengklik menu view,

kemudian pilih perspective, lalu pilih perspective yang ingin Anda

tampilkan. Sebagai Lingkungan kerja, design perspective memiliki

beberapa view. Berikut ini beberapa view yang ditampilkan pada

design perspective:

Operator View

Operator view merupakan view yang paling penting pada


perspective ini. Semua operator atau langkah kerja dari
RapidMiner disajikan dalam bentuk kelompok hierarki di operator
view ini sehingga operator-operator tersebut dapat digunakan pada
proses analisis, seperti yang ditunjukkan pada Hal ini akan
memudahkan Anda dalam mencari dan menggunakan operator
yang sesuai dengan kebutuhan Anda.:
1. Process Control: Operator ini terdiri dari operator perulangan

dan percabangan yang dapat mengatur aliran proses.

2. Utility: Operator bantuan, seperti operator macros, loggin,

subproses, dan lain-lain.

3. Repository Access: Kelompok ini terdiri dari operator-operator

yang dapat digunakan untuk membaca atau menulis akses pada

repository.

4. Import: Kelompok ini terdiri dari banyak operator yang dapat

digunakan untuk membaca data dan objek dari format tertentu seperti

file, database, dan lain-lain.

5. Export: Kelompok ini terdiri dari banyak operator yang dapat

digunakan untuk menulis data dan objek menjadi format tertentu.

6. Data Transformation: kelompok ini terdiri dari semua operator yang

berguna untuk transformasi data dan meta data.

7. Modeling: kolompok ini berisi proses data mining untuk menerapkan

model yang dihasilkan menjadi set data yang baru.

8. Evaluation: kelompok ini berisi operator yang dapat digunakan untuk

menghitung kualitas pemodelan dan untuk data baru.


Repository View

Repository view merupakan komponen utama dalam design


perspective selain operator view. View ini dapat Anda gunakan untuk
mengelola dan menata proses Analisis Anda menjadi proyek dan pada
saat yang sama juga dapat digunakan sebagai sumber data dan yang
berkaitan dengan meta data.

Process View

Process view menunjukkan langkah-langkah tertentu dalam proses


analisis dan sebagai penghubung langkah-langkah tersebut. Anda
dapat menambahkan langkah baru dengan beberapa cara hubungan
diantara langkah-langkah ini dapat dibuat dan dilepas kembali. Pada
dasarnya bekerja dengan RapidMiner ialah mendefinisikan proses
analisis, yaitu dengan menunjukkan serangkaian langkah kerja
tertentu. Dalam RapidMiner, komponen proses ini dinamakan sebagai
operator. Operator pada RapidMiner didefinisikan sebagai berikut:

1. Deskripsi dari input yang diharapkan.

2. Deskripsi dari output yang disediakan.

3. Tindakan yang dilakukan oleh operator pada input, yang akhirnya mengarah

dengan penyediaan output.

4. Sejumlah parameter yang dapat mengontrol action performed.

Parameter View

Beberapa operator dalam RapidMiner membutuhkan satu atau


lebihh parameter agar dapat diindikasikan sebagai fungsionalitas yang
benar. Namun terkadang parameter tidak mutlak dibutuhkan,
meskipun eksekusi operator dapat dikendalikan dengan menunjukkan
nilai parameter tertentu. Parameter view memiliki toolbar sendiri
sama seperti view-view yang lain. Pada Gambar 2.8, Anda dapat
melihat bahwa pada parameter view ini terdapat beberapa ikon dan
nama-nama operator terkini yang dikuti dengan aktual parameter.
Huruf tebal berarti bahwa parameter mutlak harus didefinisikan oleh
analis dan tidak memiliki nilai default. Sedangkan huruf miring
berarti bahwa parameter diklasifikasikan sebagai parameter ahli dan
seharusnya tidak harus diubah oleh pemula untuk analisis data. Poin
pentingnya ialah beberapa parameter hanya ditunjukkan ketika
parameter lain memiliki nilai tertentu.

Help & Comment View

Setiap kali Anda memilih operator pada operator view atau process
view, maka jendela bantuan dalam help view akan menunjukkan
penjelasan mengenai operator ini. Penjelasn yang ditampilkan dalam
help view meliputi:

1. Sebuah penjelasan singkat mengenai fungsi operator dalam satu atau beberapa

kalimat.

2. Sebuah penjelasan rinci mengenai fungsi operator.

3. Daftar semua parameter termasuk deskripsi singkat dari parameter, nilai default

(jika tersedia), petunjuk apakah parameter ini adalah parameter ahli serta indikasi

parameter dependensi.

Sedangkan comment view merupakan area bagi Anda untuk

menuliskan komentar pada langkahlangkah proses tertentu. Untuk

membuat komentar, Anda hanya perlu memilih operator dan menulis

teks di atasnya dalam bidang komentar. Kemudian komentar tersebut

disimpan bersama-sama dengan definisi proses Anda. Komentar ini

dapat berguna untuk melacak langkah-langkah tertentu dalam

rancangan nantinya.
Problem & Log View

Problem view merupakan komponen yang sangat berharga dan


merupkan sumber bantuan bagi Anda selama merancang proses
analisis. Setiap peringatan dan pesan kesalahan jelas ditunjukkan
dalam problem view, seperti yang ditunjukkan pada

Pada kolom Message, Anda akan menemukan ringkasan pendek dari


masalah. Kolom location berisi tempat di mana masalah muncul
dalam bentuk nama operator dan nama port input yang bersangkutan.
Kolom fixes memberikan gambaran dari kemungkinan solusi tersebut,
baik secara langsung sebagai teks (jika hanya ada satu kemungkinan
solusi) atau sebagai indikasi dari berapa banyak kemungkinan yang
berbeda untuk memecahkan masalah.

2.2.6. Microsoft SQL Server


SQL Server merupakan Relational Database Management System (RDMS)yang
menghubungkan pengguna dengan data untuk pengelolaan basis data. SQL Server dapat
digunakan untuk menghubungkan satu ataupun beberapa server. Bahasa basis data yang
digunakan SQL Server adalah Transact-SQL. Transact- SQL merupakan bahasa SQL yang
dimiliki oleh SQL Server yang berguna bagi pengguna untuk mendapatkan satu atau
kumpulan data pada basis data dengan cara menjalankan perintah dari suatu pernyataan SQL
[8].

2.2.7. Microsoft Excel


Microsoft excel adalah software spreadsheet paling terkenal di dunia bisnis dan
perkantoran. Excel digunakan hampir semua bidang bisnis. Excel dapat dijumpai di mana-
mana dan bisa dikatakan sebagai aplikasi yang universal dan dipakai semua orang. Aplikasi
excel memiliki fitur kalkulasi dan pembuatan grafik, serta mudah dipakai sehingga excel
menjadi salah satu program komputer yang populer digunakan di PC hingga saat ini.
BAB III

METODOLOGI PENELITIAN

3.1 Metodologi Penelitian

Metodologi adalah kerangka teoritis yang digunakan oleh penulis untuk


menganalisis. Kerangka teoritis adalah metode ilmiah yang diterapkan dalam
pelaksanaan penelitian. Metode penelitian ini, karena hasil penelian tergantung dari
metodologi yang digunakan. Dalam penulisan Tugas Akhir digunakan Algoritma C
4.5 sebagai sarana untuk memahami permasalahan yang cocok dengan permasalahan
kelulusan Universitas Muhammdiyah Semarang. Berikut tahapan-tahapan penelitian.

Tahapan-Tahapan Penelitian

Dalam tahapan-tahapan penelitian ini terdapat 5 tahap sebagai berikut :

1. Studi Literatur

2. Penyediaan Data Set

3. Implementasi Algoritma C 4.5

4. Pengujian

5. Evaluasi

Pada tahap studi literatur pengumpulan data dilakukan dengan cara


mempelajari buku-buku yang mendukung. Penyediaan data set penelitian ini
menggunakan nilai mahasiswa angkatan 2007 dan 2008 yaitu antara semester 1
sampai dengan semester 5. Dan yang akan diproses untuk training dan testing hanya
mengambil 10 sampel mahasiswa, dari semester 1 sampai dengan semester 5 tersebut
hanya mengambil 1 sampel mata kuliah per semester nya kemudian dihitung ipk nya.
Dalam implementasi algoritma C 4.5 yaitu untuk membangun pohon keputusan hal
pertama yang dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang
untuk tiap-tiap nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus
dalam cabang. Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada
cabang memiliki kelas yang sama. Untuk memilih atribut dengan akar, didasarkan
pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain
digunakan rumus sebagai berikut:

S Entropy (Si)
Si

Gain (S,A) = Entropy (S) (1)
n


i=1

Dengan :
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain
adalah salah satu atribute selection measure yang digunakan untuk memilih test
atribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai
test atribut dari suatu node. Sementara itu, penghitungan nilai entropi dapat dilihat
pada persamaan :

pi
n
Entropy (S) = log2 pi (2)
i=1

Dengan :

S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
Untuk mengetahui analisis Mahasiswa lulus tepat waktu dan tidak tepat waktu
adalah dengan melakukan klasifikasi dari kumpulan data nilai mata kuliah tersebut.
Salah satu metode klasifikasi adalah dengan membuat pohon keputusan. Berikut
penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon
keputusan dengan menggunakan algoritma C 4.5 untuk menyelesaikan permasalahan.
Langkah-langkah dalam membuat aplikasinya adalah peneliti melakukan
pemilihan atribut. Atribut tersebut diambil dari nilai mata kuliah mahasiswa dan ipk.
Pemilihan atribut tersebut dengan mempertimbangkan jumlah atribut tidak banyak
untuk memprediksi kelulusan mahasiswa, jika banyak atribut mata kuliah yang lain
peneliti kesulitan dalam membentuk pohon keputusan karena banyak node. Langkah
berikutnya, yaitu melakukan proses berdasarkan atribut yang dipilih dengan cara
membuat kolom atribut. Proses merancang aliran data yang digunakan adalah untuk
mengetahui langkah yang dilakukan algoritma C 4.5 pada tahap mining. Awal
pembentukan pohon keputusan dapat dilihat pada gambar 3.1

Gambar 3.1 Pembentukan tree

Tahap berikutnya melakukan pengujian terdapat tiga bagian :

1. Akurasi Didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai
aktual.
2. Presisi Tingkat ketepatan antara informasi yang diminta oleh pengguna dengan
jawaban yang diberikan oleh sistem.

3. Recall Tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi.

Sedangkan di dunia lain seperti dunia statistika dikenal juga istilah accuray.
Akurasi didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai
aktual. Ilustrasi berikut ini memberikan gambaran perbedaan antara akurasi dan
presisi.

Gambar 3.2 Perbedaan akurasi dan presisi

Secara umum presisi, recall dan akurasi dapat dirumuskan sebagai berikut:

Tabel 3.1 Presisi, Akurasi.

Nilai Sebenarnya
TRUE FALSE
TRUE TP (True Positive) FP (False Positive)
Nilai prediksi Corect Result Unexpected result
FALSE FN (False Negative) TN (True Negative)
Missing Result Correct Result

TP+TN
Akurasi = TP+TN + FP+ FN

TP
Presisi = TP+ FP

Tahap ini adalah tahap evaluasi dari hasil yang diperoleh dari konsep
algoritma C 4.5. Hasil klasifikasi pada data training akan di hitung tingkat akurasi,
Serta jumlah data yang diklasifikasikan ke dalam kelas dan dilihat perbandingan dari
nilai akurasi data yang sudah di training.
3.2 Perhitungan C 4.5 dalam pembentukan Decision Tree

Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini


disertakan contoh kasus yang dituangkan dalam tabel 3.2 :

Nilai IPK di diskritkan menjadi range nilai sebagai berikut :

0 2,50 = Kurang

2,51 2,75 = Cukup

2,76 3,49 = Baik

3,50 4,00 = Sangat Baik

Tabel 3.2 Nilai Mata Kuliah Dan Ipk Mahasiswa.

Dalam kasus yang tertera pada tabel 3.2 , akan dibuat pohon keputusan untuk
menentukan lulus atau tidak dengan melihat nilai dari mata kuliah pts, mppi, so, mn,
bd, dan ipk.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus 1.

S Entropy (Si)
Si

Gain (S,A) = Entropy (S) (1)
n


i=1

Dengan :

S : Himpunan kasus

A : Atribut
n : Jumlah partisi atribut A

|Si| : Jumlah kasus pada partisi ke i

|S| : Jumlah kasus dalam S

Sedangkan perhitungan nilai entropy dapat dilihat pada rumus 2 berikut :

pi
n
Entropy (S) = log2 pi (2)
i=1

Dengan :

S : Himpunan Kasus

A : Fitur

n : Jumlah partisi S

pi : Proporsi dari Si terhadap S

PTS B. Ada 4 nilai atribut dari MPPI yaitu A, B, C, dan D. Dari keempat nilai
atribut tersebut, nilai atribut A sudah mengklasifikasikan kasus menjadi satu yaitu
keputusan nya BAIK, nilai atribut B sudah mengklasifikasikan kasus menjadi satu
dengan keputusan nya BAIK, dan nilai atribut C sudah mengklasifikasikan kasus
menjadi satu dengan keputusan nya KURANG, nilai atribut D sudah
mengklasifikasikan kasus menjadi satu dengan keputusan nya KURANG sehingga
tidak perlu dilakukan perhitungan lebih lanjut.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada gambar 3.4.

PTS

A B C D

MPPI
Baik Baik Baik

Baik Kurang
A B C D

Baik Kurang

Gambar 3. Pohon Keputusan Hasil Perhitungan Node 1.1

Dengan memperhatikan pohon keputusan pada Gambar 3, diketahui bahwa


semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada
Gambar 3 merupakan pohon keputusan terakhir yang terbentuk.

3.3 Rancangan Penelitian

1. FLOWCHART

Flowchart Perancangan aplikasi prediksi kelulusan mahasiswa tersebut


dilakukan dengan perancangan conceptual flowchart seperti gambar berikut ini.
Gambar 1. Flowchart algoritma C4.5 Gambar 1 menjelaskan alur proses algoritma
C4.5. Pada bagian awal aplikasi menerima masukkan cabang pertama, data training,
jumlah tiap kategori, attribute dan kelulusan dari proses data training sebelumnya.
Pada proses cek keputusan dilihat apakah data testing pada attribute yang ke N bisa
diambil keputusan atau tidak. Jika tidak maka data training diubah dan aplikasi
melakukan perhitungan kembali terhadap jumlah data tiap attribute, entropy total,
entropy tiap attribute dan gain. Setelah itu cabang yang baru (gain yang tertinggi)
dicek keputusannya berdasarkan data testing yang ada.
Gambar diatas menunjukkan alur proses perhitungan nilai gain tiap kategori.
Perhitungan dimulai dengan menghitung jumlah data dan menghitung jumlah
kelulusan untuk tiap attribute di masing-masing kategori. Proses dilanjutkan dengan
menghitung entropy total, entropy tiap attribute, dan nilai gain untuk tiap kategori.
Gambar diatas ini menunjukkan alur proses untuk mendapatkan cabang baru.
Proses diawali dengan mengubah nilai gain menjadi -1 untuk setiap cabang yang
pernah ada di cabang sebelumnya. Dengan demikian proses ini dapat menemukan
cabang baru yang didapat dari nilai gain yang tertinggi.

2. DATA FLOW DIAGRAM

Dari gambar ini alur user memasukkan data training yang terdiri dari IPS (data
IPS semester satu sampai dengan semester enam), JK (jenis kelamin), SMA, tipe
kelulusan dan jumlah SKS pada semester enam. Selain itu, user juga memasukkan
data testing yang terdiri dari IPS (data IPS semester satu sampai dengan semester
enam), JK (jenis kelamin), SMA dan jumlah SKS pada semester enam.
Pada data flow diagram level satu terjadi proses aliran data dengan enam
proses yang terdiri dari hitung jumlah attribute, list data SMA, hitung entropy, hitung
gain, add cabang dan prediksi kelulusan. Proses hitung jumlah attribute adalah proses
yang akan menghitung jumlah tiap attribute berdasarkan data yang masuk dan hasil
perjumlahan akan masuk dalam data jumlah tiap attribute. Proses list data SMA
adalah proses untuk membuat sekumpulan data SMA menjadi sepuluh data SMA di
mana SMA yang ke sepuluh merupakan SMA lain-lain. Proses hitung entropy
berfungsi untuk menghitung nilai entropy total dan entropy masingmasing attribute.
Proses hitung gain berfungsi untuk menghitung nilai gain untuk masing-masing
attribute. Proses prediksi kelulusan adalah proses yang berfungsi memberikan
keputusan kepada setiap data testing yang masuk.
Pada proses gambar diatas, akan dihitung terlebih dahulu nilai entropy total
berdasarkan jumlah tiap attribute. Dari hasil nilai entropy total akan dihitung nilai
entropy dari masing-masing attribute.

3.4.1.1 Desain UML (Unified Modelling Language)

3.4.2 Use Case Proses Prediksi Kelulusan

User Sistem
Prediksi Kelulusan
Menggunakan Algoritma C
4.5

Dari gambar use case diatas dapat dijelaskan tugas dari masing-masing aktor, dan
tugas tersebut adalah sebagai berikut :

User :

Input data kasus Sistem :

Melihat hasil perhitungan Menghitung setiap parameter

Input data testing Mendapatkan hasil


perhitungan
3.4.3 Activity Diagram Proses Prediksi Kelulusan

USER SISTEM

Input data kasus Memproses data kasus

Menerima informasi data kasus Memberikan informasi data kasus

Menghitung dengan
Input data testing algoritma C 4.5

Memberikan informasi hasil entropy


dan gain

Mendapatkan informasi Informasi perhitungan dan prediksi


perhitungan dan prediksi
Sistem akan melakukan perhitungan menggunakan algoritma C 4.5. Kemudian
user akan mendapatkan informasi hasil dari perhitungan tersebut dan system akan
menyimpannya.

3.4.4 Rancangan Layout

Pada sketsa layar tersebut menu bar terdiri dari File, Input, Help dan About Us.
Untuk button 1 berfungsi untuk membuka file excel yang berisi data training,
sedangkan untuk button 2 berfungsi untuk memproses data training. Data grid view 1
berfungsi untuk menampilkan data training yang di-input, sedangkan data grid view 2
menampilkan hasil proses dari data training. Button 3 digunakan untuk keluar dari
aplikasi.

BAB IV
IMPLEMENTASI DAN PEMBAHASAN

4.1 Implementasi Sistem


Implementasi sistem bertujuan untuk memastikan bahwa sistem yang dibangun dapat
bekerja dengan baik dan sesuai yang diharapkan. Sebelum sistem diimplementasikan dalam
kehidupan sehari-hari maka sistem harus dipastikan telah bebas dari kesalahan. Kesalahan-
kesalahan yang mungkin terjadi yaitu penulisan bahasa, kesalahan tampilan, dan kesalahan
proses pada saat dioperasikan. Untuk dapat mengetahui kesalahan-kesalahan pada sistem
yang dibangun maka harus dilakukan pengujian terhadap sistem tersebut.

4.1.1 Spesifikasi Hardware & Software


Pembuatan dan pengembangan aplikasi yang digunakan oleh peneliti menggunakan:
1) Microsoft Visual Studio 2012 untuk pembuatan aplikasi.
2) Microsoft Excel 2013 untuk simulasi data training dan testing.

Laptop yang digunakan peneliti untuk melakukan implementasi dan uji coba aplikasi
prediksi kelulusan mahasiswa adalah sebuah laptop dengan spesifikasi berikut,
1. Processor Intel(R) Core(TM)2 Duo
2. RAM 4 GB
3. Sistem Operasi Windows 7 64-bit

4.2 Implementasi Interface


Setelah dilakukan perancangan flowchart, data flow diagram dan sketsa aplikasi,
dilakukanlah pembangunan aplikasi dan implementasi coding. Tampilan awal aplikasi
prediksi kelulusan mahasiswa dapat dilihat pada. Untuk button proses excel bisa digunakan
setelah selesai memasukkan data training. Sedangkan untuk pilihan menu bar input data akan
aktif bila data training berhasil diproses.

4.2.1 Halaman Home


Form halaman Home adalah halaman yang pertama kali muncul setelah aplikasi
dijalankan.
4.2.2 Halaman Prediksi
Tampilan hasil prediksi data testing dengan menggunakan excel file dapat dilihat pada
Pada Data Grid View yang kanan akan menampilkan hasil prediksi keputusan dari data
testing yang dimasukkan.
Tampilan hasil prediksi data testing dengan menggunakan excel file dapat dilihat
pada. Pada Data Grid View yang kanan akan menampilkan hasil prediksi keputusan dari data
testing yang dimasukkan.

4.3 Hasil Uji Coba


Pada tahap uji coba ini, peneliti mendapatkan seratus data dari department IT
Universitas Multimedia Nusantara berdasarkan attribute yang dibutuhkan. Peneliti
menggunakan seratus data alumni Universitas Multimedia Nusantara program studi Teknik
Informatika. Pada pemilihan data training, peneliti memilih data alumni angkatan 2007 dan
2008, sedangkan untuk data testing peneliti memilih data alumni angkatan 2009 dengan
spesifikasi pada tabel berikut. Tabel spesifikasi data training dan testing.
4.3.1 Persentase Kesalahan Sistem
Pada tahap pengujian peneliti menggunakan pengujian yaitu menghitung
tingkat kesalahan yang diperoleh dari metode Algoritma C 4.5 dalam memberikan
keputusan. Pada penelitian ini pengujian terhadap metode yang diterapkan didalam
sebuah sistem dapat dibuktikan kedekatannya dengan nilai sebenarnya yang diberikan
oleh pihak kampus dengan mencari tingkat kesalahan pada sistem. Untuk mencari
tingkat kesalahan pada sistem yaitu dengan mencari selisih terlebih dahulu antara
hasil keputusan yang telah dihasilkan oleh sistem dengan keputusan yang telah
diberikan oleh pihak kampus, kemudian keputusan tersebut akan dibagi dengan hasil
nilai keputusan sistem kemudian dikalikan dengan 100, setelah hasil ditemukan akan
dikurangi dengan 100. Dari penjabaran tersebut, rumus mencari tingkat kesalahan
sistem adalah sebagai berikut (Zakiyya, Muhammad. 2014):

Persentase Kesalahan = ( KSLH


KS
x 100) 100

Keterangan :
KSLH = Hasil Selisih antara keputusan yang dihasilkan oleh sistem dan keputusan
yang dihasilkan oleh kampus.
KS = Keputusan yang diberikan oleh sistem.

Tabel Hasil Pengujian Proses


BAB V
KESIMPULAN DAN SARAN
5.1.1 Kesimpulan

Berdasarkan hasil implementasi dan uji coba aplikasi, peneliti dapat menyimpulkan
bahwa
1. Data mining dengan algoritma C4.5 dapat diimplementasikan untuk memprediksi tingkat
kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat, lulus terlambat
dan drop out. Attribute yang paling berpengaruh dalam hasil prediksi adalah IPS
semester enam.
2. Aplikasi desktop berhasil memprediksi kelulusan mahasiswa dengan presentase 87.5%
dari enam puluh data training dan empat puluh data testing.
3. Hasil prediksi kelulusan dari aplikasi penelitian ini dapat membantu bagian program
studi untuk mengetahui status kelulusan mahasiswa. Hal ini dapat menjadi rekomendasi
pengambilan mata kuliah bagi mahasiswa untuk semester berikutnya seperti skripsi dan
magang. Dengan hal tersebut mahasiswa bisa lulus minimal tepat waktu.
Dari hasil kesimpulan dan analisa yang telah dilakukan, maka dapat diambil
kesimpulan :

1. Dengan menggunakan Data mining Algoritma C 4.5 dapat diterapkan dalam


membangun pohon keputusan (Decision Tree) yang baik pada kasus prediksi
kelulusan mahasiswa.
2. Dengan menggunakan Algoritma C 4.5 kesalahan yang dihasilkan dalam proses
prediksi lebih sedikit karena Algoritma C 4.5 melakukan klasifikasi record-record ke
dalam kelas tujuan yang ada.
3. Algoritma Decision Tree memiliki kompleksitas yang lebih besar. Karena pada
Algoritma C 4.5 setiap nilai dalam suatu atribut ditelusuri dan diproses untuk
mendapatkan entropy masing-masing nilai yang akan digunakan untuk mencari
ukuran purity masing-masing atribut yang dinyatakan dengan information gain.
Proses penelusuran ini akan membentuk sebuah pola berupa pohon keputusan.
4. Dari 192 data yang diuji dengan menggunakan metode Algoritma C 4.5 didapatkan 47
data yang lulus tepat waktu dan 145 data yang tidak lulus tepat waktu jadi hasil nilai
dari perhitungan Algoritma C 4.5 memliki nilai Accuracy sebesar 72 %, Precision
sebesar 47 %, Recall sebesar 100 %. Jadi kesimpulannya bahwa dengan
menggunakan metode Algoritma C 4.5 memungkinkan sedikit sekali kesalahan yang
dibuat oleh sistem.

5.2 Saran
Sebagai acuan dalam melengkapi atau memperbaiki hasil analisis data yang dilakukan
dalam tugas akhir ini. Ada beberapa saran yang dapat dijadikan pertimbangan bagi analisis
data selanjutnya, di antaranya :
1. Pengujian dapat dikembangkan dengan jumlah Data training maupun Data testing
yang lebih banyak. Hal ini untuk melihat sejauh mana peningkatan performansi
sampai titik optimum.
2. Perlu diadakan juga pengujian terhadap penentuan feature selection untuk
meningkatkan performansi dari klasifikasi Multilabel terutama dari segi waktu.
3. Pengujian dapat dikembangkan pada suatu data dengan jumlah Multilabel lebih dari
tiga.
Daftar Pustaka

[1] Nuqson Masykur Huda, 2010, Aplikasi Data Mining Untuk Menampilkan Informasi
Tingkat Kelulusan Mahasiswa, Semarang.
[2] Mujib Ridwan, Hadi Suyono & M. Sarosa, 2013, Penerapan Data Mining Untuk
Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Nave Bayes
Classifier, Malang.
[3] Han, J., Kamber, M., 2001, Data Mining Concepts and Techniques, Morgan Kaufman
Pub., USA.
[4] Veronica Sri Moertini, 2007, Pengembangan Skalabilitas Algoritma Klasifikasi C4.5
Dengan Pendekatan Konsep Operator Relasi, studi kasus: pra-pengolahan dan
klasifikasi citra batik, Bandung.
[5] Larose, 2005, Discovering Knowledge in Data: An Introduction to Data Mining, John
Willey & Sons, Inc.
[6] Jefri, 2013, Implementasi Algoritma C4.5 Dalam Aplikasi Untuk Memprediksi Jumlah
Mahasiswa Yang Mengulang Mata Kuliah Di STMIK AMIKOM Yogyakarta,
Yogyakarta.
[7] Kusrini, 2008. Co