Anda di halaman 1dari 14

PROPOSAL SKRIPSI

KLASIFIKASI DATA MAHASISWA UIN MMI MALANG


MENGGUNAKAN ALGORITMA C4.5 BERBASIS WEB
Diajukan Untuk Membuat
Skripsi Program Sarjana (S-1) pada Jurusan Teknik Informatika
Fakultas Sains dan Teknologi UIN Malang

Oleh:
Cahyo Tridiawan
NIM. 08650003

JURUSAN TEKNIK INFORMATIKA


FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI (UIN) MAULANAN MALIK IBRAHIM
MALANG

2012

1. Latar Belakang
Perkembangan dunia pendidikan yang sangat pesat,mendorong terbentuknya
suatu

timbunan data-data yang berukuran sangat besar pada instansi-instansi

pendidikan. Dapat diambil contoh yaitu data yang berasal dari data mahasiswa pada
perguruan tinggi , kemudian oleh komputer data tersebut disimpan ke dalam server.
Di dalam server data diubah menjadi informasi yang disimpan dalam bentuk tabeltabel. Informasi yang didapat dari data dalam bentuk tabel-tabel tersebut sangat
sedikit yang dapat dimanfaatkan oleh pihak perguruan tinggi dalam pengambilan
keputusan untuk kemajuan instansi, oleh karena itu perlu adanya aktivitas penggalian
data yang masih tersembunyi untuk selanjutnya diolah menjadi pengetahuan yang
bermanfaat dalam pengambilan keputusan. Proses ekstraksi informasi dari kumpulan
data-data yang tersimpan di server disebut dengan data mining.
Data mining adalah suatu istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database. Data mining adalah proses yang
menggunakan tehnik statistic, matematika, kecerdasan buatan, dan machine learning
untuk mengekstraksi dan mendeteksi informasi yang bermanfaat dan pengetahuan
yang terkait dari berbagai database besar[1].

Sesuai pengertian singkat datamining diatas, maka kita dapat menggali atau
menambang data data mahasiswa ataupun yang terkait dengan pendidikan di suatu
instansi. Dari data-data yang sudah ditambang tersebut maka diharapkan akan
menjadi bahan pengetahuan mengenai pola-pola ataupu klasifikasi yang terbentuk di
dalamnya. Setelah itu pola atau klasifikasi yang terbentuk dapat digunakan sebagai
bahan pengambilan keputusan kebijakan dari instansi dalam menanggapi pola atau
klasifikasi yang terbentuk.

Dalam studi kasus yang diambil misalnya adalah data mahasiswa. Data
mahasiswa dapat digunakan sebagai data sumber untuk menggali atau menambang
informasi yang berbentuk pola-pola atau klasifikasi tertentu. Misalnya adalah dapat
digunakan untuk menemuka pola atau klasifikasi dari daerah mana mayoritas

mahasiswa berasal. Dengan ditemukan klasifikasi data ini pihak instansi pendidikan

dapat menentukan lankah-langkah target daerah-daerah publikasi mengenai perguruan


tinggi tersebut akan dilaksanakan. Selain itu dalam kasusu lain kita dapat menggali
klasifikasi data mahasiswa yaitu berasal dari Madrasah Aliyah(MA), Sekolah
Menengah Atas(SMA), atau Sekolah Menegah Kejuruan(SMK). Dari klasifikasi data
yang terbentuk nantinya, pihak perguruan tinggi dapat basis pengetahuan ini untuk
menentukan keputusan terhadap tipe-tipe sekolah yang menjadi sasaran publikasi
perguruan tinggi.

Untuk menanggapi hal tersebut, maka saya akan membangu suatu aplikasi
berbasis web yang akan menerapkan proses datamining ini. Dalam aplikasi dataming
yang saya bangun menggunakan pendekatan pohon keputusan(decision tree) yaitu
algoritma C4.5. dengan menggunakan algoritma C4.5 ini ditujukan dalam membentuk
klasifikasi data mahasiswa, berdasar daerah asal, asal sekolah atupu berdasar data
lainya.

2. Rumusan Masalah
Dari penjabaran latar belakang diatas, dapat diketahui bahwa dengan teknologi
datamining kita dapat menggunakannya untuk menggali informasi baru dari
kumpulan banyak data. Maka dari itu dapt dirumuskan masalah yang timbul
diantaranya,

1. Bagaiman cara membangun aplikasi datamining dengan data sumber yaitu


data mahasiswa.
2. Bagaimana cara menerapkan metode pendekatan pohon keputusan yaitu
algoritma C4.5 dalam proses datamining data mahasiswa.

3. Batasan Masalah

Untuk menghindari meluasnya permasalahan yang ada, serta keterbatasan


ilmu dan kemampuan yang dimiliki penulis, maka penulis memberikan batasan
masalah:
1. Jenis Data mining yang dipilih adalah jenis klasifikasi data.
2. Aplikasi Data mining ini hanya digunakan oleh pihak INFOPUB Universitas
Islam Negeri MMI Malang.

4. Ruang Lingkup Penelitian


Ruang lingkup dari penelitian ini sesuai dengan latar belakang penelitian yang
telah disampaikan adalah Data Mining. Data mining terbagi dalam beberapa
kelompok, kelompok data mining saya gunakan adalah Klasifikasi data karena
berhubungan dengan tjuan yang akan sampaikan pada bab berikutnya.
Penelitian ini akan dibangun berbasis web, dikarenakan kemudahan bagi user
dalam pengaksesannya. Sebagaimana kita ketahui disetiap computer pasti sudah
terinstal browser, paling tidak browser bawaan dari sistem operasi yang terinstal.
Aplikasi web yang akan dibangun menggunakan bahasa pemrograman PHP dan
menggunakan aplikasi database MySQL.
Data yang digunakan dalam penelitian ini adalah data mahasiswa. Lebih
spesifiknya adalah data mahasiswa Universitan Islam Negeri Maualana Malik Ibrahim
Malang.

5. Tujuan Penelitian
Tujuan dari penelitian penelitian ini antara lain adalah:
1. Memanfaatkan data mahasiswa dari database Perguruan Tinggi untuk menggali
nilai tambah dari data tersebut yang dapat dijadikan pengetahuan baru yang
selama ini tidak dapat diketahui secara manual.
2. Mecari tahu klasifikasi data mahasiswa sehingga membentuk pola-pola tertentu

yang dijadikan pengetahuan baru.

6. Manfaat Penelitian
Sesuai dengan tujuan diatas penelitian ini sangat bermanfaat, manfaat yang
dapat kita peroleh diantaranya :

1. Memperoleh pengetahuan baru dari klasifikasi data yang terbentuk.


2. Pengetahuan baru tersebut dapat digunakan pihak InfoPub dalam menentukan
suatu kebijakan atau keputusan.

7. Kajian Pustaka
7.1 Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak dketahui secara manual.
Data mining juga dapat dijabarkan sebagai analisis otomatis dari data yang berjumlah
besar atau kompleks dengan tujuan untuk menemukan pola atau kecendrungan yang
penting yang biasanya tidak disadari keberadaannya[3].
Data Mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan
untuk mendefenisikan data mining adalah kenyataan bahwa data mining mewarisi
banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu.
Data mining memiliki akar yang panjang dari bidang ilmuseperti kecerdasan
buatan(artificial intelegent) machine learning, statistic, database, dan juga
information retriefal[3].
Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan[2], yaitu.
1. Deskripsi
Terkadang peneliti dan analisis sederhana ingin mencoba mencari cara untuk
menggambarkan pola dan kecendrungan yang terdapat dalam data. Sebagai contoh
petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau
fakta bahwa siapa yang tidak cukup professional akan sedikit didukung dalam
pemilihan presiden. Deskripsi dari pola dan kecendrungan sering memberikan

kemungkinan penjelasan untuk suatu pola atau kecendrungan.

2. Estimasi
Estimasi hamper sama dengan klasifikasi, kecuali variable target estimasi lebih
kea rah numeric daripada kea rah kategori. Model dibangun menggunakan record
lengkap yang menyediakan nilai dari variable target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variable target dibuat
berdasarkan nilai variable prediksi. Sebagai contoh akan dilakukan estimasi
tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis
kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan
darah sistolik dan nilai variable prediksi

dalam proses pembelajaran akan

menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan


untuk kasus baru lainnya.
3. Prediksi
Prediksi hamper sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa mendatang.
Contoh prediksi dala bisnis dan penelitian adalah:
Prediksi harga beras dalam tiga bulan yang akan dating.
Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika batas
bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat
pula digunakan(untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variable kategori. Sebagai contoh, penggolongan
pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,
pendapatan sedang, dan pendapatan rendah.
Contoh lain klasifikasi dalam bisnis dan penelitian adalah :
Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang

curang atau bukan.


Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan

suatu kredit yang baik atau buruk.


Mendiagnosis penyakit seorang pasien untuk mendapatkan termasuk
kategori penyakit apa.

5. Pengklusteran
Pengklusteran

merupakan

pengelompokan

record,

pengamatan,

atau

memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.


Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang

lainnya dan memiliki ketidakmiripan dengan record-record dalam kluster lain.

Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variable target dalam
pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variable target. Akan tetapi, algoritma
pengklusteran mencoba melakukan pembagian terhadap keseluruhan data menjadi
kelompok-kelompok yang memiliki kemiripan, yang mana kemiripan dalam satu
kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam
kelompok yang lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah:
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran
dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran

yang besar.
Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap

perilaku financial dalam baik dan mencurigakan.


Melakukan pengklusteran dalam ekspresi dari gen, untuk mendapatkan
kemiripan dari perilakudari gen dalam jumlah besar.

6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan attibut yang muncul dalam
satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah:
Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respon positif terhadap penawaran upgrade

layanan yang diberikan.


Menemukan barang dalam supermarket yang dibeli secara bersamaan dan
barang yang tidak pernah dibeli secara bersamaan.

7.2 Algoritma C4.5


Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon
keputusan. Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah
dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk
bahasa basis data seperti Structured Query Language untuk mencari record pada
kategori tertentu.pohon keputusan juga berguna untuk mengeksplorasi data,
menemuka hubungan tersembunyi antara sejumlah calon variable input dengan

sebuah variable target[2].

Algoritma C4.5 ini mempunyai input berupa training samples dan samples.
Training samples berupa data contoh yang akan digunakan untuk membangun sebuah
pohon yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data
yang nanti akan kita gunakan sebagai parameter dalam melakukan klasifikasi data.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut.
1.
2.
3.
4.

Pilih atribut sebagai akar.


Buat cabang untuk tiap-tiap nilai.
Bagi kasus dalam cabang.
Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti yang tertera
dalam persamaan 1 berikut.

Gain(S,A) = Enthropy(S) -

|Si|

- * Enthopy(Si)
i=l

|S|

(1)

Keterangan :
S
: himpunan kasus
A
: atribut
n
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke i
|S|
: jumlah kasus dalam S
Sementara itu perhitungan entropi dapat dilihat pada persamaan 2 berikut.
n

Enthropy(S) =

- pi *log
i=l

Keterangan:
S
: himpunan kasus
A
: fitur
n
: jumlah partisi S
pi
: proporsi dari Si terhadap S

7.3 PHP
PHP merupakan script untuk pemrograman script web server-side, script yang
membuat dokumen HTML secara on the fly, dokumen HTML yang dihasilkan dari
suatu aplikasi bukan dokumen HTML yang dibuat dengan menggunakan editor teks
atau editor HTML[4].
Dengan menggunakan PHP maka maintenance suatu situs web menjadi lebih
mudah. Proses update data dapat dilakukan dengan menggunakan aplikasi yang dibuat
dengan menggunaka script PHP.
PHP / FI merupakan nama awla dari PHP. PHP Personal Home Page, FI adalah
Form Interface. Dibuat pertama kali oleh Rasmus Lerdoff. PHP, awalnya merupakan
program CGI yang dikhususkan untuk menerima input melalui form yang ditampilkan
dalam browser web.
PHP secara resmi merupakan kependekan dari PHP: Hyprtext Preprocessor,
merupakan bahasa script server-side yang disisipkan pada HTML. Berikut adalah
contoh yang umum digunakan untuk menjelaskan tentang PHP senbagai script yang
disisipkan(embedded script) dalam dokumen HTML.
<html>
<head>
<title>contoh</title>
</head>
<body>
<?php
Echo Hai, saya dari script PHP
?>
</body>
Contoh script PHP diatas berbeda dengan script yang dituliskan dengan bahasa
</html>
lain seperti C atau Perl. Pemrogram tidak harus menuliskan semua dokumen HTML,
sebagai bagian dari keluaran script PHP, cukup menuliskan bagian mana saja yang
berupa tag HTML, dan bagian mana yang harus ditulis atau dihasilkan dari script
PHP. Kode atau script PHP diapit dengan menggunakan tag awal dan tag akhir yang
khusus, yang memungkinkan pemrogram untuk masuk dan keluar dari mode script
PHP.
PHP secara dasar dapat mengerjakan semua yang dapat dikerjakan oleh
program CGI. Seperti mendapatkan data dari form, menghasilkan isi halaman web

yang dinamis, dan menerima cookies.

Kemampuan feature PHP yang paling diandalkan dan signifikan adalah


dukungan kepada banyak database. Membuat halaman web yang menggunakan data
dari database dengan sangat mudah dilakukan. PHP juga mendukung untuk
berkomnikasi dengan layanan lain menggunakan protocol IMAP, SNMP, POP3,
HTTP, dan lainnya. Pemrogram juga dapat mebuka soket jarngansecara mentah dan
berinteraksi dengan menggunakan protocol lainnya.

8. Penelitian Terkait
Penelitian yang terkait dengan penelitian yang saya lakukan adalah penelitian
yang dilakukan oleh akademisi yang bernama Sunjana. Penelitian yang dilakukan
yaitu sesuai judul paper yang dibuatnya yaituKLASIFIKASI DATA SEBUAH
NASABAH SEBUAH ASURANSI MENGGUNAKAN ALGORITMA C4.5[5].

Pada penelitian ini, penulis berusaha menambang data(data mining) nasabah


sebuah perusahaan asuransi untuk mengetahui lancar atau tidak lancarnya nasabah
tersebut.

Data

yang

ada

dianalisis

menggunakan

pendekatan

pohon

keputusan(decision tree) yaitu algoritma C4.5. Dengan algoritma ini dapat diketahui
data nasabah mana yang dikelompokkan ke kelas lancar dan data nasabah mana yang
dikelompokkan ke kelas tidak lancar. Kemudian pola tersbut dapat digunakan untuk
memperkirakan nasabah yang bergabung, sehingga perusahaan bisa mengambil
kepusan menerima atau menolak calon nasabah tersebut.
Peneliti menggunakan Algoritma C4.5 untuk mengklasifikasi data nasabah
sesuai atribut-atribut yang dijadikan variable dalam membuat suatu pohon keputusan.
Atribut-atribut yang digunakan dalam penelitian ini adalah penghasilan, premi_dasar,
cara_pembayaran, mata_uang, dan status sedang label yang digunakan untuk
pengklasifikasian adalah lancar dan tidak lancar.
Berikut adalah kesimpulan yang dapat diambil dari data nasabah asuransi
setelah dilakukan anlisis menggunakan metode algoritma C4.5, :

Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L


dikarenakan pembayaran premi yang melebihi 10% dari penghasilan.
Dengan persentase atribut Premi_Dasar dan Penghasilan, maka dapat
diketahui rata-rata status nasabah memiliki nilai P atau L.

Dari penelitian tersebut dapat diketahui algoritma C4.5 dapat digunakan


sebagai algoritma datamining yang akan saya gunakan untuk klasifikasi data
mahasiswa. Dimana datamining dapat dilakukan dengan melakukan klasifikasi
menguunaka algoritma C4.5 dan atribut-atribut yang sesuai dengan tujuan outpit yang
diinginkan.

9. Desain penelitian
9.1 Tahapan penelitian
Tahap-tahap yang dilakukan dalam membangun Data Mining ini adalah
menggunakan metode SDLC (System Development Life Cycle). Metode tersebut
mencakup sejumlah fase atau tahapan yaitu :
9.1.1

Analis Sistem
Analisis sistem adalah menentukan hal-hal secara detail yang akan dikerjakan

oleh sistem yang diusulkan [5].

Dalam menganalisis sistem dilakukan langkah-langkah pembuatan model


yaitu:

a. Study kelayakan (Intelligent)


Pada study kelayakan yaitu menentukan sasaran dan melakukan pencarian
prosedur, pengumpulan data, identifikasi masalah, identifikasi kepemilikan masalah,
hingga akhirnya terbentuk sebuah pernyataan masalah. Kepemilikan masalah
berkaitan dengan bagian apa yang akan dibangun dan apa tugas dari bagian tesebut
sehingga model tersebut bisa relevan dengan kebutuhan si pemilik masalah [5].

Study kelayakan yang dilakukan penulis dalam peneitian ini adalah:


Identifikasi masalah

: Mengidentifikasi masalah yang sedang dihadapi,

masalah yang diidentifikasi dalam penelitian ini adalah masalah kesulitan


klasifikasi data mahasiswa dari sumber data yang sangat besar.
Pencarian prosedur : Setelah masalah diidentifikasi tahap seanjutnya adalah

mencari prosedur, dalam penelitian ini prosedur yang dicari adalah prosedur

pencarian buku dengan menggunakan metode datamining yang cocok denga


hasil yang diinginkan.
Pengumpulan data : Mengumpulkan data yang dibutuhkan untuk
pembangunan sistem. Dalam hal ini data yang dibutuhkan adalah data
mahasiswa dari database peguruan tinggi.

b. Proses perancangan model


Dalam tahapan ini akan diformulasikan model klasifikasi data dengan data
output yang ingin dicapai atau ingin ditampilkan. Setelah itu, dicari alternatif model
yang bisa menyelesaikan permasalahan.

9.1.2

Perancangan Sistem
Memahami rancangan sistem informasi sesuai data yang ada dan

mengimplementasikan model yang diinginkan oleh pengguna. Pemodelan sistim ini


berupa perancangan database dengan didukung pembuatan Use Case Diagram dan
Flowchart, guna mempermudah dalam proses-proses selanjutnya.

9.1.3

Implementasi
Tahap implementasi sistem (system implementation) merupakan tahapan untuk

meletakkan sistem supaya siap untuk dioperasikan. Pada tahapan ini aktivitas yang
penulis lakukan yaitu :

a. Pemrograman dan pengetesan program


Pemrograman merupakan kegiatan menulis kode program yang akan
dieksekusi oleh komputer dan sebelum diterapkan, program harus bebas dari
kesalahan-kesalahan terlebih dahulu, oleh sebab itu program harus dites untuk
menemukan kesaahan-kesalahan yang mungkin terjadi. [5].
Dalam tahapan ini penulis membuat program dengan bahasa pemrograman PHP dan
MySQL.

b. Instalasi software

Proses pemasangan hardware dan instalasi software yang sudah ada. Dalam penelitian
ini tahap Instalasi hardware dan software dilakukan di Instansi terkait.

9.2 Desain Sistem

Daftar Pustaka
1. Turban,E., dkk, 2005. Decission Support System and Intelegent System.
Yogyakarta : Andi.
2. Kusrini.S.Kom & Luthfi, Emha Taufiq, 2009 ,Algoritma Data Mining,
Yogyakarta : Andi.
3. Pramudiono, I, 2006. Apa itu Data Mining? Dalam
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155527614&
artikel.
4. Betha Sidik,Ir, 2001. Pemrograman Web dengna PHP. Bandung : Informatika
5. Sunjana, 2010, Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan
Algoritma C4.5. Yogyakarta: Seminar Nasional Aplikasi Teknologi Informasi
2010 (SNATI 2010),19 Juni 2010

10.

Anda mungkin juga menyukai