Oleh:
Cahyo Tridiawan
NIM. 08650003
2012
1. Latar Belakang
Perkembangan dunia pendidikan yang sangat pesat,mendorong terbentuknya
suatu
pendidikan. Dapat diambil contoh yaitu data yang berasal dari data mahasiswa pada
perguruan tinggi , kemudian oleh komputer data tersebut disimpan ke dalam server.
Di dalam server data diubah menjadi informasi yang disimpan dalam bentuk tabeltabel. Informasi yang didapat dari data dalam bentuk tabel-tabel tersebut sangat
sedikit yang dapat dimanfaatkan oleh pihak perguruan tinggi dalam pengambilan
keputusan untuk kemajuan instansi, oleh karena itu perlu adanya aktivitas penggalian
data yang masih tersembunyi untuk selanjutnya diolah menjadi pengetahuan yang
bermanfaat dalam pengambilan keputusan. Proses ekstraksi informasi dari kumpulan
data-data yang tersimpan di server disebut dengan data mining.
Data mining adalah suatu istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database. Data mining adalah proses yang
menggunakan tehnik statistic, matematika, kecerdasan buatan, dan machine learning
untuk mengekstraksi dan mendeteksi informasi yang bermanfaat dan pengetahuan
yang terkait dari berbagai database besar[1].
Sesuai pengertian singkat datamining diatas, maka kita dapat menggali atau
menambang data data mahasiswa ataupun yang terkait dengan pendidikan di suatu
instansi. Dari data-data yang sudah ditambang tersebut maka diharapkan akan
menjadi bahan pengetahuan mengenai pola-pola ataupu klasifikasi yang terbentuk di
dalamnya. Setelah itu pola atau klasifikasi yang terbentuk dapat digunakan sebagai
bahan pengambilan keputusan kebijakan dari instansi dalam menanggapi pola atau
klasifikasi yang terbentuk.
Dalam studi kasus yang diambil misalnya adalah data mahasiswa. Data
mahasiswa dapat digunakan sebagai data sumber untuk menggali atau menambang
informasi yang berbentuk pola-pola atau klasifikasi tertentu. Misalnya adalah dapat
digunakan untuk menemuka pola atau klasifikasi dari daerah mana mayoritas
mahasiswa berasal. Dengan ditemukan klasifikasi data ini pihak instansi pendidikan
Untuk menanggapi hal tersebut, maka saya akan membangu suatu aplikasi
berbasis web yang akan menerapkan proses datamining ini. Dalam aplikasi dataming
yang saya bangun menggunakan pendekatan pohon keputusan(decision tree) yaitu
algoritma C4.5. dengan menggunakan algoritma C4.5 ini ditujukan dalam membentuk
klasifikasi data mahasiswa, berdasar daerah asal, asal sekolah atupu berdasar data
lainya.
2. Rumusan Masalah
Dari penjabaran latar belakang diatas, dapat diketahui bahwa dengan teknologi
datamining kita dapat menggunakannya untuk menggali informasi baru dari
kumpulan banyak data. Maka dari itu dapt dirumuskan masalah yang timbul
diantaranya,
3. Batasan Masalah
5. Tujuan Penelitian
Tujuan dari penelitian penelitian ini antara lain adalah:
1. Memanfaatkan data mahasiswa dari database Perguruan Tinggi untuk menggali
nilai tambah dari data tersebut yang dapat dijadikan pengetahuan baru yang
selama ini tidak dapat diketahui secara manual.
2. Mecari tahu klasifikasi data mahasiswa sehingga membentuk pola-pola tertentu
6. Manfaat Penelitian
Sesuai dengan tujuan diatas penelitian ini sangat bermanfaat, manfaat yang
dapat kita peroleh diantaranya :
7. Kajian Pustaka
7.1 Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak dketahui secara manual.
Data mining juga dapat dijabarkan sebagai analisis otomatis dari data yang berjumlah
besar atau kompleks dengan tujuan untuk menemukan pola atau kecendrungan yang
penting yang biasanya tidak disadari keberadaannya[3].
Data Mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan
untuk mendefenisikan data mining adalah kenyataan bahwa data mining mewarisi
banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu.
Data mining memiliki akar yang panjang dari bidang ilmuseperti kecerdasan
buatan(artificial intelegent) machine learning, statistic, database, dan juga
information retriefal[3].
Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan[2], yaitu.
1. Deskripsi
Terkadang peneliti dan analisis sederhana ingin mencoba mencari cara untuk
menggambarkan pola dan kecendrungan yang terdapat dalam data. Sebagai contoh
petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau
fakta bahwa siapa yang tidak cukup professional akan sedikit didukung dalam
pemilihan presiden. Deskripsi dari pola dan kecendrungan sering memberikan
2. Estimasi
Estimasi hamper sama dengan klasifikasi, kecuali variable target estimasi lebih
kea rah numeric daripada kea rah kategori. Model dibangun menggunakan record
lengkap yang menyediakan nilai dari variable target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variable target dibuat
berdasarkan nilai variable prediksi. Sebagai contoh akan dilakukan estimasi
tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis
kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan
darah sistolik dan nilai variable prediksi
5. Pengklusteran
Pengklusteran
merupakan
pengelompokan
record,
pengamatan,
atau
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variable target dalam
pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variable target. Akan tetapi, algoritma
pengklusteran mencoba melakukan pembagian terhadap keseluruhan data menjadi
kelompok-kelompok yang memiliki kemiripan, yang mana kemiripan dalam satu
kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam
kelompok yang lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah:
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran
dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar.
Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan attibut yang muncul dalam
satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah:
Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respon positif terhadap penawaran upgrade
Algoritma C4.5 ini mempunyai input berupa training samples dan samples.
Training samples berupa data contoh yang akan digunakan untuk membangun sebuah
pohon yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data
yang nanti akan kita gunakan sebagai parameter dalam melakukan klasifikasi data.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut.
1.
2.
3.
4.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti yang tertera
dalam persamaan 1 berikut.
Gain(S,A) = Enthropy(S) -
|Si|
- * Enthopy(Si)
i=l
|S|
(1)
Keterangan :
S
: himpunan kasus
A
: atribut
n
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke i
|S|
: jumlah kasus dalam S
Sementara itu perhitungan entropi dapat dilihat pada persamaan 2 berikut.
n
Enthropy(S) =
- pi *log
i=l
Keterangan:
S
: himpunan kasus
A
: fitur
n
: jumlah partisi S
pi
: proporsi dari Si terhadap S
7.3 PHP
PHP merupakan script untuk pemrograman script web server-side, script yang
membuat dokumen HTML secara on the fly, dokumen HTML yang dihasilkan dari
suatu aplikasi bukan dokumen HTML yang dibuat dengan menggunakan editor teks
atau editor HTML[4].
Dengan menggunakan PHP maka maintenance suatu situs web menjadi lebih
mudah. Proses update data dapat dilakukan dengan menggunakan aplikasi yang dibuat
dengan menggunaka script PHP.
PHP / FI merupakan nama awla dari PHP. PHP Personal Home Page, FI adalah
Form Interface. Dibuat pertama kali oleh Rasmus Lerdoff. PHP, awalnya merupakan
program CGI yang dikhususkan untuk menerima input melalui form yang ditampilkan
dalam browser web.
PHP secara resmi merupakan kependekan dari PHP: Hyprtext Preprocessor,
merupakan bahasa script server-side yang disisipkan pada HTML. Berikut adalah
contoh yang umum digunakan untuk menjelaskan tentang PHP senbagai script yang
disisipkan(embedded script) dalam dokumen HTML.
<html>
<head>
<title>contoh</title>
</head>
<body>
<?php
Echo Hai, saya dari script PHP
?>
</body>
Contoh script PHP diatas berbeda dengan script yang dituliskan dengan bahasa
</html>
lain seperti C atau Perl. Pemrogram tidak harus menuliskan semua dokumen HTML,
sebagai bagian dari keluaran script PHP, cukup menuliskan bagian mana saja yang
berupa tag HTML, dan bagian mana yang harus ditulis atau dihasilkan dari script
PHP. Kode atau script PHP diapit dengan menggunakan tag awal dan tag akhir yang
khusus, yang memungkinkan pemrogram untuk masuk dan keluar dari mode script
PHP.
PHP secara dasar dapat mengerjakan semua yang dapat dikerjakan oleh
program CGI. Seperti mendapatkan data dari form, menghasilkan isi halaman web
8. Penelitian Terkait
Penelitian yang terkait dengan penelitian yang saya lakukan adalah penelitian
yang dilakukan oleh akademisi yang bernama Sunjana. Penelitian yang dilakukan
yaitu sesuai judul paper yang dibuatnya yaituKLASIFIKASI DATA SEBUAH
NASABAH SEBUAH ASURANSI MENGGUNAKAN ALGORITMA C4.5[5].
Data
yang
ada
dianalisis
menggunakan
pendekatan
pohon
keputusan(decision tree) yaitu algoritma C4.5. Dengan algoritma ini dapat diketahui
data nasabah mana yang dikelompokkan ke kelas lancar dan data nasabah mana yang
dikelompokkan ke kelas tidak lancar. Kemudian pola tersbut dapat digunakan untuk
memperkirakan nasabah yang bergabung, sehingga perusahaan bisa mengambil
kepusan menerima atau menolak calon nasabah tersebut.
Peneliti menggunakan Algoritma C4.5 untuk mengklasifikasi data nasabah
sesuai atribut-atribut yang dijadikan variable dalam membuat suatu pohon keputusan.
Atribut-atribut yang digunakan dalam penelitian ini adalah penghasilan, premi_dasar,
cara_pembayaran, mata_uang, dan status sedang label yang digunakan untuk
pengklasifikasian adalah lancar dan tidak lancar.
Berikut adalah kesimpulan yang dapat diambil dari data nasabah asuransi
setelah dilakukan anlisis menggunakan metode algoritma C4.5, :
9. Desain penelitian
9.1 Tahapan penelitian
Tahap-tahap yang dilakukan dalam membangun Data Mining ini adalah
menggunakan metode SDLC (System Development Life Cycle). Metode tersebut
mencakup sejumlah fase atau tahapan yaitu :
9.1.1
Analis Sistem
Analisis sistem adalah menentukan hal-hal secara detail yang akan dikerjakan
mencari prosedur, dalam penelitian ini prosedur yang dicari adalah prosedur
9.1.2
Perancangan Sistem
Memahami rancangan sistem informasi sesuai data yang ada dan
9.1.3
Implementasi
Tahap implementasi sistem (system implementation) merupakan tahapan untuk
meletakkan sistem supaya siap untuk dioperasikan. Pada tahapan ini aktivitas yang
penulis lakukan yaitu :
b. Instalasi software
Proses pemasangan hardware dan instalasi software yang sudah ada. Dalam penelitian
ini tahap Instalasi hardware dan software dilakukan di Instansi terkait.
Daftar Pustaka
1. Turban,E., dkk, 2005. Decission Support System and Intelegent System.
Yogyakarta : Andi.
2. Kusrini.S.Kom & Luthfi, Emha Taufiq, 2009 ,Algoritma Data Mining,
Yogyakarta : Andi.
3. Pramudiono, I, 2006. Apa itu Data Mining? Dalam
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155527614&
artikel.
4. Betha Sidik,Ir, 2001. Pemrograman Web dengna PHP. Bandung : Informatika
5. Sunjana, 2010, Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan
Algoritma C4.5. Yogyakarta: Seminar Nasional Aplikasi Teknologi Informasi
2010 (SNATI 2010),19 Juni 2010
10.