Anda di halaman 1dari 15

PERBANDINGAN 3 METODE DALAM DATA MINING

UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI

DI SMA NEGERI 6 SURAKARTA

Naskah Publikasi
Program Studi Informatika
Fakultas Komunikasi dan Informatika

Oleh :

Veronica Andriyana
Yusuf Sulistyo Nugroho, S.T., M.Eng

PROGRAM STUDI INFORMATIKA


FEKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
MARET, 2015
PERBANDINGAN 3 METODE DALAM DATA MINING
UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI
DI SMA NEGERI 6 SURAKARTA

Veronica Andriyana, Yusuf Sulistyo Nugroho


Program Studi Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
Email : veronica.andriyana8@gmail.com

Abstraksi

Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat
mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi
untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering
muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk
siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi
akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi
berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan
proses data mining.
Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi
menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.
Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,
Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk
melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.
Pengimplementasian data mining menggunakan perbandingan 3 metode dapat
diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode
Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan
dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi
Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil
secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah
Nilai rata-rata.

Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear

berlimpah membuka peluang

PENDAHULUAN diterapkannya data mining untuk


pengelolaan pendidikan yang lebih
Dalam dunia pendidikan, data
baik dan data mining dalam
yang berlimpah dan berkesinam-
pelaksanaan pembelajaran ber-
bungan mengenai siswa yang dibina
bantuan komputer yang lebih efektif.
dan alumni terus dihasilkan. Menurut
Dalam rangka meningkatkan
Jing (2004) dan Merceron (2005)
akses dan minat belajar siswa serta
dalam Nugroho (2014), data yang
mengangkat mutu sekolah, SMA
Negeri 6 Surakarta mengalokasikan ID3, Regresi Linear. Dengan
dana beasiswa dalam bentuk analisis perbandingan tersebut,
apresiasi untuk siswa berprestasi. diharapkan dapat membantu
Namun masih ada permasalahan menemukan informasi tentang
yang sering muncul, yaitu kurang siswa yang menerima beasiswa
tepatnya penyaluran beasiswa berdasarkan prestasi sehingga
terhadap siswa, misalnya siswa yang membantu pihak sekolah dalam
sebenarnya tidak layak mendapatkan mencari solusi dapat mengetahui
beasiswa tetapi mendapatkan tingkat prestasi siswa dan lebih
beasiswa, sebaliknya siswa yang meningkatkan lagi mutu pendidikan
berhak mendapatkan beasiswa baik sekolah dengan adanya siswa-siswa
itu beasiswa beprestasi maupun yang berprestasi.
beasiswa kurang mampu tetapi tidak
LANDASAN TEORI
mendapatkan beasiswa. Tujuan dari
adanya beasiswa untuk siswa
1. Prediksi / Peramalan
berprestasi tersebut yaitu memotivasi
Menurut susanto dalam Mauriza
siswa untuk selalu meningkatkan
(2014) Prediksi adalah
prestasi akademik maupun non
memperkirakan sesuatu yang
akademik, membantu siswa yang
akan terjadi pada masa yang
kurang mampu tetapi berprestasi, dan
mendatang. Prediksi juga dapat
menumbuhkan rasa percaya diri
digunakan dalam pengklasifi-
siswa untuk berkompetitif dalam
kasian, tidak hanya untuk
mengembangkan potensinya.
memprediksi time series, karena
Berdasarkan permasalahan
sifatnya yang bisa menghasilkan
tersebut dapat diambil solusi
class berdasarkan atribut yang
dengan cara memanfaatkan teknik
ada.
data mining dengan
2. Data Mining
membandingkan 3 metode untuk
Data Mining sering disebut
prediksi siswa penerima beasiswa
KDD (Knowledge discovery in
berdasarkan prestasi yaitu Naïve
database). KDD adalah kegiatan
Bayes, Decision Tree Algoritma
yang meliputi pengumpulan,
pemakaian data, historis, untuk tree yang umumnya digunakan
menemukan keteraturan, pola untuk menemukan aturan yang
atau hubungan dalam set data diharapkan bisa berlaku untuk
berukuran besar. (Santoso, 2007) data-data tidak lengkap atau
3. Naive Bayes belum pernah kita ketahui.
Naive Bayes adalah teknik (Lesmana, 2012)
prediksi berbasis probabilitic 5. Regresi Linear
sederhana yang berdasar pada Analisis regresi adalah teknik
penerapan Teorema Bayes statistik untuk permodelan dan
(aturan Bayes) dengan asumsi investigasi hubungan dua atau
independensi lebih variabel. (Santosa, 2007)
(ketidakketergantungan) yang
METODE PENELITIAN
kuat. (Prasetyo, 2012)
4. Decision Tree Algoritma ID3 a. Penentuan Atribut
Decision Tree adalah metode Tahap yang pertama adalah
untuk menemukan fungsi menganalisis dan menyeleksi
pendekatan yang bernilai diskrit data keseluruhan untuk
dan tahan terhadap data-data mendapatkan atribut dengan
yang memiliki kesalahan (noisy record yang relevan terhadap
data) serta mampu mempelajari keluaran yang diinginkan.
ekspresi-ekspresi disjunctive Atribut yang digunakan dalam
seperti OR. Iterative prediksi penerima beasiswa
Dychotomizer version 3 (ID3) terdapat dalam tabel 1
adalah salah satu jenis decision
Tabel 1 Daftar Atribut

Atribut Variabel
Beasiswa Y
Nilai rata – rata X1
Gender X2
Ekstrakurikuler X3
Jurusan X4
Semester X5
Jumlah tanggungan orang tua X6
Gaji orang tua X7
b. Implementasi Data Mining dihitung berdasarkan Teoema
1. Naive Bayes Bayes. (Widiastuti, 2010)
Klaifikasi Bayesian adalah Persamaan dari teorema Bayes
klasifikasi statistik yang bisa dirumuskan seperti Persamaan
memprediksi probabilitas 1 berikut ini :
sebuah class. Klasifikasi ini

.......... (1)

2. Decision Tree Algoritma ID3 adalah menghitung entrophy


Hal yang harus dilakukan dan information gain. (Ranny
dalam metode decision tree dkk, 2012)

Persamaan 2 Rumus entrophy :


.........(2)
Persamaan 3 Rumus Information Gain
..................(3)

3. Regresi Linear investigasi hubungan dua atau


Analisis regresi adalah teknik lebih variabel. (Santosa, 2007)
statistik untuk permodelan dan Persamaan 4 Rumus Regresi
Linear :
...............................................(4)
Rumus Slovin dirumuskan seperti
HASIL DAN PEMBAHASAN Persamaan 5 berikut ini :
1. Penentuan Sampel .......................... (5)
Untuk mendapatkan sampel yang
n = 1290 / 1 + 1290 (0,05)2
dapat menggambarkan dan
n = 305,325 siswa
mewakili jumlah populasi, maka
Jadi dibulatkan menjadi 305
dalam penentuan sampel
siswa yang digunakan sebagai
penelitian ini digunakan rumus
data sampel.
Slovin (Umar, 2004)
Gambar 1 Scatter Plot NaiveBayes menggunakan data testing

2. Hasil Implementasi Naive Sedangkan nilai≥8 dan Jurusan IPS


Bayes menggunakan hasilnya mayoritas TIDAK
RapidMiner 5 MENERIMA tetapi ada beberapa
siswa yang MENERIMA beasiswa
Berdasarkan scatter plot pada
tersebut.
gambar 1 menunjukkan bahwa
penerima beasiswa dengan nilai rata- 4. Hasil Implementasi Regresi
rata nilai≥8 dan jurusan BAHASA Linear menggunakan
sebagian ada yang menerima RapidMiner 5
beasiswa. Sedangkan nilai≥8 dan
Berdasarkan scatter plot dalam
jurusan IPA hasilnya tidak ada yang
gambar 3 menunjukkan bahwa
menerima beasiswa.
6<nilai≤8 (3) dan Jurusan IPA (0)
3. Hasil Implementasi Decision hasilnya mayoritas TIDAK
Tree Algortima ID3 MENERIMA. Sedangkan nilai≥8 (4)
menggunakan RapidMiner 5 dan Jurusan IPS (1) hasilnya
mayoritas TIDAK MENERIMA
Berdasarkan scatter plot dalam
tetapi ada beberapa siswa yang
gambar 2 menunjukkan bahwa
MENERIMA beasiswa tersebut.
6<nilai≤8 dan Jurusan IPA hasilnya
mayoritas TIDAK MENERIMA.
Gambar 2 Tampilan hasil decision tree pada Scatter Plot

Gambar 3 Scatter view Regresi Linear

5. Perhitungan Naive Bayes Fakta menunjukkan :


Sebagai contoh penulis P( Y =MENERIMA)= 31 / 305
mengambil salah satu data uji = 0,10164
yang memiliki ciri sebagai P( Y =TIDAK MENERIMA)=
berikut : 274 / 305 = 0,89836
nilai ≥ 8, PEREMPUAN, Fakta :
OLAHRAGA, IPA, semester 5, P (X1= nilai≥ 8 |Y=
tanggungan ≤ 4, gaji ≤ 1500000. MENERIMA)= 25 / 31 =
Apakah siswa tersebut Menerima 0,80645
atau Tidak Menerima beasiswa ?
P (X1= nilai≥ 8 |Y= TIDAK P (X7= gaji ≤ 1500000|Y=
MENERIMA)= 125 / 274 = TIDAK MENERIMA)= 1 / 274 =
0,45620 0,00365
P (X2= PEREMPUAN |Y= HMAP dari keadaan ini dapat
MENERIMA)= 19 / 31 = dihitung dengan :
0,61290 P(X1= nilai ≥ 8, X2=
P (X2= PEREMPUAN |Y= PEREMPUAN, X3 =
TIDAK MENERIMA)= 90 / 274 OLAHRAGA, X4= IPA, X5= 5,
= 0,32847 X6= tanggungan≤ 4, X7 = gaji ≤
P (X3= OLAHRAGA |Y= 1500000 | Y = MENERIMA)
MENERIMA)= 3 / 31 = 0,09677
P (X3= OLAHRAGA |Y=
TIDAK MENERIMA)= 22 / 274
= 0,08029
P (X4= IPA |Y= MENERIMA)= = 0,00105287

2 / 31 = 0,06452 P(X1= nilai ≥ 8, X2= PEREMPUAN,


P (X4= IPA |Y= TIDAK X3= OLAHRAGA, X4= IPA, X5= 5,
MENERIMA)= 7 / 274 = X6= tanggungan≤ 4, X7 = gaji ≤
0,02555 1500000 | Y = TIDAK
P (X5= 5 |Y= MENERIMA)= 1 / MENERIMA)
31 = 0,03226
P (X5= 5 |Y=TIDAK
MENERIMA)= 4 / 274 =
0,01460
P (X6= tanggungan≤ 4 |Y=
= 0,0000107389
MENERIMA)= 1 / 31 = 0,03226
P (X6= tanggungan≤ 4 |Y= KEPUTUSAN PREDIKSI
TIDAK MENERIMA)= 2 / 274 = BEASISWA = MENERIMA.
0,00730
6. Perhitungan Decision Tree
P (X7= gaji ≤ 1500000 |Y=
Algoritma ID3
MENERIMA)= 1 / 31 = 0,03226
a) Menentukan Root Node nilai information gain seperti pada
Root Node adalah atribut yang tabel 4.
memiliki nilai information gain Tabel 4 Nilai Information gain
paling tinggi. Atribut Nilai Gain
6 < nilai ≤ 8
Tabel 2 Information gain
BAHASA
tertinggi Gender 0,061
Atribut Nilai gain Ekstrakurikuler 0,075
Gender 0,001 Semester 0,026
Nilai rata - rata 0,035 Tanggungan 0,075
Ekstrakurikuler 0,028 orang tua
Jurusan 0,000 Gaji orang tua 0,048
Semester 0,015
Tanggungan 0,002
orang tua d) Menentukan Leaf Node
Gaji orang tua 0,009
Menentukan leaf node pada Nilai
b) Menentukan Internal Node rata-rata 6 < nilai ≤ 8, jurusan
pertama BAHASA dengan ekstrakurikuler
Menentukan internal node pada
Olahraga didapatkan nilai
Nilai rata-rata 6 < nilai ≤ 8
information gain seperti pada
didapatkan nilai information gain
tabel 5.
seperti pada tabel 3.
Tabel 5 Nilai Information gain
Tabel 3 Nilai Information gain
Atribut Nilai Gain
Atribut Nilai Gain rata- 6 < nilai ≤ 8,
rata BAHASA,
6 < nilai ≤ 8 Olahraga
Gender 0,005 Gender 0,000
Ekstrakurikuler 0,017 Semester 0,000
Jurusan 0,039 Tanggungan 0,000
Semester 0,033 orang tua
Tanggungan 0,001 Gaji orang tua 0,000
orang tua Dari hasil tabel 5 dapat disimpulkan
Gaji orang tua 0,018
bahwa ekstrakurikuler Olahraga

c) Menentukan Internal Node kedua menghasilkan leaf node, karena hasil

Menentukan internal node pada dari information gain bernilai 0.

Nilai rata-rata 6 < nilai ≤ 8 dan 7. Perhitungan Regresi Linear


jurusan BAHASA didapatkan
Dari perhitungan implementasi ID3, dan Regresi Linear) adalah
Regresi Linear menggunakan nilai rata – rata.
RapidMiner menghasilkan sebuah 2. Berdasarkan dari nilai precision,
persamaan sebagai berikut : metode Decision Tree Algoritma
Y = (0,136 × NILAI RATA – ID3 lebih baik digunakan dalam
RATA) – ( 0,078 × SEMESTER) penelitian ini karena memiliki
+ (0,021 × JUMLAH nilai lebih baik dari pada
TANGGUNGAN ORANG TUA) algoritma yang lainnya.
+ 0,858 3. Berdasarkan nilai recall dan
Dari persamaan tersebut accuracy, Regresi Linear lebih
dibuktikan dengan perhitungan baik digunakan dalam penelitian
manual dengan mengambil ini karena memiliki nilai lebih
beberapa sampel data seperti di baik dari metode yang lain.
bawah ini : 4. Hasil dari nilai precision, recall,
Pengujian penghitungan siswa dan accuracy nya adalah sebagai
yang MENERIMA BEASISWA : berikut:
Y = (0,136 × 4) – (0,078 × 2) + a. Naive Bayes hasil precision
(0,021 × 0) + (0,015 × 0) + 0,858 89,90% , recall 99,64%, dan
= 1,246 accuracy 89,51%.
Karena hasilnya mendekati 1 b. Decision Tree Algoritma ID3
maka hasilnya MENERIMA. hasil precision 90,04% , recall
82,48%, dan accuracy 76,07%.
KESIMPULAN c. Regresi Linear hasil precision
Berdasarkan penjelasan dan analisis 89,84% , recall 100,00%, dan
yang telah diuraikan, maka dapat accuracy 89,84%.
ditarik kesimpulan bahwa :
1. Variabel yang paling
mempengaruhi dari hasil
perhitungan 3 metode (Naive
Bayes, Decision Tree Algoritma
DAFTAR PUSTAKA

Lesmana, Dody Putu. 2012. ‘Perbandingan Kinerja Decision Tree J48 dan ID3
Dalam Pengklasifikasian Diagnosis Penyakit Diabetes Mellitus’. Jurnal
Teknologi dan Informatika, Vol. 2, no. 2.

Mauriza, Ahmad Fikri. 2014. ‘Implementasi Data Mining Untuk Memprediksi


Kelulusan Mahasiswa Fakultas Komunikasi dan Informatika UMS
Menggunakan Metode Naïve Bayes’, Skripsi.Fakultas Komunikasi Dan
Informatika, Universitas Muhammadiyah Surakarta.

Nugroho, Yusuf Sulistyo. 2014. ‘Klasifikasidan Prediksi Masa Studi dan Prestasi
Mahasiswa Fakultas Komunikasi dan Informatika Universitas
Muhammadiyah Surakarta’, Jurnal KomuniTI, Vol VI, No 1, Maret 2014.

Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab.
Yogyakarta: Andi.

Ranny dkk. 2012. ‘Pemilihan Diet Nutrien bagi Penderita Hipertensi


Menggunakan Metode Klasifikasi Decision Tree’, Jurnal Teknik ITS, Vol.
1, No.1.

Santosa, Budi. 2007. Data Mining Terapan dengan Matlab. Yogyakarta: Graha
Ilmu.

Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis. Yogyakarta: GrahaIlmu.

Umar, Husein (2014). Metode Penelitian Untuk Skripsi Dan Tesis Bisnis.
Cetakanke – 6.Jakarta : PT Raja GrafindoPersada.

Widiastuti, Dwi. 2010. ‘Analisa Perbandingan Algoritma SVM, Naive Bayes, dan
Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem
Pendeteksi Instrusi’, Jurnal Jurusan Sistem Informasi , Universitas
Gunadarma.
BIODATA PENULIS

Nama : Veronica Andriyana

NIM : L200110086

Tempat Lahir : Surakarta

Tanggal Lahir : 8 Februari 1993

Jenis Kelamin : Perempuan

Agama : Islam

Pendidikan : S1

Fakultas : Jurusan Informatika/Fakultas Komunikasi dan Informatika

Universitas : Universitas Muhammadiyah Surakarta

Alamat : Jl. Tarumanegara Utara II, Tempel RT 5 RW 7,


Banyuanyar, Banjarsari, Surakarta

Nomor Telepon : 085799480482

Email : veronica.andriyana8@gmail.com

Anda mungkin juga menyukai