Anda di halaman 1dari 18

ANALISIS KOMPARASI ALGORITMA NAIVE BAYES DAN C4.

5
PADA DATA MINING UNTUK KLASIFIKASI LULUSAN
PERGURUAN TINGGI (S-1) DI INDONESIA

PROPOSAL PENELITIAN

RACHMAD RINALDIE
12010310081

PROGRAM STUDI PENDIDIKAN


TEKNIK INFORMATIKA DAN KOMPUTER (TIK)
SEKOLAH TINGGI KEGURUAN DAN ILMU PENDIDIKAN SURYA
TANGERANG
2016

DAFTAR ISI
HALAMAN JUDUL ................................................................ i
DAFTAR ISI ............................................................................. ii
DAFTAR GAMBAR ................................................................ iii
BAB I. PENDAHULUAN ........................................................ 1
1.1 Latar Belakang ................................................................... 1
1.2 Rumusan Masalah .............................................................. 2
1.3 Batasan Masalah ................................................................ 2
1.4 Tujuan Penelitian ................................................................ 2
1.5 Manfaat Penelitian ............................................................. 3
BAB II. LANDASAN TEORI
2.1 Kajian Penelitian yang Relevan ......................................... 4
2.2 Landasan Teori ................................................................... 5
2.2.1 Data Mining ............................................................. 5
2.2.2 Naive Bayes Classifier ............................................. 6
2.2.3 Classification ........................................................... 9
2.2.4 Algoritma C4.5 ........................................................ 10
2.2.5 WEKA ...................................................................... 11
2.2.6

Bahasa Pemrograman Python .................................. 11

BAB III. METODOLOGI PENELITIAN


3.1 Tahapan Penelitian ............................................................. 12

ii

DAFTAR GAMBAR

Gambar 1. Tampilan UI WEKA ........................................................... 8


Gambar 2. Logo Python ....................................................................... 11

iii

BAB 1
PENDAHULUAN
Pada bab pertama ini akan dijelaskan latar belakang penelitian,
permasalahan yang ada pada penelitian, batasan masalah, tujuan, dan manfaat
penelitian.
1.1

Latar Belakang
Lulusan perguruan tinggi merupakan sumber tenaga kerja yang diharapkan

dapat memberikan kontribusi dan membawa perubahan signifikan ke arah yang


lebih baik kepada pekerjaan di bidang pemerintahan maupun wirausaha. Namun
yang terjadi di Indonesia ternyata banyak lulusan sarjana semakin susah
mendapatkan pekerjaan. Berdasarkan data Badan pusat statistik (BPS) pada
Agustus 2014, di Indonesia ada 9,5% (688.660 orang) dari total penganggur yang
merupakan alumni perguruan tinggi dan angka ini meningkat dibanding dua tahun
sebelumnya yang hanya 8,36% (619.888 orang) pada 2013 dan 8,79% (645.866
orang) (Editor berita edukasi.kompas.com, 2016). Hal ini tentunya menjadi suatu
masalah besar yang perlu ada tindakan lanjut dari pemerintah bagaimana
menangani masalah seperti ini. Masalah ini bisa jadi disebabkan oleh rendahnya
kualitas lulusan perguruan tinggi atau memang sedikitnya terbuka lapangan
pekerjaan. Jika dilihat dari sisi pendidikan, perlunya melihat kualitas lulusan
sarjana (S-1) di Indonesia ini seperti apa. Kualitas lulusan sarjana seperti ini pun
memiliki banyak sekali variabel yang mempengaruhi dan bukan hanya berasal
dari pendidikan yang mereka jalani saat menempuh perguruan tinggi terebut.
Langkah yang dapat diambil untuk mengevaluasi kualitas lulusan sarjana strata
satu (S-1) adalah dengan mengklasifikasikan lulusan yang ada menggunakan
metode yang ada di data mining yang mampu menganalisis beragam variabel
yang mempengaruhi kualitas lulusan sarjana (S1) yang ada.
Untuk mengklasifikasikan lulusan sarjana (S1) ada banyak algoritma pada
data mining yang dapat digunakan, misal K-Nearest Neighbour, Neural Networks,
1

Decision Trees, Naive Bayes Classifier, dan lain-lain. Namun, ternyata Naive
Bayes Classifier memiliki akurasi yang lebih tinggi dibanding dibanding classifier
lainnya (Xhemali et al., 2009).
Pada penelitian yang akan dilakukan kali ini penulis membandingkan
algoritma Naive bayes dan C4.5 untuk klasifikas kualitas lulusan sarjana strata
satu (S-1) yang ada di Indonesia. Algoritma yang digunakan kali ini dipilih
berdasarkan penelitian yang dilakukan oleh Xhemali dan kawan-kawan
sebelumnya yang ternyata membuktikkan bahwa algoritma Naive Bayes Classifier
memiliki tingkat akurasi lebih baik dibanding classifier yang lain dan juga C4.5
yang menempati urutan pertama dalam penggunaan algoritma data mining.
Karena itu, diharapkan penelitian ini dapat memberikan hasil dan gambaran yang
baik tentang kualitas lulusan sarjana strata satu(S-1) yang ada di Indonesia dan
melihat performa kedua algoritma tersebut.
1.2

Rumusan Masalah
Berdasarkan latar belakang yang ada, penulis ingin mencari solusi dari

beberapa permasalahan yang ada sebagai berikut:


1.

Bagaimana cara mengimplementasikan Naive Bayes Classifier dan


C4.5 untuk kasus untuk menganalisis tingkat kualitas lulusan sarjana
(S-1) ?

2.

Algoritma manakah yang jauh lebih baik performanya dalam kasus


ini ?

1.3

Batasan Masalah
Batasan masalah dalam penelitian yang akan dilakukan adalah :
1.

Lulusan sarjana hanya dibatasi setingkat strata 1 (S-1) lulusan


perguruan tinggi di Indonesia dalam rentang tahun 2000-2016.

2.

Algoritma yang digunakan adalah Naive Bayes Classifier dan C4.5.

3.

Metode yang digunakan adalah Classification.

1.4

Tujuan Penelitian
Berdasarkan rumusan dan batasan masalah yang ada, maka tujuan dari

penelitian ini adalah untuk menerapkan Data Mining untuk mengevaluasi lulusan
sarjana S-1 yang ada di Indonesia dengan klasifikasi menggunakan algoritma
Naive Bayes Classifier.
1.5

Manfaat Penelitian
Dari penelitian yang akan dilakukan tentunya penulis mengharapkan hasil

dari penelitian dapat memberikan manfaat bagi diri sendiri, maupun banyak pihak.
Adapun manfaat yang sekiranya didapatkan adalah sebagai berikut :
1. Bagi Penulis
Meningkatkan kemampuan berpikir dan analisis dalam menentukan
kualitas lulusan sarjana strata satu (S-1).
2. Bagi Masyarakat
Memberikan gambaran bagaimana keadaan dan kualitas lulusan
sarjana strata satu (S-1) selama beberapa tahun terakhir.
3. Bagi Pemerintah
Menjadi sumber dalam pengambilan kebijakan bagi Direktorat
Perguruan Tinggi di Indonesia.

BAB 2
TINJAUAN PUSTAKA
Bab ini akan membahas mengenai tinjauan pustaka yang berisi hasil
penelitian yang pernah dilakukan sejauh mana perkembangan penelitian Data
Mining menggunakan metode Naive Bayes, dan landasan teori yang membahas
teori-teori dasar yang mendukung penelitian ini.
2.1

Kajian Penelitian yang Relevan


Terdapat penelitian-penelitian serupa yang telah dilaksanakan sebelumnya

yang juga dapat menjadi sumber rujukan maupun perbandingan dengan penelitian
yang akan dilakukan yang masih terkait dengan komparasi algoritma .
Penelitian sebelumnya pernah dilakukan oleh Phuyu (2009) menggunakan
dua algoritma yaitu Naive Bayes ,Decision Tree dan, K-Nearest Neighbour. Dia
menggunakan training set yang sama pada ketiga algoritma tersebut. Pada
percobaannya, ternyata Decision Tree dan Naive Bayes memiliki profil
operasional, dimana salah satunya memberikan hasil yang sangat akurat dan yang
satunya tidak, begitupun sebaliknya. Tujuan dari penggabungan beberapa metode
adalah untuk memberikan hasil yang lebih presisi dan akurat.
Hastuti (2012) membandingkan algoritma logistic regression, naive bayes,
dan neural network untuk memprediksi mahasiswa non-aktif program studi
Teknik Informatika, Sistem Informasi dan Desain Komunikasi Visual Universitas
Dian Nuswantoro. Dalam kasus ini diketahui bahwa decision tree memiliki hasil
yang paling akurat, namun tidak signifikan dibanding algoritma yang lain.

2.2 Landasan Teori


2.2.1 Data Mining
Data mining adalah serangkaian proses menemukan pola dalam suatu
kumpulan data dalam jumlah yang banyak. Data mining juga merupakan langkah
menganalisis dari pencarian pengetahuan di dalam database (Fayyad et al., 1996).
Data mining memperhatikan aplikasi, di bawah kontrol manusia, dari metode
tingkat rendah data mining, yang berubah makna sebagai algoritma yang didesain
untuk menganalisis data . Data mining merupakan salah satu cabang dari
computer science yang juga sering disebut sebagai proses penambangan data dan
juga dapat disebut sebagai Knowledge Discovery in Database. Data mining
berguna untuk membuat keputusan yang kritis, terutama dalam strategi (Davies,
2004) .Fungsi utama dari data mining adalah menerapkan beragam metode dan
algoritma dengan tujuan untuk menemukan dan mengekstrak pola dari data yang
tersimpan (Fayyad et al., 1996). Data mining juga masih terkait dengan beberapa
bidang ilmu lainnya seperti Artificial Intellegence, Machinge Learning, Statistika,
Pattern Recognition, dan lainnya.
Data mining dikatakan sebagai suatu proses , maka menurut Han (2011)
terdapat enam langkah dalam pelaksanaannya, yaitu :
1.

Data Cleaning

Untuk menghilangkan noise dan data yang tidak konsisten. Data cleaning
biasanya digunakan untuk mengisi nilai yang hilang, dan mengoreksi data
yang tidak konsisten. Hal ini dilakukan agar mengurangi ketidakakuratan
hasil analisis nantinya.
2.

Data integration

Menggabungkan data yang berasal dari penyimpanan data yang lebih dari
satu. Integrasi data yang ada juga dapat membantu mengurangi dan
menghindari redundansi dan menghasilkan dataset yang tidak konsisten.
3.

Data selection

Dimana data yang relevan pada saat analisis diambil dari database

4.

Data transformation

Dimana data diubah dan digabungkan ke bentuk yang sesuai untuk


ditambang dengan melakukan ringkasan atau operasi pengumpulan sehingga
menghasilkan proses penambangan yang efisien, dan memudahkan untuk
menemukan pola yang ada.
5.

Data mining

Sebuah proses yang penting dimana metode yang cerdas diterapkan untuk
mengekstrak pola data.
6.

Pattern evaluation

Untuk mengidentifikasi pola yang menarik yang mewakili pengetahuan


berdasarkan pada interestingness measures.
7.

Knowledge Presentation

Dimana visualisasi dan pengetahuan representasi teknik yang digunakan


untuk menyajikan pengetahuan yang sudah ditambang kepada pengguna
2.2.2 Naive Bayes Classifier
1. Teorema Bayes
Teorema Bayes merupakan termasuk dalam teori probabilitas dan
statistika yang dikemukakan oleh Thomas Bayes (1702-1761) yang
kemudian dikembangkan lagi oleh Laplace. Teorema Bayes
digunakan untuk menghitung peluang dalam suatu hipotesis. Dalam
teori ini, teorema bayes dapat menjelaskan kemungkinan yang ada,
berdasarkan pada kondisi yang masih berhubungan dengan kejadian
tersebut. Sebagai contoh, misalkan ada seseorang yang ingin
mengetahui apakah seseorang memiliki penyakit kanker atau tidak
dengan mengetahui umurnya. Jika kanker dihubungkan dengan umur
seseorang, lalu dengan teorema bayes, informasi tentang umur
seseorang tersebut dapat digunakan untuk menghitung seberapa besar
kemungkinan seseorang tersebut memiliki penyakit kanker. Thomas
6

Bayes menggambarkan hubungan antara peluang bersyarat dari dua


kejadian A dan B sebagai berikut.
P( AB) =

P (BA) P( A)
P(B)

Sebagai contoh, si A yang sedang berbincang dengan orang lain di


atas kereta api. Tanpa informasi tambahan, dapat diketahui bahwa
peluang orang tersebut berbincang dengan seorang perempuan adalah
50%. Jika kemudian ditambahkan informasi bahwa orang yang diajak
bicara oleh si A itu berambut panjang. Dari informasi tambahan ini
bisa jadi si A berbincang dengan seorang wanita. Teorema Bayes
dapat digunakan untuk menghitung besarnya peluang bahwa si A
ternyata memang berbincang dengan seorang wanita.
Misalkan :
A adalah kejadian percakapan dilakukan dengan seorang
wanita. Dapat diasumsikan bahwa wanita adalah setengah dari
populasi. Artinya peluang bahwa si A berbincang dengan
wanita adalah 0.5,
P(W ) = 0.5

B adalah kejadian percakapan dilakukan dengan seorang


berambut panjang. Di sini didapatkan keterangan tambahan
bahwa lawan bicaranya memiliki rambut panjang dan diketahui
bahwa 75% wanita berambut panjang, dapat dilambangkan
dengan :
P( BA) = 0.75

C adalah kejadian percakapan dilakukan dengan seorang pria.


Sebagai keterangan tambahan, peluang seorang pria memiliki
rambut panjang sebesar 0.3, dengan kata lain :
P( BC ) = 0.3

Dapat diasumsikan bahwa seseorang itu adalah pria atau wanita, atau
P(C) = 1 P(A) = 0.5. Bisa dikatakan bahwa C adalah komplemen
7

dari A. Dilihat dari tujuan awal yaitu untuk menghitung peluang


seseorang itu adalah wanita jika diketahui orang itu berambut panjang
atau dalam notasi yang digunakan, P(A|B). Dengan menggunakan
teorema bayes, didapatkan
P( AB) =

P(BA) P (A )
P (BA) P( A) + P( BC) P(C)

Jika digunakan aturan total dengan memasukkan nilai-nilai peluang


yang diketahui ke dalam rumus, maka akan didapatkan nilai peluang
seseorang yang menjadi lawan bicara si A itu adalah wanita bila ia
berambut panjang sebesar 0.71428. Angka ini sesuai dengan intuisi
awal bahwa peluang si A berbincang dengan wanita meningkat.
2. Klasifikasi Naive Bayes
Dalam machine learning , klasifikasi Naive Bayes termasuk dalam
salah satu algoritma klasifikasi sederhana yang menerapkan teorema
Bayes dengan asumsi keindependenan atribut (tidak ada kaitan antar
atribut). Pada teorema Naive Bayes klasifikasi membutuhkan
sejumlah syarat untuk menentukan kelas apa yang cocok bagi sampel

Gambar 1, Tampilan UI Weka

yang dianalisis. Secara garis besar model naive bayes classifier adalah
sebagai berikut :
P(CF 1 , ... , F n ) =

P(C) P(F 1 , ... , F nC)


P (F1 , ..., F n)

atau dengan kata lain persamaan di atas dapat digambarkan sebagai :


Posterior =

Prior Likelihood
Evidence

Keuntungan menggunakan naive bayes classifier adalah ternyata


metode ini hanya memerlukan training data yang kecil untuk
menentukan estimasi parameter yang diperlukan selam proses
klasifikasi.
2.2.3 Classification
Classification atau klasifikasi adalah tugas yang sering terjadi seharihari. Pada dasarnya dapat dikatakan sebagai penentuan kelas dari suatu
objek. Misal diberikan dua buah contoh kasus seperti di bawah ini :
a)

Seorang petugas bank ingin menganalisis data untuk mengetahui mana


nasabah beresiku bagi bank dan mana yang aman.

b)

Seorang manajer pemasaran mendapatkan tugas untuk menganalisis


pelanggan yang sudah pernah membeli beserta profilnya, siapa yang
kira-kira akan membeli komputer lagi.

Dari dua contoh di atas, dapat dilihat bahwa sebuah model atau classifier
dibangun untuk memprediksi label untuk memprediksi label dari kategori.
Bisa jadi label tersebut bernilai riskan atau aman untuk petugas bank
dan ya atau tidak untuk manajer pemasaran tersebut.
Klasifikasi di dalam data mining juga dapat diartikan sebagai
pengklasifikasian data berdasarkan training set dan nilai dalam suatu atribut
klasifikasi dan menggunakannya dalam mengklasifikasian data yang baru.

2.2.4 Algoritma C4.5


Algoritma data mining merupakan salah satu algoritma yang digunakan
untuk klasifikasi. C4.5 juga termasuk dalam 10 besar algoritma teratas yang
digunakan pada penelitian data mining (Wu et al, 2008). Algoritma ini
digunakan untuk membuat pohon keputusan tiap masuk tahap mempelajari
data dari training set. Pada tahap klasifikasi, pohon keputusan berguna untuk
memprediksi kelas dari sebuah atribut kelas yang nilainya belum diketahui.
1.

Decision Tree (Pohon Keputusan)


Decision tree atau pohon keputusan juga merupakan salah satu
metode klasifikasi dan prediksi. Pohon keputusan memetakan alternatifalternatif pemecahan masalah yang dapat diambil dari suatu kasus.
Pohon

keputusan

juga

memperhatikan

adanya

faktor-faktor

kemungkinan yang dapat mempengaruhi keputusan tersebut. Pohon


keputusan termasuk yang paling sering digunakan sebagai metode
klasifikas karena mudah untuk diimplementasikan.
Berikut langkah umum algoritma C4.5 dalam membangun pohon
keputusan :
1.

Memilih atribut sebagai akar (root).

2.

Membuat cabang untuk masing-masing nilai.

3.

Membagi kasus dalam cabang.

4.

Mengulangi proses untuk tiap-tiap cabang sampai semua kasus pada


cabang memiliki kelas yang sama.

Atribut yang dipilih sebagai akar berdasarkan nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus berikut :
n

Gain(S , A) = Entropy (S )
i =1

Keterangan :
S

: Himpunan kasus

: Atribut

: Jumlah partisi atribut A


10

|S i|
|S|

Entropy (S)

|Si| : Jumlah kasus pada partisi ke I


|S| : Jumlah kasus dalam S
Sedangkan perhitungan entropy dapat dilihat pada rumus berikut :
n

Entropy( S) = pilog 2 pi
i=1

2.2.5 WEKA (Waikato Environtment for Knowledge Analysis )


Weka merupakan salah satu tools yang digunakan untuk visualisasi
data dan algoritma untuk menganalisis data dan membuat predictive
modelling. Weka mendukung kegiatan data mining seperti data
preprocessing, clustering, classification, regression, visualization, dan
pemilihan fitur. Teknik yang digunakan Weka dipredikatkan berdasarkan
asumsi bahwa data yang tersedia berada dalam satu flat file atau dalam
bentuk relasi.
2.2.6 Bahasa Pemrograman Python
Python merupakan bahasa pemrograman tingkat tinggi berlisensi open
source, yang membuatnya bebas digunakan dan didistribusikan, bahkan
untuk keperluan komersial. Python dapat digunakan untuk membuat aplikasi
berbasis desktop atau web, juga python dapat digunakan untuk data mining.
Python juga mendukung beragam paradigma pemrograman semisal
pemrograman

terstruktur

maupun

berorientasi

pemrograman fungsional.

Gambar 2, Logo Python

11

imperative,

dan

BAB 3
METODOLOGI PENELITIAN
Bab ini akan membahas mengenai langkah-langkah yang akan dilakukan
selama penelitian dan metode yang digunakan dalam penelitian.
3.1

Tahapan Penelitian
Tahapan penelitian yang digunakan pada penelitian ini terdiri dari beberapa

langkah, yaitu studi literatur, pengumpulan data, perancangan metode penelitian,


implementasi metode penelitian, evaluasi dan analisis hasil, dan kesimpulan.

Identifikasi
Masalah

Studi Pustaka

Pengumpulan
Data

Analisis Hasil

Implementasi
Metode

Perancangan
Metode
Penelitian

Kesimpulan
Gambar 3, Tahapan Penelitian
Berikut penjelasan dari tiap tahapan :
12

1.

Identifikasi masalah
Hal pertama yang dilakukan oleh penulis adalah mencari masalah yang ada
sehingga mendapatkan sesuatu untuk diteliti. Pada penelitian kali ini
masalah yang ingin dibahas oleh penulis adalah bagaimana tingkat
keefektifan lulusan sarjana (S-1) yang ada di Indonesia.

2.

Studi pustaka
Pada tahap ini penulis mengumpulkan informasi sebanyak mungkin beserta
landasan teori dan menelaah kepada penelitian yang sudah pernah dilakukan
sebelumnya yang masih relevan dengan penelitian yang akan dilakukan.
Tahapan ini penting untuk memberikan pengetahuan baru bagi penulis juga
memperkuat landasan teori penelitian.

3.

Pengumpulan data
Data yang digunakan pada penelitian ini didapatkan dari angket
menggunakan Google Form.

4.

Perancangan Metode Penelitian


Setelah data diperoleh, selanjutnya metode penelitian dirancang sedemikian
rupa. Dalam tahapan ini ditentukan batasan penelitian, baik dari sumber
data, metode yang digunakan, dan alat yang digunakan.

5.

Implementasi Metode
Metode yang diajukan pada penelitian adalah menggunakan Naive Bayes
Classifier sebagai algoritma klasifikasi yang digunakan dalam penerapan
data mining dan bahasa pemrograman R.

6.

Analisis Hasil

13

Analisis hasil dilakukan untuk melihat seberapa besar hasil yang didapatkan
setelah implementasi terhadap dataset dilakukan. Hasil yang diperoleh
kemudian dapat diinformasikan kepada
7.

Kesimpulan
Setelah semua hasil diperoleh , maka ditarik kesimpulan dari hasil analisis.

14

Daftar Pustaka

Beynon-Davies, P. (2004). Database Systems Third Edition. Macmillan. New York


Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to
knowledge discovery in databases. AI magazine, 17(3), 37.
Gewati, Mikhael. (2016). Kenapa Lulusan Perguruan Tinggi Makin Susah
Mendapat Pekerjaan?. Didapat dari : http://edukasi.kompas.com/read/
2016/04/23/17424071/Kenapa.Lulusan.Perguruan.Tinggi.Makin.Susah.M
endapat.Pekerjaan.
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques.
Elsevier.
Hastuti, K. (2012). Analisis komparasi algoritma klasifikasi data mining untuk
prediksi mahasiswa non aktif. Semantik, 2(1).
Klosgen, W., Zytkow, J. 1996, Knowledge discovery in database terminology.
dalam Fayyad, U., Piatetsky, Shapiro, G, Smyth, P., dan Uthurusany, R.
(eds) Advances in Knowledge Discovery and Data Mining. AAAI Press,
pp. 573-592.
Phyu, T. N. (2009, March). Survey of classification techniques in data mining. In
Proceedings of the International MultiConference of Engineers and
Computer Scientists (Vol. 1, pp. 18-20).
Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., ... & Zhou, Z.
H. (2008). Top 10 algorithms in data mining. Knowledge and information
systems, 14(1), 1-37.
Xhemali, D., Hinde, C. J., & Stone, R. G. (2009). Naive Bayes vs. decision trees
vs. neural networks in the classification of training web pages.

15

Anda mungkin juga menyukai