5
PADA DATA MINING UNTUK KLASIFIKASI LULUSAN
PERGURUAN TINGGI (S-1) DI INDONESIA
PROPOSAL PENELITIAN
RACHMAD RINALDIE
12010310081
DAFTAR ISI
HALAMAN JUDUL ................................................................ i
DAFTAR ISI ............................................................................. ii
DAFTAR GAMBAR ................................................................ iii
BAB I. PENDAHULUAN ........................................................ 1
1.1 Latar Belakang ................................................................... 1
1.2 Rumusan Masalah .............................................................. 2
1.3 Batasan Masalah ................................................................ 2
1.4 Tujuan Penelitian ................................................................ 2
1.5 Manfaat Penelitian ............................................................. 3
BAB II. LANDASAN TEORI
2.1 Kajian Penelitian yang Relevan ......................................... 4
2.2 Landasan Teori ................................................................... 5
2.2.1 Data Mining ............................................................. 5
2.2.2 Naive Bayes Classifier ............................................. 6
2.2.3 Classification ........................................................... 9
2.2.4 Algoritma C4.5 ........................................................ 10
2.2.5 WEKA ...................................................................... 11
2.2.6
ii
DAFTAR GAMBAR
iii
BAB 1
PENDAHULUAN
Pada bab pertama ini akan dijelaskan latar belakang penelitian,
permasalahan yang ada pada penelitian, batasan masalah, tujuan, dan manfaat
penelitian.
1.1
Latar Belakang
Lulusan perguruan tinggi merupakan sumber tenaga kerja yang diharapkan
Decision Trees, Naive Bayes Classifier, dan lain-lain. Namun, ternyata Naive
Bayes Classifier memiliki akurasi yang lebih tinggi dibanding dibanding classifier
lainnya (Xhemali et al., 2009).
Pada penelitian yang akan dilakukan kali ini penulis membandingkan
algoritma Naive bayes dan C4.5 untuk klasifikas kualitas lulusan sarjana strata
satu (S-1) yang ada di Indonesia. Algoritma yang digunakan kali ini dipilih
berdasarkan penelitian yang dilakukan oleh Xhemali dan kawan-kawan
sebelumnya yang ternyata membuktikkan bahwa algoritma Naive Bayes Classifier
memiliki tingkat akurasi lebih baik dibanding classifier yang lain dan juga C4.5
yang menempati urutan pertama dalam penggunaan algoritma data mining.
Karena itu, diharapkan penelitian ini dapat memberikan hasil dan gambaran yang
baik tentang kualitas lulusan sarjana strata satu(S-1) yang ada di Indonesia dan
melihat performa kedua algoritma tersebut.
1.2
Rumusan Masalah
Berdasarkan latar belakang yang ada, penulis ingin mencari solusi dari
2.
1.3
Batasan Masalah
Batasan masalah dalam penelitian yang akan dilakukan adalah :
1.
2.
3.
1.4
Tujuan Penelitian
Berdasarkan rumusan dan batasan masalah yang ada, maka tujuan dari
penelitian ini adalah untuk menerapkan Data Mining untuk mengevaluasi lulusan
sarjana S-1 yang ada di Indonesia dengan klasifikasi menggunakan algoritma
Naive Bayes Classifier.
1.5
Manfaat Penelitian
Dari penelitian yang akan dilakukan tentunya penulis mengharapkan hasil
dari penelitian dapat memberikan manfaat bagi diri sendiri, maupun banyak pihak.
Adapun manfaat yang sekiranya didapatkan adalah sebagai berikut :
1. Bagi Penulis
Meningkatkan kemampuan berpikir dan analisis dalam menentukan
kualitas lulusan sarjana strata satu (S-1).
2. Bagi Masyarakat
Memberikan gambaran bagaimana keadaan dan kualitas lulusan
sarjana strata satu (S-1) selama beberapa tahun terakhir.
3. Bagi Pemerintah
Menjadi sumber dalam pengambilan kebijakan bagi Direktorat
Perguruan Tinggi di Indonesia.
BAB 2
TINJAUAN PUSTAKA
Bab ini akan membahas mengenai tinjauan pustaka yang berisi hasil
penelitian yang pernah dilakukan sejauh mana perkembangan penelitian Data
Mining menggunakan metode Naive Bayes, dan landasan teori yang membahas
teori-teori dasar yang mendukung penelitian ini.
2.1
yang juga dapat menjadi sumber rujukan maupun perbandingan dengan penelitian
yang akan dilakukan yang masih terkait dengan komparasi algoritma .
Penelitian sebelumnya pernah dilakukan oleh Phuyu (2009) menggunakan
dua algoritma yaitu Naive Bayes ,Decision Tree dan, K-Nearest Neighbour. Dia
menggunakan training set yang sama pada ketiga algoritma tersebut. Pada
percobaannya, ternyata Decision Tree dan Naive Bayes memiliki profil
operasional, dimana salah satunya memberikan hasil yang sangat akurat dan yang
satunya tidak, begitupun sebaliknya. Tujuan dari penggabungan beberapa metode
adalah untuk memberikan hasil yang lebih presisi dan akurat.
Hastuti (2012) membandingkan algoritma logistic regression, naive bayes,
dan neural network untuk memprediksi mahasiswa non-aktif program studi
Teknik Informatika, Sistem Informasi dan Desain Komunikasi Visual Universitas
Dian Nuswantoro. Dalam kasus ini diketahui bahwa decision tree memiliki hasil
yang paling akurat, namun tidak signifikan dibanding algoritma yang lain.
Data Cleaning
Untuk menghilangkan noise dan data yang tidak konsisten. Data cleaning
biasanya digunakan untuk mengisi nilai yang hilang, dan mengoreksi data
yang tidak konsisten. Hal ini dilakukan agar mengurangi ketidakakuratan
hasil analisis nantinya.
2.
Data integration
Menggabungkan data yang berasal dari penyimpanan data yang lebih dari
satu. Integrasi data yang ada juga dapat membantu mengurangi dan
menghindari redundansi dan menghasilkan dataset yang tidak konsisten.
3.
Data selection
Dimana data yang relevan pada saat analisis diambil dari database
4.
Data transformation
Data mining
Sebuah proses yang penting dimana metode yang cerdas diterapkan untuk
mengekstrak pola data.
6.
Pattern evaluation
Knowledge Presentation
P (BA) P( A)
P(B)
Dapat diasumsikan bahwa seseorang itu adalah pria atau wanita, atau
P(C) = 1 P(A) = 0.5. Bisa dikatakan bahwa C adalah komplemen
7
P(BA) P (A )
P (BA) P( A) + P( BC) P(C)
yang dianalisis. Secara garis besar model naive bayes classifier adalah
sebagai berikut :
P(CF 1 , ... , F n ) =
Prior Likelihood
Evidence
b)
Dari dua contoh di atas, dapat dilihat bahwa sebuah model atau classifier
dibangun untuk memprediksi label untuk memprediksi label dari kategori.
Bisa jadi label tersebut bernilai riskan atau aman untuk petugas bank
dan ya atau tidak untuk manajer pemasaran tersebut.
Klasifikasi di dalam data mining juga dapat diartikan sebagai
pengklasifikasian data berdasarkan training set dan nilai dalam suatu atribut
klasifikasi dan menggunakannya dalam mengklasifikasian data yang baru.
keputusan
juga
memperhatikan
adanya
faktor-faktor
2.
3.
4.
Atribut yang dipilih sebagai akar berdasarkan nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus berikut :
n
Gain(S , A) = Entropy (S )
i =1
Keterangan :
S
: Himpunan kasus
: Atribut
|S i|
|S|
Entropy (S)
Entropy( S) = pilog 2 pi
i=1
terstruktur
maupun
berorientasi
pemrograman fungsional.
11
imperative,
dan
BAB 3
METODOLOGI PENELITIAN
Bab ini akan membahas mengenai langkah-langkah yang akan dilakukan
selama penelitian dan metode yang digunakan dalam penelitian.
3.1
Tahapan Penelitian
Tahapan penelitian yang digunakan pada penelitian ini terdiri dari beberapa
Identifikasi
Masalah
Studi Pustaka
Pengumpulan
Data
Analisis Hasil
Implementasi
Metode
Perancangan
Metode
Penelitian
Kesimpulan
Gambar 3, Tahapan Penelitian
Berikut penjelasan dari tiap tahapan :
12
1.
Identifikasi masalah
Hal pertama yang dilakukan oleh penulis adalah mencari masalah yang ada
sehingga mendapatkan sesuatu untuk diteliti. Pada penelitian kali ini
masalah yang ingin dibahas oleh penulis adalah bagaimana tingkat
keefektifan lulusan sarjana (S-1) yang ada di Indonesia.
2.
Studi pustaka
Pada tahap ini penulis mengumpulkan informasi sebanyak mungkin beserta
landasan teori dan menelaah kepada penelitian yang sudah pernah dilakukan
sebelumnya yang masih relevan dengan penelitian yang akan dilakukan.
Tahapan ini penting untuk memberikan pengetahuan baru bagi penulis juga
memperkuat landasan teori penelitian.
3.
Pengumpulan data
Data yang digunakan pada penelitian ini didapatkan dari angket
menggunakan Google Form.
4.
5.
Implementasi Metode
Metode yang diajukan pada penelitian adalah menggunakan Naive Bayes
Classifier sebagai algoritma klasifikasi yang digunakan dalam penerapan
data mining dan bahasa pemrograman R.
6.
Analisis Hasil
13
Analisis hasil dilakukan untuk melihat seberapa besar hasil yang didapatkan
setelah implementasi terhadap dataset dilakukan. Hasil yang diperoleh
kemudian dapat diinformasikan kepada
7.
Kesimpulan
Setelah semua hasil diperoleh , maka ditarik kesimpulan dari hasil analisis.
14
Daftar Pustaka
15