Anda di halaman 1dari 16

ANALISIS KOMPARASI ALGORITMA KLASIFIKASI

DATA MINING UNTUK MEMPREDIKSI KELULUSAN


MAHASISWA INSTITUT BISNIS DAN
INFORMATIKA KWIK KIAN GIE

Oleh:
Nama: Devina
NIM: 42140354

Skripsi
Diajukan sebagai salah satu syarat
untuk memperoleh gelar Sarjana Komputer

Jurusan Sistem Informasi


Konsentrasi Busines Intelligence

INSTITUT BISNIS dan INFORMATIKA KWIK KIAN

GIE JAKARTA

AGUSTUS 2018
ABSTRAK

Devina / 42140354 / 2018 / Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk
Memprediksi Kelulusan Mahasiswa Institut Bisnis Dan Informatika Kwik Kian Gie /
Pembimbing: Akhmad Budi, S.Kom, M.M., M.Kom.
Penelitian ini dilatarbelakangi oleh data mahasiswa yang belum dapat memberi informasi
yang bermanfaat, terutama dalam melihat tingkat kelulusan mahasiswa. Selain itu, untuk
melakukan pengolahan data mahasiswa diperlukan algoritma yang sesuai dengan karakteristik
data mahasiswa. Hal ini menyebabkan sulitnya menentukan satu teknik atau algoritma data
mining yang harus digunakan dalam melihat tingkat kelulusan mahasiswa.
Peneliti menerapkan konsep data mining untuk melakukan pengolahan data dengan
menggunakan algoritma klasifikasi. Dalam penerapannya, data mining adalah seni dan ilmu
dalam menemukan pengetahuan, pengertian yang mendalam, dan pola inovatif yang berguna dari
data. Terdapat berbagai macam jenis pola yang dapat ditemukan pada data.
Dalam melakukan penelitian, peneliti melakukan wawancara terstruktur, observasi
langsung, dan studi pustaka dalam mengumpulkan data mahasiswa dan fakta-fakta yang ada.
Peneliti juga menggunakan Cross-Industry Standard Process for Data Mining (CRISP-DM)
dalam analisis data. Selain itu, dalam teknik perhitungan penulis menggunakan 3 rumus dari
algoritma klasifikasi yaitu Decision Tree, K-Nearest Nieghbor dan Naïve Bayes.
Hasil dari penelitian ini memperlihatkan tree dari Decision Tree, penjelasan singkat dari
KNN, probability dari Naïve Bayes, serta tingkat keakuratan dan nilai AUC dari masing-masing
algoritma yaitu Decision Tree, K-Nearest Nieghbor dan Naïve Bayes. Kemudian dilakukan
perbandingan dari tingkat akurasi dan AUC setiap algoritma sehingga akan didapatkan algoritma
terbaik dalam melakukan klasifikasi tingkat kelulusan mahasiswa.
Kesimpulan yang peneliti dapatkan adalah dalam melihat tingkat kelulusan, algoritma
Decision Tree adalah algoritma terbaik karena memiliki tingkat akurasi tertinggi yaitu sebesar
98,02% diikuti dengan K-Nearest Neighbor pada urutan kedua yaitu sebesar 97,69% dan terakhir
Naïve Bayes sebesar 90,53%. Ketiga algoritma merupakan excellent classification karena
memiliki nilai AUC diantara 0,90-1,00 yang dapat diartikan sebagai excellent classification.
Kata kunci: Data mining, Klasifikasi, Prediksi, Decision Tree, K-Nearest Neighbor, Naïve
Bayes
ABSTRACT

Devina / 42140354 / 2018 / A Comparative Analysis Of Clasification Data Mining Method To


Predict Students Graduation Institut Bisnis Dan Informatika Kwik Kian Gie / Advisor: Akhmad
Budi, S.Kom, M.M., M.Kom.
This research is conducted because of the lack of information and knowledge provided in
the student’s data, especially information regarding the prediction of graduation rate. Moreover,
in processing the data it is important to use the correct algorithm that is suitable to the
characteristic of the dataset being used. Based on the reasoning above, it is difficult to determine
the best data mining technique or algorithm to predict the graduation rate.
Researcher applied the concept of data mining to do data processing with classification
algorithm. Data mining can be defined as is the art and science of discovering knowledge,
insights, and patterns in data. There are various types of patterns that can be found in the data.
In doing research, researcher conducted structured interviews, direct observation, and
literature study in collecting student’s data and facts. Researcher also use Cross-Industry
Standard Process for Data Mining (CRISP-DM) within data analysis. Furthermore, in the
calculation techniques the researcher uses 3 formulas of classification algorithm consisting of
Decision Tree, K-Nearest Neighbour and Naïve Bayes.
The result section of this research will show tree of Decision Tree, a brief description of
KNN, probability of Naïve Bayes, level of accuracy and AUC value of each algorithm: Decision
Tree, K-Nearest Neighbor and Naïve Bayes. Afterwards, researcher conducted a comparison
between the algorithm (the accuracy and AUC) of each algorithm in order to get the best
algorithm in classification of student graduation rate.
From our research, the conclusion is that in observing college graduation rate Decision
Tree is the best algorithm because decision tree has the highest accuracy of 98,02% and followed
by K-Nearest Neighbor 97,69% and the last one is Naïve Bayes 90,53%. All the tree algorithm
can be included on the excellent classification based on their AUC value (0,90 - 1,00 which
means excellent classification).
Key Words: Data mining, Classification, Prediction, Decision Tree, K-Nearest Neighbor,
Naïve Bayes
KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena anugrah-Nya

penulis dapat menyelesaikan laporan skripsi yang berjudul “Analisis Komparasi Algoritma

Klasifikasi Data Mining Untuk Memprediksi Kelulusan Mahasiswa Institut Bisnis Dan

Informatika Kwik Kian Gie” dengan baik.

Penulisan skripsi ini diajukan untuk memenuhi salah satu syarat dalam memperoleh gelar

Sarjana Komputer. Selain sebagai syarat untuk meraih gelar S1, skripsi ini juga dibuat untuk

memberi wawasan kepada pembaca mengenai proses pengolahan menggunakan teknik algoritma

data mining klasifikasi baik menggunakan perangkat lunak yang telah tersedia dan perhitungan

manual untuk beberapa algoritma.

Pada kesempatan ini, penulis mengucapkan terima kasih kepada pihak-pihak yang

membantu:

1. Bapak Budi Wasito, S.Kom., M.M., M.Kom., selaku Ketua Program Studi Sistem

Informasi, Institut Bisnis dan Informatika Kwik Kian Gie yang senantiasa telah

membantu penulis dalam menyelesaikan penulisan laporan ini.

2. Bapak Akhmad Budi, S.Kom, M.M., M.Kom., selaku dosen pembimbing yang telah turut

membantu penulis dalam memberikan panduan dari proses persiapan hingga penyelesaian

laporan skripsi.

3. Bapak Budi Berlinton Sitorus, S.T., M.Sc.., selaku Kepala Bagian Administrasi

Akademik dan Kemahasiswaan (BAAK) yang telah turut membantu penulis sebagai

narasumber dan menyediakan data yang diperlukan untuk penyelesaian skripsi.


4. Tim Dosen Institut Bisnis dan Informatika Kwik Kian Gie khususnya dalam program

studi Sistem Informasi yang telah memberikan pengetahuan dalam mengajar selama

perkuliahan

5. Jean Rijkaard, Richard Vinc, Jonathan Simanta, dan Winston sebagai senior dan teman

yang membantu, memberikan saran, dan mendukung penulis selama proses pembuatan

skripsi.

6. Keluarga dan teman-teman yang memberikan dukungan dalam proses pembuatan skripsi

dan penulisan laporan ini sehingga dapat selesai tepat pada waktunya.

Akhir kata penulis mengucapkan permintaan maaf apabila penulisan laporan ini masih

belum sempurna dan masih terdapat banyak kesalahan. Penulis mengharapkan kritik dan saran

sehingga dapat digunakan untuk menyempurnakan penulisan laporan-laporan pada lain

kesempatan.

Jakarta, Agustus 2018

Devina
BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Teknologi informasi memiliki peran penting dalam kehidupan masyarakat. Salah

satunya adalah membantu masyarakat dalam mengolah sebuah perusahaan atau

organisasi sehingga membuat segala aktivitasnya menjadi lebih efisien dan dapat

membantu dalam menciptakan keuntungan dalam persaingan antar kompetitor. Teknologi

informasi dapat mempercepat mempertemukan kesesuaian antara kebutuhan pelanggan

dengan jasa dan produk apa yang diinginkan oleh pelanggan. Hal tersebut dapat

membantu perusahaan atau organisasi dalam pengambilan keputusan strategi yang tepat

sesuai dengan tujuan organisasi.

Terdapat berbagai macam penerapan teknologi informasi yang dapat dilakukan

oleh perusahaan atau organisasi salah satunya melalui business intelligence. Setiap

perusahaan membutuhkan alat untuk mengontrol performa dari segi bisnis perusahaan,

salah satu caranya adalah dengan mencatat setiap data dan merancang setiap laporan yang

akan diberikan kepada pihak eksekutif dalam format yang mudah untuk dimengerti.

Business intelligence adalah satu set teknologi informasi yang dapat menyediakan solusi

berupa alat yang dapat mengumpulkan, menganalisis dan melaporkan informasi kepada

pengguna mengenai performa dari organisasi dan lingkungan perusahaan tersebut.

Informasi yang diberikan kepada pihak eksekutif berupa data visualisasi yang

menyajikan sebuah pola yang lebih mudah dipahami. Pola tersebut dapat menghilangkan

kompleksitas dan mengungkapkan tren yang mudah dimengerti dibandingkan dengan

informasi dalam bentuk format laporan dalam bentuk tulisan. Pattern atau pola

ditemukan
pada proses data mining. Data mining merupakan gabungan dari seni dan ilmu dalam

menemukan pola yang inovatif dan berguna dalam data. Terdapat berbagai macam teknik

dalam data mining untuk mencari sebuah pola. Teknik tersebut seperti decision tree yang

dapat membantu dalam mengklasifikasikan populasi kedalam beberapa class, regresi

yang merupakan teknik yang mudah untuk dipahami dari data statis, analisis klastering

yaitu teknik untuk membagi data set dalam jumlah besar, aturan asosiasi atau market

basket analysis untuk melihat asosiasi antara nilai dari data.

Data mining dapat digunakan dalam berbagai bidang organisasi yang memiliki

data dalam jumlah yang banyak, salah satunya adalah perguruan tinggi. Perguruan tinggi

memiliki peranan yang penting di Indonesia. Melalui perguruan tinggi, mahasiswa dilatih

untuk dapat menyelesaikan masalah yang sistematis dan kompleks. Oleh karena itu,

perguruan tinggi dituntut untuk menyelenggarakan pendidikan yang berkualitas bagi

mahasiswa. Pendidikan yang berkualitas akan menghasilkan sumber daya manusia yang

berkualitas dan cakap dalam menyelesaikan berbagai masalah.

Mahasiswa adalah salah satu unsur dalam perguruan tinggi, oleh karena itu perlu

diperhatikan berbagai macam aspek mahasiswa, salah satunya yaitu tingkat kelulusan

mahasiswa yang tepat waktu. Presentase dari tingkat kelulusan merupakan salah satu

penilaian dari suatu perguruan tinggi. Oleh karena itu, perlu diperhatikan tingkat

kelulusan mahasiswa tepat waktu atau tidak.

Setiap perguruan tinggi pasti menyimpan data mahasiswanya baik yang aktif

maupun sudah tidak aktif dalam kegiatan perkuliahan. Data tersebut dapat berupa data

pribadi setiap mahasiswa, indeks prestasi, absensi kehadiran, tahun masuk dan tahun

kelulusan, dan lain-lain. Banyak dari perguruan tinggi yang hanya menyimpan data
tersebut dan tidak melakukan pengolahan lebih lanjut. Hal tersebut terjadi karena sulitnya

untuk melakukan pengolahan data, dimana data tersebut harus dikumpulkan terlebih

dahulu dan dilakukan pembersihan data yang memakan waktu cukup lama. Pada akhirnya

data tersebut hanya berbentuk data mentah yang tidak dapat memberikan informasi yang

bermanfaat bagi perguruan tinggi, salah satunya dalam melihat tingkat kelulusan

mahasiswa.

Data mining memiliki fungsi untuk mengolah dan pengklasifikasian data untuk

menghasilkan sebuah pola atau informasi yang bermanfaat. Namun dibutuhkan teknik

atau metode klasifikasi yang sesuai dengan karakter dari data yang ada. Belum adanya

komparasi antara teknik atau algoritma klasifikasi untuk pengolahan data mahasiswa

menjadi salah satu masalah dalam pemilihan algoritma yang ada. Data mining memiliki

berbagai macam teknik pengolahan data, hal ini menyulitkan penelitian untuk

menentukan teknik atau algoritma klasifikasi data mining yang harus digunakan dalam

pengolahan data salah satunya untuk melihat tingkat kelulusan mahasiswa.

Berdasarkan latar belakang diatas, maka penulis membuat judul Analisis

Komparasi Algoritma Klasifikasi Data Mining Untuk Memprediksi Kelulusan

Mahasiswa Institut Bisnis dan Informatika Kwik Kian Gie.

B. Identifikasi Masalah

Berdasarkan latar belakang masalah diatas, maka masalah yang dapat diidentifikasi

antara lain sebagai berkut:

1. Data mahasiswa belum dapat memberi infromasi yang bermanfaat, salah satunya

dalam melihat tingkat kelulusan mahasiswa.


2. Sulit menentukan satu teknik atau algoritma data mining yang harus digunakan dalam

melihat tingkat kelulusan mahasiswa.

3. Belum adanya komparasi antara teknik atau algoritma untuk pengolahan data

mahasiswa.

C. Batasan Masalah

Berdasarkan identifikasi masalah diatas, maka batasan masalah yang

didapat antara lain sebagai berkut:

1. Data mahasiswa belum dapat memberi infromasi yang bermanfaat, terutama dalam

melihat tingkat kelulusan.

2. Sulit menentukan satu teknik atau algoritma klasifikasi data mining yang harus

digunakan dalam melihat tingkat kelulusan.

3. Belum adanya komparasi antara teknik atau algoritma klasifikasi untuk pengolahan

data mahasiswa.

D. Tujuan Penelitian

Berdasarkan batasan masalah diatas, maka tujuan dari penelitian ini adalah:

1. Menyajikan data mahasiswa yang telah diolah sehingga dapat menyajikan informasi

yang bermanfaat, terutama dalam melihat tingkat kelulusan.

2. Dapat melihat teknik atau algoritma klasifikasi mana yang terbaik untuk digunakan

dalam melihat tingkat kelulusan mahaiswa.

3. Menyajikan komparasi antara algoritma klasifikasi yang ada berdasarkan tingkat

akurasi dari masing-masing algoritma.


E. Manfaat Penelitian

Penelitian ini diharapkan dapat bermanfaat bagi:

1. Institut Bisnis dan Informatika Kwik Kian Gie

Institut Bisnis dan Informatika Kwik Kian Gie dapat menggunakan hasil olahan data

tersebut untuk dijadikan dasar dalam pembuatan keputusan. Hasil penelitian dapat

dijadikan referensi dalam penentuan strategi terutama dalam hal meningkatkan

tingkat kelulusan mahasiswa.

2. Penulis

Penulis dapat mengembangkan wawasan dalam penggunaan data mining khususnya

pengunaan teknik atau algoritma kasifikasi pada data mining untuk melihat tingkat

kelulusan mahasiswa dan perbandingan keakuratan dari hasilnya.

3. Pembaca

Pembaca dapat melihat hasil kajian penelitian dan dapat dijadikan referensi untuk

melakukan penelitian selanjutnya. Hasil dari penelitian juga dapat memberikan

wawasan baru mengenai perbandingan antara beberapa teknik atau algoritma yang

berbeda dan mana yang lebih akurat.


HALAMAN INI PORTRAIT
HALAMAN INI LANDSCAPE
HALAMAN INI KEMBALI PORTRAIT
DAFTAR PUSTAKA

Astuti, Puji (2016), Komparasi Penerapan Algoritma C45, Knn Dan Neural Network Dalam
Proses Kelayakan Penerimaan Kredit Kendaraan Bermotor, Jakarta: Universitas
Indraprasta PGRI

Bourgeois, David T. (2014), Information Systems for Business and Beyond, Saylor.org Academy.

Badan Akreditasi Nasional Perguruan Tinggi (2008), Buku VI Matriks Penilaian Instrumen
Akreditasi Program Studi, Jakarta: Badan Akreditasi Nasional Perguruan Tinggi

Conford, Tony dan Maha Shaikh (2013), Introduction to Information Systems, United Kingdom:
University of London

Elmasri, Ramez, Shamkant B. Navathe (2016), Fundamentals Of Database Systems, Edisi Ke-7,
United States of America: Pearson.

Gorunescu, Florin (2011), Data Mining: Concepts, Models and Techniques, Berlin: Springer

Han, Jiawei, Michelin Kamber dan Jian Pei (2012), Data Mining Concepts and Techniques:

Third
Edition, United States of America: Morgan Kaufmann Publishers

Hastuti, Khafiizh (2012), Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi
Mahasiswa Non Aktif. Prosiding Seminar Nasional Teknologi Informasi & Komunikasi
Terapan, Semarang.

Gie, Kwik Kian (2017), Sejarah, sumber: https://kwikkiangie.ac.id/home/pengantar/, (diakses


pada tanggal 6 April 2018).

Maheshwari, Anil K (2015), Business Intelligence and Data Mining, New York: Business Expert
Press

Neuman, W. Lawrence (2014), Social Research Methods: Qualitative and Quantitative


Approaches, Seventh Edition, United States of America: Pearson

Saefulloh, Asep dan Moedjiono (2013), Penerapan Metode Klasifikasi Data Mining Untuk
Prediksi Kelulusan Tepat Waktu, InfoSys Journal. Vol.12

Satzinger, John W, T. et al (2012), Introduction to Systems Analysis and Design An Agile,


Iterative Approach, Edisi ke-6, Canada: Cengage.

Tutorials Point (2014), Data Warehousing, India: Tutorials Point (I) Pvt. Ltd.
Zaki, Mohammed J. dan Wagner Meira Jr (2013), Data Mining and Analysis: Fundamental
Concepts and Algorithms, Inggirs: Cambridge University Press.

Anda mungkin juga menyukai