p-ISSN 2088-3943
haito_ita@yahoo.com
Abstrak
Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data dalam
jumlah besar mendorong untuk melakukan analisis, meringkas dan mengekstrak data.
Pengolahan sistem informasi bagian kemahasiswaan dapat dikembangkan dengan penerapan
teknik data mining. Data mining berguna sebagai data utama untuk diolah, menganalisa data
awal sehingga menghasilkan informasi yang berguna. Dengan memanfaatkan Nomor Induk
Mahasiswa (NIM) dan data kelulusan mahasiswa, diharapkan dapat menghasilkan informasi
tingat kelulusan melalui teknik data mining yang diukur dari lama belajar dan nilai Indeks
Prestasi Komulatif (IPK). Algoritma yang digunakan adalah Algoritma Apriori, informasi yang
ditampilkan berupa nilai support dan confidence dari masing-masing kategori tingkat kelulusan.
Tujuan dari penerapan teknik data mining adalah mengolah data awal untuk memperoleh
informasi yang berguna yaitu mengetahui tingkat kelulusan mahasiswa.
Secara sederhana data mining merupakan historis untuk menemukan keteraturan, pola
penambangan atau penemuan informasi baru atau hubungan dalam set data berukuran besar.
dengan mencari pola atau aturan tertentu. Data Machine Learning adalah suatu area dalam
mining adalah proses yang menggunakan teknik artificial intelligence atau kecerdasan buatan
statistik, matematika, kecerdasan buatan, dan yang berhubungan dengan pengembangan
mesin learning untuk mengekstraksi dan teknik-teknik yang bisa diprogramkan dan
mengidentifikasi informasi yang bermanfaat dan belajar dari data masa lalu. Pengenalan pola,
pengetahuan yang terkait berbagai database data mining dan machine learning sering
besar (Turban dkk, 2005). dipakai untuk menyebut sesuatu yang sama.
Tahap-tahap data mining : Bidang ini bersinggungan dengan ilmu
1. Pembersihan Data (Data Cleaning) probabilitas dan statistik kadang juga optimasi.
Pembersihan data merupakan proses Machine learning menjadi alat analisis dalam
menghilangkan noise dan data yang tidak data mining.
konsisten atau data tidak relevan.
2. Integrasi Data (Data Integration)
Integrasi data merupakan penggabungan
data dari berbagai database ke dalam satu
database baru.
3. Seleksi Data (Data Selection)
Data yang ada pada database sering tidak Gambar 3. Data Mining merupakan irisan berbagai ilmu
semuanya dipakai, oleh karena itu hanya Istilah antecedent dan consequent,
data yang sesuai untuk dianalisis yang akan antecedent untuk mewakili bagian “jika” dan
diambil dari database. consequent untuk mewakili bagian “maka”.
4. Transformasi Data (Data Transformation) Dalam analisis ini, antecedent dan consequent
Data diubah atau digabung ke dalam format adalah sekelompok item yang tidak punya
yang sesuai untuk diproses dalam data hubungan secara bersama (Santoso, 2007).
mining. Untuk mengukur kekuatan aturan asosiasi
5. Proses Mining ini, digunakan ukuran support dan confidence.
Merupakan suatu proses utama saat metode Support adalah rasio antara jumlah transaksi
diterapkan untuk menemukan pengetahuan yang memuat antecedent dan consequent
berharga dan tersembunyi dari data. dengan jumlah transaksi. Confidence adalah
6. Evaluasi Pola (Pattern Evaluation) rasio antara jumlah transaksi yang meliputi
Untuk mengidentifikasi pola-pola menarik semua item dalam antecedent dan consequent
kedalam knowledge based yang ditemukan. dengan jumlah transaksi yang meliputi semua
7. Presentasi Pengetahuan (knowledge item dalam antecedent.
presentation), merupakan visualisasi dan Analisis asosiasi dikenal juga sebagai
penyajian pengetahuan mengenai metode salah satu metode data mining yang menjadi
yang digunakan untuk memperoleh dasar dari berbagai metode data mining lainnya.
pengetahuan yang diperoleh pengguna. Khususnya salah satu tahap dari analisis
Tahap terakhir dari proses data mining asosiasi yang disebut analisis pola frekuensi
adalah bagaimana memformulasikan tinggi (frequent pattern mining) menarik
keputusan atau aksi dari hasil analisis yang perhatian banyak peneliti untuk menghasilkan
diperoleh. algoritma yang efisien. Penting tidaknya suatu
aturan assosiatif dapat diketahui dengan dua
parameter, support (nilai penunjang) yaitu
prosentase kombinasi item tersebut. dalam
database dan confidence (nilai kepastian) yaitu
kuatnya hubungan antar item dalam aturan
assosiatif.
Analisis asosiasi didefinisikan suatu
proses untuk menemukan semua aturan
assosiatif yang memenuhi syarat minimum
untuk support (minimum support) dan syarat
minimum untuk confidence (minimum
Gambar 2. Tahap-Tahap Data Mining confidence) (Pramudiono, 2007).
Data mining, sering disebut knowledge B. Algoritma Apriori
discovery in database (KDD), adalah kegiatan Dasar ide dari algoritma apriori adalah
yang meliputi pengumpulan, pemakaian data mengembangkan frequent itemset dengan
menggunakan satu item dan secara rekursif Tidak semua data induk siswa akan dicari
mengembangkan frequent itemset dengan dua hubungannya dengan data kelulusan, hanya
item, tiga item dan seterusnya hingga frequent beberapa atribut yang kira-kira berguna dan
itemset dengan semua ukuran. Untuk sebarannya tidak terlalu acak. Karena data yang
mengembangkan frequent set dengan dua item, terlalu acak akan membuat proses mining
dapat menggunakan frequent set item. memakan waktu lama dan tingkat hubungannya
Alasannya adalah bila set satu item tidak pun rendah. Data induk mahasiswa yang akan
melebihi support minimum, maka sembarang dicari hubungannya meliputi proses masuk, asal
ukuran itemset yang lebih besar tidak akan sekolah, kota asal sekolah, dan program studi.
melebihi support minimum tersebut. Secara Sumber data dalam penentuan tingkat
umum, mengembangkan set dengan fc-item kelulusan dipengaruhi :
menggunakan frequent set dengan k – 1 item 1. Proses Pendaftaran
yang dikembangkan dalam langkah Dari proses pendaftaran mahasiswa dapat
sebelumnya. Setiap langkah memerlukan sekali diperoleh tingkat kelulusan mahasiswa.
pemeriksaan ke seluruh isi database. Dalam Pendaftaran melalui jalur ujian saringan
asosiasi terdapat istilah antecedent dan masuk dan beasiswa.
consequent, antecedent untuk mewakili bagian 2. Asal sekolah dan proses masuk
“jika” dan consequent untuk mewakili bagian 3. Kota asal sekolah
“maka”. Dalam analisis ini, antecedent dan 4. Program Studi
consequent adalah sekelompok item yang tidak Data mahasiswa yang dikumpulkan yaitu
punya hubungan secara bersama (Santoso, data masuk tahun 2012-2015 dan data lulus
2007). tahun 2013-2015, Program Studi Teknik
Informatika di STMIK Pelita Nusantara Medan.
III. METODE PENELITIAN Sumber data pengolahan teknik data mining
Tahap awal pelaksanaan penelitian ini yaitu :
yaitu menetukan rumusan permasalahan : . 1. Data Induk Mahasiswa
a. Tingkat kelulusan mahasiswa dapat dilihat Atribut data induk mahasiswa terdiri yaitu
dari lama studi dan IPK (Indeks Prestasi NIM, Jenis Kelamin, Nama Mahasiswa,
Kumulatif) yang terdapat pada data Tempat Lahir, Tanggal Lahir, Agama,
kelulusan mahasiswa. Proses Masuk, Nama Wali, Alamat Wali,
b. Permasalahan yang dibahas yaitu bagaimana Pendidikan Terakgir Wali, Nama Sekolah,
menghasilkan informasi yang berguna Nama Asal Sekolah, Kota Asal Sekolah,
tentang hubungan tingkat kelulusan dengan Jurusan, Tahun Lulus.
data induk mahasiswa dengan teknik data 2. Data Kelulusan
mining. Atribut data kelulusan yaitu NIM, Nama
c. Informasi yang ditampilkan berupa nilai Mahasiswa, Tempat Lahir, Tanggal Lahir,
support dan confidence hubungan antara Program Studi, Tanggal Lulus, IPK.
tingkat kelulusan dengan data induk B. Penggunaan Algoritma Apriori
mahasiswa Untuk mengukur kekuatan aturan asosiasi
Dari rumusan permasalahan selanjutnya ini, digunakan ukuran support dan
mengembangkan metode penelitian terdiri yaitu confidence.
sebagai berikut :
4. Program studi digunakan untuk proses memiliki dua item. Pertama dibuat kandidat 2-
mining guna mengetahui hubungan tingkat itemset dari kombinasi semua 1-itemset. Lalu
kelulusan dengan program studi. untuk tiap kandidat 2-itemset ini dihitung
Untuk proses mining, data kelulusan dan support-nya dengan men-scan database.
data induk mahasiswa digabungkan dengan Support artinya jumlah transaksi dalam
primary key NIM, setelah itu dilakukan proses database yang mengandung kedua item dalam
mining. Proses pengolahan data mining : kandidat 2-itemset. Setelah support dari semua
A. Integrasi Data kandidat 2-itemset didapatkan, kandidat 2-
Proses integrasi data dilakukan ketika proses itemset yang memenuhi syarat minimum
ETL (ekstract, transform, and Load) ketika support dapat ditetapkan sebagai 2-itemset yang
membangun data warehouse, dalam proses juga merupakan pola frekuensi tinggi dengan
ETL data dalam data source digabungkan panjang 2.
menjadi satu dalam data warehouse dengan Contoh proses mining untuk mengetahui
key NIM. hubungan tingkat kelulusan dengan proses
B. Transformasi Data masuk.
Data kelulusan berdasarkan IPK dapat Tabel 4.2 Data Awal
dikategorikan menjadi tiga yaitu : NIM Kategori Lulus Proses Masuk
1. IPK memuaskan : IPK 2,00 – 2,75 1101153 A1 Ujian
2. IPK sangat memuaskan : IPK 2,76 – 3,50 1101154 A2 Ujian
C. IPK tipe dengan pujian : IPK 3,51 – 4,00 1101109 A1 Ujian
Pengkategorian data kelulusan berdasarkan 1101115 A3 Beasiswa
lama studi yaitu : 1101157 B1 Beasiswa
1. Sesuai jadwal, bila lama studi 4 tahun atau 1101158 A2 Ujian
kurang dari 4 tahun. 1101167 A2 Beasiswa
2. Tidak sesuai jadwal, bila lama studi lebih 1101190 A2 Beasiswa
dari 4 tahun. 1101143 A2 Beasiswa
Hasil transformasi data dari 2 kategori di atas,
Tabel 4.3 Kandidat Pertama
Tabel 4.1. Transformasi Data, terdapat enam
Itemset Count
tingkatan untuk mengukur tingkat kelulusan
A1 2
mahasiswa. A2 5
Tabel 4.1 A3 1
Transformasi Data
B1 2
Kategori Keterangan Ujian 4
A1 Lama Studi 4 tahun atau kurang 4 tahun dengan Beasiswa 5
IPK 3,51 – 4,00
A2 Lama Studi 4 tahun atau kurang 4 tahun dengan Tabel 4.4 Hasil Treshold
IPK 2,76 –3,50 Itemset Count
A3 Lama Studi 4 tahun atau kurang 4 tahun dengan A2 4
IPK 2,00 – 2,75 A1 2
B1 Lama Studi lebih 4 tahun atau kurang 4 tahun Ujian 4
dengan IPK 3,51 – 4,00 Beasiswa 5
B2 Lama Studi lebih 4 tahun dengan IPK 2,76 –
3,50 Ditetapkan threshold = 3, maka kandidat
B3 Lama Studi lebih 4 tahun dengan IPK 2,00 –
2,75 yang nilainya kurang dari 3 akan dihapus.
Sehingga, didapat hasil seperti pada tabel 4.5
C. Algoritma Apriori Tabel 4.5 Kandidat Dua
Algoritma apriori dibagi menjadi beberapa
Itemset Count
tahap yang disebut iterasi. Tiap iterasi
A2, Ujian 2
menghasilkan pola frekuensi tinggi dengan A2, Beasiswa 3
panjang yang sama dimulai dari pass pertama A1, Ujian 2
yang menghasilkan pola frekuensi tinggi dengan A1, Beasiswa 0
panjang satu. Di iterasi pertama ini, support dari Tabel 4.6 Hasil Treshold Kedua
setiap item dihitung dengan men-scan database. Itemset Count
Setelah support dari setiap item didapat, item A2, Beasiswa 3
yang memiliki support lebih besar dari A1, Ujian 2
minimum support dipilih sebagai pola frekuensi
Dari pada tabel 4.6 dapat diambil hasil
tinggi dengan panjang 1 atau sering disingkat 1-
sebagai berikut : Support A2, Beasiswa = Count
itemset. Singkatan k-itemset berarti satu set (A2,Besiswa)/jumlah transaksi = 3/9 Support
yang terdiri dari k item. Iterasi kedua A1, Ujian = Count (A1,Ujian) /jumlah transaksi
menghasilkan 2-itemset yang tiap set-nya
menggabungkannya dengan key NIM dan disimpan Proses mining asal kota merupakan proses
dalam tabel data gabungan. mining untuk mengetahui hubungan tingkat
Spesifikasi proses/algoritma :
kelulusan dengan asal kota mahasiswa,
Initial State (IS) : tabel data gabungan
kosong digunakan data kota asal sekolah dengan asumsi
Final State (FS) : tabel data gabungan kota asal sekolah merupakan kota asal
terisi
Spesifikasi Proses/algoritma: Ambil data
mahasiswa.
kelulusan dan data induk gabungkan dengan Nama fungsi : Mining Kota Asal
key NIM Simpan dalam tabel data gabungan Deskripsi isi : Digunakan untuk proses mining atribut Kota
Asal
2) Fungsi Bersihkan Data Spesifikasi proses/algoritma :
Initial State (IS) : view data gabungan
Nama fungsi : Bersihkan data bersih terisi data bersih
Deskripsi isi : Digunakan untuk membersihkan data Hitung kombinasi masing-masing item
yang tidak sesuai dan tidak lengkap isiannya dari data kategori dan Kota Asal Hitung nilai
gabungan dan ditampilkan dalam view data gabungan support dan confidence END IF
bersih untuk diolah lebih lanjut. 6) Fungsi Mining Program Studi
Spesifikasi proses/algoritma : Proses mining program studi merupakan proses
Initial State (IS) : view data gabungan mining untuk mengetahui hubungan tingkat
bersih kosong
Final State (FS) : view data gabungan
kelulusan dengan program studi.
bersih terisi data gabungan yang telah Nama fungsi : Mining Program Studi Deskripsi isi :
dibersihkan Digunakan untuk proses mining atribut Program Studi
Spesifikasi Proses/algoritma: Spesifikasi proses/algoritma :
Pemilihan atribut Ambil data gabungan Initial State (IS) : view data gabungan
seleksi atribut yang dipakai dan buang bersih terisi data bersih
atribut yang tidak lengkap isiannya
Final State (FS): Keluar report hasil
3) Fungsi Mining Proses Masuk proses mining program studi
Proses mining proses masuk merupakan Spesifikasi Proses/algoritma:
Hitung masing –masing item dalam Kategori
proses mining untuk mengetahui hubungan Hitung masing-masing item dalam Program
tingkat kelulusan dengan proses masuk Studi IF jumlah masing-masing item >
threshold THEN Hitung kombinasi masing-
mahasiswa. masing item kategori dan Program Studi
Nama fungsi : Mining Proses Masuk Deskripsi isi : Hitung nilai support dan confidence END IF
Digunakan untuk proses mining atribut proses masuk
Spesifikasi proses/algoritma : D. Implementasi Interface
Dalam lembaran aplikasi Data Mining ini
Initial State (IS) : view data gabungan
bersih terisi data bersih terdapat dua buah form :
Final State (FS): Keluar report hasil 1. Form pertama
proses mining proses masuk
Spesifikasi Proses/algoritma:
Halaman awal yang berisi perintah
Hitung masing–masing item dalam Kategori pengambilan data pemilihan atribut data induk
Hitung masing-masing item dalam proses mahasiswa, input threshold, perintah proses
masuk
IF jumlah masing–masing item > threshold mining dan tombol keluar aplikasi.
THEN
Hitung kombinasi masing-masing item
2. Form kedua
kategori dan proses masuk Halaman report data mining yang berisi
Hitung nilai support dan confidence hasil proses data mining yaitu tabel nilai support
END IF
4) Fungsi Mining Asal Sekolah dan confidence.
Proses mining asal sekolah merupakan proses
mining untuk mengetahui hubungan tingkat
kelulusan dengan asal sekolah yang melalui
jalur beasiswa.
Nama fungsi : Mining Asal Sekolah Deskripsi isi :
Digunakan untuk proses mining atribut Asal Sekolah
Spesifikasi proses/algoritma :
Initial State (IS): view data gabungan
bersih terisi data bersih
Final State (FS): Keluar report hasil
proses mining asal sekolah
Spesifikasi Proses/algoritma: Gambar 4.2 Tampilan Form Data Mining
Hitung masing –masing item dalam Kategori Perintah-perintah dalam form pertama berupa
Hitung masing-masing item dalam asal
sekolah dengan proses masuk Beasiswa tombol ambil data untuk melakukan proses
IF jumlah masing-masing item > threshold pengambilan data, inputan teks threshold
THEN
Hitung kombinasi masing-masing item untuk memasukkan nilai threshold, inputan
kategori dan asal sekolah Hitung nilai combo box untuk memilih jurusan, inputan
support dan confidence
END IF combo box untuk memilih atribut yang akan
5) Fungsi Mining Kota Asal diproses mining, tombol proses untuk perintah
menggunakan teknik data Mining dapat Witten, I. H and Frank, E. 2005. Data Mining :
digunakan untuk mengetahui hubungan data Practical Machine Learning Tools and
kelulusan dengan data induk mahasiswa. Techniques Second Edition. Morgan
Saran dari penerapan teknik data mining Kauffman : San Francisco.
dalam pemanfaatan data awal mahaiswa yaitu :
1. Untuk pengembangan Aplikasi Data Mining
lebih lanjut, dapat menggunakan algoritma
lain, misal algoritma FP-Growth.
Perbedaannya adalah algoritma apriori harus
melakukan scan database setiap kali iterasi,
sedangkan algoritma FP-Growth hanya
melakukan satu kali scan database diawal.
2. Pengolahan data besar dan tidak beraturan
bila diolah dengan teknik data mining akan
memberikan informasi yang sangat
bermanfaat dalam meningkatkan pelayanan
manajemen pendidikan.
VI. REFERENSI
Anonim, 2009 “Peraturan Akademik
Universitas Diponegoro Bidang
Pendidikan”, Semarang.
Bramer, Max, 2007, “Principles of Data
Mining”, Springer, London.
Chintakayala, Padmini. 2005. “Beginners Guide
for Software Testing : Symbiosys
Technologies”.
Davies, and Paul Beynon, 2004, “Database
Systems Third Edition”, Palgrave
Macmillan, New York.
Elmasri, Ramez and Shamkant B. Navathe,
2000, “Fundamentals of Database
Systems. Third Edition”, Addison Wesley
Publishing Company, New York.
Han, J. and Kamber, M, 2006, “Data Mining
Concepts and Techniques Second Edition”.
Morgan Kauffman, San Francisco.
Kadir, Abdul, 1999, “Konsep dan Tuntunan
Praktis Basis Data”, Penerbit Andi,
Yogyakarta.
Kusrini, dan Emha Taufik Luthfi, 2009,
“Algoritma Data Mining”, Penerbit Andi,
Yogyakarta.
Pramudiono, I. 2007. Pengantar Data Mining :
Menambang Permata Pengetahuan di
Gunung Data.
Rainardi, Vincent, 2008, “Building a Data
Warehouse with Examples in SQL Server”,
Springer, New York.
Pressman, Roger S, 1997, “Software
Engineering:A Practitioner’s Approch.” The
McGraw-Hill Companies, Inc., New York
Santosa, Budi, 2007, “Data Mining Teknik
Pemanfaatan Data untuk Keperluan
Bisnis”, Graha Ilmu, Yogyakarta. Sommerville,
Ian, 2003, “Software Engineering
(Rekayasa Perangkat Lunak)/Edisi 6/Jilid 1”
Erlangga.