172 376 1 SM PDF
172 376 1 SM PDF
Abstrak
Pemanfatan teknologi informasi memungkinkan terjadinya akumulasi data dalam jumlah yang besar.
Universitas Diponegoro merupakan organisasi yang memanfaatkan teknologi informasi, khususnya basis
data, akan mengalami akumulasi data mahasiswa dalam jumlah besar tiap tahunnya. Basis data
mahasiswa di UNDIP berisi data dalam jumlah besar dengan banyak variasi, tetapi belum dimanfaatkan
secara optimal. Diperlukan suatu sistem yang bisa memanfaatkan gunungan data menjadi informasi yang
bernilai strategis. Dalam makalah ini dibahas suatu sistem pendukung bagi perguruan tinggi yang
menggambarkan hubungan data induk mahasiswa, khususnya jalur masuk calon mahasiswa baru dengan
tingkat kelulusan mahasiswa, dilihat dari IPK dan lama studi. Sistem yang dibangun menggunakan
teknik data mining bertujuan untuk menggali dan menemukan pola-pola yang tersembunyi antara data
induk mahasiswa dengan tingkat kelulusan mahasiswa. Untuk memperoleh kaidah asosiasi yang
menggambarkan hubungan antar item pada database digunakan metode apriori. Hasil dari proses mining
ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB terhadap
tingkat kelulusan mahasiswa.Informasi yang dihasilkan dapat digunakan sebagai dasar analisis dalam
pengambilan keputusan.
Kata Kunci: data mining, tingkat kelulusan mahasiswa, data induk mahasiswa, metode apriori.
1. Pendahuluan Data induk mahasiswa yang akan dicari
hubungannya meliputi proses masuk, asal sekolah,
Ketersediaan data sudah bukan hal yang sulit kota asal sekolah, dan program studi. Adapun yang
diperoleh lagi dewasa ini apalagi ditunjang dengan akan diproses mining adalah hubungan tingkat
banyaknya kegiatan yang sudah dilakukan secara kelulusan dengan proses masuk calon mahasiswa
komputerisasi. Namun data ini seringkali baru. Tingkat kelulusan mahasiswa dapat dilihat
diperlakukan hanya sebagai rekaman tanpa dari lama studi dan IPK (Indeks Prestasi
pengolahan lebih lanjut sehingga tidak mempunyai Kumulatif).
nilai guna lebih untuk keperluan masa mendatang.
Perguruan tinggi saat ini dituntut untuk 2. Data Mining
memiliki keunggulan bersaing dengan
memanfaatkan semua sumber daya yang dimiliki. Data mining adalah penambangan atau
Perguruan tinggi harus mampu melakukan proses penemuan informasi baru dengan mencari pola atau
evaluasi, perencanaan dan pengelolaan secara baik aturan tertentu dari sejumlah data yang sangat
untuk dapat memenangkan persaingan di era besar [2]. Data mining juga disebut sebagai
globalisasi ini. Selain sumber daya sarana, serangkaian proses untuk menggali nilai tambah
prasarana, dan manusia, sistem informasi adalah berupa pengetahuan yang selama ini tidak diketahui
salah satu sumber daya yang dapat digunakan secara manual dari suatu kumpulan data [5]. Data
untuk meningkatkan keunggulan bersaing. Sistem mining, sering juga disebut sebagai knowledge
informasi dapat digunakan untuk mendapatkan, discovery in database (KDD). KDD adalah
mengolah dan menyebarkan informasi untuk kegiatan yang meliputi pengumpulan, pemakaian
menunjang kegiatan operasional sehari-hari data, historis untuk menemukan keteraturan, pola
sekaligus menunjang kegiatan pengambilan atau hubungan dalam set data berukuran besar [6].
keputusan strategis. Dalam makalah ini akan di Karakteristik Data mining sebagai berikut [2]:
bahas bagaimana suatu aplikasi dapat menghasilkan Data mining berhubungan dengan penemuan
informasi yang berguna tentang hubungan tingkat sesuatau yang tersembunyi dan pola data
kelulusan dengan data induk mahasiswa dengan tertentu yang tidak diketahui sebelumnya.
teknik data mining. Tidak semua data induk siswa Data mining biasa menggunakan data yang
akan dicari hubungannya dengan data kelulusan, sangat besar. Biasanya data yang besar
hanya beberapa atribut yang kira-kira berguna dan digunakan untuk membuat hasil lebih
sebarannya tidak terlalu acak. Karena data yang dipercaya.
terlalu acak akan membuat proses mining memakan
waktu lama dan tingkat hubungannya pun rendah.
156
Data mining berguna untuk membuat untuk memperoleh pengetahuan yang
keputusan yang kritis, terutama dalam strategi. diperoleh pengguna. Tahap terakhir dari
proses data mining adalah bagaimana
Sebagai suatu rangkaian proses, data mining dapat memformulasikan keputusan atau aksi dari
dibagi menjadi beberapa tahap yang diilustrasikan hasil analisa yang didapat.
di Gambar 1.
3. Association rules
157
support dari setiap item didapat, item yang
memiliki support diatas minimum support dipilih
sebagai pola frekuensi tinggi dengan panjang 1 atau
sering disingkat 1-itemset. Singkatan k-itemset
berarti satu set yang terdiri dari k item.
Iterasi kedua menghasilkan 2-itemset yang
tiap set-nya memiliki dua item. Pertama dibuat
kandidat 2-itemset dari kombinasi semua 1-itemset.
Lalu untuk tiap kandidat 2-itemset ini dihitung
support-nya dengan men-scan database. Support
disini artinya jumlah transaksi dalam database yang
mengandung kedua item dalam kandidat 2-itemset.
Setelah support dari semua kandidat 2-itemset
didapatkan, kandidat 2-itemset yang memenuhi Gambar 2. Aliran data dalam proses data
syarat minimum support dapat ditetapkan sebagai
mining
2-itemset yang juga merupakan pola frekuensi
tinggi dengan panjang 2. Data yang digunakan dalam penulisan tugas
Untuk selanjutnya pada iterasi ke-k dapat dibagi akhir ini terdiri dari dua sumber data, yaitu data
lagi menjadi beberapa bagian [5]: Induk Mahasiswa dan data Kelulusan.
1. Pembentukan kandidat itemset 1. Data Induk Mahasiswa
Kandidat k-itemset dibentuk dari kombinasi Data induk mahasiswa adalah data mahasiswa yang
(k-1)-itemset yang didapat dari iterasi didata ketika mahasiswa pertama kali masuk
sebelumnya. Satu ciri dari algoritma Apriori perguruan tinggi setelah melakukan registrasi ulang.
adalah adanya pemangkasan kandidat k- Data yang dicatat adalah identitas pribadi
itemset yang subset-nya yang berisi k-1 item mahasiswa dan identitas sekolah asal mahasiswa.
tidak termasuk dalam pola frekuensi tinggi Proses pendataan dilakukan di tingkat universitas,
dengan panjang k-1. setelah direkapitulasi kemudian di sebarkan ke
2. Penghitungan support dari tiap kandidat k- fakultas masing-masing. Data yang dicatat dapat
itemset dilihat dalam tabel 1.
Support dari tiap kandidat k-itemset didapat
dengan men-scan database untuk menghitung
Tabel 1. Tabel data induk mahasiswa
jumlah transaksi yang memuat semua item di
Atribut Keterangan
dalam kandidat k-itemset tersebut. Ini adalah
NIM (Nomor Nomor Induk Mahasiswa atau yang
juga ciri dari algoritma Apriori dimana
Induk disingkat dengan NIM adalah kode
diperlukan penghitungan dengan scan seluruh
Mahasiswa) yang dimiliki mahasiswa sebagai
database sebanyak k-itemset terpanjang.
nomer unik identitas diperguruan
3. Tetapkan pola frekuensi tinggi
tinggi.
Pola frekuensi tinggi yang memuat k item atau
k-itemset ditetapkan dari kandidat k-itemset Jenis kelamin Merupakan jenis kelamin
yang support-nya lebih besar dari minimum mahasiswa yang bersangkutan
support. Bila tidak didapat pola frekuensi Nama Merupakan nama lengkap
tinggi baru maka seluruh proses dihentikan. mahasiswa mahasiswa yang bersangkutan
Bila tidak, maka k ditambah satu dan kembali Kota lahir Merupakan kota kabupaten atau
ke bagian 1. kotamadya tempat mahasiswa
bersangkutan dilahirkan
5. Sumber Data Tanggal lahir Merupakan tanggal mahasiswa
yang bersangkutan dilahirkan
Sumber data pada pembangunan aplikasi data Agama Merupakan agama yang dianut
mining ini diperoleh dari dua database terpisah mahasiswa yang bersangkutan
yang tidak saling terkait satu sama lain. untuk itu Proses masuk Merupakan jenis jalur masuk ke
diperlukan suatu data warehouse yang dapat perguruan tinggi yang diikuti
menampung dari kedua sumber data tersebut. Selain mahasiswa bersangkutan. Proses
itu penggunaan data warehouse juga bertujuan agar masuk Universitas Diponegoro
data transaksional dalam kedua database sumber dalam rentang tahun 2000-2003
tidak terganggu. masih menggunakan SPMB
(Seleksi Penerimaan Mahasiswa
Baru) dan PSSB (Penjaringan
Siswa-Siswa Berprestasi).
Atribut Keterangan
158
Alamat Merupakan alamat mahasiswa asal Indeks Prestasi Indeks Prestasi Kumulatif
mahasiswa yang bersangkutan. Kumulatif (IPK) adalah ukuran
Nama wali Merupakan nama orang tua atau (IPK) kemampuan mahasiswa
wali mahasiswa yang bersangkutan. sampai pada waktu tertentu
Alamat wali Merupakan alamat orang tua atau yang dapat dihitung
walai mahasiswa yang berdasarkan jumlah (satuan
bersangkutan kredit semester) SKS mata
Pendidikan Merupakan pendidikan orang tua kuliah yang diambil
Wali atau wali mahasiswa yang sampai pada periode
bersangkutan tertentu dikalikan dengan
Nama asal Merupakan asal sekolah menengah nilai bobot masing-masing
sekolah lanjutan dari mahasiswa yang mata kuliah dibagi dengan
bersangkutan jumlah seluruh SKS mata
Kota asal Merupakan kota asal sekolah kuliah (Peraturan
sekolah menengah lanjutan dari mahasiswa Akademik, 2009).
yang bersangkutan Lama studi Merupakan lama tempuh
Tahun lulus Merupakan tahun lulus dari asal studi dihitung dimulai saat
asal sekolah sekolah menengah lanjutan terdaftar sebagai
mahasiswa yang bersangkutan mahasiswa sampai
Status asal Merupakan status asal sekolah dinyatakan lulus.
sekolah menengah lanjutan mahasiswa yang Nama wali Merupakan nama orang tua
bersangkutan. atau wali mahasiswa yang
Jurusan asal Merupakan jurusan di asal sekolah bersangkutan.
sekolah menengah lanjutan Alamat wali Merupakan alamat orang
tua atau walai mahasiswa
2. Data Kelulusan yang bersangkutan
Data Kelulusan adalah data mahasiswa yang Judul skripsi Merupakan judul skripsi
telah dinyatakan lulus. Data yang dicatat dari mahasiswa yang
adalah identitas mahasiswa dan data bersangkutan
kelengkapan kelulusan. Data yang dicatat Periode Merupakan periode wisuda
dapat dilihat pada tabel 2. wisuda yang diikuti oleh
mahasiswa yang
bersangkutan. Di
Tabel 2. Atribut data kelulusan universitas diponegoro
Atribut Keterangan terdapat 4 periode wisuda.
NIM Nomor Induk Mahasiswa
(NIM) adalah kode yang Data induk mahasiswa yang diambil dalam
dimiliki mahasiswa sampel adalah data mahasiswa angkatan 2000, 2002
sebagai nomer unik dan 2003. Hal ini didasarkan pada kebutuhan data
identitas diperguruan dimana data akan di hubungkan dengan data
tinggi. Terdiri dari 9 digit kelulusan dengan asumsi bahwa mahasiswa
yang merepresentasikan angaktan 2000 -2003 akan lulus dari rentang waktu
fakultas, jurusan, dan tahun 2004-2008. Sedangkan data kelulusan yang
angkatan masuk. diambil adalah data kelulusan dari tahun 2004
Nama Merupakan nama lengkap sampai 2008.
Mahasiswa mahasiswa yang
bersangkutan 6. Integrasi Data
Atribut Keterangan
Tempat, Merupakan kota kabupaten Di asumsikan bahwa data yang diambil sudah
Tanggal lahir atau kotamadya tempat dan berupa tabel-tabel dalam satu server, untuk proses
tanggal mahasiswa yang mining, data kelulusan dan data induk mahasiswa
bersangkutan dilahirkan digabungkan dengan primary key NIM. Setelah itu
Program Studi Program studi dari baru dilakukan proses mining. Proses integrasi data
mahasiswa yang dilakukan ketika proses ETL (ekstract, transform,
bersangkutan and Load) ketika membangun data warehouse,
Tanggal lulus Merupakan tanggal dimana dalam proses ETL data dalam data source
mahasiswa yang digabungkan menjadi satu dalam data warehouse
bersangkutan dinyatakan dengan key NIM.
lulus
159
7. Transformasi Data Tabel 4. Data Awal
NIM Kategori Proses
Transformasi data merupakan proses kelulusan masuk
pengubahan atau penggabungan data ke dalam J2A003002 A1 PSSB
format yang sesuai untuk diproses dalam data J2A003003 A2 SPMB
mining. Seringkali data yang akan digunakan dalam J2A003004 A1 PSSB
proses data mining mempunyai format yang belum J2A003005 A3 SPMB
langsung bisa digunakan, oleh karena itu perlu J2A003006 B2 SPMB
dirubah formatnya. NIM Kategori Proses
Berdasarkan Peraturan Akademik Universitas kelulusan masuk
Diponegoro [1], data kelulusan berdasarkan IPK J2A003007 A3 SPMB
dapat dikategorikan menjadi tiga yaitu : J2A003008 A3 SPMB
1. IPK memuaskan dengan IPK 2,00 – 2,75 J2A003009 A2 PSSB
2. IPK sangat memuaskan dengan IPK 2,76 –
J2A003011 A2 PSSB
3,50
J2A003012 A2 PSSB
3. IPK tipe dengan pujian dengan IPK 3,51 –
4,00 J2A003013 B2 SPMB
Pengkategorian data kelulusan berdasarkan lama
studi yaitu : Dari data awal tersebut didapat kandidat
1. Sesuai jadwal, bila lama studi 4 tahun atau pertama (C1) seperti pada tabel 5.
kurang dari 4 tahun :
2. Tidak sesuai jadwal, bila lama studi lebih dari Tabel 5. Kandidat Pertama (C1)
4 tahun Item set Count
Dari dua pengkategorian tersebut dapat dibuat A1 2
kategori berdasarkan kombinasi keduanya, seperti A2 4
yang dapat dilihat pada tabel 3. A3 3
B2 2
Tabel 3. Transformasi data PSSB 5
Kategori Keterangan SPMB 6
A1 lama studi 4 tahun atau kurang
dari 4 tahun dan IPK 3,51 – Disini ditetapkan threshold = 3, maka kandidat
4,00 yang nilainya dibawah 3 akan dihapus. Sehingga,
A2 lama studi 4 tahun atau kurang didapat hasil seperti pada tabel 6 :
dari 4 tahun dan IPK 2,76 – Tabel 6. hasil setelah threshold ditetapkan (L1)
3,50 Itemset Count
A3 lama studi 4 tahun atau kurang A2 4
dari 4 tahun dan IPK 2,00 – A3 3
2,75
PSSB 5
B1 lama studi lebih dari 4 tahun
SPMB 6
dan IPK 3,51 – 4,00
B2 lama studi lebih dari 4 tahun
Dari table 6 didapat kandidat kedua (C2)
dan IPK 2,76 – 3,50
seperti pada tabel 7.
B3 lama studi lebih dari 4 tahun
dan IPK 2,00 – 2,75 Tabel 7. Kandidat kedua (C2)
Itemset Count
Dari kombinasi yang terdapat di tabel 3 A2, PSSB 3
terdapat enam tingkatan untuk mengukur tingkat A2, SPMB 1
kelulusan mahasiswa. A3, PSSB 0
A3, SPMB 3
8. Penggunaan Algoritma Apriori
Setelah ditetapkan threshold menghasilkan
Proses mining untuk mengetahui hubungan data seperti pada tabel 8.
tingkat kelulusan dengan proses masuk. Misal data
seperti pada tabel 4. Tabel 8. Hasil kedua (L2)
Itemse Count
A2, PSSB 3
A3, SPMB 3
160
Dari data-data diatas dapat diambil hasil
sebagai berikut : Gambar 3.7 merupakan DCD / DFD level-0
Support A2, PSSB = A2,PSSB/Total data pada aplikasi data mining yang terdiri dari 2 input
= 3/11 dan 1 output. Externalentity berupa pengguna atau
Support A3, SPMB = A3, SPMB user dan dua database yaitu database Kelulusan
/Total data dan database Induk Mahasiswa.
= 3/11
Confidence A2, PSSB = A2,PSSB/A2
database kelulusan
= 3/4 user
database induk
satu database, Integrasi data dilakukan
mahasiswa pada atribut-aribut yang
mengidentifikasikan entitas-entitas
Gambar 3 DFD Level-0 dengan satu atribut unik yaitu NIM
161
c) Selection data adalah proses menyeleksi Tabel 9. Struktur tabel data gabungan
atribut apa yang akan diproses pada
mining selanjutnya.
d) Transformasi data merupakan proses Panjan
mengubah data atau digabung ke dalam Nama Field Type Ket
g Field
format yang sesuai untuk diproses NIM nvarcha 10 Not
dalam data mining. Data yang dirubah r Null
yaitu lama studi dan IPK untuk jenisKelamin nvarcha 10
mengukur tingkat kelulusan. Atribut r
lama studi dan IPK dibagi menjadi namaMahasisw nvarcha 50
beberapa interval. a r
3. Proses mining proses masuk merupakan tempatLahir nvarcha 25
proses mining untuk mengetahui hubungan r
tingkat kelulusan dengan proses masuk tanggalLahir date
mahasiswa.
4. Proses mining asal sekolah merupakan proses agama nvarcha 15
mining untuk mengetahui hubungan tingkat r
kelulusan dengan asal sekolah yang melalui prosesMasuk nvarcha 15
jalur PSSB r
5. Proses mining asal kota merupakan proses alamatMahasis nvarcha 100
mining untuk mengetahui hubungan tingkat wa r
kelulusan dengan asal kota mahasiswa, disini
namaWali nvarcha 50
digunakan data kota asal sekolah dengan
r
asumsi kota asal sekolah merupakan kota asal
pendidikanWal nvarcha 15
mahasiswa
i r
6. Proses mining program studi merupakan
proses mining untuk mengetahui hubungan namaSekolah nvarcha 50
tingkat kelulusan dengan program studi. r
KotaSekolah nvarcha 30
11. Implementasi Data r
tahunLulus year
Implementasi rancangan data merupakan
transformasi rancangan data yang dihasilkan dari statusSekolah nvarcha 15
proses perancangan data menjadi r
suatudatabase.Databasedisini merupakan suatu jurusanSekolah nvarcha 15
data warehouse dengan nama “dataMining”yang r
dibangun untuk menyimpan data kelulusan programStudi nvarcha 20
mahasiswa dan data induk mahasiswa yang r
disatukan dengan key NIM dan disimpan dalam tanggalLulus Date
tabel data gabungan.
Penjelasan tabel data gabungan beserta IPK Float
field–field di dalamnya dapat dilihat pada tabel 9. lamaStudiThn Integer
lamaStudiBln Integer
judulSkripsi Text
periodeWisuda integer
13. Kesimpulan
Daftar Pustaka
163