Tsa-2013-0031 Bab 2
Tsa-2013-0031 Bab 2
LANDASAN TEORI
membantu organisasi
mengelola dan
menyaring
informasi dalam
(2008), data mining dikenal sebagai teknologi yang sangat tepat dalam
menemukan pengetahuan (insight) bagi entitas lembaga pendidikan seperti
pengetahuan seputar mahasiswa, dosen, karyawan, alumni dan perilaku
managerial.
Pada Gambar 2.1 berikut adalah gambaran dari posisi data mining dalam
konteksi Business Intelligence. Data mining merupakan tahapan data analysis
yang bertujuan pada penemuan pengetahuan (knowledge discovery).
10
induction). Algoritma data mining tradisional juga membagi empat kategori besar,
yakni classification, clustering, association, dan sequence discovery.
Pada Tabel 2.1 di bawah ini mengklasifikasikan model data mining
berdasarkan fungsi dan algoritma yang digunakan.
Clustering
Algorithm
Statistics, set theory
Decision trees, neural
networks, control, risk
assessment, rules
Neural network, statistics,
optimization,
discriminate analysis
Statistics, set theory
Sequence discovery
Modeling
Drill-down and
aggregate view of
data
Application
Examples
Market basket
analysis
Target marketing
quality
Market segmentation
Sumber: Adapted from J.P. Bigus, Data mining with Neural Networks,
McGraw-Hill, New York, 1996 (Turban et al, 2007, p.309).
11
2.4.1 Classification
Classification melakukan analisa pada data historikal yang tersimpan
dalam database dan mengenerate otomatis model yang dapat memprediksi
perilaku masa depan. Dengan melakuan redefined class, model dapat
memprediksi sebuah kelas atau membuat kelas pada rekord-rekord data yang
terklasifikasi. Classification menemukan pola data yang digunakan untuk
mengklasifikasi dalam kategori tertentu (Kifer et al, 2006, p.730), contohnya pada
aplikasi email yang dapat mengklasifikasi email yang bukan spam dan email spam
(http://en.wikipedia.org/wiki/Data_mining#Data_mining). Contoh lain, klasifikasi
antara pelanggan yang membeli produk terbanyak dengan pelanggan yang
membeli produk dalam jumlah sedikit. Informasi ini misalnya bisa digunakan
dalam melakukan iklan, tentu iklan akan difokuskan kepada pelanggan yang
memiliki jumlah pembelian paling banyak, karena besar peluang pelanggan
tersebut untuk membeli kembali. Algoritma yang biasa digunakan dalam
classification adalah neural network, decision trees, nave bayes dan if-then-else
rules (Turban et al, 2007, p.307).
12
hasilnya disebut class label. Contoh, ketika mencari pola mahasiswa yang lulus
tidak tepat waktu, klasifikasi yang digunakan seperti lama studi, jumlah SKS dan
GPA, inilah yang disebut atribut. Setiap tree terdiri dari branch dan nodes.
Branch merepresentasikan sebuah hasil dari sebuah test klasifikasi sebuah pola,
berdasarkan pada sebuah test, a branch represents the outcomes of a test to
classify a pattern on the basis of a test, using an attribute (Turban et al, 2007,
p.315). Leaf node adalah representasi akhir dari sebuah pilihan klasifikasi pada
sebuah pola. Sedangkan intermediate node mereprentasikan test atas suatu atribut.
Decision trees merupakan teknik yang umum digunakan dalam melakukan
prediksi. Berikut adalah contoh dari penerapan decision trees.
13
Dari contoh pada Gambar 2.2 di atas dapat diterjemahkan sebagai berikut:
If students admittance grade was above 8, then they would pass all their
exams
If students admittance grade was in the (7,8] interval, were neutral that
their expectations regarding the present specialization were fulfilled,
believed the financial support from their parents was normal, then they
would fail one or more exams
If students admittance grade was in the (7,8] interval, did not agree that
their expectations regarding the present specialization were fulfilled, then
they would fail one or more exams
14
sinyal yang sama dari keluaran elemen pemroses tersebut). Keluaran dari elemen
pemroses tersebut dapat merupakan sebarang jenis persamaan matematis yang
diinginkan. Seluruh proses yang berlangsung pada setiap elemen pemroses harus
benar-benar dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai
masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang tersimpan
dalam memori lokal. Sebuah ANN adalah sebuah prosesor yang terdistribusi
paralel dan mempuyai kecenderungan untuk menyimpan pengetahuan yang
didapatkannya dari pengalaman dan membuatnya tetap tersedia untuk digunakan.
Jenis ANN yang paling dikenal adalah ANN multilayer feedforward. Selsel saraf diurutkan berdasarkan pada layer-layer, diawali oleh layer input dan
diakhiri dengan layer output sedangkan di antaranya terdapat layer hidden.
Hubungan dalam ANN jenis ini terjadi hanya satu arah, dari layer input ke layer
hidden pertama lalu ke layer hidden kedua dan seterusnya. Jenis ANN ini bukan
merupakan satu-satunya, namun jenis ANN ini adalah yang paling mudah untuk
dipelajari. Struktur Neural Network dapat dibagi dalam tiga layar seperti pada
Gambar 2.3 berikut.
15
Nave Bayes
atribut yang
16
dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X)
merupakan prior probability X, contoh untuk probabilitas sebuah atribut
protocol_type.
P(H|X)
adalah
posterior
probability
yang
merefleksikan
Debt
Income
Married?
Risk
Joe
Sue
John
Mary
Fred
High
Low
Low
High
Low
High
High
High
Low
Low
Yes
Yes
No
Yes
Yes
Good
Good
Poor
Poor
Poor
Value
High
Low
High
Low
Yes
No
Good
Risk
1
1
2
0
2
0
2
Counts
Probabilities Probabilities
Poor Risk
Good Risk
Poor Risk
1
2
1
2
2
1
3
0.50
0.50
1.00
0.00
1.00
0.00
0.33
0.67
0.33
0.67
0.67
0.33
17
Cara membaca: Peluang Good Risk Customer jika diketahui Debt-nya High
adalah 0.5=50%
Name
Debt
Income Married?
Risk
Actual
Joe
Sue
John
Mary
Fred
High
Low
Low
High
Low
High
High
High
Low
Low
Good
Good
Poor
Poor
Poor
Yes
Yes
No
Yes
Yes
Good
Risk
Score
0.200
0.077
0
0
0
Poor
Risk
Score
0.044
0.034
0.086
0.096
0.137
Risk
Predicted
Good
Good
Poor
Poor
Poor
Jika Good Risk Score > Poor Risk Score maka Risk Predicted = Good, dan
sebaliknya jika Good Risk Score < Poor Risk Score maka Risk Predicted =
Bad
18
19
Patterns
Clustering
Association
20
21
1. Business Understanding
Tahapan ini fokus pada tujuan bisnis (business goal) yang ingin dicapai
dan mendefinisikan poin-poin penting yang menjadi kebutuhan bisnis dan
kemudian menerjemahkannya dalam data mining goal.
2. Data Understanding
Mendefinisikan data yang dibutuhkan, keterangan dari setiap data, data
tersebut dapat diambil dari sumber data mana. Kemudian menentukan jenis data
yang dijadikan variabel yang merupakan data yang paling berpengaruh pada
model data mining yang dikembangkan.
3. Data Preparation
Membuat data set yang dapat digunakan dalam modeling. Adapun tugas
dalam tahapan ini yaitu: select data, clean data, construct data, integrated data
dan format data.
4. Modeling
Melakukan proses data mining dengan men-generate struktur data mining
dan kemudian memilih teknik data mining dalam membuat model dan menguji
keakuratan setiap model untuk memperoleh model data mining yang memiliki
akurasi paling tepat.
22
5. Evaluation
Menganalisa hasil dari analisis yang diperoleh dari modelling,
mengevaluasi dan meninjau semua proses untuk memastikan apakah sesuai
dengan tujuan bisnis.
6. Deployment
Tapahan
dimana
dilakukan
implementasi,
rencana
pengawasan,
Extraction. Fase dimana data diektrak dari sumber data yang tersedia baik dari
internal dan external.
Loading. Fase akhir, dimana setelah data diekstrak dan dipindahkan, data
kemudian dimasukkan ke dalam tabel data warehouse, kemudian data ini
yang digunakan oleh analytics application dan decision support application.
23
24
25
sumber data berasal dari beberapa sumber data, misalnya dari data mart atau
database operasional, maka Ms SQL Server sudah menyedikan tools BI yang
disebut Integration Services yang berfungsi dalam melakukan proses ETL
(http://msdn.microsoft.com/en-us/library/ms175609%28v=sql.90%29.aspx).
2.7.4 Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007
Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 adalah
data mining engine yang disediakan oleh Microsoft, dimana engine ini bisa
dijalankan dalam aplikasi Ms Office 2007. Data mining tools tidak hanya terdapat
pada Ms SQL Server 2005 yang disebut SSAS, dimana di dalamnya tersedia
berbagai fitur data mining. Fitur ini sudah embedded (add-ins) dalam aplikasi
Office. Data mining Add-Ins ini sudah disediakan mulai pada Ms Office versi
2007 ke atas. Data mining Add-Ins khususnya digunakan dalam aplikasi Excel dan
Visio. Lewat Excel, user sangat dimudahkan untuk melakukan proses analisis
dengan menggunakan teknik data mining, tanpa harus memiliki pengetahuan
lebih dalam di dalam penggunaan Analysis Services. Jadi proses data mining bisa
dilakukan oleh siapapun yang sudah terbiasa menggunakan program Ms Office.
Dengan Add-Ins ini sangat memudahkan untuk deploy model di komputer klien
26
27
HTTP Server atau server web/www apache merupakan web server yang dapat
dijalankan di berbagai sistem operasi seperti Linux, Windows, dan OS lainnya
yang berguna untuk melayani dan memfungsikan situs web. Apache HTTP Server
merupakan perangkat lunak open source yang dapat digunakan oleh siapapun,
dapat diunduh dari http://www.apache.org.
2.8.2 PHP
PHP: Hypertext Preprocessor adalah bahasa skrip server yang dapat
disisipkan ke dalam halaman HTML. PHP merupakan server client script yang
banyak digunakan dalam pemrograman situs web dinamis, merupakan perangkat
lunak open source yang dapat diunduh dari php.net/downloads.php. Beberapa
kelebihan
PHP
dari
bahasa
pemrograman
web
lainnya
Web Server yang mendukung PHP dapat ditemukan dimana-mana dari apache,
IIS, Lighttpd, hingga Xitami dengan konfigurasi yang relatif mudah;
PHP adalah bahasa open source yang dapat digunakan di berbagai mesin
(Linux, Unix, Macintosh, Windows) dan dapat dijalankan secara runtime
melalui console serta juga dapat menjalankan perintah-perintah sistem.
28
target
minimal
90%
mahasiswa
(http://binus.ac.id/delivered-ontime-graduation).
lulus
Improve
tepat
waktu
students
timely
graduation & high student performance adalah misi Universitas Bina Nusantara
khususnya di program BINUS INTERNATIONAL.
Manajemen di BINUS
Goals
To ensure that consistent standards of excellence are applied to and across all
high-achieving students
29
Objectives
2.9.1 GPA
BINUS INTERNATIONAL mengukur prestasi mahasiswa dengan GPA
atau grade point average dengan indeks 0,00 sampai 4,00. GPA diperoleh dari
rata-rata poin matakuliah yang diambil. GPA diukur pada setiap semester dan
kumulatif.
Semestral GPA (GPS) merupakan GPA yang dihitung pada setiap semester
berdasarkan pada nilai akhir dari matakuliah pada semester tersebut.
30
2.9.2 Grade
Untuk nilai akhir setiap matakuliah menggunakan grade seperti Tabel 2.6
berikut. Score merupakan nilai angka yang diberikan oleh dosen untuk satu
matakuliah tertentu. Score ini merupakan kumulatif dari nilai pada setiap bobot
pada matakuliah, setiap matakuliah mempunyai bobot nilai seperti nilai tugas,
nilai ujian tengah semester, nilai akhir semester, dan seterusnya. Nilai dari setiap
bobot dalam matakuliah mempunyai persentase bobot masing-masing sehingga
menghasilkan score akhir. Dari score inilah bisa diperoleh grade berdasarkan
pada score range yang telah ditentukan pada Tabel 2.6. Setiap grade mempunyai
weigth (bobot) yang digunakan dalam perhitungan GPA mahasiswa.
31
Weight
4,00
3,67
3,33
3,00
2,67
2,33
2,00
1,00
0,00
0,00
Score
91 - 100
86 - 90
81 - 85
76 - 80
71 - 75
66 - 70
61 - 65
50 - 60
< 50
0
32
33
3. Data Mining Model for Higher Education System (Ayesha et al, 2010)
Dalam studi ini melakukan analisis terhadap perilaku belajar mahasiswa
(student's learning behaviour). Menganalisa bagaimana perbedaan dampak antar
faktor student's learning behaviour dan performance during academic dengan
menggunakan k-mean dan decision tree. Menggunakan teknik data mining Kmeans clustering. Clustering analysis membuat segmen mahasiswa ke dalam
beberapa kelompok berdasarkan karakteristik. Kinerja mahasiswa ditentukan oleh
internal assessment dan external assessment. Internal assessment berdasarkan
pada nilai tugas, kuis, tugas lab, grade kehadiran pada semester sebelumnya, dan
keaktifan pada ekstra kurikulum. Sedangkan external assessment didapatkan dari
nilai ujian akhir. Studi ini bertujuan membantu para dosen untuk mengurangi
jumlah mahasiswa yang drop out secara signifikan dan meningkatkan prestasi
akademik mahasiswa itu sendiri.
34
atau
mempengaruhi
kelulusan
mahasiswa
pada
matakuliahnya,
berdasarkan pada data-data yang diperoleh dari log data pada education webbased system. Hasil dari penelitian ini adalah memberikan informasi yang
mengklasifikasi mahasiswa dalam dua kelompok:
-
35
36
37
11. Educational Data Mining for Improving Educational Quality (Gulati &
Sharma, 2012)
Tujuan dari studi ini adalah meningkatkan kualitas pendidikan berdasarkan
pada aktivitas atau operasional akademik mulai dari jadwal kelas, siswa dan guru.
Bagaimana mengoptimalkan operasional akademik sehingga dapat menjadi faktor
pendukung dalam meningkatkan prestasi mahasiswa. Menggunakan Knowledge
Discovery Database dalam pengembangan data mining. Penerapan data mining
dapat membantu institusi pendidikan dalam mengarahkan mahasiswa, dosen dan
manajemen untuk memperbaiki prestasi institusi. Selain itu dapat membantu para
dosen untuk me-manage kelas dengan baik dan membantu manajemen dalam
membuat aturan akademik dengan baik.
38
Judul
Teknik/Agoritma
1.
2007
2.
2008
Decision Trees,
Bayesian &
Forecasting
Decision Tree,
Random Forest,
Neural Network,
& Support Vector
Machines.
3.
4.
2010
2010
Variabel:
sex, age, school, address, Pstatus, Medu,
Mjob, Fedu, Fjob, guardian, famsize, famrel,
reason, traveltime, studytime, failures,
schoolsup, famsup, activities, paidclass,
internet, nursery, higher, romantic, freetime,
goout, Walc, Dalc, health, absences, G1 (first
period grade), G2(second period grade), G3
(final grade)
Data Mining Model for Higher Education
System (Ayesha et al).
Variabel:
prev-sem-grade, class-quiz, assignment,
practical-wok, mid-term, attendance, finalgrade
Use Data Mining To Improve Student
Retention In Higher Education A Case
Study (Kim et al).
Variabel:
Average mark, online learning systems
information, library information, nationality,
university entry certificate, course award,
current study level, study mode, postgraduate
k-Mean &
Decision Tree
Nave Bayes,
Support Vector
Machine,
Decision Tree
39
No Tahun
5.
2010
6.
2011
7.
2011
8.
2011
9.
2012
10.
2012
Judul
Teknik/Agoritma
40
No Tahun
11.
2012
Judul
Teknik/Agoritma
El-Halees).
Clustering &
Outlier Detection
Rules
Variabel:
Student ID, student name, gender, date of
birth, place of birth, speciality, enrollment
year, graduation year, city, location, address,
telephone number, matriculation GPA,
secondary school type, matriculation
obtained place, matriculation year, college
GPA & GPA
Educational Data Mining for Improving
Educational Quality (Gulati & Sharma).
Variabel:
Menggunakan informasi dari courses
assignments, marks, student background
Classification