LANDASAN TEORI
2.1 Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
kumpulan data yang berisi secara logika, dan keterangan dari masing-masing
data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah
organisasi. Database system adalah kumpulan program aplikasi yang
berinteraksi dengan basis data bersama dengan Database Management System
(DBMS) dan basis data itu sendiri, sedangkan Database Management System
(DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan
pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses
database.
Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data
berbasis komputer pada suatu perusahaan.
Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah
sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur
dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh
perusahaan.
10
b.
c.
11
Data mining dibagi menjadi dua kategori utama (Han dan Kamber,
2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari
atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi
dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola
(korelasi, trend, cluster, teritori, dan anomali) yang meringkas
hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan,
dimana data mining telah digunakan untuk untuk meningkatkan
diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien.
(Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu
Concept/Class Description: Characterization and Discrimination,
Mining
Frequent
Patterns,
Associations,
and
Correlations,
12
1. Concept/Class
Discrimination
Data characterization adalah ringkasan dari
semua karakteristik atau fitur dari data yang
telah
Frequent
Patterns,
Associations,
and
Correlations
Frequent Patterns adalah pola yang sering
terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item
13
atau
fungsi
yang
menggambarkan
dan
classification
bekerja
dengan
14
kelompok
yang
ada.
Classification
dapat
suatu
tes
terhadap
atribut
dataset,
banyak
kasus,
pengguna
ingin
atau
Analisis
Custer
adalah
proses
15
Clustering
kelas dari 1. menganalisis data objek tanpa
data objek.
2. Label kelas ada atau terlihat 2.label kelas tidak ada atau tidak
jelas pada training data.
3. Bertujuan
untuk 3.bertujuan
untuk
mengelompokan
dan
atau
yang
dan
fungsi
menggambarkan
yang
dapat
menggunakan
model
kelas
diketahui.
label
Model
nya
blm
tersebut
lainnya,
tetapi
sangat
16
evolusi
data
menjelaskan
dan
17
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru.
Misalnya, pola apa yang cocok untuk kasus penggelapan kartu
kredit.
merupakan
domain
hirarki
konsep
yang
digunakan
untuk
18
untuk
menentukan
kemenarikan
pola
yang
diperoleh.
d. Data mining engine. Bagian ini merupakan komponen penting
dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul
fungsional
seperti
karakterisasi,
asosiasi,
19
20
21
sempurna seperti data yang hilang, data yang tidak valid atau
juga hanya sekedar salah ketik. Selain itu, ada juga atributatribut data yang tidak relevan dengan hipotesa data mining
yang dimiliki. Data cleaning juga akan mempengaruhi hasil
informasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
2) Data integration
Proses menambah data yang sudah ada dengan data atau
informasi lain yang relevan atau bisa disebut juga merupakan
penggabungan data dari berbagai database kedalam satu
database baru yang dibutuhkan oleh KDD.
Tahapan
cleaning
dan
integration
pada
KDD
22
23
24
Learning:
dimana
training
data
dianalisa
dengan
25
pohon,
dimana
setiap
internal
node
(non-leaf
node)
26
m
Info( D) pi log 2 ( pi )
i 1
Informasi
yang
diperkirakan
SplitInfo A ( D)
j 1
| Dj |
|D|
log 2 (
| Dj |
)
| D | Pengukuran
2. Bayesian Classification
Bayesian Classifier adalah pengklasifikasi statistik. Bayesian
Classfier dapat memperkirakan probabilitas keanggotaan kelas,
seperti kemungkinan bahwa sebuah tuple yang diberikan telah
dimiliki oleh sebuah kelas tertentu lainnya.
Nave Bayesian Classification
Nave Bayesian classifer, atau Simple Bayesian classifier, bekerja
seperti dibawah:
1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak
diketahui
2. Biarkan H menjadi hipotesis bahwa X milik kelas C
27
P( H | X) P(X | H )P( H )
P(X)
7.
Data pelatihan yang diberikan X,
posteriori probabilitas hipotesis H, P (H | X), mengikuti
teorema Bayes
8. Secara informal, hal ini dapat ditulis sebagai
posteriori = kemungkinan x sebelum / bukti
9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang
tertinggi di antara semua P (Ck | X) untuk semua kelas K
10. Kesulitan praktis: memerlukan pengetahuan awal dengan
probabilitas yang banyak, biaya komputasi yang signifikan.
3. Rule-Based Classfication
Menggunakan IF-THEN Rules untuk Klasifikasi
Sebuah rule-based classifier digunakan sebagai sekumpulan
dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN
dengan form,
IF kondisi THEN hasil.
Contoh dari Rule IF-THEN (R1).
R1: IF umur = muda AND pelajar = ya THEN beli_komputer
= ya.
a. Assessment dari sebuah rule: coverage and accuracy
28
R
coverage(R) = ncovers /|D| /* D: kumpulan training data */
accuracy(R) = ncorrect / ncovers
operator logika (AND), (OR), (NOT).
b. Jika lebih dari satu aturan yang dipicu, maka diperlukan
sebuah resolusi konflik
c. Ukuran pemesanan: menetapkan prioritas tertinggi dengan
aturan memicu yang memiliki "terberat" persyaratan (yaitu,
d.
29
model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set
lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set
dan 1/3 lagi dijadikan testing set.
Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan
menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu
sebagai berikut:
t pos
pos
Sensivity =
Specificity =
Precision =
Accuracy = sensivity
t pos + f pos
t pos
pos+
pos
+ specifity
pos+
t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di
prediksi oleh classifier dengan benar (misalkan jumlah data kelas yes dari
sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model
klasifikasi), pos adalah jumlah sampel data positives (yes), t_neg adalah
jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah
data kelas no dari sampel yang benar dapat diprediksi sebagaimana mestinya
oleh model klasifikasi), neg adalah jumlah total sampel negatives (no ), dan
f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh
classifier (no diprediksi sebagai yes).
30