Anda di halaman 1dari 23

BAB 2

LANDASAN TEORI

2.1 Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
kumpulan data yang berisi secara logika, dan keterangan dari masing-masing
data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah
organisasi. Database system adalah kumpulan program aplikasi yang
berinteraksi dengan basis data bersama dengan Database Management System
(DBMS) dan basis data itu sendiri, sedangkan Database Management System
(DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan
pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses
database.
Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data
berbasis komputer pada suatu perusahaan.
Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah
sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur
dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh
perusahaan.

2.2 Data Mining


2.2.1 Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses
ekstraksi atau penggalian data yang belum diketahui sebelumnya,
namun dapat dipahami dan berguna dari database yang besar serta
digunakan untuk membuat suatu keputusan bisnis yang sangat penting.
Data mining (Segall et.all, 2008) biasa juga disebut dengan
Data atau knowledge discovery atau menemukan pola tersembunyi
pada data. Data mining adalah proses dari menganalisa data dari
prespektif yang berbeda dan menyimpulkannya ke dalam informasi
yang berguna.
Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai
proses mengekstrak atau menambang pengetahuan yang dibutuhkan
dari sejumlah data besar.
Pada prosesnya data mining akan mengekstrak informasi yang
berharga dengan cara menganalisis adanya pola-pola ataupun
hubungan keterkaitan tertentu dari data-data yang berukuran besar.
Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti
Database System, Data Warehousing, Statistic, Machine Learning,
Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data
mining didukung oleh ilmu lain seperti Neural Network, Pengenalan
Pola, Spatial Data Analysis, Image Database, Signal Processing.

10

Beberapa survey tentang proses pemodelan dan metodologi


menyatakan bahwa, Data mining digunakan sebagai penunjuk,
dimana data mining menyajikan intisari atas sejarah, deskripsi dan
sebagai standar petunjuk mengenai masa depan dari sebuah proses
model data mining(Mariscal, Marban dan Fernandes, 2010)
Karakteristik data mining sebagai berikut:
a.

Data mining berhubungan dengan penemuan sesuatu yang


tersembunyi dan pola data tertentu yang tidak diketahui
sebelumnya.

b.

Data mining biasa menggunakan data yang sangat besar.


Biasanya data yang besar digunakan untuk membuat hasil lebih
dapat dipercaya.

c.

Data mining berguna untuk membuat keputusan kritis.


Berdasarkan beberapa pengertian tersebut dapat ditarik

kesimpulan bahwa Data Mining adalah suatu teknik menggali


informasi berharga yang terpendam atau tersembunyi pada suatu
koleksi data (database) yang sangat besar sehingga ditemukan suatu
pola yang menarik yang sebelumnya tidak diketahui.
2.2.2 Fungsi Data Mining
Teknik teknik data mining telah digunakan untuk menemukan pola
yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif
dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya
pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All,
2012)

11

Data mining dibagi menjadi dua kategori utama (Han dan Kamber,
2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari
atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi
dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola
(korelasi, trend, cluster, teritori, dan anomali) yang meringkas
hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan,
dimana data mining telah digunakan untuk untuk meningkatkan
diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien.
(Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu
Concept/Class Description: Characterization and Discrimination,
Mining

Frequent

Patterns,

Associations,

and

Correlations,

Classification and Prediction, Cluster Analysis, Outlier analysis, dan


Evolution analysis. (Han dan Kamber, 2006 : 21 27)
Berikut adalah penjelasan dari masing-masing fungsi diatas:

12

1. Concept/Class

Description: Characterization and

Discrimination
Data characterization adalah ringkasan dari
semua karakteristik atau fitur dari data yang

telah

diperoleh dari target kelas. Data yang sesuai dengan


kelas yang telah ditentukan oleh pengguna biasanya
dikumpulkan di dalam database. Misalnya, untuk
mempelajari karakteristik produk perangkat lunak
dimana pada tahun lalu seluruh penjualan telah
meningkat sebesar 10%, data yang terkait dengan
produk-produk tersebut dapat dikumpulkan dengan
menjalankan sebuah query SQL. Sedangkan, data
discrimination adalah perbandingan antara fitur umum
objek data target kelas dengan fitur umum objek dari
satu atau satu set kelas lainnya. target diambil melalui
query database. Misalnya, pengguna mungkin ingin
membandingkan fitur umum dari produk perangkat
lunak yang pada tahun lalu penjualannya meningkat
sebesar 10% tetapi selama periode yang sama seluruh
penjualan juga menurun setidaknya 30%.
2. Mining

Frequent

Patterns,

Associations,

and

Correlations
Frequent Patterns adalah pola yang sering
terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item

13

set, sub-sequence, dan sub-struktur. Sebuah frequent


patterns biasanya mengacu pada satu set item yang
sering muncul bersama-sama dalam suatu kumpulan
data transaksional, misalnya seperti susu dan roti.
Associations Analysis adalah pencarian aturanaturan asosiasi yang menunjukan kondisi-kondisi nilai
atribut yang sering terjadi bersama-sama dalam
sekumpulan data. Analisis asosiasi sering digunakan
untuk menganalisa Market Basket Analysis dan data
transaksi.
3. Classification and Prediction
Klasifikasi adalah proses untuk menemukan
model

atau

fungsi

yang

menggambarkan

dan

membedakan kelas data atau konsep dengan tujuan


memprediksikan kelas untuk data yang tidak diketahui
kelasnya. Model yang diturunkan didasarkan pada
analisis dari training data (yaitu objek data yang
memiliki label kelas yang diketahui). Model yang
diturunkan dapat direpresentasikan dalam berbagai
bentuk seperti If-then klasifikasi, decision tree, dan
sebagainya.
Teknik

classification

bekerja

dengan

mengelompokkan data berdasarkan data training dan


nilai atribut klasifikasi. Aturan pengelompokan tersebut
akan digunakan untuk klasifikasi data baru ke dalam

14

kelompok

yang

ada.

Classification

dapat

direpresentasikan dalam bentuk pohon keputusan


(decision tree). Setiap node dalam pohon keputusan
menyatakan

suatu

tes

terhadap

atribut

dataset,

sedangkan setiap cabang menyatakan hasil dari tes


tersebut. Pohon keputusan yang terbentuk dapat
diterjemahkan menjadi sekumpulan aturan dalam
bentuk IF condition THEN outcome. (Mewati Ayub,
2007 : 7).
Dalam

banyak

kasus,

pengguna

ingin

memprediksikan nilai-nilai data yang tidak tersedia


atau hilang (bukan label dari kelas). Dalam kasus ini
nilai data yang akan diprediksi merupakan data
numeric. Disamping itu, prediksi lebih menekankan
pada identifikasi trend dari distribusi berdasarkan data
yang tersedia.
4. Cluster Analysis
Cluster adalah kumpulan objek data yang mirip
satu sama lain dalam kelompok yang sama dan berbeda
dengan objek data di kelompok lain. Sedangkan,
Clustering

atau

Analisis

Custer

adalah

proses

pengelompokkan satu set benda-benda fisik atau


abstrak kedalam kelas objek yang sama. Tujuannya
adalah untuk menghasilkan pengelompokan objek yang
mirip satu sama lain dalam kelompok-kelompok.

15

Semakin besar kemiripan objek dalam suatu cluster


dan semakin besar perbedaan tiap cluster maka kualitas
analisis cluster semakin baik.
Dari tugas tugas data mining yang telah di jelaskan ,
perbandingan antara Classification dan Clustering menurut Han dan
Kamber (2006) lebih spesifik digambarkan sebagai berikut :
Tabel 2.1 Perbandingan Classification dan Clustering
Classification
1. Menganalisis label

Clustering
kelas dari 1. menganalisis data objek tanpa

data objek.

ada label kelas.

2. Label kelas ada atau terlihat 2.label kelas tidak ada atau tidak
jelas pada training data.

terlihat pada training data.

3. Bertujuan

untuk 3.bertujuan

untuk

mengelompokan pada kelas

mengelompokan

dan

kelas yang telah ditentukan.

menentukan label kelas dari tiap


cluster yang telah terbentuk

4. Proses klasifikasi berdasarkan 4. Proses Clustering berdasarkan


pada menemukan sebuah model

pada prinsip: objek yang ada di

atau

yang

dalam satu cluster memiliki

dan

kemiripan yang tinggi dari pada

fungsi

menggambarkan

membedakan data kelas atau

yang

konsep, dengan tujuan untuk

berbeda dengan objek yang ada

dapat

pada cluster lainnya.

menggunakan

model

untuk memprediksi objek kelas


yang

kelas

diketahui.

label
Model

nya

blm

tersebut

berdasarkan pada analisis dari


training data (data objek yang
kelas label nya telah diketahui.)
5. Outlier analysis

lainnya,

tetapi

sangat

16

Outlier merupakan objek data yang tidak


mengikuti perilaku umum dari data. Outlier dianggap
sebagai noise atau pengecualian. Analisis data outlier
dapat dianggap sebagai noise atau pengecualian.
Analisis data outlier dinamakan Outlier Mining.
Teknik ini berguna dalam fraud detection dan rare
events analysis.
6. Evolution analysis
Analisis

evolusi

data

menjelaskan

dan

memodelkan trend dari objek yang memiliki perilaku


yang berubah setiap waktu. Teknik ini dapat meliputi
karakterisasi, diskriminasi, asosiasi, klasifikasi, atau
clustering dari data yang berkaitan dengan waktu.
2.2.3 Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007)
adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti
mengapa penjualan truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali
pendapatan keluarga lebih suka dipakai untuk membeli
peralatan keluarga dibandingkan dengan satu kali pendapatan
keluarga.

17

3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru.
Misalnya, pola apa yang cocok untuk kasus penggelapan kartu
kredit.

2.2.4 Arsitektur Data Mining


Data mining merupakan proses pencarian pengetahuan yang
menarik dari data berukuran besar yang disimpan dalam basis data,
data warehouse atau tempat penyimpanan informasi lainnya. Dengan
demikian arsitektur sistem data mining memiliki komponen-komponen
utama (Han dan Kamber, 2006) yaitu:
a. Database, data warehouse, World Wide Web, atau tempat
penyimpanan informasi lainnya: bisa berbentuk satu atau
banyak database, data warehouse, spreadsheet, ataupun
tempat penyimpanan informasi lainnya. Data Cleaning, Data
Integration dan Data Selection dapat dijalankan pada data
tersebut.
b. Database dan data warehouse server. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan,
berdasarkan permintaan pengguna.
c. Knowledge Based. Komponen ini

merupakan

domain

knowledge yang digunakan untuk memandu pencarian atau


mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut
meliput

hirarki

konsep

yang

digunakan

untuk

mengorganisasikan atribut atau nilai atribut kedalam level


abstraksi yang berbeda. Pengetahuan tersebut juga dapat

18

berupa kepercayaan pengguna (user belief), yang dapat


digunakan

untuk

menentukan

kemenarikan

pola

yang

diperoleh.
d. Data mining engine. Bagian ini merupakan komponen penting
dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul

fungsional

seperti

karakterisasi,

asosiasi,

klasifikasi, dan analisis cluster.


e. Ghrapical user interface (GUI). Modul ini berkomunikasi
dengan pengguna dan data mining. Melalui komponen ini,
pengguna berinteraksi dengan sistem menggunakan query.

Gambar 2.1Arsitektur sistem data mining

19

2.2.5 Klasifikasi Sistem Data Mining


Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu
pendekatan dalam pemecahan masalah dengan menggunakan tinjauan
berbagai sudut pandang ilmu secara terpadu yaitu, database system,
statistics, machine learning, visualization, dan information system.
(Gambar 2.2)

Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin


2.2.6 Knowledge Discovery In Databases
Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah
Data Mining dan Knowledge Discovery in Databases (KDD) secara
bergantian untuk menjelaskan proses penggalian informasi tersembunyi
dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain
dan salah satu tahap dalam proses KDD adalah data mining.
Data mining adalah salah satu langkah dalam proses KDD
secara keseluruhan. Secara umum, data mining digunakan oleh banyak
peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining

20

dan knowledge discovery telah diusulkan sebagai nama yang paling


memadai untuk keseluruhan proses KDD. Knowledge Discovery in
Databases berkaitan dengan proses penemuan pengetahuan yang
diterapkan pada database. Hal ini juga didefinisikan sebagai proses
non-trivial untuk identifikasi data yang valid, baru, berpotensi
bermanfaat, dan akhirnya memiliki pola yang dapat dimengerti.
(Kurgan dan Musilek, 2006)
Knowledge discovery sering terhalang karena tantangan dalam
integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah
dimensi di dalam data meningkat, pendekatan baru untuk penemuan
pola sangat diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan pengertian beberapa pengertian tersebut dapat
ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD)
adalah proses yang bertujuan untuk menggali dan menganalisis
sejumlah besar himpunan data dan mengekstrak informasi serta
pengetahuan yang berguna.
Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3
yang terdiri dari tahapan-tahapan sebagai berikut:
1) Data cleaning
Data cleaning merupakan proses membuang duplikasi
data, memeriksa data yang tidak konsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan penulisan. Pada
umumnya data yang diperoleh baik dari database suatu
perusahaan maupun hasil eksperimen, memiliki isi yang tidak

21

sempurna seperti data yang hilang, data yang tidak valid atau
juga hanya sekedar salah ketik. Selain itu, ada juga atributatribut data yang tidak relevan dengan hipotesa data mining
yang dimiliki. Data cleaning juga akan mempengaruhi hasil
informasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
2) Data integration
Proses menambah data yang sudah ada dengan data atau
informasi lain yang relevan atau bisa disebut juga merupakan
penggabungan data dari berbagai database kedalam satu
database baru yang dibutuhkan oleh KDD.
Tahapan

cleaning

dan

integration

pada

KDD

mengasumsikan bahwa integrator data harus menghapus noise


dari data awal secara paralel dengan mengintegrasikan
beberapa data set. (M. Brian Blake, 2009)

22

Gambar 2.3 Data mining sebagai tahapan dalam proses


KDD
3) Data selection
Pemilihan data yang relevan dan dapat dilakukan analisis
dari data operasional. Data hasil pemilihan disimpan dalam
database yang terpisah.
4) Data transformation
Proses tranformasi data kedalam bentuk format tertentu
sehingga data tersebut sesuai untuk proses data mining.
Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data
kategorikal.
5) Data mining

23

Proses mencari pola atau informasi menarik dengan


menggunakan teknik, metode atau algoritma tertentu.
6) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar menarik dari
hasil data mining. Dalam tahap ini hasil dari teknik data
mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai atau tidak.
7) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari proses
data mining, visualisasi ini membantu mengkomunikasikan
hasil data mining dalam bentuk yang mudah dimengerti.
2.2.7 Teori Khusus Classification and Prediction
Classification (Han dan Kamber, 2006 : 285) adalah sebuah
model dalam data mining dimana, classifier dikonstruksi untuk
memprediksi categorical label, seperti aman atau beresiko untuk
data aplikasi peminjaman uang; ya atau tidak untuk data
marketing; atau treatment A, treatment B atau treatment C
untuk data medis. Kategori tersebut dapat direpresentasikan dengan
nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai
tersbut tidak memiliki arti tertentu.
Classification dan Association rule discovery merupakan tugas
yang sama dalam data mining, dengan pengecualian bahwa tujuan
utama dari klasifikasi adalah prediksi label kelas, sedangkan asosiasi

24

aturan penemuan menggambarkan korelasi antara item dalam


database transaksional. (Fadi Thabtah, 2007)
Proses data klasifikasi memiliki dua tahapan, yang pertama
adalah

Learning:

dimana

training

data

dianalisa

dengan

menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah


Classification: dimana pada tahap ini test data digunakan untuk
mengestimasi ketepatan dari classification rules. Jika keakuratan yang
dikondisikan dan yang diperkirakan dapat diterima, rule tersebut
dapat diaplikasikan pada klasifikasi lainya dari tuple data yang baru.
Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa,
classification hanya bisa diterapkan pada data training yang sangat
kuat di mana diasumsikan bahwa kelas "positif" sudah mewakili
minoritas tanpa kehilangan atribut umum.
Klasifikasi dalam data mining memiliki 3 (tiga) metode yaitu,
Classification by decision tree induction, Bayes Classification, dan
Rule-based Classification.
1. Classification by Decision Tree Induction
Decision Tree Induction adalah pengetahuan dalam bentuk
pohon keputusan yang training tuple nya telah diberi label kelas.
Decision Tree bisa disebut juga alat non-parametrik analisis
diskriminan, yang dirancang untuk mewakili aturan keputusan
dalam bentuk yang disebut pohon biner (Vladimir Nikulin, 2008).
Sebuah Decision Tree seperti sebuah flowchart dengan berstruktur

25

pohon,

dimana

setiap

internal

node

(non-leaf

node)

mendenotasikan sebuah tes pada sebuah atribut, setiap cabang


merepresentasikan sebuah hasil dari tes, dan setiap leaf node (atau
terminal node) memegang sebuah label kelas.
Namsik dan Olivia (2008) lebih spesifik mengatakan bahwa,
Decision tree adalah struktur rekursif sederhana untuk mewakili
prosedur keputusan di mana sebuah instance ditugaskan untuk
salah satu dari serangkaian kelas hasil yang telah ditentukan
sebelumnya.
Attribute Selection Measures
Sebuah attribute selection measure adalah sebuah heuristis
untuk memilih dari pembelahan kriteria yang terbaik dipisahkan
dengan menggunakan data partition, D, dari training tuple yang
kelas-nya telah diberi label ke dalam kelas individual.
Information Gain
Information Gain digunakan sebagai atribut pemilih ukuran.
Atribut dengan information gain tertinggi dipilih sebagai atribut
pemisah untuk node N. Atribut ini meminimalisasi informasi yang
dibutuhkan untuk mengklasifikasi tuple dalam memberikan hasil
pembelahan dan menrefleksikan nilai acak yang paling sedikt
kesalahannya pada kelas partisi tersebut.
Dan rumus pecarian information gain adalah:
Gain(A) Info(D) Info A(D)

Dimana Info D adalah:

26
m

Info( D) pi log 2 ( pi )
i 1

Informasi

yang

diperkirakan

(entropy) yang dibutuhkan untuk mengklasifikasikan sebuah


tuple pada D.
Dan Info A adalah:
Informasi yang dibutukan (setelah menggunakan A untuk
membagi D kedalam partisi V) untuk mengklasifikasi D.
v |D |
InfoA ( D) j I ( D j )
j 1 | D |
Gain Ratio
v

SplitInfo A ( D)
j 1

| Dj |
|D|

log 2 (

| Dj |

)
| D | Pengukuran

Information Gain berat sebelah terhadap tes dengan berbagai


hasil. Sehinga hasilnya lebih memilih atribut yang memiliki
sebuah angka dengan nilai besar.

2. Bayesian Classification
Bayesian Classifier adalah pengklasifikasi statistik. Bayesian
Classfier dapat memperkirakan probabilitas keanggotaan kelas,
seperti kemungkinan bahwa sebuah tuple yang diberikan telah
dimiliki oleh sebuah kelas tertentu lainnya.
Nave Bayesian Classification
Nave Bayesian classifer, atau Simple Bayesian classifier, bekerja
seperti dibawah:
1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak
diketahui
2. Biarkan H menjadi hipotesis bahwa X milik kelas C

27

3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori


probabilitas), probabilitas bahwa hipotesis memegang data
sampel yang diberikan dan diamati X
4. P (H) (prior), probabilitas awal
a. Misalnya, X akan membeli komputer, tanpa memandang
usia dan pendapatan
5. P (X): probabilitas bahwa data sampel yang diamati
6. P (X | H) (kelemahan berupa), probabilitas mengamati sampel
X, memberikan data yang dipegang hipotesis
a. Misalnya, Mengingat bahwa X akan membeli komputer,
probabilitas bahwa X adalah 31 .. 40, pendapatan menengah

P( H | X) P(X | H )P( H )
P(X)
7.
Data pelatihan yang diberikan X,
posteriori probabilitas hipotesis H, P (H | X), mengikuti
teorema Bayes
8. Secara informal, hal ini dapat ditulis sebagai
posteriori = kemungkinan x sebelum / bukti
9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang
tertinggi di antara semua P (Ck | X) untuk semua kelas K
10. Kesulitan praktis: memerlukan pengetahuan awal dengan
probabilitas yang banyak, biaya komputasi yang signifikan.
3. Rule-Based Classfication
Menggunakan IF-THEN Rules untuk Klasifikasi
Sebuah rule-based classifier digunakan sebagai sekumpulan
dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN
dengan form,
IF kondisi THEN hasil.
Contoh dari Rule IF-THEN (R1).
R1: IF umur = muda AND pelajar = ya THEN beli_komputer
= ya.
a. Assessment dari sebuah rule: coverage and accuracy

28

ncovers = # tuple yang di-cover oleh R


ncorrect = # tuple yang secara tepat diklasifikasikan oleh

R
coverage(R) = ncovers /|D| /* D: kumpulan training data */
accuracy(R) = ncorrect / ncovers
operator logika (AND), (OR), (NOT).
b. Jika lebih dari satu aturan yang dipicu, maka diperlukan
sebuah resolusi konflik
c. Ukuran pemesanan: menetapkan prioritas tertinggi dengan
aturan memicu yang memiliki "terberat" persyaratan (yaitu,
d.

dengan tes atribut yang paling)


Kelas berbasis memesan: urutan penurunan biaya prevalensi
atau kesalahan klasifikasi per kelas
Peraturan-berbasis memesan (daftar keputusan): aturan
akan disusun dalam satu daftar prioritas jangka, menurut
beberapa ukuran kualitas peraturan atau oleh para ahli.

2.3 Classifier Accuracy Measurables


Classifier Accuracy Measures (Han dan Kamber, 2006 : 360) adalah
metode klasifikasi yang dilakukan berdasarkan tingkat akurasi model dalam
melakukan prediksi. Hal ini dilakukan karena keakuratan dalam mengolah data
merupakan salah satu hal yang penting.
Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi
ini adalah metode hold out. Dalam metode ini, data asli dipartisi menjadi dua
himpunan yang saling terpisah yang dinamakan training set dan test set. Model
klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian
dievaluasi dengan menggunakan testing set. Akurasi dari masing-masing metode
klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set.
Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam

29

model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set
lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set
dan 1/3 lagi dijadikan testing set.
Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan
menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu
sebagai berikut:
t pos
pos

Sensivity =

Specificity =

Precision =

Accuracy = sensivity

t pos + f pos

t pos

pos+

pos

+ specifity

pos+

t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di
prediksi oleh classifier dengan benar (misalkan jumlah data kelas yes dari
sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model
klasifikasi), pos adalah jumlah sampel data positives (yes), t_neg adalah
jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah
data kelas no dari sampel yang benar dapat diprediksi sebagaimana mestinya
oleh model klasifikasi), neg adalah jumlah total sampel negatives (no ), dan
f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh
classifier (no diprediksi sebagai yes).

30

Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal


positives samples (yes) berdasarkan jumlah true positives yang dapat
diprediksi secara benar jika yang diberikan adalah sampel positives.
Specificity adalah ukuran tingkatan derajat classifier dapat mengenal
negatives samples (no) berdasarkan true negatives yang dapat diprediksi
secara benar jika yang diberikan adalah sampel negatives.
Precision adalah besarnya presentase classifier dalam menebak dengan
tepat kelas true positives (yes) dengan melihat perbandingan true positive
yang dapat diprediksi dengan penjumlahan true positive dan false positive.
Accuracy adalah derajat ukuran yang merupakan fungsi dari Sensivity
dan Specificity model klasifikasi dalam melakukan prediksi.

Anda mungkin juga menyukai