Data Mining

BAB 2
LANDASAN TEORI
2.1 Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
kumpulan data yang berisi secara logika, dan keterangan dari masing-masing
data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah
organisasi. Database system adalah kumpulan program aplikasi yang
berinteraksi dengan basis data bersama dengan Database Management System
(DBMS) dan basis data itu sendiri, sedangkan Database Management System
(DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan
pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses
database.
Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data
berbasis komputer pada suatu perusahaan.
Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah
sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur
dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh
perusahaan.
2.2 Data Mining

2.2.1 Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses
ekstraksi atau penggalian data yang belum diketahui sebelumnya,
namun dapat dipahami dan berguna dari database yang besar serta
digunakan untuk membuat suatu keputusan bisnis yang sangat penting.
Data mining (Segall et.all, 2008) biasa juga disebut dengan
Data atau knowledge discovery atau menemukan pola tersembunyi
pada data. Data mining adalah proses dari menganalisa data dari
prespektif yang berbeda dan menyimpulkannya ke dalam informasi
yang berguna.
Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai
proses mengekstrak atau menambang pengetahuan yang dibutuhkan
dari sejumlah data besar.
Pada prosesnya data mining akan mengekstrak informasi yang
berharga dengan cara menganalisis adanya pola-pola ataupun
hubungan keterkaitan tertentu dari data-data yang berukuran besar.
Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti
Database System, Data Warehousing, Statistic, Machine Learning,
Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data
mining didukung oleh ilmu lain seperti Neural Network, Pengenalan
Pola, Spatial Data Analysis, Image Database, Signal Processing.
10
Beberapa survey tentang proses pemodelan dan metodologi

menyatakan bahwa, Data mining digunakan sebagai penunjuk,
dimana data mining menyajikan intisari atas sejarah, deskripsi dan
sebagai standar petunjuk mengenai masa depan dari sebuah proses
model data mining(Mariscal, Marban dan Fernandes, 2010)
Karakteristik data mining sebagai berikut:
a.
Data mining berhubungan dengan penemuan sesuatu yang

tersembunyi dan pola data tertentu yang tidak diketahui
sebelumnya.
b.
Data mining biasa menggunakan data yang sangat besar.

Biasanya data yang besar digunakan untuk membuat hasil lebih
dapat dipercaya.
c.
Data mining berguna untuk membuat keputusan kritis.

Berdasarkan beberapa pengertian tersebut dapat ditarik
kesimpulan bahwa Data Mining adalah suatu teknik menggali

informasi berharga yang terpendam atau tersembunyi pada suatu
koleksi data (database) yang sangat besar sehingga ditemukan suatu
pola yang menarik yang sebelumnya tidak diketahui.
2.2.2 Fungsi Data Mining
Teknik teknik data mining telah digunakan untuk menemukan pola
yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif
dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya
pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All,
2012)
11
Data mining dibagi menjadi dua kategori utama (Han dan Kamber,
2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari
atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi
dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola
(korelasi, trend, cluster, teritori, dan anomali) yang meringkas
hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan,
dimana data mining telah digunakan untuk untuk meningkatkan
diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien.
(Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu
Concept/Class Description: Characterization and Discrimination,
Mining
Frequent
Patterns,
Associations,
and
Correlations,
Classification and Prediction, Cluster Analysis, Outlier analysis, dan

Evolution analysis. (Han dan Kamber, 2006 : 21 27)
Berikut adalah penjelasan dari masing-masing fungsi diatas:
12
1. Concept/Class
Description: Characterization and
Discrimination
Data characterization adalah ringkasan dari
semua karakteristik atau fitur dari data yang
telah
diperoleh dari target kelas. Data yang sesuai dengan

kelas yang telah ditentukan oleh pengguna biasanya
dikumpulkan di dalam database. Misalnya, untuk
mempelajari karakteristik produk perangkat lunak
dimana pada tahun lalu seluruh penjualan telah
meningkat sebesar 10%, data yang terkait dengan
produk-produk tersebut dapat dikumpulkan dengan
menjalankan sebuah query SQL. Sedangkan, data
discrimination adalah perbandingan antara fitur umum
objek data target kelas dengan fitur umum objek dari
satu atau satu set kelas lainnya. target diambil melalui
query database. Misalnya, pengguna mungkin ingin
membandingkan fitur umum dari produk perangkat
lunak yang pada tahun lalu penjualannya meningkat
sebesar 10% tetapi selama periode yang sama seluruh
penjualan juga menurun setidaknya 30%.
2. Mining
Frequent
Patterns,
Associations,
and
Correlations
Frequent Patterns adalah pola yang sering
terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item
13
set, sub-sequence, dan sub-struktur. Sebuah frequent

patterns biasanya mengacu pada satu set item yang
sering muncul bersama-sama dalam suatu kumpulan
data transaksional, misalnya seperti susu dan roti.
Associations Analysis adalah pencarian aturanaturan asosiasi yang menunjukan kondisi-kondisi nilai
atribut yang sering terjadi bersama-sama dalam
sekumpulan data. Analisis asosiasi sering digunakan
untuk menganalisa Market Basket Analysis dan data
transaksi.
3. Classification and Prediction
Klasifikasi adalah proses untuk menemukan
model
atau
fungsi
yang
menggambarkan
dan
membedakan kelas data atau konsep dengan tujuan

memprediksikan kelas untuk data yang tidak diketahui
kelasnya. Model yang diturunkan didasarkan pada
analisis dari training data (yaitu objek data yang
memiliki label kelas yang diketahui). Model yang
diturunkan dapat direpresentasikan dalam berbagai
bentuk seperti If-then klasifikasi, decision tree, dan
sebagainya.
Teknik
classification
bekerja
dengan
mengelompokkan data berdasarkan data training dan

nilai atribut klasifikasi. Aturan pengelompokan tersebut
akan digunakan untuk klasifikasi data baru ke dalam
14
kelompok
yang
ada.
Classification
dapat
direpresentasikan dalam bentuk pohon keputusan

(decision tree). Setiap node dalam pohon keputusan
menyatakan
suatu
tes
terhadap
atribut
dataset,
sedangkan setiap cabang menyatakan hasil dari tes

tersebut. Pohon keputusan yang terbentuk dapat
diterjemahkan menjadi sekumpulan aturan dalam
bentuk IF condition THEN outcome. (Mewati Ayub,
2007 : 7).
Dalam
banyak
kasus,
pengguna
ingin
memprediksikan nilai-nilai data yang tidak tersedia

atau hilang (bukan label dari kelas). Dalam kasus ini
nilai data yang akan diprediksi merupakan data
numeric. Disamping itu, prediksi lebih menekankan
pada identifikasi trend dari distribusi berdasarkan data
yang tersedia.
4. Cluster Analysis
Cluster adalah kumpulan objek data yang mirip
satu sama lain dalam kelompok yang sama dan berbeda
dengan objek data di kelompok lain. Sedangkan,
Clustering
atau
Analisis
Custer
adalah
proses
pengelompokkan satu set benda-benda fisik atau

abstrak kedalam kelas objek yang sama. Tujuannya
adalah untuk menghasilkan pengelompokan objek yang
mirip satu sama lain dalam kelompok-kelompok.
15
Semakin besar kemiripan objek dalam suatu cluster

dan semakin besar perbedaan tiap cluster maka kualitas
analisis cluster semakin baik.
Dari tugas tugas data mining yang telah di jelaskan ,
perbandingan antara Classification dan Clustering menurut Han dan
Kamber (2006) lebih spesifik digambarkan sebagai berikut :
Tabel 2.1 Perbandingan Classification dan Clustering
Classification
1. Menganalisis label
Clustering
kelas dari 1. menganalisis data objek tanpa
data objek.
ada label kelas.
2. Label kelas ada atau terlihat 2.label kelas tidak ada atau tidak
jelas pada training data.
terlihat pada training data.
3. Bertujuan
untuk 3.bertujuan
untuk
mengelompokan pada kelas
mengelompokan
dan
kelas yang telah ditentukan.
menentukan label kelas dari tiap

cluster yang telah terbentuk
4. Proses klasifikasi berdasarkan 4. Proses Clustering berdasarkan

pada menemukan sebuah model
pada prinsip: objek yang ada di
atau
yang
dalam satu cluster memiliki
dan
kemiripan yang tinggi dari pada
fungsi
menggambarkan
membedakan data kelas atau
yang
konsep, dengan tujuan untuk
berbeda dengan objek yang ada
dapat
pada cluster lainnya.
menggunakan
model
untuk memprediksi objek kelas

yang
kelas
diketahui.
label
Model
nya
blm
tersebut
berdasarkan pada analisis dari

training data (data objek yang
kelas label nya telah diketahui.)
5. Outlier analysis
lainnya,
tetapi
sangat
16
Outlier merupakan objek data yang tidak

mengikuti perilaku umum dari data. Outlier dianggap
sebagai noise atau pengecualian. Analisis data outlier
dapat dianggap sebagai noise atau pengecualian.
Analisis data outlier dinamakan Outlier Mining.
Teknik ini berguna dalam fraud detection dan rare
events analysis.
6. Evolution analysis
Analisis
evolusi
data
menjelaskan
dan
memodelkan trend dari objek yang memiliki perilaku

yang berubah setiap waktu. Teknik ini dapat meliputi
karakterisasi, diskriminasi, asosiasi, klasifikasi, atau
clustering dari data yang berkaitan dengan waktu.
2.2.3 Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007)
adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti
mengapa penjualan truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali
pendapatan keluarga lebih suka dipakai untuk membeli
peralatan keluarga dibandingkan dengan satu kali pendapatan
keluarga.
17
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru.
Misalnya, pola apa yang cocok untuk kasus penggelapan kartu
kredit.
2.2.4 Arsitektur Data Mining

Data mining merupakan proses pencarian pengetahuan yang
menarik dari data berukuran besar yang disimpan dalam basis data,
data warehouse atau tempat penyimpanan informasi lainnya. Dengan
demikian arsitektur sistem data mining memiliki komponen-komponen
utama (Han dan Kamber, 2006) yaitu:
a. Database, data warehouse, World Wide Web, atau tempat
penyimpanan informasi lainnya: bisa berbentuk satu atau
banyak database, data warehouse, spreadsheet, ataupun
tempat penyimpanan informasi lainnya. Data Cleaning, Data
Integration dan Data Selection dapat dijalankan pada data
tersebut.
b. Database dan data warehouse server. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan,
berdasarkan permintaan pengguna.
c. Knowledge Based. Komponen ini
merupakan
domain
knowledge yang digunakan untuk memandu pencarian atau

mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut
meliput
hirarki
konsep
yang
digunakan
untuk
mengorganisasikan atribut atau nilai atribut kedalam level

abstraksi yang berbeda. Pengetahuan tersebut juga dapat
18
berupa kepercayaan pengguna (user belief), yang dapat

digunakan
untuk
menentukan
kemenarikan
pola
yang
diperoleh.
d. Data mining engine. Bagian ini merupakan komponen penting
dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul
fungsional
seperti
karakterisasi,
asosiasi,
klasifikasi, dan analisis cluster.

e. Ghrapical user interface (GUI). Modul ini berkomunikasi
dengan pengguna dan data mining. Melalui komponen ini,
pengguna berinteraksi dengan sistem menggunakan query.
Gambar 2.1Arsitektur sistem data mining
19
2.2.5 Klasifikasi Sistem Data Mining

Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu
pendekatan dalam pemecahan masalah dengan menggunakan tinjauan
berbagai sudut pandang ilmu secara terpadu yaitu, database system,
statistics, machine learning, visualization, dan information system.
(Gambar 2.2)
Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin

2.2.6 Knowledge Discovery In Databases
Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah
Data Mining dan Knowledge Discovery in Databases (KDD) secara
bergantian untuk menjelaskan proses penggalian informasi tersembunyi
dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain
dan salah satu tahap dalam proses KDD adalah data mining.
Data mining adalah salah satu langkah dalam proses KDD
secara keseluruhan. Secara umum, data mining digunakan oleh banyak
peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining
20
dan knowledge discovery telah diusulkan sebagai nama yang paling

memadai untuk keseluruhan proses KDD. Knowledge Discovery in
Databases berkaitan dengan proses penemuan pengetahuan yang
diterapkan pada database. Hal ini juga didefinisikan sebagai proses
non-trivial untuk identifikasi data yang valid, baru, berpotensi
bermanfaat, dan akhirnya memiliki pola yang dapat dimengerti.
(Kurgan dan Musilek, 2006)
Knowledge discovery sering terhalang karena tantangan dalam
integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah
dimensi di dalam data meningkat, pendekatan baru untuk penemuan
pola sangat diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan pengertian beberapa pengertian tersebut dapat
ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD)
adalah proses yang bertujuan untuk menggali dan menganalisis
sejumlah besar himpunan data dan mengekstrak informasi serta
pengetahuan yang berguna.
Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3
yang terdiri dari tahapan-tahapan sebagai berikut:
1) Data cleaning
Data cleaning merupakan proses membuang duplikasi
data, memeriksa data yang tidak konsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan penulisan. Pada
umumnya data yang diperoleh baik dari database suatu
perusahaan maupun hasil eksperimen, memiliki isi yang tidak
21
sempurna seperti data yang hilang, data yang tidak valid atau
juga hanya sekedar salah ketik. Selain itu, ada juga atributatribut data yang tidak relevan dengan hipotesa data mining
yang dimiliki. Data cleaning juga akan mempengaruhi hasil
informasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
2) Data integration
Proses menambah data yang sudah ada dengan data atau
informasi lain yang relevan atau bisa disebut juga merupakan
penggabungan data dari berbagai database kedalam satu
database baru yang dibutuhkan oleh KDD.
Tahapan
cleaning
dan
integration
pada
KDD
mengasumsikan bahwa integrator data harus menghapus noise

dari data awal secara paralel dengan mengintegrasikan
beberapa data set. (M. Brian Blake, 2009)
22
Gambar 2.3 Data mining sebagai tahapan dalam proses

KDD
3) Data selection
Pemilihan data yang relevan dan dapat dilakukan analisis
dari data operasional. Data hasil pemilihan disimpan dalam
database yang terpisah.
4) Data transformation
Proses tranformasi data kedalam bentuk format tertentu
sehingga data tersebut sesuai untuk proses data mining.
Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data
kategorikal.
5) Data mining
23
Proses mencari pola atau informasi menarik dengan

menggunakan teknik, metode atau algoritma tertentu.
6) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar menarik dari
hasil data mining. Dalam tahap ini hasil dari teknik data
mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai atau tidak.
7) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari proses
data mining, visualisasi ini membantu mengkomunikasikan
hasil data mining dalam bentuk yang mudah dimengerti.
2.2.7 Teori Khusus Classification and Prediction
Classification (Han dan Kamber, 2006 : 285) adalah sebuah
model dalam data mining dimana, classifier dikonstruksi untuk
memprediksi categorical label, seperti aman atau beresiko untuk
data aplikasi peminjaman uang; ya atau tidak untuk data
marketing; atau treatment A, treatment B atau treatment C
untuk data medis. Kategori tersebut dapat direpresentasikan dengan
nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai
tersbut tidak memiliki arti tertentu.
Classification dan Association rule discovery merupakan tugas
yang sama dalam data mining, dengan pengecualian bahwa tujuan
utama dari klasifikasi adalah prediksi label kelas, sedangkan asosiasi
24
aturan penemuan menggambarkan korelasi antara item dalam

database transaksional. (Fadi Thabtah, 2007)
Proses data klasifikasi memiliki dua tahapan, yang pertama
adalah
Learning:
dimana
training
data
dianalisa
dengan
menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah

Classification: dimana pada tahap ini test data digunakan untuk
mengestimasi ketepatan dari classification rules. Jika keakuratan yang
dikondisikan dan yang diperkirakan dapat diterima, rule tersebut
dapat diaplikasikan pada klasifikasi lainya dari tuple data yang baru.
Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa,
classification hanya bisa diterapkan pada data training yang sangat
kuat di mana diasumsikan bahwa kelas "positif" sudah mewakili
minoritas tanpa kehilangan atribut umum.
Klasifikasi dalam data mining memiliki 3 (tiga) metode yaitu,
Classification by decision tree induction, Bayes Classification, dan
Rule-based Classification.
1. Classification by Decision Tree Induction
Decision Tree Induction adalah pengetahuan dalam bentuk
pohon keputusan yang training tuple nya telah diberi label kelas.
Decision Tree bisa disebut juga alat non-parametrik analisis
diskriminan, yang dirancang untuk mewakili aturan keputusan
dalam bentuk yang disebut pohon biner (Vladimir Nikulin, 2008).
Sebuah Decision Tree seperti sebuah flowchart dengan berstruktur
25
pohon,
dimana
setiap
internal
node
(non-leaf
node)
mendenotasikan sebuah tes pada sebuah atribut, setiap cabang

merepresentasikan sebuah hasil dari tes, dan setiap leaf node (atau
terminal node) memegang sebuah label kelas.
Namsik dan Olivia (2008) lebih spesifik mengatakan bahwa,
Decision tree adalah struktur rekursif sederhana untuk mewakili
prosedur keputusan di mana sebuah instance ditugaskan untuk
salah satu dari serangkaian kelas hasil yang telah ditentukan
sebelumnya.
Attribute Selection Measures
Sebuah attribute selection measure adalah sebuah heuristis
untuk memilih dari pembelahan kriteria yang terbaik dipisahkan
dengan menggunakan data partition, D, dari training tuple yang
kelas-nya telah diberi label ke dalam kelas individual.
Information Gain
Information Gain digunakan sebagai atribut pemilih ukuran.
Atribut dengan information gain tertinggi dipilih sebagai atribut
pemisah untuk node N. Atribut ini meminimalisasi informasi yang
dibutuhkan untuk mengklasifikasi tuple dalam memberikan hasil
pembelahan dan menrefleksikan nilai acak yang paling sedikt
kesalahannya pada kelas partisi tersebut.
Dan rumus pecarian information gain adalah:
Gain(A) Info(D) Info A(D)
Dimana Info D adalah:
26
m
Info( D) pi log 2 ( pi )
i 1
Informasi
yang
diperkirakan
(entropy) yang dibutuhkan untuk mengklasifikasikan sebuah

tuple pada D.
Dan Info A adalah:
Informasi yang dibutukan (setelah menggunakan A untuk
membagi D kedalam partisi V) untuk mengklasifikasi D.
v |D |
InfoA ( D) j I ( D j )
j 1 | D |
Gain Ratio
v
SplitInfo A ( D)
j 1
| Dj |
|D|
log 2 (
| Dj |
)
| D | Pengukuran
Information Gain berat sebelah terhadap tes dengan berbagai

hasil. Sehinga hasilnya lebih memilih atribut yang memiliki
sebuah angka dengan nilai besar.
2. Bayesian Classification
Bayesian Classifier adalah pengklasifikasi statistik. Bayesian
Classfier dapat memperkirakan probabilitas keanggotaan kelas,
seperti kemungkinan bahwa sebuah tuple yang diberikan telah
dimiliki oleh sebuah kelas tertentu lainnya.
Nave Bayesian Classification
Nave Bayesian classifer, atau Simple Bayesian classifier, bekerja
seperti dibawah:
1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak
diketahui
2. Biarkan H menjadi hipotesis bahwa X milik kelas C
27
3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori

probabilitas), probabilitas bahwa hipotesis memegang data
sampel yang diberikan dan diamati X
4. P (H) (prior), probabilitas awal
a. Misalnya, X akan membeli komputer, tanpa memandang
usia dan pendapatan
5. P (X): probabilitas bahwa data sampel yang diamati
6. P (X | H) (kelemahan berupa), probabilitas mengamati sampel
X, memberikan data yang dipegang hipotesis
a. Misalnya, Mengingat bahwa X akan membeli komputer,
probabilitas bahwa X adalah 31 .. 40, pendapatan menengah
P( H | X) P(X | H )P( H )
P(X)
7.
Data pelatihan yang diberikan X,
posteriori probabilitas hipotesis H, P (H | X), mengikuti
teorema Bayes
8. Secara informal, hal ini dapat ditulis sebagai
posteriori = kemungkinan x sebelum / bukti
9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang
tertinggi di antara semua P (Ck | X) untuk semua kelas K
10. Kesulitan praktis: memerlukan pengetahuan awal dengan
probabilitas yang banyak, biaya komputasi yang signifikan.
3. Rule-Based Classfication
Menggunakan IF-THEN Rules untuk Klasifikasi
Sebuah rule-based classifier digunakan sebagai sekumpulan
dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN
dengan form,
IF kondisi THEN hasil.
Contoh dari Rule IF-THEN (R1).
R1: IF umur = muda AND pelajar = ya THEN beli_komputer
= ya.
a. Assessment dari sebuah rule: coverage and accuracy
28
ncovers = # tuple yang di-cover oleh R

ncorrect = # tuple yang secara tepat diklasifikasikan oleh
R
coverage(R) = ncovers /|D| /* D: kumpulan training data */
accuracy(R) = ncorrect / ncovers
operator logika (AND), (OR), (NOT).
b. Jika lebih dari satu aturan yang dipicu, maka diperlukan
sebuah resolusi konflik
c. Ukuran pemesanan: menetapkan prioritas tertinggi dengan
aturan memicu yang memiliki "terberat" persyaratan (yaitu,
d.
dengan tes atribut yang paling)

Kelas berbasis memesan: urutan penurunan biaya prevalensi
atau kesalahan klasifikasi per kelas
Peraturan-berbasis memesan (daftar keputusan): aturan
akan disusun dalam satu daftar prioritas jangka, menurut
beberapa ukuran kualitas peraturan atau oleh para ahli.
2.3 Classifier Accuracy Measurables

Classifier Accuracy Measures (Han dan Kamber, 2006 : 360) adalah
metode klasifikasi yang dilakukan berdasarkan tingkat akurasi model dalam
melakukan prediksi. Hal ini dilakukan karena keakuratan dalam mengolah data
merupakan salah satu hal yang penting.
Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi
ini adalah metode hold out. Dalam metode ini, data asli dipartisi menjadi dua
himpunan yang saling terpisah yang dinamakan training set dan test set. Model
klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian
dievaluasi dengan menggunakan testing set. Akurasi dari masing-masing metode
klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set.
Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam
29
model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set
lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set
dan 1/3 lagi dijadikan testing set.
Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan
menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu
sebagai berikut:
t pos
pos
Sensivity =
Specificity =
Precision =
Accuracy = sensivity
t pos + f pos
t pos
pos+
pos
+ specifity
pos+
t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di
prediksi oleh classifier dengan benar (misalkan jumlah data kelas yes dari
sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model
klasifikasi), pos adalah jumlah sampel data positives (yes), t_neg adalah
jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah
data kelas no dari sampel yang benar dapat diprediksi sebagaimana mestinya
oleh model klasifikasi), neg adalah jumlah total sampel negatives (no ), dan
f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh
classifier (no diprediksi sebagai yes).
30
Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal

positives samples (yes) berdasarkan jumlah true positives yang dapat
diprediksi secara benar jika yang diberikan adalah sampel positives.
Specificity adalah ukuran tingkatan derajat classifier dapat mengenal
negatives samples (no) berdasarkan true negatives yang dapat diprediksi
secara benar jika yang diberikan adalah sampel negatives.
Precision adalah besarnya presentase classifier dalam menebak dengan
tepat kelas true positives (yes) dengan melihat perbandingan true positive
yang dapat diprediksi dengan penjumlahan true positive dan false positive.
Accuracy adalah derajat ukuran yang merupakan fungsi dari Sensivity
dan Specificity model klasifikasi dalam melakukan prediksi.

Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 2

2.2 Data Mining

Beberapa survey tentang proses pemodelan dan metodologi

Data mining berhubungan dengan penemuan sesuatu yang

Data mining biasa menggunakan data yang sangat besar.

Data mining berguna untuk membuat keputusan kritis.

kesimpulan bahwa Data Mining adalah suatu teknik menggali

Classification and Prediction, Cluster Analysis, Outlier analysis, dan

Description: Characterization and

diperoleh dari target kelas. Data yang sesuai dengan

set, sub-sequence, dan sub-struktur. Sebuah frequent

membedakan kelas data atau konsep dengan tujuan

mengelompokkan data berdasarkan data training dan

direpresentasikan dalam bentuk pohon keputusan

sedangkan setiap cabang menyatakan hasil dari tes

memprediksikan nilai-nilai data yang tidak tersedia

pengelompokkan satu set benda-benda fisik atau

Semakin besar kemiripan objek dalam suatu cluster

ada label kelas.

terlihat pada training data.

mengelompokan pada kelas

kelas yang telah ditentukan.

menentukan label kelas dari tiap

4. Proses klasifikasi berdasarkan 4. Proses Clustering berdasarkan

pada prinsip: objek yang ada di

dalam satu cluster memiliki

kemiripan yang tinggi dari pada

membedakan data kelas atau

konsep, dengan tujuan untuk

berbeda dengan objek yang ada

pada cluster lainnya.

untuk memprediksi objek kelas

berdasarkan pada analisis dari

Outlier merupakan objek data yang tidak

memodelkan trend dari objek yang memiliki perilaku

2.2.4 Arsitektur Data Mining

knowledge yang digunakan untuk memandu pencarian atau

mengorganisasikan atribut atau nilai atribut kedalam level

berupa kepercayaan pengguna (user belief), yang dapat

klasifikasi, dan analisis cluster.

Gambar 2.1Arsitektur sistem data mining

2.2.5 Klasifikasi Sistem Data Mining

Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin

dan knowledge discovery telah diusulkan sebagai nama yang paling

mengasumsikan bahwa integrator data harus menghapus noise

Gambar 2.3 Data mining sebagai tahapan dalam proses

Proses mencari pola atau informasi menarik dengan

aturan penemuan menggambarkan korelasi antara item dalam

menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah

mendenotasikan sebuah tes pada sebuah atribut, setiap cabang

Dimana Info D adalah:

(entropy) yang dibutuhkan untuk mengklasifikasikan sebuah

Information Gain berat sebelah terhadap tes dengan berbagai

3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori

ncovers = # tuple yang di-cover oleh R

dengan tes atribut yang paling)

2.3 Classifier Accuracy Measurables

Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal

Anda mungkin juga menyukai