Klasifikasi dan
Prediksi
Naive Bayesian &
Bayesian Network
.
Deteksi kegagalan:
Classification
Algorithms
Training
Data
Classifier
Testing
Data Unseen Data
(Jeff, Professor, 4)
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no Tenured?
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Data Mining: Concepts and
March 21, 2017 Techniques 6
Issues: Data Preparation
Data cleaning
Memproses awal data untuk mengurangi noise
dan mengatasi nilai-nilai yang hilang
Analisa relevansi (seleksi fitur)
Menghilangkan atribut-atribut yang tidak
relevan atau atribut yang redundan
Transformasi data
Membangun normalisasi data
class
Keakurasisan prediksi: nilai yang ditebak dari
(classification/prediction time)
Kehandalan: mengatasi noise dan missing values
age, income,
P(X): probabilitas dari sample data yang diamatii
P(X|H) (likelyhood), probabilitas dari sample X, dengan the
memperhatikan dugaan
Misal , X akan membeli computer, probabilitas bahwa X.
P( H | X) P(X | H )P(H )
Ini dapat ditulis dengan P(X)
posterior = likelihood x prior/evidence
Prediksi X anggota C2 jika dan hanya jika probabilitas
P(C2|X) paling tinggi diantara semua P(Ck|X) dari
semua kelas k
Prakteknya sulit : perlu pengetahuan awal dari
banyak probabilitas , biaya komputasi yang signifikan
Perlu dimaksimumkan
Data Mining: Concepts and
March 21, 2017 Techniques 14
Derivation of Nave Bayes
Classifier
Diasumsikan: atribut dalam kondisi saling bebas
(independent) yaitu tidak ada kebergantungan
antara atribut-atribut
n :
P ( X | C i ) P ( x | C i ) P ( x | C i ) P ( x | C i ) ... P( x | C i )
k 1 2 n
k 1
Ini sangat mengurangi biaya .Hanya menghitung
distribusi dari kelas
Ak adalah categorical, P(xk|Ci) adalah jumlah record
dalam kelas Ci yang memiliki nilai xk untuk Ak dibagi
dengan |Ci, D| jumlah record dalam Ci dalam D)
Jika Ak bernilai kontinu , P(xk|Ci) biasanya dihitung
berdasarkan pada distribusi Gausian dengan mean
and standar deviasi 1
( x ) 2
g ( x, , ) e 2 2
2
Dan P(xk|Ci) adalah P ( X | C i ) g ( xk , C i , C i )
Data Mining: Concepts and
March 21, 2017 Techniques 15
Nave Bayesian Classifier: Training
Dataset
Class:
C1:buys_computer =
yes
C2:buys_computer = no
Data sample
X = (age <=30,
Income = medium,
Student = yes
Credit_rating = Fair)
D= 14
uncorrected counterparts
Data Mining: Concepts and
March 21, 2017 Techniques 18
Penjelasan Nave Bayesian
Classifier:
Keuntungan
Mudah diimplementasikan
Kerugian
Asumsi : kondisi kelas saling bebas , sehingga kurang
akurat
Pada prakteknya , kebergantungan anda diantara variabel
variabel-variabel
Gives a specification of joint probability
distribution Node (simpul ): variabel-variabel
bebas
Links: kebergantungan
X Y
X dan Y adalah parents dari Z, dan Y
adalan parent dari P
Z tidak ada kebergantungan diantara Z
P
dan P
Data Mining: Concepts and
March 21, 2017 Tidak memiliki
Techniques loop atau siklus 20