Anda di halaman 1dari 20

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network

October 15, 2013

Chapter 6. Classification and Prediction


Apa itu klasifikasi ? Apa itu prediksi Beberapa hal terkait dengan klassifikasi and prediksi

Klasifikasi Bayesian

October 15, 2013

Data Mining: Concepts and Techniques

Supervised vs. Unsupervised Learning

Supervised learning (classification)

Supervision (terawasi): Data training (observations, measurements, etc.) ada kelas dalam data training Data baru diklasifikasikan didasarkan pada data training Unsupervised learning (clustering) Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan pembentukan adanya kelas atau kelompok dalam data
Data Mining: Concepts and Techniques 3

October 15, 2013

Classification vs. Prediction

Classification Memprediksi label clas (diskrit atau kontinu) mengklasifikasi data (membangun model) didasarkan pada data training dan nilai label class dalam mengklasifikasikan atribut dan menggunakannya saat mengklasifikasikan data baru Prediksi Memodelkas fungsi bernilai kontinu;yaitu memprediksi nilai yang tidak diketahui Bentuk aplikasinya Persetujuan pinjaman atau kredit: Diagnosa medis: apakah hepatitis A atau B Deteksi kegagalan:
Data Mining: Concepts and Techniques 4

October 15, 2013

Process (1): Model Construction


Classification Algorithms

Training Data

NAME M ike M ary B ill Jim D ave A nne

RANK YEARS TENURED A ssistant P rof 3 no A ssistant P rof 7 yes P rofessor 2 yes A ssociate P rof 7 yes A ssistant P rof 6 no A ssociate P rof 3 no

Classifier (Model)

IF rank = professor OR years > 6 THEN tenured = yes


5

October 15, 2013

Data Mining: Concepts and Techniques

Process (2): Using the Model in Prediction

Classifier Testing Data

Unseen Data

(Jeff, Professor, 4)
NAME RANK T om M erlisa G eorge Joseph A ssistant P rof A ssociate P rof P rofessor A ssistant P rof YEARS TENURED 2 7 5 7 no no yes yes

Tenured?

October 15, 2013

Data Mining: Concepts and Techniques

Issues: Data Preparation

Data cleaning

Memproses awal data untuk mengurangi noise dan mengatasi nilai-nilai yang hilang

Analisa relevansi (seleksi fitur)

Menghilangkan atribut-atribut yang tidak relevan atau atribut yang redundan Membangun normalisasi data

Transformasi data

October 15, 2013

Data Mining: Concepts and Techniques

Issues: Evaluating Classification Methods

Akurasi Keakuratan klasifikasi : memperkirakan label class Keakurasisan prediksi: nilai yang ditebak dari atribut yang diprediksi Kecepatan Waktu untuk membangun model (training time) Waktu dalam menggunakan model (classification/prediction time) Kehandalan: mengatasi noise dan missing values

October 15, 2013

Data Mining: Concepts and Techniques

Chapter 6. Classification and Prediction

What is classification? What is prediction?

Issues regarding classification and prediction

Classification by decision tree induction

Bayesian classification

October 15, 2013

Data Mining: Concepts and Techniques

Bayesian Classification: Why?

A statistical classifier: membangun probabilistic prediction, yaitu memprediksi probabilitas keanggotaan kelas Didasarkan pada Bayes Theorem. Performance: A simple Bayesian classifier, nave Bayesian classifier, has comparable performance with decision tree and selected neural network classifiers Incremental: Each training example can incrementally increase/decrease the probability that a hypothesis is correct prior knowledge can be combined with observed data Standard: Even when Bayesian methods are computationally intractable, they can provide a standard of optimal decision making against which other methods can be measured
Data Mining: Concepts and Techniques 10

October 15, 2013

Bayesian Theorem: Basics


X adalah data sample (evidence): label kelas tidak diketahui H adalah dugaan (hypothesis ) bahwa X adalah anggota C Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X P(H) (prior probability), initial probability Misal X akan membeli computer, tidak memperhatikan age, income, P(X): probabilitas dari sample data yang diamatii P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan Misal , X akan membeli computer, probabilitas bahwa X. Adalah 31..40, penghasilan sedang October 15, 2013 Data Mining: Concepts and Techniques

11

Bayesian Theorem

Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes

P(H | X) P(X | H )P(H ) P(X) Ini dapat ditulis dengan


posterior = likelihood x prior/evidence
Prediksi X anggota C2 jika dan hanya jika probabilitas P(C2|X) paling tinggi diantara semua P(Ck|X) dari semua

kelas k

Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan
Data Mining: Concepts and Techniques 12

October 15, 2013

Nave Bayesian Classifier: Training Dataset


age
<=30 <=30 3140 >40 >40 >40 3140 <=30 <=30 >40 <=30 3140 3140 >40
October 15, 2013

income
high high high medium low low low medium low medium medium medium high medium

student
no no no no yes yes yes no yes yes yes no yes no

credit_rating
fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent

buys_computer
no no yes yes yes no yes no yes yes yes yes yes no
13

Data Mining: Concepts and Techniques

Klasifikasi Nave Bayesian

Perhatikan D adalah record training dan ditetapkan labellabel kelasnya dan masing-masing record dinyatakan n atribut ( n field ) X = (x1, x2, , xn) Misalkan terdapat m kelas C1, C2, , Cm. Klassifikasi adalah diperoleh maximum posteriori yaitu maximum P(Ci|X) Ini dapat diperoleh dari teorema Bayes
P(X | C )P(C ) i i P(C | X) i P(X)

Karena P(X) adalah konstan untuk semua kelas, hanya P(C | X) P(X| C )P(C ) i i i Perlu dimaksimumkan
Data Mining: Concepts and Techniques 14

October 15, 2013

Derivation of Nave Bayes Classifier

Diasumsikan: atribut dalam kondisi saling bebas (independent) yaitu tidak ada kebergantungan antara atribut-atribut : n

Ini sangat mengurangi biaya .Hanya menghitung distribusi dari kelas Ak adalah categorical, P(xk|Ci) adalah jumlah record dalam kelas Ci yang memiliki nilai xk untuk Ak dibagi dengan |Ci, D| jumlah record dalam Ci dalam D) Jika Ak bernilai kontinu , P(xk|Ci) biasanya dihitung berdasarkan pada distribusi Gausian dengan mean and ( x ) 1 standar deviasi g ( x, , ) e 2
2 2

P( X | C i) P( x | C i ) P( x | C i ) P( x | C i ) ... P( x | C i ) k 1 2 n k 1

Dan P(xk|Ci) adalah


October 15, 2013

P ( X | C i ) g ( xk , C i , Ci )
Data Mining: Concepts and Techniques 15

Nave Bayesian Classifier: Training Dataset


age <=30 <=30 3140 >40 >40 >40 3140 <=30 <=30 >40 <=30 3140 3140 >40

Class: C1:buys_computer = yes C2:buys_computer = no Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair)
D= 14

income student credit_rating buys_comp high no fair no high no excellent no high no fair yes medium no fair yes low yes fair yes low yes excellent no low yes excellent yes medium no fair no low yes fair yes medium yes fair yes medium yes excellent yes medium no excellent yes high yes fair yes medium no excellent no
16

October 15, 2013

Data Mining: Concepts and Techniques

Nave Bayesian Classifier: An Example

P(Ci):

P(buys_computer = yes) = 9/14 = 0.643 P(buys_computer = no) = 5/14= 0.357

Compute P(X|Ci) for each class P(age = <=30 | buys_computer = yes) = 2/9 = 0.222 P(age = <= 30 | buys_computer = no) = 3/5 = 0.6 P(income = medium | buys_computer = yes) = 4/9 = 0.444 P(income = medium | buys_computer = no) = 2/5 = 0.4 P(student = yes | buys_computer = yes) = 6/9 = 0.667 P(student = yes | buys_computer = no) = 1/5 = 0.2 P(credit_rating = fair | buys_computer = yes) = 6/9 = 0.667 P(credit_rating = fair | buys_computer = no) = 2/5 = 0.4

X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = yes) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X|buys_computer = no) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = yes) * P(buys_computer = yes) =0,044*0.643 = 0.028 P(X|buys_computer = no) * P(buys_computer = no) = 0.007 Sehingga , X belongs to class (buys_computer = yes)

October 15, 2013

Data Mining: Concepts and Techniques

17

Menghindari masalah Probabilitas 0

Prediksi Nave Bayesian membutuhkan masing-masing probabilitas tidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadi nol n P( X | C i ) P( x k | C i) k 1

Misalkan data dengan 1000 record , income=low (0), income= medium (990), and income = high (10), Menggunakan Laplacian correction (atau Laplacian estimator) Tambahkan 1 untuk masing-masing case Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 The corrected prob. estimates are close to their uncorrected counterparts
Data Mining: Concepts and Techniques 18

October 15, 2013

Penjelasan Nave Bayesian Classifier:

Keuntungan Mudah diimplementasikan Hasil baik dalam banyak kasus Kerugian Asumsi : kondisi kelas saling bebas , sehingga kurang akurat Pada prakteknya , kebergantungan anda diantara variabel
Misal hospitals: patients: Profile: age, family history, etc. Gejala (symptom: demam (fever), batuk (cough) etc., Disease: lung cancer, diabetes, etc. Kebergantunagn diantara variabel ini tidak dapat dimodelkan dengan menggunakan Nave Bayesian Classifier

October 15, 2013

How to deal with these dependencies? Data Mining: Concepts and Techniques

19

Bayesian Belief Networks

Bayesian belief network memungkinkan sebagain variabel

dalam kondisi saling bebas

Model grafik menyatakan keterhubungan sebab akibat

Menyatakan kebergantungan (dependency) diantara variabelvariabel

Gives a specification of joint probability distribution


Node (simpul ): variabel-variabel bebas Links: kebergantungan

X
Z
October 15, 2013

Y
P

X dan Y adalah parents dari Z, dan Y adalan parent dari P tidak ada kebergantungan diantara Z dan P Tidak memiliki loop atau siklus
Data Mining: Concepts and Techniques 20