Statistika
CART SVR
Association Rule K-Nearest Neighbor
Bayes
DATA Preprocessing Data
Clustering
MINING K-Means
K-Medoids
C45
Support Vector Machine
2
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Bayes’ Theorem: Basics
M
• Teorema Peluang Total : P(B) = P(B | A )P( A )
i i
i =1
• Teorema Bayes:
P(H | X) = P(X | H )P(H ) = P(X | H ) P(H ) / P(X)
P(X)
– Misalkan X adalah data sample (“evidence”): class label diketahui
– Misalkan H adalah hypothesis bahwa X milik/anggota class C
– Klasifikasi adalah menentukan P(H|X), (yaitu posteriori probability):
peluang bahwa hipotesis terpenuhi, diberikan sampel data yang diamati X
– P(H) (prior probability): peluang awal
• Misalkan., X akan membeli komputer, tanpa mempertimbangkan usia,
pendapatan, …
– P(X): peluang bahwa data sampel diamati
– P(X|H) (likelihood): peluang mengamati sample X, diberikan bahwa
hipotesis terpenuhi.
• Misalkan, Diberikan bahwa X akan membeli komputer, peluang bahwa
X adalah 31..40, medium income
3
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
5
Naïve Bayes Classifier
• Asumsi yang disederhanakan: atribut conditionally
independent (yaitu., Tidak ada hubungan ketergantungan
antara atribut):
n
P(X | C i) = P( x | C i) = P( x | C i) P( x | C i) ... P( x | C i)
k 1 2 n
k =1
• Ini sangat mengurangi biaya perhitungan: Hanya menghitung
distribusi kelas
• Jika Ak adalah kategorik, P(xk|Ci) adalah # tuples dalam Ci
memiliki nilai xk untuk Ak dibagi dengan |Ci, D| (# tuples Ci
dalam D)
• Jika Ak bernilai kontinu, P(xk|Ci) biasanya dihitung berdasar
sebagaran Gaussian dengan mean μ dan simpangan baku σ dan
P(xk|Ci) is P(X | C i) = g ( xk , Ci , Ci )
( x− )2
1 −
g ( x, , ) = e 2 2
2 6
Jurusan Statistika
P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6 >40 medium no excellent no
#Panggil package
> library(e1071)
#Import data
>library(readxl)> sample1 <- read_excel
("D:/Eni/Materi kuliah/Genap/Data
Mining/sample1.xlsx")
#Membuat train data dan test data
traindata<-as.data.frame(sample[1:14,])
testdata <- as.data.frame(sample[15,])
April 2, 2020 Data Mining: Concepts and Techniques
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika 12
traindata
testdata
prob_no <-
ageCounts[“no",testdata[,c(“age")]]*
incomeCounts[“no",testdata[,c(“income")]]*
jsCounts[“no",testdata[,c("JobSatisfaction")]]*
desireCounts[“no",testdata[,c("Desire")]]*
tprior[“no"]
prob_no
formula: Bentuk dari formula class ~ x1 + x2 + ... dengan asumsi x1, x2…
conditionally independent
data: A data frame of factors
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.