Statistika
CART SVR
Association Rule K-Nearest Neighbor
Bayes
DATA Preprocessing Data
Clustering
MINING K-Means
K-Medoids
C45
Support Vector Machine
Algoritma KNN
2
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Jarak
• Untuk mengukur kedekatan titik data baru dengan
tetangga digunakan jarak. Terdapat beberapa jarak
yang dapat digunakan
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
X1=Daya
X2=Kekuatan Y=Kualitas
No Tahan
(kg/m2) Kertas
Asam(detik)
1 8 4 Baik
2 4 5 Buruk
3 4 6 Buruk
4 7 7 Baik
5 5 6 Buruk
6 6 5 Baik
7 9 5 Baik
8 10 6 Baik
9 7 6 Baik
10 8 5 Buruk
Contoh KNN menggunakan Excel
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
1. Import Dataset
#Import dataset
install.packages("readxl")
library(readxl)
loan<-read_excel("D:/credit_new.xlsx")
loan
#Melihat struktur dataset
str(loan)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
2. Data Cleaning
• Terdapat 17 Variabel untuk menentukan apakah
pelanggan akan disetujui atau tidak pengajuan
kreditnya
• Namun tidak semua variable relevan untuk
menentukan keputusan tersebut, sehingga perlu
dihilangkan karena semakin banyak variable tentu
semakin kompleklah model machine learning tersebut
• Misalkan dipilih 5 variable months_loan_duration;
credit_history; amount; age; dependents
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
loan.subset<-
loan[c('decision','months_loan_duration','credit_history','
amount','age','dependents’)]
str(loan.subset)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
3. Normalisasi Data
Dataset perlu dilakukan normalisasi agar outputnya tidak
bias.
normalisasi<-function(x){ return((x-min(x))/(max(x)-
min(x)))}
normal.loan.subset<-
as.data.frame(lapply(loan.subset[,2:5],normalisasi))
head(normal.loan.subset)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
4. Data Splicing
Data splicing adalah memecah dataset menjadi data training
dan data testing
set.seed(123)
dat.d <-
sample(1:nrow(normal.loan.subset),size=nrow(normal.loan.su
bset)*0.7,replace = FALSE) #seleksi random 70% data.
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
test.loan_labels <-loan.subset[-dat.d,1]
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
5. Membangun model
#Install class package
install.packages('class')
# Load class package
library(class)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
6. Evaluasi Model
#Menghitung proporsi yang diklsifikasikan dengan tepat.
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
table(knn.26 ,test.loan_labels)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.