Anda di halaman 1dari 5

TUGAS LABORATORIUM DATA ANALYSIS & DATA

VISUALIZATION
DATA DIABETES – DATA TEST

ANANDA TORY DIANDRA

023121006

BISNIS DIGITAL

EKONOMI DAN BISNIS

UNIVERSITAS PAKUAN
CODINGAN

library (caret)

library (pROC)

library (mlbech)

#Persiapan data

data1 <- read.csv(file.choose(),header = T)

View (data1)

str (data1)

data1$Outcome[data1$Outcome == 0] <- 'No'

data1$Outcome[data1$Outcome == 1] <- 'Yes'

data1$Outcome <- factor (data1$Outcome)

#Data partisi

set.seed(2307)

ori <- sample(2, nrow(data1), replace = T, prob = c(0.7, 0.3))

train <- data1[ori == 1,]

test <- data1[ori == 2,]

#Model KNN

trControl <- trainControl(method = "repeatedcv",

number = 10,

repeats = 3)

#Kesesuaian model

set.seed(2332)
fit <- train(Outcome ~.,

data = train,

method = 'knn',

tuneLength = 20,

trControl = trControl,

preProc = c("center", "scale"))

fit <- train(Outcome ~.,

data = test,

method = 'knn',

tuneLength = 20,

trControl = trControl,

preProc = c("center", "scale"))

#Visualisasikan

plot (fit)

varImp(fit)

pred <- predict(fit,newdata = train)

confusionMatrix(pred, train$Outcome)

plot(pred ~ train$Glucose)

pred <- predict(fit,newdata = test)

confusionMatrix(pred, test$Outcome)

plot(pred ~ test$Glucose)
Dapat diinterpretasikan, tingkat akurasi yang paling tinggi dengan nilai lebih dari 0,760, yaitu
pengambilan neighbors di angka 21 dan tingkat akurasi paling rendah hampir menyentuh
angkat 0,750 dengan pengambilan neighbors di angka 9.

ROC curve variable importance


Importance
Glucose 100.00
Age 78.05
BMI 58.33
Pregnancies 45.44
BloodPressure 32.77
DiabetesPedigreeFunction 18.56
SkinThickness 15.36
Insulin 0.00

Variable importance yang paling mempengaruhi penyakit diabetes adalah Glucose dengan nilai
100.00, variable kedua nya adalah BMI, serta ketiga adalah Pregnancies dan disusul dengan
variable lainnya.

Confusion Matrix and Statistics

Reference
Prediction No Yes
No 317 74
Yes 54 135
Accuracy: 0.7793
95% CI: (0.7433, 0.8124)
No Information Rate: 0.6397
P-Value [Acc > NIR]: 2.453e-13

Kappa: 0.5111
Mcnemar's Test P-Value: 0.09308
Sensitivity: 0.8544
Specificity: 0.6459
Pos Pred Value: 0.8107
Neg Pred Value: 0.7143
Prevalence: 0.6397
Detection Rate: 0.5466
Detection Prevalence: 0.6741
Balanced Accuracy: 0.7502
'Positive' Class: No

Tingkat akurasi data diabetes menyentuh angka 0.7793, dengan nilai akurasi antara 0.7433
dan 0.812, yaitu nilai error 95% confidence. Serta nilai error kurang dari 0,5 (2.453e-13)
karena nilai confidence 95%.

Terakhir merupakan contoh pengambilan satu variable yang menentukan penyakit diabetes,
dimana penyakit diabetes paling rentan di usia >35 tahun.

Anda mungkin juga menyukai