VISUALIZATION
DATA DIABETES – DATA TEST
023121006
BISNIS DIGITAL
UNIVERSITAS PAKUAN
CODINGAN
library (caret)
library (pROC)
library (mlbech)
#Persiapan data
View (data1)
str (data1)
#Data partisi
set.seed(2307)
#Model KNN
number = 10,
repeats = 3)
#Kesesuaian model
set.seed(2332)
fit <- train(Outcome ~.,
data = train,
method = 'knn',
tuneLength = 20,
trControl = trControl,
data = test,
method = 'knn',
tuneLength = 20,
trControl = trControl,
#Visualisasikan
plot (fit)
varImp(fit)
confusionMatrix(pred, train$Outcome)
plot(pred ~ train$Glucose)
confusionMatrix(pred, test$Outcome)
plot(pred ~ test$Glucose)
Dapat diinterpretasikan, tingkat akurasi yang paling tinggi dengan nilai lebih dari 0,760, yaitu
pengambilan neighbors di angka 21 dan tingkat akurasi paling rendah hampir menyentuh
angkat 0,750 dengan pengambilan neighbors di angka 9.
Variable importance yang paling mempengaruhi penyakit diabetes adalah Glucose dengan nilai
100.00, variable kedua nya adalah BMI, serta ketiga adalah Pregnancies dan disusul dengan
variable lainnya.
Reference
Prediction No Yes
No 317 74
Yes 54 135
Accuracy: 0.7793
95% CI: (0.7433, 0.8124)
No Information Rate: 0.6397
P-Value [Acc > NIR]: 2.453e-13
Kappa: 0.5111
Mcnemar's Test P-Value: 0.09308
Sensitivity: 0.8544
Specificity: 0.6459
Pos Pred Value: 0.8107
Neg Pred Value: 0.7143
Prevalence: 0.6397
Detection Rate: 0.5466
Detection Prevalence: 0.6741
Balanced Accuracy: 0.7502
'Positive' Class: No
Tingkat akurasi data diabetes menyentuh angka 0.7793, dengan nilai akurasi antara 0.7433
dan 0.812, yaitu nilai error 95% confidence. Serta nilai error kurang dari 0,5 (2.453e-13)
karena nilai confidence 95%.
Terakhir merupakan contoh pengambilan satu variable yang menentukan penyakit diabetes,
dimana penyakit diabetes paling rentan di usia >35 tahun.