Data Result
Data yang digunakan adalah data Gradient boosting yang belum di-
43.400 data biomedis pasien yang lakukan fine-tuning mendapatkan Setelah gradient boosting di-
berisi 11 atribut, yaitu gender, nilai lakukan fine-tuning :
age, hypertention, heart disesase, AUC 0,90 AUC 0,94
marital status, work-type, reci- accuracy 0,867 accuracy 0,9449
dence area, avg-glucose, BMI, precision 0,8673 precision 0,9453
smoking-status, stroke status recall 0,866 recall 0,9449
(class) F1 0,8659 F1 0,0448
Karena gradient boosting menda-
patkan nilai tertinggi untuk AUC,
maka dilakukan penyesuaian pa-
rameter. Setelah dilakukan fine-
tuning, ternyata terdapat pen-
ingkatan nilai AUC.
DATASET
“Stroke Prediction Dataset”
SUMBER JUMLAH BARIS
https://www.kaggle.com/ 5.111 baris
fedesoriano/stroke-prediction-
dataset
DATASET
ATRIBUT DATASET
2 Gender Jenis kelamin pasien
METODE
METODE EVALUASI
METODE
Confusion matrix, sensitivity,
BINARY CLASSIFICATION
specificity, accuracy
LANGKAH IMPLEMENTASI METODE
Dibawah ini adalah langkah yang akan dilakukan untuk melakukan klasifikasi
01 02 03 04 05 06
Input Data Prepocessing Pemisahan pre- Pembuatan Proses training Evaluasi sistem
data dictor dan tar- model gradient & testing data
Melakukan input data Melakukan evaluasi
.csv menjadi get class boosting kinerja system meng-
Prepocessing data di- Melakukan trainig dan
dataframe pada gunakan confusion
lakukan untuk Predictor berisi 11 Pembuatan model di- testing pada data
python matrix, sensitivity,
menghilangkan outlier atribut, sedangkan lakukan dengan de- mengguanakan model
dan missing value yang sudah dibuat specificity, dan accu-
target class berisi 1 fault parameter yang
racy
atribut dimiliki oleh gradient
boosting
Hampir 20% dari BMI yang hilang mengalami stroke, nilai ini jauh lebih tinggi
daripada bin (partisi) lainnya.
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
1. Gender vs Stroke 2. Hipertensi vs Stroke
Gender tidak begitu berpengaruh terhadap hasil Hypertensi memperngaruhi hasil prediksi
prediksi
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
3. Heart Disease vs Stroke 4. Hipertensi vs Ever Married
Penyakit jantung memperngaruhi hasil prediksi Status pernikahan memperngaruhi hasil prediksi
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
5. Work Type vs Stroke
Residence type tidak begitu memperngaruhi hasil prediksi Smoking Status memperngaruhi hasil prediksi
(3)
BUILD GRADIENT BOOST-
ING MODEL
CLASSIFIER
GRADIENT BOOSTING CLASSIFIER MENGGUNAKAN H20
60-40
70-30
80-20
BUILD MODEL
3.3 Mendefinisikan Model
Parameter Value Parameter Value
GRADIENT
Ntrees 100 stopping_rounds 10
BOOSTING Base-
line Model Max_depth 4 seed 999
Min_rows 10
Learn_rate 0.01
Sample_rate 1
Col_sample_rate 0,7
Nfold 5
score_each_iteration True
stopping_metric auto
3.4 Melakukan Training Terhadap Model
3.4.1 Cross Validation Matrix
EVALUATION
AUC
DATA AUC
60-40 0,8975
70-30 0,8976
80-20 0,8994
Rata-Rata 0,8982
EVALUATION ON TESTING DATASET
3.7 Evaluasi Pada Testing Data
AUC
60-40
3.9 VARIABLE IMPORTANCE
70-30
3.9 VARIABLE IMPORTANCE
80-20
KESIMPULAN
Classifier
Gradient Boosting Classifier Menggunakan H20
Perbandingan Data Training & Testing
(60-40) (70-30) (80-20)
Variable Importance
Dari hasil klasifikasi, berikut adalah variable yang paling berpengaruh terhadap terjadinya stroke pada seseo-
rang :
• Age (umur)
• BMI (berat badan)
• Average Glucose Level (kadar gula dalam darah)
• Smoking Status (merokok)
Thanks !
Presentation template by