ZH ProjectUAS

Klasifikasi Stroke Menggunakan
Algoritma Gradient Boosting
Zhafira Hajar (081811633035)
06. 09. 2021

CONTENT
Reference Paper Dataset Metode

Menjelaskan tentang penelitian Menjelaskan tentang dataset yang Menjabarkan metode yang akan
sebslumnya digunakan digunakan untuk melakukan klasi-
fikasi
REFERENCE PAPER
“Stroke prediction using machine

learning in a distributed environment”
Rajora, M., Rathod, M. & Naik, N.S., 2021, Stroke prediction using machine
learning in a distributed environment, Lecture Notes in Computer Science
(including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics), 12582 LNCS, 238–252.
Latar belakang Tujuan
Melakukan prediksi penyakit
Menurut American Heart Report, stroke menggunakan data
tingkat kematian dari stroke pada biomedis dengan memanfaatkan
2017 adalah 37,6 di setiap teknik klasifikasi pada machine
100.000 kasus. Maka dari itu, learing. Metode yang diuji : Naive
pembuatan system untuk Bayes, Logistic Regression, Deci-
melakukan prediksi, apakah sion Tree, Random Forest dan
seseorang berpotensi mengidap Gradient Boosting. Sistem dibuat
penyakit stroke harus dilakukan. dengan Apache Spark frame-
work.
Data Result
Data yang digunakan adalah data Gradient boosting yang belum di-
43.400 data biomedis pasien yang lakukan fine-tuning mendapatkan Setelah gradient boosting di-
berisi 11 atribut, yaitu gender, nilai lakukan fine-tuning :
age, hypertention, heart disesase, AUC 0,90 AUC 0,94
marital status, work-type, reci- accuracy 0,867 accuracy 0,9449
dence area, avg-glucose, BMI, precision 0,8673 precision 0,9453
smoking-status, stroke status recall 0,866 recall 0,9449
(class) F1 0,8659 F1 0,0448
Karena gradient boosting menda-
patkan nilai tertinggi untuk AUC,
maka dilakukan penyesuaian pa-
rameter. Setelah dilakukan fine-
tuning, ternyata terdapat pen-
ingkatan nilai AUC.
DATASET
“Stroke Prediction Dataset”
SUMBER JUMLAH BARIS
https://www.kaggle.com/ 5.111 baris
fedesoriano/stroke-prediction-
dataset
DATASET
JUMLAH ATRIBUT TARGET CLASS

11 Atribut predictor, 1 atribut
1 atribut class (0 = tidak
class
berpotensi memiliki stroke, 1 =
berpotensi terkena stroke
No Atribut Keterangan
1 Id Id dari pasien
ATRIBUT DATASET
2 Gender Jenis kelamin pasien
3 Age Umur pasien

0 = tidak memiliki hipertensi
4 Hypertension 1 = memiliki hipertensi
0 = tidak memiliki penyakit jantung
5 Heart_disease 1 = memiliki penyakit jantung
0 = tidak pernah menikah
6 Ever_married 1 = sudah pernah menikah
Pekerjaan pasien ("children", "Govt_jov", "Never_worked",
7 Work_type "Private" or "Self-employed")
8 Residence_type Tempat tinggal pasien ("Rural" or "Urban“)
9 Avg_glucose Rata-rata kadar gula dalam darah
10 BMI Body Mass Index pasien
11 Smoking_status smoking_status: "formerly smoked", "never smoked",

"smokes" or "Unknown"*
0 = tidak berpotensi terkena stroke
12 Stroke 1 =berpotensi terkena st
METODE
Binary Classification menggunakan
gradient boosting
BAHASA PEMROGRA- ALGORITMA KLASIFIKASI
MAN Gradient Boosting
Python, menggunakan IDE Py-
charm
METODE
METODE EVALUASI
METODE
Confusion matrix, sensitivity,
BINARY CLASSIFICATION
specificity, accuracy
LANGKAH IMPLEMENTASI METODE
Dibawah ini adalah langkah yang akan dilakukan untuk melakukan klasifikasi
STEP STEP STEP STEP STEP STEP
01 02 03 04 05 06
Input Data Prepocessing Pemisahan pre- Pembuatan Proses training Evaluasi sistem
data dictor dan tar- model gradient & testing data
Melakukan input data Melakukan evaluasi
.csv menjadi get class boosting kinerja system meng-
Prepocessing data di- Melakukan trainig dan
dataframe pada gunakan confusion
lakukan untuk Predictor berisi 11 Pembuatan model di- testing pada data
python matrix, sensitivity,
menghilangkan outlier atribut, sedangkan lakukan dengan de- mengguanakan model
dan missing value yang sudah dibuat specificity, dan accu-
target class berisi 1 fault parameter yang
racy
atribut dimiliki oleh gradient
boosting
NOTE : Apabila dirasa

hasil evaluasi tidak
memuaskan, maka
akan dilakukan pemil-
ihan parameter
menggunakan k-fold
validation
LANGKAH IMPLEMENTASI METODE
IMPLEMENTATION & RE-
SULT
1. INPUT & DESKRIPSI DATA
Menghilangkan missing value atribut BMI (mengganti value menjadi “-99”) & rename atribut
Terdapat beberapa missing value pada

atribut BMI, yang kemudian akan diatasi
pada tahap preprocessing data
2. VISUALISASI DATA
1. Persebaran atribut numerik
2. Target 3. Persebaran atribut categorikal

2. VISUALISASI DATA
3. Persebaran atribut categorikal
2.1 VISUALISASI KORELASI ANTARA NUMERICAL PERDICTOR DAN TARGET
1. Age vs Stroke
2. Avg Glucose Level vs Stroke
3. BMI vs Stroke
Merupakan data yang tidak

memiliki value BMI (miss-
ing value), maka dari itu,
diperlukan pengecekan dan
normalisasi
3. BMI vs Stroke
Setelah dilakukan pengecekan dan transpose, akan terlihat persebaran

stroke berdasarkan BMI dengan nilai presentase.
Hampir 20% dari BMI yang hilang mengalami stroke, nilai ini jauh lebih tinggi
daripada bin (partisi) lainnya.
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
1. Gender vs Stroke 2. Hipertensi vs Stroke
Gender tidak begitu berpengaruh terhadap hasil Hypertensi memperngaruhi hasil prediksi
prediksi
3. Heart Disease vs Stroke 4. Hipertensi vs Ever Married
Penyakit jantung memperngaruhi hasil prediksi Status pernikahan memperngaruhi hasil prediksi
5. Work Type vs Stroke
Work type tidak begitu memperngaruhi hasil prediksi

6. Residence Type vs Stroke 7. Smoking Status vs Stroke
Residence type tidak begitu memperngaruhi hasil prediksi Smoking Status memperngaruhi hasil prediksi
(3)
BUILD GRADIENT BOOST-
ING MODEL
CLASSIFIER
GRADIENT BOOSTING CLASSIFIER MENGGUNAKAN H20
Apa itu H20?
• H2O adalah open-source, distributed in-memory machine learning plat -

form.
• H2O mendukung algoritma statistik & machine learning yang banyak di-
gunakan dan juga memiliki fungsi AutoML.
• H2O ditulis dalam Java dan REST API-nya memungkinkan akses ke semua
kemampuan H2O dari program atau skrip eksternal.
• Platform ini mencakup antarmuka untuk R, Python, Scala, Java, JSON dan
CoffeeScript/JavaScript.
3.1 Memilih Predictor
3.2 mengaktifkan H2O dan Melakukan training dengan baseline model
60-40
70-30
80-20
BUILD MODEL
3.3 Mendefinisikan Model
Parameter Value Parameter Value
GRADIENT
Ntrees 100 stopping_rounds 10
BOOSTING Base-
line Model Max_depth 4 seed 999
Min_rows 10
Learn_rate 0.01
Sample_rate 1
Col_sample_rate 0,7
Nfold 5
score_each_iteration True
stopping_metric auto
3.4 Melakukan Training Terhadap Model
3.4.1 Cross Validation Matrix
EVALUATION
TRAINING DATASET TESTING DATASET

EVALUATION ON TRAINING DATASET
3.5 Evaluasi Pada Training Data
AUC
60-40 70-30 80-20
AUC = 0,8975 AUC = 0,8976 AUC = 0,8994

CONFUSION MATRIX & ACCURACY (Defaults Threshold)
60-40 : 70-30 : 80-20 :

0,13680574181803198 0,12790678230003902 0,16284098025664154
CONFUSION MATRIX & ACCURACY (Manual Threshold) : 0,148
60-40 : 70-30 : 80-20 :

0,14801886816635415 0,1478570244997902 0,1480724678976465
CONCLUSION
ACCURACY (DEFAULT THRESHOLD) ACCURACY (MANUAL THRESHOLD)

DATA ACCURACY DATA ACCURACY
60-40 0,936441 60-40 0,943937
70-30 0,92312 70-30 0,939554
80-20 0,950804 80-20 0,940331
Rata-Rata 0,936788 Rata-Rata 0,941274
AUC
DATA AUC
60-40 0,8975
70-30 0,8976
80-20 0,8994
Rata-Rata 0,8982
EVALUATION ON TESTING DATASET
3.7 Evaluasi Pada Testing Data
AUC
60-40 70-30 80-20
AUC = 0,8589 AUC = 0,8542 AUC = 0,8267

CONFUSION MATRIX & ACCURACY (Manual Threshold) : 1,48
60-40 70-30 80-20

0,14797994626973526 0,1480016916497603 0,14814389792818322
CONCLUSION
AUC ACCURACY (MANUAL THRESHOLD)

DATA AUC DATA ACCURACY
60-40 0,8589 60-40 0,929971
70-30 0,8542 70-30 0,931579
80-20 0,8267 80-20 0,934263
Rata-Rata 0,8473 Rata-Rata 0,931938
3.9 VARIABLE IMPORTANCE
60-40
70-30
80-20
KESIMPULAN
Classifier
Gradient Boosting Classifier Menggunakan H20
Perbandingan Data Training & Testing
(60-40) (70-30) (80-20)
Evaluasi Model (nilai rata-rata)

TRAINING DATASET TESTING DATASET
AUC 0,8982 AUC 0,8473
ACCURACY ACCURACY
MANUAL THRESHOLD 0,941274 MANUAL THRESHOLD 0,931938
DEFAULT THRESHOLD 0,936788
Variable Importance
Dari hasil klasifikasi, berikut adalah variable yang paling berpengaruh terhadap terjadinya stroke pada seseo-
rang :
• Age (umur)
• BMI (berat badan)
• Average Glucose Level (kadar gula dalam darah)
• Smoking Status (merokok)
Thanks !
Presentation template by
http://www.pptmon.com/ Ctrl + Click to follow link

ZH ProjectUAS

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ZH ProjectUAS

Diunggah oleh

Hak Cipta:

Format Tersedia

Klasifikasi Stroke Menggunakan

Algoritma Gradient Boosting

Zhafira Hajar (081811633035)

06. 09. 2021

Reference Paper Dataset Metode

“Stroke prediction using machine

JUMLAH ATRIBUT TARGET CLASS

3 Age Umur pasien

9 Avg_glucose Rata-rata kadar gula dalam darah

10 BMI Body Mass Index pasien

11 Smoking_status smoking_status: "formerly smoked", "never smoked",

STEP STEP STEP STEP STEP STEP

NOTE : Apabila dirasa

Terdapat beberapa missing value pada

2. Target 3. Persebaran atribut categorikal

Merupakan data yang tidak

Setelah dilakukan pengecekan dan transpose, akan terlihat persebaran

Work type tidak begitu memperngaruhi hasil prediksi

6. Residence Type vs Stroke 7. Smoking Status vs Stroke

Apa itu H20?

• H2O adalah open-source, distributed in-memory machine learning plat -

3.2 mengaktifkan H2O dan Melakukan training dengan baseline model

TRAINING DATASET TESTING DATASET

60-40 70-30 80-20

AUC = 0,8975 AUC = 0,8976 AUC = 0,8994

60-40 : 70-30 : 80-20 :

CONFUSION MATRIX & ACCURACY (Manual Threshold) : 0,148

60-40 : 70-30 : 80-20 :

ACCURACY (DEFAULT THRESHOLD) ACCURACY (MANUAL THRESHOLD)

60-40 0,936441 60-40 0,943937

70-30 0,92312 70-30 0,939554

80-20 0,950804 80-20 0,940331

Rata-Rata 0,936788 Rata-Rata 0,941274

60-40 70-30 80-20

AUC = 0,8589 AUC = 0,8542 AUC = 0,8267

CONFUSION MATRIX & ACCURACY (Manual Threshold) : 1,48

60-40 70-30 80-20

AUC ACCURACY (MANUAL THRESHOLD)

Evaluasi Model (nilai rata-rata)

http://www.pptmon.com/ Ctrl + Click to follow link

Anda mungkin juga menyukai