Anda di halaman 1dari 48

Klasifikasi Stroke Menggunakan

Algoritma Gradient Boosting

Zhafira Hajar (081811633035)

06. 09. 2021


CONTENT

Reference Paper Dataset Metode


Menjelaskan tentang penelitian Menjelaskan tentang dataset yang Menjabarkan metode yang akan
sebslumnya digunakan digunakan untuk melakukan klasi-
fikasi
REFERENCE PAPER

“Stroke prediction using machine


learning in a distributed environment”
Rajora, M., Rathod, M. & Naik, N.S., 2021, Stroke prediction using machine
learning in a distributed environment, Lecture Notes in Computer Science
(including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics), 12582 LNCS, 238–252.
Latar belakang Tujuan
Melakukan prediksi penyakit
Menurut American Heart Report, stroke menggunakan data
tingkat kematian dari stroke pada biomedis dengan memanfaatkan
2017 adalah 37,6 di setiap teknik klasifikasi pada machine
100.000 kasus. Maka dari itu, learing. Metode yang diuji : Naive
pembuatan system untuk Bayes, Logistic Regression, Deci-
melakukan prediksi, apakah sion Tree, Random Forest dan
seseorang berpotensi mengidap Gradient Boosting. Sistem dibuat
penyakit stroke harus dilakukan. dengan Apache Spark frame-
work.

Data Result
Data yang digunakan adalah data Gradient boosting yang belum di-
43.400 data biomedis pasien yang lakukan fine-tuning mendapatkan Setelah gradient boosting di-
berisi 11 atribut, yaitu gender, nilai lakukan fine-tuning :
age, hypertention, heart disesase, AUC 0,90 AUC 0,94
marital status, work-type, reci- accuracy 0,867 accuracy 0,9449
dence area, avg-glucose, BMI, precision 0,8673 precision 0,9453
smoking-status, stroke status recall 0,866 recall 0,9449
(class) F1 0,8659 F1 0,0448
Karena gradient boosting menda-
patkan nilai tertinggi untuk AUC,
maka dilakukan penyesuaian pa-
rameter. Setelah dilakukan fine-
tuning, ternyata terdapat pen-
ingkatan nilai AUC.
DATASET
“Stroke Prediction Dataset”
SUMBER JUMLAH BARIS
https://www.kaggle.com/ 5.111 baris
fedesoriano/stroke-prediction-
dataset

DATASET

JUMLAH ATRIBUT TARGET CLASS


11 Atribut predictor, 1 atribut
1 atribut class (0 = tidak
class
berpotensi memiliki stroke, 1 =
berpotensi terkena stroke
No Atribut Keterangan
1 Id Id dari pasien

ATRIBUT DATASET
2 Gender Jenis kelamin pasien

3 Age Umur pasien


0 = tidak memiliki hipertensi
4 Hypertension 1 = memiliki hipertensi
0 = tidak memiliki penyakit jantung
5 Heart_disease 1 = memiliki penyakit jantung
0 = tidak pernah menikah
6 Ever_married 1 = sudah pernah menikah
Pekerjaan pasien ("children", "Govt_jov", "Never_worked",
7 Work_type "Private" or "Self-employed")
8 Residence_type Tempat tinggal pasien ("Rural" or "Urban“)

9 Avg_glucose Rata-rata kadar gula dalam darah

10 BMI Body Mass Index pasien

11 Smoking_status smoking_status: "formerly smoked", "never smoked",


"smokes" or "Unknown"*
0 = tidak berpotensi terkena stroke
12 Stroke 1 =berpotensi terkena st
METODE
Binary Classification menggunakan
gradient boosting
BAHASA PEMROGRA- ALGORITMA KLASIFIKASI
MAN Gradient Boosting
Python, menggunakan IDE Py-
charm

METODE

METODE EVALUASI
METODE
Confusion matrix, sensitivity,
BINARY CLASSIFICATION
specificity, accuracy
LANGKAH IMPLEMENTASI METODE
Dibawah ini adalah langkah yang akan dilakukan untuk melakukan klasifikasi

STEP STEP STEP STEP STEP STEP

01 02 03 04 05 06

Input Data Prepocessing Pemisahan pre- Pembuatan Proses training Evaluasi sistem
data dictor dan tar- model gradient & testing data
Melakukan input data Melakukan evaluasi
.csv menjadi get class boosting kinerja system meng-
Prepocessing data di- Melakukan trainig dan
dataframe pada gunakan confusion
lakukan untuk Predictor berisi 11 Pembuatan model di- testing pada data
python matrix, sensitivity,
menghilangkan outlier atribut, sedangkan lakukan dengan de- mengguanakan model
dan missing value yang sudah dibuat specificity, dan accu-
target class berisi 1 fault parameter yang
racy
atribut dimiliki oleh gradient
boosting

NOTE : Apabila dirasa


hasil evaluasi tidak
memuaskan, maka
akan dilakukan pemil-
ihan parameter
menggunakan k-fold
validation
LANGKAH IMPLEMENTASI METODE
IMPLEMENTATION & RE-
SULT
1. INPUT & DESKRIPSI DATA
Menghilangkan missing value atribut BMI (mengganti value menjadi “-99”) & rename atribut

Terdapat beberapa missing value pada


atribut BMI, yang kemudian akan diatasi
pada tahap preprocessing data
2. VISUALISASI DATA
1. Persebaran atribut numerik

2. Target 3. Persebaran atribut categorikal


2. VISUALISASI DATA
3. Persebaran atribut categorikal
2.1 VISUALISASI KORELASI ANTARA NUMERICAL PERDICTOR DAN TARGET
1. Age vs Stroke
2. Avg Glucose Level vs Stroke
3. BMI vs Stroke

Merupakan data yang tidak


memiliki value BMI (miss-
ing value), maka dari itu,
diperlukan pengecekan dan
normalisasi
3. BMI vs Stroke

Setelah dilakukan pengecekan dan transpose, akan terlihat persebaran


stroke berdasarkan BMI dengan nilai presentase.

Hampir 20% dari BMI yang hilang mengalami stroke, nilai ini jauh lebih tinggi
daripada bin (partisi) lainnya.
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
1. Gender vs Stroke 2. Hipertensi vs Stroke

Gender tidak begitu berpengaruh terhadap hasil Hypertensi memperngaruhi hasil prediksi
prediksi
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
3. Heart Disease vs Stroke 4. Hipertensi vs Ever Married

Penyakit jantung memperngaruhi hasil prediksi Status pernikahan memperngaruhi hasil prediksi
2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET
5. Work Type vs Stroke

Work type tidak begitu memperngaruhi hasil prediksi


2.2 VISUALISASI KORELASI ANTARA CATEGORICAL PERDICTOR DAN TARGET

6. Residence Type vs Stroke 7. Smoking Status vs Stroke

Residence type tidak begitu memperngaruhi hasil prediksi Smoking Status memperngaruhi hasil prediksi
(3)
BUILD GRADIENT BOOST-
ING MODEL
CLASSIFIER
GRADIENT BOOSTING CLASSIFIER MENGGUNAKAN H20

Apa itu H20?

• H2O adalah open-source, distributed in-memory machine learning plat -


form.
• H2O mendukung algoritma statistik & machine learning yang banyak di-
gunakan dan juga memiliki fungsi AutoML.
• H2O ditulis dalam Java dan REST API-nya memungkinkan akses ke semua
kemampuan H2O dari program atau skrip eksternal.
• Platform ini mencakup antarmuka untuk R, Python, Scala, Java, JSON dan
CoffeeScript/JavaScript.
3.1 Memilih Predictor

3.2 mengaktifkan H2O dan Melakukan training dengan baseline model

60-40

70-30

80-20
BUILD MODEL
3.3 Mendefinisikan Model
Parameter Value Parameter Value
GRADIENT
Ntrees 100 stopping_rounds 10
BOOSTING Base-
line Model Max_depth 4 seed 999

Min_rows 10
Learn_rate 0.01
Sample_rate 1
Col_sample_rate 0,7
Nfold 5
score_each_iteration True
stopping_metric auto
3.4 Melakukan Training Terhadap Model
3.4.1 Cross Validation Matrix
EVALUATION

TRAINING DATASET TESTING DATASET


EVALUATION ON TRAINING DATASET
3.5 Evaluasi Pada Training Data
AUC

60-40 70-30 80-20

AUC = 0,8975 AUC = 0,8976 AUC = 0,8994


3.5 Evaluasi Pada Training Data
CONFUSION MATRIX & ACCURACY (Defaults Threshold)

60-40 : 70-30 : 80-20 :


0,13680574181803198 0,12790678230003902 0,16284098025664154

CONFUSION MATRIX & ACCURACY (Manual Threshold) : 0,148

60-40 : 70-30 : 80-20 :


0,14801886816635415 0,1478570244997902 0,1480724678976465
3.5 Evaluasi Pada Training Data
CONCLUSION

ACCURACY (DEFAULT THRESHOLD) ACCURACY (MANUAL THRESHOLD)


DATA ACCURACY DATA ACCURACY

60-40 0,936441 60-40 0,943937

70-30 0,92312 70-30 0,939554

80-20 0,950804 80-20 0,940331

Rata-Rata 0,936788 Rata-Rata 0,941274

AUC
DATA AUC
60-40 0,8975
70-30 0,8976
80-20 0,8994
Rata-Rata 0,8982
EVALUATION ON TESTING DATASET
3.7 Evaluasi Pada Testing Data
AUC

60-40 70-30 80-20

AUC = 0,8589 AUC = 0,8542 AUC = 0,8267


3.7 Evaluasi Pada Testing Data

CONFUSION MATRIX & ACCURACY (Manual Threshold) : 1,48

60-40 70-30 80-20


0,14797994626973526 0,1480016916497603 0,14814389792818322
3.7 Evaluasi Pada Testing Data
CONCLUSION

AUC ACCURACY (MANUAL THRESHOLD)


DATA AUC DATA ACCURACY
60-40 0,8589 60-40 0,929971
70-30 0,8542 70-30 0,931579
80-20 0,8267 80-20 0,934263
Rata-Rata 0,8473 Rata-Rata 0,931938
3.9 VARIABLE IMPORTANCE

60-40
3.9 VARIABLE IMPORTANCE

70-30
3.9 VARIABLE IMPORTANCE

80-20
KESIMPULAN
Classifier
Gradient Boosting Classifier Menggunakan H20
Perbandingan Data Training & Testing
(60-40) (70-30) (80-20)

Evaluasi Model (nilai rata-rata)


TRAINING DATASET TESTING DATASET
AUC 0,8982 AUC 0,8473
ACCURACY ACCURACY
MANUAL THRESHOLD 0,941274 MANUAL THRESHOLD 0,931938
DEFAULT THRESHOLD 0,936788

Variable Importance
Dari hasil klasifikasi, berikut adalah variable yang paling berpengaruh terhadap terjadinya stroke pada seseo-
rang :
• Age (umur)
• BMI (berat badan)
• Average Glucose Level (kadar gula dalam darah)
• Smoking Status (merokok)
Thanks !
Presentation template by

http://www.pptmon.com/ Ctrl + Click to follow link

Anda mungkin juga menyukai