Anda di halaman 1dari 41

Klasifikasi Pada Blood Transfusion Data Set

Oleh:
Dewi Damayanti – 06211540000071

Dosen Pembimbing:
Dr. Dra. Kartika Fithriasari, M.Si.
Novri Suhermi, S.Si., M.Sc.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember
2018

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Outline
PENDAHULUAN
Pengenalan Kasus

METODOLOGI Sumber Data, Variabel,


Langkah Analisis

Pre-Processing, Feature Selection, Eksplorasi, Klasifikasi


HASIL & PEMBAHASAN Baseline Model, Klasifikasi Hyperparameter, Evaluasi
Ketepatan Model Klasifikasi

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
PENDAHULUAN
Pendahuluan

Machine Learning
Klasifikasi
Sumber Gambar :
doi:10.1371/journal.pone.0048139.g001
Prediksi
Apakah seseorang dapat mendonorkan
Hsin-Chu Blood Transfusion Service Centre darah atau tidak pada Maret 2007
Donor darah di salah satu universitas di Hsin-Chu,
Taiwan setiap ±3 bulan sekali

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
METODOLOGI
Metodologi
Metode Klasifikasi
Sumber Data kNN, Naïve Bayes, Decision
Tree, Random Forest,
Blood Transfusion Data Set
Bagging, Gradient Boosting,
dari UCI Machine Learning
dan Adaptive Boosting
Repository
- Base model
- Hyperparameter model

Variabel
1. Recency
2. Frequency Evaluasi Model
3. Monetary Confusion Matrix
4. Time - Akurasi
5. Class - Presisi
- Recall

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Metodologi L
a
n
Pre-Processing Eksplorasi Klasifikasi Evaluasi g
k
Evaluasi
Menyiapkan data Melakukan Klasifikasi meng- ketepatan a
meliputi eksplorasi data gunakan metode klasifikasi pada
pembersih-an data yang dilanjutkan h
machine learning setiap model
dan feature dengan feature baik dengan model dengan confusion
engineering selection umum dan model matrix A
hyperparameter
n
a
l
i
s
i
Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data s
Institut Teknologi Sepuluh Nopember 2018
HASIL DAN PEMBAHASAN
Pre-Processing Data
Informasi Data

Banyaknya data ada


748 dengan 5 variabel

Tidak ada missing


value

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Pre-Processing Data
Informasi Data

Variabel Class sebagai


target menrupakan
data biner

Semua variabel x
merupakan data
numerik

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Pre-Processing Data

Mean pada keempat variabel x


tidak sama, terutama
Monetary jauh berbeda. Range
pada Monetary juga besar.
Variabel Monetary akan diubah
menjadi kategorik untuk
meminimalkan adanya data
noise.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Engineering
Bin Numerical Data (Variabel
Monetary)

MonetaryCt sebagai variabel


Monetary dalam bentuk
kategorik

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Engineering
Tambah Variabel Tendency

Dari data yang ada,


memungkinkan dibentuk
variabel baru yaitu Tendency.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Engineering
Hapus Variabel Monetary

Monetary sudah tidak


digunakan lagi sehingga
variabel tersebut dihapus.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data
Pair Plot

Antarkelas dapat dibedakan


dengan cukup baik dan terlihat
seimbang. Namun mungkin
masih terjadi overlap.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data
Pair Plot

Di beberapa scatter plot, kelas


0 lebih banyak dibandingkan
kelas 1.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data

Count Plot Class

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data

Count Plot Monetary by Class

Count Plot Monetary

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data

Semua variabel tidak berdistribusi


normal

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data
Plot Distribusi dan Plot Distribusi berdasarkan
Class

Recency Frequency Time Tendency

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data

Box Plot

Box Plot by Class

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Eksplorasi Data
Korelasi Antarvariabel

Korelasi paling tinggi adalah korelasi


antara Frequency dan Time

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Selection

Variabel yang berpengaruh paling besar


adalah Tendency dengan 27,73%.
Sedangkan yang paling kecil pengaruhnya
adalah MonetaryCt dengan 3%.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Selection

Hasil Feature
Selection dengan
threshold = 0,15
terpilih 4 variabel

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Feature Selection
Akurasi dengan semua
variabel

Dengan hanya menggunakan 4


variabel hasil feature selection,
nilai akurasi meningkat ±1,33%.

Akurasi dengan 4 variabel


important

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Base Model

Data dibagi menjadi data training dan


data testing sebesar 20%.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Base Model
Akurasi data training dan testing dengan base model

Akurasi data training paling


tinggi adalah Decision Tree.
Namun pada data testing, akurasi
Decision Tree turun cukup jauh.
Sedangkan akurasi paling tinggi
untuk data testing adalah
Gradient Boosting.

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Base Model
Tree untuk Decision Tree
dengan Base Model

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Menentukan parameter terbaik dengan GridSearchCV

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
kNN

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Decision Tree

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Random Forest

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Gradient
Boosting

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Adaptive Boosting

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Akurasi data training dan testing dengan hyperparameter
model

Best Decision Tree menghasilkan


akurasi paling tinggi pada data
training maupun data testing.

Jika dibandingkan dengan


metode terbaik pada base model,
yaitu Gradient Boosting
(75,33%), akurasi data testing
pada Best Decision Tree masih
lebih baik

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Klasifikasi dengan Parameter Tuning
Tree untuk Decision Tree
dengan Hyperparameter

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Confusion Matrix

kNN Naïve Bayes Decision Tree

Random Bagging Gradient


Forest Boosting

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Confusion Matrix

Adaptive Best kNN Best Decision


Boosting Tree

Best Random Best Gradient Best Adaptive


Forest Boosting Boosting

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Ketepatan Klasifikasi
Akurasi Presisi Recall

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data


Institut Teknologi Sepuluh Nopember 2018
Kesimpulan

Best Decision Tree menghasilkan nilai akurasi dan recall yang


paling tinggi, namun nilai presisinya masih relatif kecil. Sedang
kan Best kNN memiliki nilai akurasi dan presisi yang paling
tinggi, namun nilai recallnya cenderung rendah. Sehingga d
apat disimpulkan metode klasifikasi terbaik untuk memp
rediksi seseorang donor darah atau tidak pada Maret 2007 di sa
lah satu universitas di Hsin-chu, Taiwan adalah kNN dan D
ecision Tree dengan hyperparameter.
Donate or
not?
TERIMA KASIH