Classification of Blood Transfusion Data Set

Klasifikasi Pada Blood Transfusion Data Set
Oleh:
Dewi Damayanti – 06211540000071
Dosen Pembimbing:
Dr. Dra. Kartika Fithriasari, M.Si.
Novri Suhermi, S.Si., M.Sc.
Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Institut Teknologi Sepuluh Nopember
2018

Institut Teknologi Sepuluh Nopember 2018
Outline
PENDAHULUAN
Pengenalan Kasus
METODOLOGI Sumber Data, Variabel,

Langkah Analisis
Pre-Processing, Feature Selection, Eksplorasi, Klasifikasi

HASIL & PEMBAHASAN Baseline Model, Klasifikasi Hyperparameter, Evaluasi
Ketepatan Model Klasifikasi

PENDAHULUAN
Pendahuluan
Machine Learning
Klasifikasi
Sumber Gambar :
doi:10.1371/journal.pone.0048139.g001
Prediksi
Apakah seseorang dapat mendonorkan
Hsin-Chu Blood Transfusion Service Centre darah atau tidak pada Maret 2007
Donor darah di salah satu universitas di Hsin-Chu,
Taiwan setiap ±3 bulan sekali

METODOLOGI
Metodologi
Metode Klasifikasi
Sumber Data kNN, Naïve Bayes, Decision
Tree, Random Forest,
Blood Transfusion Data Set
Bagging, Gradient Boosting,
dari UCI Machine Learning
dan Adaptive Boosting
Repository
- Base model
- Hyperparameter model
Variabel
1. Recency
2. Frequency Evaluasi Model
3. Monetary Confusion Matrix
4. Time - Akurasi
5. Class - Presisi
- Recall

Metodologi L
a
n
Pre-Processing Eksplorasi Klasifikasi Evaluasi g
k
Evaluasi
Menyiapkan data Melakukan Klasifikasi meng- ketepatan a
meliputi eksplorasi data gunakan metode klasifikasi pada
pembersih-an data yang dilanjutkan h
machine learning setiap model
dan feature dengan feature baik dengan model dengan confusion
engineering selection umum dan model matrix A
hyperparameter
n
a
l
i
s
i
Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data s
HASIL DAN PEMBAHASAN
Pre-Processing Data
Informasi Data
Banyaknya data ada

748 dengan 5 variabel
Tidak ada missing

value

Pre-Processing Data
Informasi Data
Variabel Class sebagai

target menrupakan
data biner
Semua variabel x
merupakan data
numerik

Pre-Processing Data
Mean pada keempat variabel x

tidak sama, terutama
Monetary jauh berbeda. Range
pada Monetary juga besar.
Variabel Monetary akan diubah
menjadi kategorik untuk
meminimalkan adanya data
noise.

Feature Engineering
Bin Numerical Data (Variabel
Monetary)
MonetaryCt sebagai variabel

Monetary dalam bentuk
kategorik

Feature Engineering
Tambah Variabel Tendency
Dari data yang ada,

memungkinkan dibentuk
variabel baru yaitu Tendency.

Feature Engineering
Hapus Variabel Monetary
Monetary sudah tidak

digunakan lagi sehingga
variabel tersebut dihapus.

Eksplorasi Data
Pair Plot
Antarkelas dapat dibedakan

dengan cukup baik dan terlihat
seimbang. Namun mungkin
masih terjadi overlap.

Eksplorasi Data
Pair Plot
Di beberapa scatter plot, kelas

0 lebih banyak dibandingkan
kelas 1.

Eksplorasi Data
Count Plot Class

Eksplorasi Data
Count Plot Monetary by Class
Count Plot Monetary

Eksplorasi Data
Semua variabel tidak berdistribusi

normal

Eksplorasi Data
Plot Distribusi dan Plot Distribusi berdasarkan
Class
Recency Frequency Time Tendency

Eksplorasi Data
Box Plot
Box Plot by Class

Eksplorasi Data
Korelasi Antarvariabel
Korelasi paling tinggi adalah korelasi

antara Frequency dan Time

Feature Selection
Variabel yang berpengaruh paling besar

adalah Tendency dengan 27,73%.
Sedangkan yang paling kecil pengaruhnya
adalah MonetaryCt dengan 3%.

Feature Selection
Hasil Feature
Selection dengan
threshold = 0,15
terpilih 4 variabel

Feature Selection
Akurasi dengan semua
variabel
Dengan hanya menggunakan 4

variabel hasil feature selection,
nilai akurasi meningkat ±1,33%.
Akurasi dengan 4 variabel

important

Klasifikasi dengan Base Model
Data dibagi menjadi data training dan

data testing sebesar 20%.

Akurasi data training dan testing dengan base model
Akurasi data training paling

tinggi adalah Decision Tree.
Namun pada data testing, akurasi
Decision Tree turun cukup jauh.
Sedangkan akurasi paling tinggi
untuk data testing adalah
Gradient Boosting.

Tree untuk Decision Tree
dengan Base Model

Klasifikasi dengan Parameter Tuning
Menentukan parameter terbaik dengan GridSearchCV

kNN

Decision Tree

Random Forest

Gradient
Boosting

Adaptive Boosting

Akurasi data training dan testing dengan hyperparameter
model
Best Decision Tree menghasilkan

akurasi paling tinggi pada data
training maupun data testing.
Jika dibandingkan dengan

metode terbaik pada base model,
yaitu Gradient Boosting
(75,33%), akurasi data testing
pada Best Decision Tree masih
lebih baik

Tree untuk Decision Tree
dengan Hyperparameter

Confusion Matrix
kNN Naïve Bayes Decision Tree
Random Bagging Gradient

Forest Boosting

Confusion Matrix
Adaptive Best kNN Best Decision

Boosting Tree
Best Random Best Gradient Best Adaptive

Forest Boosting Boosting

Ketepatan Klasifikasi
Akurasi Presisi Recall

Kesimpulan
Best Decision Tree menghasilkan nilai akurasi dan recall yang

paling tinggi, namun nilai presisinya masih relatif kecil. Sedang
kan Best kNN memiliki nilai akurasi dan presisi yang paling
tinggi, namun nilai recallnya cenderung rendah. Sehingga d
apat disimpulkan metode klasifikasi terbaik untuk memp
rediksi seseorang donor darah atau tidak pada Maret 2007 di sa
lah satu universitas di Hsin-chu, Taiwan adalah kNN dan D
ecision Tree dengan hyperparameter.
Donate or
not?
TERIMA KASIH

Classification of Blood Transfusion Data Set

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Classification of Blood Transfusion Data Set

Diunggah oleh

Hak Cipta:

Format Tersedia

Klasifikasi Pada Blood Transfusion Data Set

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

METODOLOGI Sumber Data, Variabel,

Pre-Processing, Feature Selection, Eksplorasi, Klasifikasi

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Banyaknya data ada

Tidak ada missing

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Variabel Class sebagai

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Mean pada keempat variabel x

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

MonetaryCt sebagai variabel

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Dari data yang ada,

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Monetary sudah tidak

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Antarkelas dapat dibedakan

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Di beberapa scatter plot, kelas

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Count Plot Class

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Count Plot Monetary by Class

Count Plot Monetary

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Semua variabel tidak berdistribusi

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Recency Frequency Time Tendency

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Box Plot by Class

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Korelasi paling tinggi adalah korelasi

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Variabel yang berpengaruh paling besar

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Dengan hanya menggunakan 4

Akurasi dengan 4 variabel

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Data dibagi menjadi data training dan

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Akurasi data training paling

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Best Decision Tree menghasilkan

Jika dibandingkan dengan

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

kNN Naïve Bayes Decision Tree

Random Bagging Gradient

Departemen Statistika – Fakultas Matematika, Komputasi, dan Sains Data

Adaptive Best kNN Best Decision

Best Random Best Gradient Best Adaptive