0% menganggap dokumen ini bermanfaat (0 suara)
31 tayangan10 halaman

Analisis Algoritma Prediksi Titanic

Diunggah oleh

Dina fani safira
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
31 tayangan10 halaman

Analisis Algoritma Prediksi Titanic

Diunggah oleh

Dina fani safira
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd

TUGAS

PERBANDINGAN ALGORITMA NAIVE BAYES, K-NEAREST NEIGHBOR (KNN), C4.5,


RANDOM FOREST, LOGISTIC REGRESSION UNTUK MEMPREDIKSI KELANGSUNGAN
HIDUP PENUMPANG TITANIC

Disusun untuk Memenuhi Tugas Mata Kuliah Data Mining

Dosen Pengampu : Inggih Permana, S.T., M.Kom.

Disusun oleh:

Kelompok 3
Sistem Informasi 5C
1. Dina Pani Safira (12250320357)
2. Falhamilat Wikron (12250321194)
3. Mutiara Zahira Rissa (12250321251)

PROGRAM STUDI SISTEM INFORMASI


FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SULTAN SYARIF KASIM RIAU
2024
2. Metodologi Penelitian
Penelitian ini mencakup lima tahapan utama: pencarian data dari Kruggle, praproses
data, pembagian data menjadi set latih dan uji, pembuatan model dengan algoritma seperti
Logistic Regression, Naive Bayes, KNN, C4.5, dan Random Forest, serta perbandingan
performa model untuk evaluasi kinerja. Tahapan-tahapan tersebut ditunjukkan pada
Gambar 1.

Gambar 1. Metodologi Penelitian

2.1 Pengumpulan Data


Data yang digunakan dalam penelitian ini bersumber dari Kruggle, sebuah platform
pencarian data yang menyediakan berbagai dataset untuk keperluan analisis. Dataset yang
dipilih adalah Titanic Dataset, yang berisi informasi mengenai penumpang kapal Titanic,
termasuk fitur-fitur demografis dan status kelangsungan hidup.

2.2 Praproses Data


Pada praproses data dilakukan data cleaning dan transformasi data. Data cleaning yang
dilakukan adalah penghapusan baris data yang mengandung nilai Null. Penghapusan
tersebut dilakukan dengan menggunakan filter Impute Missing Value pada tools Orange.
Sedangkan transformasi data yang dilakukan adalah normalisasi data dengan
menggunakan Normalize to Interval [0,1]. Normalisasi ini dilakukan dengan filter
Normalize Features pada tools Orange.
2.3 Pembagian Data Latih dan Data Uji
Proses pengujian menerapkan K-Fold Cross Validation (K=10) yang dapat diatur pada
widget "Test and Score" pada tools Orange. Metode ini membagi keseluruhan data menjadi
10 subset, di mana setiap subset digunakan secara bergantian sebagai data testing,
sementara 9 subset lainnya digunakan sebagai data training. Pendekatan ini
memungkinkan estimasi kesalahan prediksi kinerja model yang lebih akurat (Muharrom,
2023).

2.4 Pembuatan Model Klasifikasi


Pada Penilitan ini digunakan 5 algoritma klasifikasi yaitu NBC, K-NN, C4.5, Random
Forest, dan Logistic Regression.
a. Naïve Bayes Classifier
Pada algoritma NBC, widget Naïve Bayes (NBC) digunakan untuk melatih model
dengan data training di Orange, kemudian kinerja model dievaluasi menggunakan
widget Test & Score pada data testing. Dalam proses perhitungan, Orange secara
otomatis melakukan penanganan smoothing tanpa perlu pengaturan tambahan
untuk menangani nilai probabilitas 0 (nol) (Rayuwati et al., 2022).
b. K-Nearest Neighbor
Pada algoritma K-NN, dilakukan 10 kali percobaan dengan mencoba berbagai nilai
parameter K. Nilai K yang diuji pada K-NN adalah K = 3, 5, 7, 9, 11, 13, 15, 17,
19, dan 21. Widget yang digunakan adalah KNN pada data training di Orange,
kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan widget Test
& Score pada data testing. Orange secara otomatis menggunakan Euclidean
distance sebagai metode pengukuran jarak untuk atribut numerik tanpa perlu
pengaturan tambahan (Putra et al., 2024).
c. C4.5
Pada algoritma C4.5, digunakan widget Decision Tree pada kolom data training di
Orange, kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan
widget Test & Score pada kolom data testing. Parameter yang digunakan mencakup
pruning dan pre-pruning, yang secara otomatis diterapkan oleh Orange untuk
meningkatkan akurasi hasil model (Junaedi et al., 2019).
d. Random Forest
Pada algoritma Random Forest, digunakan widget Random Forest pada kolom data
training di Orange. Model dilatih dengan menggunakan data training yang telah
disiapkan, kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan
widget Test & Score pada kolom data testing (Sandag, 2020).
e. Logistic Regression
Pada algoritma Logistic Regression, digunakan widget Logistic Regression di
kolom data training dalam Orange. Setelah model dilatih menggunakan data
tersebut, model diterapkan pada data testing, dan kinerjanya dievaluasi dengan
widget Test & Score (Utami et al., 2021).

2.5 Perbandingan Performa


Setelah penerapan setiap model klasifikasi, evaluasi dilakukan menggunakan confusion
matrix untuk menghitung metrik kinerja seperti akurasi, presisi, dan recall. Proses ini
dilakukan dengan widget Test & Score di Orange, yang memberikan analisis menyeluruh
tentang kinerja model berdasarkan data testing (Syahril Dwi Prasetyo et al., 2023).
Selanjutnya, dilakukan analisis perbandingan akurasi, presisi, dan recall antara ketiga
algoritma klasifikasi yang diuji, yaitu NBC, K-NN, dan C4.5. Untuk algoritma K-NN,
evaluasi dilakukan dengan mempertimbangkan berbagai nilai parameter K guna
menentukan nilai optimal yang menghasilkan performa terbaik. Rumus untuk menghitung
akurasi dapat dilihat pada Persamaan 1 (Singgalen, 2023). Rumus untuk menghitung nilai
presisi dapat dilihat pada persamaan 2. Rumus untuk menghitung nilai recall dapat dilihat
pada persamaan 3.

3. Hasil Dan Pembahasan


Pada tahapan ini dilakukan analisis terhadap data penumpang Titanic yang bersumber
dari dataset publik yang diperoleh melalui platform Kruggle. Data yang digunakan pada
penelitian ini mencakup informasi tentang penumpang kapal Titanic, termasuk atribut-
atribut penting seperti usia, jenis kelamin, kelas tiket, jumlah saudara, pasangan, dan
apakah penumpang tersebut selamat atau tidak.
Data yang diperoleh dalam bentuk format .csv berisi total 891 data penumpang Titanic,
yang terdiri dari 12 atribut penentu kondisi penumpang. Dari data tersebut, terdapat 342
penumpang yang selamat (label kelas “Yes”) dan 549 penumpang yang tidak selamat
(label kelas “No”). Tabel.1 berikut menjelaskan distribusi data serta atribut-atribut yang
digunakan dalam penelitian ini.
Tabel 1. Penjelasan Atribut Data
Atribut Kode Keterangan Deskripsi
Passengerld A1 ID Penumpang
Nomor ID unik yang diberikan untuk setiap
penumpang

Survived A2 Status Kelangsungan Hidup 1 = Selamat, 0 = Tidak Selamat


Pclass A3 Kelas Penumpang 1 = Kelas 1, 2 = Kelas 2, 3 = Kelas 3
Name A4 Nama Penumpang Nama Lengkap Penumpang
Sex A5 Jenis Kelamin Male = Pria, Female = Wanita
Age A6 Usia Penumpang Usia Penumpang dalam tahun
SibSp A7 Jumlah Saudara/Anak yang
ikut Jumlah saudara atau anak yang ikut bersama
penumpang
Parch A8
Jumlah Orang Tua/Anak Jumlah orang tua atau anak yang ikut bersama
yang ikut penumpang

Ticket A9 Nomor Tiket Nomor tiket yang dimiliki oleh penumpang


Harga tiket yang dibayar dalam satuan Pound
Fare Tarif Tiket
A10 Inggris
Cabin A11 Nomor Kamar Nomor kamar penumpang dikapal, jika ada
C = Cherbourg, Q = Queenstown, S =
Embarked Pelabuhan Tempat Naik
A12 Southamton

Tabel 2. Sampel Data Titanic


No A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 Status
D1 1 3 1 1 22 1 0 A/5 21171 7.25 Null 3 NO
D2 2 1 2 2 38 1 0 PC 17599 712.833 C85 1 YES
STON/O2.
D3 3 3 3 2 26 0 0 3101282 7.925 Null 3 YES
D4 4 1 4 2 35 1 0 113803 53.1 C123 3 YES
D5 5 3 5 1 35 0 0 373450 8.05 Null 3 NO
D6 6 3 6 1 Null 0 0 330877 84.583 Null 2 NO
D7 7 1 7 1 54 0 0 17463 518.625 E46 3 NO
D8 8 3 8 1 2 3 1 349909 21.075 Null 3 NO
D9 9 3 9 2 27 0 2 347742 111.333 Null 3 YES
D10 10 2 10 2 14 1 0 237736 300.708 Null 1 YES

3.2 Hasil Praproses Data


Data awal berjumlah 891 data, setelah dilakukannya cleaning terdapat 179 baris data
yang mengandung nilai Null yang kemudian baris data tersebut dihapus, sehingga data
yang tersisa menjadi 712 baris data. Dari data yang sudah di-cleaning terdapat 288
penumpang yang selamat dan 424 penumpang yang tidak selamat. Sampel data dari hasil
cleaning dapat dilihat pada Tabel 3. Setelah dilakukannya data cleaning langkah
selanjutnya ialah tahapan min-max normalization. Sampel data hasil normalisasi dapat
dilihat pada Tabel 4.
Tabel 3. Sampel Data Cleaning
No A1 A2 A4 A5 A6 A7 A11 Status
D1 1 3 1 22 1 0 3 NO
D2 2 1 2 38 1 0 1 YES
D3 3 3 2 26 0 0 3 YES
D4 4 1 2 35 1 0 3 YES
D5 5 3 1 35 0 0 3 NO
D6 6 1 1 54 0 0 3 NO
D7 7 3 1 2 3 1 3 NO
D8 8 3 2 27 0 2 3 YES
D9 9 2 2 14 1 0 1 YES
D10 10 3 2 4 1 1 3 YES

Tabel 4. Sampel Data Normalisasi


No A1 A2 A4 A5 A6 A7 A11 Status
D1 0.00 1.0 0.1 0.2 0.2 0.0 3 NO
D2 0.00 0.0 0.2 0.4 0.2 0.0 1 YES
D3 0.00 1.0 0.2 0.3 0.0 0.0 3 YES
D4 0.00 0.0 0.2 0.4 0.2 0.0 3 YES
D5 0.00 1.0 0.1 0.4 0.0 0.0 3 NO
D6 0.00 0.0 0.1 0.6 0.0 0.0 3 NO
D7 0.00 1.0 0.1 0.0 0.6 0.1 3 NO
D8 0.00 1.0 0.2 0.3 0.0 0.3 3 YES
D9 0.01 0.5 0.2 0.1 0.2 0.0 1 YES
D10 0.01 1.0 0.2 0.0 0.2 0.1 3 YES

3.3 Hasil Dan Pembahasan


Percobaan menunjukkan bahwa algoritma Logistic Regression unggul dengan akurasi
80,1%, diikuti oleh Random Forest dengan 79,2%, dan C4.5 dengan 79,3%. Meskipun
akurasi dari masing-masing algoritma cukup tinggi, presisi dan recall yang dicapai
bervariasi. Presisi terbaik dicapai oleh Logistic Regression dengan 70,4%, sementara recall
terbaik diraih oleh Random Forest dengan 77,4%. Namun, algoritma K-NN menunjukkan
performa yang lebih rendah, dengan presisi 52,7% dan recall 54,2%. Rendahnya nilai
presisi dan recall pada beberapa algoritma ini dapat disebabkan oleh distribusi data yang
tidak seimbang, di mana terdapat lebih banyak penumpang yang tidak selamat
dibandingkan yang selamat. Ketidakseimbangan ini membuat model cenderung
mengklasifikasikan penumpang ke kelas mayoritas, sehingga memengaruhi kemampuan
untuk mendeteksi penumpang yang selamat secara akurat. Confusion matrix untuk NBC
dapat dilihat pada Tabel 5. Confusion matrix untuk K-NN dapat dilihat pada Tabel 6.
Confusion matrix untuk C4.5 dapat dilihat pada Tabel 7. Confusion matrix untuk Random
Forest dapat dilihat pada Tabel 8. Dan Confusion matrix untuk Logistic Regression dapat
dilihat pada Tabel 9.

Tabel 5. Confusion Matrix NBC


Kelas asal
True Yes True No
Pred Yes 239 89
Pred No 103 460

Tabel 6. Confusion Matrix K-NN


Kelas asal
True Yes True No
Pred Yes 109 175
Pred No 233 374
Tabel 7. Confusion Matrix C4.5
Kelas asal
True Yes True No
Pred Yes 231 73
Pred No 111 476

Tabel 8. Confusion Matrix Random Forest


Kelas asal
True Yes True No
Pred Yes 233 68
Pred No 109 481

Tabel 9. Confusion Matrix Logistic Regression


Kelas asal
True Yes True No
Pred Yes 241 84
Pred No 101 465

Untuk K-NN dilakukan 10 kali percobaan dengan berbagai nilai K, yaitu 3, 5, 7, 9,


11, 13, 15, 17, 19, dan 21. Hasil percobaan tersebut dapat dilihat pada Tabel. Akurasi
terbaik adalah ketika K=19 dengan nilai akurasi sebesar 59,00%, nilai presisi sebesar
52,50%, dan nilai recall sebesar 59,00%. Namun, penelitian ini cenderung memilih K
terbaik adalah K=3. Hal ini dikarenakan nilai akurasi, presisi, dan recall pada K=3 relatif
baik dan seimbang dibandingkan dengan nilai K lainnya, yaitu dengan nilai akurasi sebesar
54,20%, nilai presisi sebesar 52,70%, dan nilai recall sebesar 54,20%.

Tabel 10. Akurasi Algoritma K-NN


Nilai K Nilai Akurasi Nilai Presisi Nilai Recall
(%) (%) (%)
3 54,20% 52,70% 54,20%
5 55,60% 53,20% 55,60%
7 55,30% 51,80% 55,30%
9 55,20% 50,50% 55,20%
11 55,00% 48,90% 55,00%
13 56,00% 49,50% 56,00%
15 56,80% 49,50% 56,80%
17 57,40% 49,90% 57,40%
19 59,00% 52,50% 59,00%
21 58,60% 51,80% 58,60%

Pohon keputusan yang dihasilkan oleh algoritma C4.5 dapat dilihat pada Gambar 1.
Pada pohon keputusan tersebut, atribut yang paling signifikan dalam menentukan
kelangsungan hidup penumpang adalah jenis kelamin, status (kelas atau posisi
penumpang), dan usia. Dari banyaknya atribut yang ada, hanya tiga atribut utama yang
digunakan: jenis kelamin (sex), status (status/kelas), dan usia (age). Ini membantu
mengurangi kompleksitas dalam proses klasifikasi dengan tetap mempertahankan
informasi penting untuk memprediksi apakah penumpang selamat atau tidak.

Gambar 2. Pohon Keputusan C4.5

3.4 Perbandingan Performa


Berdasarkan hasil percobaan yang dilakukan, penelitian ini memilih model yang
dihasilkan oleh algoritma Random Forest sebagai yang terbaik, meskipun Random Forest
bukan algoritma dengan akurasi tertinggi. Hal ini dikarenakan algoritma Random Forest
memiliki nilai recall yang paling baik, yaitu 77,4%. Artinya, model yang dihasilkan oleh
Random Forest lebih mampu mengidentifikasi penumpang yang benar-benar selamat (true
positive) dibandingkan dengan algoritma lainnya.
Namun demikian, algoritma Logistic Regression juga menunjukkan performa yang
baik, terutama dengan akurasi yang mencapai 80,1%. Logistic Regression menghasilkan
keseimbangan yang cukup baik antara presisi (68,1%) dan recall (74,1%), menjadikannya
alternatif yang kuat ketika fokusnya adalah mendeteksi penumpang yang selamat sambil
mempertahankan akurasi yang tinggi.
Di sisi lain, algoritma KNN unggul dalam hal presisi (52,7%) meskipun nilai recall dan
akurasinya lebih rendah (54,2%). KNN lebih cocok digunakan ketika fokus utama adalah
menghindari kesalahan positif (false positive) dalam mengidentifikasi penumpang yang
selamat. Grafik perbandingan performa model klasifikasi ini dapat dilihat pada Gambar,
yang memperlihatkan perbandingan nilai akurasi, presisi, dan recall dari berbagai
algoritma.

Gambar 3. Perbandingan Performa Model Klasifikasi

Anda mungkin juga menyukai