Anda di halaman 1dari 11

ANALISIS FLIGHT DELAY

DENGAN DATA MINING

Perbandingan Metode Data Mining –


K-Nearest Neighbors (KNN), Naive Bayes,
Decision Tree (DT), dan Support Vector
Machine (SVM)

UJIAN AKHIR SEMESTER


MATAKULIAH BIG DATA ANALYTICS

DOSEN PENGAMPU :
Prof. Ir. Budi Santosa, M.Sc., Ph.D.
Dr. Achmad Choiruddin, S.Si., M.Sc.

DEFI RIZKI MAULIANI


09211950095019
Analitikal Bisnis - Jakarta

Departemen Manajemen Teknologi


Fakultas Bisnis Dan Manajemen Teknologi
Institut Teknologi Sepuluh Nopember
2021

1
DAFTAR ISI

DAFTAR ISI ........................................................................................................................................... 2


I. PENDAHULUAN ............................................................................................................................ 3
1. Latar Belakang ......................................................................................................................... 3
2. Rumusan Masalah.................................................................................................................... 4
3. Tujuan ....................................................................................................................................... 4
II. TINJAUAN PUSTAKA............................................................................................................... 4
III. METODE...................................................................................................................................... 6
IV. PEMBAHASAN ........................................................................................................................... 7
V. KESIMPULAN .......................................................................................................................... 11
DAFTAR PUSTAKA............................................................................................................................ 11

2
I. PENDAHULUAN
1. Latar Belakang
Saat ini, delay penerbangan yang terus-menerus terjadi menjadi sisi negatif yang dapat menimbulkan
kerugian dan menurunkan kepuasan pelanggan jika tidak ditangani dengan segera. Strategi yang tepat
sangat diperlukan oleh pihak maskapai dan bandara untuk lebih meningkatkan kinerja dan dapat
mengambil langkah-langkah yang dapat mengantisipasi dan menurunkan efek dari delay tersebut.
Peramalan delay dalam suatu penerbangan menjadi sangat penting karena dengan informasi tersebut
dapat dijadikan sebagai tolak ukur dapat memberikan solusi-solusi yang dapat meminimalisir dari
dampak delay itu sendiri. Dengan adanya peramalan delay dalam penerbangan akan membantu
perusahaan untuk selalu memberikan pelayanan terbaik mereka sehingga dapat meningkatkan nilai jual
perusahaan dan kepercayaan masyarakat.
Munculnya data mining didasarkan pada kenyataan bahwa jumlah data yang tersimpan dalam basis
data semakin besar. Data mining sendiri berisi pencarian trend atau pola tertentu yang diinginkan dalam
basis data yang besar untuk membantu pengambilan keputusan di waktu yang akan dating [1]. Data
mining berhubungan dengan sub-area statistik yang disebut Exploratory Data Analysis (Analisis Data
Eksplorasi) yang mempunyai tujuan sama dan bersandar pada ukuran statistik. Data mining berpotensi
tinggi jika data yang tepat dikumpulkan dan disimpan dalam sebuah gudang data (data warehouse) [1].
Analisis klasifikasi data mining adalah menentukan sebuah record data baru ke salah satu dari beberapa
kategori yang telah didefinisikan sebelumnya, disebut juga dengan supervised learning [2]. Metode-
metode yang telah dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi, antara lain: Pohon
keputusan (Decision Tree), Naïve Bayes, Jaringan Syaraf Tiruan, Analisis Statistik, Algoritma Genetik,
Rough Sets, kNearest Neighbour, Naïve Bayers, Metode Berbasis Aturan, Memory Based Reasoning,
Support Vector Machine [2]. Keluaran dari data mining ini juga dapat dipakai untuk memperbaiki
pengambilan keputusan dimasa depan.
Berdasarkan beberapa metode klasifikasi tersebut, dalam tugas ini akan dilakukan perbandingan
analisis klasifikasi antara metode Decision Tree, kNearest Neighbour, Naïve Bayes, dan Support Vector
Machine Multiclass untuk menganalisis data flight delay yang telah diberikan, sehingga nantinya akan
dapat dianalisis dan digunakan untuk memprediksi waktu delay penerbangan.

3
2. Rumusan Masalah
Analisis ini difokuskan pada permasalahan utama bagaimana hasil perbandingan dan analisis tingkat
akurasi metode klasifikasi K-Nearest Neighbors, Naive Bayes, Decision Tree dan Support Vector
Machine untuk penentuan waktu delay penerbangan.

3. Tujuan
Mengetahui hasil perbandingan dan analisis tingkat akurasi metode klasifikasi K-Nearest Neighbors,
Naive Bayes, Decision Tree dan Support Vector Machine untuk penentuan waktu delay penerbangan.
Selain itu juga, untuk mengetahui metode klasifikasi mana yang lebih akurat dalam memprediksi waktu
delay penerbangan.

II. TINJAUAN PUSTAKA


2.1 Konsep Data Mining
Data mining adalah proses yang melakukan satu atau lebih teknik pembelajaran komputer (machine
learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
Pembelajaran data mining berbasis induksi (induction-based learning) merupakan proses
pembentukan definisi-definisi konsep umum yang dilakukan dengan cara mengobservasi contoh-
contoh spesifik dari konsep yang akan dipelajari [1].
2.2 Operasi Data Mining
• Prediksi (prediction driven)
Untuk menjawab pertanyaan apa dan sesuatu yang bersifat remang-remang atau transparan.
Operasi prediksi digunakan untuk validasi hipotesis, querying dan pelaporan, analisis
multidimensi, OLAP (Online Analytic Processing), serta analisis statistik.
• Penemuan (discovery driven)
Bersifat transparan dan untuk menjawab pertanyaan “mengapa?”, operasi penemuan
digunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi database, analisis
keterkaitan (link analysis) dan deteksi deviasi [1].
2.3 Konsep Decision Tree
Klasifikasi decision tree merupakan salah satu teknik terkenal dalam data mining dan merupakan
salah satu metode yang popular dalam menentukan keputusan suatu kasus. Metode ini tidak
memerlukan proses pengelolaan pengetahuan terlebih dahulu dan dapat menyelesaikan kasus-kasus
yang memiliki dimensi yang besar[3].

4
2.4 K-Nearest Neighbors (KNN)
Metode klasifikasi yang merupakan salah satu metode klasifikasi instance-based learning,
menggunakan pendekatan supervised learning sehingga membutuhkan data pelatihan yang sudah
dilabeli. Menurut Han [4], KNN membandingkan data pelatihan dan data pengujian, dimana data
pelatihan dideskripsikan dalam sejumlah atribut berjumlah n. Setiap data pelatihan
merepresentasikan sebuah titik dalam ruang berdimensi n (atau vektor berukuran n). Klasifikasi data
baru dilakukan dengan cara menghitung tingkat kemiripan atau kedekatan dari data baru tersebut
terhadap seluruh data pelatihan yang ada. Tingkat kemiripan dapat dihitung menggunakan beberapa
metode, salah satunya adalah Euclidean distance. Metode ini membutuhkan parameter nilai k, yaitu
jumlah data pelatihan yang memiliki jarak terdekat dengan data baru, untuk menentukan hasil
klasifikasi dari data baru tersebut. Nilai k dapat bervariasi, namun pada umumnya digunakan nilai
ganjil sehingga tidak ada tetangga terdekat (nearest neighbors) berjumlah sama dalam kelas yang
sama saat menentukan hasil akhir klasifikasi [5]. Hasil klasifikasi selain ditentukan oleh sejumlah
(k) tetangga terdekat, juga dapat diimplementasikan distance weighted [6], dengan menghitung jarak
sebagai fungsi pembobotan. Kelas hasil klasifikasi merupakan kelas yang memiliki bobot terbesar
(jarak terkecil). Hasil klasifikasi ditentukan berdasarkan kelas tetangga-tetangga terdekat yang
memiliki jumlah bobot paling besar
2.5 Naive Bayes
Metode klasifikasi yang merupakan pengklasifikasi probabilitas sederhana yang didasarkan pada
teory Bayes, yang menyatakan bahwa kemungkinan terjadinya suatu peristiwa sama dengan
probabilitas intrinsic (dihitung dari data yang tersedia sekarang) dikalikan probabilitas bahwa hal
serupa akan terjadi lagi di masa depan (berdasarkan pengetahuan yang terjadinya di masa lalu. Naïve
bayes adalah algoritma pembelajaran probabilitas yang berasal dari teori Keputusan Bayesian.
2.6 Support Vector Machine Support Vector Machine (SVM)
Metode klasifikasi yang dikenal sebagai teknik pembelajaran mesin (Machine Learning) paling
mutakhir setelah pembelajaran mesin sebelumnya yang dikenal sebagai Neural Networks (NN).
Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajaran
dilakukan dengan menggunakan pasangan data input dan data output berupa sasaran yang
diinginkan. Pembelajaran dengan cara ini disebut dengan pembelajaran terarah (supervised learning)
[7].

5
III. METODE
Tugas ini menggunakan metode machine learning dimana metode yang dikembangkan
memanfaatkan komputer sebagai alat bantu untuk menganalisa dataset yang telah diberikan. Hal ini
merupakan sebuah tantangan karena komputer hanya mengenali bahasa mesin, sedangkan dataset yang
diberikan menggunakan bahasa yang dimengerti manusia. Permasalahan tersebut dapat diatasi dengan
mengkuantifikasi data. Data yang telah terkuantifikasi selanjutnya dipisahkan, dikelompokan, dengan
pendekatan Machine learning. Machine learning merupakan metode berbasis komputer dimana
komputer diberikan kemampuan untuk belajar dengan bantuan data tanpa harus terprogram terlebih
dahulu. Jenis-jenis permasalahan yang umumnya diselesaikan dengan pendekatan Machine learning
adalah klasterisasi dan klasifikasi. Klasterisasi adalah aktivitas yang bertujuan mengelompokan data
berdasarkan kedekatan fitur yang dimilikinya, sedangkan klasifikasi bertujuan untuk memisahkan data
menjadi kelas-kelas tertentu. Perbedaan yang mendasar antara 2 buah permasalahan ini adalah, pada
proses klasterisasi, data-data dikelompokan tanpa pelabelan, sedangkan klasifikasi mengelompokan
data-data menjadi label tertentu. Tugas ini menggunakan software Phyton 3 sebagai media untuk
menganalisis data waktu delay penerbangan yang sudah diberikan.
Alur pengerjaan analisis ini dimulai dari dataset waktu delay penerbangan yang diberikan akan
dilakukan visualisasi data guna melihat plot, pesebaran data dan keseimbangan data, selanjutnya
pembagian data menggunakan K-fold cross validation yang merupakan salah satu teknik pembagian data
yang paling sering digunakan untuk mengestimasi performa atau kualitas suatu model. Dalam k-fold
cross validation data akan dibagi ke dalam k buah partisi atau disebut dengan fold
D1, D2, D3,..., Dk dengan ukuran yang sama. Pelatihan dan pengujian dilakukan
sebanyak k kali dalam iterasi ke-i, partisi d-i akan menjadi data uji, selainnya menjadi
data latih.
Tahap selanjutnya adalah analisis dengan menggunakan metode klasifikasi K-Nearest
Neighbors, Naive Bayes, Decision Tree dan Support Vector Machine. Dalam analisis ini dilakukan
evaluasi dari hasil training dan testing, dimana dilakukan perbandingan ketepatan klasifikasi dengan
metode yang digunakan sebagai analisis tersebut. Ketepatan klasifikasi yang dibandingkan adalah nilai
akurasi, sensitifitas, presisi dan F1-Score yang membentuk confusion matrix.
Diagram alur dari metode yang digunakan dalam tugas ini terdapat pada Gambar 1.

6
Mulai

Pengumpulan
Data

Analisis Visualisasi Data

Analisis klasifikasi data


mining dengan 4 metode

Selesai

Gambar 1. Diagram Alur Analisis Flight Delay

IV. PEMBAHASAN
Dari dataset yang diberikan diubah menjadi data numerik, dengan waktu delay penerbangan dibagi
menjadi 2 yaitu sebagai berikut :
• Ontime, dimana penerbangan tepat waktu atau waktu delay penerbangan ≤ 15 menit diberikan
label 0.
• Delay, dimana waktu delay penerbangan lebih dari 15 menit, diberikan label 1.
Dari analisis yang dilakukan didapatkan plot dan pesebaran data sebagai berikut :

Gambar 2. Dataset flight delay yang telah diubah numerik

7
Gambar 3. Plot dan Pesebaran Data Flight Delay

8
Dapat dilihat bahwa dataset flight delay yang diberikan sebagian besar menunjukkan data tidak tersebar
secara linear. Kemudian data dilihat dari jumlah ontime dan delay menunjukkan hasil sebagai berikut :

Gambar 4. Jumlah Ontime dan Delay Penerbangan


Dari data didapatkan ada 2201 data dengan kondisi ontime penerbangan sebesar 1773 data
(80,55%) lebih banyak dibandingkan dengan kondisi delay penerbangan sebesar 428 data (19,45%).
Tahap selanjutnya dilakukan pembagian data (splitting) dengan menggunakan K-fold cross validation
yang membagi data training dan data test dengan perbandingan 70 : 30 sehingga diperoleh hasil berikut:
the shape of X_train and y_train : (1540, 13) (1540,)
the shape of X_test and y_test : (661, 13) (661,)

Kemudian dilakukan analisis flight delay dengan metode data mining klasifikasi yang telah ditentukan
yaitu K-Nearest Neighbors, Naive Bayes, Decision Tree dan Support Vector Machine dengan jumlah
pembagian (splits) 10 splits dan ketentuan parameter untuk proses K-fold cross validation serta F1 Scores
sebagai berikut :

Gambar 5. Proses K-fold cross validation

9
Hasil analisis yang didapatkan sebagai berikut :
• Metode Decision Tree Classifier
METODE Decision Tree Classifier
Train f1-Score: 0.98, Test f1-score: 1.0
Train Accuracy Score is:1.0 and Test Accuracy Score:0.79
precision recall f1-score support

0 0.90 0.84 0.87 124


1 0.47 0.60 0.53 30

accuracy 0.79 154


macro avg 0.69 0.72 0.70 154
weighted avg 0.81 0.79 0.80 154

• Metode K-Nearest Neighbors Classifier


METODE KNeighbors Classifier
Train f1-Score: 0.91, Test f1-score: 0.93
Train Accuracy Score is:0.91 and Test Accuracy Score:0.93
precision recall f1-score support

0 0.92 0.98 0.95 124


1 0.87 0.67 0.75 30

accuracy 0.92 154


macro avg 0.90 0.82 0.85 154
weighted avg 0.91 0.92 0.91 154

• Metode Naive Bayes Classifier

METODE Naive Bayes Classifier


Train f1-Score: 0.9, Test f1-score: 0.91
Train Accuracy Score is:1.0 and Test Accuracy Score:0.81
precision recall f1-score support

0 0.91 0.85 0.88 124


1 0.51 0.63 0.57 30

accuracy 0.81 154


macro avg 0.71 0.74 0.72 154
weighted avg 0.83 0.81 0.82 154

• Metode Support Vector Machine Classifier


METODE Support Vector Machine Classifier
Train f1-Score: 0.91, Test f1-score: 0.93
Train Accuracy Score is:0.91 and Test Accuracy Score:0.93
precision recall f1-score support

0 0.94 0.98 0.96 124


1 0.88 0.73 0.80 30

accuracy 0.93 154


macro avg 0.91 0.85 0.88 154
weighted avg 0.93 0.93 0.93 154
10
Dari hasil analisis didapatkan bahwa akurasi yang paling tinggi untuk model dataset flight delay
adalah akurasi metode Support Vector Machine sebesar 93%, selanjutnya metode K-Nearest Neighbors
dengan akurasi sebesar 92%, untuk metode Naive Bayes memiliki akurasi sebesar 81%, dan yang paling
kecil tingkat akurasinya adalah metode Decision Tree sebesar 79%.

V. KESIMPULAN
Dari hasil analisis diperoleh metode support vector machine memiliki hasil terbaik dengan
akurasi sebesar 93%, sensitifitas 93%, presisi 93% dan F1-Score 93% . Sehingga dari analisis, dipilih
klasifikasi dengan algoritma support vector machine sebagai hasil akhir untuk memprediksi waktu delay
penerbangan.

DAFTAR PUSTAKA
1. Hermawati, A.F. 2013. Data Mining. Surabaya: Universitas 17 Agustus 1945 & ANDI
2. Sumathi, S. 2006. Introduction to Data Mining and Its Applications. Germany: Springer Verlag
berlin Heidelberg
3. Widodo, P. P., Handayanto, R. T. dan Herlawati. 2013. Penerapan Data Mining dengan Matlab.
Bandung: Rekayasa Sains.
4. Santosa, B. dan Trafalis, T. 2004. Multiclass Procedure for Minimax Probability Machine. ASME
Press, 14, 447-452.
5. Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta:
Graha Ilmu. [10] Sumathi, S. 2006. Introduction to Data Mining and Its Applications. Germany:
Springer Verlag berlin Heidelberg.
6. Vapnik, V. dan Cortes, C. 1995. Support Vector Networks. Machine Learning, 20, 273-297
7. Kerami, D. dan Murfi,H. 2004. Kajian Kemampuan Generalisasi Support Vector Machine dalam
Pengenalan Jenis Splice Site pada Barisan DNA. Jurnal Makara Sains Vol 8 No 3. Hal 89-95.

11

Anda mungkin juga menyukai