Anda di halaman 1dari 5

MODEL PREDIKSI CUACA BERBASIS DATA

METAR DAN STASIUN PENGAMATAN SINOPTIK


MENGGUNAKAN METODE DATA MINING
Muhamad Anggun Novembra Yudistira Dwi Wardana Asnar
Sekolah Teknik Elektro dan Informatika, Sekolah Teknik Elektro dan Informatika,
Institut Teknologi Bandung, Institut Teknologi Bandung,
Bandung, Indonesia Bandung, Indonesia
mhd.anggoen@gmail.com yudis@informatika.org

Abstrak— enelitian ini membahas model prediksi


beberapa fenomena cuaca menggunakan model data I. PENDAHULUAN
mining. Algoritma yang akan digunakan adalah Data mining atau juga dikenal sebagai knowledge
algoritma klasifikasi kNN, Naïve Bayes, ANN dan SVM. discovery in data (KDD) adalah kegiatan yang
Penelitian sebelumnya telah membuktikan model data mencakup pengumpulan dan penggunaan data historis
mining menggunakan algoritma tesebut sangat baik
untuk menemukan keteraturan, pola atau hubungan
memprediksi fenomena cuaca hujan atau tidak hujan.
Penelitian ini mencoba memprediksi lebih dari
dalam sejumlah besar data. Output data mining dapat
beberapa cuaca menggunakan satu model. digunakan untuk membuat keputusan di masa depan.
Data mining telah banyak diterapkan di berbagai
ekstraksi pengetahuan dari data historis cuaca yang bidang seperti sains, teknik dan bisnis. Tujuan utama
dikumpulkan dari situs rp5.ru. Ada dua jenis format dari penambangan data adalah untuk menemukan
laporan cuaca, dataset pertama adalah Stasiun Weather informasi penting dalam sejumlah besar data.
Synoptic dengan 29 atribut, dataset kedua adalah
Penelitian tentang data mining untuk prediksi
METAR dengan 13 atribut. Kondisi masing-masing
dataset yang inconsistent, maka penelitian ini
cuaca telah banyak dilakukan. Pemilihan teknik data
menggunakan reduksi fitur dan seleksi fitur mining yang menggunakan aturan asosiasi dengan
menggunakan metode information gain. Selain itu, algoritma Apriori menunjukkan hasil yang lebih baik
dilakukan penyederhanaan kelas untuk menangani dalam tingkat kebenaran dari proses komputasi dan
distribusi kelas weather event yang tidak berimbang. pengambilan keputusan[1]
Pada dataset sinoptik terdapat 47 fenomena cuaca dan Prediksi adalah teknik data mining paling penting
pada dataset METAR terdapat 25 fenomena cuaca, yang menggunakan serangkaian contoh pra-klasifikasi
disederhanakan menjadi 8 fenomena cuaca pada
untuk mengembangkan model yang dapat
dataset sinoptik dan 5 fenomena cuaca pada dataset
metar berdasarkan kemiripan fenomena cuaca.
mengklasifikasikan data dan menemukan hubungan
antara data independen dan dependen. Peramalan
Penelitian ini menggunakan Fscore sebagai variabel meteorologi adalah bentuk implementasi di bidang
pengukuran. Berdasarkan hasil eksperimen dari model sains dan teknologi untuk memprediksi kondisi cuaca
data mining menggunakan algoritma kNN untuk lokasi tertentu. Peramalan meteorologis
menghasilkan Fscore lebih baik dibanding algoritma memainkan peran penting bagi para ilmuwan, petani,
lain. Hasil Fscore eksperimen dataset METAR yaitu ahli botani, ketahanan pangan global, manajemen
76.9% menggunakan empat fitur yaitu, kelembaban bencana dan organisasi terkait untuk memahami
relatif (U), tutupan awan (c), tekanan atmosfer pada fenomena alam untuk merencanakan dan menyiapkan
stasiun pengamatan (Po), dan jarak pandang horizontal apa yang akan terjadi di masa depan.
(VV). Hasil Fscore eksperimen dataset stasiun cuaca
pengamatan sinoptik yaitu 75.4% menggunakan fitur
sepuluh fitur, yaitu : kecepatan angin rata-rata (ff) ,
II. STUDI LITERATUR
tutupan awan (N), kelembaban relatif (U), tekanan 1) Prediksi Cuaca Sinoptik
atmosfer pada stasiun pengamatan (Po), tekanan Metode ini adalah pendekatan tradisional untuk
atmosfer pada permukaan laut (P), arah angin (DD), prakiraan cuaca. Sinoptik mengacu pada pengamatan
kondisi cuaca sebelum pengamatan 1 dan 2 ( W1 dan berbagai elemen meteorologi dalam waktu
W2 ), kondisi awan cumulonimbus , cumulus, stratus,
stratocumulus ( Cl ).
pengamatan tertentu. Untuk melacak perubahan
meteorologi, pusat meteorologi menyiapkan setiap
Keyword : Weather Prediction, data mining, ANN, hari serangkaian grafik sinoptik, yang membentuk
KNN, SVM, Naïve Bayes, classification, metar, stasiun dasar perkiraan meteorologi. Ini melibatkan
pengamatan cuaca sinoptik pengumpulan dan analisis data pengamatan yang luas
yang diperoleh dari ribuan stasiun meteorology.
2) Prediksi Cuaca Numerik Data input termasuk kecepatan angin, tutupan awan,
Metode ini menggunakan komputer untuk suhu udara, dan suhu titik embun. Data untuk
memprediksi waktu. Program komputer yang pengujian model adalah data sinoptik dari Stasiun
kompleks dijalankan pada superkomputer dan Cuaca Kelautan Tanjung Priok dari tahun 2002
memberikan perkiraan pada banyak parameter hingga 2010. Berdasarkan serangkaian pembuatan,
atmosfer. Kerugiannya adalah bahwa persamaan yang pemilihan dan model pengujian, hasil yang diperoleh
digunakan tidak benar. Jika fase awal waktu tidak oleh Association Rule memiliki tingkat akurasi
sepenuhnya diketahui, prediksi tidak akan 60,9%, dibandingkan 68,5. % untuk C4.5. Dengan
sepenuhnya akurat. demikian, model prediksi yang dipilih adalah model
prediksi C4.5. Faktor cuaca utama yang
3. Prediksi Cuaca Statistik memungkinkan hujan adalah suhu udara, suhu titik
Penggunaan metode bersama dengan metode embun, dan awan.
numerik. Yaitu menggunakan rekaman data
meteorologi masa lalu dengan asumsi bahwa masa c. urvei Metode Klasifikasi Multiclass[4]
depan akan menjadi pengulangan masa lalu. Tujuan Data mining untuk klasifikasi biner dapat
utamanya adalah untuk mengetahui aspek-aspek dikembangkan untuk memecahkan masalah dan
meteorologis yang merupakan indikator yang baik menjelaskan cara mengurangi masalah multi-kelas ke
untuk kejadian di masa depan. Hanya total waktu beberapa masalah kelas biner. Penelitian telah
yang bisa diharapkan dengan cara ini. menunjukkan bahwa dataset ini didefinisikan pada
pengklasifikasi kNN dan pengklasifikasi SVM. Basis
data menekan, kompres dari kelompok Naif Bayes
B. Klasfikasi dan One Againts semua digunakan.
Data mining dapat diklasifikasikan menjadi dua jenis
[3], ie descriptive and predictive;
III. METODE PENELITIAN
a. Tugas data mining deskriptif mencirikan properti
data dalam set data tujuan A. Pengumpulan Data
b. Data mining mengekstraksi data prediksi membuat Penelitian ini menggunakan data real world yang
induksi ke tanggal saat ini untuk memprediksi berasal dari situs web Reliable Prognosis
masa depan. (https://rp5.ru/). Situs web ini gratis untuk diakses
dan menyimpan data meteorologi dari seluruh dunia.
Dalam penelitian ini menerapkan dua metode Data yang tersedia di situs web ini terdiri dari
klasifikasi kelas untuk menyelesaikan masalah pengamatan Laporan Udara Terminal Meteorologi
multiclass. Dari penelitian [4] menunjukkan bahwa (METAR) dan Stasiun Cuaca Permukaan / Sinoptik.
dataset iris memberikan hasil terbaik saat
Data yang dikumpulkan terdiri dari 14 data laporan
menggunakan kNN classifier dan SVM classifier.
Pengumpulan data anggur memberikan hasil terbaik pengamatan stasiun permukaan dan 8 stasiun
dengan metode SVM, Naive Bayes dan One Against pengamatan penerbangan (METAR) di Indonesia
All. sejak 2006-2018.

C. Penelitian Terkait B. Praproses Data


a. Pemodelan Prediksi Curah Hujan Menggunakan Dalam dataset metar ada 30,4% nilai yang hilang
Metode Data Mining [5] dalam fitur dan 83,4% nilai yang hilang dalam data
Data meteorologi yang dikumpulkan mencakup 36 target, dalam dataset sinoptik ada 67,4% nilai yang
atribut, yang hanya 7 yang paling relevan untuk hilang dan 84,7% dalam data target. Tahapan
prediksi curah hujan. Para peneliti melakukan pembersihan dilakukan untuk menangani data yang
pretreatment dan mentransformasikan data dari set tidak konsisten dan menghapus data dari noise.
data meteorologi mentah, yang memungkinkan
bekerja dengan Bayesian, data mining dan model 1) Data Cleaning
peramalan yang digunakan untuk prediksi curah Tuple yang tidak memiliki label / kelas dihapus.
hujan. Parameter yang digunakan, suhu udara, Dalam proses ini label / kelas adalah atribut WW
tekanan atmosfer di stasiun pengamatan, tekanan yang tidak memiliki nilai. Setelah proses ini, data
atmosfer di permukaan laut, kelembaban relatif, sinoptik awal berjumlah 281994 baris menjadi 43045
penguapan tekanan, kecepatan angin dan curah baris / 15% dari data sebelumnya dan data METAR
hujan.. awal berjumlah 515599 baris menjadi 85350 baris /
16% dari data sebelumnya.
b. Pemanfaatan Data Mining Untuk Kumpulan
Cuaca [6]
Pencarian model prediksi menggunakan beberapa
teknik data mining, yaitu Association Rule, C4.5,
Classification and Random Forest. Data input adalah
data sinoptik dari 9 stasiun laut pada tahun 2009.
Fig. 3 : Contoh penyederhanaan label

Fig. 1 : Dsitribusi Weather Event pada dataset metar

Fig. 4 : Distribusi weather event setelah disederhanakan pada


dataset metar

Fig. 2 : Dsitribusi Weather Event pada dataset sinoptik

2) Reduksi Fitur
Fitur-fitur dalam setiap dataset dengan sejumlah kecil
catatan / sejumlah besar nilai yang hilang dihapus.

3) Imputasi
Fitur / kolom di setiap dataset masih memiliki
missing value. Untuk mengoptimalkan proses
penambangan data, dilakukan proses imputasi. Dalam
penelitian ini metode imputasi yang dipilih adalah
model-based imputer.

4) Penyederhanaan Data Target


Dalam dataset sinoptik ada 47 jenis peristiwa cuaca
Fig. 5 : Distribusi weather event setelah disederhanakan pada
dan dalam dataset metar ada 25 jenis peristiwa cuaca. dataset sinoptik
karena distribusi acara kami lebih merata, maka
penyederhanaan label didasarkan pada kesamaan. 5) Seleksi Fitur
Parameter pengamatan dipilih yang digunakan
The step to simplify labels from weather events from sebagai prediktor menggunakan metode perolehan
the dataset is as follows : informasi. Fitur / kolom dalam dataset yang
1. Weather event yang serupa dikelompokkan ke digunakan sebagai parameter dalam setiap dataset
dalam label baru. dipilih berdasarkan peringkat menggunakan metode
2. Jika ada label yang tidak memiliki kedekatan perolehan informasi.
dengan label apa pun, jika frekuensi data tidak lebih
rata-rata maka itu menjadi label itu sendiri. Skenario penelitian ini menggunakan semua fitur
3. Memberi label peristiwa cuaca yang tidak dalam implementasi dan kemudian menghapus fitur
memenuhi dua kriteria di atas, maka label peristiwa dengan nilai perolehan informasi terendah dalam
cuaca dimasukkan dalam label baru "other weather percobaan berikutnya. Eksperimen akan dilakukan
events". sampai nilai output model menunjukkan nilai Fscore
terendah. Hasil eksperimen dikelompokkan
berdasarkan jumlah fitur (fts) yang digunakan dan IV. HASIL
algoritma klasifikasi yang digunakan. Pemilihan fitur
Hasil dari peringkat fitur / prediktor di setiap dataset Model implementasi model pada dataset metar
terlihat di Table 1. ditampilkan di Table 2, dan hasil pada dataset
sinoptik di Table 3. terlihat bahwa nilai F-score
Table 1. Information Gain untuk mengurutkan terbaik dari masing-masing algoritma klasifikasi
kandidat prediktor (i) dataset sinoptik dan (ii) dataset berbeda di setiap percobaan fitur.
metar
Features Inf Gain Features Inf Gain Nilai akurasi terendah menggunakan algoritma
W1 0.4967 VV 0.739 klasifikasi SVM. Eksperimen menggunakan
N 0.4447 c 0.4633 algoritma k-Nearest Neighbor, karena jumlah anggota
W2 0.3656 U 0.1606 kelas tidak seimbang, selain keterbatasan algoritma
U 0.2018 P0 0.1228 SVM dalam menangani masalah multi-kelas.
Cl 0.1114 Td 0.0992 Eksperimen menggunakan algoritma k-Nearest
T 0.1 T 0.0755 Neighbor, menghasilkan nilai Fscore terbaik pada
Po 0.0367 Ff 0.0754 METAR dan dataset sinoptik. Meskipun perbedaan
DD 0.0302 DD 0.0744 skor tidak lebih dari 5% jika dibandingkan dengan
P 0.0297 P 0.0385 eksperimen lain menggunakan algoritma klasifikasi
Ff 0.0195 Jaringan Saraf Tiruan dan Naïve Bayes.
Pa 0.0118
(i) (ii) Table 2. Perbandingan nilai Fscore eksperimen pada
dataset metar
Alg o rit hms 9 ft s 8 ft s 7 ft s 6 ft s 5 ft s 4 ft s 3 ft s
C. Desain Model Prediksi Cuaca dengan algoritma
kNN 0 .75 0 .77 0 .76 0 .76 0 .76 0 .77 0 .6 2
Klasifikasi
SVM 0 .4 3 0 .3 6 0 .2 2 0 .4 0 .3 1 0 .19 0 .3 9
Metode klasifikasi untuk prediksi cuaca yang
dirancang sebelumnya oleh Valmik dkk [5], dan ANN 0 .76 0 .75 0 .74 0 .74 0 .74 0 .75 0 .6 2

metode klasifikasi yang telah diuji oleh Neha Mehra Naï ve


0 .72 0 .73 0 .73 0 .72 0 .73 0 .73 0 .6 1
Bayes
dkk [4]. Penelitian ini menggunakan beberapa
algoritma klasifikasi dalam mode data mining, yaitu
naïve bayes, SVM, neural network, dan kNN. Pada Table 3. Perbandingan nilai Fscore eksperimen pada
tahap implementasi, alat yang digunakan adalah dataset sinoptik
perangkat lunak seperti Orange Biolab 3.18. Model Algorit hms f ts 11 f ts 10 ft s 9 ft s 8 ft s 7 ft s 6 ft s 5 ft s 4 ft s 3

desain data mining untuk penelitian ini dapat dilihat kNN 0.64 0.75 0.64 0.63 0.64 0.64 0.62 0.63 0.62
di Fig. 6.
SVM 0.51 0.28 0.51 0.34 0.23 0.31 0.39 0.45 0.34

ANN 0.64 0.75 0.65 0.63 0.63 0.64 0.62 0.63 0.63

Naï ve
0.63 0.72 0.63 0.62 0.63 0.62 0.61 0.62 0.63
Bayes

Hasil prediksi pada dataset metar terbaik


menggunakan empat fitur, yaitu, kelembaban relatif
(U), tutupan awan (c), tekanan atmosfer di stasiun
pengamatan (Po), dan visibilitas horisontal (VV).
Hasil prediksi dalam dataset ini adalah 76,9%.

Hasil prediksi pada dataset terbaik menggunakan 10


fitur, yaitu kecepatan angin rata-rata (ff), tutupan
awan (N), kelembaban relatif (U), tekanan atmosfer
Fig. 6 : Model data mining pada penelitian ini menggunakan
perangkat lunak orange ailab
di stasiun pengamatan (Po), tekanan atmosfer di
permukaan laut (P), angin arah (DD), kondisi cuaca
Pengujian penelitian ini dilakukan dengan sebelum pengamatan 1 dan 2 (W1 dan W2), kondisi
menggunakan data pelatihan dengan metode kumulonimbus, kumulus, stratus, stratocumulus (Cl)
pengujian k-fold Cross Validation dan Random awan. Hasil prediksi pada dataset sinoptik adalah
Sampling dengan porsi 10% dari semua data 75,4%.
pelatihan. Eksperimen akan dilakukan sampai nilai
output model menunjukkan nilai F-score terendah. V. EVALUASI DAN DISKUSI
Hasil eksperimen dikelompokkan berdasarkan jumlah
fitur (fts) dan algoritma klasifikasi yang digunakan.
Algoritma Naïve Bayes lebih baik dalam
memprediksi peristiwa cuaca daripada algoritma lain
pada set data metar dan sinoptik. Meskipun False
Negative / False Positive terjadi, algoritma Naïve Data Using Modified Apriori Algorithm,”
Bayes sangat baik dalam menangani kelas dengan Eur. J. Sci. Res., vol. 47, no. 2, pp. 295–308,
anggota yang sangat sedikit. Prediksi menggunakan 2010.
algoritma k-Nearest Neighbor dan Neural Network [2] D. Chauhan and J. Thakur, “Data Mining
umumnya tergantung pada jumlah anggota di kelas. Techniques for Weather Prediction: A
Jadi untuk kelas dengan anggota yang sangat sedikit, Review,” Int. J. Recent Innov. Trends
prediksi yang menggunakan algoritma k-Nearest Comput. Commun., vol. 2, no. 8, pp. 2184–
Neighbor dan Neural Network tidak memberikan 2189, 2014.
hasil yang baik. Penelitian ini menggunakan [3] P. Kalaiyarasi and A. Kalaiselvi, “Data
pengaturan default alat Orange pada algoritma k-
Mining Techniques Using To Weather
Nearest Neighbor, Support Vector Machine, dan
Neural Network, kemudian diperlukan. Sehingga Prediction,” vol. 6, no. 3, pp. 249–254, 2018.
studi yang terperinci dan pengaturan yang berbeda [4] N. Mehra and S. Gupta, “Survey on
diperlukan pada tiga algoritma yang disebutkan Multiclass Classification Methods,” vol. 4,
sebelumnya. no. 4, pp. 572–576, 2013.
[5] V. B. Nikam and B. B. Meshram, “Nikam, V.
B., & Meshram, B. B. (2013). Modeling
Penelitian selanjutnya dipertimbangkan untuk rainfall prediction using data mining method:
menggunakan metode imputasi untuk menangani A bayesian approach. Proceedings of
nilai yang hilang untuk penerapan metode International Conference on Computational
penambangan data meteorologis. Menambah Intelligence, Modelling and Simulation, 132–
kemungkinan meningkatkan kualitas output dari 136. https://doi.org/10.1109/CIMSim.201,”
prediksi. Penambahan parameter pengamatan lainnya Proc. Int. Conf. Comput. Intell. Model.
sehingga dapat meningkatkan akurasi dan presisi Simul., pp. 132–136, 2013.
dalam memprediksi fenomena cuaca lain selain curah [6] S. Mujiasih, I. Agency, M. Climatology, and
hujan. S. Mujiasih, “PEMANFATAN DATA
MINING UNTUK PRAKIRAAN CUACA
UTILIZATION OF DATA MINING FOR
REFERENSI WEATHER ...,” no. September 2011, pp. 1–
8, 2015.
[1] S. Nandagopal, S. Karthik, and V.
Arunachalam, “Mining of Meteorological

Anda mungkin juga menyukai