Penerapan Teknik Data Mining Dengan Algoritma

PENERAPAN TEKNIK DATA MINING DENGAN ALGORITMA
CLASSIFICATION TREE UNTUK PREDIKSI HUJAN
Ratih Prasetya
Pusat Pendidikan dan Pelatihan, Badan Meteorologi Klimatologi dan Geofisika
ratih.prasetya@bmkg.go.id
ABSTRACT
Classification is a data mining technique used to predict the relationship between data in a
dataset. Prediction is done by classifying data into several different classes by considering
certain factors. Classification is one of the empirical approaches that can be used for short-
term weather prediction. The classification algorithm used in this study is the Classification
Tree utilizing software of Orange Data Mining 3.3.12. Furthermore, the algorithm is used to
predict rain with the Confusion Matrix test parameters. The input data is a synoptic data from
the Kemayoran Meteorological Station, Jakarta (96745) for 10 years (2006 - 2015) as many
as 3528 datasets and consists of 8 attributes. Based on a series of processing, selection and
testing of the model shows that the accuracy of the Classification Tree algorithm is 74.7% with
a fair classification category where the number of correct predictions is 818 datasets out of
the total amount of data tested that is 1095 datasets. The dominant weather attributes in the
formation of rain respectively are humidity (RHavg), minimum temperature (Tmin), maximum
temperature (Tmax), average temperature (Tavg) and wind direction (ddd).
Keywords: Classification, Supervised Learning, Confusion Matrix, Weather Attributes
ABSTRAK
Klasifikasi adalah salah satu teknik data mining yang digunakan untuk memprediksi hubungan
antar data pada suatu dataset. Prediksi dilakukan dengan mengklasifikasikan data menjadi
beberapa kelas berbeda dengan mempertimbangkan faktor tertentu. Klasifikasi merupakan
salah satu teknik pendekatan empiris yang dapat dimanfaatkan untuk prediksi cuaca jangka
pendek. Algoritma Klasifikasi yang digunakan pada studi ini adalah Classification Tree
menggunakan perangkat lunak Orange Data Mining 3.3.12. Selanjutnya algoritma tersebut
digunakan untuk memprediksi hujan dengan parameter uji Confusion Matrix. Data masukan
adalah data sinoptik Stasiun Meteorologi Kemayoran, Jakarta (96745) selama 10 tahun (2006
- 2015) sebanyak 3528 dataset dan terdiri dari 8 atribut. Berdasarkan serangkaian pengolahan,
pemilihan dan pengujian model menunjukkan bahwa tingkat akurasi algoritma Classification
Tree yaitu sebesar 74.7% dengan kategori fair classification dimana jumlah prediksi benar
adalah 818 dataset dari total jumlah data yang diuji yaitu 1095 dataset. Atribut cuaca yang
dominan dalam pembentukan hujan secara berturut-turut adalah kelembaban (RHavg),
temperatur minimum (Tmin), temperatur maksimum (Tmax), temperatur rata-rata (Tavg) dan
arah angin (ddd).
Kata kunci: Klasifikasi, Supervised Learning, Confusion Matrix, Atribut Cuaca
Jurnal Widya Climago, Vol.2 No.2, November 2020 13

Email : jurnalwidyaclimago@gmail.com
PENDAHULUAN metode prediksi yang tepat dan akurat dengan
teknik data mining. Berdasarkan penelitian
Prediksi cuaca merupakan salah tersebut, disimpulkan bahwa penerapan teknik
tantangan besar dalam ilmu meteorologi yang data mining untuk prediksi cuaca dengan
telah banyak dijadikan subjek penelitian. menganalisis parameter cuaca. Berdasarkan
Penelitian mengenai prediksi cuaca dilakukan penelitian tersebut, disimpulkan bahwa
dengan berbagai metode dimana setiap metode penerapan teknik data mining untuk prediksi
memiliki kekurangan dan kelebihan. cuaca dengan menganalisis parameter cuaca
Pendekatan dalam prediksi cuaca dapat dapat dilakukan dan mendapatkan nilai akurasi
dilakukan dengan metode empiris maupun yang baik. Algoritma Decision Tree
dinamis. Prediksi cuaca jangka pendek menghasilkan akurasi yang baik 88.2% saat
dilakukan dengan penerapan metode dinamis diaplikasikan dengan data cuaca karena dapat
yang merupakan sebuah pendekatan analitis mengklasifikan dengan baik (E.Manjula, 2016).
yang didasarkan pada prinsip-prinsip dinamika Penelitian yang berjudul Use of Data
fluida, sedangkan metode empiris yang Mining Techniques for Weather Data in Basra
dilakukan dengan pendekatan statistik dan City menggunakan teknik K Means Clustering
matematis lebih banyak digunakan untuk dan ANN untuk mencari nilai akurasi dan nilai
prediksi cuaca jangka panjang. Root Means Square Error (RMSE)sebagai
Terdapat dua metode dalam prediksi metode klasifikasi untuk prediksi cuaca (hujan,
cuaca (Bhatkande and Hubballi, 2016): cerah, berawan). Parameter cuaca yang
1. Pendekatan Empiris digunakan adalah kelembaban, temperature
Pendekatan ini bergantung pada rata-rata, kecepatan angin, arah angina, waktu
penelitian terhadap data yang lampau untuk kejadian angin maksimum dan curah hujan
memprakirakan keadaan di masa yang akan dengan periode data selama 9 tahun (2004-
datang dan mencari hubungan antar atribut. 2013). Hasil yang penelitian adalah metode
Metode yang banyak digunakan dalam tersebut cukup baik untuk prediksi cuaca
pendekatan empiris untuk prediksi cuaca adalah (Prasad and Nejres, 2015).
regresi, pohon keputusan (decision tree), Data mining dibagi menjadi beberapa
artificial neural network, fuzzy logic dan bagian berdasarkan tugas yang dilakukan,
metode pengolahan data yang lain. (Larose, 2006) salah satunya adalah prediksi.
2. Pendekatan Dinamis Prediksi hampir sama dengan klasifikasi dan
Pada pendekatan dinamis, diharapkan estimasi, kecuali bahwa dalam prediksi nilai
dapat menghasilkan pendekatan terhadap dari hasil akan ada di masa mendatang.
keadaan sebenarnya dengan pemodelan fisika Beberapa metode dan teknik yang digunakan
untuk memprakirakan kondisi di masa yang dalam klasifikasi dan estimasi dapat pula
akan datang. digunakan (untuk keadaan yang tepat) untuk
Unsur cuaca yang paling sering prediksi.
dilakukan prediksi adalah hujan. Hujan Klasifikasi dan prediksi adalah dua bentuk
merupakan jatuhan hydrometeor yang analisis data yang bisa digunakan untuk
merupakan partikel-partikel air yang memiliki mengekstrak model dari data yang berisi kelas-
diameter 0.5 mm atau lebih yang sampai ke kelas atau untuk memprediksi trend data yang
tanah(Soepangkat, 1994). akan datang (Han dan Kamber, 2006).
Data mining adalah penambangan atau Classification dan Regression Tree
penemuan informasi baru dengan mencari pola (CART) adalah salah satu metode atau
atau aturan tertentu dari sejumlah data yang algoritma dari teknik pohon keputusan. CART
sangat besar (Davies, 2004) adalh suatu metode statistic nonparametric
Para peneliti di bidang meteorologi yang dapat menggambarkan hubungan antara
telah mengkaji bagaimana mendapatkan variable respon (variabel dependen) dengan
satu atau lebih variabel predictor (variabel teknik data mining untuk prediksi hujan, berapa
independen). Apabila variabel respon akurasi hasil prediksi dengan parameter uji
berbentuk kontinu maka metode yang Confusion Matrix dan bagaimana hasil prediksi
digunakan adalah metode regresi pohon hujan dapat divisualisasikan menggunakan
(regression tree), sedangkan apabila variabel algoritma Classification Tree. Cross Validation
respon memiliki skala kategorik maka metode merupakan metode umum yang digunakan
yang digunakan adalah metode klasifikasi untuk mengevaluasi kinerja classifier. Cross
pohon (classification tree) (Breiman, 1993). Validation adalah bentuk sederhana dari teknik
Pembentukan classification tree terdiri statistic. Jumlah fold standar untuk
atas 3 tahap yang memerlukan learning sample memprediksi tingkat error dari data adalah
L. Tahap pertama adalah pemilihan pemilah. dengan menggunakan 10-fold cross validation
Setiap pemilahan hanya bergantung pada nilai (Witten, Frank and Hall, 2011).
yang berasal dari satu variabel independen. Atribut kualitas prediksi (attributes of
Metode pemilahan yang sering digunakan forecast quality) untuk kategori probabilistic
adalah indeks Gini dengan fungsi sebagai yaitu sharpness, resolution, discriminant, bias,
berikut (Tobergte and Curtis, 2013): reliability (calibration), accuracy dan skill
(Murphy and Wrinkler, 1992). Atribut yang
akan dibahas pada penelitian ini adalah
accuracy.
dengan i (t) adalah fungsi keheterogenan Diharapkan hasil penelitian ini dapat
indeks gini, p (iǀt) adalah proporsi kelas i pada memberikan manfaat yaitu pengetahuan terkait
simbul t, dan p (jǀt) adalah proporsi kelas j pada aplikasi pendekatan empiris dalam teknik data
simpul t. Goodness of Split merupakan suatu mining untuk prediksi hujan dan menambah
evaluasi pemilahan oleh pemilah s pada simpul wawasan pengetahuan teknik prediksi hujan
t. Goodness of split ɸ (s,t) didefinisikan sebagai berbasis probabilistic.
penurunan keheterogenan.
METODE
Jenis penelitian ini adalah penelitian

Pengembangan pohon dilakukan dengan kuantitatif (quantitative research). Penelitian
mencari semua kemungkinan pemilah pada ini menggunakan teknik data mining untuk
simpul t1 sehingga ditemukan pemilah s* yang mengolah series data pengamatan cuaca dan
memberikan nilai penurunan keheterogenan menganalisis hasilnya untuk mendapatkan serta
tertinggi yaitu, menentukan algoritma apa yang paling baik
digunakan untuk prediksi cuaca.
Data yang digunakan dalam penelitian
ini adalah data observasi meteorologi
Dengan ɸ(𝑠, 𝑡) adalah kriteria goodness permukaan (synoptic) selama 10 tahun (2006-
of split, PLi (tL) adalah proporsi pengamatan 2015) yang diperoleh dari Sub Bidang Database
dari simpul t menuju simpul kanan. Tahap BMKG dan Stasiun Meteorologi Jakarta
ketiga adalah penandaan label tiap simpul (96745). Data observasi mateorologi
terminal berdasar aturan jumlah anggota kelas permukaan (synoptic) diamati setiap jam, data
terbanyak, yaitu: synop yang berbentuk sandi kemudian
diterjemahkan dan di input kedalam Ms Excel.
unsur unsur cuaca yang diamati adalah
Selanjutnya, rumusan masalah pada Temperatur, Tekanan, Visibility (Jarak
penelitian ini adalah bagaimana penerapan Pandang), keadaan cuaca, arah angin,
kecepatan angin, titik embun, jenis awan,
jumlah awan, radiasi matahari, lamanya cleaning pada data yang menjadi fokus
penyinaran matahari dan lain-lain. KDD. Proses cleaning mencakup antara lain
Perangkat lunak yang digunakan untuk membuang duplikasi data, memeriksa data
mengolah data adalah software Orange Data yang inkonsisten, dan memperbaiki
Mining versi 3.3.12 yang berbasis open source. kesalahan pada data, seperti kesalahan cetak
Tahap preprocessing yang digunakan dalam (tipografi). Juga dilakukan proses
penelitian ini menggunakan tahapan KDD enrichment, yaitu proses “memperkaya”
(Knowledge Data Discovery) yang meliputi data yang sudah ada dengan data atau
kegiatan pengumpulan, pemakaian data historis informasi lain yang relevan dan diperlukan
untuk menemukan keteraturan, pola atau untuk KDD, seperti data atau informasi
hubungan dalam set data berukuran besar eksternal.
(Pramudiono, 2007). Knowledge Database Proses cleaning mempunyai fungsi yaitu
Discovery (KDD) adalah proses menentukan membuang duplikasi data, memeriksa data
informasi yang berguna serta pola-pola yang yang tidak konsisten serta memperbaiki
ada dalam data. Informasi ini terkandung dalam kesalahan data tipografi sehingga data
basis data yang berukuran besar yang tersebut siap untuk dilakukan proses
sebelumnya tidak diketahui dan potensial selanjutnya yaitu pemilahan data.
bermanfaat (Han dan Kamber, 2006). Salah
satu tahapan dalam Knowledge Database 3. Data Selection
Discovery (KDD), prosesnya dapat dijelaskan Pada tahap ini, data yang sesuai untuk
sebagai berikut (Fayyad, Piatetsky-Shapiro and dilakukan analisis dipilih dari dataset. Data
Smyth, 1996). meteorologi yang digunakan pada penelitian
ini yaitu temperature rata-rata harian,
1. Data Collection temperature minimum harian, temperature
Yaitu pengumpulan data yang akan maksimum harian, kelembaban, kecepatan
digunakan pada processing teknik data angin, arah angin dan lama penyinaran
mining. Pemilihan (seleksi) data dari matahari. Parameter-parameter cuaca
sekumpulan data operasional perlu tersebut yang selanjutnya disebut atribut
dilakukan sebelum tahap penggalian akan disimpan ke dalam dataset baru
informasi dalam KDD dimulai. Data hasil menggunakan Microsoft Excel dengan
seleksi yang akan digunakan untuk proses format xls berjumlah 3528 dataset dengan 8
data mining, disimpan dalam suatu berkas, variabel yang terdiri atas 7 variabel numerik
terpisah dari basis data operasional. dan 1 variabel textual. Hasil pengolahan
pada tahap ini yaitu data memiliki 9 atribut
2. Data Cleaning (Tabel 1) dan terdapat 0 missing value.
Sebelum proses data mining dapat
dilaksanakan, perlu dilakukan proses
Tabel 1. Atribut Dataset Meteorologi
Atribut Tipe Keterangan

Year Numerical Year considered
Month Numerical Month considered
Temperatur rata-rata Numerical Temperatur rata-rata harian
Temperatur Minimum Numerical Temperatur minimum harian
Temperatur Maksimum Numerical Temperatur maksimum harian

Kelembaban rata-rata dalam satu
Kelembaban Numerical
hari
Kecepatan angin rata-rata dalam
Kecepatan Angin Numerical
satu hari
Arah angin terbanyak dalam satu
Arah Angin Numerical
hari
Lamanya penyinaran matahari
Lama Penyinaran Matahari Numerical
dalam satu hari
Curah Hujan Label Jumlah curah hujan harian
4. Data Transformation Total error diperoleh dengan menjumlahkan

Data transformasi disebut juga dengan error-error untuk kedua proses tersebut.
penggabungan data. Pada tahap ini data
yang telah dipilih dirubah kedalam bentuk 6. Evaluasi/Pengujian
data yang sesuai untuk data mining Cross Validation merupakan metode umum
yang digunakan untuk mengevaluasi kinerja
5. Validasi classifier. Cross Validation adalah bentuk
Tahap validasi dilakukan dengan membagi sederhana dari teknik statistic. Jumlah fold
data menjadi 2 yaitu data training (data standar untuk memprediksi tingkat error dari
latih) sebanyak 70% dari jumlah total data adalah dengan menggunakan 10-fold
dataset dan data test (data uji) sebanyak 30% cross validation (Witten, Frank and Hall,
dari jumlah total data set. Data training 2011).
digunakan untuk processing algoritma Dalam pendekatan cross validation, setiap
Classification Tree sedangkan data test record digunakan beberapa kali dalam
digunakan untuk proses validasi. jumlah yang sama untuk training dan tepat
Pendekatan yang digunakan adalah Dalam sekali untuk testing. Metode ini mempartisi
pendekatan cross validation, setiap record data ke dalam dua sub set data yang
digunakan beberapa kali dalam jumlah yang berukuran sama. Pilih salah satu sebagai
sama untuk training dan tepat sekali untuk data training dan satu lagi untuk testing,
testing. Metode ini mempartisi data ke kemudian dilakukan pertukaran fungsi dari
dalam dua sub set data yang berukuran sub set sedemikian sehingga sub set yang
sama. Pilih salah satu sebagai data training sebelumnya sebagai training set menjadi test
dan satu lagi untuk testing, kemudian set demikian sebelumnya. Pendekatan ini
dilakukan pertukaran fungsi dari sub set dinamakan two-fold-cross-validation. Total
sedemikian sehingga sub set yang error diperoleh dengan menjumlahkan error-
sebelumnya sebagai training set menjadi error untuk kedua proses tersebut.
test set demikian sebelumnya. Pendekatan
ini dinamakan two-fold-cross-validation.

Gambar 1. Fold Cross Validation
Pada gambar 1 ditunjukkan contoh nilai Recall (r) = True Positive

penghitungan dengan nilai fold yang digunakan True Positive + False Negative
adalah 4-fold cross validation. Berikut
diberikan langkah-langkah pengujian data Accuracy= Jumlah klasifikasi benar
dengan 4-fold cross validation. Total sampel testing yang diuji
Parameter yang digunakan untuk
evaluasi komparasi algoritma adalah Confusion 7. Interpretasi
Matrix (akurasi, presisi dan recall). Evaluasi
dengan confusion matrix menghasilkan akurasi Pola informasi yang dihasilkan dari proses
dan laju error. Analisis akurasi dalam prediksi data mining perlu ditampilkan dalam bentuk
dikotomi yaitu prediksi dalam bentuk dua yang mudah dimengerti oleh pihak yang
kategori hujan atau tidak dapat dilakukan untuk berkepentingan. Tahap ini merupakan
mengetahui tingkat ketepatan algoritma bagian dari proses KDD yang disebut
klasifikasi yang digunakan. Nilai akurasi interpretation. Tahap ini mencakup
diperoleh dari suatu matriks kontingensi yaitu pemeriksaan apakah pola atau informasi
suatu matriks bujur sangkar yang disebut “error yang ditemukan bertentangan dengan fakta
matrix” atau “confusion matrix”. Akurasi atau hipotesis yang ada sebelumnya. Tahap
adalah persentase total data yang diprediksi interpretasi digunakan untuk mendapatkan
secara benar. Laju error adalah persentase dari pola informasi yang dihasilkan dari proses
total data yang diprediksi secara salah, sebagai data mining. Informasi yang dihasilkan pada
berikut: software Orange akan menampilkan dan
memberikan informasi mengenai kinerja
masing-masing algoritma dalam metode
Klasifikasi.
Setelah dibuat confusion matrix,

selanjutnya dihitung nilai precision, recall dan HASIL DAN PEMBAHASAN
accuracy. Untuk mengukur accuracy,
precision dan recall biasanya digunakan Pada tahap Data Collection, data yang
confusion matrix. digunakan adalah data observasi meteorologi
Nilai precision, recall dan accuracy dapat permukaan (synoptic) rata-rata harian selama
diperoleh melalui perhitungan berikut: 10 tahun (2006-2015) sebanyak 3528 dataset.
Lokasi penelitian adalah Stasiun Meteorologi
Precision (p) = True Positive Kemayoran Jakarta (96745) yang beralamat di
True Positive + False Positive Jalan Angkasa I No. 2, Kemayoran, Jakarta.
Unsur unsur cuaca yang diamati adalah

Temperatur, Tekanan, Visibility (Jarak angin dan lama penyinaran matahari.
Pandang), keadaan cuaca, arah angin, Parameter-parameter cuaca tersebut yang
kecepatan angin, titik embun, jenis awan, selanjutnya disebut atribut akan disimpan ke
jumlah awan, radiasi matahari, lamanya dalam dataset baru menggunakan Microsoft
penyinaran matahari dan lain-lain. Excel dengan format xls berjumlah 3528 dataset
Pada tahap Data Cleaning, data dengan 8 variabel yang terdiri atas 7 variabel
meteorologi yang digunakan pada penelitian ini numerik dan 1 variabel textual.
memiliki 9 atribut (Tabel 1) dan terdapat 0 Tahap Data Transformation
missing value. dilakukan dengan merubah formal xls menjadi
Tahap Data Selection dilakukan format csv sesuai dengan tipe data input pada
proses analisis data dengan memilih parameter software Orange.
cuaca yang relevan terhadap penelitian ini yaitu Tahap Validasi, proses perancangan
temperature rata-rata harian, temperature model pada software orange adalah sebagai
minimum harian, temperatur maksimum berikut:
harian, kelembaban, kecepatan angin, arah
Gambar 2. Proses Klasifikasi Pada Software Orange Vers. 3.3.1.2
sedangkan data uji sebanyak 30% digunakan

Data observasi cuaca permukaan untuk menguji nilai probabilitas yang telah
(synoptic) di proses menggunakan algoritma terbentuk. Uji dengan confusion matrix
klasifikasi yaitu Classification Tree. Model dilakukan untuk memperoleh nilai precision,
keluaran masing-masing metode tersebut diuji recall dan accuracy dari hasil pengujian. Hasil
dengan sebagian data masukan untuk melihat pengujian adalah untuk mengukur tingkat
kehandalan model. akurasi dan Area Under Curve (AUC) dari
Tahap Evaluasi/Pengujian dilakukan penentuan dengan metode 10-fold Cross
dengan membagi data menjadi 2 (dua) yaitu Validation. Berikut hasil pengujian dari
data latih (training) dan data uji (data test). Data masing-masing algoritma:
latih sebanyak 70% digunakan sebagai proses
mining dan mendapatkan nilai probabilitas

Tabel 2. Confusion Matrix pada Classification Tree
Accuracy: 74.7%
True Anomaly
True Normal (Hujan)
(Tidak Hujan)
Pred. Normal (Hujan) 286 532
Pred Anomaly (Tidak Hujan) 140 137

Proportion of Predicted 67.1% 79.5%
Dari table 2 kemudian dihitung nilai: menggunakan algoritma Classification Tree

Precision = 0.74; Recall = 0.74; Accuracy = adalah sebesar 74.7% dengan jumlah prediksi
0.74 dan AUC = 0.73 benar adalah 818 dataset dari jumlah total data
Berdasarkan hasil pada Tabel 2, dapat yang diuji yaitu 1095 dataset.
dilihat bahwa tingkat akurasi dengan
Gambar 3. Pengaturan Classification Tree

pada Software Orange
node selain jumlah yang telah ditentukan. Do
Tahap Interpretasi pada algoritma Not Split Subsets Smaller Than berfungsi untuk
Classification Tree merupakan salah satu mencegah algoritma memecah simpul dengan
metode Klasifikasi yang paling popular karena jumlah lebih kecil dari instance yang
mudah untuk diinterpretasi. Classification Tree ditentukan. Limit the Maximal Tree Depth
adalah model prediksi menggunakan struktur berfungsi untuk membatasi jumlah kedalaman
pohon atau disebut juga struktur berhirarki. simpul hingga mencapai jumlah kedalaman
Model Classification Tree memiliki simpul yang ditentukan. Stop When Majority
kemampuan untuk mengubah data menjadi Reaches (%) menghentikan simpul setelah
pohon keputusan dan aturan-aturan keputusan threshold tertentu dicapai. Masalah dalam
sehingga dapat memproses pengambilan Klasifikasi dapat diproses dengan mengajukan
keputusan dengan atribut yang kompleks sejumlah atribut dari test record.
menjadi lebih mudah. Pengaturan widget Setiap kali node diperoleh maka
Classification Tree pada Orange Software sejumlah atribut diproses kembali sampai
dapat dilihat pada gambar 3. diperoleh sebuah kesimpulan mengenai label
Min. Number of Instances in Leaves yaitu kelas dari record. Rangkaian proses tersebut
dimana algoritma tidak akan menghasilkan dapat diasosiasikan ke dalam bentuk pohon

keputusan yang merupakan struktur hirarki keputusan hasil pengolahan algoritma
yang terdiri dari node dan simpul. Pohon Classification Tree dapat dilihat pada gambar 4.
Gambar 4. Classification Tree untuk prediksi hujan
Hasil pengolahan data pada kondisi cuaca berpeluang hujan. Dari internal
Classification Tree menghasilkan 859 nodes node Tmin dipecah lagi menjadi 2 internal node
dan 430 leaves dengan depth sebanyak 5 level. yaitu RHavg dan temperature rata-rata (Tavg),
Root node yaitu atribut Receiver Humidity rata- bila Tmin ≤ 24.70 C maka kondisi cuaca
rata (RHavg) digunakan untuk memisahkan berpeluang hujan dan bila Tmin > 24.70 C maka
kondisi cuaca hujan atau tidak hujan, dari kondisi cuaca berpeluang kecil hujan.
jumlah dataset sebanyak 3528 terdapat 2164 Pada proses terakhir, Internal node RH
dataset atau 61.3% peluang cuaca tidak hujan. menghasilkan leaf node hujan bila nilai RH >
Selanjutnya, dari root node dipecah menjadi 2 83.75% maka peluang terjadinya hujan cukup
internal node yaitu atribut RHavg dan besar yaitu 96.5% dan bila nilai RH ≤ 69.83%
temperature minimum (Tmin). Bila nilai RH ≤ maka peluang tidak hujan cukup besar yaitu
76.167% maka kondisi cuaca berpeluang tidak 95.4%.
hujan dan bila nilai RH > 76.167% maka
Gambar 5. Prosentase prediksi hujan pada tiap dataset

Pada Gambar 5, juga dapat dilihat prosentase seperti RMSE (Root Mean Squared Error)
prediksi hujan pada tiap data set, dimana total atau dengan menambah jumlah parameter
terdapat 3528 dataset. Classification Tree uji.
berhasil mengklasifikasikan parameter apa saja 2. Metode empiris dengan model data mining
yang paling berpengaruh terhadap prediksi ini sebaiknya diuji tidak hanya pada satu
curah hujan yaitu berdasarkan tingkat titik stasiun cuaca saja tetapi menggunakan
pengaruhnya secara berturut-turut yaitu RHavg, sebaran data observasi beberapa stasiun
Tmin, RH, ddd (arah angin), LPM (lamanya cuaca (spasial) sehingga dapat
penyinaran matahari) dan Tmax. Selain itu dari merepresentasikan wilayah tertentu dengan
pohon klasifikasi yang terbentuk juga dapat lebih baik.
diketahui peluang intensitas hujan yang akan
terjadi, hal ini tampak dari warna yang lebih
kuat pada masing-masing node.
DAFTAR PUSTAKA
Bhatkande, S. S. and Hubballi, R. G. (2016)

KESIMPULAN ‘Weather Prediction Based on Decision
Tree Algorithm Using Data Mining
Berdasarkan penelitian tentang prediksi cuaca Techniques’, 5(5), pp. 483–487. doi:
jangka pendek menggunakan algoritma 10.17148/IJARCCE.2016.55114.
Classification Tree pada prediksi hujan dengan
Chauhan, D. and Thakur, J. (2014) ‘Data
parameter uji Confusion Matrix dapat ditarik
Mining Techniques for Weather
beberapa kesimpulan yaitu: Prediction: A Review’, International
1. Bahwa berdasarkan hasil dari parameter uji Journal on Recent and Innovation
Confusion Matrix, algoritma Classification Trends in Computing and
Tree dapat diaplikasikan untuk prediksi Communication, 2(8), pp. 2184–2189.
hujan dengan kategori yang cukup baik Available at: http://ijritcc.org/IJRITCC
yaitu fair classification. Vol_2 Issue_8/Data Mining Techniques
for Weather Prediction A Review.pdf.
2. Interpretasi pengetahuan yang dapat
diaplikasikan untuk prediksi cuaca jangka E.Manjula, S. D. (2016) ‘Analysis of Data
pendek khususnya untuk algoritma Mining Techniques for Agriculture
Classification Tree adalah bahwa algoritma Data’, International Journal of
tersebut berhasil mengklasifikasikan data Computer Science and Engineering
uji sebanyak 1095 dataset menjadi 287 Communications, 4(2), pp. 1311–1313.
doi: 10.7910/DVN/MYBLHC.
nodes dan 144 leaves.
3. Parameter cuaca yang paling signifikan Gaikwad, G. and Nikam, V. B. (2013)
terhadap pembentukan hujan adalah ‘Different Rainfall Prediction Models
kelembaban (RHavg), temperature And General Data Mining Rainfall
minimum (Tmin), temperature maksimum Prediction Model’, International Journal
(Tmax), temperature rata-rata (Tavg) dan of Engineering Research and
arah angin (ddd). Technology, 2(7), pp. 115–123.
Prasad, R. S. and Nejres, S. M. (2015)

‘International Journal of Advanced
SARAN Research in Use of Data Mining
Penelitian ini perlu dikembangkan kembali Techniques for Weather Data in Basra
dengan: City’, 5(12), pp. 135–139.
1. Penelitian ini sebaiknya dilanjutkan dengan
Tan, P. and Steinbach, M. (2006) ‘Introduction
menggunakan parameter uji yang lain
to Data Mining Instructor ’ s Solution

Manual’.
Tobergte, D. R. and Curtis, S. (2013) ‘Metode Witten, I. H., Frank, E. and Hall, M. a (2011)
Classification’, Journal of Chemical Data Mining: Practical Machine
Information and Modeling, 53(9), pp. Learning Tools and Techniques (Google
1689–1699. doi: eBook), Complementary literature None.
10.1017/CBO9781107415324.004. doi: 0120884070, 9780120884070.


Penerapan Teknik Data Mining Dengan Algoritma

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Penerapan Teknik Data Mining Dengan Algoritma

Diunggah oleh

Hak Cipta:

Format Tersedia

PENERAPAN TEKNIK DATA MINING DENGAN ALGORITMA

CLASSIFICATION TREE UNTUK PREDIKSI HUJAN

Kata kunci: Klasifikasi, Supervised Learning, Confusion Matrix, Atribut Cuaca

Jurnal Widya Climago, Vol.2 No.2, November 2020 13

Jenis penelitian ini adalah penelitian

Tabel 1. Atribut Dataset Meteorologi

Atribut Tipe Keterangan

Jurnal Widya Climago, Vol.2 No.2, November 2020 16

4. Data Transformation Total error diperoleh dengan menjumlahkan

Jurnal Widya Climago, Vol.2 No.2, November 2020 17

Pada gambar 1 ditunjukkan contoh nilai Recall (r) = True Positive

Setelah dibuat confusion matrix,

Jurnal Widya Climago, Vol.2 No.2, November 2020 18

Gambar 2. Proses Klasifikasi Pada Software Orange Vers. 3.3.1.2

sedangkan data uji sebanyak 30% digunakan

Jurnal Widya Climago, Vol.2 No.2, November 2020 19

Pred Anomaly (Tidak Hujan) 140 137

Dari table 2 kemudian dihitung nilai: menggunakan algoritma Classification Tree

Gambar 3. Pengaturan Classification Tree

Jurnal Widya Climago, Vol.2 No.2, November 2020 20

Gambar 4. Classification Tree untuk prediksi hujan

Gambar 5. Prosentase prediksi hujan pada tiap dataset

Bhatkande, S. S. and Hubballi, R. G. (2016)

Prasad, R. S. and Nejres, S. M. (2015)

Jurnal Widya Climago, Vol.2 No.2, November 2020 22

Jurnal Widya Climago, Vol.2 No.2, November 2020 23

Anda mungkin juga menyukai