Tugas Data Mining
Tugas Data Mining
Pendahuluan
Latar Belakang
Cuaca merupakan faktor Alam yang sangat berpengaruh bagi kehidupan Manusia.
Banyak kegiatan dan aktifitas manusia yang bergantung pada faktor dan kondisi
cuaca,seperti pertanian, transportasi darat maupun udara.
Tujuan : Untuk melihat pola prediksi yang menentukan suatu keadaan cuaca
dengan menggunakan pola dari data historis (yang sudah ada)
Data Cuaca diambil dari situs Website Weather Underground, Dimana data
cuaca diambil dari salah satu stasiun pemantau yang ada di Jakarta.
Metode
Classification (Klasifikasi)
Merupakan metode dalam DM yang paling sering digunakan untuk menyelesaikan problem-problem
di dunia nyata. Sebagai salah satu yang terpopuler dalam keluarga yang menggunakan teknik
machine-learning, classification mempelajari pola-pola dari data historis (sekumpulan informasi
seperti ciri-ciri, variabel-variabel, fitur-fitur pada berbagai karakteristik item-item yang sudah
diberi label sebelumnya) dengan tujuan untuk menempatkan instans (object-object) baru (dengan
label yang tak diketahui sebelumnya) ke dalam kelompok atau kelas masing-masing.
Decision Tree
Decision tree adalah salah satu metode klasifikasi yang paling populer karena mudah untuk
diinterpretasi oleh manusia. Decision tree adalah model prediksi menggunakan struktur pohon atau
struktur berhirarki.Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan
aturan-aturan keputusan. Manfaat utama dari penggunaan decision tree adalah kemampuannya
untuk mem-break downproses pengambilan keputusan yang kompleks menjadi lebih simpel
sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.
Cross Validation
Cross Validation merupakan salah satu teknik untuk menilai/memvalidasi keakuratan sebuah model
yang dibangun berdasarkan dataset tertentu. Pembuatan model biasanya bertujuan untuk
melakukan prediksi maupun klasifikasi terhadap suatu data baru yang boleh jadi belum pernah
muncul di dalam dataset. Data yang digunakan dalam proses pembangunan model disebut data
training, sedangkan data yang akan digunakan untuk memvalidasi model disebut sebagai data test.
Metode
Metode
Cohens Kappa
Merupakan ukuran yang menyatakan konsistensi pengukuran yang
dilakukan dua orang penilai (Rater) atau konsistensi antar dua metode
pengukuran atau dapat juga mengukur konsistensi antar dua alat
pengukuran. Koefiseien Cohen's kappa hanya diterapkan pada hasil
pengukuran data kualitatif (Kategorik)
Nilai dari koefisien Cohens Kappa dapat di interpretasikan (Altman,
1991):
Data
Jumlah Data : 303
Keterangan Atribut:
Data Statistik
Decision Tree
Humidity
>72.5
<=72.5
Precipitation
<=2.03
Cerah
93.7 %
Humidity
>2.03
>76.5
Hujan
60 %
Hujan
93.6 % :
Precipitation
<=0.125
>0.125
Hujan
88.2 %
Decision Tree
Wind_Max
>33
<=33
Temp_Max
>32.5
<=32.5
Dew_Point
<=23.5
2
Cerah
100 %
SLP
>23.5
Cerah
80 %
<=1009.5
Hujan
100 %
>1009.5
Cerah
60 %
Decision Tree
Wind_Rate
<=9
Cerah
60 %
>9
Hujan
71.4%
Decision Tree
Cuaca Cerah
Decision Tree
Cuaca Hujan
Area
Under
Curve
Humidty
0.907
Precipitation
0.889
Dew_Point
0.838
Wind_Max
0.604
Wind_Rate
0.602
SLP
0.442
Temp_Rate
0.343
Temp_Max
0.201
Area
Under
Curve
Humidty
0.093
Precipitation
0.111
Dew_Point
0.162
Wind_Max
0.396
Wind_Rate
0.398
SLP
0.558
Temp_Rate
0.657
Temp_Max
0.799
Data Prediksi
Hujan
Cerah
Hujan
170
21
Cerah
34
78
Wrong Classified = 55
Error = 18.152 %
Kesimpulan
Disimpulkan bahwa Prediksi Pola Cuaca Hujan dan Cerah Dengan Menggunakan
Algoritma Klasifikasi dapat dilakukan. Dengan menggunakan Algoritma
Decision Tree dan Cross Validation akurasi dari hasil data prediksi sekitar
81.848 % dan Koefisien Cohens Kappa sebesar 0.601 , sehingga hasil data
pola prediksi ini cukup bagus untuk digunakan. Selain itu juga di dapat hasil
pola pola atribut yang sangat berpengaruh dalam menentukan cuaca hujan
dan cerah
Daftar Pustaka
Metode-metode dalam Data Mining - Seri Data Mining for Business Intelligence
(6) Received From : http://beritati.blogspot.com/2013/08/seri-data-mining-forbusiness_28.html Accesed : 23 November 2014