Anda di halaman 1dari 10

TUGAS DATA MINING

Decision Tree

Pengganti Pertemuan 12 Mei 2017

NAMA : MEGAWATI BR SIMANJORANG


NIM : 161062030

JURUSAN STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS DAN TEKNOLOGI AKPRIND
YOGYAKARTA
2017

Dengan menggunakan data weather.csv, dapatkan

1. Lakukan model data mining CART dengan ketentuan


- Menggunakan 366 data dengan telah melakukan cleanup data missing
- Tidak menggunakan partisi data
- Variabel dependen (target) adalah RainTomorrow dan independen meliputi
MinTemp
MaxTemp
Rainfall
Evaporation
Sunshine
WindGustDir
WindGustSpe
ed
WindDir9am
WindDir3pm
WindSpeed9a
m
WindSpeed3p
m
Humidity9am
Humidity3pm
Pressure9am
Pressure3pm
Cloud9am
Cloud3pm
Temp9am
Temp3pm

- Gunakan minimum split, minimum backet, dan maximum depth yang berbeda-beda

2. Di setiap model minimum split, minimum backet, dan maximum depth yang berbeda-
beda,
a. Tentukan diagram pohon dan interpretasinya
b. Tetukan root node dan leaf node (tulis nomornya)!
c. Dapatkan error klasifikasinya!
d. Bandingkan setiap model tersebut
Jawab:
I. Melakukan Model data

1. Memasukkan variabel Independent

2. Memasukkan variabel dependent (Rain Tommorow) sebagai target


3. Melakukan clean up

Model 1

Min Splite = 24
Min Bucket =8
Min Depth = 30
Model 2

Min Splite = 45
Min Bucket = 20
Min Depth = 28
II. A. Tentukan Diagram Pohon dan Interpretasi

Model 1

Interpretasi:
Dari hasil model maupun decision tree di atas dapat diinterpretasikan bahwa terdapat 328 data di
root pertama, 60 data tidak termasuk ke dalam kelompok NO, sedangkan 268 data masuk ke
kelompok NO. 81,7% termasuk kelompok NO dan 18,3% termasuk ke kelompok YES maka
root ini diklasifikasikan NO. Oleh karena itu root pertama dibagi ke dalam 2 kelompok lagi yaitu
pressure 3pm >= 1016,50 dan pressure 3pm < 1016,50, dst, sehingga dapat disimpulkan kapan
terjadi hujan dan tidak terjadi hujan.
Akan terjadi hujan apabila:
Pressure=3pm >=1016,50
Sunshine <8,5
WindGustDir=N,NE,NNW,S,SSE,SSW,SW
WinDir3pm=ENE, ESE NNW, SSE, W, WSW,
WinDir9pm=ENE,ESE,NNE,NW,SSE,SSW,SW,WNW,WSW
Evaporation>=6,2, dan
WindGustSpeed>=58.

Tidak akan terjadi hujan apabila:


Pressure=3pm<1016,50
Sunshine >=8,5
WindGustDir=E,ENE,ESE,NNE,NW,W,WNW,
WinDir3pm=E,N,NE,NNE,NW,S,SE,SSW,WNW
WinDir9pm=E,NE,S,SE,W
Evaporation<6,2, dan WindGustSpeed<58.

Model 2
Interpretasi:
Dari hasil model maupun decision tree di atas dapat diinterpretasikan bahwa terdapat 328 data di
root pertama, 60 data tidak termasuk ke dalam kelompok NO, sedangkan 268 data masuk ke
kelompok NO. 81,7% termasuk kelompok NO dan 18,3% termasuk ke kelompok YES maka
root ini diklasifikasikan NO. Oleh karena itu root pertama dibagi ke dalam 2 kelompok lagi yaitu
pressure 3pm >= 1016,50 dan pressure 3pm < 1016,50, dst, sehingga dapat disimpulkan kapan
terjadi hujan dan tidak terjadi hujan.
Akan terjadi hujan apabila:
Pressure=3pm >=1016,50
Sunshine <8,5
WindGustDir=N,ENE,ESE,NNE,NW,W,WNW
WinDir9pm=ENE,N,NW,SSE,SSW,SW,WSW

Tidak akan terjadi hujan apabila:


Pressure=3pm<1016,50
Sunshine >=8,5
WindGustDir=E,ENE,ESE,NNE,NW,W,WNW
WinDir9pm=ENE,N,NW,SSE,SSW,SW,WSW.

B. Tetukan root node dan leaf node (tulis nomornya)!

Decision Tree 1:
*root node adalah simpul 1,2,3,6,7,11,14,29 dan 65
*leaf node (terminal) adalah simpul 4,10,22,23,5,25,116,117,69,16

Decision Tree 2:
*root node adalah simpul 1,3,7,14
*leaf node (terminal) adalah simpul 2,6,28,29,15

C. Dapatkan error klasifikasinya!

Error Model 1

Nilai error klasifikasinya adalah 7%


Model 2

Nilai error klasifikasinya adalah 9%

D. Bandingkan setiap model tersebut !


Model yang paling baik adalah model pertama karena memiliki nilai Overall error yang lebih
kecil dibandingkan dengan Model 2, dan memungkinkan juga jika semakin simpel Model atau
Decision Tree bisa menyebabkan error semakin besar.

Anda mungkin juga menyukai