SOAL
Consider the data in Table E6.4. The target variable is salary. Start by discretizing salary as follows: _ Less than $35,000 Level 1 _ $35,000 to less than $45,000 Level 2 _ $45,000 to less than $55,000 Level 3 _ Above $55,000 Level 4
SOLUSI
1.METODE CART Tabel Candidate Split
Split 1 2 3 4 5 6 7 8 9 10 11 12 13 tl Occ=Service Occ=Management Occ=Sales Occ=Staff Gender=Female Gender=Male Age<=25 Age<=26 Age<=30 Age<=33 Age<=35 Age<=40 Age<=45 tr Occ={Management,Sales,Staff} Occ={Service,Sales,Staff} Occ={Management,Service,Staff} Occ={Management,Service,Sales} Gender={Male} Gender={Female} Age>25 Age>26 Age>30 Age>33 Age>35 Age>40 Age>45 n 3 4 2 2 5 6 3 4 5 6 7 8 10 Pl 0.272727 0.363636 0.181818 0.181818 0.454545 0.545455 0.272727 0.363636 0.454545 0.545455 0.636364 0.727273 0.909091 Pr 0.727273 0.636364 0.818182 0.818182 0.545455 0.454545 0.727273 0.636364 0.545455 0.454545 0.363636 0.272727 0.090909
Mencari Nilai Maksimal dari (s |t ) untuk setiap Candidate Split, Hasil Perhitungan Dapat Dilihat pada Tabel Berikut :
Dari Hasil Perhitungan Di atas Diperoleh nilai (s |t ) yang maksimal yaitu 0.6612 yaitu pada age<= 26, kemudian dilakukan split. Kemudian Lihat lagi pada child, dan dicari lagi nilai (s |t ) yang terbesar untuk dilakukan split pada Left Child yaitu Record (2,4,6,11). Adapun Hasil perhitungannya Yaitu Dapat dilihat Pada Tabel Berikut :
Dari hasil perhitungan diperoleh nilai maksimal yaitu 1 pada Occ =Management, kemudian dilakukan split dan diperoleh record baru pada left child yaitu record 4,6 dengan salary pada level 3, sedangkan untuk right child yaitu sisanya occ = staf,service dengan salary pada level 1. Kemudian kembali ke Root pada Right child, dimana kembali akan dihitung nilai (s |t ) yang maksimal untuk dilihat lagi. Adapun tabel candidate splitnya yaitu sebagai berikut :
Split tl 1 Occ=Service 2 Occ=Management 3 Occ=Sales 4 Occ=Staff 5 Gender=Female 6 Gender=Male 9 Age<=30 10 Age<=33 11 Age<=35 12 Age<=40 13 Age<=45 tr Occ={Management,Sales,Staff} Occ={Service,Sales,Staff} Occ={Management,Service,Staff} Occ={Management,Service,Sales} Gender={Male} Gender={Female} Age>30 Age>33 Age>35 Age>40 Age>45 n 2 2 2 1 5 2 1 2 3 4 6 Pl 0.285714 0.285714 0.285714 0.142857 0.714286 0.285714 0.142857 0.285714 0.428571 0.571429 0.857143 Pr 0.714286 0.714286 0.714286 0.857143 0.285714 0.714286 0.857143 0.714286 0.571429 0.428571 0.142857
Dari hasil perhitungan nilai (s |t ) terbesar yaitu : 0.8163 pada Occ = management Untuk node pada left child yaitu Occ = managemet yaitu pada record 5,7 dengan genre female dan salary pada level 4.Untuk right child masih dihitung lagi karena record yang baru adalah sisanya yaitu 1,3,8,9,10. Tabel candidate Split
Split 1 2 3 4 5 tl Occ=Service Occ=Sales Occ=Staff Age<=40 Age<=45 tr Occ={Management,Sales,Staff} Occ={Management,Service,Staff} Occ={Management,Service,Sales} Age>40 Age>45 n 1 1 1 1 2 Pl 0.333333 0.333333 0.333333 0.333333 0.666667 Pr 0.666667 0.666667 0.666667 0.666667 0.333333
Di peroleh nilai max yaitu : 0,888889 pada age<=45 Maka pada left childnya yaitu record 1,8 dengan genre female pada salary level 3, sedangkan untuk right child yaitu record 10 dengan genre male, dan salary pada level 2. Untuk diagram DML dapat dilihat sebagai berikut :
DML diagram
DECISION TREE
Root Node Age <=26 vs Age >26 (Age>26) (Age<=26) Decision Node A Records 1,3,5,7,8,9,10 (Occ=Management) (Occ={Service,Sales,Staff}) Salary level 4 Records 5,7 (Gender=Female) (Gender=Male) Decision Node C Records 1,8,10 Salary level 2 Records 3,9 Salary level 4 Decision Node B Records 1,3,8,9,10 Salary level 4 Records 5,7 Records 5,7 (Occ={Service,Sales,Staff)
C45
(Occ = Managements) (Occ =Service) Decision Node B Records 4,5,6,7 Decision Node A Records 1,2,3 (Gender=Male) Salary level 3 Records 5,7 Salary level 4 Records 4,6 (Gender=Female)
(Occ = Sales) Decision Node C Records 8,9 Decision Node D Records 10,11 (Gender=Female) (Gender=Male) Salary level 2 Records 9 Salary level 3 Records 8 (Occ =Staff)