ITS Undergraduate 10928 Paper
ITS Undergraduate 10928 Paper
L
. Tetapi jika variabel X
j
adalah kategori ordinal maka akan diperoleh L -1
pemilahan yang mungkin. Metode pemilahan yang sering digunakan adalah indeks Gini dengan fungsi
sebagai berikut.
i(t) = p(i|t)p(]|t)
=]
(1)
dengan i(t) adalah fungsi keheterogenan indeks gini, p(i|t) adalah proporsi kelas i pada simpul t, dan
p(j|t) adalah proporsi kelas j pada simpul t
h proporsi kelas i pada simpul t dan ) ( / ) , ( t p t j p adalah proporsi kelas j pada simpul t. Goodness of split
merupakan suatu evaluasi pemilahan oleh pemilah s pada simpul t. Goodness of split ) , ( t s didefinisikan
sebagai penurunan keheterogenan.
(s, t) = i(s, t) = i(t) - P
L
i(t
L
) -P
R
i(t
R
) (2)
Pengembangan pohon dilakukan dengan mencari semua kemungkinan pemilah pada simpul t
1
sehingga
ditemukan pemilah s* yang memberikan nilai penurunan keheterogenan tertinggi yaitu,
i(s
-
, t
1
) = max
sS
i(s, t
1
) (3)
2 Pemilah 6
t
15
t
14
1 3
4 Pemilah 7
t13 t
12
2 3
t
8
t
9
Pemilah 4
t
7
t
4
t
10
t
11
3 4
t
1
t
3
t
2
t
5
t
6
Pemilah 1
Pemilah 3
Pemilah 2
Pemilah 5
3
dengan (s, t) adalah kriteria goodness of split, P
L
i(t
L
) adalah proporsi pengamatan dari simpul t
menuju simpul kiri, dan P
R
i(t
R
) adalah proporsi pengamatan dari simpul t menuju simpul kanan.
Tahap kedua adalah penentuan simpul terminal. Simpul t dapat dijadikan simpul terminal jika tidak
terdapat penurunan keheterogenan yang berarti pada pemilahan, hanya terdapat satu pengamatan (n=1)
pada tiap simpul anak atau adanya batasan minimum n serta adanya batasan jumlah level atau tingkat
kedalaman pohon maksimal.
Tahap ketiga adalah penandaan label tiap simpul terminal berdasar aturan jumlah anggota kelas
terbanyak, yaitu:
p(]
0
|t) = max
]
p(]|t) = max
]
N
]
(t)
N(t)
(4)
dengan p(]|t) adalah proporsi kelas j pada simpul t, N
]
(t) adalah jumlah pengamatan kelas j pada simpul
t , dan N(t) adalah jumlah pengamatan pada simpul t . Label kelas simpul terminal t adalah
0
j
yang
memberi nilai dugaan kesalahan pengklasifikasian simpul t terbesar.
Lewis (2000) menyatakan proses pembentukan pohon klasifikasi berhenti saat terdapat hanya satu
pengamatan dalam tiap simpul anak atau adanya batasan minimum n, semua pengamatan dalam tiap
simpul anak identik, dan adanya batasan jumlah level/kedalaman pohon maksimal.
Setelah terbentuk pohon maksimal tahap selanjutnya adalah pemangkasan pohon untuk mencegah
terbentuknya pohon klasifikasi yang berukuran sangat besar dan kompleks, sehingga diperoleh ukuran
pohon yang layak berdasarkan cost complexity prunning, maka besarnya resubtitution estimate pohon T
pada parameter kompleksitas yaitu :
R
u
(I) = R(I) +o |I
| (5)
dengan R
u
(I) adalah resubtitution suatu pohon T pada kompleksitas , R(I) adalah resubstitution
estimate, o aualah Poromctcr cost -complcxity bagi penambahan satu simpul akhir pada pohon T,
dan |I