Nim
: 12101212
merupakan
suatu
pemrosesan
terhadap
data
untuk
2. Analisis Relevansi
Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang
diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran
terhadap data data dengan atribut yang masih lengkap (masih terdapat
redundansi).
3. Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih
tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai
kontinyu.
(a)
(b)
Gambar 2. Proses Klasifikasi: (a) Learning: Training data dianalisis dengan
algoritma klasifikasi. Disini atribut label kelas adalah Tenured,
danLearned Model atau classifier di gambarkan pada blok
tree
menggunakan
struktur
hierarki
untuk
pembelajaran
supervised. Proses dari decision tree dimulai dari root node hingga leaf node yang
dilakukan secara rekursif. Di mana setiap percabangan menyatakan suatu kondisi
yang harus dipenuhi dan pada setiap ujung pohon menyatakan kelas dari suatu
data.
Proses dalam pohon keputusan yaitu mengubah bentuk data (tabel) menjadi
model pohon (tree) kemudian mengubah model pohon tersebut menjadi aturan
(rule). Pohon keputusan terdiri dari himpunan IFTHEN. Setiap path dalam tree
dihubungkan dengan sebuah aturan, dimana premis terdiri atas sekumpulan nodenode yang ditemui dan kesimpullannya dari aturan atas kelas yang terhubung
dengan leaf node dari path.
D. Arsitektur Pohon Keputusan
Arsitektur pohon keputusan dibuat menyerupai bentuk pohon, dimana pada
umumnya sebuah pohon terdapat akar (root), cabang dan daun (leaf). Pada pohon
keputusan juga terdiri dari tiga bagian sebagai berikut :
a. Root node
Root node atau node akar merupakan node yang terletak paling atas dari suatu
pohon.
b. Internal node
Internal Node ini merupakan node percabangan, dimana pada node ini hanya
terdapat satu input dan mempunyai minimal dua output.
c. Leaf node
Node ini merupakan node akhir, hanya memiliki satu input, dan tidak memiliki
output. Pada pohon keputusan setiap leaf node menandai label kelas.
Gambar berikut merupakan bentuk arsitektur pohon keputusan.
E. Algoritma C4.5
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon
keputusan yang terkenal dan disukai karena memiliki kelebihan-kelebihan.
Algoritma C4.5 mengkonstruksi pohon keputusan dari data pelatihan, yang berupa
kasus-kasus atau record (tupel) dalam basisdata.Ada tiga prinsip kerja algoritma
C4.5 pada tahap belajar dari data, yaitu sebgai berikut :
1. Pembuatan Pohon Keputusan
Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan
menghitung dan membandingkan gain ratio, kemudian pada node-node yang
terbentuk di level berikutnya. Demikian seterusnya sampai terbentuk daundaun.
2. Pemangkasan Pohon Keputusan dan Evaluasi (Opsional)
Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah
dibaca, C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan
berdasarkan nilai tingkat kepercayaan (confidence level). Pembuatan Aturan
3. Aturan dari Pohon Keputusan (Opsional)
Aturan-aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan
melakukan penelusuran dari akar sampai ke daun. Setiap node dan syarat
pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi
ditulis di then. Setelah semua aturan dibuat, maka aturan akan disederhanakan
(digabung atau diperumum).
Langkah 2 :
Jika semua sampel berada dalam kelas yang sama, maka simpul ini
menjadi daun dan dilabeli menjadi kelas. Jika tidak, gain ratio akan
digunakan untuk memilih atribut split, yaitu atribut yang terbaik
dalam memisahkan data sampel menjadi kelas-kelas individu.
Langkah 3 :
Cabang akan dibuat untuk setiap nilai pada atribut dan data sampel
akan dipartisi lagi.
Langkah 4 :
Langkah 5 :
G. Entropy
Entropi merupakan pengukuran ketidakpastian rata-rata kumpulan data
ketika kita tidak tahu hasil dari sumber informasi. Bentuk perhitungan untuk
entropi adalah sebagai berikut :
k
Entropy ( X ) = p jlog 2
j=1
1
= p jlog 2 p j
pj
j=1
dimana,
X : Himpunan Kasus
k : jumlah partisi X
pj : Proporsi Xj terhadap X
Entropi split yang membagi X dengan n record menjadi himpunanhimpunan X1 dengan n1 baris dan X2 dengan n2 baris adalah :
E ( X 1 , X 2 )=
n1
n2
E ( X 1) +
E ( X2)
n
n
X
| 1|
log 2
| X|
k
split info ( a )=
j=1
XEntropy ( X i )