Anda di halaman 1dari 7

Pohon keputusan (Decision Tree) adalah Algoritma Pembelajaran Mesin Terbimbing (supervised

machine learning algorithm) yang menggunakan seperangkat aturan untuk membuat keputusan,
mirip dengan bagaimana manusia membuat keputusan. Pohon keputusan adalah jenis pohon
probabilitas yang sangat spesifik yang memungkinkan Anda membuat keputusan tentang beberapa
jenis proses. Misalnya, Anda mungkin ingin memilih antara membuat item A atau item B, atau
berinvestasi dalam pilihan 1, pilihan 2, atau pilihan 3. Pohon adalah cara terbaik untuk menangani
jenis keputusan kompleks ini, yang selalu melibatkan banyak faktor dan biasanya melibatkan
beberapa tingkat ketidakpastian. Meskipun dapat digambar dengan tangan, perangkat lunak sering
digunakan karena pohon dapat menjadi rumit dengan sangat cepat.

Algoritma Decision Tree termasuk dalam keluarga algoritma pembelajaran terawasi. Tidak seperti
algoritma pembelajaran terawasi lainnya, algoritma pohon keputusan dapat digunakan untuk
memecahkan masalah regresi dan klasifikasi juga. Tujuan penggunaan Pohon Keputusan adalah
untuk membuat model pelatihan yang dapat digunakan untuk memprediksi kelas atau nilai variabel
target dengan mempelajari aturan keputusan sederhana yang disimpulkan dari data sebelumnya
(data pelatihan). Dalam Pohon Keputusan, untuk memprediksi label kelas untuk suatu record, kita
mulai dari akar pohon. Kami membandingkan nilai atribut root dengan atribut record. Atas dasar
perbandingan, kami mengikuti cabang yang sesuai dengan nilai itu dan melompat ke simpul
berikutnya.

Gambar xx. Contoh Decision Tree

Jenis-Jenis Pohon Keputusan

Jenis pohon keputusan didasarkan pada jenis variabel target yang kita miliki. Ini dapat terdiri dari
dua jenis:

1. Pohon Keputusan Variabel Kategoris: Pohon Keputusan yang memiliki variabel target
kategoris maka disebut pohon keputusan variabel kategoris.
2. Pohon Keputusan Variabel Kontinu: Pohon Keputusan memiliki variabel target kontinu maka
disebut Pohon Keputusan Variabel Kontinu.

Contoh:- Katakanlah kita memiliki masalah untuk memprediksi apakah pelanggan akan membayar
premi perpanjangannya dengan perusahaan asuransi (ya/tidak). Di sini kita tahu bahwa pendapatan
pelanggan adalah variabel yang signifikan tetapi perusahaan asuransi tidak memiliki rincian
pendapatan untuk semua pelanggan. Sekarang, seperti yang kita ketahui bahwa ini adalah variabel
penting, maka kita dapat membangun pohon keputusan untuk memprediksi pendapatan pelanggan
berdasarkan pekerjaan, produk, dan berbagai variabel lainnya. Dalam hal ini, kami memprediksi nilai
untuk variabel kontinu.
Terminologi Penting terkait Pohon Keputusan

1. Root Node: Ini mewakili seluruh populasi atau sampel dan selanjutnya dibagi menjadi dua
atau lebih set yang homogen.
2. Splitting: Ini adalah proses membagi node menjadi dua atau lebih sub-node.
3. Decision Node: Ketika sebuah sub-node dipecah menjadi sub-node lebih lanjut, maka itu
disebut node keputusan.
4. Leaf/Terminal Node: Node yang tidak terbelah disebut Leaf atau Terminal node.
5. Prunning / Pemangkasan: Ketika kami menghapus sub-simpul dari simpul keputusan, proses
ini disebut pemangkasan. Anda bisa mengatakan kebalikan dari proses pemisahan.
6. Branch / Sub-Tree: Sebuah subbagian dari seluruh pohon disebut cabang (branch) atau sub-
pohon (sub-tree).
7. Parent dan Child Node: Sebuah node, yang dibagi menjadi sub-node disebut parent node dari
sub-node sedangkan sub-node adalah anak dari parent node.

Gambar xx. Infografis terminologi Decision Tree (sumber:KDnuggets)

Pohon keputusan mengklasifikasikan contoh-contoh dengan mengurutkannya ke bawah pohon


dari akar ke beberapa simpul daun/terminal, dengan simpul daun/terminal menyediakan
klasifikasi contoh.

Setiap simpul di pohon bertindak sebagai kasus uji untuk beberapa atribut, dan setiap tepi yang
turun dari simpul sesuai dengan kemungkinan jawaban untuk kasus uji. Proses ini bersifat
rekursif dan berulang untuk setiap subpohon yang berakar pada simpul baru.

Asumsi saat membuat Pohon Keputusan

Berikut adalah beberapa asumsi yang kami buat saat menggunakan Pohon keputusan:

1. Pada awalnya, seluruh set pelatihan dianggap sebagai root.


2. Nilai fitur lebih disukai untuk menjadi kategoris. Jika nilainya kontinu maka nilai tersebut
didiskritisasi sebelum membangun model.
3. Rekaman didistribusikan secara rekursif berdasarkan nilai atribut.
4. Urutan penempatan atribut sebagai akar atau simpul internal dari pohon dilakukan
dengan menggunakan beberapa pendekatan statistik.
Pohon Keputusan mengikuti representasi Sum of Product (SOP). Sum of product (SOP) juga
dikenal sebagai Bentuk Normal Disjungtif. Untuk suatu kelas, setiap cabang dari akar pohon ke
simpul daun yang memiliki kelas yang sama adalah konjungsi (produk) nilai, cabang yang
berbeda yang berakhir di kelas itu membentuk disjungsi (jumlah).

Tantangan utama dalam implementasi pohon keputusan adalah untuk mengidentifikasi atribut
mana yang perlu kita pertimbangkan sebagai simpul akar dan setiap level. Penanganan ini
dikenal dengan pemilihan atribut. Kami memiliki langkah-langkah pemilihan atribut yang
berbeda untuk mengidentifikasi atribut yang dapat dianggap sebagai catatan akar di setiap level.

Bagaimana Pohon Keputusan bekerja?

Keputusan membuat pemisahan strategis sangat mempengaruhi akurasi pohon. Kriteria


keputusan berbeda untuk klasifikasi dan pohon regresi.

Pohon keputusan menggunakan beberapa algoritma untuk memutuskan untuk membagi sebuah
node menjadi dua atau lebih sub-node. Penciptaan sub-node meningkatkan homogenitas
resultan sub-node. Dengan kata lain, kita dapat mengatakan bahwa kemurnian node meningkat
sehubungan dengan variabel target. Pohon keputusan membagi node pada semua variabel yang
tersedia dan kemudian memilih pemisahan yang menghasilkan sub-node yang paling homogen.

Pemilihan algoritma juga didasarkan pada jenis variabel target. Mari kita lihat beberapa
algoritma yang digunakan dalam Pohon Keputusan:

1. ID3 → (perpanjangan D3)


ID3 adalah singkatan dari Iterative Dichotomiser 3. Diusulkan pada tahun 1986 oleh
QUINLAN. Ini adalah algoritma pohon keputusan yang sangat penting dan sederhana.
Algoritma ini tidak menerapkan pemangkasan apapun. Algoritma ID3 menggunakan
perolehan informasi untuk memutuskan atribut pembagi. Mengingat kumpulan hasil
yang mungkin, Entropi tidak lain adalah data tidak pasti yang ada dalam kumpulan data
dan diukur dengan persamaan.
Entropy

Dimana, S adalah dataset yang entropi dihitung X adalah himpunan kelas-kelas dalam
dataset P(x) adalah proporsi/probabilitas jumlah elemen di kelas X dengan jumlah
elemen dalam himpunan S .Ketika I(S) = 0 maka dataset diklasifikasikan sempurna yaitu
semua elemen dalam S adalah kelas yang sama. Dengan kata lain berapa banyak
ketidakpastian dalam S berkurang setelah pemisahan set S pada atribut A diberikan oleh
persamaan

IG(S) = I(S) − ∑p(t) ∗ I(t)


Dimana, I(S ) adalah entropi dari dataset T adalah subset yang dibuat dari pemisahan S
oleh atribut A. P(t) adalah proporsi/probabilitas jumlah elemen di kelas dengan jumlah
elemen di set . I(t) adalah entropi dari subset t. Langkah-langkah dasar algoritma adalah
sebagai berikut [4].

2. C4.5 → (penerus ID3)


C4.5 adalah algoritma pohon keputusan yang digunakan untuk mengklasifikasikan data.
C4.5 adalah langkah selanjutnya dari algoritma ID3 (Rokach and Maimon, 2002). C4.5
menggunakan Information Gain Ratio sebagai kriteria pembagi.
3. CART → (Pohon Klasifikasi Dan Regresi)
Singkatan dari CART adalah Classification and Regression Trees (Pohon Klasifikasi dan
Regresi) yang dikembangkan oleh Breiman et al. CART adalah algoritma yang benar-
benar bekerja sebagai pohon biner di mana setiap simpul internal memiliki tepat dua
tepi keluar. Pemisahan dipilih dengan menggunakan Kondisi Penarik dan pohon yang
dihasilkan dipangkas dengan Pemangkasan Kompleksitas Biaya. Fitur penting dari CART
adalah memiliki kemampuan untuk memperoleh pohon regresi.

Sesuai namanya, CART membuat klasifikasi dan pohon regresi berdasarkan algoritma
partisi biner untuk memprediksi variabel dependen kategoris (klasifikasi) dan variabel
dependen kontinu (regresi). Proses pembelajaran yang digunakan oleh CART secara
berulang dan rekursif membagi semua variabel bebas menjadi subset dengan
menggunakan kriteria pemisahan yang sesuai. Poin kuncinya adalah meaksimalkan
homogenitas di dalam himpunan bagian dan heterogenitas di antara himpunan bagian.

Di antara berbagai kriteria pemisahan, CART umumnya menggunakan indeks Gini, yang
dihitung sebagai berikut (Chen et al., 2018; Breiman et al., 1984):

Dimana Pi menunjukkan probabilitas suatu elemen yang diklasifikasikan untuk kelas


yang berbeda. Gini indeks berkisar antara 0 dan 0,5.

Langkah-langkah untuk Menghitung indeks Gini untuk split

 Hitung Gini untuk sub-simpul, menggunakan rumus di atas untuk sukses(p) dan
gagal(q) (p²+q²).
 Hitung indeks Gini untuk pemisahan menggunakan skor Gini tertimbang dari setiap
simpul dari pemisahan itu.
 CART (Classification and Regression Tree) menggunakan metode indeks Gini untuk
membuat titik split.
4. CHAID → (Deteksi interaksi otomatis Chi-kuadrat Melakukan pemisahan multi-level saat
menghitung pohon klasifikasi)
Mulai dari awal tahun tujuh puluhan peneliti statistik terapan telah mengembangkan
beberapa prosedur untuk menghasilkan pohon keputusan, seperti: AID, MAID, THAID
dan CHAID. CHIAD (Chisquare-AutomaticInteraction-Detection) awalnya dirancang untuk
menangani atribut nominal hanya berkenaan dengan atribut targetai, CHAID
menemukan pasangan nilai dalam Vi yang paling tidak berbeda secara signifikan untuk
setiap atribut.
5. MARS → (spline regresi adaptif multivariat)

Algoritma ID3 membangun pohon keputusan menggunakan pendekatan pencarian serakah top-
down melalui ruang cabang yang mungkin tanpa backtracking. Algoritma serakah, seperti
namanya, selalu membuat pilihan yang tampaknya menjadi yang terbaik pada saat itu.

Langkah-langkah dalam algoritma ID3:

1. Dimulai dengan set asli S sebagai simpul akar.


2. Pada setiap iterasi dari algoritma, iterasi melalui atribut yang sangat tidak terpakai dari
himpunan S dan menghitung Entropy(H) dan Information gain(IG) dari atribut ini.
3. Kemudian memilih atribut yang memiliki Entropi terkecil atau keuntungan Informasi
Terbesar.
4. Himpunan S kemudian dibagi dengan atribut yang dipilih untuk menghasilkan subset dari
data.
5. Algoritme terus berulang pada setiap subset, dengan mempertimbangkan hanya atribut
yang tidak pernah dipilih sebelumnya.

Analisis Pohon Klasifikasi atau Classification Tree Analysis (CTA) adalah jenis algoritma pembelajaran
mesin yang digunakan untuk mengklasifikasikan data penginderaan jauh dan data tambahan untuk
mendukung pemetaan dan analisis tutupan lahan. Pohon klasifikasi adalah pemetaan struktural dari
keputusan biner yang mengarah pada keputusan tentang kelas (interpretasi) suatu objek (seperti
piksel). Meskipun kadang-kadang disebut sebagai pohon keputusan, itu lebih tepat jenis pohon
keputusan yang mengarah ke keputusan kategoris. Pohon regresi, bentuk lain dari pohon keputusan,
mengarah pada keputusan kuantitatif.

Pohon klasifikasi terdiri dari cabang-cabang yang mewakili atribut, sedangkan daun mewakili
keputusan. Dalam penggunaannya, proses pengambilan keputusan dimulai dari batang dan
mengikuti cabang-cabang sampai daun tercapai. Gambar di atas mengilustrasikan pohon keputusan
sederhana berdasarkan pertimbangan reflektansi merah dan inframerah suatu piksel.

Analisis Pohon Klasifikasi adalah prosedur analitis yang mengambil contoh kelas yang diketahui
(yaitu, data pelatihan) dan membangun pohon keputusan berdasarkan atribut yang diukur seperti
reflektansi. Di TerrSet modul CTA didasarkan pada algoritma C4.5. Intinya, algoritma secara iteratif
memilih atribut (seperti pita reflektansi) dan nilai yang dapat membagi satu set sampel menjadi dua
kelompok, meminimalkan variabilitas dalam setiap subkelompok sambil memaksimalkan kontras
antara kelompok.

Gambar xx. Tampilan dari CTA tool pada TerrSet (sumber: Clark Labs)
Karena dapat mengambil satu set data pelatihan dan membangun pohon keputusan, Analisis Pohon
Klasifikasi adalah bentuk pembelajaran mesin, seperti jaringan saraf. Namun, tidak seperti jaringan
saraf seperti Multi-Layer Perceptron (MLP) di TerrSet, CTA menghasilkan solusi kotak putih daripada
kotak hitam karena sifat dari proses keputusan yang dipelajari secara eksplisit dikeluarkan. Ini adalah
salah satu daya tarik utama CTA. Struktur pohon memberi kita informasi tentang proses keputusan.

Daya tarik lainnya adalah mudah dipahami dan non-parametrik-tidak mengharuskan data yang
terkait dengan kelas tertentu pada atribut tertentu mengikuti distribusi tertentu (seperti distribusi
normal). Jadi, misalnya, ia mampu menangani kelas dengan karakteristik yang tidak biasa seperti
permukaan kedap air, yang mengandung reflektor rendah (aspal) dan tinggi (beton).

Seperti semua pengklasifikasi, ada beberapa peringatan yang perlu dipertimbangkan dengan CTA.
Basis aturan biner CTA menetapkan logika klasifikasi yang pada dasarnya identik dengan
pengklasifikasi paralelepiped. Dengan demikian adanya korelasi antar variabel bebas (yang
merupakan norma dalam penginderaan jauh) mengarah pada pohon yang sangat kompleks. Ini
dapat dihindari dengan transformasi sebelumnya oleh komponen utama (PCA di TerrSet) atau,
bahkan lebih baik, komponen kanonik (CCA di TerrSet). Namun, pohon itu, meskipun lebih
sederhana, sekarang lebih sulit untuk ditafsirkan.

Peringatan kedua adalah, seperti jaringan saraf, CTA sangat mampu mempelajari bahkan
karakteristik non-diagnostik dari suatu kelas juga. Misalnya, jika kami menggunakan CTA untuk
mempelajari cara membedakan antara hutan berdaun lebar dan hutan konifer, dan jika sampel
pelatihan kami untuk berdaun lebar mencakup beberapa celah dengan rumput di bawah, maka
semua area rumput akan diklasifikasikan sebagai berdaun lebar. Jadi CTA mencakup prosedur untuk
memangkas daun yang tidak berarti. Pohon yang dipangkas dengan benar akan mengembalikan
proses klasifikasi secara umum.
Gambar xx. Modul CTA menyediakan peta keluaran terklasifikasi keras dan/atau lunak. Ada satu
output lunak untuk setiap kelas. Setiap piksel dalam gambar keluaran lunak dikaitkan
dengan derajat keanggotaan untuk kelas pada daun tertentu yang diklasifikasikan.
Jika sebuah piksel tidak terkait dengan kelas itu, itu akan diberi nilai nol. (sumber:
Clark Labs).

THE TRAINING

Pengguna harus terlebih dahulu menggunakan sampel pelatihan untuk menumbuhkan pohon
klasifikasi. Ini disebut langkah pelatihan. Kemudian, seluruh citra diklasifikasikan menggunakan
pohon ini.

Untuk memulai, semua piksel pelatihan dari semua kelas ditugaskan ke root. Karena root berisi
semua piksel pelatihan dari semua kelas, proses iteratif dimulai untuk menumbuhkan pohon dan
memisahkan kelas satu sama lain. Di Terrset, CTA menggunakan struktur pohon biner, yang berarti
bahwa akar, serta semua cabang berikutnya, hanya dapat menumbuhkan paling banyak dua ruas
baru sebelum harus membelah lagi atau berubah menjadi daun. Aturan pemisahan biner
diidentifikasi sebagai ambang batas di salah satu dari beberapa gambar input yang mengisolasi
subset homogen terbesar dari piksel pelatihan dari sisa data pelatihan.

Pohon tumbuh dengan memisahkan data secara rekursif di setiap ruas menjadi ruas baru yang berisi
kumpulan piksel pelatihan yang semakin homogen. Ruas yang baru tumbuh dapat menjadi daun
ketika berisi piksel pelatihan hanya dari satu kelas, atau piksel dari satu kelas mendominasi populasi
piksel di ruas itu, dan dominasi berada pada tingkat yang dapat diterima yang ditentukan oleh
pengguna. Ketika tidak ada lagi ruas untuk dipisah, aturan pohon klasifikasi akhir terbentuk.

THE CLASSIFICATION

Langkah kedua dari teknik CTA adalah klasifikasi citra. Pada langkah ini, setiap piksel diberi label
dengan kelas yang menggunakan aturan keputusan dari pohon klasifikasi yang telah dilatih
sebelumnya. Sebuah piksel pertama-tama dimasukkan ke dalam akar pohon, nilai dalam piksel
diperiksa terhadap apa yang sudah ada di pohon, dan piksel dikirim ke sebuah ruas, berdasarkan di
mana ia jatuh dalam kaitannya dengan titik pemisahan. Proses berlanjut sampai piksel mencapai
daun dan kemudian diberi label dengan kelas.

Difasilitasi oleh tampilan grafis intuitif di antarmuka, aturan klasifikasi dari akar hingga daun mudah
dipahami dan ditafsirkan. Gambar masukan dapat berupa gambar numerik, seperti nilai reflektansi
data penginderaan jauh, gambar kategoris, seperti lapisan tata guna lahan, atau kombinasi
keduanya.

Jika diketahui bahwa kumpulan data mematuhi pola distribusi tertentu, Anda mungkin ingin
menggunakan pengklasifikasi parametrik yang tepat selain pendekatan pohon klasifikasi. Misalnya,
jika diketahui bahwa data gambar mematuhi distribusi Gaussian, pengklasifikasi parametrik, seperti
MAXLIKE di TerrSet, mungkin lebih disukai.

Anda mungkin juga menyukai