Anda di halaman 1dari 28

ANDRI PERMANA WICAKSONO, S.ST., M.T.

REFERENCE: TEKNOMO, KARDI. (2009) TUTORIAL ON DECISION TREE.


HTTP://PEOPLE.REVOLEDU.COM/KARDI/TUTORIAL /DECISIONTREE/
INTRODUCTION
• DECISION TREE ADALAH CLASSIFIER POPULER YANG TIDAK
MEMERLUKAN PENGETAHUAN ATAU PARAMETER.
PENDEKATAN INI DIAWASI PEMBELAJARAN. MENGINGAT
DATA TRAINING, KITA DAPAT MENGINDUKSI DENGAN
METODE DECESSION TREE. DARI DECESSION TREE KITA
DAPAT DENGAN MUDAH MEMBUAT ATURAN TENTANG
DATA. MENGGUNAKAN DECESSION TREE, KITA DAPAT
DENGAN MUDAH MEMPREDIKSI KLASIFIKASI CATATAN TAK
TERLIHAT.
APA YANG AKAN DI PELAJARI?

• DALAM TUTORIAL DECESSION TREE, ANDA AKAN BELAJAR


BAGAIMANA MENGGUNAKAN DAN MEMBANGUN
DECESSION TREE DENGAN PENJELASAN YANG SEDERHANA.
TOPIK
• APA DECESSION TREE?

• CARA MENGGUNAKAN DECESSION TREE?

• CARA MELATIH DECESSION TREE?

• BAGAIMANA MENILAI DARI :


• ENTROPI
• INDEKS GINI
• KESALAHAN KLASIFIKASI

• BAGAIMANA DECESSION TREE ALGORITMA BEKERJA?


• INFORMASI GAIN
• KEDUA ITERASI
• ITERASI KETIGA
REFERENCE

• TEKNOMO, KARDI. (2009) TUTORIAL ON DECISION TREE.


HTTP://PEOPLE.REVOLEDU.COM/KARDI/TUTORIAL /DECISIONTREE/
WHAT IS DECISION TREE?

• DECESSION TREE ADALAH STRUKTUR POHON HIRARKIS


YANG DIGUNAKAN UNTUK MENGKLASIFIKASIKAN KELAS
BERDASARKAN SERANGKAIAN PERTANYAAN (ATAU
ATURAN) TENTANG ATRIBUT KELAS.
• ATRIBUT DARI KELAS DAPAT MENJADI SEMUA JENIS DATA.
THE EXAMPLE OF DECISION TREE?
Attributes Classes
Gender kepemilikan mobil biaya perjalanan tingkat Model transportasi
($)/km pendapatan
Male 0 Murah Rendah Bus
Male 1 Murah Sedang Bus
Female 1 Murah Sedang Train
Female 0 Murah Rendah Bus
Male 1 Murah Sedang Bus
Male 0 Standard Sedang Train
Female 1 Standard Sedang Train
Female 1 Mahal Tinggi Car
Male 2 Mahal Sedang Car
Female 2 Mahal Tinggi Car

Berdasarkan data pelatihan di


atas, kita dapat menginduksi
pohon keputusan sebagai berikut:
DECISION TREES TO IF-THEN RULES

• ATURAN 1: JIKA BIAYA TRAVEL / KM MAHAL MAKA = MOBIL

• ATURAN 2: JIKA BIAYA TRAVEL / KM STANDAR MAKA = KERETA

• ATURAN 3: JIKA BIAYA TRAVEL / KM MURAH DAN JENIS KELAMIN LAKI-LAKI MAKA = BUS

• ATURAN 4: JIKA BIAYA TRAVEL / KM MURAH DAN GENDER PEREMPUAN DAN DIA MEMILIKI MOBIL TIDAK
MAKA = BUS

• ATURAN 5: JIKA BIAYA TRAVEL / KM MURAH DAN GENDER PEREMPUAN DAN DIA MEMILIKI 1 MOBIL
MAKA = KERETA
HOW TO USE A DECISION TREE?
• DECISION TREE DAPAT DIGUNAKAN UNTUK MEMPREDIKSI
POLA ATAU CLASSIFLY KELAS DATA.
• MISALKAN KITA MEMILIKI CATATAN TAK TERLIHAT BARU
ORANG DARI LOKASI YANG SAMA DI MANA SAMPEL DATA
YANG DIAMBIL.
• BERIKUT INI DATA DISEBUT DATA UJI (BERBEDA DENGAN DATA
TRAINING) KARENA KAMI INGIN MEMERIKSA KELAS DATA INI.
Person name Gender Car Travel cost Income level Transportation
ownership ($)/km Mode
Alex Male 1 Standard High ?
Buddy Male 0 Cheap Medium ?
Cherry Female 1 Cheap High ?
CARA MENGHASILKAN DECISION TREE?

• UNTUK MENGHASILKAN DECISION TREE, KITA HARUS TAHU


DULU TENTANG UKUR IMPURITY
• KITA BISA MENGUKUR HOMOGENITAS (ATAU HETEROGENITAS)
DARI TABEL BERDASARKAN KELAS.
• KITA MENGATAKAN MEJA MURNI ATAU HOMOGEN JIKA HANYA
BERISI SATU KELAS.
• JIKA TABEL DATA BERISI BEBERAPA KELAS, MAKA KITA
MENGATAKAN BAHWA MEJA ADALAH MURNI ATAU
HETEROGEN.
CARA MENGUKUR IMPURITY?
• PENGUKURAN YANG KETIDAK MURNIAN :

• SEMUA RUMUS DI ATAS MENGANDUNG NILAI-NILAI


PROBABILITAS PJ SEBAGAI J KELAS
CARA MENGUKUR IMPURITY?
• DALAM CONTOH KITA, KELAS MODUS TRANSPORTASI BAWAH TERDIRI DARI TIGA KELOMPOK
BUS, MOBIL DAN KERETA. DALAM HAL INI, KAMI MEMILIKI 4 BUS, 3 MOBIL DAN 3 KERETA
(SINGKATNYA KITA MENULIS SEBAGAI 4B, 3C, 3T). TOTAL DATA 10 BARIS.
Attributes Classes
Gender Car ownership Travel cost Income level Transportation
($)/km mode
Male 0 Cheap Low Bus
Male 1 Cheap Medium Bus
Female 0 Cheap Low Bus
Male 1 Cheap Medium Bus
Female 1 Expensive High Car
Male 2 Expensive Medium Car
Female 2 Expensive High Car
Female 1 Cheap Medium Train
Male 0 Standard Medium Train
Female 1 Standard Medium Train
• BERDASARKAN DATA TERSEBUT, KITA DAPAT MENGHITUNG PROBABILITAS MASING-MASING
KELAS. KARENA PROBABILITAS SAMA DENGAN FREKUENSI RELATIF, KITA MEMILIKI:
* PROB(BUS)=4/10=0.4 *PROB(CAR)=3/10=0.3 *PROB(TRAIN)=3/10=0.3
HOW TO MEASURE IMPURITY? => MENGGUNAKAN
ENTROPI
• SALAH SATU CARA UNTUK MENGUKUR TINGKAT
KETIDAKMURNIAN YANG MENGGUNAKAN ENTROPI.

• CONTOH: MENGINGAT BAHWA PROB (BUS) = 0,4, PROB (MOBIL) =


0,3 DAN PROB (TRAIN) = 0,3, KITA SEKARANG DAPAT
MENGHITUNG ENTROPI SEBAGAI BERIKUT:
• ENTROPY = -0.4 LOG(0.4) – 0.3 LOG(0.3) – 0.3 LOG(0.3) = 1.571
• LOGARITMA BASIS 2.
• ENTROPI MEJA MURNI (TERDIRI DARI KELAS TUNGGAL)
ADALAH NOL KARENA PROBABILITASNYA ADALAH 1 DAN LOG
(1) = 0.
CARA MENGUKUR IMPURITY? => MENGGUNAKAN
GINI INDEX
• CARA LAIN UNTUK MENGUKUR TINGKAT KETIDAKMURNIAN
MENGGUNAKAN INDEKS GINI.

• CONTOH: MENGINGAT BAHWA PROB (BUS) = 0,4, PROB (MOBIL) =


0,3 DAN PROB (TRAIN) = 0,3, KITA SEKARANG DAPAT
MENGHITUNG INDEKS GINI SEBAGAI BERIKUT:
• GINI INDEX = 1-(0.4^2 + 0.3^2+0.3^2) =0.660
• INDEKS GINI MEJA MURNI (TERDIRI DARI KELAS TUNGGAL)
ADALAH NOL KARENA PROBABILITASNYA ADALAH 1 DAN 1- (1) ^
2 = 0.
CARA MENGUKUR IMPURITY? => KESALAHAN
KLASIFIKASI
• MASIH CARA LAIN UNTUK MENGUKUR TINGKAT
KETIDAKMURNIAN MENGGUNAKAN INDEKS KESALAHAN
KLASIFIKASI.

• CONTOH: MENGINGAT BAHWA PROB (BUS) = 0,4, PROB (MOBIL) = 0,3


DAN PROB (TRAIN) = 0,3, INDEKS KESALAHAN KLASIFIKASI
DIBERIKAN SEBAGAI BERIKUT
• CLASSIFICATION ERROR INDEX = 1 – MAX{0.4,0.3,0.3} = 1 – 0.4 = 0.60
• SIMILARY UNTUK ENTROPI DAN INDEKS GINI, INDEKS KESALAHAN
KLASIFIKASI TABEL MURNI (TERDIRI DARI KELAS TUNGGAL)
ADALAH NOL KARENA PROBABILITASNYA ADALAH 1 DAN 1-MAX
(1) = 0.
BAGAIMANA POHON KEPUTUSAN ALGORITMA KERJA?
• ADA BEBERAPA ALGORITMA DECISION TREE YANG PALING
POPULER SEPERTI ID3, C4.5 DAN CART (CLASSIFICATION AND
REGRESSION TREES).
• SECARA UMUM, ALGORITMA DECISION TREE SEBENARNYA
REKURSIF. NAMUN, SAYA AKAN MENJELASKAN SEOLAH-OLAH
ALGORITMA YANG BERULANG.
• DARI TABEL D, KITA MENGAMBIL SETIAP ATRIBUT DAN KELAS
ASOSIASI TERSEBUT. JIKA KITA MEMILIKI ATRIBUT P, MAKA KITA
AKAN MENGAMBIL P BAGIAN DARI D. MARI KITA SEBUT INI
SEBAGAI SUBSET SI. TABEL D ADALAH INDUK DARI TABEL SI.
BAGAIMANA ALGORITMA DECESSION TREE BEKERJA?
• DARI TABEL D DAN UNTUK SETIAP BAGIAN YANG TERKAIT SI, KITA
MENGHITUNG TINGKAT KETIDAKMURNIAN.
INFORMASI GAIN

• INFORMASI GAIN MERUPAKAN JUMLAH YANG DIHARAPKAN


DARI INFORMASI YANG AKAN DIPERLUKAN UNTUK
MENENTUKAN APAKAH CONTOH BARU HARUS
DIKLASIFIKASIKAN.
• KAMI MENGHITUNG BERDASARKAN JUMLAH KELAS DI NODE.
• INFORMATION GAIN (I) = ENTROPI TABEL INDUK D - SUM (NK / N *
ENTROPI SETIAP NILAI K TABEL BAGIAN SI).
INFORMATION GAIN
• SEBAGAI CONTOH, TABEL DATA KAMI D MEMILIKI KELAS 4B, 3C, 3T
YANG MENGHASILKAN ENTROPI DARI 1,571. SEKARANG KITA COBA
BIAYA TRAVEL ATRIBUT PER KM YANG KITA DIBAGI MENJADI TIGA:
MURAH YANG MEMILIKI KELAS 4B, 1T (SEHINGGA ENTROPI 0,722),
STANDARD YANG MEMILIKI KELAS 2T (SEHINGGA ENTROPI = 0 KARENA
MURNI KELAS TUNGGAL) DAN MAHAL DENGAN SINGLE KELAS 3C
(SEHINGGA ENTROPI JUGA NOL).
• KEUNTUNGAN INFORMASI BIAYA TRAVEL ATRIBUT PER KM DIHITUNG
SEBAGAI 1.571- (5/10 * 0,7222 + 3/10 * 0 + 2/10 * 0) = 1,210
• KEUNTUNGAN INFORMASI BERDASARKAN GINI INDEX AND ERROR
KLASIFIKASI :
THE COMPUTATION OF INFORMATION GAIN FOR
THE FIRST ITERATION
THE COMPUTATION OF INFORMATION GAIN FOR
THE FIRST ITERATION
• SETELAH KITA MENDAPATKAN ATRIBUT YANG OPTIMAL, KITA
BISA MEMBAGI TABEL DATA SESUAI DENGAN ATRIBUT YANG
OPTIMAL. DALAM CONTOH KITA, KITA MEMBAGI TABEL DATA
BERDASARKAN NILAI BIAYA PERJALANAN PER KM.
THE COMPUTATION OF INFORMATION GAIN FOR
THE FIRST ITERATION
• UNTUK PERJALANAN MURAH BIAYA / KM, KELAS TERSEBUT TIDAK
MURNI, SEHINGGA KITA PERLU MEMBAGI LEBIH LANJUT DALAM
ITERASI KEDUA.

• PADA ITERASI KEDUA, KITA PERLU MEMPERBARUI TABEL DATA


KAMI.
ITERASI KEDUA DENGAN ALGORITMA DECISION
TREES
• KEMUDIAN KITA
ULANGI PROSEDUR
KOMPUTASI
TINGKAT
KETIDAKMURNIAN
DAN INFORMASI
GAIN UNTUK TIGA
ATRIBUT. HASIL
PERHITUNGAN
YANG
DIPAMERKAN DI
SEBELAH KANAN.
ITERASI KEDUA DENGAN ALGORITMA DECISION
TREES

• KEMUDIAN KITA
ULANGI PROSEDUR
KOMPUTASI TINGKAT
KETIDAKMURNIAN
DAN INFORMASI GAIN
UNTUK TIGA ATRIBUT.
HASIL PERHITUNGAN
YANG DIPAMERKAN DI
SEBELAH KANAN.
ITERASI KEDUA DENGAN ALGORITMA DECISION
TREES
• KEUNTUNGAN MAKSIMUM DIPEROLEH UNTUK OPTIMAL ATRIBUT GENDER.
SETELAH KITA MENDAPATKAN ATRIBUT YANG OPTIMAL, TABEL DATA
DIBAGI SESUAI DENGAN ATRIBUT YANG OPTIMAL. DALAM KASUS KAMI,
JENIS KELAMIN LAKI-LAKI HANYA DIKAITKAN DENGAN KELAS BUS MURNI,
SEDANGKAN PEREMPUAN MASIH PERLU PERPECAHAN LEBIH LANJUT,
DENGAN ATRIBUT.

• DENGAN MENGGUNAKAN INFORMASI INI, KITA SEKARANG DAPAT


MEMPERBARUI DECISION TREE.
ITERASI KETIGA ALGORITMA DECISION TREES
• KARENA ATRIBUT GENDER TELAH DIGUNAKAN DALAM DECISION TREE,
KITA DAPAT MENGHAPUS ATRIBUT DAN FOKUS HANYA PADA SISA DUA
ATRIBUT: KEPEMILIKAN MOBIL DAN TINGKAT PENDAPATAN.

• JIKA ANDA MENGAMATI TABEL DATA ITERASI KETIGA, TERDIRI HANYA DUA
BARIS. SETIAP BARIS MEMILIKI NILAI YANG BERBEDA. JIKA KITA
MENGGUNAKAN ATRIBUT KEPEMILIKAN MOBIL, KITA AKAN
MENDAPATKAN KELAS MURNI UNTUK MASING-MASING NILAINYA.
DEMIKIAN PULA, TINGKAT PENDAPATAN ATRIBUT JUGA AKAN
MEMBERIKAN KELAS MURNI UNTUK SETIAP NILAI. OLEH KARENA ITU,
KITA DAPAT MENGGUNAKAN SALAH SATU DARI DUA ATRIBUT.
ITERASI KETIGA ALGORITMA DECISION TREES

• MISALKAN KITA PILIH ATRIBUT KEPEMILIKAN MOBIL, KITA


DAPAT MEMPERBARUI POHON KEPUTUSAN KAMI KE VERSI
FINAL.
TUGAS
• MENGHASILKAN DECISION TREES DENGAN MENGGUNAKAN
DATA PELATIHAN INI::

Anda mungkin juga menyukai