Anda di halaman 1dari 9

LECTURE NOTES

Data and Text Mining

Week ke - 2

Classification: Classification by Decision Tree


Induction

ISYS6333 – Data and Text Mining


LEARNING OUTCOMES

LO2 : Using data mining models to solve problems by extracting knowledge from data

OUTLINE MATERI :
1. Basic Concepts
2. Decision Tree Induction
3. Attribute Selection Measures
4. Tree Pruning
5. Example solution with python

ISYS6333 – Data and Text Mining


ISI MATERI

1. Basic Concept
Klasifikasi adalah bentuk analisis data yang mengekstraksi model yang menggambarkan kelas data
penting. Model semacam itu, yang disebut pengklasifikasi, memprediksi label kelas kategoris
(diskret, tidak beraturan). Klasifikasi data adalah proses dua langkah, yang terdiri dari langkah
pembelajaran (di mana model klasifikasi dibangun) dan langkah klasifikasi (di mana model
digunakan untuk memprediksi label kelas untuk data yang diberikan). Proses klasifikasi data:
(a) Learning: Data pelatihan dianalisis dengan algoritma klasifikasi. Di sini, atribut label kelas
adalah keputusan pinjaman, dan model atau pengelompok yang dipelajari direpresentasikan
dalam bentuk aturan klasifikasi.
(b) Classification: Data uji digunakan untuk memperkirakan keakuratan aturan klasifikasi. Jika
akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi tabel data baru.

2. Decision Tree Induction


Decision tree induction adalah pembelajaran pohon keputusan dari tabel pelatihan berlabel
kelas. Decision tree adalah seperti struktur pohon flowchart, di mana masing-masing internal
node menunjukkan tes pada atribut. branch mewakili hasil dari tes, dan setiap leaf node (atau
node terminal) memegang label kelas. Node paling atas dalam sebuah pohon adalah root node.

Algorithm for Decision Tree Induction


• Basic algorithm (a greedy algorithm)
Pohon dibangun dengan cara membagi-dan-menaklukkan top-down rekursif. Pada awalnya,
semua contoh pelatihan ada di akar. Atribut bersifat kategoris (jika bernilai terus-menerus,
mereka didiskritasikan sebelumnya). Contoh dipartisi secara rekursif berdasarkan atribut yang
dipilih. Atribut pengujian dipilih berdasarkan ukuran heuristik atau statistik (misalnya,
perolehan informasi).

ISYS6333 – Data and Text Mining


• Conditions for stopping partitioning
Semua sampel untuk node yang diberikan milik kelas yang sama. Tidak ada atribut yang
tersisa untuk partisi lebih lanjut - suara mayoritas digunakan untuk mengklasifikasikan daun.
Tidak ada sampel yang tersisa

3. Attribute Selection Measures


Attribute selection measure adalah heuristik untuk memilih kriteria pemisahan yang "terbaik"
memisahkan partisi data tertentu, Langkah-langkah seleksi atribut juga dikenal sebagai aturan
pemisahan karena mereka menentukan bagaimana tabel pada node tertentu harus dibagi. Ada 3
attribute selection measure yang popular : information gain, gain ratio, and Gini index

a. Information Gain
sebagai ukuran seleksi atributnya. Langkah ini didasarkan pada karya perintis oleh Claude
Shannon tentang teori informasi, yang mempelajari nilai atau "isi informasi" dari pesan.
Informasi yang diharapkan diperlukan untuk mengklasifikasikan tupel di D diberikan oleh :
m
Info( D)   pi log 2 ( pi )
i 1

Berapa banyak lagi informasi yang masih kita perlukan (setelah partisi) untuk sampai pada
klasifikasi yang tepat? Jumlah ini diukur dengan :
v | Dj |
InfoA ( D)    Info( D j )
j 1 |D|

Penguatan informasi didefinisikan sebagai perbedaan antara persyaratan informasi asli (yaitu,
hanya berdasarkan proporsi kelas) dan persyaratan baru (yaitu, diperoleh setelah partisi pada
A). Itu adalah
Gain(A)  Info(D)  InfoA(D)

b. Gain Ratio
Ukuran penguatan informasi bias terhadap pengujian dengan banyak hasil. Artinya, lebih
memilih untuk memilih atribut yang memiliki sejumlah besar nilai. C4.5, a successor of ID3
menggunakan ekstensi untuk mendapatkan informasi yang dikenal sebagai rasio keuntungan,

ISYS6333 – Data and Text Mining


yang mencoba untuk mengatasi bias ini. Ini berlaku semacam normalisasi untuk mendapatkan
informasi menggunakan nilai "informasi split" yang didefinisikan secara analog dengan Info.
Sebagai:
v | Dj | | Dj |
SplitInfoA ( D)    log 2 ( )
j 1 |D| |D|

Nilai ini mewakili informasi potensial yang dihasilkan dengan membagi set data pelatihan, D,
ke partisi v, sesuai dengan hasil v dari tes pada atribut A. Rasio keuntungan didefinisikan
sebagai:

c. Gini Index
Gini Index digunakan dalam CART. Menggunakan notasi yang dijelaskan sebelumnya,
indeks Gini mengukur ketidakmurnian D, partisi data atau serangkaian tupel pelatihan,
seperti:
2 2
9 5
gini( D)  1        0.459
 14   14 

4. Tree Pruning
Ketika pohon keputusan dibangun, banyak cabang akan mencerminkan anomali dalam data
pelatihan karena kebisingan atau pencilan. Metode Tree pruning mengatasi masalah overfitting
data ini. Metode semacam itu biasanya menggunakan ukuran statistik untuk menghapus cabang
yang paling tidak dapat diandalkan.
Dua pendekatan untuk menghindari overfitting.
Prepruning : Menghentikan (menghentikan) konstruksi pohon lebih awal - jangan memecah
simpul jika ini akan menghasilkan ukuran kebaikan jatuh di bawah ambang batas
Postpruning : yang menghilangkan subtrees dari pohon "fully grown". Subtipe pada simpul yang
diberikan dipangkas dengan membuang branches dan menggantinya dengan leaf.

ISYS6333 – Data and Text Mining


5. Visual Mining for Decision Tree Induction
Pendekatan interaktif untuk induksi pohon keputusan yang memungkinkan kita untuk
memvisualisasikan data dan pohon saat sedang dibangun. Klasifikasi berdasarkan Persepsi
(PBC) adalah pendekatan interaktif berdasarkan teknik visualisasi multidimensi dan
memungkinkan pengguna untuk menggabungkan pengetahuan latar belakang tentang data ketika
membangun pohon keputusan.

6. Scalability and Decision Tree Induction


Efisiensi dari algoritma pohon keputusan yang ada, seperti ID3, C4.5, dan CART, telah
ditetapkan dengan baik untuk set data yang relatif kecil. Efisiensi menjadi masalah yang menjadi
perhatian ketika algoritme ini diterapkan pada penambangan basis data dunia nyata yang sangat
besar. Algoritma pohon keputusan perintis yang telah kita bahas sejauh ini memiliki batasan
bahwa tupel pelatihan harus berada dalam memori. Dalam aplikasi data mining, set pelatihan
jutaan tupel yang sangat besar adalah hal yang umum.

Example case study solution with Python


Menerapkan classifier pohon keputusan dengan Python. Gunakan impor perpustakaan berikut adalah
dataset paling populer di bidang pembelajaran mesin, dataset iris dari UC Irvine Machine Learning
Repository

ISYS6333 – Data and Text Mining


ISYS6333 – Data and Text Mining
SIMPULAN

Classification adalah bentuk analisis data yang mengekstraksi model yang menggambarkan kelas
data. Penggolong, atau model klasifikasi, memprediksi label kategori (kelas).
Model Numeric prediction fungsi bernilai berkelanjutan. Klasifikasi dan prediksi numerik adalah
dua jenis utama masalah prediksi.

Decision tree induction adalah top-down recursive tree induction, yang menggunakan ukuran
pemilihan atribut untuk memilih atribut yang diuji untuk setiap node non daun di pohon. ID3, C4.5,
dan CART adalah contoh dari algoritma tersebut menggunakan berbagai ukuran pemilihan atribut.

Algoritma Tree pruning mencoba untuk meningkatkan akurasi dengan menghapus cabang-cabang
pohon yang mencerminkan kebisingan dalam data. Algoritma pohon keputusan awal biasanya
mengasumsikan bahwa data adalah memori penduduk. Beberapa algoritma skalabel, seperti
RainForest, telah diusulkan untuk scalable tree induction.

ISYS6333 – Data and Text Mining


DAFTAR PUSTAKA

1. Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03. Morgan
Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791

ISYS6333 – Data and Text Mining

Anda mungkin juga menyukai