Week ke - 2
LO2 : Using data mining models to solve problems by extracting knowledge from data
OUTLINE MATERI :
1. Basic Concepts
2. Decision Tree Induction
3. Attribute Selection Measures
4. Tree Pruning
5. Example solution with python
1. Basic Concept
Klasifikasi adalah bentuk analisis data yang mengekstraksi model yang menggambarkan kelas data
penting. Model semacam itu, yang disebut pengklasifikasi, memprediksi label kelas kategoris
(diskret, tidak beraturan). Klasifikasi data adalah proses dua langkah, yang terdiri dari langkah
pembelajaran (di mana model klasifikasi dibangun) dan langkah klasifikasi (di mana model
digunakan untuk memprediksi label kelas untuk data yang diberikan). Proses klasifikasi data:
(a) Learning: Data pelatihan dianalisis dengan algoritma klasifikasi. Di sini, atribut label kelas
adalah keputusan pinjaman, dan model atau pengelompok yang dipelajari direpresentasikan
dalam bentuk aturan klasifikasi.
(b) Classification: Data uji digunakan untuk memperkirakan keakuratan aturan klasifikasi. Jika
akurasi dianggap dapat diterima, aturan dapat diterapkan pada klasifikasi tabel data baru.
a. Information Gain
sebagai ukuran seleksi atributnya. Langkah ini didasarkan pada karya perintis oleh Claude
Shannon tentang teori informasi, yang mempelajari nilai atau "isi informasi" dari pesan.
Informasi yang diharapkan diperlukan untuk mengklasifikasikan tupel di D diberikan oleh :
m
Info( D) pi log 2 ( pi )
i 1
Berapa banyak lagi informasi yang masih kita perlukan (setelah partisi) untuk sampai pada
klasifikasi yang tepat? Jumlah ini diukur dengan :
v | Dj |
InfoA ( D) Info( D j )
j 1 |D|
Penguatan informasi didefinisikan sebagai perbedaan antara persyaratan informasi asli (yaitu,
hanya berdasarkan proporsi kelas) dan persyaratan baru (yaitu, diperoleh setelah partisi pada
A). Itu adalah
Gain(A) Info(D) InfoA(D)
b. Gain Ratio
Ukuran penguatan informasi bias terhadap pengujian dengan banyak hasil. Artinya, lebih
memilih untuk memilih atribut yang memiliki sejumlah besar nilai. C4.5, a successor of ID3
menggunakan ekstensi untuk mendapatkan informasi yang dikenal sebagai rasio keuntungan,
Nilai ini mewakili informasi potensial yang dihasilkan dengan membagi set data pelatihan, D,
ke partisi v, sesuai dengan hasil v dari tes pada atribut A. Rasio keuntungan didefinisikan
sebagai:
c. Gini Index
Gini Index digunakan dalam CART. Menggunakan notasi yang dijelaskan sebelumnya,
indeks Gini mengukur ketidakmurnian D, partisi data atau serangkaian tupel pelatihan,
seperti:
2 2
9 5
gini( D) 1 0.459
14 14
4. Tree Pruning
Ketika pohon keputusan dibangun, banyak cabang akan mencerminkan anomali dalam data
pelatihan karena kebisingan atau pencilan. Metode Tree pruning mengatasi masalah overfitting
data ini. Metode semacam itu biasanya menggunakan ukuran statistik untuk menghapus cabang
yang paling tidak dapat diandalkan.
Dua pendekatan untuk menghindari overfitting.
Prepruning : Menghentikan (menghentikan) konstruksi pohon lebih awal - jangan memecah
simpul jika ini akan menghasilkan ukuran kebaikan jatuh di bawah ambang batas
Postpruning : yang menghilangkan subtrees dari pohon "fully grown". Subtipe pada simpul yang
diberikan dipangkas dengan membuang branches dan menggantinya dengan leaf.
Classification adalah bentuk analisis data yang mengekstraksi model yang menggambarkan kelas
data. Penggolong, atau model klasifikasi, memprediksi label kategori (kelas).
Model Numeric prediction fungsi bernilai berkelanjutan. Klasifikasi dan prediksi numerik adalah
dua jenis utama masalah prediksi.
Decision tree induction adalah top-down recursive tree induction, yang menggunakan ukuran
pemilihan atribut untuk memilih atribut yang diuji untuk setiap node non daun di pohon. ID3, C4.5,
dan CART adalah contoh dari algoritma tersebut menggunakan berbagai ukuran pemilihan atribut.
Algoritma Tree pruning mencoba untuk meningkatkan akurasi dengan menghapus cabang-cabang
pohon yang mencerminkan kebisingan dalam data. Algoritma pohon keputusan awal biasanya
mengasumsikan bahwa data adalah memori penduduk. Beberapa algoritma skalabel, seperti
RainForest, telah diusulkan untuk scalable tree induction.
1. Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03. Morgan
Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791