Disusun oleh :
Alifidyah Nuril Hidayah (190441100085)
Definisi
Klasifikasi merupakan sebuah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep dan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui.
Diberikan koleksi catatan (set pelatihan) - Setiap record ditandai oleh tupel ( x , y ), di mana x
adalah himpunan atribut dan y adalah label kelas
x : atribut, prediktor, variabel independen, masukan
y : kelas, respon, variabel dependen, output
Teknik Klasifikasi
1. Pengklasifikasi Dasar
• Metode berbasis Pohon Keputusan
• Metode berbasis aturan
• Tetangga terdekat (Nearest-neighbor)
• Jaringan Neural (Neural Networks)
• Pembelajaran Mendalam (Deep Learning)
• Naïve Bayes dan Bayesian Belief Networks
• Mendukung Mesin Vektor (Support Vector Machines)
2. Ensemble Classifiers
• Boosting
• Bagging
• Random Forests
6 No Medium 60K No
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class
Model
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
Induksi Pohon Keputusan (Decision Tree)
• Banyak Algoritma:
1. Algoritma Hunt (salah satu yang paling awal)
2. CART
3. ID3, C4.5
4. SLIQ, SPRINT
Masalah Desain Induksi Pohon Keputusan (Decision Tree)
1. Bagaimana seharusnya catatan pelatihan dipecah?
• Metode untuk menentukan kondisi pengujian; tergantung pada jenis atribut
• Mengukur untuk mengevaluasi kebaikan suatu tes kondisi
2. Bagaimana cara menghentikan prosedur pemisahan?
• Hentikan pemisahan jika semua record dimiliki oleh kelas yang sama atau memiliki
nilai atribut yang identic
• Pengakhiran dini
Metode untuk Mengekspresikan Kondisi Uji
1. Berdasarkan pada jenis atribut
• Biner
• Nominal
• Ordinal
• Continuous
2. Berdasarkan pada jumlah cara untuk memisahkan
• Split 2 arah
• Perpecahan multi-arah
Kondisi Uji untuk Atribut Nominal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua himpunan bagian
Kondisi Uji untuk Atribut Ordinal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua subset, pertahankan ketertiban properti di
antara nilai atribut
Kondisi Uji untuk Atribut Berkelanjutan
1. Pembagian biner: membagi nilai menjadi dua himpunan bagian, misal (ya) atau (tidak)
2. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda,
misal dengan membagi nilai menjadi beberapa kelompok interval nilai
Pemisahan Berdasarkan Atribut Berkelanjutan
• Berbagai cara penanganan
1. Diskritisasi membentuk kategorikal ordinal atribut
Rentang dapat ditemukan dengan pengelompokan interval equal interval
bucketing), pengelompokan frekuensi yang sama (equal frequency bucketing)-
(persentil), atau kekelompokan (clustering).
- Statis; diskritkan satu kali di awal
- Dinamis; ulangi di setiap node
2. Keputusan Biner : (A <v) atau (A ≥ v)
- Memperhitungkan semua kemungkinan split dan mencari yang paling baik
- Secara komputasi harus intensif