Anda di halaman 1dari 13

DATA MINING

CLASIFICATION (KLASIFIKASI)
Konsep Dasar dan Teknik

Alifidyah Nuril Hidayah (190441100085)


Definisi
Klasifikasi merupakan sebuah proses untuk
menemukan model atau fungsi yang
menjelaskan atau membedakan konsep
dan kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang
kelasnya tidak diketahui.

Diberikan koleksi catatan (set pelatihan) -


Setiap record ditandai oleh tupel ( x , y ), di
mana x adalah himpunan atribut dan y
adalah label kelas
x : atribut, prediktor, variabel independen,
masukan
y : kelas, respon, variabel dependen, output
Teknik Klasifikasi
1. Pengklasifikasi Dasar
• Metode berbasis Pohon Keputusan
• Metode berbasis aturan
• Tetangga terdekat (Nearest-neighbor)
• Jaringan Neural (Neural Networks)
• Pembelajaran Mendalam (Deep
Learning)
• Naïve Bayes dan Bayesian Belief
Networks
• Mendukung Mesin Vektor (Support
Vector Machines)
2. Ensemble Classifiers
• Boosting
• Bagging
• Random Forests
Task
Klasifikasi
Berdasarkan
Decision Tree
Induksi Pohon Keputusan (Decision Tree)

Algoritma Hunt (salah satu yang paling awal)

CART

ID3, C4.5

SLIQ, SPRINT
Masalah Desain Induksi Pohon Keputusan
(Decision Tree)

1. Bagaimana seharusnya catatan pelatihan dipecah?


• Metode untuk menentukan kondisi pengujian; tergantung
pada jenis atribut
• Mengukur untuk mengevaluasi kebaikan suatu tes kondisi

2. Bagaimana cara menghentikan prosedur pemisahan?


• Hentikan pemisahan jika semua record dimiliki oleh kelas
yang sama atau memiliki nilai atribut yang identic
• Pengakhiran dini
Metode untuk
Mengekspresikan Kondisi Uji
1. Berdasarkan pada jenis atribut
• Biner
• Nominal
• Ordinal
• Continuous
2. Berdasarkan pada jumlah cara untuk memisahkan
• Split 2 arah
• Perpecahan multi-arah
Kondisi Uji untuk Atribut Nominal
1. Pembagian multi-arah: gunakan sebanyak mungkin
partisi nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua himpunan
bagian

Kondisi Uji untuk Atribut Ordinal


3. Pembagian multi-arah: gunakan sebanyak mungkin
partisi sebagai nilai yang berbeda.
4. Binary split: membagi nilai menjadi dua subset,
pertahankan ketertiban properti di antara nilai atribut

Kondisi Uji untuk Atribut


Berkelanjutan
5. Pembagian biner: membagi nilai menjadi dua
himpunan bagian, misal (ya) atau (tidak)
6. Pembagian multi-arah: gunakan sebanyak mungkin
partisi sebagai nilai yang berbeda, misal dengan
membagi nilai menjadi beberapa kelompok interval
nilai
Pemisahan Berdasarkan Atribut
Berkelanjutan
Berbagai cara penanganan
1) Diskritisasi membentuk kategorikal ordinal atribut
• Rentang dapat ditemukan dengan pengelompokan interval equal interval bucketing),
pengelompokan frekuensi yang sama (equal frequency bucketing)-(persentil), atau
kekelompokan (clustering).
• Statis; diskritkan satu kali di awal
• Dinamis; ulangi di setiap node
2) Keputusan Biner : (A <v) atau (A ≥ v)
• Memperhitungkan semua kemungkinan split dan mencari yang paling baik
• Secara komputasi harus intensif

Cara menentukan Split Terbaik


 Pendekatan serakah: Node dengan distribusi kelas yang lebih murni adalah disukai
 Perlu ukuran ketidakmurnian node (node impurity)
Pengukuran pengotor node
(node impurity)
1. Gini Index

(note: p( j | t) adalah frekuensi relatif class j pada node t)

2. Entropy

(note: p( j | t) adalah frekuensi relatif class j pada node t)

3. Misclassification error
Menemukan Perpecahan Terbaik

1. Hitung ukuran pengotor (P) sebelum membelah


2. Hitung ukuran pengotor (M) setelah pemisahan
• Hitung ukuran ketidakmurnian setiap simpul anak
• M adalah ketidakmurnian tertimbang anak-anak
3. Pilih kondisi uji atribut yang menghasilkan keuntungan tertinggi
Gain = P – M
atau setara, ukuran pengotor terendah setelahnya membelah (M)
Klasifikasi Berdasarkan Decision Tree
• Keuntungan:
1. Tidak mahal untuk dibangun
2. Sangat cepat dalam mengklasifikasikan catatan yang tidak diketahui
3. Mudah untuk menginterpretasikan tree yang berukuran kecil
4. Kuat terhadap kebisingan (terutama ketika metode yang harus dihindari
overfitting digunakan)
5. Dapat dengan mudah menangani atribut yang berlebihan atau tidak
relevan (atribut berinteraksi)

• Kekurangan:
1. Ruang decision tree yang mungkin sangat besar.
Pendekatan serakah seringkali tidak dapat menemukan pohon terbaik.
2. Tidak memperhitungkan interaksi antara atribut
3. Setiap batasan keputusan hanya melibatkan satu atribut
THANK YOU

Anda mungkin juga menyukai