Alifidyah Nuril Hidayah - Data Mining B - Tugas Resume

RESUME KLASIFIKASI DATA MINING
KONSEP DASAR & TEKNIK

DATA MINING
Disusun oleh :
Alifidyah Nuril Hidayah (190441100085)
Mata Kuliah : Data Mining B

Dosen Pengampu : Achmad Yasid, S.Kom., M.Kom.
PROGRAM STUDI SISTEM

INFORMASI FAKULTAS TEKNIK
UNIVERSITAS TRUNOJOYO MADURA
2021
Klasifikasi Data Mining: Konsep Dasar dan Teknik
Definisi
Klasifikasi merupakan sebuah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep dan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui.
Diberikan koleksi catatan (set pelatihan) - Setiap record ditandai oleh tupel ( x , y ), di mana x
adalah himpunan atribut dan y adalah label kelas
x : atribut, prediktor, variabel independen, masukan
y : kelas, respon, variabel dependen, output
Teknik Klasifikasi
1. Pengklasifikasi Dasar
• Metode berbasis Pohon Keputusan
• Metode berbasis aturan
• Tetangga terdekat (Nearest-neighbor)
• Jaringan Neural (Neural Networks)
• Pembelajaran Mendalam (Deep Learning)
• Naïve Bayes dan Bayesian Belief Networks
• Mendukung Mesin Vektor (Support Vector Machines)
2. Ensemble Classifiers
• Boosting
• Bagging
• Random Forests
Task Klasifikasi Berdasarkan Decision Tree
Tid Attrib1 Attrib2 Attrib3 Class

Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No
4 Yes Medium 120K No

Induction
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn

8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes

Model
10
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class
Model
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?

Deduction
14 No Small 95K ?
15 No Large 67K ?
10
Test Set
Induksi Pohon Keputusan (Decision Tree)
• Banyak Algoritma:
1. Algoritma Hunt (salah satu yang paling awal)
2. CART
3. ID3, C4.5
4. SLIQ, SPRINT
Masalah Desain Induksi Pohon Keputusan (Decision Tree)
1. Bagaimana seharusnya catatan pelatihan dipecah?
• Metode untuk menentukan kondisi pengujian; tergantung pada jenis atribut
• Mengukur untuk mengevaluasi kebaikan suatu tes kondisi
2. Bagaimana cara menghentikan prosedur pemisahan?
• Hentikan pemisahan jika semua record dimiliki oleh kelas yang sama atau memiliki
nilai atribut yang identic
• Pengakhiran dini
Metode untuk Mengekspresikan Kondisi Uji
1. Berdasarkan pada jenis atribut
• Biner
• Nominal
• Ordinal
• Continuous
2. Berdasarkan pada jumlah cara untuk memisahkan
• Split 2 arah
• Perpecahan multi-arah
Kondisi Uji untuk Atribut Nominal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua himpunan bagian
Kondisi Uji untuk Atribut Ordinal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua subset, pertahankan ketertiban properti di
antara nilai atribut
Kondisi Uji untuk Atribut Berkelanjutan
1. Pembagian biner: membagi nilai menjadi dua himpunan bagian, misal (ya) atau (tidak)
2. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda,
misal dengan membagi nilai menjadi beberapa kelompok interval nilai
Pemisahan Berdasarkan Atribut Berkelanjutan
• Berbagai cara penanganan
1. Diskritisasi membentuk kategorikal ordinal atribut
Rentang dapat ditemukan dengan pengelompokan interval equal interval
bucketing), pengelompokan frekuensi yang sama (equal frequency bucketing)-
(persentil), atau kekelompokan (clustering).
- Statis; diskritkan satu kali di awal
- Dinamis; ulangi di setiap node
2. Keputusan Biner : (A <v) atau (A ≥ v)
- Memperhitungkan semua kemungkinan split dan mencari yang paling baik
- Secara komputasi harus intensif
Cara menentukan Split Terbaik

1. Pendekatan serakah:
Node dengan distribusi kelas yang lebih murni adalah disukai
2. Perlu ukuran ketidakmurnian node (node impurity)
Pengukuran pengotor node (node impurity)

1. Gini Index
(note: p( j | t) adalah frekuensi relatif class j pada node t)

2. Entropy
(note: p( j | t) adalah frekuensi relatif class j pada node t)

3. Misclassification error
Menemukan Perpecahan Terbaik

1. Hitung ukuran pengotor (P) sebelum membelah
2. Hitung ukuran pengotor (M) setelah pemisahan
• Hitung ukuran ketidakmurnian setiap simpul anak
• M adalah ketidakmurnian tertimbang anak-anak
3. Pilih kondisi uji atribut yang menghasilkan keuntungan tertinggi
Gain = P – M
atau setara, ukuran pengotor terendah setelahnya membelah (M)
Klasifikasi Berdasarkan Decision Tree
• Keuntungan:
1. Tidak mahal untuk dibangun
2. Sangat cepat dalam mengklasifikasikan catatan yang tidak diketahui
3. Mudah untuk menginterpretasikan tree yang berukuran kecil
4. Kuat terhadap kebisingan (terutama ketika metode yang harus dihindari overfitting
digunakan)
5. Dapat dengan mudah menangani atribut yang berlebihan atau tidak relevan (atribut
berinteraksi)
• Kekurangan:
1. Ruang decision tree yang mungkin sangat besar.
Pendekatan serakah seringkali tidak dapat menemukan pohon terbaik.
2. Tidak memperhitungkan interaksi antara atribut
3. Setiap batasan keputusan hanya melibatkan satu atribut

Alifidyah Nuril Hidayah - Data Mining B - Tugas Resume

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Alifidyah Nuril Hidayah - Data Mining B - Tugas Resume

Diunggah oleh

Hak Cipta:

Format Tersedia

RESUME KLASIFIKASI DATA MINING

KONSEP DASAR & TEKNIK

Mata Kuliah : Data Mining B

PROGRAM STUDI SISTEM

Task Klasifikasi Berdasarkan Decision Tree

Tid Attrib1 Attrib2 Attrib3 Class

4 Yes Medium 120K No

7 Yes Large 220K No Learn

10 No Small 90K Yes

12 Yes Medium 80K ?

13 Yes Large 110K ?

Cara menentukan Split Terbaik

Pengukuran pengotor node (node impurity)

(note: p( j | t) adalah frekuensi relatif class j pada node t)

(note: p( j | t) adalah frekuensi relatif class j pada node t)

Menemukan Perpecahan Terbaik

Anda mungkin juga menyukai