Anda di halaman 1dari 5

RESUME KLASIFIKASI DATA MINING

KONSEP DASAR & TEKNIK


DATA MINING

Disusun oleh :
Alifidyah Nuril Hidayah (190441100085)

Mata Kuliah : Data Mining B


Dosen Pengampu : Achmad Yasid, S.Kom., M.Kom.

PROGRAM STUDI SISTEM


INFORMASI FAKULTAS TEKNIK
UNIVERSITAS TRUNOJOYO MADURA
2021
Klasifikasi Data Mining: Konsep Dasar dan Teknik

Definisi
Klasifikasi merupakan sebuah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep dan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui.
Diberikan koleksi catatan (set pelatihan) - Setiap record ditandai oleh tupel ( x , y ), di mana x
adalah himpunan atribut dan y adalah label kelas
x : atribut, prediktor, variabel independen, masukan
y : kelas, respon, variabel dependen, output

Teknik Klasifikasi
1. Pengklasifikasi Dasar
• Metode berbasis Pohon Keputusan
• Metode berbasis aturan
• Tetangga terdekat (Nearest-neighbor)
• Jaringan Neural (Neural Networks)
• Pembelajaran Mendalam (Deep Learning)
• Naïve Bayes dan Bayesian Belief Networks
• Mendukung Mesin Vektor (Support Vector Machines)
2. Ensemble Classifiers
• Boosting
• Bagging
• Random Forests

Task Klasifikasi Berdasarkan Decision Tree

Tid Attrib1 Attrib2 Attrib3 Class


Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No

4 Yes Medium 120K No


Induction
5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No Learn


8 No Small 85K Yes Model
9 No Medium 75K No

10 No Small 90K Yes


Model
10

Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class
Model
11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?


Deduction
14 No Small 95K ?

15 No Large 67K ?
10

Test Set
Induksi Pohon Keputusan (Decision Tree)
• Banyak Algoritma:
1. Algoritma Hunt (salah satu yang paling awal)
2. CART
3. ID3, C4.5
4. SLIQ, SPRINT
Masalah Desain Induksi Pohon Keputusan (Decision Tree)
1. Bagaimana seharusnya catatan pelatihan dipecah?
• Metode untuk menentukan kondisi pengujian; tergantung pada jenis atribut
• Mengukur untuk mengevaluasi kebaikan suatu tes kondisi
2. Bagaimana cara menghentikan prosedur pemisahan?
• Hentikan pemisahan jika semua record dimiliki oleh kelas yang sama atau memiliki
nilai atribut yang identic
• Pengakhiran dini
Metode untuk Mengekspresikan Kondisi Uji
1. Berdasarkan pada jenis atribut
• Biner
• Nominal
• Ordinal
• Continuous
2. Berdasarkan pada jumlah cara untuk memisahkan
• Split 2 arah
• Perpecahan multi-arah
Kondisi Uji untuk Atribut Nominal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua himpunan bagian
Kondisi Uji untuk Atribut Ordinal
1. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda.
2. Binary split: membagi nilai menjadi dua subset, pertahankan ketertiban properti di
antara nilai atribut
Kondisi Uji untuk Atribut Berkelanjutan
1. Pembagian biner: membagi nilai menjadi dua himpunan bagian, misal (ya) atau (tidak)
2. Pembagian multi-arah: gunakan sebanyak mungkin partisi sebagai nilai yang berbeda,
misal dengan membagi nilai menjadi beberapa kelompok interval nilai
Pemisahan Berdasarkan Atribut Berkelanjutan
• Berbagai cara penanganan
1. Diskritisasi membentuk kategorikal ordinal atribut
Rentang dapat ditemukan dengan pengelompokan interval equal interval
bucketing), pengelompokan frekuensi yang sama (equal frequency bucketing)-
(persentil), atau kekelompokan (clustering).
- Statis; diskritkan satu kali di awal
- Dinamis; ulangi di setiap node
2. Keputusan Biner : (A <v) atau (A ≥ v)
- Memperhitungkan semua kemungkinan split dan mencari yang paling baik
- Secara komputasi harus intensif

Cara menentukan Split Terbaik


1. Pendekatan serakah:
Node dengan distribusi kelas yang lebih murni adalah disukai
2. Perlu ukuran ketidakmurnian node (node impurity)

Pengukuran pengotor node (node impurity)


1. Gini Index

(note: p( j | t) adalah frekuensi relatif class j pada node t)


2. Entropy

(note: p( j | t) adalah frekuensi relatif class j pada node t)


3. Misclassification error

Menemukan Perpecahan Terbaik


1. Hitung ukuran pengotor (P) sebelum membelah
2. Hitung ukuran pengotor (M) setelah pemisahan
• Hitung ukuran ketidakmurnian setiap simpul anak
• M adalah ketidakmurnian tertimbang anak-anak
3. Pilih kondisi uji atribut yang menghasilkan keuntungan tertinggi
Gain = P – M
atau setara, ukuran pengotor terendah setelahnya membelah (M)
Klasifikasi Berdasarkan Decision Tree
• Keuntungan:
1. Tidak mahal untuk dibangun
2. Sangat cepat dalam mengklasifikasikan catatan yang tidak diketahui
3. Mudah untuk menginterpretasikan tree yang berukuran kecil
4. Kuat terhadap kebisingan (terutama ketika metode yang harus dihindari overfitting
digunakan)
5. Dapat dengan mudah menangani atribut yang berlebihan atau tidak relevan (atribut
berinteraksi)
• Kekurangan:
1. Ruang decision tree yang mungkin sangat besar.
Pendekatan serakah seringkali tidak dapat menemukan pohon terbaik.
2. Tidak memperhitungkan interaksi antara atribut
3. Setiap batasan keputusan hanya melibatkan satu atribut

Anda mungkin juga menyukai