Anda di halaman 1dari 28

Knowledge Discovery in

Database (KDD)

Mata Kuliah Pilihan Data Mining


Mustakim, S.T., M.Kom.

Program Studi Sistem Informasi mustakim@uin-suska.ac.id


Fakultas Sains dan Teknologi
Universitas Islam Negeri Sultan Syarif Kasim Riau
https://mustakim.predatech.org | https://mustakim.irpi.or.id
1
Review: Data dan Model
Data Mining
2
Permasalahan Kualitas Data

Proses yang dilakukan untuk memperbaiki kualitas


data sebelum diproses untuk dilakukan mining disebut
dengan data Preprocessing.
➢ Data Cleaning, membersihkan data dari outlayer, noise atau missing value
➢ Data Integration, menyatukan data-data yang bersumber dari berbeda
➢ Data Transformation, terdiri dari beberapa langkah seperti normalisasi data,
data smoothing, differences dan rasio
➢ Data Reduction, mereduksi data-data yang dianggap tidak mewakili
➢ Data Discritization, mendiskritkan data yang memiliki bentuk pecahan atau
bukan bilangan bulat untuk mempermudah proses mining
3
Model-model Statistika dalam Data Mining

Supervised Learning

dalam Data Mining


Model Statistika
Unsupervised Learning

Regression Model

Association Rule

Other Model
4
10 Top Algorithm

1. C4.5 – Decision Tree


2. K-Means
3. Support Vector Machine
4. Apriori
5. Expectation Maximisation Algorithm
6. PageRank
7. K-NN
8. Naïve Bayes
9. Classification And Regression Trees
10. Adabost 5
2
KDD Process

6
Pengertian KDD

Knowledge Discovery in Database


(KDD) adalah proses menentukan
informasi yangberguna serta pola-pola
yang ada dalam data. Informasi ini
terkandung dalam basis data yang
berukuran besar yang sebelumnya
tidak diketahui dan potensial (Han
&Kamber, 2006 dalam Baskoro, 2010).

7
Fase KDD

1. Seleksi Data (Data Selection)


2. Pembersihan Data (Data
Cleaning)
3. Transformasi (Transformation)
4. Data Mining
5. Evaluasi/ Interpretasi
(Evaluation/ Interpratation)

8
1. Seleksi Data

Selection (seleksi/ pemilihan) data merupakan sekumpulan data


operasional perlu dilakukan seleksi sebelum tahap penggalian informasi
dalam Knowledge Discovery Database (KDD) dimulai. Data hasil
seleksi yang akan digunakan untuk proses data mining, disimpan dalam
suatu berkas, terpisah dari basis data operasional.

Salah satunya adalah Feature Selection

9
1. Seleksi Data (1)

Metode seleksi pada data Mining:


1. Sampling, adalah seleksi subset representatif dari populasi data
yang besar.
2. Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
3. Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu.

10
1. Seleksi Data (2)

Data dengan Atribut Asli

Dataset Pakai

Data Integrated
Himpunan Data dari
Data dengan Atribut yang
Berbagai Sumber
Sudah Terseksi

11
1. Seleksi Data (3)

12
1. Seleksi Data (4)

13
2. Preprocessing

Proses Preprocessing mencakup membuang duplikasi data (data


clining), memeriksa data yang inkonsisten, dan memperbaiki kesalahan
pada data, seperti kesalahan cetak (tipografi).

Preprocessing

Data Clining Data Corection Data Improvement

14
2. Preprocessing (1)

Data Clining
merupakan pross
membuang
duplikasi data
seperti outlayer,
noise, missing
value dan
duplikasi data.
15
2. Preprocessing (2)

Data Clining
merupakan pross
membuang
duplikasi data
seperti outlayer,
noise, missing
value dan
duplikasi data.
2. Preprocessing (3)

Proses Preprocessing mencakup membuang duplikasi data (data


clining), memeriksa data yang inkonsisten, dan memperbaiki kesalahan
pada data, seperti kesalahan cetak (tipografi).

Preprocessing

Data Clining Data Corection Data Improvement

17
2. Preprocessing (4)

Proses Corection dan


Improvement prose
memeriksa data yang
inkonsisten kemudian
memperbaiki
kesalahan pada data,
yang bertujuan data
tersebut masih dapat
digunakan untuk
proses selanjutnya. 18
3. Transformation

Pada fase Transformation ini yang dilakukan adalah mentransformasikan


bentuk data yang belum memiliki entitas yang jelas kedalam bentuk data
yang valid atau siap untuk dilakukan prose Data Mining.

Fase ini juga membahas/ melakukan Normalization atau proses


mengubah/ mentransformasikan data kedalam bentuk yang paling tepat/
cocok dan tidak memiliki jarak yang telalu jauh (outlayer) antar data.

19
Jenis Kelamin:
1 = Laki-laki
2 = Perempuan
3. Transformation (1)
Tensi:
1 = Rendah
2 = Sedang
3 = Tinggi

Golongan Darah:
1=A
2=B
3 = AB
4=O
Konsumsi Obat:
1 = Ya
2 = Tidak

KELAS:
1 = Ya
2 = Tidak
20
3. Transformation (2)

Pada fase Transformation


ini yang dilakukan adalah
mentransformasikan
bentuk data yang belum
memiliki entitas yang jelas
kedalam bentuk data yang
valid atau siap untuk
dilakukan prose Data
Mining.

21
3. Transformation (3)

Normalization atau proses


mengubah/ data kedalam
bentuk yang paling tepat/
cocok dan tidak memiliki
jarak yang telalu jauh
(outlayer) antar data.

22
3. Transformation (4)

23
4. Data Mining

Pada fase Data Mining ini yang dilakukan adalah menerapkan algoritma
atau metode untuk pencarian pengetahuan.
Model Statistika dalam Supervised Learning

Unsupervised Learning
Data Mining

Regression Model

Association Rule

Other Model
24
5. Evaluation/ Interpratation

Pada fase Evaluation ini yang dilakukan adalah proses pengukuran dan
kehandalan sebuah model pada agoritma, baik dilihat dar sisi
flesksibelitas, performa maupun kompleksitas serta waktu proses.
Beberapa bagian dari evaluasi:
➢ Akurasi dan Error
➢ Validitas Cluster dan Performa Cluster Algorithm
➢ Lift Ratio dan Precision
➢ Comparison → Complexity and Time Processing
25
5. Evaluation/ Interpratation (1)

Pada fase Interpretasi ini yang dilakukan adalah proses pembentukan


keluaran yang mudah dimengerti yang bersumber pada proses Data
Mining Pola informasi.
Beberapa hal yang dapat dilakukan adalah dengan:
➢ Analisis hasil proses Data Mining
➢ Analisis terhadap data yang digunakan dan pemvisualisasian data
➢ Analisis hasil, data, atribut dengan kondisi eksternal dari data yang
digunakan
26
5. Evaluation/ Interpratation (2)

Bentuk Interpretasi

27
THANKS!
Any questions?

28

Anda mungkin juga menyukai