Perbedaan Data Mining Dengan KDD

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :
Data Mining
1. Merupakan salah Satu step KDD
Knowledge Discovery In Database

Tahapan Dalam :
1. Data Selection ( Pemilihan Data )
2. Data Cleaning ( Pebersihan Data ),
merupakan data Optional ( Pilihan )
3. Adanya Proses data Transformasi
( Perubhan nilai data ), merupakan
data Optional ( Pilihan )
Tahapan 1,2,3 merupakan data
Procesing
4. Data Mining
5. Eavaluation of Knowledge
6. Representation of Knowladge
1. If ... Then
2. Grapht ( 2D 3D )
3. Hierachy
4. Decision Tree
Ket :
Data Mining :
Proses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di
dalam database berukuran besar.
DB
Data
Mining
Standart
mathematika
Knowlage
Teknik AI
Neural Network
Fuzzy Logic
Algoritma Genetik
Rhouge Set
Soft Set
Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan
pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan
persentasi )
Rule Assosiation :
Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di
dalam database
Bentuk umum :
X --------- Y [ Support, Confidence ]
Nilai yang digunakan untuk mengevaluasi rule asosiasi
Prinsip Concept :
1. Support x --- y = X U Y
N --- Jumlah Transaksi
Support y --- x = Y U X
N --- Jumlah Transaksi
Ket : Support x - -- y = Suport y --- x
2. Confidence x --- y = Support x --- y
Support x
Confidence y --- x = Support y --- x
Support y
Ket : Confidence x --- y # Confidence y --- x
3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >=
Minimum Support Dan Confidence >= Minimum Confidence.
Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh
DOMAIN EXPERT.
X ---- Y [ Support, Confidence ]
Contoh :
1. Nilai minimum Support = 50%
Nilai Minimum Confidence = 50%
Transaction
2000
1000
4000
5000
Item Bought
A,B,C
A,C
A,D
B,E, F
Jawab :
Support x --- y = X U Y = 2 = 0,5 = 50 %
N
4
Support y --- x = Y U X = 2 = 0,5 = 50 %
N
4
Confidence x --- y = Support x --- y = 2 /4 = 2/3 = 0,666 = 66,7 %
Support x
3/4
Confidence y --- x = Support y --- x = 2 /4
= 2/2 = 1 = 100 %
Support y
2/4
Jadi : Maka
A ---- C Support { 50%, 66,6% } merupakan Interisting
C ---- A Support { 50%,100% }
Association Rule Algoritma : APRIORI :

Input : Database Transaksi
Output : Assosiation Rule
Proses :
1. Menentukan FREQUENT ITEMSETS
Item atau set of item yang mempunyai support >= minimum support.
Catatan :
1. Subset dari Frequent item set harus merupakan frequent item set.
Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent
item set.
2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.
2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan
RuleAsosiasi.
Contoh :
Transaction
Item Bought
2000
A,B,C
1000
A,C
4000
A,D
5000
B,E, F
1. Menentukan Frequent Item Set
a. 1- Item Set
Item
Support
A
= 75%
Merupakan Foundensial
B
2/4 = 50%
Item Set
C
2/4 = 50%
D
= 25%
E
= 25%
F
= 25%
b.
2-Item Set
Item
Support
A,B
1/4 = 25%
A,C
2/4 = 50%
Merupakan Foundensial Item Set
B,C
1/4 = 25%
2. Menggunakan Fourent Item Set ( mulai dari item set ).
A --- C { s = 50%, C = 66,7% }
C --- D { s = 50%, C = 100% }

A --- C dan C --- A merupakan Interisting Assosiation Rules
Program Yang digunakan :

Untuk Asosiation : XL Miner, WEKA, dan TANAGRA
Untuk Rought Set : Roseta, Rose2, dan Rsfs
ROUGHT SET TEORY DAN DATA MINING
DB
Rought Set
Knowlage
IF --- Then
Proses Rought Set :

1. Decision System
2. Equivalence Class
3. Discervnibility Matrix / Discernibility Matrix Modulo D
4. Reduction
5. Generate Rules ( Knowladge => IF .. Then ...
Penyajian data Dalam Rought Set ( RS ) :
1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )
IS = { U,A },
ket : U = object,
A = Kondisional Atribut
2. Descision System ( DS ),
DS = { U, (A,C)},
ket : U = objek,
A = kondisional Atribut ( A1, A2, ... An-1 )
C = Decision Atribut ( An )
Atribut dalam RS :
1. Condisional Atribut
2. Decision Atribut
Atribut dalam Databese/information system :
1. Atribut Key
2. Atribut non Key
Rought set :
1. Decision System
2. Equivalen Class
Dengan menentukan Kondisi pada atribut yang sama

Soal :
Pada Slide Rought Set, Hal : 9 , table
Penyelesaian :
1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):
E1, E5, E6
E2, E99
E3
E4, E7, E100
E8, E9, E10
2. Menentukan Equevalen Yang Terbentuk
Studies ( A )
Education ( B )
Work ( C )
Ec1
Poor
SMU
Poor
Ec2
Poor
SMU
Good
Ec3
Moderat
SMU
Poor
Ec4
Moderat
Diploma
Poor
Ec5,1
Good
Msc
Good
Ec5,2
Good
Msc
Good
3. Discernibilyty Matrix
Dengan melihat kondisi yang berbeda
Ec1
Ec2
Ec3
Ec4
Ec5
Ec1
X
C
A
AB
AB
C
Ec2
C
X
AC
AB
AB
C
Ec3
A
AC
X
B
AB
C
Ec4
AB
AB
B
X
AB
C
C
Ec5
AB
AB
AB
AB
X
C
C
C
Mis : i = 1 dan j = 4
Ec1
Ec2
Ec1
X
Study
dan
Educa
tion
Ec2
Study X
dan
Educa
tion
Discernibility Matrix Modulo D
Dengan melihat perbedaan pada keputusan dan kondisi yang berbeda
Ec1
Ec2
Ec3
Ec4
Ec5
Income
None
Low
Low
Low
Medium
Hight
Ec1
Ec2
Ec3
Ec4
AB
Ec5
AB
C
AB
AB
C
AB
AB
C
AB
X
C
AB
AB
AB
X
C
C
4. Reduction
1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :
a. Cara pencarian dalam bentuk booleean :
Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan )
Untuk Nilai : AA = A
A + AB = A ( 1+B ), dimana ( 1+B ) = 1
=A
Menentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang
sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):
1. C ^ A ^( A v B ) ^ ( A v B v C )
Cara menyederhanakan :
C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB
* BC
= CA * A * AB * AC * BA * B * BC
= C ( 1 +A)
2. C ^ ( A v B )
C * ( A + B ) = CA + CB
=
3. A ^ ( A v B v C )
Cara menyederhakan :
A ^ ( A v B v C ) = AA + AB + AC
= A + AB + AC
= A ( 1 + B ) + AC
= A + AC
= A( 1 + C ) = A
4. ( A v B ) ^ ( A v B v C )
5. ( A v B v C ) ^ ( A v B )
Jadi : Hasil Reduction :
1. {A,C} = { Studies, Works }
2. {B,C} = { Education, Works }
3. { A } = { Studies }
4. { B } = { Education }
5. Generade Rules
Dengan mengunkan atribut Reduct
a. { Studies, Work }
1. IF Studies = Poor and Work = Poor, Then Income = Low
2. IF Studies = Poor and Work = Good, Then Income = Low
3. IF Studies = Moderate and Work = Poor, Then Income = Low
4. IF Studies = Good and Work = Good, Then Income = Medium Or Income
= Good
b. { Education, Work }
1. IF Education = Smu and Work = Poor, Then Income = None
2. IF Education = Smu and Work = Good, Then Income = Low
3. IF Education = Diploma and Work = Poor, Then Income = Low
4. IF Education = Msc and Work = Good, Then Income = Medium Or Income
= Hight
c. { Studies }
1. IF Student = Poor Then Income = None Or Income = Low
2. IF Student = Moderate Then Income = Low
3. IF Student = Good Then Income = Medium Or Income = Hight
d. { Education }
1. IF Education = Smu then Income = None Or Income = Low
2. IF Education = Diploma then Income = Low
3. IF Education = Msc then Income = Medium Or Income = Hight
Jadi : Terdapat 14 pengetahuan.......
Tugas :
1. Analisa Hasil yang di peroleh oleh Roseta :
LHS Support Jumlah object yang memenuhi bagian if
RHS Supoort Jumlah object yang memenuhi bagian then
RHS support
RHS Accuracy LHS Support
LHS support
LHS Coverage= Jumlah object dalam DS
RHS support
RHS Coverage= Jumlah object yg memenuhi bagianthen
RHS support
RHS Stability= Jumlah object yg memenuhi rule
LHS Lenght= Jumlah atribut pada bagian if

RHS Lenght= Jumlah atribut pada bagian then
2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau
tidak dengan Discrinibility Matrix Modulo D?
Data Clening
Incomplete complete
Caranya :
1. Remove incomplete data
2. Mean and mode Fill
Mean untuk nilai angka(continius)
Modus untuk nilai categorical
Data transformation
A = (pa2Vpa3Vpa4Vpb2)(pa2Vpa3Vpb2Vpb3)(pa3Vpb1Vpb2Vpb3)
(pa1Vpa4Vpb1Vpb2)
Sistem akan mengambil No 1
Kita menguji no 4
pa1Vpa4Vpb1Vpb2
a a
bb
A
U1
0,8
2
U2
1
0,5
U3
1,3
3
U4
1,4
1
U5
1,4
2
U6
1,6
3
U7
1,3
1
A
U1
*,1.2 1.5,
*
U2
*,1.2 *,1.
5
U3
1.2,1. 1.5,
4
*
U4
1.4,1. *,1.
5
5
U5
1.4,1. 1.5,
5
*
U6
1.5,* 1.5,
*
U7
1.2,1. *,1.
4
5
dd
1
0
0
1
0
1
1
1
0
0
1
0
1
1
Algoritma MD-Heuristic
Langkah- langkah :
1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula
2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak

3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom
tersebut yang punya angka 1
4. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP
A*
Pa1
Pa2
Pa3
Pa4
Pb1
Pb2
Pb3
D*
(U1,U2)
(U1, U3)
(U1, U5)
(U4, U2)
(U4, U3)
(U4, U5)
(U6, U2)
(U6, U3)
(U6, U5)
(U7, U2)
(U7, U3)
(U7, U5)
New
Jumlah
angka 1

Perbedaan Data Mining Dengan KDD

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perbedaan Data Mining Dengan KDD

Diunggah oleh

Hak Cipta:

Format Tersedia

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :

Knowledge Discovery In Database

Association Rule Algoritma : APRIORI :

C --- D { s = 50%, C = 100% }

Program Yang digunakan :

Proses Rought Set :

Dengan menentukan Kondisi pada atribut yang sama

LHS Lenght= Jumlah atribut pada bagian if

2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak

Anda mungkin juga menyukai