Anda di halaman 1dari 9

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :

Data Mining
1. Merupakan salah Satu step KDD

Knowledge Discovery In Database


Tahapan Dalam :
1. Data Selection ( Pemilihan Data )
2. Data Cleaning ( Pebersihan Data ),
merupakan data Optional ( Pilihan )
3. Adanya Proses data Transformasi
( Perubhan nilai data ), merupakan
data Optional ( Pilihan )
Tahapan 1,2,3 merupakan data
Procesing
4. Data Mining
5. Eavaluation of Knowledge
6. Representation of Knowladge
1. If ... Then
2. Grapht ( 2D 3D )
3. Hierachy
4. Decision Tree

Ket :
Data Mining :
Proses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di
dalam database berukuran besar.
DB
Data
Mining

Standart

mathematika

Knowlage

Teknik AI
Neural Network
Fuzzy Logic
Algoritma Genetik
Rhouge Set
Soft Set

Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan
pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan
persentasi )
Rule Assosiation :
Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di
dalam database

Bentuk umum :
X --------- Y [ Support, Confidence ]
Nilai yang digunakan untuk mengevaluasi rule asosiasi
Prinsip Concept :
1. Support x --- y = X U Y
N --- Jumlah Transaksi
Support y --- x = Y U X
N --- Jumlah Transaksi
Ket : Support x - -- y = Suport y --- x
2. Confidence x --- y = Support x --- y
Support x
Confidence y --- x = Support y --- x
Support y
Ket : Confidence x --- y # Confidence y --- x
3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >=
Minimum Support Dan Confidence >= Minimum Confidence.
Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh
DOMAIN EXPERT.
X ---- Y [ Support, Confidence ]
Contoh :
1. Nilai minimum Support = 50%
Nilai Minimum Confidence = 50%
Transaction
2000
1000
4000
5000

Item Bought
A,B,C
A,C
A,D
B,E, F

Jawab :
Support x --- y = X U Y = 2 = 0,5 = 50 %
N
4
Support y --- x = Y U X = 2 = 0,5 = 50 %
N
4
Confidence x --- y = Support x --- y = 2 /4 = 2/3 = 0,666 = 66,7 %
Support x
3/4
Confidence y --- x = Support y --- x = 2 /4

= 2/2 = 1 = 100 %

Support y

2/4

Jadi : Maka
A ---- C Support { 50%, 66,6% } merupakan Interisting
C ---- A Support { 50%,100% }

Association Rule Algoritma : APRIORI :


Input : Database Transaksi
Output : Assosiation Rule
Proses :
1. Menentukan FREQUENT ITEMSETS
Item atau set of item yang mempunyai support >= minimum support.
Catatan :
1. Subset dari Frequent item set harus merupakan frequent item set.
Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent
item set.
2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.
2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan
RuleAsosiasi.
Contoh :
Transaction
Item Bought
2000
A,B,C
1000
A,C
4000
A,D
5000
B,E, F
1. Menentukan Frequent Item Set
a. 1- Item Set
Item
Support
A
= 75%
Merupakan Foundensial
B
2/4 = 50%
Item Set
C
2/4 = 50%
D
= 25%
E
= 25%
F
= 25%
b.

2-Item Set
Item
Support
A,B
1/4 = 25%
A,C
2/4 = 50%
Merupakan Foundensial Item Set
B,C
1/4 = 25%
2. Menggunakan Fourent Item Set ( mulai dari item set ).
A --- C { s = 50%, C = 66,7% }

C --- D { s = 50%, C = 100% }


A --- C dan C --- A merupakan Interisting Assosiation Rules

Program Yang digunakan :


Untuk Asosiation : XL Miner, WEKA, dan TANAGRA
Untuk Rought Set : Roseta, Rose2, dan Rsfs
ROUGHT SET TEORY DAN DATA MINING
DB
Rought Set

Knowlage
IF --- Then

Proses Rought Set :


1. Decision System
2. Equivalence Class
3. Discervnibility Matrix / Discernibility Matrix Modulo D
4. Reduction
5. Generate Rules ( Knowladge => IF .. Then ...
Penyajian data Dalam Rought Set ( RS ) :
1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )
IS = { U,A },
ket : U = object,
A = Kondisional Atribut
2. Descision System ( DS ),
DS = { U, (A,C)},
ket : U = objek,
A = kondisional Atribut ( A1, A2, ... An-1 )
C = Decision Atribut ( An )
Atribut dalam RS :
1. Condisional Atribut
2. Decision Atribut
Atribut dalam Databese/information system :
1. Atribut Key
2. Atribut non Key
Rought set :
1. Decision System
2. Equivalen Class

Dengan menentukan Kondisi pada atribut yang sama


Soal :
Pada Slide Rought Set, Hal : 9 , table
Penyelesaian :
1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):
E1, E5, E6
E2, E99
E3
E4, E7, E100
E8, E9, E10
2. Menentukan Equevalen Yang Terbentuk
Studies ( A )
Education ( B )
Work ( C )
Ec1
Poor
SMU
Poor
Ec2
Poor
SMU
Good
Ec3
Moderat
SMU
Poor
Ec4
Moderat
Diploma
Poor
Ec5,1
Good
Msc
Good
Ec5,2
Good
Msc
Good
3. Discernibilyty Matrix
Dengan melihat kondisi yang berbeda
Ec1
Ec2
Ec3
Ec4
Ec5
Ec1
X
C
A
AB
AB
C
Ec2
C
X
AC
AB
AB
C
Ec3
A
AC
X
B
AB
C
Ec4
AB
AB
B
X
AB
C
C
Ec5
AB
AB
AB
AB
X
C
C
C
Mis : i = 1 dan j = 4
Ec1
Ec2
Ec1
X
Study
dan
Educa
tion
Ec2
Study X
dan
Educa
tion
Discernibility Matrix Modulo D
Dengan melihat perbedaan pada keputusan dan kondisi yang berbeda
Ec1
Ec2
Ec3
Ec4
Ec5

Income
None
Low
Low
Low
Medium
Hight

Ec1

Ec2

Ec3

Ec4

AB

Ec5

AB
C

AB

AB
C
AB

AB
C
AB

X
C
AB
AB
AB
X
C
C

4. Reduction
1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :
a. Cara pencarian dalam bentuk booleean :
Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan )
Untuk Nilai : AA = A
A + AB = A ( 1+B ), dimana ( 1+B ) = 1
=A
Menentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang
sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):
1. C ^ A ^( A v B ) ^ ( A v B v C )
Cara menyederhanakan :
C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB
* BC
= CA * A * AB * AC * BA * B * BC
= C ( 1 +A)
2. C ^ ( A v B )
Cara menyederhanakan :
C * ( A + B ) = CA + CB
=
3. A ^ ( A v B v C )
Cara menyederhakan :
A ^ ( A v B v C ) = AA + AB + AC
= A + AB + AC
= A ( 1 + B ) + AC
= A + AC
= A( 1 + C ) = A
4. ( A v B ) ^ ( A v B v C )
Cara menyederhanakan :
5. ( A v B v C ) ^ ( A v B )
Cara menyederhanakan :
Jadi : Hasil Reduction :
1. {A,C} = { Studies, Works }
2. {B,C} = { Education, Works }

3. { A } = { Studies }
4. { B } = { Education }
5. Generade Rules
Dengan mengunkan atribut Reduct
a. { Studies, Work }
1. IF Studies = Poor and Work = Poor, Then Income = Low
2. IF Studies = Poor and Work = Good, Then Income = Low
3. IF Studies = Moderate and Work = Poor, Then Income = Low
4. IF Studies = Good and Work = Good, Then Income = Medium Or Income
= Good
b. { Education, Work }
1. IF Education = Smu and Work = Poor, Then Income = None
2. IF Education = Smu and Work = Good, Then Income = Low
3. IF Education = Diploma and Work = Poor, Then Income = Low
4. IF Education = Msc and Work = Good, Then Income = Medium Or Income
= Hight
c. { Studies }
1. IF Student = Poor Then Income = None Or Income = Low
2. IF Student = Moderate Then Income = Low
3. IF Student = Good Then Income = Medium Or Income = Hight
d. { Education }
1. IF Education = Smu then Income = None Or Income = Low
2. IF Education = Diploma then Income = Low
3. IF Education = Msc then Income = Medium Or Income = Hight
Jadi : Terdapat 14 pengetahuan.......

Tugas :
1. Analisa Hasil yang di peroleh oleh Roseta :
LHS Support Jumlah object yang memenuhi bagian if
RHS Supoort Jumlah object yang memenuhi bagian then
RHS support
RHS Accuracy LHS Support
LHS support
LHS Coverage= Jumlah object dalam DS
RHS support
RHS Coverage= Jumlah object yg memenuhi bagianthen
RHS support
RHS Stability= Jumlah object yg memenuhi rule

LHS Lenght= Jumlah atribut pada bagian if


RHS Lenght= Jumlah atribut pada bagian then
2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau
tidak dengan Discrinibility Matrix Modulo D?
Data Clening
Incomplete complete
Caranya :
1. Remove incomplete data
2. Mean and mode Fill
Mean untuk nilai angka(continius)
Modus untuk nilai categorical
Data transformation
A = (pa2Vpa3Vpa4Vpb2)(pa2Vpa3Vpb2Vpb3)(pa3Vpb1Vpb2Vpb3)
(pa1Vpa4Vpb1Vpb2)
Sistem akan mengambil No 1
Kita menguji no 4
pa1Vpa4Vpb1Vpb2
a a
bb
A
U1
0,8
2
U2
1
0,5
U3
1,3
3
U4
1,4
1
U5
1,4
2
U6
1,6
3
U7
1,3
1
A
U1
*,1.2 1.5,
*
U2
*,1.2 *,1.
5
U3
1.2,1. 1.5,
4
*
U4
1.4,1. *,1.
5
5
U5
1.4,1. 1.5,
5
*
U6
1.5,* 1.5,
*
U7
1.2,1. *,1.
4
5

dd
1
0
0
1
0
1
1
1
0
0
1
0
1
1

Algoritma MD-Heuristic
Langkah- langkah :
1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula

2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak


3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom
tersebut yang punya angka 1
4. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP
A*

Pa1

Pa2

Pa3

Pa4

Pb1

Pb2

Pb3

D*

(U1,U2)

(U1, U3)

(U1, U5)

(U4, U2)

(U4, U3)

(U4, U5)

(U6, U2)

(U6, U3)

(U6, U5)

(U7, U2)

(U7, U3)

(U7, U5)

New

Jumlah
angka 1

Anda mungkin juga menyukai