Pendahuluan
Analisis asosiasi (association analysis) berguna untuk mengungkap
hubungan yang menarik yang tersembunyi dalam dataset besar. Hubungan yang
terungkap tersebut dapat direpresentasikan dalam bentuk aturan asosiasi
(association rules) atau himpunan item yang sering muncul (sets of frequent
items).
Tabel 5.1. Contoh transaksi belanja
TID Item
1 {Bread, Milk}
2 {Bread, Diapers, Beer, Eggs}
3 {Milk, Diapers, Beer, Cola}
4 {Bread, Milk, Diapers, Beer}
5 {Bread, Milk, Diapers, Cola}
Sebagai contoh, berikut ini merupakan aturan yang dapat di-ekstrak dari
dataset yang transaksi belanja (market basket transaction) pada Tabel 5.1.
{Diapers} {Beer}
Aturan di atas menunjukkan terdapat hubungan yang kuat antara penjualan
diapers dengan beer, karena banyak pembeli yang membeli diapers juga membeli
beer.
Selain data transaksi belanja, analisis asosiasi juga dapat diterapkan pada
domain masalah lainnya seperti bioinformatika, diagnosis medis, Web Mining,
dan analisis data scientifik. Meskipun teknik-teknik yang disajikan di sini secara
umum dapat diterapkan ke berbagai dataset yang lebih luas, namun untuk
mengilustasikan analisis asosiasi dalam modul ini hanya menggunakan data
transaksi belanja.
Gambar 5.4. Jika {a,b} infrequent maka seluruh supersetnya juga infrequent.
Definisi 5.2: (Monotonicity Property).
Ditetapkan I adalah sebuah set item, dan J=2I adalah pangkat dari I. Ukuran f
bersifat monoton (atau upward closed) jika
X, Y J : (X Y) f (X) f (Y) ,
yang bermakna jika X adalah subset dari Y, maka f(X) harus tidak melebihi f(Y).
Sebaliknya f bersifat anti-monoton (atau downward closed) jika
X, Y J : (X Y) f (Y) f (X) ,
yang bermakna jika X adalah subset dari Y, maka f(Y) harus tidak melebihi f(X).
Fk-1 x F1 Method
Metode alternatif untuk membangkitkan kandidat adalah dengan memperluas
masing-masing frequent (k-1)itemset dengan frequent itemset lainnya. Gambar
5.7 merupakan ilustrasi bagaimana frequent 2-itemset seperti {Beer, Diaper}
dapat ditambah dengan frequent item seperti Bread untuk menghasilkan
frequent 3-itemset { Beer, Diaper, Bread}. Metode ini akan menghasilkan
O( Fk 1 F1 ) candidate k-itemset, dimana F j adalah jumlah frequent j-
( )
itemset. Kompleksitas keseluruhan tahap ini adalah O k k Fk 1 F1 .