(CIK415)
DISUSUN OLEH
NOVIANDI, S.Kom, M.Kom
Tujuan
Teori
Pendahuluan
Analisis asosiasi (association analysis) berguna untuk mengungkap hubungan yang
menarik yang tersembunyi dalam dataset besar. Hubungan yang terungkap tersebut
dapat direpresentasikan dalam bentuk aturan asosiasi (association rules) atau
himpunan item yang sering muncul (sets of frequent items).
Sebagai contoh, berikut ini merupakan aturan yang dapat di-ekstrak dari dataset
yang transaksi belanja (market basket transaction) pada Tabel 7.1.
{Diapers} {Beer}
Aturan di atas menunjukkan terdapat hubungan yang kuat antara penjualan diapers
dengan beer, karena banyak pembeli yang membeli diapers juga membeli beer.
Selain data transaksi belanja, analisis asosiasi juga dapat diterapkan pada domain
masalah lainnya seperti bioinformatika, diagnosis medis, Web Mining, dan analisis
data scientifik. Meskipun teknik-teknik yang disajikan di sini secara umum dapat
Universitas Esa Unggul
http://esaunggul.ac.id 1 / 15
diterapkan ke berbagai dataset yang lebih luas, namun untuk mengilustasikan
analisis asosiasi dalam modul ini hanya menggunakan data transaksi belanja.
𝜎(𝑋 𝖴 𝑌)
𝑆𝑢𝑝𝑝𝑜𝑟𝑡, 𝑠 (𝑋 → 𝑌) = ;
𝑁
𝜎(𝑋 𝖴 𝑌)
𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒, 𝑐 (𝑋 → 𝑌) =
𝑋
Contoh 7.1:
Perhatikan aturan {Milk, Diapers} {Beer}. Karena support count untuk {Milk,
Diapers, Beer} adalah 2 dan jumlah total transaksi adalah 5, maka support
bagi aturan tersebut adalah 2/5 = 0.4. Confidence didapat dengan membagi
support count untuk {Milk, Diapers, Beer} dengan support count untuk {Milk,
Diapers}, yaitu 2/3 = 0.67
Jika dilakukan secara brute-force, maka total aturan yang mungkin di-ekstrak
dari dataset yang berisi d item adalah R= 3d – 2d+1 + 1, sehingga pendekatan
brute-force tidak mungkin dilakukan. Strategi yang sering diambil untuk
menyelesaikan permasalahan association rule discovery adalah dengan
memecah masalah tersebut ke dalam dua pekerjaan utama, yaitu:
1.1. Pembangkitan Frequent Itemset, bertujuan untuk mencari semua
itemset yang memenuhi nilai ambang minsup. Itemset ini disebut
frequent itemset.
1.2. Pembangkitan Aturan, bertujuan untuk meng-ekstrak seluruh aturan
yang memiliki confidence tinggi dari frequent itemset yang telah
ditemukan pada pekerjaan sebelumnya. Aturan yang memiliki
confidence tinggi disebut strong rules.
Dalam Gambar 7.2 terlihat jika candidate itemset terdapat dalam transaksi, maka
nilai support count-nya akan dinaikkan. Sebagai contoh, support untuk {Bread, Milk}
dinaikkan tiga kali karena itemset tersebut terkandung dalam transaksi 1, 4 dan 5.
Pendekatan ini sangat mahal karena memerlukan pembandingan sebesar O(NMw),
dimana N adalah jumlah transaksi, M = 2k-1 adalah jumlah candidate itemset, dan w
adalah transaction width maksimum.
Contoh 7.2:
Pada struktur lattice di Gambar 7.3 misal {c,d,e} adalah frequent itemset, maka
seluruh subset dari {c,d,e}- yaitu node yang abu-abu, juga harus sering muncul
(frequent). Sebaliknya jika itemset {a,b} jarang muncul (infrequent), maka seluruh
superset-nya juga harus jarang muncul sehingga dapat dipangkas (Gambar 7.4).
Gambar 7.3 Jika {c, d, e} frequent maka seluruh subset-nya juga harus frequent
Gambar 7.4 Jika {a, b} infrequent maka seluruh supersetnya juga infrequent
Dua dari enam candidate 2-itemset yaitu {Beer, Bread} dan {Beer, Milk} ternyata
setelah dihitung nilai support-nya ternyata infrequent. Karena yang tersisa hanya
empat kandidat, maka digunakan untuk membangkitkan candidate 3-itemset.
Metode Brute-Force
Metode Brute-Force mempertimbangkan semua k-itemset sebagai kandidat potensial
dan kemudian menerapkan pemangkasan kandidat untuk menghilangkan kandidat
yang tidak perlu (Gambar 7.6). Jumlah candidate itemset yang dibangkitkan pada
level k adalah 𝑑 dimana d adalah total jumlah item. Meskipun metode ini terlihat