Data Mining
References :
Dr. Matthew North, Data Mining for the Masses, Amazon.com, 2012
1 Association Rule
a. Apriori Method
b. FP-Growth
2. Generate Strong Association Rule dari frequent item sets (Item yang sering muncul):
Secara definisi, frequent item sets yang memenuhi minimum support dan minimum
confidence
Algoritma Apriori
• Algoritma apriori diberikan oleh R. Agrawal dan R. Srikant pada tahun 1994 untuk menemukan
frequent itemset dalam sebuah dataset untuk aturan asosiasi boolean.
• Algoritma ini menerapkan pendekatan iteratif atau pencarian berdasarkan level di mana k-
frequent itemset digunakan untuk menemukan k+1 itemset.
• Itemset sering terjadi jika support tidak kurang dari "minimum support threshold".
• Minimum support dapat kita tentukan sendiri. Anda dapat memilih minimum support untuk
memutuskan bahwa itemset itu frequent/sering atau tidak.
• The support that if a person buys Eggs, also buy Cold Drink:
2 / 5 = 0.4 = 40%
Apa itu Relative Support
• jumlah relatif transaksi yang berisi itemset relatif terhadap total transaksi.
Confidence bahwa jika seseorang membeli Teh, juga membeli Kue : 1/3 = 0,33 = 33%
Mengapa 1? karena Teh dan Kue terjadi bersamaan hanya dalam 1 transaksi
Mengapa 3? karena ada tiga transaksi di mana terdapat Teh
Confidence bahwa jika seseorang membeli Susu, juga membeli Teh : 0 / 2 = 0 = 0%
Mengapa 0? karena Susu dan Teh tidak terjadi bersamaan dalam transaksi apa pun
Mengapa 2? karena ada 2 transaksi dimana terdapat Milk
Algoritma Apriori
• Minimum Support 2
5 Coffee Tea 3
Eggs 3
Cold Drink 3
Candidate Itemset
Coffee 1
Cake 1
Step 1 :
Calculate the support/frequency of all
items
Candidate 1 Itemset
Items bought Support Frequent 1 Itemset
Milk 2
Items bought Support
Tea 3
Milk 2
Eggs 3
Tea 3
Cold Drink 3
Eggs 3
Coffee 1
Cold Drink 3
Cake 1
5 Coffee
Candidate 2 Itemset
Items bought Support Frequent 2 Itemset
Milk, Tea 2
Items bought Support
Milk, Eggs 1
Milk, Tea 2
Milk, Cold Drink 1
Eggs,Tea 2
Eggs,Tea 2
Eggs, Cold Drink 3
Eggs, Cold Drink 3
Tea, Cold Drink 2
Tea, Cold Drink 2
Transaction ID Items bought
Frequent 3 Itemset 1 Milk, Tea, Cake,
Eggs,Tea 2
Frequent 3 Itemset
Eggs, Cold Drink 3
Items bought Support
Tea, Cold Drink 2
Eggs,Tea, Cold Drink 2
• Periksa apakah semua himpunan bagian (subsets) dari itemset ini frequent atau tidak. Jika
tidak, hapus itemset itu.
• Subset dari {A, B, C} adalah {A, B}, {A, C}, {B, C}, jika salah satu subset tidak frequent maka
itemset {A, B, C} harus di hapus.
Prinsip Pruning Principle: Jika ada itemset yang jarang terjadi, supersetnya tidak
boleh dibuat/diuji!
Transaction ID Items bought
Frequent 3 Itemset 1 Milk, Tea, Cake,
• Step 1: self-joining Fk
• Step 2: prunning
Items bought Support
Generating Association Rules Eggs,Tea, Cold Drink 2
5 Coffee
• Dennis A.C, Donny A. Baskoro,Lia A., I Wayan S. W., Belajar Data Mining dengan RapidMiner.
• Michael J.A. Berry, Gordon S. Linoff, Data Mining Techniques For Marketing, Sales and Customer Relationship Management, 2 nd Ed, Wiley, 2004
• Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining Practical Machine Learning Tools and Techniques Third Edition, Elsevier, 2011
• Dr. Suyanto, Data Mining untuk Klasifikasi Data dan Klasterisasi Data, Edisi Revisi, Penerbit Informatika, 2018
• Eko Prasetyo, Data Mining “Mengolah data menjadi informasi menggunakan Matlab”, Andi, 2014