Anda di halaman 1dari 19

SUMMARY

ASSOCIATION ANALYSIS BASIC CONCEPS and ALGORITHM

Oleh : Putu Asry Yundari 0908605041

Program Studi Teknik Informatika Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Udayana 2012

ASSOCIATION RULE MINING Pada bagisn ini akan dijelaskan tentang metodelogi yang dikenal dengan Association analysis dimana ini berguna untuk menemukan hubungan yang tersembunyi dari data set yang besar. Hubungan ini dapat direpresentasikan sebagai Association Rule sebagai contoh pada Gambar 6.1* pada gambar tersebut dapat dilihat association rules yang didapat dari kumpulan data tersebut misalnya: {Diaper}{Beer} 6.1 Problem Definition Binary Representation Data transaksi dapat direpresentasikan dalam format biner dimana setiap baris sesuai dengan transaksi dan setiap kolom sesuai dengan item barang. Item dapat diperlakukan sebagai variable biner yang mana bernilai 1 jika barangnya ada dan sebaliknya. Itemset and Support Count Dimana itemset adalah kumpulan dari satu atau lebih item. Misalnya {Beer, Diaper, Milk} ini adalah contoh dari 3-itemset. Bagian yang penting dari itemset adalah support count yaitu dimana ini menunjukkan jumlah (frekuensi) dari transaksi yang mengandung item yang khusus. Misalnya {Beer, Diaper, Milk} jumlahnya adalah 2. Association Rule Pernyataan implikasi dari form XY, dimana X dan Y adalah Item. Jumlah dari Association Rule dapat mengukur Support dan Confident. ( ) ( )

Why use Support and Confident? Support sangat penting karena rule yang mempunyai support sangat rendah dapat simply occur dengan chance. Support digunakan untuk mengelimenasi rule uninteresting. Disisi lain confident mengukur kehandalah dari inference made dengan rule. Hasil dari association analysis dipresentasikan dengan caution.

Formulation of Association Rule Mining Problem association rule mining dapar diformulasikan seperti dibawah ini Definition 6.1 (Association Rule Discovery) Diberikan suatu transaksi T, akhir dari association rule ini adalah mencari semua rule yang dimiliki support minsup threshold dan confident minconf threshold. Dimana minsup dan mincof

sesuai dengan support dan confident threshold. Pendekatan Brute-force untuk mining association rule adalah semua daftar association rule yang mungkin selanjutnya menghitung support dan confident untuk setiap. Untuk menghindari perhitungan kinerja yang tidak berguna, akan sangat berguna untuk memotong aturan awal tanpa harus menghitung nilai dari support dan confident. Langkah awal untuk memperbaiki kinerja association rule mining algorithm adalah dengan memisahkan support dan confident. Strategi umum yang diadopsi dari banyak algoritma association rule adalah menguraikan masalah kedalam dua bub-tugas yaitu: 1. Frequent Itemset Generation tujuannya adalah menemukan semua itemset yang memenuhi minsup threshold. 2. Rule Generation tujuannya adalah untuk mengekstrak semua highconfident rule frequent itemset yang sering ditemukan pada langkah sebelumnya. 6.2 Frequent Itemset Generation Untuk mencari frequent itemset dengan pendekatan brute-force adalah dengan menentukan jumlah support untuk setiap candidate itemset dalam struktur lattice. Selajutnya jumlah dari support setiap candidate discanning pada database seperti pada Gambar 6.2*. Ada beberapa cara untuk mengurangi kompleksitas computational dari frequent itemset generation: 1. Mengurangi jumlah dari candidate itemset (M), menggunakan teknik pruning untuk menguranginya.

2. Mengurangi jumlah dari comparisons (NM), menggunakan struktur data efficient untuk menyimpan candidate atau transaksi 6.2.1 The Apriori Principle Theorem Apriori principle if an itemset is frequent, then all of its subsets must also be frequent. Apriori principle memiliki hak untuk mengikuti property dari support measures yaitu: ( ) ( ) ( )

Support dari itemset tidak pernah melebihi support dari subsets. Ini dikenal dengan anti-monotone property dari support. Prinsip apriori dapat dilustrasikan seperti Gambar 6.3*

6.2.2 Frequent Itemset Generation in the Apriori Algorithm Apriori adalah association rule mining algorithm pertama menggunakan support berdasarkan pruning untuk mengontrol sistematis pertumbuhan eksponensial dari candidate item. Metodenya adalah: Anggap k=1 Generate frequent itemsets dari jarak 1 Ulangi hingga tidak ada identifikasi baru dari frequent itemsets Generate jarak (k+1) candidate subsets dari jarak k frequent itemsets Prune candidate itemsets berisi subsets dari jarak k infrequent Jumlahkan support dari setiap candidate pada scanning database Eliminasi candidate yang tidak frequent, hingga hanya meninggalkan frequent saja. Dapat dilustrasikan pada gambar 6.5* 6.2.3 Candidate Generation and Pruning

Candidate Generation

operasi ini menghasilkan candidate k baru

berdasarkan pada frequent (k-1) itemset yang ditemukan pada iterasi sebelumnya. Candidate Pruning operasi ini menghilangkan beberapa candidate k itemset menggunakan support berdasarkan stategi pruning Pada prinsispnya bayak cara yang dapat digunakan untuk menghasilkan candidate item, slah satunya adalah : Harus menghindari menghasilkan banyak candidate Harus memastikan candidate item telah selesai yaitu tidak ada item set yang meninggalkan prosedur candidate generation Tidak menghasilkan candidate itemset yang sama lebih dari sekali

Beberapa prosedur candidate generation yang mencakup fungsi apriori-gen Metode Brute-Force menganggap setiap k item sebagai candidate potensial dan menerapkan langkah pruning untuk menghapus candidate yang tidak diperlukan. Kompleksitas keseluruhan dari metode ini adalah

( ))

Metode Fk-1

F1 metode alternative untuk candidate generation untuk | || |

memperpanjang setiap frequent (k-1)-itemset dengan frequent item lainnya. Kompleksitas dari metode ini adalah Metode

prosedur candidate generation dari fungsi apriori-gen yang

menggabungkan bagian dari frequent (k-1) itemset hanya jika item pertama (k-2) adalah identic. 6.2.4 Support Counting Adalah proses menentukan frekuensi terjadinya untuk setiap candidate itemset yang bertahan pada candidate pruning step dari fungsi apriori-gen. Untuk melakukan ini hal pertama yang dilakukan adalah scanning database dari data transaksi untuk menentukan support dari setiap candidate itemset. Untuk

mengurangi jumlah perbandingan, tempat penyimpanan candidate dalam struktur hash. Seperti dapat dijelaskan dari Gambar 6.9* Dari gambar tesebut diberikan * + harus dibangun dengan 3-itemset

dan hsrus terkandung t item 1, 2, atau 3. Hal ini tidak mungkin membangun dengan item 5 atau 6 karena hanya ada 2 item yang lebih besar dan sama dengan item tersebut. Pertama bagi levelnya menjadi level 1,2 dan 3. Pada level 1 untuk mengetahui jumlah cara yang dapat digunakan untuk menentukan item pertama dari 3-itemset yang diketahui. Level 2 mewakili sejumlah cara untuk memilih item yang kedua. Level 3 mewakili set yang lengkap dari 3-itemset yang terkandung dalam t. Misal dari level 1 telah didapat 1 [2 3 4 5 6] maka Level 2 didapat 1 2 [3 5 6], 1 3 [5 6], dan 1 5 [6] selanjutnya pada level 3 didapat [123, 125, 126], [135,136], dan [156]. Support Counting Using a Hash Tree Dalam algoritma Apriori, candidate item set dipisahkan menjadi bucket dan disimpan dalam hash tree. Pada gambar 6.11 menunjukkan hash tree. Setiap internal node dari tree menggunakan fungsi hash yaitu ( ) untuk

menentukan cabang dari current node menjadi pengikut selanjutnya. Contoh item 1, 4 dan 7 adalah hash untuk disamakan cabangnyakarena mereka mempunyai sisa yang sma setelah dilakukan mod 3. Semua candidate item set disimpan dalam leaf none pada hash tree. Hash tree yang ditunjukkan pada gambar 6.11 mempunyai 15 candidate 3-itemset dan diuraikan menjadi 9 leaf node. 6.2.5 Computational Complexity Computational complexity dari algoritma apriori dapat dibuat dari beberapa factor dibawah ini : Support Threshold menurunkan hasil support threshold dari frequent item lainnya. Ini dapat menaikan jumlah dari candidate dan jarak maksimal dari frequent itemsets.

Number of Items (Dimensionality) ruang lainnya diperlukan untuk menyimpan jumlah support dari setiap item. Jika jumlah dari frequent item naik juga maka kedua perhitungan dan cost I/O dapat dinaikkan juga. Number of Transaction karena apriori dibuat multiple passes, run time dari algoritma dapat dinaikkan dengan jumlah dari transaksi. Average Transaction Width transaction width dinaikkan dengan kepadatan dataset. Ini dapat menaikan jarak maksimal dari frequent itemset dan traversals dari hash tree (jumlah subset pada transaksi dinaikkan dengan lebarnya). Detail analisis dari waktu kompleksitas dari algoritma apriori adalah : Generation of Frequent 1-itemset untuk setiap transaksi dibutuhkan update jumlah support dari semua item yang ada pada data transaksi. Asumsikan w adalah rata-rata transaction width operasi ini memerlukan O(Nw), dimana N adalah jumlah total dari transaksi. Candidate Generation untuk menghasilkan candidate k-itemset, bagian dari frequent (k-1)-itemset digabung untuk menentukan apakah memiliki (k-2) yang sama. Jadi semua jumlah penggabungan item set adalah ( )| | ( )| | | |) karena

Cost untuk population candidate item pada hash tree adalah ( mempunyai maksimum depth dari tree adalah k.

| | Support Counting setiap transaksi dari jarak |t| menghasilkan ( ) itemset dari ukuran k. ini juga merupakan jumlah efektif dari hash tree untuk setiap transaksi. Cost support countingnya adalah transaction width dan pada hash tree. ( ( ) ). Dimana w adalah maksimum

adalah update dari jumlah support dari candidate k-item

6.3 Rule Generation Cara mengekstrak association rule yang efisien dari frequent item. Setiap frequent k-itemset, Y, dapat menghasilkan association rules. Association rule dapat

diekstraksi dengan mempartisi y membagi 2 himpunan bagian yang tidak kosong {}. 6.3.1 Confidence based Pruning Confidence tidak banyak memiliki monotone property. Theorem dari Confidence ini adalah if a rule X Y X does not satisfy the confidence threshold, then any rule X YX, where X is a subset of X, must not satisfy the confidence threshold as well 6.3.2 Rule Generation in Algorithm Apriori Algoritma Apriori menggunakan pendekatan level-wise untuk menghasilkan association rule, dimana setiap level yang sesuai untuk jumlah dari item termasuk untuk rule consequent. Awalnya, high-confidence rules hanya mempunyai satu rule consequent yang diekstrak. Kemudian rule ini yang digunakan untuk membuat association rule yang baru. Jika banyak node yang mempunyai lattice yang low confidence maka menurut Theorem 6.2 seluruh subgraf merentang ke node yang dapat menjadi pruned immediately. Theorem 6.2 ditunjukkan pada Table 6.1 * 6.4 Compact Representation of Frequent Itemsets Pada prakteknya, frequent item menghasilkan data transaksi yang sangat besar. Ini berguna untuk mengidentifikasi wakil set yang kecil dari itemset dimana frequent itemset lainnya berasal. 6.4.1 Maximal Frequent Itemsets Adalah frequent itemset yang tidak memeiliki superset terdekat dari frequent. Maximal Frequent Itemset memberikan gambaran yang jelas untuk data set yang diproduksi sangat lama. Namun pendekatan ini hanya dapat digunakan jika

algoritma efficient eksis untuk menemukan maximal frequent itemset tanpa menghitung subset lainya. Meskipun memberikan gambaran yang baik maximal frequent itemsets tidak mengandung support informasi dari suset mereka sendiri. Contohnya support dari maximal frequent itemset {a,c,e}, {a,d}, dan {b,c,d,e} tidak memberikan petunjuk yang banyak tentang support dari subset mereka. 6.4.2 Closed Frequent Itemsets Memberikan gambaran minimal dari itemset tanpa menghilangkan support informasinya. Definition 6.4 Closed Item adalah sebuah itemset X ditutup jika tidak ada superset yang memiliki jumlah support yang sama. Dengan kata lain, X tidak ditutup jika paling tidak salah satu superset terdekat memeiliki jumlah yang sama dengan X. Gambar 6.17* menunjukkan contoh dari closed frequent itemsets. Definition 6.5 Closed Frequent Itemsets adalah itemset adalah closed frequent item jika ditutup dan support lebih besar atau sama dengan minsup. 6.5 Alternative Method for Generating Frequent Item Apriori adalah salah satu algoritma paling awal yang berhasil membahas kombinatorial explosion dari frequent itemset generation. Beberapa metode alternative yang telah dikembangkan untuk mengatasi keterbatasan dari ini dan memperbaiki effisiensi dari algoritma apriori. Berikut ini adalah diskripsi highlevel dari metode ini : Traversal of Itemsets Lattice pencarian untuk itemset sering menjadi konsep yang dipandang sebagai tranversal dari itemset lattice. Stategi pencarian yang digunakan oleh algoritma untuk menentukan bagaimana itemset lattice menunjukkan proses dari frequent itemset generation. General to Specific vs Specific to General algoritma Apriori menggunakan strategi pencarian general to specific dimana bagian dari frequent (k-1)-itemsets digabungkan untuk menghasilkan candidate k-items. Strategi pencarian General to

specific adalah efektif, menampilkan maximum length dari frequent itemset yang tidak terlalu panjang. Strategi pencarian Specific to general alternative untuk melihat frequent item pertama sebelum mencari frequent item yang lebih umum. Strategi ini berguna untuk menemukan maksimal frequent item dalam transaksi dense, dimana batas dari frequent item adalah terletak dibawah dengat dengan lattice. Gambar 6.19* menunjukkan General to specific dan Specific to Gerenal. Equivalence Classes cara lain untuk envision transversal adalah pertama partisi lattice kedalam kelompok yang menguraikan node. Algoritma pencarian frequent itemsets generation dari frequent itemset dalam keterangan class ekuivalen pertama sebelum memindahkan klas ekuivalen lainnya. Equivalen class juga dapat menegaskan menurut label prefix atau suffix dari itemset. Gambar 6.20* menunjukkan Equivalen Class. Breadth-first vs Depth-first algoritma apriori yang melewati cara breadth first ditunjukan pada gambar 6.21(a)*. Hal pertama yang dilakukan adalah menemukan semua semua frequent 1-itemset, selanjutnya 2-itemset dan begitu seterusnya sampai tiidak ada itemset baru yang dihasilkan. Itemset lattice juga dapat melewati cara depth first seperti yang ditunjukan pada Gambar 6.21(b)*. Pendekatan ini sering digunakan oleh algoritma designed untuk mencari maximal frequent item. Pendekatan ini memungkinkan batas frequent itemset menjadi dteksi yang lebih cepat dari Breadth first. Representation of Transaction of Data set ada banyak cara untuk merepresentasikan transaksi data set. Pemilihan representasi dapat sebuah I/O yang timbul ketika menghitung support dari candidate itemsets. Gambar 6.23* menunjukan perbedaan dari keranjang belanja transaksi. Gambar sebelah kiri desebut dengan horizontal data layout yang mana diadopsi oleh banyak algoritma association rule mining dan sebelah kanan disebut vertical data layout. Support dari setiap candidate itemset adalah memperoleh TID-list dari subset items.

6.6 FP-Growth Algorithm 6.6.1 FP Tree Representation FP tree adalah kompres representasi dari input data. Hal ini dibangun dengan membaca data dan menetapkan transaksi pada suatu waktu dan memetakannya. Sperti transaksi berbeda yang dapat mempunyai beberapa kesamaan pada item yang ini mungkin akan tumpang tindih. Jika ukuran FP tree lebih kecil untuk memori utama ini akan memungkinkan untuk mengekstrak frequent itemset secara langsung dari struktur memori untuk membuat mengulang dara store yang lewat dari disk. Ukuran dari FP tree biasanya lebih kecil dari ukuran komprensi data karena banyak data transaksi dari keranjang belanja mempunyai item yang sama. Dari scenario terbaik dimana semua transaksi memiliki itemset yang sama, FP tree hanya berisi 1 cabang node. 6.6.2 Frequent Itemset Generation in FP-Growth Algorithm FP grow adalah algoritma yang menghasilkan frequent item dari FP tree dengan menjelajahi pohon dari bawah ke atas. Untuk contoh yang lebih konkret tentang cara untuk memecahkan submasalah dari mencari akhir frequent item dengan e: Langkah pertama adalah mengathet semua node yang dilewati e. Inisialisasi dari path disebut dengan prefix path. Dari prefix path didapat jumlah support dari e adalah penambahan jumlah support associated dengan node e. Karena e adalah frequent maka harus mengkonvert prefix path kedalam conditional FP tree dengan aturan ; Pertama jumlah support harus mendekati prefix path, karena beberapa jumlah transaksi tidak mengandung item e. Prefix path menghilangkan node dari e. Setelah mengupdate jumlah support dari prefix path, beberapa yang dari frequent item tidak begitu panjang. FP grow menggunakan conditional FP Tree untuk e memecahkan sub masalah dari mencari akhir dari frequent item.

FP-pertumbuhan menggunakan syarat FP-pohon untuk memecahkan submasalah dan menemukan itemset frequent berakhir dengan de, ce, dan ae.

6.7 Evaluation of Association Patterns Algoritma analisis asosiasi memiliki potensi untuk menghasilkan sejumlah besar pola. Berikut ini adalah beberapa pendekatan untuk menggabungkan subjektif pengetahuan ke dalam tugas penemuan pola. Set pertama kretiria dapat dibentuk memalui argument statistic. Dan set kedua kriteria dapat dibentuk melalaui argument subjektif. Visualisasi : Pendekatan ini memerlukan lingkungan yang user-friendly untuk menjaga pengguna. Template-based Approach : Pendekatan ini memungkinkan pengguna untuk membatasi jenis pola yang diekstraksi oleh algoritma data mining. Pengukuran Subyektif Interestingness : Pengukuran subjektif dapat

didefinisikan berdasarkan informasi domain seperti hirarki konsep. Hal ini digunakan untuk menyaring pola yang jelas dan yang tidak jelas sehingga dapat dilakukan proses selanjutnya. 6.7.1 Objective Measures of Interestingness Objective measures adalah pendekatan berbasis data untuk mengevaluasi kualitas recognition association. Ini adalah domain independen dan membutuhkan minimal input dari pengguna, selain untuk menentukan ambang batas untuk penyaringan pola berkualitas rendah. Ukuran yang objektif biasanya dihitung menggunakan frekuensi jumlah yang ditabulasikan. Keterbatasan pada Support-Confidence Framework : Aturan asosiasi formulasi data mining yang bergantung pada support dan langkah-langkah confidence untuk menghilangkan pola menarik. Kelemahan dari support ini dijelaskan pada subbab 6.8, dimana pola yang menarik banyak perhatian menyertakan support item yang rendah dihapuskan oleh support threshold. Interest Factor : Contoh teh-kopi menunjukkan bahwa tinggi aturan confidence kadang-kadang bisa menyesatkan karena ukuran confidence mengabaikan support dari itemset yang muncul dalam aturan konsekuen.

Keterbatasan pada Interest Factor : Dalam domain teks, adalah wajar untuk menganggap bahwa hubungan antara sepasang kata tergantung pada jumlah dokumen yang mengandung kedua kata. Correlation Analysis : Analisis korelasi adalah teknik statistik berbasis untuk menganalisis hubungan antara sepasang variabel. Untuk terus menerus variabelkorelasi didefinisikan menggunakan korelasi Pearson koefisien. Limitations of Correlation Analysis : Meskipun kata-kata yang muncul bersama-sama lebih sering daripada r dan s, -koefisien adalah identik, yaitu, (p, q) = (r, s) = 0,232. Hal ini karena -koefisien memberikan sama pentingnya dengan kehadiran rekan-rekan dan tidak adanya item dalam tindakan. IS Measures : adalah alternative measures yang mempunyai usulan dari variable asimetris biner. Persamaannya yaitu ( ) ( ) ( )
( ) ( ) ( )

Limitations of IS Measures : nilai IS dari dari bagian nilai independent s(A) dan s(B). persamaannya yaitu
( ) ( ) ( )

( )

( )

Alternative Objective Interestingness Measures : Selain langkah-langkah yang diatas, ada langkah alternatif lain diusulkan untuk menganalisis hubungan antara pasangan variabel biner. Langkah-langkah ini dapat dibagi menjadi dua kategori, simetris dan asymmetrik tindakan. Consistency among Objective Measures : Mengingat berbagai tindakan yang tersedia, adalah wajar untuk mempertanyakan apakah tindakan dapat

menghasilkan hasil yang sama ketika memesan diterapkan untuk satu set pola asosiasi. Jika langkahnya konsisten maka dilakukan dengan evaluation matric. Selain itu ini sangat penting untuk dimengerti dimana pengukuran ini cocok untuk menganalisis berbagai tipe dari pola. Properties of Object Measures Memeriksa property dari pengukuran yang dilakukan dengan : Inversi Properti : Ukuran yang obyektif M adalah invarian bawah operasi inversi jika nilainya tetap sama ketika bertukar penghitungan frekuensi f11 dengan f00 dan f10 dengan f01 .

Null Addition Properti : Ukuran yang obyektif M adalah lain di bawah operasi penjumlahan null jika itu tidak efektif dengan meningkatkan f00. Sementara semua frekuensi lainnya dalam tabel kontingensi tetap sama.

Scaling Properti : Ukuran yang obyektif M adalah invarian dalam operasi skala baris / kolom jika M(T) = M(T), dimana T adalah tabel kontingensi dengan jumlah frekuensi [f11, f10, f01, f00 ], dengan jumlah frekuensi skala [k1k3f11 ; k2k3f10 ; k1k4f01 ; k2k4f00 ], dimana k1,k2,k3,k4 adalah konstanta positif.

6.7.2

Measures beyond Pairs of Binary Variable

Langkah-langkah, seperti interest factor, IS, P S, dan Jaccard koefisien, cukup dapat menjadi cenderung lebih dari dua variabel menggunakan tabel frekuensi ditabulasikan dalam multidimensi kontingensi meja. 6.7.3 Simpson Paradox Sangat penting untuk berhati-hati ketika menafsirkan hubungan antara variabel karena hubungan yang diamati mungkin dipengaruhi oleh kehadiran faktor-faktor lain, yaitu, variabel tersembunyi yang tidak termasuk dalam analisis. Dalam beberapa kasus, variabel tersembunyi dapat menyebabkan hubungan antara sepasang variabel menghilang atau membalikkan arahnya, ini dikenal sebagai Simpson Paradox. Standarfikasi yang tepat diperlukan untuk menghindari membangkitkan pattern palsu dari simpson paradox. Contohnya adalah keranjang belanja dari sebuah rantai supermarket besar yang harus di kelompokkan berdasarkan lokasi toko. 6.8 Effect of Skewed Support Distribution
Kinerja dari algoritma analisis asosiasi banyak dipengaruhi oleh sifat data masukan. Contohnya, kompleksitas komputasi Algoritma Apriori tergantung pada properti seperti jumlah item dalam data dan lebar rata-rata transaksi. Bagian ini membahas property penting yang memiliki pengaruh signifikan pada kinerja algoritma asosiasi analisis serta kualitas pola diekstraksi. Lebih spesifik, kita fokus pada titik data dengan distribusi dukungan miring, di mana sebagian besar item memiliki relatif rendah untuk frekuensi sedang, tetapi sejumlah kecil memiliki frekuensi sangat tinggi.

LAMPIRAN 1. Contoh transaksi

2. Menjumlahkan support dari candidate itemset

3. Ilustrasi prinsip Apriori

4. Ilustrasi algoritma Apriori

5. Ilustrasi dari Support Counting

6. Hash Tree

7. Tabel theorem 6.2

8. Contoh Closed Frequent Itemsets

9. General to Specific dan Specific to General

10. Equivalen Class

11. Breadth first dan Depth first

12. Vertical dan Horizontal data format

Anda mungkin juga menyukai