Dinatek-Algoritma PIE

FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA PIE
Suhatati Tjandra
Dosen Teknik Informatika Sekolah Tinggi Teknik Surabaya
e-mail: tati@stts.edu
ABSTRAK
Frequent itemset mining adalah algoritma yang digunakan utnuk mencari frequent itemset. Salah satu
algorima yang dapat digunakan adalah Algoritma PIE ( Probabilistic Iterative Expansion). Algoritma PIE
(Probabilistic Iterative Expansion) adalah sebuah algoritma frequent itemset mining (FIM) yang
menggunakan probabilitas item sebagai dasar untuk men-generate kandidat-kandidat berikutnya. Para
kandidat disimpan dalam sebuah trie dimana setiap path dari root menuju suatu node merepresentasikan
sebuah kandidat itemset. Algoritma ini membentuk trie secara iteratif sampai semua frequent itemset
ditemukan. Karena pembentukan trie inilah maka algoritma PIE membutuhkan waktu untuk melakukan
kalkulasi. Algoritma ini diuji coba pada tiga dataset yaitu dataset Chess, Mushroom dan T10I4D100K dan
kemudian dilakukan pencatatan waktu yang dibutuhkan untuk melakukan miningnya.
Kata kunci: Data Mining, PIE, Probabilistic, Itemset, trie
ABSTRACT
Frequent Itemset Mining is algorithm which is used to find frequent itemset. Probabilistic Iterative
Expansion (PIE) algorithm is one of Frequent Itemset Mining algorithms which use probabilistic to
generate next candidates and the candidates is stored in a common trie data structure. This algorithm
build trie iteratively until all frequent itemset was found.PIE algorithm, need more times to calculate and
build the trie. PIE algorithm be implemented for three datasets in order to record total time used for
mining process.
Keywords: Data Mining, PIE, Probabilistic, Itemset, trie
PENDAHULUAN Pada tahap kedua yaitu tahap pembentukan trie,

algoritma membentuk trie berdasarkan probabilitas
Algoritma PIE (Probabilistic Iterative Expansion) tiap item. Pada tahap ketiga algoritma menelusuri
adalah sebuah algoritma frequent itemset mining database masukan untuk menghitung frekuensi
(FIM) yang menggunakan probabilitas item sekaligus child error dari setiap node pada trie.
sebagai dasar untuk men-generate kandidat- Proses ini bertujuan untuk memeriksa apakah ada
kandidat berikutnya. Para kandidat disimpan dalam virtual child dari setiap node pada trie yang
sebuah trie dimana setiap path dari root menuju berpotensi untuk di-expand. Pada tahap terakhir
suatu node merepresentasikan sebuah kandidat yaitu ekspansi trie, trie diperiksa apakah ada node-
itemset. Algoritma ini membentuk trie secara node yang bisa di-expand. Proses ekspansi
iteratif sampai semua frequent itemset ditemukan. dilakukan dengan berdasarkan pada perhitungan-
Secara garis besar proses mining dengan perhitungan tertentu.
menggunakan algoritma PIE terdiri atas empat
tahap yaitu tahap preprocessing, tahap STRUKTUR DATA YANG DIGUNAKAN
pembentukan trie, tahap perhitungan frekuensi dan
child error dan tahap ekspansi trie. Struktur data yang digunakan pada algoritma PIE
Pada tahap preprocessing, algoritma mencari adalah trie. Sebuah trie lengkap untuk n item akan
semua frequent 1-itemset dengan menelusuri
database masukan sekaligus menyiapkan variable-
variable yang dibutuhkan untuk pembentukan trie.
41
DINAMIKA TEKNOLOGI Vol. 3, No. 2; April 2009: 41-47
mempunyai node sebanyak 2n. Gambar 1 5.1.1 expand trie

menunjukkan sebuah trie lengkap untuk 4 item.1 5.1.2 go to step 3
Pada algoritma PIE, pembentukan trie secara 5.2 else
5.2.1 go to step 6
lengkap seperti contoh diatas akan dihindari
5.3 end if
dengan menghitung probabilitas dari setiap node 6. [Tampilkan hasil frequent itemset]
yang akan dibuat pada trie. Apabila nilai 6.1 Output FreqItems
probabilitasnya lebih kecil dari relative minimum
support, maka node tersebut tidak akan dibuat. Algoritma 1 merupakan algoritma utama pada
algoritma PIE ini. Pertama-tama dataset yang telah
dipersiapkan formatnya dibaca untuk melakukan
proses preprocessing. Kemudian trie dibentuk
0 1 2 3 berdasarkan probabilitas tiap item. Setelah itu
database ditelusuri kembali untuk menghitung
1 2 3 2 3 3
frekuensi sesungguhnya dari setiap node pada trie,
sekaligus menghitung child error-nya. Apabila
semua node pada trie mempunyai child error yang
2 3 3 3 lebih kecil dari minimum support threshold, maka
semua node tersebut adalah ready. Apabila ada
node yang belum ready, maka proses ekspansi
3 dilakukan dan diulangi lagi. Apabila semua node
telah ready, maka hasil semua frequent itemset
Gambar 1 yang memenuhi minimum support threshold dapat
Trie Lengkap Untuk 4 Item dibaca dari trie.
ALGORITMA PIE Algoritma 2 Algoritma Preprocessing

Input : D (Database Transaksi); σ
Algoritma PIE (Probabilistic Iterative Expansion) (Minimum Support Threshold)
adalah sebuah algoritma data mining yang Output : Rminsup dan Alfa
menggunakan probabilitas item sebagai dasar 1. [Initial steps]
untuk men-generate kandidat-kandidat berikutnya. 1.1 scan D and collect the set F
of frequent items
Para kandidat disimpan dalam sebuah trie dimana 1.2 Alfa = average probability of
setiap path dari root menuju suatu node items in F
merepresentasikan sebuah kandidat itemset. 1.3 iter = 0
Algoritma ini membentuk trie secara iteratif
sampai semua frequent itemset ditemukan. Algoritma 2 merupakan algoritma untuk
melakukan proses preprocessing pada algoritma
Algoritma 1 Algoritma PIE PIE. Pada proses ini, database ditelusuri dan
Input: D (Database Transaksi); σ
(Minimum Support Threshold)
algoritma mencari semua frequent 1-itemset dan
Output: Semua Frequent Itemset alfa. Alfa adalah sebuah konstanta bernilai antara
1. [Baca dataset untuk preprocessing] 0 dan 1 yang akan digunakan pada tahap ekspansi
1.1 Scan D to do preprocessing dari trie. Cara mencari alfa adalah nilai rata-rata
2. [Bentuk trie] probabilitas semua frequent 1-itemset.
2.1 Build the trie based on items’
probabilities Algoritma 3 Algoritma Pembentukan
3. [Hitung frekuensi dan child error] Trie
3.1 Scan D to count items Input : semua hasil dari proses
frequencies and child errors preprocessing
4. [Set ready nodes] Output : PIE trie P
4.1 Set ready nodes to 1 1. [Bentuk trie]
5. [Expand trie] 1.1 create a PIE trie P so that it
5.1 If trie contains not ready contains all such ordered
nodes subsets S  F for which
(Prob(s  S)).|D| >= σ
1 2. [Set ready nodes]
Attila Gyenesei dan Jukka Teuhola, Probabilistic
Iterative Expansion of Candidates in Mining 2.1 set the status of all nodes of
Frequent Itemsets, hal 2 P to not ready
42
Analisa Pencarian frequent Itemsets menggunakan Algoritma fp-Max (Suhatati Tjandra)
S)).estim_suppo
Algoritma 3 merupakan algoritma untuk rt(v) >= iter.σ
membentuk trie pada algoritma PIE. Trie dibentuk 3.1.1.1.4 end if
berdasarkan probabilitas item, dimana apabila 3.1.1.2 end for
probabilitas suatu item lebih kecil dari relative 3.1.2 end if
3.2 end for
minimum support, maka item tersebut tidak akan
ditambahkan kedalam trie.
Algoritma 4 merupakan loop utama pada
algoritma PIE. Algoritma ini akan secara
Algoritma 4 Algoritma Ekspansi Trie bergantian melakukan tiga proses yaitu
Input : PIE trie P perhitungan frekuensi sebenarnya dari setiap node
Output : expanded PIE trie P pada trie, pemeriksaan apakah ada node pada trie
// the main loop : alternating count, yang masih not ready dan proses ekspasi trie.
test and expand Proses ekspansi trie ini akan dilakukan terus
1. [Scan the database and check selama masih ada node pada trie yang belum
readiness] ready.
1.1 scan D and count the support
and pending support values for Algoritma 5 Algoritma Pembacaan Hasil
non ready nodes in P Dari Trie
2. [Test readiness of each node] Input : PIE trie P
2.1 iter = iter + 1 Output : Frequent Itemsets FP
2.2 for each node p  P do 1. [Baca hasil dari trie]
2.2.1 if pending_support(p) < σ 1.1 return the paths for nodes p
2.2.1.1 if p is a leaf in P such that support(p) >= σ
2.2.1.1.1 set p ready
2.2.1.2 else
Algoritma 5 merupakan algoritma untuk membaca
2.2.1.2.1 if the children of
p are ready semua hasil frequent itemset dari trie pada
2.2.1.2.1.1 set p ready algoritma PIE. Algoritma ini akan mengembalikan
2.2.1.2.2 end if semua path pada trie yang mana nilai support tiap
2.2.1.3 end if node yang dilaluinya lebih besar atau sama dengan
2.2.2 end if minimum support threshold.
2.3 end for
2.4 if root(P) is ready Contoh Kasus
2.4.1 exit loop
2.5 end if
3. [Expansion phase] Tabel 1
3.1 for each non ready node p in P Contoh Database Transaksi
do
3.1.1 if pending_support(p) >= σ Tid Items
3.1.1.1 for each virtual child 1 345679
v of p do 2 1 3 4 5 13
3.1.1.1.1 compute 3 1 2 4 5 7 11
local_prob(v) 4 1348
3.1.1.1.2 estim_support(v) = 5 1 3 4 10
local_prob(v).pend
ing_support(p)
3.1.1.1.3 if estim_support(v) Misalkan user melakukan proses mining semua
>= iter.σ frequent itemset dari sebuah database transaksi
3.1.1.1.3.1 create node v seperti yang ditunjukkan pada Tabel 1 dengan
as the child of p minimum support threshold dua transaksi.
3.1.1.1.3.2 add such Database diasumsikan telah dalam format seperti
ordered subsets pada Tabel 1 dan setiap item pada setiap
S  F\{1..v} as transaksinya urut secara ascending.
descendant Langkah-langkah pembentukan trie pada algoritma
paths of v, for PIE untuk contoh dataset di atas dengan minimum
which (Prob(s support threshold 50% (2 transaksi) adalah :

1. Preprocessing
43
Pertama-tama database akan dibaca sekali secara probabilitas ini adalah nilai frekuensi item pada
keseluruhan untuk mencari semua frequent 1- setiap transaksi pada database dibagi dengan total
itemset. Karena minimum support threshold-nya jumlah transaksi. Jadi misalkan untuk node 1 maka
adalah 2, maka semua item dengan kemunculan (4/5) = 0,8.
lebih kecil dari 2 tidak termasuk frequent item.
Pada contoh database ini frequent item-nya adalah
1, 3, 4, 5 dan 7. Kemudian semua frequent item
tersebut akan dimasukkan kedalam tabel frequent
item seperti ditunjukkan pada Tabel 2. Gambar 2
Root Dan Node-Node Level Pertama
Tabel 2
Frequent Item Kemudian proses selanjutnya adalah pembentukan
child dari node-node level pertama. Proses ini
Item Count diiterasi sebanyak jumlah frequent 1-itemset
1 4 dikurangi 1. Karena pada contoh ini jumlah
3 4 frequent 1-itemset adalah 5, maka trie akan selesai
4 5 dibentuk setelah empat iterasi. Pada iterasi pertama
5 3 child dari node 1 akan dibentuk. Semua frequent 1-
7 2 itemset yang nilai item-nya lebih besar dari 1 akan
dicari probabilitasnya. Apabila hasilnya lebih besar
Kemudian dicari nilai alfa, yaitu sebuah konstanta atau sama dengan Rminsup, maka node tersebut
bernilai antara 0 dan 1 yang akan digunakan untuk akan ditambahkan sebagai child dari node 1.
perhitungan pada tahap ekspansi trie. Cara mencari Apabila hasilnya lebih kecil, maka node tersebut
alfa adalah nilai total nilai probabilitas semua tidak akan dibuat dan digambar dengan garis
frequent 1-itemset dibagi dengan total jumlah putus-putus dan dinamakan virtual node. Virtual
transaksi dalam database. Dalam contoh ini nilai node ini pada tahap ekspansi trie akan diperiksa
alfa adalah : ((4/5)+(4/5)+(5/5)+(3/5)+(2/5))/5 = apakah dapat dimaterialisasi atau tidak.
0,72. Misal untuk child pertama dari node 1 pada branch
Nilai relative minimum support (Rminsup) juga paling kiri yaitu node 3, nilai probabilitasnya
akan dicari. Rminsup digunakan pada saat adalah 0,64. Nilai ini didapat dari probabilitas item
pembentukan trie. Apabila nilai probabilitas suatu 3 sendiri, yaitu 0,8, dikalikan dengan probabilitas
node lebih besar atau sama dengan Rminsup, maka item 1, yaitu 0,8 juga. Karena hasilnya >=
node tersebut akan dibuat. Sebaliknya, apabila nilai Rminsup (0,4) maka node 3 dibuat. Perhitungan ini
probabilitasnya lebih kecil, maka node tersebut berbeda dengan perhitungan probabilitas saat
tidak akan dibuat. Hal ini bertujuan untuk pembentukan child dari root diatas, karena dalam
menghindari trie explosion atau pembentukan trie hal ini node 3 adalah child dari node 1, maka
secara lengkap. Cara mencari Rminsup adalah nilai probabilitas node 1 harus disertakan pula.
minimum support dibagi dengan total jumlah
transaksi dalam database. Dalam contoh ini nilai
Rminsup adalah : (2/5) = 0,4.
2. Pembentukan Trie
Setelah proses preprocessing selesai dilakukan,
maka langkah selanjutnya adalah pembentukan
trie. Untuk mempermudah penjelasan, trie akan
dibentuk secara breadth first dan nilai item dari
tiap node akan dituliskan. Sementara pada
implementasi sesungguhnya, trie dibentuk secara
depth first dan nilai item tiap node tidak akan
disimpan. Pertama-tama dibentuk root dari trie. Gambar 3
Root pada trie dari algoritma PIE adalah sebuah Keadaan Child Pertama (Node 1) Dari Root
node dengan item kosong. Kemudian child dari Setelah Iterasi Pertama
root tersebut adalah semua frequent 1-itemset.
Angka-angka yang ada disamping tiap node adalah Pada iterasi kedua, child kedua dari root yaitu node
probabilitas dari tiap node tersebut. Cara mencari 3 akan dicari child-nya. Caranya sama dengan
44
proses iterasi pertama., yaitu semua frequent 1-

itemset yang nilai item-nya lebih besar dari 3 akan
dicari probabilitasnya. Apabila hasilnya lebih besar
atau sama dengan Rminsup, maka node tersebut
akan ditambahkan sebagai child dari node 3.
Gambar 6
Keadaan Child Keempat (Node 5) Dari
Root Setelah Iterasi Keempat
0,8 Apabila hasilnya lebih besar atau sama dengan
3
Rminsup, maka node tersebut akan ditambahkan
0,32
0,8 0,48 sebagai child dari node 5.
4 5 7 Setelah iterasi keempat masih ada satu node child
terakhir dari root, yaitu node 7. Akan tetapi karena
0,48 0,32 0,19 item 7 adalah frequent 1-itemset terbesar maka dia
5 7 7 tidak mempunyai child. Oleh karena itu setelah
menambahkan node 7 sebagai child dari root maka
0,19
trie telah terbentuk secara lengkap. Dapat dilihat
pada trie hasil algoritma PIE hanya mempunyai 15
7
node. Jika dibandingkan dengan trie lengkap
Gambar 4 apabila semua node dibuat tanpa pemeriksaan
Keadaan Child Kedua (Node 3) Dari Root probabilitas item, dimana terdapat 31 node, maka
Setelah Iterasi Kedua trie hasil algoritma PIE jauh lebih sedikit. Hal ini
dilakukan untuk menghindari trie explosion atau
Pada iterasi ketiga, child kedua dari root yaitu node pembuatan node-node pada trie yang belum tentu
4 akan dicari child-nya. Caranya sama dengan merupakan frequent itemset.
proses iterasi pertama dan kedua, yaitu semua
frequent 1-itemset yang nilai item-nya lebih besar 3. Perhitungan frekuensi dan child error
dari 4 akan dicari probabilitasnya. Apabila Proses selanjutnya adalah penghitungan frekuensi
hasilnya lebih besar atau sama dengan Rminsup, sebenarnya dan child error dari tiap node pada trie.
maka node tersebut akan ditambahkan sebagai Hal ini dilakukan dengan menelusuri sekali lagi
child dari node 4. database secara keseluruhan dan hanya item yang
1 frequent yang dipilih dari setiap transaksinya.
4 Child error atau yang disebut juga PS (Pending
Support) adalah sebuah variable yang digunakan
0,6 0,4 untuk menyimpan informasi jumlah transaksi
dalam database yang mengandung suatu node.
5 7
Variable child error pada algoritma PIE digunakan
pada tahap ekspansi trie.
0,24
7 PS = 100
A
Gambar 5 D
B C
Keadaan Child Ketiga (Node 4) Dari Root
Setelah Iterasi Ketiga
E F G
Pada iterasi keempat, child kedua dari root yaitu
node 5 akan dicari child-nya. Caranya sama
dengan proses iterasi pertama, kedua dan ketiga, Gambar 7
yaitu semua frequent 1-itemset yang nilai item-nya Ilustrasi Child Error
lebih besar dari 5 akan dicari probabilitasnya.
0,6
0,24
45
7
Misalkan nilai minimum support threshold untuk Dengan berakhirnya iterasi kelima diatas, maka
trie diatas adalah 80. Sebuah node A mempunyai trie telah terbentuk secara lengkap. Langkah
child error = 100. Hal ini berarti pada database selanjutnya adalah memeriksa apakah semua node
masukan terdapat 100 transaksi yang mengandung pada trie telah ready. Sebuah node dikatakan ready
item sepanjang path dari root menuju node A apabila :
tersebut, termasuk item C dan/atau item D.2  Nilai child error-nya lebih kecil dari minimum
Apabila nilai child error suatu node lebih besar support threshold. Apabila nilai child error
atau sama dengan nilai minimum support suatu node lebih besar atau sama dengan
threshold, maka ada kemungkinan salah satu atau minimum support threshold, maka ada
kedua virtual child dari node tersebut adalah kemungkinan salah satu virtual child dari node
frequent, oleh karena itu node tersebut harus tersebut frequent, oleh karena itu node tersebut
diperiksa untuk proses ekspansi. harus di-expand.
Bentuk tabel Trans seperti pada Tabel 3. Tabel ini  Semua child dari node tersebut telah ready.
berisi semua frequent item yang terdapat pada Atau dengan kata lain, apabila sebuah node
setiap transaksi pada database. tidak ready, maka parent-nya pasti juga tidak
ready.
Tabel 3 Selanjutnya adalah proses ekspansi trie. Pertama-
Frequent Item tama dilakukan perhitungan ES (Estimated
Support) terhadap semua virtual child dari sebuah
Tid Frequent Item
node yang tidak ready.
1 3457
3 1345
4 1457
5 134 (5,0)
7 134 4 5
(3,2)
Kemudian proses berikutnya adalah membaca
setiap baris dari tabel Trans untuk perhitungan 5 7 7
child error pada trie. Iterasi pertama akan (3,2) (2,0)
memproses baris pertama dari Tabel Trans (3, 4, 5,
7). Hal ini berarti hanya node-node level pertama
7
dari root (Gambar 2) dengan item tersebut beserta
semua child-nya pada trie yang akan diperiksa.
Gambar 8 menunjukkan proses perhitungan child Gambar 9
error pada node pertama dari baris pertama dari Node Yang Tidak Ready (Kuning)
Tabel Trans.
Trie ditelusuri secara depth first, jadi perhitungan
dilakukan terhadap virtual node 7 yang kiri
terlebih dahulu. Apabila nilai ES sebuah virtual
node lebih besar atau sama dengan nilai alfa
dikalikan nilai minimum support threshold, maka
virtual node tersebut akan dimaterialisasi. Nilai
alfa dikalikan nilai minimum support threshold
adalah = (0,72*2) = 1,44. Rumus untuk
perhitungan ES adalah :
ES(vi) = LP(vi) . PS(parent(vi))
dimana :
LP(vi) = local probability node vi.
Gambar 8 PS(parent(vi)) = pending support (child error) dari
Ilustrasi Perhitungan Child Error parent dari node vi.
Sedangkan rumus untuk menghitung LP (Local
4. Proses ekspansi trie Probability) dari sebuah virtual node adalah
probabilitas node tersebut dibagi dengan
2
Attila Gyenesei dan Jukka Teuhola, Probabilistic
probabilitas semua sibling-nya yang juga virtual.
Iterative Expansion of Candidates in Mining LP(vi) = prob(vi)/(1-(1-prob(v0)(1-prob(v1)…(1-
Frequent Itemsets, hal 3 prob(vs))
46
Pertama-tama virtual node 7 yang kiri bawah

dihitung terlebih dahulu. Nilai probabilitas untuk Tabel 5
node ini adalah 2/5 = 0,4. Perlu diketahui bahwa Association Rule Untuk Itemset {1, 3, 4}
nilai probabilitas yang dihitung disini adalah nilai (Confidence = 0)
probabilitas single item tersebut, bukan yang
sudah dikalikan dengan parent-nya seperti pada Rule Support Confidence
proses awal pembentukan trie. Jadi nilai local {1}  {3, 4} 3/5 3/4
probability-nya adalah = 0,4/(1-(1-0,4)) = 1. {3}  {1, 4} 3/5 3/4
Kemudian nilai estimated support-nya adalah = {4}  {1, 3} 3/5 3/5
(1.2) = 2. Karena 2 > 1,44 maka virtual node 7 ini {1, 3}  {4} 3/5 3/3
dimaterialisasi. {1, 4}  {3} 3/5 3/4
Untuk virtual node berikutnya yaitu virtual node 7 {3, 4}  {1} 3/5 3/4
yang kanan dapat dihitung dengan cara yang sama.
Nilai probabilitas untuk node ini adalah 2/5 = 0,4. HASIL UJI COBA
Jadi nilai local probability-nya adalah = 0,4/(1-(1-
0,4)) = 1. Kemudian nilai estimated support-nya Algoritma ini diuji cobakan pada tiga dataset yaitu
adalah = (1.2) = 2. Karena 2 > 1,44 maka virtual dataset Chess,Mushroom dan T10I4D100K.
node 7 ini juga dimaterialisasi.
Selanjutnya algoritma akan membaca database Dataset Chess merupakan dense data set dengan
masukan lagi untuk menghitung frekuensi 3196 transaksi dan 75 item
sebenarnya dan child error dari setiap node yang
baru dimaterialisasi tadi. Apabila child error Tabel 6
semua node pada trie telah < dari minimum Waktu Yang dibutuhkan untuk me-mining
support threshold, maka trie dapat dikatakan telah dataset Chess
ready dan semua path dari trie yang mempunyai
node yang support-nya lebih besar atau sama Minimum Waktu yang diperlukan
Support
dengan minimum support threshold adalah hasil
50% 00:32:23:500
dari proses mining algoritma ini. Tetapi apabila
masih terdapat node dengan child error >= 60% 00:05:03:179
minimum support threshold, maka trie dikatakan 70% 00:00:57:906
belum ready dan algoritma kembali ke proses 80% 00:00:03:789
ekspansi. 90% 00:00:00:234
Apabila tidak ada lagi node pada trie yang tidak
ready setelah proses ekpansi pertama ini, maka trie Dataset Mushroom merupakan less dense dataset
telah selesai dibentuk dan semua hasil frequent dengan 8124 transaksi dan 119 item
itemset dapat dibaca dari trie.
Tabel 7
Tabel 4 Waktu Yang dibutuhkan untuk me-mining
Frequent Itemset Yang Dihasilkan dataset Mushroom
Itemset Count Itemset Count Minimum Waktu yang

{1} 4 {3, 5} 2 Support diperlukan
{1, 3} 3 {4} 5 10% 00:31:42:516
{1, 3, 4} 3 {4, 5} 3 20% 00:00:43:453
{1, 4} 4 {4, 5, 7} 2 30% 00:00:01:125
{1, 4, 5} 2 {4, 7} 2 40% 00:00:00:297
{1, 5} 2 {5} 3 50% 00:00:00:110
{3} 4 {5, 7} 2
{3, 4} 4 {7} 2 Dataset T10I4D100K merupakan sparse dataset
{3, 4, 5} 2 dengan 100000 transaksi dan 1000 item
Untuk proses generate rule dapat dilakukan
Tabel 8
dengan algoritma strong association rule. Misal
Waktu Yang dibutuhkan untuk me-mining
untuk itemset {1, 3, 4} dengan confidence = 0,
dataset T10I4D100K
rule yang dihasilkan dapat dilihat pada Tabel 5.
47
Minimum Waktu yang in Mining Frequent Itemsets, Turku Centre for

Support diperlukan Computer Science, Department of Information
0.6% 00:00:04:250 Technology, University of Turku, Finland.
0.8% 00:00:02:844 2. Jiawei Han dan Micheline Kamber, Data
1% 00:00:02:109 Mining, Concepts and Techniques, Morgan
1.2% 00:00:01:734 Kaufmann Publishers. 340 Pine Street, Sixth
1.4% 00:00:01:203 Floor, San Fransisco, USA, 2001.
3. R. Agrawal dan R. Srikant, Fast Algorithms
Untuk dataset dense seperti chess, nilai minimum for Mining Association Rules, Proceedings of
support yang diberikan harus tinggi dan sebaliknya the 20th International Conference on Very
untuk dataset sparse seperti T10I4D100K, nilai Large Databases, Santiago, Chile, 1994.
minimum support yang diberikan harus rendah.
Hal ini dikarenakan pada dataset dense transaksi
satu dengan lainnya banyak yang mirip. Oleh
karena itu besar kemungkinan sebuah item untuk
menjadi frequent. Sebaliknya untuk dataset sparse,
transaksi satu dengan lainnya jarang yang mirip.
Oleh karena itu kecil kemungkinan sebuah item
untuk menjadi frequent.
PENUTUP
 Semakin tinggi nilai minimum support,

semakin sedikit waktu yang diperlukan oleh
untuk melakukan mining dan semakin sedikit
pula frequent itemset yang dihasilkan. Hal ini
dikarenakan apabila nilai support tinggi, maka
jumlah frequent item pada database yang
memenuhi nilai tersebut akan semakin sedikit,
sehingga trie semakin kecil. Sebaliknya,
semakin rendah nilai minimum support,
semakin banyak waktu yang diperlukan oleh
melakukan mining dan semakin banyak pula
frequent itemset yang dihasilkan.
 Untuk dataset dense seperti chess, nilai
minimum support yang diberikan harus tinggi
dan sebaliknya untuk dataset sparse seperti
T10I4D100K, nilai minimum support yang
diberikan harus rendah. Hal ini dikarenakan
pada dataset dense transaksi satu dengan
lainnya banyak yang mirip. Oleh karena itu
besar kemungkinan sebuah item untuk menjadi
frequent. Sebaliknya untuk dataset sparse,
transaksi satu dengan lainnya jarang yang
mirip. Oleh karena itu kecil kemungkinan
sebuah item untuk menjadi frequent.
 Algoritma PIE memakai memory yang cukup
besar, hal ini dikarenakan algoritma PIE
melakukan kalkulasi setiap akan membentuk
sebuah node.
DAFTAR PUSTAKA
1. Attila Gyenesei dan Jukka Teuhola,

Probabilistic Iterative Expansion of Candidates
48

Dinatek-Algoritma PIE

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Dinatek-Algoritma PIE

Diunggah oleh

Hak Cipta:

Format Tersedia

FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA PIE

Kata kunci: Data Mining, PIE, Probabilistic, Itemset, trie

Keywords: Data Mining, PIE, Probabilistic, Itemset, trie

PENDAHULUAN Pada tahap kedua yaitu tahap pembentukan trie,

mempunyai node sebanyak 2n. Gambar 1 5.1.1 expand trie

ALGORITMA PIE Algoritma 2 Algoritma Preprocessing

proses iterasi pertama., yaitu semua frequent 1-

Pertama-tama virtual node 7 yang kiri bawah

Itemset Count Itemset Count Minimum Waktu yang

Minimum Waktu yang in Mining Frequent Itemsets, Turku Centre for

 Semakin tinggi nilai minimum support,

1. Attila Gyenesei dan Jukka Teuhola,

Anda mungkin juga menyukai