OLEH :
a. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk
menggambarkan pola dan kecenderungan yang terdapat dalam data. Deskripsi dari
pola kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola
atau kecenderungan.
b. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke
arah numerik dari pada ke arah kategori. Model dibangun menggunakan baris data
(record) lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi.
c. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik
yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk
keadaan yang tepat) untuk prediksi.
d. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,penggolongan
pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,
pendapatan sedang, dan pendapatan rendah.
e. Pengklasteran (Clusterring)
Pengklasteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas obyek-obyek yang memiliki kemiripan.
Klaster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya
dan memiliki ketidakmiripan record dalam klister yang lain. Berbeda dengan
klasifikasi, pada pengklasteran tidak ada variabel target. Pengklasteran tidak
melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target,
akan tetapi, algoritma pengklasteran mencoba untuk melakukan pembagian
terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan
(homogen), yang mana kemiripan record dalam satu kelompok akan bernilai
maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai
minimal.
f. Asosiasi
Tugas asosiasi dalam data mining adalah untuk menemukan atribut yang muncul
dalam satu waktu. Salah satu implementasi dari asosiasi adalah market basket
analysis atau analisiskeranjang belanja,
Ada beberapa kesamaan proses yang harus dilawati agar data yang diambil dapat
memberikan informasi yaitu dengan melakukan 7 proses secara berurutan [2]
1. Data Cleaning
2. Data Integration
3. Data Selection
4. Data Transformation
5. Data Mining
6. Pattern Evaluation
7. Knowledge Presentation
1.2 Asosiasi
Analisis asosiasi atau association rule mining adalah teknik data mining untuk
menentukan aturan asosiatif antara suatu kombinasi item. Contoh aturan
asosiatif dari analisis pembelian di suatu pasar swalayan adalah dapat diketahui
berapa besar kemungkinan seorang pelanggan membeli roti bersama dengan
susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur
tempat penempatan barang secara bersama. Association Rule sering disebut
dengan market basket analysis. Tujuan utamanya adalah mencari kesamaan
antara attribute bersamaan dengan pengukuran support dan confidence sesuai
aturan[1].
{roti, mentega}{susu}(support=40%,confidence=50%)
(1)
Aturan asosiasi tersebut memiliki arti “50% dari transaksi pada database yang
memuat item roti dan mentega juga memuat item susu”. Analisa asosiasi dapat
diartikan aturan asosiasi yang memenuhi syarat support dan confidence
minimum. Dalam analisa asosiasi mempunyai metodologi dasar yang terbagi
menjadi dua tahap [6] :
a. Analisa Pola Frekuensi Tinggi
Pada tahap ini untuk mencari kombinasi item yang memenuhi syarat minimum
dari nilai support dalam database. Nilai support sebuah item diperoleh dengan
rumus berikut :
(2)
Pada rumus 2 dijelaskan bahwa nilai support (A) diperoleh dengan cara mencari
jumlah transaksi mengandung di bagi dengan total transaksi. Sementara itu,
nilai support dari 2 item diperoleh dari rumus berikut:
(4)
Pada rumus 4 dijelaskan bahwa support (A, B) diperoleh dengan cara transaksi
yang mengadung item A dan B di bagi dengan jumlah seluruh transaksi.
(5)
Pada rumus diatas dijelaskan bahwa confidence (A, B) diperoleh dengan cara
data transaksi yang mengandung A dan B dibagi dengan transaksi mengandung
A.
Misal I= {a1, a2, …, an} adalah kumpulan dari item. Dan basis data transaksi
DB = {T1, T2, …, Tn}, di mana Ti (i € [1..n]) adalah sekumpulan transaksi
yang mengandung item di I. Sedangkan support adalah penghitung (counter)
frekuensi kemunculan transaksi yang mengandung suatu pola. Suatu pola
dikatakan sering muncul (frequent pattern) apabila support dari pola tersebut
tidak kurang dari suatu konstanta ξ (batas ambang minimum support) yang
telah didefinisikan sebelumnya. Permasalahan mencari pola frequent dengan
batas ambang minimum support count ξ inilah yang dicoba untuk dipecahkan
oleh FPGrowth dengan bantuan Struktur FP-tree.
Adapun FP- tree adalah sebuah pohon dengan definisi sebagai berikut:
FP-Tree dibentuk oleh sebuah akar yang diberi label null, sekumpulan
upapohon yang beranggotakan item-item tertentu, dan sebuah tabel
frequent header.
Setiap simpul dalam FP-tree mengandung tiga informasi penting, yaitu
label item, menginformasikan jenis item yang direpresentasikan simpul
tersebut, support count, merepresentasikan jumlah lintasan transaksi
yang melalui simpul tesebut, dan pointer penghubung yang
menghubungkan simpul-simpul dengan label item sama antarlintasan,
dintandai dengan garis panah putus-putus.
No Transaksi
1 a,b
2 b,c,d,g,h
3 a,c,d,e,f
4 a,d,e
5 a,b,z,c
6 a,b,c,d
7 a,r
8 a,b,c
9 a,b,d
10 b,c,e
Item Frekuensi
a 8
b 7
c 6
d 5
e 3
f 1
r 1
z 1
g 1
h 1
Diberikan 10 data transaksi dengan 5 jenis item seperti pada tabel di atas.
Gambar 1 – 4 menunjukkan proses terbentuknya FP –Tree setiap TID dibaca.
Setiap simpul pada FP-Tree mengandung nama sebuah item dan counter
support yang berfungsi untuk menghitung frekuensi kemunculan item tersebut
dalam tiap lintasan transaksi.
FP-tree yang merepresentasikan data transaksi pada tabel 1 dibentuk dengan
cara sebagai berikut:
Kumpulan data dipindai pertama kali untuk menentukan support
count dari setiap item. Item yang tidak frequent dibuang, sedangkan
frequent item dimasukkan dan disusun dengan urutan menurun,
seperti yang terlihat pada tabel 1.
Pemindaian kedua, yaitu pembacaan TID pertama {a,b} akan
membuat simpul a dan b, sehingga terbentuk lintasan transaksi
Null→a→b. Support count dari setiap simpul bernilai awal 1
Setelah pembacaan transaksi kedua {b,c,d}, terbentuk lintasan kedua
yaitu Null→b→c→d. Support count masingmasing count juga
bernilai awal 1. Walaupun b ada pada transaksi pertama, namun
karena prefix transaksinya tidak sama, maka transaksi kedua ini
tidak bisa dimampatkan dalam satu lintasan.
Transaksi keempat memiliki prefix transaksi yang sama dengan
transaksi pertama, yaitu a, maka lintasan transaksi ketiga dapat
ditimpakan di a, sambil menambah support count dari a, dan
selanjutnya membuat lintasan baru sesuai dengan transaksi
ketiga.(lihat gambar 3)
Proses ini dilanjutkan sampai FP-tree berhasil dibangun berdasarkan
tabel data transaksi yang diberikan
Untuk menemukan frequent itemset dari contoh diatas, maka perlu ditentukan
upapohon dengan lintasan yang berakhir dengan support count terkecil, yaitu
e. Berturut-turut ditentukan juga yang berakhir di d,c,b, dan a. Proses
pembentukan dapat dilihat pada gambar berikut :
Contohnya, jika kita ingin menemukan semua frequent itemset yang berakhiran
e. Oleh karena itu, kita harus mengecek apakah support count dari e memenuhi
minimum support count ξ=2. Karena support count dari e adalah 3, dan 3≥ ξ,
maka e adalah item yang frequent.
Setelah mengetahui bahwa item e adalah item yang frequent, maka subproblem
selanjutnya adalah menemukan frequent itemset dengan akhiran de, ce, be, dan
ae. Dengan menggabungkan seluruh solusi dari subproblem yang ada, maka
himpunan semua frequent itemset yang berakhiran item e akan didapatkan.
Untuk lebih memperjelas, dapat dilihat contoh menemukan frequent itemset
yang berakhiran dengan item e di bawah ini
Karena nilai support count dari b adalah 1, yang berarti transaksi yang
mengandung b dan e hanya 1 transaksi, maka berdasarkan prinsip anti-
monotone heuristic, simpul b dan lintasan yang mengandung be dapat
dibuang, karena jika item b tidak frequent, maka setiap transaksi yang
berakhiran be juga tidak frequent. Terbentuk Conditional FP-tree untuk e,
seperti pada gambar 12.
IV. Kesimpulan
kesimpulan yang dapat ditarik dari penulisan makalah ini adalah FP-tree yang
terbentuk dapat memampatkan data transaksi yang memilki item yang sama,
sehingga penggunaan memori komputer lebih sedikit, dan proses pencarian
frequent itemset menjadi lebih cepat, Dengan menggunakan Algoritma FP
Growth, maka pemindaian kumpulan data transaksi hanya dilakukan dua kali,
jauh lebih efisien. FP-growth merupakan salah satu algoritma yang menjadi
dasar perkembangan beberapa algoritma baru yang lebih efektif, karena
kelebihannya yaitu tidak melakukan pemindaian data transaksi secara
berulangulang.
DAFTAR PUSTAKA
[2] Michael J.A. Berry and Gordon S. Linoff, Data Mining Techniques, 2nd ed.,
Wiley Publishing Inc., USA, 2004.
[3] Kusrini dan E. T. Luthfi. (2009). “Algoritma Data Mining”. Yogyakarta : Andi
Offset.
[4] Samuel, David. 2008. “Penerapan Struktur FPTree dan Algoritma FPGrowth
dalam Optimasi Penentuan Frequent Itemset”. Institut Teknologi
Bandung.
[5] Affriantari Rochmah, “Perancangan Fitur Rekomendasi Film Di Website Solo
Movie Dengan Menggunakan Metode Algoritma Apriori” : Pustaka uns,
2010.
[6] Kusrini and Emha Taufiq Luthfi, Algoritma Data Mining, 1st ed., Theresia Ari
Prabawati, Ed. Yogyakarta: ANDI, 2009.