Anda di halaman 1dari 5

PENGEMBANGAN ALAT BANTU PENAMBANGAN ATURAN ASOSIASI LANGKA

MENGGUNAKAN PENDEKATAN APIC (APRIORI INVERSE WITH CLUSTERING)

Benediktus Heru Dwiwangga


Jurusan Teknik Informatika
Universitas Sanata Dharma
Yogyakarta, Indonesia
Boysben28@yahoo.co.id

Abstract
Alat bantu penambangan aturan asosiasi langka sangat jarang
ditemukan, atau dapat dikatakan belum ada sama sekali [b].
Muncul beberapa gagasan untuk mulai menambang aturan
asosiasi langka dengan beberapa algoritma salah satunya adalah
APIC (Apriori Inverse With Clustering), mengingat pentingnya
aturan yang dihasilkan dalam proses penambangan data ini [2].
Alat bantu yang belum tersedia dan adanya gagasan dan algoritma
penambangan aturan asosiasi langka, maka dalam jurnal ini akan
dijelaskan bagaimana garis besar dari proses penambangan data
menggunakan algoritma APIC. Algoritma APIC dipilih karena
ketelitiannya dalam menambang aturan asosiasi langka [2], selain
itu APIC juga merupakan gabungan dari dua algoritma berbeda
yaitu Transaction Clustering dan Apriori Inverse. Dalam jurnal ini
akan dibahas mengenai alat bantu yang digunakan sebagai alat
untuk menambang aturan asosiasi langka yang bernama SIstem
Deteksi Aturan Asosiasi Langka (SDAAL). Jurnal ini dibagi
menjadi beberapa bagian, bagian pertama pada jurnal ini akan
mengenalkan tentang item langka dan algoritma apic, bagian
kedua akan menjelaskan bagaimana APIC bekerja menghasilkan
aturan asosiasi langka, bagian ketiga akan menjelaskan pengujian
keakuratan algoritma APIC untuk menambang aturan asosiasi
langka, dan yang keempat memaparkan tentang kesimpulan
pengujian.
KeywordsItem langka; APIC; SDAAL;
Clustering; Apriori Inverse; Asosiasi Langka;

I.

Transaction

PENDAHULUAN

Penambangan data (data mining) dapat diartikan sebagai


suatu proses ekstraksi informasi yang berguna dan potensial
dari sekumpulan data yang terdapat secara implisit dalam
suatu sistem penyimpanan basis data [3]. Terdapat beberapa
teknik penambangan data diantaranya klastering, klasifikasi,
dan asosiasi.
Asosiasi adalah salah satu teknik yang terkenal dan
banyak digunakan. Salah satu kegunaanya adalah mendeteksi
item, himpunan item, dan hubungan antar item dalam basis
data yang memiliki frekuesi kemunculan tinggi. Fokus dari
asosiasi adalah menemukan item dan himpunan item yang
sering kali muncul dalam transaksi yang terjadi dalam basis
data dan nantinya bisa diolah menjadi data penting yang bisa

digunakan sebagai pertimbangan dalam mengambil kebijakan.


Sebagai contoh pada bisnis perdagangan, asosiasi dapat
membantu dalam hal menentukan jenis barang yang harus
dijual dan merupakan jenis barang yang diminati oleh
pelanggan. Perhatian seringkali difokuskan pada item yang
sering muncul, padahal disamping item yang sering muncul
juga terdapat item yang jarang muncul (rare item).
Item langka (rare item) merupakan item yang jarang
terjadi dalam basis data. Meskipun Item langka jarang terjadi
dalam basis data, item ini memiliki pola atau aturan tersendiri
dalam basis data sama dengan item yang sering muncul dalam
basis data. Item langka yang ada dalam basis data dapat
membentuk aturan langka yang penting untuk diketahui dan
diamati.
Aturan langka (rare rules) adalah aturan yang bersifat
jarang terjadi dalam sebuah basis data berukuran besar akan
tetapi mengandung informasi penting yang kadang dilupakan
oleh pengguna atau pengamat basis data. Aturan langka perlu
ditambang karena aturan ini bisa jadi memuat informasi
penting. Dalam aturan asosiasi fokus terhadap aturan langka
sangat kecil karena item ini terjadi hanya pada lingkup
transaksi yang kecil dan terbatas, sehingga bagian ini jarang
tereksplorasi dalam proses penambangan aturan asosiasi
bahkan item ini dipangkas dari proses penambangan aturan
asosiasi. Namun dalam beberapa aplikasi terapan dari aturan
asosiasi mulai memperhatikan item langka karena item yang
berjumlah sedikit ini merupakan item penting dan perlu
mendapat perhatian khusus. Sebagai contoh dalam bidang
kedokteran, sudah banyak penyakit yang sudah ditemukan dan
sering terjadi seperti batuk, flu akan tetapi ada penyakit yang
jarang terjadi dan hanya terjadi dalam kurun waktu tertentu
seperti fenomena manusia akar. Dalam dunia komunikasi,
item langka dapat digunakan untuk mendeteksi kegagalan
komunikasi [2]. Berdasar pada alasan inilah maka muncul
proses penambangan aturan asosiasi langka (rare association
rule mining) yang digunakan untuk mendeteksi item,
himpunan item, dan hubungan antar item yang bersifat jarang
atau langka.
Tantangan dalam aturan asosiasi langka adalah
menemukan himpunan item yang memang terjadi karena

merupakan sesuatu yang jarang terjadi, bukan karena


kebetulan. Untuk menjawab tantangan ini muncul berbagai
macam pendekatan diantaranya APIC (Apriori Inverse with
Clustering), APICW (Weighted Apriori Inverse), dan masih
banyak algoritma lainnya.
Dari masalah yang muncul di atas mengenai item langka,
cara menentukan apakah himpunan item termasuk benar-benar
terjadi secara langka atau hanya kebetulan, maka perlu alat
bantu untuk melakukan proses penambangan aturan asosiasi
langka yang bisa membantu dalam proses pencarian aturan
langka dan item langka yang terkait. Karena belum adanya
alat bantu penambangan data yang dapat digunakan untuk
menangani proses penambangan aturan asosiasi langka, dan
item langka yang terkait [b], maka penulis berinisiatif untuk
mengatasi masalah tersebut dengan membangun sebuah
perangkat lunak penambangan data. Fungsi perangkat lunak
ini adalah untuk melakukan proses pendeteksian aturan
asosiasi langka dalam kumpulan data dengan menerapkan
algoritma APIC (Apriori Inverse with Clustering). Dengan
aturan (rule) yang ditemukan menggunakan algoritma ini
diharapkan agar permasalahan aturan langka bisa diselesaikan,
dan sistem ini bisa membantu mempermudah proses
penambangan aturan asosiasi langka yang masih belum ada
alat bantunya.
APIC (Apriori Inverse with Clustering) adalah sebuah
algoritma atau pendekatan yang digunakan untuk menambang
aturan langka. Alasan memilih algoritma APIC sebagai
algoritma yang digunakan dalam penelitian ini adalah
algoritma APIC merupakan penyempurnaan dari algoritma
apriori inverse. Algoritma apriori inverse yang bersumber
pada minimum support (MinSup) mengakibatkan ledakan
kombinatorial aturan yang dihasilkan, sehingga untuk
mengatasi masalah tersebut disempurnakanlah algoritma
apriori inverse menjadi algoritma APIC. Algoritma APIC
mengatasi ledakan kombinatorial aturan yang dihasilkan dalam
proses apriori inverse dengan cara mengkombinasikan
algoritma apriori inverse dengan algoritma transaction
clustering. Selain alasan tersebut, alasan utama memilih
pendekatan APIC (Apriori Inverse with Clustering) adalah
berdasarkan riset dan data set nyata yang dilakukan terbukti
bahwa APIC (Apriori Inverse with Clustering) mempunyai
kemampuan untuk menghasilkan aturan dengan tingkat
keakuratan yang teliti dan tepat [2].
II.

APIC (APRIORI INVERSE WITH CLUSTERING)

A. Transaction Clustering
First, confirm that you have the correct template for
your paper size. This template has been tailored for output on
the A4 paper size. If you are using US letter-sized paper,
please close this file and download the file
MSW_USltr_format. Proses transaction clustering Terdiri
dari dua tahap yaitu seed generation phase dan allocation
phase, dimana setiap tahap memiliki langkah kerja yang
berbeda. Berikut adalah langkah kerja detil dari setiap tahap
dalam proses transaction clustering:
1.

Seed Generation Phase

Tahap seed generation phase terdiri dari beberapa


langkah detil yang bertujuan untuk menghasilkan seed
sebagai inisialisasi titik pusat awal klaster. Tahap Berikut
adalah langkah langkah dari tahap seed generation
phase:

Gambar 1. Algoritma Seed Generation Phase [2]

2. Allocation Phase
Tahap allocation phase terdiri dari beberapa langkah detil
yang bertujuan untuk menempatkan transaksi dalam
dataset kedalam klaster sehingga menghasilkan klaster
secara optimum dengan anggota kelompok yang tepat dan
sesuai dengan titik pusat dari setiap klaster yang tersedia.
Berikut adalah langkah langkah dari tahap allocation
phase:

Gambar 2. Algoritma Allocation Phase [2]


B. Apriori Inverse
Proses Apriori inverse hampir sama dengan proses pada
apriori, yang membedakan adalah nilai minimum support
diganti dengan minimum absolute support, selain itu terdapat
maximum support sebagai pembatas perluasan item pada
proses apriori inverse. Apriori inverse adalah langkah lanjutan
setelah proses transaction clastering. Algoritma apriori inverse
diterapkan kedalam setiap klaster yang ada, sehingga aturan
langka dapat dihasilkan dari setiap klaster. Apriori inverse
menggunakan maximum support untuk mengumpulkan large
itemset dan membatasi agar tidak terjadi pembengkakan jumlah
itemset, dan menggunakan MinAbsSup untuk melakukan
pemangkasan itemset yang tidak diperlukan dalam proses
pembentukan aturan. Berikut adalah algoritma apriori inverse:

D. Flowchart Transaction Clustering dan Apriori Inverse


1. Transaction Clustering
start

Data.xls
Data basis data

Cari kandidate klarge itemset

k++

Iterasi i=1, k=1,


minsup threshold
sistem

Hitung nilai relative


support, chi square
setiap kandidat

Cari kandidat 1large itemset


iya
Cek setiap kandidat
apakah memenuhi persyaratan

Iya
Cek support
kandidat>=minsup
threshold system

Gambar 3. Algoritma Apriori Inverse [2]

tidak

C. Tampilan Antar Muka


Alat bantu penambangan aturan asosiasi langka dikembangka
berdasar pada algoritma APIC yang merupakan gabungan dari
2 algoritma berbeda, maka hasil yang didapat akan sangat
akurat. Alat bantu ini diberi nama Sistem Deteksi Aturan
Asosiasi Langka (SDAAL). Berikut adalah tampilan antar
muka halaman utama alat bantu ini:

Simpan anggota klarge itemset terakhir


yang dihasikan dan
jadikan sebagai
centroid awal klaster

Tidak

Hitung nilai similarity


transaksi terhadap centroid
klaster yang terbentuk,
menggunakan persamaan

Cari kandidat 1-large item


dengan cara mencari item
dalam setiap klaster yang
memiliki suppport >= minsup
threshold sistem

Set nilai optimum


=0

Iterasi i++

Iya

Cek apakah nilai optimum


klaster iterasi i >nilai
optimumklaster iterasi i-1

Hitung nilai optimum klaster


saat ini menggunakan
persamaan

tidak

end

Gambar 4. Halaman Utama


Selain halaman utama, juga terdapat halaman untuk
melakukan penambangan aturan asosiasi langka. Berikut
adalah halaman deteksi data untuk proses penambangan aturan
asosiasi langka:

Simpan setiap
klaster dan
anggotanya dari
iterasi yang
terakhir

Gambar 6. Flowchart Transaction Clustering


2.

Apriori Inverse
Start

Cluster .xls

Cari k-large itemset dengan


menghitung pcc dan minabssup
masing-masing pasangan item (
kandidat 2-large itemset) dengan
menggunakan persamaan
dan
Cek apakah ada
kandidat item memiliki
support > minabsup
<maxsup ?

k=1, maximum
support

Cari kandidat item


k-large itemset
tidak

Cek support item <


maximum support

iya

k++

Hitung nilai confidence


large itemset yang
Iya memenuhi syarat dengan
persamaan

tidak

end

Gambar 5. Halaman Deteksi Data

Aturan asosiasi
langka

Gambar 7. Flowchart Apriori Inverse

III.

UJI COBA

Untuk menguji seberapa tepat algoritma APIC dapat


menemukan aturan asosiasi langka, maka dilakukan beberapa
proses pengujian salah satunya adalah uji validitas.
Uji validitas dilakukan dengan cara melakukan pengujian
program dengan menggunakan dataset yang berbeda, kemudian
membandingkan hasilnya dengan perhitungan manual dan
jurnal ilmiah tentang rare association rule mining [2]. Jika
hasilnya sesuai, maka dapat disimpulkan bahwa program ini
valid untuk melakukan penambangan aturan asosiasi langka.
Berikut adalah hasil pengujian program ini:
Tabel 1. Hasil Pengujian Validitas Program SDAAL,
menggunakan 3 dataset .

Dimana, aturan unik adalah aturan yang tidak terduplikasi, atau


aturan yang terduplikasi akan tetapi hanya dihitung satu kali.
Hasil dari pengujian pada tabel 1 didapat dengan cara
melakukan kombinasi terhadap atribut penambangan data pada
proses penambangan aturan asosiasi langka. Berikut adalah
atribut penambangan aturan asosiasi langka:
A. Minimum Support Threshold System
Minimum support threshold sistem digunakan untuk
mencari 1-large itemset pada proses transaction clustering.
Setiap item dalam transaksi yang memiliki support >=
minimum support threshold sistem digolongkan menjadi large
item yang digabungkan menjadi 1-large itemset.
B. Minimum Support
Minimum Support merupakan batas support yang digunakan
untuk mencari 2-large itemset pada proses transaction
clustering. Minimum Support ditentukan oleh pengguna sistem
dan digunakan untuk membatasi perluasan itemset yang berasal
dari penggabungan dua item berbeda pada large itemset
sebelumnya. Minimum Support dalam proses transaction
clustering disebut user difine support threshold.
C. Maximum Support
Maximum Support merupakan batas support tertinggi yang
harus dimiliki oleh item agar bisa masuk dalam large itemset
pada proses pencarian rule dari setiap klaster menggunakan
apriori inverse. Item yang memiliki nilai support di atas
maxsup akan dihapus dari kandidat item pembentuk aturan
asosiasi langka.

D. Maximum Confidence
Maximum confidence digunakan untuk membatasi jumlah
aturan yang muncul dalam klaster. Hanya aturan yang memiliki
nilai confidence >= maxconf yang ditentukan sebagai aturan
langka.
IV.

HASIL DAN KESIMPULAN

Hasil dari uji coba ini adalah bahwa program SDAAL secara
valid dapat menemukan aturan asosiasi langka dalam
kumpulan data. untuk kesimpulan secara keseluruhan adalah
sebagai berikut:
1.

Alat bantu penambangan aturan asosiasi langka yang


bernama SDAAL (Sistem Deteksi Aturan Asosiasi
Langka) telah berhasil dikembangkan. SDAAL
merupakan aplikasi yang dapat digunakan sebagai alat
bantu penambangan aturan asosiasi langka yang dapat
mencari aturan langka dalam kumpulan data dengan
menggunakan algoritma APIC (Apriori Inverse with
Clustering), dimana aplikasi ini sudah dapat
menghasilkan aturan asosiasi langka sesuai dengan yang
diharapkan.
2. Penentuan nilai awal dari support threshold system dan
user define threshold sangat berpengaruh terhadap
pembentukan large itemset yang nantinya akan menjadi
titik pusat awal klaster pada tahap transaction cluster.
3. Aturan asosiasi langka yang dihasilkan tergantung pada
besar kecilnya nilai atribut penambangan data khususnya
minimum support threshold system, dan minimum
support.
4. Kenaikan nilai minimum confidence menghasilkan jumlah
klaster yang tetap untuk masing masing dataset,
sedangkan jumlah aturan asosiasi langka yang dihasilkan
semakin sedikit.
5. Perubahan nilai dari minimum support threshold system
menghasilkan jumlah klaster dan jumlah aturan langka
yang polanya tidak bisa diperkirakan, bisa naik atau bisa
juga turun.
Selain itu program ini juga memiliki beberapa kelebihan dan
kelemaha, berikut adalah daftar kelebihan dan kelemahan
sistem SDAAL :
a.

b.

Kelebihan SDAAL
1. Sistem terhubung dengan basis data MySQL.
2.

Sistem dapat membaca file berekstensi .xls dan data


yang berasal dari basis data.

3.

Sistem dapat menghasilkan aturan asosiasi langka dari


data yang dimasukkan kedalam sistem

Kelemahan SDAAL
1. Sistem tidak bisa melakukan preproses data, sehingga
data yang akan ditambang dalam sistem harus
mengalami preproses diluar sistem.

2.

Sistem tidak menerima masukan data berupa file docx,


arff, dll atau dengan kata lain sistem hanya bisa
menerima masukan data dengan ekstensi tertentu.

3.

Proses penambangan aturan


membutuhkan waktu lama.

asosiasi

langka

4.

Sistem ini tidak dapat membaca data yang memiliki


ukuran >=1MB.

[3]
[4]

[5]
[6]

REFERENCES
[1]

[2]

Han, Jiawei., Micheline Kamber., dan Jian Pei. 2006. Data Mining:
Concepts and Techniques 2nd Edition. Amsterdam: Morgan Kaufmann
Publishers.
Koh, Yun Sing., dan Russel Pears. 2010. A Multi Methodological
Approach to Rare Association Rule Mining. New York: IGI Global.

Han, Jiawei., Micheline Kamber., dan Jian Pei. Data Mining: Concepts
and Techniques 3rd Edition. Amsterdam: Morgan Kaufmann Publishers.
Koh, Yun Sing., dan Nathan Rountree. 2010. Image Rare Association
Rule Mining and Knowledge Discovery: Technologies for Infrequent
and Critical Event Detection. New York: IGI Global.
Pressman, Roger S. 2002. Rekayasa Perangkat Lunak Pendekatan
Praktisi. Yogyakarta: Penerbit Andi.
Washio, Takashi., Suzuki, Einoshin., Kai ming, Ting., dan Inokuchi,
akihiro. 2008. Advance in Knowledge Discovery and Data Mining.
Osaka: Springer-Verlag Berlin Heidelberg.

Websites:
[a] Donald Bren School of Information and Computer Sciences. California.
Dipungut
20
Oktober,
2012,
dari
http://www.archive.ics.uci.edu/ml/machine-learning-databases.
[b] Software Suites for Data Mining, Analytics, and Knowledge Discovery.
Dipungut
15
Agustus,
2012,
dari
http://www.kdnuggets.com/software/suites.html.

Anda mungkin juga menyukai