Tugas 1

Siti Sholikah/32/14.
8387
Judul Jurnal: “Efficiently Mining Long Pattern from Database”
Abtrak
Penulis menyajikan algoritma untuk menemukan pola yang memiliki skala kasar
secara linear dalam jumlah pola maksimal yang tertanam dalam database terlepas dari jumlah
pola terpanjang. Sebagai perbandingan, disajikan pula algoritma berdasarkan Apriori yang
berskala eksponensial untuk data yang memiliki pola terpanjang juga. Eksperimen pada data
menunjukkan bahwa ketika data berpola panjang, algoritma akan lebih efisien dengan cara
diurutkan berdasarkan besarnya.
1. Latar Belakang
Pekerjaan menemukan pola dalam database adalah operasi mendasar dalam data
mining termasuk aturan asosiasi dan menemukan pola yang berurutan. Untuk sebagian besar,
algoritma menemukan pola yang berurutan telah dikembangkan untuk dioperasikan pada
database dimana pola terpanjang relatif pendek. Metode ini menyisakan data yang tidak dapat
dieksplorasi dengan teknik terkini. Kumpulan data yang menarik dengan pola panjang
termasuk hasil kuesioner (orang cenderung menjawab pertanyaan dengan jawaban yang
sama), transaksi penjualan yang merinci pembelian yang dilakukan oleh pelanggan dalam
kurun waktu yang lama, dan data biologis untuk analisis tentang DNA dan protein. Sebagian
besar dataset yang nilainya kategorik digunakan untuk masalah klasifikasi (contoh kampanye
target pemasaran) juga cenderung memiliki pola yang panjang karena mengandung banyak
item yang sering terjadi dan memiliki panjang rekaman rata-rata yang panjang.
Hampir setiap algoritma untuk menemukan pola adalah variasi dari metode Apriori.
Dua jurnal baru-baru ini menunjukkan bahwa algoritma menyerupai Apriori tidak memadai
untk diterapkan pada data dengan pola panjang. Brin et al menerapkan peraturan untuk
asosiasi pada DIC kedalam suatu dataset yang terdiri dari data sensus PUMS. Untuk
mengurangi perbedaan dataset ini, mereka menghapus semua item yang muncul lebih dari
80% transaksi, namun masih dapat menemukan pola secara efisien. Penulis sebelumnya telah
menerapkan algoritma Apriori ke beberapa dataset dari Irvine Machine Learning Databaset
Repository. Untuk menemukan pola data secara efisien, algoritma Aproriori terkadang
menerapkan strategi pemangkasan yang membuat pencarian tidak lengkap.
Apriori melibatkan tahapan-tahapan untuk menemukan pola yang disebut sebagai
frequent itemset. Itemset yang frekuen adalah kumpulan item yang muncul secara bersama
dalam sejumlah catatan database yang memenuhi ambang batas yang ditentukan oleh
pengguna. Apriori menggunakan pencarian dari bawah ke atas untuk menghitung setiap
itemset tunggal. Hal ini menyiratkan bahwa untuk menghasilkan itemset yang frekuen dengan
panjang l, metode ini harus melakukan 2l dari subsetnya. Kompleksitas eksponensial ini pada
dasarnya membatasi algoritma Apriori lebih bagus digunakan untuk menemukan pola yang
pendek.
Untuk mengatasi masalah ini, jurnal ini mengusulkan algoritma Max-Miner untuk
mengekstraksi itemset yang benar-benar frekuen, dimana itemset dikatakan maksimal jika
tidak memiliki superset yang frekuen. Karena itemset yang frekuen adalah subset dari itemset
frekuen yang maksimal (maximal frequent itemset), output Max-Miner secara implisit dan
ringkas mewakili semua itemset yang frekuen. Max-Miner terbukti menghasilkan dua atau
lebih urutan besarnya dalam peningkatan performa Apriori pada beberapa dataset. Pada
dataset yang lain dimana pola tidak terlalu panjang, metode ini tidak terlalu bagus. Pada
praktiknya, Max-Miner ditunjukkan untuk berjalan dalam waktu yang kira-kira linear dalam
itemset frekuen maksimal dan ukuran database terlepas dari ukuran itemset frekuen
terpanjang.
Max-Miner berhasil karena metode ini mengabaikan aturan pencarian dari bawah ke
atas yang ketat pada ruang pencarian, dan justru mencoba untuk “look ahead” untuk segera
mengidentifikasi itemset yang frekuen. Dengan mengidentifikasi itemset yang frekuen sejak
awal, Max-Miner dapat memangkas semua subset dari pertimbangan. Max-Miner
menggunakan heuristik untuk menyempurnakan pencariannya dalam upaya mengidentifikasi
itemset yang frekuen sedini mungkin. Metode ini juga menggunakan teknik yang bisa
menentukan kapan kandidat itemset adalah frekuen sebelum mengakses database. Idenya
adalah dengan menggunakan informasi yang dikumpulkan selama melewati database untuk
menghitung batas bawah yang baik pada jumlah transaksi yang mengandung itemset.
Teknik yang diperkenalkan penulis dalam jurnal lebih fleksibel dan dapat diperluas
dengan berbagai cara dan dapat diterapkan pada algoritma lainnya. Untuk menunjukkan hal
ini, penulis mengoptimalkan metode Apriori dengan teknik lowerbounding yang disebutkan
di atas. Sementara itu, keterbatasan dari metode Apriori mengenai panjang pola tetap ada,
adapun cara meningkatkan kinerja dengan mengurutkan besaran pada beberapa dataset.
Penulis juga menunjukkan bagaimana Max-Miner dapat diperluas untuk mengeksploitasi
kendala pola tambahan selama pencariannya dengan menciptakan varians yang
mengidentifikasi bahwa itemset frekuen yang maksimal lah yang bisa berada dalam dataset.
Algoritma ini secara efisien dapat mengidentifikasi semua itemset frekuen maksimal yang
paling panjang bahkan ketika ruang dari semua itemset frekuen yang maksimal itu sendiri
sangat besar.
2. Penelitian Terkait
Terdapat banyak variasi dari metode Apriori yang beragam dalam mengecek kandidat
itemset dalam database. Apriori dalam bentuk aslinya memeriksa panjang frekuensi itemset l
ketika database melewati l. DIC lebih bersemangat dan mulai memeriksa itemset sesaat
setelah semua himpunan bagiannya telah ditentukan sebaga frekuen, daripada harus
menunggu semua itemset lulus pemeriksaan database. Partisi mengidentifikasi semua itemset
yang frekuen dan membaginya kedalam beberapa bagian dan kemudian mengecek lagi.

Tugas 1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Siti Sholikah/32/14.

Judul Jurnal: “Efficiently Mining Long Pattern from Database”

Anda mungkin juga menyukai