Anda di halaman 1dari 24

LAPORAN PERSENTASI

MATA KULIAH DATA MINING AND DATA WAREHOUSE

ASOSIASI DENGAN PENGGUNAAN ALGORITMA APRIORI DAN


PENGAPLIKASIAN DENGAN ALGORITMA FP-GROWTH

Dosen Pembimbing :

Rizki Kurniati, M.T.

Oleh :

Aisyah Utari (09021181520122)


Destrilia (09021181520008)
Desi Triyeni (09021181520034)
Fitria Khoirunnisa (09021181520130)
Genda Ananta Rahmat (09021281520110)
Misbahudin Munadi (09021281520118)
Muhammad Albar (09021281520116)
Vira Melinda (09021181520038)

UNIVERSITAS SRIWIJAYA
FAKULTAS ILMU KOMPUTER
TEKNIK INFORMATIKA
2018
ii

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan

rahmat serta hidayah-Nya sehingga penyusunan laporan yang berjudul “Asosiasi

dengan Penggunaan Algoritma Apriori dan Pengaplikasian dengan Algoritma FP-

Growth” sebagai tugas dari mata kuliah Data Mining and Data Warehouse dapat

diselesaikan walaupun dalam proses penyusunannya, penulis sering mengalami

berbagai hambatan namun Alhamdulillah laporan ini dapat diselesaikan tepat pada

waktunya.

Secara khusus ucapkan terima kasih penulis sampaikan kepada Ibu Rizki

Kurniati, M.T. selaku dosen mata kuliah Data Mining and Data Warehouse yang

telah membimbing dan memberikan materi kuliah demi menyelesaikan tugas ini.

Dalam kesempatan ini pula, penulis mengucapkan terima kasih kepada semua

pihak yang ikut serta atas sumbangan pemikiran dan pengalaman dalam penulisan

laporan ini.

Akhir kata penulis berharap semoga laporan ini bermanfaat bagi diri kami dan

pembaca. Penulis menyadari bahwa makalah ini belum sempurna sehingga kritik

dan saran dari teman-teman yang positif dan dapat membangun sangat kami

harapkan guna menyempurnakan laporan ini.

April 2018

Penulis
BAB I

PENDAHULUAN

1.1 Latar Belakang

Dalam pengolahan data, untuk mendapatkan informasi tambahan yang

tidak diketahui secara manual dari suatu basisdata dapat dilakukan dengan

penggalian pola-pola dari data. Hal ini bertujuan tujuan untuk memanipulasi data

menjadi informasi yang lebih berharga dengan cara mengekstraksi dan mengenali

pola yang penting atau menarik dari data yang terdapat dalam basisdata. Proses

penggalian ini disebut juga data mining.

Penggalian informasi (information harvesting) merupakan salah satu cara

yang efektif untuk mengetahui adanya serangkaian pola informasi dari sejumlah

data. Pola asosiasi menjadi salah satu hal yang paling menarik dalam penggalian

data. Dikatakan menarik karena sudah banyak diterapkan dalam kehidupan

manusia sehari-hari, terutama yang berhubungan dengan bisnis. Pola asosiasi

dipakai untuk menentukan himpunan data yang paling sering muncul (frequent

itemset) secara bersamaan pada kumpulan data.

Adapun salah satu pendekatannya, yakni FP-Growth. FP-growth memakai

pendekatan yang berbeda dari paradigma Apriori yaitu anti-monotone Apriori

Heuristic: Setiap pola dengan panjang K yang tidak sering muncul (tidak

frequent) dalam kumpulan data, maka pola dengan panjang (k+1) yang

mengandung sub pola K tersebut tidak akan menjadi frequent. Dasar Apriori

adalah dengan mencari himpunan kandidat dengan panjang (k+1) dari

1
sekumpulan pola frequent dengan panjang k, lalu mencocokkan jumlah

kemunculan pola tersebut dengan informasi yang terdapat dalam database. Hal ini

mengakibatkan pen-scanning-an database yang berulang-ulang, yang

membutuhkan waktu yang relatif lebih lama karena proses scan tersebut.

Dalam mengaplikasikan metode asosiasi dalam kasus Market Basket

Analysis, dapat diterapkan dengan menggunakan algorima Apriori atau algoritma

FP-Growth yang merupakan pengembangan dari algoritma Apriori. Penentuan

item-item yang saling mempunyai nilai keterkaitan untuk mencapai suatu business

objective yang akan dikembangkan di dalam dunia nyata dengan memanfaatkan

data yang ada sehingga menghasilkan sebuah pengetahuan atau informasi yang

dapat berguna bagi kehidupan.

1.2 Rumusan Masalah

Berdasarkan dari latar belakang yang sudah dipaparkan, rumusan masalah

dari tugas ini adalah Bagaimana penerapan algoritma Apriori dan FP-Growth

dalam menghasilkan suatu pengetahuan, untuk menjawab pertayaan tersebut,

diuraikan beberapa pertanyaan penelitian sebagai berikut :

1. Bagaimana cara mengenali karakteristik data?

2. Algoritma apa yang dipakai untuk melakukan mencari item yang

keluar secara bersamaan ?

3. Bagaimana langkah yang dilakukan dalam proses pembelajaran yang

digunakan dalam implementasi ke komputer ?


1.3 Tujuan

Tujuan dari laporan ini adalah :

1. Memahami cara mengenali karakteristik data

2. Mengetahui penggunaan metode data mining dalam asosiasi, secara

khusus menentukan itemset yang keluar secara bersamaan

3. Mengetahui proses pembelajaran yang dilakukan mesin dalam membentuk

model yang dpaat dipakai untuk asosiasi barang

1.4 Batasan Masalah

Batasan masalah dari laporan ini yakni;

1. Data berbentuk binomial.

2. Algoritma yang dipakai adalah Apriori dan FP Growth

3. Pre-processing data dengan menggunakan Rapid Miner.


BAB II

KAJIAN PUSTAKA

2.1 Data Mining

Data Mining diartikan sebagai proses mencari pola dalam suatu data (Witten,

2011). Data Mining merupakan serangkaian proses menggali informasi yang

selama ini tidak diketahui dengan manual dari suatu data, dengan menggali pola-

pola data dengan tujuan memanipulasi data menjadi informasi yang lebih berharga

yang diperoleh dengan mengekstraksi dan mengenali pola yang penting atau

menarik dari data.

Data Mining merupakan proses pengekstraksian informasi dari kumpulan-

kumpulan data yang sangat besar dengan memakai algoritma dan teknik penarikan

dalam bidang statistik, pembelajaran mesin, dan sistem manajemen basis data

(Shyara, 2013).

Dari beberapa definisi tersebut, dapat disimpulkan bahwa hal penting yang

terkait dengan data mining adalah :

a. Yang diproses merupakan data yang sangat besar,

b. Data Mining merupakan suatu proses knowledge from pattern, merupakan

suatu proses pencarian pola, ekstraksi pengetahuan, pemanenan informasi

dari data

c. Tujuan data mining adalah mendapatkan hubungan atau pola yang

mungkin memberikan indikasi yang bermanfaat.

2.2 Tahap-Tahap Data Mining

5
Data Mining dapat dibagi menjadi beberapa tahap proses. Tahap-tahap Data

Mining adalah sebagai berikut (Susanti dan Meilani, 2014) :

a. Pembersihan data (Data Cleaning)

Pembersihan data merupakan proses penghilangan noise dan data yang

tidak konsisten,

b. Integrasi data (Data Integration)

Integrasi data adalah tahap penggabungan data dari berbagai database ke

dalam satu database baru,

c. Seleksi data (Data Selection)

Seleksi data adalah proses pemilihan data dari banyak data di database

yang sesuai dan relevan terhadap task yang dilakukan,

d. Transformasi data (Data Transformation)

Transformasi data merupakan proses perubahan data atau digabung ke

dalam format yang sesuai untuk diproses dalam Data Mining,

e. Proses Mining (Data Mining)

Proses mining merupakan proses penerapan suatu metode untuk

menemukan pengetahuan berharga atau pattern tersembunyi dari data,

f. Evaluasi Pola (Pattern Evaluation)

Evaluasi pola adalah proses mengidentifikasi pola-pola menarik ke dalam

knowledge based yang ditemukan,

g. Presentasi pengetahuan (Knowledge Presentation)

Presentasi pengetahuan merupakan proses visualisasi dan penyajian

pengetahuan untuk memperoleh pengetahuan.


2.3 Metode Data Mining

Ada beberapa metode dalam data mining diantaranya :

1. Asosiasi

Asosiasi juga disebut sebagai Market Basket Analysis, yang tugasnya

menemukan atribut yang muncul dalam satu waktu. Asosiasi banyak

dipakai dalam bisnis untuk menganalisa tabel transaksi penjualan dan

mengidentifikasi produk-produk yang dibeli secara bersamaan (Kusrini

dan Emha Taufiq Luthfi, 2009),

2. Klustering

Klustering adalah metode data mining yang mengelompokkan record,

pengamatan, atau memerhatikan, dan membentuk kelas objek-objek yang

punya kemiripan. Klustring merupakan kumpulan-kumpulan dari record

yang memiliki kemiripan satu dengan yang lain dan mempunyai

ketidakmiripan dengan record-record di kluster lain.

Klustering bersifat unsupervised, karena tidak ada satu atributpun yang

digunakan untuk memandu proses pembelajaran, jadi seluruh atribut

input diperlakukan sama (Kusrini dan Emha Taufiq Luthfi, 2009),

3. Klasifikasi

Klasifikasi adalah proses penemuan model atau fungsi yang menjelaskan

atau juga membedakan kelas dari data, dengan tujuan memperkirakan

kelas dari suatu objek.(Han dan Kamber, 2011),

4. Prediksi
Prediksi adalah proses perkiraan berdasarkan pola-pola di dalam

sekumpulan data. Prediksi menggunakan beberapa variabel atatu field-

field basis data untuk memprediksi nilai-nilai variabel masa mendatang

yang diperlukan, yang belum diketahui saat ini. Prediksi hampir sama

dengan klasifikasi dan estimasi, bedanya hasil prediksi nilai dari hasil

akan ada di masa mendatang (Kusrini dan Emha Taufiq Luthfi, 2009),

5. Estimasi

Estimasi adalah proses memperkirakan suatu hal dari sejumlah sample

yang kita miliki(yg tidak kita ketahui). Estimasi hampir sama dengan

klasifikasi, kecuali variable target. Estimasi lebih kearah numerik

daripada kearah kategori (Kusrini dan Emha Taufiq Luthfi, 2009).

2.4 Asosiasi

Seperti yang telah djelaskan sebelumnya. asoasiasi juga disebut sebagai

Market Basket Analysis, adalah teknik yang tugasnya menemukan atribut yang

muncul dalam satu waktu yang dipakai dalam bisnis untuk menganalisa tabel

transaksi penjualan dan mengidentifikasi produk yang dibeli bersamaan.

Asosiasi biasanya memakai pola jika (if) yang mewakili antecedent dan

maka(then) yang mewakili consequent, bersamaan dengan pengukuran

support dan confidence yang terasosiasi dalam aturan.

2.4.1 Algoritma Asosiasi

Beberapa algoritma pada metode Asosiasi diantaranya :


1. Apriori

Apriori adalah salah satu algoritma asosiasi. Apriori dipakai untuk

mereduksi number dari itemset untuk pencarian frrequent itemset.

Algoritma apriori bersifat association-rule mining, apriori melakukan

pencarian iterative pada itemset, dengan mulai dari satu itemset, dua

itemsets, tiga itemsets, dan seterusnya. Cara kerja algoritma ini adalah

1. Temukan semua data yang terdiri dari satu-itemset, L1,

2. Temukan diantara mereka set frequent untuk 1 itemset,

3. Kemudian ke-iterasi kedua, yakni untuk dua itemsets, L2,

4. Temukan diantara data set freuent dari 2 itemsets,

5. Ulangi proses samapai L3, L4, dan seterusnya

Berdasar teori apriori, maka tiap iterasi, jika tidak memenuhi

minimum support maka akan dihapus (Chapman dan Hall, 2008).

2. FP Growth

FP Growth adalah metode asosiasi pengembangan dari Apriori yang

meng-improve efisiensi Algoritma Apriori. FP Growth merupakan

algoritma yang memakai tree. Tidak seperti Apriori yang scan data

sebanyak K times, dimana K merupakan maksimum cardinality dari

frequent patterns yang ditemukan, FP Growth scan data sebanyak dua

kali. (Vishal). FP Growth dibangun dengan tree. FP-tree dibangun

dengan memetakan setiap data transaksi ke dalam setiap lintasan


tertentu dalam FP-tree. Karena dalam setiap transaksi yang dipetakan,

mungkin ada transaksi yang memiliki item yang sama, semakin banyak

data transaksi yang memiliki item yang sama, maka proses

pemampatan dengan struktur data FP-tree semakin efektif.

Misal I= {a1, a2, …, an} adalah kumpulan dari item. Dan basis data

transaksi DB = {T1, T2,…, Tn}, di mana Ti (i € [1..n]) adalah

sekumpulan transaksi yang mengandung item di I.

Sedangkan support adalah penghitung (counter) frekuensi kemunculan

transaksi yangmengandung suatu pola. Suatu pola dikatakan sering

muncul ( frequent pattern) apabila support dari pola tersebut tidak

kurang dari suatu konstanta ξ (batas ambang minimum support) yang

telah didefinisikan sebelumnya. Permasalahan mencari pola frequent

dengan batas ambang minimum support count ξ inilah yang dicoba

untuk dipecahkan oleh FP-Growth dengan bantuan Struktur FP-tree


BAB III

PEMBAHASAN

3.1.Konsep Association Rules dalam Data mining

Penggalian kaidah asosiasi adalah salah satu teknik data mining

untuk menemukan kaidah asosiasi antara suatu kombinasi item, (Agrawal

et.al,1993). Fungsi Association rules “Market Basket Analysis”,

menentukan kombinasi diantara himpunan item. Market Basket Analysis

adalah kebiasaan membeli konsumen dengan mencari asosiasi dan

kombinasi antara item-item berbeda.

Secara umum association rule mempunyai bentuk : LHS => RHS

dimana LHS dan RHS tersebut adalah himpunan item; jika setiap item-

item dalam LHS terdapat dalam transaksi maka item-item dalam RHS

juga terdapat dalam transaksi. Aturan asosiasi biasanya dinyatakan dalam

bentuk(Kusrini, Luthfi, 2009):

{A,B} => {C} (support = 10%, confidence = 50%)

Association Rules:

 Pola “jika (if) “ mewakili antecendent dan “maka (then)” mewakili

consequent.

 Pengukuran support (converage) dan confidence (accuration) yang

terasosiasi dalam aturan.

Support dari suatu association rule adalah presentasi kombinasi

item tersebut dalam database, dimana jika mempunyai item A dan item
B maka support adalah proporsi dari transaksi dalam database yang

mengandung A dan B. Rumus untuk menghitung nilai support dari dua

item tersebut adalah sebagai berikut(Kusrini, Luthfi, 2009; Kusumo,

Bijaksana, & Darmantoro, 2016):

Rumus untuk menghitung nilai support dari 1 item:

Rumus untuk menghitung nilai support dari 2 item

Confidence dari association rule adalah ukuran ketepatan suatu

rule, yaitu presentasi transaksi dalam database yang mengandung A dan

mengandung B. Dengan adanya confidence kita dapat mengukur kuatnya

hubungan antar-item dalam association rule. Rumus untuk menghitung

nilai confidence dari dua item tersebut adalalah sebagai berikut(Kusrini,

Luthfi, 2009; Kusumo et al., 2016):

Confidence = P( B | A )
3.2.Frequent Pattern-Growth (FP-Growth)

FP Growth adalah metode asosiasi pengembangan dari Apriori

yang meng-improve efisiensi Algoritma Apriori. FP Growth merupakan

algoritma yang memakai tree. Tidak seperti Apriori yang scan data

sebanyak K times, dimana K merupakan maksimum cardinality dari

frequent patterns yang ditemukan, FP Growth scan data sebanyak dua

kali. (Vishal). FP Growth dibangun dengan tree. FP-tree dibangun dengan

memetakan setiap data transaksi ke dalam setiap lintasan tertentu dalam

FP-tree. Karena dalam setiap transaksi yang dipetakan, mungkin ada

transaksi yang memiliki item yang sama, semakin banyak data transaksi

yang memiliki item yang sama, maka proses pemampatan dengan struktur

data FP-tree semakin efektif.

Metode FP-Growth dapat dibagi menjadi 3 tahapan utama yaitu

sebagai:

1. Tahap pembangkitan conditional pattern base.

2. Tahap pembangkitan conditional FP-Tree.

3. Tahap pencarian frequent itemset.

Ketiga tahap tersebut merupakan langkah yang akan dilakukan untuk

mendapat frequent itemset

Misal I= {a1, a2, …, an} adalah kumpulan dari item. Dan basis

data transaksi DB = {T1, T2,…, Tn}, di mana Ti (i € [1..n]) adalah

sekumpulan transaksi yang mengandung item di I.

Sedangkan support adalah penghitung (counter) frekuensi kemunculan


transaksi yangmengandung suatu pola. Suatu pola dikatakan sering

muncul ( frequent pattern) apabila support dari pola tersebut tidak kurang

dari suatu konstanta ξ (batas ambang minimum support) yang telah

didefinisikan sebelumnya. Permasalahan mencari pola frequent

dengan batas ambang minimum support count ξ inilah yang dicoba untuk

dipecahkan oleh FP-Growth dengan bantuan Struktur FP-tree

3.3.Penerapan Data Mining Association Rules

3.3.1. Penerapan Asosiasi dengan Algoritma FP-Growth

Pada kasus mengenai “Strategi Promosi Pendidikan” dipakai algoritma FP

Growth, dengan alasan:

1. Tidak perlu scan untuk tiap iterasi seperti Apriori (tidak scan data

sebanyak Apriori)

2. Proses komputasi lebih cepat dibandingkan Apriori

3. Lebih menghemat waktu

Adapun tahapan algoritma FP Growth dibagi menjadi tiga tahapan utama,

yakni:

1. Tahap pembangkitan conditional pattern base

Conditional Pattern Base merupakan sub-database yang berisi

lintasan prefix dan juga suffix pattern (pola akhiran). Pembangkitan

conditional pattern base didapatkan melalui FP-tree yang dibangun

sebelumnya,

2. Tahap pembangkitan conditional FP-Tree.


Pada tahap ini, support count tiap item pada tiap conditional

pattern base dijumlahkan, kemudian tiap item yang punya support count

lebih besar atau sama dengan minimum support count ξ akan dibangkitkan

dengan conditional FP-tree.

3. Tahap pencarian frequent itemset.

Apabila FP-tree adalah lintasan tunggal (single path), maka

didapatkan frequent itemset dengan melakukan kombinasi item untuk

setiap conditional FP-tree. Jika bukan lintasan tunggal, maka dilakukan

pembangkitan FP growth secara rekursif.

3.3.1.1.Penerapan Algoritma FP-Growth untuk Menentukan Strategi

Promosi Pendidikan

1. Praproses

Memberi tanda pada setiap itemset


Frekuensi untuk setiap transaksi item

Maka langkah selanjutnya adalah membentuk pohon FP-Tree

Gambar di bawah ini memberikan ilustrasi mengenai pembentukan FP-

tree setelah pembacaan TID :

Hasil Pembentukan FP-Tree setelah pembacaan TID 1

Gambar diatas menjelaskan tentang pembentukan FP-Tree setelah

pembacaan didapat setelah melakukan TID 1, yaitu berisi : NULL - D1 (

Sistem Informasi) = 1-(B1) Medan = 1.


Hasil Pembentukan FP-Tree setelah pembacaan TID 2

Gambar diatas didapatkan setelah melakukan TID 2, yaitu : NULL-C!

(IPA) = 1-A3 (SMAN)= 1-B1 (MEDAN) =1

Hasil Pembentukan FP-Tree setelah pembacaan TID 3

Gambar diatas didapatkan setelah melakukan TID 3 yang dijumlahkan,

yaitu berisi Null-Sistem Informasi (D1) = 20 -IPA (C1) = 16- SMA Negeri

(A3) = 12-SMA Swasta (A4) = 10- Medan (B1) = 10-IPS (C2) = 9

Untuk menemukan Frequent itemset dari tabel diatas, maka perlu

ditentukan terlebih dahulu lintasan yang berakhir dengan support count

terkecil, yaitu C2 yang diikuti dengan A4, A3, C1, D1, dan di akhiri

dengan D1. proses pembentukan masing-masing node dapat dilihat pada

gambar berikut.

Lintasan yang Mengandung Simpul C2


Lintasan yang Mengandung Simpul B1

Lintasan yang Mengandung Simpul D1

Setelah mencari Frequent itemset untuk beberapa akhiran suffix maka


didapatkan hasil yang dirangkum dalam tabel berikut :

3.4 Implementasi Rapid Miner


Dalam memodelkan proses yang dibutuhkan pada rapid miner, model yang
dibuat ditunjukkan seperti gambar dibawah ini :
BAB IV

KESIMPULAN DAN SARAN

4.1. Kesimpulan

Dengan dilakukan tugas ini diharapkan kita semua dapat memahami

metode asosiasi data mining terutama dengan algoritma FP Growth.

Dan dari presentasi kelompok kami juga didapat beberapa pertanyaan dari

teman-teman serta Bu Rizki sebagai dosen pembimbing yang terbagi menjadi dua

sesi pertanyaan sebagai berikut:

Pertanyaan Sesi 1:

1. Bu Rizki :

Dalam penyelesaian kasus Market Basket apakah algoritma yang paling baik

digunakan antara algortima Apriori dan FP Growth? Jelaskan dengan perbedaan

dan kelebihan masing-masing algoritma dan berikan alasannya?

2. Bu Rizki :

Jelaskan perbedaan antara Support dan Confidence dalam konsep Asosiasi?

3. Kelompok 3 (Halim) :

Apa tujuan dari Asosiasi? Dan jelaskan tentang hasil study case kelompok anda?

4. Kelompok 1 (Faiz) :

Apakah data perlu disorting didalam Asosiasion mining? Dan apakah ada proses

sehinga dataset menjadi tersortir?

5. Bu Rizki :
Kenapa nilai support yang telah ditentukan dapat berubah padahal telah

ditentukan? Apakah itu nilai min support?

Ex: ditentukan 0,87 tetapi nilai yang dihasilkan dalam perhitungan 0,500?

4.2 Saran

Pada presentasi ini masih terdapat banyak kekurangan yang ada. Berikut

ini beberapa hal yang dapat disarankan :

1. Didalam perhitungan market basket Algortima FP Growth lebih cepat

dibandingkan apriori, algoritma apriori mengkosumsi waktu lebih banyak.


DAFTAR PUSTAKA

Bhatnagar, Vishal. (2014). Collaborative Filtering Using Data Mining and

Analysis. US: Igi Global

Luthfi, Emha Taufik, dan Kusriani. (2009). Algoritma Data Mining. Yogyakarta:

Andi Offset

Wu, X., dan Kumar. (2009). The Top Ten Algorihtms In Data Mining. Boca

Raton, FL: Chapman & Hall/CRC.

5
DOKUMENTASI

 Tes Implementasi Repidminer : Misbahudin Munadi

 Implementasi & Analisis : Muhammad Albar, Genda

Ananta R

 Membuat Laporan : Aisyah Utari, Desi Triyeni

 Membuat PPT : Fitria Khoirunisa, Destrilia

 Notulen : Vira Melinda

Anda mungkin juga menyukai