Anda di halaman 1dari 16

PERTANYAAN YANG MUNGKIN MUNCUL :

1. APA ITU DATA MINING? DATA MNING ASSOSIATION?


2. APA ALASAN SESEORANG MELAKUKAN PENGGALIAN DATA?
3. APA YANG MELATAR BELAKANGI ANDA MENGAMBIL JUDUL INI? KENAPA HARUS
FAKULTAS TEKNIK?KENAPA TIDAK SE UNIVERSITAS?
4. COBA JELASKAN CARA KERJA DARI ALGORITMA FP-GROWTH INI? PERHITUNGAN
dan MENGAPA ANDA HANYA MENGAMBIL 10 SAMPLE DARI BANYAKNYA DATA
MAHASISWA?
5. KESIMPULAN DARI SKIRIPSI?
6. KENAPA ANDA MENGGUNAKAN PHP KENAPA TIDAK MENGGUNAKAN RAPID MINER
SEBAGAI TOOLS?
7. KENAPA ANDA MERUBAH DFD DARISEMINAR PROPOSAL?
8. PERBEDAAN DENGAN JURNAL SEBELUMNYA?

ANSWER :

1. Perbedaan Database, Data mining dan Data Warehouse adalah :

 Database atau basis data adalah kumpulan data yang disimpan secara sistematis


di dalam komputer dan dapat diolah atau dimanipulasi menggunakan perangkat
lunak (program aplikasi) untuk menghasilkan informasi.
 Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan
yang tersembunyi di dalam database. Data mining merupakan proses semi
otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan didalam
database besar.
 Data warehouse merupakan kumpulan data dari berbagai sumber yang disimpan
dalam suatu gudang data (repository) dalam kapasitas besar dan digunakan untuk
proses pengambilan keputusan.
2. Hal yag mendorong seseorang untuk melakukan penggalian data adalah kebanyakan
data tidak pernah dianalisis secara keseluruhan. Analisis data dilakukan terhadap
beberapa vaiabel untuk mendapatkan sesuatu informasi dari jumlah data yang banyak
itu.
3. Tertarik mengambil judul ini karena saya melihat jumlah mahasiswa yang mendaftar di
FT UMB itu jumlahnya tidak konsisten. Dimana saya mendapatkan datanya> saya
melihat datanya di pangkalan tinggi universitas , makanya saya tertarik untuk
mengambil judul ini untuk menganasis data yang banyak tersebut sehingga
mendapatkan informasi berupa pola daerah mana sih yg mendaftarnya itu dari
mahasiswa fakultas teknik umb. Sehingga nanti bisa menjadi panduan bagi team
promosi fakultas teknik dan juga bisa menghemat biaya promosi dan bisa lebih
mengoptimalkan daerah yang kurang peminatnya.
4. Cara kerja dari Algortima FP-Growth
[ CITATION Rir14 \l 1033 ] FP-Growth adalah salah satu alternatif algoritma yang dapat
digunakan untuk menentukan himpunan data yang paling sering muncul (frequent item set)
dalam sekumpulan data. Algoritma FP-Growth merupakan pengembangan dari algoritma
Apriori.
FP-growth adalah metode yang sering itemset pertambangan tanpa Generasi calon.
Ini membangun sebuah struktur data yang sangat padat (FP-tree) untuk kompres database
transaksi asli.
Karakteristik algoritma FP-Growth adalah struktur data yang digunakan adalah tree
yang disebut dengan FP-Tree. Dengan menggunakan FP-Tree, algoritma FP-growth dapat
langsung mengekstrak frequent Itemset dari FP-Tree. Penggalian itemset yang frequent
dengan menggunakan algoritma FP-Growth akan dilakukan dengan cara membangkitkan
struktur data tree atau disebut dengan FP-Tree.
Adapun FP- tree adalah sebuah pohon dengan definisi sebagai berikut:
 FP-Tree dibentuk oleh sebuah akar yang diberi label null, sekumpulan upapohon yang

beranggotakan item-item tertentu, dan sebuah tabel frequent header.

 Setiap simpul dalam FP-tree mengandung tiga informasi penting, yaitu label item

menginformasikan jenis item yang direpresentasikan simpul tersebut, support count,

merepresentasikan jumlah lintasan transaksi yang melalui simpul tesebut, dan pointer

penghubung yang menghubungkan simpul-simpul dengan label item sama antar-lintasan,

dintandai dengan garis panah putus-putus.

Cara Kerja Algoritma FP-Growth

Proses pada perhitungan FP-Growth memiliki beberapa proses yang harus dilewati dengan

menggunakan data yang telah diinput kedalam aplikasi. Data tersebut merupakan data mahasiswa

yang didapatkan pada proses penelitian. Jumlah total data 849 dengan kriteria tahun 2015, 2016,

2017 dan 2018. Data tersebut terdiri dari daerah asal, sekolah asal, jurusan.

Algoritma FP-growth dibagi menjadi tiga langkah utama, yaitu :

1. Tahap Pembangkitan Conditional Pattern Base

Conditional Pattern Base merupakan subdatabase yang berisi prefix path (lintasan prefix) dan

suffix pattern (pola akhiran). Pembangkitan conditional pattern base didapatkan melalui FP-

tree yang telah dibangun sebelumnya.

2. Tahap Pembangkitan Conditional FP-tree

Pada tahap ini, support count dari setiap item pada setiap conditional pattern base

dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama dengan

minimum support count ξ akan dibangkitkan dengan conditional FP-tree.

3. Tahap Pencarian frequent itemset Apabila Conditional FP-tree merupakan lintasan tunggal

(single path), maka didapatkan frequent itemset dengan melakukan kombinasi item untuk

setiap conditional FP-tree. Jika bukan lintasan tunggal, maka dilakukan pembangkitan FP-

growth secara rekursif.


Pada tahap ini, untuk mempermudah dalam pembuatan tree, maka nama dari setiap itemset

dibuat dengan menggunakan abjad atau diberikan inisial.

No Item Kode item


1. Kota Bengkulu KTB

2. Bengkulu Utara BU

3. Bengkulu Selatan BS

4. Muko-muko MM

5. Kaur KR

6. IPA IPA

7. IPS IPS

8. Teknik Komputer dan Jaringan TKJ

9. Multimedia MTD

10. SMA Negeri S1

11. SMK Negeri S3

12. IPK 2.00-2.75 C

13. IPK 2.76-3.50 B

14. IPK 3.51 – 4.00 A

Tabel 4. 1 Tabel Kode Item

Karena banyaknya data penulis mengambil 10 data mahasiswa yang ada dengan freekuensi

kemunculan tiap item sebagai berikut :

TID Item
1 B, S1, IPS, KTB
2 B, S1, IPA
3 B, S1, IPS, KTB
4 S3, TKJ, KR
5 S3, KTB, MTD, C
6 B, S1, IPS, KTB
7 B, S1, IPS, KTB
8 S1, IPS, A
9 B, S1, IPS, KTB
10 B, S3, TKJ, BU
Tabel 4. 2 Data Transaksi

Langkah selanjutnya adalah pembentukan pohon FP-Tree dengan melihat tabel 4.2. Gambar

dibawah ini memberikan ilustrasi mengenai pembentukan FP-tree setelah pembacaan TID 1.

Null

B: 1

S1: 1

IPS: 1

KTB: 1

Gambar 4. 1 Hasil Pembentukan FP-Tree setelah pembacaan TID 1

setelah pembacaan TID 1, yaitu berisi Null – B= 1 - S1 =1 – IPS=1 – KTB = 1.

Null

B:2

S1 :2

IPS : 1
IPA : 1

KTB: 1

Gambar 4. 2 Hasil Pembentukan FP-Tree setelah pembacaan TID 2

Gambar didapat setelah melakukan pembacaan TID 2 yang beris Null – B =2 - S1= 2 – IPS = 1 – KTB
= 1, IPA=1.

Null

B:3

S1 :3

IPS : 2
IPA : 1

KTB: 2
Gambar 4. 3 Hasil Pembentukan FP-Tree setelah pembacaan TID 3

Gambar didapat setelah melakukan pembacaan TID 3 yang beris Null – B = 3 - S1= 3 – IPS = 2 –
KTB = 2, IPA=1.

Null

B: 3 S3 : 2

TKJ : 1
S1: 3
IPA : 1

IPS : 2 KR: 1
MTD : 1

KTB : 2
KTB : 1

C: 1
Gambar 4. 4 Hasil Pembentukan FP-Tree setelah pembacaan TID 4 dan 5

Gambar didapat setelah melakukan pembacaan TID 4 dan 5 yang beris Null – B = 3 - S1= 3 – IPS = 2

– KTB = 3, IPA=1, S3=2 – TKJ=1 – KR=1 – MTD=1, C = 1.

Null

B: 4 S3 : 2

TKJ : 1
S1: 4
IPA : 1

IPS : 3 KR: 1
MTD : 1

KTB : 4
Gambar 4. 5 Hasil Pembentukan FP-Tree setelah pembacaan KTB
TID :61

Gambar didapat setelah melakukan pembacaan TID 6 yang beris NullC:–1B = 4 - S1= 4 – IPS

= 3 – KTB = 4, IPA=2, S3=2 – TKJ=1 – KR=1 – MTD=1, C = 1.

Null
S1: 1
IPS: 1
S3 : 2
S3: 1
TKJ : 1
S1: 6
TKJ :1

IPS : 4 KR: 1

IPA : 1 MTD : 1

KTB : 4
KTB : 1
BU: 1
C: 1

Gambar 4. 6 Hasil pembentukan FP-Tree setelah pembacaan TID 10

Gambarr 4.12 menunujukan proses terbentuknya FP-Tree setiap TID dibaca. Setiap simpul

pada FP-Tree mengandung nama sebuah item dan count support yang berfungsi untuk menghitung

frekuensi kemunculan item tersebut dalam setiap lintasan.

Gambar didapat setelah melakukan TID 10 yang dijumlahkan, yaitu berisi Null IPK (B) = 7 -

SMA Negeri(S1) = 7 – Bengkulu (KTB) = 4 - IPS (IPS) = 4 - SMK Negeri (S3)= 3 - Kota, Teknik

Komputer Jaringan (TKJ) = 2 - IPA (IPA) = 1 – Bengkulu Utara (BU) = 1 –– Kaur (KR) = 1,

Multimedia (MTD) = 1, IPK (A) = 1, IPK (C) = 1.

Untuk menemukan Frequent itemset dari tabel maka perlu ditentukan terlebih dahulu

lintasan yang berakhir dengan support count terkecil, yaitu C, A, MTD yang diikuti dengan KR, BU,

IPA, TKJ , S3, IPS, KTB, dan S1, B.

Null
S3 : 2

MTD : 1

KTB : 1
C:mengandung
Gambar 4. 7 Lintasan yang 1 prefix C

Null
S1: 1
IPS: 1
A: 1
Gambar 4. 8 Lintasan yang mengandung prefix A

Null

S3 : 2
B:7

S3 : 1
Gambar 4. 9 Lintasan yang mengandung prefix S3

Null

S1:1

B:7
IPS:1
S1:6

IPS: 4
Gambar 4. 10 Lintasan yang mengandung prefix IPS

Null

B: 7

S1: 6

IPS : 4
IPA : 2 MTD : 1

KTB : 3
KTB : 1
KTB:1
Gambar 4. 11 Lintasan yang mengandung prefix KTB

Null

S1: 1

S1: 6
Gambar 4. 12 Lintasan yang mengandung prefix S1

Setelah ditemukan frequent itemset dengan beberapa akhiran suffix maka didapat hasil sebagai

berikut :

Tabel 4. 3 Tabel daftar Frequent Itemset Diurutkan berdasarkan hunbungan prefix (akhiran)

Suffix Frequent Itemset


C {C}, {C, KTB, MTD, S3}

A {A}, {A, IPS, S1}

MTD {MTD} , {MTD, S3}

BU {BU}, {BU, TKJ, S3, B}

KR {KR}, {KR, TKJ, S3}

IPA {IPA} {IPA, S1, B}

TKJ {TKJ}, {TKJ, S3}, {TKJ, S3, BU}

S3 {S3} {S3, B}

IPS {IPS}, {IPS, S1}, {IPS, S1, B}

KTB {KTB}, {KTB, IPA, S1}, {KTB, IPS, S1}, {KTB, MTD, S3}

S1 {S1}, {S1, B}

B {B}
Dari Frequent item set yang didapat dari pembentukan Fp-Tree dan FP-Growth maka dapat

dihitung nilai support dan Confidence sebagai berikut :

Support (C, KTB, MTD, S3) = Count (IPK ≥ 2.00 – 2.75, Kota Bengkulu, Multimedia, SMK

Negeri )/Jumlah Transaksi = 1/10

Support (A, IPS, S1) = Count (IPK ≥ 3.51 – 4.00, IPS, SMA Negeri) = 1/10

Support (MTD, S3)= Count (Multimedia, SMK Negeri)= 1/10

Support (BU, TKJ, S3, B)= Count(Bengkulu Utara, Teknik Komputer Jaringan, SMK Negeri, IPK ≥

2.76 – 3.50 ) = 1/10

Support (KR, TKJ, S3)= Count(Kaur, Teknik Komputer Jaringan SMK Negeri) =1/10

Support (TKJ, S3, B)= Count (Teknik Komputer Jaringan, SMK Negeri, IPK ≥ 2.76 – 3.50 ) = 1/10
Support (S3, B)= Count (SMK Negeri, IPK ≥ 2.76 – 3.50) = 1/10

Support (IPS, S1) = Count (IPS, SMA Negeri) = 1/10

Support (IPS, S1, B) = Count (IPS, SMA Negeri, IPK ≥ 2.76 – 3.50) = 1/10

Support (KTB, IPA, S1, B) = Count (Kota Bengkulu, IPA, SMA Negeri, IPK ≥ 2.76 – 3.50) = 1/10

Support (KTB, IPS, S1, B) = Count (Kota Bengkulu, IPS, SMA Negeri, IPK ≥ 2.76 – 3.50) = 1/10

Supoort (KTB, MTD, S3) = Count (Kota Bengkulu, MTD, SMK Negeri) = 1/10

Support (S1, B) = Count (SMA Negeri, IPK ≥ 2.76 – 3.50) = 1/10

Sedangkan untuk nilai confidence atau nilai kepercayaan adalah sebagai berikut :

Confidence (C, KTB, MTD, S3) = Count (IPK ≥ 2.00 – 2.75, Kota Bengkulu, Multimedia, SMK

Negeri )/Kota Bengkulu = 1/5

Confidence (A, IPS, S1) = Count (IPK ≥ 3.51 – 4.00, IPS, SMA Negeri)/ Count Kota Bengkulu = 1/5

Confidence (MTD, S3)= Count (Multimedia, SMK Negeri)/ count Kota Bengkulu= 1/5

Confidence (KR, TKJ, S3)= Count(Kaur, Teknik Komputer Jaringan SMK Negeri) / count Kota

Bengkulu =1/5

Confidence (TKJ, S3, B)= Count (Teknik Komputer Jaringan, SMK Negeri, IPK ≥ 2.76 – 3.50 )

Count Kota Bengkulu = 1/5

Support (S3, B)= Count (SMK Negeri, IPK ≥ 2.76 – 3.50)/ count Kota Bengkulu = 1/10

Support (IPS, S1) = Count (IPS, SMA Negeri) = 1/10

Confidence (IPS, S1, B) = Count (IPS, SMA Negeri, IPK ≥ 2.76 – 3.50) / count Kota Bengkulu= 1/5

Confidence (KTB, IPA, S1, B) = Count (Kota Bengkulu, IPA, SMA Negeri, IPK ≥ 2.76 – 3.50)/ Kota

Bengkulu = 1/5

Confidence (KTB, IPS, S1, B) = Count (Kota Bengkulu, IPS, SMA Negeri, IPK ≥ 2.76 – 3.50) = 1/5

Counfidence (KTB, MTD, S3) = Count (Kota Bengkulu, MTD, SMK Negeri) / count Kota Bengkulu =

1/5

Confidence (S1, B) = Count (SMA Negeri, IPK ≥ 2.76 – 3.50)/ count Kota Bengkulu = 1/5
Setelah didapat nilai support dan nilai confidence dari keseluruhan kombinasi pada data

dengan perhitungan FP-tree dan FP-Growth maka didapatkan nilai support dan confidence yang

paling akurat yaitu kombinasi {B, S1, IPS, KTB} yang mempunyai nilai support : 5/10 = 0,5 dan nilai

confidence : 5/6 = 0, 0.83

4. Kesimpulan Dari Skripsi

Kesimpulan Dari hasil analisis yang telah dilakukan, maka dapat diambil beberapa

kesimpulan diantaranya sebagai berikut :

1. Dari hasil penelitian ini di dapat disimpulkan bahwa penerapan Assosiation rule dengan

menggunakan Algoritma FP-Growth dapat membantu penentuan daerah strategis promosi.

Penelitian ini mendapatkan beberapa rules yang berbeda pada setiap tahunnya dengan

memasukan nilai minimum support dan minimum confidence.

2. Menganalisis daerah strategis promosi fakultas teknik Universitas Muhammadiyah dapat

dilakukan dengan melihat data mahasiswa pertahunnya yang terdaftar di fakultas teknik.

Dimana Dengan menganalisis data yang jumlahnya banyak tersebut kita dapat mengetahui

pola dari daerah asal, sekolah asal mahasiswa yang terdapat nilai support dan confidence

yang bias nantinya di jadikan pedoman untuk mempromosikan fakultas teknik, dan bisa

membantu team promosi dalam menghemat biaya dan waktu dalam menentukan daerah

daerah promosinya.

3. Untuk mengimplementasikan algoritma fp-growth pada aplikasi mencari daerah strategis

promosi dapat dilihat dari banyak nya data mahasiswa serta attribute yang sesuai untuk di

olah, lalu membuat rangkaian tree dengan Fp-tree untuk mengetahui banyaknya frequent

itemset yang terjadi.

4. Dari penelitian yang dilakukan ada beberapa atribut yang tidak digunakan dalam rule yang

dihasilkan, sehingga pemilihan atribut di dalam data sangat penting.

5.2 Saran

Berdasarkan hasil penelitian, ada beberapa saran yang dapat dilakukan guna pengembangan

sistem ini menjadi lebih baik, diantaranya sebagai berikut :

1. Data mahasiswa yang di ambil dari bagian informasi fakultas teknik Universitas

Muhammadiyah Bengkulu selama 4 tahun, dapat dijadikan pedoman bagian promosi


universitas muhammadiyah Bengkulu terutama fakultas teknik untuk meningkatkan lagi

promosi di daerah - daerah yang strategis dalam promosi.

2. Skripsi ini dapat lebih dikembangkan tidak hanya pada mencari daerah strategis untuk

promosi saja.

3. Diharapkan penelitian mendatang dapat melanjutkan dengan menambahkan algoritma atau

melakukan perbandingan dengan algoritma lain.

5. Kenapa mengubah system program atau dfd dari seminar yang sudah ada, Setelah
saya melihat beberapa literature data mining association haruslah menggunakan
threshold (parameter) untuk mendapatkan interesting rule dimana interesting rule itu
harus memasukan min support dan min confidence agar user/pengguna dapa
menganalisis hasil dari rule/pola data setelah dimasukannya min sup dan min conf jika
hasil analisisnya itu melebihi threshold maka itulah yang dikatan interesting rule.
Nah sedang kemarin itu hanya memasukan daerah asal jadi admin yg memasukan nilai
min sup dan min cofnya. Sehingga penulis itu merubah system prgramnya dengan
yaitu memasukan nilain min sup dan min conf.
6. Perbedaan dengan jurnal sebelumnya ada pada objek kemudian saya menambahkan
attribute IPK sebagai pertimbang
Alasan ditambah ipk menurut saya :
1. Diperkuliahan selain menuntut ilmu dan skill tak bisa dipungkiri bahwa yg dikejar
adalah ipk
2. Dengan ipk yg baik atau tinggi selama Diperkuliahan maka mahasiswa bisa
mendapatkan beasiswa prestasi akademik
3. Jika selama Diperkuliahan ipk baik atau terus meningkat maka setelah lulus kuliah ,
mencari pekerjaan yg pertama adalah ipk di ijazah
4. Walaupun terkadang ketika mencari pekerjaan yg dilihat adalah skill terlebih dahulu
baru ipk tetapi jika minat belajar, pengetahuan, keinginan seseorang tinggi maka itu
bisa menjadikan ipk seseorang akan tinggi juga dengan kata lain ipk tinggi pasti
mempunyai skill yang memadai juga
jdi promosi ditmpat sekolahah tau daerah itu dengan melihat daerah asal yg paling
banyak ajo, tapi bsa jg dengan dari ipk mahasiswa yg di fk teknik sbg acuan untuk
prmosi, karna bisa dikatakan ipk yg bagus tuh artinyo ad kemungkinan niat bljar dan
berkembng di daeraah itu ado.

Data Mining Assosiation Rule

Association Rule sering disebut juga Market Basket Analysis (Analisa Keranjang Pasar).

Association Rule adalah suatu metode data mining yang bertujuan untuk mencari
sekumpulan items yang sering muncul bersamaan. Umumnya association rule ini
dianalogikan dengan keranjang belanjaan. Dari keranjang belanjaan para pengunjung
supermarket akan dapat diketahui, barang apa saja yang sering dibeli bersamaan dan
barang mana saja yang tidak. Association rule umumnya mengambil bentuk IF-THEN yang
menggabungkan beberapa items menjadi satu, misalnya:

IF A and B THEN C

Secara teori, beberapa hal yang digunakan untuk mengukur apakah sekumpulan items (an
item set) sering muncul bersamaan atau tidak, adalah support of an item set, confidence of
an association rule, dan beberapa rule selection methods.

Support of an item set adalah persentase dari semua transaksi yang terjadi yang
mengandung item set tersebut. Adapun rumus yang digunakan untuk menghitung adalah
sebagai berikut:

Support(S) = (|U|/|T|)*100%

U adalah himpunan transaksi yang mengandung item set S


|U| adalah jumlah element dalam U
|T| adalah jumlah transaksi yang terjadi

Confidence of an association rule adalah perbandingan antara nilai support dari himpunan
items yang terdapat di dalam rule dan nilai support dari himpunan items yang
mendahuluinya. Sebagai contoh: apabila terdapat rule “Jika A dan B maka C”, confidence of
association rule tersebut adalah:

Confidence(R) = (Support{A,B,C}/Support{A,B})*100%

Tetapi, di sini ada satu permasalahan yang umumnya tidak begitu diperhatikan yaitu: Rule
yang bagus belum tentu rule yang menarik. Saya ilustrasikan di sini dua contoh yang bisa
menjadi pemikiran.

Case 1:
60% dari semua pelanggan membeli ROTI (then ROTI)
58% dari semua pelanggan membeli SELAI bersama-sama dengan ROTI (if SELAI then
ROTI)

Case 2:
60% dari semua pelanggan membeli ROTI (then ROTI)
20% dari semua pelanggan membeli SELAI bersama-sama dengan ROTI (if SELAI then
ROTI)

Rule mana yang lebih menarik? Apakah yang 58% atau yang 20%?
Untuk menentukan apakah suatu rule itu cukup menarik atau tidak, dapat menggunakan
beberapa metode yang antara lain adalah:

 Absolute Confidence Difference to Prior: yang mencari perbedaan confidence antara


rule yang ada dengan rule yang mendahului i.e. kalau threshold perbedaannya diset 20%
maka nilai terendah untuk menentukan rule itu menarik atau tidak adalah 60-20% = 40%
dan tertinggi adalah 60+20% = 80%.

 Difference of Confidence Quotient to 1: terendah (1-20%)*60% = 0,8*60% = 48%,


tertinggi 60%/(1-20%) = 60%/0,8 = 75%.

 Absolute Difference of Improvement Value to 1: terendah (1-20%)*60% = 48%,


tertinggi (1+20%)*60% = 72%.

 Information Difference to Prior: yang mencari perbedaan information gain antara rule
yang ada dengan rule yang mendahului.

 Normalised Chi2 Square: membandingkan antara distribusi items dalam rule yang
mendahului dengan rule yang sekarang. Metode ini mencari apakah dengan menambahkan
satu item lagi akan membuat suatu nilai Chi2 yang lebih tinggi atau tidak.

Association rule mining adalah suatu prosedur untuk mencari hubungan antar item dalam


suatu data set yang ditentukan. Association rule meliputi dua tahap :
1. Mencari kombinasi yang paling sering terjadi dari suatu itemset.
2. Mendefinisikan Condition dan Result (untuk conditional association rule).
Dalam menentukan suatu association rule, terdapat suatu interestingness
measure (ukuran kepercayaan) yang didapatkan dari hasil pengolahan data dengan
perhitungan tertentu. Umumnya ada tiga ukuran, yaitu [1]:
– Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi
suatu item/itemset dari keseluruhan transaksi. Ukuran ini akan menentukan apakah
suatu item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang
ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli
bersamaan) dapat juga digunakan untuk mencari tingkat dominasi item tunggal.
Support(A→B) = Probabilitas (A→B) . . . . (2.1)
– Confidence : suatu ukuran yang menunjukkan hubungan antar
2 itemsecara conditional (misal, seberapa sering item B dibeli jika orang membeli item
A).

Confidence(A→B) =  . . . . (2.2)
– Improvement : suatu ukuran yang menunjukkan besarnya kemungkinan 2 item dapat
dibeli secara bersamaan.
Improvement (A→B) =  . . . . (2.4)
Ketiga ukuran ini nantinya akan berguna dalam menentukan interesting association rules,
yaitu untuk dibandingkan dengan threshold (batasan) yang ditentukan. Batasan tersebut
umumnya terdiri dari min_support, min_cofidence, dan min_improvement.

Ketiga istilah ini sangat penting dalam Association Rule mining.


Seperti yang sudah pernah disebutkan sebelumnya bahwa Association Rule Mining disebut
juga Frequent Itemset Mining, karena itu Itemset merupakan fokus utama mining. Itemset
merupakan himpunan kelompok item. Itemset dengan jumlah item k disebut k-Itemset. Jika
menggunakan contoh transaksi pada post Association Rule Mining, {Milk, Bread, Diaper}
merupakan salah satu Itemsetnya.
Association Rule dinyatakan dalam bentuk X => Y, di mana X dan Y merupakan Itemset.
Contohnya : {Milk, Diaper} => {Beer}.
Support (s) dan Confidence (c) merupakan metrik yang digunakan pada Association Rule.
Support menunjukkan persentasi jumlah transaksi yang berisi X dan Y. Sedangkan
Confidence menunjukkan persentasi banyaknya Y pada transaksi yang mengandung X.
Bentuk persamaan matematisnya dapat dituliskan seperti ini:

Berikut ini adalah contoh Association Rule :


{Milk, Diaper} => {Beer}

Support menunjukkan persentasi jumlah transaksi yang mengandung item {Milk, Diaper,
Beer}.
Confidence menunjukkan persentasi {Beer} yang terdapat pada transaksi yang mengandung
item {Milk, Diaper}.
Nilai Support digunakan untuk menentukan Frequent Itemset. Itemset yang nilai Support-nya
memenuhi parameter threshold minimum support (min_sup) masuk dalam Frequent Itemset.
Sedangkan nilai Confidence digunakan dalam menentukan Strong Association Rule.
Association Rule yang nilai Confidence-nya memenuhi parameter threshold minimum
confidence (min_conf) termasuk dalam Strong Association Rule.

Association rule biasanya disertai dengan pengukuran support dan confidence dan
berbentuk kalimat:

JIKA antecedent (premise), MAKA consequent. Contohnya, pada Senin malam 1000
pelanggan membeli barang di suatu toko online, 200 orang membeli baju, dan dari 200 yang
membeli baju tersebut, sebanyak 50 orang membeli celana. Jadi, aturan asosiasi dapat
berbentuk:

“JIKA membeli baju, MAKA membeli celana” dengan support 50/1000 = 5% dan confidence
50/200 = 25%. Aturan tersebut memiliki arti “25% dari transaksi di database yang memuat
item baju juga memuat item celana dan 5% dari seluruh transaksi yang ada di database
memuat kedua item tersebut.” Analisis asosiasi merupakan suatu proses untuk menemukan
semua association rule yang memenuhi syarat minimum untuk support (minimum support)
dan syarat minimum untuk confidence (minimum confidence).

Interestingness Measures Associaton rule

dapat ditentukan dengan menggunakan interestingness measure (ukuran ketertarikan) yang


didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Beberapa ukuran
tersebut adalah:

1. Support
Support adalah nilai penunjang atau persentase kombinasi sebuah item dalam
database. Rumus support: Support(A→B) = P(A ∩ B)
2. Confidence
Confidence adalah nilai kepastian yaitu kuatnya hubungan antar-item dalam
association rule. Confidence bisa dicari setelah pola frekuensi munculnya sebuah
item ditemukan. Rumus untuk menghitung confidence:
3. Lift (Interest)
Lift adalah nilai yang mengukur besarnya hubungan antara antecedent dan
consequent yang tidak saling bergantung (independent). Lift memiliki range mulai
dari 0 sampai dengan ∞. Nilai yang mendekati 1 mengindikasikan bahwa antecedent
dan consequen tidak memiliki ketergantungan. Nilai yang jauh dari 1
mengindikasikan bahwa antecedent menyediakan informasi tentang consequent.
Rumus untuk menghitung lift:
= ( Support(A→B) / (Support(A) × Support(B)) ) × 100%
= ( Support(B→A) / (Support(B) × Support(A)) ) × 100%

4. Conviction
Conviction adalah nilai yang mengukur tingkat implikasi dari suatu aturan. Conviction
sangat memperhatikan arah dari suatu association rule. Conviction mengindikasikan
bahwa conviction(A→B) ≠ conviction(B→A). Rumus untuk menghitung conviction:

Anda mungkin juga menyukai