Pertemuan 4 - EDA

Association Rule
Data Mining
Nur Fitrianti F., S.Kom., MT
References :
Dr. Matthew North, Data Mining for the Masses, Amazon.com, 2012
1 EDA
Outline 2 Market Basket Analysis
3 Association Rule
1.
Data Exploration
Eksplorasi Data
• Eksplorasi data, juga dikenal sebagai • Eksplorasi data secara luas dapat diklasifikasikan
exploratory data analysis (EDA), menjadi dua jenis—statistik deskriptif dan visualisasi
menyediakan seperangkat alat sederhana data.
untuk memperoleh beberapa pemahaman • Statistik Deskriptif : mean, standar deviasi, korelasi
dasar tentang data. • Visualisasi : data direpresentasikan dalam bentuk
• Hasil eksplorasi data bisa sangat kuat grafik seperti scatterplot, box plot
dalam memahami struktur data, distribusi
nilai, dan keberadaan nilai ekstrim dan
keterkaitan dalam kumpulan data.
Tujuan Eksplorasi Data
Data Understanding Data Preprocesing

• Eksplorasi data memberikan kesimpulan dari setiap • Sebelum menerapkan algoritma penambangan
atribut dalam kumpulan data dan interaksi antar data, kita perlu menyiapkan kumpulan data untuk
atribut. Eksplorasi data dapat membantu menangani setiap anomali yang mungkin ada dalam
mengetahui apakah ada outlier, missing value data. Pada Langkah ini berbagai terknik pre
dalam kumpulan data. processing data di implementasikan sesuai
kebutuhan.
2.
Market Basket Analysis
• Teknologi telah membantu retailer dengan memungkinkan untuk

menyimpan data konsumen dengan volume yang sangat besar dan
biaya yang sangat wajar.
• Retailer kini dapat memiliki miliyaran informasi tentang informasi

pelanggan mereka.
• Informasi ini dapat menjawab pertanyaan-pertanyaan penting

termasuk:
• Kapan pelanggan akan membeli?
• Bagaimana pembayaran dilakukan?
• Berapa banyak dan apa item tertentu yang dibeli?
• Apa hubungan antara barang yang dibeli?

Bagaimanakan retailer menggunakan miliyaran informasi ini?
Sudut pandang Konsumen
• Konsumen cenderung mengabaikan bagaimana

secara fisik barang diatur dalam sebuah toko atau
super market.
• Jika konsumen detail, Toko telah membuat

pengaturan yang cermat untuk barang yang
mereka jual.
• Toko menilai pola pembelian pelanggan dan

mengatur produk-produk yang akan dibeli secara
sesuai (sesuai pola).
• Dimana hal ini membuat konsumen membeli

beberapa item produk sekaligus tanpa disadari.
Teknik untuk menemukan
hubungan dari produk-produk
yang dibeli secara bersamaan
inilah yang dikenal sebagai
Market Basket Analysis (MBA).
Market Basket Analysis pada dasarnya melibatkan penggunaan data transaksional konsumen untuk
mempelajari pola pembelian dan menjelajahi kemungkinan (probabilitas) dan crossselling.
Tujuan dari MBA adalah untuk

memanfaatkan data penjualan efektif
untuk meningkatkan taktik pemasaran
dan penjualan di tingkat toko.
Beer vs Diapers
Contoh ini merupakan kasus dari salah satu toko

retail besar di US, Wal-Mart. Seorang manajer
toko menemukan hubungan yang kuat antara
salah satu merek popok bayi (diapers) dan salah
satu merek beer pada beberapa pembeli. Analisa
pembelian mengungkapkan bahwa kegiatan
pembelian dilakukan oleh laki-laki dewasa pada
hari jumat malam terutama sekitar jam enam
dan tujuh sore.
Beer vs Diapers
Setelah beberapa observasi,

supermarket mengetahui bahwa:
1. Karena bungkus dari popok

bayi sangat besar, para istri
akan menyuruh suaminya
untuk membelinya.
2. Pada akhir minggu, para

suami dan ayah akan
menghabiskan minggunya
dengan membeli beberapa
beer.
Jadi, apa yang akan dilakukan supermarket dari
pengetahuan ini?
1. Mereka menempatkan premium beer tepat

disebelah diapers
2. Hasilnya adalah para ayah akan membeli diapers dan

yang biasanya membeli beer biasa sekarang membeli
premium beer seperti yang sudah diperkirakan.
3. Secara signifikan, para pria yang biasanya tidak

membeli bir sebelum mulai berbelanja akan
membelinya karena itu begitu mudah dilihat dan
diambil - hanya sebelah popok (cross-sell)
Istilah Market Basket Analysis sendiri datang dari kejadian yang sudah sangat umum terjadi di
dalam pasar swalayan, yakni ketika para konsumen memasukkan semua barang yang merak beli
ke dalam keranjang (basket) yang umumnya telah disediakan oleh pihak swalayan itu sendiri.
Informasi mengenai produk-produk yang biasanya dibeli secara bersamasama oleh para
konsumen dapat memberikan wawasan tersendiri bagi para pengelola toko atau swalayan untuk
menaikkan laba bisnisnya (Albion Research, 2007).
3.
Association Rule
Association Rules
• Metodologi Association Rules, atau Analisis Asosiasi adalah sebuah metodologi untuk mencari
relasi (asosiasi) istimewa/menarik yang tersembunyi dalam himpunan data (atau data set)
yang besar.
• Salah satu penerapan Metode Association rules adalah pada Market Basket Analysis
Association Rules
• Association rule adalah sebuah ekspresi implikasi dari bentuk X  Y
Contoh : Jika membeli susu maka membeli gula
• Dalam menentukan Association Rule, terdapat suatu interestingness measure (ukuran

ketertarikan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Ada
dua ukuran yaitu:
1. Support
2. Confidence
Support
Support: Bagian transaksi yang mengandung kedua X dan Y.
Atau jika terdapat dua buah item dalam X, nilai support diperoleh dari rumus berikut:
Confidence
Confidence: Seberapa sering item dalam Y muncul di transaksi yang mengandung X.
Support dan Confidence berfungsi untuk menentukan interesting association rules yang akan
dibandingkan dengan batasan (threshold) yang ditentukan oleh user.
Batasan tersebut biasanya disebut minimum support dan minimum confidence

Association Rules
• Support adalah ukuran yang penting karena jika aturan memiliki support yang kecil, maka
kejadian bisa saja hanyalah sebuah kebetulan.
• Aturan Support yang rendah juga cenderung tidak menarik dari perspektif bisnis karena
mungkin tidak akan memberikan keuntungan saat mempromosikan barangbarang yang jarang
dibeli pelanggan bersamaan. Untuk alasan ini, Support sering digunakan untuk menghilangkan
ketidak-menarikan ini.
• Confidence, adalah ukuran kehandalan dari kesimpulan yang dibuat oleh aturan. Semakin besar
Confidence, semakin besar kemungkinan untuk Y hadir dalam transaksi yang mengandung X.
Confidence juga memberikan probabilitas bersyarat dari Y yang diberikan ke X.
Contoh (1)
• Tahap pertama adalah mencari nilai dari Support sesuai

Kode Produk yang terjual
Transaksi dengan rumus yang telah disebutkan sebelumnya.
1 Pena, Roti, mentega • Misalnya, Untuk transaksi yang memuat {roti, mentega} ada 4,
2 Roti, mentega, telur maka nilai supportnya adalah 80%. Lalu jumlah transaksi yang
3 Buncis, telur, susu memuat {Roti, Mentega, Susu} ada 2, maka nilai supportnya
4 Roti, mentega adalah 40%.
5 Roti, mentega, kecap, telur, susu • Sedangkan transaksi yang memuat {buncis} hanya 1, maka
nilai supportnya adalah 20%. Jika kita tentukan bahwa
minimum supportnya adalah 30%
Contoh (2)
Jika kita tentukan bahwa minimum supportnya adalah 30%, maka rule yang memenuhi adalah
sebagai berikut:
Contoh (3)
Setelah semua pola kombinasi dan nilai dari

Supportnya ditemukan, barulah dicari
Association Rules yang memenuhi syarat
minimum untuk confidence. Bila ditentukan
syarat minimum untuk confidence sebesar
50% maka Association Rules yang dapat
dipakai adalah:
Kesimpulan (Contoh (4))
• Assosiation Rule akan dipilih sesuai kebijakan manajer toko, semakin tinggi support dan
confidence semakin baik hasilnya.
• Misalkan kita ambil contoh yaitu {mentega, telur} {roti} yang memiliki nilai Support 80% dan
confidence 100% artinya adalah:
• “seorang konsumen yang membeli mentega dan telur memiliki kemungkinan 100% untuk juga
membeli roti”
Data
Silahkan Buka Excel kemudian buat data seperti berikut ini :
Nama File : TesMarketBasket.csv
No TID Item
1 1 A
2 1 B
3 2 C
4 3 A
5 3 B
6 3 C
7 4 A
8 4 B
Import Data
Memilih Atribut
Merubah Type data
4.
Latihan
Implementasi
Aggregate
• Aggregate digunakan untuk

menggabungkan produk berdasarkan
ID.
• Merupakan Tahap Preprocessing

Fungsi Concat digunakan untuk
Aggregate menggabungkan beberapa data yang ada
pada cel yang berbeda
Aggregate Data akan di groupkan berdasarkan atribut
TID
Set Role
• Menentukan atribut yang akan menjadi id

FP-Growth
• Tentukan minimum supportnya contoh 5% (0.05)

Create Association Rules
• Tentukan minimum confidence

2.
Studi Kasus
Download Fossil fuels for home heating data set
• Link : https://sites.google.com/site/dataminingforthemasses/
• download Chapter04DataSet.csv
Process
1. Import Chapter 4 CSV data set ke dalam RapidMiner data repository

2. Gunakan Operator Correlation Matrix
1
2
Data Set
Ada total 1.218

rumah yang terdapat
dalam dataset.
Statistik
• Data set clean, tidak terdapat missing value di salah satu dari enam atribut, dan tidak ada data yang tidak
konsisten yang terlihat di rentang kami atau statistik deskriptif lainnya.
• Sepertinya data ini dalam kondisi yang baik, dan tidak lagi membutuhkan operator persiapan data (data
preparation)
Result
Korelasi
• Heating_oil dan Avg_Age memiliki korelasi
positif yang paling tinggi yaitu 0.848
• dengan demikian, kita tahu bahwa dalam
kumpulan data ini, seiring bertambahnya
usia rata-rata penghuni rumah, demikian
pula penggunaan minyak pemanas di
rumah tersebut
• Sedangkan Insulation dan Temperatur
memiliki korelasi negative yang paling
tinggi yaitu -0.794
Visualisasi Data
Penjelasan
• Korelasi yang positif berarti ketika nilai satu atribut naik, nilai atribut lainnya juga naik. Namun, korelasi
positif juga berarti bahwa ketika nilai satu atribut turun, atribut lainnya juga turun. Analis data
terkadang membuat kesalahan dengan berpikir bahwa ada korelasi negatif jika nilai atribut menurun,
tetapi jika nilai atribut yang sesuai juga menurun, korelasinya tetap positif.
Korelasi Negatif
Kesimpulan
• Berdasarkan matrix korelasi atribut Num_Occupants tidak memiliki korelasi yang tinggi dengan atribut
yang lain. Sementara Num_Occupants / jumlah orang yang tinggal di rumah secara logis mungkin tampak
seperti variabel yang akan mempengaruhi penggunaan energi, ternyata dalam model ini tidak berkorelasi
secara signifikan dengan hal lain. Maka kita dapat menghapus atribut ini.
3.
Atribut Reduction
Atribut Reduction
Parameter
2
Attribut yang akan di
delete
Reference
• Dennis A.C, Donny A. Baskoro,Lia A., I Wayan S. W., Belajar Data Mining dengan RapidMiner.
• Michael J.A. Berry, Gordon S. Linoff, Data Mining Techniques For Marketing, Sales and Customer Relationship Management, 2 nd Ed, Wiley, 2004
• Charu C. Aggarwal, Data Mining The Textbook, Springer, 2015
• Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining Practical Machine Learning Tools and Techniques Third Edition, Elsevier, 2011
• Dr. Suyanto, Data Mining untuk Klasifikasi Data dan Klasterisasi Data, Edisi Revisi, Penerbit Informatika, 2018
• Eko Prasetyo, Data Mining “Mengolah data menjadi informasi menggunakan Matlab”, Andi, 2014

Pertemuan 4 - EDA

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 4 - EDA

Diunggah oleh

Hak Cipta:

Format Tersedia

Association Rule

Nur Fitrianti F., S.Kom., MT

Outline 2 Market Basket Analysis

Data Understanding Data Preprocesing

• Teknologi telah membantu retailer dengan memungkinkan untuk

• Retailer kini dapat memiliki miliyaran informasi tentang informasi

• Informasi ini dapat menjawab pertanyaan-pertanyaan penting

• Kapan pelanggan akan membeli?

• Bagaimana pembayaran dilakukan?

• Berapa banyak dan apa item tertentu yang dibeli?

• Apa hubungan antara barang yang dibeli?

• Konsumen cenderung mengabaikan bagaimana

• Jika konsumen detail, Toko telah membuat

• Toko menilai pola pembelian pelanggan dan

• Dimana hal ini membuat konsumen membeli

Tujuan dari MBA adalah untuk

Contoh ini merupakan kasus dari salah satu toko

Setelah beberapa observasi,

1. Karena bungkus dari popok

2. Pada akhir minggu, para

1. Mereka menempatkan premium beer tepat

2. Hasilnya adalah para ayah akan membeli diapers dan

3. Secara signifikan, para pria yang biasanya tidak

• Association rule adalah sebuah ekspresi implikasi dari bentuk X  Y

Contoh : Jika membeli susu maka membeli gula

• Dalam menentukan Association Rule, terdapat suatu interestingness measure (ukuran

Support: Bagian transaksi yang mengandung kedua X dan Y.

Confidence: Seberapa sering item dalam Y muncul di transaksi yang mengandung X.

Batasan tersebut biasanya disebut minimum support dan minimum confidence

• Tahap pertama adalah mencari nilai dari Support sesuai

Setelah semua pola kombinasi dan nilai dari

Silahkan Buka Excel kemudian buat data seperti berikut ini :

Nama File : TesMarketBasket.csv

• Aggregate digunakan untuk

• Merupakan Tahap Preprocessing

• Menentukan atribut yang akan menjadi id

• Tentukan minimum supportnya contoh 5% (0.05)

• Tentukan minimum confidence

1. Import Chapter 4 CSV data set ke dalam RapidMiner data repository

Ada total 1.218

• Charu C. Aggarwal, Data Mining The Textbook, Springer, 2015

Anda mungkin juga menyukai