Data Mining
References :
Dr. Matthew North, Data Mining for the Masses, Amazon.com, 2012
1 EDA
3 Association Rule
1.
Data Exploration
Eksplorasi Data
• Eksplorasi data, juga dikenal sebagai • Eksplorasi data secara luas dapat diklasifikasikan
exploratory data analysis (EDA), menjadi dua jenis—statistik deskriptif dan visualisasi
menyediakan seperangkat alat sederhana data.
untuk memperoleh beberapa pemahaman • Statistik Deskriptif : mean, standar deviasi, korelasi
dasar tentang data. • Visualisasi : data direpresentasikan dalam bentuk
• Hasil eksplorasi data bisa sangat kuat grafik seperti scatterplot, box plot
dalam memahami struktur data, distribusi
nilai, dan keberadaan nilai ekstrim dan
keterkaitan dalam kumpulan data.
Tujuan Eksplorasi Data
Market Basket Analysis pada dasarnya melibatkan penggunaan data transaksional konsumen untuk
mempelajari pola pembelian dan menjelajahi kemungkinan (probabilitas) dan crossselling.
Istilah Market Basket Analysis sendiri datang dari kejadian yang sudah sangat umum terjadi di
dalam pasar swalayan, yakni ketika para konsumen memasukkan semua barang yang merak beli
ke dalam keranjang (basket) yang umumnya telah disediakan oleh pihak swalayan itu sendiri.
Informasi mengenai produk-produk yang biasanya dibeli secara bersamasama oleh para
konsumen dapat memberikan wawasan tersendiri bagi para pengelola toko atau swalayan untuk
menaikkan laba bisnisnya (Albion Research, 2007).
3.
Association Rule
Association Rules
• Metodologi Association Rules, atau Analisis Asosiasi adalah sebuah metodologi untuk mencari
relasi (asosiasi) istimewa/menarik yang tersembunyi dalam himpunan data (atau data set)
yang besar.
• Salah satu penerapan Metode Association rules adalah pada Market Basket Analysis
Association Rules
1. Support
2. Confidence
Support
Atau jika terdapat dua buah item dalam X, nilai support diperoleh dari rumus berikut:
Confidence
Support dan Confidence berfungsi untuk menentukan interesting association rules yang akan
dibandingkan dengan batasan (threshold) yang ditentukan oleh user.
• Support adalah ukuran yang penting karena jika aturan memiliki support yang kecil, maka
kejadian bisa saja hanyalah sebuah kebetulan.
• Aturan Support yang rendah juga cenderung tidak menarik dari perspektif bisnis karena
mungkin tidak akan memberikan keuntungan saat mempromosikan barangbarang yang jarang
dibeli pelanggan bersamaan. Untuk alasan ini, Support sering digunakan untuk menghilangkan
ketidak-menarikan ini.
• Confidence, adalah ukuran kehandalan dari kesimpulan yang dibuat oleh aturan. Semakin besar
Confidence, semakin besar kemungkinan untuk Y hadir dalam transaksi yang mengandung X.
Confidence juga memberikan probabilitas bersyarat dari Y yang diberikan ke X.
Contoh (1)
Jika kita tentukan bahwa minimum supportnya adalah 30%, maka rule yang memenuhi adalah
sebagai berikut:
Contoh (3)
• Assosiation Rule akan dipilih sesuai kebijakan manajer toko, semakin tinggi support dan
confidence semakin baik hasilnya.
• Misalkan kita ambil contoh yaitu {mentega, telur} {roti} yang memiliki nilai Support 80% dan
confidence 100% artinya adalah:
• “seorang konsumen yang membeli mentega dan telur memiliki kemungkinan 100% untuk juga
membeli roti”
Data
No TID Item
1 1 A
2 1 B
3 2 C
4 3 A
5 3 B
6 3 C
7 4 A
8 4 B
Import Data
Memilih Atribut
Merubah Type data
4.
Latihan
Implementasi
Aggregate
• Link : https://sites.google.com/site/dataminingforthemasses/
• download Chapter04DataSet.csv
Process
1
2
Data Set
• Korelasi yang positif berarti ketika nilai satu atribut naik, nilai atribut lainnya juga naik. Namun, korelasi
positif juga berarti bahwa ketika nilai satu atribut turun, atribut lainnya juga turun. Analis data
terkadang membuat kesalahan dengan berpikir bahwa ada korelasi negatif jika nilai atribut menurun,
tetapi jika nilai atribut yang sesuai juga menurun, korelasinya tetap positif.
Korelasi Negatif
Kesimpulan
• Berdasarkan matrix korelasi atribut Num_Occupants tidak memiliki korelasi yang tinggi dengan atribut
yang lain. Sementara Num_Occupants / jumlah orang yang tinggal di rumah secara logis mungkin tampak
seperti variabel yang akan mempengaruhi penggunaan energi, ternyata dalam model ini tidak berkorelasi
secara signifikan dengan hal lain. Maka kita dapat menghapus atribut ini.
3.
Atribut Reduction
Atribut Reduction
Parameter
2
Attribut yang akan di
delete
Reference
• Dennis A.C, Donny A. Baskoro,Lia A., I Wayan S. W., Belajar Data Mining dengan RapidMiner.
• Michael J.A. Berry, Gordon S. Linoff, Data Mining Techniques For Marketing, Sales and Customer Relationship Management, 2 nd Ed, Wiley, 2004
• Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining Practical Machine Learning Tools and Techniques Third Edition, Elsevier, 2011
• Dr. Suyanto, Data Mining untuk Klasifikasi Data dan Klasterisasi Data, Edisi Revisi, Penerbit Informatika, 2018
• Eko Prasetyo, Data Mining “Mengolah data menjadi informasi menggunakan Matlab”, Andi, 2014