Jasmir
Materi
Introduction
Teori RoughSet
Teknik Data Cleaning
Teknik Data Transformation
Algoritma MD Heuristic
Association Rule, Clustering, Prediction
Penerapan (Studi kasus) Data Mining
Pengantar
Mengapa DM:
Banjir Data
Twitter: 8000an tweet per detik 600 juta tweet
per hari.
Facebook: 30 milyar item (link, status, note, foto
dst) per bulan. 500 juta user menghabiskan 700
milyar menit per bulan di situs FB.
Indomaret: 4500an gerai, asumsikan 3 transaksi
per menit = 12 juta transaksi per hari se
Indonesia.
Kartu kredit visa: berlaku di 200 negara. 10 ribu
transaksi per detik 850 juta transaksi per hari.
Evolusi DB
60-an: koleksi data (file system primitif)
70-80: MIS (Sistem Informasi Management)
80-sekarang: OO, Deductive, Spatial,
Multimedia
90-sekarang: Web based (XML, web mining),
Datawarehouse, OLAP, Text Database, Text +
Data mining
05-sekarang: Stream data management and
mining, Cloud, Web
Keuntungan Datamining
Perusahaan fokus ke informasi yg
berharga di datawarehouse/databasenya.
Meramalkan masa depan perusahaan
dapat mempersiapkan diri
Contoh:
Midwest grocery chain menggunakan DM untuk
menganalisisi pola pembelian: saat pria membeli
popok di hari Kamis dan Sabtu, mereka juga
membeli minuman.
Analisis lebih lanjut: pembeli ini belanja di hari
kamis dan sabtu, tapi di hari kamis jumlah item
lebih sedikit. Kesimpulan yang diambil: pembeli
membeli minuman untuk dihabiskan saat
weekend.
Tindak lanjut: menjual minuman dengan harga full
di hari Kamis dan Sabtu. Mendekatkan posisi
popok dan minuman.
Contoh Aplikasi
Bank me-mining transaksi customer untuk
mengidentifikasi customer yang
kemungkinan besar tertarik terhadap
produk baru.
Setelah teknik ini digunakan, terjadi
peningkatan 20 kali lipat penurunan
biaya dibandingkan dengan cara biaya.
Contoh Aplikasi
Perusahaan transportasi me-mining
data customer untuk
mengelompokan customer yang
memiliki nilai tinggi yang perlu
diprioritaskan.
Proses Datamining
Pattern Evaluation
Data Mining
Task-relevant Data
Data
Warehouse
Pembersihan Data
Selection
Data Integration
Database
s
Classification
Classification adalah proses untuk
menemukan model atau fungsi yang
menjelaskan atau membedakan konsep
atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek
yang labelnya tidak diketahui.
Model itu sendiri bisa berupa aturan jikamaka, berupa decision tree, formula
matematis atau neural network.
Clustering
Berbeda dengan association rule mining dan
classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan
pengelompokan data tanpa berdasarkan kelas
data tertentu.
Bahkan clustering dapat dipakai untuk
memberikan label pada kelas data yang belum
diketahui itu. Karena itu clustering sering
digolongkan sebagai metode unsupervised
learning.
End User
Pengambi
lan
Keputusa
n
Presentasi Data
Teknik Visualiasi
Business
Analyst
Data Mining
Penemuan Informasi
Data
Analyst
Eksplorasi Data
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integrasi, Data Warehouses
Sumber Data
Database, Web, Paper, Files, Web, eksperimen
DBA
Machine
Learning
Pattern
Recognition
Statistik
Data Mining
Algoritma
Visualisasi
Ilmu Lain
Konsep..... (lanjutan)
Discernibility Matrik Modulo D
Adalah : Pengelompokan sejumlah atribut yang berbeda
attribute conditionalnya dan berbeda pula decisionnya.
Reduct Calculation
Adalah : Penyeleksian atribut minimal (Interesting Attribute)
dari sekumpulan atribut kondisi dengan menggunakan
Prime Implicant fungsi Boolean.Kumpulan dari semua Prime
Implicant mendeterminasikan sets of reduct.
Generating Rules
Adalah : Metode Rough set untuk menghasilkan rules /
knowledge berdasarkan equivalence class dan reduct
Numerical Representation
Discernibility Matrix
Reduct
Generating Rules
Generating Rules adalah metode Rough Set
untuk menghasilkan Rules atau Knowledge
berdasarkan Equivalence Class dan Reduct
A1c3 d1
A1c1 d2, b2c1 d2
A2 d2
B3 d2
A3 d3, a3 d4
B5 d3, b5 d4
Generating Rule
Rule Measurements
Support
Support () = ||||
Support () = ||||
Support () = Support (.)
Support (.) = Support () / support ()
Coverage
Coverage () = Support (.) / Support ()
Accuracy
Accuracy () = Support (.) / Support ()
Rule dikatakan
Complete jika coverage = 1
Determination jika accuracy = 1
Correct jika coverage dan acuracy = 1
Contoh Rule
A1C3 D1
A1C1 D2
B2C1 D2
A2 D2
LHS
RHS
Penyelesaian.....
........................................
(Lanj)
Juga dilakukan proses enrichment, yaitu
proses memperkaya data yang sudah
ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti
data atau informasi eksternal.
Biasanya dalam hal ini akan dibandingkan
penggunaan dua algoritma yaitu teknik
mean subsitusi dan mean interval.
Studi kasus
Transformasi (Roughset)
Selain dengan algortima di atas maka
untuk mentransformasikan data ini juga
dapat dipakai metode rough set yang
dapat dilihat pada algoritma berikut ini :
Penyelesaian
................................................
Algoritma
Minimum Degree Heuristic
Heuristics pada dasarnya adalah teknik analisa
yang digunakan untuk meningkatkan kinerja melalui
proses komputasi. Di bidang ilmu komputer,
heuristics adalah sebuah teknik yag dirancang
untuk mampu menyelesaikan masalah, tanpa perlu
pembuktian atas benar-tidaknya solusi yang
diberikan, tetapi solusi yang dihasilkan biasanya
merupakan solusi yang akurat, juga solusi atas
masalah yang lebih sederhana tetapi berhubungan
dengan permasalahan lain yang lebih kompleks
Pa1
Pa2
Pa3
Pa4
Pb1
Pb2
Pb3
Similarity
Kesamaan objek adalah salah satu konsep sentral dalam
data mining dan penemuan pengetahuan
Contoh, Untuk data time series keuangan, pengguna
mungkin tertarik dalam menemukan, misalnya, sahamsaham yang memiliki minggu lalu fluktuasi harga yang
besar, atau perusahaan yang mengidentifikasi harga
saham memiliki pola yang sama pertumbuhan.
Yang dimaksud dengan kesamaan juga dapat bervariasi,
tergantung pada jenis kesamaan yang kita cari.