Anda di halaman 1dari 75

Data Mining

Jasmir

Materi

Introduction
Teori RoughSet
Teknik Data Cleaning
Teknik Data Transformation
Algoritma MD Heuristic
Association Rule, Clustering, Prediction
Penerapan (Studi kasus) Data Mining

Pengantar

Mengapa data mining?


Apa data mining?
Data Mining: data apa saja?
Fungsi data mining
Klasifikasi sistem data mining
Algoritma data mining yang paling umum
Permasalahan dalam data mining

Mengapa DM:
Banjir Data
Twitter: 8000an tweet per detik 600 juta tweet
per hari.
Facebook: 30 milyar item (link, status, note, foto
dst) per bulan. 500 juta user menghabiskan 700
milyar menit per bulan di situs FB.
Indomaret: 4500an gerai, asumsikan 3 transaksi
per menit = 12 juta transaksi per hari se
Indonesia.
Kartu kredit visa: berlaku di 200 negara. 10 ribu
transaksi per detik 850 juta transaksi per hari.

Mengapa data mining?


Digitalisasi, kemajuan sistem informasi
data, data, data (Tera Peta)
Web berita, blog, twitter, forum, flickr,
fb, youtube
Streaming data twitter, f4, sensor
(satelit)

Evolusi DB
60-an: koleksi data (file system primitif)
70-80: MIS (Sistem Informasi Management)
80-sekarang: OO, Deductive, Spatial,
Multimedia
90-sekarang: Web based (XML, web mining),
Datawarehouse, OLAP, Text Database, Text +
Data mining
05-sekarang: Stream data management and
mining, Cloud, Web

Apa Data Mining?


Data mining (pencarian pengetahuan dari
data)
Mengekstrak secara otomatis pola atau
pengetahuan yang menarik (tidak sederhana,
tersembunyi, tidak diketahui sebelumnya,
berpotensi berguna) dari data dalam jumlah
sangat besar.

Apa Datamining? (lanj)


Nama alternatif: Knowledge discovery
(mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data
archeology, data dredging, information
harvesting, business intelligence dsb
Keuntungan bagi organisasi yang
menerapkan data mining?

Apa Datamining? (lanj)


Data Mining adalah suatu proses ekstraksi atau
penggalian data dan informasi yang besar yang belum
diketahui sebelumnya, namun dapat dipahami dan
berguna dari database yang besar serta digunakan
untuk membuat suatu keputusan bisnis yang sangat
penting (Connolly and Begg, 2005)
Data mining menggambarkan sebuah pengumpulan
teknik-teknik dengan tujuan untuk menemukan pola-pola
yang tidak diketahui pada data yang telah dikumpulkan
(Kvanli, Alan, and Payur, 2003)

Keuntungan Datamining
Perusahaan fokus ke informasi yg
berharga di datawarehouse/databasenya.
Meramalkan masa depan perusahaan
dapat mempersiapkan diri

Contoh:
Midwest grocery chain menggunakan DM untuk
menganalisisi pola pembelian: saat pria membeli
popok di hari Kamis dan Sabtu, mereka juga
membeli minuman.
Analisis lebih lanjut: pembeli ini belanja di hari
kamis dan sabtu, tapi di hari kamis jumlah item
lebih sedikit. Kesimpulan yang diambil: pembeli
membeli minuman untuk dihabiskan saat
weekend.
Tindak lanjut: menjual minuman dengan harga full
di hari Kamis dan Sabtu. Mendekatkan posisi
popok dan minuman.

Contoh Aplikasi
Bank me-mining transaksi customer untuk
mengidentifikasi customer yang
kemungkinan besar tertarik terhadap
produk baru.
Setelah teknik ini digunakan, terjadi
peningkatan 20 kali lipat penurunan
biaya dibandingkan dengan cara biaya.

Contoh Aplikasi
Perusahaan transportasi me-mining
data customer untuk
mengelompokan customer yang
memiliki nilai tinggi yang perlu
diprioritaskan.

Proses Datamining
Pattern Evaluation
Data Mining
Task-relevant Data
Data
Warehouse
Pembersihan Data

Selection

Data Integration
Database
s

Tahap-Tahap Data Mining


1. Pembersihan data (untuk membuang data yang
tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa
sumber)
3. Transformasi data (data diubah menjadi bentuk
yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan
yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)

Association Rule Mining


Association rule mining adalah teknik mining untuk
menemukan aturan assosiatif antara suatu kombinasi
item.
Contoh dari aturan assosiatif dari analisa pembelian di
suatu pasar swalayan adalah bisa diketahui berapa
besar kemungkinan seorang pelanggan membeli roti
bersamaan dengan susu.
Dengan pengetahuan tsb. pemilik pasar swalayan dapat
mengatur penempatan barangnya atau merancang
kampanye pemasaran dengan memakai kupon diskon
untuk kombinasi barang tertentu.

Classification
Classification adalah proses untuk
menemukan model atau fungsi yang
menjelaskan atau membedakan konsep
atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek
yang labelnya tidak diketahui.
Model itu sendiri bisa berupa aturan jikamaka, berupa decision tree, formula
matematis atau neural network.

Clustering
Berbeda dengan association rule mining dan
classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan
pengelompokan data tanpa berdasarkan kelas
data tertentu.
Bahkan clustering dapat dipakai untuk
memberikan label pada kelas data yang belum
diketahui itu. Karena itu clustering sering
digolongkan sebagai metode unsupervised
learning.

Data Mining dan Business


Intelligence
Semakin mendukung
pengambilan keputusan

End User

Pengambi
lan
Keputusa
n

Presentasi Data
Teknik Visualiasi

Business
Analyst

Data Mining
Penemuan Informasi

Data
Analyst

Eksplorasi Data
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integrasi, Data Warehouses
Sumber Data
Database, Web, Paper, Files, Web, eksperimen

DBA

Diambil dari www.cs.uiuc.edu/~hanj

Data Mining: Multi Disiplin Ilmu


Teknologi DB

Machine
Learning
Pattern
Recognition

Statistik

Data Mining

Algoritma

Visualisasi

Ilmu Lain

Teori Rough Set


Teori Rough Set adalah sebuah teknik matematika yang
dikembangkan oleh Pawlack pada tahun 1980. Teknik ini
digunakan untuk menangani masalah Uncertainty, (Mising
data, Incompleted Data dan Inconsistency Data, Imprecision
dan Vagueness) dalam apliksi Artificial Intelligence (AI).
Rough Set merupakan teknik yang efisien untuk Knowledge
Discovery dalam Database (KDD) proses dan Data Mining.
Secara umum, teori Rough Set telah digunakan dalam
banyak aplikasi seperti medicine, pharmacology, business,
banking, engineering design, image processing dan decision
analysis.Rough Set merupakan teknik yang efisien untuk
KDD proses dan Data Mining.

Konsep konsep pada Rough Set


Indiscernibility (Similarity) (Pembahasan tersendiri)
Adalah : Sekumpulan object yang mempunyai nilai
Decision yang sama.
Equivalence Class
Adalah : Sekumpulan object yang akan dikelompokkan
yang mempunyai nilai attribute yang sama.
Discernibility Matrik
Adalah : Pengelompokan sejumlah atribut dimana yang
dikelompokkan hanyalah attribute conditionalnya saja.

Konsep..... (lanjutan)
Discernibility Matrik Modulo D
Adalah : Pengelompokan sejumlah atribut yang berbeda
attribute conditionalnya dan berbeda pula decisionnya.
Reduct Calculation
Adalah : Penyeleksian atribut minimal (Interesting Attribute)
dari sekumpulan atribut kondisi dengan menggunakan
Prime Implicant fungsi Boolean.Kumpulan dari semua Prime
Implicant mendeterminasikan sets of reduct.
Generating Rules
Adalah : Metode Rough set untuk menghasilkan rules /
knowledge berdasarkan equivalence class dan reduct

Tabel Information System

Tabel Decision system

Tabel Equivalence Class

Numerical Representation

Discernibility Matrix

Discernibility Matrix Modulo D

Reduct

Generating Rules
Generating Rules adalah metode Rough Set
untuk menghasilkan Rules atau Knowledge
berdasarkan Equivalence Class dan Reduct
A1c3 d1
A1c1 d2, b2c1 d2
A2 d2
B3 d2
A3 d3, a3 d4
B5 d3, b5 d4

Generating Rule

If A=1 and C=3 then D=1


atau If Studies = Poor and work = poor then
income = none

If A=1 and C=1 then D=2


If B=2 and C=1 then D=2
If A=2 then D=2
If B=3 then D=2
Dst...........

Rule Measurements
Support
Support () = ||||
Support () = ||||
Support () = Support (.)
Support (.) = Support () / support ()

Coverage
Coverage () = Support (.) / Support ()

Accuracy
Accuracy () = Support (.) / Support ()

Rule dikatakan
Complete jika coverage = 1
Determination jika accuracy = 1
Correct jika coverage dan acuracy = 1

Contoh Rule

A1C3 D1
A1C1 D2
B2C1 D2
A2 D2

LHS

RHS

LHS = Left Hand Side


RHS = Right Hand Side

Berdasarkan Data diatas, tentukan


Discernibility Matrix
Discernibility Matrix Modulo D

Jika Diberikan Reduct dibawah ini


{Batch,Paper} , {Paper,Printer} dan {Paper}
Maka tentukan knowledge yg dihasilkan?
Dan tentukan pula apakah knowledge tsb
correct or incorrect?

Penyelesaian.....
........................................

Teknik Data Cleaning


Teknik data cleaning adalah suatu teknik
yang digunakan untuk menangani data
yang tidak lengkap. Proses data cleaning
ini juga mencakup antara lain membuang
duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan
pada data, seperti kesalahan cetak
(tipografi).

(Lanj)
Juga dilakukan proses enrichment, yaitu
proses memperkaya data yang sudah
ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti
data atau informasi eksternal.
Biasanya dalam hal ini akan dibandingkan
penggunaan dua algoritma yaitu teknik
mean subsitusi dan mean interval.

Dengan menggunakan mean substitusi

Sehingga data lengkapnya adalah

Lanjutkan dengan mean interval

Studi kasus

Lengkapi data diatas dengan menggunakan


teknik data cleaning
Lanjutkan dengan mencari Generating Rule
melalui Discernibility Matrix, Discernibility matrix
modulo D, dan Reduct calculation

Jika Diberikan Reduct dibawah ini


{Jenis Bangunan,Luas bangunan}, {Luas
Bangunan, Letak bangunan} dan {Luas
bangunan}
Maka tentukan knowledge yg dihasilkan?
Dan tentukan pula apakah knowledge tsb
correct or incorrect?

Teknik Data Transformation


Teknik Data transformasi adalah suatu
teknik yang digunakan untuk
mentransformasikan data mentah ke
dalam data yang ditransformasikan

Transformasi (Roughset)
Selain dengan algortima di atas maka
untuk mentransformasikan data ini juga
dapat dipakai metode rough set yang
dapat dilihat pada algoritma berikut ini :

Penyelesaian
................................................

Algoritma
Minimum Degree Heuristic
Heuristics pada dasarnya adalah teknik analisa
yang digunakan untuk meningkatkan kinerja melalui
proses komputasi. Di bidang ilmu komputer,
heuristics adalah sebuah teknik yag dirancang
untuk mampu menyelesaikan masalah, tanpa perlu
pembuktian atas benar-tidaknya solusi yang
diberikan, tetapi solusi yang dihasilkan biasanya
merupakan solusi yang akurat, juga solusi atas
masalah yang lebih sederhana tetapi berhubungan
dengan permasalahan lain yang lebih kompleks

Teknik pencarian heuristik (heuristic searching)


merupakan suatu strategi untuk melakukan proses
pencarian ruang keadaan (state space)suatu problema
secara selektif, yang memandu proses pencarian yang
kita lakukan di sepanjang jalur yang memiliki
kemungkinan sukses paling besar, dan
mengesampingkan usaha yang bodoh dan memboroskan
waktu.
Heuristik adalah sebuah teknik yang mengembangkan
efisiensi dalam proses pencarian, namun dengan
kemungkinan mengorbankan kelengkapan
(completeness).

Langkah Algoritma MDH


Membuat Tabel A*
Buat tabel A* dari A kemudian hapus row
yang terkhir yaitu New Elemen dari A* set
B=A*. Object yang ada pada A* adalah
pasangan dari object I dan j yang
mempunyai keputusan yang berbeda. Satu
object baru ditambahkan dan diberi nama
New dengan semua nilai atributnya = 0 dan
decisionnya = 1

Menentukan Nilai 1 Terbanyak


Pilih 2 kolom dari tabel B atau A* yang
mempunyai nilai 1 yang berbeda yang
terbanyak. Kemudian pada tabel B row (baris)
New . Kejadian ini diperlihatkan dalam tabel
IV-5 di bawah ini :

Dari tabel diatas setelah dicari nilai 1 yang


terbanyak berbeda maka didapat hasilnya
sebagai berikut :

Pa1
Pa2
Pa3
Pa4
Pb1
Pb2
Pb3

mempunyai nilai 1 sebanyak 3


mempunyai nilai 1 sebanyak 5
mempunyai nilai 1 sebanyak 6
mempunyai nilai 1 sebanyak 3
mempunyai nilai 1 sebanyak 4
mempunyai nilai 1 sebanyak 6
mempunyai nilai 1 sebanyak 5

Dari tabel B nilai 1 yang terbanyak ada pada Pa3


dan Pb2, lalu pilih salah satu dari 2 nilai 1 yang
terbanyak tersebut kemudian hapus. Misalnya
dipilih Pb2. hapus row yang mempunyai nilai 1
pada Pb2. , kemudian lakukan kembali cara yng
sama sampai tidak ada lagi nilai 1 terbanyak
yang berbeda terhadap tabel B atau tabel B
dinyatakan kosong (empty). Hasil penghapusan
adalah Pa2 Pb2 Pa4 , Pb2 . Maka nilai untuk Pa2
berdasarkan tabel diatas adalah (1, 1.3)
sehingga nilainya menjadi :

Similarity
Kesamaan objek adalah salah satu konsep sentral dalam
data mining dan penemuan pengetahuan
Contoh, Untuk data time series keuangan, pengguna
mungkin tertarik dalam menemukan, misalnya, sahamsaham yang memiliki minggu lalu fluktuasi harga yang
besar, atau perusahaan yang mengidentifikasi harga
saham memiliki pola yang sama pertumbuhan.
Yang dimaksud dengan kesamaan juga dapat bervariasi,
tergantung pada jenis kesamaan yang kita cari.

Langkah-langkah kesamaan yang berbeda dapat


mencerminkan aspek yang berbeda dari data, dan oleh
karena itu dua benda dapat ditentukan untuk menjadi
serupa dengan satu ukuran dan sangat berbeda dengan
ukuran lain
Ini berarti bahwa kita harus hati-hati memilih salah satu
ukuran tertentu dan berharap bahwa hal itu memberikan
hasil yang tepat, atau kita harus mencoba beberapa
langkah pada data dan kemudian dengan
membandingkan hasil yang diberikan oleh langkahlangkah ini, memilih salah satu yang paling sesuai tujuan
kita.

KESAMAAN ANTARA ATRIBUT


Pada bagian ini, kita mempelajari bagaimana kesamaan
antara atribut bernilai biner dalam suatu relasi dapat
didefinisikan. Kami mempertimbangkan dua pendekatan
dasar untuk atribut kesamaan:
Sebuah langkah internal kesamaan antara dua atribut
adalah murni ditentukan berdasarkan nilai-nilai dari dua
atribut, tidak pada setiap atribut lain di relasi.
Sebuah langkah eksternal, sebaliknya,
mempertimbangkan juga nilai dari beberapa atau semua
atribut lain di relasi.

ATRIBUT DALAM HUBUNGAN


Sebuah cara yang terkenal dan banyak
digunakan untuk menggambarkan struktur
database adalah model relasional.
Dalam model ini, data direpresentasikan
sebagai hubungan, yaitu, meja di mana
setiap baris menggambarkan obyek dalam
aplikasi dianggap

Anda mungkin juga menyukai