DataMiningAvi PDF

Anda mungkin juga menyukai

Anda di halaman 1dari 41

Data Mining

Pengenalan Sistem & Teknik, Serta Contoh Aplikasi

Avinanta Tarigan

22 Nov 2008

1 Avinanta Tarigan Data Mining


Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

2 Avinanta Tarigan Data Mining


Pengertian Dasar

Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

3 Avinanta Tarigan Data Mining


Pengertian Dasar

Latar Belakang

Banyak data yang telah


direkam dan disimpan:
Transaksi penjualan
supermarket
Transaksi perbankan dan
kartu kredit
Log kunjungan Web
(access_log)
Akuisisi data dalam
penelitian-penelitian seperti
astronomi, kesehatan, dll
Kebutuhan untuk berkompetisi
Sistem komputer lebih murah
dengan strategi yang tepat
dan cepat (Moore’s Law)
menjadi lebih tinggi

4 Avinanta Tarigan Data Mining


Pengertian Dasar

Mengapa Harus Data Mining ?

Data yang sedemikian besar kadang memiliki informasi


yang tersembunyi
Kemampuan manusia terbatas untuk “mempelototi”
data-data tersebut dalam analisis

5 Avinanta Tarigan Data Mining


Pengertian Dasar

Definisi2 Data Mining

Data
Rekaman atau catatan terhadap fakta / transaksi / obyek

Definisi
Ekstraksi informasi yang implisit, tidak diketahui
sebelumnya, dan berpotensi berguna
Eksplorasi dan analisis, secara otomatis atau tidak, data
yang sangat besar untuk menemukan pola-pola yang
berguna dan mempunyai arti

6 Avinanta Tarigan Data Mining


Pengertian Dasar

Pengertian Yang Salah

Bukan Data Mining Data Mining


Mencari nomor telepon Menemukan bahwa banyak
“Bambang Gunawan” di orang bernama Bambang
buku telepon Indonesia di daerah Jawa Timur
Mencari informasi Mengelompokkan dokumen
mengenai “Bunga” di web mengenai “Bunga”
google.com sesuai dengan konteks
Bunga Bank atau Kredit
(Keuangan)
Bunga - Tanaman /
Pertanian
BCL (Artis)

7 Avinanta Tarigan Data Mining


Pengertian Dasar

Sistem Ekstraksi Pengetahuan


KDD (Knowledge Discovery in Databases)

8 Avinanta Tarigan Data Mining


Pengertian Dasar

Ilmu Data Mining

Gabungan dari
beberapa bidang ilmu dalam
Matematik dan Ilmu Komputer
Diperlukan karena:
Data yang s(u)angat b(u)esar
Dimensi data yang besar
Data Heterogen

9 Avinanta Tarigan Data Mining


Pengertian Dasar

Data

Kumpulan obyek data dan


atributnya
Obyek : record, point, case,
sampel, entitas, instan
Atribut / variabel / field :
karakteristik dari obyek (status
pernikahan, umur, dll)

10 Avinanta Tarigan Data Mining


Classification Mining

Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

11 Avinanta Tarigan Data Mining


Classification Mining

Classification Mining

Ekstraksi pola pengelompokan atau pengklasifikasian


sebuah himpunan obyek / data (training-set) ke dalam
kelas (class) tertentu berdasarkan atribut-atributnya
Pola pengelompokan yang ditemukan akan menjadi model
pengelompokan
Model digunakan untuk memprediksi kelompok data /
obyek baru (test-set)

12 Avinanta Tarigan Data Mining


Classification Mining

Ilustrasi Classification Mining

13 Avinanta Tarigan Data Mining


Classification Mining

Contoh Aplikasi I

Pemakaian Kartu Kredit secara Ilegal


Tujuan : mendeteksi adanya penggunaan kartu kredit
secara ilegal
Pendekatan :
Data transaksi sebelumnya (lokasi & waktu transaksi, jenis
barang yang dibeli, besar transaksi)
Label data-data tersebut dengan Curang atau Aman
DM mencari model klasifikasi Curang atau Aman
berdasarkan atribut transaksi
Menerapkan model tersebut jika ada transaksi baru untuk
mempercepat / tepat tindakan preventif

14 Avinanta Tarigan Data Mining


Classification Mining

Contoh Aplikasi II

Deteksi SPAM
Tujuan : mendeteksi email yang tidak diharapkan secara
dini
Direct Marketing
Tujuan : mencari pengelompokan profil pelanggan agar
target marketing sesuai
Sky Survey Cataloging
Tujuan : mengelompokkan obyek langit hasil pemotretan
teleskop ke dalam class-nya

15 Avinanta Tarigan Data Mining


Classification Mining

Contoh Aplikasi III

16 Avinanta Tarigan Data Mining


Classification Mining

Teknik / Metode

Decision Tree (Pohon Keputusan)


Rule-based Methods
Memory based reasoning
Neural Networks (Jaringan Syaraf Tiruan)
Naive Bayes dan Bayesian Belief Networks
Support Vector Machines

17 Avinanta Tarigan Data Mining


Classification Mining

Contoh Model: Pohon Keputusan I

18 Avinanta Tarigan Data Mining


Classification Mining

Contoh Model: Pohon Keputusan II

Bagaimanakah Algoritma Pembentuk Pohon Keputusan


Tersebut ?

19 Avinanta Tarigan Data Mining


Association Mining

Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

20 Avinanta Tarigan Data Mining


Association Mining

Association Mining

Menemukan pola asosiasi dalam data


Adanya kemunculan obyek tertentu berdasarkan
kemunculan obyek yang lain

21 Avinanta Tarigan Data Mining


Association Mining

Contoh Aplikasi I

Marketing & Sales Promotion


Misalnya pola yang ditemukan :
{Susu Anak, ...} → {Kwaci}
Kwaci sebagai konsekuen : bagaimana caranya menaikkan
penjualan kwaci
Susu Anak sebagai anteseden : jika tidak lagi menjual susu
anak, memprediksi produk lain yang ikut jatuh penjualannya
Dua-duanya : membuat paket promo Susu Anak, Kwaci, dll

22 Avinanta Tarigan Data Mining


Association Mining

Contoh Aplikasi II

Pengelolaan Rak di Supermarket


Tujuan: memudahkan pelanggan berbelanja barang-barang
yang sering dibeli bersama
Misalnya: ada rak kecil berisi kwaci diletakkan pada bagian
susu anak
Sistem Rekomendasi Pintar
Tujuan: memberikan rekomendasi kepada pelanggan toko
buku on-line tentang buku-buku lain yang sering dibeli juga
oleh pelanggan lainnya jika membeli buku tertentu

23 Avinanta Tarigan Data Mining


Association Mining

Metode
Rule asosiasi : X → Y
1 Membangkitkan semua item-set yang kemunculannya
tinggi pada data
1 Bentuk Lattice (struktur yang akan memunculkan semua
subset yang diurutkan berdasarkan subset - superset)
2 Menyeleksi item-set dg Support yang tinggi. Support =
Jumlah Transaksi Yg Berisi X dan Y
Jumlah Keseluruhan Transaksi
2 Mencari pola asosiasi yang mempunyai “confidence” yang
tinggi
1 Confidence = Mengukur seberapa sering item di Y juga
muncul pada transaksi yang berisi X
2 Gunakan pencarian Bread-First-Search atau
Depth-First-Search pada Lattice tsb
3 Seleksi akhir dengan “Interestingness Measure”.
Asosiasi{Kopi} → {Gula} tentunya tidak menarik
24 Avinanta Tarigan Data Mining
Association Mining

Ilustrasi I

Pembentukan Lattice

25 Avinanta Tarigan Data Mining


Association Mining

Ilustrasi II
Seleksi “Support”

26 Avinanta Tarigan Data Mining


Association Mining

Ilustrasi III

Seleksi High “Confidence”

27 Avinanta Tarigan Data Mining


Clustering

Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

28 Avinanta Tarigan Data Mining


Clustering

Clustering (Penggugusan)

Definition
Proses mencari gugus-gugus dari sekumpulan obyek sehingga
obyek-obyek di dalam sebuah gugus mirip satu dengan lainnya,
dan berbeda dengan obyek di luar gugusnya.

29 Avinanta Tarigan Data Mining


Clustering

Contoh Aplikasi I

Web-Document Clustering:
Tujuan: mencari gugus dokumen-dokumen Web yang mirip
berdasarkan kemunculan istilah penting
Pendekatan: mengidentifikasi istilah yang sering muncul
pada setiap dokumen, mengukur kemiripan berdasarkan
frekwensi kemunculan istilah pada dokumen lainnya
Hasil: Web search engine memunculkan
dokumen-dokumen yang mirip (dalam 1 gugus)
berdasarkan istilah yang dicari

30 Avinanta Tarigan Data Mining


Clustering

Contoh Aplikasi II

Segmentasi Pasar:
Tujuan: mencari gugus segmentasi pasar berdasarkan data
transaksi untuk keperluan marketing
Pendekatan:
mempersiapkan data beserta atribut data pelanggan
berdasarkan geografi dan data pribadi lainnya
mencari gugus pelanggan yang mirip berdasarkan atribut2
tsb
melakukan observasi perilaku pasar berdasarkan
gugus-gugus pelanggan yang ditemukan
Hasil: strategi marketing yang tepat sasaran

31 Avinanta Tarigan Data Mining


Clustering

Mengukur Kemiripan Atribut Data I

Kemiripan (Similarity):
ukuran dalam numerik [0,1] yang merepresentasikan
kemiripan antara 2 obyek
0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali)
Ketidakmiripan (Disimilarity) vs Kemiripan

p dan q adalah nilai atribut dari 2 obyek


Tipe Atribut Ketidakmiripan Kemiripan
( (
0 if p = q 0 if p 6= q
Nominal d= s=
1 if p 6= q 1 if p = q
Ordinal d = |p−q|
n s = 1 − |p−q|
n
1
Interval / Ratio d = |p − q| s = −d atau s = 1+d

32 Avinanta Tarigan Data Mining


Clustering

Mengukur Kemiripan Atribut Data II

Pengukuran kemiripan variabel kontinyu:


Euclidean
q Distance:
dist = ∑ni=1 (pi − qi )2
Minkowski Distance:
1
dist = ∑ni=1 |pi − qi |r r

33 Avinanta Tarigan Data Mining


Clustering

Mengukur Kemiripan Atribut Data III


Contoh Euclidean Distance

34 Avinanta Tarigan Data Mining


Clustering

Contoh Algoritma Pencari Gugus

K -Means Clustering, Konsep: Centroid → titik tengah


gugus
Algoritma (asumsi: sudah dilakukan pengukuran
kemiripan)
1 Tentukan K points sebagai awal centroids
2 Repeat
3 Buat K buah gugus dengan memasukkan point-point
yang dekat dengan centroid
4 Cari centroid baru dari gugus-gugus tersebut
5 Until Centroid tidak berubah

35 Avinanta Tarigan Data Mining


Clustering

Ilustrasi K-Means

36 Avinanta Tarigan Data Mining


Penutup

Outline

1 Pengertian Dasar

2 Classification Mining

3 Association Mining

4 Clustering

5 Penutup

37 Avinanta Tarigan Data Mining


Penutup

OnLine Analytical Processing I

Diusulkan oleh E.F. Codd (Bapak Relational Database)


Data tidak diolah dari database, melainkan dibentuk dalam
array multidimensi
Data dapat direpresentasikan sebagai titik / point dalam
ruang multi-dimensi jika atribut2 nya adalah numerik
Matriks m × n dapat merepresentasikan model data tsb,
dimana terdapat m obyek dan n atribut (Data Cube)
Keuntungan: explorasi, operasi, dan transformasi data
dapat lebih mudah dilakukan dan (hampir) real-time

38 Avinanta Tarigan Data Mining


Penutup

OnLine Analytical Processing II

Banyak analisis terhadap transaksi bisnis dengan volume


besar dapat dilakukan dengan menggunakan OLAP
OLAP menjadi Jargon banyak Vendor

39 Avinanta Tarigan Data Mining


Penutup

Informasi Mengenai Data Mining

Tan, Steinbach, Kumar, “Introduction to Data Mining”

http://en.wikipedia.org/wiki/Data_mining

40 Avinanta Tarigan Data Mining


Penutup

Selesai

TERIMAKASIH

presentasi ini sendiri dapat didownload dari

http://avinanta.staff.gunadarma.ac.id

41 Avinanta Tarigan Data Mining

Anda mungkin juga menyukai