Anda di halaman 1dari 45

Knowledge Discovery

in Databases (IS704)
dan Data Mining
(CS704)
Kuliah #1
Gunawan
Jurusan Teknik Informatika
Sekolah Tinggi Teknik Surabaya

We are drowning in
information, but starving
for knowledge
(John Naisbitt)
Kita tenggelam dalam informasi,
tetapi haus akan pengetahuan

Dec 15, 2015

Gunawan, Teknik Informatika STTS

Evaluasi Kuliah
35% Nilai Ujian Tengah Semester
35% Nilai Ujian Akhir Semester
30% Nilai Tugas Harian & Assignments
5% Nilai Prerogatif Dosen (misal: dari
aktivitas kelas)

Dec 15, 2015

Gunawan, Teknik Informatika STTS

Text Book
Data Mining: Concepts and Techniques, 2nd Edition,
Jiawei Han dan Micheline Kamber, Elsevier, USA, 2006.
Data Mining: Concepts and Techniques, 1st Edition,
Jiawei Han dan Micheline Kamber, Academic Press,
USA, 2001.

Dec 15, 2015

Gunawan, Teknik Informatika STTS

Referensi Utama
Introduction to Data Mining, Pang-Ning Tan, Michael
Steinbach, Vipin Kumar, Pearson Education, Inc., USA,
2006.
Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations, Ian H. Witten
dan Eibe Frank, Academic Press, USA, 2000.
Discovering Data Mining: From Concept to
Implementation, Peter Cabena, Pablo Hadjinian, Rolf
Stadler, Jaap Verhees, dan Alesandro Zanasi, Prentice
Hall, New Jersey, USA, 1998.
Machine Learning (International Edition), Tom
Michael Mitchell, MacGraw-Hill, Singapore, 1997.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

Referensi Tambahan
Data Mining Solution: Methods and Tools for Solving Real-World
Problems, Christopher Westphal dan Teresa Blaxton, John Wiley &
Sons, USA, 1998.
Data Warehousing, Data Mining & OLAP (International Edition),
Alex Berson dan Stephen J. Smith, McGraw-Hill, Singapore, 2001.
Data Mining, Pieter Adriaans dan Dolf Zantinge, Addison-Wesley
Longman, England, 1996.
Data Mining with Neural Networks: Solving Business Problems
from Application Development to Decision Support, Joseph P. Bigus,
MacGraw-Hill, USA, 1996.
Data Mining and Computational Intelligence (Serial Studies in
Fuzziness and Soft Computing), Abraham Kandel, Mark Last, dan
Horst Bunke (Editors), Physica-Verlag Heidelberg, Germany, 2001.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

Definisi
Ekstraksi atau "menambang" pengetahuan dari
data dalam jumlah yang besar.(Jia Weihan, p. 5.)
Proses pencarian terhadap pengetahuan -- yang
sebelumnya tidak diketahui; valid; dan dapat
digunakan -- dari database yang besar dan
kemudian menggunakan pengetahuan tersebut
untuk membuat keputusan bisnis yang penting.
(Cabena, p. 12.)
Dec 15, 2015

Gunawan, Teknik Informatika STTS

Istilah Populer, Kurang Tepat


Penambangan emas dari batu dan pasir
lebih cocok disebut tambang emas daripada
tambang batu atau tambang pasir.
Seharusnya lebih tepat disebut knowledge
mining from data.
Sayang terlalu panjang. Tidak memberikan
tekanan pada sumbernya: data dalam
jumlah besar.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

Istilah-istilah Lainnya
knowledge mining from databases
knowledge extraction
data/pattern analysis
data archaelogy
data dredging
information discovery
information harvesting
Dec 15, 2015

Gunawan, Teknik Informatika STTS

KDD vs. DM
Data Mining = Knowledge Discovery in
Database / KDD. (Cabena).
Data Mining = subset (salah satu tahap)
dari KDD saja (Jiawei Han). Batasan ini
yang selanjutnya digunakan.

Dec 15, 2015

Gunawan, Teknik Informatika STTS

10

Tujuan
Menemukan pola-pola pengetahuan yang
tersembunyi di dalam data.

The key to success in business is to


know something that nobody else
knows. (Aristotle Onassis)
Dec 15, 2015

Gunawan, Teknik Informatika STTS

11

Tahapan Proses KDD


(Peter Cabena)
Penentuan Sasaran Bisnis (Business Objective
Determination)
Persiapan Data (Data Preparation)
Data Selection
Data Preprocessing
Data Transformation

Data Mining
Analysis of Results
Assimilation of Knowledge
December 15, 2015

Gunawan, Teknik Informatika STTS

12

Business Objective
Determination (#1)
Mendefinisikan permasalahan atau tantangan bisnis
dengan jelas. Hal ini merupakan aspek yang sangat
esensial dalam setiap proyek data mining.
(Oleh beberapa peneliti KDD lainnya -- bahkan yang
terkenal -- tahapan ini cenderung diabaikan! dan jarang
disebut)
Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here
is the data, please mine it.". Tetapi jika mining dilakukan
dan pengetahuan diperoleh, bagaimana dapat diketahui
bahwa solusi tersebut benar-benar dibutuhkan?
December 15, 2015

Gunawan, Teknik Informatika STTS

13

Business Objective
Determination (#2)
Contoh sasaran bisnis:
Akan dikembangkan suatu strategi marketing untuk
mempertahankan loyalitas customer di Jawa Tengah
dan Jawa Timur untuk produk soft drink dengan
brand dan ukuran tertentu (200ml dalam kotak
alumunium) selama bulan Nopember, Desember dan
Januari yang akan datang. Perusahaan akan
menggunakan kombinasi dari berbagai strategi
marketing (mixed marketing), yang salah satunya
adalah direct mail campaign kepada customer yang
tampaknya "mudah rusak" loyalitasnya.
December 15, 2015

Gunawan, Teknik Informatika STTS

14

Business Objective
Determination (#3)
Pertanyaan kuncinya:
Rumah mana yang akan dikirimi surat
supaya usaha ini berhasil?

December 15, 2015

Gunawan, Teknik Informatika STTS

15

Business Objective
Determination (#4)
Dampak pada keseluruhan proses KDD:
Data Selection: dipilih customers yang membeli

produk soft drink 200 ml dalam kotak alumunium di


Jawa Tengah dan Jawa Timur.
Data Transformation: customers yang membeli
produk soft drink 200 ml dalam kotak alumunium
disorting dalam 10 kategori, yang masing-masing
membedakan tingkat loyalitasnya: membeli produk
tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100%
sepanjang waktu pembeliannya. Selanjutnya data
inilah yang akan dibawa ke tahap data mining.
December 15, 2015

Gunawan, Teknik Informatika STTS

16

Data Preparation (#1)


Mempersiapkan data yang diperlukan
untuk proses data mining.
Tujuannya:
agar data yang digunakan benar-benar sesuai

dengan permasalahan yang akan dipecahkan,


dapat dijamin kebenarannya, dan dalam format
yang sesuai/tepat.
December 15, 2015

Gunawan, Teknik Informatika STTS

17

Data Preparation (#2)


Tahap yang paling banyak mengkonsumsi
resources (manusia, biaya, waktu) yang
tersedia. Biasanya mencapai 60%
keseluruhan proyek KDD.
Menurut Cabena: Secara berurutan untuk 5
fase Cabena membutuhkan: 20% (fase 1)
+ 60% (fase 2)+ 10% (fase 3) + 10%
(untuk kedua fase 4 dan 5).
December 15, 2015

Gunawan, Teknik Informatika STTS

18

Data Preparation (#3)

December 15, 2015

Gunawan, Teknik Informatika STTS

19

Data Preparation (#4)


Data Selection
Mengidentifikasi semua sumber informasi

internal dan eksternal dan memilih sebagian


saja dari data yang diperlukan untuk aplikasi
data mining.

December 15, 2015

Gunawan, Teknik Informatika STTS

20

Data Preparation (#5)


Data Preprocessing
Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya.
2 issue yang paling sering dihadapkan pada tahap ini:
Noisy Data
Missing Values

December 15, 2015

Gunawan, Teknik Informatika STTS

21

Data Preparation (#6)


Data Transformation (#1)
Mengubah data ke dalam model analitis.
Memodelkan data agar sesuai dengan analisa

yang diharapkan dan format data yang


diperlukan oleh algoritma data mining.

December 15, 2015

Gunawan, Teknik Informatika STTS

22

Data Preparation (#7)


Data Transformation (#2)
Perlu diperhatikan terlebih dahulu 2 tipe utama data

yang digunakan:

Categorical: semua nilai yang mungkin ada, bersifat

terbatas

nominal: tanpa urutan, seperti status perkawinan (single,


kawin, duda/janda, unknown) atau jenis kelamin (laki-laki,
perempuan)
ordinal: dengan urutan, seperti rating loyalitas customer
(sangat baik, baik, cukup, kurang atau vulnerable atau mudah
dirusak loyalitasnya).
December 15, 2015

Gunawan, Teknik Informatika STTS

23

Data Preparation (#8)


Data Transformation (#3)
Quantitative: semua nilai yang mungkin

dapat diukur perbedaannya


continuous (nilai-nilai bilangan real): gaji
bulanan, rata-rata transaksi dalam satu periode
waktu (bulan, kuartal atau tahun).
discrete (nilai-nilai bilangan bulat): seperti jumlah
pegawai, jumlah transaksi dalam satu periode
waktu.
December 15, 2015

Gunawan, Teknik Informatika STTS

24

Data Preparation (#9)


Data Transformation (#4)
Contoh
Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan
1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya.
Normalization: Jika proses data mining menggunakan ANN,
karena sebagian besar ANN hanya menerima input dalam
range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka
parameter continuous yang di luar range tersebut harus
dinormalisasi.

December 15, 2015

Gunawan, Teknik Informatika STTS

25

Data Mining (#1)


Melakukan proses pencarian pengetahuan
terhadap data yang ditransformasikan pada tahap
sebelumnya.
Contoh Pengetahuan berbentuk Association Rule
untuk kasus "Soft Drink:
IF soft drink sejenis dengan ukuran yang lebih besar

(bukan botol kecil) dibeli dalam lebih dari 58%


sejarah pembelian soft drink seorang consumer THEN
consumer tersebut diprediksi Loyal.
December 15, 2015

Gunawan, Teknik Informatika STTS

26

Data Mining (#2)


Contoh Pengetahuan berbentuk Association Rule
untuk kasus "Soft Drink:
IF seorang consumer cenderung lebih banyak membeli soft drink

merk "X" THEN consumer tersebut diprediksi Mudah Rusak


Loyalitasnya.

IF lebih dari 11% sejarah pembelian soft drink seorang consumer

dilakukan pada sebuah gudang rabat / pusat grosir THEN


consumer tersebut diprediksi Mudah Rusak Loyalitasnya.

IF dihitung secara rata-rata seorang consumer ternyata membeli

lebih dari 345,67ml setiap kali belanja AND dengan harga ratarata soft drink per 100ml >= Rp. 550,-- THEN consumer
tersebut diprediksi Loyal.

December 15, 2015

Gunawan, Teknik Informatika STTS

27

Analysis of Results
Menginterpretasikan dan mengevaluasi
output dari tahap mining: patterns.
Pendekatan analisa yang digunakan akan
bervariasi menurut operasi data mining
yang digunakan, tetapi biasanya akan
melibatkan teknik visualisasi.

December 15, 2015

Gunawan, Teknik Informatika STTS

28

Assimilation of Knowledge
Menggunakan hasil mining yang telah
dievaluasi ke dalam perilaku organisasi
dan sistem informasi perusahaan.

December 15, 2015

Gunawan, Teknik Informatika STTS

29

Tahapan Proses KDD


(Daniel L. Silver)
Data Consolidation (and Cleansing).
Data Selection and Preprocessing.
Data Mining.
Interpretation and Evaluation.

December 15, 2015

Gunawan, Teknik Informatika STTS

30

Data Consolidation (and


Cleansing)
Filosofi: Garbage In Garbage Out
Menyita 50%-70% upaya dari keseluruhan proses
KDD.
Termasuk di dalamnya adalah "remove outlier".
Data consolidation menunjuk pada proses data
warehousing, termasuk pemilihan warehouse
repository (OLTP database, ORDBMS,
Multidimensional DBMS/Data Cube, Deductive
Database, flat files yang compatible pada
berbagai DM tools).
December 15, 2015

Gunawan, Teknik Informatika STTS

31

Data Selection and


Preprocessing
OLAP dan visualization tools memegang
peranan penting.
transformation data yang disebut penulis
lain pada tahap ini, khususnya pada
pengurangan dimensionality.
Encoding data ke format yang dikenali DM
tools.
December 15, 2015

Gunawan, Teknik Informatika STTS

32

Data Mining
Metode DM yang dipakai dibagi menjadi 3
kategori:
Automated Exploration / Discovery: Clustering misalnya,

dapat dipakai untuk mendapatkan segmentasi pasar baru dari


suatu produk.
Prediction / Classification: Belajar suatu model predictive.
ANN, GA, Regression dapat dipakai untuk peramalan nilai
penjualan.
Explaination / Description: Fungsi menjelaskan atau
mendeskripsikan. Induksi Decision Tree dan Ekstraksi Rule
dapat digunakan untuk menjelaskan perilaku customer berdasar
demographic dan sejarah pembeliannya.
December 15, 2015

Gunawan, Teknik Informatika STTS

33

Interpretation and Evaluation


Evaluasi: dilakukan secara validasi statistik dan
pengujian signifikan-nya; dilakukan review secara
kualitatif hasil mining oleh pakar di bidangnya.
Interpretasi: Decision tree dan rule dapat dibaca
langsung; Clustering harus digambarkan dan
ditabelkan.
Pemakaian visualization tools: analisis sensitif;
histogram untuk distribusi nilai; animasi dan
plotting time-series.
December 15, 2015

Gunawan, Teknik Informatika STTS

34

Tahapan Proses KDD (Jia


Weihan) #1
Data cleaning
Data integration
Data selection
Data transformation
Data mining
Pattern Evaluation
Knowledge Presentation
December 15, 2015

Gunawan, Teknik Informatika STTS

35

Tahapan Proses KDD (Jia


Weihan) #2
Data Cleaning: menghilangkan noise dan
data yang inkonsisten.
Data Integration: menggabungkan
berbagai macam sumber data.
Data Selection: memilih data yang relevan
(dari database) dengan "analysis task".
"analysis task" = Business Objective
Determination (Cabena).
December 15, 2015

Gunawan, Teknik Informatika STTS

36

Tahapan Proses KDD (Jia


Weihan) #3
Data Transformation: transformasi atau
konsolidasi data ke dalam bentuk yang lebih baik
untuk mining, dengan mewujudkan operasioperasi summary dan aggregation (misal: daily
data ---> monthly ---> quarterly ---> annual).
khususnya pada beberapa kasus data warehousing,

data transformation dilakukan sebelum data selection.

Data Mining: mengekstrak patterns dari data


dengan menerapkan "intelligent methods".
December 15, 2015

Gunawan, Teknik Informatika STTS

37

Tahapan Proses KDD (Jia


Weihan) #4
Pattern Evaluation: mengidentifikasi sejumlah
pola yang sungguh-sungguh menarik dan bakal
menjadi pengetahuan berdasarkan sejumlah
pengukuran ketertarikan (interestingness
measures) seperti rule support dan rule
confidence untuk rule extraction.
Knowledge Presentation: penggunaan teknikteknik visualisasi dan representasi untuk
menyajikan pengetahuan yang telah diperoleh
kepada user.
December 15, 2015

Gunawan, Teknik Informatika STTS

38

Jenis Data yang Ditambang


Relational Database
Data Warehouse
Transactional Database
Sistem/Aplikasi Database Lanjut lainnya:

Dec 15, 2015

Object Oriented Database


Object Relational Database
Spatial Database
Temporal Database & Time-Series Database
Text Database & Multimedia Database
Legacy Database
World Wide Web
Gunawan, Teknik Informatika STTS

39

Jenis Pengetahuan yang


Didapat
Decision Tree
Classification Rule
Association Rule
Berbagai Tree untuk Prediksi Numerik:
Regression Tree
Model Tree

Cluster
Dec 15, 2015

Gunawan, Teknik Informatika STTS

40

Irisan Interdisiplin Area (#1)


Artificial Intelligence (khususnya Machine
Learning)
Statistika
Databases

Dec 15, 2015

Gunawan, Teknik Informatika STTS

41

Irisan Interdisiplin Area (#2)


Menurut Jia Weihan, data mining integrasi dari:
database technology
artificial intelligence
machine learning
neural networks
statistics
pattern recognition
knowledge-based systems
knowledge acquisition
information retrieval
high-performance computing
data visualization.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

42

Biaya KDD (#1)


Sejumlah vendor menawarkan paket solusi
data mining, termasuk hardware, software,
dan services. Harga paket (pada 1998,
Cabena) dikategorikan dalam 3 level:
User solution ($10,000-$15,000)
Departemental solution ($150,000-$450,000)
Enterprise Solution ($500,000-$2,000,000)
Dec 15, 2015

Gunawan, Teknik Informatika STTS

43

Biaya KDD (#2)


Biaya untuk memulai proyek data mining secara umum
cukup tinggi, dan tergantung pada beberapa faktor utama:
Perusahaan Pengembang Software (Outsourced

Projects)

Berkisar $50,000 sampai $300,000 untuk proyek awal saja.

Software yang Digunakan (Data Mining Tools)


Harga tools bervariasi. Mulai dari freeware sampai ribuan
dollars.
Untuk platform UNIX dan Windows NT, mulai $100,000
sampai $150,000.
Sangat mahal untuk platform SMP dan MPP.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

44

Biaya KDD (#3)


Perangkat Keras (Hardwares)
High-end PCs (Sun, IBM, DEC, HP) sampai IBM RS/6000
servers.
Kecepatan bertambahnya volume data menjadi pertimbangan
penting pemilihan hardware.

Konsultan Data Mining (Data Mining Consultancy

Services)
Pemanfaatan jasanya disebut rute tercepat untuk proyek data
mining yang sukses.
Skill konsultan yang baik masih merupakan komoditas yang
langka.
Dec 15, 2015

Gunawan, Teknik Informatika STTS

45

Anda mungkin juga menyukai