Anda di halaman 1dari 5

Knowledge Discovery Tahapan Proses KDD

in Databases (IS704) (Peter Cabena)


dan Data Mining Š Penentuan Sasaran Bisnis (Business Objective
(CS704) Determination)
Š Persiapan Data (Data Preparation)
– Data Selection
– Data Preprocessing
Kuliah #2
– Data Transformation
Š Data Mining
Š Analysis of Results
Gunawan
Jurusan Teknik Informatika
Š Assimilation of Knowledge
Sekolah Tinggi Teknik Surabaya
12 August 2004 Gunawan, Teknik Informatika STTS 2

Business Objective Business Objective


Determination (#1) Determination (#2)
Š Mendefinisikan permasalahan atau tantangan bisnis Š Contoh sasaran bisnis:
dengan jelas. Hal ini merupakan aspek yang sangat
Mengembangkan suatu strategi marketing untuk
esensial dalam setiap proyek data mining. mempertahankan loyalitas customer di Jawa Tengah
Š (Oleh beberapa peneliti KDD lainnya -- bahkan yang dan Jawa Timur untuk produk soft drink dengan
terkenal -- tahapan ini cenderung diabaikan! dan jarang brand dan ukuran tertentu (200ml dalam kotak
alumunium) selama bulan Nopember, Desember dan
disebut)
Januari yang akan datang. Perusahaan akan
Š Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here menggunakan kombinasi dari berbagai strategi
is the data, please mine it.". Tetapi jika mining dilakukan marketing (mixed marketing), yang salah satunya
dan pengetahuan diperoleh, bagaimana dapat diketahui adalah direct mail campaign kepada customer yang
bahwa solusi tersebut benar-benar dibutuhkan? tampaknya "mudah rusak" loyalitasnya.

12 August 2004 Gunawan, Teknik Informatika STTS 3 12 August 2004 Gunawan, Teknik Informatika STTS 4

Business Objective Business Objective


Determination (#3) Determination (#4)
Š Dampak pada keseluruhan proses KDD:
– Data Selection: dipilih customers yang membeli
Š Pertanyaan kuncinya: produk soft drink 200 ml dalam kotak alumunium di
Jawa Tengah dan Jawa Timur.
Rumah mana yang akan dikirimi surat
– Data Transformation: customers yang membeli
supaya usaha ini berhasil? produk soft drink 200 ml dalam kotak alumunium
disorting dalam 10 kategori, yang masing-masing
membedakan tingkat loyalitasnya: membeli produk
tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100%
sepanjang waktu pembeliannya. Selanjutnya data
inilah yang akan dibawa ke tahap data mining.
12 August 2004 Gunawan, Teknik Informatika STTS 5 12 August 2004 Gunawan, Teknik Informatika STTS 6

1
Data Preparation (#1) Data Preparation (#2)
Š Mempersiapkan data yang diperlukan Š Tahap yang paling banyak mengkonsumsi
untuk proses data mining. resources (manusia, biaya, waktu) yang
tersedia. Biasanya mencapai 60%
Š Tujuannya: keseluruhan proyek KDD.
– agar data yang digunakan benar-benar sesuai Š Menurut Cabena: Secara berurutan untuk 5
dengan permasalahan yang akan dipecahkan, fase Cabena membutuhkan: 20% (fase 1)
dapat dijamin kebenarannya, dan dalam format + 60% (fase 2)+ 10% (fase 3) + 10%
yang sesuai/tepat. (untuk kedua fase 4 dan 5).

12 August 2004 Gunawan, Teknik Informatika STTS 7 12 August 2004 Gunawan, Teknik Informatika STTS 8

Data Preparation (#3) Data Preparation (#4)


Š Data Selection
– Mengidentifikasi semua sumber informasi
internal dan eksternal dan memilih sebagian
saja dari data yang diperlukan untuk aplikasi
data mining.

12 August 2004 Gunawan, Teknik Informatika STTS 9 12 August 2004 Gunawan, Teknik Informatika STTS 10

Data Preparation (#5) Data Preparation (#6)


Š Data Transformation (#1)
Š Data Preprocessing
– Meyakinkan kualitas dari data yang telah dipilih pada – Mengubah data ke dalam model analitis.
tahapan sebelumnya.
– Memodelkan data agar sesuai dengan analisa
– 2 issue yang paling sering dihadapkan pada tahap ini: yang diharapkan dan format data yang
• Noisy Data diperlukan oleh algoritma data mining.
• Missing Values

12 August 2004 Gunawan, Teknik Informatika STTS 11 12 August 2004 Gunawan, Teknik Informatika STTS 12

2
Data Preparation (#7) Data Preparation (#8)
Š Data Transformation (#2) Š Data Transformation (#3)
– Perlu diperhatikan terlebih dahulu 2 tipe utama data
– Quantitative: semua nilai yang mungkin
yang digunakan:
dapat diukur perbedaannya
– Categorical: semua nilai yang mungkin ada, bersifat
terbatas • continuous (nilai-nilai bilangan real): gaji bulanan,
• nominal: tanpa urutan, seperti status perkawinan (single, rata-rata transaksi dalam satu periode waktu
kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, (bulan, kuartal atau tahun).
perempuan)
• ordinal: dengan urutan, seperti rating loyalitas customer • discrete (nilai-nilai bilangan bulat): seperti jumlah
(sangat baik, baik, cukup, kurang atau vulnerable atau mudah pegawai, jumlah transaksi dalam satu periode
dirusak loyalitasnya). waktu.
12 August 2004 Gunawan, Teknik Informatika STTS 13 12 August 2004 Gunawan, Teknik Informatika STTS 14

Data Preparation (#9) Data Mining (#1)


Š Data Transformation (#4) Š Melakukan proses pencarian pengetahuan
– Contoh terhadap data yang ditransformasikan pada tahap
• Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan
sebelumnya.
1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya.
Š Contoh Pengetahuan berbentuk Association Rule
• Normalization: Jika proses data mining menggunakan ANN, untuk kasus "Soft Drink“:
karena sebagian besar ANN hanya menerima input dalam
range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka – IF soft drink sejenis dengan ukuran yang lebih besar
parameter continuous yang di luar range tersebut harus (bukan botol kecil) dibeli dalam lebih dari 58%
dinormalisasi.
sejarah pembelian soft drink seorang consumer THEN
consumer tersebut diprediksi Loyal.
12 August 2004 Gunawan, Teknik Informatika STTS 15 12 August 2004 Gunawan, Teknik Informatika STTS 16

Data Mining (#2) Analysis of Results


Š Contoh Pengetahuan berbentuk Association Rule Š Menginterpretasikan dan mengevaluasi
untuk kasus "Soft Drink“:
– IF seorang consumer cenderung lebih banyak membeli soft drink
output dari tahap mining: patterns.
merk "X" THEN consumer tersebut diprediksi Mudah Rusak Pendekatan analisa yang digunakan akan
Loyalitasnya.
– IF lebih dari 11% sejarah pembelian soft drink seorang consumer
bervariasi menurut operasi data mining
dilakukan pada sebuah gudang rabat / pusat grosir THEN yang digunakan, tetapi biasanya akan
consumer tersebut diprediksi Mudah Rusak Loyalitasnya.
– IF dihitung secara rata-rata seorang consumer ternyata membeli
melibatkan teknik visualisasi.
lebih dari 345,67ml setiap kali belanja AND dengan harga rata-
rata soft drink per 100ml >= Rp. 550,-- THEN consumer tersebut
diprediksi Loyal.

12 August 2004 Gunawan, Teknik Informatika STTS 17 12 August 2004 Gunawan, Teknik Informatika STTS 18

3
Tahapan Proses KDD
Assimilation of Knowledge
(Daniel L. Silver)
Š Menggunakan hasil mining yang telah Š Data Consolidation (and Cleansing).
dievaluasi ke dalam perilaku organisasi Š Data Selection and Preprocessing.
dan sistem informasi perusahaan.
Š Data Mining.
Š Interpretation and Evaluation.

12 August 2004 Gunawan, Teknik Informatika STTS 19 12 August 2004 Gunawan, Teknik Informatika STTS 20

Data Consolidation (and Data Selection and


Cleansing) Preprocessing
Š Filosofi: “Garbage In Garbage Out” Š OLAP dan visualization tools memegang
Š Menyita 50%-70% upaya dari keseluruhan proses peranan penting.
KDD.
Š Termasuk di dalamnya adalah "remove outlier". Š transformation data yang disebut penulis
Š Data consolidation menunjuk pada proses data lain pada tahap ini, khususnya pada
warehousing, termasuk pemilihan warehouse pengurangan dimensionality.
repository (OLTP database, ORDBMS, Š Encoding data ke format yang dikenali DM
Multidimensional DBMS/Data Cube, Deductive
Database, flat files yang compatible pada tools.
berbagai DM tools).
12 August 2004 Gunawan, Teknik Informatika STTS 21 12 August 2004 Gunawan, Teknik Informatika STTS 22

Data Mining Interpretation and Evaluation


Š Metode DM yang dipakai dibagi menjadi 3 Š Evaluasi: dilakukan secara validasi statistik dan
kategori: pengujian signifikan-nya; dilakukan review
– Automated Exploration / Discovery: Clustering misalnya, dapat secara kualitatif hasil mining oleh pakar di
dipakai untuk mendapatkan segmentasi pasar baru dari suatu
produk.
bidangnya.
– Prediction / Classification: Belajar suatu model predictive. Š Interpretasi: Decision tree dan rule dapat dibaca
ANN, GA, Regression dapat dipakai untuk peramalan nilai langsung; Clustering harus digambarkan dan
penjualan.
– Explaination / Description: Fungsi menjelaskan atau ditabelkan.
mendeskripsikan. Induksi Decision Tree dan Ekstraksi Rule dapat Š Pemakaian visualization tools: analisis sensitif;
digunakan untuk menjelaskan perilaku customer berdasar
demographic dan sejarah pembeliannya. histogram untuk distribusi nilai; animasi dan
plotting time-series.
12 August 2004 Gunawan, Teknik Informatika STTS 23 12 August 2004 Gunawan, Teknik Informatika STTS 24

4
Tahapan Proses KDD (Jia Tahapan Proses KDD (Jia
Weihan) #1 Weihan) #2
Š Data cleaning Š Data Cleaning: menghilangkan noise dan
Š Data integration data yang inkonsisten.
Š Data selection Š Data Integration: menggabungkan
Š Data transformation berbagai macam sumber data.
Š Data mining Š Data Selection: memilih data yang relevan
Š Pattern Evaluation
(dari database) dengan "analysis task".
• "analysis task" = Business Objective
Š Knowledge Presentation Determination (Cabena).

12 August 2004 Gunawan, Teknik Informatika STTS 25 12 August 2004 Gunawan, Teknik Informatika STTS 26

Tahapan Proses KDD (Jia Tahapan Proses KDD (Jia


Weihan) #3 Weihan) #4
Š Data Transformation: transformasi atau Š Pattern Evaluation: mengidentifikasi sejumlah
konsolidasi data ke dalam bentuk yang lebih baik pola yang sungguh-sungguh menarik dan bakal
untuk mining, dengan mewujudkan operasi- menjadi pengetahuan berdasarkan sejumlah
operasi summary dan aggregation (misal: daily pengukuran ketertarikan (interestingness
measures) seperti rule support dan rule
data ---> monthly ---> quarterly ---> annual).
confidence untuk rule extraction.
– khususnya pada beberapa kasus data warehousing,
data transformation dilakukan sebelum data selection.
Š Knowledge Presentation: penggunaan teknik-
teknik visualisasi dan representasi untuk
Š Data Mining: mengekstrak patterns dari data menyajikan pengetahuan yang telah diperoleh
dengan menerapkan "intelligent methods". kepada user.
12 August 2004 Gunawan, Teknik Informatika STTS 27 12 August 2004 Gunawan, Teknik Informatika STTS 28

Anda mungkin juga menyukai