12 August 2004 Gunawan, Teknik Informatika STTS 3 12 August 2004 Gunawan, Teknik Informatika STTS 4
1
Data Preparation (#1) Data Preparation (#2)
Mempersiapkan data yang diperlukan Tahap yang paling banyak mengkonsumsi
untuk proses data mining. resources (manusia, biaya, waktu) yang
tersedia. Biasanya mencapai 60%
Tujuannya: keseluruhan proyek KDD.
– agar data yang digunakan benar-benar sesuai Menurut Cabena: Secara berurutan untuk 5
dengan permasalahan yang akan dipecahkan, fase Cabena membutuhkan: 20% (fase 1)
dapat dijamin kebenarannya, dan dalam format + 60% (fase 2)+ 10% (fase 3) + 10%
yang sesuai/tepat. (untuk kedua fase 4 dan 5).
12 August 2004 Gunawan, Teknik Informatika STTS 7 12 August 2004 Gunawan, Teknik Informatika STTS 8
12 August 2004 Gunawan, Teknik Informatika STTS 9 12 August 2004 Gunawan, Teknik Informatika STTS 10
12 August 2004 Gunawan, Teknik Informatika STTS 11 12 August 2004 Gunawan, Teknik Informatika STTS 12
2
Data Preparation (#7) Data Preparation (#8)
Data Transformation (#2) Data Transformation (#3)
– Perlu diperhatikan terlebih dahulu 2 tipe utama data
– Quantitative: semua nilai yang mungkin
yang digunakan:
dapat diukur perbedaannya
– Categorical: semua nilai yang mungkin ada, bersifat
terbatas • continuous (nilai-nilai bilangan real): gaji bulanan,
• nominal: tanpa urutan, seperti status perkawinan (single, rata-rata transaksi dalam satu periode waktu
kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, (bulan, kuartal atau tahun).
perempuan)
• ordinal: dengan urutan, seperti rating loyalitas customer • discrete (nilai-nilai bilangan bulat): seperti jumlah
(sangat baik, baik, cukup, kurang atau vulnerable atau mudah pegawai, jumlah transaksi dalam satu periode
dirusak loyalitasnya). waktu.
12 August 2004 Gunawan, Teknik Informatika STTS 13 12 August 2004 Gunawan, Teknik Informatika STTS 14
12 August 2004 Gunawan, Teknik Informatika STTS 17 12 August 2004 Gunawan, Teknik Informatika STTS 18
3
Tahapan Proses KDD
Assimilation of Knowledge
(Daniel L. Silver)
Menggunakan hasil mining yang telah Data Consolidation (and Cleansing).
dievaluasi ke dalam perilaku organisasi Data Selection and Preprocessing.
dan sistem informasi perusahaan.
Data Mining.
Interpretation and Evaluation.
12 August 2004 Gunawan, Teknik Informatika STTS 19 12 August 2004 Gunawan, Teknik Informatika STTS 20
4
Tahapan Proses KDD (Jia Tahapan Proses KDD (Jia
Weihan) #1 Weihan) #2
Data cleaning Data Cleaning: menghilangkan noise dan
Data integration data yang inkonsisten.
Data selection Data Integration: menggabungkan
Data transformation berbagai macam sumber data.
Data mining Data Selection: memilih data yang relevan
Pattern Evaluation
(dari database) dengan "analysis task".
• "analysis task" = Business Objective
Knowledge Presentation Determination (Cabena).
12 August 2004 Gunawan, Teknik Informatika STTS 25 12 August 2004 Gunawan, Teknik Informatika STTS 26