Data Mining P2 (22-23)

Data Mining : Pertemuan 2
Yuliagnis Transver Wijaya
1
Outline:
1.Overview Data Mining

2.Data Preprocessing
Mengubah Data Menjadi Pengetahuan
• Data harus kita olah menjadi
pengetahuan supaya bisa bermanfaat
bagi manusia
• Dengan pengetahuan
tersebut, manusia dapat:
• Melakukan estimasi dan prediksi
apa yang terjadi di depan
• Melakukan analisis tentang asosiasi, korelasi dan
pengelompokan antar data dan atribut
• Membantu pengambilan keputusan dan
pembuatan kebijakan
4
Data - Informasi – Pengetahuan - Kebijakan
5
Apa itu Data Mining?
Disiplin ilmu yang mempelajari metode untuk mengekstrak

pengetahuan atau menemukan pola dari suatu data yang besar
6
Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan pola dari
suatu data yang besar
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Informasi: Rekap, rangkuman, penjelasan dan statistik dari
data
3. Pengetahuan: pola, rumus, aturan atau model yang
muncul dari data
• Nama lain data mining:

• Knowledge Discovery in Database (KDD)
• Big data
• Business intelligence
• Knowledge extraction
• Pattern analysis
• Information harvesting
7
Proses Data Mining
2. Metode Data 3. Pengetahuan

1. Himpunan Data
Mining
(Pahami dan Persiapkan
(Pilih Metode (Pahami Model dan Pengetahuan
Data)
Sesuai Karakter Data) yg Sesuai )
9
Proses Data Mining
1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

Data Data Mining
(Pahami dan (Pilih Metode (Pahami Model dan (Analisis Model dan
Persiapkan Data) Sesuai Karakter Data) Pengetahuan yg Sesuai ) Kinerja Metode)
DATA PREPROCESSING MODELING MODEL KINERJA

Data Cleaning Estimation Formula Akurasi
Prediction Tree Tingkat Error
Data Integration
Classification Cluster Jumlah Cluster
Data Reduction
Clustering Rule
Data Transformation Correlation MODEL
Association
Atribute/Faktor
Korelasi
Bobot
10
1. Himpunan Data (Dataset)
• Atribut adalah faktor atau parameter yang menyebabkan
class/label/target terjadi
• Jenis dataset ada dua: Private dan Public
• Private Dataset: data set dapat diambil dari organisasi
yang kita jadikan obyek penelitian
• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositori
pubik yang disepakati oleh para peneliti data mining
• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
• ACM KDD Cup (http://www.sigkdd.org/kddcup/)
• PredictionIO (http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah menguji
metode yang dikembangkan oleh peneliti dengan public
dataset, sehingga penelitian dapat bersifat: comparable,
repeatable dan verifiable
11
Public Data Set (UCI Repository)
12
Tipe Data
(Kontinyu)
(Diskrit)
13
Tipe Data Deskripsi Contoh Operasi
Tipe Data
Ratio • Data yang diperoleh dengan cara • Umur geometric mean,
(Mutlak) pengukuran, dimana jarak dua titik • Berat badan harmonic mean,
pada skala sudah diketahui • Tinggi badan percent variation
• Mempunyai titik nol yang absolut • Jumlah uang
(*, /)
Interval • Data yang diperoleh dengan cara • Suhu 0°c-100°c, mean, standard
(Jarak) pengukuran, dimana jarak dua titik • Umur 20-30 tahun deviation,
pada skala sudah diketahui Pearson's
• Tidak mempunyai titik nol yang correlation, t and
absolut F tests
(+, - )
Ordinal • Data yang diperoleh dengan cara • Tingkat kepuasan median,
(Peringkat) kategorisasi atau klasifikasi pelanggan (puas, percentiles, rank
• Tetapi diantara data tersebut sedang, tidak puas) correlation, run
terdapat hubungan atau berurutan tests, sign tests
(<, >)
Nominal • Data yang diperoleh dengan cara • Kode pos mode, entropy,
(Label) kategorisasi atau klasifikasi • Jenis kelamin contingency
• Menunjukkan beberapa object • Nomer id karyawan correlation, 2
yang berbeda • Nama kota test
14 )
(=,
Dataset (Himpunan Data)
Attribute/Feature/Dimension
Class/Label/Target
Record/
Object/
Sample/
Tuple/
Data
Nominal
Numerik
15
2. Metode Data Mining
1. Estimasi
5. Asosiasi 2. Forecasting
Data Mining Roles

(Larose, 2005)
4. Klastering 3. Klasifikasi
16
Metode Data Mining
1. Estimation (Estimasi):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM), etc
2. Forecasting (Prediksi/Peramalan):
3. Classification (Klasifikasi):
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative
Credal C4.5), Naive Bayes (NB), K-Nearest Neighbor (kNN), Linear
Discriminant Analysis (LDA), Logistic Regression (LogR), etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means
(FCM), etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
17
Metode Learning Algoritma Data Mining
Supervised Semi- Unsupervised

Supervised
Learning Learning Learning
Association based Learning
18
1. Supervised Learning
• Pembelajaran dengan guru, data set memiliki

target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised learning
• Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable prediktor
19
Dataset dengan Class
Attribute/Feature/Dimension Class/Label/Target
Nominal
Numerik
20
2. Unsupervised Learning
• Algoritma data mining mencari pola dari

semua variable (atribut)
• Variable (atribut) yang menjadi
target/label/class tidak ditentukan (tidak ada)
• Algoritma clustering adalah algoritma
unsupervised learning
21
Dataset tanpa Class
Attribute/Feature/Dimension
22
3. Semi-Supervised Learning
• Semi-supervised learning
adalah metode data mining
yang menggunakan data
dengan label dan tidak
berlabel sekaligus dalam
proses pembelajarannya
• Data yang memiliki kelas

digunakan untuk
membentuk model
(pengetahuan), data tanpa
label digunakan untuk
membuat batasan antara
kelas
23
Metode Data Mining
1. Estimation (Estimasi):
2. Forecasting (Prediksi/Peramalan):
3. Classification (Klasifikasi):
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative
Credal C4.5), Naive Bayes (NB), K-Nearest Neighbor (kNN), Linear
Discriminant Analysis (LDA), Logistic Regression (LogR), etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means
(FCM), etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
24
3. Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
25
4. Evaluasi (Akurasi, Error, etc)
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
26
Kriteria Evaluasi dan Validasi Model
1. Akurasi
• Ukuran dari seberapa baik model mengkorelasikan antara hasil
dengan atribut dalam data yang telah disediakan
• Terdapat berbagai model akurasi, tetapi semua model akurasi
tergantung pada data yang digunakan
2. Kehandalan
• Ukuran di mana model data mining diterapkan pada dataset
yang berbeda
• Model data mining dapat diandalkan jika menghasilkan pola
umum yang sama terlepas dari data testing yang disediakan
3. Kegunaan
• Mencakup berbagai metrik yang mengukur apakah model
tersebut memberikan informasi yang berguna
Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model

yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna
27
Evolution of Sciences
• Sebelum 1600: Empirical science
• Disebut sains kalau bentuknya kasat mata
• 1600-1950: Theoretical science
• Disebut sains kalau bisa dibuktikan secara matematis atau
eksperimen
• 1950s-1990: Computational science
• Seluruh disiplin ilmu bergerak ke komputasi
• Lahirnya banyak model komputasi
• 1990-sekarang: Data science
• Kultur manusia menghasilkan data besar
• Kemampuan komputer untuk mengolah data besar
• Datangnya data mining sebagai arus utama sains
(Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science,
Communication of ACM, 45(11): 50-54, Nov. 2002)
28
Public and Government Sector
• Finance: exchange rate forecasting, sentiment
analysis
• Taxation: adaptive monitoring, fraud detection
• Medicine and Healt Care: hypothesis discovery,
disease prediction and classification, medical
diagnosis
• Education: student allocation, resource forecasting
• Insurance: worker’s compensation analysis
• Security: bomb, iceberg detection
• Transportation: simulation and analysis, load
estimation
• Law: legal patent analysis, law and rule analysis
• Politic: election prediction
29
Contoh Penerapan Data Mining
• Penentuan kelayakan kredit pemilihan rumah di bank
• Penentuan pasokan listrik PLN untuk wilayah Jakarta
• Prediksi profile tersangka koruptor dari data pengadilan
• Perkiraan harga saham dan tingkat inflasi
• Analisis pola belanja pelanggan
• Memisahkan minyak mentah dan gas alam
• Penentuan pola pelanggan yang loyal pada perusahaan
operator telepon
• Deteksi pencucian uang dari transaksi perbankan
• Deteksi serangan (intrusion) pada suatu jaringan
30
Data Mining Society
• 1989 IJCAI Workshop on Knowledge Discovery in Databases
• Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
• 1991-1994 Workshops on Knowledge Discovery in Databases

• Advances in Knowledge Discovery and Data Mining (U. Fayyad, G.
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
• 1995-1998 International Conferences on Knowledge Discovery

in Databases and Data Mining (KDD’95-98)
• Journal of Data Mining and Knowledge Discovery (1997)
• ACM SIGKDD conferences since 1998 and SIGKDD Explorations

• More conferences on data mining
• PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), WSDM (2008), etc.
• ACM Transactions on KDD (2007)

31
Conferences dan Journals Data Mining
Conferences Journals
• ACM SIGKDD Int. Conf. on • ACM Transactions on Knowledge
Knowledge Discovery in Databases
and Data Mining (KDD) Discovery from Data (TKDD)
• SIAM Data Mining Conf. (SDM) • ACM Transactions on
• (IEEE) Int. Conf. on Data Mining Information Systems (TOIS)
(ICDM)
• IEEE Transactions on Knowledge
• European Conf. on Machine and Data Engineering
Learning and Principles and
practices of Knowledge Discovery • Springer Data Mining and
and Data Mining (ECML-PKDD) Knowledge Discovery
• Pacific-Asia Conf. on Knowledge
Discovery and Data Mining • International Journal of Business
(PAKDD) Intelligence and Data Mining
• Int. Conf. on Web Search and Data (IJBIDM)
Mining (WSDM)
32
Data Preprocessing
Data
Data yang ada pada umumnya:

 Banyak noise
 Ukuran yang besar
 Dapat merupakan campuran dari berbagai
sumber
 Memahami data sangat penting untuk
preprocessing
Contoh Data
Menemukan “keanehan” pada data di atas?
37
Kenali Data Kita
 Atribut Data
 Memahami tipe atribut
 Membantu membetulkan data saat integrasi data
 Deskripsi Statistik Data

 Memudahkan untuk mengisi nilai yang hilang
 Memperhalus noise data
 Mengetahui oulier selama pemrosesan data
 Mengukur Kesamaan dan Ketidaksamaan

 Dapat juga untuk mendeteksi outlier
 Untuk melakukan klasifikasi
 Pada umumnya untuk mengukur “kedekatan”

Atribut Data
 Mencerminkan karakteristik obyek data

 Tipe atribut menentukan himpunan nilai yang
diperbolehkan
 Nominal
 Binary
 Ordinal
 Numerik
 Diskret atau Continue

Deskripsi Statistik
Mean
Median
 Mengukur lokasi pusat/tengah dari Mode
distribusi data
 Mean
 Median
 Mode
September 11, 2013 Data Mining: Concepts and Techniques 5

Mengapa Perlu Data Preprocessing?
 Data dalam dunia nyata “dirty”
 Tidak komplet: berisi data yang hilang/kosong,
kekurangan atribut yang sesuai, hanya berisi
data aggregate
 e.g., occupation=“ ”
 Banyak “noise”: berisi data yang outlier atau
error
 e.g., Salary=“-10”
 Tidak konsisten: berisi nilai yang berbeda
dalam suatu kode atau nama
 e.g., Age=“42” Birthday=“03/07/1997”
 e.g., Was rating “1,2,3”, now rating “A, B, C”
 e.g., discrepancy between duplicate records
Mengapa Data Preprocessing
Penting?
 Data yang tidak berkualitas, akan menghasilkan

kualitas mining yang tidak baik pula.
 Data Preprocessing, cleanning, dan transformasi
merupakan pekerjaan mayoritas dalam aplikasi

data mining (80-90%).
Ukuran Kualitas
 Accuracy
 Completeness
 Consistency
 Timeliness
 Believability
 Value added
 Interpretability
 Accessibility
Data Cleaning
 Proses untuk membersihkan data dengan

beberapa teknik
 Memperkecil noise
 Membetulkan data yang tidak konsisten
 Mengisi missing value
 Mengidentifikasi atau membuang outlier

Teknik Data Preprocessing
 Data Cleaning
 Data Integration
 Data Reduction
 Data Transformation
Bentuk dari Data Preprocessing
Data Cleaning: Missing Values
 Mengabaikan record
 Biasanya untuk label klasifikasi yang kosong
 Mengisikan secara manual

 Menggunakan mean/median dari atribut yang
mengandung missing value
 Mean dapat dipakai jika distribusi data normal
 Median digunakan jika distribusi data tidak

normal (condong)
 Menggunakan nilai global
 Menggunakan nilai termungkin
 Menerapkan regresi
Data Cleaning: Missing Values
 Mengabaikan record
 Biasanya untuk label klasifikasi yang kosong
 Mengisikan secara manual

 Menggunakan mean/median dari atribut yang
mengandung missing value
 Mean dapat dipakai jika distribusi data normal
 Median digunakan jika distribusi data tidak

normal (condong)
 Menggunakan nilai global
 Menggunakan nilai termungkin
 Menerapkan regresi
Metoda Binning:
Diskritisasi Sederhana
 Partisi kedalaman sama (frekuensi):

 Membagi range kedalam N interval, masing-
masing memuat jumlah sampel yang hampir

sama
 Penskalaan data yang baik
 Penanganan atribut yang bersifat kategori bisa

rumit.
Metoda Binning:
 Data terurut untuk harga (dalam dollar): 4, 8, 9,

15, 21, 21, 24, 25, 26, 28, 29, 34
 Partisi kedalam bin dengan kedalaman yang
sama (misal, dalam bin-3):

 Bin 1: 4, 8, 9, 15
 Bin 2: 21, 21, 24, 25
 Bin 3: 26, 28, 29, 34
 Haluskan dengan rata-rata bins:
 Bin 1: 9, 9, 9, 9
 Bin 2: 23, 23, 23, 23
 Bin 3: 29, 29, 29, 29
Metoda Binning:
 Penghalusan dengan batas bin:

 Bin 1: 4, 4, 4, 15
 Bin 2: 21, 21, 25, 25
 Bin 3: 26, 26, 26, 34
Regression
Y1
Y1’ y=x+1
X1 x
Cluster Analysis
Normalization
 adalah proses penskalaan nilai atribut dari data

sehingga bisa jatuh pada range tertentu.
 Contoh: Misalnya berkenaan dengan pencatatan
tingkat kematian penduduk di Indonesia per
bulannya berdasarkan jenis umur. Secara
sederhana, disana ada 3 dimensi data, yaitu
bulan (1-12), umur (0-150 misalnya), dan jumlah
kematian (0-jutaan). Kalau kita bentangkan
range masing-masing dimensi, maka kita akan
mendapatkan ketidak-seimbangan range pada
dimensi yang ketiga, yaitu jumlah kematian.
Normalization methods
 Min-Max
 Z-Score
 Decimal Scaling
 Sigmoidal
 Softmax
Normalization method
(Min-Max)
 Min-Max merupakan metode normalisasi dengan melakukan

transformasi linier terhadap data asli.
 Rumus:
newdata = (data-min)*(newmax-newmin)/(max-min)+newmin
 Keuntungan dari metode ini adalah keseimbangan nilai

perbandingan antar data saat sebelum dan sesudah proses
ini.
normalisasi. Tidak ada data bias yang dihasilkan oleh metode
Kekurangannya adalah jika ada data baru, metode ini akan
memungkinkan terjebak pada "out of bound" error.
(Z-Score)
 Z-score merupakan metode normalisasi yang

berdasarkan mean (nilai rata-rata) dan standard
deviation (deviasi standar) dari data.
 Rumus:
newdata = (data-mean)/std
 Metode ini sangat berguna jika kita tidak mengetahui

nilai aktual minimum dan maksimum dari data.
(Decimal Scaling)
 Metode ini melakukan normalisasi dengan

menggerakkan nilai desimal dari data ke arah
yang diinginkan.
 Rumus:
newdata = data / 10i
dimana i adalah nilai integer untuk

menggerakkan nilai desimal ke arah yang
diinginkan.
(Sigmoidal)
 Sigmoidal normalization melakukan normalisasi data

secara nonlinier ke dalam range -1 - 1 dengan
menggunakan fungsi sigmoid.
 Rumus:
newdata = (1-e^(-x))/(1+ e^(-x))
dimana:
x = (data-mean)/std
e = nilai eksponensial (2,718281828)
 Metode ini sangat berguna pada saat data-data yang

ada melibatkan data-data outlier.
(Softmax)
 Metode ini merupakan pengembangan transformasi

secara linier. Output range-nya adalah 0-1.
 Rumus:
newdata = 1/(1+e^(-transfdata))
dimana:
transfdata = (data-mean)/(x*(std/(2*3.14)))
x = respon linier di deviasi standar
Summary
 Data preparation or preprocessing is a big issue for both
data warehousing and data mining
 Discriptive data summarization is need for quality data
preprocessing
 Data preparation includes
 Data cleaning and data integration
 Data reduction and feature selection
 Discretization
 A lot a methods have been developed but data
preprocessing still an active area of research
Latihan 2. Data Preprocessing
1. Group Project Description on 1 page.

Task: Diskusikan rencana kelompok kalian dalam mencari pengetahuan dari data Official Statistics.
2. Exploring data preprocessing in public datasets.

Cari public datasets (e.g. UCI dataset, AWS datasets, data.gov, R datasets, dll) untuk melakukan
eksplorasi atau Latihan terkait data preprocessing (utamanya data cleaning, data reduction dan
data transformation)
Submission requirements:
No. 1 >> PDF
No. 2 >> PDF files and .rmd, sertakan data jika menggunakan imported public data
Mohon Jangan di Rar atau Zip yaks..thanks!

Terimakasih

Data Mining P2 (22-23)

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining P2 (22-23)

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining : Pertemuan 2

Yuliagnis Transver Wijaya

1.Overview Data Mining

Disiplin ilmu yang mempelajari metode untuk mengekstrak

• Nama lain data mining:

2. Metode Data 3. Pengetahuan

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

DATA PREPROCESSING MODELING MODEL KINERJA

Data Mining Roles

Supervised Semi- Unsupervised

Association based Learning

• Pembelajaran dengan guru, data set memiliki

• Algoritma data mining mencari pola dari

• Data yang memiliki kelas

2. Decision Tree (Pohon Keputusan)

Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model

• 1991-1994 Workshops on Knowledge Discovery in Databases

• 1995-1998 International Conferences on Knowledge Discovery

• ACM SIGKDD conferences since 1998 and SIGKDD Explorations

• ACM Transactions on KDD (2007)

Data yang ada pada umumnya:

 Ukuran yang besar

 Dapat merupakan campuran dari berbagai

Menemukan “keanehan” pada data di atas?

 Deskripsi Statistik Data

 Mengetahui oulier selama pemrosesan data

 Mengukur Kesamaan dan Ketidaksamaan

 Pada umumnya untuk mengukur “kedekatan”

 Mencerminkan karakteristik obyek data

 Diskret atau Continue

September 11, 2013 Data Mining: Concepts and Techniques 5

 Data yang tidak berkualitas, akan menghasilkan

merupakan pekerjaan mayoritas dalam aplikasi

 Proses untuk membersihkan data dengan

 Membetulkan data yang tidak konsisten

 Mengisi missing value

 Mengidentifikasi atau membuang outlier

 Mengisikan secara manual

 Median digunakan jika distribusi data tidak

 Mengisikan secara manual

 Median digunakan jika distribusi data tidak

 Partisi kedalaman sama (frekuensi):

masing memuat jumlah sampel yang hampir

 Penanganan atribut yang bersifat kategori bisa

 Data terurut untuk harga (dalam dollar): 4, 8, 9,

sama (misal, dalam bin-3):

 Penghalusan dengan batas bin:

 adalah proses penskalaan nilai atribut dari data

 Min-Max merupakan metode normalisasi dengan melakukan

 Keuntungan dari metode ini adalah keseimbangan nilai

 Z-score merupakan metode normalisasi yang

 Metode ini sangat berguna jika kita tidak mengetahui

 Metode ini melakukan normalisasi dengan

dimana i adalah nilai integer untuk

 Sigmoidal normalization melakukan normalisasi data

 Metode ini sangat berguna pada saat data-data yang

 Metode ini merupakan pengembangan transformasi

1. Group Project Description on 1 page.

2. Exploring data preprocessing in public datasets.

Mohon Jangan di Rar atau Zip yaks..thanks!

Anda mungkin juga menyukai