Computer Science
http://cs.ipb.ac.id/
• Pendahuluan
• Pengertian Data Mining
• Knowledge Discovery in Database (KDD)
• Arsitektur Sistem Data Mining
• Tugas-tugas dalam Data Mining
• Aplikasi
Pendahuluan: Motivasi
Sumber: Turing.com
Pengertian Data Mining
➢ Metode Prediksi
○ Menggunakan beberapa variabel (atribut) untuk memprediksi nilai
yang tidak diketahui atau nilai yang akan datang dari variabel (atribut)
lain.
➢ Metode Deskripsi
○ Menemukan pola-pola (korelasi, trend, cluster, trayektori, dan anomali)
yang meringkas hubungan dalam data.
Tugas-tugas dalam Data Mining
➢ Analisis Cluster
○ Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data
yang diberi label kelas, clustering menganalisis objek data dimana
label kelasnya tidak diketahui. Clustering dapat digunakan untuk
menentukan label kelas yang tidak diketahui dengan cara
mengelompokkan data untuk membentuk kelas baru.
➢ Analisis Outlier
○ Outlier merupakan objek data yang tidak mengikuti perilaku umum dari
data. Outlier dapat dianggap sebagai noise atau pengecualian.
Analisis outlier dinamakan outlier mining. Teknik ini berguna dalam
fraud detection dan rare events analysis.
Aplikasi Data Mining
➢ Direct Marketing
○ Tujuan: mengurangi biaya pengiriman surat dengan mentargetkan
sekelompok konsumen yang mungkin akan membeli produk baru.
➢ Fraud Detection
○ Mendeteksi kecurangan dalam transaksi dalam transaksi kartu kredit.
Aplikasi 2: Klasifikasi
➢ Segmentasi Pasar:
○ Tujuan: membagi pasar ke dalam bagian-bagian konsumen yang
berbeda dimana sebuah bagian dapat dipilih sebagai target pasar.
○ Pendekatan: Mengumpulkan atribut-atribut yang berbeda dari
konsumen berdasarkan informasi yang terkait lokasi geografis, dan
gaya hidupnya.
○ Menemukan cluster dari konsumen-konsumen yang serupa.
○ Mengukur kualitas clustering dengan mengobservasi pola pembelian
dari konsumen-konsumen dalam kelas yang sama terhadap
konsumen-konsumen dari cluster yang berbeda.
Aplikasi Data Mining
Referensi
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego
Latihan/Kuis - 5 menit
Tentukan apakah aktivitas-aktivitas berikut adalah
termasuk dalam lingkup Datamining
Membagi pegawai suatu perusahaan berdasarkan gender
Memprediksi harga barang pada bulan selanjutnya
berdasarkan data historis (bulan-bulan sebelumnya)
Memonitor detak jantung pasien untuk mendeteksi kondisi
abnormal
Menghitung total penjualan suatu perusahaan
Mengkarakterisasi pelanggan setia suatu produk
Data mining lebih cenderung pada eksplorasi pola atau penemuan pengetahuan baru dalam data, sementara aktivitas lain seperti
menghitung total penjualan mungkin lebih terkait dengan analisis data atau statistika konvensional.
0 1/18/2024
Computer Science Department
Bogor Agricultural University
1 1/18/2024
Outline
Data dan Tipe data
Kualitas data
Statistika ringkasan
Visualisasi
Ukuran kemiripan dan ketidakmiripan
Sumber :
Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining. Pearson
Education, Inc.
Han J & Kamber M. 2006. Data mining – Concept and Techniques. Morgan-
Kauffman, San Diego
Berbagai sumber lainnya
2 1/18/2024
Data dan Tipe data
Kualitas data
Statistika ringkasan
Visualisasi
Ukuran kemiripan dan ketidakmiripan
3 1/18/2024
Apakah Data itu ?
Koleksi objek data dan atributnya
Sebuah atribut (variabel, field,
karakteristik, atau fitur) adalah suatu sifat
Attributes / Kolom
“instriksik” atau karakteristik dari suatu
objek data
Kumpulan atribut mendeskripsikan suatu Tid Refund Marital Taxable
Status Income Cheat
objek (record, titik (point), sampel,
entitas, atau instan) 1 Yes Single 125K No
2 No Married 100K No
Nilai dari suatu atribut dapat berupa
3 No Single 70K No
numbers (angka) atau simbol (karakter,
4 Yes Married 120K No
string) yang diberikan ke suatu atribut
5 No Divorced 95K Yes
Objects
6 No Married 60K No
/ Baris
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Pembagian Data
binary Based on
type
Based on
numeric data
characteristics
5 1/18/2024
Tipe Atribut : Katagorikal (Kualitatif)
Tipe
Deskripsi Contoh Operasi
Atribut
Nominal Atribut nominal hanya Kode pos, ID modus,
menyediakan informasi pegawai, warna entropy,
yang cukup untuk mata, gender: contingency
membedakan suatu objek {pria, wanita} correlation, 2
dengan objek yang lain (=, test
)
6 1/18/2024
Tipe Atribut: Numerik (Kuantitatif)
7 1/18/2024
Contoh
Tipe atribut interval (+, -)
Selisih antara temperatur pada 90o C dan 100o C sama dengan
selisih temperatur 80 C dan 90o C
o
Tapi panas pada temperatur 100o C tidak berarti dua kali dari panas
temperatur 50o C
0o C tidak berarti tidak ada panas
8 1/18/2024
Untuk atribut di bawah ini, tipe atributnya apa?
9 1/18/2024
Pembagian Atribut berdasarkan
Karakteristik Datanya
10 1/18/2024
Pembagian Atribut berdasarkan
Karakteristik Datanya
Diskrit Kontinu
8 8
Jumlah orang yg makan
7 7
6 6
cupcake
5 5
waktu
4 4
3 3
2 2
1 1
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
12 1/18/2024
Tipe-tipe Dataset
Record
Graph
Ordered
Spatial and Image
13
Tipe-tipe Dataset : Record
Relational record Matrix, crosstab
14 1/18/2024
Tipe-tipe Dataset : Graf
Transportation Network Molecular Network
15 1/18/2024
Tipe-tipe Dataset : Ordered/Sequence
Video Data :
Sequence of Image
Transaction Sequences
Genetic Sequences
16 1/18/2024
Tipe-tipe Dataset : Image data, Spatial data
18 1/18/2024
Kualitas Data
Isu yang penting terkait Kualitas Data:
Problem apa yang muncul terkait dengan kualitas
data?
Bagaimana kita mendeteksi problem tersebut?
Apa yang bisa kita lakukan untuk mengatasinya?
19
Problem yang terkait dengan Kualitas Data
Outlier or Noise ?
An outlier is simply data which does not “fit in” with the other
data that you are analyzing. An outlier can be a valid data
point, or it can be noise.
Missing Values
Inconsistent values
20 1/18/2024
Missing Values
Sebab-sebab missing values
Informasi tersebut tidak diperoleh (tidak terkumpul)
(contoh, orang menolak memberikan info umur dan berat badan)
Atribut tidak dapat diterapkan pada semua kasus
(e.g., atribut pendapatan tahunan tidak bisa dijawab/tidak cocok
dengan anak-anak)
22
Data dan Tipe data
Kualitas data
Statistika ringkasan
Visualisasi
Ukuran kemiripan dan ketidakmiripan
23 1/18/2024
Statistika ringkasan
To better understand the data:
Measures of central tendency (ukuran pemusatan data)
tells you where most of your points lie…..
Measures of Variability (ukuran penyebaran data)
tells you whether the points tend to be clustered around the center
or more widely spread out.
24 1/18/2024
Measure of Central Tendency
(Ukuran Pemusatan Data)
25 1/18/2024
When to use which
Mean : When there are no
outliers
Median : When there may
be outliers exist
Mode : When data is not
numerical
26 1/18/2024
Menduga bentuk distribusi data
27 1/18/2024
Measures of Variability
(ukuran penyebaran data)
Memberikan informasi mengenai sebaran dan keragaman
data (variation):
Range
Variance & Standard Deviation
Interquartile range
28 1/18/2024
Range
Range adalah perbedaan antara nilai maksimum dan
minimum dari data
Kelemahan:
Tidak memberikan informasi mengenai pola distribusi data
Data 1 :6,7,9,10,11,12
Data 2 : 6,10,11,12,12,12
Range Data 1 = = Range Data 2
Sensitif terhadap outlier
Data 1 : 1, 2, 2, 3, 3, 4, 5
Data 2 : 1, 2, 2, 3, 3, 4, 100
Range Data 1 = 4, Range Data 2 = 99
29 1/18/2024
Variance & Standard Deviation
Tells how far each score lies from the mean.
The larger, the more variable the data set is → nilai data kurang konsisten,
sehingga lebih sulit untuk membuat prediksi
The smaller, the more reliable the data is → informasi tentang populasi dapat
diprediksi dengan baik menggunakan data sampel.
Sensitive of outliers.
Low standard
deviation
high standard
deviation
higher standard
deviation
30 1/18/2024
Ragam dan Simpangan Baku
Sensitive terhadap Outliers.
32 1/18/2024
Data dan Tipe data
Kualitas data
Statistika ringkasan
Visualisasi
Ukuran kemiripan dan ketidakmiripan
33 1/18/2024
Visualisasi
Visualisasi adalah konversi data ke dalam format visual
sehingga karakteristik data dan keterhubungan antar atribut
dapat dianalisis
10th percentile
Contoh Box Plots
Box plots dapat digunakan untuk membandingkan
atribut-atribut
Scatter Plot
41 1/18/2024
Heat Map / Correlation Matrix
42 1/18/2024
Scatter Plot Array of Iris Attributes
Source: http://mirlab.org
Data dan Tipe data
Kualitas data
Statistika ringkasan
Visualisasi
Ukuran kemiripan dan ketidakmiripan
44 1/18/2024
Kemiripan (Similarity) dan Ketidakmiripan
(Dissimilarity)
Kemiripan (Similarity)
Ukuran numerik dari seberapa mirip dua buah objek data
Semakin tinggi kemiripan antar dua objek, semakin tinggi
nilai kemiripannya
Ketidakmiripan (Dissimilarity)
Ukuran numerik yang menggambarkan seberapa berbeda dua
buah objek data
Semakin tinggi kemiripan antar dua objek, semakin rendah
nilai ketidakmiripannya (disimilaritasnya)
Kedekatan (Proximity) mengacu pada kemiripan atau
ketidakmiripan
Kemiripan/Ketidakmiripan Atribut Nominal
46 1/18/2024
Kemiripan/Ketidakmiripan Atribut Ordinal
Values map to integer, then find the distance
47 1/18/2024
http://enformatik.cu.edu.tr/CEN481/CEN481_Week4_Examples.pdf
Kemiripan/Ketidakmiripan Atribut Numerik
48 1/18/2024
Kemiripan/Ketidakmiripan Atribut Biner
SMC versus Jaccard: Contoh
p= 1000000000
q= 0000001001
3
point x y
2 p1 p1 0 2
p3 p4 p2 2 0
1 p3 3 1
p2
0 p4 5 1
0 1 2 3 4 5 6
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
Distance Matrix
Karakteristik umum jarak (Distance)
Jarak, seperti misalnya Euclidean distance, memiliki
karakteristik berikut:
1. d(p, q) 0 untuk semua p dan q dan d(p, q) = 0 hanya jika
p = q → Positive definiteness
2. d(p, q) = d(q, p) untuk semua p dan q → Symmetri
3. d(p, r) d(p, q) + d(q, r) untuk semua titik p, q, dan r →
Triangle Inequality
di mana d(p, q) adalah jarak antara titik-titik (objek data),
p dan q. p
q
Other Distance :
Exam grade
Predicate of
graduation
54 1/18/2024
Department of
Computer Science
http://cs.ipb.ac.id/
Tidak ada data yang berkualitas → tidak ada hasil proses mining
yang berkualitas
• Keputusan yang berkualitas harus berdasarkan data yang
berkualitas
• Contoh: duplikasi atau data yang tidak lengkap akan menyebabkan
statistik yang salah atau menyesatkan.
• Data warehouse memerlukan integrasi yang konsisten dari data
yang berkualitas
• Ekstraksi data, pembersihan data dan transformasi data
merupakan aktivitas utama dalam membangun data warehouse
Tugas utama dalam pra-proses data
➢ Binning
○ urutkan data dan partisi ke dalam (frekuensi yg sama) bins
○ selanjutnya, smooth by bin means, smooth by bin median, smooth by
bin boundaries, etc.
➢ Regresi
○ smooth by fitting the data into regression functions
➢ Clustering
○ mendeteksi dan membuang outliers
➢ Kombinasi hasil pemeriksaan komputer dan manusia
○ deteksi nilai yang mencurigakan dan validasi oleh manusia (misal.,
berkaitan dengan outliers)
Metode Diskretisasi sederhana: Binning
➢ Regresi:
○ adalah kumpulan teknik statistik-matematik untuk memodelkan sebuah
variabel response numerik (Y) berdasarkan variabel-variabel penduga
lainnya (Xi)
➢ Linear regression:
○ Regresi dengan pemodelan hubungan linear antara variabel penduga
(X) dan response (Y)
○ Pemodelan regresi yang paling mudah dan paling umum digunakan
➢ Terdapat juga berbagai jenis pemodelan regresi non-linear,
contoh: Support Vector Regression (SVR), Generalized Linear
Regression dll
➢ Regresi dapat digunakan untuk melakukan smoothing data yang
memiliki noise
Teknik cluster untuk menangani outlier
Agenda
➢ Integrasi data:
○ menggabungkan data dari beberapa sumber menjadi data yang
koheren
○ Skema integrasi: misal., A.cust-id B.cust-#
○ integrasi metadata dari sumber yang berbeda
➢ Masalah identifikasi entitas:
○ mengenali entitas di dunia nyata dari beberapa sumber data, contoh.,
Bill Clinton = William Clinton
○ mendeteksi dan menyelesaikan data value conflicts
○ dari sumber yang berbeda, entitas yang sama memiliki nilai atribut
yang berbeda
○ penyebab: representasi yang berbeda, perbedaan skala seperti metric
vs. British units
Redundansi data pada integrasi data
𝝌2 (chi-square) test :
➢ Min-max normalization
➢ Z-score normalization
➢ Decimal scaling
Reduksi Data
➢ Discretization
○ Reduce the number of values for a given continuous attribute by
dividing the range of the attribute into intervals
○ Interval labels can then be used to replace actual data values
○ Supervised vs. unsupervised
○ Split (top-down) vs. merge (bottom-up)
○ Discretization can be performed recursively on an attribute
➢ Concept hierarchy formation
○ Recursively reduce the data by collecting and replacing low level
concepts (such as numeric values for age) by higher level concepts
(such as young, middle-aged, or senior)
Diskretisasi
Automatic Concept Hierarchy
Generation
Kesimpulan
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego
Department of
Computer Science
http://cs.ipb.ac.id/
➢ Partitioning approach:
○ Membangun beragam partisi dan kemudian mengevaluasinya melalui
beberapa kriteria, contoh: meminimumkan nilai sum of squared errors
(SSE)
○ Metode yang umum: k-means, k-medoids, CLARANS
➢ Hierarchical approach:
○ Membuat dekomposisi hirari dari kumpulan data berdasarkan
beberapa kriteria
○ Metode yang umum: Diana, Agnes, BIRCH, CAMELEON
➢ Density-based approach:
○ Berdasarkan pada konektivitas dan fungsi kepadatan
○ Metode yang umum: DBSACN, OPTICS, DenClue
➢ Link-based clustering:
○ Objek seringkali dihubungkan melalui berbagai cara
○ Massive links can be used to cluster objects: SimRank, LinkClus
Pendekatan Clustering
➢ Grid-based approach:
○ Berdasarkan pada struktur granularitas multi level
○ Metode yang umum: STING, WaveCluster, CLIQUE
➢ Model-based:
○ Sebuah model dihipotesiskan untuk setiap kelompok dan mencoba
mencari model terbaik satu sama lain
○ Metode yang umum: EM, SOM, COBWEB
➢ Frequent pattern-based:
○ Berdasarkan pada analisis frequent patterns (pola yang sering muncul)
○ Metode yang umum: p-Cluster
➢ User-guided or constraint-based:
○ Clustering dengan mempertimbangkan kendala yang diberikan oleh
user atau aplikasi
○ Metode yang umum: COD (obstacles), constrained clustering
Tipe-tipe clustering
Partitional
Hierarchical vs Partitional
Hierarchical
(Dis)similarity measures
Jarak Manhattan (p = 1)
(Dis)similarity measures
Jarak Euclid (p = 2)
(Dis)similarity measures
Correlation similarity
(Dis)similarity measures
Cosine similarity
(Dis)similarity measures
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego
Department of
Computer Science
http://cs.ipb.ac.id/
➢ Contoh:
○ A teacher wants to examine students’ test scores. Their scores are: 74, 88, 78, 90, 94, 90,
84, 90, 98, and 80.
○ Q1 = 80, Q3 = 90
○ IQR = 10, R = 1.5 x IQR = 15
○ Batas bawah - Q1 - 15 = 65
○ Batas atas = Q3 + 15 = 105
○ Tidak ada outlier
Metode Outlier Detection
➢ Contoh:
○ A survey was given to a random sample of 20 sophomore college students. They were
asked, “how many textbooks do you own?” Their responses, were: 0, 0, 2, 5, 8, 8, 8, 9, 9, 10,
10, 10, 11, 12, 12, 12, 14, 15, 20, and 25.
○ Q1 = 8, Q3 = 12
○ IQR = 4, R = 1.5 x IQR = 6
○ Batas bawah - Q1 - 6 = 2
○ Batas atas = Q3 + 6 = 18
○ Outlier = 0, 0, 20, 25
Metode Outlier Detection
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego
Department of
Computer Science
http://cs.ipb.ac.id/
➢ Motivasi
➢ Pengertian dan konteks klasifikasi dalam data mining
➢ Jenis-jenis metode klasifikasi
○ Binary classication
○ Multinomial classification
➢ Metode klasifikasi:
○ Decision Tree
○ SVM
○ Ensemble classification
Motivasi
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego
Department of
Computer Science
http://cs.ipb.ac.id/
➢ Teknik Klasifikasi:
○ SVM
➢ Metrik Evaluasi:
○ Akurasi
○ Confusion Matrix
○ Precision-Recall
○ F1-measure
○ AUC/ROC
SVM
Atau
➢ Klasifikasi Biner
Metrik Evaluasi
Metrik Evaluasi
Metrik Evaluasi
Metrik Evaluasi
➢ Klasifikasi Multinomial
Referensi
• Tan P., Michael S., & Vipin K. 2006. Introduction to Data mining.
Pearson Education, Inc.
• Han J & Kamber M. 2006. Data mining – Concept and
Techniques. Morgan-Kauffman, San Diego