Data Preprocessing Bagian 2

Anda mungkin juga menyukai

Anda di halaman 1dari 6

1

Knowledge Discovery
in Databases (IS704)
dan Data Mining
(CS704)
Kuliah #4:
Data Preprocessing (Bagian 2)
Gunawan
Jurusan Teknik Informatika
Sekolah Tinggi Teknik Surabaya
26August 2004 Gunawan, Teknik InformatikaSTTS 2
Task III : Data Transformation
(Transformasi Data)
Mengubah/ mentransformasikan
datake dalam bentukyang paling
tepat / cocok untuk prosesdata
mining.
26August 2004 Gunawan, Teknik InformatikaSTTS 3
Beberapa Pendekatan
Transformasi Data
Transformasi Data dapat melibatkan:
Smoothing, yangdilakukan untuk membuangnoise.
Aggregation, dimanaoperasi-operasi summaryatauaggregation
diaplikasikan padadata.
Generalization dari data, dimanalevel rendah ataudata
"primitif" (datamentah) digantikan olehhigher-level concepts
melalui penggunaan hirarki konsep.
Normalization, dimanadatasebuah atribut diskalakan kedalam
rentang(kecil) yang ditentukan.
Attribute Construction (atauFeature Construction), dimana
atribut-atribut yangbaru dibentuk dan ditambahkan kedalaanm
kelompok atribut yangtelah ada.
26August 2004 Gunawan, Teknik InformatikaSTTS 4
Smoothing
Telah dijelaskan pada bagian sebelumnya,
mencakup binning, regression, dan
clustering.
26August 2004 Gunawan, Teknik InformatikaSTTS 5
Normalization (#1)
Min-max Normalization
J ika min
A
dan max
A
merupakan nilai-nilai
minimumdanmaximumdari atribut A, min-
max normalizationmemetakan sebuah nilai v
dari A menjadi v dalam rentang[new_min
A
,
new_max
A
] dengan rumus:
A A A
A A
A
min new min new max new
min max
min v
v _ ) _ _ ( ' +

=
26August 2004 Gunawan, Teknik InformatikaSTTS 6
Normalization (#2)
Contoh:
Anggap bahwa nilai minimumdanmaximum
untuk atribut income secara berturut-turut
adalah$12,000dan$98,000. J ikaincome akan
dipetakan pada rentang[0.0,1.0], dengan
normalisasi min-max, maka $73,600, sebuah
nilai dari income ditransformasikan menjadi
[(73,600 12,000) / (98,000-12,000)](1.0-0) +
0 =0.716.
2
26August 2004 Gunawan, Teknik InformatikaSTTS 7
Normalization (#3)
z-score Normalization
nilai-nilai untuk sebuah atribut A
dinormalisasi berdasarkanmean dan standard
deviation dari A. Nilai v dari A dinormalisasi
padav dengan menghitung:
v =(v )

A
26August 2004 Gunawan, Teknik InformatikaSTTS 8
Normalization (#4)
Contoh:
Anggaplah bahwamean dan standard
deviation dari nilai-nilai untuk atribut income
secara berturut-turut adalah$54,000dan
$16,000. Denganz-score normalization, maka
income sebesar $73,600ditransformasikan
menjadi (73,600-54,000) / 16,000 =1.225.
26August 2004 Gunawan, Teknik InformatikaSTTS 9
Normalization (#5)
Normalization by Decimal Scaling
Prinsipnya dilakukan dengan memindahkan titik desimal
dari nilai-nilai atribut A.
Panjang pergeseran titik desimal ( j ) tergantung pada nilai
absolut maksimumdari A.
j adalah integer terkecil sedemikian hinggaMax(| v |)<1
Nilai v dari A dinormalisasikan padav dengan
menghitung:
j
v
v
10
'=
26August 2004 Gunawan, Teknik InformatikaSTTS 10
Normalization (#6)
Contoh:
Anggap bahwa nilai-nilai atribut A terletak
dalamrange 986sampai 917. Dengan
demikian nilai absolut maksimum A adalah
986. Untuk menormalisasikan dengan
menggunakan skala desimal, setiap nilai A
dibagi dengan1000 (misalnya, j =3) sehingga
986dinormalisasi menjadi -0.986.
26August 2004 Gunawan, Teknik InformatikaSTTS 11
Attribute Construction (1)
Satu atau lebih atribut yangbaru dibentuk dari atribut-
atribut yang sudah ada untuk membantu peningkatan
akurasi dan pemahaman data dalamstaruktur dalam
dimensi yang lebih tinggi.
Sebagai contoh atribut area dapat ditambah pada atribut
height danwidth.
Konstruksi atribut diharapkan membantu mengurangi
masalah fragmentasi ketika algoritmadecision tree
digunakan untuk klasifikasi, dimana sebuah atribut diuji
berkali-kali sepanjang sebuahpathdalamdecision tree
yangdidapat.
26August 2004 Gunawan, Teknik InformatikaSTTS 12
Attribute Construction (2)
Contohoperator-operator untuk konstruksi
atribut termasuk and untuk atribut binarydan
product untuk atribut-atribut nominal.
Dengan menggabungkan sejumlah atribut,
harapannya adalah: informasi yanghilang(belum
terpikir nantinya akan bermanfaat) tentang
hubungan antar atribut dapat digali, dan mungkin
ia berguna untuk penemuan pengetahuan baru.
3
26August 2004 Gunawan, Teknik InformatikaSTTS 13
Task IV : Data Reduction
(Reduksi Data)
Data Warehouse mungkin memuat terabytes data,
sehingga algoritma mining yang kompleks mungkin
akan memakan waktu yang sangat lama untuk
mengolah seluruhdata sets.
Sejumlah strategi dapat diterapkan untuk
mendapatkan representasi data yangtelah direduksi
sehingga volumenya jauh lebih kecil, tetapi integritas
dataoriginalnya masih tetap terjaga.
Artinya: Mining pada kumpulandata yangdireduksi
seharusnya lebih efisien, tetapi dapat menghasilkan
hasil analisisyangsama(atau hampir sama).
26August 2004 Gunawan, Teknik InformatikaSTTS 14
Beberapa Strategi untuk
Reduksi Data (#1)
Strategi untuk reduksi data mencakup:
Data Cube Aggregation, ketika operasi-operasi
summary / aggregationditerapkankan padadatadalam
konstruksi sebuahdata cube.
Dimension Reduction, dimana atribut/dimensi yang
irrelevant (tidak relevan), weakly relevan
(berhubungan tetapi lemah), atauredundant (ganda)
dapat dideteksi dan dihapus.
Data Compression, dimana mekanisasi encoding
digunakan untuk mereduksi ukurandata / data set.
26August 2004 Gunawan, Teknik InformatikaSTTS 15
Beberapa Strategi untuk
Reduksi Datan(#2)
Numerosity Reduction, di manadatadiganti dengan
alternatif representasi data yanglebih kecil seperti
parametric models (yanghanya perlu menyimpan
parameter-parameter model bukandata
sesungguhnya), atau metode-metodenonparametric
seperti clustering, sampling, dan penggunaan
histogram.
Discretization dan Concept Hierarchy Generation,
di mana nilai datamentah untuk suatu atribut
digantikan denganrangesataulevel konsepsi yang
lebih tinggi. Konsep hierarki memungkinkanmining
datapada sejumlahlevel hirarki yangberbeda.
26August 2004 Gunawan, Teknik InformatikaSTTS 16
Data Cube Aggregation (#1)
26August 2004 Gunawan, Teknik InformatikaSTTS 17
Data Cube Aggregation (#2)
26August 2004 Gunawan, Teknik InformatikaSTTS 18
Data Cube Aggregation (#3)
Aggregation adalah operasi sumary(peringkasan)
yang diterapkaan padadata numerik.
Misal: Data penjualan harian digabungkan untuk
menghitung pendapatan perbulan dan pertahun,
sehingga tidak perludata yang detail (dengan
dirata-rataatau ditotal).
Langkah ini dilakukan dengan memanfaatkan
operator data cube roll up (meringkas).
4
26August 2004 Gunawan, Teknik InformatikaSTTS 19
Dimensionality Reduction (#1)
Mereduksi ukuran data sets dengan
menghapus atribut-atribut yang mungkin
tidak relevan untuk proses mining.
Contoh:
Apakah nomor telepon cukup relevan untuk
dipakai dalam menentukan suka tidaknya
seorang customer akan CD tertentu?
26August 2004 Gunawan, Teknik InformatikaSTTS 20
Dimensionality Reduction (#2)
Beberapa metodeHeuristics yang dapat
digunakan:
decision-tree induction
step-wise forward selection
step-wise backward elimination
combining forward selection and backward
elimination
26August 2004 Gunawan, Teknik InformatikaSTTS 21
Kumpulan attribute mula-mula: {A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1
Class 2
Class 1
Class 2
> Kumpulanattribute setelahreduksi : {A1, A4, A6}
Contoh Dimensionally Reduction
dengan Induksi Decision Tree
26August 2004 Gunawan, Teknik InformatikaSTTS 22
Data Compression
Metodeyang biasa digunakan untuk
keperluanData Reduction:
Wavelet Transform
Principal Component Analysis
J ustru yang tidak biasa digunakan untuk
kompresi string atau audio/video pada
umumnya.
26August 2004 Gunawan, Teknik InformatikaSTTS 23
Wavelet Transform
Teknik pemrosesan sinyal linier, yangjika
digunakan padavector D, mentransformasikan
vektor itu menjadi sebuahvector lain, D,
koefisien wavelet-nya. Duavector itu
panjangnya sama.
Bagaimana mungkin teknik ini berguna untuk
reduksi data, jika data hasil transformasi wavelet
itu sama panjangnya dengan data aslinya?
26August 2004 Gunawan, Teknik InformatikaSTTS 24
Principle Component Analysis
(#1)
Input: 22 utility publik di USA.
5
26August 2004 Gunawan, Teknik InformatikaSTTS 25
Principle Component Analysis
(#2)
Output: 8 utility publikyang principal.
26August 2004 Gunawan, Teknik InformatikaSTTS 26
Numerosity Reduction
Numerosly Reduction: Upaya untuk mengurangi volume
datadengan menggunakan alternatif representasi data.
Terdapat 2 (dua) kategori pendekatan yang berbeda:
Parametric Methods: Diasumsikan nilai-nilai sebuah atribut
cocok (fits) dengan model tertentu sehinggayang diproses hanya
parameter-parameternya, datanyadiabaikan (kecuali untuk data
outlier).
Non-Parametric Methods: Tidak mengasumsikan adanyamodel
yang cocok dengan data.
26August 2004 Gunawan, Teknik InformatikaSTTS 27
Numerosity Reduction
Beberapa teknik yang digunakan untuk
numerosity reduction:
Regression Model
Log-Linear Model
Histogram
Clustering
Sampling
26August 2004 Gunawan, Teknik InformatikaSTTS 28
Discretization dan Concept
Hierarchy Generation
Teknik diskritisasi dapat digunakan untuk mengurangi jumlah value
padaatribut yangdiberikan, dengan membagi rangenilai atribut
tersebut kedalamsejumlahinterval. Label interval kemudian dapat
digunakan untuk mengantikan nilai datayangaktual.
Generalization: Mengganti datalevel rendah/ primitif / mentah
(low-level data) dengan konsepyanglebih tinggi.
Concept Hierarchy: Penerapan teknik diskretisasi secararecursive
padanilai-nilai sebuah atribut dengan tujuan menyediakan
pengelompokan/partisi secarahirarki/multiresolusi.
26August 2004 Gunawan, Teknik InformatikaSTTS 29
Discretization dan Concept
Hierarchy Generation
Beberapametodediskretisasi dan UpayaMenghasilkan Hirarki
Konsep untuk DataNumerik dapat dilakukanmelalui:
Binning: Equal Width Binning
HistogramAnalysis
Cluster Analysis
Holtes1R Discretizer
Entropy-Based Discretization: Recursive Minimal Entrophy
Partitioning
ChiMerge
Segmentation by Natural Partitioning (3-4-5 rule)
Paper: Discretization - An Enabling Technique, Huan Liu et.al.
26August 2004 Gunawan, Teknik InformatikaSTTS 30
Discretization danConcept
Hierarchy Generation
Concept hierarchy dibedakan untuk:
Numeric Data
Nilai usia dapat diubah ke hirarki yanglebih tinggi
menjadi anak-anak, remaja, dewasa, dan manula.
Categorical / Nominal Data.
nama jalan(level rendah) dapat diganti dengan
nama kota, nama provinsi, negara(menujulevel
yanglebih tinggi).
6
26August 2004 Gunawan, Teknik InformatikaSTTS 31
Discretization dan Concept
Hierarchy Generation
Contohconcept hierarchy pada nilai-nilai attribute harga:

Anda mungkin juga menyukai