Data Preprocessing Bagian 2

1
Knowledge Discovery
in Databases (IS704)
dan Data Mining
(CS704)
Kuliah #4:
Data Preprocessing (Bagian 2)
Gunawan
Jurusan Teknik Informatika
Sekolah Tinggi Teknik Surabaya
26August 2004 Gunawan, Teknik InformatikaSTTS 2
Task III : Data Transformation
(Transformasi Data)
Mengubah/ mentransformasikan
datake dalam bentukyang paling
tepat / cocok untuk prosesdata
mining.
Beberapa Pendekatan
Transformasi Data
Transformasi Data dapat melibatkan:
Smoothing, yangdilakukan untuk membuangnoise.
Aggregation, dimanaoperasi-operasi summaryatauaggregation
diaplikasikan padadata.
Generalization dari data, dimanalevel rendah ataudata
"primitif" (datamentah) digantikan olehhigher-level concepts
melalui penggunaan hirarki konsep.
Normalization, dimanadatasebuah atribut diskalakan kedalam
rentang(kecil) yang ditentukan.
Attribute Construction (atauFeature Construction), dimana
atribut-atribut yangbaru dibentuk dan ditambahkan kedalaanm
kelompok atribut yangtelah ada.
Smoothing
Telah dijelaskan pada bagian sebelumnya,
mencakup binning, regression, dan
clustering.
Normalization (#1)
Min-max Normalization
J ika min
A
dan max
A
merupakan nilai-nilai
minimumdanmaximumdari atribut A, min-
max normalizationmemetakan sebuah nilai v
dari A menjadi v dalam rentang[new_min
A
,
new_max
A
] dengan rumus:
A A A
A A
A
min new min new max new
min max
min v
v _ ) _ _ ( ' +
=
Normalization (#2)
Contoh:
Anggap bahwa nilai minimumdanmaximum
untuk atribut income secara berturut-turut
adalah$12,000dan$98,000. J ikaincome akan
dipetakan pada rentang[0.0,1.0], dengan
normalisasi min-max, maka $73,600, sebuah
nilai dari income ditransformasikan menjadi
[(73,600 12,000) / (98,000-12,000)](1.0-0) +
0 =0.716.
2
Normalization (#3)
z-score Normalization
nilai-nilai untuk sebuah atribut A
dinormalisasi berdasarkanmean dan standard
deviation dari A. Nilai v dari A dinormalisasi
padav dengan menghitung:
v =(v )
A
Normalization (#4)
Contoh:
Anggaplah bahwamean dan standard
deviation dari nilai-nilai untuk atribut income
secara berturut-turut adalah$54,000dan
$16,000. Denganz-score normalization, maka
income sebesar $73,600ditransformasikan
menjadi (73,600-54,000) / 16,000 =1.225.
Normalization (#5)
Normalization by Decimal Scaling
Prinsipnya dilakukan dengan memindahkan titik desimal
dari nilai-nilai atribut A.
Panjang pergeseran titik desimal ( j ) tergantung pada nilai
absolut maksimumdari A.
j adalah integer terkecil sedemikian hinggaMax(| v |)<1
Nilai v dari A dinormalisasikan padav dengan
menghitung:
j
v
v
10
'=
Normalization (#6)
Contoh:
Anggap bahwa nilai-nilai atribut A terletak
dalamrange 986sampai 917. Dengan
demikian nilai absolut maksimum A adalah
986. Untuk menormalisasikan dengan
menggunakan skala desimal, setiap nilai A
dibagi dengan1000 (misalnya, j =3) sehingga
986dinormalisasi menjadi -0.986.
Attribute Construction (1)
Satu atau lebih atribut yangbaru dibentuk dari atribut-
atribut yang sudah ada untuk membantu peningkatan
akurasi dan pemahaman data dalamstaruktur dalam
dimensi yang lebih tinggi.
Sebagai contoh atribut area dapat ditambah pada atribut
height danwidth.
Konstruksi atribut diharapkan membantu mengurangi
masalah fragmentasi ketika algoritmadecision tree
digunakan untuk klasifikasi, dimana sebuah atribut diuji
berkali-kali sepanjang sebuahpathdalamdecision tree
yangdidapat.
Attribute Construction (2)
Contohoperator-operator untuk konstruksi
atribut termasuk and untuk atribut binarydan
product untuk atribut-atribut nominal.
Dengan menggabungkan sejumlah atribut,
harapannya adalah: informasi yanghilang(belum
terpikir nantinya akan bermanfaat) tentang
hubungan antar atribut dapat digali, dan mungkin
ia berguna untuk penemuan pengetahuan baru.
3
Task IV : Data Reduction
(Reduksi Data)
Data Warehouse mungkin memuat terabytes data,
sehingga algoritma mining yang kompleks mungkin
akan memakan waktu yang sangat lama untuk
mengolah seluruhdata sets.
Sejumlah strategi dapat diterapkan untuk
mendapatkan representasi data yangtelah direduksi
sehingga volumenya jauh lebih kecil, tetapi integritas
dataoriginalnya masih tetap terjaga.
Artinya: Mining pada kumpulandata yangdireduksi
seharusnya lebih efisien, tetapi dapat menghasilkan
hasil analisisyangsama(atau hampir sama).
Beberapa Strategi untuk
Reduksi Data (#1)
Strategi untuk reduksi data mencakup:
Data Cube Aggregation, ketika operasi-operasi
summary / aggregationditerapkankan padadatadalam
konstruksi sebuahdata cube.
Dimension Reduction, dimana atribut/dimensi yang
irrelevant (tidak relevan), weakly relevan
(berhubungan tetapi lemah), atauredundant (ganda)
dapat dideteksi dan dihapus.
Data Compression, dimana mekanisasi encoding
digunakan untuk mereduksi ukurandata / data set.
Beberapa Strategi untuk
Reduksi Datan(#2)
Numerosity Reduction, di manadatadiganti dengan
alternatif representasi data yanglebih kecil seperti
parametric models (yanghanya perlu menyimpan
parameter-parameter model bukandata
sesungguhnya), atau metode-metodenonparametric
seperti clustering, sampling, dan penggunaan
histogram.
Discretization dan Concept Hierarchy Generation,
di mana nilai datamentah untuk suatu atribut
digantikan denganrangesataulevel konsepsi yang
lebih tinggi. Konsep hierarki memungkinkanmining
datapada sejumlahlevel hirarki yangberbeda.
Data Cube Aggregation (#1)
Aggregation adalah operasi sumary(peringkasan)
yang diterapkaan padadata numerik.
Misal: Data penjualan harian digabungkan untuk
menghitung pendapatan perbulan dan pertahun,
sehingga tidak perludata yang detail (dengan
dirata-rataatau ditotal).
Langkah ini dilakukan dengan memanfaatkan
operator data cube roll up (meringkas).
4
Dimensionality Reduction (#1)
Mereduksi ukuran data sets dengan
menghapus atribut-atribut yang mungkin
tidak relevan untuk proses mining.
Contoh:
Apakah nomor telepon cukup relevan untuk
dipakai dalam menentukan suka tidaknya
seorang customer akan CD tertentu?
Dimensionality Reduction (#2)
Beberapa metodeHeuristics yang dapat
digunakan:
decision-tree induction
step-wise forward selection
step-wise backward elimination
combining forward selection and backward
elimination
Kumpulan attribute mula-mula: {A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1
Class 2
Class 1
Class 2
> Kumpulanattribute setelahreduksi : {A1, A4, A6}
Contoh Dimensionally Reduction
dengan Induksi Decision Tree
Data Compression
Metodeyang biasa digunakan untuk
keperluanData Reduction:
Wavelet Transform
Principal Component Analysis
J ustru yang tidak biasa digunakan untuk
kompresi string atau audio/video pada
umumnya.
Wavelet Transform
Teknik pemrosesan sinyal linier, yangjika
digunakan padavector D, mentransformasikan
vektor itu menjadi sebuahvector lain, D,
koefisien wavelet-nya. Duavector itu
panjangnya sama.
Bagaimana mungkin teknik ini berguna untuk
reduksi data, jika data hasil transformasi wavelet
itu sama panjangnya dengan data aslinya?
Principle Component Analysis
(#1)
Input: 22 utility publik di USA.
5
Principle Component Analysis
(#2)
Output: 8 utility publikyang principal.
Numerosity Reduction
Numerosly Reduction: Upaya untuk mengurangi volume
datadengan menggunakan alternatif representasi data.
Terdapat 2 (dua) kategori pendekatan yang berbeda:
Parametric Methods: Diasumsikan nilai-nilai sebuah atribut
cocok (fits) dengan model tertentu sehinggayang diproses hanya
parameter-parameternya, datanyadiabaikan (kecuali untuk data
outlier).
Non-Parametric Methods: Tidak mengasumsikan adanyamodel
yang cocok dengan data.
Numerosity Reduction
Beberapa teknik yang digunakan untuk
numerosity reduction:
Regression Model
Log-Linear Model
Histogram
Clustering
Sampling
Discretization dan Concept
Hierarchy Generation
Teknik diskritisasi dapat digunakan untuk mengurangi jumlah value
padaatribut yangdiberikan, dengan membagi rangenilai atribut
tersebut kedalamsejumlahinterval. Label interval kemudian dapat
digunakan untuk mengantikan nilai datayangaktual.
Generalization: Mengganti datalevel rendah/ primitif / mentah
(low-level data) dengan konsepyanglebih tinggi.
Concept Hierarchy: Penerapan teknik diskretisasi secararecursive
padanilai-nilai sebuah atribut dengan tujuan menyediakan
pengelompokan/partisi secarahirarki/multiresolusi.
Beberapametodediskretisasi dan UpayaMenghasilkan Hirarki
Konsep untuk DataNumerik dapat dilakukanmelalui:
Binning: Equal Width Binning
HistogramAnalysis
Cluster Analysis
Holtes1R Discretizer
Entropy-Based Discretization: Recursive Minimal Entrophy
Partitioning
ChiMerge
Segmentation by Natural Partitioning (3-4-5 rule)
Paper: Discretization - An Enabling Technique, Huan Liu et.al.
Discretization danConcept
Concept hierarchy dibedakan untuk:
Numeric Data
Nilai usia dapat diubah ke hirarki yanglebih tinggi
menjadi anak-anak, remaja, dewasa, dan manula.
Categorical / Nominal Data.
nama jalan(level rendah) dapat diganti dengan
nama kota, nama provinsi, negara(menujulevel
yanglebih tinggi).
6
Contohconcept hierarchy pada nilai-nilai attribute harga:

Data Preprocessing Bagian 2

Diunggah oleh

Hak Cipta:

Format Tersedia

Anda mungkin juga menyukai

Data Preprocessing Bagian 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Preprocessing Bagian 2

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Anda mungkin juga menyukai