Tugas3 BDA17 2301162035
Tugas3 BDA17 2301162035
Data Preprocessing
Sebelum melakukan data mining perlu dilakukan pre processing untuk memastikan data yang di olah di data
mining adalah data yang baik, yang dimaksud data yang baik adalah data yang lengkap, benar, konsisten, dan
terintegrasi.
Data dengan kualitas yang kurang baik dapat disebabkan oleh beberapa hal yaitu ;
Tidak lengkap, banyak data yang hilang
Noisy, adanya data yang lain sendiri dibandingkan dengan data yanglainnya (random error/varian)
Tidak konsisten
Karena terdapat permasalahan seperti yang diatas, maka dilakukanlah pre-processing terhadap data sebelum
diolah ke data mining.
Pada data pre-processing terdapat beberapa teknik-teknik yang dapat dilakukan, antara lain ;
Data Cleaning
Data integration
Data Reduction
Data Transformation
Data Cleaning
Memperkecil jumlah data yang hilang atau berbeda, dapat dilakukan dengan beberapa teknik, antara nya ;
Memperkecil noise
Membetulkan data yang tidak konsistent
Mengisi missing value
Mengidentifikasi atau membuang outlier
Binning by means
Binning by range
Data Integration
Integrasi adalah menggabungkan beberapa sumber data sehingga dapat saling melengkapi, data perlu
digabungkan dengan key yang sesuai, key ini mungkin memiliki nama yang berbeda dari sumber data yang
berbeda pula.
Teknik-teknik yang dipakai dalam data integrasi, antara lain ;
Analisis korelasi
Atribut redundan
Duplikasi
Data Reduction
Data reduksi yakni mengurangi jumlah data sehingga resource yang digunakan lebih sedikit sehingga proses
nya dapat lebih cepat dilakukan.
Teknik-teknik yang biasa digunakan pada data reduksi ini antara lain ;
Dimensionality reduction
1. Wavelet transform
2. Principal Component Analysis
3. Atribute subset selection
Numerosity reduction
1. Sampling
Data Compression
Data Transformation
Data Transformation yaitu mengubah data yang komplek dengan tidak menghilangkan isi, sehingga lebih
mudah diolah, tujuan dari teknik ini, diharapkan lebih efisien dalam proses data mining dan mungkin juga
agar pola yang dihasilkan lebih mudah di pahami.
Teknik-teknik yang dapat dilakukan pada data transformation ini, yaitu ;
a. Smoothing
b. Attribute construction
c. Aggregation
d. Normalization
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing
e. Discretization
Standardization VS Normalization
Dua metode yang biasa digunakan dalam rescaling data, yaitu Normalisasi yang mana menskala semua variable
numerik dalam range [0,1], rumus yang memungkinkan untuk ini, adalah ;
Sedangkan disisi lain, kita bias menggunakan standarisasi pada data set. Adapun rumus yang digunakan pada
standarisasi ini adalah ;
Adapun kekurangan dari dua teknik diatas yakni, jika terdapat outlier dalam dataset maka normalisasi akan
menskala data normal secara pasti kedalam interval yang sangat kecil, ketika menggunakan standarisasi data baru
yang dihasilkan tidak akan dibatasi (tidak seperti normalisasi)
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing
Salah satu proses pendekatan yang terdapat di proses reduksi yakni PCA (Principal Component Analysis), PCA
sendiri bekerja dataset ukuran besar (m.n) dan kemudian mentransformasikannya ke ukuran (m.k) dengan
mempertahankan data yang tidak redundan atau tidak berkolaborasi atau tidak berhubungan, tujuan dari PCA sendiri
adalah mengurangi dimensi data dengan mempertahankan variasi data yang ada.
Dasar dimulai nya proses PCA dengan mengetahui kolerasi antara 2 variable atau lebih, kolerasi sendiri tidak
terlepas dari covariance. Terdapat banyak cara mempresentasikan hubungan antara dua bahkan lebih variable
dengan melihat perubahan nilai nya, salah satunya dengan menggunakan grafik linier.
PCA menggunakan grafik linier dan basis nya adalah nilai korelasi. Adapun tahap-tahap atau langkah-langkah
dalam PCA, sebagai berikut.
Perhatikan hubungan antara variable x dan y, x dan z, serta y dan z seperti berikut
y
250
200
150
100 y
50
0
0 500 1000 1500 2000 2500 3000 3500
40 40
30 30
Axis Title
Axis Title
20 20
z z
10 Linear (z) 10 Linear (z)
0 0
0 2000 4000 0 100 200 300
Axis Title Axis Title
Dari ketiga gambar di atas dapat di lihat bahwa variable X dan Y terhubung secara linier, sedangkan
hubungan antara variable X dan Z, dan hubungan variable Y dan z perubahan nilai nya seperti tidak terhubung
secara linier.
Dari data seperti ini sebaiknya lakukan langkah standarisasi agar variable-variable nya layak untuk
dibandingkan.
Langkah 2 : Pre-PCA
Standarisasi dengan mengunakan Z-Score, cara menghitngnya :
=
Dengan X: nilai Z-Score
: mean per variable
: standar deviasi per variable
singkatnya, tiap baris per kolom dikurangi mean kolom tersebut, dibagi dengan standard deviasi kolom
yang sama.
Berikut data yang telah di standarisasi