Anda di halaman 1dari 6

Pekerjaan Rumah

Yandi Anzari [2301162035]


Big Data Data Preprocessing

Transformasi, Standarisasi , dan Normalisasi

Data Preprocessing

Sebelum melakukan data mining perlu dilakukan pre processing untuk memastikan data yang di olah di data
mining adalah data yang baik, yang dimaksud data yang baik adalah data yang lengkap, benar, konsisten, dan
terintegrasi.
Data dengan kualitas yang kurang baik dapat disebabkan oleh beberapa hal yaitu ;
Tidak lengkap, banyak data yang hilang
Noisy, adanya data yang lain sendiri dibandingkan dengan data yanglainnya (random error/varian)
Tidak konsisten

Karena terdapat permasalahan seperti yang diatas, maka dilakukanlah pre-processing terhadap data sebelum
diolah ke data mining.

Pada data pre-processing terdapat beberapa teknik-teknik yang dapat dilakukan, antara lain ;

Data Cleaning
Data integration
Data Reduction
Data Transformation

Data Cleaning
Memperkecil jumlah data yang hilang atau berbeda, dapat dilakukan dengan beberapa teknik, antara nya ;
Memperkecil noise
Membetulkan data yang tidak konsistent
Mengisi missing value
Mengidentifikasi atau membuang outlier
Binning by means
Binning by range

Data Cleaning : Noisy Data


Noise data adalah Suatu kesalahan acak atau variansi dalam variable terukur, pada noisy data ini dapat
dilakukan beberapa teknik, antara lain ;
a. Binning
Smoothing by bin means
Smoothing by bin medians
Smoothing by bin boundaries
b. Regression
c. Outlier analysis
Data Cleaning : Membetulkan data yang tidak konsistent
Pada teknik ini bias dilakukan dengan mengisi data secara manual, mengisi atribut-atribut data secara
manual, baik itu dikelas yang sama maupun berbeda.
Data Cleaning : Mengisi missing value
Teknik-teknik yang dapat dilakukan dalam metode ini, antara lain
a. Mengabaikan record, biasanya digunakan untuk label klasifikasi yang kosong
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing

b. Mengisi data secara manual, biasanya menggunakan default value


c. Menggunakan nilai global
d. Menggunakan nilai termungkin
Menerapkan regresi
e. Menggunakan means atau median dari atribut yang mengandung missing value
Means dapat dipakai jika distribusi data normal
Median dapat digunakan jika distribusi data tidak normal (condong)
Data Cleaning : Mengidentifikasi atau membuang outlier
Teknik ini dapat dilakukan secara manual, yaitu dengan mencari outlier dengan pengelompokan atau
regresi.
Data Cleaning : Binning by means and Binning by range boundries
Binning merupakan mengganti suatu nilai outlier yang lebih sesuai dengan data yang lain yang ada di
sekitar data outlier tersebut (local smoothing). Dalam teknik ini yang di maksud Binning by means
menggunakan rata-rata pengelompokan, sedangkan binning by range boundries menggunakan batas
terdekat suatu kelompok data

Data Integration
Integrasi adalah menggabungkan beberapa sumber data sehingga dapat saling melengkapi, data perlu
digabungkan dengan key yang sesuai, key ini mungkin memiliki nama yang berbeda dari sumber data yang
berbeda pula.
Teknik-teknik yang dipakai dalam data integrasi, antara lain ;
Analisis korelasi
Atribut redundan
Duplikasi

Data Reduction
Data reduksi yakni mengurangi jumlah data sehingga resource yang digunakan lebih sedikit sehingga proses
nya dapat lebih cepat dilakukan.
Teknik-teknik yang biasa digunakan pada data reduksi ini antara lain ;
Dimensionality reduction
1. Wavelet transform
2. Principal Component Analysis
3. Atribute subset selection
Numerosity reduction
1. Sampling
Data Compression

Data Transformation
Data Transformation yaitu mengubah data yang komplek dengan tidak menghilangkan isi, sehingga lebih
mudah diolah, tujuan dari teknik ini, diharapkan lebih efisien dalam proses data mining dan mungkin juga
agar pola yang dihasilkan lebih mudah di pahami.
Teknik-teknik yang dapat dilakukan pada data transformation ini, yaitu ;
a. Smoothing
b. Attribute construction
c. Aggregation
d. Normalization
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing

e. Discretization

Data transformasi : Smoothing


Pada teknik Smoothing ini biasa digunakan binning, clustering, dan regresi
Data transformasi : Aggregation
Pada teknik Aggregation ini biasa digunakan Summarize, atau menggunakan dimensi yang lebih general
seperti cube construction
Data transformasi : Normalization
Normalization mengelompokkan data sesuai skala tertentu, hasil dari suatu normalisasi adalah [-1,1],
atau [0.0 , 1.0].
Teknik yang di pakai di normalisasi, antara lain ;
a. Min-Max
Min-Max adalah standarisasi data dengan menempatkan data dalam range 0 sampai 1, nilai terkecil
sebagai 0 dan nilai terbesar sebagai 1.
Adapun rumus nya :

nilai baru = ( ) ( )+range minimal

range maksimal : 1, range minimal : 0.
b. Z-Score
Rumus untuk Z-Score, yaitu :
( )()
nilai baru =
c. Decimal Scaling

Nilai baru = 10
Data transformasi : Discretization
Discretization adalah melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10, 11-20,
dst) atau konseptual label (misalnya: bawah, tengah, atas atau mengelompokkan harga produk menjadi
mahal, biasa dan murah)

Standardization VS Normalization
Dua metode yang biasa digunakan dalam rescaling data, yaitu Normalisasi yang mana menskala semua variable
numerik dalam range [0,1], rumus yang memungkinkan untuk ini, adalah ;

Sedangkan disisi lain, kita bias menggunakan standarisasi pada data set. Adapun rumus yang digunakan pada
standarisasi ini adalah ;

Adapun kekurangan dari dua teknik diatas yakni, jika terdapat outlier dalam dataset maka normalisasi akan
menskala data normal secara pasti kedalam interval yang sangat kecil, ketika menggunakan standarisasi data baru
yang dihasilkan tidak akan dibatasi (tidak seperti normalisasi)
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing

PCA (principal Component Analysis)

Salah satu proses pendekatan yang terdapat di proses reduksi yakni PCA (Principal Component Analysis), PCA
sendiri bekerja dataset ukuran besar (m.n) dan kemudian mentransformasikannya ke ukuran (m.k) dengan
mempertahankan data yang tidak redundan atau tidak berkolaborasi atau tidak berhubungan, tujuan dari PCA sendiri
adalah mengurangi dimensi data dengan mempertahankan variasi data yang ada.

Dasar dimulai nya proses PCA dengan mengetahui kolerasi antara 2 variable atau lebih, kolerasi sendiri tidak
terlepas dari covariance. Terdapat banyak cara mempresentasikan hubungan antara dua bahkan lebih variable
dengan melihat perubahan nilai nya, salah satunya dengan menggunakan grafik linier.

PCA menggunakan grafik linier dan basis nya adalah nilai korelasi. Adapun tahap-tahap atau langkah-langkah
dalam PCA, sebagai berikut.

Langkah 1 : Input Data


Data awal dipersiapkan dalam sebuah matriks ukuran (m.n), nantinya jumlah variable n akan berkurang
menjadi k jumlah principal component yang dipertahankan.
Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing

Contoh data yang di inputkan.


x y z
110 8 5
228 21 3
342 31 14
375 40 15
578 48 4
699 60 12
807 71 14
929 79 16
1040 92 18
1160 101 38
1262 109 28
1376 121 32
1499 128 35
1620 143 28
1722 150 30
1833 159 15
1948 172 12
2077 181 35
2282 190 23
2999 202 30

Table data yang di inputkan berkuran 20.3 (m=20, n=3).

Perhatikan hubungan antara variable x dan y, x dan z, serta y dan z seperti berikut

y
250
200
150
100 y
50
0
0 500 1000 1500 2000 2500 3000 3500

Hubungan antara X dan Y


Pekerjaan Rumah
Yandi Anzari [2301162035]
Big Data Data Preprocessing

40 40
30 30
Axis Title

Axis Title
20 20
z z
10 Linear (z) 10 Linear (z)
0 0
0 2000 4000 0 100 200 300
Axis Title Axis Title

Hubungan antara variable X dan Z Hubungan antara variable Y dan Z

Dari ketiga gambar di atas dapat di lihat bahwa variable X dan Y terhubung secara linier, sedangkan
hubungan antara variable X dan Z, dan hubungan variable Y dan z perubahan nilai nya seperti tidak terhubung
secara linier.

Dari data seperti ini sebaiknya lakukan langkah standarisasi agar variable-variable nya layak untuk
dibandingkan.

Langkah 2 : Pre-PCA
Standarisasi dengan mengunakan Z-Score, cara menghitngnya :


=

Dengan X: nilai Z-Score
: mean per variable
: standar deviasi per variable
singkatnya, tiap baris per kolom dikurangi mean kolom tersebut, dibagi dengan standard deviasi kolom
yang sama.
Berikut data yang telah di standarisasi

Anda mungkin juga menyukai