Anda di halaman 1dari 39

PREPROCESSING DATA

DIAN EKA R
Data cenderung kotor
 Incomplete: kekurangan nilai
atribut
 Noise: adanya errors atau
outliers
 Inconsistent: format yang
DATA PREPROCESSING: berbeda dalam code dan
WHY IS NEEDED? nama
Data yg tidak berkualitas, tidak ada hasil
mining yang berkualitas
 Keputusan kualitas harus
didasarkan pada data kualitas

DATA PREPROCESSING: WHY


IS NEEDED?
MAJOR TASK IN DATA PREPROCESSING

DATA CLEANING DATA INTEGRATION DATA DATA REDUCTION DATA


TRANSFORMATION DISCRETIZATION
FORMS OF DATA
PREPROCESSING
Normalization
TRANSFORMATION
OF RAW DATA Data smoothing

Differences and ratios


Nilai yg terukur dapat diskala ke
range khusus, seperti [-1, 1], atau
[0,1]
NORMALIZATIONS
Decimal scalling
Ada 3 tehnik Min-max normalization
normalisasi: Standard deviation
normalization
 Menggerakkan titik desimal tetapi masih mempertahankan
kebanyakan nilai digit asal. Skala khusus memelihara nilai dalam
range -1 sampai 1. dimana v(i) adalah nilai dari feature v untuk
kasus i dan v’(i) adalah nilai yg diskala.
DECIMAL v’(i)=v(i)/10k
SCALLING untuk k terkecil sehingga max (v’(i))< 1
(NORMALIZATION) Contoh:
Jika nilai terbesar data set 455 dan terkecil -834, maka nilai absolut
maksimum menjadi .834, dan pembagi untuk semua v(i) adalah
1000(k=3). K berasal dari jumlah banyak angka
misal 5342 maka K=4
 Andaikan data v dalam suatu range antara 150 dan 250. Maka,
metode normalisasi sebelumnya akan memberikan data yg
dinormalisasi antara .15 dan .25; Untuk mencapai distribusi yg lebih
baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0,
MIN-MAX 1]

NORMALIZATION v’(i) =(v(i)-min(v(i))) / (max(vi))-min(v(i)))


dimana, nilai minimum dan maksimum v dihitung secara otomatis,
atau diestimasi oleh seorang expert memberikan domain.
Transformasi yg serupa mungkin digunakan untuk interval yg
dinormalisasi [-1, 1]. V'(25)= 25 -25/5361-25 = 0
V'(5361)= 5361 -25/5361-25 = 1
 Normalisasi dengan standard deviasi
STANDARD sering bekerja baik dengan ukuran

DEVIATION jarak, tetapi transformasi data tidak


dapat dikenali data asalnya.
NORMALIZATION v’(i)=(v(i)-mean(v))/sd(v)
Contoh:
Jika himpunan nilai atribut awal v={1, 2,
3}, maka mean(v)=2, sd(v)=1, dan
himpunan nilai yg dinormalisasikan
adalah v* ={-1,0,1}
 Suatu feature numerik, y, mungkin berkisar atas banyak nilai yg
berbeda, terkadang sebanyak jumlah kasus pelatihan. Banyak teknik
data-mining, perbedaan minor antar nilai-nilai ini tidak signifikan dan
mungkin menurunkan performance metode dan hasil akhir. Oleh karena
itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai
variable.
 Sebagai contoh, bilangan real dengan beberapa letak desimal,
pembulatan nilai ke presisi yg diberikan dapat menjadi algoritma
smoothing yg sederhana untuk sejumlah sampel yg besar, dimana setiap
DATA SMOOTHING sampel mempunya nilai realnya sendiri.
 Jika diberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98},
kemudian, nilai2 di smooth secara nyata menjadi Fsmoothed = {1.0, 1.0,
1.0, 3.0, 3.0, 5.0, 5.0, 5.0}.
 Tujuan : transformasi sederhana tanpa menghilangkan kualitas data set.
 Contoh: diskritisasi fitur kontinyu menuju fitur nilai biner true-false
TRANSFORMING DATA

Centering

•Mengurangi setiap data dengan rata2 dari setiap atribut

Normalization

•Hasil dari centering dibagi dengan standard deviasi

Scaling

•Merubah data sehingga berada dalam skala


DESKRIPSI STATISTIK DATA

Gambaran secara keseluruhan terhadap suatu data sangat penting

Deskripsi statistik data dapat digunakan untuk identifikasi karakteristik


data dan identifikasi outlier dan noise

Central tendency → mengukur lokasi data tengah dalam distribusi data


(dalam suatu atribut, dimana mayoritas data berada?)

Mengukur central tendency → mean, median, mode, midrange


MEAN/NILAI RATA-RATA

 Rumus:

åxx1 + x2 + ... + x N
i
x= =i=1
 Nilai rata-rata suatu data N N
 Sensitif terhadap data ekstrim/outlier → trimmed mean

 Trimmed mean: memotong 2% top dan buttom data sebelum menghitung mean

 Hindari memotong data terlalu banyak → loss of valuable information


CONTOH

 Data gaji (ribuan dollar) diurutkan mulai dari terkecil hingga terbesar: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110.

30 + 36 + 47 + 50 + 52 + 56 + 60 + 63+ 70 + 70 +110
x=
12
696
x= = 58
12

 Maka rata-rata gaji = $58.000


MEDIAN/NILAI TENGAH
 Nilai tengah dari data yg terurut
 Memisahkan separuh data terendah dan separuh data tertinggi
 Cocok untuk asymmetric data
 Untuk sejumlah N data:
 jika N bilangan ganjil maka median adalah nilai tengah data
 Jika N bilangan genap maka median adalah dua nilai tengah atau nilai
diantara keduanya atau rata-rata dua nilai tengahnya (tipe numerik)
CONTOH

 Dari contoh data gaji, data telah terurut dan jumlah data genap (12) maka median: nilai tengah (nilai ke-6 dan ke-7) yaitu
antara 52 dan 56.

52 + 56
median = = 54
2

 Maka median = $54.000


MODE  Nilai yang paling sering muncul dalam
dataset
 Dapat digunakan untuk data kualitatif
dan kuantitatif
 Dataset dapat memiliki lebih dari satu
mode (multimodal): unimodal (1 mode),
bimodal (2 mode), dan trimodal (3
mode).
CONTOH  Dari contoh data gaji, terdapat bimodal,
yaitu $52.000 dan $70.000 dengan
frekuensi kemunculan masing-masing 2
kali.
MIDRANGE

 Rata-rata dari nilai tertinggi dan terendah dalam dataset.

 Dalam contoh data gaji:

30 +110
midrange = = 70
2
 Maka nilai midrange: $70.000
CENTRAL
TENDENCY
 Data dengan unimodal dan distribusi
data simetris (terdistribusi normal)
memiliki nilai mean, median, dan mode
yang sama dan berada di tengah.
 Kondisi riil → asimetris (positively skewed
atau negatively skewed)
 Mengukur sebaran data → five-number summary (range,

SEBARAN DATA quantiles, quartiles, percentiles, interquartile range)


x1 ,x2 , . . . ,xN adalah atribut numerik dari X .

Range: perbedaan( selisih) antara nilai terbesar dan terkecil


RANGE, QUARTILES,
DAN INTERQUARTILE
Quantiles: poin yang diambil pada interval reguler distribusi data,
membaginya menjadi sederetan set berturut-turut.

Ke k-th q-quantile untuk distribusi data tertentu adalah nilai x


sehingga paling banyak k / q dari nilai data kurang dari x dan paling
banyak (q-k) / q dari nilai data lebih dari x, dimana k adalah bilangan
bulat sehingga 0 <k <q
RANGE, QUARTILES, DAN INTERQUARTILE (2)

 The 2-quantile is the data point dividing the lower and upper halves of the data distribution → median

 The 4-quantiles are the three data points that split the data distribution into four equal parts; each part represents
one-fourth of the data distribution → quartiles
 The 100-quantiles → percentiles (divide the data distribution into 100 equal-sized consecutive sets)
RANGE, QUARTILES, DAN INTERQUARTILE (3)

 The first quartile Q1 is the 25th percentile → cuts off the lowest 25% of the data.

 The third quartile Q3 is the 75th percentile → cuts off the lowest 75% (or highest 25%) of the data.

 The second quartile Q2 is the 50th percentile (median) → the center of the data distribution.
RANGE, QUARTILES, DAN INTERQUARTILE (4)

 Interquartile range (IQR) → the distance between the first and third quartiles

IQR = Q3 - Q1
 The quartiles → three values that split the sorted data set into four equal parts

 Outlier → values falling at least 1.5 x IQR above the third quartile or below the first quartile
CONTOH

 Dari contoh data gaji, quartiles untuk data gaji adalah data ke-3 (Q1), ke-6 (Q2), dan ke-9 (Q3).

 Maka:

Q1 = $47.000
Q2 = $52.000
Q3 = $63.000
IQR = 63-47 = $16.000
Outlier = nilai < Q1 – 1,5 x IQR dan nilai > Q3+ 1,5 x IQR
FIVE-NUMBER SUMMARY & BOXPLOT

 Five-number summary → Minimum , Q1 , Median (Q2) , Q3 , Maximum.

 Boxplots are a popular way of visualizing a distribution

 A boxplot incorporates the five-number summary as follows:


 Typically, the ends of the box are at the quartiles so that the box length is the interquartile range.
 The median is marked by a line within the box.
 Two lines (called whiskers ) outside the box extend to the smallest (Minimum ) and largest (Maximum ) observations.
BOXPLOT

 The figure shows boxplots for unit price data for items sold at
four branches of AllElectronics during a given time period.
 For branch 1, we see that the median price of items sold is
$80, Q1 is $60, and Q3 is $100.
 Notice that two outlying observations for this branch were
plotted individually, as their values of 175 and 202 are more
than 1.5 times the IQR here of 40.
VARIANCE AND STANDARD DEVIATION

 Variance and standard deviation are measures of data dispersion.

 They indicate how spread out a data distribution is.

 A low standard deviation means that the data observations tend to be very close to the mean, while a high standard
deviation indicates that the data are spread out over a large range of values.
VARIANCE AND STANDARD DEVIATION (2)

 variance dari N pengamatan x1 ,x2 , . . . ,xN, untuk atribut X adalah:

 Standard deviation (σ) dari pengamatan adalah akar dari variance (σ2)
CONTOH

 Dari contoh data gaji, diketahui mean = $58.000, N=12, maka:


 Sifat dasar simpangan baku (σ) sebagai
STANDARD ukuran penyebaran adalah sebagai

DEVIATION  σ ukuran menyebar tentang mean


dan harus dipertimbangkan hanya
jika mean dipilih sebagai ukuran
pusat
 σ = 0 hanya jika tidak ada sebaran,
yaitu jika semua pengamatan
memiliki nilai yang sama. Jika tidak,
>0
Grafik sangat membantu untuk melihat
TAMPILAN data secara visual data,
GRAFIS yang berguna untuk pra-pemrosesan data
DESKRIPSI DATA
SECARA
STATISTIK Graphs: quantile plots, quantile–quantile
plots, histograms, and scatter plots.
QUANTILE-
QUANTILE PLOT
HISTOGRAM
SCATTER PLOT
Suppose that the data for analysis includes the attribute age.

TUGAS 1 The age values for the data tuples are (in increasing order) 13,
15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33,
35, 35, 35, 35, 36, 40, 45, 46, 52, 70.
a) What is the mean of the data?What is the median?
b) What is the mode of the data? Comment on the data’s
modality (i.e., bimodal, trimodal, etc.).
c) What is the midrange of the data?
d) Can you find (roughly) the first quartile (Q1 ) and the third
quartile (Q3 ) of the data?
e) Give the five-number summary of the data.
f) Show a boxplot of the data.
g) How is a quantile–quantile plot different from a quantile
plot ?
TUGAS 2

Suppose that a hospital tested the age and body fat data for 18 randomly selected adults with the following results:

 Calculate the mean, median, and standard deviation of age and %fat .
 Draw the boxplots for age and %fat .
 Draw a scatter plot and a q-q plot based on these two variables

Anda mungkin juga menyukai