1
DATA SCREENING
2
PENDAHULUAN
Data screening dilakukan segera setelah data dikumpulkan sebelum analisis
data yang utama dijalankan
Sangat menyita waktu dan membosankan, akan tetapi merupakan hal yang
fundamental untuk mendapatkan hasil yang sahih
3
IMPORTANT ISSUES
Accuracy of data file
Honest correlation
Missing data
Outlier
4
ACCURACY OF DATA FILE
Periksa
dan bandingkan data asal dengan file data setelah diinput
ke komputer
Gunakan teknik2 dalam EDA
Questions to raise:
are all values within range?
5
INFLATED CORRELATION
Variabel komposit adalah variabel yang dibangkitkan dengan cara
menggabungkan respons dari beberapa item. Korelasi antarvariabel
komposit cenderung ‘menggelembung’ (inflated) terutama jika item-
item tsb digunakan secara berulang.
Consider using only one of the composite variable if there is enough
overlap
Examples of composite variables:
measure of economic status, health indices
6
DEFLATED CORRELATION
A falsely small correlation between two variables is obtained if the range of
response to one or both of the variable is restricted in the sample
Jika kisaran nilai dari suatu variabel sangat sempit karena pembatasan dalam
sampling, maka nilainya bisa dikatakan konstan dan tidak akan menghasilkan
nilai korelasi yang tinggi dengan variabel lain
7
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak, e.g. tanaman/binatang mati,
peralatan tidak berfungsi dengan baik, atau responden menolak menjawab
8
MISSING DATA ….
MEMBUANG KASUS ATAU VARIABEL
Drop any cases with missing data
jika hanya beberapa kasus yang memiliki data hilang dan
kelihatannya seperti sub-sampel acak dari seluruh sampel
Drop any variables with missing data
jika data yang hilang terkonsentrasi pada sebagian kecil variabel
dan variabel tersebut tidak terlalu memberikan pengaruh terhadap
analisis, atau variabel tersebut berkorelasi tinggi dengan variabel
lainnya
9
MISSING DATA ….
MENDUGA DATA HILANG
Gunakan pengetahuan sebelumnya
Substitusi dengan rata-ratanya
Gunakan regresi
10
MISING DATA …
11
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus dengan nilai yang ekstrim pada
suatu variabel atau kombinasi yang’aneh’ dari dua atau lebih variabel sehingga
mengganggu analisis
12
UNIVARIATE DAN MULTIVARIATE OUTLIERS
A 15-year-old is perfectly within bound regarding age
Someone who earns Rp10 millions a month is in bounds regarding income
But, a 15-year-old who earns Rp10 millions a month is very unusual and is
likely to be a multivariate outlier
13
MENDETEKSI UNIVARIATE OUTLIERS
Hitung nilai baku, z,
14
DETECTING MULTIVARIATE OUTLIERS
Mahalanobis distance is the distance of a case
from the centroid of the remaining cases. (the
centroid is the point created at the intersection of
the means of all the variables)
Leverage is related to Mahalanobis distance.
Cases with high leverage are far from others
Discrepancy measures the extent to which a case
is in line with the others
15
DIAGRAM PENCAR (SCATTER PLOT)
Grafik adalah salah satu alat bantu yang penting, tetapi seringkali
diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
Marginal Plot of Variabel 1 (x1): vs Variabel 2 (x2):
Variabel 1 (x1):
6
16
2
4 5 6 7 8 9 10
Variabel 2 (x2):
DATA TABLE 1.2 (JOHNSON & WICHERN, 2007) P.15
17
MATRIX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2007)
18
BOX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2007)
19
DATA TABLE 1.3
(JOHNSON & WICHERN, 2007)
20
PLOT 3D
Data dalam Table 1.3 (Johnson & Wichern, 2007)
21
PLOT 3D …
Data dalam Table 1.3 (Johnson & Wichern, 2007)
22
EUCLIDEAN DISTANCE
Teknik multivariat umumnya berdasarkan atas konsep sederhana dari jarak:
Misalkan P = (x1, x2) adalah sebuah titik dalam bidang. Jarak Euclidean
dari P ke titik asal O = (0, 0) menurut Dalil Pythagoras adalah
24
STATISTICAL DISTANCE … ilustrasi….
x2
Pengukuran variabel x1 bersifat
bebas (independent) dari
pengukuran variabel x2
x1
Keragaman dalam arah variabel x1
lebih besar dari keragaman dalam
arah variabel x2
Standarisasi setiap koordinat dengan cara membaginya dengan
simpangan bakunya masing-masing:
Statistical distance untuk sistem koordinat lebih dari dua dimensi, yaitu P =
(x1, x2 , … xp) dan Q = (y1, y2 , … yp) adalah:
26
PENGUKURAN YANG TIDAK SALING BEBAS
Pasangan koordinat (x1, x2) x2
sbb
28
PENGUKURAN YANG TIDAK SALING
BEBAS …
Dengan manipulasi aljabar, jarak dari titik ke titik asal O = (0, 0) dapat
dituliskan dalam bentuk koordinat asal x1 dan x2 sebagai berikut
di mana aij adalah nilai-nilai yang ditentukan berdasarkan besaran sudut q, s11, s12
dan s22 yang dihitung dari data asli.
Secara umum, ketika variabelnya saling berkorelasi, statistical distance dari
suatu titik sembarang P = (x1, x2) ke setiap titik tetap (fixed point) Q = (y1, y2)
adalah
29
PENGUKURAN YANG TIDAK SALING
BEBAS …
Misalkan P = (x1, x2, …, xp) adalah suatu titik yang koordinatnya merupakan
variabel yang saling berkorelasi; misalkan pula O = (0, 0, …0) adalah titik nol
dan Q = (y1, y2 , …, yp) adalah titik tetap (fixed point) tertentu, maka jarak dari P
ke O dan dari P ke Q adalah sbb:
30