1 Data Screening

METODOLOGI PENELITIAN (FPA-5101)
1
DATA SCREENING
2
PENDAHULUAN
 Data screening dilakukan segera setelah data dikumpulkan sebelum analisis
data yang utama dijalankan
 Sangat menyita waktu dan membosankan, akan tetapi merupakan hal yang
fundamental untuk mendapatkan hasil yang sahih
3
IMPORTANT ISSUES
 Accuracy of data file
 Honest correlation
 Missing data
 Outlier
4
ACCURACY OF DATA FILE
 Periksa
dan bandingkan data asal dengan file data setelah diinput
ke komputer
 Gunakan teknik2 dalam EDA
Questions to raise:
 are all values within range?
 are mean and standard deviation plausible?
 are there any out-of-range numbers?
5
INFLATED CORRELATION
Variabel komposit adalah variabel yang dibangkitkan dengan cara
menggabungkan respons dari beberapa item. Korelasi antarvariabel
komposit cenderung ‘menggelembung’ (inflated) terutama jika item-
item tsb digunakan secara berulang.
Consider using only one of the composite variable if there is enough
overlap
Examples of composite variables:
measure of economic status, health indices
6
DEFLATED CORRELATION
A falsely small correlation between two variables is obtained if the range of
response to one or both of the variable is restricted in the sample
Jika kisaran nilai dari suatu variabel sangat sempit karena pembatasan dalam
sampling, maka nilainya bisa dikatakan konstan dan tidak akan menghasilkan
nilai korelasi yang tinggi dengan variabel lain
7
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak, e.g. tanaman/binatang mati,
peralatan tidak berfungsi dengan baik, atau responden menolak menjawab
Serius atau tidaknya akibat dari data hilang tergantung pada:

 Pola data hilang tersebut
 Berapa banyak data yang hilang
 Kenapa data tersebut hilang
8
MISSING DATA ….
MEMBUANG KASUS ATAU VARIABEL
 Drop any cases with missing data
jika hanya beberapa kasus yang memiliki data hilang dan
kelihatannya seperti sub-sampel acak dari seluruh sampel
 Drop any variables with missing data
jika data yang hilang terkonsentrasi pada sebagian kecil variabel
dan variabel tersebut tidak terlalu memberikan pengaruh terhadap
analisis, atau variabel tersebut berkorelasi tinggi dengan variabel
lainnya
9
MISSING DATA ….
MENDUGA DATA HILANG
 Gunakan pengetahuan sebelumnya
 Substitusi dengan rata-ratanya
 Gunakan regresi
 Gunakan metode pendugaan lain (e.g., expectation maximization

method, multiple imputation, hot decking)
10
MISING DATA …
Ulangi analisis dengan dan tanpa data hilang….
11
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus dengan nilai yang ekstrim pada
suatu variabel atau kombinasi yang’aneh’ dari dua atau lebih variabel sehingga
mengganggu analisis
Beberapa sebab terjadinya pencilan:

 Kesalahan data entry
 Kekeliruan menentukan kode bagi data hilang ke dalam computer syntax
 Bukan anggota populasi yang diamati
 Anggota populasi tetapi nilainya memang ekstrim
12
UNIVARIATE DAN MULTIVARIATE OUTLIERS
 A 15-year-old is perfectly within bound regarding age
 Someone who earns Rp10 millions a month is in bounds regarding income
 But, a 15-year-old who earns Rp10 millions a month is very unusual and is
likely to be a multivariate outlier
13
MENDETEKSI UNIVARIATE OUTLIERS
 Hitung nilai baku, z,
kasus dengan nilai baku lebih besar dari 3.29 (p

< .001, two-tailed test) adalah potential outlier
 Gunakan metode grafis, seperti, histogram, box
plot, or the stem-and-leaf diagram
14
DETECTING MULTIVARIATE OUTLIERS
 Mahalanobis distance is the distance of a case
from the centroid of the remaining cases. (the
centroid is the point created at the intersection of
the means of all the variables)
 Leverage is related to Mahalanobis distance.
Cases with high leverage are far from others
 Discrepancy measures the extent to which a case
is in line with the others
15
DIAGRAM PENCAR (SCATTER PLOT)
 Grafik adalah salah satu alat bantu yang penting, tetapi seringkali
diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
Marginal Plot of Variabel 1 (x1): vs Variabel 2 (x2):
Variabel 1 (x1):
6
16
2
4 5 6 7 8 9 10
Variabel 2 (x2):
DATA TABLE 1.2 (JOHNSON & WICHERN, 2007) P.15
Paper quality measurement
C1 = density (gr/cubic centimeter)

C2 = strength (pound) in the machine direction
C3 = strength (pound) in the cross direction
17
MATRIX PLOT
 Data dalam Table 1.2 (Johnson & Wichern, 2007)
18
BOX PLOT
19
DATA TABLE 1.3
(JOHNSON & WICHERN, 2007)
Lizard (Cophosaurus texanus) data:
Mass = weight (gr)

SVL = snout-vent length (mm)
HSL = hind limb span (mm)
20
PLOT 3D
21
PLOT 3D …
22
EUCLIDEAN DISTANCE
 Teknik multivariat umumnya berdasarkan atas konsep sederhana dari jarak:
Misalkan P = (x1, x2) adalah sebuah titik dalam bidang. Jarak Euclidean
dari P ke titik asal O = (0, 0) menurut Dalil Pythagoras adalah
Secara umum, jika titik P mempunyai koordinat p, sehingga P = (x1, x2, …,

xp), maka jarak Euclidean dari P ke titik asal O = (0, 0, …, 0) adalah
 Jarak Euclidean antara dua titik sembarang P dan Q dengan koordinat P =

(x1, x2, …, xp) dan Q = (y1, y2, …, yp) adalah
23
STATISTICAL DISTANCE
 Dalam Euclidean distance setiap koordinat memberikan kontribusi yang
sama terhadap perhitungan jarak, tanpa mempertimbangkan hadirnya random
fluctuation atau besaran yang berbeda
 Diperlukan suatu ukuran jarak yang memperhitungkan perbedaan dalam
keragaman atau adanya korelasi, ukuran tersebut adalah statistical distance
24
STATISTICAL DISTANCE … ilustrasi….
x2
 Pengukuran variabel x1 bersifat
bebas (independent) dari
pengukuran variabel x2
x1
 Keragaman dalam arah variabel x1
lebih besar dari keragaman dalam
arah variabel x2
 Standarisasi setiap koordinat dengan cara membaginya dengan
simpangan bakunya masing-masing:
 Statistical distance dari titik P = (x1, x2) ke titik asal

O = (0, 0) adalah
25
STATISTICAL DISTANCE …
 Secara umum, jika diasumsikan bahwa variabel koordinat bersifat bebas satu
dengan lainnya, maka statistical distance dari suatu titik sembarang P = (x1,
x2) ke setiap titik tetap (fixed point) Q = (y1, y2) adalah
 Statistical distance untuk sistem koordinat lebih dari dua dimensi, yaitu P =
(x1, x2 , … xp) dan Q = (y1, y2 , … yp) adalah:
26
PENGUKURAN YANG TIDAK SALING BEBAS
 Pasangan koordinat (x1, x2) x2
cenderung untuk besar atau

kecil secara bersama-sama
x1
dan koefisien korelasi
sampelnya positif
 Keragaman dalam arah x1 lebih besar daripada arah x2

 Jika sumbu sistem koordinat tersebut diputar dengan
sudut q, maka sistem koordinat yang baru dengan sumbu
menyerupai sistem pada slide 32
27
PENGUKURAN YANG TIDAK SALING
BEBAS …
 Dengan cara yang sama, jarak dari titik ke titik asal O = (0, 0) adalah
di mana adalah varians sample yang dihitung dengan pengukuran

 Hubungan antara koordinat asal (x1, x2) dengan koordinat hasil putaran adalah
sbb
28
BEBAS …
 Dengan manipulasi aljabar, jarak dari titik ke titik asal O = (0, 0) dapat
dituliskan dalam bentuk koordinat asal x1 dan x2 sebagai berikut
di mana aij adalah nilai-nilai yang ditentukan berdasarkan besaran sudut q, s11, s12
dan s22 yang dihitung dari data asli.
 Secara umum, ketika variabelnya saling berkorelasi, statistical distance dari
suatu titik sembarang P = (x1, x2) ke setiap titik tetap (fixed point) Q = (y1, y2)
adalah
29
BEBAS …
 Misalkan P = (x1, x2, …, xp) adalah suatu titik yang koordinatnya merupakan
variabel yang saling berkorelasi; misalkan pula O = (0, 0, …0) adalah titik nol
dan Q = (y1, y2 , …, yp) adalah titik tetap (fixed point) tertentu, maka jarak dari P
ke O dan dari P ke Q adalah sbb:
30

1 Data Screening

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 Data Screening

Diunggah oleh

Hak Cipta:

Format Tersedia

METODOLOGI PENELITIAN (FPA-5101)

 are mean and standard deviation plausible?

 are there any out-of-range numbers?

Serius atau tidaknya akibat dari data hilang tergantung pada:

 Gunakan metode pendugaan lain (e.g., expectation maximization

Ulangi analisis dengan dan tanpa data hilang….

Beberapa sebab terjadinya pencilan:

kasus dengan nilai baku lebih besar dari 3.29 (p

Paper quality measurement

C1 = density (gr/cubic centimeter)

Lizard (Cophosaurus texanus) data:

Mass = weight (gr)

Secara umum, jika titik P mempunyai koordinat p, sehingga P = (x1, x2, …,

 Jarak Euclidean antara dua titik sembarang P dan Q dengan koordinat P =

 Statistical distance dari titik P = (x1, x2) ke titik asal

cenderung untuk besar atau

 Keragaman dalam arah x1 lebih besar daripada arah x2

di mana adalah varians sample yang dihitung dengan pengukuran

Anda mungkin juga menyukai