Anda di halaman 1dari 25

Penyaringan Data

Tujuan
Terdapat 3 objective dasar dalam penyaringan
data:
1. Getting feel of tha Data
2. Testing goodness of Data
3. Testing of hypotesis or answering research
question

Wlg (sep2008)
Mengapa perlu disaring?

1.Fenomena GIGO
2. Validitas penggunaan analisis

3. Generalisasi hasil penelitian


Garbage In
Garbage Out Data berpengaruh
terhadap Validasi
hasil 4. Keserderhanaan analisis
Harus dapat mampu
jika data adalah dilakukan generalisiasi
“sampah”,maka
Adequate & parsimony
hasilnya
sampah
Untuk Pengambilan
Keputusan

Wlg (sep2008)
"Merasakan Data"
Adalah:
• Merupakan disgnostik awal dari data
• Dapat dilakukan dengan mengamati statistik
deskriptif dari data ( mean, range, median dll)
Beberpa hal yang harus diwaspadai:
1. Adanya data ekstrem
2. Variabilitas respon yang rendah
3. Respon yang cenderung sama
4. Nilai korelasi variabel yang tidak logis/tidak sesuai
logika.
Wlg (sep2008)
"Merasakan Data"(2)
Untuk merasakan data adalah dengan menggunakan:
1. Histogram
2. Scatterplot
3. Box Plot dll

Yang perlu diperhatikan adalah ":merasakan data"


hanyalah merupakan diagnostik awal

Wlg (sep2008)
Histogram
Histogram merupakan reprensetasi grafis variabel tunggal yang
menunjukkan frekuensi dari kejadian (nilai data) pada setiap
katagori.
Frekuensi yang ter-plot dalam histogram menentukan ukuran
distribusi dari respon

Frekuensi

Wlg (sep2008)
ScatterPlot
ScaterPlot ini biasanya digunakan untuk melihat
hubungan antara 2 variabel yang berbeda.

Satu variabel sebagai sumbu X, dan variabel yang lain


sebagai sumbu vertikal. Pada scaterPlot dapat dilihat
kekuatan hubungan satu variabel dengan yang lainnya.

Variabel 1

Variabel 2

Wlg (sep2008)
BoxPlot
Untuk mengidentifikasi outlier dari data
BoxPlot digunakan untuk mengidentifikasi dengan cara
mentabulasi data secara langsung
Batas atas dan batas bawah dari box, menandakan kuartil atas
dan kuartil bawah dari data, sehingga panjang box adalah
jarak antara 25 % data sampai 75 % data
Garis di luar box menunjukkan data terkecil dan terbesar dari
sampel dari kuartil

Kuartil atas
Kuartil bawah
Missing Data
Missing data proses: Suatu proses sistematik
eksternal pada responden atau tindakan pada
responden yang membuat terjadinya missing
data.
Perlu dilihat apakah missing data yang terjadi
adalah random (acak) atau berpola ?

Wlg (sep2008)
Missing Data

Case yg
memiliki paling
banyak miising
data

Variabel V3 paling banyak ada missing data


Pola dari Missing Data
Beberapa jenis missing data antara lain:
1. Missing not Random (non random)
Misal terdapat variabel X dan Y, Bila ada missing pada Y
Berkorelasi dengan X
2. Missing at Random (MAR)
Missing pada Y bergantung pada X, tapi tidak pada Y.
3. Missing at Completely Random (MCAR)
Tidak ada pola sama sekali

Wlg (sep2008)
Diagnosis Ke-Acakan
Untuk mengantisipasi sebuah missing data,
maka perlu dilakukan pengecekan apakah
missing data bersifat random atau tidak.
1. Uji statistik perbedaan antar kelompok
variabel terhadap variabel yang ditinjau.
2. Korelasi Dikotomi
3. Overall test of randomness

Wlg (sep2008)
Pendekatan penyelesaian
untuk missing data
Hal ini hanya dapat dilakukan jika dapat
dipastikan bahwa missing data yang terjadi
adalah MCAR
Jika missing data berpola maka perlu dikaukan
analisis terhadap respon responden/data.

Wlg (sep2008)
Pendekatan penyelesaian
untuk missing data (2)
Ada beberapa macam cara penyelesaian missing data:
1. Menggunakan data yang komplet saja
2. Menghilangkan case atau variabel
3. Metode imputation:
a. Penggantian kejadian sampel
b. Penggantian dengan rata-rata
c. Cold deck imputation
d. Regression imputation
e. Multiple imputation

Wlg (sep2008)
Outlier
Outlier dapat dikelompokkan dalam beberapa
kelas :
1. Prosedural error
2. Kejadian khusus dengan sebuah penjelasan
3. Kejadian Khusus dengan sebuah penjelasan
4. Bukan kejadian khusus tapi merupakan
kombinasi unik

Wlg (sep2008)
Outlier (2)
Cara mendeteksi outlier adalah sebagai berikut:
1. Teknik Univariat, dengan menggunakan
ukuran 2,5 σ (Jika data <80), atau 3σ/4.
2. Teknik Bivariat, dengan menggunakan plot
dua variabel. Misal scatterplot
3. Teknik multivariat, yaitu dengan
menggunakan jarak mahalanobis D2

Jarak pada sebuah ruang multidimensi untuk


setiap observasi dari rataan tengah data observasi
Wlg (sep2008)
Outlier (3)
Pendeskripsian Outlier:
• Sama dengan missing value, penghilangan
outlier dapat meningkatkan kualitas analisis
namun mengurangi generabilitas analisis
• Dapat digunakan analisis regresi sederhana,
atau analisis diskriminan untuk
mengantisipasinya

Wlg (sep2008)
Pengujian asumsi
Normalitas
Pengujian normalitas dapat dilakukan dengan
cara:
1. Grafis normal probability plot
2. Pengujian statistik kolgorov-smirnov
3. Pengujian skewness dan kurtosis

Wlg (sep2008)
Pengujian asumsi
Homoscedascitas
Homoscedascitas merupakan asumsi yang
berdasarkan hubungan dependensi antar
variabel
Asumsi ini menyatakan variabel dependen
memiliki variansi yang sama sepanjang
variabel independen
Dapat diuji dengan grafis atau statistik test (Box-
M dll)

Wlg (sep2008)
Pengujian asumsi
Linearitas
Asumsi ini adalah suatu asumsi yang
menyatakan hubungan variabel dependen dan
independen adalah linier
Perbaikan dari asumsi ini adalah dengan
melakukan transformasi data.

Wlg (sep2008)
Transformasi Data
Pencapaian Normalitas
Pada flat distribution, transformasi yang
dilakukan adalah dengan invers (1/X)
Pada Negatively Skewned distribution,
digunakan transformasi akar kuadrat
Pada Positively Skewned distribution,
digunakan transformasi logaritmik

Wlg (sep2008)
Transformasi Data
Pencapaian Homoscedascity
Jika kerucut membuka kekiri, maka dapat
digunakan invers (1/x)

Jika kerucut membuka kekanan, dapat


digunakan transformasi logaritmik

Wlg (sep2008)
Transformasi data
Untuk dapat mendapatkan efek dari transformasi data,
rasio mean dan deviasi standar dari sebuah variabel
harus kurang dari 4.0
Jika transformasi dapat dilakukan pada sebuah variabel,
pilih variabel dengan rasio terkecil
Transformasi dilakukan pada variabel independen,
kecuali untuk kasus heteroscedascity.

Wlg (sep2008)
Transformasi data (2)
Remedial untuk heteroscedascity dapat
dilakukan pada variabel dependen
Transformasi dapat merubah intrepretasi
terhadap variabel

Wlg (sep2008)
TERIMA KASIH

Anda mungkin juga menyukai