Anda di halaman 1dari 65

Dr. Elisabet Siahaan, SE., M.Ec.

DATA SCREENING &


TRANSFORMASI
DATA
Oleh :
KELOMPOK 6
Our Team

Monika Shyntia
Ester Siburian
190502217
Hanna Victoria
Hutasoit
190502236
Data Screening
Merupakan kegiatan untuk mengecek ulang data yang diperoleh telah sesuai dengan yang diharapkan atau
tidak. Data yang tidak sesuai dengan yang diharapkan dapat terjadi karena kesalahan dalam pengambilan
sampel, kesalahan dalam menginput data, atau memang karena adanya keanehan karakteristik pada data yang
diambil. Proyeksi dengan menggunakan data yang mengandung nilai yang ekstrim akan menghasilkan nilai
proyeksi yang bias.

Bias : sebuah penyajian bahan yang dipenuhi prasangka


PENGERTIAN DATA
SCREENING SECARA
UMUM
Screening data dilakukan untuk mengatasi kekurangan data ketika
pengisian kuesioner oleh responden. Sering ada pengisian data yang
terlewat oleh responden atau tidak mengisinya sehingga
mengakibatkan data ini tidak tersedia.
Mengatasi masalah
data screening
• Melakukan transformasi data
Mengubah data dari asli ke bentuk yang lain sehingga memiliki karakteristik yang sesuai
dengan yang dibutuhkan oleh pembuat proyeksi.

• Membuang jawaban yang tidak diinginkan


Membuang jawaban yang tidak diinginkan Dengan membuang data yang tidak
diinginkan, maka jumlah observasi menjadi berkurang.

• Kembali mengambil data ke lapangan


Kembali mengambil data ke lapangan Langkah kembali ke lapangan bertujuan untuk
melakukan verifikasi terhadap data yang telah diperoleh.
Jam Belajar IPK Jenis Kelamin
32
16
3.6
3.5
1
2 Contoh Data Screening
21 2.8 1
23 3.7 2
8 7.0 3 Isikan seluruh data pada halaman Data View
4 3.7 5
10 6.0 1
Nama Folder : Data SPSS
15 2
33 3.0 1 Nama File : 01. Data Screening
40 3.9 1
3.6 1
16 3.5 2
21 2.9 1
23 3.7 2
8 9.0 3
4 3.7 6
10 6.0 1
15 2.3 2
3.0 1
48 3.9 1
8 7.0 3
4 3.7 5
10 6.0 1
15 2
33 3.0 1
40 3.9 1
4 3.7 5
10 6.0 1
15 2
33 3.0 1
40 3.9 1
33 3.0 1
40 3.9 1
8 9.0 3
Langkah
langkah :
Untuk melakukan penyaringan data dengan perintah SPSS Frequencies,
Klik Analyze → Descriptive → Frequencies

Pindahkan semua variabel yang akan dilakukan Data Screening ke kotak


Variable(s), kemudian klik Ok!
Output Data Screening

Data yang kosong ada 5 yaitu :


-2 pada kolom Jam Belajar
-3 pada kolom IPK Jam Belajar terendah adalah 4 jam
-0 pada kolom Jenis Kelamin dengan banyak frekuensi 5

Jam Belajar tertinggi adalah 48 jam


dengan banyak frekuensi 1

IPK terendah adalah 2,3


dengan banyak frekuensi 1
Terdapat kesalahan dalam penginputan data yaitu 3,5
dan 6

Terdapat kesalahan menginput


data yaitu ipk 6, 7 dan 9
dengan total frekuensi 8 frekuensi
01. Uji Normalitas
Uji normalitas bertujuan untuk menguji apakah dalam model regresi, variabel pengganggu atau residual
memiliki distribusi normal. Untuk mendeteksi apakah residual berdistribusi normal atau tidak yaitu dengan
uji statistic non-parametric Kolmogorov- Smirnov (K-S).

Nilai Residual : perbedaan antara nilai observasi dengan prediksi yang diperoleh.
Screening data terhadap
normalitas data

Merupakan langkah awal yang harus dilakukan untuk setiap analisis


multivariate. Khususnya jika tujuannya adalah inferensi. Jika terdapat
normalitas, maka residual akan terdistribusi secara normal dan independen.
Yaitu perbedaan nilai prediksi dengan score yang sesungguhnya atau error
akan terdistribusi secara simetri disekitar nilai means sama dengan nol. Jadi
salah satu cara mendeteksi normalitas adalah lewat pengamatan nilai
residual

Inferensi : membuat simpulan berdasarkan ungkapan dan konteks penggunaannya


Analisia Multivariate : untuk menganalisis data yang terdiri dari banyak variable serta diduga antar variable tersebut saling berhubungan satu sama lain
Histogram

Kurva normal yaitu kurva yang memiliki ciri-


ciri khusus, salah satu diantaranya adalah
bahwa mean, median dan mode terletak pada
tempat yang sama. Jika ketiga tendensi sentral
tersebut tidak terletak pada satu tempat maka
kurva tersebut juling kekiri atau kekanan

Tendensi : kecondongan
Skewness
Skewness (Kemencengan) merupakan suatu
ukuran/derajat distribusi pada data untuk mengetahui
bentuk simetrik dari suatu distribusi pada data. Simetris
sempurna (distribusi normal) terjadi apabila nilai
skewness dari suatu data adalah 0.
Bentuk Distribusi
yang Baik

Data set dengan nilai skewness dan kurtosis sama dengan 0 yang menunjukkan
data sempurna atau data berdistribusi normal.
Bentuk Distribusi dan Nilai
Skewness tidak
berdistribusi normal

Menceng ke kanan (Kemencengan positif) Menceng ke kiri (Kemencengan negatif)


Kurtosis
Kurtosis (Keruncingan/Ketinggian) merupakan suatu
ukuran/derajat distribusi pada data untuk mengetahui
bentuk keruncingan atau kelandaian dari suatu distribusi
pada data. Suatu data dikatakan memiliki keruncingan
yang baik (distribusi normal) apabila nilai kurtosis dari
suatu data adalah 0.
Bentuk Distribusi dan Nilai
Kurtosis

Ketinggian meruncing (Keruncingan positif) Ketinggian melandai (Keruncingan negative)


Ada tiga jenis derajat keruncingan:
● Leptokurtis : Distribusi data yang puncaknya
relatif tinggi.
Nilai lebih besar dari 3.

● Mesokurtis : Distribusi data yang puncaknya


normal .
Nilai yang sama dengan 3

● Platikurtis : Distribusi data yang puncaknya


terlalu rendah dan terlalu mendatar.
Nilai lebih kecil dari 3
Uji Normalitas
Dengan Grafik

Normal tidaknya suatu data dapat dideteksi juga lewat plot grafik
histogram, hanya gambar grafik kadang-kadang dapat menyesatkan
karena kelihatan distribusinya normal tetapi secara statistic sebenarnya
tidak normal.
Perempuan sebagai Tenaga Profesional (Persen), 2018-2019
Perempuan sebagai Tenaga Profesional
Provinsi / Kabupaten / Kota
2017 2018 2019
ACEH 54,71 54,69 53,92 Isikan seluruh data pada halaman Data
SIMEULUE 38,89 40,68 45,22
View
ACEH SINGKIL 35,48 50,19 48,13
ACEH SELATAN 53,19 54,43 56,21
ACEH TENGGARA 58,73 56,50 41,72 Nama Folder : Data SPSS
ACEH TIMUR 63,54 54,71 59,74 Nama File : 02. Data Uji Normalitas
ACEH TENGAH 52,18 52,26 53,58 Histogram
ACEH BARAT 52,47 47,86 52,71
ACEH BESAR 51,94 53,95 43,59
PIDIE 71,37 64,22 60,53
BIREUEN 57,28 58,28 63,06
ACEH UTARA 53,81 57,14 61,05
ACEH BARAT DAYA 59,31 61,71 60,87
GAYO LUES 54,12 56,28 46,23
ACEH TAMIANG 51,50 56,07 59,48
NAGAN RAYA 62,96 60,77 43,55
ACEH JAYA 55,33 50,00 54,37
BENER MERIAH 60,88 48,85 55,14
PIDIE JAYA 67,76 61,71 60,39
KOTA BANDA ACEH 46,71 49,66 48,12
KOTA SABANG 48,70 54,28 50,34
KOTA LANGSA 51,28 60,35 51,69
KOTA LHOKSEUMAWE 48,83 49,79 60,23
KOTA SUBULUSSALAM 47,46 54,35 49,42
SUMATERA UTARA 52,46 54,51 54,16
NIAS 37,60 40,03 41,55
MANDAILING NATAL 54,10 54,34 57,40
TAPANULI SELATAN 53,44 52,62 53,13 Sumber Badan Pusat Statistik
TAPANULI TENGAH 51,81 57,80 63,26
Langkah-
langkah :

Pindahkan tahun secara bergantian ke kotak Variable,


Klik Graphs →Legacy Dialogs →
kemudian centang variable normal curve klik Ok!
Descriptives
Output Skewness dan Kurtosis
Klik Analyze →Descriptive Statistics Pindahkan semua ke kotak Variable, Klik Options
→ Descriptives kemudian klik Ok! Centang Kurtosis dan Skewness
Kemudian klik Continue
N Statistic menunjukkan hanya 548 data yang diinput
dari total 553 provinsi

Mean statistic menunjukkan rata rata perempuan


sebagai tenaga kerja professional meningkat setiap
tahunnya.

Skewnes menceng ke kiri terlihat dari nilai negative


pada statistic
Kurtosis menunjukkan nilai lebih kecil dari 3 berarti

Platikurtis : Distribusi data yang puncaknya terlalu rendah dan


terlalu mendatar.
Std. error : keakuratan sample yang kita pilih terhadap populasi
Normal Q-Q Plot

Q-Q Plot akan membentuk garis antara


nilai – nilai teoritis (sumbu x) melawan
nilai- nilai yang didapat dari sampel
(sumbu y). Apabila plot dari keduanya
berbentuk linier (dapat didekati oleh
garis lurus maka hal ini merupakan
indikasi bahwa residual menyebar
normal
Contoh Uji Normalitas
Banyaknya Usaha/Perusahaan Menurut Wilayah dan Kelompok Pendapatan/Omset Sumatera Utara
Kelompok Pendapatan
Nama Kabupaten/Kota
<= 300 Juta 300 Juta - 2.5 M > 2.5 M
01 Nias 5.050 507 10
02 Mandailing Natal 32.396 4.243 331
03 Tapanuli Selatan 20.751 1.781 151
Isikan seluruh data pada halaman Data View
04 Tapanuli Tengah 22.980 2.518 140
05 Tapanuli Utara 22.280 2.401 171
06 Toba Samosir 13.042 1.907 174
Nama Folder : Data SPSS
07 Labuhan Batu 30.880 4.923 339 Nama File : 03. Data Uji Normalitas
08 Asahan 55.766 10.649 803 Q-Q Plot
09 Simalungun 55.690 8.069 511
10 Dairi 18.326 2.787 260
11 Karo 21.270 5.650 748
12 Deli Serdang 114.374 19.771 1.591
13 Langkat 80.161 11.338 825
14 Nias Selatan 11.440 1.375 56
15 Humbang Hasundutan 11.929 1.491 110
16 Pakpak Bharat 2.923 486 13
17 Samosir 10.459 1.111 60
18 Serdang Bedagai 54.258 7.871 585
19 Batu Bara 28.321 4.884 392
20 Padang Lawas Utara 12.485 2.115 137
21 Padang Lawas 15.219 2.314 123
22 Labuhan Batu Selatan 19.429 3.224 316
23 Labuhan Batu Utara 21.227 3.765 224
24 Nias Utara 6.123 523 19
25 Nias Barat 3.330 276 7
26 Kota Sibolga 9.671 1.287 199
27 Kota Tanjung Balai 15.807 2.648 205
28 Kota Pematang Siantar 22.467 4.824 529
29 Kota Tebing Tinggi 14.186 2.434 170
30 Kota Medan 183.012 41.846 6.097
31 Kota Binjai 22.139 3.682 282
32 Kota Padangsidimpuan 19.530 2.802 260
33 Kota Gunungsitoli 7.332 1.201 124
Provinsi Sumatera Utara 984.253 166.703 15.962 Sumber : Badan Pusat Statistik
Langkah – Langkah :
1. Klik Analyze > Descriptive Statistics >
Explore... 2. Masukkan variabel yang dilakukan pengujian
normalitas pada jendela Explore.
Langkah – Langkah :

3. Klik Plots.. pada jendela Explore dan centang Normality


4. Klik Continue lalu klik OK
plot with tests
Output Uji Q-Q Plot Pada output diatas terlihat titik yang tidak mengikuti data
sepanjang garis diagonal.
Hal ini berarti data tidak berdistribusi normal
Kolmogorov
Smirnov

Konsep dasar dari uji normalitas Kolmogorov Smirnov adalah


dengan membandingkan distribusi data (yang akan diuji
normalitasnya) dengan distribusi normal baku.

Untuk memastikan apakah data disepanjang garis diagonal


berdistribusi normalmaka dilakukan uji Kolmogorov smirnov (1
sample K-S) dengan melihat data residualnya apakah berdistribusi
normal atau tidak.
Kolmogorov Smirnov

Klik Analyze → Non Parametic Test → Pindahkan semua ke kotak Variable, Centang
1 Sample K-S Normal lalu klik Ok!
Pada nilai Asymp Sig (2-tailed) terlihat nilai 0.000, 0.000 dan 0.044 dimana angka ini
dibawah nilai 0.05 dengan demikian variable residual tidak berdistribusi normal
Strategi Missing Data

Jika hanya beberapa titik data, katakanlah 5% atau kurang, yang hilang
dalam pola acak dari kumpulan data yang besar, masalahnya tidak
terlalu serius dan hampir semua prosedur untuk menangani nilai yang
hilang menghasilkan hasil yang lumayan serupa.
02. Transformasi Data
Transformasi adalah perubahan data dari variable yang sebenarnya menjadi skala konversi nilai tertentu. Transformasi Data
adalah upaya yang dilakukan dengan tujuan utama untuk mengubah skala pengukuran data asli menjadi bentuk lain sehingga
data dapat memenuhi asumsi-asumsi yang mendasari analisis ragam. Transformasi data dapat dilakukan untuk data numerik.
Tranformasi untuk Mencapai Normalitas Beberapa teknik
statistik mensyaratkan bahwa suatu variabel harus memiliki
distribusi normal. Distribusi normal adalah distribusi yang
berbentuk lonceng. Dua bentuk distribusi yang tak normal
yang umum ditemui adalah distribusi rata (flat distribution)
atau distribusi miring (skewed distribution).
Tujuan / Alasan Dilakukannya Transformasi Data

1. Mengubah data menjadi skala yang berbeda

2. Mengetahui distribusi dari suatu data

3. Memudahkan interpretabilitas

4. Menormalkan suatu data Bentuk Transformasi Paling Umum


Gambar jenis kecondongan data :

Transformasi dilakukan dengan tahap –tahap berikut ini :


1. Tahapan pertama adalah menentukan kecondongan dari
data histogram. Terdapat beberapa tipe kecondongan data
seperti dilihat dalam gambar berikut:
TABEL BENTUK TRANSFORMASI DATA
Jenis
Bentuk Histogram
Transformasi

Moderate Positive SQRT (x)

Subtansial Positive Lg10 (x)

Severe Positive 1/x

Moderate Negative SQRT (k-x)

Substansial Negative Lg10 (k-x)

Severe Negative 1/ (k-x)

2. Tahapan kedua adalah menentukan bentuk Transformasi sesuai dengan bentuk grafik pada tahap
pertama. Berikut bentuk-bentuk transformasi data:
Contoh Transformasi Data
Tabel 3.1 kualitas dan HargaProduk Acuan pembelian pada CV
Buana

Isikan seluruh data pada halaman Data ViewNama Folder : Data SPSS
Nama File : 4. Data Transformasi dan data outlier
HISTOGRAM

01

Klik Graphs →Legacy Dialogs → Histogram


Pindahkan secara bergantian ke kotak Variable, kemudian
klik Ok!
Data Kepututusan pembelian adalah
Subtantial Negative Skewness karn
adata tinggi condong ke kanan dan
Histogram relatif ke kanan dan data relatif tinggi
dikarenakan grafik batang mendekati
garis
REGRESI LINIER

02
Klik Plot pada bagian kanan
Pindahkan SRESID ke Y
Pindahkan ZPRED ke X
Continue
Klik Analyze →Regression→Linier

Klik Save pada bagian kanan


Pindahkan Y ke ariabel Dependent, Centang Understandized
Pindahkan X1 & X2 ke variable Independent Continue
1 SAMPLE K-S

03

Pindahkan Unstandardized Residual ke kotak Test


Variable, kemudian klik Ok!

Klik Nonparametric Tests→Legacy Dialogs→ 1 Sample K-S


COMPUTE VARIABLE

04

Klik Transform→Compute Variable Pilih Lg 10 pada function


Pindahkan Y ke Numeric Expression
Ubah nama sesuai keinginan di Target Variable
REGRESI LINIER

05

Pindahkan Transform LG10 ke kotak Dependent,


Klik Analyze →Regression→Linier
kemudian klik Ok!
1 SAMPLE K-S

06

Pindahkan Unstandardized Residual2 ke kotak Test


Variable List, kemudian klik Ok!

Klik Nonparametric Tests→Legacy Dialogs→ 1 Sample K-S


BEFORE AFTER
Analisis Output
Dikedua hasil Output tersebut yang ada pada data histogram, Normal P-P Plot dan regression residu tidak terjadi
perbedaan yang signifikan dikarenakan kedua data tidak berdistribusi normal
Pada histogram terdapat kurva yang kiri dan kanannya tidak seimbang
Pada Normal P-P Plot data yang dihasilkan oleh bulat-bulatan kecil tidak sejajar dengan garis
Pada Residu juga terdapat bulatan kecil yang masih menumpuk dan tidak menyebar.
AFTER
BEFORE

Dapat dilihat dari asymp yang sebelumnya tidak normal


yaitu 0,027 dikarenakan berada <0,05 tetapi
setelahditransform asymp sig (2-tailed) menjadi 0,200
dan sudah menjadi normal karena > 0,05
03. Data Outlier
Outliers adalah data yang menyimpang terlalu jauh dari data yang lainnya dalam suatu rangkaian data. Adanya data outliers
ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya.
Istilah outliers juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil.
Contoh

Misalkan nilai ujian statistika penelitan mahasiswa manajemen E


Universitas Sumatera Utara dalam satu kelas yang berjumlah 50
mahasiswa, sebanyak 49 mahasiswa mendapatkan nilai ujian dalam
kisaran 70 sampai 80. Kemudian ada 1 mahasiswa yang nilainya
sangat melenceng dari lainnya, yaitu mendapatkan nilai 30. Nah,
tentunya 1 mahasiswa tersebut memiliki nilai ekstrem sehingga
disebut sebagai pencilan.
Penanganan
Data Outlier
Pengeluaran data outliers memang tidak disalahkan, akan tetapi harus dikaji dulu, apakah
data tersebut merupakan bagian dari populasi atau bukan. Dalam statistik, data outliers
sering menimbulkan hasil yang bias. Oleh karena itu, harus diberikan perlakuan khusus.
Pengeluaran data outliers atau penggunaan data outliers tidak semata-mata merujuk kepada
statistiknya, tetapi juga adjustment dari peneliti. Jika memang data outliers tersebut tidak
dapat dikeluarkan karena masih merupakan fenomena subjek penelitian ya sebaiknya tetap
dipergunakan. Agar efek outliers dapat direduksi, maka data dilakukan transformasi data,
misalnya dengan menggunakan alat statistik non parametrik, sehingga data outliers tidak
akan nampak sebagai outliers
Ilustrasi

Jika ada empat mahasiswa, Tina mempunyai uang saku per bulan
Rp. 500 ribu, Tono Rp. 600 ribu, Marimar Rp. 700 ribu, dan
Ronaldo karena merupakan anak orang kaya, mempunyai uang saku
per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa
nilai 5 juta relatif jauh dibandingkan uang saku ketiga mahasiswa
yang lain.

Kalau kita rata-ratakan uang saku keempat mahasiswa tersebut,


maka rata-ratanya adalah sebesar (500 ribu + 600 ribu + 700 ribu + 5
juta)/4= 6,8 juta/4 = 1,7 juta. Tiga mahasiswa yang lain tentunya
keberatan jika dinyatakan bahwa rata-rata uang saku mereka adalah
Rp. 1,7 juta per bulan karena jauh sekali dari nilai yang sebenarnya.
Contoh Data Outlier
Tabel 3.1 kualitas dan Produk Acuan Keputusanpembelian pada CV
Buana

Isikan seluruh data pada halaman Data ViewNama Folder : Data SPSS
Nama File : 4. Data Transformasi dan data outlier
Langkah-langkah :

Dari menu utama SPSS klik Analyze-Descriptive Statistic-Explore


Datanya akan diuji sekaligus semuanya
Masukkan harga produk , Kualitas Produk dan Centangkan pada outliers-
Keputusan Pembelian ke dalam Dependent List-klik continue-ok
statistics

Mars
Klik Boxplot lihat gafik yang muncul dan ada tanda bintang dan
bulat

Dapat disimpulkan data no 11,20 dan 31 tidak normal


Tanda bulat menandaka nilai ektrem maksimum
Tanda bintang menandakan nilai yang paling fatal karena ekstrem maksimum maka
data tersebut harus dibuang
Kik data no 11, 20 dan 31 kemudian klik kanan pilih
clear
Sehingga menghasilkan data baru sebanyak 72 data
Kembali lagi ke data view klik Analyze-Descriptive Statistic-Explore lagi
Lakukan cara berulang seperti awal dan lihat hasil boxplotnya
Dapat dilihat perbedaan tabel awal dan tabel baru

Tabel baru : sudah tidak terdapat bintang dan


Tabel awal : terdapat tanda bulat dan bintang bulat
X1
X1

X2
X2

Y
Y

Data baru menghasilkan data yang normal karna


tidak terdapat nilai ekstrem
Perbedaan Output
Transformasi Data dan Data Outlier
THANKS

Anda mungkin juga menyukai