Anda di halaman 1dari 26

Asumsi Linearitas

Atas permintaan beberapa teman, saya akhirnya memutuskan untuk menulis dulu
mengenai topik ini sebelum melanjutkan topik mengenai Analisis Varian. Apa itu asumsi
linearitas? Bagaimana mengetahui apakah asumsi ini terpenuhi atau tidak? Dan mungkin
beberapa pertanyaan lain yang akan saya coba jawab dalam posting ini… omong-omong
kok saya jadi serius gini ya? Hmm…

Apa itu Asumsi Linearitas?


Ada beberapa teknik statistik yang didasarkan pada asumsi linearitas, lengkapnya
linearitas hubungan. Teknik statistik yang dimaksud adalah teknik yang terkait dengan
korelasi, khususnya korelasi product momen, termasuk di dalamnya teknik regresi. Jadi
tentunya tidak semua teknik statistik didasarkan pada asumsi ini.
Jadi apa itu asumsi linearitas hubungan? Kurang lebih asumsi ini menyatakan bahwa
hubungan antar variabel yang hendak dianalisis itu mengikuti garis lurus. Jadi
peningkatan atau penurunan kuantitas di satu variabel, akan diikuti secara linear oleh
peningkatan atau penurunan kuantitas di variabel lainnya. Gambarannya kurang lebih
begini:

Memangnya ada yang


nggak mengikuti garis lurus? Ya banyak sekali model hubungan yang nggak mengikuti
garis lurus. Misalnya seperti di gambar ini:
Dalam gambar ini,
hubungan antar variabelnya bersifat kurvilinear, khususnya hubungan kuadratik. Masih
banyak pola hubungan yang lain selain ini, seperti eksponensial, logistik, dll.

Mengapa harus Linear?


Korelasi produk momen dan turunannya, mengasumsikan hubungan antar variabelnya
bersifat linear. Jika ternyata pola hubungannya tidak linear, maka teknik korelasi produk
momen akan cenderung melakukan underestimasi kekuatan hubungan antara dua
variabel. Jadi sangat mungkin sebenarnya kedua variabel memiliki hubungan yang kuat
tetapi diestimasi oleh produk momen sebagai tidak ada hubungan atau memiliki
hubungan yang lemah, hanya karena pola hubungannya tidak linear.

Bagaimana Mengecek Asumsi Linearitas ini?


Ada beberapa cara untuk mengecek asumsi linearitas ini dalam program SPSS:
1. Menggunakan test for linearity dalam SPSS
Cara ini termasuk cara yang sangat lazim dilakukan selama ini ketika berurusan dengan
pengecekan asumsi linearitas. Saya sendiri tidak terlalu yakin dengan cara ini, hanya saja
sampai hari ini saya tidak memiliki bukti untuk menolak penggunaan cara ini.
Kita akan memulai dengan mengklik Analyze->Compare Means->Means, lalu
muncullah sebuah dialog box berikut ini.

Pilihlah variabel dependen


dari daftar variabel di sebelah kiri, lalu pindahkan ke kolom Dependent Variable, begitu
juga variabel independen dipindah ke kolom Independent Variable.
Kemudian klik Option, lalu muncul lagi satu dialog box seperti ini:
Kita klik kotak di sebelah kiri Test for linearity, untuk memilihnya. Kita dapat
membersihkan kotak Cell Statistics jika tidak ingin ada hasil output lain karena memang
tidak dibutuhkan. Klik Continue, dan kita kembali ke dialog box sebelumnya, lalu klik
OK.
Output analisis yang akan kita baca hanya bagian seperti gambar di bawah ini:

Nah pada bagian ini


dapat kita lihat tabel yang sangat mirip dengan Anova, karena memang sebenarnya ini
analisis varians. Pada bagian paling atas kita dapat melihat baris Between (Subject). Ini
sebenarnya sama dengan JK Antar dalam analisis varians sederhana seperti yang pernah
saya bahas di Anava Identity. Dalam analisis ini, JK Antar dipartisi lagi menjadi dua
bagian. Yaitu bagian yang mengikuti garis linier, dan bagian yang tidak mengikuti garis
linier.
Bagian yang mengikuti garis linier itu yang diwakili oleh baris Linearity sementara
bagian yang tidak mengikuti garis linier diwakili oleh baris Deviation from Linearity.
Bagian ini sebenarnya merupakan ‘sisa’ dari bagian dari JK Antar setelah dikurangi
bagian yang mengikuti garis linear. Mungkin dapat digambarkan seperti ini:
Bagian yang berwarna biru
merupakan bagian dari variasi variabel dependen yang mengikuti variasi variabel
independen, diberi lambang A. Ini adalah bagian yang sering diwakili oleh JK Antar.
Bagian yang tidak berwarna, diberi lambang e, merupakan bagian dari variabel dependen
yang tidak mengikuti variabel independen. Nah ternyata oh ternyata… bagian berwarna
ini, JK Antar, masih dapat dipartisi lagi menjadi dua bagian yaitu yang mengikuti garis
linear, diwakili oleh baris linearity, dan yang tidak mengikuti garis linear, diwakili oleh
deviation from linearity.

Nah lalu bagaimana memutuskan apakah asumsi linearitas ini terpenuhi atau
tidak?

Ada beberapa pendapat yang beredar saat ini. Pendapat pertama menyatakan keputusan
diambil dengan melihat baris linearity, karena baris ini dianggap merupakan bagian JK
Antar yang mengikuti trend linear. Jika F untuk baris linearity ini signifikan, kita bisa
bilang bahwa bagian dari JK Antar yang mengikuti garis linear cukup besar, sehingga
dapat disimpulkan trend antara variabel independen dan dependen itu linear. Atau dapat
juga dikatakan bahwa garis linear dapat memberikan penjelasan yang baik mengenai
hubungan antara kedua variabel, dengan kata lain fit.

Ada juga pendapat yang mengatakan keputusan diambil dengan melihat baris deviation
from linearity. Deviation from linearity merupakan bagian dari A yang tidak mengikuti
garis linear. Jika baris ini tidak signifikan, maka dapat dikatakan bahwa hubungan antar
variabel dependen dan independen linear. Pemikirannya kurang lebih begini, sangat
mungkin hubungan antar variabel itu fit dengan garis linear, tapi tidak seluruh variasi dari
hubungan antar variabel ini dapat dijelaskan dengan garis linear ini. Ada sebagian lain
yang mengikuti pola hubungan yang tidak linear. Dalam hal ini, jika deviation from
linearity signifikan, ini menunjukkan bahwa sebagian lain variasi hubungan antar
variabel ini tidak mengikuti garis linear. Jadi disamping model linear kita perlu juga
melihat model non-linear. Nah, jika deviation from linearity ini tidak signifikan, ini
berarti variasi hubungan antar variabel hampir sepenuhnya mengikuti pola hubungan
linear.

Jadi gimana nih?


Kalo menurut saya begini: patokan pertama yang bisa dipakai adalah linearity, karena
baris ini menggambarkan apakah model linear dapat menjelaskan dengan baik hubungan
antar variabel. Jika linearity signifikan, maka itu berarti hubungan antar variabel dapat
dijelaskan menggunakan model linear, dalam hal ini korelasi produk momen atau regresi
linear. Deviation from linearity merupakan informasi tambahan mengenai pola hubungan
yang tidak dapat dijelaskan oleh garis linear. Jika ternyata baris ini signifikan. Ini berarti,
hanya memberikan penjelasan linear mengenai hubungan antar variabel akan
memberikan informasi yang kurang lengkap mengenai hubungan antar variabel. Sehingga
perlu kiranya menguji juga model hubungan antar variabel dengan model non-linear pada
data yang sama. Ini dilakukan untuk melihat manakah model yang terbaik menjelaskan
pola hubungan ini.

Masalah
Saya pribadi kurang merasa ‘sreg’ dengan pendekatan ini, apalagi jika digunakan sebagai
satu-satunya sumber informasi untuk mengecek asumsi linearitas data.
Keberatan saya yang pertama, sebenarnya analisis ini merupakan analisis trend, jadi
bukan analisis yang memang dirancang untuk melihat linearitas hubungan antara dua
variabel dengan data kontinum. Apa bedanya? Analisis trend sebenarnya menganalisis
mean dari beberapa kelompok dari sampel penelitian. Kelompok-kelompok ini dibentuk
menurut kuantitas dari variabel independent. Misalnya variabel independennya obat A,
maka kelompok pertama misalnya diberi obat A sebanyak 10 gram, kelompok berikutnya
20 gram, dan seterusnya. Yang ingin dilihat apakah pemberian obat dengan kuantitas
tertentu ini akan memiliki efek yang linier terhadap variabel dependen, misalnya
kecepatan sembuh. Terkait dengan ini akan ada dua masalah yaitu:

a. Jika tiap nilai variabel independen hanya memiliki satu nilai unik untuk variabel
dependennya (misalnya setiap subjek yang memiliki skor IQ 100 memiliki nilai raport
10), analisis trend di SPSS ini tidak akan dapat dijalankan, karena SPSS tidak dapat
menghitung varians errornya.

b. Jika range dari variabel independent sangat besar, misalnya 100 point, maka derajat
kebebasan (df) untuk baris deviation from linearity akan cenderung besar. Ini
mengakibatkan Rerata Kuadratnya (MS deviation from linearity) akan cenderung kecil,
sehingga nilai F nya akan cenderung kecil juga. Hal ini mengakibatkan makin besar
kemungkinan untuk mendapatkan F yang tidak signifikan terlepas dari apakah kondisi
datanya linear atau tidak.

Kedua, terkait dengan ketergantungan teknik ini terhadap jumlah subjek. Semakin besar
subjek, makin kecil Rerata Kuadrat untuk error (MS error), yang mengakibatkan makin
besar kemungkinan untuk menolak hipotesis nol. Dalam baris linearity ini berarti makin
besar kecenderungan untuk mengatakan hubungan antar variabel itu linear padahal tidak
demikian. Dalam baris deviation from linearity ini berarti makin besar kecenderungan
untuk mengatakan hubungan antar variabel dapat dijelaskan dengan model non linear.

Alasan ketiga terkait dengan ‘sense of data’…cieileh…keren betul bahasanya. Maksud


saya begini, mengenali dan melihat data itu penting bagi peneliti. Peneliti perlu mendapat
‘sense’ atas datanya sendiri. Nah, mengandalkan uji asumsi saja hanya akan membatasi
pandangan kita mengenai data kita sendiri. Kita perlu melihatnya secara langsung baik
dalam arti memandangi datanya (ini serius nggak guyon…) atau membuat grafik yang
bisa menggambarkan data kita. Nah terkait dengan ini kita masuk ke pendekatan kedua.

2. Menggunakan Grafik Scatter Plot antar Variabel


Saya menganggap penting sekali mengecek data secara visual. Ini dapat dilakukan
dengan melihat datanya secara langsung atau melihatnya dalam bentuk grafik. Ada cukup
banyak informasi yang bisa kita peroleh dengan melihat data dengan grafik dibandingkan
hanya melihat hasil output berupa tabel.

Scatter plot termasuk grafik yang menurut saya cukup berguna untuk mengecek linearitas
hubungan antar variabel. Beberapa manfaat yang dapat diperoleh antara lain, dapat
melihat secara langsung bentuk hubungan antar variabel. Seandainya hubungan antar
variabel tidak linear, dengan scatter plot kita dapat memperkirakan seperti apa bentuk
hubungannya; kuadratik, kubik, logaritmik, atau yang lain. Manfaat lainnya adalah dapat
mengecek outlier dalam data kita, keberadaannya dan pada variabel mana data tersebut
menjadi outlier.

Lalu bagaimana melakukannya dengan SPSS?


Kita dapat menggunakan menu Graph->Interactive->Scatterplot, yang akan
memunculkan dialog box seperti ini:

Dalam dialog box tersebut kita bisa memasukkan variabel independen dalam kotak pada
garis horizontal dan variabel dependen dalam kotak pada garis vertikal. Kemudian klik
OK, yang akan memunculkan grafik seperti berikut:
Nah dari grafik ini bisa
dilihat bahwa hubungan kedua variabel dapat dikatakan linear. Jika kita menarik garis
lurus seperti di atas, kita dapat melihat titik-titik tersebut memiliki jarak yang relatif dekat
dengan garis. Dalam grafik ini juga dapat dilihat beberapa outlier sekaligus kemungkinan
heterogenitas varians.

Masalah utama terkait dengan grafik adalah subjektivitas penilaian seperti apa grafik
yang dapat dikatakan linear dan seperti apa yang dikatakan non linear. Dalam gambar di
atas, kita dapat melihat dengan cukup jelas bahwa hubungan keduanya linear, tetapi
dalam grafik lain sangat mungkin ada perbedaan pendapat mengenai linearitas hubungan
antara dua variabel. Oleh karena itu meminta penilaian orang lain mengenai bentuk
hubungan dalam hal ini cukup penting.

Saat ini saya sedang menggali kemungkinan-kemungkinan lain untuk menguji linearitas
hubungan ini. Saya belum menemukan sampai saya menyelesaikan tulisan ini. Jika suatu
hari nanti saya memperolehnya tentu saja akan saya upload artikel baru di blog ini.
Salam!

Posted by Agung Santoso at 10:10 16 comments Links to this post

Labels: Uji Asumsi Statistik

Jumat, Januari 18, 2008


Pertanyaan Keempat Seputar Uji Asumsi
Setelah beberapa saat saya menerima pertanyaan keempat dari Bu Susan. Begini
pertanyaannya:

satu lagi pertanyaan, Pak... mengapa di buku Hair dkk. itu untuk
residunya menggunakan studentdized residual ya bukan
unstandardized residual?...
Jawab:
Ya ada beberapa macam residual yang dapat diperoleh ketika kita melakukan analisis
regresi. Yang pernah saya tuliskan di posting mengenai normalitas dalam regresi adalah
unstandardized residual.
Selain studentized, masih ada standardized residual, deleted standardized residual, dan
deleted studentized.

Standardized residual.
Standardized residual, seperti namanya, adalah residual yang distandardkan. Maksudnya
seperti mencari nilai Z dari residual. Keuntungan menggunakan standardized residual ini
adalah tidak terpengaruh terhadap unit ukur, karena semua distandardkan. Jadi
pengukuran menggunakan dua skala yang berbeda unit ukurnya (misalnya yang satu skor
maksimalnya 10 yang lain skor maksimalnya 100) akan muncul dalam unit yang sama
yaitu SD.

Studentized Residual
Kelemahan dari Standardized Residual adalah asumsi bahwa varians untuk semua residu
adalah sama. Kenyataannya, semakin jauh sebuah skor dari prediksinya, ia cenderung
memiliki variasi yang makin besar. Oleh karena itu diperbaiki dengan menerapkan rumus
tertentu (sering disebut leverage atau h) untuk memperbaiki situasi ini. Dengan
menggunakan rumus ini, makin jauh residu dari meannya (yang menggambarkan makin
jauh individu menyimpang dari prediksinya), makin besar varians residunya. Nah ketika
digambarkan dalam grafik, maka studentized residual ini akan mengikuti distribusi t (ini
makanya dikasih nama studentized, dari student t distribution).

Deleted Standardized dan Deleted Studentized


Kedua ukuran residu ini sebenarnya memiliki pemikiran yang sama dengan ukuran residu
tanpa deleted. Hanya saja, kelemahan Standardized atau Studentized Residual adalah
'turut campur'nya observasi yang didiagnostik dalam perhitungan Standardized atau
Studentized Residual. Sehingga jika observasi itu memiliki residu yang besar, ia juga
akan memperkecil standardized dan studentized residual. Hal ini tentunya akan membuat
kedua ukuran itu menjadi kurang sensitif mendeteksi adanya outlier atau influential
observation (untuk sementara sebut saja keduanya observasi yang cari gara-gara atau
observasi bermasalah sampai kita membahas mengenai regresi sampai tuntas
...tas...tas...tas...). Mengapa begitu? Pertama, residu yang besar akan memperbesar
standard error yang digunakan untuk membagi besarnya residu karena memperbesar
mean. Jika standard error membesar, ini berarti hasil bagi antara residu dengan standard
error residu akan mengecil. Jadi, residu yang besar akan terlihat tidak terlalu besar
dengan ukuran ini.
Oleh karena itu, ketika menghitung standard error residunya, observasi yang akan
dianalisis tidak disertakan dalam perhitungan. Ini akan membuat ukuran ini lebih peka
terhadap observasi yang bermasalah ini. Inilah makanya disebut sebagai deleted
studentized atau deleted standardized.

Dari beberapa ukuran itu, menurut saya, Deleted Studentized Residual merupakan ukuran
yang paling sensitif terhadap observasi bermasalah. Jadi jika menghendaki analisis yang
peka, memang sebaiknya menggunakan Deleted Studentized. Nah seberapa peka itu
terserah pemakainya.
Kelemahan semua ukuran residu ini adalah kita tidak memiliki ukuran pembanding
'kekuatan' observasi bermasalah ini dalam mempengaruhi hasil analisis regresi. Oleh
karena itu seringkali peneliti melihat ukuran lain seperti Leverage atau Cook's D, atau
bahkan DFBeta dalam melakukan diagnostik. Ukuran residu ini digunakan sebagai
'screening' awal untuk melihat observasi bermasalah yang berpotensi mempengaruhi hasil
penelitian, dengan cara memplotkan ukuran residu ini dalam scatter plot, kemudian
dilihat mana observasi yang menyimpang sangat jauh dari rekan-rekannya. Kemudian
dilakukan diagnostik mendalam menggunakan Leverage atau Cook's D.

terkait dengan uji normalitas menurut saya (lagi-lagi pendapat tidak didasarkan pada
kajian atau analisis mendalam dari penelitian. Jadi lagi-lagi ini bisa diangkat jadi
penelitian untuk mengkaji adakah perbedaan hasil analisis normalitas untuk keempat
ukuran tersebut. Ada yang berminat? Mahasiswa lagi skripsi? Dosen yang lagi getol
penelitian?), keempat ukuran itu tidak akan memberikan hasil yang jauh berbeda terkait
dengan uji normalitas. Tentu saja jika mencari yang terbaik kita bisa menggunakan
Deleted Studentized Residual.

OK demikian jawaban saya Bu Susan. Semoga bisa memberi tambahan ide seputar uji
normalitas ini.

Posted by Agung Santoso at 03:29 3 comments Links to this post

Labels: Uji Asumsi Statistik

Rabu, Januari 09, 2008


Tiga Pertanyaan Mengenai Asumsi Normalitas

Demikan tiga pertanyaan mengenai asumsi normalitas (pertanyaan ini diberikan dalam
posting mengenai Uji Asumsi dalam Regresi):

1. Pak Agung yang baik saya masih bingung mengenai pernyataan ini: central limit
theorem disebutkan juga bahwa bagaimanapun bentuk distribusi data di populasinya,
semakin besar sampel semakin normal distribusi mean sampelnya (Keppel & Wickens,
2004; Howell, 1984). Dan distribusi terlihat ‘cukup’ normal ketika sampel berisi sekitar
30 orang. Mungkin ini juga alasan mengapa kita sering mendengar ‘minimal sampel’
sebesar 30 orang. Pembahasan mengenai besar sampel akan dilakukan tersendiri.
Sebab ketika saya membaca Bukunya Leech, Barrret, & Morgan (2005) yang berjudul
SPSS for intermediate statistics pada hal 28 disebutkan begini:
SPSS recommends that you divide the skewness by its standard error. If the result is less
than 2.5 (which is approximately the p = .01 level), then the skewness is not significantly
different from normal. A problem from this method, aside from having to use a
calculator, is that the standard error depends on the sample size, so with large samples
most variable would be found to be nonnormal.

apa yang dimaksud dengan so with large samples most variable would be found to be
nonnormal? bgaimana kaitan pernyataan ini dengan central limit theorem?

2. Yang kedua, pada regresi, jika yang dihitung adalah normalitas residu, bagaimana jika
asumsi normalitas tidak terpenuhi? bagaimana cara transformasinya, apakah caranya
sama dengan transformasi biasa?

3. Terus yang ketiga bagaimana dengan pernyataan bahwa regresi bivariat digunakan
untuk memprediksi skor satu variable tergantung yang normal atau berupa skala dari satu
variabel bebas yang normal atau skala (Leech, Barret, & Morgan, 2005, hal 198). Apakah
dari pernyataan tersebut dapat diinterpretasikan bahwa kita perlu menguji normalitas
kedua variabel (bebas dan tergantung)? lalu apakah masih perlu diuji normalitas
residunya?

Terima kasih banyak Pak... salam

Tjipto Susana

Saya akan berusaha menjawab pertanyaan ini sebaik mungkin. Semoga bisa menjawab
dengan baik.

Pertanyaan Pertama. Jawaban ini dilakukan sebelum saya membaca buku yang diacu
Bu Susan, semoga tidak meleset jawaban saya. Menurut saya yang dimaksud normalitas
dalam central limit theorem itu berbeda dengan yang dimaksud di SPSS dalam skewness
dibagi standard error skewness. Yang saya bahas dalam central limit theorem itu adalah
normalitas dari distribusi mean sampel dalam populasi, sementara yang dimaksud
dalam skewness adalah distribusi skor subjek dalam populasi.

Dalam central limit theorem disebutkan bahwa semakin besar n (besar sampel) maka
distribusi mean sampel akan makin mendekati normal tanpa mempedulikan distribusi
skor subjeknya. Jadi meskipun, anggap saja distribusi skor subjek di populasi itu nggak
normal, tapi jika kita mengambil jumlah subjek yang mencukupi, maka dapat
diasumsikan bahwa bentuk distribusi dari mean sampelnya normal.

Nah, yang diungkapkan Leech, Barrret, & Morgan (2005), itu merupakan 'kelemahan'
dari uji signifikasi pada umumnya. Makin besar sampel, maka makin kecil standard error
(mungkin bisa dibaca juga di posting mengenai signifikan tak selalu berarti besar), ini
mengakibatkan makin besar kemungkinan kita memperoleh statistik yang besar (hasil
bagi antara skewness dan standard error dari skewness), yang kemudian mengakibatkan
makin besar kemungkinan kita menolak hipotesis nol dan menyatakan distribusi data di
populasi tidak normal. Dalam hal ini kita cenderung melakukan tipe error I. Nah, di sini
terjadi tarik ulur antara memilih menganggap distribusi data di populasi normal padahal
tidak (tipe error II), atau memilih menganggap distribusi data di populasi tidak normal
padahal normal (tipe errorI).
Saya pribadi akan memilih melakukan tipe error II lebih besar, dengan alasan central
limit theorem tadi dan juga robustness dari statistik t dan F. Selain itu juga sangat
disarankan untuk melihat bentuk data di sampelnya dengan menggunakan grafik seperti
q-q plot atau stem and leaf plot sebelum mengambil keputusan mengenai uji normalitas
ini (bisa juga dibaca di posting saya mengenai uji asumsi dalam SPSS). Ini kebiasaan
baik yang tidak kita miliki saat ini. Mungkin bisa dimulai sejak posting ini diupload?
(semoga... nyanyi lagu Katon deh).

Pertanyaan Kedua. Mengenai normalitas residu, jika tidak normal maka transformasi
tetap dilakukan seperti biasa pada skor independen variabel. Hanya saja perlu berhati-hati
karena mencari transformasi yang tepat untuk mengatasi ketidaknormalan data sepertinya
cukup sulit . Saya sendiri belum banyak belajar mengenai transformasi ini, hanya pernah
mendengar komentar seseorang seperti ini,"It can be forever". Saran saya, pertama perlu
dilihat apakah ketidaknormalannya dapat dinilai parah. Jika iya, maka perlu dilakukan
diagnostik dulu untuk mencari skor subjek atau observasi yang jadi biang keladinya. Jika
semua baik-baik saja, baru kita cari transformasi yang pas.

Pertanyaaan Ketiga.Nah untuk pertanyaan satu ini saya agak ragu menjawabnya, karena
kurang yakin dengan pemahaman saya sendiri mengenai Regresi bivariat. Setahu saya
regresi biasanya selalu univariat. Nah regresi dengan model bivariat itu mungkin adalah
model korelasi product moment. Dalam hal ini, tidak ada prediktor dan kriterion.
Biasanya keduanya disebut sebagai response variable. Dalam model ini, kedua variabel
berupa random variable, atau variabel yang datanya tidak ditentukan terlebih dulu oleh
peneliti, melainkan berasal dari data di lapangan. Oke itu pemahaman saya mengenai
Regresi bivariat.
Nah, terkait apakah kedua variabel ini harus memiliki sebaran data yang normal begini:
Normalitas residu terkait sangat erat dengan pengujian hipotesis dalam Regresi. Misalnya
kita ingin menguji apakah F yang dihasilkan itu signifikan. Jika Regresi dilakukan hanya
untuk melihat koefisien korelasinya (atau koefisien regresinya), maka uji normalitas
residu tidak perlu dilakukan.
Lalu misalnya kita hendak melakukan uji hipotesis terkait dengan F-nya? maka menurut
saya yang diuji normalitas tetap residunya. Hanya saja kita melakukan uji normalitas
residu dua kali.Anggaplah kita memiliki dua variabel X dan Y. Uji normalitas residu
pertama dilakukan ketika X menjadi 'prediktor' dan Y menjadi 'kriterion' (ingat bahwa
sebenarnya dalam model ini tidak ada yang namanya prediktor atau kriterion). Uji yang
normalitas residu kedua dilakukan ketika Y yang menjadi 'prediktor' dan X yang menjadi
'kriterion'.

Demikian jawaban saya terhadap tiga pertanyaan ini. Semoga cukup jelas dan menjawab
dengan memuaskan.
Jika belum, please feel free to deliver more questions.

Posted by Agung Santoso at 03:57 12 comments Links to this post

Labels: Uji Asumsi Statistik

Senin, September 17, 2007


Uji Asumsi 1: Uji Normalitas Regresi

Adakah yang berbeda dari uji normalitas pada regresi?


Sebenarnya tidak banyak berbeda dari uji normalitas dalam analisis lain, hanya saja
dalam regresi yang diuji normalitas bukan skor variabel dependennya, melainkan residu
atau errornya.

Praktek yang selama ini terjadi (setahu saya), ketika peneliti menguji normalitas sebaran
dalam regresi, yang diuji adalah variabel dependennya. Hal ini kurang tepat, karena
dalam pengujian hipotesis nol dari regresi (uji signifikasi) yang dibutuhkan adalah
normalitas sebaran residunya bukan normalitas sebaran variabel dependennya
(Pedhazur,1997).

Tapi apa sih yang dimaksud residu atau error?

Teknik regresi akan menghasilkan persamaan regresi. Persamaan regresi dalam sampel
akan berwujud : Y'= a + bX (beberapa buku menuliskan dengan notasi yang berbeda).
Nah Y' (prediksi dari Y) ini tidak selalu sama besarnya dengan Y yang dihasilkan dari
data penelitian. Ini diakibatkan Y' hanyalah prediksi nilai Y yang didasarkan pada X, dan
setiap prediksi akan mengandung error dalam jumlah tertentu. Semakin besar error yang
dihasilkan berarti semakin buruk prediksi yang dilakukan, dan sebaliknya.

Dari penjelasan di atas dapat ditemukan cara mencari error ini untuk tiap subjek; yaitu:

e=Y'-Y
Nah nilai e inilah yang diasumsikan mengikuti distribusi normal bukan nilai Y nya.
(penjelasan menyeluruh mengenai regresi akan dibahas dalam posting tersendiri).

Uji Normalitas Residu dalam SPSS

Ada beberapa tahap yang perlu dilakukan untuk melakukan Uji Normalitas Residu dalam
SPSS

1. Menghitung nilai residu untuk tiap subjek. Menghitung? tenang saja, yang saya
maksud bukan kita menghitung satu-satu residu dari tiap subjek, tapi memerintahkan
SPSS untuk menghitung nilai residu dari tiap subjek. Begini caranya :
Pertama kita pilih Analyze - Regression - Linear
sehingga akan muncul dialog box
seperti berikut :

Anggap saja kita hendak melakukan


penelitian untuk mengetahui prediksi kecemasan dari inteligensi seseorang. Oleh karena
itu dalam kotak Dependent kita masukkan variabel cemas, dan dalam kotak
Independent kita masukkan variabel iq.

Setelah variabel diletakkan pada tempatnya, kita mengklik tombol Save untuk
memerintahkan SPSS menghitung nilai residu.
Dalam kotak ini kita perlu mengklik
Unstandardized dalam kotak Residuals untuk memerintahkan SPSS menghitung residu.
Kemudian klik Continue dan OK. Maka SPSS akan menampilkan hasil analisis regresi.
Lalu di mana nilai residu untuk tiap subjek?
Nilai residu ini ditempatkan dalam tampilan data view dalam satu kolom tersendiri
seolah-olah manjadi variabel baru dengan nama Res_1.

2.Nah selanjutnya kita tinggal


melakukan uji normalitas seperti kita melakukan uji normalitas pada umumnya. Kalau
kamu lupa, kamu bisa lihat posting sebelumnya mengenai Uji Normalitas dalam SPSS

OK demikian kiranya melakukan uji normalitas pada residu. Saya masih menanti
pertanyaan dari anda semua.

Further Readings
• Pedhazur,E.J.(1997) Multiple regression in behavioral research.
Wadsworth:Thomson Learning

Posted by Agung Santoso at 12:56 16 comments Links to this post

Labels: Uji Asumsi Statistik

Minggu, September 16, 2007


Uji Asumsi 1 : Uji Normalitas dalam SPSS

Dua post saya terdahulu tentang Uji Asumsi 1 berbicara hal-hal teoritis mengenai uji
normalitas. Sekarang bagaimana prakteknya? Maksud saya dengan praktek tentu saja
bagaimana cara menghitungnya.

Dalam kesempatan ini saya akan banyak berbicara mengenai bagaimana cara melakukan
uji normalitas menggunakan SPSS. Saya memilih SPSS dengan alasan program ini paling
banyak dipakai oleh mahasiswa psikologi sehingga bisa dikatakan paling familiar. Selain
itu SPSS termasuk program yang cukup user friendly sehingga cukup mudah digunakan
meskipun oleh orang yang tidak mempelajari statistik sangat dalam.

Langkah Awal
Saya berasumsi paling tidak pembaca artikel ini adalah orang yang sudah pernah
berurusan dengan SPSS. Paling tidak tahu bagaimana memulai SPSS dan membuka file.
Jadi saya akan langsung berkisah mengenai cara melakukan analisis datanya.

Cara Pertama
Ada satu kebiasaan yang saya amati ketika teman-teman hendak melakukan uji
normalitas dengan SPSS. Biasanya mereka memilih menu :

Analyze - Non Parametrik Test - 1 Sample KS


Setelah diklik pada menu ini, akan
muncul dialog box seperti ini:

Sekarang yang kita lakukan hanya


memasukkan variabel yang ingin kita uji normalitasnya ke dalam kotak Test Variable
List. Kemudian klik OK. Hasil yang akan didapat kurang lebih seperti ini:

Lalu bagaimana cara membacanya?


Untuk kepentingan uji asumsi, yang perlu dibaca hanyalah 2 item paling akhir, nilai dari
Kolmogorov-Smirnov Z dan Asymp. Sig (2-tailed).

• Kolmogorov-Smirnov Z merupakan angka Z yang dihasilkan dari teknik


Kolmogorov Smirnov untuk menguji kesesuaian distribusi data kita dengan suatu
distribusi tertentu,dalam hal ini distribusi normal. Angka ini biasanya juga
dituliskan dalam laporan penelitian ketika membahas mengenai uji normalitas.
• Asymp. Sig. (2-tailed). merupakan nilai p yang dihasilkan dari uji hipotesis nol
yang berbunyi tidak ada perbedaan antara distribusi data yang diuji dengan
distribusi data normal. Jika nilai p lebih besar dari 0.1 (baca posting sebelumnya)
maka kesimpulan yang diambil adalah hipotesis nol gagal ditolak, atau dengan
kata lain sebaran data yang kita uji mengikuti distribusi normal.
• Jangan terkecoh dengan catatan di bawah tabel yang berbunyi Test distribution is
Normal. Catatan ini tidak bertujuan untuk memberitahu bahwa data kita normal,
tetapi menunjukkan bahwa hasil analisis yang sedang kita lihat adalah hasil
analisis untuk uji normalitas.

Cara Kedua
Cara yang pertama biasanya menghasilkan hasil analisis yang kurang akurat dalam
menguji apakah sebuah distribusi mengikuti kurve normal atau tidak. Ini disebabkan uji
Kolmogorov Smirnov Z dirancang tidak secara khusus untuk menguji distribusi normal,
tetapi distribusi apapun dari satu set data. Selain normalitas, analisis ini juga digunakan
untuk menguji apakah suatu data mengikuti distribusi poisson, dsb.

Cara kedua merupakan koreksi atau modifikasi dari cara pertama yang dikhususkan
untuk menguji normalitas sebaran data.

Kita memilih menu


Analyze - Descriptive Statistics - Explore...

Sehingga akan muncul dialog box


seperti ini:
Yang perlu kita lakukan hanyalah
memasukkan variabel yang akan diuji sebarannya ke dalam kotak Dependent List.
Setelah itu kita klik tombol Plots... yang akan memunculkan dialog box kedua seperti ini:

Dalam dialog ini kita memilih opsi


Normality plots with tests, kemudian klik Continue dan OK. SPSS akan menampilkan
beberapa hasil analisis seperti ini:

SPSS menyajikan dua


tabel sekaligus di sini. SPSS akan melakukan analisis Shapiro-Wilk jika kita hanya
memiliki kurang dari 50 subjek atau kasus. Uji Shapiro-Wilk dianggap lebih akurat
ketika jumlah subjek yang kita miliki kurang dari 50.

Jadi bagaimana membacanya? Kurang lebih sama seperti cara pertama. Untuk
memastikan apakah data yang kita miliki mengikuti distribusi normal, kita dapat melihat
kolom Sig. untuk kedua uji (tergantung jumlah subjek yang kita miliki). Jika sig. atau p
lebih dari 0.1 maka kita simpulkan hipotesis nol gagal ditolak, yang berarti data yang
diuji memiliki distribusi yang tidak berbeda dari data yang normal. Atau dengan kata lain
data yang diuji memiliki distribusi normal.
Cara Ketiga
Jika diperhatikan, hasil analisis yang kita lakukan tadi juga menghasilkan beberapa
grafik. Nah cara ketiga ini terkait dengan cara membaca grafik ini.
Ada empat grafik yang dihasilkan dari analisis tadi yang penting juga untuk dilihat
sebelum melakukan analisis yang sebenarnya, yaitu:

• Stem and Leaf Plot. Grafik ini akan terlihat seperti ini:

Grafik ini akan terlihat mengikuti


distribusi normal jika data yang kita miliki memiliki distribusi normal. Di sini kita lihat
sebenarnya data kita tidak dapat dikatakan terlihat normal, tapi bentuk seperti ini ternyata
masih dapat ditoleransi oleh analisis statistik sehingga p yang dimiliki masih lebih besar
dari 0.1.
Dari grafik ini kita juga dapat melihat ada satu data ekstrim yang nilainya kurang dari 80
(data paling atas). Melihat situasi ini kita perlu berhati-hati dalam melakukan analisis
berikutnya.

• Normal Q-Q Plots. Grafik Q-Q plots akan terlihat seperti ini:
Garis diagonal dalam grafik ini menggambarkan keadaan ideal dari data yang mengikuti
distribusi normal. Titik-titik di sekitar garis adalah keadaan data yang kita uji. Jika
kebanyakan titik-titik berada sangat dekat dengan garis atau bahkan menempel pada
garis, maka dapat kita simpulkan jika data kita mengikuti distribusi normal.
Dalam grafik ini kita lihat juga satu titik yang berada sangat jauh dari garis. Ini adalah
titik yang sama yang kita lihat dalam stem and leaf plots. Keberadaan titik ini menjadi
peringatan bagi kita untuk berhati-hati melakukan analisis berikutnya.

• Detrended Normal Q-Q Plots. Grafik ini terlihat seperti di bawah ini:

Grafik ini menggambarkan selisih


antara titik-titik dengan garis diagonal pada grafik sebelumnya. Jika data yang kita miliki
mengikuti distribusi normal dengan sempurna, maka semua titik akan jatuh pada garis
0,0. Semakin banyak titik-titik yang tersebar jauh dari garis ini menunjukkan bahwa data
kita semakin tidak normal. Kita masih bisa melihat satu titik 'nyeleneh' dalam grafik ini
(sebelah kiri bawah).

Sekilas Mengenai Outlier


Dari tadi kita membahas satu titik nyeleneh di bawah sana, tapi itu sebenarnya apa? Dan
bagaimana kita tahu itu subjek yang mana?

Titik 'nyeleneh' ini sering juga disebut Outlier. Titik yang berada nun jauh dari keadaan
subjek lainnya. Ada beberapa hal yang dapat menyebabkan munculnya outlier ini:

1. Kesalahan entry data.


2. Keadaan tertentu yang mengakibatkan error pengukuran yang cukup besar (misal
ada subjek yang tidak kooperatif dalam penelitian sehingga mengisi tes tidak
dengan sungguh-sungguh)
3. Keadaan istimewa dari subjek yang menjadi outlier.

Jika outlier disebabkan oleh penyebab no 1 dan 2, maka outlier dapat dihapuskan dari
data. Tetapi jika penyebabnya adalah no 3, maka outlier tidak dapat dihapuskan begitu
saja. Kita perlu melihat dan mengkajinya lebih dalam subjek ini.

Lalu bagaimana tahu subjek yang mana yang menjadi outlier? Kita bisa melihat pada
grafik berikutnya yang dihasilkan dari analisis yang sama, grafik boxplot seperti berikut
ini:

Sebelum terjadi kesalahpahaman saya mau meluruskan dulu bahwa tulisan C10,Q1,
Median, Q3 dan C90 itu hasil rekaan saya sendiri. SPSS tidak memberikan catatan seperti
itu dalam hasil analisisnya. Grafik ini memberi gambaran mengenai situasi data kita
dengan menyajikan 5 angka penting dalam data kita yaitu: C10 (percentile ke 10), Q1
(kuartil pertama atau percentil ke 25), Median (yang merupakan kuartil kedua atau
percentile 50), Q3 (atau kuartil ketiga atau percentile 75) dan C90 (percentile ke 90).

Selain itu dalam data ini kita juga dapat melihat subjek yang menjadi outlier, dan SPSS
memberitahu nomor kasus dari subjek kita ini; yaitu no 3. Jadi jika kita telusuri data kita
dalam file SPSS, kita akan menemukan subjek no 3 ini yang menjadi outlier dalam data
kita.

Catatan akhir: Sangat penting bagi kita untuk tidak sepenuhnya bergantung pada hasil
analisis statistik dalam bentuk angka. Kita juga perlu untuk 'melihat' (dalam arti yang
sebenarnya) data kita dalam bentuk grafik bahkan keadaan data kita dalam worksheet
SPSS untuk memeriksa kejanggalan-kejanggalan yang mungkin terjadi.

Posted by Agung Santoso at 11:02 9 comments Links to this post

Labels: Uji Asumsi Statistik

Sabtu, September 15, 2007


Uji Asumsi 1 Revised : Isu Seputar Uji Normalitas

Saya sempat ingin merevisi secara langsung post saya mengenai Uji Asumsi 1 karena ada
beberapa pemikiran tradisional di sana yang menurut saya kurang pas sekarang, seperti
pemilihan nilai signifikasi. Tapi kemudian saya putuskan untuk menulis satu post sendiri
agar pembaca bisa membandingkannya dengan post saya terdahulu, sehingga tahu mana
yang saya anggap kurang pas. Saya dengan sengaja juga mengubah tanggal post
terdahulu supaya bisa berdekatan dengan post yang ini, dengan harapan bisa mengurangi
diskontinuitas pembahasan.

Jadi ada masalah apa dengan post terdahulu?

Memilih Nilai Alpha


Dalam post terdahulu saya menuliskan bahwa taraf signifikasi yang digunakan untuk
menguji asumsi normalitas sebaran adalah 0,05. Ini adalah taraf signifikasi yang sering
juga digunakan dalam praktek penelitian selama ini. Pemilihan taraf signifikasi sebesar
ini kurang tepat. Alasan utamanya terkait dengan error tipe II. Saya akan membahas
singkat mengenai error tipe I dan II dan hubungan antara keduanya sebelum mengajukan
pendapat saya mengenai berapa besar taraf signifikasi yang bisa dipakai.

Error dalam pengambilan keputusan


Ketika kita mengambil keputusan terkait dengan penolakan hipotesis nol, kita selalu akan
melakukan satu di antara dua tipe error ini. Tipe error I adalah tipe error yang paling
sering kita jumpai (kita sering menganggapnya sebagai taraf signifikasi:"signifikan
dengan taraf..."). Dinyatakan juga dengan lambang alpha merupakan besarnya
kemungkinan kita menolak hipotesis nol yang benar. Misalnya begini, dalam sebuah
penelitian untuk menguji efektivitas pelatihan, peneliti melakukan uji statistik dengan
alpha sebesar 0,05. Setelah dilakukan analisis, ditemukan bahwa hipotesis nol ditolak
dengan alpha sebesar 0,05. Ini berarti sebenarnya kita masih punya kemungkinan atau
kans melakukan kesalahan sebesar 5% bahwa sebenarnya hipotesis nol yang kita tolak itu
benar. Jadi seharusnya kita tidak menolak hipotesis nol ini. Nah karena kemungkinan
melakukan kesalahan ini 'hanya' 5%, maka kita masih cukup pede untuk berpegang pada
kesimpulan bahwa hipotesis nol ditolak.
Tipe Error II diberi lambang Beta adalah kemungkinan kita gagal menolak hipotesis nol
yang seharusnya ditolak. Maksudnya begini, dalam penelitian tadi misalnya ternyata
hipotesis nol gagal ditolak. Ketika hipotesis nol gagal ditolak, sebenarnya keputusan ini
juga memiliki kemungkinan error, bahwa sebenarnya mungkin saja hipotesis nol
seharusnya ditolak.

Mari saya beri ilustrasi mengenai Tipe Error II. Ilustrasi ini sering saya pakai di kelas :
Pada suatu hari tertangkaplah seorang maling. Setelah diinterogasi, si maling mengaku
kalau dia adalah mahasiswa Universitas ANU. Dia tidak membawa kartu pengenal
apapun. Kemudian dia ditanya nomor mahasiswanya untuk dicocokkan dengan nomor
mahasiswa di universitas ANU. Kemudian dia menyebutkan dengan benar sebuah nomor
mahasiswa. Pertanyaan yang muncul: benarkah orang ini salah satu mahasiswa
universitas tersebut? Asumsi di balik perilaku menanyakan nomor mahasiswa mungkin
kurang lebih seperti ini: kecil kemungkinan orang yang bukan mahasiswa sebuah
universitas mengetahui secara tepat nomor mahasiswanya, apalagi pas dengan nama
mahasiswanya. Jadi kita gagal menolak bahwa orang ini bukan mahasiswa universitas
ANU.Tapi sebenarnya orang ini mengetahui nama dan nomor mahasiswa dari KTM yang
dia temukan dalam dompet yang dia copet. Jadi seharusnya kita menolak hipotesis nol
yang menyatakan orang ini adalah mahasiswa ANU, tapi kita gagal menolaknya.

Demikian juga dengan Tipe error II. Tipe error II terjadi ketika seharusnya kita menolak
hipotesis nol tapi gagal menolaknya.

Hubungan antara Tipe error I dan Tipe error II. Tipe error I dan II saling bertolak
belakang. Maksudnya jika kita memperkecil Tipe error I maka secara otomatis tipe error
II akan menjadi lebih besar. Sayangnya sampai sekarang kita belum dapat menentukan
dengan pasti (dengan cara yang mudah) besarnya tipe error II yang dibuat dalam suatu
penelitian. Jadi sampai sekarang aturan ini yang dipegang. Semakin kecil kita
menentukan Tipe error I, maka makin besar kemungkinan kita melakukan tipe error II.

Terus pilih mana Tipe error I atau II? Karena kita nggak mungkin terlepas dari kedua
error ini (memperkecil yang satu memperbesar yang lain), maka kita harus memilih error
yang kita ijinkan menjadi lebih besar. Misalnya begini : kita ingin menentukan apakah
seseorang memiliki kecenderungan bunuh diri atau tidak. Kita memiliki data mengenai
perilaku-perilaku yang menunjukkan kemungkinan orang yang akan melakukan bunuh
diri. Ketika kita melihat seseorang melakukan perilaku-perilaku ini, kita harus memilih
untuk menganggap orang ini termasuk orang yang akan bunuh diri tapi sebenarnya tidak
(gagal menolak hipotesis nol yang seharusnya ditolak, tipe error II), atau menganggap
orang ini baik-baik saja tapi sebenarnya akan bunuh diri (menolak hipotesis nol yang
benar, tipe error I). Jadi pemilihan tipe error I atau II sangat terkait dengan resiko apa
yang akan kita tanggung dengan melakukan kesalahan ini.
Mana yang lebih baik menyatakan suatu terapi itu dapat membuat perbedaan antara yang
menerima dan yang tidak padahal tidak ada efeknya (menolak hipotesis nol yang
benar,tipe error I) atau menganggap terapi ini tidak efektif padahal sebenarnya dapat
membuat perbedaan (gagal menolak hipotesis nol yang salah)?

Hubungannya dengan Uji Asumsi?


Begini : dalam uji asumsi kita ingin membuktikan apakah sebaran data yang kita miliki
itu mengikuti kurve normal atau tidak. Dalam hal ini hipotesis nolnya berbunyi: "tidak
ada perbedaan antara sebaran data yang kita miliki dengan sebaran data yang normal".
Jika p lebih kecil dari alpha yang kita tentukan maka kita akan menolak hipotesis nol ini
sehingga disimpulkan data kita tidak normal. Jika p lebih besar dari alpha yang kita
tentukan kita akan gagal menolak hipotesis nol, sehingga disimpulkan data kita normal.
Nah dalam kasus ini, mana yang lebih riskan: melakukan tipe error I (menganggap data
kita tidak normal padahal normal) atau melakukan tipe error II (menganggap data normal
padahal tidak normal). Menurut pendapat saya jauh lebih riskan melakukan tipe error II
daripada tipe error I. Jika kita menentukan alpha yang kecil, berarti beta akan semakin
besar. Dengan kata lain makin besar kemungkinan kita menganggap data kita normal
padahal tidak normal.
Kita tahu bahwa normalitas sebaran merupakan salah satu asumsi yang mendasari
pengujian parametrik, sehingga kita perlu memiliki keyakinan cukup besar mengenai
kondisi data kita yang sebenarnya. Oleh karena itu akan lebih baik jika kita memperbesar
nilai alpha menjadi 0,10 (dengan demikian memperkecil beta). Sehingga data kita baru
bisa dianggap normal jika p lebih besar dari 0,1.

Rasanya memang sedikit aneh karena kita terbiasa menguji dengan taraf 0,05 untuk
segala macam bentuk hipotesis. Tapi demikian pendapat saya dan alasan saya
menggunakan taraf 0,1 untuk menguji hipotesis nol terkait dengan asumsi normalitas.

Fiuhh.... baiklah untuk menghilangkan kepenatan teman-teman bisa melihat klip yang
kereeen abeees berikut ini:
Il divo dan Celine Dion

Posted by Agung Santoso at 10:58 0 comments Links to this post

Labels: Uji Asumsi Statistik

Jumat, September 14, 2007


Uji Asumsi 1 : Uji Normalitas

Setelah cukup lama bingung pilih-pilih tema yang mau diangkat perdana, saya akhirnya
mencoba memilih satu tema ini : Uji Asumsi Statistik Parametrik. Uji Asumsi yang
pertama akan saya bahas adalah Uji Normalitas.

Apa itu ?
Kita mulai dulu dari apa itu uji normalitas. Uji normalitas adalah uji yang dilakukan
untuk mengecek apakah data penelitian kita berasal dari populasi yang sebarannya
normal. Uji ini perlu dilakukan karena semua perhitungan statistik parametrik memiliki
asumsi normalitas sebaran. Formula/rumus yang digunakan untuk melakukan suatu uji (t-
test misalnya) dibuat dengan mengasumsikan bahwa data yang akan dianalisis berasal
dari populasi yang sebarannya normal. Ya bisa ditebak bahwa data yang normal memiliki
kekhasan seperti mean, median dan modusnya memiliki nilai yang sama. Selain itu juga
data normal memiliki bentuk kurva yang sama, bell curve. Nah dengan mengasumsikan
bahwa data dalam bentuk normal ini, analisis statistik baru bisa dilakukan.

Bagaimana Caranya?
Ada beberapa cara melakukan uji asumsi normalitas ini yaitu menggunakan analisis Chi
Square dan Kolmogorov-Smirnov. Bagaimana analisisnya untuk sementara kita serahkan
pada program analisis statistik seperti SPSS dulu ya. Tapi pada dasarnya kedua analisis
ini dapat diibaratkan seperti ini :

1. pertama komputer memeriksa data kita, kemudian membuat sebuah data virtual yang
sudah dibuat normal.

2. kemudian komputer seolah-olah melakukan uji beda antara data yang kita miliki
dengan data virtual yang dibuat normal tadi.

3. dari hasil uji beda tersebut, dapat disimpulkan dua hal :

o jika p lebih kecil daripada 0,05 maka dapat disimpulkan bahwa data yang
kita miliki berbeda secara signifikan dengan data virtual yang normal
tadi. Ini berarti data yang kita miliki sebaran datanya tidak normal.
o jika p lebih besar daripada 0,05 maka dapat disimpulkan bahwa data yang
kita miliki tidak berbeda secara signifikan dengan data virtual yang
normal. Ini berarti data yang kita miliki sebaran datanya normal juga.

Ukuran inilah yang digunakan untuk menentukan apakah data kita berasal dari populasi
yang normal atau tidak.

Bagaimana Jika Tidak Normal?


Tenang...tenang... data yang tidak normal tidak selalu berasal dari penelitian yang buruk.
Data ini mungkin saja terjadi karena ada kejadian yang di luar kebiasaan. Atau memang
kondisi datanya memang nggak normal. Misal data inteligensi di sekolah anak-anak
berbakat (gifted) jelas tidak akan normal, besar kemungkinannya akan juling positif.
Lalu apa yang bisa kita lakukan?

1. Kita perlu ngecek apakah ketidaknormalannya parah nggak. Memang sih nggak ada
patokan pasti tentang keparahan ini. Tapi kita bisa mengira-ira jika misalnya nilai p yang
didapatkan sebesar 0,049 maka ketidaknormalannya tidak terlalu parah (nilai tersebut
hanya sedikit di bawah 0,05). Jika ketidaknormalannya tidak terlalu parah lalu
kenapa? Ada beberapa analisis statistik yang agak kebal dengan kondisi
ketidaknormalan ini (disebut memiliki sifat robust), misalnya F-test dan t-test. Jadi kita
bisa tetap menggunakan analisis ini jika ketidaknormalannya tidak parah.

2. Kita bisa membuang nilai-nilai yang ekstrem, baik atas atau bawah. Nilai ekstrem ini
disebut outliers. Pertama kita perlu membuat grafik, dengan sumbu x sebagai frekuensi
dan y sebagai semua nilai yang ada dalam data kita (ini tentunya bisa dikerjakan oleh
komputer). Nah dari sini kita akan bisa melihat nilai mana yang sangat jauh dari
kelompoknya (tampak sebagai sebuah titik yang nun jauh di sana dan nampak
terasing...sendiri...). Nilai inilah yang kemudian perlu dibuang dari data kita, dengan
asumsi nilai ini muncul akibat situasi yang tidak biasanya. Misal responden yang mengisi
skala kita dengan sembarang yang membuat nilainya jadi sangat tinggi atau sangat
rendah.

3. Tindakan ketiga yang bisa kita lakukan adalah dengan mentransform data kita. Ada
banyak cara untuk mentransform data kita, misalnya dengan mencari akar kuadrat dari
data kita, dll.

4. Bagaimana jika semua usaha di atas tidak membuahkan hasil dan hanya membuahkan
penyesalan (wah..wah.. nggak segitunya kali ya?) . Maka langkah terakhir yang bisa kita
lakukan adalah dengan menggunakan analisis non-parametrik. Analisis ini disebut juga
sebagai analisis yang distribution free. Sayangnya analisis ini seringkali mengubah data
kita menjadi data yang lebih rendah tingkatannya. Misal kalo sebelumnya data kita
termasuk data interval dengan analisis ini akan diubah menjadi data ordinal.
Well, demikian kiranya paparan atau sharing tentang normalitas. Semoga dalam waktu
dekat saya bisa tahu gimana caranya meng-upload gambar ke dalam blog ini dalam posisi
yang manis jadi penjelasan saya bisa jadi lebih visualized gitu deh. Semoga juga saya
juga bisa segera mengubah tampilan SPSS menjadi JPG, jadi kita bisa belajar baca hasil
analisis di blog ini, OK? Semoga..... (kayak lagunya katon nih)