Statistika Bagi Pemula

Statistika bagi Pemula
OPINI | 11 July 2014 | 09:42 Dibaca: 234 Komentar: 6 1
Saat ini adalah saat-saat yang menarik bagi masyarakat, sampai-sampai kadang yang
mendengar atau membaca perihal quick count. Tetapi, antusiasme masyarakat dalam
menyimak setiap running text (tulisan berjalan) atau kabar terkini mengenai quick count
sangat tinggi.
Ini menunjukkan bahwa masyarakat Indonesia tampaknya mulai sadar dengan statistik.
Tentunya dengan tipe statistik yang disampaikan secara sederhana, misalnya dalam bentuk
persentase dan antek-anteknya, misalnya apa yang dimaksud dengan margin of error (MoE)
dalam sebuah survei quick count seperti yang telah dijelaskan oleh Bapak Hidayat Huang
mengenai pengertian MoE.
Namun, kali ini saya hanya ingin menambahkan saja mengenai beberapa istilah statistik yang
berkaitan erat dengan kegiatan survei dalam bentuk quick count, yaitu :
(1) Populasi. Populasi adalah keseluruhan unit yang menjadi fokus penelitian. Contoh
sederhana adalah ketika Anda membeli jeruk di pasar pada penjual bernama pak X, maka
populasinya adalah seluruh jeruk pak X. Populasi juga di satu sisi harus berdasar pada tujuan
penelitian kita. Jika kita ingin mensurvei harga jeruk di pasar A, maka populasinya adalah
seluruh jeruk di pasar A. Jika kita ingin mengetahui hasil hitung cepat, maka populasinya
adalah Jumlah penduduk yang menjadi pemilih tetap (terdaftar) yang didapatkan berdasarkan
DPT.
(2) Sampel. Sebelum berbicara tentang sampel, kita harus mengerti tentang apa beda sensus
dan survei. Sensus adalah kegiatan mencacah (pendataan) seluruh unit dari populasi secara
lengkap. Sensus di Indonesia menurut Undang-Undang (UU) statistik ada 3, yakni sensus
Penduduk, sensus ekonomi, dan sensus pertanian. Sensus hakikatnya dilaksanakan secara
resmi oleh sebuah badan yang disebut Badan Pusat Statistik Republik Indonesia (BPS RI).
Dalam Sensus tidak ada kegiatan analisis sebab ukuran statistik yang didapatkan adalah
ukuran populasi yang biasa disebut parameter. Sementara itu, survei adalah kegiatan
mencacah (mendata) sebagian unit dalam populasi untuk mendapatkan sebuah angka
perkiraan dari parameter populasi, yang disebut dengan statistik. Nah, dari kegiatan survei
inilah yang nantinya menghasilkan sebuah angka statistik. Artinya, dalam kegiatan survei,
seorang peneliti harus mengambil sejumlah sampel dari seluruh unit populasi yang menjadi
target penelitiannya untuk kemudian dianalisis.
Sensus dan survei, masing-masing memiliki kelemahan dan kelebihan. Kelemahan sensus
adalah informasi yang dihasilkan kurang detail dalam mengeksplorasi informasi hingga unit
terkecil. Artinya, sensus menghasilkan sedikit informasi untuk disampaikan kepada publik.
Sensus juga memerlukan biaya, tenaga, serta waktu yang besar sebab cakupannya yang luas,
apalagi kalau unitnya secara kewilayahan menyebar tidak beraturan. Sensus juga mampu
meminimalisir sampling error, artinya ukuran parameter tersebut sangat besar
kemungkinannya sama dengan parameter sebenarnya (yang tidak diketahui oleh manusia). Di
satu sisi juga, manajemen pelaksanaan juga memerlukan koordinasi yang kuat agar pelaksaan
sensus berjalan dengan baik. Namun, sensus juga memiliki beberapa kelebihan, yaitu mampu
menghasilkan angka parameter sebagai bahan baku mendesain sensus dan survei selanjutnya,
sensus juga mampu melahirkan atau memperbarui kerangka sampel atau unit-unit yang ada
dalam populasi sehingga lebih terata rapi dalam rangka pengambilan sampel pada survei dan
penelitian-penelitian skala mikro lainnya.
(3) Kondisi populasi. Dalam melakukan kegiatan survei atau penelitian, sebaiknya seorang
peneliti harus memerhatikan bagaimana sebaran karakteristik (ciri) seluruh unit yang ada
dalam populasi.
Jika seluruh unit tampak homogen (memiliki kesamaan), maka cukup dengan sampel kecil
pun akan layak dijadikan dasar pengambilan keputusan, misal penelitian mengamati
percemaran limba rumah tangga di kali Ciliwung, Jakarta, maka cukup Anda mengambil
sebotol air saja sebab kemungkinan besar seluruh air di Ciliwung tercemar oleh limba rumah
tangga.
Jika seluruh unit tampak heterogen, maka yang dilakukan adalah mengelompokkan unit-unit
tersebut terlebih dahulu sehingga membentuk sebuah tingkatan atau strata. Kondisi
penstrataan ini berguna agar kondisi setiap strata memiliki kesamaan (homogen) dan kondisi
antar strata tidak sama (heterogen). Baru kemudian masing-masing strata dipilih dan diambil
sampel di tiap stratanya.
Jika seluruh unit tampak heterogen dan Anda tidak memiliki kerangka sampel dan informasi
pendukung untuk mengkelompokannya maka yang diperlukan adalah membuat gerombol-
gerombol tertentu berdasarkan jarak atau keeratan unit dalam populasi. Yang jaraknya dekat
jadi satu gerombol dan seterusnya. Dengan demikian tampak dalam satu geromboll memiliki
ciri yang heterogen, dan antar gerombol tampak homogen. Barulah kemudian diambil sampel
di tiap gerombol untuk di survei, misal mensurvei hasil pilpres 2014 berdasarkan
kewilayahan penduduk (DPT), Jawa, Sumatera, dan KTI, misal.
(4) Selang kepercayaan dalam survei. Sebenarnya, hasil dari quick count biasanya
ditampilkan atau disampaikan dengan embel-embel margin of error (moe) sesuai dengan
penjelasan Pak Hidayat. Tetapi secara hakikatnya, moe sangat berkaitan arat dengan selang
kepercayaan. Disinilah kebohongan yang tak bersalah dalam statistika dimainkan oleh
peneliti karena kelemahannya secara ilmiah dan matematis. Kebohongan yang tak bersalah
itu ditampilkan dalam bentuk selang kepercayaan yang diformulasikan sebagai berikut.
Selang Kepercayaan statistik, sumber : Dok. penulis
Berdasarkan gambar di atas, simbol P itu adalah peluang, peluang berarti besarnya
kemungkinan kejadian tertentu, dalam hal ini memprediksi nilai parameter populasi yang
disimbolkan dengan X bar. Simbol x bar adalah nilai statistik yang didapatkan dari hasil
survei terhadap sampel yang diambil dari populasi. Simbol S (besar) disebut sebagai standar
deviasi yaitu sebuah ukuran variasi (keragaman) dalam sampel yang telah distandarkan.
Simbol Z alpha dibagi dengan 2 adalah nilai yang diinginkan oleh peneliti. Nilai tersebut
biasanya diambil dari sebuah tabel, tabel Z namanya. Nilai Z inilah yang mengandung
peluang keyakinan si peneliti melakukan kesalahan dalam memprediksi ukuran parameter, X
bar, pada rentang nilai estimator (sebutan lain dari statistik sampel) minimal hingga
maksimal tertentu. Simbol n (kecil) adalah jumlah sampel yang digunakan dalam penelitian
atau survei. Inilah yang sesuai dengan peryataan Pak Hidayat, bahwa moe itu berhubungan
erat dengan sampel. Semakin besar jumlah sampel, maka eror sampel informasi (data) nya
semakin homogen (sama) sehingga dikatakan S nya semakin kecil. Dengan S yang semakin
mengecil dan n membesar maka rentang dari selang kepercayaan semakin sempit, artinya
hasil penelitian dikatakan memiliki reliabilitas tinggi. Sementara itu, nilai 1 dikurangi alpha
dalam persen menunjukkan tingkat kepercayaan yang diinginkan dalam penelitian atau
survei, biasanya yang gencar digunakan adalah dengan kepercayaan 95%. Artinya nilai alpha
adalah sebesar 0,05, ini adalah nilai peluang terbesar bahwa si peneliti melakukan kesalahan
pengambilan keputusan. Dia sangat yakin sebesar 95%, bahwa statistik (estimator) hasil
penelitiannya adalah berada dalam selang tertentu.
Jika diambil kondisi hasil KPU mengumumkan bahwa yang menang pada 22 Juli nanti
adalah kubu nomor (?), maka jika hasil perkiraan lembaga survei meleset dari rentang
interval keyakinan mereka yang 95%, berarti disana hanya terdapat beberapa persen saja bias
sejumlah suara saja. Bias dalam arti terdapat perbedaan antara hasil perkiraan dari sampel
terhadap nilai parameter yang didapatkan dari populasi.
nb : Perlu diketahui, statistik beda dengan statistika. Statistik adalah ukuran-ukuran dari hasil
survei dalam kegiatan statistika (ilmu yang mempelajari bagaimana cara mempersiapkan
pengambilan data/mendapatkan data, mengolahnya dengan instrumen atau prosedur statistik,
kemudian mengambil kesimpulan sebagai bahan untuk menyebarluaskan hasil kegiatan
statistik (diseminasi) sebagai alat pengambilan kebijakan).
Demikian beberapa hal terkait pelaksanaan kegiatan statsitik berupa survei yang hendaknya
diketahui oleh masyarakat sehingga masyarakat mampu memaklumi kelihaian statistika
dalam berbohong secara ilmiah.
Derajat Bebas dalam Statistika
OPINI | 12 August 2014 | 11:47 Dibaca: 784 Komentar: 0 2
Salam Statistika !
Sejenak kita meluangkan waktu sambil bersantai untuk membahas mengenai satu poin
menarik dalam statistika, yaitu derajat bebas (db). Biasanya, dalam statistika, misalnya dalam
mencari nilai standard deviasi atau penyimpangan sampel, bisa juga mencari rata-rata, dalam
pengujian simultan (uji-F), atau uji parsial/individu (uji-t), bagi yang mendalami statistika
tentu mengenal betul yang namanya derajat bebas (db) ini. Meskipun db sering disebutkan,
sering dipakai, tetapi mungkin ada yang masih belum atau tidak pernah mengenal lebih
mendalam mengenai pengertian awam mengenai derajat bebas (db) tersebut.
Berdasarkan literatur statistika, db didefinisikan secara keilmuan statistika sehingga kurang

mampu dimengerti oleh yang tidak mengerti statistika. Nah, inilah saatnya kita membahasa
mengenai hal itu.
Derajat bebas (db) memiliki beberapa pengertian dalam statistika, yaitu :
(1) Jumlah amatan (N) dikurangi banyaknya pembatasan (restriksi linier) dari sejumlah
amatan tadi. Jumlah restriksi linier tersebut tergantung banyaknya parameter yang hendak
diestimasi (diperkirakan) dalam penelitian. Secara umum dirumuskan : N - p
(2) Total amatan (N) dikurangi banyaknya kendali linier dalam amatan.
(3) Derajat kebebasan dalam sebuah pengamatan untuk menentukan nilai akhir yang terikat.
Misalnya kita menentukan rata-rata 3 data adalah 3, misalkan datanya X, Y, dan Z. Kita akan
mampu menentukan nilai Z jika kita telah menentukan nilai X dan Y terlebih dahulu. Nah, X
dan Y inilah amatan yang bebas kita ubah (independen) untuk menentukan nilai amatan Z
(dependen) agar parameternya bernilai tertentu.
(4) Jumlah minimal nilai yang harus ditentukan untuk menentukan satu atau lebih titik data.
(5) Informasi minimum yang diperlukan untuk menentukan satu atau lebih titik data. Jika kita
memiliki n data, maka kita akan bebas menentukan sebanyak (n-1) data, sementara 1 data
tidak bebas sebagai tanda bahwa kita menemukan satu atau lebih titik data. Misalnya ada
sebuah bola yang dimasukkan ke dalam 3 kotak berwarna hitam, nah, kita akan mampu
menebak dengan benar bola tersebut ada di kotak mana jika minimal kita membuka dua kotak
secara acak, jika tidak ada semua, sudah pasti bola akan dapat kita tebak pada kotak terakhir.
Informasinnya mengenai bola (parameter) dapat diketahui dengan minimal membuka 2 kotak
yang ada.
(6) Besarnya kebebasan dalam menentukan nilai amatan terakhir suatu pengamatan.
Demikian sekelumit ulasan mengenai derajat bebas (db) dalam statistika.

Statistika : Mengenal Alpha dan Beta
dalam Memutuskan Perkara
Salam Statistika !
Lama tidak posting tulisan mengenai Statistika, kali ini saya akan mencoba menjelaskan
mengenai apa yang biasa kita sebut dengan kesalahan jenis I dan kesalahan jenis II dalam
Statistika. Tentu, mungkin bagi orang yang tidak mengenal Statistika, tidak akan begitu
tertarik atau bisa jadi bertanya-tanya mengenai kedua hal ini. Tetapi, tidak masalah, Anda
bisa belajar Statistika mulai dari awal pada artikel saya sebelumnya.
OK. Pertama adalah mengenai kesalahan jenis I. Dalam Statistika, kesalahan jenis I ini
disimbolkan dengan a (alpha). Kesalahan jenis I ini merupakan kesalahan sebab menolak
hipotesis nol (H0), padahal Ho tersebut benar. Artinya, nilai alpha tersebut merupakan
besarnya peluang kita salah dengan memutuskan untuk menolak hipotesis nol penelitian.
Sementara itu, kesalahan jenis II atau biasa disimbolkan dengan beta merupakan kesalahan
yang terjadi akibat kita memutuskan untuk menerima hipotesisi nol (Ho), padahal Ho tersebut
salah. Artinya, nilai beta tersebut merupakan besarnya peluang kita salah dengan
memutuskan untuk menerima hipotesis nol penelitian.
Lantas, kenapa sih yang selalu dipakai acuan dan menjadi fokus dalam penelitian adalah
kesalah jenis I atau alpha ?. Mungkin sebagian belum mengetahui mengapa kok harus alpha
yang diutak-atik dan ditentukan sekecil mungkin oleh peneliti atau berdasarkan penelitian
terkait sebelumnya ?.
Ilustrasinya begini, kita misalnya seorang hakim dalam pengadilan yang hendak memutuskan
suatu perkara yang serius, misalkan saja perkara pencurian ayam. Ejawantahkan bahwa si
terdakwa adalah Ho nya, lalu coba kita aplikasikan keputusan dengan melakukan kesalahan
jenis I. Bahwa kita memutuskan menghukum terdakwa, padahal sebenarnya terdakwa tidak
bersalah (pihak yang benar).
Kemudian, dengan alur yang sama, namun kita melakukan kesalahan jenis II. Kita tidak
menjatuhkan hukuman terhadap terdakwa, padahal (meskipun) terdakwa itu sebenarnya salah
(benar-benar mencuri ayam).
Nah, keputusan kita dengan kesalahan jenis I tampak tidak manusiawi jika dibandingkan
dengan keputusan kita dengan kasalahan jenis II. Oleh karena itu, para ahli Statistika
memutuskan untuk lebih fokus pada kesalahan jenis I (alpha), bukan kesalahan jenis II (beta),
sekaligus memperlihatkan bahwa alpha dalam Statistika itu lebih tidak manusiawi daripada
beta.
Konsekuensi Pelanggaran Asumsi Model
Statistik
Salam Statistika !
OK. Setelah kemarin kita membahas mengenai uji asumsi model dan kriteria model statistik
yang baik, kali ini kita akan mengulas kelanjutannya nih, yaitu konseuensi apa sih yang akan
timbul apabila uji asumsi model tidak terpenuhi atau terlanggar ?
Nah, agar tampak konsisten dengan pembahasan sebelumnya perlu kita ketahui dahulu urutan
uji asumsi model statistik, yaitu uji Normalitas, uji Homoskedastisitas, uji Non-
Autocorrelation, dan uji Non-Multikolinearitas.
Ingat !, yang diuji adalah error model, yabukan variabelnya. Tetapi, di awal melihat
perilaku data variabelnya juga perlu sih, untuk melihat gambaran umum saja, misalnya
melihat apakah data kita terdapat data pencilan atau outlier atau tidak.
OK. Langsung saja kita bahas.
Uji Normalitas Terlanggar
Telah kita ketahui bersama, bahwa segala bentuk distribusi statistik yang ada awalnya
diturunkan dari distribusi normal dengan rata-rata 0 (nol) dan varians (keragaman) sebesar
sigma kuadrat. Sehingga jika error dari model yang dihasilkan dari penelitian tidak
mengikuti distribusi normal, maka kurang mampu dijadikan instrumen analisis lebih lanjut.
Varians yang tidak mengikuti distribusi normal berarti ia inkonsisten untuk setiap amatan atau
setiap waktunya. Sebenarnya pelanggaran ini sangat erat kaitannya dengan ada tidaknya
pelanggaran uji Homoskedastisitas nantinya. Akibatnya, model yang terbentuk kurang
mampu menaksir parameter dari populasi sebenarnya.
Oleh karena itu, untuk menghindari terlanggarnya uji asumsi ini adalah dengan metode
eksplorasi data atau dengan transformasi variabel.
Eksplorasi data, seperti ulasan sebelumnya kita akan mampu melihat data awal yang kita
gunakan sebagai bahan baku pembentuk model penelitian. Kita akan mampu menemukan
perilaku data kita sekaligus keganjalan yang terkandung dalam data kita. Apakah terdapat
pencilan ? apakag terdapat angka yang inkonsisten akibat kesalahan input data ? atau apakah
terdapat angka yang salah image ketika proses pengambilannya di lapangan ?, misal
seharusnya 67 menjadi 97 atau 87 atau di data lapangan 167 pada saat input menjadi 67 saja.
Selain itu, kita juga mampu melihat apakah data menyebar merata atau tidak, apakah rentang
atau range data terlalu besar atau tidak. Ini semua dapat kita cakup dalam proses eksplorasi
data.
Transformasi data, hal inilah yang biasanya banyak menjadi pertanyaan dalam penelitian,
terutama bagi peneliti pemula. Sebenarnya transformasi hanyalah akal-akalan saja supaya
asumi kenormalan terpenuhi, namun metode ini sangat jitu dan sering digunakan dalam
penelitian. Transformasi banyak macamnya, setidaknya beberapa diantara adalah sebagai
berikut :
Transformasi ln (baca : len). Transformasi ini banyak digunakan dalam penelitian di bidang
ekonomi untuk mencapai asumsi kenormalan. Perlu diketahui bahwa transformasi ln berbeda
dengan transformasi log, transformasi ln adalah transformasi berbasis logaritma natural
dengan e = 2,71828 sekian itu. Kalau transformasi log itu basisnya adalah 10. Jadi perlu
kita bedakan antara ln 2 dan log 2. Sebab nilai ln 2 jauh lebih kecil daripada log 2. Namun,
beberapa literatur penelitian biasanya menulis ln itu dalam bentuk log, ada dalam beberapa
buku. Bisa juga dengan menggunakan transformasi bentuk yang lainnya seperti transformasi
normal Z,
transformasi
transformasi
atau transformasi Box-Cox yang dapat dicari dengan menggunakan paket program
(software). Semua bentuk tersebut bisa digunakan tetapi dengan catatan pada saat model yang
berhasil Anda pilih (model terbaik), Anda harus mengembalikan model Anda ke bentuk
semula untuk mendapatkan nilai yang sebenarnya sebagai bahan intepretasi hasil.
Lalu, bagaimana cara melihat adanya pelanggaran asumsi kenormalan ?
Untuk melihatnya, Anda bisa menggunakan uji-uji statistik yang telah tersedia (bisa klik link
artikel pada akhir artikel ini), atau bisa juga Anda melihat melalui deskriptif dari Normal
Probability Plot (NPP) dalam software SPSS, yaitu dengan memplot antara error yang sudah
diurutkan dengan nilai harapan dari error setiap amatan. Jika titik-titiknya berada tak jauh
dari garis linier maka asumsi kenormalan model Anda telah terpenuhi seperti pada gambar
berikut.
Normal Probability Plot (NPP), sumber : Dok. Penulis
Note : Box-Cox adalah bentuk transformasi yang sangat terkenal sebab tujuannya untuk
menghomogenkan varians.
Uji Homoskedastisitas Terlanggar
Uji Homoskedastistas adalah salah satu uji yang utama dalam pemodelan statistik, terlebih
pada pemodelan regresi linier, entah sederhana entah berganda. Perlu diketahui dahulu bahwa
regresi linier sederhana hanya memasukkan satu variabel bebas dalam model, sementara
regresi linier berganda memasukkan lebih dari satu variabel bebas dalam model.
Oh, iyaperlu diketahui juga bahwa pelanggaran asumsi homoskedastisitas banyak terjadi
pada tipe data cross section (data yang diambil/diperoleh pada satu waktu saja). Misalnya
penelitian mengenai Faktor-Faktor yang Memengaruhi Produktivitas Industri Kasur di
Sidoarjo tahun 2014. Namun, Anda tidak perlu pusing jika error model Anda terganggu
heteroskedastisitas ini, sebab Anda bisa menghindarnya selain dengan transformasi variabel,
jika penelitian Anda menggunakan data primer (hasil mencacah di lapangan, mandiri), maka
Anda dapat menambah jumlah sampel Anda sehingga menjadi lebih besar.
Jika asumsi homoskedastisitas terlanggar maka secara otomatis akan menyebabkan hal-hal
berikut :
(1) Penaksir Ordinary Least Square (OLS) tidak efisien baik dalam sampel kecil maupun
sampel besar. Jika tetap Anda gunakan, maka akan berdampak pada varians penaksir
parameter koefisien regresi akan underestimate (terlampau kurang dari parameter) atau
overestimate (terlampau lebih besar daripada parameter).
(2) Adanya heteroskedastisitas menyebabkan estimator yang Anda peroleh dari model
memang tidak bias, tetapi karena standar error dari parameter Anda yang bias (variansnya
bisa lebih kecil sekali atau sangat besar). Oleh karena itulah, terlanggarnya asumsi
homoskedasitisitas mengakibatkan uji F signifikan tetapi pada saat Anda periksa uji t model
Anda, tidak ada variabel Anda yang signifikan (uji t tidak menentu).
Jadi jangan kaget jika model Anda uji F nya signifikan tetapi tidak ada satupun variabel Anda
yang signifikan.
Menurut Greene (2004), cara yang juga bisa digunakan untuk mengatasi adanya
heteroskedastisitas adalah memakai metode Weighted Least Square (WLS) yang
penaksirannya memberikan pembobot bersifat Least Square atau disebut juga Generalized
Least Square (GLS).
Tidak hanya dengan uji-uji statistik, dalam mendeteksi adanya gangguan heteroskadastisitas,
Anda bisa juga menggunakan deskriptif dengan cara memplotkan antara error setiap amatan
dengan nilai variabel tententu yang bersesuaian dengan error setiap amatan tersebut. Jika
hasilnya tidak membentuk pola atau acak (menyebar)[plot antara unstandardized residual
dan unstandardized predicted residual], maka asumsi homoskedastisitas telah terpenuhi
seperti gambar berikut.
Plot Uji Heteroskedastisitas, sumber : Dok. Penulis
Uji Non-Autocorrelation Terlanggar
Nah, perlu diketahui gejala terlanggarnya asumsi non-autocorrelation biasanya terdapat

dalam model-model penelitian Anda yang memakai data runtun waktu atau time series sebab
kondisi saat ini bisa dipengaruhi oleh kondisi waktu yang lalu (lampau), misalnya jika Anda
ingin mengamati inflasi bulan Juli 2014 ini kira-kira berapa, tentu inflasi ini terkait erat
dengan Fisher effect yang mengaitkan adanya spekulasi masyarakat atau produsen terhadap
naiknya harga bahan pokok saat Ramadhan dan menjelang Hari Raya Idul Fitri, atau
mengenai tinggi badan siswa yang dicatat dari waktu ke waktu.
Dampak yang diakibatkan jika error model Anda terjangkit autocorrelation adalah :
(1) Estimator masih tidak bias dan masih konsisten, dan masih mengikuti sebaran normal
asimtotik, tetapi estimator tersebut sudah tidak lagi efisien sebab variansnya tidak minimum
lagi, dengan kata lain tidak memenuhi kaidah Best Linear Unbiased Estimator (BLUE). Hasil
estimasi variansnya biasanya underestimate daripada varians sebenarnya.
(2) Adanya gangguan asumsi ini, nilai R square tidak lagi memiliki makna yang berarti dalam
menjelaskan proporsi keragaman dari variabel terikat (dependen)nya. Selain itu, karena
estimator varians sampelnya (Mean Square Error)sudah tidak lagi BLUE maka varians dan
standar error hasil peramalan juga tidak efisien.
Sebagai langkah awal mendeteksi adanya gejala autocorrelation sebelum Anda memastikan
dengan uji statistik (uji Durbin-Watson), Anda bisa mengamati terlebih dahulu dengan cara
memplotkan antara error setiap waktunya dengan waktu itu sendiri. Jika membentuk pola
yang teratur, maka asumsi non-autocorrelation model Anda tidak terpenuhi seperti gambar
berikut.
Plot Uji Non-Autocorrelation (gambar ini menunjukkan asumsi terlanggar), sumber : Dok.
Penulis
Note : Salah satu cara untuk menghindar dari ancaman autocorrelation adalah dengan
mendifference-kan data runtun waktu.
Uji Non-Multikolinearitas Terlanggar
Yang terakhir adalah gejala Multikolinearitas. Untuk pengertiannya bisa dibaca pada artikel
sebelumnya. Lalu bagaimana jika asumsi ini tidak terpenuhi atau terlanggar ?
Nah, beberapa hal yang menjadi konsekuensi bila error model Anda tidak memenuhi asumsi
ini adalah :
(1) Penaksir OLS (estimator) bisa didapatkan namun standar error (SE) tendensi semakin
membesar seiring dengan meningkatkan korelasi antar variabel bebas (yang seharusnya
independen).
(2) Karena SE nya semakin membesar maka mengakibatkan selang kepercayaan akan
semakin melebar.
(3) Kesalahan tipe II meningkat (apa itu kesalahan tipe II ? tunggu artikel episode
selanjutnya).
(4) Jika terjadi multikolinearitas yang tidak sempurna maka estimator dan SE akan sangat
sensitif terhadap perubahan data. Oleh karena itu, sedikit saja ada data yang berubah nilainya
maka estimator dan SE nya juga berubah.
(5) Jika terjadi multikolinearitas yang kurang sempurna juga mengakibatkan nilai R square
(koefisien determinasi) yang tinggi namun semua variabel bebas tidak signifikan secara
statistik.
(6) Jika error model Anda terjangkit multikolinearitas, maka akan terdapat adanya kesalahan
tanda pada koefisien regresi sehingga model statistik yang Anda bangun cenderung
berlawanan dengan teori-teori yang ada (hasil penelitian pada umumnya, inkonsisten).
Cara untuk mendeteksi adanya gejala multikolinearitas adalah :
(1) Melihat pada matriks korelasi antar variabel bebas, apakah terdapat nilai korelasi yang
tinggi atau tidak.
(2) Mengamati kesesuaian tanda koefisien model dengan teori hasil penelitian empiris yang
telah dilakukan.
(3) Melihat nilai VIF (sudah diulas pada artikel sebelumnya).
(4) Nilai R square tinggi tetapi semua variabel bebas tidak signifikan secara statistik.
(5) Koefisien model parsial tetap konsisten (apakah pada saat ditambah atau dikurangi
variabel bebar yang lain, tandanya masih sama atai tidak ? jika tidak, maka bisa saja ini gejala
multikolinearitas).
Cara yang biasa digunakan untuk mengatasi adanya gejala multikolinearitas adalah :
(1) Mengubah variabel bebas tersebut menjadi Dummy variable (penjelasannya tunggu saja
artikel berikutnya).
(2) Menggunakan regresi ridge.
(3) Menggunakan informasi yang apriori, tetapi tetap berdasarkan teori yang ada.
(4) Menggunakan data panel (gabungan data runtun waktu dan cross section).
(5) Meneliminasi salah satu variabel bebas yang saling berkorelasi tinggi atau
menggabungkan dua atau lebih variabel bebas menjadi satu kelompok dengan beberapa
metode, yaitu Analisis Komponen Utama (AKU), Analisis Faktor (AF), Stepwise Regression
(regresi transformasi variabel), atau Analisis Klaster (AK).
Note : pembahasan megenai Analisis Komponen Utama (AKU), Analisis Faktor (AF),
Stepwise Regression (regresi transformasi variabel), atau Analisis Klaster (AK) akan dibahas
pada artikel selanjutnya.
Sebenarnya ada satu lagi uji asumsi error, tetapi pada beberapa karya ilmiah yang saya temui,
uji ini jarang dipakai. Ada kemungkinan besar bahwa uji ini sebenarnya sudah tercakup
dalam keempat uji asumsi yang telah kita ulas bersama, yaitu uji Linieritas.
Beberapa karya ilmiah ada yang memakai uji ini (model linier), ada juga yang tidak
membubuhkan uji ini. Esensi dari uji linieritas adalah apakah terdapat hubungan linier antara
error setiap amatan dalam model dan nilai setiap amatan dalam variabel atau tidak. Jika tidak
berpola atau acak, maka asumsi ini telah terpenuhi seperti gambar berikut.
Plot Uji Linieritas, sumber : Dok. Penulis
Perlu diingat !, bahwa yang diplotkan itu antara unstandardized residual dengan variabel
bebas.
Demikian sekelumit ulasan mengenai pelanggaran terhadap uji asumsi. Salam Statistika !.
Kriteria Model Statistik yang Baik
Nah, kini saatnya kita membahas mengenai model statistik itu sendiri.
Bagaimana sih model statistik itu dikatakan baik ?
Menurut Gujarati (2006), suatu model statistik dapat dikatakan sebagai model yang baik
apabila memenuhi beberapa kriteria berikut :
(1) Parsemoni. Suatu model tidak akan pernah dapat secara sempurna menangkap realitas
sehingga hal ini menjadi urgensi bagi kita untuk melakukan sedikit abstraksi atau
penyederhanaan dalam pembuatan model. Maksudnya, ketikdakmampuan model kita dalam
mencakup semua realitas yang ada itu menjadikan kita harus berfokus membuat model
khusus untuk menjelaskan realitas yang menjadi tujuan penelitian kita saja.
(2) Mempunyai identifikasi tinggi. Artinya dengan data yang tersedia, parameter-parameter
yang diestimasi memiliki nilai yang unik (tunggal, berdiri sendiri) sehingga hanya akan ada
satu parameter saja.
(3) Keselarasan atau Goodness of fit. Khusus untuk analisis regresi, ialah menerangkan
sebanyak mungkin variasi variabel terikat dengan menggunakan variabel bebas dalam model.
Oleh karena itu, suatu model dikatakan baik jika indikator pengukur kebaikan model, yaitu
adjusted R square bernilai tinggi. Nah, disini biasanya banyak penelitian salah kaprah dalam
menjelaskan modelnya melalui nilai R square (koefisien determinasi) model. Banyak
penelitian empiris yang justru menggunakan R square saja, bukan adjusted R square. Coba
kita amati formula dari R square berikut :
Formula R square, sumber : Dok. Penulis
Bandingkan dengan formula adjusted R square berikut :
Formula Adjusted R square, sumber : Dok. Penulis
Terlihat jelas, bahwa perbedaan nilai R square dan adjusted R square adalah pada faktor
koreksi (derajat bebas). R square tidak memiliki faktor koreksi sehingga jika dalam model,
variabel bebas terus ditambah, maka nilainya akan terus membesar. Sementara itu,
penambahan variabel bebas belum tentu menaikkan angka adjusted R square sebab ia mampu
menjelaskan apakah proporsi keragaman variabel terikat (dependen) mampu dijelaskan oleh
variabel bebas atau tidak. Penambahan variabel bebas tentu belum menjadi jaminan nilai
adjusted R square meningkat sebab bisa saja terdapat variabel yang sebenarnya tidak mampu
menjelaskan proporsi keragaman variabel terikat malah masuk dalam model sehingga secara
implisit merusak model. Inilah biasanya yang banyak saya temui dalam artikel ilmiah dan
karya ilmiah, bahkan tesis juga pernah saya temukan.
(4) Konsistensi dengan teori. Model yang baik adalah model yang diharapkan sama persis
dengan teori yang menjadi rujukan literatur penelitian. Hal ini disebabkan penelitian yang
tidak mendasar pada teori yang ada akan justru menyesatkan penelitian-penelitian selanjutnya
(salah tetapi menjadi keumuman).
Kalau tidak ada landasan teori, berarti bukan disebut karya ilmiah dong
(5) Kekuatan prediksi. Validitas suatu model statistik berbanding lurus dengan kemampuan
model dalam memprediksi realitas kedepan. Oleh karena itu, diharapkan untuk memilih
model yang prediksi teoritisnya berasal dari penelitian empiris (ilmiah).
Demikian sekelumit ulasan mengenai model yang baik dalam penelitian ilmiah. Salam
Regresi dan Korelasi dalam Statistik
Halo semua, bagaimana kabar Anda ?
Semoga kita semua dalam kondisi sehat segar bugar, dan panjang umur untuk terus menimba
ilmu.
OK. Lansung saja, setelah saya menerangkan mengenai uji-uji asumsi dalam model Statistik,
kali ini saya akan menerangkan secara teoritis mengenai persamaan dan perbedaan lebih
lanjut mengenai Regresi dan Korelasi dalam statistika.
Sebenarnya antara regresi dan korelasi terdapat kemiripan meskipun dalam hal intepretasinya
berbeda. Persamaan antara regresi dan korelasi sebenarnya sangat tampak pada tujuan dari
alat analisis statistika tersebut. Regresi dan korelasi memiliki tujuan untuk mempelajari
hubungan antar variabel dalam penelitian.
Hanya itu ?. Ya, hanya itu. tidak terdapat lagi literatur yang menyebutkan persamaan dari
regresi dan korelasi.
Lalu, apa perbedaan antara regresi dan korelasi ?
Seperti yang sudah saya jelaskan pada artikel sebelumnya, tetapi kali ini akan saya perjelas
lebih rinci lagi bahwa perbedaan antara regresi dan korelasi adalah sebagai berikut :
Regresi
(1) Digunakan untuk mempelajari bentuk hubungan antar variabel melalui suatu persamaan
(bias Regresi Linier Sederhana, Regresi Linier Berganda, atau Regresi non Linier). Namun,
yang perlu ditekankan bahwa regresi menunjukkan hubungan kausalitas atau sebab-akibat
antara variabel bebas (independen) terhadap variabel terikat (dependen). Misalnya penelitian
mengenai pengaruh tingkat pendidikan terhadap besarnya pendapatan per kapita.
(2) Dapat mengukur seberapa besar pengaruh dari variabel bebas terhadap variabel terikatnya
(variabel satu terhadap variabel lainnya), dan bisa berdasarkan tandanya. Misalnya, kenaikan
harga BBM mengakibatkan penurunan (tanda negatif) pendapatan per kapita.
(3) Dapat digunakan untuk melakukan prediksi nilai suatu variabel berdasarkan variabel lain
(bisa hanya satu variabel bebas atau beberapa variabel bebas).
Korelasi
(1) Biasanya digunakan untuk mempelajari hubungan keeratan antar 2 variabel kuantitatif
berdasarkan angkanya, bukan tandanya. Ingat ! kalau keeratan lihat besarnya, bukan
tandanya.
(2) Dapat mengetahui arah hubungan yang terjadi {berbading lurus (tanda +), atau
berbanding terbalik (tanda -)}.
(3) Nilainya berkisar antara -1 sampai 1.
(4) Tidak bisa menyatakan hubungan kausalitas (sebab-akibat).
Demikianlah sekelumit ulasan mengenai persamaan dan perbedaan regresi dan korelasi.
Salam.
Uji Normalitas Model Statistik
Episode berikut ini, setelah saya menerangkan mengenai beberapa hal tentang sampling
penelitian, saya tertarik untuk membahas secara substansial atau teoritis mengenai beberapa
uji asumsi dalam proses pemodelan statistik, kali ini saya akan membahas terlebih dahulu
tentang uji kenormalan sebuah model penelitian (model statistik). Untuk uji yang lainnya
akan lebih lanjut saya bahas pada artikel berikutnya.
Kenormalan. Mungkin sudah banyak masyarakat yang mengerti tentang kenormalan. Normal
adalah sebuah kata sifat yang berarti sudah biasa (umum), kondisi stabil, atau kondisi
mendasar, bisa juga diartikan kondisi standar baku, dan mungkin banyak lagi maknanya.
Dalam statistika, uji kenormalan sebuah model hasil penelitian biasanya digunakan untuk
melihat apakah model sudah memenuhi kriteri standar/kenormalan atau belum. Apa yang
harus dinormalkan ?, nah, kebanyakan banyak peneliti salah kaprah dalam menguji mengenai
kenormalan. Yang mereka uji adalah datanya, kalau datanya normal maka pasti model yang
dibentuk normal. Ini kesimpulan yang kurang tepat. Justru yang dilihat atau diuji apakah
normal atau tidak itu adalah variabel error model statistik. Selain itu, pengujian kenormalan
model ada juga yang dengan menguji ekspektasi atau nilai harapan dari variabel terikat dari
model, ini juga sebenarnya kurang tepat, sebab antara variabel terikat dan variabel bebas itu
diasumsikan dependen sehingga di dalamnya mengandung komponen interaksi dan itu semua
terkacup dalam variabel error model. Hal ini sesuai dengan teori yang terdapat dalam
berjudul Applied Regression Anlysis third edition karya Draper Smith halaman 60-61 yang
menyatakan,
Now in performing the regression analysis we have made certain assumptions about the
errors; the usual assumptions are that the errors are independent, have zero mean, have
constant variance, and follow normal a distribution. The last assumptions is required for
making F-tests.
Hal yang sama juga terdapat dalam buku Hill dan Lim serta Berenson cetakan 2011 yang
berjudul Principal of Econometrics fourth edition.
Lalu, kenapa sih error harus normal ? kenapa harus normal ?
Sebab, dalam statistika segala bentuk distribusi, entah itu distribusi Chi-square, entah itu
distribusi F entah itu distribusi t atau yang lain, itu diperoleh dari penurunan distribusi normal
yang memiliki rata-rata nol (0) dan varians konstan. Namun, perlu diinga bahwa asumsi
kenormalan hanya berlaku untuk analisis statistik parametrik, berbeda dengan non-
parametrik, dia biasanya tidak harus lolos uji kenormalan.
Apa saja uji yang berguna untuk kenormalan ?
Anda bisa memakai uji Kolmogorov-Smirnof (K-S) dan Liliefors (biasanya di paket program
SPSS), Chi-Square, Saphiro-Wilks, Anderson-Darling serta Ryan-Joiner (sama dengan
Shapiro-Wilks) (biasanya di paket program Minitab), Jarque-Bera (biasanya di paket program
Eviews), dan yang paling sederhana bisa menggunakan Kurtosis (keruncingan data) dan
Skewness (kemencengan data). Ada banyak uji yang bisa Anda digunakan dan secara teoritis
bisa dipilih karena tujuannya sama, yaitu untuk menguji kenormalan error. Namun, perlu
Anda ketahui bahwa ketersediaan semua alat uji kenormalan tersebut memiliki formula
perhitungan dan asumsi tersendiri. Sejauh pengamatan saya, uji yang paling lemah dalam
mengukur kenormalan adalah uji Kolmogorov-Smirnof, tidak seperti uji Liliefors, uji K-S ini
dilihat dari segi asumsi nilai parameter populasi diketahui, sementara uji Liliefors yakni
dengan faktor koreksi terhadap uji K-S dengan mengasumsikan parameter populasi belum
diketahui sehingga diestimasi atau diperkirakan dari sampel.
Tapi jika Anda memakai uji K-S, ya sah-sah saja toh ada teorinya, tetapi akan lebih baik
minimal Anda menggunakan uji Liliefors dalam menguji kenormalan error model statistik
Anda.
Uji Homoskedastisitas Statistik
Kita sudah belajar mengenai konsep uji kenormalan model statistik (yang belum baca, bisa
klik disini). Selanjutnya saya akan mengulas mengenai konsep dari uji asumsi selanjutnya,
yaitu uji kehomogenan atau yang biasa disebut juga uji homoskedastisitas. Perlu diketahui
sebelumnya, dalam penamaan uji asumsi model yang benar adalah diambil dari nama
hipotesis nol pengujian. Kalau dalam uji kenormalan, H nol atau hipotesis nolnya adalah
bahwa error atau galat model itu mengikuti distribusi normal, maka nama ujinya adalah uji
normalitas atau kenormalan. Kalau episode kali ini, hipotesis nol (H0) nya adalah error
model itu memiliki varians (ragam) yang konstan (homogen) sehingga namanya adalah uji
homoskedastisitas, bukan sebaliknya uji heteroskedastisitas.
Uji homoskedastisitas digunakan dalam menguji error atau galat dalam model statistik untuk
melihat apakah varians atau keragaman dari error terpengaruh oleh faktor lain atau tidak,
misalnya untuk analisis data runtun waktu, apakah keragaman errornya terpangaruh oleh
waktu atau tidak, atau kalau datanya cross section maka apakah varians dari error berubah-
ubah setidap amatan atau tidak. Biasanya uji statistik yang digunakan diantara adalah uji
Levene (SPSS), One way Anova (SPSS), uji korelasi Spearman (SPSS), uji Breush-Pagan
Goodfrey, uji Harvei, uji Glejser, uji ARCH, dan uji White pada paket program Eviews.
Inilah semua alat yang tersedia, layaknya Anda akan memotong sesiung bawang, Anda
memotong mau pakai alat yang mana, ada pisau, silet, gergaji, golok, atau keris. Anda tingga
memilih selama fungsinya sama, namun alangkah baiknya Anda mengerti berbedaan dari
masing-masing alat tersebut.
Lalu, kenapa error harus homogen ?
Ini melanjuti asumsi kenormalan, bahwa asumsi homogen harus terpenuhi supaya model
tidak berubah untuk setiap amatan atau tidak dipengaruhi oleh waktu, maka haruslah ia
variansnya tetap atau konstan. Sebab jika asumsi homogen ini tidak terpenuhi maka
kesimpulan model akan tidak tepat. Oleh karena itu, varians error model harusnya homogen
untuk setiap amatan (sama).
Biasanya, yang menyebabkan asumsi baik normalitas dan asumsi homoskedastisitas tidak
terpenuhi dalam model statistik adalah adanya pencilan data atau outlier data. Oleh sebab itu,
sebelum memodelkan sebaiknya Anda harus mengeksplorasi data Anda terlebih dahulu untuk
mengetahui adanya outlier atau tidak. Anda bisa melihat sebaran data Anda melaui plot atau
box-plot. Outlier dalam data biasanya memerlukan sebuah analisis statistik yang robust
(metode yang kuat dan resisten terhadap outlier).
Untuk mengatasi adanya outlier, Anda bisa melakukan transformasi pada data Anda, bisa
dengan ln (baca : len) atau melogaritmanaturalkan nilai data, diakarkan, atau bisa juga
dengan transformasi Box-Cox dengan menggunakan paket program olah data.
Namun, dalam tahapan analisis statistik, jika memang data yang outlier tersebut kurang
penting menurut tujuan analisis Anda, Anda bisa saja mengeliminasinya meskipun
dampaknya jumlah runtun waktu atau jumlah amatan pada model Anda nantinya berkurang
akibat pengeliminasian tersebut. Jika outlier tersebut terkait erat dengan analisis Anda bisa
saja Anda tetap mengikutkannya dalam model (meskipun penuh risiko pada ujii asumsi),
tetapi akan sangat menarik bila data outlier itu Anda kaji secara tersendiri, misalnya analisis
pendapatan masyarakat pulau Madura sebelum dan sesudah Jembatan Suromadu dibangun,
atau bisa juga analisis pendapatan asli daerah sebelum dan sesudah UU Otonomi Daerah
diberlakukan, atau analisis terhadap pertumbuhan ekonomi Indonesia sebelum dan sesudah
krisis tahun 1997-1998.
Demikian ulasan singkat mengenai uji asumsi kedua kali ini, nantikan ulasan teoritis
mengenai uji model statistik yang lain pada artikel episode berikutnya. Salam.
Uji Non-Autocorrelation Model Statistik
Sebelum melanjutkan pembahasan selanjutnya mengenai uji non-autokorelasi. Perlu

diketahui beda antara regresi dan korelasi. Regresi adalah hubungan sebab-akibat antara
variabel bebas (independen) terhadap variabel terikat (dependen). Intepretasinya adalah jika
variabel bebas berubah (naik/turun) 1 satuan, maka mengakibatkan variabel terikatnya
berubah (naik/turun) sebesar sekian satuan (tergantung hasil koefisien beta pada variabel
bebas hasil running model. Sedangkan korelasi adalah hubungan dua variabel atau bisa lebih
yang menunjukkan arah hubungannya saja (positif/negatif). Intepretasinya, variabel X
tampak berbanding terbalik dengan variabel Y, atau variabel X berbanding lurus terhadap
variabel Y, atau jika variabel X naik, terdapat kecenderungan variabel Y menurun atau
sebaliknya.
Lanjut !.
Sekarang saatnya membahas uji asumsi model statistik, yaitu uji non-aoutokorelasi.
Sebenarnya dari segi penamaan, itu yang benar adalah non-otokorelasi atau non-autokorelasi,
atau non-autocorrelation ?
Nah, yang benar itu adalah uji non-autocorrelation (bahasa inggris), atau ada pendapat
lain ?..hehe.
OK. Uji ini bertujuan untuk mengidentifikasi apakah variabel galat atau error model statistik
saling berhubungan (berkorelasi) atau tidak. Korelasi yang dimaksud adalah bahwa antar
error amatan satu dengan amatan yang lainnya tidak terdapat hubungan yang kuat apalagi
sempurna. Nilai korelasi biasanya paling minimal -1 dan paling maksimal adalah 1. Jika
korelasi antara dua amatan error, misalnya amatan ke-1 dan amatan ke-2 besarnya 0,89,
maka ini secara langsung memberi sinyal pada kita bahwa model kita bakal terkena gangguan
autocorrelation.
Uji yang biasa dipakai dalam mengukur ada tidaknya atau lolos tidaknya uji non-
autocorrelation adalah uji Durbin-Watson (uji parametrik) dan menurut dengan lima kondisi
daerah uji sebagai berikut :
Tabel Daerah Kritis Uji Durbin-Watson, sumber : Dok.Penulis dalam Gujarati (2004)
Nilai d adalah statistik yang tertera pada hasil output olah data uji non-autocorrelation (DW)
biasanya pada SPSS. Tetapi ada juga pendapat Gujarati (2004), bahwa dikatakan telah lolos
uji DW ketika besar nilai d-statistik nya sama dengan atau mendekati 2.
Meskipun demikian, uji DW terkadang mengandung kendala ketika d-statistik jatuh pada
daerah keraguan. Maka daripada itu, menurut Ibrahim (2008) dalam Nursiyono (2013), untuk
memastikan bahwa uji DW telah terpenuhi bisa menggunakan uji run atau run test. Cara kerja
uji ini adalah dengan merangking nilai-nilai setiap error amatan kemudian diuji dengan
instrumen non-parametrik dan apabila nilai probabilitas outputnya lebih dari nilai alpha yang
ditentukan peneliti, maka error model telah lolos dari gangguan autocorrelation.
Demikian sekilas ulasan mengenai uji non-autocorrelation error model statistik. Nantikan
ulasan konsep dan teori uji model statistik pada episode selanjutnya. Salam.
Uji Non-Multikolinearitas Model Statistik
Setelah membahas mengenai ketiga uji asumsi, kini saatnya membahas mengenai uji asumsi
utama yang terakhir, yaitu uji non-Multikolinearitas. Multikolinearitas menunjukkan adanya
hubungan linier yang sempurna dan pasti antar variabel bebas (independen) yang
menjelaskan variabel terikat (dependen) dalam model, terutama regresi. Keberadaan
gangguan ini menyebabkan estimator yang dihasilkan masih tidak bias dan baik untuk
digunakan dalam memprediksi nilai parameter, namun menyebabkan varians (keragaman)
model akan besar.
Gangguan Multikolinearitas ini timbul umumnya dikarenakan penambahan jumlah variabel

bebas (independen) sehingga berdampak pada varians dan covarians model yang besar.
Dalam tahapan intepretasi, Multikolinearitas dapat menimbulkan kesalahan, intepretasi model
yang menunjukkan hubungan sebab akibat menjadi tidak pasti, bahkan salah. Harusnya
pendapatan dan pendidikan memengaruhi jumlah konsumsi rokok per hari, malah sebenarnya
pendidikan lebih besar menentukan jumlah pendapatan sebab korelasi keduanya sangat kuat.
Oh, iya. Untuk melihat secara langsung ada tidaknya Multikolinearitas ini, Anda bisa melihat
besarnya korelasi antar variabel, kalau tinggi maka siap-siap model Anda akan terancam tidak
lolos uji asumsi non-Multikolinearitas ini sehingga Anda harus mengganti model atau malah
ganti analisis yang lain, misalnya analisis Komponen Utama (AKU) atau Analisis Faktor
(AF) yang mengakormodir gejala Multikolinearitas.
Uji statistik yang biasa digunakan dalam melihat ada tidaknya gejala Multikolinearitas adalah
nilai Variance Inflation Factor (VIF), biasanya adanya di SPSS langsung tersedia nilai VIF
ini. Menurut Neter (1989), Multikolinearitas terjadi saat nilai VIF > 10, namun menurut
Nahcrowi dan Usman (2006), Multikolinearitas terjadi saat nilai VIF > 5. Dari dua teori ini
Anda bisa memilih salah satu, toh, masing-masing memiliki landasan yang jelas. Atau Anda
bis saja secara manual menghitunya sendiri dengan memakai formula sebagai berikut :
Formula VIF, sumber : Dok. Penulis
dengan R kuadrat k adalah koefisien determinasi variabel ke-k yang diregresikan dengan
variabel yang lainnya, yakni sebagai (p - 2) variabel dalam model. P adalah parameter, kalau
dalam regresi itu jika terdapat 4 variabel bebas berarti terdapat 4 parameter estimasi sehingga
dengan meregresikan setiapp dua kombinasi dari 4 variabel itu berarti terdapat sebanyak 6
buah R-k (4 C 2 = 6), lalu masing-masing R dikuadratkan lalu dimasukkan dalam formula
tersebut. Kalau sabar, pasti mudah.
OK. Demikianlah, ulasan singkat mengenai uji-uji asumsi yang harus dipenuhi dalam proses
memilih modal statistik terbaik dalam penelitian ilmiah. Pembahasan mengenai hal-hal yang
terkait lainnya akan diulas pada artikel episode selanjutnya. Salam.
Analisis Regresi Linier
Analisis sederhana yang biasanya dipakai dalam penelitian adalah analisis regresi atau lebih
ngetrend dipanggil anareg. Anareg adalah sebuah analisis untuk mempelajari hubungan
sebab-akibat antar variabel dengan persamaan. bentuk dari anareg sendiri bisa linier
sederhana yang hanya mengandung satu variabel bebas, linier berganda dengan lebih dari
satu variabel bebas, atau regresi non-linier. Dalam konsep anareg, yang dimaksud linier
adalah linier dalam parameter, bukan linier dalam variabel. Bentuk umum persamaan anareg
diberikan sebagai berikut.
Model Umum Regresi Linier, sumber foto : Dok. Penulis
Berbeda dengan bentuk berikut yang tidak linier dalam Parameter
Model Regresi Tidak Linier dalam Parameter, sumber foto : Dok. Penulis
Selain memiliki fungsi memperlihatkan hubungan sebab-akibat, anareg juga memiliki

keunggulan mampu melihat besarnya variabel yang memengaruhi variabel yang lain, dan ia
mampu digunakan untuk meramalkan nilai suatu variabel berdasarakan data yang telah
tersedia.
Variabel dalam anareg dibagi dalam 2 kategori, yaitu varaibel dependen dan variabel
independen. Variabel dependen atau biasa disebut juga variabel terikat adalah variabel yang
nilainya ditentukan oleh variabel lain. Sebab ketergantungan inilah, variabel dependen juga
disebut variabel random atau stochastic. Sementara itu, variabel independen atau biasa
disebut variabel bebas adalah variabel yang nilainya dapat ditentukan secara bebas
berdasarkan dugaan bahwa variabel tersebut memiliki pengaruh terhadap variabel dependen.
Oleh karena itu, variabel independen disebut juga variabel fixed atau non-stochastic.
Dalam anareg, variabel dependen atau yang disimbolkan Y hendaknya berjenis data
kuantitatif atau numerik sementara variabel bebas atau yang disimbolkan X dapat berupa data
kuantitatif (numerik) atau bisa juga kualitatif atau kategorik. Nah, data dependen bisa
diperoleh dari jenis penelitian (eksperimen) atau survei (observasi) di lapangan. Bedanya,
kalau data eksperimen itu diperoleh dengan melakukan kontrol terhadap variabel independen,
sedangkan data observasi tidak.
Lebih lanjut, sebenarnya konsep dasar dari analisis regresi dinyatakan pada suatu nilai
amatan (X) tertentu yang acak terhadap banyaknya kemungkinan nilai dari variabel terikat
(Y) yang muncul tersebar dan mengikuti distribusi normal dengan rata-rata E(Y) dan varians
(sigma kuadrat) tertentu.
Amatan mengikuti Distribusi Normal, sumber foto : Dok. Penulis
Nilai rata-rata atau E(Y) diasumsikan berubah mengikuti perubahan nilai dari amatan (X),
dan tergambarkan dalam bentuk garis lurus (linier). Dan, nilai varians pada setiap amatan
bernilai sama tidak teroengaruh perubahan waktu. Secara grafis digambarkan sebagai berikut.
Prinsip Dasar Garis Regresi, sumber foto : Dok. Penulis
Dalam mendekati nilai Parameter yang sebenarnya, dalam analisis regresi biasanya
digunakan sebuah metode yang umum disebut Ordinary Least Square (OLS), yaitu dengan
meminimalkan jumlah kuadrat dari eror/galat regresi sebagai berikut.
Metode OLS Regresi Linier, sumber foto : Dok. Penulis
Sifat - sifat metode OLS adalah :

(1) Gauss - Markov menilai, jika semua asumsi terpenuhi dalam regresi maka estimator yang
dihasilkan akan bersifat BLUE, apa itu BLUE ?
BLUE adalah singkatan dari Best, Linear, Unbiased Estimator. Best artinya memiliki varians
yang paling minimum diantara nilai varians alternatif setiap model yang ada. Linear artinya
linier dalam variabel acak (Y). Unbiased artinya tidak bias atau nilai harapan dari estimator
sama atau mendekati nilai parameter yang sebenarnya.
Sehingga dengan metode OLS didapatkan sebuah persamaan regresi untuk mengestimasi
model regresi yang sebenarnya sebagai berikut.
Persamaan Regresi Hasil OLS, sumber foto : Dok. Penulis
Lantas, bagaimana prosedur dalam analisis regresi ?
Nah, sebelum membuat sebuah persamaan regresi alangkah baiknya kita mengetahui
prosedur dalam analisis regresi, yaitu :
(1) Mengidentifikasi hubungan antar variabel yang didasarkan oleh teori yang ada, apakah
berpengaruh atau tidak, signifikan atau tidak.
(2) Membentuk model dari semua kombinasi variabel terkait.
(3) Pengujian keberartian parameter (mencakup keberartian variabel dalam persamaan)
(4) Mengamati ketepatan persamaan yang telah dibuat
(5) Uji asumsi persamaan (jika pada tahap ini, ada uji asumsi yang terlanggar, maka teliti
ulang variabel, tambah variabel atau cari kembali persamaan lain dari beberapa kombinasi
variabel yang ada), ulangi sampai menemukan persamaan yang tepat dalam mengukur model
regresi yang sebenarnya.
Asumsi Regresi Linier
Beberapa asumsi yang harus lolos dalam analisis regresi linier sebagai berikut :
(1) variabel terikat (Yi) adalah variabel yang bersifat acak atau random atau stochastic.
(2) variabel bebas (Xi) adalah variabel yang bersifat tetap, sudah ditentukan dan bukan
random alias non-stochastic.
(3) nilai harapan error / galat regresi adalah nol atau E(ui) = 0
(4) nilai harapan dari varians konstan atau tidak berubah-ubah setiap amatan, atau E(ui,uj) =
sigma kuadrat, dan i = j (Homoskedastisitas)
(5) tidak terdapat hubungan linier sempurna antar error atau galat regresi atau E(ui,uj) = 0,
dimana i tidak sama dengan j (non-autocorrelation).
(6) Error atau galat regresi merupakan variabel random/acak (stochastic) yang berdistribusi
normal dan identik setiap amatan dengan rerata nol dan varians sigma kuadrat,
Error/Galat Regresi Mengikuti Distribusi Normal iid, sumber foto : Dok. Penulis
Nilai parameter dari model regresi didapatkan dengan formulai berikut :
(1) Untuk estimasi beta satu
Estimator Beta satu, sumber foto : Dok. Penulis
(2) Untuk estimasi beta nol
Estimator Beta Nol, sumber foto : Dok. Penulis
Untuk regresi linier berganda, setiap parameter diturunkan dari metode mencari estimator
beta satu dan beta nol lebih lanjut.
Lebih lanjut, terdapat sebuah pendekatan yang biasa digunakan dalam analisis regresi, yaitu
pendekatan analisis of variance (ANOVA) yang awalnya didapatkan dari ilustrasi berikut.
Ilustrasi Pendekatan Anareg dengan Anova, sumber foto : DOk. Penulis
Jika diamati, jumlah kuadrat dari simpangan amatan terhadap garis regresi akan
menghasilkan sum square of error (SSE) dengan berderajat bebas (n - 2), jumlah kuadrat dari
simpangan garis regresi terhadap rata-ratanya dihasilkan sum square of regression (SSR)
dengan derajat bebas 1. Dan jumlah kuadrat dari simpangan amatan terhadap rata-rata
menghasilkan sum square of total (SST) dengan derajat bebas (n - 1).
Metode Pemilihan Model terbaik
Dalam anareg, secara umum terdapat 3 jenis metode pemilihan model terbaik, yaitu :
(1) Backward elimination, dengan memasukkan semua variabel bebas (Xi), dan secara
bertahap mengeluarkan satu per satu variabel bebas yang tidak berpengaruhi secara signifikan
atau berarti dalam persamaan regresi. (tidak signifikan mengurangi SSE dan menambah
adjusted R squared).
(2) Forward elimination, dengan memasukkan satu per satu variabel bebas (Xi) ke dalam
model menurut urutan nilai korelasi yang terurut dari tinggi ke yang paling rendah
(berhubungan linier dengan Yi), seterusnya sehingga mendapatkan persamaan regresi yang
baik dan signifikan secara statistik atau sudah tidak ada lagi variabel yang masuk dalam
persamaan.
(3) Stepwise, pada dasarnya sama dengan forward hanya saja, variabel yang gagal masuk
dalam persamaan bisa saja dimasukkan kembali dalam persamaan pada tahap selanjutnya.
Seterusnya sehingga mendapatkan persamaan regresi yang baik dan signifikan secara
statistik.
Bahasan terkait uji asumsi dapat dibaca pada link ini
Demikian sekelumit ulasan mengenai analisis regresi linier, nantikan artikel statistika lainnya
pada episode selanjutnya.
Indikator Survei yang Baik
Setelah kita membahas mengenai hubungan ukuran sampel dengan eror pada tulisan
sebelumnya (lihat disini), Sekarang kita lanjut pada pembahasan mengenai cara melihat
apakah estimasi kita sudah reliabel dan valid atau belum.
Reliabel atau reliabilitas merupakan suatu pengukuran yang memiliki ketelitian atau presisi
yang baik. Dalam kegiatan survei seperti quick count, untuk meningkatkan presisi dapat
dilakukan dengan cara mendesain survei dengan baik dan tatacara pengambilan sampel yang
sesuai kaidah statistika. Presisi juga sangat berhubungan dengan margin of error (moe)
penelitian sehingga semakin besar jumlah sampel, maka akan mempersempit selang
kepercayaan (confident interval yang sudah saya ternagkan sebelumnya disini). Namun, hasil
pengukuran yang reliabel belum menjamin bahwa pengukuran sudah bisa dikatakan valid.
Valid atau validitas merupakan hasil pengukuran yang tidak mengandung bias atau
penyimpangan sedikit pun dari parameter. Pada survei dalam bentuk quick count, sebuah
lembaga survei estimatornya mampu dikatakan sudah valid apabila nanti pada 22 Juli,
hasilnya sama persis dengan keputusan KPU yang notabenenya menggunakan populasi.
Meskipun ada pula estimator yang dihasilkan valid tetapi kurang reliabel sebab margin of
errornya besar sehingga selang interval kepercayaannya lebih lebar.
Bias merupakan simpangan atau terdapat perbedaan antara estimator dengan parameternya
(true value). Oleh karena itu, lembaga survei yang secara historis sudah sering melakukan
kegiatan survei quick count sudah terjamin secara pengalamannya sehingga sudah
mengandung kemungkinan besar biasnya kecil. Oleh karena itulah, survei dari lembaga yang
satu dengan lembaga yang lain harus dikonfirmasikan seluruh hasilnya untuk mendapatkan
keputusan yang dominan dari seluruh hasil survei.
Jika kita masuk ke dalam konsep reliabel dan validitas, maka kita harus mengerti mengenai
presisi dan akurasi. Suatu desain survei atau penelitian dikatakan memiliki presisi yang baik
jika variabel erornya kecil. Variabel eror merupakan besarnya penyimpangan estimator
sebuah survei terhadap rata-rata estimator beberapa survei yang diharapkan. Rata-rata
lembaga survei menyimpulkan yang menang adalah A, ternyata terdapat beberapa lembaga
survei yang berbeda dari hasil keputusan mayoritas, inilah yang dimaksud terdapat variabel
eror (tidak harus dengan sampling yang sama). Oleh karena itu, untuk menghindari variabel
eror yang besar, maka lembaga survei sangat diharapkan menambah jumlah sampelnya,
bukan berdasarkan TPS, tetapi berdasarkan pemilih. Masalahnya dalam pemilu yang menjadi
unit observasi (yang dimintai informasi) adalah pemilih yang sudah terdaftar (DPT).
Sedikit berbeda dengan akurasi atau akurat. Akurasi adalah hasil pengukuran yang memenuhi
nilai variabel erornya yang kecil dan biasnya juga kecil sehingga total erornya kecil. Perlu
diketahui bahwa untuk meminimalisir adanya bias, maka yang harus dilakukan adalah
dengan memperbaiki operasional sampling. Sebab bias pada praktiknya susah untuk dihitung
karena berkaitan dengan human eror atau kesalahan manusia. Lebih Jelasnya Anda dapat
memerhatikan gambar berikut untuk mempermudah memahami istilah yang sudah saya
terangkan berdasarkan hasil tembakan beberapa peluru pada sasarannya berikut.
Gambar 1, sumber : Dok. Penulis

Dan untuk ilustrasi mudah dalam memahami reliabilitas dan validitas dapat Anda amati
gambar berikut.
Gambar 4. Reliabilitas dan Validitas, sumber : Dok.Penulis
Tampak estimator desain survei A dan C terletak disisi kanan parameter sebenarnya, sehingga
A dan C memiliki bias. Sementara itu, desain survei B dan D tepat pada nilai parameter yang
sebenarnya. Desain A karena tidak memiliki presisi yang baik dan juga memiliki bias maka A
dikatakan belum reliabel dan belum valid. Desain B, karena sudah valid tetapi belum reliabel
sebab belum presisi (tampak variasinya besar yang ditunjukkan oleh kurva yang intervalnya
lebih panjang). Desain C, sudah reliabel sih, tetapi masih belum valid sebab C tampak
terdapat bias terhadap parameter sebenarnya. Dan desain survei yang hasilnya paling bagus
adalah desain D, dia memiliki presisi (variasinya kecil, tampak lebih sempit kurvanya) dan
tidak memiliki bias sebab nilai estimator yang dihasilkan oleh desain D sama dengan
parameter sebenarnya.
Nah, demikianlah ulasan mengenai desain survei khusus untuk penelitian dan lembaga survei
quick count.
Metode Sampling yang Ramping
Setiap kegiatan yang dilakukan oleh manusia tidak akan pernah luput dari yang namanya
kesalahan/galat/eror/dosa/lupa/ istilah sejenisnya. Seperti yang sudah saya terangkan
sebelumnya di Statistika bagi Pemula pada link ini.
Kini saatnya meneruskan pembahasan mengenai metode sampling.
Sampling adalah kegiatan penarikan sampel dari populasi yang menjadi target penelitian
dengan menggunakan metode yang sesuai dengan tujuan penelitian. Sampling tentu erat
kaitannya dengan Sensus dan Survei, hanya saja saya akan mengulas perihal hubungan antara
jumlah (ukuran) sampel Survei dengan kesalahan/eror/galat dalam sampel.
Dalam kegiatan survei, dipastikan peneliti sangat memperhitungkan biaya pencacahan atau
penelitian, sebab tidak mungkin bagi peneliti apalagi sendirian mencacah seluruh populasi.
Selain itu, waktu juga ikut andil menjadi kendala perlunya dilaksanakan survei. Nah, perlu
kita ketahui bahwa dalam survei jumlah sampel (katakanlah n) yang semakin mendekati
jumlah populasi (katakanlah N) akan menyebabkan galat/kesalahan pengambilan sampel
kecil. Dalam kondisi inilah dikatakan sampling eror kecil.
Namun, meskipun n mendekati nilai N (populasi) tetapi dengan bertambahnya sampel maka
penelitian juga memerlukan tamabahan tenaga, biaya, serta pelatihan yang baik dan benar.
Khusus pelatihan, ini haruslah direncanakan secara matang sebab jika tidak akan
memperbesar kesalahan karena faktor petugas (human eror), misalnya salah cacah, lewat
cacah, dobel cacah, dan hal lain terkait kegiatan petugasnya. Kondisi inilah yang dikatakan
non-sampling eror tinggi.
Dengan demikian, pada sensus kita akan dapati kecenderungan tingkat non-sampling eror
tinggi sementara pada survei kita akan menemui kendala kemungkinan nilai sampling eror
yang tinggi. Oleh karena itulah diperlukan yang namanya survei contoh sebagai instrumen
percontohan sebelum melakukan penelitian. Survei contoh ini memiliki fungsi meminimalisir
kedua eror dari survei dan sensus, dengan grafik sebagai berikut.
Grafik Hubungan Jumlah Sampel dan Eror Survei dan Sensus, Sumber : Dok. Penulis
Nah, untuk mencapai nilai sampling eror dan non-sampling eror yang sama-sama rendah,
maka peneliti harus menentukan jumlah sampel optimum penelitiannya untuk mencapai
presisi yang baik dengan menggunakan kendala biaya dan kondisi populasi serta manajemen
pelaksanaan lapangan dengan baik. Pelatihan petugas harus intensif dengan biaya yang
seminim mungkin.

Statistika Bagi Pemula

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Statistika Bagi Pemula

Diunggah oleh

Hak Cipta:

Format Tersedia

Statistika bagi Pemula

OPINI | 11 July 2014 | 09:42 Dibaca: 234 Komentar: 6 1

Selang Kepercayaan statistik, sumber : Dok. penulis

Berdasarkan literatur statistika, db didefinisikan secara keilmuan statistika sehingga kurang

Derajat bebas (db) memiliki beberapa pengertian dalam statistika, yaitu :

Demikian sekelumit ulasan mengenai derajat bebas (db) dalam statistika.

OK. Langsung saja kita bahas.

Uji Normalitas Terlanggar

Lalu, bagaimana cara melihat adanya pelanggaran asumsi kenormalan ?

Uji Homoskedastisitas Terlanggar

Plot Uji Heteroskedastisitas, sumber : Dok. Penulis

Uji Non-Autocorrelation Terlanggar

Nah, perlu diketahui gejala terlanggarnya asumsi non-autocorrelation biasanya terdapat

Uji Non-Multikolinearitas Terlanggar

Cara untuk mendeteksi adanya gejala multikolinearitas adalah :

(3) Melihat nilai VIF (sudah diulas pada artikel sebelumnya).

(2) Menggunakan regresi ridge.

Bagaimana sih model statistik itu dikatakan baik ?

Formula R square, sumber : Dok. Penulis

Bandingkan dengan formula adjusted R square berikut :

Formula Adjusted R square, sumber : Dok. Penulis

Halo semua, bagaimana kabar Anda ?

Lalu, apa perbedaan antara regresi dan korelasi ?

(3) Nilainya berkisar antara -1 sampai 1.

(4) Tidak bisa menyatakan hubungan kausalitas (sebab-akibat).

Lalu, kenapa sih error harus normal ? kenapa harus normal ?

Apa saja uji yang berguna untuk kenormalan ?

Lalu, kenapa error harus homogen ?

Sebelum melanjutkan pembahasan selanjutnya mengenai uji non-autokorelasi. Perlu

Gangguan Multikolinearitas ini timbul umumnya dikarenakan penambahan jumlah variabel

Formula VIF, sumber : Dok. Penulis

Model Umum Regresi Linier, sumber foto : Dok. Penulis

Berbeda dengan bentuk berikut yang tidak linier dalam Parameter

Selain memiliki fungsi memperlihatkan hubungan sebab-akibat, anareg juga memiliki

Amatan mengikuti Distribusi Normal, sumber foto : Dok. Penulis

Prinsip Dasar Garis Regresi, sumber foto : Dok. Penulis

Metode OLS Regresi Linier, sumber foto : Dok. Penulis

Sifat - sifat metode OLS adalah :

Persamaan Regresi Hasil OLS, sumber foto : Dok. Penulis

Lantas, bagaimana prosedur dalam analisis regresi ?

(2) Membentuk model dari semua kombinasi variabel terkait.

(3) Pengujian keberartian parameter (mencakup keberartian variabel dalam persamaan)

(4) Mengamati ketepatan persamaan yang telah dibuat

Asumsi Regresi Linier

Nilai parameter dari model regresi didapatkan dengan formulai berikut :

(1) Untuk estimasi beta satu

Estimator Beta satu, sumber foto : Dok. Penulis

(2) Untuk estimasi beta nol

Estimator Beta Nol, sumber foto : Dok. Penulis

Metode Pemilihan Model terbaik

Bahasan terkait uji asumsi dapat dibaca pada link ini

Gambar 2, sumber : Dok. Penulis

Gambar 3, sumber : Dok. Penulis

Gambar 4. Reliabilitas dan Validitas, sumber : Dok.Penulis

Kini saatnya meneruskan pembahasan mengenai metode sampling.

Anda mungkin juga menyukai