Anda di halaman 1dari 98

Corat Coret

Catatan Statistisi Pemula

Pardomuan Robinson Sihombing, SST, M.Stat

Penerbit Yayasan Sahabat Alam Rafflesia


Corat Coret
Catatan Statistisi Pemula

Penulis:
Pardomuan Robinson Sihombing, SST, M.Stat

ISBN:
978-623-427-007-5

Desain Sampul/Tata Letak:


Purnama

Hak Cipta © 2021, pada penulis


Hak publikasi pada
Penerbit Yayasan Sahabat Alam Rafflesia.
Dilarang memperbanyak, memperbanyak sebagian atau
seluruh isi dari buku ini dalam bentuk apapun, tanpa
izin tertulis dari penerbit.
Tahun 2021
Penerbit:
Yayasan Sahabat Alam Rafflesia
Anggota IKAPI No. 002/Anggota Luar Biasa/BENGKULU/2019
Bengkulu - Yogyakarta
Kontak: +62 852 33833 290
Email: salamrafflesia@gmail.com
Kata Pengantar

Puji dan syukur Penulis panjatkan kepada Tuhan


Yang Maha Esa, buku Corat-Coret Catatan Statistisi
Pemula dapat diterbitkan. Buku ini berisi tentang
pemahaman statistik secara general. Buku ini merupakan
kompilasi opini penulis yang ditayangkan pada media
online Kumparan.
Statistika sering dianggap sebagai suatu ilmu yang
komplek dan rumit bagi sebagian khalayak umum.
Terkadang mata kuliah statistika menjadi mata kuliah
yang menakutkan bagi mahasiswa. Selain itu bagi para
penulis juga terkadang metode-metode statistik dianggap
begitu menyulitkan dalam membuat suatu karya ilmiah
sehingga metode yang digunakan hanya sebatas metode
umum saja. Terkadang banyak metode yang tidak sesuai
dengan peruntukan dan syarat/ asumsi penggunaan
yang masih digunakan dalam berbagai penelitian.
Buku ini hadir memberikan gambaran umum
tentang statistik. Dalam buku ini tidak menampilkan
rumus-rumus statistik dan aplikasi penggunaan
software. Buku ini memberikan panduan mengenai
berbagai macam metode analisis yang dapat digunakan
dalam berbagai bidang dan berbagai kondisi data. Dalam
tulisan dibuat flowchart/ mapping dalam berbagai
metode analisis yang digunakan.
Penulis menyadari bahwa buku ini masih jauh dari
kata sempurna. Sehingga penulis, sangat mengharapkan
kritik dan saran dari pembaca demi penyempurnaan
buku ini ke depan. Akhir kata penulis berharap, buku ini
dapat menambah referensi dan pemahaman pembaca
akan metode statistika.

Penulis

iii
Daftar Isi

KATA PENGANTAR III


DAFTAR ISI IV
PUBLIKASI ILMIAH, ANTARA KEWAJIBAN DAN KENDALA BAGI
DOSEN DAN PENELITI 1
PENELITIAN DAN STATISTIK 5
SOFTWARE-SOFTWARE STATISTIK 14
BERBAGAI UJI KOMPARASI DALAM STATISTIK 19
BERBAGAI JENIS ANALISIS KORELASI BERDASARKAN JENIS
DATANYA 24
BAGAIMANA MEMILIKI MODEL REGRESI YANG TEPAT SESUAI
DATA YANG DIMILIKI? 29
ASUMSI KLASIK DALAM MODEL REGRESI LINIER KLASIK 34
REGRESI BINARY LOGISTIK DAN APLIKASINYA 41
REGRESI POISSON DAN APLIKASINYA 45
ANALISIS DATA DERET WAKTU 48
ANALISIS REGRESI PADA DATA PANEL 57
ANALISIS REGRESI SPASIAL 62
ANALISIS CLUSTER DAN APLIKASINYA 66
ANALISIS DISKRIMINAN DAN APLIKASINYA 71
SEM PLS DENGAN SMARTPLS 74
ANALISIS KLASIFIKASI 78
RANCANGAN PERCOBAAN 82

iv
METODE SELEKSI VARIABEL 86
DAFTAR PUSTAKA 88
BIODATA PENULIS 90

v
Publikasi Ilmiah, Antara Kewajiban dan Kendala bagi
Dosen dan Peneliti

Menurut PP 37 Tahun (2009) tentang dosen, dosen


didefinisikan sebagai pendidik profesional dan ilmuwan
dengan tugas utama mentransformasikan, mengembangkan,
dan menyebarluaskan ilmu pengetahuan, teknologi, dan seni
melalui pendidikan, penelitian, dan pengabdian kepada
masyarakat. Sebagaimana definisi di atas, seorang dosen
memiliki kewajiban melaksanakan Tri Dharma perguruan
tinggi dengan unsur-unsur utama terdiri dari pendidikan dan
pengajaran, penelitian dan pengabdian masyarakat. Hal ini
akan dilaporkan dalam satu semester ke depan sebagai beban
kerja dosen (BKD).
Salah satu bagian kewajiban Tri Dharma yang sering
sekali menjadi kendala bagi dosen adalah penelitian, di mana
seorang dosen diharapkan dapat mengaplikasikan ilmunya
dalam penelitian yang akan dipublikasikan dalam seminar
ilmiah maupun jurnal. Ada banyak kendala yang sering sekali
dihadapi oleh para dosen dalam melakukan kewajiban dalam
melaksanakan penelitian. Kendala dapat berupa dari sisi
teknis dan substansi dalam penelitian.
Kendala
Dari sisi teknis, salah satu kendala yang sering
dikeluhkan oleh para dosen adalah keterbatasan waktu. Pada
banyak kasus, karena keterbatasan dosen mata kuliah tertentu,
para dosen biasanya lebih banyak menghabiskan waktunya
untuk mengajar sehingga tidak memiliki waktu luang untuk
melakukan penelitian. Kendala lainnya yang sering dihadapi
adalah masalah pembiayaan, di mana sering sekali jurnal yang
dituju terutama yang bereputasi nasional maupun
internasional memerlukan biaya publikasi yang cukup besar.
Dari sisi substansi, beberapa kendala yang dihadapi seperti

Pardomuan Robinson Sihombing | 1


keterbatasan dalam mencari referensi, kemampuan dalam
penulisan jurnal dalam bahasa internasional, tingkat plagiasi
penulisan yang masih tinggi, dan jurnal target yang dituju.
Solusi
Beberapa hal yang dapat dilakukan untuk mengatasi
hal tersebut juga dapat ditilik dari sisi teknis dan dari sisi
substansi penulisan. Permasalahan keterbatasan waktu dan
pembiayaan dapat diatasi dengan kolaborasi bersama penulis
lainnya. Kolaborasi antar penulis, baik antar disiplin ilmu
maupun lintas instansi, juga disarankan oleh Kementerian
Pendidikan, Kebudayaan, Riset, dan Teknologi. Dengan
adanya kolaborasi, maka akan terbentuk suatu tulisan yang
kaya akan informasi karena dibangun dari berbagai sudut
pandang keilmuan.
Selain sharing knowledge, kolaborasi juga menjadi solusi
pembiayaan melalui sistem sharing cost sehingga beban biaya
publikasi menjadi lebih ringan. Solusi lain terkait pembiayaan
adalah dengan memanfaatkan dana hibah penelitian baik yang
didapat dari kampus tempat dosen mengajar maupun dari
instansi lainnya seperti instansi pemerintah, lembaga nirlaba,
serta organisasi internasional.
Permasalahan dalam mencari ide penulisan sering
sekali juga menjadi masalah yang dihadapi oleh banyak dosen
dalam melakukan penelitian. Dengan semakin
berkembangnya teknologi saat ini, para dosen dapat mencari
ide penulisan dari berbagai karya ilmiah yang telah ditulis oleh
berbagai peneliti lainnya. Para dosen dapat membaca terkait
topik-topik penelitian menjadi bidangnya di Google Scholar
(https://scholar.google.com) dan bergabung dengan sosial
media untuk para peneliti di ResearchGate
(https://www.researchgate.net). Daftar bacaan yang sudah
dikumpulkan, digabungkan dan disitasi dengan
menggunakan aplikasi-aplikasi yang tersedia seperti Mendeley
(https://www.mendeley.com), Zotero
(https://www.zotero.org), EndNote (https://endnote.com)
dan aplikasi lainnya sehingga tidak ada kutipan yang terlupa
untuk dimasukkan ke dalam daftar referensi.

2 | Corat Coret Catatan Statistisi Pemula


Selain itu, dengan menggunakan aplikasi tersebut
memudahkan penulis untuk mengubah format kutipan yang
sering sekali antar jurnal berbeda format kutipan. Selanjutnya,
ketika jurnal yang dituju adalah jurnal internasional, maka
draft artikel penelitian yang sudah dibuat diterjemahkan
secara manual maupun dengan menggunakan beberapa
aplikasi penerjemah instan, seperti Google Translate maupun
DocTranslator (https://www.onlinedoctranslator.com/id/).
Pada umumnya hasil terjemahan masih belum
memenuhi kaidah tata bahasa akademik sehingga perlu diedit
lagi menggunakan aplikasi Grammarly
(https://www.grammarly.com) dan diparafrase dengan
menggunakan aplikasi QuillBot (https://quillbot.com).
Selanjutnya, untuk memastikan bahwa versi bahasa asing
sudah sesuai dengan kaidah bahasa tersebut, terkadang
diperlukan bantuan jasa proofreader. Setelah seluruh artikel
selesai dibuat, hal yang perlu dipastikan bahwa artikel yang
ditulis tidak memuat unsur kemiripan yang tinggi dengan
tulisan lainnya, pada umumnya batas kemiripan maksimal
sebesar dua puluh persen. Untuk mengecek kemiripan draft
artikel yang di tulisan dapat menggunakan aplikasi-aplikasi
mengecek tingkat kemiripan tulisan seperti Turnitin
(https://www.turnitin.com), Ithenticate
(https://www.ithenticate.com), Plagiarismchecker
(https://www.plagiarismchecker.co/id), dan aplikasi lainnya.
Langkah selanjutnya adalah proses mengirimkan draft
artikel yang dituju. Sering sekali, para dosen kebingungan
dalam mengirimkan draft penelitian ke jurnal yang dituju. Hal
yang sering terjadi juga banyak dosen terjebak dengan jurnal-
jurnal predator maupun diskontinu, yang sering sekali pada
akhirnya tidak diakui dalam penilaian angka kredit. Mengatasi
hal ini, para dosen dapat melihat target jurnal yang ingin
dicapai misal untuk jurnal nasional melihat akreditasi SINTA
yang diinginkan. Dalam hal ini dapat mengecek di website
SINTA (https://sinta.ristekbrin.go.id), sehingga dapat dilihat
cakupan jurnal yang ingin dikirim dan akreditasinya. Jika
target jurnal yang ingin dicapai untuk jurnal internasional

Pardomuan Robinson Sihombing | 3


melihat akreditasi Quartil dapat melihat di aplikasi Scimagojr
(https://www.scimagojr.com), World of Sciences
(https://mjl.clarivate.com), Copernicus
(https://journals.indexcopernicus.com), dan lainnya.

4 | Corat Coret Catatan Statistisi Pemula


Penelitian dan Statistik

Penelitian menjadi salah satu kegiatan yang tidak dapat


dipisahkan dari dunia pendidikan, khususnya para dosen
yang memiliki kewajiban dalam melaksanakan Tri Dharma
Perguruan Tinggi. Tujuan penelitian adalah mencari suatu
permasalahan penelitian lalu menguji dan menyelesaikan
permasalahan tersebut dengan metode dan teori-teori yang
tepat sehingga dapat ditemukan jawaban atas permasalahan
penelitian sehingga dapat dilakukan pengembangan akan
pengetahuan atau teori yang ada. Dalam melakukan penelitian
maka dibutuhkan data serta metode penelitian (salah satunya
metode statistik) dalam yang akan digunakan menjawab
permasalahan penelitian.
Teknik Mengumpulkan Data

Gambar 1. Teknik Pengumpulan Data

Saat ini, pengumpulan data dapat dilakukan secara


konvensional maupun secara digital/ modern. Pengumpulan
data secara digital dapat memanfaatkan data dari citra satelit
ataupun memanfaatkan data dari web yang dikenal dengan
teknik web scraping. Secara konvensional, pengumpulan data
diklasifikasikan menjadi: registrasi, sensus, dan survei.
Pengumpulan data melalui registrasi dilakukan apabila sistem
pencatatan suatu negara atau instansi sudah baik. Hal ini

Pardomuan Robinson Sihombing | 5


terjadi jika seluruh elemen masyarakat baik individu maupun
badan usaha mencatatkan data secara sukarela dan mandiri
kepada instansi yang berwenang, misalkan data terkait
produksi dan konsumsi perusahaan dapat diberikan secara
mandiri ke Badan Pusat Statistik agar datanya data diolah dan
dipublikasikan sebagai data umum terkait perkembangan
usaha di Indonesia. Pengumpulan data secara sensus
dilakukan dengan cara mencatat atau mendata informasi dari
seluruh populasi yang menjadi objek penelitian. Pengumpulan
data melalui survei merupakan jenis pengumpulan data yang
paling umum dilakukan karena bisa dilakukan hampir setiap
orang maupun organisasi. Survei merupakan teknik
pengumpulan data dengan mengambil sebagian dari populasi
untuk kemudian digunakan untuk merepresentasikan
keseluruhan populasi.
Pada dasarnya, menggunakan data populasi untuk
merepresentasikan nilai populasi (parameter) tentu akan
sangat baik karena datanya yang didapat menjadi lebih
lengkap. Sayangnya, ketika jumlah observasi yang diambil
sangat banyak, data atau pertanyaan yang diajukan menjadi
tidak rinci. Selain itu, pengumpulan data populasi umumnya
memerlukan waktu, biaya dan tenaga yang besar, serta akan
meningkatkan nonsampling error, seperti human error dan moral
hazard, dalam melakukan pendataan. Oleh karena itu,
pengumpulan data melalui survei merupakan alternatif yang
baik. Pengumpulan data secara survei dilakukan dengan cara
mencatat atau mendata informasi dari sebagian populasi yang
disebut sebagai sampel. Nilai yang diukur dari sampel atau
survei dinamakan statistik. Keuntungan dari menggunakan
data survei adalah datanya lebih cepat didapat, lebih murah
dan mudah dari sisi biaya dan tenaga serta data yang didapat
biasanya lebih rinci.
Selain alasan klasik tersebut, pengumpulan data
melalui sampel juga dilakukan pada situasi dimana observasi
populasi dapat mengakibatkan kerusakan, tidak mungkin
dilakukan, atau tidak perlu dilakukan. Contoh yang paling
sederhana adalah dalam hal pengujian kadar gula darah
seseorang. Selain itu dapat juga diakibatkan populasinya

6 | Corat Coret Catatan Statistisi Pemula


jumlah tidak terbatas, misalkan jumlah ikan di laut.
Kekurangan menggunakan data sampel adalah apabila tidak
menggunakan metode sampling yang tepat dan tidak
memenuhi jumlah sampel minimal maka akan mengakibatkan
sampling eror yang besar sehingga hasil yang didapat menjadi
bias.
Pemilihan sampel dapat menggunakan dengan metode
probability sampling maupun non probability sampling.
Perbedaan kedua metode ini adalah apabila setiap individu
memiliki kesempatan untuk dipilih maka disebut probability
sampling. Sebaliknya, jika tidak semua memiliki kesempatan
disebut nonprobability sampling. Jenis metode probability
sampling di antaranya adalah metode simple random, stratified,
sistematik, dan cluster sampling. Pengambilan sampel dapat
dilakukan dengan satu tahap (one stage) atau multi tahap
(multistage seperti two stages atau three stages). Sedangkan jenis
metode nonprobability sampling di antaranya convenience /
accidental sampling/ opportunity, purposive sampling/judgement,
quota sampling, snowballing /referral sampling, voluntary sampling
dan sampel jenuh.
Jenis Data

Gambar 2. Jenis-Jenis Data

Salah satu hal penting dalam melakukan penelitian


adalah mengetahui jenis data yang digunakan. Hal ini akan
berkaitan dengan jenis analisis yang akan digunakan. Secara
umum data dapat digolongkan berdasarkan waktu
pengumpulan data, sumber data, dan skala data. Berdasarkan
waktu pengumpulan data, dapat dibagi tiga yaitu data cross
section, data time series, dan data panel. Data cross section adalah
data yang dikumpulkan terhadap sejumlah unit objek pada
satu periode waktu tertentu. Misalnya penelitian terhadap

Pardomuan Robinson Sihombing | 7


faktor yang mempengaruhi kinerja seratus karyawan di PT X
tahun 2020. Data time series adalah data yang dikumpulkan
terhadap satu unit objek pada beberapa periode waktu
tertentu. Misalnya penelitian terhadap faktor yang
mempengaruhi tingkat inflasi Indonesia tahun 2010 sampai
2020. Data panel adalah data yang dikumpulkan terhadap
sejumlah unit objek pada beberapa periode waktu tertentu.
Misalnya penelitian terhadap faktor yang mempengaruhi
tingkat kemiskinan di 34 provinsi di Indonesia tahun 2010
sampai 2020.
Berdasarkan sumber pengumpulannya, data dapat
dibagi dua lagi yaitu berdasarkan sumber data diperoleh dan
dari sisi penelitian. Data berdasarkan sumber diperoleh
dibedakan atas data internal atau primer dan data eksternal
atau data sekunder. Data internal atau primer adalah data yang
dihasilkan oleh institusi atau unit itu sendiri, sedangkan data
eksternal atau sekunder adalah data yang berasal dari institusi
atau unit lainnya. Dalam penelitian, data dapat dibedakan
menjadi data primer yaitu data yang hasil dilakukan
pengolahan terlebih dahulu baru dapat dianalisis misalkan
data yang didapat melalui kuesioner. Sedangkan data
sekunder adalah data yang dapat dianalisis secara langsung
dan didapat dari instansi lain yang sudah lebih dulu
mengolahnya, misal data yang didapat dari BPS, Kemenkeu,
BI, OJK, dan lainnya.
Berdasarkan skala datanya, data dapat dibagi dua
kelompok besar yaitu data kualitatif/non metrik/non
numerik/kategori dan data kuantitatif/metrik/numerik. Data
kualitatif dapat dibagi menjadi dua yaitu data nominal dan
data ordinal. Data nominal adalah data yang sifatnya hanya
membedakan, berbentuk atribut/ label tanpa adanya
tingkatan, misalnya gender (pria dan wanita), warna pupil
mata (hitam, cokelat, biru) dan lainnya. Data ordinal adalah
data yang sifatnya selain dapat membedakan juga terdapat
tingkatan tetapi jarak antar tingkatan tidak selalu sama,
misalnya jenjang sekolah (SD, SMP, SMA, PT), jenjang
kepangkatan dosen (asisten ahli, lektor, lektor kepala dan guru
besar) dan lainnya. Data kuantitatif dapat dibagi menjadi dua

8 | Corat Coret Catatan Statistisi Pemula


yaitu data interval dan data rasio. Data interval adalah data
yang sifatnya selain dapat membedakan juga terdapat
tingkatan yang jaraknya sama, dalam data interval tidak
terdapat nilai nol mutlak, misalnya data suhu dan data tahun
masehi, Skala rasio adalah data yang dapat membedakan,
mengurutkan dan membandingkan data serta memiliki nilai
nol mutlak, misalnya data berat badan.
Selain itu data kuantitatif juga dapat dibedakan
menjadi data diskrit dan data kontinu. Data diskrit apabila
data didapat dari hasil pencacahan (count) dan biasanya
nilainya bilangan bulat, bukan desimal, contohnya data jumlah
orang. Data kontinu apabila data didapat dari hasil
pengukuran (measurement) dan biasanya nilainya dapat berapa
bilangan desimal, contohnya data berat dan tinggi badan.
Metode Penelitian

Gambar 3. Klasifikasi Analisis Data

Metode penelitian pada umumnya dapat dibagi dua


yaitu metode kualitatif dan metode kuantitatif. Metode
kualitatif pada umumnya menggunakan studi literatur untuk
menjawab permasalahan penelitian dan mencari kesimpulan
berdasarkan kajian pustaka yang dilakukan. Sementara itu,
metode kuantitatif pada umumnya menggunakan metode-
metode statistik untuk menjawab hipotesis dalam penelitian
yang dilakukan.
Ada dua cabang besar ilmu statistika yaitu statistik
deskriptif dan statistik inferensia. Statistika deskriptif
merupakan teknik dalam mengumpulkan, mengolah serta
menyajikan data dari sampel penelitian. Statistika deskriptif
dapat berupa ringkasan data maupun penyajian data.

Pardomuan Robinson Sihombing | 9


Ringkasan data dapat berupa ukuran pemusatan data (rata-
rata, median, modus), letak data (kuartil, desil, persentil) dan
ukuran penyebaran atau dispersi data (range, varian, standar
deviasi, dan lainnya). Sedangkan penyajian data dapat berupa
tabel dan grafik. Penyajian grafik dapat berupa grafik
batang/bar chart untuk komparasi, grafik garis/line untuk
melihat perkembangan/tren, grafik lingkaran/pie untuk
melihat proporsi, grafik pencar/scatter untuk melihat pola
hubungan dan lainnya. Statistik inferensia/induktif
merupakan teknik untuk menggeneralisasi atau mencari
kesimpulan, dengan kata lain menjawab hipotesis penelitian.
Statistik inferensia dapat berupa statistik parametrik dan
statistik nonparametrik. Perbedaan kedua metode ini
didasarkan asumsi distribusi yang digunakan. Statistik
parametrik mengasumsikan adanya suatu distribusi data
misalkan data berdistribusi normal atau keluarga eksponensial
sedangkan statistik nonparametrik tidak mengasumsikan data
harus mengikuti distribusi tertentu.

Gambar 4. Klasifikasi Tujuan Statistik

Penggunaan metode statistik dalam penelitian


memiliki tiga tujuan utama yaitu melakukan pengujian
komparasi/perbandingan, melihat hubungan, dan melakukan
pembentukan model. Dalam melakukan pengujian komparasi,
hal yang dapat dibandingkan ukuran data seperti proporsi
data, varian data dan nilai rata-rata data. Baik untuk ketiga
ukuran data dapat diuji pada satu populasi dengan
membandingkan terhadap suatu nilai acuan. Selain itu dapat
dilakukan pada dua populasi yang bersifat
dependen/berpasangan yang diberikan suatu
treatment/kebijakan maupun pada dua populasi yang bersifat

10 | Corat Coret Catatan Statistisi Pemula


independen di mana antar nilai populasi tidak saling
mempengaruhi. Selain itu uji ini juga dapat dilakukan untuk
data lebih dari dua populasi. Metode menguji arah dan kuat
hubungan dapat dilakukan dengan metode korelasi. Ada
berbagai macam model analisis korelasi; dilihat dari pola
hubungannya, jumlah variabel x dan y, waktu penelitian, dan
skala datanya. Pengujian terhadap hubungan sebab akibat atau
pembentukan model dapat dilakukan dengan metode regresi.
Ada berbagai macam model analisis regresi, dilihat dari pola
hubungan, banyaknya variabel dependen, banyaknya variabel
independen, waktu penelitian, distribusi data, tipe variabel
independen, teknik estimasi parameter dan lainnya.
Penggunaan metode statistik dalam penelitian
memiliki tiga manfaat utama yaitu melakukan estimasi,
prediksi, dan forecasting/peramalan. Estimasi yang dilakukan
adalah memperkirakan nilai parameter populasi dari nilai
statistik sampel yang ada. Misalkan dalam memperkirakan
rata-rata populasi dari rata-rata sampel. Prediksi yang
dilakukan dapat berupa prediksi nilai variabel dependen dari
sejumlah variabel independen jika variabel dependen berupa
data numerik, maupun prediksi klasifikasi variabel dependen
dari sejumlah variabel independen jika variabel dependen
berupa data kategori. Peramalan yang dilakukan berupa nilai
variabel dependen periode yang akan datang dari sejumlah
data pada periode yang lalu (lag data).
Hipotesis Statistik
Hipotesis dapat diartikan sebagai dugaan sementara.
Hipotesis dalam statistik dapat dibagi menjadi dua yaitu null
hypothesis/origin/hipotesis nol (H0 atau Ho) dan hipotesis satu/
alternatif (H1 atau Ha). Pada umumnya hipotesis nol adalah
asumsi dasar yang ingin ditolak sementara hipotesis alternatif
adalah dugaan yang ingin kita buktikan kebenarannya. Pada
umumnya daerah penolakan (daerah kritik) bersesuaian
dengan hipotesis alternatif.
Dalam pengujian hipotesis terdapat dua tipe pengujian
yaitu hipotesis dua arah (two tailed) dan hipotesis satu arah (one
tailed). Hipotesis dua arah pada umumnya jika peneliti hanya
ingin melihat apakah suatu variabel berpengaruh atau tidak

Pardomuan Robinson Sihombing | 11


(untuk uji pengaruh) tanpa memandang arah pengaruhnya.
Sedangkan hipotesis satu arah dibagi menjadi hipotesis arah
kanan (positif) dan hipotesis arah kiri (negatif). Jika peneliti
ingin melakukan pengujian apakah terdapat pengaruh positif
suatu variabel independen maka digunakan uji hipotesis satu
arah kanan. Sedangkan jika peneliti ingin melakukan
pengujian apakah terdapat pengaruh negatif suatu variabel
independen maka menggunakan uji hipotesis satu arah kiri.
Pada umumnya dalam aplikasi penggunaan software
statistik, nilai signifikansi probabilitas yang dihasilkan adalah
uji dua arah sehingga dapat langsung dibandingkan dengan
nilai alpha yang digunakan. Sedangkan jika peneliti ingin
menguji satu arah maka nilai signifikansi probabilitas yang
dihasilkan harus dibagi dua baru dibandingkan dengan alpha
yang digunakan.
Jika peneliti ingin membandingkan nilai hasil distribusi
hitung dalam model dengan nilai distribusi tabel untuk uji dua
arah maka nilai alpha yang digunakan harus dibagi dua
terlebih dahulu. Misalkan menggunakan uji dua arah dengan
tabel distribusi normal standar (Z) untuk alpha 5 persen maka
yang dicari dalam tabel adalah nilai alpha/2=0.05/2=0.025
sehingga nilai z pembanding adalah Z0.025= 1.96. Sedangkan
jika peneliti menggunakan uji satu arah dengan tabel distribusi
normal standar (Z) untuk alpha 5 persen maka yang dicari
dalam table adalah nilai alpha=0.05 tanpa dibagi dua yaitu
Z0.05= 1.645

12 | Corat Coret Catatan Statistisi Pemula


Tabel 1. Pengujian Hipotesis

Pardomuan Robinson Sihombing | 13


Software-Software Statistik

Dalam penggunaan aplikasi model statistik, sering kali


kita terkendala dengan banyaknya data dan kompleksitas
pemodelan yang ada. Sehingga tidak memungkinkan lagi
menganalisa data secara manual. Mungkin untuk data yang
sedikit dan model yang sederhana masih memungkinkan
menggunakan kalkulator maupun aplikasi Microsoft Excel.
Tetapi untuk data yang lebih besar dan model yang lebih
kompleks kita membutuhkan aplikasi yang khusus dirancang
untuk analisis model-model statistik.
Jenis Software Statistik
Secara umum ada dua jenis software statistik yaitu
yang berbayar (Commercial Software) dan yang tidak
berbayar/gratis (non commercial software). Software yang tidak
berbayar dapat kita bagi lagi menjadi dua yaitu Freeware (Free
Software) dan Open Source Software (OSS). Yang dimaksud
freeware adalah software yang dapat diperoleh dengan gratis
tetapi kita tidak dapat menambahkan atau memodifikasi menu
yang ada di dalam software tersebut. Sementara itu, kita dapat
berkontribusi dalam menambahkan atau memodifikasi menu
yang ada melalui packages yang tersedia pada open source
software,
Jika dilihat dari tampilan penggunaan software dapat
dibagi menjadi tiga yaitu berbasis menu, berbasis sintaks
(command) dan kombinasi keduanya. Contoh software statistik
berbasis menu yang berbayar seperti SPSS, Eviews, Statistica,
Systat, Amos, SmartPLS, Rapidminer, dan lainnya, sedangkan
yang tidak berbayar seperti PSPP, Openstat, Mystat, Gretl, dan
lainnya. Contoh software statistik yang berbasis sintaks
(command) yang berbayar seperti SAS, Lisrel, S-Plus, dan
lainnya, sedangkan yang tidak berbayar seperti software R,
Winbugs, dan lainnya. Contoh software statistik yang berbasis

14 | Corat Coret Catatan Statistisi Pemula


kombinasi menu dan sintaks yang berbayar seperti STATA
dan Minitab, sedangkan yang tidak berbayar seperti JASP dan
lainya .
Berkaca dari karakteristik setiap software, masing-
masing software statistik yang digunakan memiliki
kekurangan dan kelebihan masing-masing. Berikut ini, kita
akan membahas beberapa aplikasi statistik yang populer
digunakan secara umum.
Software Statistik Berbayar
Salah satu aplikasi statistik yang umum digunakan
dalam dunia statistik adalah Statistical Package for the Social
Sciences (SPSS). SPSS dikembangkan oleh Norman H. Nie dan
C. Hadlai Hull tahun 1968. Saat ini versi terbarunya adalah
SPSS 28 (https://www.ibm.com/products/spss-statistics).
Software ini unggul untuk metode-metode statistik yang
menggunakan data cross section baik untuk model berbasis
normal maupun keluarga eksponensial (model GLM) maupun
pengembangannya model GLMM dan GEE. Dari sisi metode
estimasi sudah memasukkan pendekatan bayesian di dalam
tools analisisnya. Selain itu uji komparasi statistik non
parametrik nya sangat lengkap. Dalam model ini juga sudah
memasukkan analisis spasial. Kekurangan dalam software ini
kita belum dapat melakukan analisis-analisis time series dan
analisis data panel.
Software lain yang sering dipakai adalah Minitab.
Minitab dikembangkan oleh periset Barbara F. Ryan, Thomas
A. Ryan, Jr., dan Brian L. Joiner pada tahun 1972. Saat ini versi
terbarunya adalah Minitab 21 (https://www.minitab.com/en-
us/). Sama seperti SPSS, software ini unggul untuk model
dengan data cross section. Selain itu ciri khas dan keunggulan
spesifik software ini adalah untuk analisis rancangan
percobaan seperti Design of Experiment (DOE) dan quality
control.
Software yang juga sering dipakai adalah Econometric
Views (Eviews). EViews dikembangkan oleh Engel-Granger
tahun 1994. Saat ini versi terbarunya Eviews 12
(https://eviews.com/home.html). Keunggulan software
Eviews adalah untuk ekonometrika khususnya model-model

Pardomuan Robinson Sihombing | 15


time series. Dalam software ini juga telah memasukkan teknik
variabel selection seperti LASSO, RIDGE dan Elastics Net.
Software ini juga memiliki keunggulan dalam analisis data
panel, dimana penanganan data panel cukup lengkap baik
statis maupun dinamis panel. Hanya saja model data panel
yang digunakan masih berbasis data yang berdistribusi normal
belum termasuk model panel untuk model GLM.
Selanjutnya, software statistik yang sering dipakai
untuk data primer khususnya untuk model SEM (structural
equation model) adalah adalah AMOS, Lisrel, dan SmartPLS.
Amos dan Lisrel berbasis data yang berdistribusi normal dan
menganalisis berdasarkan struktur kovarian matrik. Edisi
AMOS mengikuti perkembangan edisi SPSS
(https://www.ibm.com/products/structural-equation-
modeling-sem) yaitu AMOS 28, dan edisi terbaru Lisrel adalah
Lisrel 11
(https://ssicentral.com/index.php/products/lisrel/).
Berbeda dengan AMOS dan Lisrel, SmartPLS tidak
mengisyaratkan distribusi data namun menggunakan struktur
korelasi matrik dan dalam mengestimasi parameter
menggunakan teknik bootstrapping. Edisi terbarunya adalah
versi SmartPLS 3.3 (https://www.smartpls.com/). Kelebihan
lain dari SmartPLS dapat digunakan untuk model hubungan
formatif maupun reflektif. Selain itu dapat digunakan untuk
data sekunder, dan dapat dengan mudah menggunakan model
hubungan mediasi/ intervening, moderasi, kuadratik dan
multi group analysis.
Software lain yang juga sering dipakai adalah Statistics
and Data (STATA). Stata dikembangkan oleh perusahaan
StataCorp pada tahun 1985. Versi terbarunya adalah STATA 17
(https://www.stata.com/). Software ini terbilang software
yang cukup lengkap. STATA dapat mengolah baik data primer
(model SEM dan latent class variable) maupun dengan data
sekunder. Model-model data cross section, time series, dan panel
juga tersedia, tidak hanya terbatas untuk model berbasis
normal, juga tersedia yang berbasis keluarga eksponensial
(GLM) maupun model regresi nonparametrik. Teknik analisis
untuk high dimensional data seperti lasso, ridge dan elastic net juga

16 | Corat Coret Catatan Statistisi Pemula


tersedia hingga pengujian hipotesisnya. Dari sisi teknik juga
sudah mencakup penggunaan metode least square (LS),
maximum likelihood estimator (MLE), method of moment dan
bayesian. Kekurangannya untuk data spasial masih sebatas
metode spatial autoregressive.
Software keenam yang sering dipakai khususnya
untuk big data dan machine learning adalah Rapidminer.
Software ini dapat diundah pada
https://rapidminer.com/products/studio/. Software ini
sangat kaya akan fitur visualisasi data dan analisis-analisis
machine learning. Pembagian training dan testing data serta
pengujian performa model terasa mudah dengan software ini.
Software Statistik Tidak Berbayar
Salah satu software tidak berbayar yang mirip dengan
SPSS adalah PSPP (https://www.gnu.org/software/pspp/).
Sayangnya, metode-metode yang tersedia dalam PSPP masih
cukup sederhana dan terbatas. Software tidak berbayar yang
lebih kompleks adalah JASP. JASP diperkenalkan oleh
University of Amsterdam. Versi terbaru software ini adalah
JAS 0.14 (https://jasp-stats.org/). Metode estimasi Bayesian,
yang cukup jarang ditemukan dalam software gratis lain,
dapat ditemukan dalam software ini. Software tidak berbayar
lainnya yang dapat digunakan sebagai alternatif dari Eviews
adalah Gretl. Versi terbaru software ini adalah Gretl 2021
(http://gretl.sourceforge.net/). Software ini sangat kaya
alternatif model untuk data time series. Sayangnya, sama
seperti Eviews, uji-uji untuk data panel masih terfokus pada
model panel berbasis data normal.
Software tidak berbayar dan paling powerfull saat ini
adalah software R. R awalnya dibuat oleh Ross Ihaka dan
Robert Gentleman dari the Department of Statistics of the
University of Auckland. Versi terbaru software ini adalah R
4.1.1. Analisis dalam software ini mencakup semua jenis data
baik data cross section, time series, maupun panel. Metode
estimasi yang digunakan mencakup least square (LS), metode
momen (MM), Maximum Likelihood Estimator (MLE), maupun
Bayesian. Data yang digunakan juga bisa mengandung data
spasial. Dari sisi distribusi data dapat digunakan ada data yang

Pardomuan Robinson Sihombing | 17


berasumsi normal, keluarga eksponensial (GLM), atau tanpa
syarat distribusi tertentu (misalnya regresi nonlinier dan
nonparametrik). Software ini juga sangat baik untuk
visualisasi data serta dapat digunakan untuk model-model
machine learning. Perkembangan software R sangat cepat,
karena bersifat open source dimana setiap orang dapat
berkontribusi. Selain itu dengan menginstal berupa packages,
software R cenderung lebih ringan karena kita hanya perlu
menginstal packages yang kita perlukan dan dapat meng-
uninstall packages yang sudah tidak diperlukan/digunakan.

18 | Corat Coret Catatan Statistisi Pemula


Berbagai Uji Komparasi dalam Statistik

Salah satu tujuan dalam melakukan analisis statistik


adalah melakukan uji hipotesis terhadap
komparasi/perbandingan suatu nilai. Analisis komparasi
dapat dilakukan terhadap berbagai ukuran data seperti nilai
varian/ ragam, nilai proporsi dan nilai rata-rata suatu data.
Untuk ketiga ukuran data tersebut, uji komparasi dapat
dilakukan terhadap satu populasi, dua populasi (baik
dependen/ berpasangan/ paired/matched maupun
independen) dan lebih dari dua populasi (baik dependen
maupun independen). Uji pada satu populasi berarti
membandingkan ukuran data dengan suatu nilai yang
dijadikan acuan. Uji pada dua populasi berpasangan berarti
membandingkan ukuran data terhadap suatu populasi yang
diberikan treatment/ kebijakan/ efek suatu kondisi. Pada
umumnya pada kasus populasi dependen disertasi dengan
keterangan data sebelum (before/ pre) dan data setelah (after/
post) pada suatu treatment/ kejadian. Uji dua sampel
independen berarti membandingkan ukuran data dari dua
kelompok yang berbeda, di mana nilai suatu kelompok tidak
mempengaruhi nilai kelompok lainnya. Untuk kasus uji lebih
dari dua populasi, analog dengan uji dua populasi hanya saja
populasi yang digunakan lebih dari dua kelompok.
Terkait uji komparasi pada nilai ragam/ varian dan
rata-rata dapat dilakukan secara univariat (menggunakan 1
variabel dependen) maupun secara multivariat (menggunakan
lebih dari 1 variabel dependen). Lebih lanjut untuk uji
komparasi pada nilai rata-rata dapat dilakukan secara statistik
parametrik dan statistik nonparametrik. Perbedaan mendasar
dari kedua jenis statistik ini adalah terkait distribusi data yang
digunakan. Apabila data yang digunakan diasumsikan
mengikuti suatu distribusi tertentu (pada umumnya distribusi
normal) menggunakan uji parametrik. Sedangkan jika data

Pardomuan Robinson Sihombing | 19


yang digunakan tidak diasumsikan mengikuti suatu distribusi
tertentu, jumlah sampel sedikit, data umumnya berskala
nominal dan ordinal maka menggunakan analisis
nonparametrik.
Uji Proporsi
Uji proporsi satu populasi digunakan untuk melihat
apakah proporsi suatu populasi sudah sesuai dengan nilai
acuan yang diberikan. Uji yang digunakan dapat
menggunakan uji z. Sebagai contoh kasus uji ini, apabila
peneliti ingin mengetahui apakah proporsi mahasiswa di suatu
kampus sudah seimbang antara pria dan wanita yaitu masing-
masing 0.5 (50 %). Uji proporsi dua populasi digunakan untuk
membandingkan proporsi dari dua kelompok yang data yang
diteliti. Uji yang digunakan dapat menggunakan uji z. Sebagai
contoh kasus uji ini, apabila peneliti ingin mengetahui apakah
proporsi mahasiswa perempuan di kampus A lebih besar dari
mahasiswa perempuan di kampus B. Uji proporsi lebih dari
dua populasi menggunakan uji chi-square (khi kuadrat).
Sebagai contoh kasus uji ini, apabila peneliti ingin mengetahui
apakah proporsi siaran berita pada stasiun TV swasta (RCTI,
SCTV, Indosiar, Metro dan TVOne) berbeda secara signifikan.
Uji Varian/ Ragam
Uji ragam satu populasi univariat digunakan untuk
melihat apakah ragam suatu populasi sudah sesuai dengan
nilai acuan yang diberikan. Uji yang digunakan dapat
menggunakan uji chi-square/ khi kuadrat. Sebagai contoh
kasus uji ini, apabila peneliti ingin mengetahui apakah varian
nilai ujian mahasiswa kelas A lebih besar dari 5.
Pengembangan uji ragam satu populasi multivariat
menggunakan pengembangan uji chi-square yang dikenal
dengan uji statistik 𝑈. Yang diuji dalam kasus ini adalah matrik
kovarian (ragam peragam). Sebagai contoh kasus uji ini,
apabila peneliti ingin mengetahui apakah varian ketebalan
tanah jika dilihat dari sisi Utara, Selatan, Timur dan Barat sama
atau berbeda. Uji ragam dua populasi univariat digunakan
untuk melihat apakah ragam dua populasi sama atau berbeda.
Hasil uji ini akan digunakan lebih lanjut dalam uji dua sampel

20 | Corat Coret Catatan Statistisi Pemula


independen univariat. Uji yang digunakan dapat
menggunakan uji F dan uji Levene. Sebagai contoh kasus uji
ini, apabila peneliti ingin mengetahui apakah varian lama
hidup dua jenis lampu berbeda atau tidak. Pengembangan uji
ragam dua populasi multivariat menggunakan pengembangan
uji chi-square, uji F dan uji Box-M. Yang diuji dalam kasus ini
adalah matrik kovarian (ragam peragam) dua populasi. Hasil
uji ini akan digunakan lebih lanjut dalam uji dua sampel
independen multivariat.
Uji ragam lebih dari dua populasi univariat digunakan
untuk melihat apakah ragam lebih dari dua populasi sama
atau berbeda. Hasil uji ini akan digunakan lebih lanjut dalam
uji ANOVA (Analysis of Variance). Uji yang digunakan dapat
menggunakan uji Bartlett dan uji Box-M. Sebagai contoh kasus
uji ini, apabila peneliti ingin mengetahui apakah varian lama
hidup tiga jenis lampu berbeda atau tidak. Pengembangan uji
ragam lebih dari dua populasi multivariat menggunakan
pengembangan uji chi-square, uji F dan uji Box-M. Yang diuji
dalam kasus ini adalah matrik kovarian (ragam peragam) lebih
dari dua populasi. Hasil uji ini akan digunakan lebih lanjut
dalam uji MANOVA.
Uji Rata-rata Univariat
Uji rata-rata satu populasi univariat yang berdistribusi
normal dapat menggunakan uji z atau t satu sampel.
Sedangkan jika data tidak mengikuti distribusi tertentu dapat
menggunakan uji binomial, chi-square, Kolmogorov-Smirnov,
dan Run Test. Sebagai contoh kasus uji ini, apabila peneliti
ingin mengetahui nilai rata-rata ujian statistik mahasiswa kelas
manajemen lebih besar dari 7. Uji rata-rata dua populasi
independen yang berdistribusi normal dapat menggunakan uji
z atau t dua sampel independen (baik dengan asumsi varian
sama atau berbeda). Sedangkan jika data tidak mengikuti
distribusi tertentu dapat menggunakan uji eksak fisher, chi-
square, uji median, uji U Mann-Whitney, uji Wilcoxon-Mann-
Whitney, Kolmogorov-Smirnov, uji Wald-Wolfowitz serta uji
Moses untuk data ekstrim. Sebagai contoh kasus uji ini, apabila
peneliti ingin membandingkan apakah nilai rata-rata ujian
statistik mahasiswa kelas A lebih besar kelas B. Uji rata-rata

Pardomuan Robinson Sihombing | 21


dua populasi dependen yang berdistribusi normal dapat
menggunakan uji z atau t dua sampel dependen. Sedangkan
jika data tidak mengikuti distribusi tertentu dapat
menggunakan uji McNemar, uji tanda (sign), uji Ranking-
Bertanda Wilcoxon, uji Walsh dan uji randomisasi. Sebagai
contoh kasus uji ini, apabila peneliti ingin membandingkan
apakah nilai rata-rata ujian statistik mahasiswa kelas A setelah
tutor lebih baik dari sebelum tutor.
Uji rata-rata lebih dari dua populasi independen
univariat yang berdistribusi normal dan data homogen (varian
sama) dapat menggunakan uji F dalam ANOVA. Lanjutan uji
ini untuk menguji perbedaan antar dua kelompok data
digunakan uji post hoc seperti uji Duncan, Tukey, Bonferroni,
Dunnett, Sidak, Scheffe dan Gabriel. Sedangkan jika data tidak
mengikuti distribusi tertentu dapat chi-square, perluasan
Median dan Kruskal-Wallis. Sebagai contoh kasus uji ini,
apabila peneliti ingin membandingkan apakah ada perbedaan
nilai rata-rata ujian statistik mahasiswa kelas A, kelas B, dan
kelas C.
Uji rata-rata lebih dari dua populasi dependen yang
berdistribusi normal dan data homogen (varian sama) dapat
menggunakan uji F dalam Analysis of Variance (ANOVA)
dengan pengukuran berulang (repeated). Sedangkan jika data
tidak mengikuti distribusi tertentu dapat menggunakan uji
Friedman jika data berskala kuantitatif (numerik) dan Q
Cochran jika data berskala kategorik (kualitatif). Sebagai
contoh kasus uji ini, apabila peneliti ingin membandingkan
apakah ada perbedaan nilai ujian mahasiswa berbeda untuk
pre test, post test 1 dan post test 2.
Uji Rata-rata Multivariat Parametrik
Uji rata-rata satu populasi multivariat yang
berdistribusi multivariat normal dapat menggunakan
perluasan uji t yaitu uji T kuadrat Hotelling. Sebagai contoh
kasus uji ini, apabila peneliti ingin membandingkan kondisi
rata-rata tinggi dan berat pria di kelas apakah mencapai nilai
ideal dengan nilai rata-rata tinggi 170 cm dan berat 60 kg. Uji
rata-rata dua populasi yang berdistribusi multivariat normal
baik yang independen (matrik ragam peragam sama atau

22 | Corat Coret Catatan Statistisi Pemula


tidak) maupun yang dependen menggunakan uji T kuadrat
Hotelling. Sebagai contoh kasus uji ini, apabila peneliti ingin
membandingkan kondisi rata-rata tinggi dan berat pria di
kelas A dengan di kelas B untuk sampel independen, serta
kondisi rata-rata tinggi dan berat pria sebelum dan sesudah
diberi suplemen dan vitamin untuk kasus dependen. Uji rata-
rata lebih dari dua populasi yang berdistribusi multivariat
normal dan data homogen (matrik ragam peragam sama)
dapat menggunakan uji Wilk dalam Multivariate Analysis of
Variance (MANOVA). Lanjutan uji ini untuk menguji
perbedaan uji F/ Anova dengan menggunakan uji Pillai, uji
Roy dan uji Lawley-Hotelling. Sebagai contoh kasus uji ini,
apabila peneliti ingin membandingkan apakah ada perbedaan
nilai rata-rata dan waktu mengerjakan ujian statistik
mahasiswa menurut kelas (kelas A , kelas B, dan kelas C).

Pardomuan Robinson Sihombing | 23


Berbagai Jenis Analisis Korelasi Berdasarkan Jenis
Datanya

Tabel 2. Tabel Berbagai Uji Korelasi

Analisis korelasi merupakan salah satu metode dalam


statistika yang digunakan untuk melihat arah dan kuat
hubungan/ asosiasi antara dua variabel (Walpole, 2007).
Analisis korelasi diperkenalkan pertama kali oleh Galton
(1988). Dalam analisis korelasi terdapat satu dictum yang
mengatakan “correlation does not imply causation”, hal ini
bermakna korelasi tidak digunakan untuk melihat adanya
hubungan kausalitas (sebab akibat) antar variabel. Dalam
korelasi tidak dikenal variabel dependen dan variabel
independen, penulisan variabel x dan variabel y, hanya
sebagai simbol pembeda dalam penamaan variabel saja. Arah
koefisien korelasi dinyatakan dalam bentuk hubungan positif
atau negatif. Jika koefisien bertanda positif, berarti arah
hubungan searah. Artinya apabila nilai variabel x meningkat,
nilai variabel y juga meningkat dan berlaku sebaliknya.

24 | Corat Coret Catatan Statistisi Pemula


Sedangkan, jika koefisien korelasi bertanda negatif, berarti
arah hubungan berlawanan arah. Artinya, apabila nilai
variabel x meningkat, nilai variabel y akan menurun dan
berlaku sebaliknya. Tetapi dalam hal ini perubahan
(peningkatan) nilai variabel x tidak mengakibatkan perubahan
(peningkatan/ penurunan) nilai variabel y.
Besarnya nilai koefisien korelasi berada di antara
antara -1 sampai 1. Untuk memudahkan melakukan
interpretasi mengenai kekuatan hubungan antara dua variabel,
ada beberapa referensi yang digunakan. Pada umumnya
besaran korelasi dibagi kedalam 5 kriteria. Kriteria pertama
adalah koefisien korelasi bernilai nol, artinya tidak terdapat
korelasi antara kedua variabel. Kriteria kedua adalah nilai
absolut/ mutlak koefisien korelasi di antara nol sampai 0.5,
artinya terdapat korelasi yang lemah antara kedua variabel.
Kriteria ketiga adalah nilai absolut/ mutlak koefisien korelasi
di antara 0.5 sampai 0.7, artinya terdapat korelasi yang
moderat/ cukup kuat antara kedua variabel. Kriteria keempat
adalah nilai absolut/ mutlak koefisien korelasi diantara 0.7
sampai 0.99, artinya terdapat korelasi yang kuat antara kedua
variabel. Kriteria kelima adalah koefisien korelasi bernilai satu,
artinya terdapat korelasi sempurna antara kedua variabel.
Ada berbagai macam model analisis korelasi; dilihat
dari pola hubungannya, jumlah variabel x dan y, waktu
penelitian, dan skala datanya. Jika dilihat dari pola
hubungannya korelasi dapat dibagi menjadi korelasi linier dan
korelasi non linier. Salah satu contoh korelasi non linier adala
korelasi eta. Pembahasan selanjutnya adalah korelasi yang
memiliki pola hubungan linier. Jika ditilik dari jumlah variabel
x dan y nya, maka korelasi dapat dibagi menjadi korelasi
univariat (hanya menggunakan 1 variabel x dan 1 variabel y)
dan korelasi multivariat (menggunakan lebih dari 1 variabel x
dan lebih dari 1 variabel y). Korelasi multivariat dikenal
dengan nama korelasi kanonik yang diperkenalkan oleh
Hotelling (1936). Sebagai contoh kasus korelasi kanonik,
apabila peneliti ingin mengetahui hubungan antara variabel-
variabel sebelum lulus kuliah (IPK, keaktifan organisasi) dan

Pardomuan Robinson Sihombing | 25


variabel-variabel setelah lulus kuliah (lama menganggur, gaji
pertama, bonus yang didapat).
Jika ditilik dari waktu penelitiannya, maka korelasi
dapat dibagi menjadi korelasi pada data cross section (hanya
menggunakan 1 periode waktu pada sejumlah n individu) dan
pada data time series (hanya menggunakan 1 unit individu
pada sejumlah t periode waktu). Korelasi time series dikenal
dengan nama cross correlation, korelasi ini menguji korelasi
antara dua variabel sekaligus pada berbagai nilai lag datanya.
Sebagai contoh kasus korelasi silang, apabila peneliti ingin
mengetahui hubungan antara harga emas dengan nilai saham
pada data periode harian selama tahun 2020.
Selanjutnya adalah korelasi univariat dengan data cross
section. Jika ditilik lagi berdasarkan skala datanya masih dapat
dibagi menjadi beberapa jenis. Jika kedua variabel data yang
digunakan merupakan variabel kuantitatif (numerik) dengan
minimal berskala interval maka korelasi yang tepat adala
korelasi pearson. Korelasi pearson termasuk korelasi
parametrik diperkenalkan oleh Karl Pearson pada abad ke-19.
Korelasi pearson memiliki asumsi bahwa hubungan kedua
data berbentuk linier, datanya berdistribusi normal dan
minimal data berskala interval. Sebagai contoh kasus korelasi
pearson, apabila peneliti ingin mengetahui hubungan antara
berat dan tinggi badan seseorang. Selanjutnya jika peneliti
memiliki data yang berskala ordinal tetapi berdistribusi
normal maka korelasi yang tepat adala korelasi polychoric.
Korelasi polychoric diperkenalkan oleh Karl Pearson (1900).
Sebagai contoh kasus korelasi polychoric, apabila peneliti ingin
mengetahui hubungan antara tingkat disiplin dengan tingkat
kinerja karyawan, dimana kedua variabel diukur dengan skala
likert
Apabila data yang diteliti tidak berdistribusi normal,
dan salah satu atau kedua variabel dapat dibuat sebagai
rangking (menjadi berskala ordinal) maka korelasi yang tepat
adalah korelasi spearman. Korelasi spearman diperkenalkan
oleh Carl Spearman (1904). Sebagai contoh kasus korelasi
spearman, apabila peneliti ingin mengetahui hubungan antara
tingkatan IQ dan nilai ujian matematika siswa. Apabila data

26 | Corat Coret Catatan Statistisi Pemula


yang diteliti tidak berdistribusi normal, dan kedua variabel
dapat dibuat sebagai rangking (menjadi berskala ordinal)
maka korelasi yang tepat adalah korelasi Kendal tau. Korelasi
kendall tau diperkenalkan oleh Maurice Kendall (1938).
Sebagai contoh kasus korelasi kendall tau, apabila peneliti
ingin mengetahui hubungan antara penilaian dua orang juri
terhadap 10 kontestan masak. Korelasi spearman dan korelasi
kendall tau termasuk dalam korelasi nonparametrik.
Selanjutnya jika peneliti memiliki data salah satu
variabel berskala ordinal dengan dua kategori (biner/
dikotomi) dan lainnya data kuantitatif / numerik minimal
berskala interval maka korelasi yang tepat adalah korelasi
biserial. Sebagai contoh kasus korelasi biserial, apabila peneliti
ingin mengetahui hubungan antara tingkat pendidikan
(rendah/ sma ke bawah atau tinggi/ sma dan perguruan
tinggi) dengan pendapatan yang dimiliki. Sedangkan jika
peneliti memiliki data salah satu berskala nominal dengan dua
kategori (biner/ dikotomi) dan lainnya data kuantitatif /
numerik minimal berskala interval maka korelasi yang tepat
adalah korelasi point biserial. Sebagai contoh kasus korelasi
poin biserial, apabila peneliti ingin mengetahui hubungan
antara aktivitas olahraga (olahraga atau tidak) dengan tingkat
stamina/ kebugaran.
Apabila kedua variabel yang diteliti merupakan data
berskala ordinal yang terdiri atas dua kategori (biner) maka
korelasi yang tepat adalah korelasi tetrachoric. Sebagai contoh
kasus korelasi tetrachoric, apabila peneliti ingin mengetahui
hubungan antara status pegawai (staf dan manajer) dan tipe
tempat tinggal (kontrakan dan perumahan elit). Apabila kedua
variabel yang diteliti merupakan data berskala nominal yang
terdiri atas dua kategori (biner) maka korelasi yang tepat
adalah korelasi phi. Sebagai contoh kasus korelasi phi, apabila
peneliti ingin mengetahui hubungan antara gender (pria dan
wanita) dan jenis tontonan (sinetron dan berita). Sedangkan,
Apabila kedua variabel yang diteliti merupakan data berskala
nominal yang terdiri atas dua kategori (biner) maka korelasi
yang tepat adalah korelasi phi. Sebagai contoh kasus korelasi
phi, apabila peneliti ingin mengetahui hubungan antara

Pardomuan Robinson Sihombing | 27


gender (pria dan wanita) dan jenis tontonan (sinetron dan
berita).
Apabila kedua variabel yang diteliti merupakan data
berskala ordinal yang terdiri atas lebih dari dua kategori maka
korelasi yang tepat adalah korelasi gamma. Sebagai contoh
kasus korelasi gamma, apabila peneliti ingin mengetahui
hubungan antara tingkat pendidikan (rendah, sedang, tinggi)
dan tingkat pendapatan seseorang (rendah, sedang, tinggi).
Sedangkan apabila kedua variabel yang diteliti merupakan
data berskala nominal yang terdiri atas lebih dari dua kategori
maka korelasi yang tepat adalah korelasi Cramer V. Sebagai
contoh kasus korelasi Cramer V, apabila peneliti ingin
mengetahui hubungan antara stasiun televisi (RCTI, SCTV,
Anteve) dan jenis acara (olahraga, musik dan sinetron).
Selanjutnya jika peneliti memiliki data salah satu variabel
berskala ordinal dan lainnya berskala nominal maka korelasi
yang tepat adalah korelasi rank biserial. Sebagai contoh kasus
korelasi rank biserial, apabila peneliti ingin mengetahui
hubungan antara gender (pria dan wanita) dengan tingkat
pendidikan (rendah, sedang, tinggi).

28 | Corat Coret Catatan Statistisi Pemula


Bagaimana Memiliki Model Regresi yang Tepat
Sesuai Data yang Dimiliki?

Gambar 5. Bagan Model Regresi


Analisis regresi merupakan salah satu metode dalam
statistika yang digunakan untuk melihat pengaruh antara
suatu variabel dengan variabel lainnya. Ada dua jenis variabel
dalam penelitian yaitu variabel dependen/ terikat/ endogen/
respons/ yang dipengaruhi dan variabel independen/bebas/
eksogen/ prediktor/ yang mempengaruhi. Ada berbagai
macam model analisis regresi, dilihat dari pola hubungan,
banyaknya variabel dependen, banyaknya variabel
independen, waktu penelitian, distribusi data, tipe variabel
independen, teknik estimasi parameter dan lainnya. Berbeda
jenis data yang digunakan, berbeda juga analisis regresi yang
digunakan.
Suatu model regresi, biasanya diawali dengan memplot
hubungan antara variabel dependen dengan variabel
independennya. Melalui plot yang dibuat misalkan dengan
scatter plot maka dapat dilihat pola hubungan antar variabel

Pardomuan Robinson Sihombing | 29


tersebut apakah berbentuk linier atau tidak. Jika ditilik dari
pola hubungan antar variabel maka model regresi dapat
dibedakan menjadi model regresi linier dan model regresi
nonlinier. Contoh model regresi non linier adalah penggunaan
model regresi polinomial (jika variabel independen yang
digunakan tidak linier/ berpangkat 1) atau model regresi
nonparametrik (jika parameter yang digunakan tidak linier).
Sebagai contoh regresi polinomial, apabila peneliti ingin
mengetahui pengaruh variabel umur dan kuadrat umur
terhadap produktivitas seseorang. Beberapa contoh regresi
nonparametrik seperti Regresi Kernel dengan Nadaraya Watson
Estimation (NEW) dan Local Polinomial Estimator (LPE), Regresi
Spline dan Regresi B-Spline.
Jika ditilik dari jumlah variabel dependennya, maka
model regresi dapat dibagi menjadi univariat regresi (hanya
menggunakan 1 variabel dependen) dan multivariat regresi
(menggunakan lebih dari 1 variabel dependen). Sedangkan,
jika ditilik berdasarkan jumlah variabel independennya, maka
model regresi dapat dibagi menjadi regresi sederhana (hanya
menggunakan 1 variabel independen) dan regresi berganda
(menggunakan lebih dari 1 variabel independen). Sebagai
contoh kasus pada model regresi linier berganda univariat,
apabila peneliti ingin mengetahui pengaruh umur dan jenis
kelamin terhadap pendapatan seseorang. Sedangkan contoh
kasus pada model regresi linier berganda multivariat, apabila
peneliti ingin mengetahui pengaruh umur dan jenis kelamin
terhadap tekanan darah dan gula darah seseorang.
Jika ditilik dari sisi waktu penelitian, maka model
regresi dapat dibagi menjadi regresi cross section/ data silang,
regresi time series (runtun/ deret waktu), dan regresi panel.
Model regresi cross section digunakan jika data yang digunakan
terdiri dari sejumlah n individu dengan 1 periode waktu.
Misalnya, peneliti ingin mengetahui pengaruh lingkungan
kerja dan kompensasi terhadap kinerja 100 orang karyawan di
PT X tahun 2020. Model regresi time series digunakan jika data
yang digunakan terdiri dari 1 unit objek pengamatan dengan
sejumlah t waktu. Model regresi time series ini juga dibagi lagi

30 | Corat Coret Catatan Statistisi Pemula


ke dalam sistem persamaan yaitu persamaan tunggal dan
persaman sistem.
Model persamaan tunggal pada regresi time series
seperti model ARIMA-GARCH (menggunakan 1 variabel
beserta lag datanya) dan Error Correction Model (ECM).
Misalnya, peneliti ingin mengetahui pengaruh ukuran
perusahaan, jumlah dewan direksi terhadap kinerja Bank X
tahun 2010 sampai 2020. Sedangkan, model persamaan sistem
pada regresi time series seperti model Vector Autoregressive
(VAR), Vector Error Correction Model (VECM) dan persamaan
simultan. Dalam model sistem ini peneliti dapat melihat
pengaruh bolak balik (granger causality) antar variabel.
Misalnya, peneliti ingin hubungan antara jumlah uang
beredar, inflasi dan suku bunga di Indonesia tahun 2010-2020.
Pada analisis regresi dengan model time series, dapat melihat
hubungan jangka pendek dan jangka panjang antar variabel,
respon suatu variabel apabila ada goncangan (shock) dan
melakukan peramalan (forecasting).
Model regresi panel digunakan jika data yang
digunakan terdiri dari sejumlah n individu dengan t periode
waktu. Misalnya, peneliti ingin mengetahui pengaruh ukuran
perusahaan, jumlah dewan direksi terhadap kinerja Bank
BUMN (BRI, BTN, BSI,Mandiri, BNI) tahun 2010 sampai 2020.
Pada model regresi panel dapat dibagi menjadi 3 model yaitu
Pooled/ Common Effect Model (PEM), Fixed Effect Model (FEM)
dan Random Effect Model (REM).
Jika ditilik dari distribusi model, maka model regresi
dapat dibagi menjadi regresi dengan basis normal yang
diperkenalkan oleh Gaussian dan model regresi yang tidak
berdistribusi normal tetapi masih dalam distribusi keluarga
eksponensial. Model regresi standar (umum) yang
diperkenalkan Gaussian, memiliki asumsi datanya merupakan
data kuantitatif kontinu/ rasio, yang bernilai dari negatif tak
hingga sampai positif tak hingga. Model ini memiliki asumsi
yang dikenal dengan asumsi klasik yang terdiri dari asumsi
kenormalan data, kehomogenan varian dan non autokorelasi.
Apabila model yang terbentuk tidak memenuhi asumsi
tersebut, maka dilakukan pengecekan terhadap distribusi

Pardomuan Robinson Sihombing | 31


variabel dependen, jika mengikuti distribusi keluarga
eksponensial maka dapat menggunakan model linier terampat
(generalized linear model/ GLM). Beberapa model GLM yang
sering digunakan adalah model regresi binary logistik, regresi
multinomial, regresi ordinal, poisson, regresi beta, regresi
survival dan lainnya. Regresi binary logistik digunakan jika
variabel respon yang digunakan berbentuk kategori (dua
pilihan) dan berdistribusi binomial/ bernoulli dimana hanya
terdapat dua nilai yaitu 0 dan 1. Misalnya, peneliti ingin
mengetahui pengaruh pendidikan, jenis kelamin terhadap
status miskin seseorang (miskin atau tidak miskin).
Regresi multinomial digunakan jika variabel respon
yang digunakan berbentuk kategori (lebih dua pilihan/
nominal) dan berdistribusi multinomial. Misalnya, peneliti
ingin mengetahui pengaruh pendidikan, jenis kelamin
terhadap jenis tontonan seseorang (sinetron, berita, musik,
olahraga). Regresi interval digunakan jika variabel respon
yang digunakan berbentuk interval nilai. Misalnya, peneliti
ingin mengetahui pengaruh nilai tulisan, peringkat dan jenis
program (umum, vokasi dan akademis) terhadap variabel rata-
rata IPK yang diwakili oleh dua nilai dari nilai Interval bawah
(LGPA) dan nilai interval atas (UGPA).
Regresi ordinal digunakan jika variabel respon yang
digunakan berbentuk kategori (lebih dua pilihan/ ordinal),
dimana ada urutan dari kategori yang digunakan. Misalnya,
peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin
terhadap status miskin seseorang (miskin, hampir miskin,
tidak miskin). Regresi poisson digunakan jika variabel respon
yang digunakan merupakan data cacahan (count), dimana
datanya berdistribusi poisson. Misalnya, peneliti ingin
mengetahui pengaruh banyaknya jumlah dokter, jumlah
puskesmas di suatu desa terhadap jumlah kematian bayi
(neonatal).
Regresi Beta digunakan jika variabel respon yang
digunakan merupakan data rasio/proporsi yang nilainya di
antara 0 sampai 1, dimana datanya berdistribusi Bernoulli.
Misalnya, peneliti ingin mengetahui pengaruh banyaknya
jumlah dokter, jumlah puskesmas di suatu desa terhadap rasio

32 | Corat Coret Catatan Statistisi Pemula


bayi lahir hidup per 1000 kelahiran. Regresi Survival
digunakan jika variabel respon yang digunakan merupakan
data waktu hingga suatu kejadian terjadi. Misalnya, peneliti
ingin mengetahui pengaruh jenis kelamin dan dosis obat
terhadap daya tahan pasien kanker.
Berdasarkan tipe variabel independen/ penjelas,
model regresi dapat dibedakan regresi dengan menggunakan
variabel independen tetap (fixed independent variable) dan
variabel independen acak (random independent variable). Model
regresi yang umum dan sering digunakan adalah model
regresi dengan fixed independen variabel. Model regresi
dengan random independen variabel contohnya adalah model
linier campuran (Linear Mixed Model/ LMM) dan model
campuran linier terampat (generalized linear mixed model/
GLMM). Salah satu efek random yang digunakan dapat
berupa individu yang diukur berulang kali dalam suatu
penelitian atau efek dari spasial suatu daerah.
Jika ditilik dari teknik estimasi parameter yang
digunakan model regresi dapat menggunakan teknik least
square, maksimum likelihood dan Bayesian. Teknik least
square, prinsipnya adalah dengan meminimumkan error/
galat dapat berupa ordinary least square (OLS), general least
square (GLS), weighted least square (WLS) dan lainnya. Teknik
maksimum likelihood, prinsipnya adalah dengan
memaksimumkan fungsi likelihood dapat berupa standar
maximum likelihood, quasi/pseudo likelihood, restricted
likelihood dan lainnya. Teknik bayesian, prinsipnya adalah
dengan memanfaatkan informasi distribusi parameter
berdasarkan teori/ penelitian terdahulu atau data yang ada,
dapat berupa empirical bayes dan hirarki bayes.

Pardomuan Robinson Sihombing | 33


Asumsi Klasik dalam Model Regresi Linier Klasik

Salah satu metode analisis yang sering digunakan


peneliti dalam penelitian adalah model regresi. Apa itu model
regresi? Analisis regresi merupakan metode dalam statistika
yang digunakan untuk menguji hubungan sebab akibat antar
variabel. Dalam pemodelan regresi sendiri, ada dua hal yang
dapat kita lakukan yaitu menguji hipotesis pengaruh antar
variabel serta memprediksi baik nilai maupun klasifikasi
variabel dependennya berdasarkan model yang terbentuk.
Regresi yang paling umum yang dikenal dalam penelitian
adalah model regresi linier klasik yang berbasis pada data
yang terdistribusi normal (classical normal linear regression
model/ CNLRM). Seperti diketahui, model regresi klasik ini di
dalam melakukan estimasi nilai parameternya menggunakan
metode ordinary least square (OLS) maupun maximum
likelihood estimator (MLE). Ketika peneliti ingin melakukan
pengujian hipotesis terhadap pengaruh antar variabel dan
memprediksi nilai variabel dependen berdasarkan data yang
ada, maka model yang digunakan harus mengikuti asumsi
dalam model CNLRM ini.
Nah, mengapa perlu dilakukan pengujian asumsi
klasik pada CNLRM? Alasan paling mendasar adalah agar
parameter regresi yang didapat bersifat Best Linier Unbiased
Estimator (BLUE) artinya bahwa nilai parameter yang didapat
adalah nilai yang bersifat tidak bias, linier dan memiliki varian
yang paling kecil/ minimum dari berbagai kemungkinan
estimator lainnya. Terkadang istilah BLUE juga ditulis dengan
istilah model yang Uniformly Minimum Variance Unbiased
Estimator (UMVUE). Pengujian asumsi klasik berupa
linieritas, normalitas, heteroskedastisitas, dan autokorelasi.
Selain dari sisi asumsi klasik, hal yang perlu diperhatikan
dalam pengujian model CNLRM adalah bahwa hubungan
antara variabel independen bersifat hubungan satu ke satu (one

34 | Corat Coret Catatan Statistisi Pemula


to one) artinya kita hanya melihat hubungan antara masing-
masing variabel independen terhadap variabel dependen,
sehingga tidak boleh ada hubungan dan pengaruh yang kuat
antar variabel independen, jika terjadi maka akan terjadi
kolinearitas yang tinggi dan disebut dengan multikolinearitas.
Hal lain yang dapat diperhatikan dalam model CNLRM adalah
ada tidaknya data outlier/ pencilan pada model baik pencilan
pada data variabel dependen maupun pada data
independennya.
Uji Normalitas
Sebagaimana, menurut Gujarati ( 2006) bahwa
prosedur pengujian statistik didasarkan pada asumsi bahwa
faktor kesalahan ε didistribusikan secara normal. Karena
kesalahan ε yang sebenarnya tidak dapat diamati secara
langsung, maka direkomendasikan untuk menggunakan
residu e yang merupakan taksiran ε. Tidak terpenuhinya
asumsi normalitas maka koefisien regresi yang dihasilkan akan
bias dan error-nya akan semakin besar. Selanjutnya untuk
pengujian hipotesis menggunakan uji T (untuk uji parsial)
maupun uji F (untuk uji simultan) menjadi tidak relevan,
karena kedua uji itu diturunkan dari distribusi normal.
Bagaimana kita dapat mendeteksi kenormalan data?
Ada dua cara yaitu secara subjektif dan secara objektif. Secara
subjektif dengan menggambarkan plot residual dengan
distribusi probabilitas normal data (PP Plot) atau dengan
kuantil dari distribusi normal data (QQ Plot). Suatu data
dikatakan mengikuti distribusi normal jika plot data berada di
sekitar garis y=x (45 derajat). Secara objektif yaitu dengan
menggunakan pengujian seperti uji Kolmogorov Smirnov,
Shapiro-Francia, Shapiro-Wilk, Liliefors, Anderson Darling,
Jarque Berra, Chi Kuadrat dan lainnya. Suatu data dikatakan
normal jika nilai probability value dari hasil uji lebih besar dari
alpha (tingkat signifikansi) yang ditetapkan.
Lalu, bagaimana cara mengatasinya data yang tidak
berdistribusi normal? Hal pertama kali yang dilakukan adalah
kembali melakukan screening (pengecekan) terhadap data.
Pengecekan dapat dilakukan terhadap satuan data dan adanya
data pencilan. Selain itu jika memungkinkan dapat menambah

Pardomuan Robinson Sihombing | 35


data. Jika masih belum normal maka perlu dilakukan
transformasi data dengan menggunakan nilai standar data (z
score) maupun menggunakan transformasi Box Cox salah
satunya dengan menggunakan nilai logaritma natural (ln) dari
data. Hal lain yang dapat dilakukan adalah mengecek
distribusi data dari variabel dependen, apakah mengikuti
distribusi keluarga eksponensial, jika iya maka dapat
menggunakan model linier terampat (generalized linear model
/GLM).
Uji Heteroskedastisitas
Apa itu heteroskedastisitas? Uji heteroskedastisitas
bertujuan menguji apakah dalam model regresi terjadi
ketidaksamaan varian dari residual satu pengamatan ke
pengamatan yang lain. Jika varian tetap maka disebut
homoskedastisitas dan jika berbeda maka terjadi masalah
heteroskedastisitas. Jika asumsi normalitas terpenuhi, adanya
heteroskedastisitas, maka penaksir OLS tetap tak bias dan
konsisten, namun penaksir tersebut tidak lagi efisien baik
dalam sampel kecil maupun sampel besar (secara asimtotik).
Dalam hal ini varian penaksir parameter koefisien regresi akan
underestimate (menaksir terlalu rendah) atau overestimate
(menaksir terlalu tinggi).
Bagaimana kita dapat mendeteksi heteroskedastisitas
model? Ada dua cara yaitu secara subjektif dan secara objektif.
Secara subjektif dengan menggambarkan scatter plot antara
nilai residual dengan nilai prediksi dari model. Dikatakan
bebas asumsi heteroskedastisitas jika plot yang dihasilkan
berada di sekitar garis y=0 dan berbentuk acak/ tidak berpola.
Jika terdapat pola misal pola linier, kuadratik, kubik atau
lainnya maka terdapat gejala heteroskedastisitas. Secara
objektif yaitu dengan menggunakan pengujian dari hasil
meregresikan nilai residual/ e (berbagai kondisi) dengan
seluruh variabel independennya. Beberapa kondisi residual
yang digunakan seperti nilai ln residual kuadrat pada uji Park,
residual kuadrat pada uji white, absolut residual pada uji
glejser. Uji lainnya yang dapat digunakan adalah uji rank
spearman, uji Goldfeld-Quandt; uji breusch pagan; uji
koenker–bassett. Suatu data dikatakan bebas asumsi

36 | Corat Coret Catatan Statistisi Pemula


heteroskedastisitas jika nilai probability value dari hasil uji
lebih besar dari alpha (tingkat signifikansi) yang ditetapkan.
Lalu, bagaimana cara mengatasinya data yang
mengalami heteroskedastisitas? Salah satu caranya adalah
dengan menggunakan penimbang nilai varian data
menggunakan model weighted least square (WLS) dan
generalized least squares (GLS). Pada kasus data
menggunakan data spasial (melibatkan aspek spasial/
koordinat lokasi) maka dapat menggunakan model
geographically weighted regression (GWR), sehingga akan
terdapat koefisien yang berbeda untuk setiap lokasi yang
berbeda.
Uji Autokorelasi
Apa itu autokorelasi? Uji autokorelasi digunakan
untuk data time series dan panel data. Pengujian autokorelasi
juga dapat dilakukan pada data cross section, jika pada model
ditambahkan efek spasial pada datanya. Non Autokorelasi
berarti tidak adanya hubungan antara residual satu observasi
dengan observasi lain yang berlainan waktu untuk data time
series, atau antar lokasi untuk data spasial. Uji autokorelasi
bertujuan menguji apakah model regresi linier ada korelasi
antara kesalahan pengganggu/error pada periode t dengan
kesalahan pengganggu/error pada periode sebelumnya (t-1)
untuk data time series, atau antar lokasi untuk data cross
section spasial. Jika asumsi normalitas terpenuhi, adanya
autokorelasi maka penaksir OLS menjadi bias.
Bagaimana kita dapat mendeteksi autokorelasi model?
Ada dua cara yaitu secara subjektif dan secara objektif. Secara
subjektif dengan nilai durbin watson (DW). Dikatakan bebas
asumsi autokorelasi jika nilai DW di antara du<dw<4-du, nilai
du dapat dilihat pada tabel durbin watson. Secara objektif
yaitu dengan menggunakan pengujian run test, Breusch-
Godfrey, yang lebih umum dikenal dengan uji lagrange
multiplier (LM test), dan uji Grey. Suatu data dikatakan bebas
asumsi autokorelasi jika nilai probability value dari hasil uji
lebih besar dari alpha (tingkat signifikansi) yang ditetapkan.
Lalu, bagaimana cara mengatasinya data yang
mengalami autokorelasi? Salah satu caranya adalah dengan

Pardomuan Robinson Sihombing | 37


menambahkan lag data atau differencing data jika
menggunakan data time series. Selain itu untuk data panel
dapat menggunakan model panel dinamis jika datanya masih
terdistribusi normal, tetapi jika tidak normal (tetapi masih
dalam distribusi keluarga eksponensial) serta mengalami
autokorelasi dapat menggunakan model generalized linear
mixed model (GLMM). Pada data spasial maka dapat
menggunakan model regresi spasial pada data autokorelasi.
Uji Linieritas
Apa itu linieritas? Uji linieritas dipergunakan untuk
melihat apakah model yang dibangun sudah mempunyai
hubungan linier atau tidak. Yang dimaksud linier di sini dalam
dua hal yaitu linier dalam variabel independen maupun linier
dalam parameter. Jika model yang tidak memenuhi asumsi
linieritas maka model yang digunakan akan bias dan error
prediksi juga akan besar.
Bagaimana kita mendeteksi linieritas model? Ada dua
cara yaitu secara subjektif dan secara objektif. Secara subjektif
dengan melakukan plot antara variabel dependen dan
independen. Secara objektif yaitu dengan menggunakan
pengujian ramsey test atau uji Lagrange Multiplier. Suatu
model dikatakan bebas asumsi linieritas jika nilai probability
value dari hasil uji lebih besar dari alpha (tingkat signifikansi)
yang ditetapkan.
Lalu, bagaimana cara mengatasinya model yang tidak
memenuhi asumsi linieritas? Jika hubungan antara variabel
dependen dan independen plotnya tidak linier dan spesifikasi
modelnya tidak eksplisit diketahui maka dapat menggunakan
model regresi nonparametrik. Jika yang tidak linear adalah
variabel independennya maka dapat menggunakan regresi
polinomial.
Uji Multikolinieritas
Apa itu multikolinearitas? Multikolinieritas
menunjukkan adanya hubungan linier di antara beberapa atau
semua variabel independen yang menyusun model regresi.
Multikolinieritas sebenarnya bukanlah uji asumsi klasik
melainkan persyaratan dalam model regresi karena yang diuji

38 | Corat Coret Catatan Statistisi Pemula


adalah variabel independennya bukan model atau residual
pada model. Jika asumsi normalitas, heteroskedastisitas dan
autokorelasi terpenuhi, adanya multikolinieritas masih
menghasilkan estimator tak bias, tetapi menyebabkan suatu
model mempunyai varian yang besar sehingga sulit
mendapatkan estimasi yang tepat. Meski penaksir OLS bisa
diperoleh, standard error (kesalahan baku) cenderung semakin
besar dengan meningkatnya korelasi antar variabel bebas.
Besarnya standard error berakibat, selang keyakinan
(confidence interval) untuk suatu parameter menjadi lebih
lebar, dan kesalahan tipe II meningkat. Pada multikolinieritas
yang tinggi tapi tidak sempurna, estimator koefisien regresi
bisa diperoleh, tetapi estimator dan standard error menjadi
sensitif terhadap perubahan data. Pada multikolinieritas yang
tinggi tetapi tidak sempurna, bisa terjadi R kuadrat (koefisien
determinasi) tinggi namun tidak satupun variabel signifikan
secara statistik.
Bagaimana kita dapat mendeteksi multikolinieritas
data pada variabel independen? Adanya multikolinearitas
dapat dilihat dari nilai matriks korelasi antar variabel bebas,
apakah terdapat nilai korelasi yang tinggi. Jika korelasi antara
dua variabel independen lebih besar dari 0.8 maka dikatakan
ada gejala multikolinieritas. Selain itu dapat melihat nilai
Variance Inflation Factor (VIF). Jika terdapat nilai variabel
independen dengan nilai VIF > 10 maka diindikasikan bahwa
ada masalah multikolinearitas.
Lalu, bagaimana cara mengatasinya multikolinieritas?
Hal yang dapat dilakukan adalah dengan menggunakan
informasi apriori (hubungan antara variabel independen
secara teori), lalu menggabungkan variabel tersebut dengan
analisis komponen utama atau analisis faktor. Mengeluarkan
satu atau beberapa variabel bebas yang memiliki korelasi
tinggi. Selain itu dapat menggunakan model ridge regression.
Uji Data Pencilan/ Outlier
Apa itu data pencilan? Data pencilan/ outlier adalah
data yang nilainya cukup berbeda/ ekstrim terhadap nilai
lainnya. Pencilan dapat terjadi pada variabel dependen
maupun variabel independen. Dengan adanya data pencilan

Pardomuan Robinson Sihombing | 39


akan mempengaruhi model yang dihasilkan. Model yang
dihasilkan dengan adanya data pencilan menjadi tidak efisien,
atau error-nya akan besar.
Bagaimana kita dapat mendeteksi adanya outlier? Ada dua
cara yaitu secara subjektif dan secara objektif. Secara subjektif
dengan melakukan plot antara variabel dependen dan
independen atau menggunakan box plot. Secara objektif pada
data variabel dependen dilakukan standarisasi data (nilai z-
score) jika nilainya di atas 2.5 atau di bawah minus 2.5 maka
ada indikasi pencilan/ outlier. Pada variabel independen
dapat memanfaatkan Hessian Matrik untuk melihat nilai
leverage, nilai discrepancy, dan nilai influence pada data.
Lalu, bagaimana cara mengatasinya adanya data
pencilan/ outlier? Hal yang dapat dilakukan adalah
melakukan screening data, memastikan bahwa nilai pencilan/
outlier merupakan nilai sebenarnya bukan karena kesalahan
perhitungan/ rumus maupun salah input data. Jika nilai
tersebut tidak menjadi interest dalam penelitian maka nilai
pencilan dapat dibuang/ diabaikan. Tetapi jika peneliti tertarik
dengan nilai tersebut dapat diberikan penimbang (weighting)
pada data. Selain itu dapat menggunakan regresi median, atau
model LMS (least median square) atau model regresi robust
(kekar) lainnya. Jika adanya pencilan bersamaan dengan
adanya multikolinieritas maka dapat menggunakan model
RobustPCA.

40 | Corat Coret Catatan Statistisi Pemula


Regresi Binary Logistik dan Aplikasinya

Gambar 6. Bagan Regresi Binary Logistik

Ketika seorang peneliti tertarik melihat hubungan


sebab akibat antar variabel, dimana variabel dependen/
responnya berupa data kualitatif yang terdiri dari dua kategori
maka model yang tepat adalah regresi binary logistik. Model
regresi binary logistik merupakan salah satu bagian dari model
linier terampat (generalized linear model/ GLM). Dalam hal
ini variabel respon tidak mengikuti distribusi normal tetapi
masih mengikuti distribusi keluarga eksponensial disebut.
Dalam regresi binary logistik distribusi adalah bernoulli atau
binomial.
Model regresi binary logistik dapat digunakan untuk
data cross section, time series maupun panel. Model ini juga
dapat diaplikasikan pada model yang mengandung efek
spasial. Selain itu model ini juga dapat diterapkan dengan
teknik estimasi menggunakan maximum likelihood estimator
(MLE) maupun teknik bayesian. Misalnya seorang peneliti
ingin mengetahui faktor apa saja yang mempengaruhi status
bekerja seseorang (bekerja atau menganggur). Contoh lainnya,
seorang epidemiolog ingin mengetahui faktor apa saja yang
mempengaruhi status kesembuhan pasien terhadap suatu
penyakit (sembuh atau sakit).
Sebagai salah satu model GLM, regresi binary logistik
memiliki tiga komponen yaitu komponen acak, komponen
sistematik dan link function. Komponen acak dalam GLM
adalah variabel random respon, komponen sistematik dari
dalam model adalah satu set parameter regresi dan kovariat X

Pardomuan Robinson Sihombing | 41


yang membentuk kombinasi linier. Sedangkan link function
merupakan fungsi tautan antara komponen sistematik dengan
nilai ekspektasi (rata-rata) dari komponen acak. Alternatif link
function selain bentuk logit adalah bentuk probit dan
complementary log-log.
Pengujian Hipotesis
Dalam model regresi binary logistik beberapa
pengujian yang sering dilakukan adalah pengujian kesesuaian
model, uji pengaruh variabel independen secara simultan, dan
uji pengaruh variabel independen secara parsial. Untuk
menguji kesesuaian model digunakan uji Hosmer-Lemeshow,
dengan hipotesis null: model sudah sesuai/ fit. Untuk menguji
pengaruh variabel independen secara bersama-sama
menggunakan uji omnibus atau uji chi square, dengan
hipotesis null: tidak ada satupun variabel independen yang
berpengaruh signifikan. Sedangkan untuk menguji pengaruh
masing-masing variabel independen secara parsial
menggunakan uji wald, dengan hipotesis null: variabel
independen ke-i tidak berpengaruh signifikan. Dalam hal
interpretasi koefisien regresi logistik menggunakan nilai odds
ratio, yaitu peluang suatu kejadian terjadi dibandingkan
kejadian lainnya. Misalnya peluang seorang dengan status
tidak bekerja, untuk seseorang yang pendidikan rendah 1,2
kali lebih tinggi dibandingkan yang berpendidikan tinggi.
Uji Ketepatan Model
Ada beberapa cara dalam menentukan ketepatan atau
kebaikan suatu model yang digunakan untuk
pengklasifikaasian diantaranya koefisien determinasi/ pseudo
r square, kriteria dalam confussion matriks, kurva ROC dan
nilai AUC serta koefisien kappa. Nilai koefisien determinasi
dalam hal ini nilai pseudo r square menunjukkan seberapa
besar variasi variabel dependen mampu dijelaskan oleh
seluruh variabel independen. Nilai pseudo r square dapat
berupa nilai Cox & Snell R Square maupun Nagelkerke R
Square.
Confussion Matrix merupakan sebuah alat untuk
mengetahui sejauh mana pengklasifikasian dapat mengenal

42 | Corat Coret Catatan Statistisi Pemula


atau memprediksi kelas data. Pada umumnya ketepatan
pengklasifikasian digunakan ukuran akurasi yaitu proporsi
frekuensi yang tepat diklasifikasikan dengan total sampel yang
ada. Selain melihat akurasi kita dapat melihat sensitivity.
Sensitivity + merupakan proporsi kelas yang menjadi
perhatian/diinginkan terprediksi dengan benar. Specificity -
merupakan proporsi kelas yang tidak menjadi perhatian/tidak
diinginkan terprediksi dengan benar. Apabila tingkat akurasi
tinggi, namun sensitivity dan specificity rendah, maka
pengklasifikasian dapat dikatakan tidak baik.
Ukuran evaluasi kinerja klasifikasi lain adalah kurva
Receiver Operating Characteristic (ROC). Kurva ROC adalah
kurva analisis yang menggambarkan kinerja suatu model
klasifikasi pada dua dimensi antara sensitivity sebagai sumbu
y dan (1-specificity) sebagai sumbu x. Nilai tunggal yang dapat
digunakan untuk mengukur kinerja klasifikasi pada kurva
ROC adalah Area Under Curve the ROC (AUC). Dikatakan
model sudah memiliki tingkat pengkasifikasian yang tepat jika
nilai AUC di atas 0.7. Selain itu kebaikan model dapat dilihat
dengan nilai Kappa dimana nilai yang dipakai untuk
menentukan kekuatan kesepakatan/reliabilitas. Semakin
tinggi nilai Kappa akan semakin baik model yang digunakan.
Permasalahan Dalam Model Regresi Logistik
Sebagaimana diketahui, regresi logistik mampu
menjadi pengklasifikasian yang baik didasarkan pada asumsi
bahwa banyaknya data terdistribusi secara merata antara kelas
yang berbeda. Padahal dalam kehidupan nyata, terdapat
peristiwa yang menunjukkan bahwa banyaknya data yang
tidak seimbang antara kelas yang berbeda, yang dikenal
dengan istilah imbalanced data. Jika regresi logistik digunakan
pada kasus imbalanced data, maka pengklasifikasian
cenderung menihilkan peluang dari kelas minoritas karena
nilai prediksi akan cenderung pada kelas mayoritas, sehingga
tingkat ketepatan klasifikasi yang dihasilkan menjadi kurang
baik.
Di sisi lain, salah satu asumsi dalam model GLM seperti
model logistik adalah asumsi equidispersion dimana varian
dari sampel sama dengan varian dari distribusi yang

Pardomuan Robinson Sihombing | 43


dihipotesiskan. Pengecekan dapat dilakukan dengan membagi
nilai residual deviance dengan derajat bebasnya diharapkan
nilainya mendekati 1. Cara lain pengujian dispersi dengan
menggunakan uji parametric dispersion test melalui statistik
mean pearson-chisq atau uji nonparametric dispersion test
melalui nilai standards of residuals fitted terhadap data
simulasi.
Masalah lain yang sering terjadi adalah untuk kasus
yang jarang terjadi (rare event). Misalnya dari 1000 percobaan,
hanya terdapat 20 kasus yang memenuhi kriteria. Sehingga
peluang suatu kejadian terjadi cukup kecil. Data ini ketika
dimodelkan dengan regresi logistik akan mempengaruhi
kesimpulan yang ada.
Solusi
Jika masalah yang dihadapi dalam pemodelan regresi
logistik adalah rare event, maka dapat menggunakan model
skew logistik regression. Jika masalah yang dihadapi adalah
masalah overdispersi maka dapat menggunakan regresi
logistik terkoreksi (corrected binary regression). Sedangkan jika
masalahnya adalah kasus imbalanced data maka dapat
menggunakan teknik resampling.
Metode resampling digunakan untuk mengubah data
yang tidak seimbang menjadi distribusi yang seimbang,
dengan melakukan modifikasi diantaranya teknik
undersampling, oversampling dan both/ combine sampling.
Metode undersampling bekerja dengan kelas mayoritas yaitu
mengurangi jumlah pengamatan dari kelas mayoritas untuk
membuat kumpulan data seimbang. Metode oversampling,
dimana metode ini bekerja dengan kelas minoritas yaitu
dengan mereplikasi pengamatan dari kelas minoritas untuk
menyeimbangkan data. Metode both/ combine sampling
menggabungkan metode dari oversampling dan
undersampling.

44 | Corat Coret Catatan Statistisi Pemula


Regresi Poisson dan Aplikasinya

Gambar 7. Bagan Regresi Poisson

Salah satu metode yang digunakan peneliti untuk


melihat hubungan sebab akibat adalah metode analisis regresi.
Analisis regresi menurut distribusi datanya dapat dibagi
menjadi regresi yang mengikuti distribusi normal, mengikuti
distribusi keluarga eksponensial dan tidak mengikuti
berdistribusi tertentu. Model regresi yang tidak mengikuti
distribusi normal tetapi masih mengikuti distribusi keluarga
eksponensial disebut model linier terampat (generalized linear
model/ GLM). Model GLM yang digunakan apabila variabel
dependen/ responnya berupa data diskrit bilangan bulat
positif/ data cacahan adalah model regresi poisson. Model
regresi poisson dapat digunakan untuk data cross section, time
series maupun panel. Model ini juga dapat diaplikasikan pada
model yang mengandung efek spasial. Misalnya seorang
peneliti ingin mengetahui faktor apa saja yang menyebabkan
terjadi audit delay (dalam satuan hari) dalam suatu
perusahaan. Contoh lainnya, seorang epidemiolog ingin
mengetahui faktor apa saja yang mempengaruhi jumlah
perokok aktif (dalam satuan orang /jiwa) di suatu daerah.
Nah, karena regresi poisson menggunakan data
variabel dependen yang diasumsikan berdistribusi poisson,
maka salah satu asumsi yang harus dipenuhi adalah asumsi
equidispersion. Sebagaimana dalam distribusi poisson nilai
rataan sama dengan nilai ragam/ variannya. Namun dalam
kenyataannya asumsi tersebut sering dilanggar, dimana ragam

Pardomuan Robinson Sihombing | 45


bisa saja lebih kecil dari rataan (underdispersion) atau ragam
lebih besar dari rataan (overdispersion).
Akibat Pelanggaran Asumsi Equidispersion
Apa akibat jika asumsi equidispersion terlanggar/
diabaikan? Jika asumsi ini terlanggar maka nilai dari standar
error koefisien regresi menjadi overestimate atau
underestimate. Sehingga, akan terjadi kesalahan ketika pada
pengambilan keputusan dalam uji hipotesis. Misalnya, suatu
variabel independen disimpulkan berpengaruh signifikan
padahal dalam kenyataannya variabel tersebut tidak
berpengaruh signifikan. Sebaliknya, suatu variabel
independen disimpulkan tidak berpengaruh signifikan
padahal dalam kenyataannya variabel tersebut berpengaruh
signifikan. Dengan kata lain, hasil kesimpulan yang didapat
menjadi tidak konsisten.
Apa yang mengakibatkan Pelanggaran Asumsi
Equidispersion?
Ada beberapa kemungkinan penyebab tidak
terpenuhinya asumsi equidispersion. Salah satunya jika
keragaman hasil pengamatan (keragaman individu) sebagai
komponen yang tidak dijelaskan oleh model. Hal ini membuat
keragaman menjadi lebih kecil dari nilai sebenarnya. Di sisi
lain, korelasi antar respon individu sehingga terjadinya
pengelompokan dalam populasi. Hal lain juga dapat
diakibatkan adanya pengamatan yang hilang/ dihilangkan.
Bagaimana cara mengatasinya?
Jika asumsi equidispersion tidak terpenuhi maka
model poisson biasa menjadi tidak efektif digunakan dalam
pemodelan. Sehingga berkembang model poisson lainnya
sebagai perluasan model poisson biasa. Model pengembangan
poisson diantaranya adalah model regresi general poisson
(dengan menggunakan pendekatan general maximum
likelihood) dan regresi quasi poisson (dengan menggunakan
pendekatan quasi maximum likelihood). Pendekatan lain
yang dapat digunakan adalah dengan menggunakan distribusi
yang mirip dengan poisson yaitu menggunakan regresi negatif

46 | Corat Coret Catatan Statistisi Pemula


binomial. Jika masalahnya adalah keragaman yang tidak
dijelaskan dalam model maka dapat menambahkan efek
random pada model poisson sehingga modelnya akan menjadi
model poisson dengan mixed model (termasuk dalam model
generalized linear mixed model). Jika terdapat data
pengamatan yang dihilangkan maka dapat menggunakan
pendekatan regresi poisson tersensor (censored poisson).
Sedangkan jika terdapat batasan-batasan nilai pada variabel
dependen sehingga seperti fungsi terpotong-potong maka
dapat menggunakan regresi poisson terpotong (truncated
poisson)
Excess Zero
Masalah lain yang sering terjadi pada data berdistribusi
poisson adalah data yang banyak mengandung nilai nol (hal
ini dikenal dengan excess zero). Misalnya peneliti ingin
mengetahui faktor yang mempengaruhi jumlah bayi yang
mengalami kondisi gizi buruk (stunting) di suatu daerah. Jika
kenyataannya, kasus ini termasuk kasus jarang (rare case)
hanya terjadi di beberapa daerah, sementara daerah lainnya
bernilai nol maka variabel dependennya kebanyakan bernilai
nol.
Bagaimana mengatasi hal ini? Pengembangan model
regresi poisson untuk kasus excess zero ialah dengan dengan
menggunakan model zero inflated poisson atau regresi hurdle
poisson. Pada model ini akan memisahkan analisis pada kasus
data yang bernilai nol dan data diskrit yang tidak bernilai nol.
Sehingga didapat analisis yang lebih relevan.
Selanjutnya, bagaimana kalau terjadi pelanggaran
asumsi equidispersion sekaligus excess zero? Solusinya
menggabungkan metode penanganan pelanggaran
equidispersion dan excess zero. Beberapa model yang dapat
digunakan misalnya model zero inflated negatif binomial,
regresi hurdle negative binomial, zero truncated negative
binomial dan metode lainnya.

Pardomuan Robinson Sihombing | 47


Analisis Data Deret Waktu

Salah satu tipe data menurut periode pengumpulannya


adalah data deret waktu (time series data). Dalam data deret
waktu, suatu objek/ individu diteliti selama periode waktu
tertentu. Contohnya seorang peneliti, melihat ingin meramal
(forecasting) perkembangan saham suatu perusahaan untuk
dua periode ke depan. Atau seorang peneliti ingin melihat pola
hubungan antara tingkat inflasi, suku bunga dan jumlah uang
beredar di Indonesia selama kurun waktu 2010-2021.
Keuntungan dengan menggunakan data deret waktu
adalah dapat memberikan informasi serta membandingkan
dampak terhadap suatu objek terkait adanya suatu fenomena
dalam kurun waktu penelitian. Fenomena yang terjadi dapat
berupa kebijakan, peristiwa alam, politik, dan lainnya.
Keunggulan lain menggunakan analisis data deret waktu,
dapat memberikan peramalan terhadap suatu objek di masa
mendatang, dari pola data masa lalunya.
Komponen Data Deret Waktu
Sebelum lebih lanjut dalam menganalisis data deret
waktu, kita terlebih dahulu memahami komponen yang ada
dalam data deret waktu. Ada empat komponen dalam data
deret waktu yaitu trend, musiman (seasonal), siklis (cyclic) dan
irregular. Tren adalah suatu pola yang memberikan informasi
terhadap suatu objek dapat berupa peningkatan, penurunan
yang terjadi dalam durasi yang cukup panjang (misalnya
dalam beberapa tahun). Hal ini dapat diakibatkan karena
adanya teknologi atau pola perilaku penduduk dan lainnya.
Misalkan saja tren belanja online yang terus meningkat dari
tahun ke tahun.
Musiman adalah pola peningkatan atau penurunan
yang terjadi berulang secara reguler (biasanya periodenya
dalam satu tahun). Hal ini dapat diakibatkan adalah pola

48 | Corat Coret Catatan Statistisi Pemula


cuaca, pola hari libur, dan lainnya. Misalnya pola peningkatan
harga daging saat menjelang Hari Raya Idul Fitri atau Tahun
Baru. Peningkatan produksi rumput laut saat musim kemarau
panas.
Siklus adalah pola pengulangan berupa peningkatan
maupun penurunan yang efeknya terjadi dalam waktu singkat
(misalnya mingguan hingga tahunan. Hal ini dapat
diakibatkan karena adanya beberapa isu ekonomi dan politik.
Misalkan siklus bisnis suatu produk. Irregular adalah pola
yang tidak teratur, tidak sistematik, durasinya pendek dan
tidak berulang. Hal ini dapat diakibatkan karena adanya
peristiwa yang tidak terprediksi seperti perang, fenomena
alam dan lainnya. Misalnya penurunan produksi padi dan
puso (gagal panen) diakibatkan adanya wabah wereng atau
gunung meletus.
Teknis Analisis Data Deret Waktu
Terdapat dua garis besar teknik dalam mengolah data
deret waktu yaitu menggunakan data satu variabel (univariat)
maupun menggunakan data lebih dari satu variabel
(multivariat). Penggunaan satu variabel dapat dibagi menjadi
metode pemulusan (smoothing) dan pemodelan. Penggunaan
lebih dari satu variabel dapat dibagi menjadi persamaan
tunggal (single equation) maupun persamaan sistem (system
equation). System equation dapat dibagi menjadi persamaan
kausalitas granger dan persamaan simultan.
Metode smoothing adalah metode dengan prinsip
pengenalan pola data dengan menghaluskan variasi lokal
dalam data. Pada umumnya metode penghalusan hanya cocok
untuk pola data tertentu. Beberapa metode pemulusan di
antaranya single moving average, double moving average,
single exponential smoothing, double exponential smoothing,
metode Winter, dan dekomposisi data deret waktu.
Metode moving average digunakan untuk data yang
polanya konstan/stasioner, dan memberikan bobot yang sama
dalam analisisnya. Metode exponential digunakan untuk data
yang mengandung tren. Metode winter biasanya digunakan
untuk data yang memiliki pola musiman baik bersifat aditif

Pardomuan Robinson Sihombing | 49


maupun multifikatif. Metode dekomposisi digunakan untuk
memisahkan pola trend, musiman dan siklus pada data.

Gambar 8. Bagan Model Arima dan ARCH-GARCH

50 | Corat Coret Catatan Statistisi Pemula


ARIMA
Pemodelan dengan satu variabel data deret waktu
adalah metode Autoregressive Integrated Moving Average
(ARIMA) dan Generalized Autoregressive Conditional
Heteroscedastic (Garch). Dalam pemodelan data time series,
syarat awal menggunakan model ARIMA adalah datanya
harus sudah stasioner baik dalam rata-rata maupun dalam
varian/ ragam. Hal ini dikarenakan agar tidak menghasilkan
model yang superious/lancung/palsu atau model yang
memiliki error yang nilainya besar.
Jika data tidak stasioner, maka harus dilakukan
transformasi stasioneritas melalui proses diferensiasi, jika
trendnya linier, sedangkan jika tidak linier, maka
transformasinya harus dilakukan dulu transformasi linieritas
trend melalui proses logaritma natural, dan proses
pembobotan (penghalusan eksponensial sederhana) jika
bentuknya yang lain. Adapun uji yang biasanya digunakan
untuk stasioner rata-rata ialah uji akar-akar unit root
Augmented Dickey Fuller.
Kestasioneran varians dalam model deret waktu dapat
dilakukan secara visual dengan menggunakan plot time series
dengan melihat pola data apakah melebar atau menyempit,
sedangkan pengujian stasioner varians dapat dijelaskan dalam
bentuk plot Box-Cox. Jika nilai batas bawah dan batas atas
lambda (λ) plot Box-Cox dari data deret waktu melalui nilai
satu, maka dapat dikatakan bahwa data deret waktu tersebut
sudah stasioner dalam varians.
Setelah model ARIMA didapat biasanya yang dipilih
adalah model yang signifikan, error terkecil, bias proportion
terkecil, korelasinya tinggi serta memenuhi asumsi normalitas,
white noise, dan homoskedastisitas barulah model tersebut
dapat digunakan untuk melakukan forecast/peramalan untuk
nilai data periode berikutnya. Adapun penulisan model
ARIMA secara umum yaitu: ARIMA (p,q,r), p adalah
autoregressive (AR), q adalah difference, dan r adalah moving
average (MA). Misal: ARIMA (1,0,0) artinya menggunakan AR
(1) pada data level. ARIMA (0,0,1) artinya menggunakan MA
(1) pada level, ARIMA (1,0,1) artinya menggunakan AR (1) dan

Pardomuan Robinson Sihombing | 51


MA (1) pada data level, dan ARIMA (1,1,0) artinya
menggunakan AR (1) pada data difference I.
Alternatif Model ARIMA
Perkembangan selanjutnya dalam model ARIMA
dapat menambahkan efek seasonal yang disebut seasonal
ARIMA (SARIMA). Apabila dalam model ARIMA
ditambahkan variabel penjelas/eksogen (X) maka modelnya
menjadi ARIMAX dan SARIMAX. Selanjutnya adalah model
ARCH/GARCH.
ARCH/GARCH biasanya digunakan untuk mencari
volatilitas suatu data. Sebagai contoh, peneliti ingin
melakukan peramalan harga saham dari volatilitas harga
saham sebelumnya. Yang dilihat adalah pengaruh varian
(ARCH) dan error kuadrat (model GARCH) dari series
datanya. Model ARCH/GARCH adalah kelanjutan dari
peramalan model ARIMA, di manasyarat yang digunakan
apabila model ARIMA yang dipilih tidak memenuhi asumsi
homoskedastisitas artinya modelnya masih mengandung
heteroskedastisitas.
Adapun model umum umumnya dapat ditulis
ARCH/GARCH (p,q,r) di mana p adalah arch, q adalah
difference, dan r adalah garch. Misal: ARCH (1,0,0) artinya
menggunakan ARCH(1) pada data level, GARCH (0,0,1)
artinya menggunakan GARCH(1) pada level, GARCH (1,0,1)
artinya menggunakan ARCH(1) dan GARCH(1) pada data
level. GARCH (1,1,1) artinya menggunakan ARCH(1) dan
GARCH(1) pada data difference I.

52 | Corat Coret Catatan Statistisi Pemula


Model Multivariat Data Deret Waktu

Gambar 9. Model Time Series Single Equation


𝑀𝑜𝑑𝑒𝑙 𝐸𝐶𝑀 𝑌! = 𝛽" + 𝛽# 𝑋! + 𝜀!

∆𝑌! = 𝛼" + 𝛼# ∆𝑋! + 𝛼$ 𝜀!%# + 𝑢! 𝑎𝑡𝑎𝑢 ∆𝑌!


= 𝛼" + 𝛼# ∆𝑌!%# + 𝛼$ ∆𝑋! + 𝛼' 𝜀!%# + 𝑢!

Selanjutnya adalah model data deret waktu dengan


lebih dari 1 variabel yang membentuk persamaan tunggal/
single equation. Adapun prosedur awal adalah melakukan uji
stasioneritas setiap variabel. Jika semua variabel stasioner
pada level pakai model regresi biasa menggunakan OLS dapat
diterapkan.
Jika minimal ada satu variabel stasioner pada level
maka pakai model regresi dengan menggunakan data
difference atau menggunakan model fungsi transfer. Jika tidak
ada variabel yang stasioner pada level maka uji stasioner pada
difference. Jika semua variabel stasioner pada difference yang
sama misalnya pada difference I maka ada kemungkinan
menggunakan model Error Correction Model (ECM). Misalkan
peneliti akan melihat hubungan jangka panjang dan jangka
pendek nilai ROA suatu bank yang dipengaruhi oleh suku
bunga SBI dan inflasi.
Dalam model ECM perlu melakukan uji Engle Granger
cointegration single equation untuk memastikan apakah ada
efek jangka panjang dalam model. Jika terjadi ECM, maka

Pardomuan Robinson Sihombing | 53


model jangka panjang dilakukan dengan meregresikan seperti
regresi biasa, sedangkan model jangka pendek dengan
meregresikan seluruh data dalam difference, dan ditambah
error lag 1 (et-1) sebagai variabel independen. Diharapkan
koefisien errornya signifikan dan bernilai negatif agar
modelnya dapat konvergen.

Gambar 10. Model System Equation Time Series

VAR dan VECM Model


Selanjutnya adalah model data deret waktu dengan
lebih dari 1 variabel yang membentuk persamaan sistem/
system equation. Model sistem dapat dibagi menjadi model
yang memiliki hubungan bolak balik (jumlah persamaan sama
dengan jumlah variabel) seperti model VAR dan VECM dan
model yang tidak memiliki hubungan bolak balik, tetapi suatu
variabel independen secara sistem juga dipengaruhi variabel
lain melalui persamaan teori yang ada misal analisis simultan.
Dalam model VAR dan VECM langkah awal yang
harus dilakukan adalah uji stasioneritas apabila semua
variabel stasioner pada level atau minimal satu stasioner ada

54 | Corat Coret Catatan Statistisi Pemula


level maka model yang digunakan adalah model VAR.
Langkah selanjutnya dalam model VAR adalah memastikan
adanya minimal 1 pasang variabel yang memiliki hubungan
pengaruh bolak balik (2 arah) melalui granger causality dan lag
yang optimum.
Jika tidak ada data yang stasioner pada data level, maka
selain menguji hubungan bolak balik (dua arah), maka langkah
selanjutnya menguji adalah kointegrasi dengan cointegration
multi equation Johansen untuk memastikan adanya efek
jangka panjang dan jangka pendek dalam model sehingga
dapat memakai model VECM. Contoh penelitian VAR/ VECM
adalah melihat hubungan dan pengaruh dua arah antara suku
bunga, inflasi dan jumlah uang beredar.
Dalam model VAR dan VECM selain digunakan untuk
melihat besarnya pengaruh dan peramalan juga dapat melihat
impulse response dan variance decomposition. Impul respon
digunakan untuk melihat respon suatu variabel akibat adanya
guncangan (shock) variabel lainnya dan seberapa lama shock
itu akan bertahan, misalnya perubahan suku bunga akibat
kenaikan inflasi. Sedangkan variance decomposition, melihat
seberapa besar keragaman suatu variabel dijelaskan oleh
variabel lainnya selama periode waktu penelitian.
Model Simultan
Selanjutnya adalah model persamaan simultan. Model
simultan adalah suatu model yang memiliki lebih dari satu
persamaan, di mana antar persamaan saling kait mengait.
Dalam persamaan simultan, variabel dependen pada suatu
persamaan dapat juga bertindak sebagai variabel independen
dalam persamaan lainnya.
Persamaan struktural dapat diperoleh ke dalam bentuk
persamaan reduksi (reduce form) dan koefisien bentuk reduksi
yang berhubungan. Salah satu permasalahan dalam model
simultan adalah identifikasi untuk mengetahui apakah suatu
persamaan dalam persamaan simultan dapat diidentifikasi
atau tidak.
Pengujian identifikasi dapat ditinjau melalui metode
pengujian order condition yang merupakan syarat
perlu(necessary condition) dan rank condition yang

Pardomuan Robinson Sihombing | 55


merupakan syarat cukup (sufficient condition). Contoh dalam
analisis simultan misalkan peneliti ingin mengetahui pengaruh
pengeluaran rumah tangga dan pengeluaran pemerintah
terhadap nilai PDB. Dalam hal ini, pengeluaran rumah tangga
memiliki persamaan atau fungsi dari tabungan, di sisi lain
pengeluaran pemerintah terdapat persamaan lain yaitu fungsi
dari pajak dan lainnya.

56 | Corat Coret Catatan Statistisi Pemula


Analisis Regresi pada Data Panel

Ketika kita ingin meneliti, salah satu aspek yang harus


diperhatikan adalah jenis data yang digunakan. Salah satu
jenis data berdasarkan waktu pengumpulannya adalah data
panel. Data panel merupakan gabungan data cross section dan
time series (runtun/ deret waktu). Dengan kata lain, data panel
merupakan data dari beberapa individu sama yang diamati
dalam kurun waktu tertentu. Terkadang data panel disebut
juga data longitudinal atau cross section time series data. Jika
kita memiliki T periode waktu (t = 1, 2, ..., T) dan N jumlah
individu (i = 1, 2, ..., N), maka dengan data panel kita akan
memiliki total unit observasi sebanyak NT. Jika jumlah unit
waktu sama untuk setiap individu, maka data disebut
balanced panel. Jika sebaliknya, yakni jumlah unit waktu
berbeda untuk setiap individu, maka disebut unbalanced
panel.
Apa saja keuntungan jika kita menggunakan data
panel? Dengan menggunakan data panel maka ketika
melakukan pemodelan seperti model regresi maka akan
menghasilkan degree of freedom yang lebih besar, sehingga
dapat mengatasi masalah penghilangan variabel (omitted
variable). Selain itu juga dapat mengurangi bias dalam
pengestimasian karena data cukup banyak. Hal lain yang
dapat kita pelajari adalah terkait perilaku individu serta
perubahannya yang bersifat dinamis.
Ketika kita menggunakan data panel untuk
membentuk model sebab akibat/ regresi, hal yang perlu kita
perhatikan adalah distribusi dari data yang digunakan. Jika
data yang digunakan merupakan data yang mengikuti
distribusi normal maka kita dapat menggunakan model regresi
linier klasik dengan data panel berbasis normal data.
Jika data yang digunakan tidak mengikuti distribusi
normal, tetapi masih dalam keluarga eksponensial maka kita

Pardomuan Robinson Sihombing | 57


dapat menggunakan model campuran linear terampat
(generalized linear mixed model /GLMM) dengan
menambahkan efek acak dalam model, dan jika sekaligus
asumsi non-autokorelasi tidak terpenuhi maka kita dapat
menggunakan model generalized estimating equation (GEE).
Dalam GEE untuk mengatasi masalah autokorelasi,
dengan menambahkan korelasi di dalam model. Beberapa
jenis korelasi yang dapat ditambahkan dalam model seperti
exchangeable, independent, unstructured, autoregressive
order, correlation matrix, stationary order dan non stationary
order. Model GEE terkadang dikenal dengan model
population average (PA).
Model Panel Berbasis Distribusi Normal
Nah, model regresi data panel yang paling sering
digunakan dalam data panel adalah model regresi klasik yang
berbasis distribusi normal terkadang disebut model panel
statis. Terdapat tiga pendekatan umum yang digunakan dalam
model ini yaitu model Common Effects/ Pooled Effect (PE),
Fixed Effects (FE) dan Random Effects (RE)/ Error
Components (EC). Dalam pendekatan model PE, tidak
memperhatikan dimensi individu maupun waktu, sehingga
seakan sama dengan model regresi menggunakan data cross
section. Metode estimasi yang digunakan pada model PE
menggunakan Ordinary Least Squares (OLS).
Pada model FE mengasumsikan bahwa dalam berbagai
kurun waktu, karakteristik masing-masing individu adalah
berbeda. Perbedaan tersebut dicerminkan oleh nilai intersep
pada model estimasi yang berbeda untuk setiap individu.
Berbagai kemungkinan perbedaan itu di antaranya:
● Intersep dan slope tetap antar waktu dan individu,
perbedaan intersep dan slope dijelaskan oleh
residualnya.
● Slope tetap tetapi intersep berbeda antar individu
● Slope tetap tetapi intersep berbeda antar waktu dan
antar individu.
● Intersep dan slope berbeda antar individu

58 | Corat Coret Catatan Statistisi Pemula


● Intersep dan slope berbeda antar waktu dan antar
individu.
Metode estimasi yang digunakan pada model FE
menggunakan Least Squares Dummy Variable (LSDV).
Terkadang model FE disebut juga model “within effect”. Di sisi
lain terdapat model yang mirip dengan FE yang dinamakan
“between effect” (BE). Sebagaimana dalam data panel kita
memiliki dua jenis informasi dalam data yaitu informasi cross-
sectional yang tercermin dalam perubahan subjek, dan
perubahan antar waktu yang tercermin dalam perubahan
subjek.
Perbedaan keduanya adalah model FE menggunakan
informasi deret waktu dalam data sedangkan model BE
menggunakan informasi cross-section dalam data. Secara
umum, model BE menjadi jawaban atas pertanyaan tentang
pengaruh variabel independen ketika variabel tersebut
berubah antar subjek/individu. Sedangkan model FE
menjawab pertanyaan tentang pengaruh variabel independen
ketika variabel tersebut berubah dalam subjek/diri individu.
Model panel yang ketiga adalah model RE. Model ini
juga mengasumsikan bahwa dalam berbagai kurun waktu,
karakteristik masing-masing individu adalah berbeda. Hanya
saja, dalam REM perbedaan tersebut dicerminkan oleh error
dari model. Model RE sebenarnya adalah rata-rata tertimbang
dari model FE dan BE. Metode estimasi yang digunakan pada
model RE dapat menggunakan General Least Squares (GLS)
maupun maximum likelihood estimator (MLE).
Bagaimana Memilih Model Panel?
Terdapat tiga pendekatan yang disarankan dalam
memilih ketiga model panel yaitu uji Chow Likelihood Ratio,
uji Lagrange Multiplier Breusch Pagan (LM-BP) dan uji
Hausman. Uji Chow digunakan untuk memilih model mana
yang lebih cocok antara CE ataukah FE, dengan hipotesis nol
bahwa model CE lebih baik daripada FE. Uji yang digunakan
adalah statistik uji F. Kriteria pengambilan keputusan ialah jika
nilai probability value lebih kecil dari nilai alpha (taraf

Pardomuan Robinson Sihombing | 59


signifikansi) yang ditentukan maka model FE dianggap lebih
baik dari model CE.
Uji LM-BP digunakan untuk memilih model mana
yang lebih cocok antara CE ataukah RE. Uji yang digunakan
adalah statistik uji chi square LM. Kriteria pengambilan
keputusan ialah jika nilai probability value lebih kecil dari nilai
alpha (taraf signifikansi) yang ditentukan maka model RE
dianggap lebih baik dari model CE.
Uji Hausman digunakan untuk memilih model mana
yang lebih cocok antara RE ataukah FE, dengan hipotesis nol
bahwa model RE lebih baik daripada FE. Uji yang digunakan
adalah statistik uji chi square. Kriteria pengambilan keputusan
ialah jika nilai probability value lebih kecil dari nilai alpha
(taraf signifikansi) yang ditentukan maka model FE dianggap
lebih baik dari model RE.
Sebagai contoh jika pada uji Chow, uji Hausman dan
Uji LM-BP semuanya signifikan dimana nilai probability value
lebih kecil dari nilai alpha (taraf signifikansi) untuk ketiga uji
aka model FE yang terbaik digunakan di antara ketiga model
tersebut.
Alternatif Model Panel Pada Regresi Klasik
Sebagaimana yang diketahui bahwa pada model
regresi linier klasik memiliki asumsi klasik yang harus
terpenuhi. Hal yang dipastikan pertama adalah bahwa model
memenuhi asumsi normalitas. Jika tidak memenuhi asumsi ini
maka model panel alternatif yang dapat digunakan
sebagaimana pada penjelasan sebelumnya adalah
menggunakan model GLMM dan GEE. Apabila model
memenuhi asumsi normalitas tetapi terjadi pelanggaran pada
asumsi non autokorelasi maka dapat ditambahkan lag data
pada model panel yang terpilih. Penambahan informasi lag
data pada model panel ini dikenal dengan model panel
dinamis. Model panel dinamis yang umum digunakan adalah
model panel dinamis Arellano–Bond. Apabila model
memenuhi asumsi normalitas tetapi terjadi pelanggaran pada

60 | Corat Coret Catatan Statistisi Pemula


asumsi non-heteroskedasitas maka dapat menggunakan
estimator white gls model. Apabila model memenuhi asumsi
normalitas tetapi terjadi pelanggaran pada asumsi non
autokorelasi dan heteroskedastis secara simultan maka dapat
menggunakan model model panel-corrected standard error
(PCSE).

Pardomuan Robinson Sihombing | 61


Analisis Regresi Spasial

Salah satu metode statistik yang paling sering


digunakan untuk melihat hubungan sebab akibat antar
variabel adalah analisis regresi. Apabila dalam penelitian yang
dilakukan, peneliti ingin memasukkan unsur koordinat lokasi
(garis Latitude/ lintang dan Longitude/ bujur) maka analisis
regresi yang digunakan adalah analisis regresi spasial.
Pemasukan unsur lokasi dalam penelitian didasarkan pada
hukum pertama geografi yang dikemukakan Tobler (1970)
yang menyatakan bahwa “Everything is related to everything else,
but near things are more related than distant things".
Misalkan peneliti ingin melihat faktor yang
mempengaruhi tingkat pengangguran di Jabodetabek. Dalam
hal ini peneliti menerapkan analisis regresi spasial, dengan
asumsi bahwa antar wilayah saling mempengaruhi dalam
proses penyediaan lapangan pekerjaan. Contoh lainnya,
peneliti ingin mengetahui faktor yang mempengaruhi jumlah
kasus malaria pada kabupaten kota di Papua. Dalam hal ini
peneliti berasumsi bahwa daerah yang berdekatan memiliki
peluang yang lebih besar untuk turut terkena efek dari wilayah
yang mengalami wabah tersebut.
Analisis regresi spasial digunakan untuk melihat
adalah efek lokasi/ spasial antar wilayah yang diduga turut
mempengaruhi variabel dependen/ respons. Analisis spasial
dapat digunakan pada data cross section, time series maupun
panel data (dikenal dengan istilah analisis spatio tempora). Jika
dilihat dari distribusi data, analisis spasial juga dapat
diterapkan untuk model dengan asumsi yang mengikuti
distribusi normal (model regresi klasik) maupun pada model
dengan asumsi yang mengikuti distribusi keluarga
eksponensial (model linier terampat atau generalized linear
model/ GLM).

62 | Corat Coret Catatan Statistisi Pemula


Data Spasial
Pada umumnya data spasial dapat dibagi menjadi tiga
kategori yaitu data titik, data kontinu dan data area. Data titik
artinya penelitian terfokus kepada suatu lokasi kejadian saja,
misalnya lokasi pohon-pohon di hutan. Data kontinu artinya
penelitian menggunakan data dengan kejadian yang bersifat
kontinu dalam suatu ruang, misalnya pola curah hujan di
Jakarta. Sedangkan, data area berarti kejadian dipisahkan ke
dalam zona, misalnya angka pengangguran di Jabodetabek.
Matriks Penimbang Spasial/ Contiguity (W)
Dalam model regresi spasial ditambahkan suatu matrik
penimbang ke dalam model yang dikenal dengan matrix
contiguity (W). Bobot matriks spasial (W) ini diperoleh dengan
menggunakan informasi jarak antara suatu wilayah dengan
wilayah yang lain. Jenis jarak yang digunakan dapat berupa
jarak Minkowski, jarak Euclidean, jarak Manhattan, jarak
kurvatur dan lainnya. Selanjutnya dari jarak tersebut dibuat
elemen matrik W. Ada beberapa cara menentukan efek
ketetanggaan (W) yaitu dengan metode Rook contiguity
(persinggungan garis/ wilayah yang ada di samping (side)
wilayah lain), Bishop contiguity (persinggungan sudut/
wilayah yang titik sudutnya (vertex) bertemu dengan wilayah
lain), dan Queen contiguity (Persinggungan sisi dan sudut/
wilayah yang ada di samping atau sudut wilayah lain)
Bagaimana Mengecek Adanya Efek Spasial?
Pengujian efek spasial sering disebut juga dengan
pengujian dependensi. Pada umumnya ada dua cara untuk
mengetahui adanya efek spasial/ uji dependensi yaitu dengan
uji statistik Moran’s I dan uji Pengganda Lagrange (Lagrange
Multiplier, LM). Hipotesis null pada kedua pengujian ini
adalah tidak ada efek spasial dalam model. Jika probability
value kedua uji ini lebih kecil dari alpha (signifikansi) yang
ditetapkan maka dapat disimpulkan bahwa dalam model
terdapat efek spasial.

Pardomuan Robinson Sihombing | 63


Model-model Regresi Spasial

Gambar 11. Bagan Analisis Spasial

Pemodelan pada regresi spasial dilakukan dengan


menambahkan matrik spasial/ contiguity (W) pada model
regresi yang digunakan. Penambahan matriks W tersebut
dapat dilakukan pada variabel variabel dependen (parameter
koefisien regresinya akan disimbolkan dengan ρ), pada
variabel independen (parameter koefisien regresinya akan
disimbolkan dengan γ), maupun pada error term (parameter
koefisien akan regresinya disimbolkan dengan λ) atau
kombinasi dari dua maupun ketiga efeknya. Jika efeknya
hanya nyata terhadap parameter ρ maka model disebut model
Spatial Autoregressive Regression (SAR). Jika efeknya hanya
nyata terhadap parameter γ maka model disebut model Spatial
Lag-X (SLX). Jika efeknya hanya nyata terhadap parameter λ
maka model disebut Spatial Error Model (SEM). Jika efeknya
hanya nyata terhadap parameter ρ dan λ maka model disebut
General Spatial Model (GSM). Jika efeknya hanya nyata
terhadap parameter ρ dan γ maka model disebut Spatial
Durbin Model (SDM). Jika efeknya hanya nyata terhadap
parameter λ dan γ maka model disebut Spatial Durbin Error
Model (SDEM). Jika efeknya nyata terhadap ketiga parameter
(ρ, λ dan γ) maka model disebut General Spasial Nested (GNS).
Setelah melakukan penguji dependensi. Langkah
selanjutnya adalah mengecek keragaman spasial. Mengapa
terjadi keragaman spasial? Hal ini terjadi karena adanya
perbedaan karakteristik antara satu titik pengamatan dengan
titik pengamatan lainnya. Untuk mengetahui adanya
keragaman spasial pada data dapat dilakukan pengujian

64 | Corat Coret Catatan Statistisi Pemula


Breusch-Pagan dengan hipotesis null antar lokasi memiliki
keragaman/ varians yang sama. Jika probability value uji ini
lebih kecil dari alpha (signifikansi) yang ditetapkan maka
dapat disimpulkan bahwa ada keragaman. varian antar lokasi
yang berbeda. Sehingga alternatif model spasial yang
digunakan adalah model Geographically Weighted Regression
(GWR). Dalam model GWR koefisien regresi masing-masing
lokasi memiliki nilai yang berbeda-beda.

Pardomuan Robinson Sihombing | 65


Analisis Cluster dan Aplikasinya

Analisis klaster (cluster) merupakan salah satu dalam


metode analisis data multivariat. Analisis klaster (cluster) atau
kadang disebut analisis gerombol digunakan untuk
mengelompokkan objek (misalnya, responden, produk,
metode atau entitas). Pengelompokan ini berdasarkan
karakteristik yang dimiliki. Misalkan dalam bidang kesehatan,
ingin diteliti karakterisasi pasien berdasarkan kumpulan gejala
sehingga dapat berguna dalam mengidentifikasi terapi yang
tepat. Seorang ekonom, ingin mengelompokkan provinsi di
Indonesia berdasarkan karakteristik sosial ekonomi yang
dimiliki masing-masing provinsi.
Analisis klaster dapat diterapkan baik untuk data cross section
maupun data time series. Analisis klaster juga dapat dilakukan
secara satu tahap (one step) maupun dua tahap (two step). Selain
itu analisis klaster dapat diterapkan secara satu arah maupun
dua arah. Terkadang analisis klaster dianggap sebagai salah
satu analisis deskriptif karena tidak melakukan inferensia dan
solusinya tidak selalu unik.
Analisis klaster juga termasuk analisis antara, karena
dalam melakukan analisis seringkali didahului dengan analisis
komponen utama, dan setelah analisis klaster terbentuk dapat
dilanjutkan dengan analisis logistik maupun diskriminan.
Data yang digunakan dalam analisis klaster sebaiknya
memiliki besaran yang tidak terlalu heterogen, jika terdapat
satuan yang sangat heterogen sebaiknya dilakukan
standarisasi data menggunakan nilai z score untuk masing-
masing variabel. Perlu diperhatikan juga untuk variabel yang
mengandung data outlier/ pencilan. Selain itu variabel yang
digunakan dalam analisis klaster sebaiknya tidak memiliki
multikolinearitas yang tinggi, bila terdapat multikolinearitas
yang tinggi dapat didahului dengan analisis komponen utama.
Dari hasil analisis klaster, untuk melihat variabel mana saja

66 | Corat Coret Catatan Statistisi Pemula


yang mampu membedakan antar klaster digunakan analisis
diskriminan, sedangkan jika ingin melihat seberapa besar
peluang klasifikasi terhadap suatu klaster dengan variabel
penjelasnya, dapat menggunakan analisis logistik (baik binary,
multinomial maupun ordinal).
Apa perbedaan Analisis Klaster dengan Analisis Faktor dan
Diskriminan?
Perbedaan analisis klaster dengan analisis faktor
adalah dalam analisis klaster pengelompokan berdasarkan
kedekatan jarak sedangkan analisis faktor pengelompokan
berdasarkan pada pola variasi korelasi datanya. Pada analisis
cluster yang dikelompokkan adalah objeknya sedangkan
analisis faktor yang dikelompokkan variabelnya. Perbedaan
analisis klaster dengan analisis diskriminan adalah dalam
analisis klaster kita tidak tahu objeknya akan menjadi
kelompok yang mana dan berapa jumlah kelompoknya (dalam
machine learning dikenal dengan istilah unsupervised).
Sedangkan analisis diskriminan justru mengharuskan kita
mengetahui keanggotaan kelompok sehingga dapat dibuat
pola/ aturan klasifikasinya (dalam machine learning dikenal
dengan istilah supervised).
Pengukuran Kedekatan Jarak
Ada beberapa pengukuran kedekatan (similarity) jarak
dalam analisis klaster yaitu jarak Euclidean, Squared
Euclidean, City- block (Manhattan), Chebyshev dan
Mahalanobis. Jarak Euclidean adalah metode yang paling
umum dikenal sebagai jarak garis lurus. Squared Euclidean
menggunakan jumlah jumlah selisih kuadrat tanpa mengambil
akar kuadratnya. Jarak City- block (Manhattan) menggunakan
jumlah dari absolut jarak variabel. Jarak Chebyshev
menggunakan nilai maksimum dari perbedaan nilai jarak
mutlak antar nilai variabel yang dikelompokan. Jarak
Mahalanobis merupakan ukuran jarak umum yang
menjelaskan korelasi antar variabel dengan cara yang memberi
bobot masing-masing variabel sama.

Pardomuan Robinson Sihombing | 67


Teknik Dalam Analisis Cluster
Pada data cross section satu tahap dapat dibagi menjadi
teknik berhierarki (Hierarchical) dan Tidak Berhierarki (K-
Means). Dalam teknik ini jenis semua variabel homogen, baik
data kategori semua atau kuantitatif/ kontinu semua. Dalam
teknik berhierarki jumlah klaster yang terbentuk maksimal
adalah sebanyak jumlah observasi sedangkan dalam teknik
tidak berhierarki, kita sudah menentukan berapa jumlah
sampel yang diinginkan berdasarkan teori yang dimiliki.
Teknik berhierarki dapat dibagi lagi menjadi dua yaitu
teknik penggabungan (agglomerative) dan teknik pembagian
(divisive). Teknik agglomerative menganggap awalnya tiap-
tiap objek merupakan satu klaster tersendiri, lalu mulai
menggabungkan yang paling mirip, kemudian gabungan dua
objek tersebut akan bergabung lagi dengan satu atau lebih
objek yang paling mirip lainnya. Teknik penggabunganya
dapat berupa metode single, complete, average, centroid, dan
ward linkage. Pada metode divisive, awalnya semua objek
berada dalam satu cluster, selanjutnya dibagi menjadi dua
klaster, dan kemudian masing-masing klaster tersebut dibagi
lagi menjadi dua klaster, dan seterusnya. Untuk melihat
berapa banyak klaster yang optimum sekaligus validitas
dalam jumlah klaster digunakan koefisien koefisien silhouette.
Metode dengan koefisien silhouette terbesar dianggap yang
lebih baik dan diharapkan nilainya di atas 0.6 dianggap good
classification.
Selanjutnya adalah analisis klaster tidak berhierarki
dimana kita sudah menentukan jumlah klaster di awal. Dua
metode yang sering digunakan dalam analisis klaster tidak
berhirarki adalah K-Means dan K-Median klaster. Metode K-
Means bertujuan untuk mempartisi n pengamatan menjadi k
cluster yang masing-masing pengamatan termasuk dalam
klaster dengan mean (nilai rata-rata) terdekat. Akan tetapi
karena penggunaan nilai rataan, cukup rentan dengan data
pencilan/ outlier sehingga alternatifnya menggunakan nilai
median dan analisisnya menjadi K-Median klaster
Dalam analisis klaster juga dapat dilakukan dengan
metode campuran (mixed). Misal tahap awal menggunakan

68 | Corat Coret Catatan Statistisi Pemula


hierarki dilanjutkan dengan klaster tidak berhirarki. Akan
tetapi pada umumnya dalam analisis klaster baik berhierarki
maupun tidak maka skala data yang digunakan sama, yaitu
baik kategori saja atau data kontiniu saja. Apabila datanya
merupakan data gabungan kategori dan kontinu sebaiknya
menggunakan analisis klaster dua tahap. Prosedur analisis
klaster dua tahap ini merupakan teknik eksplorasi untuk
mengungkapkan pengelompokan alami. Dalam prosedurnya
menggunakan ukuran kemungkinan jarak yang
mengasumsikan bahwa variabel dalam model klaster
independen. Selanjutnya, setiap variabel kontinu diasumsikan
memiliki distribusi normal (Gaussian) dan masing-masing
variabel kategorik diasumsikan memiliki distribusi
multinomial.
Perkembangan Teknik Klaster
Pembahasan klaster yang disebutkan dalam
pembahasan di atas adalah analisis klaster satu arah. Pada
klaster satu arah mengasumsikan bahwa objek-objek memiliki
karakteristik di semua baris atau kolom, sehingga objek pada
baris dikelompokkan berdasarkan kemiripan pada kolom atau
peubah pada kolom dikelompokkan berdasarkan kemiripan
pada baris. Perkembangan selanjutnya adalah klaster dua arah
dimana awalnya digunakan untuk melihat matriks ekspresi
gen, yaitu data matriks berisi bilangan riil yang menunjukkan
aktivitas dari sejumlah gen (baris) dan kondisi percobaan
(kolom) yang berbeda-beda. Kelebihan analisis bicluster pada
data dua arah karena melibatkan dua karakteristik objek pada
baris dan kolom secara bersama-sama sehingga dapat
mengidentifikasi subkelompok baris atau sub kelompok
kolom yang saling berkaitan yang tidak dapat ditemukan oleh
penggerombolan satu arah.
Pembahasan cluster di atas mencakup klaster dalam
data cross section dan umumnya yang dikelompokkan adalah
objek berdasarkan variabel. Salah satu analisis klaster lainnya
yang dapat digunakan dalam data time series adalah klaster
time series. Dalam analisis ini yang dikelompokan adalah
objek ke dalam metode analisis time series misalkan saja dalam
model ARIMA. Sebagai contoh kita ingin melihat cluster time

Pardomuan Robinson Sihombing | 69


series ARIMA pada data inflasi untuk setiap komoditas.
Dengan menggunakan klaster time series maka kita tidak
menggunakan model ARIMA masing-masing komoditas,
tetapi akan terdapat beberapa klaster metode ARIMA yang di
dalamnya terdapat beberapa komoditas yang dianggap
memiliki pola ARIMA yang sama.

70 | Corat Coret Catatan Statistisi Pemula


Analisis Diskriminan dan Aplikasinya

Salah satu pemodelan dalam statistika multivariat yang


digunakan untuk tujuan pengklasifikasian/ pemisahan suatu
set objek/ pengamatan adalah analisis diskriminan. Tujuan
analisis diskriminan adalah memodelkan hubungan antara
satu variabel dependen/ respon (𝑌) yang bersifat kualitatif
(kategori) dengan sejumlah 𝑝 variabel bebas 𝑋 yang bersifat
kuantitatif. Adapun manfaat dari analisis ini adalah dapat
menjelaskan perbedaan antar kategori (kelompok). Hal ini
berdasarkan koefisien dari model diskriminan yang terbentuk.
Selain itu dapat mengelompokkan suatu objek baru
berdasarkan variabel bebas yang dimiliki menggunakan
model diskriminan. Contoh analisis diskriminan dalam dunia
pendidikan, jika peneliti ingin memprediksi penerimaan ke
program pendidikan tertentu berdasarkan perbedaan mereka
dalam beberapa variabel. Contoh lain dalam bidang ekonomi,
seorang peneliti ingin melihat variabel sosial ekonomi apa saja
yang membedakan provinsi di Indonesia bagian barat, tengah
dan timur
Perbedaan Analisis Diskriminan, Anova dan Logistik
Pada analisis diskriminan, variabel kategori diterapkan
sebagai variabel dependen, sementara variabel kuantitatif
sebagai variabel independen. Sedangkan pada ANOVA,
variabel kategori diterapkan sebagai variabel independen,
sementara variabel kuantitatif sebagai variabel dependen.
Pada analisis diskriminan maupun regresi logistik (baik biner
atau multinomial), variabel kategori diterapkan sebagai
variabel dependen, hanya saja pada diskriminan independen
hanya boleh variabel kuantitatif dan berdistribusi normal,
sedangkan ada regresi logistik variabel independen dapat
berupa data kualitatif maupun data kuantitatif sehingga tidak
harus distribusi normal. Selain itu tujuan utama analisis

Pardomuan Robinson Sihombing | 71


diskriminan adalah mencari variabel pembeda antar kategori
variabel respon, sehingga regresi logistik mencari besarnya
pengaruh/ peluang variabel independennya.
Asumsi Analisis Diskriminan
Dalam analisis diskriminan beberapa asumsi yang
mendasarinya yaitu:
● antar objek atau pengamatan harus saling bebas
● Variabel-variabel penjelas harus memiliki distribusi normal
multivariat. Metode pengecekan kenormalan dapat
menggunakan grafik (Q-Q Plot) atau pengujian hipotesis
(Uji Mshapiro maupun Doornik-Hansen )
● Pemeriksaan asumsi homogenitas matriks variansi,
diharapkan matriks kovarians antar kelompok homogen
khususnya untuk fungsi diskriminan linier. Pengecekan
dapat dilakukan dengan Box M maupun uji adjusted LR chi
square
● Pengujian vektor rata-rata antar kelompok berbeda. Metode
pengecekan dapat menggunakan T Hotelling
Fungsi/ Model Analisis Diskriminan
Fungsi diskriminan dapat berbentuk linier maupun
kuadratik. Analisis diskriminan linier (linear discriminant
analysis/ LDA) merupakan generalisasi dari diskriminan
linier Fisher, dimana garis pemisah antar kelompok berbentuk
linier/ garis lurus. Sedangkan fungsi diskriminan kuadratik
berbentuk kuadratik yang tidak mengasumsikan homogenitas
matriks varians-kovarians. Selain itu terdapat metode analisis
diskriminan berganda (multiple discriminant analysis/ MDA).
Metode ini bertujuan untuk mengurangi perbedaan/ variasi di
antara variabel-variabel untuk tujuan mengklasifikasikannya
ke dalam sejumlah kelompok luas tertentu sehingga akan
mengurangi terjadi overfitting dalam pengklasifikasian.
Lanjutan dari metode MDA, jika teknik pengurangan variasi
antar variabel yang digunakan adalah analisis komponen
utama dan korelasi kanonik maka dikenal analisis diskriminan
kanonik (canonical discriminant analysis/ CDA)

72 | Corat Coret Catatan Statistisi Pemula


Langkah-langkah Analisis Diskriminan
Jika kategori yang digunakan hanya ada dua kategori
maka alur menyelesaikannya adalah:
● Nyatakan matriks data sebagai 𝑿 dan variabel 𝒀 secara
terurut
● Lalu menghitung rata-rata setiap variabel untuk setiap
kelompok
● Membentuk matriks kovariansi gabungan
● Membentuk Kombinasi Linear Fisher
● Menghitung skor diskriminan
● Menghitung cutting score
● Menghitung hit ratio/ nilai akurasi pengklasifikasian
model

Jika kategori yang digunakan lebih dari dua kategori maka alur
menyelesaikannya adalah:
● Nyatakan matriks data sebagai 𝑿 dan variabel 𝒀 secara
terurut
● Hitung matriks between H
● Hitung matriks within 𝐄, lau menghitung inversnya (𝐄^−𝟏)
● Hitung nilai dan vektor eigen dari 𝐄^−𝟏*𝐇, lalu
menghitung proporsi nilai eigen
● Menghitung skor diskriminan
● Menghitung cutting score
● Menghitung hit ratio/ nilai akurasi pengklasifikasian model

Pardomuan Robinson Sihombing | 73


SEM PLS dengan SMARTPLS

Salah satu pemodelan analisis regresi dengan


menggunakan data primer yang dihasilkan dari kuesioner
dengan menggunakan skala likert adalah model structural
equation model (SEM). Model SEM sering dianggap sebagai
gabungan dari analisis regresi dan analisis faktor. Dalam
pemodelan ini baik variabel independen maupun variabel
dependennya pada umumnya adalah variabel laten/
konstruk. Di mana variabel laten yang dibentuk, berdasarkan
teori yang diturunkan menjadi beberapa dimensi. Dari setiap
dimensi, berdasarkan teori yang ada diturunkan menjadi
beberapa indikator. Dari dari setiap indikator diturunkan
menjadi satu atau lebih butir-butir pertanyaan yang relevan.
Misalkan peneliti ingin melihat pengaruh lingkungan kerja,
kompensasi, dan kepemimpinan terhadap kinerja karyawan
dengan variabel motivasi sebagai variabel intervening dan
variabel teknologi sebagai variabel moderasi. Dalam hal ini
masing-masing variabel merupakan variabel laten yang
diukur dengan kuesioner dengan menggunakan skala likert.
Jenis Model SEM
Awalnya model SEM yang dikenal berbasis pada
analisis kovarian, dan dalam pemodelan harus mempunyai
dasar teori yang kuat, dengan jumlah sampel yang cukup besar
serta berdasarkan asumsi normalitas. Beberapa software yang
digunakan untuk SEM ini seperti AMOS, Lisrel, Tetrad, EQS
dan lainnya. Perkembangan selanjutnya adalah SEM-PLS.
Dalam SEM-PLS, tidak mensyaratkan data harus berdistribusi
normal dan dapat digunakan untuk data kecil (> 50 sampel)
dan basis analisisnya berdasarkan matriks korelasi. Dalam
model SEM PLS menggunakan teknik bootstrapping atau
penggandaan secara acak dalam estimasi parameter. Salah satu
software yang digunakan dalam SEM-PLS adalah SmartPLS

74 | Corat Coret Catatan Statistisi Pemula


dengan versi terbaru Smart PLS 3.3.3
(https://www.smartpls.com/). Dalam perkembangan
selanjutnya, dalam SmartPLS tidak hanya mengakomodir
untuk data primer tetapi juga untuk data sekunder berupa data
kuantitatif.
Pemodelan Dalam SEM-PLS
Dalam SEM-PLS ada dua hal yang diukur yaitu outer
model dan inner model. Outer model atau kadang disebut
model measurement adalah model pengukuran yang
menghubungkan indikator dengan variabel latennya.
Terdapat dua tipe indikator dalam outer model yaitu indikator
reflektif dan indikator formatif. Indikator reflektif digunakan
jika arah hubungan kausalitas dari variabel laten ke indikator.
Sedangkan, indikator formatif digunakan jika arah hubungan
kausalitas dari indikator ke variabel laten. Inner model atau
terkadang disebut model structural adalah model pengukuran
yang menghubungkan antar variabel laten.
Kriteria Dalam Outer Model
Model outer yang sering digunakan adalah model
reflektif. Adapun kriteria uji yang digunakan mencakup
pengujian validitas dan reliabilitas. Uji validitas digunakan
untuk mengukur apakah indikator yang digunakan sudah
tepat mengukur variabel yang diteliti. Sedangkan uji
reliabilitas, melihat kekonsistenan jawaban terkait dengan
indikator yang ditanyakan, jika dilakukan secara berulang-
ulang. Pengujian validitas mencakup convergent validity
secara individual dan secara serentak serta discriminant
validity. Sedangkan pengujian reliabilitas mencakup cronbach
alpha dan composite reliability.
Pengujian nilai convergent validity secara individual
dapat dilihat dari nilai outer loading, dengan batasan nilai
minimal yang diharapkan >0.7. Sedangkan secara serentak
dari nilai average variance extracted (AVE) , dengan batasan
minimal 0.5. Nilai AVE menggambarkan besarnya varian atau
keragaman variabel manifest yang dapat dimiliki oleh
konstruk laten. Diskriminan validity dapat dilihat dari nilai
cross loading antar indikator dengan variabel laten.Cara yang

Pardomuan Robinson Sihombing | 75


digunakan dengan membandingkan nilai loading pada
konstruk yang dituju harus lebih besar dibandingkan dengan
nilai loading dengan konstruk yang lain. Selain itu dapat
melihat nilai kriteria Fornell-Larcker, yaitu membandingkan
nilai dari akar AVE dengan korelasi antar variabel laten,
diharapkan nilai akar kuadrat AVE lebih besar dari korelasi
antar variabel laten. Selanjutnya ukuran reliabilitas dilihat dari
nilai composite reliability dan cronbach alpha, dengan batasan
nilai 0.7.
Kriteria Inner Model
Beberapa kriteria inner model mencakup R square, Q
square, F square dan goodness of fit (GoF). R square atau
dalam istilah lain disebut koefisien determinasi, mengukur
seberapa besar variasi variabel dependen mampu dijelaskan
oleh seluruh variabel independennya. Q square atau terkadang
disebut prediction relevance atau Stone-Geisser's, digunakan
untuk mengetahui kapabilitas prediksi dengan prosedur
blindfolding, dengan batasan nilai 0.3. F square atau terkadang
disebut effect size dilakukan untuk mengetahui kebaikan
model, dengan batasan nilai 0.2. Dan nilai GoF, yang
merupakan akar kuadrat dari perkalian antara rata-rata r
square dengan rata-rata AVE variabel independen. GoF juga
melihat kebaikan/ kesesuaian model dengan batasan nilai
0.38.
Pengujian Hipotesis
Langkah selanjutnya setelah dilakukan uji outer dan
inner model, adalah pengujian hipotesis. Terdapat beberapa
efek hubungan antar variabel yang dapat digunakan, di antara
efek mediasi/ intervening, efek moderasi, efek kuadratik, dan
perbandingan efek perbandingan antar kelompok data. Efek
mediasi/ intervening melihat hubungan pengaruh tidak
langsung antar variabel independen dengan variabel
dependennya. Efek mediasi ini dapat berupa total mediasi (jika
variabel independen hanya memiliki hubungan tak langsung
dengan variabel dependennya melalui variabel mediasinya)
maupun parsial mediasi (jika variabel independen memiliki
hubungan langsung sekaligus tak langsung dengan variabel

76 | Corat Coret Catatan Statistisi Pemula


dependennya). Dalam SmartPLS dapat dihitung pengaruh
tidak langsung yang setara dengan pengujian Sobel Test.
Selain itu dalam software Smartpls juga dapat dihitung
efek moderasi, yaitu efek variabel moderasi untuk
memperkuat atau memperlemah hubungan variabel
independen terhada dependennya. Efek moderasi ini dapat
berupa total moderasi (jika variabel moderasi tidak memiliki
hubungan langsung dengan variabel dependennya) maupun
parsial moderasi (jika variabel moderasi juga memiliki
hubungan langsung terhadap variabel dependennya, dalam
hal ini variabel moderasinya juga sebagai variabel
independen). Efek moderasi dihitung dari koefisien regresi,
perkalian nilai standar variabel independen dengan variabel
moderasinya.
Efek kuadratik digunakan jika suatu variabel
independen berdasarkan teorinya tidak berbentuk linear,
tetapi berbentuk kuadratik seperti dampak variabel umur
terhadap produktivitas. Sedangkan efek antar kelompok data
disebut multi grup analisis. Misalnya peneliti ingin melihat
pengaruh lingkungan kerja, kompensasi, kepemimpinan
terhadap kinerja karyawan dengan variabel motivasi sebagai
variabel intervening jika dibandingkan antara pegawai laki-
laki dan perempuan, atau dibandingkan berdasarkan tingkat
pendidikannya (SMA, S1 dan pascasarjana).

Pardomuan Robinson Sihombing | 77


Analisis Klasifikasi

Gambar 12. Bagan Analisis Klasifikasi

Salah satu kegunaan dalam melakukan analisis regresi


adalah melakukan analisis prediksi (predictive) selain
melakukan pengujian hipotesis pengaruh antar variabel.
Model prediksi untuk data respon kuantitatif/ numerik dapat
berupa prediksi nilai variabel respon tersebut. Sedangkan
model prediksi untuk data respon kategorik/ kualitatif berupa
prediksi klasifikasi variabel respon (baik dari data sampel atau
data baru).
Teknik klasifikasi berdasarkan distribusi datanya dapat
dibagi menjadi dua bagian yaitu berdasarkan distribusi
tertentu (model statistik klasik) dan tanpa distribusi tertentu
(model pembelajaran mesin/ machine learning). Model
dengan distribusi tertentu dibagi menjadi distribusi normal
(model diskriminan) dan distribusi keluarga eksponensial
(model GLM).
Model Klasifikasi Klasik
Model diskriminan digunakan untuk memodelkan
hubungan antara satu variabel dependen/ respon (𝑌) yang
bersifat kualitatif (kategori) dengan sejumlah 𝑝 variabel bebas
𝑋 yang bersifat kuantitatif baik berupa linier diskriminan
maupun kuadratik diskriminan. Contoh seorang peneliti ingin
melihat variabel sosial ekonomi apa saja yang membedakan
provinsi di Indonesia bagian barat, tengah dan timur

78 | Corat Coret Catatan Statistisi Pemula


Model GLM yang digunakan untuk analisis klasifikasi
dapat berupa model regresi binary/ binomial regresi,
multinomial regresi dan ordinal regresi. Regresi binary/
binomial digunakan jika variabel respon terdiri dari dua nilai
kategori yaitu 0 dan 1. Misalnya, peneliti ingin mengetahui
pengaruh pendidikan, jenis kelamin terhadap status miskin
seseorang (miskin atau tidak miskin).
Regresi multinomial digunakan jika variabel respon
yang digunakan berbentuk kategori (lebih dua pilihan/
nominal) dan berdistribusi multinomial. Misalnya, peneliti
ingin mengetahui pengaruh pendidikan, jenis kelamin
terhadap jenis tontonan seseorang (sinetron, berita, musik,
olahraga). Regresi ordinal digunakan jika variabel respon yang
digunakan berbentuk kategori (lebih dua pilihan/ ordinal),
dimana ada urutan dari kategori yang digunakan. Misalnya,
peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin
terhadap status miskin seseorang (miskin, hampir miskin,
tidak miskin)
Model Klasifikasi Pembelajaran Mesin
Untuk teknik klasifikasi tanpa melihat distribusi data
yang sering digunakan antara lain: Classification and
Regression Tree (CART), Naïve Bayes, Random Forest,
Rotation Forest, Support Vector Machine (SVM), Analysis
Neural Network (ANN), OneR dan Boosting. Masing-masing
metode sudah tersedia di dalam berbagai software terutama di
dalam software R.
Model ANN memiliki keunggulan mampu
mengakuisisi pengetahuan walau tidak ada kepastian,
memiliki fault tolerance dan kemampuan perhitungan secara
paralel sehingga proses lebih singkat. Salah satu package
dalam R adalah “nnet” yang dikembangkan oleh Venables dan
Ripley (2002). Model Random Forest memiliki keunggulan
dimana model ini tidak sensitif dengan adanya data outlier
sehingga tidak ada masalah overfitting. Salah satu package
dalam R untuk metode Random Forest adalah paket
“randomForest” yang dikembangkan oleh Liaw dan Wiener
(2002).

Pardomuan Robinson Sihombing | 79


Metode oneR memiliki keunggulan menghasilkan
model yang cukup akurat untuk menetapkan dasar yang baik,
efisien dalam pemrosesan data besar. Salah satu paket One R
menggunakan paket “OneR” yang dikembangkan oleh
Jouanne (2017). Model Rotation Forest memiliki keunggulan
memperbaiki kemampuan prediksi pada decision tree dengan
memanfaatkan prinsip komponen utama dan menjaga
keragaman data. Salah satu paket dalam R untuk metode
Rotation Forest adalah paket “rotation Forest” yang
dikembangkan oleh Balling dan Poel (2017).
Metode CART memiliki keunggulan tidak memerlukan
normalisasi atau penskalaan data, dapat menangani masalah
missing value. Salah satu paket dalam R untuk metode CART
adalah paket “rpart” yang dikembangkan oleh Therneau dan
Atkinson ( 2019). Metode SVM memiliki keunggulan
berkinerja baik dalam mengklasifikasikan dengan variabel
yang berdimensi tingssgi, misalnya data gambar, data gen,
data medis. Metode Naïve Bayes memiliki keunggulan dalam
efisiensi waktu dimana sangat cepat dalam pengolahan dasta,
dapat diskalakan dengan kumpulan data besar dan dapat
digunakan untuk prediksi multi kelas. Salah satu paket dalam
R untuk metode SVM dan naïve Bayes adalah paket “e1071”
yang dikembangkan oleh Meyer dkk (2021)
Metode Boosting memiliki keunggulan rekayasa fitur
yang lebih sedikit diperlukan (tidak perlu penskalaan,
normalisasi data, juga dapat menangani nilai yang hilang
dengan baik), mudah dalam penafsiran, baik untuk data besar
dan efisien. Salah satu paket dalam R untuk metode Boosting
adalah paket “xgboost” yang dikembangkan oleh Chen dkk
(2021).
Uji Performa Model
Untuk menghasilkan performa yang baik, data dapat
dibagi menjadi data latih (training) dan data uji (testing). Data
training digunakan untuk membentuk model sedangkan data
uji digunakan untuk menguji performa dari model yang telah
dibentuk.
Pembagian data latih dan data uji dapat menggunakan
teknik deterministik (hold out) maupun menggunakan teknik

80 | Corat Coret Catatan Statistisi Pemula


K-Fold cross validation . Teknik deterministik dimana peneliti
menentukan sendiri pembagian proporsinya biasanya
perbandingan data untuk data latih dengan data uji (70:30)
atau (80:20).
Teknik menggunakan k-fold digunakan dengan cara
membagi data menjadi k bagian yang sama secara acak
biasanya menggunakan 5 fold atau 10 fold. Dimana salah satu
fold digunakan untuk data uji dan sisanya digunakan untuk
data latih, dilakukan secara bergantian. Misalkan data dibagi
menjadi 5 fold, maka set data 1 digunakan untuk data uji, set
data 2 sampai 5 untuk data latih. Selanjutnya set data 2
digunakan untuk data uji, set data 1 serta 3 sampai 5 untuk
data latih. Hingga set data 5 digunakan untuk data uji, set data
1 sampai 4 untuk data latih.
Ada beberapa cara dalam menentukan ketepatan atau
kebaikan suatu model yang digunakan untuk
pengklasifikaasian diantaranya koefisien determinasi/ pseudo
r square, kriteria dalam confussion matriks, kurva ROC dan
nilai AUC serta koefisien kappa. Untuk confussion matrik
terdiri dari kriteria akurasi, sensitivity dan Specificity.
Diharapkan ketiga kriteria memiliki nilai yang besar dan
seimbang.
Kendala yang umum terjadi pada data untuk model
klasifikasi adalah data yang tidak seimbang (imbalanced data).
Solusi dalam kasus ini adalah dengan menggunakan metode
resampling. Teknik resampling dapat berupa oversampling,
undersampling, maupun both/ combine sampling.

Pardomuan Robinson Sihombing | 81


Rancangan Percobaan

Ketika seorang peneliti melakukan sebuah penelitian


maka salah satu hal yang diperlukan adalah data penelitian.
Data penelitian dapat berupa data primer maupun data
sekunder. Data primer adalah data yang diperoleh dan diolah
sendiri oleh peneliti, sedangkan data sekunder adalah data
yang diperoleh dari pihak lain. Sebagai contoh data sekunder
adalah data yang diperoleh peneliti dari Badan Pusat Statistik,
Bank Indonesia, dan lainnya.
Cara mendapatkan data primer dapat dilakukan
dengan cara melakukan observasi maupun melalui percobaan.
Pengumpulan data dengan cara observasi, dilakukan melalui
pengamatan di lapangan, misalnya bagaimana pendapat
masyarakat dengan diberlakukannya aturan ganjil genap.
Sedangkan pengumpulan dengan percobaan yaitu dengan
melihat respon dari objek yang dikondisikan tertentu.
Misalnya peneliti ingin melihat keunggulan beberapa merk
pupuk terhadap pertumbuhan tanaman jagung.
Pengertian Rancangan Percobaan
Ketika seorang peneliti mengumpulkan data melalui
percobaan maka diperlukan suatu rancangan percobaan yang
baik dan benar. Rancangan percobaan yang baik diperlukan
agar data yang dihasilkan berkualitas, dapat memilih alat
analisis yang tepat dan tentu saja menghasilkan kesimpulan
yang bermanfaat serta relevan dengan permasalahan yang ada.
Secara statistika, rancangan percobaan diperlukan untuk
memilih peubah terkendali (X) yang paling berpengaruh dan
mendekati terhadap nilai harapan variabel respon (Y), dengan
nilai keragaman yang terkecil.

82 | Corat Coret Catatan Statistisi Pemula


Prinsip Dasar Rancangan Percobaan
Ada tiga hal utama dalam penggunaan rancangan
percobaan yaitu pengacakan (Randomization), ulangan
(Replication) dan pengendalian lingkungan (Local control).
Prinsip pengacakan dimaksudkan agar setiap unit percobaan
memiliki peluang yang sama untuk diberikan suatu perlakuan.
Hal ini akan berguna untuk menghindari galat sistematik serta
memenuhi asumsi kebebasan dalam sebuah model. Sistem
pengacakan dapat menggunakan Tabel angka random
maupun penggunaan software statistik.
Prinsip pengulangan dimaksudkan untuk menduga
galat serta standar error perlakuan dan meningkatkan presisi
kesimpulan. Prinsip pengendalian lingkungan dilakukan
untuk mencegah pengaruh lingkungan/ hal yang lain yang
tidak diteliti dalam model. Hal ini juga akan berdampak
terhadap presisi kesimpulan.
Klasifikasi Rancangan Percobaan
Secara umum rancangan percobaan dapat
diklasifikasikan ke dalam tiga kelompok yaitu rancangan
perlakuan, rancangan pengendalian lingkungan dan
rancangan respon. Rancangan respon berkaitan dengan
bagaimana respon diukur. Rancangan perlakuan berkaitan
dengan kondisi-kondisi apa yang akan diberikan terhadap
unit-unit percobaan. Beberapa teknik dalam model ini adalah
model faktor tunggal, faktorial, petak terpisah (split plot),
bersarang (nested), dan lainnya.
Rancangan pengendalian lingkungan berkaitan
dengan bagaimana perlakuan-perlakuan itu diterapkan pada
unit-unit percobaan. Beberapa teknik dalam model ini adalah
rancangan acak lengkap (RAK), rancangan acak kelompok
lengkap (RAKL), rancangan acak kelompok tak lengkap
(RAKTL) dan rancangan bujur sangkar latin (RBSL).
Aplikasi Rancangan Percobaan
Rancangan acak lengkap (RAL) adalah model
perancangan percobaan yang menggunakan asumsi bahwa
untuk melihat pengaruh suatu perlakuan pada target

Pardomuan Robinson Sihombing | 83


penelitian dengan mengatur faktor-faktor lain menjadi tetap,
dengan kata lain kondisi lingkungan untuk setiap satu
percobaan adalah sama. Pengacakan dalam RAL dilakukan
terhadap penempatan perlakuan pada satuan percobaan
secara sederhana.
Contoh kasus model RAL faktor tunggal adalah
pengujian pertumbuhan empat varietas tanaman padi dengan
masing-masing varietas diulang sebanyak enam kali. Metode
analisis yang digunakan untuk model ini adalah one way
Analysis of Variance (ANOVA).
Rancangan Acak Kelompok (RAK) adalah model perancangan
percobaan yang menggunakan dua faktor sehingga
keragaman dapat dikurangi, dimana diupayakan faktor
penentu keragaman lebih banyak berasal dari perlakuan.
Model RAK digunakan pada saat tidak memperoleh satuan
percobaan yang homogen.
Contoh kasus model RAK adalah pengujian dosis
pemupukan NPK sebanyak 6 tingkatan yaitu
25,50,75,100,125,dan 150 kg/ha pada empat lokasi untuk
tanaman mangga. Metode analisis yang digunakan untuk
model ini adalah two ways Analysis of Variance (ANOVA).
Rancangan acak kelompok tak lengkap (RAKTL)
adalah model perancangan percobaan, yang merupakan kasus
khusus dari RAK tetapi tidak semua taraf perlakuan muncul
pada setiap kelompok. Hal ini dapat terjadi karena perlakuan
yang dilibatkan terlalu banyak dan objek yang tersedia
terbatas (langka) atau keterbatasan waktu dan dana.
Rancangan bujur sangkar latin (RBSL) adalah model
perancangan percobaan yang menerapkan perlakuan terhadap
unit percobaan dilakukan secara acak, dengan memperhatikan
batasan bahwa setiap perlakuan hanya muncul sekali pada
arah baris dan hanya muncul sekali pada arah lajur. Contoh
kasus model RBSL dilakukan percobaan penggunaan lima
jenis pupuk dengan pembanding tanpa penggunaan pupuk
pada lahan pertanaman jagung. Metode analisis yang
digunakan untuk model ini General Linear Model.
Rancangan percobaan faktorial adalah percobaan yang
dilaksanakan untuk mengkaji pengaruh interaksi dua atau

84 | Corat Coret Catatan Statistisi Pemula


lebih faktor/peubah selain faktor utamanya. Contoh kasus
percobaan faktorial adalah peneliti ingin melihat interaksi dua
sistem bajak (bajak tradisional dan traktor) pada satu tipe
tanah dan menggunakan tiga varietas padi. Metode analisis
yang digunakan untuk model ini Balanced Anova. Apabila
kombinasi perlakukan tidak diacak secara sempurna maka
model analisis faktorial berkembang menjadi model acak
terpisah (split plot).
Rancangan percobaan tersarang (nested) digunakan
apabila dalam beberapa percobaan level suatu faktor (misal A)
relatif sama tapi level faktor yang lain (misal B) tidak identik.
Sebagai contoh suatu percobaan untuk mengetahui pengaruh
pemupukan (tanpa pupuk, NPK dan urea) dan benih
(A.B,C,D) terhadap produksi tanaman. Dalam hal ini bibit
dianggap tersarang pada faktor pemupukan.

Pardomuan Robinson Sihombing | 85


Metode Seleksi Variabel

Dalam melakukan analisis regresi, sering sekali peneliti


dihadapkan dengan pemilihan model yang terbaik. Salah satu
cara yang digunakan untuk memilih model yang terbaik
dengan membandingkan berbagai kriteria yang ada. Misalkan
pada model dengan variabel dependen kuantitatif dengan
membandingkan niai koefisien determinasi (adjusted r square),
nilai-nilai ukuran error terkecil misalnya nilai RMSE, AIC dan
BIC. Di sisi lain pada model variabel dependen kualitatif/
kategorik pada umumnya yang dibandingkan adalah nilai
performa dalam ketepatan model seperti nilai akurasi,
spesifikasi, sensitifity, G-Mean, nilai AUC dan koefisien kappa,
selain ukuran eror terkecil dalam model.
Selain ukuran-ukuran statistik yang telah disebutkan
pada paragraph di atas, yang menjadi konsen peneliti adalah
hubungan antar variabel. Jika terdapat banyak variabel
independen yang digunakan, para peneliti mengharapkan
dalam model bahwa seluruh variabel independen tersebut
berpengaruh signifikan. Oleh karena itu diperlukan proses
seleksi variable yang digunakan. Ada dua model seleksi yang
digunakan yaitu pada standar dimention data (jika jumlah
data (n) lebih besar/ banyak jumlah variabel independent yang
digunakan) dan high dimention data (jika jumlah data (n) lebih
kecil dari jumlah variabel independen yang digunakan).
Pada standar dimentional data ada tiga prosedur yang
bisa dilakukan dalam pemilihan model yaitu forward
selection, backward selection dan stepwise selection. Metode
forward selection dilakukan dengan cara memasukkan variabel
independen secara bertahap, yaitu berdasarkan korelasi
parsial terbesar. Dalam metode ini variabel yang dimasukkan
dalam model tidak akan dapat dikeluarkan lagidan akan
berhentik jika variabel lainnya tidak bisa meningkatkan

86 | Corat Coret Catatan Statistisi Pemula


berpengaruh secara signifikan (sig di bawah 0.05) terhadap
variable respon.
Selanjutnya metode Backward Elimination dilakukan
dengan cara memasukkan semua prediktor kemudian
mengeliminasi satu persatu hingga tersisa prediktor yang
signifikan saja. Eliminasi ini didasarkan pada prediktor yang
memiliki nilai sig F yang di atas 0.1.Sedangkan metode
stepwise adalah kombinasi dari metode forward dan
stepward. Pada tiap tahapnya dimungkinkan sebuah variabel
dimasukkan atau dikeluarkan dari model.
Selanjutnya metode yang dapat digunakan baik utk
standar maupun high dimentional data adalah metode Lasso,
Ridge dan Elastic Net. Regresi Ridge. Pada model-model
seleksi ini digunakan penambahkan variabel penalty/
regularisasi. Model Regresi ridge menggunakan pinalty L2,
dimana suku L2 sama dengan kuadrat dari besaran koefisien
yang dilambangkan dengan lamda (λ). Jika nilai lambda (λ)
sama dengan nol maka persamaannya menjadi persamaan
regresi standar/ OLS dasar, Tetapi jika lebih besar dari nol
maka akan menyakibatkan koefisien yang diminimalkan (alias
penyusutan) yang cenderung ke nol semakin besar nilai
lambda.
Selanjutnya adalah regresi Lasso (Least Absolute
Shrinkage and Selection Operator), model ini menggunakan
istilah penalti L1. Mirip dengan regresi ridge, semakin besar
nilai lambda, semakin banyak fitur yang dikecilkan menjadi
nol, variabel independent yang tidak menyusut menuju nol
menandakan bahwa mereka penting. Model regresi ketiga
yang umum digunakan adalah Elastic Net yang menyertakan
penalti dari regularisasi L1 dan L2, hal ini digunakan untuk
menyeimbangkan kelebihan dan kekurangan dari model ridge
dan lasso.

Pardomuan Robinson Sihombing | 87


Daftar Pustaka

Ballings, M., & Poel, D. V. (2017). RotationForest: Fit and


Deploy Rotation Forest Models. R News.
Gujarati, D. ( 2006). Ekonometrika Dasar. Jakarta: Penerbit
Erlangga.
Jouanne, H. V. (2017). OneR: One Rule Machine Learning
Classification Algorithm with Enhancements. R News.
Liaw, A., & Wiener, M. (2002). Classification and Regression by
randomForest. R News, 18-22.
Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., &
Leisch, F. (2021). e1071: Misc Functions of the
Department of Statistics, Probability Theory Group. R
News.
Peraturan Pemerintah. (2009). Peraturan Pemerintah Republik
Indonesia No 37 Tentang Dosen. Jakarta.
T. Chen, T. H., Chen, K., Mitchell, R., Cano, I., Zhou, T., Li, M.,
. . . Li, Y. (2021). xgboost: Extreme Gradient Boosting. R
News.
Therneau, T., & Atkinson, B. ( 2019). rpart: Recursive
Partitioning and Regression Trees. R News.
Tobler, W. (1970). A computer movie simulating urban growth
in the Detroit Region. Economic Geography, 46, 234–240.
Venables, W., & Ripley, B. (2002). Modern Applied Statistics with
S, Fourth ed. New York: Springer.
Walpole, R. E. (2007). Probability & Statistics for Engineers &
Scientists. New Jersey: Pearson Prentice Hall, In.

88 | Corat Coret Catatan Statistisi Pemula


Sumber dari Internet
https://scholar.google.com
https://www.researchgate.net
https://www.mendeley.com
https://www.zotero.org
https://endnote.com
https://www.onlinedoctranslator.com/id/
https://www.grammarly.com
https://quillbot.com
https://www.turnitin.com
https://www.plagiarismchecker.co/id
https://www.ithenticate.com
https://sinta.ristekbrin.go.id
https://www.scimagojr.com
https://mjl.clarivate.com
https://journals.indexcopernicus.com
https://www.ibm.com/products/spss-statistics
(https://www.minitab.com/en-us/\
https://eviews.com/home.html
https://www.ibm.com/products/structural-equation-
modeling-sem
https://ssicentral.com/index.php/products/lisrel/).
https://www.smartpls.com/
https://www.stata.com/
https://rapidminer.com/products/studio/
https://www.gnu.org/software/pspp/
https://jasp-stats.org/
http://gretl.sourceforge.net/

Pardomuan Robinson Sihombing | 89


Biodata Penulis

Pardomuan Robinson Sihombing, SST,


M.Stat, C.PS adalah Statistisi Muda di
Badan Pusat Statistik (BPS) RI sejak
tahun 2013. Menyelesaikan Pedidikan
Diploma IV Statistika Ekonomi pada
tahun 2012 di Sekolah Tinggi Ilmu
Statistik (STIS) Jakarta, dan Magister
Statistika Terapan pada tahun 2020 di
Universitas Padjadjaran (Unpad)
Bandung. Saat ini Penulis sedang
menempuh Pendidikan Doktoral
Statistika dan Sains Data di IPB University Bogor. Telah
memiliki pengalaman sebagai Konsultan Statististik dan
Pengampu Mata Ajar Statistika sejak tahun 2012. Topik
penelitian yang diminati adalah bidang Statistika Ekonomi,
Statistika Sosial, Machine Learning dan Epidemologi, serta
berperan aktif sebagai anggota Ikatan Statistisi Indonesia (ISI).
Selain itu Penulis juga aktif menjadi editor/ reviewer di
beberapa jurnal ilmiah. Penulis telah menerbitkan artikel ilmiah
di bidang statistika, ekonomi dan social science.

90 | Corat Coret Catatan Statistisi Pemula

Anda mungkin juga menyukai