Anda di halaman 1dari 61

Statistik dan Statistika

Statistika merupakan cabang dari ilmu matematika yang


banyakmembantu kehidupan manusia, oleh karena sifatnya yang
membantu kehidupan manusia maka statistika telah digunakan
baik dalam perdagangan, bisnis, pendidikan maupun pengambilan
keputusan dalam dunia politik. Diwaktu dahulu statistika hanya
digunakan untuk menggambarkan keadaan dan menyelesaikan
problem-problem kenegaraan saja seperti perhitungan banyaknya
penduduk, pembayaran pajak, mencatat pegawai yang masuk dan
keluar, membayar gaji pegawai dan lainnya. Sekarang diera
globalisasi ini hampir semua bidang kehidupan menusia
menggunakan statistika sebagai alat Bantu dalam menyelesaikan
berbagai masalah dan pengambilan keputusan.
Statistika berasal dari kata state (Yunani) yaitu negara dan
digunakan untuk urusan negara. Dikisahkan pada masa kekaisaran
Romawi, Kaisar Augustus biasa memerintahkan pada tentaranya
yang sedang berperang diluar kerajaan untuk kembali kekota
masing-masing setiap bulan Desember untuk melakukan semacam
registrasi guna mengetahui keberadaan tentaranya.
Lama berselang setelah itu statistika tidak mendapat
perhatian yang serius oleh para ilmuwan dan bahkan oleh ahli
matematika itu sendiri. Pada saat itu statistik masih dianggap
1
bagian dari matematika yang hanya mempunyai peranan sedikit
dalam kehidupan manusia. Hal ini dapat kita lihat bahwa pada
abad pertengahan, yaitu pada masa kejayaan daulah Islamiyah
tidak kita jumpai ilmuwan muslim yang ahli dalam statistika atau
yang menjadikan pembahasan keilmuannya adalah statistika. Pada
abad 9 M ahli matematika Islam Abu Musa Al qawarizmi (780 -
850 M) tidak memasukkan statistika dalam pembahasannya ia
hanya membahas aljabar sebagai inti dari buku-buku
karangannya. Hingga sampai pada tahun 1880 Sir Francis Galton
mulai memasukkan statistika dalam pembahasan Biologi dan
sejak inilah statistika mulai menampakkan geliatnya, hingga pada
tahun 1918-1935 Ronald Fisher mengembangkan teknik statistika
inferensial melalui analisis varians (ANAVA).
Pada saat ini istilah statistik dapat berkaitan dengan
beberapa istilah, yaitu statistik, statistika dan metode statistik atau
metode statistika. Berikut merupakan defenisi dari ketiga
penggunaan kata statistik tersebut.
Maka dapatlah kita katakan bahwa tabel (tabel biasa, tabel
kontingensi, tabel distribusi frekwensi) dan diagram (diagram
batang, diagram garis/grafik, diagram lingkaran, diagram pastel,
diagram gambar dan diagram pencar) merupakan contoh dari
statistik. Selain itu statistik juga diartikan dengan ukuran yang
dijadikan sebagai penjelasan bagi sampel; seperti (exs bar)
2
sebagai simbol rata-rata, sebagai simbol dari simpangan baku,
sebagai simbol korelasi. Huruf latin biasa digunakan sebagai
simbol statistik.
Dengan demikian statistik dikatakan sebagai informasi
sedangkan statistika dikatakan sebagai alat atau pengetahuan
untuk meghasilkan informasi tersebut. Jika statistika adalah ilmu
atau pengetahuan yang digunakan untuk menghasilkan informasi
maka cara penggunaan statistika secara tepat sehingga
menghasilkan informasi yang dapat dipercaya disebut dengan
metode statistika atau metode statistik.
Penggunaan statistik pada bidang ekonomi dikatakan
dengan Ekonometri, penerapan statistik pada bidang biologi
dikatakan dengan Biometri, penerapan statistik pada bidang
pendidikan dikatakan statistik pendidikan.
Pada saat ini statistik dan statistika sering digunakan
dengan pengertian yang sama, sehingga ketika dikatakan statistik
dapat berarti sebagai ilmu statistik atau statistika dan bisa juga
sebagai metode statistika. Penggunaan kata statistik sebagai
pengetahuan yang serupa dengan statistika tidaklah tepat, namun
jika kita tetap hendak menggunakan kata statistik maka harus
ditambahkan kata ilmu hingga menjadi ilmu statistik sebagai
padanan kata yang sama dengan statistika.

3
Macam-macam Statistik

Jika dilihat dari informasi yang dihasilkan melalui data


yang dianalisa maka Statistika dapat dibedakan menjadi dua,
yaitu:
1. Statistika deskriptif, yaitu statistika yang digunakan
menggambarkan dan menganalisa suatu hasil penelitian atau
pengamatan tetapi tidak sampai pada suatu penarikan
kesimpulan. Statistik deskriptif hanya melakukan pemaparan
data apa adanya saja, menunjukkan distribusi dari data tetapi
tidak melakukan penilaian terhadap data itu. Adapun yang
termasuk dalam statistika deskriptif adalah tabel, diagram,
grafik, rata-rata, modus, median, varians, simpangan baku dan
ukuran lainnya.
2. Statistika Inferensial, Yaitu Statistika yang digunakan untuk
menganalisis data dari suatu sampel, dan hasilnya akan
digeneralisasikan untuk populasi dimana sampel tersebut
diambil. Terdapat dua macam Statistika Inferensial yaitu
statistik parametrik dan non parametrik.
a. Statistika parametrik terutama digunakan untuk
menganalisis data interval atau rasio yang diambil dari

4
populasi yang berdistribusi normal. Seperti korelasi
product moment pearson, ANAVA, t-tes, F-tes, regresi dll.
b. Statistika non parametrik digunakan terutama untuk
menganalisis data nominal dan ordinal dari populasi yang
bebas distribusi, jadi tidak harus normal. Seperti: Korelasi
spearman rank, kendal tau, chi kuadrat dll.

5
Peranan Statistik Dalam Penelitian Pendidikan

Apakah statistik mempunyai peranan penting dalam suatu


penelitian pendidikan? Apakah tanpa statistik penelitian dalam
bidang pendidikan tetap dapat dilakukan?. Penelitian tentu saja
dapat dilakukan tanpa bantuan dari statistik, ini berlaku terutama
pada penelitian kualitatif yang mengutamakan analisa berbentuk
analitik. Namun tidak selalu penelitian kualitatif tidak
membutuhkan bantuan statistik. Hal ini dikarenakan ketika
dilakukan penelitian kualitatif, data yang dihasilkan tidak saja
berbentuk kata-kata namun dapat juga berupa angka-angka
dimana satistik diperlukan untuk menjelaskannya. Hanya saja
dalam penelitian kualitatif statistik yang diperlukan tidak seperti
pada penelitian kuantitatif, pada penelitian kualitatif statistik yang
digunakan hanya berupa statistik deskriptif. Pada penelitian
kualitatif statistik tidak digunakan untuk menarik kesimpulan.
Sedangkan dalam penelitian kuantitatif statistik tidak dapat
ditinggalkan, karena dimulai dari penentuan sampel penelitian
hingga penarikan kesimpulan memerlukan statistik. Statistik
mempunyai peran yang sangat besar pada penelitian kuantitatif.
Berikut akan diberikan beberapa kegunaan statistik dalam
penelitian kuantitatif.

6
1. Alat untuk menghitung besarnya anggota sampel yang diambil
dari suatu populasi. Penggunaan statistik dalam menentukan
jumlah sampel penelitian dapat memberikan jumlah sampel
yang representatif terhadap jumlah populasi sehingga jumlah
sampel yang ditentukan lebih dapat di pertanggung jawabkan.
Statistik membantu peneliti untuk menentukan berapa jumlah
sampel yang tepat untuk dapat mewakili populasi penelitian.
2. Alat untuk menguji validitas dan reliabilitas instrumen.
Sebelum instrumen digunakan untuk penelitian, maka harus di
uji validitas dan reliabilitasnya terlebih dahulu. Sehingga data
yang dihasilkan oleh instrumen tersebut dapat dipercaya.
Selain itu statistik juga diperlukan untuk menentukan daya
pembeda tes dan tingkat kesukaran tes.
3. Membantu peneliti menyajikan data hasil penelitian sehingga
data lebih komunikatif. Teknik-teknik penyajian data ini
antara lain: tabel, grafik, diagram lingkaran, dan piktogram
atau yang didalam statistik dinamakan dengan statistik
deskriptif.
4. Alat untuk analisis data seperti menguji hipotesis Penelitian
yang diajukan. Dalam hal ini statistik yang digunakan antara
lain: korelasi, regresi, T- test, Anava, Chi kuadrat dll. Dengan
statistik kita dapat mengambil kesimpulan yang tepat

7
mengenai keadaan populasi dan sampel penelitian melalui data
yang dihasilkan oleh penelitian yang kita lakukan.

8
Jenis Data Dalam Statistik dan Penelitian

Data menurut jenisnya dapat dikelompokkan menjadi dua


yaitu
data kualitatif dan data kuantitatif.

1. Data Kualitatif.
Yaitu data yang berbentuk kategorisasi, karekteristik
berbentuk kalimat, kata-kata atau gambar. Data kualitatif
merupakan data yang menunjukkan kualitas sesuatu, oleh
karena itu data kualitatif sering menunjukkan kualitas sesuatu
baik manusianya, benda-benda, maupun suatu variabel
tertentu seperti motivasi, minat dan lainnya. Contoh data
kualitatif: siswa itu rajin, motivasi belajarnya rendah dan
sebagainya. Data ini biasanya didapat dari wawancara atau
pengamatan dan bersifat subjektif sebab data tersebut dapat
ditafsirkan berbeda oleh orang lain yang juga melakukan
pengamatan.
Dengan melakukan pengklasifikasian terhadap data
kuantitatif kita dapat mengubah data kuantitatif menjadi
kualitatif. Dengan memberikan kategori-kategori terhadap
kuantitas tertentu kita mengubah data kuantitatif menjadi

9
kualitatif. Misalkan saja data motivasi belajar siswa yang
diukur dengan menggunakan angket motivasi belajar akan
menghasilkan data kuantitatif berupa angka-angka skor
motivasi belajar. Skor motivasi belajar tersebut dapat diubah
menjadi kualitas tentang motivasi belajar dengan
menggunakan syarat-syarat tertentu, misal saja kategori
tersebut dibuat sebagai berikut:

Dengan mencari rata-rata dan standar deviasi dari skor


motivasi
belajar tersebut kita dapat mengetahui kualitas dari motivasi
belajar setiap sampel penelitian. Misalkan saja setelah dihitung
didapat ratarata 29,4 dan standar deviasinya 4,4 sehingga motivasi
belajar tersebut menjadi;

10
Kita bisa mengatakan bahwa motivasi belajar tinggi jika
saja skor motivasi belajarnya diatas 33,8 ( > 33,8), motivasi
belajar rendah jika skor motivasi belajarnya dibawah 25,0 ( <
25,0) dan selain itu dikatakan motivasi belajar kategori sedang.

2. Data Kuantitatif
Yaitu data yang berbentuk angka atau data kualitatif yang
diangkakan. Contoh : skor ulangan Matematika Rudi 75, skor
minat belajar andi 105, skor IQ Winda 135, jumlah siswa laki
di kelas X SMA 20 Medan adalah 23 orang.
Data kuantitatif dapat dikelompokkan menjadi dua
kelompok besar, yaitu data diskrit dan data kontinu. Data
diskrit adalah data yang diperoleh dari hasil menghitung atau
mencacah, data seperti ini sering juga disebut dengan data

11
nominal dan ordinal. Data kontinu adalah data yang diperoleh
dari hasil pengukuran. Data kontinu dapat dikelompokkan
menjadi dua, yaitu data interval dan Rasio.
Berdasarkan skala ukurnya data kuantitatif dapat
dibedakan menjadi data: nominal, ordinal, interval dan rasio.
1) Data Nominal
Data nominal adalah data yang hanya mengandung unsur
penamaan (Bahasa Latin, Nomos = nama). Contoh; jenis
kelamin mahasiswa fakultas Tarbiyah terdiri dari laki-laki
dan perempuan, laki-laki berjumlah 450 orang dan
perempuan sebanyak 765 orang.

Pada tabel diatas diketahui bahwa untuk


mahasiswa laki-laki diberikan bobot 1 dan perempuan
diberikan bobot 2, pemberian bobot boleh juga dilakukan
sebaliknya hal ini menunjukkan bahwa pemberian bobot
hanya sekedar untuk pengkodean saja. Laki-laki diberikan
bobot 1 bukan menunjukkan bahwa laki-laki lebih dari

12
perempuan, oleh sebab itu pemberian bobot dapat
dilakukan secara terbalik. Harus diingat, bahwasanya
statistik adalah pendekatan kuantitatif, sehingga data yang
bersifat kualitatif harus diubah dalam bentuk numerik
dengan cara pemberian skor (skoring) atau agregat.
Jurusan yang ada difakultas Tarbiyah, fakultas yang ada di
IAIN SU Medan, latar belakang pekerjaan orang tua
mahasiswa merupakan contoh dari data nominal lainnya.
Apabila penelitian yang dilakukan menghasilkan
data nominal maka ukuran satatistik yang tepat untuk
menjelaskan keadaan data tersebut adalah modus, tabel
distribusi frekuensi, baik tabel distribusi frekuensi absolut
maupun tabel distribusi frekuensi relatif. Sedangkan
statistik inferensial untuk pengujian hipotesis adalah
statistik nonparametrik yaitu uji Chi kuadrat. Berikut
adalah cara menganalisa data nominal mengenai keadaan
pegawai SMA Negeri 4 padang sidimpuan Sumatera utara

13
pada tahun ajaran 2009/2010.

Dapat ditunjukkan bahwa untuk mengetahui berapa


jumlah guru bidang studi dengan jenis kelamin perempuan
dapat dilakukan dengan cara menghitung, demikian juga
untuk mengetahui jumlah pegawai administrasi sebanyak
10 orang dapat dilakukan dengan menghitung langsung
berapa jumlah pegawai administrasi di SMAN 4 Padang
sidempuan tersebut. Jumlah guru edukasi sebanyak 7
orang, pegawai administrasi 10 orang dikatakan dengan
frekuensi. Begitu juga dengan jumlah guru Agama Islam 2
orang, guru agama Kristen 1 orang dan guru bidang studi
sebanyak 54 orang merupakan frekuensi. Selain itu
14
banyaknya guru edukasi yang berjenis kelamin laki-laki 4
orang dan guru edukasi berjenis kelamin perempuan
sebanyak 3 orang dikatakan juga sebagai frekuensi,
demikian juga untuk yang lainnya. Dari frekuensi-
frekuensi tersebut ( 7, 10, 2, 1 dan 54) terdapat frekuensi
yang paling besar yaitu 54 orang yang dikatakan sebagai
modus, berarti pada sekolah SMAN 4 Padang Sidempuan
pegawai yang paling banyak adalah pegawai dengan tugas
sebagai guru bidang studi. Frekuensi-frekuensi pada tabel
diatas seperti 7, 10, 2, 1 dan 54 dikatakan sebagai
frekuensi absolut sedangkan persentase dari frekuensi
tersebut dikatakan sebagai frekuensi relatif.

2) Data Ordinal
Data ordinal adalah data yang selain mengandung
unsur penamaan juga memiliki unsur urutan (Order =
urutan). Berikut merupakan contoh dari data ordinal.

15
Pada data ordinal selain dilakukan pembobotan
atau penskoran, urutan dari penskoran tersebut juga
memiliki arti atau makna. Posisi letak menentukan
kedudukan kategori data. Jika Ahmad jais mendapatkan

16
ranking 1, itu berarti dia mendapatkan kedudukan
rangking pertama dari semua teman-temannya. Rangking
tersebut tidak dapat di tukar ataupun dibolak balik seperti
pada contoh tabel 1.3 diatas. Namun pada data ordinal ini
jarak antara tingkatan tidak diketahui berapa intervalnya.
Pada tabel rangking siswa diatas kita tidak dapat
menentukan berapa jarak antara ranking pertama dengan
ranking kedua, ranking kedua dengan ranking ketiga atau
ranking keempat dengan ranking kelima. Bisa saja terjadi
perbedaan jarak antara ranking pertama - ranking kedua
dengan jarak ranking kedua – ranking ketiga. Status sosial
masyarakat, golongan kepangkatan dosen dari IIIa sampai
IVe, indeks prestasi mahasiswa juga merupakan contoh
data ordinal.
Apabila data hasil penelitian merupakan data
ordinal maka perhitungan statistik yang tepat untuk data
ordinal adalah modus, median dan tabel distribusi
frekuensi. Sedangkan untuk pengujian hipotesis dan
penarikan kesimpulan yang berhubungan dengan data
ordinal dapat dilakukan dengan menggunakan statistik
nonparametrik seperti korelasi spearman rank.

3) Data Interval
17
Data interval adalah data yang selain mengandung
unsur penamaan dan urutannya juga memiliki sifat interval
atau selang, jaraknya bermakna, disamping itu, data ini
memiliki ciri angka dimana angka nol-nya tidakmutlak.
Pada data interval selain data memiliki skor, memiliki
urutan juga memiliki interval yang jelas antara satu
tingkatan data dengan yang lainnya. Salah satu contoh data
interval yang paling sering digunakan dalam dunia
pendidikan adalah skor kecerdasan individu atau skor tes
IQ seseorang dan nilai yang diperoleh siswa pada mata

pelajaran tertentu.

18
Pada tabel IQ siswa diatas dapat diketahui bahwa
jarak antara IQ 110 dengan IQ 115 adalah 5 sama dengan
jarak atau interval IQ 114 ke 119. Namun nilai 0 pada IQ
diatas tidaklah mutlak karena kita tidak bisa mengatakan
bahawa jika seorang siswa memiliki IQ 0, sama sekali
tidak memiliki IQ sama sekali. Nilai siswa juga merupakan
jenis data interval, jika saja seorang siswa mendapatkan
nilai 0 (nol) bukan berarti siswa tersebut tidak mempunyai
nilai. Akan tetapi ia tetap juga dikatakan memiliki nilai,
hanya saja besar nilainya adalah nol. Nilai nol pada data
interval diatas tidak menunjukkan ketidak adaan tetapi
hanya merupakan skor perolehan semata. sedangkan jarak
antara nilai siswa 70 ke nilai siswa 80 adalah sama dengan
jarak nilai siswa 75 ke nilai siswa 85, yaitu sama-sama 10.
Dalam hal tersebut dikatakan bahwa data interval memiliki
interval yang sama antara satu data dengan yang lainnya.

4) Data Rasio
Data rasio adalah data yang memiliki unsur
penamaan, urutan, intervalnya bermakna dan angka nolnya
mutlak, sehingga rasionya memiliki makna. Beberapa
contoh dari data rasio adalah jarak, berat badan, tinggi,
pendapatan dan lainnya.
19
20
Taksiran Titik untuk μ dan σ 2

Variabel random X yang berdistribusi normal dengan


mean dan variansi μ dan variansi σ 2 ditulis X N (μ ; σ 2 ). Jika μ=0
dan variansi σ 2=1, variabel itu dinamakan variabel random
normal standar dan ditulis dengan huruf Z.

Teorema 1

Misalkan X 1 , X 2 , … , X n sampel random dari distribusi


N ( μ ; σ ¿¿ 2)¿. Taksiran maksimum likelihood untuk μ dan σ 2
adalah

n
1
^μ= ∑ X i= X́
n ❑

Dan

n
1
σ^ = ∑ (X ¿ ¿ i− X́ )¿
n ❑

Bukti

Fungsi likelihood X 1 , X 2 , … , X n dapat ditulis

21
n
2 2
L ( μ; σ ) = ∏ f ( x i ; μ ,σ )
i=1

¿
1
e

(2 σ 2 )¿ ¿
2
√2 π σ
¿¿

Selanjutnya,

n
2 −n 1
log(¿ 2 π σ )− 2 ∑ ( X i−μ)2 ¿ ¿
2
1=log L μ ; σ =
( ) ¿
2 2σ i=1

Menyamakan kedua derivatif parsial 1 dengan nol memberikan

n
1
¿ 2 ∑ ( X i−μ)❑=0
σ i=1

dan

n
∂ 1 −n 1
2
= 2 + 4 ∑ (X i−μ)2=0
∂ σ 2 σ 2σ i=1

Penyelesaian sistem persamaan diatas adalah

n n
1 1
^μ= ∑ X 1= X́ dan σ^2= ∑ ( X i −μ)2
n i=1 n i=1

22
Teorema 2

Misalkan X 1 , X 2 , … , X n sampel random dari N ( μ ; σ ¿¿ 2)¿


. Penaksir maximum Likelihood X́ tak bias, efisien, dan konsisten
untuk μ. Jika σ 2diketahui X́ juga sufisen.

Bukti

Ketak-biasaan X́ dengan mudah dapat dilihat. Untuk


menunjukkan bahwa X́ efisien, perhatikan bahwa

∂ log f ( X : μ , σ 2 ) X−μ
= 2
∂μ σ

dan

∂2 log f ( X : μ , σ 2 ) 1
= 2
∂ μ2 σ

Maka batas bawah Cramer-Lao bagi variansi penaksir tak bias


untuk μ adalah

1
−1 σ 2
σ[ ]
−n 2 =
n

23
Ini sama dengan variansi penaksir maximum likehood, yakni var

2
( X́ )= σ . Jadi X́ efisien untuk μ.
n

Pertidaksamaan Chebyssher dapat digunakan untuk


membuktikan bahwa X́ konsisten. Kita punyai

Var ( X́ )
P ( 1 X́−μ ⋮<∈ )> 1−
∈2

σ2
Karena Var ( X́ ¿= , maka
n

σ2
P ( ⋮ X́−μ ⋮<ϵ ) >1−
∐ ∈2
Ini berarti bahwa X́ konvergen secara stokastik ke μ, yakni
konsisten, karena untuk setiap σ > 0 , X́ akan berjarak ∈ terhadap μ
paling tidak ( 1−σ ) 100 % kali, jika

~ σ2
n=n ∈ ,σ ≥ 2
( )
ϵ σ

Sufisien X́ dapat dilihat dari kriteruim Fisher-Neyman.

Teorema 3
24
Misalkan X 1 , X 2 , … , X n sampel random dari N ( μ ; σ ¿¿ 2)¿.

Maka,

1
∑ ¿¿
n i=1

Penaksir maximum likelihood untuk σ 2 , adalah bias dan


konsisten. Apabila μ diketahui, maka penaksir itu juga sufisen.

Bukti:

Disini hanya kan ditunjukkan bahwa penaksir itu bias.


Untuk ini diperhatikan bahwa

n
E [ 1

n i=1
(
2 1
] [
X i− X́ ) =E ∑ ( X i−2 X́ X i + X́ )
n ]
n
¿
[ (∑ )]
1
n i=1
−n X́ 2

n
1
¿ ∑ E ( X ¿ ¿ i 2)−E ( X́ ¿ ¿ 2)¿ ¿
n i=1

Tetapi E( X ¿ ¿ i2 )=σ 2+ μ 2 ¿

σ2 2
dan E( X́ ¿ ¿ 2)= +μ ¿
n

25
Maka

n
σ2
1
[
n i=1
2 1
]
E ∑ ( X i− X́ ) = ( nσ 2 +nμ 2) − −μ2
n n

σ 2 n−1 2
¿ σ2−
n
=( )
n
σ

Jadi penaksir itu bias

Catatan

Dalam praktik, σ 2 biasanya tidak ditaksir dengan σ^2 dalam


Teorema 3, tetapi dengan variansi sampel

n ^2 1
S2= σ = ∑ X 1− X́ ¿ 2 ¿
(n−1) (n−1)

Tentu saja ini adalah penaksir tak bias berdasarkan statistik sufien:

n
E( σ^2) ¿= 1
(n−1) 2 2
E( S¿ ¿2)= σ =σ
( n−1 ) (n−1) n

26
Asumsi-Asumsi dalam Inferensi Statistika

Berbeda dari statistika nonparametrik yang disebut dengan


distribution-free statistics atau disebut juga statistika sampel kecil,
statistika parametrik diderivasi dari model distribusi normal atau
distribusi-distribusi skor populasi tertentu. Di samping itu,
rumusan tehnik-tehnik komputasi guna pengambilan kesimpulan
(inferensi) lewat uji statistika parametrik didasarkan pada model
distribusi yang diketahui, sehingga penggunaannya pun dilandasi
oleh berlakunya asumsi bahwa ada kesesuaian antara data sampel
dengan model distribusi yang bersangkutan (data-model fit).

Kekhawatiran bahwa data sampel tidak terdistribusi


mengikuti model data populasi yang diasumsikan atau tidak
memenuhi kondisi yang disyaratkan bagi penggunaan tehnik
komputasi tertentu menyebabkan banyak para peneliti sosial
pemakai statistika melakukan lebih dahulu pengujian asumsi
sebelum melakukan uji hipotesis. Pada hampir semua skripsi S1,
thesis S2, dan bahkan disertasi S3 psikologi dapat kita temui
laporan hasil berbagai uji asumsi yang dilakukan sebelum
pengujian hipotesisnya sehingga terdapat kesan kuat sekali bahwa
uji asumsi merupakan prasyarat dan bagian yang tak terpisahkan
yang mendahului analisis data penelitian. Kepanikan terjadi

27
apabila hasil uji asumsi ternyata tidak sesuai dengan harapan.
Berbagai reaksi timbul mulai dari reaksi wajar berupa usaha untuk
menggunakan alternatif model uji yang lebih cocok dengan data,
transformasi data agar sesuai dengan model yang diinginkan,
sampai pada usaha-usaha memanipulasi data agar tampak
memenuhi asumsi yang diinginkan. Sayangnya seringkali hal itu
dilakukan tanpa pemahaman yang cukup mengenai permasalahan
yang sedang dihadapi sehingga ada peneliti yang melakukan
'trimming' atau pemangkasan terhadap subjek yang dianggapnya
sebagai 'outliers' agar datanya terdistribusi mengikuti model linier,
dan ada pula praktisi yang mecoba menggunakan model
matematis yang terlalu kompleks bagi tujuan penelitiannya
sehingga malah menjadikan kesimpulan analisisnya sulit dicerna
oleh pembaca awam.

Pertanyaan yang mungkin timbul di kalangan pengguna


statistika adalah: "Seberapa perlukah uji asumsi dilakukan
sebelum melakukan uji hipotesis?"

Dari makna kata, asumsi (assumption) berarti a statement


accepted true without proof (Encarta 97 Encyclopedia) atau
something taken for granted (Random House Webster's
Unabridged Dictionary). Kedua makna kata itu tentu berlaku juga
bagi pengertian asumsi statistika. Oleh karena itu dalam inferensi
28
statistika, data yang akan dianalisis dianggap memenuhi asumsi-
asumsi yang disyaratkan bagi formula komputasinya. Analisis
dapat dilakukan tanpa harus melakukan pemeriksaan terlebih
dahulu terhadap terpenuhi-tidaknya asumsi yang bersangkutan.
Kalaupun ternyata kemudian bahwa data yang digunakan tidak
sesuai dengan asumsi-asumsinya, maka kesimpulan hasil
analisisnya tidak selalu invalid.

Dalam situasi aplikasi, asumsi-asumsi bagi distribusi


sampling dibuat sebagai dasar legitimasi pemilihan tehnik
komputasi tertentu guna pengujian suatu hipotesis. Asumsi ini
jarang atau bahkan tidak pernah benar-benar diuji terhadap data
sampel melainkan langsung dianggap benar (Hays & Winkler,
1971). Asumsi bahwa sampel diambil secara random dan bahwa
distribusi populasi adalah normal merupakan dua contoh asumsi
yang merupakan formalitas dalam analisis.

Kita akan melihat dengan lebih seksama akan asumsi-


asumsi yang diberlakukan pada beberapa macam analisis. Dalam
hal ini dipilih dua macam kelompok analisis yang paling biasa
dilakukan oleh para peneliti.

29
Analisis Varian

Dalam bentuknya yang sederhana, analisis varians


digunakan untuk menguji perbedaan efek di antara paling tidak
tiga macam perlakuan yang berbeda melalui statistik F yang
merupakan rasio mean kuadrat perlakuan dengan mean kuadrat
eror. Mean kuadrat adalah jumlah dari kuadrat deviasi skor dari
mean (JK) dibagi oleh derajat kebebasan (db)nya.

Partisi jumlah kuadrat skor dan derajat kebebasan adalah

Sepanjang menyangkut komputasi jumlah kuadrat dan


mean kudrat pada data sampel, tidak diperlukan adanya asumsi
apapun mengenai distribusi data. Namun untuk menggunakan data
sampel sebagai dasar inferensi mengenai ada-tidaknya efek
populasi, diperlukan tiga asumsi (Hays & Winkler, 1971; Hays,
1973), yaitu: 1. Bagi setiap populasi perlakuan j, eror eij
terdistribusi secara normal. 2. Bagi setiap populasi j, distribusi eij
memiliki varians yang sama, yaitu σe 2 . 3. Eror yang terjadi pada
30
setiap pasangan kasus bersifat independen. Myers (1979)
menambahkan asumsi keempat -yang apabila ketiga asumsi
terdahulu valid maka harga statistik F yang signifikan akan
meruntuhkan asumsi ini- yaitu: 4. Hipotesis nihil adalah benar.
Prosedur analisis varian dilakukan guna menguji hipotesis yang
mengambil bentuk:

Apakah konsekuensinya apabila di antara asumsi-asumsi


di atas ada yang tidak terpenuhi?

Asumsi pertama yang menyebutkan bahwa eror eij bagi


setiap populasi perlakuan j terdistribusi secara normal adalah
identik dengan mengatakan bahwa skor variabel dependen Yij
bagi masing-masing populasi perlakuan terdistribusi normal.
Ternyata bahwa inferensi terhadap mean yang valid pada
distribusi skor normal juga akan valid pada distribusi yang tidak
normal, asalkan n pada masing-masing sampel cukup besar. Hal
ini antara lain dikarenakan distribusi sampling dari sampel
random berukuran n dari suatu distribusi populasi yang memiliki

31
μ tertentu dan σ 2 tertentu, akan berbentuk normal N(0,1) apabila
n → ∞ (central limit theorem; Hogg & Tanis, 1977). Oleh karena
itu, kita tidak perlu terlalu mengkhawatirkan asumsi normalitas ini
sepanjang kita memiliki cukup banyak subjek bagi masing-masing
sampel perlakuan. Di mana kita merasa bahwa normalitas
distribusi skor tidak terpenuhi maka kita hanya perlu mengambil
subjek dalam jumlah yang lebih banyak.

Uji normalitas distribusi Yij pada sampel ---seperti yang


biasanya dilakukan lewat uji χ2 goodness of fit--- tidak perlu
dilakukan dikarenakan distribusi harga F tidak banyak
terpengaruh oleh penyimpangan normalitas distribusi. Pernyataan
ini didukung oleh bukti-bukti matematis (Scheffé, 1959 dalam
Myers, 1979) dan bukti studi empiris (Boneau, 1960; Bradley,
1964; Donaldson, 1968; Lindquist, 1953 dalam Myers, 1979).

Asumsi ke dua mengatakan bahwa varian eror di antara


masing-masing populasi perlakuan adalah setara (homogen).
Implikasi dari asumsi ini adalah bahwa varian skor Yij pada
masing-masing kelompok j adalah setara (yaitu σ1 2 = σ2 2 = σ3 2
= . . . = σj 2 ).

Banyak praktisi yang melakukan uji heterogenitas varian


pada data sampel dan menggunakan hasilnya sebagai dasar untuk

32
menyatakan sah-tidaknya penggunaan analisis varian. Untuk itu
memang terdapat beberapa metode pengujian heterogenitas varian
seperti tes Hartley, tes Bartlett, tes Levene, dan lain-lain. Namun
kegunaan berbagai tes ini mendahului analisis varian adalah tidak
jelas. Isunya bukanlah apakah varian-varian populasi itu berbeda
akan tetapi apakah perbedaan yang ada cukup besar sehingga
mengakibatkan rasio mean kuadrat pada analisis varian menjadi
tidak lagi terdistribusi sebagai F (Myers, 1979). Di samping itu,
tes heterogenitas varian yang biasanya digunakan ternyata sangat
sensitif terhadap ketidaknormalan distribusi populasi sehingga
para ahli statistik menganggap prosedur uji homogenitas ini tidak
robust. Dengan demikian uji heterogenitas varian sebelum
melakukan analisis varian tidak banyak memiliki nilai praktis, dan
pendapat mutakhir mengatakan bahwa analisis varian dapat dan
seharusnya dilakukan tanpa melakukan uji heterogenitas varian
lebih dahulu, terutama apabila besarnya n dalam setiap kelompok
sampel adalah sama (Box, 1953, 1954 dalam Hays, 1973).

Asumsi homogenitas varian ini dapat diabaikan tanpa


resiko yang besar selama kita memiliki jumlah n yang sama dalam
setiap sampel perlakuan. Sebaliknya, apabila jumlah n dalam
masing-masing sampel perlakuan tidak sama maka pelanggaran
asumsi homogenitas varian dapat membawa konsekuensi serius

33
terhadap validitas inferensi/kesimpulan analisis akhir akibat
terjadinya distorsi eror tipe I. Dalam kasus n pada kelompok
sampel tidak sama atau kasus perbedaan varian yang sangat besar
di antara kelompok perlakuan, uji signifikansi F masih dapat
dilakukan sesuai dengan level α yang dikehendaki asalkan
distribusi populasi perlakuan masih mendekati normal. Dengan
demikian, selama kita memiliki alasan yang cukup layak untuk
menganggap bahwa varian-varian di antara kelompok perlakuan
adalah setara, kita dapat terus melakukan uji F tanpa
kekhawatiran, namun bila kita merasa sangsi akan homogenitas
varian yang terlibat maka gunakanlah n yang setara bagi setiap
kelompok sampel.

Asumsi yang ke tiga justru merupakan asumsi yang


terpenting, yaitu independensi eror di antara setiap pasangan
kasus. Pelanggaran terhadap asumsi ini berakibat sangat serius
bagi validitas inferensi dari penggunaan statistik F dalam analisis
varian. Oleh karena itu, pelaku eksperimen harus benar-benar
berusaha agar data yang diperoleh dalam eksperimennya
dihasilkan dari pengukuran yang independen baik dalam
kelompok maupun antar kelompok, yaitu setiap hasil pengukuran
harus sama sekali lepas dari pengaruh hasil pengukuran yang lain.
Hal ini terutama harus menjadi perhatian dalam desain analisis

34
varian efek terbatas (fixed effects analysis of variance). Asumsi
yang penting ini, tidak untuk diuji terpenuhi atau tidaknya,
melainkan sebagai pegangan bagi peneliti agar selalu menjaga
independensi pengukurannya. Legitimasi penggunaan statistik F
lebih tergantung pada sejauhmana prosedur pengukuran dan
desain yang digunakan dalam eksperimen dapat meyakinkan
adanya independensi tersebut.

Bilamana setiap subjek hanya dikenai pengukuran satu kali


dan masing-masing subjek ditempatkan secara random (randomly
assigned) ke dalam kelompok perlakuan maka asumsi
independensi ini pada umumnya dapat terpenuhi (Myers, 1979).
Namun dalam repeated measurement designs asumsi tersebut jelas
tidak dapat diberlakukan. Pengulangan pengukuran pada subjek
yang sama akan menghasilkan skor yang sedikit-banyak tentu
berkorelasi satu sama lain. Korelasi positif akan membawa akibat
membesarnya probabilitas eror tipe I sedangkan korelasi negatif
akan menurunkan probabilitas eror tipe I (Cochran, 1967; Scheffé,
1959 dalam Myers, 1979).

Dalam kaitan ini, bilamana peneliti menggunakan analisis


varian dan memperoleh harga F yang lebih kecil dari 1 maka
selalu diputuskan untuk menerima H0 dan menyatakan tidak
signifikannya perbedaan efek antar kelompok perlakuan. Memang
35
benar bahwa apabila hipotesis nihil adalah benar maka kita akan
berharap memperoleh harga F yang mendekati 1. Namun
demikian harga F yang kurang dari 1, bahkan mendekati 0, dapat
saja terjadi lepas dari apakah H0 yang benar ataukah Ha yang
benar (Hays & Winkler, 1971). Terjadinya harga F yang sangat
kecil dapat juga merupakan pertanda bagi peneliti akan
kemungkinan adanya asumsi yang tidak terpenuhi dalam
penggunaan analisis. Pada saat itulah peneliti diminta mencermati
data, prosedur pengukuran, dan desain eksperimennya terhadap
kemungkinan adanya asumsi yang tidak terpenuhi.

36
Korelasi dan Regresi Linear

Dalam situasi bivariat, analisis korelasi linier melibatkan


satu variabel (X) dan satu variabel lain (Y) yang tujuannya adalah
melihat arah dan kekuatan hubungan linier yang ada di antara
kedua variabel yang bersangkutan. Kekuatan hubungan yang ada
di antara X dan Y dinyatakan oleh koefisien korelasi rxy sebagai
estimat terhadap parameter korelasi pada populasinya, sedangkan
arah hubungan terlihat dari tanda negatif atau positif pada statistik
rxy. Signifikasi hubungan linier antara X dan Y diuji lewat
statistik t terhadap hipotesis:

Koefisien korelasi memperlihatkan hubungan yang bersifat


timbal balik (rxy = ryx) dan karenanya tidaklah penting untuk
menyatakan variabel manakah yang berlaku sebagai variabel
independen dan yang mana sebagai variabel dependen.

37
Koefisien korelasi yang signifikan membawa kepada
penggunaan fungsi linier dari korelasi itu untuk melakukan
prediksi, yaitu dengan menentukan persamaan garis regresi.
Dalam situasi prediksi ini harus ditentukan lebih dahulu manakah
variabel yang berlaku sebagai independen (predictor) dan mana
yang berlaku sebagai dependen (criterion).

Apabila X diidentifikasi sebagai prediktor terhadap Y,


maka persamaan regresi linier dirumuskan sebagai:

Dalam buku-buku lama banyak dipersoalkan mengenai


kelayakan penggunaan rumus komputasi korelasi dan regresi pada
data sampel. Sebenarnya, sebatas menyangkut penggunaan rumus
komputasi itu guna menghasilkan statistik deskriptif data sampel,
sama sekali tidak diperlukan asumsi apa pun mengenai bentuk
distribusi data skor, mengenai variabilitas skor Y dalam setiap
level X (yaitu σy|x 2 ), dan mengenai level pengukuran masing-
masing variabelnya (Hays, 1973 pp. 635-636, Cohen & Cohen,
38
1975 p. 48). Oleh karena itu komputasi koefisien korelasi dan
persamaan regresi pada data sampel akan selalu valid untuk
menggambarkan hubungan linier yang ada serta memakainya
untuk prediksi pada data sampel yang bersangkutan.

Persoalannya menjadi lain bilamana statistik tersebut akan


digunakan untuk inferensi mengenai hubungan yang sebenarnya
ada dalam populasi dari mana sampel yang bersangkutan ditarik
secara random. Penggunaan koefisien korelasi dan persamaan
regresi untuk prediksi di luar data sampel memang menghendaki
berlakunya beberapa asumsi (Hays, 1973; Ostle & Mensing, 1979;
Kleinbaum & Kupper, 1978).

Mengikuti model umum regresi linier

maka asumsi-asumsi lain yang diberlakukan adalah:

1. Dalam setiap populasi j, distribusi skor Yij adalah normal

2. Dalam setiap populasi j, varian eror σe 2 adalah sama

3. Eror eij bersifat independen

4. Variabel X diukur tanpa kesalahan

39
Perhatikan bahwa asumsi-asumsi tersebut sebenarnya
identik dengan asumsiasumsi yang mendasari penggunaan analisis
varian desain terbatas (fixed effects). Perhatikan pula bahwa sama
sekali tidak terdapat asumsi apa pun yang menyangkut distribusi
skor X sebagai prediktor.

Sebagaimana pada kasus inferensi statistika yang lain,


sekalipun validnya asumsiasumsi mengenai karakteristik populasi
itu dapat meningkatkan banyaknya inferensi yang berguna, namun
pembuktian kebenarannya tidaklah esensial. Bahkan bukti-bukti
memper-lihatkan bahwa penyimpangan yang cukup substansial
pun dari asumsiasumsi itu hanya mengakibatkan eror inferensi
yang kecil (Cohen & Cohen, 1975). Sejumlah studi (Binder, 1959;
Boneau, 1960; Cochran, 1947; Donaldson, 1968; dalam Cohen &
Cohen, 1975) memperlihatkan kekebalan (robustness) uji t dan uji
F terhadap pelanggaran asumsi distribusi dan asumsi lainnya,
sekalipun signifikansi yang digunakan dalam situasi seperti itu
mengandung kemungkinan under-atau overestimasi terhadap
besarnya peluang eror tipe I (yaitu α) yang sebenar-nya. Dalam
kasus regresi/korelasi, pemeriksaan akan kemungkinan tidak
terpenuhinya asumsi-asumsi mengenai populasi pada umumnya
dilakukan secara aposteriori, bukan mendahului analisis (apriori).
Apabila uji signifikansi r atau by.x menghasilkan penolakan H0

40
maka semua asumsi yang diperlukan benar-benar dianggap
berlaku (taken for granted). Sebaliknya apabila statistik r atau by.x
terlalu kecil sehingga gagal menolak H0 dalam level signifikansi
yang layak, barulah mungkin dirasakan perlunya untuk melakukan
pemeriksaan asumsi-asumsi.

Suatu harga r yang kecil akan menghasilkan r2 yang juga


kecil. Padahal, statistik r 2 di samping disebut koefisien
determinasi ---yaitu proporsi varian Y yang dapat dijelaskan oleh
hubungan liniernya dengan varian X--- merupakan pula kuadrat
dari koefisien korelasi antara Y (skor variabel kriteria) dan ý (skor
yang diprediksi berdasar hubungan linier X dan Y). Oleh karena
itu kecilnya harga r2 merupakan salah-satu indikasi tidak
terpenuhinya asumsi linier-itas antara X dan Y, sekalipun hal itu
tidak selalu berarti bahwa antara X dan Y tidak memiliki
hubungan apa pun. Untuk lebih meyakinkan mengenai
ketidakcocokan model linier ini, maka dapat dilakukan plotting
berupa plot skor mentah X dan Y (scatterplot).

Dalam situasi multivariat, di mana analisis korelasi/regresi


ganda melibatkan lebih dari satu variabel (X) sebagai prediktor
dan satu variabel lain (Y) sebagai kriteria, kelayakan model linier
dapat dilihat pada plot antara nilai prediktif ý dengan nilai residual
(eror)nya. Apabila asumsi linieritas terpenuhi, plot antara ý
41
dengan residual tidak memperlihatkan pola yang sistematis.
Memang biasanya kecocokan model dengan data tidak diketahui
lebih dahulu sehingga pemeriksaan model kemudian difokuskan
pada analisis residual (Norušis, 1986).

Histogram residual merupakan salah-satu cara mudah


untuk memeriksa normalitas distribusi. Gambar yang tersaji lewat
SPSS, misalnya, langsung memberikan ilustrasi normalitas
distribusi yang dapat ditafsirkan sebagai terpenuhi atau tidaknya
asumsi normalitas. Cara lain adalah dengan membuat plot antara
distribusi kumulatif antara residual dengan residual harapan.
Apabila asumsi normalitas terpenuhi, maka keduanya akan
membentuk garis lurus menaik yang identik.

Asumsi homogenitas varian eror (homoscedasticity)


diperiksa lewat plot antara nilai prediktif ý dengan nilai residual
sebagaimana digunakan dalam pemeriksaan liniearitas. Bila
terdapat pola penyebaran residual yang berubah membesar atau
mengecil sejalan dengan perubahan nilai prediksinya maka
homogenitas varian eror patut dipertanyakan.

Asumsi independensi eror dapat diperiksa lewat letak nilai


residual yang diplot berdasar sekuen atau urutan kasus yang
terjadi (casewise serial plot). Bila terdapat pola yang sistematis

42
maka merupakan indikasi adanya dependensi eror. Adanya
korelasi atau hubungan antara eror secara sekuensial ini dapat juga
dilihat lewat statistik D (Durbin-Watson). Statistik D yang kecil
berarti adanya korelasi positif di antara eror sekuensial sedangkan
statistik D yang besar berarti adanya korelasi negatif di antara eror
sekuensial.

Sebenarnya, jarang terjadi kasus di mana analisis dapat


dilakukan tanpa pelanggaran satu atau lebih asumsinya. Norušis
(1986) mengatakan bahwa pernyataan itu tidak berarti kita boleh
mengabaikan begitu saja asumsi-asumsi yang diperlukan karena
apabila data yang dimiliki terlalu jauh dari asumsi yang mendasari
modelnya maka interpretasi dan aplikasi hasil analisis dapat
menjadi masalah.

Di samping asumsi-asumsi yang telah dikemukakan di


atas, dalam pemakaian analisis regresi ganda masih terdapat satu
permasalahan yang perlu mendapat perhatian, yaitu bila-mana
interkorelasi di antara prediktor-prediktor yang ada cukup tinggi
(multicollinearity). Bila prediktor-prediktor saling berkorelasi
tinggi maka varian estimatornya juga akan meningkat dan dapat
menghasilkan kuadrat koefisien korelasi ganda (R2 ) yang
signifikan, sekalipun dalam persamaan regresinya masingmasing
prediktor yang bersangkutan sebetulnya tidak memiliki koefisien
43
b yang signifikan. Hal itu tentu akan memberikan kesimpulan
yang keliru mengenai fungsi prediksi variabel-variabel yang
bersangkutan.

Untuk memeriksa apakah multikolinieritas itu terjadi,


peneliti dapat menghitung interkorelasi antar variabel prediktor
dan menyajikannya dalam bentuk matriks korelasi. Koefisien
korelasi yang besar dalam matriks selalu merupakan pertanda
adanya multi-koliniearitas, sekalipun mulitikolinieritas itu sendiri
masih dapat terjadi tanpa adanya koefisien korelasi yang besar di
antara prediktor-prediktor.

Cara lain untuk mendeteksi adanya multikolinieritas


adalah dengan melihat besarkecilnya angka tolerance. Tolerance
didefinisikan sebagai proporsi variabilitas suatu variabel yang
tidak dijelaskan oleh variabel-variabel lain, yaitu (1 - Ri 2 ). Harga
tolerance yang kecil menandakan adanya interdependensi antara
variabel yang bersangkutan dengan variabel-variabel prediktor
lainnya, dan merupakan pertanda adanya multikolinieritas.

Dengan demikian dapat dikatakan bahwa ---sepanjang


tidak ada alasan kuat untuk me-ragukan kesesuaian antara model
analisis dengan data yang dimiliki--- tehnik-tehnik analisis
statistika untuk pengambilan kesimpulan dapat digunakan tanpa

44
mendahuluinya dengan uji asumsi. Sebaliknya, bilamana ada
keraguan mengenai datanya, maka cara aman dalam
menggunakan analisis varian adalah dengan mengambil sampel
yang cukup besar dan menggunakan jumlah n yang kurang-lebih
sama dalam setiap kelompok perlakuan; sedangkan dalam analisis
regresi lakukanlah analisis residual bilamana diperoleh R2 yang
tidak signifikan atau gunakan model regresi yang lebih sesuai
dengan data yang dimiliki.

45
Penelitian Statistika Berkarakter dan

Permasalahannya

Statistika merupakan salah satu ilmu yang memuat sangat


banyak cabang ilmu, diantaranya time series (runtun waktu),
Proses Stokastik, Probabilitas, Rancangan Percobaan, Analisis
regresi, Reliabilitas, dan lain sebagainya (Budiantara,2009b).
Analisis regresi merupakan salah satu bidang Statistika yang
memainkan peran sangat penting. Analisis regresi umumnya
digunakan untuk menyelidiki model pola hubungan fungsional
antara satu atau lebih variabel. Disamping itu,
analisis regresi sangat bermanfaat untuk peramalan (forecasting).
Untuk dapat memodelkan satu atau lebih variabel dalam regresi,
hal pertama yang semestinya dilakukan adalah apakah
variabelvariabel tersebut secara rasional berkorelasi atau tidak.
Apabila terjadi korelasi, maka dapat dilakukan pemodelan
Statistika dengan menggunakan analisis regresi. Seringkali dalam
sebuah pemodelan regresi, seseorang tidak peduli tentang
rasionalitas tersebut dan langsung memodelkan data dengan
analisis regresi. Tentu cara seperti ini kurang tepat dan bijaksana
(Budiantara, 2009b; 2001a; 2001b; 2004a) .
Dewasa ini terdapat 3 (tiga) jenis model pendekatan
regresi yang banyak dikembangkan oleh para peneliti, yaitu
46
pendekatan Regresi Parametrik, Regresi Nonparametrik, dan
Regresi Semiparametrik (Budiantara, 2000a; 2000b; 2000c;
2004a; 2006a). Pembagian regresi ini dapat dilihat dalam Gambar
1. Penelitian bidang Statistika didasarkan pada bidang-bidang
Statistika seperti dalam Gambar 1. Secara khusus, terdapat
beberapa persoalan dalam penelitian bidang Statistika yang
umumnya juga terjadi pada penelitian bidang lain (selain
Statistika). Pada Gambar2 diberikan ilustrasi sederhana
terbentuknya karakter penelitian dari seorang peneliti. Terlihat
dengan jelas pada Gambar 2, bahwa sejak manusia lahir telah
membawa karakternya masingmasing. Selanjutnya, manusia
memasuki proses pendidikan baik pendidikan formal (PF) (yaitu
pendidikan yang diperoleh secara formal) maupun nonformal
(PN) (yaitu pendidikan yang diperoleh secara nonformal,
termasuk pengaruh lingkungan dan yang lainnya). Hasil proses
pendidikan akan memberikan beberapa kemungkinan output
karakter yang akan terjadi, diantaranya :
1. Jika seseorang memperoleh PF yang bagus dan PN juga
bagus, maka harapan akan memiliki output karakter yang baik,
probabilitasnya sangat besar. Sebaliknya, kelompok ini akan
memiliki output karakter yang tidak baik, probabilitasnya
sangat kecil. Dalam bidang Statistika hal ini disebut pencilan
(outlier).
47
2. Jika seseorang memperoleh PF yang tidak bagus, tetapi PN
bagus, maka harapan akan memiliki output karakter yang baik,
probabilitasnya tidak terlalu besar/kecil. Sebaliknya, seseorang
dalam kelompok ini akan memiliki output karakter yang tidak
baik, probabilitasnya juga tidak besar/kecil.
3. Jika seseorang memperoleh PF yang bagus, tetapi PN tidak
bagus, maka harapan akan memiliki output karakter yang baik,
probabilitasnya tidak terlalu besar/kecil. Sebaliknya, seseorang
dalam kelompok ini akan memiliki karakter yang tidak baik,
probabilitasnya juga tidak besar/kecil.
4. Jika seseorang memperoleh PF yang tidak bagus dan PN juga
tidak bagus, maka harapan akan memiliki output karakter yang
baik, probabilitasnya sangat kecil (outlier). Sebaliknya,
seseorang dalam kelompok ini memiliki output karakter yang
tidak baik, probabilitasnya sangat besar.

48
Pemahaman Regresi Parametrik

Tahap ini, dimulai dengan mempelajari dan memahami


dengan sangat baik (sangat mendalam) konsep dasar dan cara
berfikir filosofis dari pendekatan analisis regresi parametrik,
seperti misalnya regresi linear sederhana, linear berganda,
Polinomial, dan yang lainnya. Sebagai
ilustrasi, jika kita memiliki data berpasangan (dengan suatu
karakter tertentu) mengapa seseorang menggunakan pendekatan
model regresi linear, dan kenapa bukan regresi yang lain.
Sebaliknya pada karakter data yang lain, mengapa seseorang
menggunakan pendekatan model regresi Polinomial, dan kenapa
bukan regresi yang lain. Hal ini harus dapat dipahami dengan
sangat baik dan utuh (tidak boleh setengah-setengah) oleh seorang
peneliti yang ingin menggeneralisasikan regresi parametrik
kedalam regresi nonparametrik dan semiparametrik, khususnya
Spline. Pemahaman tentang proses inferensi dalam regresi
parametrik harus pula diketahui dengan baik dan tidak setengah-
setengah oleh para peneliti bidang Spline.
Diberikan sekumpulan data berpasangan ( , ) i i x y dan
hubungan antara kedua variabel diasumsikan mengikuti model
regresi yi = f (xi ) + e i , i = 1,2,...,n, dengan f kurva regresi dan e

49
error random. Dalam regresi parametrik terdapat asumsi yang
sangat kaku dan kuat yaitu bentuk kurva regresi diketahui,
misalnya linear, kuadratik, kubik, polinomial derajat-p, eksponen,
dan lain-lain. Untuk memodelkan data menggunakan regresi
parametrik linear, kuadrat, kubik atau yang lain, umumnya
dimulai dengan membuat scater plot (Budiantara, 2006a). Apabila
scater plot ini terdapat kecendrungan data mengikuti pola linear
maka digunakan model regresi (parametrik) linear, sebaliknya jika
scater plot data terdapat kecendrungan pola kuadratik maka
digunakan model regresi (parametrik) kuadratik, dan seterusnya.
Disamping memperhatikan pola kecendrungan data melalui scater
plot, kita juga dituntut dalam regresi parametrik memiliki
informasi masa lalu yang detail tentang pola data agar diperoleh
pemodelan yang baik (Wahba, 1990; Eubank, 1988; Antoniadis,
2001; Kayri, & Zirhhoglu, 2009; Wu & Zhang, 2006; Budiantara,
2009b).

50
Sebagai ilustrasi tentang karakteristik data yang memiliki
pola regresi parametrik diberikan dalam Gambar 3(a,b) (regresi
parametrik linear), Gambar 4(a,b) (regresi parametrik kuadrat),
dan Gambar 5(a,b) (regresi parametrik kubik). Pendekatan regresi
parametrik memiliki sifat yang sangat baik dari pandangan
Statistika inferensi (Budiantara, 2009b), seperti sederhana, mudah
51
interpretasinya, parsimoni, estimatornya tidak bias, tergolong
estimator linear, efisien, konsisten, BLUE (Best Linear Unbiased
Estimator), yang sangat jarang dimiliki oleh pendekatan regresi
lain seperti regresi nonparametrik dan regresi semiparametrik.
Karena kebaikan (luar biasa) yang dimiliki oleh regresi parametrik
inilah yang menyebabkan model regresi parametrik sangat populer
dan sangat disukai oleh berbagai kalangan, baik dari golongan
Statistika teoritis maupun golongan Statistika aplikasi (Becher,
dkk., 2009; Huang & Liu, 2006).

52
Mengingat perkembangan ilmu pengetahuan dan teknologi
yang sangat pesat dan memperhatikan gejala-gejala alam yang
dalam beberapa tahun terakhir mengarah pada pola yang tidak
seperti biasanya (seolah-olah abnormal), maka sangat sulit bagi
kita untuk menduga perilaku alam. Pada beberapa tahun yang lalu,
kita masih mampu memperkirakan dengan tepat kapan mulai dan
berakhirnya musim kemarau dan penghujan dengan sangat baik,
sehingga para petani kita mampu mempersiapkan diri kapan
memulai menanam padi dan kapan memanennya, tetapi sekarang
hal tersebut seolah-olah sulit dilakukan. Beberapa tahun yang lalu
kita dapat memprediksi dengantepat kapan akan terjadinya
gelombang pasang, angin kencang dan lain sebagainya, sehingga
para nelayan kita dapat merencanakan kapan mereka ke laut untuk
mencari ikan. Tetapi sekarang hal tersebut seolah-olah sulit kita
prediksi (Budiantara, 2009a; 2009b). Dalam era perubahan iklim
global seperti sekarang ini, yang disebabkan oleh berbagai konflik
kepentingan, baik Regional, Nasional, maupun Internasional,
sangatlah mustahil jika kita masih menggunakan pendekatan
standar untuk tujuan pemodelan dan prediksi yang kompleks
tersebut. Diperlukan suatu metode baru, yang dapat digunakan
dan diandalkan serta memberikan hasil pemodelan dan prediksi
yang lebih baik.

53
Persoalan kemiskinan, keterbelakangan, kebodohan, dan
krisis moral merupakan musuh kita bersama pada saat ini, dan
mungkin musuh ”abadi” kita pada masa yang akan datang.
Persoalan ini, seolah-olah tidak pernah dapat diselesaikan dengan
tuntas oleh Pemerintah dan kita semua. Persoalan seperti
persentase penduduk miskin, beserta variabel-variabel
penyebabnya merupakan salah satu contoh kejadian yang bentuk
polanya tidak jelas (tidak mengikuti pola tertentu), dan seolah-
olah tidak beraturan (lihat Gambar 6) (Budiantara, 2009b).
Walaupun model regresi parametrik sederhana dan mudah, dalam
situasi seperti ini, tidaklah bijaksana jika kita menggunakan
pendekatan regresi parametrik untuk tujuan pemodelan dan
prediksi. Dalam pemodelan Statistika, memang sangat diharapkan
sedapat mungkin menggunakan model yang parsimoni
(sederhana), tetapi dalam keadaan dimana terdapat kondisi yang
mengharuskan pemodelan menggunakan model yang lebih
kompleks, maka model parsimoni tidak selayaknya dipaksakan,
karena hasil yang diperoleh akan sangat bias dan memiliki error
yang sangat besar (Budiantara, 2009a).
Dalam persoalan pemodelan, model yang baik tidaklah
tunggal (tidak satu satunya). Model yang baik dapat dipandang
dari berbagai aspek. Oleh karena itu, seorang pakar Statistika
diharapkan memperlihatkan kearifannya, dan menghindari
54
fanatisme bidang keilmuan yang berlebihan, serta dapat
menempatkan sesuatu persoalan pemodelan tepat pada porsinya.
Secara spesifik, apabila sekumpulan data dapat diselesaikan
dengan baik menggunakan pendekatan regresi parametrik,
(”karena fanatisme berlebihan yang melekat pada bidang
keilmuannya”), maka harus diselesaikan dengan pendekatan
regresi nonparametrik ataupun semiparametrik. Demikian pula
sebaliknya. Walaupun hal tersebut benar secara Statistika teoritis,
tetapi kurang bijaksana dilihat dari sudut pandang kekomplekan
modelnya (Budiantara, 2009a; 2009b).
Berbeda dengan regresi parametrik yang tanpa disadari
cendrung ada unsur pemaksaan dari peneliti dan tanpa disadari
pula, peneliti ikut campur tangan dalam menentukan bentuk
estimasi dari kurva regresi, maka dalam regresi nonparametrik,
hal ini tidak akan terjadi. Dalam pandangan regresi
nonparametrik, biarkan data sendiri yang akan mencari bentuk
estimasi dari kurva regresinya, tanpa harus dipengaruhi oleh
faktor subyektifitas sipeneliti (Eubank, 1988; Budiantara, 2001a).
Ini berarti pendekatan model regresi nonparametrik sangatlah
fleksibel dan sangat obyektif. Beberapa model regresi
nonparametrik yang banyak digunakan diantaranya, Histogram,
Kernel (Kayri, & Zirhhoglu, 2009; Budiantara & Mulianah,
2007), Spline (Budiantara, dkk.,1997; 2010a; 2010b; Becher,
55
dkk., 2009; Huang dan Liu, 2006; Oehlert, 1992; Cox &
O’Sullivan, 1996; Wahba, 1990; Lestari, dkk.,2010; Koenker,
dkk.,1994), Polinomial Lokal (Eubank, 1988), Deret Ortogonal
(Eubank, 1988), Deret Fourier (Bilaudio, 1992), k-NN
(Hardle,1990; 1991), Neural Network (NN), Wavelets
(Antoniadis, 2001), MARS (Budiantara, dkk.,2006), dan yang
lainnya. Semua model-model regresi nonparametrik ini
mempunyai kelebihan dan kekurangan serta memiliki motivasi
tersendiri dalam memodelkan pola data.

56
Pemahaman Regresi Semiparametrik

Disamping pendekatan regresi parametrik dan regresi


nonparametrik, terdapat pula golongan Statistikawan, yang
memandang kurva regresi dapat diklasifikasikan kedalam dua
komponen, yaitu komponen parametrik (bentuk fungsinya
diketahui) dan komponen nonparametrik (bentuk fungsinya tidak
diketahui). Pandangan ini memberikan pendekatan regresi
semiparametrik (Wahba, 1990; Budiantara, dkk, 2010;
Budiantara, 2007; Wu & Zhang 2006). Apabila bagian
parametriknya dapat dipolakan linear, maka regresi
semiparametrik ini, disebut sebagai regresi linear parsial. Oleh
karena itu, pada regresi semiparametrik estimasi untuk kurva
regresi diperoleh secara ekuivalen dengan estimasi fungsi dan
estimasi parameter dalam model. Beberapa model regresi
semiparametrik yang populer adalah regresi semiparametrik
Kernel, Spline, Polinomial Lokal, Deret Fourier, Wavelets,
MARS (Multivariate Addaptif Regression Spline), dan yang
lainnya.
Swasembada beras merupakan cita-cita dan harapan dari
pemerintah, guna memenuhi kebutuhan pangan nasional. Tetapi
ironisnya hal tersebut sulit dicapai (walaupun negara ini pernah

57
swasembada beras), padahal negara ini tercatat sebagai negara
agraris. Produksi beras nasional dikuatirkan akan terancam,
karena beralih fungsinya dan berkurangnya lahan pertanian dari
tahun ketahun secara sistematis, untuk berbagai kepetingan seperti
perumahan, industri, bisnis dan yang lainnya. Lebih dari separuh
produksi beras nasional, disumbang dari produksi padi yang
berasal dari padi sawah. Untuk mempertahankan dan
meningkatkan produksi beras nasional, disamping
memperluas lahan pertanian baru, salah satu hal yang perlu
dilakukan adalah menyelidiki faktorfaktor yang mempengaruhi
produksi padi sawah di Indonesia.
Pola hubungan antara besarnya produksi padi sawah dan variabel
luas lahan memang berpola linear (parametrik), tetapi dengan
variabel-variabel lain seperti penggunaan pupuk, penggunaan
benih, tenaga kerja dan pestisida, tidak berpola linear, bahkan
terlihat tidak ada pola tertentu (nonparametrik), (lihat Gambar 7(a-
f)). Akibatnya, untuk memperkirakan produksi beras nasional
pada periode waktu tertentu, selayaknya mempertimbangkan
menggunakan model regresi semiparametrik sebagai salah satu
alternatif (Budiantara, 2009b).

58
59
Uji Distribusi Populasi dengan Distribusi Sampel

Uji ini digunakan untuk mengetahui sejauh mana kesesuaian atau


tingkat kesesuaian antara distribusi sampel dengan distribusi
populasi, disebut juga uji kebaikan suai (test goodness of test).

Tahapan uji keselerasan apakah suatu distribusi mengikuti kurva


normal atau tidak adalah sebagai berikut :

Membuat distribusi frekuensi

Menentukan nilai rata-rata hitung X dan standar deviasi σ dengan


menggunakan data berkelompok.

Menentukan nilai Z setiap kelas, dimana Z = (X-μ)/ σ

Menentukan probabilitas tiap kelas dengan menggunakan nilai Z.

Menentukan nilai harapan dengan mengalikan nilai probabilitas


dengan jumlah data.

Melakukan uji chi-kuadrat untuk menentukan apakah distribusi


bersifat normal atau tidak.

60
Daftar Pustaka

Azwar, S. (2000). Asumsi-asumsi dalam inferensi


statistika. Buletin Psikologi, 9(1).
Purwoto, A. (2007). Panduan lab statistik inferensial. Grasindo.

Rosana, D., & Setyawarno, D. (2016). Statistik Terapan untuk


Penelitian Pendidikan.

Budiantara, I. N. (2011, December). Penelitian Bidang Regresi


Spline Menuju Terwujudnya Penelitian Statistika yang
Mandiri dan Berkarakter. In Prosiding Seminar Nasional
MIPA.

Setyawarno, D. (2016). Panduan Statistik Terapan Untuk


Penelitian Pendidikan.

Jaya, I., & Ardat, A. (2013). Penerapan statistik untuk pendidikan.

Janie, D. N. A. (2012). Statistik Deskriptif & Regresi Linier


Berganda dengan SPSS. Jurnal, April.

61

Anda mungkin juga menyukai