Anda di halaman 1dari 27

Statistik deskriptif

Statistik deskriptif digunakan untuk menggambarkan ciri-ciri dasar data dalam suatu
penelitian. Mereka memberikan ringkasan sederhana tentang sampel dan pengukurannya.
Bersama dengan analisis grafik sederhana, keduanya membentuk dasar dari hampir setiap
analisis data kuantitatif.

Statistik deskriptif biasanya dibedakan dari statistik inferensial . Dengan statistik deskriptif,
Anda cukup mendeskripsikan apa yang ditampilkan data. Dengan statistik inferensial, Anda
mencoba mencapai kesimpulan yang melampaui data langsung saja. Misalnya, kami
menggunakan statistik inferensial untuk mencoba menyimpulkan dari data sampel apa yang
mungkin dipikirkan populasi. Atau, kita menggunakan statistik inferensial untuk membuat
penilaian terhadap probabilitas bahwa perbedaan yang teramati antar kelompok dapat
diandalkan atau perbedaan yang mungkin terjadi secara kebetulan dalam penelitian ini. Jadi,
kami menggunakan statistik inferensial untuk membuat kesimpulan dari data kami ke kondisi
yang lebih umum; kami menggunakan statistik deskriptif hanya untuk menggambarkan apa
yang terjadi dalam data kami.

Statistik Deskriptif digunakan untuk menyajikan deskripsi kuantitatif dalam bentuk yang
dapat dikelola. Dalam sebuah studi penelitian kita mungkin memiliki banyak ukuran. Atau
kita dapat mengukur sejumlah besar orang dengan ukuran apa pun. Statistik deskriptif
membantu kita menyederhanakan data dalam jumlah besar dengan cara yang masuk akal.
Setiap statistik deskriptif mereduksi banyak data menjadi ringkasan yang lebih sederhana.
Misalnya, pertimbangkan angka sederhana yang digunakan untuk merangkum seberapa baik
kinerja seorang pemukul dalam bisbol, yaitu rata-rata pukulan. Angka tunggal ini hanyalah
jumlah pukulan dibagi dengan berapa kali pukulan dilakukan (dilaporkan ke tiga digit
signifikan). Seorang pemukul yang memukul .333mendapat pukulan satu kali dalam setiap
tiga pukulan. Satu pukulan.250memukul satu kali dalam empat kali. Angka tunggal
menggambarkan sejumlah besar peristiwa yang terpisah. Atau, bayangkan momok banyak
mahasiswa, Indeks Prestasi Kumulatif (IPK). Angka tunggal ini menggambarkan kinerja
umum seorang siswa dalam berbagai macam pengalaman perkuliahan.

Setiap kali Anda mencoba mendeskripsikan sekumpulan besar observasi dengan satu
indikator, Anda berisiko mendistorsi data asli atau kehilangan detail penting. Rata-rata
pukulan tidak memberi tahu Anda apakah pemukul melakukan home run atau single. Tidak
diketahui apakah dia sedang terpuruk atau sedang dalam keadaan terpuruk. IPK tidak
memberi tahu Anda apakah siswa tersebut mengambil mata kuliah yang sulit atau mudah,
atau apakah mereka mengambil mata kuliah di bidang utama atau disiplin ilmu lain.
Meskipun terdapat keterbatasan-keterbatasan ini, statistik deskriptif memberikan ringkasan
yang kuat yang memungkinkan dilakukannya perbandingan antar orang atau unit lain.

Analisis Univariat
Analisis univariat melibatkan pemeriksaan seluruh kasus dari satu variabel pada satu waktu.
Ada tiga karakteristik utama dari satu variabel yang cenderung kita perhatikan:

 distribusi
 kecenderungan sentral
 dispersi

Dalam sebagian besar situasi, kami akan menjelaskan ketiga karakteristik ini untuk masing-
masing variabel dalam penelitian kami.

Distribusi

Distribusi adalah ringkasan frekuensi nilai individual atau rentang nilai suatu variabel.
Distribusi paling sederhana akan mencantumkan setiap nilai variabel dan jumlah orang yang
memiliki setiap nilai. Misalnya, cara umum untuk menggambarkan distribusi mahasiswa
adalah berdasarkan tahun di perguruan tinggi, dengan mencantumkan jumlah atau persentase
mahasiswa pada masing-masing empat tahun. Atau, kita mendeskripsikan gender dengan
mencantumkan jumlah atau persentase laki-laki dan perempuan. Dalam kasus ini, variabel
memiliki nilai yang cukup sedikit sehingga kita dapat membuat daftar masing-masing nilai
dan meringkas berapa banyak kasus sampel yang memiliki nilai tersebut. Tapi apa yang kita
lakukan untuk variabel seperti pendapatan atau IPK? Dengan variabel-variabel ini, terdapat
sejumlah besar kemungkinan nilai, dengan relatif sedikit orang yang memiliki masing-masing
nilai tersebut. Dalam hal ini, kami mengelompokkan skor mentah ke dalam kategori
berdasarkan rentang nilai. Contohnya, kita mungkin melihat IPK berdasarkan rentang nilai
huruf. Atau, kita dapat mengelompokkan pendapatan ke dalam empat atau lima rentang nilai
pendapatan.

Kategori Persen
Di bawah 35 tahun 9%
36–45 21%
46–55 45%
56–65 19%
66+ 6%

Salah satu cara paling umum untuk menggambarkan suatu variabel adalah dengan distribusi
frekuensi . Tergantung pada variabel tertentu, semua nilai data dapat direpresentasikan, atau
Anda dapat mengelompokkan nilai ke dalam kategori terlebih dahulu (misalnya, dengan
variabel umur, harga, atau suhu, biasanya tidak masuk akal untuk menentukan frekuensi
untuk setiap nilai. Sebaliknya, nilainya dikelompokkan ke dalam rentang dan frekuensinya
ditentukan.). Distribusi frekuensi dapat digambarkan dalam dua cara, dalam bentuk tabel atau
grafik. Tabel di atas menunjukkan distribusi frekuensi usia dengan lima kategori rentang usia
yang ditentukan. Distribusi frekuensi yang sama dapat digambarkan dalam grafik seperti pada
Gambar 1. Grafik jenis ini sering disebut dengan histogram atau diagram batang.
Gambar 1. Diagram batang distribusi frekuensi.

Distribusi juga dapat ditampilkan menggunakan persentase. Misalnya, Anda dapat


menggunakan persentase untuk mendeskripsikan:

 persentase penduduk pada tingkat pendapatan yang berbeda


 persentase orang dalam rentang usia yang berbeda
 persentase orang dalam rentang nilai tes standar yang berbeda

Tendensi Sentral

Kecenderungan sentral suatu distribusi adalah perkiraan “pusat” suatu distribusi nilai. Ada
tiga jenis utama estimasi tendensi sentral:

 Berarti
 median
 Mode

Mean atau rata-rata mungkin merupakan metode yang paling umum digunakan untuk
menggambarkan tendensi sentral . Untuk menghitung mean, yang Anda lakukan hanyalah
menjumlahkan semua nilai dan membaginya dengan jumlah nilai. Misalnya, nilai mean atau
rata-rata kuis ditentukan dengan menjumlahkan semua nilai dan membaginya dengan jumlah
siswa yang mengikuti ujian. Misalnya, perhatikan nilai skor tes:

15, 20, 21, 20, 36, 15, 25, 15

Jumlah dari 8 nilai tersebut adalah 167, maka meannya adalah 167/8 = 20.875.

Median adalah skor yang ditemukan tepat di tengah- tengah kumpulan nilai. Salah satu cara
untuk menghitung median adalah dengan membuat daftar semua skor dalam urutan numerik,
dan kemudian menempatkan skor tersebut di tengah-tengah sampel. Misalnya, jika ada 500
skor dalam daftar, skor #250 adalah mediannya. Jika kita mengurutkan 8 skor di atas, kita
akan mendapatkan:

15, 15, 15, 20, 20, 21, 25, 36

Terdapat 8 skor dan skor #4 dan #5 mewakili titik tengah. Karena kedua skor ini adalah 20,
maka mediannya adalah 20. Jika kedua skor tengah memiliki nilai yang berbeda, Anda harus
melakukan interpolasi untuk menentukan mediannya.
Mode adalah nilai yang paling sering muncul dalam kumpulan skor. Untuk menentukan
modusnya, Anda dapat mengurutkan kembali skor seperti yang ditunjukkan di atas, lalu
menghitung masing-masing skor. Nilai yang paling sering muncul adalah modus. Dalam
contoh kita, nilai 15muncul tiga kali dan merupakan model. Di beberapa distribusi terdapat
lebih dari satu nilai modal. Misalnya, dalam distribusi bimodal ada dua nilai yang paling
sering muncul.

Perhatikan bahwa untuk kumpulan 8 skor yang sama kita mendapatkan tiga nilai berbeda (
20.875, 20, dan 15) untuk mean, median, dan modus. Jika distribusinya benar-benar normal
(berbentuk lonceng), maka mean, median, dan modusnya sama satu sama lain.

Penyebaran

Penyebaran mengacu pada penyebaran nilai-nilai di sekitar tendensi sentral. Ada dua ukuran
dispersi yang umum, kisaran dan deviasi standar. Kisarannya hanyalah nilai tertinggi
dikurangi nilai terendah . Dalam contoh distribusi kita, nilai tertinggi adalah 36dan nilai
terendah adalah 15, sehingga rentangnya adalah 36 - 15 = 21.

Deviasi Standar merupakan perkiraan penyebaran yang lebih akurat dan terperinci karena
outlier dapat melebih-lebihkan rentang (seperti yang terjadi dalam contoh ini ketika nilai
outlier tunggal berdiri 36terpisah dari nilai-nilai lainnya. Deviasi Standar menunjukkan
hubungan yang ditetapkan skor harus sama dengan rata-rata sampel. Sekali lagi mari kita
ambil kumpulan skornya:

15, 20, 21, 20, 36, 15, 25, 15

untuk menghitung deviasi standar, pertama-tama kita mencari jarak antara setiap nilai dan
mean. Kita tahu dari atas bahwa meannya adalah 20.875. Jadi perbedaannya dengan mean
adalah:

15 - 20.875 = -5.875
20 - 20.875 = -0.875
21 - 20.875 = +0.125
20 - 20.875 = -0.875
36 - 20.875 = 15.125
15 - 20.875 = -5.875
25 - 20.875 = +4.125
15 - 20.875 = -5.875

Perhatikan bahwa nilai yang berada di bawah rata-rata memiliki perbedaan negatif dan nilai
di atasnya memiliki perbedaan positif. Selanjutnya, kami mengkuadratkan setiap perbedaan:

-5.875 * -5.875 = 34.515625


-0.875 * -0.875 = 0.765625
+0.125 * +0.125 = 0.015625
-0.875 * -0.875 = 0.765625
15.125 * 15.125 = 228.765625
-5.875 * -5.875 = 34.515625
+4.125 * +4.125 = 17.015625
-5.875 * -5.875 = 34.515625

Sekarang, kita ambil “kuadrat” ini dan menjumlahkannya untuk mendapatkan nilai Sum of
Squares (SS). Di sini, jumlahnya adalah 350.875. Selanjutnya, kita membagi jumlah ini
dengan jumlah skor dikurangi 1. Di sini, hasilnya adalah 350.875 / 7 = 50.125. Nilai ini
dikenal sebagai varians . Untuk mendapatkan deviasi standar, kita mengambil akar kuadrat
dari variansnya (ingat bahwa kita mengkuadratkan deviasi sebelumnya). Ini akan menjadi
SQRT(50.125) = 7.079901129253.

Meskipun penghitungan ini mungkin tampak berbelit-belit, sebenarnya cukup sederhana.


Untuk melihatnya, perhatikan rumus simpangan baku:

∑(X-Xˉ)2N-1N-1∑ ( X-Xˉ)2

Di mana:

 Xadalah setiap skor,


 X̄adalah mean (atau rata-rata),
 nadalah jumlah nilai,
 Σberarti kita menjumlahkan nilai-nilainya.

Di bagian atas rasio, yaitu pembilangnya, kita melihat bahwa setiap skor dikurangi meannya,
selisihnya dikuadratkan, dan kuadratnya dijumlahkan. Di bagian bawah, kita ambil jumlah
skor dikurangi 1. Rasionya adalah varians dan akar kuadratnya adalah simpangan baku.
Dalam bahasa Inggris, kita dapat menggambarkan standar deviasi sebagai:

akar kuadrat dari jumlah deviasi kuadrat dari mean dibagi dengan jumlah skor dikurangi satu.

Meskipun kita dapat menghitung statistik univariat ini secara manual, hal ini menjadi sangat
membosankan jika Anda memiliki lebih dari beberapa nilai dan variabel. Setiap program
statistik mampu menghitungnya dengan mudah untuk Anda. Misalnya, saya memasukkan
delapan skor ke dalam SPSS dan mendapatkan tabel berikut sebagai hasilnya:

Metrik Nilai
N 8
Berarti 20.8750
median 20.0000
Mode 15.00
Deviasi Standar 7.0799
Perbedaan 50.1250
Jangkauan 21.00

yang menegaskan perhitungan yang saya lakukan dengan tangan di atas.

Deviasi standar memungkinkan kita mencapai beberapa kesimpulan tentang skor tertentu
dalam distribusi kita. Dengan asumsi bahwa distribusi skornya normal atau berbentuk
lonceng (atau mendekatinya!), kesimpulan berikut dapat diambil:

 sekitar 68% skor dalam sampel berada dalam satu standar deviasi dari mean
 sekitar 95% skor dalam sampel berada dalam dua standar deviasi dari mean
 sekitar 99% skor dalam sampel berada dalam tiga standar deviasi dari mean
Misalnya, karena mean dalam contoh kita adalah 20.875dan deviasi standarnya adalah
7.0799, dari pernyataan di atas kita dapat memperkirakan bahwa sekitar 95% skor akan
berada dalam rentang 20.875-(2*7.0799)hingga 20.875+(2*7.0799)atau di antara
6.7152dan 35.0348. Informasi semacam ini merupakan batu loncatan penting yang
memungkinkan kita membandingkan kinerja seseorang pada satu variabel dengan kinerjanya
pada variabel lain, bahkan ketika variabel-variabel tersebut diukur pada skala yang
sepenuhnya berbeda.

Korelasi

Korelasi adalah salah satu statistik yang paling umum dan berguna. Korelasi adalah angka
tunggal yang menggambarkan derajat hubungan antara dua variabel. Mari kita kerjakan
sebuah contoh untuk menunjukkan kepada Anda bagaimana statistik ini dihitung.

Contoh Korelasi
Misalkan kita ingin melihat hubungan antara dua variabel, tinggi badan (dalam inci) dan
harga diri. Mungkin kita mempunyai hipotesis bahwa seberapa tinggi Anda mempengaruhi
harga diri Anda (kebetulan, menurut saya kita tidak perlu khawatir tentang arah kausalitas di
sini – tidak mungkin harga diri menyebabkan tinggi badan Anda!). Katakanlah kita
mengumpulkan informasi tentang dua puluh individu (semuanya laki-laki – kita tahu bahwa
tinggi rata-rata antara laki-laki dan perempuan berbeda, jadi, untuk menyederhanakan contoh
ini, kita hanya akan menggunakan laki-laki). Tinggi diukur dalam inci. Harga diri diukur
berdasarkan rata-rata 10 1item 5penilaian (di mana skor yang lebih tinggi berarti harga diri
yang lebih tinggi). Berikut data untuk 20 kasus tersebut (jangan dianggap terlalu serius – saya
membuat data ini untuk menggambarkan apa itu korelasi):

Orang Tinggi Harga diri


Orang Tinggi Harga diri
1 68 4.1
2 71 4.6
3 62 3.8
4 75 4.4
5 58 3.2
6 60 3.1
7 67 3.8
8 68 4.1
9 71 4.3
10 69 3.7
11 68 3.5
12 67 3.2
13 63 3.7
14 62 3.3
15 60 3.4
16 63 4.0
17 65 4.1
18 67 3.8
19 63 3.4
20 61 3.6
Sekarang, mari kita lihat sekilas histogram untuk setiap variabel:

Dan berikut statistik deskriptifnya:

Variabel Berarti StDev Perbedaan Jumlah Minimum Maksimum Jangkauan


Tinggi 65.4 4.40574 19.4105 1308 58 75 17
Harga diri 3.755 0,426090 0,181553 75.1 3.1 4.6 1.5

Terakhir, kita akan melihat plot bivariat sederhana (yaitu dua variabel):

Anda akan segera melihat dalam plot bivariat bahwa hubungan antar variabel adalah
hubungan yang positif (jika Anda tidak dapat melihatnya, tinjau bagian jenis hubungan )
karena jika Anda memasukkan satu garis lurus melalui titik-titik, maka hal itu akan terjadi.
memiliki kemiringan positif atau bergerak ke atas dari kiri ke kanan. Karena korelasi tidak
lebih dari perkiraan kuantitatif hubungan, kita mengharapkan korelasi positif.

Apa yang dimaksud dengan “hubungan positif” dalam konteks ini? Artinya, secara umum,
skor yang lebih tinggi pada satu variabel cenderung dipasangkan dengan skor yang lebih
tinggi pada variabel lainnya, dan skor yang lebih rendah pada satu variabel cenderung
dipasangkan dengan skor yang lebih rendah pada variabel lainnya. Anda harus memastikan
secara visual bahwa hal ini secara umum benar dalam plot di atas.

Menghitung Korelasi
Sekarang kita siap menghitung nilai korelasinya. Rumus korelasinya adalah:

R=N∑Xkamu-∑X∑kamu(N∑X2-(∑X)2)(N∑kamu2-(∑kamu)2)R=( N∑X2-( ∑x )2) ( N∑kamu2-( ∑kamu )2)N∑x kamu-


∑X∑kamu

Di mana:

 Nadalah banyaknya pasangan skor,


 Σxyadalah jumlah hasil kali skor berpasangan,
 Σxadalah jumlah xskor,
 Σyadalah jumlah yskor,
 Σx2adalah jumlah xskor kuadrat,
 Σy2adalah jumlah yskor kuadrat.

Kami menggunakan simbol runtuk melambangkan korelasi. Melalui keajaiban matematika


ternyata rakan selalu berada di antara -1.0dan +1.0. Jika korelasinya negatif, kita
mempunyai hubungan negatif; jika positif, hubungannya positif. Anda tidak perlu mengetahui
bagaimana kami menemukan rumus ini kecuali Anda ingin menjadi ahli statistik. Namun
Anda mungkin perlu mengetahui bagaimana rumus tersebut berhubungan dengan data
sebenarnya – bagaimana Anda dapat menggunakan rumus tersebut untuk menghitung
korelasinya. Mari kita lihat data yang kita butuhkan untuk rumusnya. Berikut data asli beserta
kolom lain yang diperlukan:

Orang Tinggi ( x) Harga Diri ( y) x*y x*x y*y


Orang Tinggi ( x) Harga Diri ( y) x*y x*x y*y
1 68 4.1 278.8 4624 16.81
2 71 4.6 326.6 5041 21.16
3 62 3.8 235.6 3844 14.44
4 75 4.4 330 5625 19.36
5 58 3.2 185.6 3364 10.24
6 60 3.1 186 3600 9.61
7 67 3.8 254.6 4489 14.44
8 68 4.1 278.8 4624 16.81
9 71 4.3 305.3 5041 18.49
10 69 3.7 255.3 4761 13.69
11 68 3.5 238 4624 12.25
12 67 3.2 214.4 4489 10.24
13 63 3.7 233.1 3969 13.69
14 62 3.3 204.6 3844 10.89
15 60 3.4 204 3600 11.56
16 63 4 252 3969 16
17 65 4.1 266.5 4225 16.81
18 67 3.8 254.6 4489 14.44
19 63 3.4 214.2 3969 11.56
Orang Tinggi ( x) Harga Diri ( y) x*y x*x y*y
Orang Tinggi ( x) Harga Diri ( y) x*y x*x y*y
20 61 3.6 219.6 3721 12.96
Jumlah 1308 75.1 4937.6 85912 285.45

Tiga kolom pertama sama seperti pada tabel di atas. Tiga kolom berikutnya adalah
perhitungan sederhana berdasarkan data tinggi badan dan harga diri. Baris paling bawah
terdiri dari jumlah setiap kolom. Ini semua informasi yang kita perlukan untuk menghitung
korelasinya. Berikut adalah nilai dari baris terbawah tabel (N adalah 20 orang) yang terkait
dengan simbol dalam rumus:

N=2 0N=20 ∑Xkamu=4 9 3 7 . 6∑x kamu=4937.6 ∑X=1 3 0 8∑X=1308 ∑kamu=7 5 . 1∑kamu=75.1 ∑X2=8 5 9 1
2∑X2=85912 ∑kamu2=2 8 5 . 4 5∑kamu2=285.45

Sekarang, ketika kita memasukkan nilai-nilai ini ke dalam rumus yang diberikan di atas, kita
mendapatkan yang berikut (saya tunjukkan di sini dengan membosankan, selangkah demi
selangkah):

R=N∑Xkamu-∑X∑kamu(N∑X2-(∑X)2)(N∑kamu2-(∑kamu)2)=R=( N∑X2-( ∑x )2) ( N∑kamu2-( ∑kamu )2)N∑x kamu-


∑X∑kamu= =2 0⋅4 9 3 7 . 6-1 3 0 8⋅7 5 . 1(2 0⋅8 5 9 1 2-1 3 082)(2 0⋅2 8 5 . 4 5-7 5 .12)==( 20⋅85912-130 82) (
20⋅285.45-75.1 _2)20⋅4937.6-1308⋅75.1= =9 8 7 5 2-9 8 2 3 0 . 8(1 7 1 8 2 4 0-1 7 1 0 8 6 4)(5 7 0 9-5 6 4 0 .
1)==( 1718240-1710864 ) ( 5709-5640.1 )98752-98230.8= =5 2 1 . 27 3 7 6⋅6 8 . 9 9=5 2 1 . 25 0 8 8 7 0 .
2==7376⋅68,99521.2=508870.2521.2= =5 2 1 . 27 1 3 . 3 5 1 4=0 . 7 3=713.3514521.2=0,73

Jadi, korelasi untuk kedua puluh kasus kita adalah .73, yang merupakan hubungan positif
yang cukup kuat. Saya kira ada hubungan antara tinggi badan dan harga diri, setidaknya
dalam data yang dibuat-buat ini!

Menguji Signifikansi Korelasi


Setelah Anda menghitung korelasi, Anda dapat menentukan probabilitas bahwa korelasi yang
diamati terjadi secara kebetulan. Artinya, Anda bisa melakukan uji signifikansi. Seringkali
Anda tertarik untuk menentukan probabilitas bahwa korelasi tersebut nyata dan bukan
kebetulan. Dalam hal ini, Anda menguji hipotesis yang saling eksklusif :

Hipotesis Nol: r = 0

Hipotesis alternatif: r ≠ 0

Cara termudah untuk menguji hipotesis ini adalah dengan mencari buku statistik yang
memiliki tabel nilai kritis r. Sebagian besar teks pengantar statistik memiliki tabel seperti ini.
Seperti dalam semua pengujian hipotesis, Anda harus terlebih dahulu menentukan tingkat
signifikansinya . Di sini, saya akan menggunakan tingkat signifikansi umum alpha = .05.
Artinya saya sedang melakukan pengujian yang peluang terjadinya korelasi tidak lebih dari 5
dari 100. Sebelum saya mencari nilai kritis dalam tabel saya juga harus menghitung derajat
kebebasan atau df. Df sama dengan N-2atau, dalam contoh ini, adalah 20-2 = 18. Akhirnya,
saya harus memutuskan apakah saya akan melakukan satu sisi atau dua sisites. Dalam contoh
ini, karena saya tidak memiliki teori kuat sebelumnya yang menyatakan apakah hubungan
antara tinggi badan dan harga diri akan positif atau negatif, saya akan memilih tes dua sisi.
Dengan tiga informasi ini – tingkat signifikansi ( alpha = .05)), derajat kebebasan ( df =
18), dan jenis pengujian (dua sisi) – kini saya dapat menguji signifikansi korelasi yang saya
temukan. Ketika saya mencari nilai ini di tabel kecil yang berguna di belakang buku statistik
saya, saya menemukan bahwa nilai kritisnya adalah 0,4438. Ini berarti bahwa jika korelasi
saya lebih besar .4438atau lebih kecil dari -.4438(ingat, ini adalah tes dua sisi) saya dapat
menyimpulkan bahwa kemungkinannya kurang dari 5 dari 100 bahwa ini adalah sebuah
kebetulan. Sejak korelasi saya.73sebenarnya sedikit lebih tinggi, saya menyimpulkan bahwa
ini bukan penemuan kebetulan dan korelasinya “signifikan secara statistik” (mengingat
parameter pengujiannya). Saya dapat menolak hipotesis nol dan menerima alternatifnya.

Matriks Korelasi
Yang telah saya tunjukkan sejauh ini hanyalah cara menghitung korelasi antara dua variabel.
Di sebagian besar penelitian, kami memiliki lebih dari dua variabel. Katakanlah kita
mempunyai penelitian dengan 10 variabel tingkat interval dan kita ingin memperkirakan
hubungan di antara semua variabel tersebut (misalnya, antara semua pasangan variabel yang
mungkin). Dalam contoh ini, kami memiliki 45 korelasi unik untuk diperkirakan (lebih lanjut
tentang bagaimana saya mengetahuinya!). Kita dapat melakukan perhitungan di atas
sebanyak 45 kali untuk mendapatkan korelasinya. Atau kita dapat menggunakan hampir
semua program statistik untuk secara otomatis menghitung ke-45 data tersebut hanya dengan
satu klik mouse.

Saya menggunakan program statistik sederhana untuk menghasilkan data acak untuk 10
variabel dengan 20 kasus (yaitu orang) untuk setiap variabel. Kemudian, saya menyuruh
program untuk menghitung korelasi antar variabel tersebut. Inilah hasilnya:

Tabel jenis ini disebut matriks korelasi . Ini mencantumkan nama variabel ( C1-C10) di kolom
pertama dan melintasi baris pertama. Diagonal matriks korelasi (yaitu bilangan yang bergerak
dari pojok kiri atas ke kanan bawah) selalu terdiri dari satuan. Hal ini karena ini adalah
korelasi antara masing-masing variabel dan variabel itu sendiri (dan suatu variabel selalu
berkorelasi sempurna dengan variabel itu sendiri). Program statistik ini hanya menampilkan
segitiga bawah dari matriks korelasi. Dalam setiap matriks korelasi terdapat dua buah segitiga
yang nilainya berada di bawah dan kiri diagonal (segitiga bawah) dan di atas dan kanan
diagonal (segitiga atas). Tidak ada alasan untuk mencetak kedua segitiga karena kedua
segitiga matriks korelasi selalu merupakan bayangan cermin satu sama lain (korelasi variabel
x dengan variabel y selalu sama dengan korelasi variabel y dengan variabel x).matriks
simetris . Matriks korelasi selalu merupakan matriks simetris.

Untuk menemukan korelasi pasangan variabel apa pun, carilah nilai perpotongan baris dan
kolom kedua variabel tersebut pada tabel. Misalnya, untuk mencari korelasi antara variabel
C5dan C2, saya mencari di mana baris C2dan kolom C5berada (dalam hal ini kosong karena
berada di area segitiga atas) dan di mana baris C5dan kolom C2berada dan, dalam kasus
kedua, saya menemukan bahwa korelasinya adalah -.166.

Oke, jadi bagaimana saya tahu ada 45 korelasi unik padahal kita punya 10 variabel? Ada
rumus kecil sederhana yang berguna yang menunjukkan berapa banyak pasangan (misalnya
korelasi) yang ada untuk sejumlah variabel:

N(N-1)/2tidak ( tidak-1 ) /2

dimana N adalah jumlah variabel. Dalam contoh ini, saya mempunyai 10 variabel, jadi saya
tahu saya mempunyai (10 * 9)/2 = 90/2 = 45pasangan.

Korelasi Lainnya
Jenis korelasi spesifik yang saya ilustrasikan di sini dikenal sebagai Korelasi Product
Moment Pearson. Cocok bila kedua variabel diukur pada tingkat interval . Namun ada
berbagai jenis korelasi lain untuk keadaan lain. misalnya, jika Anda memiliki dua variabel
ordinal, Anda dapat menggunakan Korelasi Urutan peringkat Spearman (rho) atau Korelasi
Urutan peringkat Kendall (tau). Ketika satu ukuran merupakan tingkat interval kontinu, yang
satu dan yang lainnya bersifat dikotomis (yaitu, dua kategori), Anda dapat menggunakan
Korelasi Titik-Biserial. Untuk situasi lain, konsultasikan dengan program pemilihan statistik
berbasis web, Selecting Statistics .

oleh Prof William MK Trochim yang dibawakan oleh Bersamaan

 Menavigasi Basis Pengetahuan


 Yayasan
 Contoh
 Pengukuran
 Desain penelitian
 Analisis
o Validitas Kesimpulan
o Persiapan data
o Statistik deskriptif
o Statistik Inferensial
 Uji-T
 Variabel Tiruan
 Model Linier Umum
 Analisis Hanya Posttest
 Analisis Desain Faktorial
 Analisis Blok Acak
 Analisis Kovarian
 Analisis Grup yang Tidak Setara
 Analisis Regresi-Diskontinuitas
 Perpindahan Titik Regresi
 Penulisan
 Lampiran
 Daftar isi

Alat Survei
SURV

Alat survei online yang berfungsi penuh dengan berbagai jenis pertanyaan, logika,
pengacakan, dan pelaporan untuk jumlah respons dan survei yang tidak terbatas.

Sepenuhnya gratis untuk akademisi dan pelajar .

Melihat rincian


o Analisis Eksperimental
o Analisis Eksperimental Semu

Statistik Inferensial

Dengan statistik inferensial, Anda mencoba mencapai kesimpulan yang melampaui data
langsung saja. Misalnya, kami menggunakan statistik inferensial untuk mencoba
menyimpulkan dari data sampel apa yang mungkin dipikirkan populasi. Atau, kita
menggunakan statistik inferensial untuk membuat penilaian terhadap probabilitas bahwa
perbedaan yang teramati antar kelompok dapat diandalkan atau perbedaan yang mungkin
terjadi secara kebetulan dalam penelitian ini. Jadi, kami menggunakan statistik inferensial
untuk membuat kesimpulan dari data kami ke kondisi yang lebih umum; kami menggunakan
statistik deskriptif hanya untuk menggambarkan apa yang terjadi dalam data kami.

Di sini, saya berkonsentrasi pada statistik inferensial yang berguna dalam desain penelitian
eksperimental dan kuasi-eksperimental atau dalam evaluasi hasil program. Mungkin salah
satu tes inferensial paling sederhana digunakan ketika Anda ingin membandingkan kinerja
rata-rata dua kelompok pada satu ukuran untuk melihat apakah ada perbedaan. Anda
mungkin ingin mengetahui apakah anak laki-laki dan perempuan kelas delapan berbeda
dalam nilai ujian matematika atau apakah kelompok program berbeda dalam ukuran hasil dari
kelompok kontrol. Kapan pun Anda ingin membandingkan kinerja rata-rata antara dua
kelompok, Anda harus mempertimbangkan uji-t untuk mengetahui perbedaan antar kelompok
.

Sebagian besar statistik inferensial utama berasal dari keluarga model statistik umum yang
dikenal sebagai Model Linier Umum . Ini termasuk uji-t, Analisis Varians (ANOVA),
Analisis Kovarian (ANCOVA), analisis regresi, dan banyak metode multivariat seperti
analisis faktor, penskalaan multidimensi, analisis klaster, analisis fungsi diskriminan, dan
sebagainya. Mengingat pentingnya Model Linier Umum, sebaiknya setiap peneliti sosial yang
serius memahami cara kerjanya. Pembahasan Model Linier Umum di sini sangat mendasar
dan hanya membahas model garis lurus yang paling sederhana. Namun, ini akan membuat
Anda memahami gagasan model linier dan membantu mempersiapkan Anda menghadapi
analisis yang lebih kompleks yang dijelaskan di bawah.
Salah satu kunci untuk memahami bagaimana kelompok dibandingkan diwujudkan dalam
gagasan variabel “dummy”. Namanya tidak menunjukkan bahwa kita menggunakan variabel
yang tidak terlalu cerdas atau, lebih buruk lagi, bahwa analis yang menggunakannya adalah
“dummy”! Mungkin variabel-variabel ini lebih baik digambarkan sebagai variabel “proxy”.
Pada dasarnya variabel dummy adalah variabel yang menggunakan angka-angka terpisah,
biasanya 0 dan 1, untuk mewakili kelompok berbeda dalam penelitian Anda. Variabel
dummy adalah ide sederhana yang memungkinkan terjadinya beberapa hal yang cukup rumit.
Misalnya, dengan memasukkan variabel dummy sederhana ke dalam model, saya dapat
memodelkan dua baris terpisah (satu untuk setiap kelompok perlakuan) dengan satu
persamaan. Untuk melihat cara kerjanya, lihat pembahasan tentang variabel dummy .

Salah satu analisis terpenting dalam evaluasi hasil program adalah dengan membandingkan
kelompok program dan non-program pada variabel atau variabel hasil. Cara kami melakukan
hal ini bergantung pada desain penelitian yang kami gunakan. desain penelitian dibagi
menjadi dua jenis desain utama : eksperimental dan eksperimen semu . Karena analisisnya
berbeda-beda, maka analisisnya disajikan secara terpisah.

Analisis Eksperimental

Eksperimen acak sederhana dua kelompok posttest saja biasanya dianalisis dengan uji-t
sederhana atau ANOVA satu arah . Desain eksperimen faktorial biasanya dianalisis dengan
Model Analysis of Variance (ANOVA) . Rancangan Acak Blok menggunakan bentuk khusus
model pemblokiran ANOVA yang menggunakan variabel berkode dummy untuk
merepresentasikan blok. Tidak mengherankan, Desain Eksperimen Analisis Kovarian
menggunakan model statistik Analisis Kovarian .

Analisis Eksperimental Semu

Desain eksperimen semu berbeda dengan desain eksperimental karena desain ini tidak
menggunakan penugasan acak untuk menugaskan unit (misalnya orang) ke kelompok
program. Kurangnya penugasan acak dalam desain ini cenderung mempersulit analisisnya.
Misalnya, untuk menganalisis Nonequivalent Groups Design (NEGD) kita harus
menyesuaikan skor pretest untuk kesalahan pengukuran dalam apa yang sering disebut model
Analisis Kovarian yang Dikoreksi Reliabilitas . Dalam Desain Regresi-Diskontinuitas , kita
perlu memberi perhatian khusus pada kelengkungan dan kesalahan spesifikasi model.
Akibatnya, kita cenderung menggunakan pendekatan analisis konservatif yang didasarkan
pada regresi polinomialyang dimulai dengan melakukan overfitting pada fungsi yang
mungkin sebenarnya dan kemudian mengurangi model berdasarkan hasilnya. Desain
Perpindahan Titik Regresi hanya mempunyai satu unit yang diberi perlakuan. Meskipun
demikian, analisis desain RPD didasarkan langsung pada model ANCOVA tradisional.

Saat Anda menyelidiki berbagai model analitik ini, Anda akan melihat bahwa semuanya
berasal dari keluarga yang sama – Model Linier Umum . Pemahaman tentang model tersebut
akan sangat membantu dalam mengenalkan Anda pada seluk-beluk analisis data dalam
konteks penelitian terapan dan sosial.

Uji-T
Uji-t menilai apakah rata-rata dua kelompok berbeda secara statistik satu sama lain. Analisis
ini sesuai jika Anda ingin membandingkan rata-rata dua kelompok, dan khususnya sesuai
sebagai analisis untuk desain eksperimen acak dua kelompok yang hanya posttest .

Gambar 1. Distribusi ideal untuk nilai posttest kelompok perlakuan


dan pembanding.

Gambar 1 menunjukkan distribusi kelompok perlakuan (biru) dan kontrol (hijau) dalam
sebuah penelitian. Sebenarnya gambar tersebut menunjukkan distribusi ideal – distribusi
sebenarnya biasanya digambarkan dengan histogram atau grafik batang . Gambar tersebut
menunjukkan di mana sarana kelompok kontrol dan perlakuan berada. Pertanyaan yang
dijawab oleh uji-t adalah apakah rata-ratanya berbeda secara statistik.

Apa yang dimaksud dengan rata-rata dua kelompok berbeda secara statistik? Perhatikan tiga
situasi yang ditunjukkan pada Gambar 2. Hal pertama yang perlu diperhatikan tentang ketiga
situasi tersebut adalah bahwa perbedaan meannya sama pada ketiga situasi tersebut..
Namun, Anda juga harus memperhatikan bahwa ketiga situasi tersebut tidak terlihat sama –
ketiga situasi tersebut menceritakan kisah yang sangat berbeda. Contoh teratas menunjukkan
kasus dengan variabilitas skor sedang dalam setiap kelompok. Situasi kedua menunjukkan
kasus variabilitas yang tinggi. yang ketiga menunjukkan kasus dengan variabilitas rendah.
Jelasnya, kita akan menyimpulkan bahwa kedua kelompok tampak paling berbeda atau
berbeda dalam kasus variabilitas terbawah atau rendah. Mengapa? Karena relatif sedikit
tumpang tindih antara kedua kurva berbentuk lonceng tersebut. Dalam kasus variabilitas
tinggi, perbedaan kelompok tampak paling tidak mencolok karena kedua distribusi berbentuk
lonceng tersebut sangat tumpang tindih.
Gambar 2. Tiga skenario perbedaan
rata-rata.

Hal ini membawa kita pada kesimpulan yang sangat penting: ketika kita melihat perbedaan
antara skor untuk dua kelompok, kita harus menilai perbedaan antara rata-rata mereka relatif
terhadap penyebaran atau variabilitas skor mereka. Uji-t melakukan hal ini.

Analisis Statistik Uji-t


Rumus uji-t adalah rasio. Bagian atas rasio hanyalah selisih antara dua mean atau rata-rata.
Bagian bawah adalah ukuran variabilitas atau sebaran skor. Rumus ini pada dasarnya adalah
contoh lain dari metafora signal-to-noise dalam penelitian: perbedaan antara sarana adalah
sinyal bahwa, dalam hal ini, kita berpikir bahwa program atau pengobatan kita dimasukkan
ke dalam data; bagian bawah rumusnya adalah ukuran variabilitas yang pada dasarnya
merupakan gangguan yang mungkin mempersulit untuk melihat perbedaan kelompok.
Gambar 3 menunjukkan rumus uji-t dan hubungan pembilang dan penyebutnya dengan
distribusi.

Gambar 3. Rumus uji-t.


Bagian atas rumusnya mudah untuk dihitung – cukup temukan perbedaan antara rata-ratanya.
Bagian paling bawah disebut kesalahan standar selisih . Untuk menghitungnya, kita
mengambil varians setiap kelompok dan membaginya dengan jumlah orang dalam kelompok
tersebut. Kami menambahkan dua nilai ini dan kemudian mengambil akar kuadratnya.
Rumus khusus untuk kesalahan standar selisih mean adalah:

SE _(XˉT-XˉC)=v dan rTNT+v dan rCNCSE (XˉT-XˉC)=NTvarT+NCvarC

Ingat, varians hanyalah kuadrat dari deviasi standar .

Rumus akhir uji-t adalah:

T=XˉT-XˉCv dan rTNT+v dan rCNCT=NTvarT+NCvarCXˉT-XˉC

Nilai t- akan positif jika mean pertama lebih besar dari mean kedua dan negatif jika mean
lebih kecil. Setelah Anda menghitung tnilai -, Anda harus mencarinya dalam tabel
signifikansi untuk menguji apakah rasio tersebut cukup besar untuk mengatakan bahwa
perbedaan antara kelompok-kelompok tersebut tidak mungkin merupakan penemuan
kebetulan. Untuk menguji signifikansinya, Anda perlu menetapkan tingkat risiko (disebut
tingkat alfa ). Di sebagian besar penelitian sosial, “aturan praktisnya” adalah menetapkan
tingkat alfa pada .05. Ini berarti bahwa lima kali dari seratus Anda akan menemukan
perbedaan yang signifikan secara statistik antara rata-rata meskipun tidak ada perbedaan
(yaitu, secara “kebetulan”). Anda juga perlu menentukan derajat kebebasan (df) untuk
pengujian tersebut. Dalamt-test, derajat kebebasan adalah jumlah orang dalam kedua
kelompok dikurangi 2. Mengingat tingkat alpha, df, dan t-value, Anda dapat melihat t-value
dalam tabel signifikansi standar (tersedia sebagai lampiran di bagian belakang sebagian besar
teks statistik) untuk menentukan apakah -value tcukup besar untuk menjadi penting. Jika ya,
Anda dapat menyimpulkan bahwa perbedaan rata-rata kedua kelompok adalah berbeda
(meskipun terdapat variabilitas). Untungnya, program komputer statistik secara rutin
mencetak hasil uji signifikansi dan menyelamatkan Anda dari kesulitan mencarinya dalam
tabel.

Uji-t, Analisis Varians satu arah (ANOVA) dan suatu bentuk analisis regresi setara secara
matematis (lihat analisis statistik dari desain eksperimen acak khusus posttest ) dan akan
menghasilkan hasil yang identik.

Variabel Tiruan

Variabel dummy adalah variabel numerik yang digunakan dalam analisis regresi untuk
mewakili subkelompok sampel dalam penelitian Anda. Dalam desain penelitian, variabel
dummy sering digunakan untuk membedakan kelompok perlakuan yang berbeda. Dalam
kasus paling sederhana, kita akan menggunakan 0,1variabel dummy di mana seseorang
diberi nilai 0jika mereka berada dalam kelompok kontrol atau 1jika mereka berada dalam
kelompok perlakuan. Variabel tiruan berguna karena memungkinkan kita menggunakan
persamaan regresi tunggal untuk mewakili beberapa kelompok. Artinya kita tidak perlu
menuliskan model persamaan terpisah untuk setiap subgrup. Variabel dummy bertindak
seperti 'saklar' yang menghidupkan dan mematikan berbagai parameter dalam suatu
persamaan. Keuntungan lain dari a0,1Variabel berkode dummy adalah meskipun merupakan
variabel tingkat nominal, Anda dapat memperlakukannya secara statistik seperti variabel
tingkat interval (jika ini tidak masuk akal bagi Anda, Anda mungkin harus menyegarkan
ingatan Anda tentang tingkat pengukuran ) . Misalnya, jika Anda mengambil rata-rata suatu
0,1variabel, hasilnya adalah proporsi 1s dalam distribusinya.

kamuSaya=β0+β1ZSaya+eSayakamuSaya=β0+β1ZSaya+eSaya

Di mana:

 yiadalah skor hasil unit ike-th ,


 β0adalah koefisien intersep ,
 β1adalah koefisien kemiringan ,
 Ziadalah:
o 1jika unit ike- berada pada kelompok perlakuan;
o 0jika unit ike- berada pada kelompok kontrol;

 eiadalah sisa untuk unit ike-th .

Untuk mengilustrasikan variabel dummy, pertimbangkan model regresi sederhana untuk


eksperimen acak dua kelompok yang hanya dilakukan posttest. Model ini pada dasarnya
sama dengan melakukan uji-t pada mean posttest untuk dua kelompok atau melakukan
Analysis of Variance (ANOVA) satu arah . Istilah kunci dalam model ini adalah estimasi
perbedaan antar kelompok. Untuk melihat cara kerja variabel dummy, kami akan
menggunakan model sederhana ini untuk menunjukkan cara menggunakannya untuk
mengeluarkan sub-persamaan terpisah untuk setiap subgrup. Kemudian kami akan
menunjukkan cara Anda memperkirakan selisih antar subgrup dengan mengurangkan
persamaannya masing-masing. Anda akan melihat bahwa kita dapat mengemas sejumlah
besar informasi ke dalam satu persamaan menggunakan variabel dummy. Yang ingin saya
tunjukkan di sini hanyalah ituβ1β1adalah perbedaan antara kelompok perlakuan dan kelompok
kontrol.

Untuk melihatnya, langkah pertama adalah menghitung persamaan untuk masing-masing dua
kelompok secara terpisah. Untuk kelompok kontrol, Z = 0. Ketika kita memasukkan nilai
tersebut ke dalam persamaan, dan mengetahui bahwa dengan asumsi rata-rata suku kesalahan
adalah 0, kita menemukan bahwa nilai prediksi untuk kelompok kontrol adalah , titik
potongnya. Sekarang, untuk mengetahui garis kelompok perlakuan, kita substitusikan nilai
for , sekali lagi dengan asumsi bahwa rata-rata error term adalah . Persamaan kelompok
perlakuan menunjukkan bahwa nilai kelompok perlakuan merupakan penjumlahan kedua
nilai beta.β01Z0
Sekarang, kita siap untuk melanjutkan ke langkah kedua – menghitung perbedaan antar
kelompok. Bagaimana kita menentukannya? Nah, perbedaannya pasti merupakan perbedaan
antara persamaan kedua kelompok yang kita kerjakan di atas. Dengan kata lain, untuk
mencari selisih antar kelompok kita tinggal mencari selisih persamaan kedua kelompok
tersebut! Dari gambar tersebut jelas terlihat perbedaannya . Pikirkan tentang apa artinya ini.
Perbedaan antar kelompok tersebut adalah . Oke, sekali lagi hanya untuk sekedar itu saja.
Perbedaan antara kelompok-kelompok dalam model ini adalah !β1β1β1

Kapan pun Anda memiliki model regresi dengan variabel dummy, Anda selalu dapat melihat
bagaimana variabel tersebut digunakan untuk mewakili beberapa persamaan subgrup dengan
mengikuti dua langkah yang dijelaskan di atas:

 buat persamaan terpisah untuk setiap subgrup dengan mensubstitusi nilai dummy
 temukan perbedaan antar kelompok dengan mencari perbedaan antara persamaan mereka

Model Linier Umum


General Linear Model (GLM) mendasari sebagian besar analisis statistik yang digunakan
dalam penelitian terapan dan sosial. Ini adalah dasar untuk uji-t , Analisis Varians (ANOVA),
Analisis Kovarian (ANCOVA) , analisis regresi , dan banyak metode multivariat termasuk
analisis faktor, analisis klaster, penskalaan multidimensi, analisis fungsi diskriminan, korelasi
kanonik, dan lain-lain. Karena sifatnya yang umum, model ini penting bagi mahasiswa
penelitian sosial. Meskipun pemahaman mendalam tentang GLM memerlukan beberapa
pelatihan statistik tingkat lanjut, di sini saya akan mencoba memperkenalkan konsep tersebut
dan memberikan deskripsi non-statistik.

Model Linier Dua Variabel


Titik masuk termudah untuk memahami GLM adalah dengan kasus dua variabel. Gambar 1
menunjukkan plot bivariat dua variabel. Ini bisa berupa dua variabel kontinyu, namun dalam
pembahasan berikutnya kita akan menganggapnya sebagai pretest (pada sumbu x) dan
posttest (pada sumbu y). Setiap titik pada plot mewakili skor pretest dan posttest untuk
seorang individu. Pola tersebut jelas menunjukkan hubungan yang positif karena pada
umumnya orang dengan nilai pretest yang lebih tinggi juga mempunyai posttest yang lebih
tinggi, begitu pula sebaliknya.

Gambar 1. Plot bivariat.

Tujuan dalam analisis data kami adalah untuk merangkum atau menggambarkan secara
akurat apa yang terjadi dalam data. Plot bivariat menampilkan data. Bagaimana cara terbaik
untuk meringkas data ini? Gambar 2 menunjukkan bahwa garis lurus yang menembus “awan”
titik data akan secara efektif menggambarkan pola dalam plot bivariat. Meskipun garis tidak
secara sempurna menggambarkan suatu titik tertentu (karena tidak ada titik yang tepat berada
pada garis tersebut), garis tersebut menggambarkan pola data secara akurat. Saat kita
memasukkan garis ke data, kita menggunakan apa yang kita sebut model linier . Istilah
"linier" mengacu pada fakta bahwa kita sedang memasang sebuah garis. Istilah model
mengacu pada persamaan yang merangkum garis yang kita cocokkan. Garis seperti yang
ditunjukkan pada Gambar 2 sering disebut sebagai garis regresidan analisis yang
menghasilkannya sering disebut analisis regresi .
Gambar 2. Ringkasan data dalam garis lurus.

Gambar 3 menunjukkan persamaan garis lurus. Anda mungkin ingat persamaan ini dari kelas
aljabar SMA Anda yang sering dinyatakan dalam bentuk:

kamu=MX+Bkamu=mx _+B

Dalam persamaan ini, komponennya adalah:

 y= yvariabel -axis, hasil atau posttest


 x= xvariabel -axis, pretest
 b0= intersep (nilai ykapan x= 0)
 b1= kemiringan garis

Gambar 3. Model garis lurus.

Kemiringan garis merupakan perubahan posttest yang diberikan dalam satuan pretest. Seperti
disebutkan di atas, persamaan ini tidak sepenuhnya sesuai dengan awan titik-titik pada
Gambar 1. Jika ya, setiap titik akan jatuh pada garis. Kita memerlukan satu komponen lagi
untuk mendeskripsikan kesesuaian garis ini dengan plot bivariat.

Gambar 4 menunjukkan persamaan model linier dua variabel atau bivariat. Komponen yang
telah kita tambahkan ke persamaan pada Gambar 3 adalah error term, e, yang
menggambarkan jarak vertikal dari garis lurus ke setiap titik. Istilah ini disebut “kesalahan”
karena merupakan derajat kesalahan garis dalam menggambarkan setiap titik.
Gambar 4. Model linier dua
variabel.

Saat kami menyesuaikan model linier dua variabel dengan data kami, kami memiliki xskor
yuntuk setiap orang dalam penelitian kami. Kami memasukkan pasangan nilai ini ke dalam
program komputer. Program memperkirakan nilai b0dan b1untuk kita seperti yang
ditunjukkan pada Gambar 5. Kita sebenarnya akan mendapatkan kembali dua angka yang
merupakan perkiraan dari kedua nilai tersebut.

Gambar 5. Estimasi model.

Anda dapat menganggap garis regresi dua variabel seperti statistik deskriptif lainnya – garis
ini hanya menggambarkan hubungan antara dua variabel seperti halnya mean
menggambarkan kecenderungan sentral dari satu variabel. Dan, sebagaimana mean tidak
secara akurat mewakili setiap nilai dalam suatu distribusi, garis regresi juga tidak secara
akurat mewakili setiap nilai dalam distribusi bivariat. Kami menggunakan ringkasan ini
karena ringkasan ini menunjukkan pola umum dalam data kami dan memungkinkan kami
mendeskripsikan pola ini dengan cara yang lebih ringkas daripada menampilkan keseluruhan
distribusi.

Model Linier Umum


Dengan pengenalan singkat mengenai kasus dua variabel ini, kita dapat memperluas model
ini ke kasus yang paling umum. Pada dasarnya GLM terlihat sama dengan model dua
variabel yang ditunjukkan pada Gambar 4 – ini hanyalah sebuah persamaan. Namun
perbedaan besarnya adalah masing-masing dari empat suku dalam GLM dapat mewakili
sekumpulan variabel, bukan hanya satu variabel. Jadi, model linier umum dapat ditulis:

kamu=B0+BX+ekamu=B0+BX+e

Di mana:
 y= sekumpulan variabel hasil
 x= sekumpulan variabel atau kovariat pra-program
 b0= himpunan intersep (nilai masing-masing yketika masing-masing x= 0)
 b= sekumpulan koefisien, masing-masing satu untuk setiap koefisienx

Anda seharusnya dapat melihat bahwa model ini memungkinkan kami memasukkan sejumlah
besar informasi. Dalam studi eksperimental atau kuasi-eksperimental , kita akan
merepresentasikan program atau pengobatan dengan satu atau lebih variabel berkode
dummy , masing-masing direpresentasikan dalam persamaan sebagai xnilai tambahan
(walaupun kita biasanya menggunakan simbol zuntuk menunjukkan bahwa variabel tersebut
adalah variabel dummy- diberi kode x). Jika penelitian kita memiliki beberapa variabel hasil,
kita dapat memasukkannya sebagai satu set ynilai. Jika kita memiliki beberapa pretest, kita
dapat memasukkannya sebagai satu set xnilai. Untuk setiap x-value (dan setiap z-value) kami
memperkirakan b-value yang mewakili suatu x,yhubungan. Perkiraan inib-nilai, dan
pengujian statistik atas estimasi ini, memungkinkan kita menguji hipotesis penelitian spesifik
tentang hubungan antar variabel atau perbedaan antar kelompok.

GLM memungkinkan kita untuk merangkum berbagai macam hasil penelitian. Masalah
utama bagi peneliti yang menggunakan GLM adalah spesifikasi model . Peneliti bertanggung
jawab untuk menentukan persamaan tepat yang paling baik merangkum data untuk suatu
penelitian. Jika model salah dispesifikasikan, estimasi koefisien ( bnilai -) kemungkinan besar
akan bias (yaitu salah) dan persamaan yang dihasilkan tidak akan menggambarkan data
secara akurat. Dalam situasi yang kompleks, masalah spesifikasi model ini bisa menjadi
masalah yang serius dan sulit (lihat, misalnya, pembahasan spesifikasi model dalam analisis
statistik desain diskontinuitas regresi ).

GLM adalah salah satu alat terpenting dalam analisis data statistik. Hal ini merupakan
pencapaian besar dalam kemajuan penelitian sosial di abad ke-20.

Analisis Hanya Posttest

Untuk menganalisis desain eksperimen acak dua kelompok posttest saja kita memerlukan
analisis yang memenuhi persyaratan berikut:

 memiliki dua kelompok


 menggunakan ukuran pasca-saja
 memiliki dua distribusi (ukuran), masing-masing dengan rata-rata dan variasi
 menilai efek pengobatan = perbedaan statistik (yaitu, non-kebetulan) antar kelompok
Sebelum kita melanjutkan ke analisis itu sendiri, ada baiknya kita memahami apa yang
dimaksud dengan istilah “perbedaan” seperti dalam “Apakah ada perbedaan antar
kelompok?” Setiap kelompok dapat diwakili oleh kurva “berbentuk lonceng” yang
menggambarkan distribusi kelompok pada satu variabel. Anda dapat membayangkan kurva
lonceng sebagai histogram atau grafik batang yang dihaluskan yang menggambarkan
frekuensi setiap respons pengukuran yang mungkin. Pada gambar, kami menunjukkan
distribusi untuk kelompok perlakuan dan kontrol. Nilai rata-rata untuk setiap kelompok
ditunjukkan dengan garis putus-putus. Perbedaan antara rata-rata hanyalah perbedaan
horizontal antara rata-rata kelompok kontrol dan kelompok perlakuan yang mencapai sumbu
horizontal.

Sekarang, mari kita lihat tiga kemungkinan hasil yang berbeda, yang diberi label variabilitas
sedang, tinggi, dan rendah. Perhatikan bahwa perbedaan rata-rata dalam ketiga situasi
tersebut adalah sama. Satu-satunya hal yang membedakan keduanya adalah variabilitas atau
“penyebaran” skor di sekitar sarana. Di antara tiga kasus manakah yang paling mudah untuk
menyimpulkan bahwa rata-rata kedua kelompok berbeda? Jika Anda menjawab kasus
variabilitas rendah, Anda benar! Mengapa paling mudah untuk menyimpulkan bahwa
kelompok-kelompok tersebut berbeda dalam kasus tersebut? Karena itulah situasi dengan
jumlah tumpang tindih paling sedikit antara kurva berbentuk lonceng untuk kedua kelompok.
Jika Anda melihat kasus dengan variabilitas tinggi, Anda akan melihat bahwa terdapat cukup
banyak kasus kelompok kontrol yang mendapat skor dalam rentang kelompok perlakuan dan
sebaliknya. Mengapa ini sangat penting? Karena, jika Anda ingin melihat apakah dua
kelompok “berbeda”, tidak cukup hanya mengurangkan satu mean dari mean lainnya – Anda
harus memperhitungkan variabilitas di sekitar mean! Perbedaan kecil antar rata-rata akan
sulit dideteksi jika terdapat banyak variabilitas atau gangguan. Perbedaan yang besar antar
mean akan mudah dideteksi jika variabilitasnya rendah. Cara melihat perbedaan antar
kelompok ini berhubungan langsung dengan metafora signal-to-noise – perbedaan lebih
terlihat ketika sinyal tinggi dan noise rendah. Perbedaan yang besar antar mean akan mudah
dideteksi jika variabilitasnya rendah. Cara melihat perbedaan antar kelompok ini
berhubungan langsung dengan metafora signal-to-noise – perbedaan lebih terlihat ketika
sinyal tinggi dan noise rendah. Perbedaan yang besar antar mean akan mudah dideteksi jika
variabilitasnya rendah. Cara melihat perbedaan antar kelompok ini berhubungan langsung
dengan metafora signal-to-noise – perbedaan lebih terlihat ketika sinyal tinggi dan noise
rendah.

Dengan mengingat hal tersebut, sekarang kita dapat mengkaji bagaimana kita memperkirakan
perbedaan antar kelompok, yang sering disebut dengan ukuran “efek”. Bagian atas rasio
adalah perbedaan aktual antara rata-rata, dan bagian bawah adalah perkiraan variabilitas di
sekitar rata-rata. Dalam konteks ini, kita akan menghitung apa yang dikenal sebagai
kesalahan standar dari selisih rata-rata. Kesalahan standar ini menggabungkan informasi
tentang standar deviasi (variabilitas) yang ada pada masing-masing kedua kelompok. Rasio
yang kita hitung disebut nilai-t dan menjelaskan perbedaan antar kelompok relatif terhadap
variabilitas skor dalam kelompok.

Sebenarnya ada tiga cara berbeda untuk memperkirakan efek perlakuan untuk percobaan acak
pascates saja. Ketiganya menghasilkan hasil yang setara secara matematis, sebuah cara yang
bagus untuk mengatakan bahwa ketiganya memberi Anda jawaban yang persis sama. Lalu
mengapa ada tiga yang berbeda? Secara umum, ketiga pendekatan ini berkembang secara
independen dan, baru setelah itu, menjadi jelas bahwa ketiga pendekatan tersebut pada
dasarnya merupakan tiga cara untuk melakukan hal yang sama. Lalu apa saja ketiga cara
tersebut? Pertama, kita dapat menghitung uji-t independen seperti dijelaskan di atas. Kedua,
kita dapat menghitung Analisis Varians (ANOVA) satu arah antara dua kelompok
independen. Terakhir, kita dapat menggunakan analisis regresi untuk mengembalikan nilai
posttest ke dalam variabel perlakuan yang diberi kode dummy. Dari ketiga pendekatan
tersebut, pendekatan analisis regresi merupakan pendekatan yang paling umum. Faktanya,
Anda akan menemukan bahwa saya menjelaskan model statistik untuk semua desain
eksperimental dan kuasi-eksperimental dalam istilah model regresi. Anda hanya perlu
menyadari bahwa hasil dari ketiga metode tersebut sama.

kamuSaya=β0+β1ZSaya+eSayakamuSaya=β0+β1ZSaya+eSaya

Di mana:

 yiadalah hasil dari unit ike-th


 β0= koefisien intersep
 β1= koefisien kemiringan
 zi= 1jika iunit ke dalam kelompok perlakuan,
= 0jika unit ike dalam kelompok kontrol
 ei= sisa untuk unit ike-th

Oke, berikut model statistiknya dalam bentuk notasi. Anda mungkin tidak menyadarinya,
namun pada dasarnya rumus ini hanyalah persamaan garis lurus dengan suku kesalahan acak
yang dimasukkan ei. Ingat aljabar sekolah menengah? Ingat masa SMA? Baiklah, bagi Anda
yang ingatannya salah, Anda mungkin ingat bahwa persamaan garis lurus sering diberikan
sebagai:

kamu=MX+Bkamu=mx _+B

yang bila disusun ulang dapat ditulis sebagai:

kamu=B+MXkamu=B+mx _

(Kompleksitas sifat komutatif membuat Anda gugup? Jika ini menjadi terlalu rumit, Anda
mungkin perlu berhenti sejenak. Makan, membuat kopi, atau mengajak anjing malang itu
jalan-jalan.). Sekarang, Anda akan melihat bahwa dalam model statistik yisama dengan y
pada rumus garis lurus, b0sama dengan b, b1sama dengan m, dan Zisama dengan x. Dengan
kata lain, dalam rumus statistik b0adalah titik potong dan b1kemiringan.
Penting bagi Anda untuk memahami bahwa kemiringan b1sama dengan perbedaan posttest
antara rata-rata kedua kelompok. Bagaimana kemiringan bisa menjadi perbedaan antara rata-
rata? Untuk melihatnya, Anda harus melihat grafik apa yang terjadi. Pada grafik, kami
menampilkan posttest pada sumbu vertikal. Ini persis sama dengan dua kurva berbentuk
lonceng yang ditunjukkan pada grafik di atas, kecuali di sini kurva tersebut diputar pada
sisinya. Pada sumbu horizontal kita memplot Zvariabel. Variabel ini hanya mempunyai dua
nilai, a 0jika orang tersebut berada pada kelompok kontrol atau 1jika orang tersebut berada
pada kelompok program. Kami menyebut variabel semacam ini sebagai variabel
“dummy”.karena merupakan variabel “pengganti” yang mewakili kondisi program atau
pengobatan dengan dua nilainya (perhatikan bahwa istilah “dummy” tidak dimaksudkan
untuk menghina siapa pun, terutama orang-orang yang berpartisipasi dalam penelitian Anda).
Dua titik pada grafik menunjukkan nilai rata-rata posttest untuk kasus kontrol ( Z= 0) dan
kasus yang diberi perlakuan ( Z= 1). Garis yang menghubungkan dua titik hanya disertakan
untuk tujuan penyempurnaan visual – karena tidak ada Znilai di antaranya 0dan 1tidak ada
nilai yang diplot di mana garis tersebut berada. Namun demikian, kita dapat berbicara secara
bermakna tentang kemiringan garis ini, garis yang menghubungkan rata-rata posttest untuk
dua nilaiZ. Masih ingatkah kamu tentang definisi kemiringan? (Ini dia lagi, kembali ke
sekolah menengah!). Kemiringan adalah perubahan terhadap yperubahan x(atau, dalam hal
ini, Z). Tapi kita tahu bahwa “perubahan Z” antar kelompok selalu sama 1(yaitu, 1 - 0 = 1).
Jadi, kemiringan garis harus sama dengan selisih ynilai rata-rata kedua kelompok. Itulah yang
ingin saya tunjukkan (baca kembali kalimat pertama paragraf ini).b1adalah nilai yang sama
yang akan Anda peroleh jika Anda mengurangkan dua mean satu sama lain (dalam hal ini,
karena kita menetapkan kelompok perlakuan sama dengan 1, ini berarti kita mengurangkan
nilai kelompok kontrol dari kelompok perlakuan. Nilai positif nilai ini menyiratkan bahwa
rata-rata kelompok perlakuan lebih tinggi dari pada kontrol, negatif berarti lebih rendah).
Namun ingat, di awal diskusi ini saya telah menunjukkan bahwa mengetahui perbedaan rata-
rata saja tidak cukup untuk memperkirakan efek pengobatan karena tidak memperhitungkan
variabilitas atau penyebaran skor. Jadi bagaimana kita melakukannya di sini? Setiap program
analisis regresi, selain nilai beta, akan memberikan laporan apakah setiap nilai beta signifikan
secara statistik. Mereka melaporkan at-nilai yang menguji apakah nilai beta berbeda dari nol.
Ternyata nilai t- untuk b1koefisien tersebut sama persis dengan angka yang akan Anda
peroleh jika Anda melakukan uji-t untuk kelompok independen. Dan, sama dengan nilai akar
kuadrat Fpada dua kelompok ANOVA satu arah (karena t2= F).

Berikut beberapa kesimpulan dari semua ini:

 uji-t, ANOVA satu arah, dan analisis regresi semuanya menghasilkan hasil yang sama dalam kasus ini
 metode analisis regresi menggunakan variabel dummy ( Z) untuk perlakuannya
 analisis regresi adalah model yang paling umum dari ketiganya.

Analisis Desain Faktorial

Berikut pernyataan model regresi Rancangan Faktorial 2 x 2 sederhana . Dalam desain ini,
kami memiliki satu faktor untuk waktu pengajaran (1 jam/minggu versus 4 jam/minggu) dan
satu faktor untuk pengaturan (di dalam kelas atau di luar kelas). Model ini menggunakan
variabel dummy (diwakili oleh a Z) untuk setiap faktor. Dalam desain faktorial dua arah
seperti ini, kita mempunyai dua efek utama dan satu interaksi. Dalam model ini, efek
utamanya adalah statistik yang terkait dengan nilai beta yang berdekatan dengan variabel Z-.
Efek interaksi adalah statistik yang terkait dengan b3(yaitu, tnilai - untuk koefisien ini)
karena dalam rumusnya berdekatan dengan perkalian (yaitu, interaksi) kode dummyZvariabel
kedua faktor tersebut. Karena ada dua variabel berkode dummy, yang masing-masing
mempunyai dua nilai, Anda dapat menuliskan 2 x 2 = 4 persamaan terpisah dari satu model
umum ini. Anda mungkin ingin melihat apakah Anda dapat menuliskan persamaan untuk
keempat sel tersebut. Kemudian, lihat beberapa perbedaan antar kelompok. Anda juga dapat
menuliskan dua persamaan untuk setiap Zvariabel. Persamaan ini mewakili persamaan efek
utama. Untuk melihat perbedaan antara tingkat suatu faktor, kurangi persamaan satu sama
lain. Jika Anda bingung tentang cara memanipulasi persamaan ini, lihat bagian cara kerja
variabel dummy .

kamuSaya=β0+β1Z1Saya+β2Z2Saya+β3Z1SayaZ2Saya+eSayakamuSaya=β0+β1Z1 saya+β2Z2 saya+β3Z1 sayaZ2


saya+eSaya

Di mana:

 yiadalah hasil dari unit ke i


 β0adalah koefisien intersep
 β1adalah perbedaan rata-rata pada faktor 1
 β2adalah perbedaan rata-rata pada faktor 2
 β3adalah interaksi faktor 1 dan faktor 2
 Z1iadalah variabel dummy untuk faktor 1 ( 0= 1 jam per minggu, 1= 4 jam per
minggu)
 Z2iadalah variabel dummy untuk faktor 2 ( 0= di kelas, 1= ditarik keluar)
 eiadalah sisa untuk unit ike-th

Anda mungkin juga menyukai