Korelasi
Asosiasi
Pertama dan terpenting, sebuah scatterplot mengungkapkan
adanya hubungan antara dua variabel. Semakin kuat hubungan
linier antara dua variabel, semakin banyak titik data
mengelompok sepanjang garis lurus imajiner. Titik data pada
Gambar 7.1
secara kolektif mengambil bentuk elips, dengan pengecualian
Siswa 26 (tentang siapa kita akan berbicara lebih banyak). Ini
menunjukkan bahwa, sebagai aturan umum, nilai-nilai X
memang "berhubungan dengan" nilai-nilai Y; seperti yang satu
naik, begitu juga yang lain. Perhatikan betapa tak
terhindarkannya kesan visual ini, terutama jika dibandingkan
dengan apa yang dapat disimpulkan oleh mata dari Tabel 7.1.
Gambar 7.2b dan 7.2e juga menggambarkan scatterplot
berbentuk elips.
Jika tidak ada hubungan antara dua variabel, titik data menyebar
secara acak—seperti ledakan senapan, seperti pada Gambar
7.2a. (Plot sebar ini akan mencirikan hubungan antara,
katakanlah, IQ orang dewasa dan ukuran sepatu.) Jika
hubungan linier sempurna, semua titik data jatuh pada garis
lurus (lihat Gambar 7.2c dan 7.2d). Namun, dalam praktiknya,
seseorang tidak pernah menemukan hubungan yang sempurna.
Arah
Jika ada hubungan antara dua variabel, sebar juga akan
menunjukkan arah hubungan. Gambar 7.1 mengilustrasikan
asosiasi positif (langsung): Elips bergerak dari sudut kiri bawah
ke kanan atas. Nilai X yang lebih tinggi dikaitkan dengan nilai Y
yang lebih tinggi, dan nilai X yang lebih rendah dengan nilai Y
yang lebih rendah. Hubungan positif juga digambarkan pada
Gambar 7.2b dan 7.2c. Dalam asosiasi negatif (terbalik),
sebaliknya, titik data bergerak dari sudut kiri atas ke kanan
bawah, seperti yang ditunjukkan pada Gambar 7.2d dan 7.2e.
Nilai X yang lebih tinggi dikaitkan dengan nilai Y yang lebih
rendah, dan nilai X yang lebih rendah dengan nilai Y yang lebih
tinggi. Contoh hubungan negatif adalah jam tanpa tidur (X) dan
perhatian (Y), atau hari tidak masuk sekolah (X) dan nilai rata-
rata (Y).
Arah suatu hubungan tidak tergantung pada kekuatannya.
Misalnya, Gambar 7.2b dan 7.2e mencerminkan hubungan yang
sama kuatnya; mereka berbeda hanya dalam arah mereka. Hal
yang sama berlaku untuk Gambar 7.2c dan 7.2d.
Pencilan
Sama seperti pemeriksaan cepat rentang variabel dapat
mengungkapkan data yang meragukan, plot pencar juga dapat
mengingatkan Anda pada titik data yang mencurigakan. Pada
Gambar 7.1, misalnya, titik data di sudut kanan bawah berdiri
terpisah dari paket, itulah sebabnya kasus seperti itu disebut
outlier. Ini adalah Siswa 26 yang kemampuan matematikanya
sangat rendah (Y 76) meskipun memiliki skor penalaran spasial
yang relatif tinggi (X 86). Perbedaan tersebut mungkin
mencerminkan kesalahan dalam penilaian, "hari libur" untuk
Siswa 26, atau profil kognitif yang tidak biasa. Hanya dengan
melakukan pemeriksaan lebih lanjut pada kasus ini, Anda dapat
mempersempit kemungkinan penjelasan dan, oleh karena itu,
mengambil tindakan yang tepat.1
Perhatikan bahwa Siswa 26 tidak akan menarik perhatian
Anda hanya dengan memeriksa kisaran skor untuk setiap
variabel. Lokasi siswa ini dalam ruang bivariat, bukan univariat,
yang menandakan kemungkinan masalah. Seperti yang akan
Anda lihat, outlier dapat mempengaruhi besarnya koefisien
korelasi.
Nonlinier
Gambar 7.1 menunjukkan hubungan linier antara penalaran
spasial dan kemampuan matematika. Ini tidak berarti bahwa
semua titik data jatuh pada garis lurus, karena dalam kasus ini
tentu saja tidak. Sebaliknya, suatu hubungan dikatakan linier jika
garis lurus secara akurat mewakili konstelasi titik data. Hal ini
memang terjadi pada Gambar 7.1, di mana garis lurus yang
membentang dari sudut kiri bawah ke sudut kanan atas akan
menangkap sifat distribusi bivariat ini. (Gambar 7.2b, 7.2c, 7.2d,
dan 7.2e juga menggambarkan pola linier titik data.)
Sekarang perhatikan Gambar 7.2f, di mana nilai X dan Y
naik bersama untuk sementara, setelah itu Y mulai turun dengan
semakin tinggi nilai X. Ini menggambarkan hubungan lengkung,
dan garis lengkung paling baik menangkap konstelasi titik data
ini. (Gambar 7.2g dan 7.2h juga merupakan contoh pola
lengkung titik data.)
Setidaknya ada dua alasan untuk memeriksa scatterplot Anda untuk penyimpangan dari
linearitas. Pertama, koefisien korelasi Pearson, yang akan kami sajikan segera, adalah ukuran
hubungan linier. Penggunaan statistik ini bermasalah ketika nonlinier hadir. Kedua, kehadiran
nonlinier bisa memberi tahu Anda sesuatu yang penting tentang fenomena yang sedang Anda
selidiki. Misalkan pada Gambar 7.2f bahwa X adalah menit pelajaran IPA per hari untuk masing-
masing 10 ruang kelas dan Y adalah rata-rata pencapaian IPA untuk setiap kelas pada akhir tahun
ajaran. Kurvilinearitas dalam gambar ini dapat menunjukkan bahwa hasil yang semakin berkurang
dalam pencapaian dikaitkan dengan lebih banyak waktu instruksional, sebuah temuan yang akan
memiliki implikasi kebijakan yang penting. Untuk semua alasan ini, memeriksa scatterplot sebelum
menghitung koefisien korelasi harus dianggap sebagai komponen penting dari analisis korelasional.
Selalu plot data Anda!
7.3 Covariance
Cov X XY Y
n7 1
Rumus (7.1), seperti kebanyakan rumus, lebih masuk akal
setelah dipecah dan dipasang kembali. Mari kita mulai dengan
menghitung kovarians, yang melibatkan empat langkah:
Untuk ilustrasi singkat, kami menerapkan Rumus (7.1) untuk skor lima orang:
A 913 4 4 16
B79 20 0
C570 2 0
D 311 2 2 4
E15 4 4 16
XY Y 28 Cov 28 5 5 6
Logika Kovarians
Apa yang dicapai kovarians, dan mengapa? Kita mulai dengan
menyatakan kembali apa artinya dua variabel terkait:
Jika ada hubungan positif antara dua variabel, skor di atas rata-rata pada X cenderung dikaitkan
dengan skor di atas rata-rata pada Y, dan skor di bawah rata-rata pada X cenderung disertai
dengan skor di bawah rata-rata pada Y. Jika ada hubungan negatif antara dua variabel, skor di
atas rata-rata pada X cenderung dikaitkan dengan skor di bawah rata-rata pada Y, dan skor di
bawah rata-rata pada X cenderung disertai dengan skor di atas rata-rata pada Y.
y
t
ili
a
it
a
ht
a
X II: –
140
130
120
110
100
90
80
7.3 Kovarians 113
I: +
Y
70
III: +
IV: –
50 55 60 65 70 75 80 85 90
Penalaran spasial
Gambar 7.3 Empat kuadran hasil silang dari sebuah scatterplot.
distribusi
A
bandingkan
Pertama
B
dan
sempurna Y)
n 30 X 70 SX 9 97
Y 100
SY 14 83
X XY Y 2806 Cov 2806 30 93 53
A9 13 4 4 16 B7 11 2 2 4 C 5 9 00 0 D3 7 2 2 4 E1 5 −4 4
16
X 5
SX 2 828
Y 9
SY 2 828
X XY − Y 40 Cov 40 5 8
X 5
SX 2 828
Y 9
SY 2 828
X XY Y 40 Cov 40 5 8
A9 5 4 −4 16 B9 13 4 4 16 C 5 9 00 0 D1 5 −4 −4 16 E1
13 4 4 −16
X 5
SX 3 578
Y 9
SY 3 578
X XY Y 0 Cov 0 5 0
Keterbatasan Kovarians
Meskipun kami menggunakan tiga set angka yang tidak realistis
pada Tabel 7.3, kami berharap bahwa mereka telah memberi
Anda wawasan tambahan tentang sifat-sifat kovarians. Properti
akhir dari kovarians mengungkapkan mengapa statistik ini tidak
cocok sebagai ukuran umum asosiasi: Besarnya kovarians
tergantung pada skala yang mendasari, atau metrik, dari variabel
yang terlibat.
Misalkan Anda kembali ke distribusi bivariat A pada Tabel
7.3 dan mengubah skala Y dengan menggandakan setiap nilai
(yaitu, Y × 2). Ini tidak akan mengubah hubungan mendasar
antara X dan Y, ingatlah, karena masih akan ada hubungan
positif yang sempurna (yang dapat Anda konfirmasikan dengan
menggambar ulang scatterplot). Namun, kesalahan matematis
Anda menyebabkan efek riak menarik yang pada akhirnya
menghasilkan kovarians dua kali lebih besar dari sebelumnya,
seperti yang diilustrasikan Tabel 7.4. Ini karena menggandakan
setiap nilai Y menyebabkan setiap skor deviasi (Y Y) menjadi
dua kali lipat, yang, pada gilirannya, menyebabkan setiap produk
silang menjadi dua kali lipat. Oleh karena itu, jumlah dari produk
silang ini, (X X)(Y Y), digandakan, seperti halnya kovarians.
Apakah hubungan antara X dan Y yang digandakan entah
bagaimana menjadi lebih kuat daripada hubungan awal
antara X dan Y? Tentu saja tidak—Anda tidak dapat
memperbaiki hubungan garis lurus yang sempurna!
Seperti yang Anda lihat, kovarians sulit untuk ditafsirkan:
Nilainya tidak hanya bergantung pada arah dan kekuatan
hubungan antara dua variabel, tetapi juga pada skala variabel
ini. Jelas, ukuran asosiasi yang lebih berguna diperlukan. Karl
Pearson, dengan bantuan penting dari Sir Francis Galton
dan beberapa orang lain, datang dengan solusi pada tahun
1896.
A9 26 4 8 32
B7 22 2 4 8
C 5 18 0 0 0
D3 14 −2 −4 8
E1 10 4 8 32
X 5
SX 2 828
Y 18
SY 5 657
X XY − Y 80 Cov 80 5 16
r X XY Y n
SX SY
72
Cov
SX SY
r Tabel 7 3a40 5
40 2
81 00 r Tabel 7 480
8
5
8 2 16
1 00
2 828 2 828
Sifat-sifat r
2 828 5 657 2 828 2
16 8 2
Cov SX SY
r
2806 30
9 97 14 83
93 53
147 86 63
Y
r = +1.00
Y
r = +.48
Y
r = –.68
7.5 Perhitungan r: Rumus Penghitungan 119
Y
r = +.86
X
X
Y
r = +.06
X
X
Y
r = –1.00
X
X
Person XY X 2 Y2 XY
n
253 25 45
5
165− 25 2
5 445− 45 2
5
253− 225
625
165− 5 445− 2025
5
28
40 40
28
1600
28
40 70
XYXY
d
b
X
c
Y
a
7.6 Korelasi dan Penyebab 121XY
Z
1. X menyebabkan Y.
2. Y menyebabkan X.
3. Faktor ketiga (Z), atau kompleks dari faktor (a, b, c, d), penyebab X dan Y.
2
Seperti yang diingatkan Huck (2009, hlm. 46–47), pengecualian untuk
pengulangan korelasi-tidak-menyiratkan-penyebab adalah ketika r diterapkan
pada data dari eksperimen terkontrol di mana peserta penelitian secara acak
ditugaskan untuk kondisi pengobatan . Dalam hal ini, r memang dapat
memberikan bukti kausalitas. Karena itu, catatan peringatan kami mengenai
korelasi dan sebab-akibat mengasumsikan penerapan r yang lebih umum, yang
tidak melibatkan eksperimen terkontrol. Sebaliknya, data (misalnya, nilai ujian,
status sosial ekonomi) diambil “sebagaimana adanya”.
122 Bab 7 Korelasi
Linearitas
Kita tidak boleh lupa bahwa r mencerminkan besar dan arah
hubungan linier antara dua variabel. Meskipun sejumlah besar
variabel cenderung menunjukkan hubungan linier, hubungan
nonlinier memang terjadi. Misalnya, ukuran kemampuan mental
dan keterampilan psikomotorik dapat berhubungan secara
lengkung dengan usia jika rentang usia tersebut, katakanlah, 5
hingga 80 tahun.
Sejauh distribusi bivariat menyimpang dari linearitas, r akan di bawah perkiraan hubungan itu.
Y
r = +0,85
X
7,7 Faktor-Faktor yang Mempengaruhi Pearson r 123
Y
r = +0,54
X
(a) (b)
Y
r = +.00
X
(c)
Outliers
Titik data yang tidak sesuai, atau outlier, dapat mempengaruhi
besarnya Pearson r. Sifat efek tergantung pada di mana outlier
berada di scatterplot. Perhatikan teman kita Siswa 26, outlier di
sudut kanan bawah Gambar 7.1. Meskipun titik data tunggal,
Siswa 26 jelas mengurangi tren linier keseluruhan dalam data ini.
Anda benar jika Anda menduga bahwa r akan lebih besar tanpa
orang ini. Memang, dengan Siswa 26 dihapus, r 79 dibandingkan
dengan r 63 asli. Peningkatan r ini akan masuk akal bagi Anda
secara spasial jika Anda mempertimbangkan lokasi outlier pada
Gambar 7.1. Tanpa Siswa 26, "pelukan" kolektif data di sekitar
garis lurus imajiner sedikit lebih erat. Peningkatan r juga harus
masuk akal bagi Anda secara matematis jika Anda
mempertimbangkan efek dari tidak adanya outlier pada
kovarians. Pembilang kovarians menjadi lebih besar dengan
dihilangkannya produk silang negatif yang besar dan kuat untuk
Siswa 26 (−384; Tabel 7.2), yang menghasilkan kovarians yang
lebih besar dan, pada gilirannya, r yang lebih besar.
Menghapus outlier juga dapat mengurangi korelasi; sekali
lagi, itu tergantung di mana titik data berada di scatterplot.
Meskipun jauh di luar cakupan buku ini, ada kriteria statistik
formal untuk membuat keputusan tentang korelasi outlier
( misalnya
Batasan Jangkauan
Ketika kami memperkenalkan definisi "variabel" kembali di Bab
1, kami mengatakan bahwa analisis statistik dapat disabotase
oleh variabel yang tidak cukup bervariasi. Hubungan korelasi
memberikan contoh kasus: Variabilitas adalah korelasi seperti
oksigen adalah api.
Hal lain dianggap sama, variasi terbatas baik X atau Y akan menghasilkan Pearson r yang lebih
rendah daripada yang akan diperoleh jika variabilitas lebih besar.
AP
4.00
3.00
2.00
1.00
40
4.00
3.00
2.00
50 60 65 70
Nilai ujian
(a)
60 65 70 Nilai ujian
(b)
Gambar 7.7 Hubungan bila jarak (a) tidak dibatasi, dan (b) dibatasi.
7.8 Menilai Kekuatan Asosiasi: r2 125
Konteks
Kami telah menunjukkan bagaimana berbagai faktor, sendiri atau
bersama-sama, dapat mempengaruhi besarnya koefisien
korelasi. Pearson r juga akan dipengaruhi oleh instrumen
tertentu yang digunakan. Misalnya, korelasi antara pendapatan
dan "kecerdasan" akan berbeda tergantung pada bagaimana
peneliti mendefinisikan dan mengukur konstruksi yang terakhir.
Karakteristik demografi peserta juga mempengaruhi Pearson r.
Mengingat variabel yang sama diukur dengan instrumen yang
sama, r dapat bervariasi menurut usia, jenis kelamin, SES, dan
karakteristik demografis lainnya dari peserta penelitian.
Karena banyaknya faktor yang mempengaruhi r, maka tidak
ada yang namanya korelasi antara dua variabel. Sebaliknya, r
yang diperoleh harus ditafsirkan dalam pandangan penuh dari
faktor-faktor yang mempengaruhinya dan kondisi tertentu di
mana ia diperoleh. Itulah sebabnya laporan penelitian yang baik
mencakup deskripsi yang cermat tentang ukuran yang
digunakan, peserta yang dipelajari, dan keadaan di mana
korelasi diperoleh. Lakukan hal yang sama!
XY (a) r 2 = 0,0
XY (b) r 2 = .25
Common variance
XY
(c) r 2 = 1,00
7.10 Ringkasan
Menentukan sejauh mana variasi dalam satu variabel terkait dengan variasi lain adalah penting dalam banyak
bidang penyelidikan dalam ilmu perilaku. Pear son r tepat ketika dua variabel kuantitatif berhubungan linier.
Besarnya ditentukan oleh sejauh mana titik data memeluk garis lurus imajiner, dan bervariasi dari r 0 (tidak ada
hubungan linier) hingga r ±1 00 (semua titik terletak pada garis lurus). Kekuatan asosiasi tergantung pada
besarnya r, dan tanda aljabarnya menunjukkan apakah kedua variabel berhubungan positif (langsung) atau
negatif (berbalik). Karena Pearson r memperhitungkan dua standar deviasi, itu tidak terpengaruh oleh
transformasi linear dari skor. Jadi, r adalah sama apakah skor mentah, skor standar, atau persentase yang
digunakan, atau apakah pengukuran dalam sistem metrik atau sistem Inggris.
Banyak faktor yang mempengaruhi besarnya r. Non linieritas dan rentang terbatas masing-masing
cenderung mereduksi r.
Kasus discrepant, atau outlier, juga dapat mempengaruhi r, dan arah efek—apakah r melemah atau diperkuat
—ditentukan oleh lokasi outlier di scatterplot. Penting untuk memeriksa scatterplot untuk bukti nonlinier dan
outlier, dan untuk memeriksa mean dan standar deviasi untuk memastikan variabilitas yang memadai. Kondisi
lain, seperti ukuran khusus yang digunakan dan karakteristik peserta, juga mempengaruhi r. Oleh karena itu,
deskripsi yang baik dari semua faktor ini merupakan bagian penting dari laporan penelitian.
Salah satu interpretasi yang banyak digunakan dari Pearson r adalah dalam istilah r 2 (ukuran ukuran efek),
yang memberikan proporsi varians dalam satu variabel yang diperhitungkan oleh variasi yang lain. Misalnya,
jika korelasi antara dua variabel adalah .40, maka ada 16% varians umum: 16% varians di X dicatat oleh variasi
di Y (dan sebaliknya).
100
90
80
70
s
er
_
n
i
ir
w
60
50
40
30
20
10
70
80 90
100
80
60
H
40
20
20 40
60
MAKAN SIANG
80 100
Gambar 7.10 Scatterplot skor MAKAN SIANG dan MATEMATIKA tingkat kabupaten.
130 Bab 7
E
TI
RW
100 80
60
40
20
0
20 40
60
READ
outlier
80 100
Latihan 131
Latihan
univariat
bivariat
Koefisien korelasi
produk-momen Pearson korelasi
covary
skor berpasangan
scatterplot
distribusi bivariat
titik data
asosiasi
elips
positif (langsung) asosiasi
negatif (terbalik) asosiasi
outlier
hubungan linier
lengkung hubungan
nonlinier
kovarians
crossproduct
Pearson r
korelasi vs. faktor-faktor penyebab yang mempengaruhi r
pembatasan jangkauan
varians umum
koefisien determinasi ukuran efek nondeterminasi
Simbol
XY rr 2 1 r 2