Anda di halaman 1dari 33

BAB 7 

Korelasi 

7.1 Konsep Asosiasi 

Fokus kita sejauh ini adalah pada statistik dan prosedur


univariat, seperti yang berkaitan dengan distribusi frekuensi
variabel, tendensi sentral, dan variabilitas. Anda sekarang
memasuki dunia bivariat, yang berkaitan dengan pemeriksaan
dua variabel secara bersamaan. 
Apakah status sosial ekonomi (SES) siswa berhubungan
dengan kecerdasan siswa tersebut? Apakah skor pada tes
sertifikasi guru ada hubungannya dengan seberapa baik
seseorang akan mengajar? Apakah kemampuan penalaran
spasial berkaitan dengan pemecahan masalah matematika? Apa
hubungan antara pengeluaran per murid dan prestasi akademik?
Masing-masing pertanyaan ini menyangkut hubungan antara
dua variabel. Misalnya, apakah nilai SES yang lebih rendah
dikaitkan dengan nilai IQ yang lebih rendah, sedangkan nilai
SES yang lebih tinggi dikaitkan dengan nilai IQ yang lebih tinggi?
Secara lebih formal, apakah ada korelasi antara SES dan IQ? 
Pertanyaan mendasar ini tidak dapat dijawab dari informasi
univariat saja. Artinya, Anda tidak dapat mengetahui apakah ada
hubungan antara dua variabel dengan memeriksa dua distribusi
frekuensi, rata-rata, atau varians. Anda harus menggunakan
metode bivariat. 
Koefisien korelasi adalah statistik bivariat yang
mengukur derajat hubungan linier antara dua variabel
kuantitatif, dan sangat populer dalam ilmu perilaku. Kami akan
fokus pada ukuran asosiasi tertentu, koefisien korelasi produk-
momen Pearson, karena sangat banyak digunakan. Tetapi hal
pertama yang pertama: Kita mulai dengan mempertimbangkan
representasi grafis dari asosiasi. 

7.2 Distribusi Bivariat dan Scatterplot 

Masalah dalam korelasi dimulai dengan sekumpulan skor


berpasangan. Mungkin nilainya adalah (a) pencapaian
pendidikan orang tua dan (b) pencapaian pendidikan anak-
anaknya. Atau mungkin nilainya adalah (a) IPK SMA dan (b)
prestasi ujian keluar SMA. Perhatikan bahwa "pasangan" dapat
melibatkan dua kelompok yang berbeda, seperti pada contoh
pertama, atau individu yang sama, seperti pada contoh kedua.
Tetapi data selalu terdiri dari skor yang dipasangkan dalam
beberapa cara yang berarti. Pasangan pada contoh pertama
didasarkan pada keanggotaan keluarga, dan pada contoh kedua,
pada identitas individu. Jika skor tidak berpasangan secara
bermakna, hubungan antara kedua variabel tidak dapat diperiksa
dan koefisien korelasi tidak dapat dihitung. 
Pada Tabel 7.1, kami menyajikan skor hipotetis dari tes
penalaran spasial (X) dan tes kemampuan matematika (yang
kami tunjukkan dengan Y) untuk 30 mahasiswa. Siswa 1,
misalnya, memiliki skor masing-masing 85 dan 133 pada dua
ukuran ini. Setelah memindai pasangan skor, Anda mungkin
setuju bahwa tabel ini tidak memungkinkan penentuan yang
cepat dan mudah apakah ada hubungan antara kedua variabel
ini. Apakah nilai yang lebih rendah pada X cenderung disertai
dengan nilai yang lebih rendah pada Y? Sebaliknya, apakah nilai
yang lebih tinggi pada X umumnya ditemukan dengan nilai yang
lebih tinggi pada Y? Dari data tabu lar saja, sangat sulit untuk
mengatakannya. 

Anda telah mempelajari di Bab 3 bahwa tampilan grafik data


mengomunikasikan sifat distribusi univariat dengan lebih cepat
dan jelas. Hal ini juga berlaku ketika distribusi bivariat. Gambar
7.1 menunjukkan data ini dalam bentuk sebar, bisa dibilang
perangkat yang paling informatif untuk menggambarkan
distribusi bivariat. 

Sebuah scatterplot memiliki dua sumbu yang sama panjang,


satu untuk setiap variabel ("bivariat"). Sumbu horizontal pada
Gambar 7.1 mewakili nilai skor pada tes penalaran spasial (X),
dan sumbu vertikal mewakili nilai skor pada tes kemampuan
matematika (Y). Setiap sumbu ditandai sesuai dengan skala
variabel, seperti yang ditunjukkan pada gambar ini, dengan nilai
rendah yang konvergen di mana dua sumbu berpotongan (45
dan 60 dalam kasus ini). Anda benar jika Anda merasakan dari
skala ini bahwa kedua variabel memiliki mean dan standar
deviasi yang berbeda: Skor penalaran spasial umumnya lebih
rendah (X 70 00 vs. Y 100 00) dan lebih sedikit menyebar (S X 9
97 vs. SY 14 83). (Perhatikan bahwa kita baru saja
memperkenalkan Y sebagai simbol mean dari Y. Juga, kita telah
melampirkan subskrip pada standar deviasi untuk membantu
menjaga statistik kita tetap lurus.) 
Setiap titik, atau titik data, mewakili dua nilai siswa secara
bersamaan. Misalnya, titik data di pojok kiri bawah Gambar 7.1
adalah Siswa 12 yang mendapat nilai X 50 dan Y 70; Anda akan
menemukan Siswa 1 di sudut kanan atas (X 85 dan Y 133). 
Yang Anda butuhkan untuk membuat plot sebar adalah
kertas grafik, penggaris, pensil, dan ketelitian saat Anda
memplot setiap titik data. (Perangkat lunak komputer, tentu saja,
adalah alternatif yang sangat nyaman.) Anda harus
mempertimbangkan pemeriksaan scatterplot sebagai bagian
wajib dari pekerjaan korelasional karena informasi visual yang
mereka sampaikan, yang sekarang kita pertimbangkan. 

Asosiasi 
Pertama dan terpenting, sebuah scatterplot mengungkapkan
adanya hubungan antara dua variabel. Semakin kuat hubungan
linier antara dua variabel, semakin banyak titik data
mengelompok sepanjang garis lurus imajiner. Titik data pada
Gambar 7.1 
secara kolektif mengambil bentuk elips, dengan pengecualian
Siswa 26 (tentang siapa kita akan berbicara lebih banyak). Ini
menunjukkan bahwa, sebagai aturan umum, nilai-nilai X
memang "berhubungan dengan" nilai-nilai Y; seperti yang satu
naik, begitu juga yang lain. Perhatikan betapa tak
terhindarkannya kesan visual ini, terutama jika dibandingkan
dengan apa yang dapat disimpulkan oleh mata dari Tabel 7.1.
Gambar 7.2b dan 7.2e juga menggambarkan scatterplot
berbentuk elips. 
Jika tidak ada hubungan antara dua variabel, titik data menyebar
secara acak—seperti ledakan senapan, seperti pada Gambar
7.2a. (Plot sebar ini akan mencirikan hubungan antara,
katakanlah, IQ orang dewasa dan ukuran sepatu.) Jika
hubungan linier sempurna, semua titik data jatuh pada garis
lurus (lihat Gambar 7.2c dan 7.2d). Namun, dalam praktiknya,
seseorang tidak pernah menemukan hubungan yang sempurna. 

Arah 
Jika ada hubungan antara dua variabel, sebar juga akan
menunjukkan arah hubungan. Gambar 7.1 mengilustrasikan
asosiasi positif (langsung): Elips bergerak dari sudut kiri bawah
ke kanan atas. Nilai X yang lebih tinggi dikaitkan dengan nilai Y
yang lebih tinggi, dan nilai X yang lebih rendah dengan nilai Y
yang lebih rendah. Hubungan positif juga digambarkan pada
Gambar 7.2b dan 7.2c. Dalam asosiasi negatif (terbalik),
sebaliknya, titik data bergerak dari sudut kiri atas ke kanan
bawah, seperti yang ditunjukkan pada Gambar 7.2d dan 7.2e.
Nilai X yang lebih tinggi dikaitkan dengan nilai Y yang lebih
rendah, dan nilai X yang lebih rendah dengan nilai Y yang lebih
tinggi. Contoh hubungan negatif adalah jam tanpa tidur (X) dan
perhatian (Y), atau hari tidak masuk sekolah (X) dan nilai rata-
rata (Y). 
Arah suatu hubungan tidak tergantung pada kekuatannya.
Misalnya, Gambar 7.2b dan 7.2e mencerminkan hubungan yang
sama kuatnya; mereka berbeda hanya dalam arah mereka. Hal
yang sama berlaku untuk Gambar 7.2c dan 7.2d. 

Pencilan 
Sama seperti pemeriksaan cepat rentang variabel dapat
mengungkapkan data yang meragukan, plot pencar juga dapat
mengingatkan Anda pada titik data yang mencurigakan. Pada
Gambar 7.1, misalnya, titik data di sudut kanan bawah berdiri
terpisah dari paket, itulah sebabnya kasus seperti itu disebut
outlier. Ini adalah Siswa 26 yang kemampuan matematikanya
sangat rendah (Y 76) meskipun memiliki skor penalaran spasial
yang relatif tinggi (X 86). Perbedaan tersebut mungkin
mencerminkan kesalahan dalam penilaian, "hari libur" untuk
Siswa 26, atau profil kognitif yang tidak biasa. Hanya dengan
melakukan pemeriksaan lebih lanjut pada kasus ini, Anda dapat
mempersempit kemungkinan penjelasan dan, oleh karena itu,
mengambil tindakan yang tepat.1 
Perhatikan bahwa Siswa 26 tidak akan menarik perhatian
Anda hanya dengan memeriksa kisaran skor untuk setiap
variabel. Lokasi siswa ini dalam ruang bivariat, bukan univariat,
yang menandakan kemungkinan masalah. Seperti yang akan
Anda lihat, outlier dapat mempengaruhi besarnya koefisien
korelasi. 

Nonlinier 
Gambar 7.1 menunjukkan hubungan linier antara penalaran
spasial dan kemampuan matematika. Ini tidak berarti bahwa
semua titik data jatuh pada garis lurus, karena dalam kasus ini
tentu saja tidak. Sebaliknya, suatu hubungan dikatakan linier jika
garis lurus secara akurat mewakili konstelasi titik data. Hal ini
memang terjadi pada Gambar 7.1, di mana garis lurus yang
membentang dari sudut kiri bawah ke sudut kanan atas akan
menangkap sifat distribusi bivariat ini. (Gambar 7.2b, 7.2c, 7.2d,
dan 7.2e juga menggambarkan pola linier titik data.) 
Sekarang perhatikan Gambar 7.2f, di mana nilai X dan Y
naik bersama untuk sementara, setelah itu Y mulai turun dengan
semakin tinggi nilai X. Ini menggambarkan hubungan lengkung,
dan garis lengkung paling baik menangkap konstelasi titik data
ini. (Gambar 7.2g dan 7.2h juga merupakan contoh pola
lengkung titik data.) 

Setidaknya ada dua alasan untuk memeriksa scatterplot Anda untuk penyimpangan dari
linearitas. Pertama, koefisien korelasi Pearson, yang akan kami sajikan segera, adalah ukuran
hubungan linier. Penggunaan statistik ini bermasalah ketika nonlinier hadir. Kedua, kehadiran
nonlinier bisa memberi tahu Anda sesuatu yang penting tentang fenomena yang sedang Anda
selidiki. Misalkan pada Gambar 7.2f bahwa X adalah menit pelajaran IPA per hari untuk masing-
masing 10 ruang kelas dan Y adalah rata-rata pencapaian IPA untuk setiap kelas pada akhir tahun
ajaran. Kurvilinearitas dalam gambar ini dapat menunjukkan bahwa hasil yang semakin berkurang
dalam pencapaian dikaitkan dengan lebih banyak waktu instruksional, sebuah temuan yang akan
memiliki implikasi kebijakan yang penting. Untuk semua alasan ini, memeriksa scatterplot sebelum
menghitung koefisien korelasi harus dianggap sebagai komponen penting dari analisis korelasional.
Selalu plot data Anda!

7.3 Covariance 

Scatterplots memang informatif, tetapi itu tidak cukup. Sama


seperti angka tunggal dapat menggambarkan tendensi sentral
atau variabilitas dari distribusi univariat, angka tunggal juga
dapat mewakili derajat dan arah hubungan linier antara dua
variabel. Penting bagi Anda untuk memahami bagaimana hal ini
terjadi, dan untuk alasan ini kita mulai dengan pemeriksaan yang
cermat terhadap kovarians—mesin matematika dari koefisien
korelasi Pearson. 
Sebelum kita memperkenalkan kovarians, kita harus
menekankan bahwa fokus kita terbatas pada pengukuran
hubungan linier. Untungnya, sebagian besar hubungan dalam
ilmu perilaku adalah linier, dan lebih dari 95% koefisien korelasi
yang akan Anda temukan dalam literatur penelitian adalah
koefisien korelasi Pearson (Glass & Hopkins, 1996, hlm. 110).
Namun demikian, selalu penting untuk memeriksa scatterplot
untuk memverifikasi bahwa data Anda memenuhi asumsi
linearitas. 
Sekarang kembali ke kovarians, rumusnya adalah: 
Kovarians 

Cov X XY Y 
n7 1
Rumus (7.1), seperti kebanyakan rumus, lebih masuk akal
setelah dipecah dan dipasang kembali. Mari kita mulai dengan
menghitung kovarians, yang melibatkan empat langkah: 

Langkah 1 Nyatakan setiap X dan Y sebagai skor deviasi: X X dan Y Y. 


Langkah 2 Dapatkan produk dari skor deviasi berpasangan untuk setiap
kasus. Dikenal sebagai produk silang, istilah ini muncul sebagai
(X X)(Y Y) dalam pembilang 
kovarians. 
Langkah 3 Jumlahkan perkalian silang: (X X)(Y Y). 
Langkah 4 Bagilah jumlah ini dengan jumlah pasangan skor, n. 
112 Bab 7 Korelasi

Untuk ilustrasi singkat, kami menerapkan Rumus (7.1) untuk skor lima orang: 

Orang X YX XY − Y (X X)(Y Y) 

A 913 4 4 16 
B79 20 0 
C570 2 0 
D 311 2 2 4 
E15 4 4 16 

XY Y 28 Cov 28 5 5 6 

Tabel ini menunjukkan lima pasang skor mentah, skor deviasi


yang sesuai, dan lima produk silang. Misalnya, dua skor Orang A
adalah X 9 dan Y 13, yang menghasilkan skor deviasi masing-
masing 9 5 4 dan 13−9 4. Produk silang yang sesuai adalah 4 4
16. Lima hasil kali silang berjumlah 28 yang, jika dibagi dengan n
5, menghasilkan kovarians 5,6. Pastikan untuk melacak tanda-
tanda aljabar saat menghitung dan menjumlahkan produk silang.
(Dan ingat: Mengalikan dua angka dengan tanda yang sama
menghasilkan produk positif, sedangkan mengalikan angka yang
memiliki tanda tidak sama memberi Anda hasil negatif.) 

Logika Kovarians 
Apa yang dicapai kovarians, dan mengapa? Kita mulai dengan
menyatakan kembali apa artinya dua variabel terkait: 
Jika ada hubungan positif antara dua variabel, skor di atas rata-rata pada X cenderung dikaitkan
dengan skor di atas rata-rata pada Y, dan skor di bawah rata-rata pada X cenderung disertai
dengan skor di bawah rata-rata pada Y. Jika ada hubungan negatif antara dua variabel, skor di
atas rata-rata pada X cenderung dikaitkan dengan skor di bawah rata-rata pada Y, dan skor di
bawah rata-rata pada X cenderung disertai dengan skor di atas rata-rata pada Y.

Untuk alasan ini, skor deviasi yang sudah dikenal—perbedaan


antara skor dan rata-ratanya—ditampilkan dengan jelas dalam
Rumus (7.1). 
Pada Gambar 7.3, scatterplot asli kami telah dibagi menjadi
empat kuadran dengan dua garis, satu terletak di X dan satu di
Y. Titik data yang terletak di sebelah kanan garis vertikal
memiliki nilai positif (X X) dan yang di sebelah kiri , nilai negatif
dari (X X). Demikian pula, titik data yang terletak di atas garis
horizontal memiliki nilai positif (Y Y) dan di bawahnya, nilai
negatif (Y Y). Untuk sembarang titik data, hasil kali silang akan
positif jika (X X) dan (Y Y) keduanya memiliki tanda yang sama;
jika tidak, produk silang akan negatif. Akibatnya, semua produk
silang akan positif untuk titik data yang berada di kuadran I dan
III dan negatif untuk titik data yang berada di kuadran II dan IV. 
Sekarang kembali ke Formula (7.1). Karena n akan selalu
bilangan positif, tanda aljabar kovarians harus bergantung pada
tanda pembilangnya, (X X)(Y Y). Ketika titik data terkonsentrasi
terutama di 

t
ili

a
 

it
a

ht
a

X II: – 
140

130 

120 

110 

100 

90 

80 
7.3 Kovarians 113

I: + 

70 
III: + 
IV: – 

50 55 60 65 70 75 80 85 90 
Penalaran spasial 
Gambar 7.3 Empat kuadran hasil silang dari sebuah scatterplot. 

(positif) kuadran I dan III, produk silang positif akan melebihi


produk silang negatif dari kuadran II dan IV. Oleh karena itu, (X
X)(Y Y) akan positif, seperti halnya kovarians. Di sisi lain, ketika
titik data terkonsentrasi terutama di (negatif) kuadran II dan IV,
produk silang negatif akan melebihi produk silang positif dari
kuadran I dan III. Sekarang (X X)(Y Y) akan negatif, seperti
halnya kovarians. 
Selanjutnya, besarnya kovarians ditentukan oleh sejauh
mana produk silang dari satu tanda kalah jumlah dengan produk
silang yang membawa tanda lainnya. Semakin besar konsentrasi
titik data hanya dalam dua kuadran (baik I dan III, atau II dan IV),
semakin besar magnitudo (X X)(Y Y) dan, pada gilirannya,
semakin besar kovarians . 
Dari Gambar 7.3, Anda mungkin mengharapkan kovarians
positif. Anda bahkan mungkin mengharapkannya menjadi cukup
besar—bagaimanapun juga, 22 dari 30 titik data termasuk dalam
kuadran positif I dan III. Ayo lihat. 
Pada Tabel 7.2, kami telah memperluas Tabel 7.1 untuk
memasukkan skor deviasi dan produk silang untuk masing-
masing dari 30 siswa. Perhatikan bahwa 22 dari skor deviasi
berpasangan sebenarnya keduanya positif atau keduanya
negatif dan, oleh karena itu, 22 dari produk silangnya positif.
Sekali lagi, individu di atas rata-rata dalam penalaran spasial
cenderung berada di atas rata-rata pada kemampuan
matematika, dan mereka yang di bawah rata-rata pada satu
cenderung berada di bawah rata-rata di sisi lain. Beberapa
produk silang negatif cenderung agak kecil, dengan satu
pengecualian mencolok—pencilan yang disebutkan di atas.
(Lebih lanjut tentang Siswa 26 nanti.) 
Kami kembali menyajikan langkah-langkah untuk
menghitung kovarians, kali ini menggunakan data dari Tabel
7.2: 

Langkah 1 Nyatakan setiap X dan Y sebagai skor deviasi: X X dan Y Y.


Deviasi ini skor ditunjukkan pada dan , masing-masing, pada
Tabel 7.2. Untuk Siswa 1, nilai ini masing-masing adalah 85 70
15 dan 133 100 33. 
Langkah 2 Dapatkan produk silang dari skor deviasi
berpasangan untuk setiap kasus ( ). Sekali lagi untuk Siswa 1,
perkalian silangnya adalah 15 33495. 
114 Bab 7 Korelasi

Langkah 3 Jumlahkan perkalian silang ( ). Di sini, X XY − Y 495 54 


26 2806. 
Langkah 4 Bagilah jumlah perkalian silang dengan n, jumlah
pengamatan berpasangan ( ). Jadi, 2806 30 93 53 Cov. 

Karena kovariansnya adalah 93,53, Anda tahu bahwa penalaran


spasial dan kemampuan matematika terkait sampai tingkat
tertentu dan, lebih jauh lagi, bahwa asosiasi ini positif. Jadi,
seperti yang dijanjikan, kovarians menyampaikan arah dan
kekuatan asosiasi. Kami mengilustrasikan ini lebih lanjut dengan
Tabel 7.3, yang menyajikan data untuk tiga distribusi bivariat
(sangat sederhana) bersama dengan scatterplotnya., yang
hanya berbeda pada distribusi A adalah 
bivariat 

distribusi 

bandingkan 
Pertama 

dan 

sempurna Y) 

1 85 133 15 33 495 2 79 106 9 6 54 3 75 113 5 13 65


4 69 105 1 5 5 5 59 88 11 12 132 6 76 107 6 7 42 7 84
124 14 24 336 8 60 76 10 24 240 9 62 88 8 12 96 
10 67 112 3 12 36 11 77 90 7 10 70 12 50 70 20 30
600 13 76 99 6 1 6 14 63 96 7 4 28 15 72 103 2 3 6 16
77 124 7 24 168 17 67 93 3 7 21 18 71 96 1 4 4 19 58
99 12 1 12 20 63 101 7 1 7 21 51 78 19 22 418 22 68
97 2 3 6 23 88 115 18 15 270 24 75 101 5 1 5 25 71
112 1 12 12 26 86 76 16 24 384 27 69 110 1 10 10 28
54 89 16 −11 176 29 80 112 10 12 120 30 68 87 2 13
26 

n 30 X 70 SX 9 97 
Y 100 
SY 14 83 
X XY Y 2806 Cov 2806 30 93 53 

7.3 Kovarians 115

Tabel 7.3 Tiga Distribusi Bivariat Memiliki Kovarians

Berbeda (a) Distribusi Bivariat A (p erfect positive) 

Orang X YX XY Y (X X)(Y Y) 

A9 13 4 4 16 B7 11 2 2 4 C 5 9 00 0 D3 7 2 2 4 E1 5 −4 4
16 

X 5 
SX 2 828 
Y 9 
SY 2 828 
X XY − Y 40 Cov 40 5 8 

(b) Distribusi Bivariat B (negatif sempurna) 

Orang X YX XY Y (X X)(Y Y) 


A9 5 4 4 16 B7 7 2 2 4 C 5 9 00 0 D3 11 2 2 −4 E1 13 4 4
16 

X 5 
SX 2 828 
Y 9 
SY 2 828 
X XY Y 40 Cov 40 5 8 

(c) Distribusi Bivariat C (tidak ada hubungan linier) 

Orang X YX XY Y (X X)(Y Y) 

A9 5 4 −4 16 B9 13 4 4 16 C 5 9 00 0 D1 5 −4 −4 16 E1
13 4 4 −16 

X 5 
SX 3 578 
Y 9 
SY 3 578 
X XY Y 0 Cov 0 5 0 

116 Bab 7 Korelasi

Asosiasi positif sedangkan distribusi B adalah negatif sempurna


asosiasi. Perhatikan bagaimana perbedaan penting ini muncul
dalam tanda aljabar dari skor deviasi dan perkalian silang. Dalam
distribusi A, hasil kali silang semuanya positif (kecuali 0) karena
dua tanda untuk setiap pasangan skor deviasi setuju. Tetapi lihat
apa yang terjadi pada distribusi B, di mana asosiasinya negatif
sempurna: Tanda-tandanya tidak sesuai dalam setiap pasangan
skor deviasi dan, akibatnya, hasil kali silang semuanya negatif.
Akibatnya, kedua kovarians memiliki nilai absolut yang sama
tetapi tanda aljabar yang berbeda: 8 versus 8. Ketika tidak ada
hubungan antara dua variabel, seperti pada distribusi C, tidak
ada pola tanda yang konsisten. Produk silang positif
menghilangkan produk silang negatif, menghasilkan kovarians 0
—angka yang memuaskan secara intuitif untuk kondisi "tidak ada
hubungan". 

Keterbatasan Kovarians 
Meskipun kami menggunakan tiga set angka yang tidak realistis
pada Tabel 7.3, kami berharap bahwa mereka telah memberi
Anda wawasan tambahan tentang sifat-sifat kovarians. Properti
akhir dari kovarians mengungkapkan mengapa statistik ini tidak
cocok sebagai ukuran umum asosiasi: Besarnya kovarians
tergantung pada skala yang mendasari, atau metrik, dari variabel
yang terlibat. 
Misalkan Anda kembali ke distribusi bivariat A pada Tabel
7.3 dan mengubah skala Y dengan menggandakan setiap nilai
(yaitu, Y × 2). Ini tidak akan mengubah hubungan mendasar
antara X dan Y, ingatlah, karena masih akan ada hubungan
positif yang sempurna (yang dapat Anda konfirmasikan dengan
menggambar ulang scatterplot). Namun, kesalahan matematis
Anda menyebabkan efek riak menarik yang pada akhirnya
menghasilkan kovarians dua kali lebih besar dari sebelumnya,
seperti yang diilustrasikan Tabel 7.4. Ini karena menggandakan
setiap nilai Y menyebabkan setiap skor deviasi (Y Y) menjadi
dua kali lipat, yang, pada gilirannya, menyebabkan setiap produk
silang menjadi dua kali lipat. Oleh karena itu, jumlah dari produk
silang ini, (X X)(Y Y), digandakan, seperti halnya kovarians.
Apakah hubungan antara X dan Y yang digandakan entah
bagaimana menjadi lebih kuat daripada hubungan awal
antara X dan Y? Tentu saja tidak—Anda tidak dapat
memperbaiki hubungan garis lurus yang sempurna! 
Seperti yang Anda lihat, kovarians sulit untuk ditafsirkan:
Nilainya tidak hanya bergantung pada arah dan kekuatan
hubungan antara dua variabel, tetapi juga pada skala variabel
ini. Jelas, ukuran asosiasi yang lebih berguna diperlukan. Karl
Pearson, dengan bantuan penting dari Sir Francis Galton
dan beberapa orang lain, datang dengan solusi pada tahun
1896. 

Tabel 7.4 Pengaruh Kovarians dari Mengalikan Y dengan 2

(Bandingkan dengan Tabel 7.3a) Orang XY × 2 X XY Y (X X)(Y Y) 

A9 26 4 8 32 
B7 22 2 4 8 
C 5 18 0 0 0 
D3 14 −2 −4 8 
E1 10 4 8 32 

X 5 
SX 2 828 
Y 18 
SY 5 657 
X XY − Y 80 Cov 80 5 16 

7.4 The Pearson r 


7.4 The Pearson r 117

Karl Pearson, “seorang pria dengan ambisi tak terpadamkan


untuk pengakuan ilmiah dan jenis dorongan dan tekad yang
telah mengambil alih Hannibal the Alps and Marco Polo to
China” (Stigler, 1986, p. 266), menunjukkan bahwa efek skala ini
ditiadakan jika kovarians dibagi dengan produk dari dua standar
deviasi. Hasilnya adalah ukuran asosiasi skala-independen, dan
dikenal sebagai koefisien korelasi produk-momen Pearson
(Pearson r, singkatnya). 
Pearson r 
(rumus definisi) 

r X XY Y n 
SX SY 
72
Cov 
SX SY 

Sekali lagi, r hanyalah kovarians yang ditempatkan di atas


produk dari dua standar deviasi. Ketika diterapkan pada data
dalam Tabel 7.3a dan 7.4, Rumus (7.2) menghasilkan korelasi
yang identik: r 1 00 dalam setiap kasus. Dengan
membandingkan dua perhitungan di bawah ini, Anda dapat
menghargai keindahan formulasi Pearson. Seperti dapat dilihat,
“penggandaan” pada pembilang dari korelasi kedua (40 × 2)
dapat dihilangkan dengan “penggandaan” pada penyebut
korelasi tersebut (2,828 × 2), jadi r 1 00 dalam kedua contoh: 

r Tabel 7 3a40 5 
40 2 

81 00 r Tabel 7 480 


8 2 16 
1 00 

2 828 2 828 

Sifat-sifat r 
2 828 5 657 2 828 2 
16 8 2 

Sebagai perpanjangan sederhana dari kovarians, Pearson r


berbagi beberapa sifat dasarnya. Terutama, tanda aljabar r
mencerminkan arah hubungan, dan nilai mutlak r mencerminkan
besarnya hubungan ini. Perbedaan utama antara kovarians dan
r adalah perbedaan penting dan menjelaskan keunggulan
Pearson r sebagai ukuran hubungan linier: 
Besarnya r berkisar dari 0 hingga ±1,00, terlepas dari skala kedua variabel.

Ketika tidak ada hubungan, r 0; ketika ada hubungan yang


sempurna, r 1 00 atau 1.00; dan derajat hubungan antara berada
di antara dua ekstrem r ini. Sekali lagi, ini benar terlepas dari
skala variabel. Jika r 35 antara SES dan prestasi akademik
ketika yang terakhir dinyatakan sebagai skor z, maka r akan
menjadi 0,35 jika peneliti memutuskan untuk menggunakan skor
T sebagai gantinya. Ini karena 
118 Bab 7 Korelasi
Pearson r mencerminkan sejauh mana posisi relatif pada X
cocok dengan posisi relatif pada Y. Posisi relatif X dan Y sama
sekali tidak terpengaruh dengan mengubah skor mentah menjadi
persentase atau skor standar, dengan mengubah inci ke
sentimeter, atau dengan melakukan transformasi linier lainnya
pada data. Transformasi linier adalah transformasi di mana
variabel diubah dengan menambahkan konstanta,
mengurangkan konstanta, mengalikan dengan konstanta, atau
membagi dengan konstanta. Seperti yang akan dibuktikan oleh
scatterplot, tingkat dasar dari asosiasi linier tetap sama setelah
transformasi semacam itu; akibatnya, Pearson r tetap sama. 
Seperti halnya kovarians, tanda aljabar r tidak ada
hubungannya dengan kekuatan asosiasi. Jika Anda memperoleh
korelasi r 65 antara perhatian (X) dan jumlah item yang benar
pada ujian akhir (Y), maka korelasi antara perhatian dan jumlah
item yang salah adalah r 65. Derajat hubungan (. 65) identik
dalam kedua kasus; hanya tandanya saja yang berubah. Selalu
pertimbangkan tanda aljabar r dalam konteks variabel yang
dikorelasikan. Kami akan berbicara lebih banyak tentang ini di
Bagian 7.7. 
Dengan pengalaman, Anda akan dapat menilai nilai umum r
dari melihat scatterplot. Gambar 7.4, misalnya, menunjukkan
scatterplot yang sesuai dengan berbagai tingkat korelasi.
Bagaimana dengan Gambar 7.1, Anda mungkin bertanya-tanya?
Korelasi antara penalaran spasial dan kemampuan matematika
adalah r 63, yang ditentukan dengan memasukkan nilai yang
sesuai dari Tabel 7.2: 

Cov SX SY 
r
2806 30 
9 97 14 83 
93 53 
147 86 63 

Rentang nilai r yang mungkin Anda temui dalam praktik akan


tergantung pada sifat fenomena di bidang studi Anda. Secara
umum, korelasi yang lebih besar dari ± 0,70 jarang terjadi dalam
ilmu perilaku, kecuali, katakanlah, seseorang memeriksa korelasi
di antara tes mental. Dan dalam disiplin apa pun Anda tidak
akan menemukan r dari ± 1,00 (kecuali seseorang terlibat dalam
praktik yang meragukan untuk menghubungkan variabel dengan
dirinya sendiri!). 

7.5 Perhitungan r: Rumus Penghitung 

Pearson r dapat ditentukan dengan menggunakan rumus yang


menentukan (Rumus 7.2) atau rumus penghitungan yang setara.
Meskipun pada pandangan pertama perhitungan untuk rumus di
bawah ini mungkin tampak agak rumit, ini jauh lebih mudah
digunakan karena tidak melibatkan skor deviasi yang
membosankan. 
Pearson r 
(rumus perhitungan) 
XY ΣX Y 


7
X2 X 2 3 
Y2 _ Y 2 
n


r = +1.00 


r = +.48 


r = –.68 
7.5 Perhitungan r: Rumus Penghitungan 119

r = +.86 

r = +.06 


r = –1.00 


Gambar 7.4 Scatterplot yang mengilustrasikan derajat korelasi yang berbeda. 

Mari kita hancurkan. Pembilang Rumus (7.3) setara dengan (X


X)(Y Y), jumlah perkalian silang. Dua ekspresi dalam penyebut,
yang berada di bawah radikal ( ), setara dengan SS X dan SSY. 
Metode penghitungan ini diilustrasikan pada Tabel 7.5,
menggunakan data yang Anda temukan di awal Bagian 7.3.
Meskipun jumlah kasus terlalu kecil untuk penggunaan yang
tepat, tabel ini akan berfungsi untuk menggambarkan
perhitungan r. Pertama Anda harus mencari n, X, Y, X 2, Y2, dan
XY. Anda sudah terbiasa dengan tiga istilah pertama, dan istilah
baru tidak perlu dikhawatirkan. X2 dan2 hanya memberitahu Anda
untuk menjumlahkan nilai kuadrat dari X dan Y, masing-masing.
Adapun XY, ini adalah jumlah dari 
120 Bab 7 Korelasi

Tabel 7.5 Suku-suku yang Diperlukan untuk Menentukan


Pearson r Menggunakan Rumus Penghitung 

Person XY X 2 Y2 XY 

A 9 13 81 169 117 B7 9 49 81 63 C5 7 25 49 35 D 3 11 9 121 33


E 1 5 1 25 5 
n 5 X 25 Y 45 X2 165 Y2 445 XY 253 

produk silang dari skor mentah. Sebagai contoh, kami


memperoleh produk XY untuk orang A (117) dengan mengalikan
X 9 dan Y 13. Perkalian silang ini ditambahkan ke produk silang
lainnya untuk menghasilkan XY (253 dalam kasus ini). 
Besaran untuk enam suku ini muncul di bagian bawah kolom
pada Tabel 7.5. Sebaiknya hitung sendiri enam nilai ini, pastikan
Anda mendapatkan angka yang sama seperti yang kita lakukan.
Sekarang dengan hati-hati masukkan nilai-nilai ini ke dalam
Rumus (7.3) dan lakukan operasi: 
XY X Y 


X2 _ X 2 
nY _ Y  
2 2

253 25 45 

165− 25 2 
5 445− 45 2 

253− 225 
625
165− 5 445− 2025 

28 
40 40 
28 
1600 
28 
40 70 

Anda harus berhati-hati untuk membedakan antara X 2 dan (ΣX)2


dan antara Y 2 dan (ΣY)2. Di sini, suku pertama di setiap
pasangan memberitahu Anda untuk mengkuadratkan setiap nilai
dan kemudian mengambil jumlah, sedangkan suku kedua di
setiap pasangan memberitahu Anda untuk menjumlahkan
semua nilai dan kemudian kuadrat jumlahnya. Simbol-simbol ini
mudah membingungkan, jadi berhati-hatilah! 

7.6 Korelasi dan Sebab 

yang penting di sini adalah ini: Korelasi tidak menyiratkan sebab-


akibat. Jangan pernah bingung yang pertama dengan yang
terakhir! Ketika seorang peneliti medis secara eksperimental 

XYXY 



7.6 Korelasi dan Penyebab 121XY 

Gambar 7.5 Kemungkinan alasan adanya korelasi antara X dan Y. 

memvariasikan dosis obat pada sekelompok pasien dan


kemudian menemukan variasi yang sesuai dalam fisiologis
respon, kesimpulannya perbedaan dosis menyebabkan
perbedaan respon. Dalam hal ini, menghubungkan hubungan
kausal masuk akal. Tetapi dengan tidak adanya eksperimen
terkontrol, di mana peserta secara acak ditugaskan ke kelompok
perlakuan yang berbeda, atribusi kausal jauh dari mudah. 
Hal ini terutama berlaku dalam kasus penelitian korelasional.
Seperti yang diilustrasikan Gambar 7.5, ada tiga kemungkinan
penjelasan (selain kebetulan) mengapa ada korelasi antara X
dan Y: 

1. X menyebabkan Y. 
2. Y menyebabkan X. 
3. Faktor ketiga (Z), atau kompleks dari faktor (a, b, c, d), penyebab X dan Y. 

Misalnya, antusiasme guru (X) telah ditemukan berkorelasi


dengan prestasi siswa (Y) dalam penyelidikan yang tak terhitung
jumlahnya: Tingkat antusiasme guru yang lebih rendah dikaitkan
dengan siswa yang lebih rendah prestasi, dan tingkat
antusiasme yang lebih tinggi dengan prestasi siswa yang lebih
tinggi. Apakah korelasi ini menunjukkan sifat menular dari
kesukaan seorang guru terhadap materi pelajaran (XY) atau,
lebih tepatnya, apakah korelasi ini menunjukkan bahwa guru
yang antusias seperti ini karena mereka memiliki banyak siswa
berprestasi (YX) yang bersemangat? Atau mungkin semangat
guru dan prestasi siswa sama-sama disebabkan oleh faktor
ketiga, Z, seperti tingkat dukungan masyarakat terhadap
pendidikan. Koefisien korelasi biasanya bisu sehubungan
dengan mana dari tiga penjelasan yang paling masuk akal. 2 

2
Seperti yang diingatkan Huck (2009, hlm. 46–47), pengecualian untuk
pengulangan korelasi-tidak-menyiratkan-penyebab adalah ketika r diterapkan
pada data dari eksperimen terkontrol di mana peserta penelitian secara acak
ditugaskan untuk kondisi pengobatan . Dalam hal ini, r memang dapat
memberikan bukti kausalitas. Karena itu, catatan peringatan kami mengenai
korelasi dan sebab-akibat mengasumsikan penerapan r yang lebih umum, yang
tidak melibatkan eksperimen terkontrol. Sebaliknya, data (misalnya, nilai ujian,
status sosial ekonomi) diambil “sebagaimana adanya”. 
122 Bab 7 Korelasi

Untuk memahami sepenuhnya bahwa keberadaan korelasi


tidak dapat digunakan untuk menyimpulkan sebab-akibat, kita
hanya perlu mempertimbangkan banyak contoh asosiasi yang
konyol secara kausal. Salah satu favorit kami adalah korelasi
positif yang kuat antara jumlah gereja dalam suatu komunitas
dan insiden kejahatan kekerasan. Kami menyerahkannya pada
imajinasi Anda untuk mencari kemungkinan interpretasi dari
asosiasi ini, tetapi kami percaya bahwa Anda akan
menyimpulkan bahwa variabel ketiga berperan di sini. (Apa yang
mungkin terjadi?) 
Dengan demikian, korelasi yang diperoleh antara X dan Y
tidak selalu berarti bahwa ada hubungan kausal antara kedua
variabel tersebut. Jika seseorang berbicara tentang sebab-
akibat, itu harus berdasarkan alasan logis di atas dan di atas
demonstrasi statistik asosiasi. Prosedur korelasional lanjutan
tertentu mencoba untuk mengatasi keterbatasan koefisien
korelasi bivariat dengan memfaktorkan variabel tambahan dan
menjalankan "kontrol statistik." Korelasi parsial, regresi
berganda, dan pemodelan persamaan struktural adalah contoh
dari prosedur tersebut. Tapi tidak peduli seberapa canggih
analisis statistik, argumen logis sebab dan akibat selalu sangat
penting. Tidak ada pengganti alasan dalam analisis statistik. 

7.7 Faktor-Faktor yang Mempengaruhi Pearson r 

Beberapa faktor utama mempengaruhi besarnya r, selain dari


hubungan yang mendasari kedua variabel tersebut. Akibatnya,
penting untuk mempertimbangkan setiap faktor ketika
melakukan penelitian korelasional dan ketika menilai korelasi
yang dilaporkan oleh orang lain. 

Linearitas 
Kita tidak boleh lupa bahwa r mencerminkan besar dan arah
hubungan linier antara dua variabel. Meskipun sejumlah besar
variabel cenderung menunjukkan hubungan linier, hubungan
nonlinier memang terjadi. Misalnya, ukuran kemampuan mental
dan keterampilan psikomotorik dapat berhubungan secara
lengkung dengan usia jika rentang usia tersebut, katakanlah, 5
hingga 80 tahun. 
Sejauh distribusi bivariat menyimpang dari linearitas, r akan di bawah perkiraan hubungan itu.

Gambar 7.6a dan 7.6b menggambarkan "hubungan" yang


sama kuatnya, satu-satunya perbedaan adalah Gambar 7.6a
mewakili hubungan linier dan Gambar 7.6b, hubungan lengkung.
Tetapi perhatikan perbedaan nilai r (masing-masing 0,85 dan
0,54). Nilai r yang lebih rendah menunjukkan bukan bahwa ada
hubungan yang lebih lemah pada Gambar 7.6b, melainkan ada
hubungan linier yang lebih lemah di sini. Gambar 7.6c
menggambarkan hubungan lengkung sempurna antara X dan Y
—hubungan yang kuat! Dalam kasus ini, bagaimanapun, r 0:
Sama sekali tidak ada hubungan linier antara variabel-variabel
ini. 
Singkatnya, jangan salah mengartikan ketiadaan asosiasi
linier sebagai ketiadaan asosiasi. Kami yakin Anda tidak akan
melakukannya, terutama jika Anda secara rutin memeriksa 


r = +0,85 


7,7 Faktor-Faktor yang Mempengaruhi Pearson r 123


r = +0,54 

(a) (b) 

r = +.00 


(c) 

Gambar 7.6 Pengaruh kelengkungan pada Pearson r. 

scatterplot saat melakukan pekerjaan korelasional.


Bagaimanapun, tidak tepat untuk menggunakan Pearson r ketika
hubungan antara X dan Y sangat lengkung. 

Outliers 
Titik data yang tidak sesuai, atau outlier, dapat mempengaruhi
besarnya Pearson r. Sifat efek tergantung pada di mana outlier
berada di scatterplot. Perhatikan teman kita Siswa 26, outlier di
sudut kanan bawah Gambar 7.1. Meskipun titik data tunggal,
Siswa 26 jelas mengurangi tren linier keseluruhan dalam data ini.
Anda benar jika Anda menduga bahwa r akan lebih besar tanpa
orang ini. Memang, dengan Siswa 26 dihapus, r 79 dibandingkan
dengan r 63 asli. Peningkatan r ini akan masuk akal bagi Anda
secara spasial jika Anda mempertimbangkan lokasi outlier pada
Gambar 7.1. Tanpa Siswa 26, "pelukan" kolektif data di sekitar
garis lurus imajiner sedikit lebih erat. Peningkatan r juga harus
masuk akal bagi Anda secara matematis jika Anda
mempertimbangkan efek dari tidak adanya outlier pada
kovarians. Pembilang kovarians menjadi lebih besar dengan
dihilangkannya produk silang negatif yang besar dan kuat untuk
Siswa 26 (−384; Tabel 7.2), yang menghasilkan kovarians yang
lebih besar dan, pada gilirannya, r yang lebih besar. 
Menghapus outlier juga dapat mengurangi korelasi; sekali
lagi, itu tergantung di mana titik data berada di scatterplot.
Meskipun jauh di luar cakupan buku ini, ada kriteria statistik
formal untuk membuat keputusan tentang korelasi outlier 
( misalnya

, Acton, 1959). Singkatnya, peningkatan koefisien korelasi


bukanlah alasan yang cukup untuk menghilangkan (atau
mempertahankan) sebuah outlier. 

Batasan Jangkauan 
Ketika kami memperkenalkan definisi "variabel" kembali di Bab
1, kami mengatakan bahwa analisis statistik dapat disabotase
oleh variabel yang tidak cukup bervariasi. Hubungan korelasi
memberikan contoh kasus: Variabilitas adalah korelasi seperti
oksigen adalah api. 
Hal lain dianggap sama, variasi terbatas baik X atau Y akan menghasilkan Pearson r yang lebih
rendah daripada yang akan diperoleh jika variabilitas lebih besar.

Pertimbangkan contoh ini. Cara ideal bagi komite


penerimaan universitas untuk menentukan kegunaan nilai tes
standar untuk memprediksi seberapa baik siswa akan
melakukannya di universitas itu adalah ini: Catat nilai tes semua
pelamar, akui semuanya, dan pada akhir tahun pertama,
menentukan korelasi antara nilai tes dan IPK. Namun, dalam
praktiknya, penelitian korelasional pada tes penerimaan dan IPK
perguruan tinggi biasanya didasarkan pada kelompok siswa
yang jauh lebih terpilih yang selamat dari proses penyaringan,
diterima di institusi tersebut, dan menyelesaikan setidaknya satu
periode studi. Sehubungan dengan nilai ujian, maka, para siswa
ini mewakili kelompok yang umumnya kurang bervariasi
daripada kumpulan pelamar (banyak di antaranya ditolak
masuk). Pembatasan jangkauan tersebut akan memiliki efek
penting pada ukuran r. 
Lihat Gambar 7.7a, sebar hipotetis berdasarkan semua
pelamar ke universitas—yaitu, kasus keputusan penerimaan
yang dibuat tanpa memperhatikan nilai ujian. Ini
menggambarkan tingkat hubungan yang moderat antara nilai
ujian dan IPK selanjutnya. Sekarang anggaplah hanya pelamar
dengan nilai ujian di atas 60 yang diterima. Ini adalah grup di
sebelah kanan garis vertikal pada Gambar 7.7a. Gambar 7.7b
menunjukkan scatterplot yang diperoleh hanya berdasarkan
kelompok pelamar yang lebih terpilih ini. (Dua sumbu pada
gambar ini telah dimodifikasi sehingga sebanding dengan
Gambar 7.7a.) Pada Gambar 7.7b, bukti hubungan antara nilai
ujian dan IPK berikutnya jauh lebih lemah; oleh karena itu,
Pearson r untuk data ini akan jauh lebih rendah. Jika panitia
penerimaan hanya menggunakan kelompok terbatas 

AP

4.00 

3.00 

2.00 

1.00 

40 
4.00 

3.00 

2.00 

50 60 65 70 
Nilai ujian 
(a) 

60 65 70 Nilai ujian 
(b) 

Gambar 7.7 Hubungan bila jarak (a) tidak dibatasi, dan (b) dibatasi. 
7.8 Menilai Kekuatan Asosiasi: r2 125

untuk mempelajari efektivitas tes ini, mereka akan meremehkan


nilainya sebagai alat penyaringan untuk digunakan dengan
semua pelamar. 
Dengan demikian, besarnya r tergantung pada derajat
variabilitas dalam X dan Y serta pada hubungan fundamental
antara kedua variabel tersebut. Ini adalah prinsip penting untuk
diingat saat Anda mengkonseptualisasikan masalah penelitian.
Misalnya, jika studi Anda terbatas pada siswa kelas delapan
yang "tidak memenuhi standar" pada tes prestasi negara,
mungkin tidak masuk akal untuk kemudian mengkorelasikan skor
aktual mereka pada tes ini (yang akan membatasi variabilitas)
dengan yang lain. variabel yang menarik. Demikian pula, jika
Anda melakukan penelitian pada siswa berbakat, Anda mungkin
harus berpikir dua kali sebelum menghitung korelasi yang
melibatkan ukuran prestasi akademik umum. Dan jika Anda
adalah petugas penerimaan di universitas yang sangat selektif,
jangan terkejut menemukan bahwa nilai siswa Anda tidak ada
hubungannya dengan nilai SAT atau ACT mereka. 
Pemeriksaan yang cermat terhadap varians dan deviasi
standar, serta plot pencar, akan mengingatkan Anda akan
adanya variabilitas terbatas dalam data Anda. Ini adalah
kebiasaan yang baik untuk dilakukan! 

Konteks 
Kami telah menunjukkan bagaimana berbagai faktor, sendiri atau
bersama-sama, dapat mempengaruhi besarnya koefisien
korelasi. Pearson r juga akan dipengaruhi oleh instrumen
tertentu yang digunakan. Misalnya, korelasi antara pendapatan
dan "kecerdasan" akan berbeda tergantung pada bagaimana
peneliti mendefinisikan dan mengukur konstruksi yang terakhir.
Karakteristik demografi peserta juga mempengaruhi Pearson r.
Mengingat variabel yang sama diukur dengan instrumen yang
sama, r dapat bervariasi menurut usia, jenis kelamin, SES, dan
karakteristik demografis lainnya dari peserta penelitian. 
Karena banyaknya faktor yang mempengaruhi r, maka tidak
ada yang namanya korelasi antara dua variabel. Sebaliknya, r
yang diperoleh harus ditafsirkan dalam pandangan penuh dari
faktor-faktor yang mempengaruhinya dan kondisi tertentu di
mana ia diperoleh. Itulah sebabnya laporan penelitian yang baik
mencakup deskripsi yang cermat tentang ukuran yang
digunakan, peserta yang dipelajari, dan keadaan di mana
korelasi diperoleh. Lakukan hal yang sama! 

7.8 Menilai Kekuatan Asosiasi: r 2 

Seberapa kuat asosiasi yang ditunjukkan oleh koefisien dengan


ukuran tertentu? Kami telah menyebutkan dua cara untuk
menilai kekuatan asosiasi: dalam hal pola yang ditunjukkan oleh
scatterplot dan dalam hal rentang teoretis r dari 0 hingga ±1,00. 
Alasan dan penelitian sebelumnya memberikan cara ketiga
untuk menilai kekuatan asosiasi. Anda tidak dapat menilai
korelasi secara terpisah. Misalnya, cara umum untuk
mengevaluasi "keandalan" beberapa tes standar adalah dengan
memberikan tes kepada sekelompok siswa pada dua
kesempatan dan kemudian mengkorelasikan dua set skor.
Dalam konteks ini, r Pearson dari .20 sangat kecil. Tetapi nilai
yang sama tidak diragukan lagi akan dianggap besar jika
didasarkan pada, katakanlah, kemampuan membaca dan
kepadatan rambut lengan bawah. Selalu menilai besarnya r
dalam pandangan apa yang Anda harapkan untuk menemukan,
berdasarkan alasan dan penelitian sebelumnya. 
Cara keempat untuk mengevaluasi besarnya r agak abstrak
tetapi sangat penting. Misalkan Anda memperoleh r 50 antara
SES dan pemahaman bacaan untuk sampel acak siswa kelas
lima di negara bagian Anda. R ini menunjukkan bahwa
beberapa 
126 Bab 7 Korelasi

perbedaan, atau variasi, dalam SES di antara para siswa ini


terkait dengan perbedaan, atau variasi, dalam skor pemahaman
bacaan mereka. Artinya, skor ini bervariasi: Saat Anda bergerak
melalui rentang SES dari rendah ke tinggi, skor pemahaman
membaca cenderung meningkat juga. Namun kovariasi ini jauh
dari sempurna. Scatterplot untuk r ini akan mengungkapkan
banyak pengecualian individu untuk tren umum: Beberapa siswa
SES rendah akan memiliki skor pemahaman bacaan yang relatif
tinggi, seperti halnya beberapa siswa SES tinggi akan relatif
rendah dalam pemahaman bacaan. Pengecualian ini
menunjukkan bahwa variasi dalam SES tidak dapat dengan
sendirinya "menjelaskan" semua variasi dalam skor pemahaman
bacaan. Memang, beberapa variasi dalam pemahaman
membaca mencerminkan faktor lain (misalnya, motivasi, jenis
kelamin, kebiasaan belajar). 
Berapa banyak variasi dalam pemahaman bacaan yang
dikaitkan dengan variasi dalam SES dan berapa banyak yang
terkait dengan faktor lain? Dengan kata lain, berapa proporsi
varians dalam SES dan pemahaman bacaan yang merupakan
varians umum yang dimiliki oleh kedua variabel? Pertanyaan ini
dijawab dengan mengkuadratkan koefisien korelasi, yang
memberikan koefisien determinasi. 
Koefisien determinasi, r2, adalah proporsi varians bersama yang dimiliki oleh dua variabel.

Dalam contoh ini, r 2 502 25, menunjukkan bahwa 25% dari


varians dalam pemahaman membaca dicatat oleh variasi dalam
SES (dan sebaliknya). Artinya, 25% dari varians dalam dua
variabel ini adalah varians umum. Dengan menghitung selisih 1 r
2
, kita melihat bahwa 75% varians dalam salah satu variabel
dikaitkan dengan faktor-faktor yang sama sekali tidak terkait
dengan variabel lain. Perbedaan ini, cukup masuk akal, disebut
koefisien nondeterminasi. 
Sebuah gambar dapat membantu memperjelas konsep
penting ini. Jika varians di setiap variabel diwakili oleh sebuah
lingkaran, jumlah tumpang tindih antara dua lingkaran sesuai
dengan proporsi varians umum. Karena r 2 0 untuk dua variabel
pada Gambar 7.8a, tidak ada tumpang tindih. Di sini, tidak ada
varians umum antara X dan Y—variasi dalam satu variabel tidak
ada hubungannya dengan variasi yang lain. Dalam 
No common variance Common variance 

XY (a) r 2 = 0,0 

XY (b) r 2 = .25 

Common variance 

XY 

(c) r 2 = 1,00 

Gambar 7.8 Ilustrasi r 2 dan common varians. 


7.10 Rangkuman 127

Gambar 7.8b, r 2 25 dan oleh karena itu kedua variabel


menunjukkan tumpang tindih 25%. Jika X dan Y berkorelasi
sempurna, seperti pada Gambar 7.8c, maka r 2 1 00 dan terjadi
tumpang tindih sempurna. Koefisien determinasi memberikan
penerangan tambahan pada arti dari Pearson r. Korelasi bukan
persentase. Misalnya, korelasi 0,50 tidak mewakili "asosiasi
50%" atau "hubungan 50%". Memang, r 50 dianggap kurang dari
"setengah" kekuatan asosiasi yang ditunjukkan oleh r 100 ketika
kedua korelasi dievaluasi sebagai koefisien determinasi (0,25 vs
1,00). Bahkan, korelasi 0,71 akan diperlukan untuk setengah
varians dalam satu variabel untuk diperhitungkan oleh variasi
yang lain (yaitu, 712 50). 

r2 sebagai "Ukuran Efek" 


Anda telah mempelajari sebelumnya bahwa ukuran "ukuran
efek" dapat dihitung untuk mengevaluasi besarnya perbedaan
antara dua cara (misalnya, lihat Bagian 6.6). Sebenarnya,
ukuran efek adalah istilah umum yang berlaku untuk berbagai
situasi penelitian, kasus perbedaan rata-rata hanya satu
(meskipun secara historis paling menonjol). Koefisien
determinasi juga dianggap sebagai ukuran efek ukuran. Dengan
mengkuadratkan r, kita dapat mengomunikasikan dengan lebih
baik besarnya hubungan antara dua variabel—sebagai jumlah
varians bersama di antara keduanya. Untuk alasan ini, adalah
praktik yang baik untuk memasukkan r2ke dalam penyajian
temuan korelasional. 
7.9 Koefisien Korelasi Lainnya 

Pearson r, seperti yang kami tunjukkan sebelumnya, sejauh ini


merupakan koefisien korelasi yang paling sering digunakan
dalam ilmu perilaku. Tetapi kadang-kadang muncul situasi yang
memerlukan ukuran asosiasi lain—misalnya, ketika ada
kurvalinearitas atau ketika salah satu atau kedua variabel
bersifat dikotomis daripada kontinu. Kami meninggalkan
perawatan prosedur ini untuk buku teks yang lebih maju
(misalnya, Glass & Hopkins, 1996). 

7.10 Ringkasan 

Menentukan sejauh mana variasi dalam satu variabel terkait dengan variasi lain adalah penting dalam banyak
bidang penyelidikan dalam ilmu perilaku. Pear son r tepat ketika dua variabel kuantitatif berhubungan linier.
Besarnya ditentukan oleh sejauh mana titik data memeluk garis lurus imajiner, dan bervariasi dari r 0 (tidak ada
hubungan linier) hingga r ±1 00 (semua titik terletak pada garis lurus). Kekuatan asosiasi tergantung pada
besarnya r, dan tanda aljabarnya menunjukkan apakah kedua variabel berhubungan positif (langsung) atau
negatif (berbalik). Karena Pearson r memperhitungkan dua standar deviasi, itu tidak terpengaruh oleh
transformasi linear dari skor. Jadi, r adalah sama apakah skor mentah, skor standar, atau persentase yang
digunakan, atau apakah pengukuran dalam sistem metrik atau sistem Inggris. 
Banyak faktor yang mempengaruhi besarnya r. Non linieritas dan rentang terbatas masing-masing
cenderung mereduksi r. 
Kasus discrepant, atau outlier, juga dapat mempengaruhi r, dan arah efek—apakah r melemah atau diperkuat
—ditentukan oleh lokasi outlier di scatterplot. Penting untuk memeriksa scatterplot untuk bukti nonlinier dan
outlier, dan untuk memeriksa mean dan standar deviasi untuk memastikan variabilitas yang memadai. Kondisi
lain, seperti ukuran khusus yang digunakan dan karakteristik peserta, juga mempengaruhi r. Oleh karena itu,
deskripsi yang baik dari semua faktor ini merupakan bagian penting dari laporan penelitian. 
Salah satu interpretasi yang banyak digunakan dari Pearson r adalah dalam istilah r 2 (ukuran ukuran efek),
yang memberikan proporsi varians dalam satu variabel yang diperhitungkan oleh variasi yang lain. Misalnya,
jika korelasi antara dua variabel adalah .40, maka ada 16% varians umum: 16% varians di X dicatat oleh variasi
di Y (dan sebaliknya). 

128 Bab 7 Korelasi

Membaca Penelitian: Pembatasan Jangkauan 

Seperti di banyak negara bagian, calon guru di Massachusetts


harus lulus ujian standar untuk mendapatkan sertifikasi
mengajar. Jika gagal, kandidat dapat mengikuti tes lagi.
Scatterplot pada Gambar 7.9 menunjukkan hubungan antara
skor tes awal (April) dan skor tes berikutnya (Juli) pada
Massachusetts Teacher Test (MTT) untuk sampel kandidat yang
mengikuti tes dua kali (setelah gagal pada bulan April). Dalam
studi independen dari tes ini, Haney et al. (1999) melaporkan
korelasi tes-tes ulang yang sangat rendah. Misalnya, korelasi
pada Gambar 7.9 adalah sedikit r 37. Seperti yang dijelaskan
oleh penulis ini, ini sebagian disebabkan oleh pembatasan
jangkauan: 
Ini karena orang yang mendapat nilai 70 atau lebih “lulus” tes dan 
tidak harus mengulangnya kembali untuk disertifikasi sementara. . . . [O] 
data tes ulang kami untuk MTT adalah untuk orang-orang yang mendapat skor di bawah
70 pada 
tes April. Ini mengarah pada satu penjelasan yang mungkin untuk 
korelasi tes-tes ulang yang sangat rendah, yaitu atenuasi koefisien korelasi yang diamati
karena 
pembatasan jangkauan. 
Dalam scatterplot, tanda pembatasan jangkauan adalah ketika
bagian dari elips terlihat seperti telah "dipotong". Ini jelas terjadi
pada Gambar 7.9, di mana ujung kanan atas elips memiliki tepi
lurus yang dapat ditentukan dengan jelas— sesuai dengan skor
kelulusan 70 pada sumbu horizontal. 

100 

90 

80 

70 

er

_
 

n
i

ir

w
 

60 

50 

40 

30 

20 

10 

10 20 30 40 50 60 Nilai penulisan April 

70 
80 90 

Gambar 7.9 Scatterplot April (sumbu horizontal) dan Juli (sumbu


vertikal) nilai MTT secara tertulis (r 37). 
Sumber: Haney, W., Fowler, C., Wheelock, A., Bebell, D., & Malec, N. (11
Februari 1999). Lebih sedikit kebenaran daripada kesalahan? Sebuah studi
independen dari Tes Guru Massachusetts. Arsip Analisis Kebijakan Pendidikan,
7(4). Diperoleh dari http://epaa.asu.edu/ojs/article/view/539. 

Studi Kasus: Masalah Uang 


Studi Kasus: Masalah Uang 129

Data dari 253 distrik sekolah umum diperoleh dari Kantor


Pengawas Instruksi Umum di negara bagian Washington. Data
terdiri dari berbagai informasi demografis dan kinerja siswa,
semuanya dilaporkan di tingkat distrik sekolah. Distrik sekolah,
kemudian, adalah "unit analisis." 
Kami ingin menguji hubungan antara status sosial ekonomi
dan prestasi akademik di kelas empat. Status sosial ekonomi
(SES) didefinisikan sebagai persentase siswa di distrik yang
memenuhi syarat untuk makan siang gratis atau dengan harga
lebih murah, sebuah variabel yang kita sebut LUNCH. Prestasi
akademik didefinisikan sebagai persentase siswa kelas empat di
distrik tersebut yang berprestasi pada atau di atas tingkat “mahir”
dalam matematika (MATEMATIKA), membaca (BACA), menulis
(MENULIS), dan mendengarkan (DENGARKAN) di kelas empat
ujian yang diselenggarakan oleh negara. Fokus awal kami
adalah pada hubungan antara LUNCH dan MATEMATIKA. 
Seperti yang kita harapkan, scatterplot (Gambar 7.10)
menunjukkan hubungan negatif moderat antara LUNCH dan
MATEMATIKA. Artinya, kabupaten yang memiliki lebih sedikit
siswa berpenghasilan rendah cenderung memiliki lebih banyak
siswa yang memiliki nilai mahir atau lebih tinggi dalam
matematika kelas empat. Tentu saja, kebalikannya juga benar:
Daerah yang memiliki lebih banyak siswa berpenghasilan rendah
cenderung memiliki lebih sedikit siswa yang mahir. Pemeriksaan
scatterplot menegaskan bahwa hubungan tersebut linier, tanpa
bukti outlier atau pembatasan jangkauan. 
Kami menghitung r 61, yang konsisten dengan penilaian
visual kami. Mengkuadratkan r menghasilkan koefisien
determinasi, atau proporsi varians yang dibagi antara MATH dan
LUNCH: 61 2 37. Jadi, lebih dari sepertiga varians dalam skor
MATEMATIKA dan skor LUNCH dibagi, atau varians umum.
Meskipun korelasi tidak menyiratkan sebab-akibat, jumlah
varians bersama ini sesuai dengan pengaruh yang diketahui
bahwa faktor sosial ekonomi terhadap prestasi siswa. 

100 
80 

60 

40 

20 

20 40 
60 
MAKAN SIANG 
80 100 

Gambar 7.10 Scatterplot skor MAKAN SIANG dan MATEMATIKA tingkat kabupaten. 
130 Bab 7

Tabel Korelasi 7.6 Matriks Korelasi (n 255 kabupaten) 

MAKAN SIANG MATEMATIKA BACA TULIS DENGARKAN 

MAKAN SIANG 1.00 


MATEMATIKA .61 1.00 
BACA .66 .83 1.00 
TULIS .53 .76 .73 1.00 
DENGARKAN .58 .63 .78 . 57 1.00 

Kami juga tertarik pada hubungan antara LUNCH dan


masing-masing variabel prestasi lainnya, serta hubungan antara
variabel prestasi itu sendiri. Tabel 7.6 menampilkan matriks
korelasi untuk variabel-variabel ini, yang menampilkan semua
kemungkinan korelasi antara LUNCH, MATEMATIKA, READ,
WRITE, dan LIS TEN. Matriks korelasi adalah “simetris”, yang
berarti bahwa koefisien korelasi di kanan atas adalah bayangan
cermin dari koefisien korelasi di kiri bawah. Untuk alasan ini,
hanya satu sisi yang dilaporkan (kiri bawah dalam kasus ini).
String 1,00 sepanjang diagonal hanya mencerminkan korelasi
sempurna antara variabel dengan dirinya sendiri — informasi
yang tidak berguna! 
Kolom pertama koefisien pada Tabel 7.6 memberitahu kita
bahwa LUNCH berkorelasi negatif dengan setiap ukuran
pencapaian, mulai dari terendah r 53 (MENULIS) hingga tertinggi
r 66 (BACA). Sekali lagi, hubungan antara SES dan prestasi
akademik seperti itu tidak hanya terjadi di distrik sekolah
Washington. Ada akumulasi bukti mengenai hubungan yang kuat
antara kekayaan masyarakat dan prestasi siswa. 
Sisa dari Tabel 7.6 menunjukkan korelasi antara ukuran
pencapaian. Seperti yang Anda duga, korelasi-korelasi ini
semuanya positif dan cukup kuat: Sebuah distrik yang memiliki
persentase siswa mahir yang tinggi dalam satu mata pelajaran
(misalnya, matematika) cenderung memiliki persentase siswa
yang mahir dalam mata pelajaran lain yang tinggi (misalnya,
membaca). Dan sebaliknya berlaku juga. 
Kami dikejutkan oleh korelasi yang agak lebih tinggi antara
READ dan MATEMATIKA (r 83) dibandingkan dengan antara
READ dan MENULIS (r 73). Bagaimanapun, orang akan
berharap bahwa membaca dan menulis akan memiliki lebih
banyak kesamaan daripada membaca dan matematika.
Pemeriksaan scatterplot untuk READ and WRITE (Gambar 7.11)
mengungkapkan titik data yang mencurigakan di sudut kanan
bawah, yang, berdasarkan lokasinya, akan menurunkan r. Titik
data ini memang mewakili kombinasi skor yang aneh—sebuah
distrik dengan 90% siswanya mahir membaca (BACA 90),
namun tidak ada siswa yang mahir menulis (MENULIS 0).
Apakah ini kesalahan dalam entri data? Setelah memeriksa data
mentah, kami menemukan bahwa distrik ini hanya mendaftarkan
118 siswa, dan hanya 10 dari mereka yang mengikuti ujian kelas
empat! Data mentah menunjukkan bahwa memang, 9 siswa
mahir membaca dan tidak ada yang mahir menulis. Meskipun
hasil ini masih membingungkan kami, ini lebih dapat dipahami
mengingat beberapa siswa yang diuji. 
Untuk melihat bagaimana distrik yang sangat kecil (dan
membingungkan) ini mempengaruhi korelasi antara READ dan
MENULIS, kami menghilangkan kasus ini dan menghitung ulang
r. Meskipun lebih tinggi, korelasi baru r 77 tetap lebih rendah
daripada korelasi antara READ dan MATEMATIKA (yaitu, r 83).
Sulit untuk menjelaskan keanehan ini dari informasi yang kami
miliki. Misalnya, scatterplot tidak mengungkapkan batasan
jangkauan. Mungkin jawabannya terletak pada reliabilitas tes ini:
Penilaian menulis cenderung kurang dapat diandalkan
dibandingkan tes mata pelajaran lainnya. Hal-hal lain dianggap
sama, korelasi lebih rendah bila didasarkan pada ukuran yang
kurang dapat diandalkan. 

TI

RW
100 80 

60 

40 

20 

20 40 

60 
READ 
outlier 
80 100 
Latihan 131

Gambar 7.11 Scatterplot skor BACA dan TULIS tingkat kabupaten. 

Seperti yang kita amati di Bagian 7.7, penting untuk


menafsirkan korelasi dalam konteks di mana mereka telah
diperoleh. Di sini, misalnya, distrik sekolah adalah unit analisis.
Unit analisis yang berbeda mungkin sangat mempengaruhi
besarnya korelasi ini. Misalnya, korelasi tingkat siswa mungkin
akan lebih rendah daripada yang diperoleh di atas. Juga,
korelasi ini dapat berubah jika SES atau prestasi akademik
didefinisikan secara berbeda. 

Latihan 

Mengidentifikasi, Mendefinisikan, atau Menjelaskan 


Istilah dan Konsep 

univariat 
bivariat 
Koefisien korelasi 
produk-momen Pearson korelasi 
covary 
skor berpasangan 
scatterplot 
distribusi bivariat 
titik data 
asosiasi 
elips 
positif (langsung) asosiasi 
negatif (terbalik) asosiasi 
outlier 
hubungan linier 
lengkung hubungan 
nonlinier 
kovarians 
crossproduct 
Pearson r 
korelasi vs. faktor-faktor penyebab yang mempengaruhi r 
pembatasan jangkauan 
varians umum 
koefisien determinasi ukuran efek nondeterminasi 

Simbol 
XY rr 2 1 r 2 

Anda mungkin juga menyukai