Anda di halaman 1dari 12

Magister-TP.

Statistika Korelasi Pearson Halaman1


Korelasi Pearson
Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan
untuk mengukur kekuatan dan arah hubungan linier dari dua veriabel.
Dua variabel dikatakan berkorelasi apabila perubahan salah satu
variabel disertai dengan perubahan variabel lainnya, baik dalam arah
yang sama ataupun arah yang sebaliknya. Harus diingat bahwanilai
koefisien korelasi yang kecil (tidak signifikan) bukan berarti kedua
variabel tersebut tidak saling berhubungan. Mungkin saja dua variabel
mempunyai keeratan hubungan yang kuat namun nilai koefisien
korelasinya mendekati nol, misalnya pada kasus hubungan non linier.
Dengan demikian, koefisien korelasi hanya mengukur kekuatan
hubungan linier dan tidak pada hubungan non linier. Harus
diingat pula bahwa adanya hubungan linier yang kuat di antara
variabel tidak selalu berarti ada hubungan kausalitas, sebab-
akibat.
Pendahuluan
Seringkali peneliti mengamati beberapa parameter dari sampling atau
satuan pengamatan yang sama. Sebagai contoh, pada penelitian
pengujian suatu jenis pupuk tertentu, selain mencatat hasil padi,
mungkin juga Peneliti ingin mencatat beberapa respons lainnya, seperti
jumlah bulir, berat 100 biji, jumlah anakan, serapan Nitrogen, serapan
kalium dsb. Apabila hanya terdapat dua variabel yang dicatat,
dikatakan bivariate, sedangkan apabila lebih, dikatakan multivariate.
Variabel yang di catat tersebut nilainya bersifat acak, sehingga
dikatakan sebagai variabel acak. Berbeda dengan dosis pupuk yang
sudah ditentukan sebelumnya, variabel pupuk tersebut bersifat tetap,
sehingga dikatakan variabel tetap. Mungkin saja, selain peneliti ingin
melihat hubungan antara dosis pupuk (faktor) dengan hasil padi
(respons) , dia juga ingin melihat hubungan di antara pasangan
variabel-variabel respons yang dia amati. Apakah peningkatan serapan
nitrogen seiring dengan peningkatan hasil atau justru sebaliknya dan
bagaimanakah pula kekuatan hubungannya? Kekuatan dan arah
hubungan linier di antara kedua variabel tersebut bisa
dijelaskan dengan ukuran statistik yang dinamakan dengan
koefisien korelasi.
Magister-TP.Statistika Korelasi Pearson Halaman2
Eksplorasi data
Sebelum melakukan analisis korelasi antar variabel, sebaiknya kita
mengeksplorasi data tersebut terlebih dahulu secara grafis. Seringkali
kita melihat pola hubungan di antara variabel dengan cara memplotkan
pasangan sampel data tersebut pada diagram kartesian yang disebut
dengan scatterplot atau diagram pencar. Setiap pasangan data (x, y)
diplotkan sebagai titik tunggal.
Contoh diagram pencar dapat dilihat pada gambar berikut.
Secara sepintas kita bisa melihat pola hubungan dari grafik-grafik
tersebut. Pada Grafik a, b, c terlihat bahwa peningkatan nilai y sejalan
dengan peningkatan nilai x. Apabila nilai x meningkat, maka nilai y pun
meningkat, dan sebaliknya. Dari Grafik a sampai c, sebaran titik-titik
pasangan data semakin mendekati bentuk garis lurus yang
menunjukkan bahwa keeratan hubungan antara variabel x dan y
semakin kuat (sinergis).
Magister-TP.Statistika Korelasi Pearson Halaman3
Hal yang sebaliknya terjadi pada Grafik d, e, dan f. Peningkatan nilai y
tidak sejalan dengan peningkatan nilai x (antagonis). Peningkatan
salah satu nilai menyebabkan penurunan nilai pasangannya. Sekali lagi
tampak bahwa kekuatan hubungan antara kedua variabel dari d menuju
f semakin kuat.
Berbeda dengan grafik sebelumnya, pada Grafik g tidak menunjukkan
adanya pola hubungan linier antara kedua variabel. Hal ini menandakan
bahwa tidak ada korelasi di antara kedua variabel tersebut. Terkahir,
pada Grafik h kita bisa melihat adanya pola hubungan di antara kedua
variabel tersebut, hanya saja polanya bukan dalam bentuk hubungan
linier, melainkan dalam bentuk kuadratik.
Kovarian dan Korelasi
Untuk memahami korelasi linier antara dua variabel, terdapat dua
elemen yang harus kita tinjau, mengukur hubungan diantara dua
variabel (kovarian) dan proses standarisasi.
Kovarian
Salah satu ukuran kekuatan hubungan linear antara dua variabel acak
kontinu adalah dengan menentukan seberapa banyak kedua variabel
tersebut co-vary, yaitu bervariasi bersama-sama. Jika salah satu
variabel meningkat (atau menurun) sebagai akibat peningkatan (atau
penurunan) variabel pasangannya, maka dua variabel tersebut
dinamakan covary. Namun jika satu variabel tidak berubah dengan
meningkatnya (atau penurunan) variabel lain, maka variabel tersebut
tidak covary. Statistik untuk mengukur berapa banyak kedua variabel
covary dalam sampel pengamatan adalah kovarian.
Selain mengukur besarnya kekuatan
hubungan di antara dua variabel, kovarian juga menentukan arah
hubungan dari kedua variabel tersebut.
1. Apabila nilainya positif, berati bahwa apabila nilai x berada di atas
nilai rata-ratanya, maka nilai y juga berada di atas nilai rata-rata y,
dan sebaliknya (Searah).
2. Nilai kovarian negatif menunjukkan bahwa apabila nilai x berada
di atas nilai rata-ratanya sedangkan nilai y berada di bawah nilai
rata-ratanya (berlawanan arah).
3. Terakhir, apabila nilai kovarian mendekati nol, menandakan bahwa
kedua variabel tersebut tidak saling berhubungan.
Magister-TP.Statistika Korelasi Pearson Halaman4
Standarisasi
Salah satu keterbatasan kovarian sebagai ukuran kekuatan hubungan
linier adalah arah/besarnya gradien yang tergantung pada satuan dari
kedua variabel tersebut. Misalnya, kovarian antara serapan N (%) dan
Hasil Padi (ton) akan jauh lebih besar apabila satuan % (1/100) kita
konversi ke ppm (1/sejuta). Agar nilai kovarian tidak tergantung
kepada unit dari masing-masing variabel, maka kita harus
membakukannya terlebih dahulu yaitu dengan cara membagi nilai
kovarians tersebut dengan nilai standar deviasi dari kedua variabel
tersebut sehingga nilainya akan terletak antara -1 dan +1. Ukuran
statistik tersebut dikenal dengan Pearson product moment
correlation yang mengukur kekuatan hubungan linier (garis lurus) dari
kedua variabel tersebut. Koefisien korelasi linear kadang-kadang
disebut sebagai koefisien korelasi pearson untuk menghormati Karl
Pearson (1857-1936), yang pertama kali mengembangkan ukuran
statistik ini.
Kovarian:
Standar Deviasi variabel X dan Y:
Korelasi:
Nilai kovarian distandarkan dengan membagi nilai kovarian tersebut
dengan nilai standar deviasi kedua variabel.
atau
atau
Magister-TP.Statistika Korelasi Pearson Halaman5
Koefisien Korelasi
Koefisien korelasi mengukur kekuatan dan arah hubungan linier dari
dua veriabel. Harus diingat bahwa nilai koefisien korelasi yang kecil
(tidak signifikan) bukan berarti kedua variabel tersebut tidak saling
berhubungan. Mungkin saja dua variabel mempunyai keeratan
hubungan yang kuat namun nilai koefisien korelasinya mendekati
nol, misalnya pada kasus hubungan non linier. Dengan
demikian, koefisien korelasi hanya mengukur kekuatan hubungan
linier dan tidak pada hubungan non linier.
Harus diingat pula bahwa adanya hubungan linier yang kuat di
antara variabel tidak selalu berarti ada hubungan kausalitas,
sebab-akibat. Kedua pasang variabel, x dan y bisa saja nilai koefisien
korelasinya tinggi sebagai akibat adanya faktor z. Sebagai contoh, suhu
(x) dengan tekanan udara (y) mungkin saja nilai koefisien korelasinya
tinggi, namun belum tentu keduanya menunjukkan adanya hubungan
sebab akibat (misal, semakin rendah suhu udara maka tekanan udara
akan semakin rendah). Adanya korelasi suhu dan tekanan udara
tersebut bisa saja semata-mata sebagai akibat dari perubahan
ketinggian (z) suatu tempat, semakin tinggi tempat maka baik suhu
ataupun tekanan udara akan semakin menurun. (meskipun secara
teoritis memang terdapat hubungan sebanding antara suhu dan
tekanan: PV = nRT). Dengan demikian, Korelasi hanya
menjelaskan kekuatan hubungan tanpa memperhatikan
hubungan kausalitas, mana yang dipengaruhi dan mana yang
mempengaruhi. Kedua variabel masing-masing bisa berperan
sebagai Variabel X maupun Variabel Y.
Karakteristik korelasi
Nilai r selalu terletak antara -1 dan +1
Nilai r tidak berubah apabila seluruh data baik pada variabel x,
variabel y, atau keduanya dikalikan dengan suatu nilai konstanta (c)
tertetu (asalkan c 0).
Nilai r tidak berubah apabila seluruh data baik pada variabel x,
variabel y, atau keduanya ditambahkan dengan suatu nilai
konstanta (c) tertetu.
Nilai r tidak akan dipengaruhi oleh penentuan mana variabel x dan
mana variabel y. Kedua variabel bisa saling dipertukarkan.
Nilai r hanya untuk mengukur kekuatan hubungan linier, dan tidak
dirancang untuk mengukur hubungan non linier
Magister-TP.Statistika Korelasi Pearson Halaman6
Asumsi
Asumsi untuk analisis korelasi:
1. Sampel data berpasangan (x, y) berasal dari sampel acak dan
merupakan data kuantitatif.
2. Pasangan data (x, y) harus berdistribusi normal.
Harus diingat bahwa analisis korelasi sangat sensitif terhadap data
pencilan (outliers)!
Asumsi bisa dicek secara visual dengan menggunakan:
Boxplots, histograms & univariate scatterplots untuk masing-masing
variabel
Bivariate scatterplots
Apabila tidak memenuhi asumsi misalnya data tidak berdistribusi
normal (atau ada nilai data pencilan), kita bisa menggunakan korelasi
Spearman (Spearman rank correlation), korelasi untuk analisis non-
parametrik.
Koefisien Determinasi
Koefisien korelasi, r, hanya menyediakan ukuran kekuatan dan arah
hubungan linier antara dua variabel. Akan tetapi tidak memberikan
informasi mengenai berapa proporsi keragaman (variasi) variabel
dependen (Y) yang dapat diterangkan atau diakibatkan oleh hubungan
linier dengan nilai variabel independen (X). Nilai r tidak bisa
dibandingkan secara langsung, misalnya kita tidak bisa mengatakan
bahwa nilai r = 0.8 merupakan dua kali lipat dari nilai r =0.4.
Untungnya, nilai kuadrat dari r bisa mengukur secara tepat
rasio/proposi tersebut, dan nilai statistik ini dinamakan dengan
Koefisien Determinasi, r
2
. Dengan demikian, Koefisien Determinasi bisa
didefinisikan sebagai nilai yang menyatakan proporsi keragaman Y yang
dapat diterangkan/dijelaskan oleh hubungan linier antara variabel X dan
Y.
Misalnya, apabila nilai korelasi (r) antara Serapan N dengan hasil = 0.8,
maka r
2
= 0.8 x 0.8 = 0.64=64%. Hal ini berarti bahwa 64%
keragaman Hasil padi bisa diterangkan/dijelaskan oleh tinggi rendahnya
Serapan N. Sisanya, sebesar 36% mungkin disebabkan oleh faktor lain
dan atau error (galat) dari percobaan.
Magister-TP.Statistika Korelasi Pearson Halaman7
Pengujian Koefisien Korelasi
Terdapat dua metode yang biasa digunakan untuk menguji
kebermaknaan koefisien korelasi. Metode pertama dengan
menggunakan Uji-t dan Metode kedua dengan menggunakan tabel r.
Bagan Alir untuk pengujian hipotesis:
Catatan:
Nilai tabel kritis r bisa di lihat pada tabel di bawah ini. Nilai kritis r
selengkapnya bisa di lihat pada link berikut critical-values-of-the-
pearson-correlation-coeffiecient-r:
Magister-TP.Statistika Korelasi Pearson Halaman8
Faktor yang akan mempengaruhi nilai uji korelasi:
Ukuran koefisien korelasi dan ukuran/banyaknya sampel.
Contoh Terapan
Berikut adalah data usia, berat, dan tekanan darah.
Individual Age Weight Systolic Pressure
A 34 45 108
B 43 44 129
C 49 56 126
D 58 57 149
E 64 65 168
F 73 63 161
G 78 55 174
Untuk kasus ini, kita ingin melihat apakah terdapat hubungan linier
antara usia dengan tekanan darah sistolik? Taraf nyata yang digunakan
adalah 5%.
Hipotesis:
H0: = 0 vs H1: 0
Eksplorasi Data
Berdasarkan diagram pencar (scatterplot), tampak bahwa sebaran titik-
titik mengikuti pola linier dengan kemiringan positif, yang berarti
Magister-TP.Statistika Korelasi Pearson Halaman9
terdapat hubungan yang sejalan antara usia dengan tekanan darah
sistolik. Dengan demikian, kita bisa menggunakan koefisien korelasi
untuk menentukan apakah hubungan linier kedua variabel tersebut
bermakna atau tidak. Apabila pola hubungannya tidak linier, kita tidak
tepat menggunakan koefisien korelasi karena nilai r hanya untuk
mengukur kekuatan dan arah hubungan linier antara kedua varibel
kuantitatif.
Asumsi:
Kedua data berasal dari data kuantitatif. Selanjutnya apakah sebaran
kedua variabel berdistribusi normal?
Uji Formal:
H0: data berdistribusi normal
H1: data tidak berdistribusi normal
Interpretasi:
Apabila nilai sig (p-value) 0.05, maka Tolak H0 yang berarti data
tidak berdistribusi normal
Apabila nilai sig (p-value) > 0.05, maka Terima H0 yang berarti data
berdistribusi normal
Pada kasus di atas, nilai p-value untuk kedua variabel > 0.05, sehingga
kita bisa menyimpulkan bahwa data berdistribusi normal.
Tampak bahwa uji normalitas untuk kedua variabel tersebut memenuhi
persyaratan, sebarannya mengikuti distribusi normal, baik dengan
menggunakan Uji Kolmogorov-Smirnov ataupun Shapiro-Wilk.
Magister-TP.Statistika Korelasi Pearson Halaman10
Grafis:
Secara grafis juga tampak bahwa kedua variabel tersebut berdistribusi
normal. Penggunaan box plot untuk melihat apakah sebaran data
berdistribusi normal ataukah tidak, diuraikan pada topik: Mengenal Box
Plot
Perhitungan nilai koefisien korelasi (r)
No Age
(X)
Systolic Pressure
(Y)
X
2
Y
2
XY
1 34 108 1156 11664 3672
2 43 129 1849 16641 5547
3 49 126 2401 15876 6174
4 58 149 3364 22201 8642
5 64 168 4096 28224 10752
6 73 161 5329 25921 11753
7 78 174 6084 30276 13572
Jumlah 399 1015 24279 150803 60112
Rata-
rata
57 145
Magister-TP.Statistika Korelasi Pearson Halaman11
Pengujian Hipotesis
Metode 1:
Tentukan nilai t-tabel dengan taraf nyata ()= 5% dan db = n-2.
Dari tabel distribusi t, kita peroleh: t(0.05/2, 5)= 2.57
Bandingkan t-hitung dengan t-tabel:
Dari hasil perhitungan, kita peroleh nilai t-hitung = 7.30 dan t-tabel =
2.57. Jelas bahwa nilai |t-hitung| > t-tabel sehingga Tolak H0 dan
Terima H1. Dengan demikian, kita bisa menyatakan bahwa terdapat
hubungan linier antara usia dengan tekanan darah sistolik.
Metode 2:
Bandingkan nilai |r| dengan nilai tabel kritis r untuk n = 7. Nilai r pada
tabel kritis = 0.754.
Dari hasil perhitungan, diperoleh nilai r = 0.956. Jelas bahwa |r|>
0.754 sehingga kita bisa menyimpulkan bahwa terdapat hubungan linier
antara usia dengan tekanan darah sistolik.
Output Analisis dengan menggunakan SPSS
Kita bisa menyatakan seperti ini:
Korelasi antara usia dengan tekanan darah sistolik: r(7) = 0.956;
p < 0.01
Magister-TP.Statistika Korelasi Pearson Halaman12
Koefisien Determinasi
Nilai koefisien determinasi diatas menyatakan proporsi keragaman
Tekanan darah sistolik yang dapat diterangkan/dijelaskan oleh
hubungan linier antara variabel usia dan tekanan darah sistolik.
Berdasarkan hasil analisis, kita yakin 95% bahwa sekitar 91% variasi
tinggi rendahnya tekanan darah sistolik ditentukan oleh usia seseorang.