NIM : 2108202010004
JURUSAN : MAGISTER FISIKA
MATA KULIAH : STATISTIKA
BIVARIATE STATISTICS
(Korelasi Pearson)
A. Tujuan
Analisis bivariat bertujuan untuk memahami hubungan antara dua variabel, x
dan y. baik dengan parameter tunggal seperti koefisien korelasi Pearson untuk
hubungan linier atau dengan persamaan diperoleh dengan analisis regresi.
B. Pendahuluan
Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk
mengukur kekuatan dan arah hubungan linier dari dua veriabel. Dua variabel
dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan
perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang
sebaliknya. Harus diingat bahwa nilai koefisien korelasi yang kecil (tidak
signifikan) bukan berarti kedua variabel tersebut tidak saling
berhubungan. Mungkin saja dua variabel mempunyai keeratan hubungan yang
kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus
hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur
kekuatan hubungan linier dan tidak pada hubungan non linier. Harus diingat
pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu
berarti ada hubungan kausalitas, sebab-akibat.
C. Teori
Koefisien korelasi
Koefisien korelasi yang paling populer adalah koefisien korelasi Pearson
linier (Pearson 1895). Kami memperkirakan koefisien korelasi populasi
dari data sampel, yaitu, kami menghitung koefisien korelasi sampel r,
yang didefinisikan sebagai
di mana n adalah jumlah pasangan xy titik data, sx dan sy adalah standar
deviasi univariat. Pembilang koefisien korelasi Pearson adalah dikenal
sebagai jumlah yang dikoreksi dari produk dari kumpulan data bivariat.
Membagi pembilang dengan (n-1) menghasilkan kovarians.
Karakteristik korelasi
D. Eksplorasi Data
Kita gunakan fungsi corrcoef untuk menghitung koefisien korelasi
Pearson.
corrcoef(meters,age)
fungsi Corrcoef menghitung matriks koefisien korelasi Pearson untuk
semua kemungkinan kombinasi dari dua variabel umur dan meter. Nilai
dari r = 0,9563 menunjukkan bahwa dua variabel usia dan meter
bergantung satu sama lain. Koefisien korelasi Pearson sangat sensitif
terhadap outlier, seperti yang dapat diilustrasikan oleh contoh berikut.
kita buat cluster yang terdistribusi normal dari tiga puluh data dengan
rata-rata nol dan simpangan baku dari satu. Untuk mendapatkan nilai
data yang identik, digunakan angka acak dengan menggunakan
bilangan bulat 10 sebagai seed.
Clear
rng(10)
x = randn(30,1); y = randn(30,1);
plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)
output :
ans =
1.0000 0.0302
0.0302 1.0000
x(31,1) = 5; y(31,1) = 5;
plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)
output :
ans =
1.0000 0.5022
0.5022 1.0000
Dengan meningkatkan nilai (x,y) untuk outlier ini menghasilkan
peningkatan koefisien korelasi.
output :
ans =
1.0000 0.7981
0.7981 1.0000
dan mencapai nilai yang mendekati r=1 jika outlier memiliki nilai
(x,y)=(20,20).
output :
ans =
1.0000 0.9403
0.9403 1.0000
output :
Dalam plot, kita dapat mengamati pola linier yang kuat yang
menunjukkan beberapa hal:
saling ketergantungan antara dua variabel, meter dan usia. Ini
dijelaskan oleh koefisien korelasi Pearson r,
di mana r=1 menunjukkan a korelasi positif sempurna (yaitu,
semakin bertambahnya usia maka semakin bertambah meter),
F.Kesimpulan
Berdasarkan diagram pencar (scatterplot), tampak bahwa sebaran titik-
titik mengikuti pola linier dengan kemiringan positif, yang berarti
terdapat hubungan yang sejalan antara usia dengan kedalaman (meter)
sedimen. Semakin bertambah usia, maka kedalaman sedimen juga
bertambah. Dengan demikian, kita bisa menggunakan koefisien korelasi
untuk menentukan apakah hubungan linier kedua variabel tersebut
bermakna atau tidak. Apabila pola hubungannya tidak linier, kita tidak
tepat menggunakan koefisien korelasi karena nilai r hanya untuk
mengukur kekuatan dan arah hubungan linier antara kedua varibel
kuantitatif.