Anda di halaman 1dari 11

NAMA : MUSTIKA NADIA

NIM : 2108202010004
JURUSAN : MAGISTER FISIKA
MATA KULIAH : STATISTIKA

BIVARIATE STATISTICS
(Korelasi Pearson)

A. Tujuan
Analisis bivariat bertujuan untuk memahami hubungan antara dua variabel, x
dan y. baik dengan parameter tunggal seperti koefisien korelasi Pearson untuk
hubungan linier atau dengan persamaan diperoleh dengan analisis regresi.

B. Pendahuluan
Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk
mengukur kekuatan dan arah hubungan linier dari dua veriabel. Dua variabel
dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan
perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang
sebaliknya. Harus diingat bahwa nilai koefisien korelasi yang kecil (tidak
signifikan) bukan berarti kedua variabel tersebut tidak saling
berhubungan. Mungkin saja dua variabel mempunyai keeratan hubungan yang
kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus
hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur
kekuatan hubungan linier dan tidak pada hubungan non linier. Harus diingat
pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu
berarti ada hubungan kausalitas, sebab-akibat.
C. Teori

Gambar 1. Tampilan kumpulan data bivariat.

Gambar 1 menunjukkan tiga puluh titik data mewakili usia sedimen


(dalam kiloyears) pada kedalaman tertentu (dalam meter) di bawah
permukaan sedimen-air. Distribusi gabungan dari dua variabel
menunjukkan hubungan linier antara usia dan kedalaman, yaitu, laju
peningkatan umur sedimen dengan kedalaman adalah konstan. Korelasi
Pearson koefisien (dijelaskan dalam teks) dari r=0,96 mendukung saling
ketergantungan linier yang kuat antara kedua variabel. Regresi linier
menghasilkan persamaan umur = 21.2 + 5.4 kedalaman, menunjukkan
peningkatan umur sedimen 5,4 kyrs per meter kedalaman sedimen
(kemiringan regresi garis).

Koefisien korelasi
Koefisien korelasi yang paling populer adalah koefisien korelasi Pearson
linier (Pearson 1895). Kami memperkirakan koefisien korelasi populasi
dari data sampel, yaitu, kami menghitung koefisien korelasi sampel r,
yang didefinisikan sebagai
di mana n adalah jumlah pasangan xy titik data, sx dan sy adalah standar
deviasi univariat. Pembilang koefisien korelasi Pearson adalah dikenal
sebagai jumlah yang dikoreksi dari produk dari kumpulan data bivariat.
Membagi pembilang dengan (n-1) menghasilkan kovarians.

yang merupakan hasil penjumlahan simpangan data dari sampel, dibagi


dengan (n-1). Salah satu ukuran kekuatan hubungan linear antara dua
variabel acak kontinu adalah dengan menentukan seberapa banyak
kedua variabel tersebut co-vary, yaitu bervariasi bersama-sama. Jika
salah satu variabel meningkat (atau menurun) sebagai akibat
peningkatan (atau penurunan) variabel pasangannya, maka dua variabel
tersebut dinamakan covary. Namun jika satu variabel tidak berubah
dengan meningkatnya (atau penurunan) variabel lain, maka variabel
tersebut tidak covary. Statistik untuk mengukur berapa banyak kedua
variabel covary dalam sampel pengamatan adalah kovarian.
Selain mengukur besarnya kekuatan hubungan di antara dua variabel,
kovarian juga menentukan arah hubungan dari kedua variabel tersebut.

 Koefisien korelasi memiliki nilai berkisar antara -1 sampai dengan


+1.
 Koefisien korelasi bernilai +1 berarti bahwa dua variabel
berkorelasi sempurna antara satu dengan yang lain atau dapat
dikatakan dua variabel tersebut identik. Nilai positif (+)
menunjukkan hubungan dua variabel yang sebanding atau
berbanding lurus.
 Koefisien korelasi bernilai 0 berarti bahwa dua variabel sama
sekali tidak berhubungan/berkaitan satu sama lain.
 Dan koefisien korelasi bernilai negatif (-) berarti bahwa dua
variabel memiliki hubungan yang berbanding terbalik.
Cara populer untuk menguji signifikansi koefisien korelasi Pearson
adalah untuk menentukan probabilitas nilai-r untuk sampel acak dari a
populasi dengan = 0. Signifikansi dari koefisien korelasi dapat
diperkirakan menggunakan t-statistik.

koefisien korelasinya signifikan jika t terhitung lebih besar dari critical t


(n-2 derajat kebebasan, α=0,05). Percobaan ini hanya valid jika kedua
variabel adalah distribusi Gaussian. Koefisien korelasi Pearson sangat
sensitif terhadap gangguan dalam kumpulan data bivariat. Ada beberapa
alternatif untuk koefisien korelasi Pearson, seperti Spearman’s rank
correlation coeffi cient yang diusulkan oleh Psikolog Inggris Charles
Spearman (1863–1945). Koefisien ini dapat digunakan untuk mengukur
ketergantungan statistik antara dua variabel tanpa membutuhkan
asumsi normalitas untuk populasi yang mendasarinya.

Gambar 2. Koefisien korelasi Pearson r untuk berbagai kumpulan sampel


a-b adalah korelasi linier Positif dan negatif, c acak berhamburan tanpa
korelasi linier, d outlier menyebabkan nilai r yang sama seperti a,
hubungan lengkung e menyebabkan r tinggi karena kurva mendekati
garis lurus a, garis lengkung f jelas tidak dijelaskan oleh r.
ukuran korelasi non-parametrik (Spearman 1904, 1910). Lebih-lebih lagi,
karena menggunakan peringkat nilai dalam x dan y daripada numeriknya
nilai, dapat digunakan untuk menemukan korelasi dalam data nonlinier,
dan bahkan dalam data non numerik seperti nama fosil atau jenis batuan
dalam urutan stratigrafi. Setelah mengganti nilai numerik dalam x dan y
dengan peringkatnya (di mana beberapa nilai dalam x dan y diganti
dengan peringkat rata-rata masing-masing) the sampel koefisien korelasi
peringkat Spearman didefinisikan sebagai

di mana di adalah selisih antara pangkat dua variabel. Koefisien korelasi


didasarkan pada peringkat daripada nilai numerik kurang sensitif
terhadap outlier dibandingkan koefisien korelasi Pearson. Alternatif lain
untuk koefisien korelasi Pearson adalah Kendall's koefisien korelasi
peringkat tau yang diusulkan oleh ahli statistik Inggris Maurice Kendall
(1907–1983). Ini juga merupakan ukuran korelasi non-parametrik, mirip
dengan koefisien korelasi peringkat Spearman (Kendall 1938). NS
Koefisien korelasi tau rank Kendall membandingkan peringkat numerik
nilai dalam x dan y, yang berarti total 0,5 n(n-1) pasangan untuk
dibandingkan. Pasangan pengamatan (xi, yi) dan (xj,YJ) dikatakan
konkordan jika barisan untuk kedua pengamatan adalah sama, dan
sumbang jika tidak. Contoh Koefisien korelasi tau rank Kendall
didefinisikan sebagai

dimana P adalah banyaknya pasangan yang serasi dan Q adalah


banyaknya pasangan yang sumbang berpasangan. Koefisien korelasi
Kendall biasanya memiliki nilai yang lebih rendah daripada koefisien
korelasi Spear man.

Karakteristik korelasi

 Nilai r selalu terletak antara -1 dan +1


 Nilai r tidak berubah apabila seluruh data baik pada variabel x,
variabel y, atau keduanya dikalikan dengan suatu nilai konstanta (c)
tertetu (asalkan c ≠ 0).
 Nilai r tidak berubah apabila seluruh data baik pada variabel x,
variabel y, atau keduanya ditambahkan dengan suatu nilai konstanta
(c) tertetu.
 Nilai r tidak akan dipengaruhi oleh penentuan mana variabel x dan
mana variabel y. Kedua variabel bisa saling dipertukarkan.
 Nilai r hanya untuk mengukur kekuatan hubungan linier, dan tidak
dirancang untuk mengukur hubungan non linier

D. Eksplorasi Data
Kita gunakan fungsi corrcoef untuk menghitung koefisien korelasi
Pearson.
corrcoef(meters,age)
fungsi Corrcoef menghitung matriks koefisien korelasi Pearson untuk
semua kemungkinan kombinasi dari dua variabel umur dan meter. Nilai
dari r = 0,9563 menunjukkan bahwa dua variabel usia dan meter
bergantung satu sama lain. Koefisien korelasi Pearson sangat sensitif
terhadap outlier, seperti yang dapat diilustrasikan oleh contoh berikut.

 kita buat cluster yang terdistribusi normal dari tiga puluh data dengan
rata-rata nol dan simpangan baku dari satu. Untuk mendapatkan nilai
data yang identik, digunakan angka acak dengan menggunakan
bilangan bulat 10 sebagai seed.
Clear
rng(10)
x = randn(30,1); y = randn(30,1);
plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)
output :
ans =
1.0000 0.0302
0.0302 1.0000

koefisien korelasi untuk data acak ini sangat rendah

 Sekarang kita masukkan outlier tunggal ke kumpulan data dalam


nilai nilai yang tinggi , (x,y)=(5,5) jauh lebih tinggi dari sebelumnya.

x(31,1) = 5; y(31,1) = 5;
plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)

output :
ans =
1.0000 0.5022
0.5022 1.0000
 Dengan meningkatkan nilai (x,y) untuk outlier ini menghasilkan
peningkatan koefisien korelasi.

x(31,1) = 10; y(31,1) = 10;


plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)

output :
ans =
1.0000 0.7981
0.7981 1.0000
 dan mencapai nilai yang mendekati r=1 jika outlier memiliki nilai
(x,y)=(20,20).

x(31,1) = 20; y(31,1) = 20;


plot(x,y,'o'), axis([-1 20 -1 20]);
corrcoef(x,y)

output :
ans =
1.0000 0.9403
0.9403 1.0000

Contoh berikut mengilustrasikan penggunaan koefisien korelasi dan


menyoroti potensi jebakan saat menggunakan ukuran linier ini. Ini juga
menjelaskan metode resampling yang dapat digunakan untuk
mengeksplorasi tingkat kepercayaan dari estimasi. Data sintetik terdiri
dari dua variabel, usia sedimen dalam kiloyears sebelum sekarang dan
kedalaman bawah antarmuka sedimen-air dalam meter.
Coding :
rng(0)
meters = 20 * rand(30,1);
age = 5.6 * meters + 20;
age = age + 10.* randn(length(meters),1);
plot(meters,age,'o')
axis([0 20 0 140])
agedepth(:,1) = meters;
agedepth(:,2) = age;
agedepth = sortrows(agedepth,1);
save agedepth_1.txt agedepth -ascii
agedepth = load('agedepth_1.txt');
meters = agedepth(:,1);
age = agedepth(:,2);
plot(meters,age,'o')
axis([0 20 0 140])

output :

Dalam plot, kita dapat mengamati pola linier yang kuat yang
menunjukkan beberapa hal:
 saling ketergantungan antara dua variabel, meter dan usia. Ini
dijelaskan oleh koefisien korelasi Pearson r,
 di mana r=1 menunjukkan a korelasi positif sempurna (yaitu,
semakin bertambahnya usia maka semakin bertambah meter),

F.Kesimpulan
Berdasarkan diagram pencar (scatterplot), tampak bahwa sebaran titik-
titik mengikuti pola linier dengan kemiringan positif, yang berarti
terdapat hubungan yang sejalan antara usia dengan kedalaman (meter)
sedimen. Semakin bertambah usia, maka kedalaman sedimen juga
bertambah. Dengan demikian, kita bisa menggunakan koefisien korelasi
untuk menentukan apakah hubungan linier kedua variabel tersebut
bermakna atau tidak. Apabila pola hubungannya tidak linier, kita tidak
tepat menggunakan koefisien korelasi karena nilai r hanya untuk
mengukur kekuatan dan arah hubungan linier antara kedua varibel
kuantitatif.

Anda mungkin juga menyukai