Anda di halaman 1dari 31

Alat univariat yang dibahas dalam bab terakhir dapat

digunakan untuk menggambarkan distribusi variabel


individu. Namun, kami mendapatkan pandangan yang
sangat terbatas, jika kami menganalisis data
multivarian, menetapkan satu variabel pada satu waktu.
Beberapa fitur yang paling penting dan menarik dari
set data ilmu bumi adalah hubungan dan
ketergantungan antara variabel. Kumpulan data Walker
Lake berisi dua variabel kontinu. Gambar 3.1
menunjukkan nilai 100 V yang kita lihat pada Gambar
2.1 bersama dengan nilai U di 100 lokasi yang sama.
Dalam bab ini kita melihat cara-cara menggambarkan
hubungan antara dua variabel ini.
Membandingkan Dua Distribusi
Dalam analisis set data ilmu bumi kita sering ingin
membandingkan dua distribusi. Presentasi histogram
mereka bersama dengan beberapa statistik ringkasan
akan mengungkapkan perbedaan besar. Sayangnya,
jika kedua distribusi sangat mirip, metode
perbandingan ini tidak akan membantu dalam
mengungkap perbedaan halus yang menarik.
Histogram nilai V dan U yang ditunjukkan pada
Gambar 3.1 diberikan pada Gambar 3.2, dan
statistiknya disajikan pada Tabel 3.1. Terdapat
beberapa perbedaan utama: distribusi antara distribusi
kedua variabel. Distribusi U condong positif; distribusi
V, di sisi lain, condong negatif. Juga, nilai-nilai V
umumnya lebih tinggi dari nilai-nilai U, dengan nilai
rata-rata lebih
Gambar 3.1 Peta lokasi relatif dari 100 data V dan U
yang dipilih. Nilai-nilai V adalah tepat di atas simbol
"+" dan U di bawah.
dari lima kali lipat dari U. Median V dan standar
deviasi juga lebih besar dari rekan-rekan U mereka.
Ringkasan statistik yang disediakan pada Tabel 3.1
memungkinkan kita untuk membandingkan, antara lain
- median dan kuartil dari dua distribusi. Perbandingan
yang lebih lengkap dari berbagai quanti1es diberikan
pada Tabel 3. 么 yang menunjukkan kuantil V dan U
untuk beberapa frekuensi kumulatif. Untuk contoh,
entri pertama memberitahu kita bahwa 5% dari nilai V
di bawah 48,1 ppm sementara 5% dari nilai U jatuh di
bawah 3,1 ppm. Median dan kuartil yang kita lihat
sebelumnya pada Tabel 3.1 juga termasuk dalam Tabel
3.2. Kuarti1e pertama, 81,3 ppm untuk Vand 1 也 o
ppm untuk U, sesuai dengan kuantil 0,25; median,
100,5 ppm untuk V dan 18,0 ppm untuk U, sesuai
dengan q.5; dan kuartil atas, 116,8 ppm untuk V dan
25,0 ppm untuk U 會 bersesuaian dengan q. 75.
Untuk perbandingan visual yang baik dari dua
distribusi kita dapat menggunakan grafik yang disebut
plot q-q. Ini biasanya digunakan ketika ada beberapa
alasan untuk mengharapkan distribusi yang sama. Plot
q-q adalah grafik yang diplot dari dua distribusi diplot
ver
Gambar 3.2 Histogram dari nilai-nilai 100 V dalam (a)
dan nilai-nilai 100 U yang sesuai dalam (b).
satu sama lain. Informasi yang disajikan pada Tabel 3.2
disajikan sebagai plot q-q pada Gambar 3.3. Kuantil
dari distribusi V berfungsi sebagai koordinat x ketika
orang-orang dari distribusi U berfungsi sebagai
koordinat yω. Jika dua distribusi yang dibandingkan
memiliki jumlah data yang sama, maka perhitungan
kuantil dari setiap distribusi bukanlah langkah yang
diperlukan dalam membuat plot q-q. Sebagai gantinya,
seseorang dapat mengurutkan nilai data dari masing-
masing distributioll dalam urutan menaik dan plot
pasangan nilai yang sesuai.
Plot q-q dari dua distribusi identik akan diplot sebagai
garis lurus x = y. Untuk distribusi yang sangat mirip,
keberangkatan kecil dari plot q-q dari garis x = y akan
mengungkapkan di mana mereka berbeda. Seperti yang
telah kita catat, distribusi nilai V dan U dalam area
yang dipilih sangat berbeda; oleh karena itu, plot q-q
mereka tidak mendekati garis lurus lil1e U = V.
Gambar 3.2 Histogram dari nilai-nilai 100 V dalam (a)
dan nilai-nilai 100 U yang sesuai dalam (b).
satu sama lain. Informasi yang disajikan pada Tabel 3.2
disajikan sebagai plot q-q pada Gambar 3.3. Kuantil
dari distribusi V berfungsi sebagai koordinat x ketika
orang-orang dari distribusi U berfungsi sebagai
koordinat yω. Jika dua distribusi yang dibandingkan
memiliki jumlah data yang sama, maka perhitungan
kuantil dari setiap distribusi bukanlah langkah yang
diperlukan dalam membuat plot q-q. Sebagai gantinya,
seseorang dapat mengurutkan nilai data dari masing-
masing distributioll dalam urutan menaik dan plot
pasangan nilai yang sesuai.
Plot q-q dari dua distribusi identik akan diplot sebagai
garis lurus x = y. Untuk distribusi yang sangat mirip,
keberangkatan kecil dari plot q-q dari garis x = y akan
mengungkapkan di mana mereka berbeda. Seperti yang
telah kita catat, distribusi nilai V dan U dalam area
yang dipilih sangat berbeda; oleh karena itu, plot q-q
mereka tidak mendekati garis lurus lil1e U = V.
Jika plot q-q dari dua distribusi adalah beberapa garis
lurus selain x
= y, maka kedua distribusi memiliki bentuk yang sama
tetapi lokasi dan penyebarannya mungkin berbeda.
Kami telah mengambil keuntungan dari .prop 哺 erty
ini ketika kami membuat plot probabilitas normal pada
Gambar 2. 往. Faktanya, ini adalah plot qq yang
digunakan untuk membandingkan kuantil dari
distribusi V dengan kuantil dari distribusi normal
standar . Juga,
Gambar 3.3 Plot q-q dari distribusi 100 nilai U khusus
versus nilai 100 V. Perhatikan skala yang berbeda pada
sumbu.
plot probabilitas lognormal yang kami gambar pada
Gambar 2.5 adalah perbandingan dari V kuantil dengan
yang dari distribusi lognormal standar. SinuLity dari
distribusi yang diamati untuk setiap model distribusi
teoritis dapat diperiksa dengan kelurusan plot q-q
mereka.
Plot pencar
Tampilan yang paling umum dari data bivariat adalah
scatterplot, yang merupakan grafik x-y dari data di
mana koordinat x-berkorespondensi dengan nilai satu
variabel dan koordinat-y dengan nilai variabel lainnya.
100 pasang nilai V -U pada Gambar 3.1 ditunjukkan
pada sebar di Gambar 3.4a. Meskipun ada beberapa
hamburan di awan titik, nilai-nilai yang lebih besar dari
V cenderung dikaitkan dengan nilai-nilai yang lebih
besar dari U dan nilai-nilai yang lebih kecil dari V
cenderung dikaitkan dengan nilai-nilai yang lebih kecil
dari U. Selain memberikan kualitatif yang baik rasakan
bagaimana dua variabel terkait, sebar juga berguna
untuk menarik perhatian kita pada data yang
menyimpang. Pada tahap awal studi set data
berkelanjutan spasial perlu untuk memeriksa dan
membersihkan data; Keberhasilan metode estimasi
tergantung pada data yang dapat diandalkan. Bahkan
setelah data
Gambar 3. 是 ScaUerplot 100 U versus nilai V. 100
pasangan data aktual diplot dalam (a). Dalam (b) nilai
V yang ditunjukkan oleh panah telah "secara resmi"
diplot sebagai 14 ppm daripada 143 ppm untuk
menggambarkan kegunaan dari sebar dalam
mendeteksi kesalahan dalam data.
telah dibersihkan, beberapa nilai yang tidak menentu
mungkin berdampak besar pada estimasi. Scatte1'plot
dapat digunakan untuk membantu baik dalam validasi
data awal dan di masa lalu dari hasil 1 yang akan
datang.
Scatte1'plot yang ditunjukkan pada Gambar 3.4a tidak
1 'mengungkapkan setiap e1'1'or jelas dalam nilai V
dan U. The1'e adalah satu titik yang memplot di atas
1'ight co1'ne1 'dari Figu1'e 3.4a dengan nilai U 55 ppm
dan nilai V 143 ppm. Seandainya nilai V secara tidak
sengaja dicatat sebagai 14 ppm, pasangan nilai ini akan
muncul di kiri atas dengan sendirinya, seperti pada
Figu1e 3.4b, dan kecurigaan seseorang akan timbul
oleh pasangan yang tidak biasa itu. Seringkali,
investigasi lebih lanjut dari pasangan yang tidak biasa
seperti itu akan mengungkapkan er1'o1 yang
kemungkinan besar akan kita buat ketika data
dikumpulkan.
Prinsip p1'full p1'ful mendasari konsep kecil ini untuk
menggunakan sebaran 愉 悅 1'plot untuk memeriksa
'e1'ro1'. Kami hanya mengandalkan hubungan genetik
antara kedua variabel untuk memberi tahu kami jika
pasangan nilai tertentu tidak biasa. Dalam contoh yang
diberikan pada paragraf terakhir, kami memperkirakan
nilai V yang terkait dengan nilai U 55 ppm cukup
tinggi, 80 di antara 100 dan 150 ppm. Harapan yang
masuk akal ini datang dari
lihat sisa poin pada scatterplot pada Gambar 3.4b dan
ekstrapolasi perilaku mereka. Di bagian dua buku ini
kami akan menyajikan pendekatan untuk estimasi yang
mengandalkan ide yang sama.
Korelasi Dalam pengertian yang sangat luas, ada tiga
pola yang dapat diamati pada sebar sebaran: variabel-
variabelnya berkorelasi positif, αtind, secara negatif
korelatif, atau tidak berkorelasi. dua variabel
berkorelasi positif jika nilai yang lebih besar dari satu
variabel cenderung dikaitkan dengan nilai yang lebih
besar dari variabel lain 胎, dan juga dengan nilai yang
lebih kecil dari masing-masing variabel. Dalam batuan
berpori, porositas dan permeabilitas biasanya
berkorelasi positif. Jika kita menggambar sebaran
porositas versus permeabilitas, kita akan berharap
untuk melihat nilai porositas yang lebih besar yang
terkait dengan nilai permeabilitas yang lebih besar.
Dua variabel berkorelasi negatif jika nilai-nilai yang
lebih besar dari satu variabel cenderung disatukan
dengan nilai-nilai yang lebih kecil dari yang lain.
Dalam set data geologi, konsentrasi dua elemen utama
seringkali berkorelasi negatif; dalam batu kapur
dolomit, misalnya, peningkatan jumlah kaldum
biasanya menghasilkan penurunan jumlah magnesium.
Kemungkinan terakhir adalah bahwa kedua variabel
tidak berhubungan. Peningkatan satu variabel tidak
memiliki efek yang jelas pada yang lain. Dalam hal ini,
variabel dikatakan tidak berkorelasi. Koefisien
Korelasi. Koefisien korelasi, p, adalah statistik yang
paling umum digunakan untuk merangkum hubungan
antara dua variabel. Dapat dihitung dari: p-b2: i: l (Xi -
mx) (仙 一 saya) 一 σzσν (3.1)
Jumlah data adalah n; Xt, • • •, Xn adalah nilai data
untuk variabel pertama, mx adalah rata-rata mereka,
dan σx adalah standar deviasi mereka;缸 , ..., Yn
adalah nilai data untuk variabel kedua, mu adalah rata-
rata mereka, dan σν, "" y adalah standar deviasi
mereka. The numerator ill Equation 3.1 disebut sebagai
covαr 的 nce ,
dan sering digunakan sebagai ringkasan statistik dari
sebaran. Kovarians antara dua variabel tergantung pada
besarnya nilai data. Jika kita mengambil semua
pasangan V 花 T kita dari Gambar 3.1 dan mengalikan
nilai-nilai mereka dengan 10, sebar plot kita akan tetap
terlihat sama, dengan sumbu dilabelkan sesuai. Namun,
kovarians akan 100 kali lebih besar. Membagi
kovarians dengan standar deviasi dari dua variabel
menjamin bahwa koefisien korelasi akan ~ berada di
antara -1 dan +1, dan memberikan indeks yang tidak
tergantung pada besarnya nilai data. Kovarian 100
pasangan V-U kami adalah 216,1 ppm2, standar
deviasi V adalah 26,2 ppm dan U adalah 9,81 ppm.
Koefisien korelasi antara V dan U oleh karena itu,
adalah 0,84. Koefisien korelasi dan kovarians dapat
dipengaruhi oleh beberapa pasangan yang
menyimpang. Penjajaran yang baik dari beberapa
pasangan ekstrim dapat secara dramatis meningkatkan
koefisien korelasi yang buruk. Sebaliknya, korelasi
yang baik bisa hancur oleh buruknya keselarasan
beberapa pasangan ekstrim. Sebelumnya, pada Gambar
3.4, kami menunjukkan dua scatterplot yang identik
kecuali untuk satu paÌr yang nilai V-nya secara keliru
dicatat sebagai 14 ppm daripada 143 ppm. Koefisien
korelasi: ffientient dari scatterplot yang ditunjukkan
pada Gambar 3.4a adalah nilai yang kami hitung dalam
paragraf sebelumnya, 0,8 也 Dengan perubahan hanya
satu pasangan, scatterplot yang ditunjukkan pada
Gambar 3.4b memiliki koefisien korelasi hanya 0,64.
Koefisien korelasi sebenarnya merupakan ukuran
seberapa dekat nilai-nilai yang diamati jatuh pada garis
lurus. Jika P = +1, maka scatterplot akan menjadi garis
lurus dengan kemiringan positif; jika p = -1, maka
scatterplot akan menjadi garis lurus dengan kemiringan
negatif. Untuk IPL <1 sebar muncul sebagai awan poin
yang menjadi lebih gemuk dan lebih menyebar ketika
IPL menurun dari 1 menjadi O. Penting untuk dicatat
bahwa p memberikan ukuran hubungan lineαr antara
dua variabel. Jika hubungan antara dua variabel tidak
linier, koefisien korelasi mungkin statistik ringkasan
yang sangat buruk. Seringkali berguna untuk
melengkapi koefisien korelasi lillear dengan ukuran
lain dari kekuatan hubungan, koefisien korelasi
pangkat: fficient [1]. Untuk menghitung koefisien
korelasi peringkat, seseorang menggunakan Persamaan
3.1 untuk peringkat nilai data daripada nilai sampel
origillal:
RXi adalah pangkat Xi di antara semua nilai X lainnya
dan biasanya dihitung dengan menyortir nilai x dalam
urutan naik dan melihat di mana setiap nilai jatuh. Nilai
x yang paling rendah akan muncul pertama kali pada
daftar yang disortir dan karenanya akan menerima
peringkat 1; nilai X tertinggi akan muncul terakhir
dalam daftar dan akan menerima pangkat n. RYi
adalah peringkat Yi di antara semua nilai Y lainnya. m
& adalah rata-rata dari semua peringkat R 鈍 , ...,
Rxn dan σ & adalah standar deviasi mereka. mRy
adalah rata-rata dari semua peringkat R 叭, ..., RYn
dan σRy adalah standar deviasi mereka [2]. Perbedaan
besar antara Prank dan ρare sering kali
mengungkapkan tentang lokasi pasangan ekstrem di
scatterplot. Tidak seperti koefisien korelasi tradisional,
koefisien korelasi peringkat tidak sangat dipengaruhi
oleh pasangan ekstrim. Perbedaan besar antara
keduanya mungkin karena lokasi pasangan ekstrem di
sebar. Nilai Prank yang tinggi dan nilai P yang rendah
mungkin disebabkan oleh fakta bahwa beberapa
pasangan yang tidak menentu memiliki efek negatif:
memengaruhi korelasi yang baik. Jika, di sisi lain, itu
adalah P yang cukup tinggi sementara Prlαnk cukup
rendah, maka ada kemungkinan bahwa nilai P yang
tinggi sebagian besar disebabkan oleh pengaruh
beberapa pasangan ekstrim. Untuk sebar yang
ditunjukkan pada Gambar 3.4b, koefisien korelasi
linier adalah 0,64, sedangkan koefisien korelasi
peringkat adalah "0,80. Pasangan menyimpang tunggal
di sudut kiri atas memiliki lebih sedikit pengaruh pada
korelasi peringkat daripada yang dilakukannya. pada
koefisien korelasi tradisional. Perbedaan antara P dan
Prank juga dapat mengungkapkan fitur penting dari
hubungan antara dua variabel. Jika koefisien korelasi
pangkat adalah +1, maka peringkat kedua variabel
tersebut identik: nilai terbesar dari x korespondensi
untuk nilai terbesar dari Y, dan nilai terkecil dari x
sesuai dengan nilai terkecil dari y.Jika koefisien
korelasi peringkat adalah +1, maka hubungan antara x
dan y tidak perlu linier 瓜 Namun, itu adalah monoton,
jika nilai x meningkat, maka nilai y juga meningkat.
Dua variabel yang koefisien korelasi pangkatnya secara
nyata lebih tinggi daripada tradisi mereka sepanjang
tahun, koefisien korelasi dapat menghambat hubungan
nonlinier. le, dua variω ables, X dan Y, yang
dihubungkan oleh persamaan Y = X2 akan memiliki
nilai ρdekat 0 tetapi nilai Prlαnk dari 1. Nilai P
seringkali merupakan indikator yang baik tentang
seberapa sukses kita dalam mencoba untuk
memprediksi nilai dari satu variabel dari yang lain
dengan a 1dalam persamaan ini. Jika IPL besar, maka
untuk a diberi nilai satu variabel, the
variabel lain dibatasi hanya pada kisaran kecil dari nilai
yang mungkin. Di sisi lain, jika IPL kecil, maka
mengetahui nilai dari satu variabel tidak banyak
membantu kita dalam memprediksi nilai yang lain.
Regresi linier
Seperti yang kami catat sebelumnya, hubungan yang
kuat antara dua variabel dapat membantu kami
memprediksi satu variabel jika yang lain diketahui.
Resep paling sederhana untuk tipe prediksi ini adalah
regresi linier, di mana kita mengasumsikan bahwa
ketergantungan satu variabel pada variabel lain dapat
dijelaskan dengan persamaan garis lurus:
y = αx + b (3. 哇)
Kemiringan, α, dan konstanta, b, diberikan oleh:
皂 白 ny -
α
b = my 一 α .mx (3.5)
Kemiringan, 帆 adalah koefisien korelasi dikalikan
dengan rasio standar deviasi, dengan σy menjadi
standar deviasi dari variabel yang kita coba prediksi
dan σx standar deviasi dari variabel yang kita tahu.
Setelah kemiringan diketahui, C011S 胸前? 丸 dapat
dihitung dengan menggunakan sarana dari dua
variabel, mx dan saya. Jika kita menggunakan
pasangan 100 V -U untuk menghitung persamaan
regresi linier untuk memprediksi V dari U, kita
dapatkan
26.2 α = 0.84 一一:. = 2. 君 是 9.81
b = 97.6 - 2.24.19.1 = 54.7 (3.6)
Persamaan kami untuk memprediksi V dari nilai U
yang diketahui adalah
V = 2.2 是 U + 54.7 (3.7)
Pada Gambar 3.5b, baris ini ditumpangkan pada
scatterplot. Meskipun terlihat masuk akal melalui
tengah awan, garis regresi ini tidak terlihat sangat
bagus di ekstrem. Ini pasti akan terlalu tinggi menaksir
nilai yang sangat rendah dari V. Proble.m adalah
asumsi kami bahwa ketergantungan V pada U adalah
linear. Tidak ada garis lurus lain yang lebih baik
daripada yang kami hitung sebelumnya [3]. Persamaan
3.7 memberi kita prediksi1 untuk V jika U diketahui.
Kami mungkin juga tertarik untuk memprediksi U jika
V adalah variabel yang diketahui.
Gambar 3.5 Garis regresi linier ditumpangkan pada
scatterplot. Garis regresi U diberikan V ditunjukkan
pada (a), dan V diberikan U dalam (b).
Pada Persamaan 3.5, y adalah variabel yang tidak
diketahui dan x diketahui, sehingga perhitungan
persamaan regresi 1 tahun yang memprediksi U dari V
adalah:
9,81 α = 0,84 一一.; = 0.314 26.2
b = 19.1 - 0.314.97.6 = 一 11.5 (3.8)
Persamaan regresi linier untuk memprediksi U dari
nilai V yang diketahui adalah kemudian U = 0,314 V -
11,5 (3,9)
Garis regresi ini ditunjukkan pada Gambar 3.5a. Pada
gambar ini kita telah merencanakan U pada sumbu y-a
dan V pada sumbu x untuk menekankan fakta bahwa
U-lah yang tidak diketahui dalam kasus ini. Kami akan
melanjutkan konvensi ini sepanjang buku; untuk plot
sebar di mana ada variabel yang diketahui dan variabel
yang tidak diketahui 峙 , kami akan memplot
variabel yang tidak diketahui pada sumbu y.
Pandangan yang dekat pada Gambar 3.5a dan Gambar
3.5b mengungkapkan bahwa dua garis regresi tidak
sama 叫; memang Persamaan 3.9 bukan hanya
penataan ulang Persamaan 3.7 Garis regresi yang
ditunjukkan pada Gambar 3.5a menimbulkan masalah
yang kita hadapi ketika kita melihat estimasi di bagian
dua. Memperhatikan bahwa garis regresi menyentuh
sumbu x dekat nilai V 35 ppm, mungkin saja
bertanya-tanya apa nilai prediksi U adalah untuk nilai
V sekitar 5 ppm. Tentu saja, garis regresi berlanjut ke
nilai negatif untuk U dan jika kita mengganti nilai 5
ppm untuk V ke Persamaan 3.9 kita mendapatkan nilai
prediksi -6,2 ppm untuk U. Ini jelas merupakan
prediksi konyol; Nilai-nilai U tidak pernah negatif.
Regresi linier shnple tidak menjamin estimasi positif,
jadi di mana akal sehat menentukan bahwa nilai data
selalu positif, adalah tepat untuk menetapkan prediksi
negatif ke 0, atau untuk mempertimbangkan bentuk-
bentuk regresi lain yang menghargai batasan ini.
Conditio 阻 al Expectatio 臨
Rumus untuk menghitung persamaan regresi linier
sangat sederhana tetapi asumsi hubungan garis lurus
mungkin tidak baik. Sebagai contoh, pada Gambar 3.5a
garis regresi tampaknya tidak memadai karena awan
titik memiliki tikungan yang jelas di dalamnya.
Alternatif untuk regresi linier adalah menghitung nilai
rata-rata y untuk rentang x yang berbeda. Pada Tabel
3.3 kami telah menghitung nilai rata-rata V untuk
rentang U yang berbeda. Masing-masing dari 100
pasangan U-V kami telah ditugaskan ke kelas tertentu
berdasarkan nilai U-nya, dan nilai rata-rata V telah
dihitung secara terpisah untuk masing-masing kelas.
Jika kita ingin memprediksi Va1ue V yang tidak
diketahui dari nilai U-nya yang sesuai, kita bisa
menetapkan pasangan baru ke kelas yang tepat
berdasarkan pada i ts yang diketahui nilai U lalu
menggunakan rata-rata dari semua nilai V lainnya dari
itu
kelas yang sama dengan nilai prediksi kami. Ini
menghasilkan kurva prediksi yang terlihat seperti yang
ditunjukkan pada Gambar 3.6. Kurva terputus-putus
karena nilai prediksi V melompat ke nilai baru setiap
kali kita melewati batas kelas U.
Ini adalah jenis kurva e: xpectation bersyarat. Dalam
kelas nilai U tertentu kami telah menghitung nilai yang
diharapkan untuk V. Meskipun "nilai yang diharapkan"
memiliki makna probabilistik yang tepat, itu cukup
untuk tujuan kami di sini untuk memungkinkannya
mempertahankan makna sehari-harinya, "nilai yang
diharapkan diperoleh. " Nilai yang kami harapkan
disebut bersyarat karena mereka hanya baik untuk
rentang nilai U tertentu; jika kita pindah ke kelas di:
fferent, kita mengharapkan nilai yang berbeda. Kurva
langkah tangga yang ditunjukkan pada Gambar 3.6
diperoleh dengan menggerakkan semua kelas U yang
mungkin dan menghitung nilai V yang diharapkan
untuk setiap kelas. Idealnya, dengan sejumlah besar
data, seseorang ingin membuat kurva harapan bersyarat
dengan kelas sebanyak mungkin. Dengan
bertambahnya jumlah kelas, lebar setiap kelas tertentu
akan semakin sempit dan diskontinuitas dalam kurva
ekspektasi bersyarat kami akan semakin kecil. Untuk
membatasi, ketika kita memiliki sejumlah besar kelas
yang sangat sempit, kurva ekspektasi kondisional kita
akan menjadi kurva halus yang akan memberi kita nilai
V yang diharapkan bersyarat ke nilai U yang diketahui.
Ketika kita berbicara tentang kurva ekspektasi
bersyarat kita
Gambar 3.7 Kurva ekspektasi bersyarat yang
ditumpangkan pada scatterplot. Nilai yang dipercepat
dari U yang diberikan V diberikan dalam (a) dan nilai
yang dipercepat dari V yang diberikan U ditunjukkan
pada (b).
biasanya mengacu pada ideallimit ini. Ideallimit ini
akan berfungsi dengan sangat baik sebagai kurva
prediksi, lebih disukai daripada garis regresi linier
karena tidak dibatasi oleh bentuk asumsi apa pun.
Sayangnya, ada banyak masalah praktis dengan
menghitung ideallimit seperti itu. Dari Tabel 3.3 kita
dapat melihat bahwa jika lebar kelas dibuat lebih
sempit, kita akan mulai kehabisan pasangan di kelas
tertinggi dan terendah. Karena jumlah pasangan dalam
setiap kelas menurun 卸 的 , nilai rata-rata V dari
satu kelas ke yang berikutnya menjadi lebih tidak
menentu. Kekeliruan ini juga meningkat karena
korelasi antara kedua variabel semakin buruk. Ada
banyak metode untuk menangani komplikasi praktis
ini. Kami telah mengadopsi satu metode khusus untuk
digunakan di seluruh buku ini [4]. Setiap kali kami
menyajikan kurva ekspektasi bersyarat, itu akan
dihitung menggunakan metode yang, bagi yang
penasaran, dirujuk dalam catatan di elld bab ini. Kami
tidak akan mengandalkan kurva ekspektasi bersyarat
ini untuk prediksi tetapi akan menggunakannya hanya
sebagai ringkasan grafis dari sebar. Seringkali akan
lebih informatif untuk melihat kurva ekspektasi
bersyarat daripada di seluruh scatterplot.
Sama seperti kami memiliki dua garis regresi, satu
untuk memprediksi V dari U, dan satu lagi untuk
memprediksi U dari V, demikian juga ada dua kurva
ekspektasi bersyarat, satu yang memberikan nilai
ekspektasi V diberikan nilai U tertentu dan lainnya
yang memberikan nilai yang diharapkan dari U diberi
nilai tertentu dari V. Pada Gambar 3.7 kami
menunjukkan kurva harapan bersyarat yang dihasilkan
oleh metode khusus kami. Menarik untuk dicatat
bahwa untuk memprediksi V dari U, kurva ekspektasi
bersyarat sangat berbeda dari garis regresi yang
ditunjukkan pada Gambar 3.5b, tetapi untuk prediksi U
dari V, regresi 1ine cukup dekat dengan kurva
ekspektasi bersyarat. Meskipun kurva ekspektasi
bersyarat, dalam beberapa hal, kurva prediksi ideal,
regresi 1 tahun menawarkan alternatif yang sangat
sederhana yang seringkali memadai.
Catatan
[1] Koefisien linear korelasi yang diberikan dalam
Persamaan 3.1 sering disebut dalam statistik 1iteratur
sebagai koefisien korelasi Pearson sedangkan koefisien
korelasi peringkat yang diberikan dalam Persamaan 3.3
sering disebut sebagai koefisien korelasi peringkat
Spearman.
[2] Semua angka dari 1 hingga n àpear di suatu tempat
di set peringkat X, RXl, '. . , Rxn, dan juga di set
peringkat Y, RYb. . . , RYn. Untuk alasan ini, statistik
univariat dari dua set identik. Secara khusus, untuk
nilai n yang besar, nilai mRx dan mRy keduanya
mendekati n / 2, dan nilai-nilai σ dan σky keduanya
mendekati n / 12.
[3] Ada banyak asumsi di dalam teori yang
memandang garis khusus ini sebagai yang terbaik.
Karena pada titik ini kami mengusulkan satu-satunya
alat ini untuk meringkas sebar sebaran, kami menunda
pembahasan asumsi penting ini sampai bagian kedua
buku ini di mana kami membahas secara spesifik
dengan metode yang bertujuan meminimalkan varians
kesalahan estimasi.
[4] Meringkas sebar sebaran dengan kurva harapan
bersyarat seringkali merupakan cara yang berguna
untuk mendefinisikan hubungan nonlinear antara dua
variabel. Seringkali bentuk keseluruhan dari titik cloud
secara jelas mengungkapkan hubungan antara dua
variabel yang dapat lebih akurat dijelaskan oleh kurva
halus yang ditarik melalui cloud
daripada bisa dengan garis lurus. misalnya, scaterplot
dari dan h (biasanya disebut awan variogram), paling
sering mengungkapkan hubungan nonlinear antara, (h)
α dan h yang paling baik digambarkan oleh kurva
halus. Ada sejumlah metode yang dapat digunakan
untuk memperkirakan kurva ekspektasi bersyarat dari
sebar; Algoritma dikenal secara umum sebagai
smoothers. Yang lebih halus yang kami pilih untuk
digunakan di seluruh buku ini didasarkan pada regresi
linier dalam lingkungan geser lokal. Algoritme
menyediakan ukuran lingkungan "optimal" serta opsi
untuk estimasi kurva menggunakan metode yang tahan
terhadap nilai ekstrim. Deskripsi lengkap dari kode
yang lebih halus dengan kode Fortran disediakan
dalam: Friedman, JH dan Stuetzle, W., "Smoothing of
Scatterplots , "Tech. Rep. Proyek Orion 003,
Departemen Statistik, Stanford University, 1982.

Anda mungkin juga menyukai