Alat univariat yang dibahas dalam bab terakhir dapat
digunakan untuk menggambarkan distribusi variabel
individu. Namun, kami mendapatkan pandangan yang sangat terbatas, jika kami menganalisis data multivarian, menetapkan satu variabel pada satu waktu. Beberapa fitur yang paling penting dan menarik dari set data ilmu bumi adalah hubungan dan ketergantungan antara variabel. Kumpulan data Walker Lake berisi dua variabel kontinu. Gambar 3.1 menunjukkan nilai 100 V yang kita lihat pada Gambar 2.1 bersama dengan nilai U di 100 lokasi yang sama. Dalam bab ini kita melihat cara-cara menggambarkan hubungan antara dua variabel ini. Membandingkan Dua Distribusi Dalam analisis set data ilmu bumi kita sering ingin membandingkan dua distribusi. Presentasi histogram mereka bersama dengan beberapa statistik ringkasan akan mengungkapkan perbedaan besar. Sayangnya, jika kedua distribusi sangat mirip, metode perbandingan ini tidak akan membantu dalam mengungkap perbedaan halus yang menarik. Histogram nilai V dan U yang ditunjukkan pada Gambar 3.1 diberikan pada Gambar 3.2, dan statistiknya disajikan pada Tabel 3.1. Terdapat beberapa perbedaan utama: distribusi antara distribusi kedua variabel. Distribusi U condong positif; distribusi V, di sisi lain, condong negatif. Juga, nilai-nilai V umumnya lebih tinggi dari nilai-nilai U, dengan nilai rata-rata lebih Gambar 3.1 Peta lokasi relatif dari 100 data V dan U yang dipilih. Nilai-nilai V adalah tepat di atas simbol "+" dan U di bawah. dari lima kali lipat dari U. Median V dan standar deviasi juga lebih besar dari rekan-rekan U mereka. Ringkasan statistik yang disediakan pada Tabel 3.1 memungkinkan kita untuk membandingkan, antara lain - median dan kuartil dari dua distribusi. Perbandingan yang lebih lengkap dari berbagai quanti1es diberikan pada Tabel 3. 么 yang menunjukkan kuantil V dan U untuk beberapa frekuensi kumulatif. Untuk contoh, entri pertama memberitahu kita bahwa 5% dari nilai V di bawah 48,1 ppm sementara 5% dari nilai U jatuh di bawah 3,1 ppm. Median dan kuartil yang kita lihat sebelumnya pada Tabel 3.1 juga termasuk dalam Tabel 3.2. Kuarti1e pertama, 81,3 ppm untuk Vand 1 也 o ppm untuk U, sesuai dengan kuantil 0,25; median, 100,5 ppm untuk V dan 18,0 ppm untuk U, sesuai dengan q.5; dan kuartil atas, 116,8 ppm untuk V dan 25,0 ppm untuk U 會 bersesuaian dengan q. 75. Untuk perbandingan visual yang baik dari dua distribusi kita dapat menggunakan grafik yang disebut plot q-q. Ini biasanya digunakan ketika ada beberapa alasan untuk mengharapkan distribusi yang sama. Plot q-q adalah grafik yang diplot dari dua distribusi diplot ver Gambar 3.2 Histogram dari nilai-nilai 100 V dalam (a) dan nilai-nilai 100 U yang sesuai dalam (b). satu sama lain. Informasi yang disajikan pada Tabel 3.2 disajikan sebagai plot q-q pada Gambar 3.3. Kuantil dari distribusi V berfungsi sebagai koordinat x ketika orang-orang dari distribusi U berfungsi sebagai koordinat yω. Jika dua distribusi yang dibandingkan memiliki jumlah data yang sama, maka perhitungan kuantil dari setiap distribusi bukanlah langkah yang diperlukan dalam membuat plot q-q. Sebagai gantinya, seseorang dapat mengurutkan nilai data dari masing- masing distributioll dalam urutan menaik dan plot pasangan nilai yang sesuai. Plot q-q dari dua distribusi identik akan diplot sebagai garis lurus x = y. Untuk distribusi yang sangat mirip, keberangkatan kecil dari plot q-q dari garis x = y akan mengungkapkan di mana mereka berbeda. Seperti yang telah kita catat, distribusi nilai V dan U dalam area yang dipilih sangat berbeda; oleh karena itu, plot q-q mereka tidak mendekati garis lurus lil1e U = V. Gambar 3.2 Histogram dari nilai-nilai 100 V dalam (a) dan nilai-nilai 100 U yang sesuai dalam (b). satu sama lain. Informasi yang disajikan pada Tabel 3.2 disajikan sebagai plot q-q pada Gambar 3.3. Kuantil dari distribusi V berfungsi sebagai koordinat x ketika orang-orang dari distribusi U berfungsi sebagai koordinat yω. Jika dua distribusi yang dibandingkan memiliki jumlah data yang sama, maka perhitungan kuantil dari setiap distribusi bukanlah langkah yang diperlukan dalam membuat plot q-q. Sebagai gantinya, seseorang dapat mengurutkan nilai data dari masing- masing distributioll dalam urutan menaik dan plot pasangan nilai yang sesuai. Plot q-q dari dua distribusi identik akan diplot sebagai garis lurus x = y. Untuk distribusi yang sangat mirip, keberangkatan kecil dari plot q-q dari garis x = y akan mengungkapkan di mana mereka berbeda. Seperti yang telah kita catat, distribusi nilai V dan U dalam area yang dipilih sangat berbeda; oleh karena itu, plot q-q mereka tidak mendekati garis lurus lil1e U = V. Jika plot q-q dari dua distribusi adalah beberapa garis lurus selain x = y, maka kedua distribusi memiliki bentuk yang sama tetapi lokasi dan penyebarannya mungkin berbeda. Kami telah mengambil keuntungan dari .prop 哺 erty ini ketika kami membuat plot probabilitas normal pada Gambar 2. 往. Faktanya, ini adalah plot qq yang digunakan untuk membandingkan kuantil dari distribusi V dengan kuantil dari distribusi normal standar . Juga, Gambar 3.3 Plot q-q dari distribusi 100 nilai U khusus versus nilai 100 V. Perhatikan skala yang berbeda pada sumbu. plot probabilitas lognormal yang kami gambar pada Gambar 2.5 adalah perbandingan dari V kuantil dengan yang dari distribusi lognormal standar. SinuLity dari distribusi yang diamati untuk setiap model distribusi teoritis dapat diperiksa dengan kelurusan plot q-q mereka. Plot pencar Tampilan yang paling umum dari data bivariat adalah scatterplot, yang merupakan grafik x-y dari data di mana koordinat x-berkorespondensi dengan nilai satu variabel dan koordinat-y dengan nilai variabel lainnya. 100 pasang nilai V -U pada Gambar 3.1 ditunjukkan pada sebar di Gambar 3.4a. Meskipun ada beberapa hamburan di awan titik, nilai-nilai yang lebih besar dari V cenderung dikaitkan dengan nilai-nilai yang lebih besar dari U dan nilai-nilai yang lebih kecil dari V cenderung dikaitkan dengan nilai-nilai yang lebih kecil dari U. Selain memberikan kualitatif yang baik rasakan bagaimana dua variabel terkait, sebar juga berguna untuk menarik perhatian kita pada data yang menyimpang. Pada tahap awal studi set data berkelanjutan spasial perlu untuk memeriksa dan membersihkan data; Keberhasilan metode estimasi tergantung pada data yang dapat diandalkan. Bahkan setelah data Gambar 3. 是 ScaUerplot 100 U versus nilai V. 100 pasangan data aktual diplot dalam (a). Dalam (b) nilai V yang ditunjukkan oleh panah telah "secara resmi" diplot sebagai 14 ppm daripada 143 ppm untuk menggambarkan kegunaan dari sebar dalam mendeteksi kesalahan dalam data. telah dibersihkan, beberapa nilai yang tidak menentu mungkin berdampak besar pada estimasi. Scatte1'plot dapat digunakan untuk membantu baik dalam validasi data awal dan di masa lalu dari hasil 1 yang akan datang. Scatte1'plot yang ditunjukkan pada Gambar 3.4a tidak 1 'mengungkapkan setiap e1'1'or jelas dalam nilai V dan U. The1'e adalah satu titik yang memplot di atas 1'ight co1'ne1 'dari Figu1'e 3.4a dengan nilai U 55 ppm dan nilai V 143 ppm. Seandainya nilai V secara tidak sengaja dicatat sebagai 14 ppm, pasangan nilai ini akan muncul di kiri atas dengan sendirinya, seperti pada Figu1e 3.4b, dan kecurigaan seseorang akan timbul oleh pasangan yang tidak biasa itu. Seringkali, investigasi lebih lanjut dari pasangan yang tidak biasa seperti itu akan mengungkapkan er1'o1 yang kemungkinan besar akan kita buat ketika data dikumpulkan. Prinsip p1'full p1'ful mendasari konsep kecil ini untuk menggunakan sebaran 愉 悅 1'plot untuk memeriksa 'e1'ro1'. Kami hanya mengandalkan hubungan genetik antara kedua variabel untuk memberi tahu kami jika pasangan nilai tertentu tidak biasa. Dalam contoh yang diberikan pada paragraf terakhir, kami memperkirakan nilai V yang terkait dengan nilai U 55 ppm cukup tinggi, 80 di antara 100 dan 150 ppm. Harapan yang masuk akal ini datang dari lihat sisa poin pada scatterplot pada Gambar 3.4b dan ekstrapolasi perilaku mereka. Di bagian dua buku ini kami akan menyajikan pendekatan untuk estimasi yang mengandalkan ide yang sama. Korelasi Dalam pengertian yang sangat luas, ada tiga pola yang dapat diamati pada sebar sebaran: variabel- variabelnya berkorelasi positif, αtind, secara negatif korelatif, atau tidak berkorelasi. dua variabel berkorelasi positif jika nilai yang lebih besar dari satu variabel cenderung dikaitkan dengan nilai yang lebih besar dari variabel lain 胎, dan juga dengan nilai yang lebih kecil dari masing-masing variabel. Dalam batuan berpori, porositas dan permeabilitas biasanya berkorelasi positif. Jika kita menggambar sebaran porositas versus permeabilitas, kita akan berharap untuk melihat nilai porositas yang lebih besar yang terkait dengan nilai permeabilitas yang lebih besar. Dua variabel berkorelasi negatif jika nilai-nilai yang lebih besar dari satu variabel cenderung disatukan dengan nilai-nilai yang lebih kecil dari yang lain. Dalam set data geologi, konsentrasi dua elemen utama seringkali berkorelasi negatif; dalam batu kapur dolomit, misalnya, peningkatan jumlah kaldum biasanya menghasilkan penurunan jumlah magnesium. Kemungkinan terakhir adalah bahwa kedua variabel tidak berhubungan. Peningkatan satu variabel tidak memiliki efek yang jelas pada yang lain. Dalam hal ini, variabel dikatakan tidak berkorelasi. Koefisien Korelasi. Koefisien korelasi, p, adalah statistik yang paling umum digunakan untuk merangkum hubungan antara dua variabel. Dapat dihitung dari: p-b2: i: l (Xi - mx) (仙 一 saya) 一 σzσν (3.1) Jumlah data adalah n; Xt, • • •, Xn adalah nilai data untuk variabel pertama, mx adalah rata-rata mereka, dan σx adalah standar deviasi mereka;缸 , ..., Yn adalah nilai data untuk variabel kedua, mu adalah rata- rata mereka, dan σν, "" y adalah standar deviasi mereka. The numerator ill Equation 3.1 disebut sebagai covαr 的 nce , dan sering digunakan sebagai ringkasan statistik dari sebaran. Kovarians antara dua variabel tergantung pada besarnya nilai data. Jika kita mengambil semua pasangan V 花 T kita dari Gambar 3.1 dan mengalikan nilai-nilai mereka dengan 10, sebar plot kita akan tetap terlihat sama, dengan sumbu dilabelkan sesuai. Namun, kovarians akan 100 kali lebih besar. Membagi kovarians dengan standar deviasi dari dua variabel menjamin bahwa koefisien korelasi akan ~ berada di antara -1 dan +1, dan memberikan indeks yang tidak tergantung pada besarnya nilai data. Kovarian 100 pasangan V-U kami adalah 216,1 ppm2, standar deviasi V adalah 26,2 ppm dan U adalah 9,81 ppm. Koefisien korelasi antara V dan U oleh karena itu, adalah 0,84. Koefisien korelasi dan kovarians dapat dipengaruhi oleh beberapa pasangan yang menyimpang. Penjajaran yang baik dari beberapa pasangan ekstrim dapat secara dramatis meningkatkan koefisien korelasi yang buruk. Sebaliknya, korelasi yang baik bisa hancur oleh buruknya keselarasan beberapa pasangan ekstrim. Sebelumnya, pada Gambar 3.4, kami menunjukkan dua scatterplot yang identik kecuali untuk satu paÌr yang nilai V-nya secara keliru dicatat sebagai 14 ppm daripada 143 ppm. Koefisien korelasi: ffientient dari scatterplot yang ditunjukkan pada Gambar 3.4a adalah nilai yang kami hitung dalam paragraf sebelumnya, 0,8 也 Dengan perubahan hanya satu pasangan, scatterplot yang ditunjukkan pada Gambar 3.4b memiliki koefisien korelasi hanya 0,64. Koefisien korelasi sebenarnya merupakan ukuran seberapa dekat nilai-nilai yang diamati jatuh pada garis lurus. Jika P = +1, maka scatterplot akan menjadi garis lurus dengan kemiringan positif; jika p = -1, maka scatterplot akan menjadi garis lurus dengan kemiringan negatif. Untuk IPL <1 sebar muncul sebagai awan poin yang menjadi lebih gemuk dan lebih menyebar ketika IPL menurun dari 1 menjadi O. Penting untuk dicatat bahwa p memberikan ukuran hubungan lineαr antara dua variabel. Jika hubungan antara dua variabel tidak linier, koefisien korelasi mungkin statistik ringkasan yang sangat buruk. Seringkali berguna untuk melengkapi koefisien korelasi lillear dengan ukuran lain dari kekuatan hubungan, koefisien korelasi pangkat: fficient [1]. Untuk menghitung koefisien korelasi peringkat, seseorang menggunakan Persamaan 3.1 untuk peringkat nilai data daripada nilai sampel origillal: RXi adalah pangkat Xi di antara semua nilai X lainnya dan biasanya dihitung dengan menyortir nilai x dalam urutan naik dan melihat di mana setiap nilai jatuh. Nilai x yang paling rendah akan muncul pertama kali pada daftar yang disortir dan karenanya akan menerima peringkat 1; nilai X tertinggi akan muncul terakhir dalam daftar dan akan menerima pangkat n. RYi adalah peringkat Yi di antara semua nilai Y lainnya. m & adalah rata-rata dari semua peringkat R 鈍 , ..., Rxn dan σ & adalah standar deviasi mereka. mRy adalah rata-rata dari semua peringkat R 叭, ..., RYn dan σRy adalah standar deviasi mereka [2]. Perbedaan besar antara Prank dan ρare sering kali mengungkapkan tentang lokasi pasangan ekstrem di scatterplot. Tidak seperti koefisien korelasi tradisional, koefisien korelasi peringkat tidak sangat dipengaruhi oleh pasangan ekstrim. Perbedaan besar antara keduanya mungkin karena lokasi pasangan ekstrem di sebar. Nilai Prank yang tinggi dan nilai P yang rendah mungkin disebabkan oleh fakta bahwa beberapa pasangan yang tidak menentu memiliki efek negatif: memengaruhi korelasi yang baik. Jika, di sisi lain, itu adalah P yang cukup tinggi sementara Prlαnk cukup rendah, maka ada kemungkinan bahwa nilai P yang tinggi sebagian besar disebabkan oleh pengaruh beberapa pasangan ekstrim. Untuk sebar yang ditunjukkan pada Gambar 3.4b, koefisien korelasi linier adalah 0,64, sedangkan koefisien korelasi peringkat adalah "0,80. Pasangan menyimpang tunggal di sudut kiri atas memiliki lebih sedikit pengaruh pada korelasi peringkat daripada yang dilakukannya. pada koefisien korelasi tradisional. Perbedaan antara P dan Prank juga dapat mengungkapkan fitur penting dari hubungan antara dua variabel. Jika koefisien korelasi pangkat adalah +1, maka peringkat kedua variabel tersebut identik: nilai terbesar dari x korespondensi untuk nilai terbesar dari Y, dan nilai terkecil dari x sesuai dengan nilai terkecil dari y.Jika koefisien korelasi peringkat adalah +1, maka hubungan antara x dan y tidak perlu linier 瓜 Namun, itu adalah monoton, jika nilai x meningkat, maka nilai y juga meningkat. Dua variabel yang koefisien korelasi pangkatnya secara nyata lebih tinggi daripada tradisi mereka sepanjang tahun, koefisien korelasi dapat menghambat hubungan nonlinier. le, dua variω ables, X dan Y, yang dihubungkan oleh persamaan Y = X2 akan memiliki nilai ρdekat 0 tetapi nilai Prlαnk dari 1. Nilai P seringkali merupakan indikator yang baik tentang seberapa sukses kita dalam mencoba untuk memprediksi nilai dari satu variabel dari yang lain dengan a 1dalam persamaan ini. Jika IPL besar, maka untuk a diberi nilai satu variabel, the variabel lain dibatasi hanya pada kisaran kecil dari nilai yang mungkin. Di sisi lain, jika IPL kecil, maka mengetahui nilai dari satu variabel tidak banyak membantu kita dalam memprediksi nilai yang lain. Regresi linier Seperti yang kami catat sebelumnya, hubungan yang kuat antara dua variabel dapat membantu kami memprediksi satu variabel jika yang lain diketahui. Resep paling sederhana untuk tipe prediksi ini adalah regresi linier, di mana kita mengasumsikan bahwa ketergantungan satu variabel pada variabel lain dapat dijelaskan dengan persamaan garis lurus: y = αx + b (3. 哇) Kemiringan, α, dan konstanta, b, diberikan oleh: 皂 白 ny - α b = my 一 α .mx (3.5) Kemiringan, 帆 adalah koefisien korelasi dikalikan dengan rasio standar deviasi, dengan σy menjadi standar deviasi dari variabel yang kita coba prediksi dan σx standar deviasi dari variabel yang kita tahu. Setelah kemiringan diketahui, C011S 胸前? 丸 dapat dihitung dengan menggunakan sarana dari dua variabel, mx dan saya. Jika kita menggunakan pasangan 100 V -U untuk menghitung persamaan regresi linier untuk memprediksi V dari U, kita dapatkan 26.2 α = 0.84 一一:. = 2. 君 是 9.81 b = 97.6 - 2.24.19.1 = 54.7 (3.6) Persamaan kami untuk memprediksi V dari nilai U yang diketahui adalah V = 2.2 是 U + 54.7 (3.7) Pada Gambar 3.5b, baris ini ditumpangkan pada scatterplot. Meskipun terlihat masuk akal melalui tengah awan, garis regresi ini tidak terlihat sangat bagus di ekstrem. Ini pasti akan terlalu tinggi menaksir nilai yang sangat rendah dari V. Proble.m adalah asumsi kami bahwa ketergantungan V pada U adalah linear. Tidak ada garis lurus lain yang lebih baik daripada yang kami hitung sebelumnya [3]. Persamaan 3.7 memberi kita prediksi1 untuk V jika U diketahui. Kami mungkin juga tertarik untuk memprediksi U jika V adalah variabel yang diketahui. Gambar 3.5 Garis regresi linier ditumpangkan pada scatterplot. Garis regresi U diberikan V ditunjukkan pada (a), dan V diberikan U dalam (b). Pada Persamaan 3.5, y adalah variabel yang tidak diketahui dan x diketahui, sehingga perhitungan persamaan regresi 1 tahun yang memprediksi U dari V adalah: 9,81 α = 0,84 一一.; = 0.314 26.2 b = 19.1 - 0.314.97.6 = 一 11.5 (3.8) Persamaan regresi linier untuk memprediksi U dari nilai V yang diketahui adalah kemudian U = 0,314 V - 11,5 (3,9) Garis regresi ini ditunjukkan pada Gambar 3.5a. Pada gambar ini kita telah merencanakan U pada sumbu y-a dan V pada sumbu x untuk menekankan fakta bahwa U-lah yang tidak diketahui dalam kasus ini. Kami akan melanjutkan konvensi ini sepanjang buku; untuk plot sebar di mana ada variabel yang diketahui dan variabel yang tidak diketahui 峙 , kami akan memplot variabel yang tidak diketahui pada sumbu y. Pandangan yang dekat pada Gambar 3.5a dan Gambar 3.5b mengungkapkan bahwa dua garis regresi tidak sama 叫; memang Persamaan 3.9 bukan hanya penataan ulang Persamaan 3.7 Garis regresi yang ditunjukkan pada Gambar 3.5a menimbulkan masalah yang kita hadapi ketika kita melihat estimasi di bagian dua. Memperhatikan bahwa garis regresi menyentuh sumbu x dekat nilai V 35 ppm, mungkin saja bertanya-tanya apa nilai prediksi U adalah untuk nilai V sekitar 5 ppm. Tentu saja, garis regresi berlanjut ke nilai negatif untuk U dan jika kita mengganti nilai 5 ppm untuk V ke Persamaan 3.9 kita mendapatkan nilai prediksi -6,2 ppm untuk U. Ini jelas merupakan prediksi konyol; Nilai-nilai U tidak pernah negatif. Regresi linier shnple tidak menjamin estimasi positif, jadi di mana akal sehat menentukan bahwa nilai data selalu positif, adalah tepat untuk menetapkan prediksi negatif ke 0, atau untuk mempertimbangkan bentuk- bentuk regresi lain yang menghargai batasan ini. Conditio 阻 al Expectatio 臨 Rumus untuk menghitung persamaan regresi linier sangat sederhana tetapi asumsi hubungan garis lurus mungkin tidak baik. Sebagai contoh, pada Gambar 3.5a garis regresi tampaknya tidak memadai karena awan titik memiliki tikungan yang jelas di dalamnya. Alternatif untuk regresi linier adalah menghitung nilai rata-rata y untuk rentang x yang berbeda. Pada Tabel 3.3 kami telah menghitung nilai rata-rata V untuk rentang U yang berbeda. Masing-masing dari 100 pasangan U-V kami telah ditugaskan ke kelas tertentu berdasarkan nilai U-nya, dan nilai rata-rata V telah dihitung secara terpisah untuk masing-masing kelas. Jika kita ingin memprediksi Va1ue V yang tidak diketahui dari nilai U-nya yang sesuai, kita bisa menetapkan pasangan baru ke kelas yang tepat berdasarkan pada i ts yang diketahui nilai U lalu menggunakan rata-rata dari semua nilai V lainnya dari itu kelas yang sama dengan nilai prediksi kami. Ini menghasilkan kurva prediksi yang terlihat seperti yang ditunjukkan pada Gambar 3.6. Kurva terputus-putus karena nilai prediksi V melompat ke nilai baru setiap kali kita melewati batas kelas U. Ini adalah jenis kurva e: xpectation bersyarat. Dalam kelas nilai U tertentu kami telah menghitung nilai yang diharapkan untuk V. Meskipun "nilai yang diharapkan" memiliki makna probabilistik yang tepat, itu cukup untuk tujuan kami di sini untuk memungkinkannya mempertahankan makna sehari-harinya, "nilai yang diharapkan diperoleh. " Nilai yang kami harapkan disebut bersyarat karena mereka hanya baik untuk rentang nilai U tertentu; jika kita pindah ke kelas di: fferent, kita mengharapkan nilai yang berbeda. Kurva langkah tangga yang ditunjukkan pada Gambar 3.6 diperoleh dengan menggerakkan semua kelas U yang mungkin dan menghitung nilai V yang diharapkan untuk setiap kelas. Idealnya, dengan sejumlah besar data, seseorang ingin membuat kurva harapan bersyarat dengan kelas sebanyak mungkin. Dengan bertambahnya jumlah kelas, lebar setiap kelas tertentu akan semakin sempit dan diskontinuitas dalam kurva ekspektasi bersyarat kami akan semakin kecil. Untuk membatasi, ketika kita memiliki sejumlah besar kelas yang sangat sempit, kurva ekspektasi kondisional kita akan menjadi kurva halus yang akan memberi kita nilai V yang diharapkan bersyarat ke nilai U yang diketahui. Ketika kita berbicara tentang kurva ekspektasi bersyarat kita Gambar 3.7 Kurva ekspektasi bersyarat yang ditumpangkan pada scatterplot. Nilai yang dipercepat dari U yang diberikan V diberikan dalam (a) dan nilai yang dipercepat dari V yang diberikan U ditunjukkan pada (b). biasanya mengacu pada ideallimit ini. Ideallimit ini akan berfungsi dengan sangat baik sebagai kurva prediksi, lebih disukai daripada garis regresi linier karena tidak dibatasi oleh bentuk asumsi apa pun. Sayangnya, ada banyak masalah praktis dengan menghitung ideallimit seperti itu. Dari Tabel 3.3 kita dapat melihat bahwa jika lebar kelas dibuat lebih sempit, kita akan mulai kehabisan pasangan di kelas tertinggi dan terendah. Karena jumlah pasangan dalam setiap kelas menurun 卸 的 , nilai rata-rata V dari satu kelas ke yang berikutnya menjadi lebih tidak menentu. Kekeliruan ini juga meningkat karena korelasi antara kedua variabel semakin buruk. Ada banyak metode untuk menangani komplikasi praktis ini. Kami telah mengadopsi satu metode khusus untuk digunakan di seluruh buku ini [4]. Setiap kali kami menyajikan kurva ekspektasi bersyarat, itu akan dihitung menggunakan metode yang, bagi yang penasaran, dirujuk dalam catatan di elld bab ini. Kami tidak akan mengandalkan kurva ekspektasi bersyarat ini untuk prediksi tetapi akan menggunakannya hanya sebagai ringkasan grafis dari sebar. Seringkali akan lebih informatif untuk melihat kurva ekspektasi bersyarat daripada di seluruh scatterplot. Sama seperti kami memiliki dua garis regresi, satu untuk memprediksi V dari U, dan satu lagi untuk memprediksi U dari V, demikian juga ada dua kurva ekspektasi bersyarat, satu yang memberikan nilai ekspektasi V diberikan nilai U tertentu dan lainnya yang memberikan nilai yang diharapkan dari U diberi nilai tertentu dari V. Pada Gambar 3.7 kami menunjukkan kurva harapan bersyarat yang dihasilkan oleh metode khusus kami. Menarik untuk dicatat bahwa untuk memprediksi V dari U, kurva ekspektasi bersyarat sangat berbeda dari garis regresi yang ditunjukkan pada Gambar 3.5b, tetapi untuk prediksi U dari V, regresi 1ine cukup dekat dengan kurva ekspektasi bersyarat. Meskipun kurva ekspektasi bersyarat, dalam beberapa hal, kurva prediksi ideal, regresi 1 tahun menawarkan alternatif yang sangat sederhana yang seringkali memadai. Catatan [1] Koefisien linear korelasi yang diberikan dalam Persamaan 3.1 sering disebut dalam statistik 1iteratur sebagai koefisien korelasi Pearson sedangkan koefisien korelasi peringkat yang diberikan dalam Persamaan 3.3 sering disebut sebagai koefisien korelasi peringkat Spearman. [2] Semua angka dari 1 hingga n àpear di suatu tempat di set peringkat X, RXl, '. . , Rxn, dan juga di set peringkat Y, RYb. . . , RYn. Untuk alasan ini, statistik univariat dari dua set identik. Secara khusus, untuk nilai n yang besar, nilai mRx dan mRy keduanya mendekati n / 2, dan nilai-nilai σ dan σky keduanya mendekati n / 12. [3] Ada banyak asumsi di dalam teori yang memandang garis khusus ini sebagai yang terbaik. Karena pada titik ini kami mengusulkan satu-satunya alat ini untuk meringkas sebar sebaran, kami menunda pembahasan asumsi penting ini sampai bagian kedua buku ini di mana kami membahas secara spesifik dengan metode yang bertujuan meminimalkan varians kesalahan estimasi. [4] Meringkas sebar sebaran dengan kurva harapan bersyarat seringkali merupakan cara yang berguna untuk mendefinisikan hubungan nonlinear antara dua variabel. Seringkali bentuk keseluruhan dari titik cloud secara jelas mengungkapkan hubungan antara dua variabel yang dapat lebih akurat dijelaskan oleh kurva halus yang ditarik melalui cloud daripada bisa dengan garis lurus. misalnya, scaterplot dari dan h (biasanya disebut awan variogram), paling sering mengungkapkan hubungan nonlinear antara, (h) α dan h yang paling baik digambarkan oleh kurva halus. Ada sejumlah metode yang dapat digunakan untuk memperkirakan kurva ekspektasi bersyarat dari sebar; Algoritma dikenal secara umum sebagai smoothers. Yang lebih halus yang kami pilih untuk digunakan di seluruh buku ini didasarkan pada regresi linier dalam lingkungan geser lokal. Algoritme menyediakan ukuran lingkungan "optimal" serta opsi untuk estimasi kurva menggunakan metode yang tahan terhadap nilai ekstrim. Deskripsi lengkap dari kode yang lebih halus dengan kode Fortran disediakan dalam: Friedman, JH dan Stuetzle, W., "Smoothing of Scatterplots , "Tech. Rep. Proyek Orion 003, Departemen Statistik, Stanford University, 1982.