Dokumen

2
DESKRIPSI UNIVARIAT
Data berbicara paling jelas ketika diorganisasikan. Oleh karena itu, banyak statistik berkaitan
dengan organisasi, presentasi, dan ringkasan data. Diharapkan bahwa sebagian besar materi
dalam bab-bab ini sudah tidak asing bagi pembaca. Meskipun beberapa gagasan khusus
geostatistik akan diperkenalkan, presentasi dalam bab-bab berikut ini dimaksudkan sebagai
tinjauan awal. Dalam bab ini kita akan membahas deskripsi univariat. Dalam bab berikut kita
akan melihat cara-cara menggambarkan hubungan antara pasangan variabel. Dalam Bab 4
kita memasukkan lokasi data dan mempertimbangkan cara-cara menggambarkan fitur spasial
dari kumpulan data. Untuk membuatnya mudah untuk mengikuti dan memeriksa berbagai
perhitungan dalam tiga bab berikutnya kita akan menggunakan patch 10 x 10 m2 kecil dari
data lengkap yang ditetapkan dalam semua contoh kami [1]. Dalam contoh ini, semua nilai U
dan V telah dibulatkan ke bilangan bulat terdekat. Nilai-nilai V untuk 100 poin ini
ditunjukkan pada Gambar 2.1. Tujuan bab ini adalah untuk menggambarkan distribusi 100
nilai ini.
Tabel Frekuensi dan Histogranl

Salah satu presentasi set data yang paling umum dan berguna adalah tabel frekuensi dan
grafiknya, histogram. Tabel frekuensi mencatat seberapa sering nilai yang diamati berada
dalam interval tertentu atau
kelas. Tabel 2.1 menunjukkan tabel frekuensi yang merangkum nilai 100 V yang ditunjukkan
pada Gambar 2.1.
Informasi yang disajikan pada Tabel 2.1 juga dapat disajikan secara grafis dalam histogram,
seperti Gambar 11. Adalah umum untuk menggunakan lebar kelas yang konstan untuk
histogram sehingga tinggi setiap bar i8 sebanding dengan jumlah nilai dengan kelas 1 加 tl 削
[2].
Tabel Frekuensi Kumulatif dan Histogram
Sebagian besar teks statistik menggunakan konvensi bahwa data diberi peringkat dalam
urutan ending ending cending untuk menghasilkan tabel frekuensi kumulatif dan deskripsi
distribusi frekuensi kumulatif. Untuk banyak aplikasi ilmu bumi, seperti cadangan bijih dan
studi polusi, frekuensi kumulatif di atas batas bawah lebih menarik. Untuk studi tersebut,
tabel frekuensi kumulatif dan histogram dapat disiapkan setelah peringkat data dalam urutan
menurun.
Dalam Tabel 2.2, kami telah mengambil informasi dari Tabel 2.1 dan menyajikannya dalam
bentuk kumulatif. Daripada mencatat jumlah nilai dalam kelas-kelas tertentu, kami mencatat
jumlah total nilai di bawah batas tertentu [3]. Histogram kumulatif yang sesuai, ditunjukkan
pada Gambar 2.3, adalah fungsi nececreasing antara 0 dan 100%. Bentuk frekuensi persen
dan persentase frekuensi kumulatif digunakan secara bergantian, karena yang satu dapat
diperoleh dari yang lain.
Plot Probabilitas Normal dan Lognormal
Beberapa alat estimasi yang disajikan di bagian dua buku ini bekerja lebih baik jika distribusi
nilai data mendekati Gaussian atau tidak ada distribusi. Distribusi Gaussian adalah salah satu
dari banyak distribusi yang ada deskripsi matematis condse [4]; juga, ia memiliki sifat yang
mendukung penggunaannya dalam pendekatan teoritis untuk estimasi. Oleh karena itu,
menarik untuk mengetahui seberapa dekat distribusi nilai data seseorang dengan menjadi
Gaussian. Masalah normal adalah plot frekuensi kumulatif yang membantu menjawab
pertanyaan ini.
Pada plot probabi1ity normal, sumbu y diskalakan sedemikian rupa sehingga frekuensi
kumulatif akan plot sebagai garis lurus jika distribusinya adalah Gaussian. Kertas grafik
semacam itu sudah tersedia di sebagian besar outlet pasokan teknik. Gambar 2. 住
menunjukkan plot probabilitas normal dari nilai 100 V menggunakan frekuensi kumulatif
yang diberikan pada Tabel 2.2. Catatan
Gambar 2.4 Plot probabilitas norma.l dari 100 data v yang dipilih .. Y-a.xis ha.s telah diukir
sedemikian rupa. wa.y tha.t frekuensi kumula.tive akan memplot a.s a. garis stra.ight jika
distribusi V adalah Ga.ussia.n.
bahwa meskipun sebagian besar frekuensi kumulatif plot dalam garis yang relatif lurus, nilai-
nilai yang lebih kecil dari V berangkat dari tren ini.
Banyak variabel dalam set data ilmu bumi memiliki distribusi yang bahkan tidak mendekati
normal. Adalah umum untuk memiliki banyak nilai yang sangat kecil dan beberapa yang
sangat besar. Dalam Bab 5 kita akan melihat beberapa contoh jenis ini dari kumpulan data
Walker Lake yang lengkap. Meskipun distribusi normal sering tidak sesuai sebagai model
untuk jenis distribusi asimetris ini, distribusi yang terkait erat distribusi lognormal terkadang
bisa menjadi alternatif yang baik. Sebuah variabel yang terdistribusi tetapi secara logik
biasanya distribusi distribusi variabel tidak ada.
Oleh kami 站 si 恤 ng logar scale skala ithmic pada x 恐 "缸 d dari probabilitas normal
p 抖 10 叫 t ， seseorang dapat memeriksa lognormalitas. Seperti dalam plot probabilitas
normal, frekuensi kumulatif akan plot sebagai garis lurus jika nilai data terdistribusi secara
normal. Gambar 2.5 menunjukkan plot probahility lognormal dari nilai 100 V menggunakan
informasi yang sama yang digunakan untuk plot Gambar 2.4. Bentuk c-oncave plot jelas
menunjukkan bahwa nilai-nilai tidak terdistribusi secara normal.
Asumsi tentang distribusi nilai data seringkali memiliki dampak terbesar ketika seseorang
memperkirakan nilai ekstrem. Jika seseorang berniat untuk menggunakan metodologi yang
bergantung pada asumsi tentang distribusi, orang harus berhati-hati mengabaikan
penyimpangan plot peluang pada 、 ekstrim. misalnya, tergoda untuk mengambil plot
probabilitas normal yang ditunjukkan pada Gambar 2.4 sebagai bukti normalitas,
mengabaikan keberangkatan dari garis yang relatif lurus untuk nilai yang lebih kecil dari V.
Keberangkatan plot probabilitas dari perkiraan linearitas pada nilai ekstrim sering tampak
kecil dan mudah
mengabaikan ketika sisa plot terlihat relatif lurus. Namun, perkiraan yang diperoleh dengan
menggunakan model distribusi yang “hampir pas” mungkin sangat berbeda dari kenyataan.
Plot probabilitas sangat berguna untuk memeriksa keberadaan beberapa populasi. Meskipun
kekusutan dalam plot tidak selalu menunjukkan populasi ganda, mereka menunjukkan
perubahan karakteristik karakteristik frekuensi kumulatif pada interval yang berbeda dan
alasan untuk ini harus dieksplorasi.
Memilih model teoritis untuk distribusi nilai data tidak selalu merupakan langkah yang
diperlukan sebelum estimasi, sehingga orang tidak boleh membaca terlalu banyak ke dalam
plot probabilitas. Tingkat ketelitian garis pada plot probabi1ity bukan jaminan dari estimasi
yang baik dan kebengkokan dari garis harus tidak mengutuk pendekatan berbasis distribusi
untuk estimasi. Metode tertentu lebih mengandalkan asumsi tentang distribusi daripada
metode lainnya. Beberapa alat estimasi yang dibangun berdasarkan asumsi norma1ity
mungkin masih berguna bahkan ketika data tidak terdistribusi secara normal.
Statistik Sumuary
Fitur penting dari sebagian besar histogram dapat ditangkap oleh beberapa statistik ringkasan.
Statistik ringkasan yang kami gunakan di sini terbagi dalam tiga kategori: ukuran lokasi,
ukuran penyebaran dan ukuran bentuk. Statistik dalam kelompok pertama memberi kami
informasi tentang di mana letak berbagai bagian distribusi. Mean, median, dan mode dapat
memberi kita beberapa ide di mana pusat distribusi berada. Lokasi bagian lain dari distribusi
diberikan oleh berbagai kuantil. Kelompok kedua termasuk varians, definisi standar, dan
rentang antar variabel. Ini digunakan untuk menggambarkan variabilitas nilai data. Bentuk
distribusi ditentukan oleh koefisien skewness dan koefisien variasi; koefisien kemiringan
memberikan informasi tentang simetri sedangkan koefisien variasi memberikan informasi
tentang panjang ekor untuk jenis distribusi tertentu. Secara bersama-sama, statistik ini
menyediakan ringkasan informasi yang berharga yang terkandung dalam histogram.
扎直 ukuran Lokasi
Berarti. Mean, m, adalah rata-rata aritmatika dari nilai data 問:
Jumlah data adalah n dan Xt, • • •, X n adalah nilai data. Nilai rata-rata 100 V kami adalah
97,55 pprn. b 直 edian. Median, M, adalah titik tengah dari nilai yang diamati jika mereka
diatur dalam urutan yang meningkat. Setengah dari nilai di bawah median dan setengah dari
nilai di atas rnedian. Setelah data dipesan sehingga Xl 歪扭 2 ::; •• • ::; X n, median dapat
dihitung dari salah satu persamaan berikut:
Median dapat dengan mudah dibaca dari plot probabi1ity. Karena sumbu y mencatat
frekuensi curnulative, rnedian adalah nilai pada sumbu x yang sesuai dengan 50% pada
sumbu y (Gambar 2.6). Baik rnean dan rnedian adalah ukuran lokasi pusat distribusi. Rata-
rata cukup sensitif terhadap tinggi yang tidak menentu
nilai-nilai. Jika nilai 145 ppm dalam kumpulan data kami adalah 1450 ppm, rerata akan
berubah menjadi 110,60 ppm. Akan tetapi, median tidak akan terpengaruh oleh perubahan ini
karena hanya bergantung pada berapa banyak nilai di atas atau di bawahnya; berapa banyak
di atas atau di bawah tidak dipertimbangkan. Untuk nilai 100 V yang muncul pada Gambar
2.1 median adalah 100,50 ppm.
Mode. Mode adalah nilai yang paling sering terjadi. Kelas dengan bilah tal1est pada
histogram memberikan gambaran singkat di mana mode berada. Dari histogram pada Gambar
2.2 kita melihat t 油 ha 叫 t 110- 孔. memiliki nilai terbanyak. Dengan kelas ini, nilai 111
ppm terjadi lebih dari yang lain. Salah satu kelemahan mode adalah bahwa ia berubah dengan
ketepatan nilai data. Pada Gambar 2.1, kita membulatkan semua nilai V ke bilangan bulat
terdekat. Seandainya kami menyimpan dua tempat desimal pada semua pengukuran kami,
tidak ada dua yang akan persis sama dan mode kemudian bisa salah satu dari 100 nilai yang
sama-sama umum. Untuk alasan ini, mode ini tidak terlalu berguna untuk set data di mana
pengukuran memiliki beberapa digit signifikan. Dalam kasus-kasus seperti itu, ketika kita
berbicara tentang mode, kita biasanya berarti nilai perkiraan SOIne yang dipilih dengan
menemukan bilah tal1est pada histogram. Beberapa praktisi menafsirkan mode sebagai bar
tertinggi yang saya lakukan sendiri.
Minimum. Nilai terkecil dalam kumpulan data adalah minimum. Dalam banyak situasi
praktis, nilai terkecil dicatat hanya di bawah batas deteksi. Dalam situasi seperti itu, tidak
banyak artinya untuk tujuan deskriptif apakah nilai minimum diberikan sebagai 0 atau karena
nilai smal1 sewenang-wenang. Dalam beberapa metode estimasi, seperti yang akan kita bahas
di bab-bab selanjutnya, akan lebih mudah untuk menggunakan nilai bukan nol (mis., setengah
garis deteksi yang diterangi) atau untuk menetapkan nilai yang sedikit berbeda dengan data
yang berada di bawah batas deteksi. Untuk nilai 100 V kami, nilai minimum adalah 0 ppm.
Maksimum. Nilai terbesar dalam kumpulan data adalah maksimum. Nilai ma: ximum dari
nilai 100 V kami adalah 145 ppm.
Kuartil Bawah dan Atas. Dalam cara yang sama bahwa median membagi data tidak sampai
setengahnya, kuartil membagi data menjadi empat bagian. Jika nilai data disusun dalam
urutan yang meningkat, maka seperempat dari data salah di bawah kuartil pertama atau
bawah, Qb dan seperempat dari data salah di atas angka atas 0 1 'quarti1e ketiga, Q3.
Seperti halnya median ，可 uartiles dapat dengan mudah dibaca dari plot probabilitas. Nilai
pada sumbu x, yang sesuai dengan 25% pada yaxis, adalah kuartil bawah dan nilai yang
sesuai dengan 75% adalah kuartil atas (Gambar 2.7 2.7 7 8 釗 1.2 鈴 5 ppm dan ，祖 lppe
叮kuartil adalah 116,25 ppm.
Deciles, Perce 阻 tiles 會 dan Qua 阻 tes. Gagasan untuk membagi data menjadi dua bagian
dengan median atau ke perempat dengan kuartil dapat diperluas ke fraksi lain. Deciles
membagi data menjadi sepersepuluh. Sepersepuluh data termasuk dalam keputusan pertama
atau terendah; dua persepuluh jatuh di bawah desil kedua. Desil kelima berkorespondensi
dengan median. Dengan cara yang sama, percenti1es membagi data menjadi seperseratus.
Persentil ke dua puluh sama dengan kuartil pertama, persentil kelima adalah sama dengan
median dan persentil ke tujuh puluh sama dengan kuartil ketiga. Kuantil adalah genisasi dari
ide ini untuk sebagian kecil. Sebagai contoh, jika kita ingin berbicara tentang nilai di bawah
mana satu dari dua puluh data jatuh, kita menyebutnya q. 的 daripada datang dengan nama -
ile baru untuk dua puluh. Sama seperti desil dan persentil tertentu yang sama dengan median
dan kuartil, demikian juga kuantil tertentu dapat ditulis sebagai salah satu statistik ini.
Misalnya q.25 adalah kuartil bawah, q.5 adalah median, dan q.75 adalah kuartil atas. Dalam
buku ini biasanya akan kita gunakan
kuantil daripada desil dan persentil, hanya menjaga median dan dua quarti1es sebagai ukuran
khusus lokasi.
Ini adalah perbedaan kuadrat rata-rata dari nilai yang diamati dari nilai tengahnya. Karena
melibatkan perbedaan kuadrat, varians sensitif terhadap nilai-nilai tinggi yang tidak menentu.
Varian nilai 100 V adalah 688 ppm 2 •
Standar deviasi. Deviasi standar ， σ hanyalah akar kuadrat dari varian. Ini sering digunakan
sebagai ganti varians karena unitnya sama dengan unit variabel yang dijelaskan. Untuk nilai
100 V, standar deviasi adalah 26,23 ppm.
Jarak interkuartil. Ukuran lain yang berguna dari penyebaran nilai-nilai yang diamati adalah
rentang interkuartil. Rentang interkuartil atau IQR, adalah perbedaan antara kuartil atas dan
bawah dan diberikan oleh IQR = Q3 - Ql (2,4) Tidak seperti varians dan deviasi standar,
rentang interkuartil tidak menggunakan mean sebagai pusat distribusi , dan karena itu sering
lebih disukai jika beberapa nilai tinggi yang tidak menentu sangat mempengaruhi rata-rata.
Kisaran interkuartil dari nilai 100 V kami adalah 35,50 ppm.
Ukuran Bentuk
Koefisien Skewness. Salah satu fitur histogram yang tidak ditangkap oleh statistik
sebelumnya adalah simetri. Statistik yang paling umum digunakan untuk sunuuarizillg
synulletry adalah kuantitas yang disebut koefisien 01 skewness, \ vich yang didefinisikan
sebagai
Pembilangnya adalah selisih rata-rata potong dadu antara data v 叫 “ues dan meannya, dan
penyebutnya adalah kubus dari deviasi standar.
Koefisien kemiringan menderita bahkan lebih dari rata-rata dan varians dari sensitivitas ke
nilai-nilai tinggi yang tidak menentu. Nilai tunggal yang besar dapat sangat mempengaruhi
koefisien kemiringan karena perbedaan antara setiap nilai data dan rata-rata adalah dadu.
Cukup sering seseorang tidak menggunakan besarnya koefisien skewness melainkan hanya
tanda untuk menggambarkan simetri. Histogram miring positif memiliki ekor panjang dengan
nilai tinggi di sebelah kanan, membuat median kurang dari rata-rata. Dalam set data
geokimia, kemiringan positif adalah khas ketika variabel yang dijelaskan adalah konsentrasi
elemen minor. Jika ada ekor panjang dengan nilai kecil di sebelah kiri dan median lebih besar
dari rata-rata, seperti tipikal untuk konsentrasi unsur utama, histogram miring secara negatif.
Jika kemiringan dosisnya nol, histogram mendekati simetris dan median mendekati rata-rata.
Untuk nilai 100 V yang kami jelaskan dalam bab ini, koefisien kemiringan mendekati nol (-
0.779), menunjukkan distribusi 吋 pada yang hanya sedikit asimetris. Koefisien Va: riation.
Koefisien variasi, CV, adalah statistik yang sering digunakan sebagai alternatif kemiringan
untuk menggambarkan bentuk distribusi. Ini digunakan terutama untuk distribusi yang
nilainya positif dan kemiringannya juga positif; meskipun dapat dihitung untuk jenis
distribusi lainnya, kegunaannya sebagai indeks bentuk menjadi dipertanyakan. Ini
didefinisikan sebagai rasio deviasi standar terhadap rata-rata [7]:
Jika estimasi adalah tujuan akhir dari sebuah penelitian, koefisien variasi dapat memberikan
beberapa peringatan akan masalah yang akan datang. Koefisien variasi lebih besar dari satu
menunjukkan adanya beberapa nilai sampel tinggi yang tidak menentu yang mungkin
memiliki dampak signifikan pada lahan final. Koefisien variasi untuk nilai 100 V kami adalah
0,269, yang mencerminkan fakta bahwa histogram tidak memiliki ekor panjang dengan nilai
tinggi.
Catatan
[1] Koordinat sudut patch 10 x 10 m2 menggunakan t 怕 01 t llus 站 S trate berbagai alat
deskriptif adalah (11,2 是 1) ， (20.241), (20.241), (20.250), dan (11.250).
[2] Jika lebar kelas bervariasi, penting untuk diingat bahwa pada histogram itu adalah area
(bukan tinggi) dari bilah yang sebanding dengan frekuensi.
[3] Contoh dalam teks ini dirancang untuk memudahkan mengikuti bagaimana Tabel 2.2
berhubungan dengan Tabel 2.1. Meskipun pilihan kelas tidak diperlukan untuk tabel
frekuensi dan histogram, itu tidak diperlukan untuk tabel frekuensi kumulatif atau histogram
kumulatif. Memang, dalam praktiknya seseorang biasanya memilih cutoff untuk frekuensi
kumulatif yang sesuai dengan nilai data aktual.
[4] Untuk deskripsi distribusi normal dan propertinya lihat: Johnson, R. A. dan Wichern, D.
W., Statistic Multivariate Statically Anαlysis Statis. Englewood Cliffs, New Jersey: Prentice
“Hal1, 1982.
[5] Meskipun rata-rata aritmatika sesuai untuk beragam aplikasi, ada beberapa kasus penting
di mana proses rata-rata bukan aritmatika. Misalnya, dalam studi aliran fluida permeabilitas
efektif dari urutan bertingkat adalah rata-rata aritmatika dari permeabilitas dalam berbagai
strata jika: aliran sejajar dengan strata. Namun jika: aliran tegak lurus terhadap strata, rata-
rata harmonik, mH, lebih tepat:
di mana ki adalah permeabilitas dari n strata. Untuk kasus di mana alirannya tidak sejajar atau
tegak lurus dengan stratifikasi, atau di mana fasies yang berbeda tidak jelas dikelompokkan,
beberapa studi menunjukkan bahwa permeabilitas efektif dekat dengan rata-rata geometris,
ma:
[6] Beberapa pembaca akan mengingat rumus untuk 0'2 dari statistik klasik yang
menggunakan 法 1 bukannya ~. Formula klasik ini dirancang untuk memberikan estimasi
varians populasi yang tidak bias jika data tidak berkorelasi. Formula yang diberikan di sini
dimaksudkan hanya untuk memberikan varians sampel. Dalam bab-bab selanjutnya kita akan
melihat masalah dalam menyimpulkan parameter populasi dari statistik sampel.
[7] Koefisien variasi kadang-kadang diberikan sebagai persentase daripada rasio.
Bacaan Lebih Lanjut

Davis, J. C., Stαtistic dan Dαtα A nalysis in Geology. New York: Wiley, 1973. Koch, G. dan
Link, R., Anαlysis Statistik 01 Geologi Datα. New York: 明 Tiley, 2 ed., 1986.
Mosteller, F. dan Tukey, J. W. ，卸的 Analisis dan Regresi. Reading, Mass .: Addison-
Wesley, 1977.
Ripley, B. D., Statistik Spatiα1. New York: Wiley, 1981.
Tukey, J., Explorαtory Dαtα Anαlysis. Reading, Mass .: AddisonWesley, 1977.

Dokumen

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Dokumen

Diunggah oleh

Hak Cipta:

Format Tersedia

2

Tabel Frekuensi dan Histogranl

Bacaan Lebih Lanjut

Anda mungkin juga menyukai