Anda di halaman 1dari 6

Nama : Ervione Mahala Zulfitri

NIM : 211910972
Kelas : 3SE2
Kode : 041CSNI

SAMPEL GEOMETRIK DAN RANDOM SAMPLING


3.1 Pendahuluan
Pada bab ini asumsi pengamataan yang digunakan adalah sampel acak. Pengambilan sampel
acak ini menyiratkan bahwa (1) pengukuran yang diambil pada item berbeda tidak berhubungan
satu dengan yang lainnya dan (2) joint distribution dari 𝑝 variabel sama untuk semua item. Sampel
acak akan menunjukkan pilihan jarak tertentu dan menentukan geometri yang merepresentasikan
data dengan 𝑛 dimensi.

3.2 Geometri Sampel


Setiap baris X merepresentasikan sebuah observasi multivariat. Setiap set pengukuran
biasanya sebagai salah satu realisasi dari apa yang diobsservasi, data dapat disebut sample of size
𝑛 dari 𝑝 variate ‘populasi’. Sampel terdiri dari 𝑛 pengukuran dan memiliki 𝑝 komponen.
𝑥11 𝑥12 … 𝑥1𝑝 𝑥′1 ← 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑠𝑖 (𝑚𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑡𝑒) 𝑝𝑒𝑟𝑡𝑎𝑚𝑎
𝑥21 𝑥22 … 𝑥2𝑝 𝑥′2
𝑿(𝒏𝒙𝒑) =[ : : ⋱ : ]=[ : ]
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑝 𝑥′𝑛 ← 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑠𝑖 (𝑚𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑡𝑒) 𝑘𝑒 − 𝑛
Scatter plot dari 𝑛 titik di 𝑝 dimensi memberikan informasi tentang lokasi dan variabilitas
̅ adalah pusat
titik. Jika titik-titik dianggap sebagai bola padat, vektor rata-rata sampel 𝒙
kesimbangan. Variabilitas terjadi di lebih dari satu arah diukur dengan matriks varians kovarians
sampel 𝑺𝒙 . Jika 𝑝 lebih besar dari 3 scattrer plot tidak bisa digambarkan.
Alternatif representasi geomterik dari data dengan 𝑝 vektor di 𝑛 ruang dimensi berikut.
𝑥11 𝑥12 … 𝑥1𝑝 𝑥′1
𝑥21 𝑥22 … 𝑥2𝑝 𝑥′2
𝑿(𝒏𝒙𝒑) =[ : : ⋱ : ]=[ : ]=
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑝 𝑥′𝑛
Secara umum titik 𝒚′𝒊 = [𝑥1𝑖 𝑥2𝑖 … 𝑥𝑛𝑖 ] ditenatukan oleh 𝑛 tupel dari semua
pengukuran pada variabel ke-i. Pada bentuk geomtrik ini, 𝒚𝟏 , … , 𝒚𝒑 adalah bentuk vektor daripada
titik.
Didefinisikan 𝑛 × 1 vektor 𝟏′𝒏 = [1,1, … ,1], bentuk vektor 1 memiliki sudut yang sama tiap

𝑛 sumbu koordinat, sehingga vektor (1⁄ ) 𝟏 memiliki panjang satu karena sudut yang sama.
√𝑛

Jika vektor 𝒚′𝒊 = [𝑥1𝑖 𝑥2𝑖 … 𝑥𝑛𝑖 ], proyeksi 𝒚𝒊 pada unit vektor (1⁄ ) 𝟏 adalah
√𝑛
1 𝑥 +𝑥 +⋯+𝑥𝑛𝑖
𝒚′ 𝒊 (1⁄ 𝟏) 𝑛 𝟏 = 1𝑖 2𝑖𝒏 𝟏 = 𝑥̅𝑖 𝟏 (3-1)
√𝑛 √
𝑥1𝑖 +𝑥2𝑖 +⋯+𝑥𝑛𝑖
Hal ini berarti sampel mean 𝑥̅𝑖 = = 𝒚′ 𝒊 𝟏/𝑛 berkorespondensi dengan kelipatan 1
𝑛

untuk memberikan proyeksi dari 𝒚𝒊 ke garis yang ditentukan dengan 1. Untuk tiap 𝒚𝒊 , dimana 𝑥̅𝑖 𝟏
tegak lurus terhadap 𝒚𝒊 − 𝑥̅𝑖 𝟏. Deviasi atau mean terkoreksi vektornya adalah
𝑥1𝑖 − 𝑥̅ 𝑖
𝑥 − 𝑥̅𝑖
𝒅𝒊 = 𝒚𝒊 − 𝑥̅𝑖 𝟏 = [ 2𝑖 ] (3-2)
:
𝑥𝑛𝑖 − 𝑥̅𝑖
Elemen 𝒅𝒊 adalah deviasi dari pengukuran variabel ke-i dari sampel mean. Kuadrat panjang
proporsional terhadap varians dari pengukuran pada variabel ke-i. Panjang proporsional dengan
strandar deviasi. Vektor yang panjang merepresentasikan variabilitas yang lebih besar daripada
vektor pendek. Jika 𝜃𝑖𝑘 adalah sudut antara vektor 𝒅𝒊 dan 𝒅𝒌 maka
2 2
𝒅′𝒊 𝒅𝒌 = 𝑳𝒅𝒊 𝑳𝒅𝒌 cos(𝜃𝑖𝑘 ) = √∑𝑛𝑗=1(𝑥𝑗𝑖 − 𝑥̅𝑖 ) √∑𝑛𝑗=1(𝑥𝑗𝑘 − 𝑥̅𝑘 ) cos(𝜃𝑖𝑘 ) (3-3)
𝑠𝑖𝑘
Sehingga 𝑟𝑖𝑘 = = cos(𝜃𝑖𝑘 ). Cosinus dari sudut merupakan koefisien korelasi sampel. Jika
√𝑠𝑖𝑖 √𝑠𝑘𝑘

dua deviasi vektor memiliki orientasi yang hampir sama, koefisien korelasi sampel mendekati 1.
Jika dua vektor hampir tegak lurus, koefisien korelasi sampel akan mendekati 0 dan jika dua vektor
berlawanan arah maka koefisien korelasi sampel akan mendektai -1.
Interpretasi Geometris Sampel
1. Priyeksi dari sebuah kolom 𝒚𝒊 dari data matriks X ke sudut yang sama vektor 1 adalah
vektor 𝑥̅ 𝑖 𝟏 yang memiliki panjang √𝑛|𝑥̅𝑖 |. Sedangkan sampel mean ke-i berhubungan
dengan panjang dari proyeksi 𝒚𝒊 terhadap 1.
2. Informasi mengenai 𝑺𝒏 ditentukan dari deviasi vektor 𝒅𝒊 = 𝒚𝒊 − 𝑥̅𝑖 𝟏 =
[𝑥1𝑖 − 𝑥̅𝑖 , 𝑥2𝑖 − 𝑥̅𝑖 , … 𝑥𝑛𝑖 − 𝑥̅𝑖 ]′. Kuadrat panjang dari 𝒅𝒊 adalah 𝑛𝑠𝑖𝑖 dan inner product
antara 𝒅𝒊 dan 𝒅𝒌 adalah 𝑛𝑠𝑖𝑘 .
3. Sampel korelasi 𝑟𝑖𝑘 adalah cosinus dari sudut antara 𝒅𝒊 dan 𝒅𝒌 .
3.3 Random Sampel dan Expected Value dan Sampel Mean dan Kovarians Matriks
Jika sebelum dilakukan pengukuran nilai belum dapat diestimasi sehingga kita menganggap
mereka sebagai variabel acak. Jika vektor baris 𝑿′𝟏 , 𝑿′𝟐 , … , 𝑿′𝒏 merepresentasikan pengamatan
independen dari sebuah common joint distribution dengan density funciton 𝑓(𝒙𝒋 ) =
𝑓(𝑥𝑗1 , 𝑥𝑗2 , … , 𝑥𝑗𝑝 ).
Jika 𝑛 komponen tidak independen atau distribusi marginal tidak identik, pengaruh
pengukuran individu (koordinat) tidak simetris sehingga bobot dipertimbangkan. Terdapat
𝑿𝟏, 𝑿𝟐 , … , 𝑿𝒏 adalah random sampel dari joint distribution yang memiliki vektor mean 𝝁 dan
1
̅ adalah estimasi unbias dari 𝝁 dan matriks kovarians adalah 𝚺 yaitu
matriks kovarians 𝚺. Jika 𝑿 𝑛
̅) = 𝝁
𝐸(𝑿 (vektor populasi mean)
1
̅ ) = 𝚺 (matriks varians kovarians populasi dibagi dengan ukuran sampel
𝐶𝑜𝑣(𝑿 𝑛

[𝑛⁄(𝑛 − 1)]𝑺𝒏 adalah estimasi unbias dari 𝚺 sedangkan 𝑺𝒏 adalah estimasi bias dengan 𝑏𝑖𝑎𝑠 =
1
− (𝑛) 𝚺. Rumus matriks varians kovarians sampel yang unbias adalha sebagai berikut.
𝑛 1
̅ )(𝑿𝒋 − 𝑿
𝑺 = (𝑛−1) 𝑺𝒏 = 𝑛−1 ∑𝒏𝒋=𝟏(𝑿𝒋 − 𝑿 ̅ )′ (3-4)

3.4 Varians Tergeneralisasi


1
Matriks kovarians mengandung 𝑝 varians dan 𝑝(𝑝 − 1) berpotensi kovarians berbeda.
2

Terkadang diinginkan untuk menetapkan nilai numerik tunggal untuk varians yang dinyatakan
oleh S. Satu pilihan nilai adalah determinan S yang mengurangi sampel varians biasa dari sebuah
karakteristik tunggal ketika 𝑝 = 1. 𝐷𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑛2 disebut generalized sample variance.
𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑖𝑧𝑒𝑑 𝑠𝑎𝑚𝑝𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = |𝑺| = (𝑛 − 1)−𝑝 (𝑣𝑜𝑙𝑢𝑚𝑒)2 (3-5)
Untuk ukuran sampel yang tetap, berdasarkan |𝑺| akan meningkat saat panjang dari
berapapun 𝒅𝒊 = 𝒚𝒊 − 𝑥̅𝑖 𝟏 (atau √𝑠𝑖𝑖 ) meningkat. Akibatnya, volume akan meningkat jika residual
vektor dari panjang tetap meningkat sampai pada sudut yang tepat antara satu dengan yang lain.
Generalized varians juga diinterpretasikan dalam scatter plot ruang 𝑝 dari data. Koordinat
𝒙′ = [𝑥1 , 𝑥2 , … , 𝑥𝑝 ] dari titik konstan jarak 𝑐 dari 𝒙 ̅)′ 𝑺−𝟏 (𝒙 − 𝒙
̅ ditunjukkan oleh (𝒙 − 𝒙 ̅) = 𝒄𝟐 .
̅)′ 𝑺−𝟏 (𝒙 − 𝒙
𝑉𝑜𝑙𝑢𝑚𝑒 𝑑𝑎𝑟𝑖 {𝒙: (𝒙 − 𝒙 ̅) ≤ 𝒄𝟐 } = 𝒌𝒑 |𝑺|1/2 𝑐 𝑝 (3-6)
atau (𝑉𝑜𝑙𝑢𝑚𝑒 𝑒𝑙𝑖𝑝𝑠𝑜𝑖𝑑)2 = (𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎)(𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑖𝑧𝑒𝑑 𝑠𝑎𝑚𝑝𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑠). Volume yang besar
berseuaian dengan generalized varians yang besar.
Keadaan dimana Generalized Sample Varians Bernilai Nol
Generalized varians nol mengindikasikan penurunan yang ekstrem, dalam arti bahwa
setidaknya satu kolom dari matriks deviasi dapat dinyatakan sebagai kombinasi linier dari kolom
lainnya.

(3-7)

Generalized varians akan bernilai nol jika dan hanya jika setidaknya satu vektor deviasi terletak
pada bidang (hyper) yang dibentuk dengan semua kombinasi linier yaitu ketika matriks deviasi
pada (3-7) linearly dependen atau bergantung secara linier atau ketika (𝑿 − 𝟏𝒙̅′ )𝟎 = 𝟎.
Setiap kali vektor a bukan nol memenuhi satu dari tiga kondisi berikut:

a adalah sebuah vektor Kombinasi liniear dari Kombinasi linier dari data
eigen berskala dari S rata-rata yang dikoreksi asli, menggunakan a adalah
dengan nilai eigen 0 menggunakan a, adalah sebuah konstanta.
nol
Jika kondisi (3) terpenuhi yaitu ketika nilai untuk satu variabel dapat dinyatakan dalam variabel
lain maka generalized varians nol karena S memiliki eigenvalue nol. Disisi lain, jika kondisi (1)
berlaku, eigenvektor a memberikan koefisien untuk linear dependency dari mean corrected data.
Dalam analisis statistik, |𝑺| = 0 berarti pengukuran pada beberpa variabel harus
dikeluarkan dari penelitian, tetapi dalam mengeluarkan tidak bisa asal dilakukan. Digambarkan
beberapa kondisi sederhana agar 𝑺 agar memiliki peringkat penuh atau peringkat yang direduksi.
Hasil 3.3, Jika 𝑛 ≤ 𝑝, yaitu (𝑢𝑘𝑢𝑟𝑎𝑛 𝑠𝑎𝑚𝑝𝑒𝑙) ≤ (𝑏𝑎𝑛𝑦𝑎𝑘 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙), lalu |𝑺| = 0 untuk semua
sampel.
Hasil 3.4, Misalkan 𝑝 × 1 vektor 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 dimana 𝒙′𝒋 adalah baris ke-j dari matriks X
merupakan realisasi dari independen random vektor 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 , maka
1. Jika kombinasi linier 𝒂′ 𝑿𝒋 memiliki varians positif untuk setiap vektor konstanta 𝒂 ≠ 𝟎,
asalkan 𝑝 < 𝑛 maka S memiliki peringkat penuh dengan peluang 1 dan |𝑺| > 0.
2. Jika dengan peluang 1, 𝒂′ 𝑿𝒋 adalah sebuah konstanta untuk semua j, maka |𝑺| = 0.
Generalized Varians yang Ditentukan dengan |𝑹| dan Interpretasi Geometrisnya
Generalized sample varians sangat dipengaruhi oleh variabilitas pengukuran pada setiap
variabel. Akibatnya, terkadang berguna untuk menskalakan semua vektor deviasi sehingga
memiliki panjang yang sama. Atau dengan kata lain, metode ini digunakan apabila terdapat
perbedaan satuan antar variabel. Penskalaan vektor residual setara dengan mengganti setiap
pengamatan asli dengan nilai standsarnya. Matriks kovarians sampel dari variabel yang
terstandardisasi adalah R, matriks korelasi sampel dari variabel asli.
(𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑖𝑧𝑒𝑑 𝑠𝑎𝑚𝑝𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑑𝑎𝑟𝑖 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑠𝑎𝑠𝑖) = |𝑹| (3-8)
Volume yang terdapat pada 𝑝 ruang dengan vektor deviasi dapat berhubungan dengan generalized
sampel varians.
𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑖𝑧𝑒𝑑 𝑠𝑎𝑚𝑝𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑠
( ) = |𝑹| = (𝑛 − 1)−𝑝 (𝑣𝑜𝑙𝑢𝑚𝑒)2 (3-9)
𝑑𝑎𝑟𝑖 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑠𝑎𝑠𝑖
Generalisasi Varians Lainnya
Hal ini dapat dilakukan apabila satuan dari setiap variabel telah sama yaitu dengan
menjumlahkan seluruh diagonal utama matriks varians (trace S).
𝑇𝑟𝑎𝑐𝑒 𝑎𝑡𝑎𝑢 𝑡𝑜𝑡𝑎𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = 𝑠11 + 𝑠22 + ⋯ + 𝑠𝑝𝑝 (3-10)

3.5 Sampel Mean, Kovarians, dan Korelasi sebagai Operasi Matriks


Diketahui bahwa 𝑥̅𝑖 = (𝑥1𝑖 ∙ 1 + 𝑥2𝑖 ∙ 1 + ⋯ + 𝑥𝑛𝑖 ∙ 1)/𝑛 = 𝑦𝑖′ 𝟏/𝑛, sehingga

Anda mungkin juga menyukai