Chapter 8

Nama : Muh.
Yudi Pratama
NIM : 211810438
Kelas : 3SE3
Kode : F45MF
Chapter 8
Komponen Utama
1. Populasi Komponen Utama
Pengertian Komponen Utama: Secara aljabar, komponen utama adalah kombinasi linear
tertentu dari variabel acak 𝑋1, 𝑋2, … , 𝑋𝑝. Secara geometris, kombinasi linear ini
mewakili pemilihan sistem koordinat baruyang diperoleh dengan memutar sistem asli
dengan 𝑋1, 𝑋2, … ,𝑋𝑝 sebagai sumbu koordinat. Sumbu baru mewakili arah variabilitas
maksimum dan memberikan deskripsi yang lebih sederhana dan lebih parsimonious
struktur kovarians.
Komponen utama hanya tergantung pada matriks kovarians ∑ (atau matriks

korelasi p) dari 𝑋1, 𝑋2, … , 𝑋𝑝. Perkembangan mereka tidak memerlukan asumsi normal
multivariat. Di sisi lain, komponen utama populasi normal multivariat memiliki
interpretasi yang berguna dalam hal elipsoid kepadatan konstan. Selanjutnya, inferensi
dapat dibuat dari sampel ketika populasi multivariat normal. (Lihat Bagian 8.5.)
Biarkan vektor acak 𝑿′ = [𝑋1, 𝑋2, … , 𝑋𝑝] memiliki matriks kovarians ∑ dengan
eigenvalues 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0.
Pertimbangkan kombinasi linear
Komponen utama adalah kombinasi linier yang tidak terkait 𝑌1, 𝑌2, … , 𝑌𝑝
variansnya dalam (8-2) sebesar mungkin.
Komponen utama pertama adalah kombinasi linear dengan varians maksimum.
Artinya, ia memaksimalkan Var (𝑌1) = 𝒂′ ∑𝒂𝟏. Jelas bahwa Var (𝑌1) = 𝒂′ ∑𝒂𝟏 dapat
ditingkatkan dengan mengalikan 𝒂𝟏 dengan beberapa konstanta. Untuk menghilangkan
ketidakabadian ini, lebih mudah untuk membatasi perhatian pada vektor koefisien
panjang unit. Oleh karena itu kami mendefinisikan
Pada langkah ke-i
Komponen Utama Diperoleh dari Variabel Standar

Komponen utama juga dapat diperoleh untuk variabel standar
Dalam Notasi Matriks
di mana matriks simpangan baku diagonal 𝑽1/2 didefinisikan dalam (2-35). Jelas 𝐸(𝒁) = 0
dan
oleh (2-37). Komponen utama 𝒁 dapat diperoleh dari eigenvectors matriks korelasi 𝝆 dari 𝑿.
Semua hasil kami sebelumnya berlaku, dengan beberapa penyederhanaan, karena varians
masing-masing 𝑍𝑖 adalah kesatuan. Kami akan terus menggunakan notasi 𝑌𝑖 untuk merujuk
pada komponen utama ke-i dan (𝜆𝑖, 𝑒𝑖) untuk pasangan eigenvalue-eigenvector baik dari 𝝆
atau ∑. Bagaimana, (𝜆𝑖, 𝑒𝑖) berasal dari saya, secara umum, tidak sama sebagai orang-orang
yang berasal dari 𝝆.
Komponen Utama untuk Matriks Kovariasi dengan Struktur Khusus

Ada kovarians berpola tertentu dan matriks korelasi yang komponen utamanya dapat
diekspresikan dalam bentuk sederhana. Misalkan ∑ adalah diagonal 1 matrix
Pengaturan 𝒆′ = [0, … ,0,1,0, … ,0], dengan 1 di posisi ke-i, kami mengamati bahwa
dan kami menyimpulkan bahwa (𝜎𝑖𝑖, 𝒆𝑖) adalah pasangan eigenvalue-eigenvector ke-i. Karena
kombinasi linear 𝒆′ 𝑿 = 𝑋𝒊, set komponen utama hanyalah set asli variabel acak yang tidak
terkait.
Matriks kovarians berpola lain,� yang sering menggambarkan korespondensi di antara
�
variabel biologis tertentu seperti ukuran makhluk hidup, memiliki formulir umum
Matriks korelasi yang dihasilkan
juga merupakan matriks kovarians dari variabel standar. Matriks dalam (8-15) menyiratkan
bahwa variabel 𝑋1, 𝑋2, … , 𝑋𝑝 sama-sama berkorelasi.
Tidak sulit untuk menunjukkan bahwa 𝑝 eigenvalues dari matriks korelasi (8-15) dapat
dibagi menjadi dua kelompok. Ketika p positif, yang terbesar adalah
dengan eigenvector terkait

Sisa 𝑝 − 1 eigenvalues adalah
Dan satu pilihan untuk eigen vector mereka adalah
Komponen utama pertama
sebanding dengan jumlah variabel standar 𝑝. Ini mungkin dianggap sebagai "indeks" dengan
bobot yang sama. Komponen utama ini menjelaskan proporsi
Dari total varians populasi

2. MERINGKAS VARIASI SAMPEL BERDASARKAN KOMPONEN UTAMA
Ingat bahwa nilai 𝑛 dari kombinasi linear apa pun
memiliki contoh rata-rata 𝒂′ ̅𝒙 dan varians sampel 𝒂′ 𝑺𝒂𝟏. Juga, pasangan nilai (𝒂′
𝒙𝒋, 𝒂′ 𝒙𝒋), untuk dua kombinasi linier, memiliki sampel
� kovarians 𝒂′ 𝑺𝒂𝟐.
�
Komponen utama sampel didefinisikan sebagai kombinasi linear tersebut yang memilik
varians sampel maksimum. Seperti jumlah populasi, kami membatasi vektor koefisien ai
untuk memuaskan 𝒂′𝒂𝒊 = 𝟏. Khusus
Komponen utama pertama memaksimalkan 𝒂′ 𝑺𝒂𝟏 atau, setara,
�
�
Dengan (2-51), maksimum adalah eigenvalue terbesar yang dicapai 𝜆̂ 𝑖 untuk� pilihan
�
𝒂𝟏 = 𝑒𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 𝑒̂𝑖 𝑑𝑎𝑟𝑖 𝑺. Pilihan 𝒂𝒊 maksimal berturut-turut (8-19) tunduk pada 0 =
′ ′ ̂
𝒂 𝑺𝒆̂ 𝒌 = 𝒂 𝝀𝒌 𝒆̂ 𝒌 , atau 𝒂𝒊 tegak lurus dengan 𝒆̂ 𝒌 . Dengan demikian, seperti dalam bukti
Hasil 8.1-8.3, kami memperoleh hasil berikut mengenai komponen utama sampel:
Pengamatan 𝒙𝒋 sering "berpusat" dengan mengurangi 𝒙̅. Ini tidak berpengaruh pada matriks
kovarians sampel 𝑺 dan memberikan komponen utama ke-i
untuk setiap vektor observasi ̅𝒙.. Jika kita mempertimbangkan nilai-nilai komponen ith
Artinya, rata-rata sampel dari setiap komponen utama adalah nol. Varians sampel masih
diberikan oleh 𝜆̂′𝑖𝑠 seperti pada (8-20).
Jumlah Komponen Utama
Hal-hal yang perlu dipertimbangkan termasuk jumlah total varians sampel yang
dijelaskan, ukuran relatif eigenvalues (varians sampel
komponen), dan interpretasi materi pelajaran dari komponen. Sebagai tambahan saat
kita membahas kemudian, komponen yang terkait dengan eigenvalue dekat nol dan,
oleh karena itu, dianggap tidak penting, dapat menunjukkan dependensi linear yang
tidak ditentukan dalam data.
Bantuan visual yang berguna untuk menentukan jumlah pokok yang sesuai
komponen adalah scree plot. Dengan eigenvalues dipesan dari terbesar ke terkecil, plot
scree adalah plot 𝜆̂ 𝑖 versus i-besarnya eigenvalue versus jumlahnya. Untuk menentukan
jumlah komponen yang sesuai, kami mencari siku (Tikungan) di plot scree. Jumlah
komponen diambil untuk menjadi titik di mana eigenvalue yang tersisa relatif kecil dan
semua tentang ukuran yang sama. Gambar 8.2 menunjukkan plot scree untuk situasi
dengan enam komponen utama.
Interpretasi Sampel Komponen Utama
Komponen utama sampel memiliki beberapa interpretasi. Pertama, misalkan distribusi
𝑿 yang mendasarinya hampir 𝑁𝑝 (𝝁, ∑). Kemudian sampel komponen utama. 𝑦̂𝑖
=𝒆′̂ 𝒊 (𝒙 − ̅𝒙) adalah realisasi dari komponen pokok kependudukan 𝑌𝑖 = 𝒆′ 𝒊 (𝑿 − 𝝁),
yang memiliki distribusi 𝑁𝑝 (𝟎, 𝜦). Matriks diagonal 𝜦 telah entri 𝜆1 , 𝜆2 , … , 𝜆𝑝 dan
(𝜆𝑖 , 𝒆𝒊 ) adalah pasangan eigenvalue-eigenvector ∑.
Juga, dari nilai sampel 𝒙𝒋, kita dapat memperkirakan 𝝁 dengan ̅𝒙 dan ∑ oleh 𝑺.
Jika S positif pasti, kontur yang terdiri dari semua vektor 𝑝 × 1 𝒙 memuaskan
memperkirakan kontur kepadatan konstan (𝒙 − 𝝁)′∑−𝟏(𝒙 − 𝝁) dari yang mendasari

kepadatan normal. Perkiraan kontur dapat ditarik pada plot sebar untuk menunjukkan
distribusi normal yang menghasilkan data. Asumsi normalitas adalah berguna untuk
prosedur inferensi yang dibahas di Bagian 8.5, tetapi tidak diperlukan untuk
pengembangan sifat komponen utama sampel yang dirangkum dalam (8-20).
Interpretasi geometris dari komponen utama sampel diilustrasikan dalam
Gambar 8.4 untuk 𝑝 = 2. Gambar 8.4(a) menunjukkan elips jarak konstan, berpusat
pada ̅𝒙, dengan 𝜆̂1 > 𝜆̂ 2 . Sampel komponen utama ditentukan dengan baik. Gambar
8.4(b) menunjukkan elips jarak konstan, berpusat pada ̅𝒙, dengan 𝜆̂1 = 𝜆̂ 2. Jika 𝜆̂1 =
𝜆̂ 2 , sumbu elips (lingkaran) jarak konstan tidak ditentukan secara unik dan dapat
terletak pada dua arah tegak lurus, termasuk arah sumbu koordinat asli. Demikian pula,
sampel komponen utama
dapat terletak pada dua arah tegak lurus, termasuk sumbu koordinat asli. Ketika kontur
jarak konstan hampir melingkar atau, setara, ketika eigenvalues 𝑺 hampir sama, variasi
sampel homogen ke segala arah. Maka tidak mungkin untuk mewakili data dengan
baik di kurang dari 𝑝 dimensi.
Menstandarkan Komponen Utama Sampel
Komponen utama sampel adalah, secara umum, tidak selalu sehubungan dengan
perubahan Skala. (Lihat Latihan 8.6 dan 8.7). Seperti yang kami sebutkan dalam
pengobatan populasi komponen, variabel yang diukur pada skala yang berbeda atau
pada skala umum dengan rentang yang berbeda secara luas sering distandarisasi. Untuk
sampel, standardisasi dicapai dengan membangun
Matriks data 𝑛 × 𝑝 dari pengamatan standar
menghasilkan vektor rata-rata sampel [lihat (3-24)]
dan contoh matriks kovarians [lihat (3-27)]

Komponen utama sampel dari pengamatan standar diberikan oleh (8-20), dengan
matriks 𝑹 menggantikan 𝑺. Karena pengamatan sudah "berpusat" dengan konstruksi,
tidak perlu menulis komponen dalam bentuk (8-21).
Menggunakan (8-29), kami melihat bahwa proporsi total varians sampel

dijelaskan oleh komponen utama sampel ke-i adalah
3. GRAFIK KOMPONEN UTAMA

Komponen utama terakhir dapat membantu menentukan pengamatan tersangka. Setiap
pengamatan dapat diekspresikan sebagai kombinasi linear
dari set lengkap eigenvectors 𝒆̂ 𝟏 , 𝒆̂ 𝟐 , … , 𝒆̂ 𝒑 dari 𝑺. Dengan demikian, besarnya

komponen utama menentukan seberapa baik beberapa yang pertama sesuai dengan
pengamatan. Yaitu
𝑦̂𝑗1 𝒆̂ 𝟏 + 𝑦̂𝑗2 𝒆̂ 𝟐 + ⋯ + 𝑦̂𝑗,𝑞 −1 𝒆̂ 𝒒−𝟏 berbeda dari 𝒙𝒋 oleh 𝑦̂𝑗𝑞 𝒆̂ 𝒒 + ⋯ + 𝑦̂𝑗,𝑝 𝒆̂ 𝒑 , alun-alun yang
panjangnya adalah 𝑦̂ 2 + ⋯ + 𝑦̂𝑗𝑝 · Pengamatan tersangka akan sering sedemikian
rupa 𝑗𝑞
sehingga setidaknya salah satu koordinat 𝑦̂𝑗𝑞 , … , 𝑦̂𝑗𝑝 berkontribusi untuk panjang kuadrat ini
akan besar. (Lihat Suplemen 8A untuk hasil perkiraan yang lebih umum.)
Pernyataan berikut merangkum ide-ide ini.

1) Untuk membantu memeriksa asumsi normal, buat diagram sebar untuk beberapa
komponen utama pertama. Selain itu, buat plot Q-Q dari nilai sampel yang dihasilkan
oleh masing-masing komponen utama.
2) Buat diagram sebar dan plot Q-Q untuk beberapa komponen utama terakhir. Ini
membantu mengidentifikasi pengamatan tersangka
4. INFERENSIA SAMPEL BESAR
Sifat Sampel Besar 𝝀̂ 𝒊 dan 𝒆̂ 𝒊

Hasil yang saat ini tersedia mengenai interval kepercayaan sampel besar untuk 𝜆̂ 𝑖 dan 𝑒̂𝑖
berasumsi bahwa pengamatan 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒑 adalah sampel acak dari normal
populasi. Juga harus diasumsikan bahwa eigenvalues (tidak diketahui) dari saya berbeda dan
positif, sehingga 𝜆1 > 𝜆2 > ⋯ > 𝜆𝑝 > 0. Satu pengecualian adalah kasus di mana jumlah
eigenvalues yang sama diketahui. Biasanya kesimpulan untuk eigenvalues yang
berbeda diterapkan, kecuali ada alasan kuat untuk percaya bahwa ∑ memiliki struktur khusus
yang menghasilkan eigenvalues yang sama. Bahkan ketika asumsi normal dilanggar, interval
kepercayaan yang diperoleh dengan cara ini masih memberikan beberapa indikasi
ketidakpastian dalam 𝜆̂ 𝑖 dan 𝑒̂𝑖 .
Anderson [2] dan Girshick [5] telah menetapkan teori distribusi sampel besar berikut
untuk eigenvalues 𝝀̂′ = [𝜆̂1 , … , 𝜆̂ 𝑝 ] dan eigenvectors 𝒆̂ 𝟏 , … , 𝒆̂ 𝒑 dari 𝑺:
a. Biarkan 𝛬 menjadi matriks diagonal eigenvalues 𝜆1, … , 𝜆𝑝 dari ∑, lalu √𝑛(𝝀̂ −
𝝀) sekitar 𝑁𝑝 (0, 2𝛬2 ).
b. Biarkan
maka √𝑛(𝒆̂ − 𝒆) adalah sekitar 𝑁𝑝 (𝟎, 𝑬𝒊)·
c. Setiap 𝜆̂ 𝑖 didistribusikan secara independen dari elemen 𝒆̂ 𝒊 terkait .

Hasil 1 menyiratkan bahwa, untuk 𝑛 besar, 𝜆̂ 𝑖 didistribusikan secara independen. Selain
itu, 𝜆̂ 𝑖 memiliki perkiraan distribusi 𝑁(𝜆𝑖 , 2𝜆2 /𝑛). Menggunakan distribusi normal ini,
kami memperoleh 𝑃[|𝜆̂ 𝑖 − 𝜆𝑖 | ≤ ɀ(𝑎/2)𝜆𝑖 √2/𝑛] = 1 − 𝑎. Sampel besar 100(1 −
𝑖
𝑎)% interval kepercayaan diri untuk 𝜆𝑖 dengan demikian disediakan oleh
di mana ɀ(𝑎/2) adalah 100(𝑎/2) persentil ke-th dari distribusi normal standar.
Bonferroni-type simultan 100(1 − 𝑎)% interval untuk 𝑚𝜆′𝑖 diperoleh dengan
mengganti ɀ(𝑎/2) dengan ɀ(𝑎/2𝑚 ). (Lihat Bagian 5.4.)
Hasil 2 menyiratkan bahwa 𝒆̂ 𝒊 biasanya didistribusikan tentang 𝒆𝒊 yang sesuai untuk
sampel besar. Elemen masing-masing 𝒆̂ 𝒊 berkorelasi, dan korelasinya tergantung pada
pemisahan eigenvalues 𝜆1, … , 𝜆𝑝 (yang tidak diketahui) dan ukuran sampel 𝑛.
Perkiraan kesalahan standar untuk cofficients 𝑒̂𝑖𝑘 diberikan oleh akar persegi dari
elemen diagonal (1/𝑛)𝑬̂ 𝑖 di mana 𝑬̂ 𝑖 berasal dari 𝑬𝒊 dengan substitusi 𝜆̂ 𝑖 untuk 𝜆𝑖 dan 𝑒̂𝑖
untuk 𝑒𝑖.
Pengujian untuk Struktur Korelasi yang Sama

Struktur korelasi khusus 𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑘 ) = √𝜎𝑖𝑖 𝜎𝑘𝑘 𝜌, atau 𝐶𝑜𝑟𝑟(𝑋𝑖 , 𝑋𝑘 ) = 𝜌,
semua 𝑖 ≠ 𝑘, adalah salah satu struktur penting di mana eigenvalues ∑ tidak berbeda dan
hasil sebelumnya tidak berlaku.
Untuk menguji struktur ini, biarkan
Tes 𝐻0 versus 𝐻1 mungkin didasarkan pada statistik rasio kemungkinan, tetapi Lawley [14]
telah menunjukkan bahwa prosedur tes yang setara dapat dibangun dari elemen offdiagonal 𝑹.
Prosedur Lawley membutuhkan jumlah Terbukti bahwa rk adalah rata-rata elemen off-diagonal
di kolom ke-k (atau baris) dari 𝑹 dan 𝑟̅ adalah rata-rata keseluruhan dari elemen off-diagonal.
Perkiraan sampel besar tes tingkat 𝛼 adalah menolak 𝐻0 mendukung 𝐻1 jika
di mana 𝜒 2 (𝛼) adalah bagian atas (100𝑎) persentil dari distribusi Chi- Square
dengan (𝑝 + 1)(𝑝 − 2)/2 d.f.
5. KUALITAS PEMANTAUAN DENGAN KOMPONEN UTAMA
Memeriksa Seperangkat Pengukuran Yang Diberikan untuk Stabilitas

Biarkan 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 menjadi sampel acak dari distribusi normal multivariat dengan
berarti IL dan matriks kovarians ∑. Kami mempertimbangkan dua sampel komponen utama
pertama, 𝑦̂𝑗1 = 𝒆′̂ 𝟏 (𝒙𝒋 − ̅𝒙) dan 𝑦̂𝑗2 = 𝒆′̂ 𝟐 (𝒙𝒋 − ̅𝒙). Komponen utama tambahan dapat
dipertimbangkan, tetapi dua lebih mudah diperiksa secara visual dan, dari dua komponen,
dua yang pertama menjelaskan proporsi kumulatif terbesar dari total varians sampel.
Bagian pertama dari prosedur ini adalah membuat bagan format elips untuk
pasangan nilai (𝑦̂𝑗1, 𝑦̂𝑗2 ) untuk 𝑗 = 1,2, … , 𝑛.
Dua komponen sampel tidak terkait, sehingga elips kualitas untuk 𝑛 besar
mengurangi pengumpulan pasangan nilai yang mungkin, sedemikian rupa sehingga
Mengontrol Nilai Masa Depan

Sebelumnya, kami mempertimbangkan untuk memeriksa apakah serangkaian pengamatan
multivariat yang diberikan stabil dengan mempertimbangkan secara terpisah dua komponen
utama pertama dan kemudian terakhir 𝑝 − 2. Karena distribusi khi-square digunakan untuk
memperkirakan UCL dari 𝑇2-chart dan jarak kritis untuk bagan format elips, tidak ada
modifikasi lebih lanjut yang diperlukan untuk memantau nilai masa depan.

Chapter 8

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Chapter 8

Diunggah oleh

Hak Cipta:

Format Tersedia

Nama : Muh.

1. Populasi Komponen Utama

Komponen utama hanya tergantung pada matriks kovarians ∑ (atau matriks

Pertimbangkan kombinasi linear

Pada langkah ke-i

Komponen Utama Diperoleh dari Variabel Standar

Dalam Notasi Matriks

Komponen Utama untuk Matriks Kovariasi dengan Struktur Khusus

Matriks korelasi yang dihasilkan

dengan eigenvector terkait

Dan satu pilihan untuk eigen vector mereka adalah

Komponen utama pertama

Dari total varians populasi

Ingat bahwa nilai 𝑛 dari kombinasi linear apa pun

memperkirakan kontur kepadatan konstan (𝒙 − 𝝁)′∑−𝟏(𝒙 − 𝝁) dari yang mendasari

Matriks data 𝑛 × 𝑝 dari pengamatan standar

menghasilkan vektor rata-rata sampel [lihat (3-24)]

dan contoh matriks kovarians [lihat (3-27)]

Menggunakan (8-29), kami melihat bahwa proporsi total varians sampel

3. GRAFIK KOMPONEN UTAMA

dari set lengkap eigenvectors 𝒆̂ 𝟏 , 𝒆̂ 𝟐 , … , 𝒆̂ 𝒑 dari 𝑺. Dengan demikian, besarnya

Pernyataan berikut merangkum ide-ide ini.

Sifat Sampel Besar 𝝀̂ 𝒊 dan 𝒆̂ 𝒊

c. Setiap 𝜆̂ 𝑖 didistribusikan secara independen dari elemen 𝒆̂ 𝒊 terkait .

𝑎)% interval kepercayaan diri untuk 𝜆𝑖 dengan demikian disediakan oleh

Pengujian untuk Struktur Korelasi yang Sama

hasil sebelumnya tidak berlaku.

Untuk menguji struktur ini, biarkan

5. KUALITAS PEMANTAUAN DENGAN KOMPONEN UTAMA

Memeriksa Seperangkat Pengukuran Yang Diberikan untuk Stabilitas

Mengontrol Nilai Masa Depan

Anda mungkin juga menyukai