Yudi Pratama
NIM : 211810438
Kelas : 3SE3
Kode : F45MF
Chapter 8
Komponen Utama
Pengertian Komponen Utama: Secara aljabar, komponen utama adalah kombinasi linear
tertentu dari variabel acak 𝑋1, 𝑋2, … , 𝑋𝑝. Secara geometris, kombinasi linear ini
mewakili pemilihan sistem koordinat baruyang diperoleh dengan memutar sistem asli
dengan 𝑋1, 𝑋2, … ,𝑋𝑝 sebagai sumbu koordinat. Sumbu baru mewakili arah variabilitas
maksimum dan memberikan deskripsi yang lebih sederhana dan lebih parsimonious
struktur kovarians.
Biarkan vektor acak 𝑿′ = [𝑋1, 𝑋2, … , 𝑋𝑝] memiliki matriks kovarians ∑ dengan
eigenvalues 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0.
Komponen utama adalah kombinasi linier yang tidak terkait 𝑌1, 𝑌2, … , 𝑌𝑝
variansnya dalam (8-2) sebesar mungkin.
Komponen utama pertama adalah kombinasi linear dengan varians maksimum.
Artinya, ia memaksimalkan Var (𝑌1) = 𝒂′ ∑𝒂𝟏. Jelas bahwa Var (𝑌1) = 𝒂′ ∑𝒂𝟏 dapat
ditingkatkan dengan mengalikan 𝒂𝟏 dengan beberapa konstanta. Untuk menghilangkan
ketidakabadian ini, lebih mudah untuk membatasi perhatian pada vektor koefisien
panjang unit. Oleh karena itu kami mendefinisikan
di mana matriks simpangan baku diagonal 𝑽1/2 didefinisikan dalam (2-35). Jelas 𝐸(𝒁) = 0
dan
oleh (2-37). Komponen utama 𝒁 dapat diperoleh dari eigenvectors matriks korelasi 𝝆 dari 𝑿.
Semua hasil kami sebelumnya berlaku, dengan beberapa penyederhanaan, karena varians
masing-masing 𝑍𝑖 adalah kesatuan. Kami akan terus menggunakan notasi 𝑌𝑖 untuk merujuk
pada komponen utama ke-i dan (𝜆𝑖, 𝑒𝑖) untuk pasangan eigenvalue-eigenvector baik dari 𝝆
atau ∑. Bagaimana, (𝜆𝑖, 𝑒𝑖) berasal dari saya, secara umum, tidak sama sebagai orang-orang
yang berasal dari 𝝆.
Pengaturan 𝒆′ = [0, … ,0,1,0, … ,0], dengan 1 di posisi ke-i, kami mengamati bahwa
dan kami menyimpulkan bahwa (𝜎𝑖𝑖, 𝒆𝑖) adalah pasangan eigenvalue-eigenvector ke-i. Karena
kombinasi linear 𝒆′ 𝑿 = 𝑋𝒊, set komponen utama hanyalah set asli variabel acak yang tidak
terkait.
Matriks kovarians berpola lain,� yang sering menggambarkan korespondensi di antara
�
variabel biologis tertentu seperti ukuran makhluk hidup, memiliki formulir umum
juga merupakan matriks kovarians dari variabel standar. Matriks dalam (8-15) menyiratkan
bahwa variabel 𝑋1, 𝑋2, … , 𝑋𝑝 sama-sama berkorelasi.
Tidak sulit untuk menunjukkan bahwa 𝑝 eigenvalues dari matriks korelasi (8-15) dapat
dibagi menjadi dua kelompok. Ketika p positif, yang terbesar adalah
sebanding dengan jumlah variabel standar 𝑝. Ini mungkin dianggap sebagai "indeks" dengan
bobot yang sama. Komponen utama ini menjelaskan proporsi
memiliki contoh rata-rata 𝒂′ ̅𝒙 dan varians sampel 𝒂′ 𝑺𝒂𝟏. Juga, pasangan nilai (𝒂′
𝒙𝒋, 𝒂′ 𝒙𝒋), untuk dua kombinasi linier, memiliki sampel
� kovarians 𝒂′ 𝑺𝒂𝟐.
�
Komponen utama sampel didefinisikan sebagai kombinasi linear tersebut yang memilik
varians sampel maksimum. Seperti jumlah populasi, kami membatasi vektor koefisien ai
untuk memuaskan 𝒂′𝒂𝒊 = 𝟏. Khusus
Komponen utama pertama memaksimalkan 𝒂′ 𝑺𝒂𝟏 atau, setara,
�
�
Dengan (2-51), maksimum adalah eigenvalue terbesar yang dicapai 𝜆̂ 𝑖 untuk� pilihan
�
𝒂𝟏 = 𝑒𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 𝑒̂𝑖 𝑑𝑎𝑟𝑖 𝑺. Pilihan 𝒂𝒊 maksimal berturut-turut (8-19) tunduk pada 0 =
′ ′ ̂
𝒂 𝑺𝒆̂ 𝒌 = 𝒂 𝝀𝒌 𝒆̂ 𝒌 , atau 𝒂𝒊 tegak lurus dengan 𝒆̂ 𝒌 . Dengan demikian, seperti dalam bukti
Hasil 8.1-8.3, kami memperoleh hasil berikut mengenai komponen utama sampel:
Pengamatan 𝒙𝒋 sering "berpusat" dengan mengurangi 𝒙̅. Ini tidak berpengaruh pada matriks
kovarians sampel 𝑺 dan memberikan komponen utama ke-i
untuk setiap vektor observasi ̅𝒙.. Jika kita mempertimbangkan nilai-nilai komponen ith
Artinya, rata-rata sampel dari setiap komponen utama adalah nol. Varians sampel masih
diberikan oleh 𝜆̂′𝑖𝑠 seperti pada (8-20).
Jumlah Komponen Utama
Hal-hal yang perlu dipertimbangkan termasuk jumlah total varians sampel yang
dijelaskan, ukuran relatif eigenvalues (varians sampel
komponen), dan interpretasi materi pelajaran dari komponen. Sebagai tambahan saat
kita membahas kemudian, komponen yang terkait dengan eigenvalue dekat nol dan,
oleh karena itu, dianggap tidak penting, dapat menunjukkan dependensi linear yang
tidak ditentukan dalam data.
Bantuan visual yang berguna untuk menentukan jumlah pokok yang sesuai
komponen adalah scree plot. Dengan eigenvalues dipesan dari terbesar ke terkecil, plot
scree adalah plot 𝜆̂ 𝑖 versus i-besarnya eigenvalue versus jumlahnya. Untuk menentukan
jumlah komponen yang sesuai, kami mencari siku (Tikungan) di plot scree. Jumlah
komponen diambil untuk menjadi titik di mana eigenvalue yang tersisa relatif kecil dan
semua tentang ukuran yang sama. Gambar 8.2 menunjukkan plot scree untuk situasi
dengan enam komponen utama.
Interpretasi Sampel Komponen Utama
Komponen utama sampel memiliki beberapa interpretasi. Pertama, misalkan distribusi
𝑿 yang mendasarinya hampir 𝑁𝑝 (𝝁, ∑). Kemudian sampel komponen utama. 𝑦̂𝑖
=𝒆′̂ 𝒊 (𝒙 − ̅𝒙) adalah realisasi dari komponen pokok kependudukan 𝑌𝑖 = 𝒆′ 𝒊 (𝑿 − 𝝁),
yang memiliki distribusi 𝑁𝑝 (𝟎, 𝜦). Matriks diagonal 𝜦 telah entri 𝜆1 , 𝜆2 , … , 𝜆𝑝 dan
(𝜆𝑖 , 𝒆𝒊 ) adalah pasangan eigenvalue-eigenvector ∑.
Juga, dari nilai sampel 𝒙𝒋, kita dapat memperkirakan 𝝁 dengan ̅𝒙 dan ∑ oleh 𝑺.
Jika S positif pasti, kontur yang terdiri dari semua vektor 𝑝 × 1 𝒙 memuaskan
dapat terletak pada dua arah tegak lurus, termasuk sumbu koordinat asli. Ketika kontur
jarak konstan hampir melingkar atau, setara, ketika eigenvalues 𝑺 hampir sama, variasi
sampel homogen ke segala arah. Maka tidak mungkin untuk mewakili data dengan
baik di kurang dari 𝑝 dimensi.
Menstandarkan Komponen Utama Sampel
Komponen utama sampel adalah, secara umum, tidak selalu sehubungan dengan
perubahan Skala. (Lihat Latihan 8.6 dan 8.7). Seperti yang kami sebutkan dalam
pengobatan populasi komponen, variabel yang diukur pada skala yang berbeda atau
pada skala umum dengan rentang yang berbeda secara luas sering distandarisasi. Untuk
sampel, standardisasi dicapai dengan membangun
2) Buat diagram sebar dan plot Q-Q untuk beberapa komponen utama terakhir. Ini
membantu mengidentifikasi pengamatan tersangka
4. INFERENSIA SAMPEL BESAR
di mana ɀ(𝑎/2) adalah 100(𝑎/2) persentil ke-th dari distribusi normal standar.
Bonferroni-type simultan 100(1 − 𝑎)% interval untuk 𝑚𝜆′𝑖 diperoleh dengan
mengganti ɀ(𝑎/2) dengan ɀ(𝑎/2𝑚 ). (Lihat Bagian 5.4.)
Hasil 2 menyiratkan bahwa 𝒆̂ 𝒊 biasanya didistribusikan tentang 𝒆𝒊 yang sesuai untuk
sampel besar. Elemen masing-masing 𝒆̂ 𝒊 berkorelasi, dan korelasinya tergantung pada
pemisahan eigenvalues 𝜆1, … , 𝜆𝑝 (yang tidak diketahui) dan ukuran sampel 𝑛.
Perkiraan kesalahan standar untuk cofficients 𝑒̂𝑖𝑘 diberikan oleh akar persegi dari
elemen diagonal (1/𝑛)𝑬̂ 𝑖 di mana 𝑬̂ 𝑖 berasal dari 𝑬𝒊 dengan substitusi 𝜆̂ 𝑖 untuk 𝜆𝑖 dan 𝑒̂𝑖
untuk 𝑒𝑖.
Tes 𝐻0 versus 𝐻1 mungkin didasarkan pada statistik rasio kemungkinan, tetapi Lawley [14]
telah menunjukkan bahwa prosedur tes yang setara dapat dibangun dari elemen offdiagonal 𝑹.
Prosedur Lawley membutuhkan jumlah Terbukti bahwa rk adalah rata-rata elemen off-diagonal
di kolom ke-k (atau baris) dari 𝑹 dan 𝑟̅ adalah rata-rata keseluruhan dari elemen off-diagonal.
Perkiraan sampel besar tes tingkat 𝛼 adalah menolak 𝐻0 mendukung 𝐻1 jika
di mana 𝜒 2 (𝛼) adalah bagian atas (100𝑎) persentil dari distribusi Chi- Square
dengan (𝑝 + 1)(𝑝 − 2)/2 d.f.