Anda di halaman 1dari 12

Nama : Muh.

Yudi Pratama
NIM : 211810438
Kelas : 3SE3
Kode : F45MF

Chapter 8
Komponen Utama

1. Populasi Komponen Utama

Pengertian Komponen Utama: Secara aljabar, komponen utama adalah kombinasi linear
tertentu dari variabel acak 𝑋1, 𝑋2, … , 𝑋𝑝. Secara geometris, kombinasi linear ini
mewakili pemilihan sistem koordinat baruyang diperoleh dengan memutar sistem asli
dengan 𝑋1, 𝑋2, … ,𝑋𝑝 sebagai sumbu koordinat. Sumbu baru mewakili arah variabilitas
maksimum dan memberikan deskripsi yang lebih sederhana dan lebih parsimonious
struktur kovarians.

Komponen utama hanya tergantung pada matriks kovarians ∑ (atau matriks


korelasi p) dari 𝑋1, 𝑋2, … , 𝑋𝑝. Perkembangan mereka tidak memerlukan asumsi normal
multivariat. Di sisi lain, komponen utama populasi normal multivariat memiliki
interpretasi yang berguna dalam hal elipsoid kepadatan konstan. Selanjutnya, inferensi
dapat dibuat dari sampel ketika populasi multivariat normal. (Lihat Bagian 8.5.)

Biarkan vektor acak 𝑿′ = [𝑋1, 𝑋2, … , 𝑋𝑝] memiliki matriks kovarians ∑ dengan
eigenvalues 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0.

Pertimbangkan kombinasi linear

Komponen utama adalah kombinasi linier yang tidak terkait 𝑌1, 𝑌2, … , 𝑌𝑝
variansnya dalam (8-2) sebesar mungkin.
Komponen utama pertama adalah kombinasi linear dengan varians maksimum.
Artinya, ia memaksimalkan Var (𝑌1) = 𝒂′ ∑𝒂𝟏. Jelas bahwa Var (𝑌1) = 𝒂′ ∑𝒂𝟏 dapat
ditingkatkan dengan mengalikan 𝒂𝟏 dengan beberapa konstanta. Untuk menghilangkan
ketidakabadian ini, lebih mudah untuk membatasi perhatian pada vektor koefisien
panjang unit. Oleh karena itu kami mendefinisikan

Pada langkah ke-i

Komponen Utama Diperoleh dari Variabel Standar


Komponen utama juga dapat diperoleh untuk variabel standar

Dalam Notasi Matriks

di mana matriks simpangan baku diagonal 𝑽1/2 didefinisikan dalam (2-35). Jelas 𝐸(𝒁) = 0
dan

oleh (2-37). Komponen utama 𝒁 dapat diperoleh dari eigenvectors matriks korelasi 𝝆 dari 𝑿.
Semua hasil kami sebelumnya berlaku, dengan beberapa penyederhanaan, karena varians
masing-masing 𝑍𝑖 adalah kesatuan. Kami akan terus menggunakan notasi 𝑌𝑖 untuk merujuk
pada komponen utama ke-i dan (𝜆𝑖, 𝑒𝑖) untuk pasangan eigenvalue-eigenvector baik dari 𝝆
atau ∑. Bagaimana, (𝜆𝑖, 𝑒𝑖) berasal dari saya, secara umum, tidak sama sebagai orang-orang
yang berasal dari 𝝆.

Komponen Utama untuk Matriks Kovariasi dengan Struktur Khusus


Ada kovarians berpola tertentu dan matriks korelasi yang komponen utamanya dapat
diekspresikan dalam bentuk sederhana. Misalkan ∑ adalah diagonal 1 matrix

Pengaturan 𝒆′ = [0, … ,0,1,0, … ,0], dengan 1 di posisi ke-i, kami mengamati bahwa

dan kami menyimpulkan bahwa (𝜎𝑖𝑖, 𝒆𝑖) adalah pasangan eigenvalue-eigenvector ke-i. Karena
kombinasi linear 𝒆′ 𝑿 = 𝑋𝒊, set komponen utama hanyalah set asli variabel acak yang tidak
terkait.
Matriks kovarians berpola lain,� yang sering menggambarkan korespondensi di antara

variabel biologis tertentu seperti ukuran makhluk hidup, memiliki formulir umum

Matriks korelasi yang dihasilkan

juga merupakan matriks kovarians dari variabel standar. Matriks dalam (8-15) menyiratkan
bahwa variabel 𝑋1, 𝑋2, … , 𝑋𝑝 sama-sama berkorelasi.
Tidak sulit untuk menunjukkan bahwa 𝑝 eigenvalues dari matriks korelasi (8-15) dapat
dibagi menjadi dua kelompok. Ketika p positif, yang terbesar adalah

dengan eigenvector terkait


Sisa 𝑝 − 1 eigenvalues adalah

Dan satu pilihan untuk eigen vector mereka adalah

Komponen utama pertama

sebanding dengan jumlah variabel standar 𝑝. Ini mungkin dianggap sebagai "indeks" dengan
bobot yang sama. Komponen utama ini menjelaskan proporsi

Dari total varians populasi


2. MERINGKAS VARIASI SAMPEL BERDASARKAN KOMPONEN UTAMA

Ingat bahwa nilai 𝑛 dari kombinasi linear apa pun

memiliki contoh rata-rata 𝒂′ ̅𝒙 dan varians sampel 𝒂′ 𝑺𝒂𝟏. Juga, pasangan nilai (𝒂′
𝒙𝒋, 𝒂′ 𝒙𝒋), untuk dua kombinasi linier, memiliki sampel
� kovarians 𝒂′ 𝑺𝒂𝟐.

Komponen utama sampel didefinisikan sebagai kombinasi linear tersebut yang memilik
varians sampel maksimum. Seperti jumlah populasi, kami membatasi vektor koefisien ai
untuk memuaskan 𝒂′𝒂𝒊 = 𝟏. Khusus
Komponen utama pertama memaksimalkan 𝒂′ 𝑺𝒂𝟏 atau, setara,

Dengan (2-51), maksimum adalah eigenvalue terbesar yang dicapai 𝜆̂ 𝑖 untuk� pilihan

𝒂𝟏 = 𝑒𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 𝑒̂𝑖 𝑑𝑎𝑟𝑖 𝑺. Pilihan 𝒂𝒊 maksimal berturut-turut (8-19) tunduk pada 0 =
′ ′ ̂
𝒂 𝑺𝒆̂ 𝒌 = 𝒂 𝝀𝒌 𝒆̂ 𝒌 , atau 𝒂𝒊 tegak lurus dengan 𝒆̂ 𝒌 . Dengan demikian, seperti dalam bukti
Hasil 8.1-8.3, kami memperoleh hasil berikut mengenai komponen utama sampel:

Pengamatan 𝒙𝒋 sering "berpusat" dengan mengurangi 𝒙̅. Ini tidak berpengaruh pada matriks
kovarians sampel 𝑺 dan memberikan komponen utama ke-i

untuk setiap vektor observasi ̅𝒙.. Jika kita mempertimbangkan nilai-nilai komponen ith

Artinya, rata-rata sampel dari setiap komponen utama adalah nol. Varians sampel masih
diberikan oleh 𝜆̂′𝑖𝑠 seperti pada (8-20).
Jumlah Komponen Utama
Hal-hal yang perlu dipertimbangkan termasuk jumlah total varians sampel yang
dijelaskan, ukuran relatif eigenvalues (varians sampel
komponen), dan interpretasi materi pelajaran dari komponen. Sebagai tambahan saat
kita membahas kemudian, komponen yang terkait dengan eigenvalue dekat nol dan,
oleh karena itu, dianggap tidak penting, dapat menunjukkan dependensi linear yang
tidak ditentukan dalam data.

Bantuan visual yang berguna untuk menentukan jumlah pokok yang sesuai
komponen adalah scree plot. Dengan eigenvalues dipesan dari terbesar ke terkecil, plot
scree adalah plot 𝜆̂ 𝑖 versus i-besarnya eigenvalue versus jumlahnya. Untuk menentukan
jumlah komponen yang sesuai, kami mencari siku (Tikungan) di plot scree. Jumlah
komponen diambil untuk menjadi titik di mana eigenvalue yang tersisa relatif kecil dan
semua tentang ukuran yang sama. Gambar 8.2 menunjukkan plot scree untuk situasi
dengan enam komponen utama.
Interpretasi Sampel Komponen Utama
Komponen utama sampel memiliki beberapa interpretasi. Pertama, misalkan distribusi
𝑿 yang mendasarinya hampir 𝑁𝑝 (𝝁, ∑). Kemudian sampel komponen utama. 𝑦̂𝑖
=𝒆′̂ 𝒊 (𝒙 − ̅𝒙) adalah realisasi dari komponen pokok kependudukan 𝑌𝑖 = 𝒆′ 𝒊 (𝑿 − 𝝁),
yang memiliki distribusi 𝑁𝑝 (𝟎, 𝜦). Matriks diagonal 𝜦 telah entri 𝜆1 , 𝜆2 , … , 𝜆𝑝 dan
(𝜆𝑖 , 𝒆𝒊 ) adalah pasangan eigenvalue-eigenvector ∑.

Juga, dari nilai sampel 𝒙𝒋, kita dapat memperkirakan 𝝁 dengan ̅𝒙 dan ∑ oleh 𝑺.
Jika S positif pasti, kontur yang terdiri dari semua vektor 𝑝 × 1 𝒙 memuaskan

memperkirakan kontur kepadatan konstan (𝒙 − 𝝁)′∑−𝟏(𝒙 − 𝝁) dari yang mendasari


kepadatan normal. Perkiraan kontur dapat ditarik pada plot sebar untuk menunjukkan
distribusi normal yang menghasilkan data. Asumsi normalitas adalah berguna untuk
prosedur inferensi yang dibahas di Bagian 8.5, tetapi tidak diperlukan untuk
pengembangan sifat komponen utama sampel yang dirangkum dalam (8-20).
Interpretasi geometris dari komponen utama sampel diilustrasikan dalam
Gambar 8.4 untuk 𝑝 = 2. Gambar 8.4(a) menunjukkan elips jarak konstan, berpusat
pada ̅𝒙, dengan 𝜆̂1 > 𝜆̂ 2 . Sampel komponen utama ditentukan dengan baik. Gambar
8.4(b) menunjukkan elips jarak konstan, berpusat pada ̅𝒙, dengan 𝜆̂1 = 𝜆̂ 2. Jika 𝜆̂1 =
𝜆̂ 2 , sumbu elips (lingkaran) jarak konstan tidak ditentukan secara unik dan dapat
terletak pada dua arah tegak lurus, termasuk arah sumbu koordinat asli. Demikian pula,
sampel komponen utama

dapat terletak pada dua arah tegak lurus, termasuk sumbu koordinat asli. Ketika kontur
jarak konstan hampir melingkar atau, setara, ketika eigenvalues 𝑺 hampir sama, variasi
sampel homogen ke segala arah. Maka tidak mungkin untuk mewakili data dengan
baik di kurang dari 𝑝 dimensi.
Menstandarkan Komponen Utama Sampel
Komponen utama sampel adalah, secara umum, tidak selalu sehubungan dengan
perubahan Skala. (Lihat Latihan 8.6 dan 8.7). Seperti yang kami sebutkan dalam
pengobatan populasi komponen, variabel yang diukur pada skala yang berbeda atau

pada skala umum dengan rentang yang berbeda secara luas sering distandarisasi. Untuk
sampel, standardisasi dicapai dengan membangun

Matriks data 𝑛 × 𝑝 dari pengamatan standar

menghasilkan vektor rata-rata sampel [lihat (3-24)]

dan contoh matriks kovarians [lihat (3-27)]


Komponen utama sampel dari pengamatan standar diberikan oleh (8-20), dengan
matriks 𝑹 menggantikan 𝑺. Karena pengamatan sudah "berpusat" dengan konstruksi,
tidak perlu menulis komponen dalam bentuk (8-21).

Menggunakan (8-29), kami melihat bahwa proporsi total varians sampel


dijelaskan oleh komponen utama sampel ke-i adalah

3. GRAFIK KOMPONEN UTAMA


Komponen utama terakhir dapat membantu menentukan pengamatan tersangka. Setiap
pengamatan dapat diekspresikan sebagai kombinasi linear

dari set lengkap eigenvectors 𝒆̂ 𝟏 , 𝒆̂ 𝟐 , … , 𝒆̂ 𝒑 dari 𝑺. Dengan demikian, besarnya


komponen utama menentukan seberapa baik beberapa yang pertama sesuai dengan
pengamatan. Yaitu
𝑦̂𝑗1 𝒆̂ 𝟏 + 𝑦̂𝑗2 𝒆̂ 𝟐 + ⋯ + 𝑦̂𝑗,𝑞 −1 𝒆̂ 𝒒−𝟏 berbeda dari 𝒙𝒋 oleh 𝑦̂𝑗𝑞 𝒆̂ 𝒒 + ⋯ + 𝑦̂𝑗,𝑝 𝒆̂ 𝒑 , alun-alun yang
panjangnya adalah 𝑦̂ 2 + ⋯ + 𝑦̂𝑗𝑝 · Pengamatan tersangka akan sering sedemikian
rupa 𝑗𝑞
sehingga setidaknya salah satu koordinat 𝑦̂𝑗𝑞 , … , 𝑦̂𝑗𝑝 berkontribusi untuk panjang kuadrat ini
akan besar. (Lihat Suplemen 8A untuk hasil perkiraan yang lebih umum.)

Pernyataan berikut merangkum ide-ide ini.


1) Untuk membantu memeriksa asumsi normal, buat diagram sebar untuk beberapa
komponen utama pertama. Selain itu, buat plot Q-Q dari nilai sampel yang dihasilkan
oleh masing-masing komponen utama.

2) Buat diagram sebar dan plot Q-Q untuk beberapa komponen utama terakhir. Ini
membantu mengidentifikasi pengamatan tersangka
4. INFERENSIA SAMPEL BESAR

Sifat Sampel Besar 𝝀̂ 𝒊 dan 𝒆̂ 𝒊


Hasil yang saat ini tersedia mengenai interval kepercayaan sampel besar untuk 𝜆̂ 𝑖 dan 𝑒̂𝑖
berasumsi bahwa pengamatan 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒑 adalah sampel acak dari normal
populasi. Juga harus diasumsikan bahwa eigenvalues (tidak diketahui) dari saya berbeda dan
positif, sehingga 𝜆1 > 𝜆2 > ⋯ > 𝜆𝑝 > 0. Satu pengecualian adalah kasus di mana jumlah
eigenvalues yang sama diketahui. Biasanya kesimpulan untuk eigenvalues yang
berbeda diterapkan, kecuali ada alasan kuat untuk percaya bahwa ∑ memiliki struktur khusus
yang menghasilkan eigenvalues yang sama. Bahkan ketika asumsi normal dilanggar, interval
kepercayaan yang diperoleh dengan cara ini masih memberikan beberapa indikasi
ketidakpastian dalam 𝜆̂ 𝑖 dan 𝑒̂𝑖 .
Anderson [2] dan Girshick [5] telah menetapkan teori distribusi sampel besar berikut
untuk eigenvalues 𝝀̂′ = [𝜆̂1 , … , 𝜆̂ 𝑝 ] dan eigenvectors 𝒆̂ 𝟏 , … , 𝒆̂ 𝒑 dari 𝑺:
a. Biarkan 𝛬 menjadi matriks diagonal eigenvalues 𝜆1, … , 𝜆𝑝 dari ∑, lalu √𝑛(𝝀̂ −
𝝀) sekitar 𝑁𝑝 (0, 2𝛬2 ).
b. Biarkan
maka √𝑛(𝒆̂ − 𝒆) adalah sekitar 𝑁𝑝 (𝟎, 𝑬𝒊)·

c. Setiap 𝜆̂ 𝑖 didistribusikan secara independen dari elemen 𝒆̂ 𝒊 terkait .


Hasil 1 menyiratkan bahwa, untuk 𝑛 besar, 𝜆̂ 𝑖 didistribusikan secara independen. Selain
itu, 𝜆̂ 𝑖 memiliki perkiraan distribusi 𝑁(𝜆𝑖 , 2𝜆2 /𝑛). Menggunakan distribusi normal ini,
kami memperoleh 𝑃[|𝜆̂ 𝑖 − 𝜆𝑖 | ≤ ɀ(𝑎/2)𝜆𝑖 √2/𝑛] = 1 − 𝑎. Sampel besar 100(1 −
𝑖

𝑎)% interval kepercayaan diri untuk 𝜆𝑖 dengan demikian disediakan oleh

di mana ɀ(𝑎/2) adalah 100(𝑎/2) persentil ke-th dari distribusi normal standar.
Bonferroni-type simultan 100(1 − 𝑎)% interval untuk 𝑚𝜆′𝑖 diperoleh dengan
mengganti ɀ(𝑎/2) dengan ɀ(𝑎/2𝑚 ). (Lihat Bagian 5.4.)
Hasil 2 menyiratkan bahwa 𝒆̂ 𝒊 biasanya didistribusikan tentang 𝒆𝒊 yang sesuai untuk
sampel besar. Elemen masing-masing 𝒆̂ 𝒊 berkorelasi, dan korelasinya tergantung pada
pemisahan eigenvalues 𝜆1, … , 𝜆𝑝 (yang tidak diketahui) dan ukuran sampel 𝑛.
Perkiraan kesalahan standar untuk cofficients 𝑒̂𝑖𝑘 diberikan oleh akar persegi dari
elemen diagonal (1/𝑛)𝑬̂ 𝑖 di mana 𝑬̂ 𝑖 berasal dari 𝑬𝒊 dengan substitusi 𝜆̂ 𝑖 untuk 𝜆𝑖 dan 𝑒̂𝑖
untuk 𝑒𝑖.

Pengujian untuk Struktur Korelasi yang Sama


Struktur korelasi khusus 𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑘 ) = √𝜎𝑖𝑖 𝜎𝑘𝑘 𝜌, atau 𝐶𝑜𝑟𝑟(𝑋𝑖 , 𝑋𝑘 ) = 𝜌,
semua 𝑖 ≠ 𝑘, adalah salah satu struktur penting di mana eigenvalues ∑ tidak berbeda dan

hasil sebelumnya tidak berlaku.

Untuk menguji struktur ini, biarkan

Tes 𝐻0 versus 𝐻1 mungkin didasarkan pada statistik rasio kemungkinan, tetapi Lawley [14]
telah menunjukkan bahwa prosedur tes yang setara dapat dibangun dari elemen offdiagonal 𝑹.
Prosedur Lawley membutuhkan jumlah Terbukti bahwa rk adalah rata-rata elemen off-diagonal
di kolom ke-k (atau baris) dari 𝑹 dan 𝑟̅ adalah rata-rata keseluruhan dari elemen off-diagonal.
Perkiraan sampel besar tes tingkat 𝛼 adalah menolak 𝐻0 mendukung 𝐻1 jika
di mana 𝜒 2 (𝛼) adalah bagian atas (100𝑎) persentil dari distribusi Chi- Square
dengan (𝑝 + 1)(𝑝 − 2)/2 d.f.

5. KUALITAS PEMANTAUAN DENGAN KOMPONEN UTAMA

Memeriksa Seperangkat Pengukuran Yang Diberikan untuk Stabilitas


Biarkan 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 menjadi sampel acak dari distribusi normal multivariat dengan
berarti IL dan matriks kovarians ∑. Kami mempertimbangkan dua sampel komponen utama
pertama, 𝑦̂𝑗1 = 𝒆′̂ 𝟏 (𝒙𝒋 − ̅𝒙) dan 𝑦̂𝑗2 = 𝒆′̂ 𝟐 (𝒙𝒋 − ̅𝒙). Komponen utama tambahan dapat
dipertimbangkan, tetapi dua lebih mudah diperiksa secara visual dan, dari dua komponen,
dua yang pertama menjelaskan proporsi kumulatif terbesar dari total varians sampel.
Bagian pertama dari prosedur ini adalah membuat bagan format elips untuk
pasangan nilai (𝑦̂𝑗1, 𝑦̂𝑗2 ) untuk 𝑗 = 1,2, … , 𝑛.
Dua komponen sampel tidak terkait, sehingga elips kualitas untuk 𝑛 besar
mengurangi pengumpulan pasangan nilai yang mungkin, sedemikian rupa sehingga

Mengontrol Nilai Masa Depan


Sebelumnya, kami mempertimbangkan untuk memeriksa apakah serangkaian pengamatan
multivariat yang diberikan stabil dengan mempertimbangkan secara terpisah dua komponen
utama pertama dan kemudian terakhir 𝑝 − 2. Karena distribusi khi-square digunakan untuk
memperkirakan UCL dari 𝑇2-chart dan jarak kritis untuk bagan format elips, tidak ada
modifikasi lebih lanjut yang diperlukan untuk memantau nilai masa depan.

Anda mungkin juga menyukai