Translate PCA

PENDAHULUAN
Principal Component Analysis (PCA) adalah nama umum untuk teknik yang menggunakan prinsip-
prinsip matematika dasar yang canggih untuk mengubah sejumlah variabel yang mungkin berkorelasi
menjadi sejumlah kecil variabel yang disebut komponen utama. Asal-usul PCA terletak pada analisis
data multivariat, namun, PCA memiliki beragam aplikasi lain, seperti yang akan kami tunjukkan pada
waktunya. PCA telah disebut, 'salah satu hasil paling penting dari aljabar linier terapan' [2] dan
mungkin penggunaannya yang paling umum adalah sebagai langkah pertama dalam mencoba
menganalisis kumpulan data besar. Beberapa aplikasi umum lainnya termasuk; sinyal de-noising,
pemisahan sumber buta, dan kompresi data.
Secara umum, PCA menggunakan transformasi ruang vektor untuk mengurangi dimensi set data yang
besar. Menggunakan proyeksi matematis, kumpulan data asli, yang mungkin melibatkan banyak
variabel, seringkali dapat diinterpretasikan hanya dalam beberapa variabel (komponen utama). Oleh
karena itu sering terjadi bahwa pemeriksaan set data dimensi yang diperkecil akan memungkinkan
pengguna untuk melihat tren, pola, dan pencilan dalam data, jauh lebih mudah daripada yang
mungkin terjadi tanpa melakukan analisis komponen utama.
Tujuan dari esai ini adalah untuk menjelaskan sisi teoritis PCA, dan untuk memberikan contoh
penerapannya. Kita akan mulai dengan contoh motivasi yang tidak ketat dari analisis data multivariat
di mana kami akan mencoba untuk mengekstrak beberapa makna dari kumpulan data 17 dimensi.
Setelah contoh motivasi ini, kita akan membahas teknik PCA dalam hal fundamental aljabar liniernya.
Ini akan membawa kita ke metode untuk mengimplementasikan PCA untuk data dunia nyata, dan kita
akan melihat bahwa ada hubungan erat antara PCA dan dekomposisi nilai singular (SVD) dari aljabar
linear numerik. Kami kemudian akan melihat dua contoh lebih lanjut dari PCA dalam praktiknya;
Kompresi Gambar dan Pemisahan Sumber Buta.
2 Contoh Dari Analisis Data Multivariat
Pada bagian ini, kami akan memeriksa beberapa data multivariat kehidupan nyata untuk menjelaskan,
secara sederhana apa yang dicapai PCA. Kami akan melakukan analisis komponen utama dari data ini
dan memeriksa hasilnya, meskipun kami akan melewatkan detail komputasi untuk saat ini.
Misalkan kita sedang memeriksa data DEFRA1 berikut yang menunjukkan konsumsi dalam gram (per
orang, per minggu) dari 17 jenis bahan makanan yang diukur dan dirata-rata di empat negara Inggris
pada tahun 1997. Kita akan mengatakan bahwa 17 jenis makanan tersebut adalah variabel dan 4
negara adalah observasi. Pandangan sepintas atas angka-angka pada Tabel 1 tidak mengungkapkan
banyak, memang secara umum sulit untuk mengekstrak makna dari array angka yang diberikan.
Mengingat ini sebenarnya adalah kumpulan data yang relatif kecil, kami melihat bahwa metode
analitik yang kuat mutlak diperlukan jika kami ingin mengamati tren dan pola dalam data yang lebih
besar.
Table 1: UK food consumption in 1997 (g/person/week). Source: DEFRA website
Kami membutuhkan beberapa cara untuk memahami data di atas. Adakah tren yang muncul saat ini,
yang tidak terlihat jelas dari melihat sekumpulan angka? Secara tradisional, kami akan menggunakan
serangkaian plot bivariat (diagram pencar) dan menganalisisnya untuk mencoba dan menentukan
hubungan antara variabel, namun jumlah plot seperti yang diperlukan untuk tugas tersebut biasanya
O (n2), di mana n adalah jumlah variabel. Jelas, untuk set data besar, ini tidak layak.
PCA menggeneralisasikan ide ini dan memungkinkan kami untuk melakukan analisis seperti itu secara
bersamaan, untuk banyak variabel. Dalam contoh kami di atas, kami memiliki data 17 dimensi untuk
4 negara. Dengan demikian, kita dapat 'membayangkan' merencanakan 4 koordinat yang mewakili 4
negara dalam ruang 17 dimensi. Jika ada korelasi antara pengamatan (negara-negara), ini akan diamati
dalam ruang 17 dimensi oleh titik-titik berkorelasi yang dikelompokkan berdekatan, meskipun tentu
saja karena kita tidak dapat memvisualisasikan ruang seperti itu, kita tidak dapat melihat
pengelompokan seperti itu. langsung.
Tugas pertama PCA adalah mengidentifikasi satu set sumbu koordinat ortogonal baru melalui data. Ini
dicapai dengan menemukan arah varians maksimal melalui koordinat dalam ruang 17 dimensi. Ini
sama dengan mendapatkan garis (paling tidak kuadrat) yang paling cocok melalui data yang diplot.
Kami menyebut sumbu baru ini komponen utama pertama dari data. Setelah komponen utama
pertama ini diperoleh, kita dapat menggunakan proyeksi ortogonal untuk memetakan koordinat ke
sumbu baru ini. Dalam contoh makanan kami di atas, empat koordinat 17 dimensi diproyeksikan ke
komponen utama pertama untuk mendapatkan representasi berikut pada Gambar 1.
Jenis diagram ini dikenal sebagai plot skor. Sudah, kita dapat melihat bahwa ada dua cluster potensial
yang terbentuk, dalam arti bahwa Inggris, Wales dan Skotlandia tampaknya saling berdekatan di salah
satu ujung komponen utama, sementara Irlandia Utara diposisikan di ujung sumbu yang berlawanan.
Metode PCA kemudian memperoleh koordinat utama kedua (sumbu) yang keduanya ortogonal untuk
PC pertama, dan merupakan arah terbaik berikutnya untuk mendekati data asli (yaitu menemukan
arah varian terbesar kedua dalam data, dipilih dari arah yang bersifat ortogonal ke komponen utama
pertama). Kami sekarang memiliki dua komponen utama ortogonal yang mendefinisikan pesawat
yang, sama seperti sebelumnya, kami dapat memproyeksikan koordinat kami ke bawah. Ini
ditunjukkan di bawah ini dalam plot skor 2 dimensi pada Gambar 2. Perhatikan bahwa dimasukkannya
komponen utama kedua telah menyoroti variasi antara kebiasaan diet yang ada di Inggris, Skotlandia
dan Wales.
Sebagai bagian dari metode PCA (yang akan dijelaskan secara rinci nanti), kami secara otomatis
mendapatkan informasi tentang kontribusi masing-masing komponen utama terhadap total varian
koordinat. Bahkan, dalam hal ini sekitar 67% dari varians dalam data dicatat oleh komponen utama
pertama, dan sekitar 97% dihitung secara total oleh dua komponen utama pertama. Dalam hal ini,
kami telah memperhitungkan sebagian besar variasi dalam data menggunakan plot dua dimensi -
pengurangan dramatis dalam dimensi dari tujuh belas dimensi menjadi dua.
2Dalam aljabar linier dan analisis fungsional, proyeksi didefinisikan sebagai transformasi linear, P,
yang memetakan dari ruang vektor yang diberikan ke ruang vektor yang sama dan sedemikian rupa
sehingga P2 = P.
Dalam praktiknya, biasanya cukup untuk memasukkan komponen utama yang cukup sehingga di suatu
tempat di wilayah 70 - 80% variasi dalam data diperhitungkan [3].
Informasi ini dapat diringkas dalam plot varians (nilai eigen bukan nol) sehubungan dengan nomor
komponen utama (nomor vektor eigen), yang diberikan pada Gambar 3, di bawah ini.
Kami juga dapat mempertimbangkan pengaruh masing-masing variabel asli terhadap komponen
utama. Informasi ini dapat diringkas dalam plot berikut, pada Gambar 4.
Perhatikan bahwa ada kelompok pusat variabel di sekitar tengah setiap komponen utama, dengan
empat variabel di pinggiran yang tampaknya tidak menjadi bagian dari kelompok. Ingat plot skor 2D
(Gambar 2), di mana Inggris, Wales dan Skotlandia dikelompokkan bersama, sementara Irlandia Utara
adalah negara yang jauh dari cluster. Mungkin ada beberapa hubungan yang harus dibuat antara
empat variabel yang jauh dari cluster pada Gambar 4 dan negara yang terletak jauh dari sisa negara-
negara di Gambar 2, Irlandia Utara. Melihat data asli pada Tabel 1 mengungkapkan bahwa untuk tiga
variabel, kentang segar, minuman beralkohol dan buah segar, ada perbedaan nyata antara nilai untuk
Inggris, Wales dan Skotlandia, yang kira-kira sama, dan Irlandia Utara, yang biasanya secara signifikan
lebih tinggi atau lebih rendah.
PCA memiliki kemampuan untuk dapat membuat asosiasi ini bagi kami. Ini juga telah berhasil
mengurangi dimensi data kami yang ditetapkan dari 17 menjadi 2, memungkinkan kami untuk
menegaskan (menggunakan Gambar 2) bahwa negara-negara Inggris, Wales dan Skotlandia 'mirip'
dengan Irlandia Utara yang berbeda dalam beberapa hal. Selanjutnya, dengan menggunakan Gambar
4 kami dapat mengaitkan jenis makanan tertentu dengan masing-masing kelompok negara.
3 Rincian Teknis PCA
Analisis komponen utama untuk contoh di atas mengambil satu set besar data dan mengidentifikasi
dasar baru yang optimal untuk mengekspresikan kembali data. Ini mencerminkan tujuan umum
metode PCA: dapatkah kita memperoleh basis lain yang merupakan kombinasi linear dari basis asli
dan yang mengekspresikan kembali data secara optimal? Ada beberapa istilah yang ambigu dalam
pernyataan ini, yang akan kita bahas segera, namun untuk sekarang mari kita membingkai masalah
dengan cara berikut.
Asumsikan kita mulai dengan kumpulan data yang direpresentasikan dalam bentuk matriks m × n, X
di mana kolom n adalah sampel (mis. Pengamatan) dan baris m adalah variabel. Kami ingin mengubah
linear matriks ini, X menjadi matriks lain, Y, juga dari dimensi
m × n, sehingga untuk beberapa m × m matrix, P,
Persamaan ini mewakili perubahan basis. Jika kita menganggap baris P sebagai vektor baris p1, p2,. . .
, pm, dan kolom X menjadi vektor kolom x1, x2,. . . , xn, lalu (3) dapat diartikan dengan cara berikut.
Perhatikan bahwa pi, xj ∈ Rm, dan pi.xj hanyalah produk Euclidean dalam (titik) standar. Ini
memberitahu kita bahwa data asli, X sedang diproyeksikan ke kolom P. Jadi, baris P, {p1, p2,. . . , pm}
adalah basis baru untuk merepresentasikan kolom X. Baris P nantinya akan menjadi arah komponen
utama kami. Kita sekarang perlu membahas masalah apa yang seharusnya menjadi basis baru ini,
memang apa cara 'terbaik' untuk mengekspresikan kembali data dalam X - dengan kata lain,
bagaimana kita mendefinisikan independensi antara komponen utama dalam basis baru? analisis
komponen mendefinisikan independensi dengan mempertimbangkan varian data dalam basis aslinya.
Ia berusaha untuk tidak berkorelasi dengan data asli dengan menemukan arah di mana varians
dimaksimalkan dan kemudian menggunakan arah ini untuk menentukan basis baru. Ingat definisi
untuk varian variabel acak, Z dengan rata-rata, μ
Misalkan kita memiliki vektor pengukuran n diskrit, ˜r = (˜ r1, r˜2, ..., r˜n), dengan rata-rata μr. Jika
kita mengurangi rata-rata dari masing-masing pengukuran, maka kita memperoleh seperangkat
pengukuran yang diterjemahkan r = (r1, r2, ..., rn), yang memiliki rata-rata nol. Dengan demikian,
varian pengukuran ini diberikan oleh relasinya.
Jika kita memiliki vektor kedua pengukuran n, s = (s1, s2, ..., sn), lagi dengan nol rata-rata, maka kita
dapat menggeneralisasi ide ini untuk mendapatkan kovarians r dan s. Kovarian dapat dianggap sebagai
ukuran dari seberapa banyak dua variabel berubah bersama. Varians dengan demikian merupakan
kasus khusus kovarians, ketika kedua variabel identik. Faktanya adalah benar untuk membagi dengan
faktor n - 1 daripada n, sebuah fakta yang tidak akan kami benarkan di sini, tetapi dibahas dalam [2].
Kita sekarang dapat menggeneralisasi ide ini dengan mempertimbangkan matriks data m × n kami, X.
Ingatlah bahwa m adalah jumlah variabel, dan jumlah sampel. Karena itu kita dapat memikirkan
matriks ini, X dalam hal vektor baris m, masing-masing panjang n.
Karena kita memiliki vektor baris untuk setiap variabel, masing-masing vektor ini berisi semua sampel
untuk satu variabel tertentu. Jadi misalnya, xi adalah vektor dari n sampel untuk variabel itu. Oleh
karena itu masuk akal untuk mempertimbangkan produk matriks berikut.
Jika kita melihat lebih dekat pada entri matriks ini, kita melihat bahwa kita telah menghitung semua
pasangan kovarian yang mungkin antara variabel m. Memang, pada entri diagonal, kami memiliki
varians dan pada entri diagonal, kami memiliki kovarian. Matriks ini oleh karena itu dikenal sebagai
Covariance Matrix.
Sekarang mari kita kembali ke masalah aslinya, yaitu mentransformasi secara linear matriks data asli
menggunakan relasi Y = PX, untuk beberapa matriks, P. Kita perlu memutuskan beberapa fitur yang
kita inginkan dari matriks yang ditransformasikan, Y untuk dipamerkan dan entah bagaimana
menghubungkan ini dengan fitur-fitur dari matriks kovarians yang sesuai CY. Kovarian dapat dianggap
sebagai ukuran seberapa baik berkorelasi dua variabel. Metode PCA membuat asumsi mendasar
bahwa variabel-variabel dalam matriks yang ditransformasikan harus tidak berkorelasi mungkin. Ini
setara dengan mengatakan bahwa kovarian dari variabel yang berbeda dalam matriks CY, harus
sedekat mungkin dengan nol (matriks kovarians selalu positif pasti atau positif semi-pasti). Sebaliknya,
nilai varians besar menarik bagi kami, karena mereka sesuai dengan dinamika yang menarik dalam
sistem (varians kecil mungkin noise). Karena itu, kami memiliki persyaratan berikut untuk membuat
matriks kovarians, CY:
1. Maksimalkan sinyal, diukur dengan varians (maksimalkan entri diagonal)
2. Minimalkan kovarians antar variabel (minimalkan entri off-diagonal)
Kami dengan demikian sampai pada kesimpulan bahwa karena kovarians minimum yang mungkin
adalah nol, kami mencari matriks diagonal, CY. Jika kita dapat memilih matriks transformasi, P
sedemikian rupa sehingga CY diagonal, maka kita akan mencapai tujuan kita. Kami sekarang membuat
asumsi bahwa vektor dalam basis baru, p1, p2,. . . , pm adalah orthogonal (pada kenyataannya, kami
juga menganggap bahwa mereka orthonormal). Jauh dari membatasi, asumsi ini memungkinkan kita
untuk melanjutkan dengan menggunakan alat-alat aljabar linier untuk menemukan solusi untuk
masalah tersebut. Pertimbangkan rumus untuk matriks kovarians, CY dan interpretasi kita tentang Y
dalam hal X dan P
Perhatikan bahwa S adalah matriks simetris m × m, karena (XXT) T = (XT) T (X) T = XXT. Kami sekarang
memunculkan teorema terkenal dari aljabar linier bahwa setiap matriks simetris kuadrat secara
ortogonal (ortonormal) dapat didiagonalisasi. Artinya, kita dapat menulis:
Di mana E adalah matriks ortonormal m × m yang kolomnya adalah vektor eigen ortonormal S, dan D
adalah matriks diagonal yang memiliki nilai eigen S sebagai entri (diagonal). Pangkat, r, dari S adalah
jumlah vektor eigen ortonormal yang dimilikinya. Jika B ternyata kekurangan peringkat sehingga r
kurang dari ukuran, m, dari matriks, maka kita hanya perlu membuat vektor ortonormal m - r untuk
mengisi kolom S yang tersisa.
Pada titik inilah kami membuat pilihan untuk matriks transformasi, P. Dengan memilih baris P untuk
menjadi vektor eigen S, kami memastikan bahwa P = ET dan sebaliknya. Jadi, menggantikan ini ke
dalam ekspresi turunan kami untuk matriks kovarians, CY memberikan:
Sekarang, karena E adalah matriks ortonormal, kami memiliki ET E = I, di mana saya adalah matriks
identitas m × m. Karenanya, untuk pilihan khusus P ini, kami memiliki:
Poin terakhir yang perlu diperhatikan adalah bahwa dengan metode ini, kami secara otomatis
mendapatkan informasi tentang kepentingan relatif setiap komponen utama dari varian. Varians
terbesar sesuai dengan komponen utama pertama, terbesar kedua ke komponen utama kedua, dan
seterusnya. Oleh karena itu ini memberi kita metode untuk mengatur data pada tahap diagonisasi.
Setelah kami memperoleh nilai eigen dan vektor eigen dari S = XXT, kami mengurutkan nilai eigen
dalam urutan menurun dan menempatkannya dalam urutan ini pada diagonal D. Kami kemudian
membangun matriks ortonormal, E dengan menempatkan vektor eigen terkait dalam urutan yang
sama untuk. membentuk kolom E (yaitu tempat vektor eigen yang sesuai dengan nilai eigen terbesar
di kolom pertama, vektor eigen yang sesuai dengan nilai eigen terbesar kedua di kolom kedua dll.).
Karena itu kami telah mencapai tujuan kami untuk mendiagonalisasi matriks kovarian dari data yang
ditransformasikan. Komponen utama (baris P) adalah vektor eigen dari matriks kovarians, XXT, dan
baris berada di urutan 'kepentingan', memberi tahu kami bagaimana 'prinsipal' setiap komponen
utama.
Principal Component Analysis (PCA) dengan Excel, Langkah demi Langkah
Pendahuluan dan Persiapan Data Analisis komponen utama (PCA) adalah teknik analisis multivarian
dan telah terbukti bermanfaat dalam banyak aplikasi seperti pengurangan dimensi, memvisualisasikan
data, mengoreksi multikolinieritas dalam analisis regresi, kompresi gambar, pemisahan sumber buta
... dll. PCA menggunakan prinsip matematika mendasar yang mendasari dari aljabar linier. Teori PCA
dapat ditemukan dalam referensi [1].
Dalam posting ini, saya ingin berbagi cara melakukan analisis komponen utama dengan Microsoft
Excel. Kami akan menggunakan kumpulan data Iris Fisher sebagai contoh. Pergi ke Gudang
Pembelajaran Mesin UCI untuk mendapatkan kumpulan data.
Ayo mulai PCA !!!
Set data iris adalah matriks data dengan 150 baris dan 5 kolom seperti yang ditunjukkan pada Gambar.
1
Tujuan PCA adalah untuk menemukan basis baru yang disebut arah komponen utama dan kemudian
memproyeksikan data asli X ke basis baru ini.
Mari kita bekerja pada set data Iris secara langsung.

Misalkan data Iris disimpan dalam matriks X dengan 150 baris dan 4 kolom tidak termasuk kolom
"spesies" di mana 150 baris berarti sampel atau pengamatan dan 4 kolom berarti variabel atau
pengukuran. Tujuan PCA adalah untuk menemukan matriks P dengan 4 baris dan 4 kolom untuk secara
linear mengubah matriks X menjadi matriks Y lainnya, yaitu
di mana matriks Y adalah ekspresi ulang optimal dari data asli X dan kolom P terdiri dari arah
komponen utama. "Optimal" berarti variabel-variabel dalam matriks yang ditransformasikan Y harus
tidak berkorelasi mungkin dan varians mereka yang mewakili informasi yang bermakna dalam data
dimaksimalkan. Dengan kata lain, ketika kita memeriksa matriks kovarians \ mathbf {C} _ {\ mathbf
{Y}} dari Y, itu akan mendekati matriks diagonal.
Mari kita susun ulang pertanyaan kita: diberi matriks data , cari matriks persegi , jadi
bahwa
dan matriks kovarians dari Y adalah diagonal.
PCA Langkah-1
Hitung mean dan standar deviasi untuk setiap variabel seperti yang ditunjukkan pada Gambar. 2. dan
Gambar. 3.
PCA Langkah-2
Hitung skor standar untuk setiap poin data: untuk setiap variabel, kurangi rata-rata dari data asli, lalu
dibagi dengan standar deviasi seperti yang ditunjukkan pada Gambar.4. Setelah selesai, ketika Anda
memeriksa nilai-nilai baru dari mean dan standar deviasi untuk setiap variabel, mereka harus menjadi
nol dan satu seperti yang ditunjukkan pada Gambar.5.
Fig. 4 Calculate standard score for each data point.
Fig. 5 After standardizing, mean ~ 0 and Std = 1

PCA Langkah-3
Hitung matriks kovarians dari X. Matriks kovarian adalah 4 dengan 4 persegi, matriks simetris
yang menyimpan kovarians variabel ith dan jth dalam seperti yang ditunjukkan pada
Gambar.6. Gambar 7 menunjukkan matriks kovarians akhir .
Di sini, kita bisa menjawab pertanyaan kapan menggunakan PCA. Aturan praktisnya adalah rata-rata
variabel kovarian tak bertanda variabel lebih besar dari 0,3 dan kemudian kita dapat berharap PCA
memiliki lebih banyak pengaruh pada analisis data yang akan Anda lakukan berikut ini.
PCA Langkah-4
Hitung arah komponen utama menggunakan dekomposisi nilai eigen. Karena tidak ada fungsi bawaan
di Excel untuk melakukan dekomposisi nilai eigen, kami menggunakan Visual Basic for Applications
(VBA) untuk membantu perhitungan. Anda dapat pergi ke FreeVBcode untuk mendapatkan kode
sumber. Salin dan tempel kode "EIGEN_JK" fungsi ke editor VBA Excel Anda di bawah tab
"Pengembang" seperti yang ditunjukkan pada Gambar.8. Jika tab "Developer" tidak muncul di ambilah
alat Excel Anda, Anda dapat membuka “File/Options/Customize Ribbon”untuk meluncurkannya.
Pastikan mengubah A () menjadi A di bagian deklarasi kode fungsi "EIGEN_JK" untuk memperbaiki
masalah "Ketik ketidakcocokan" seperti yang ditunjukkan pada Gambar.9. dan menyimpannya.
Fig. 8 Include “EIGEN_JK” function into Excel VBA editor.
Fig. 9 Fixing “Type mismatch” problem

Kembali ke lembar kerja Anda. Snice "EIGEN_JK" adalah rumus array, Anda harus memilih rentang 4
baris dengan 5 kolom untuk menghitung nilai eigen dan vektor eigen. Setelah memasukkan formula
dengan rentang matriks kovarians seperti yang ditunjukkan pada Gambar. 10, tekan "Ctrl + Shift +
Enter" untuk menyelesaikan perhitungan seperti yang ditunjukkan pada Gambar. 11.
Telah diperhatikan bahwa nilai-nilai eigen ditempatkan dalam urutan menurun yang sesuai dengan
vektor eigennya dengan urutan yang benar. Misalnya, vektor eigen dari nilai eigen 2,899 adalah
Dari teori PCA adalah matriks diagonal yang entri-entrinya adalah nilai eigen yang baru saja kita
dapatkan seperti
Vektor-vektor eigen tersebut adalah arah komponen utama. Berdasarkan matriks kovarians , kami
juga mendapatkan informasi seberapa penting setiap arah komponen utama (PCD). Semakin besar
nilai eigen (varians), semakin dominan PCD. Kemudian kita dapat menghitung rasio varians yang
dijelaskan dengan total varians seperti yang ditunjukkan pada Gambar. 12. Gambar 13. menunjukkan
persentase akumulasi varians yang dijelaskan. Kita juga dapat memvisualisasikan varians akumulatif%
ini yang dijelaskan seperti Gambar. 14. Seperti yang Anda lihat, 2 PCD pertama berkontribusi 95%
varians yang dijelaskan.
.
Fig. 14 Line chart of accumulative %variance explained
PCA Langkah-5
Hitung komponen utama. Sekarang kami memiliki arah komponen utama. Langkah selanjutnya adalah
memproyeksikan data asli X di atasnya untuk mendapatkan ekspresi ulang data yang optimal
menggunakan
Kita bisa menggunakan rumus array "MMULT" di Excel untuk melakukan perkalian matriks. Pilih
rentang 150 baris dengan 4 kolom dan masukkan formula dengan rentang data asli dan arah
komponen utama seperti yang ditunjukkan pada Gambar.15. Tekan "Ctrl + Shift + Enter" untuk
menyelesaikan perhitungan.
Mari kita visualisasikan data berdasarkan komponen utama pertama dan kedua, seperti yang
ditunjukkan pada Gambar.16. Kami dapat dengan jelas melihat tiga kelompok data di plot.
Akhirnya, kita juga dapat memeriksa matriks kovarians dari komponen utama. Seperti yang
ditunjukkan pada Gambar.17, entri diagonal dalam matriks sama dengan nilai eigen yang dihitung
pada langkah-4 dan entri off-diagonal adalah nilai yang sangat kecil. Ini menunjukkan bahwa kami
berhasil melakukan de-korelasi variabel-variabel asli menggunakan PCA

Translate PCA

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Translate PCA

Diunggah oleh

Hak Cipta:

Format Tersedia

PENDAHULUAN

2 Contoh Dari Analisis Data Multivariat

3 Rincian Teknis PCA

m × n, sehingga untuk beberapa m × m matrix, P,

1. Maksimalkan sinyal, diukur dengan varians (maksimalkan entri diagonal)

2. Minimalkan kovarians antar variabel (minimalkan entri off-diagonal)

Ayo mulai PCA !!!

Mari kita bekerja pada set data Iris secara langsung.

dan matriks kovarians dari Y adalah diagonal.

Fig. 4 Calculate standard score for each data point.

Fig. 5 After standardizing, mean ~ 0 and Std = 1

Fig. 8 Include “EIGEN_JK” function into Excel VBA editor.

Fig. 9 Fixing “Type mismatch” problem

Anda mungkin juga menyukai