Anda di halaman 1dari 26

1

Data multivariat dan Analisis multivariat

1.1 pengantar
Data multivariat muncul ketika para peneliti merekam nilai-nilai dari
beberapa variabel acak pada sejumlah mata pelajaran atau benda atau
mungkin salah satu dari berbagai lainnya things (we akan use itu umum term
“unit”) sayan which they adalah interested, yang mengarah ke vektor-
dihargai atau multidimensi observasi untuk setiap. Data tersebut dikumpulkan
dalam berbagai disiplin ilmu, dan memang itu mungkin masuk akal untuk
mengklaim bahwa sebagian data set bertemu dalam praktek yang multivariat.
Dalam beberapa penelitian, variabel yang dipilih oleh desain karena mereka
dikenal untuk menjadi penjelas penting dari sistem diselidiki. Dalam
penelitian lain, terutama mereka yang telah sulit atau mahal untuk mengatur,
banyak variabel dapat diukur hanya untuk mengumpulkan informasi sebanyak
mungkin sebagai masalah kemanfaatan atau ekonomi.
Data multivariat mana-mana seperti yang digambarkan oleh empat
contoh berikut:
Psikolog dan ilmuwan perilaku lainnya sering merekam
nilai-nilai dari beberapa variabel kognitif yang berbeda
pada sejumlah mata pelajaran.
peneliti pendidikan dapat tertarik dalam tanda pemeriksaan
ob- dirawat dengan seksama oleh siswa untuk berbagai
mata pelajaran yang berbeda.

Para arkeolog dapat membuat satu set pengukuran pada artefak yang

menarik.
Lingkungan hidup mungkin menilai tingkat polusi dari serangkaian kota bersama dengan mencatat karakteristik lain dari kota yang berkaitan dengan iklim dan ekologi manusia.

Kebanyakan set data multivariat dapat direpresentasikan dengan cara


yang sama, yaitu dalam format persegi panjang diketahui dari spreadsheet,
di mana unsur-unsur masing-masing bersesuaian baris dengan nilai-nilai
variabel unit tertentu dalam kumpulan data dan unsur-unsur dari kolom
sesuai dengan nilai-nilai yang diambil oleh variabel tertentu. Kita bisa
menulis data dalam format persegi panjang seperti

B. Everitt dan T. Hothorn, Sebuah Pengantar Terapan Analisis Multivariate dengan R: Gunakan R!, 1
DOI 10,1007 / 978-1-4419-9650-3_1, © Springer Science + Business Media, LLC 2011
2 1 multivariat Data dan Analisis Multivariat

Unit Variabel 1 . .. Variabel q


1 x11 . ..v 1q

....
nx n1 . ..v nq

di mana n adalah jumlah unit, q adalah jumlah variabel yang tercatat


pada setiap unit, dan xij menunjukkan nilai variabel j untuk unit engan.
Pengamatan bagian dari tabel di atas umumnya diwakili oleh n ×
q matriks Data, X. Berbeda dengan data yang diamati, entitas teoritis yang
menggambarkan distribusi univariat dari masing-masing variabel q dan
distribusi bersama mereka ditandai oleh apa yang disebut variabel acak X1,. . . ,
Xq.
Meskipun dalam beberapa kasus dimana data multivariat telah
dikumpulkan mungkin masuk akal untuk mengisolasi masing-masing
variabel dan mempelajarinya secara terpisah, di utama tidak. Karena seluruh
set variabel diukur pada setiap unit, variabel akan terkait dengan tingkat
yang lebih besar atau lebih kecil. Akibatnya, jika masing-masing variabel
dianalisis dalam isolasi, struktur penuh data mungkin tidak terungkap.
analisis statistik multivariat adalah analisis statistik secara simultan dari
kumpulan variabel, yang meningkatkan pada analisis univariat terpisah dari
masing-masing variabel dengan menggunakan informasi tentang hubungan
antara variabel. Analisis masing-masing variabel secara terpisah sangat
mungkin kehilangan mengungkap key features dari, dan apa saja
diteresting “Pola” di, itu multivariate data.
Unit dalam satu set data multivariat kadang-kadang sampel dari populasi
yang menarik kepada penyidik, populasi tentang yang dia ingin membuat
beberapa kesimpulan atau lainnya. Lebih sering mungkin, unit dapat benar-
benar dikatakan telah sampel dari beberapa populasi dalam arti yang
bermakna, dan pertanyaan yang diajukan tentang data yang kemudian
sebagian besar eksplorasi di alam. dengan p-value di mana-mana statistik
univariat menjadi terkenal oleh ketiadaan. Akibatnya, ada metode analisis
multivariat yang pada dasarnya eksplorasi dan lain-lain yang dapat
digunakan untuk inferensi statistik.
Untuk eksplorasi data multivariat, model formal yang dirancang untuk
menghasilkan jawaban yang spesifik untuk pertanyaan didefinisikan secara
kaku tidak diperlukan. Sebaliknya, ods meth- digunakan yang
memungkinkan deteksi pola mungkin tak terduga dalam data, membuka
berbagai penjelasan bersaing. Metode tersebut umumnya ditandai baik oleh
penekanan pada pentingnya tampilan grafis dan visualisasi data dan
kurangnya model bilistic proba- terkait yang akan memungkinkan untuk
kesimpulan formal. teknik multivariat yang sebagian besar eksplorasi
dijelaskan dalam Bab2 untuk 6.
Sebuah analisis yang lebih formal menjadi mungkin dalam situasi ketika
itu realistis untuk mengasumsikan bahwa individu dalam suatu kumpulan
data multivariat telah sampel dari beberapa populasi dan penyidik ingin
menguji sis hypothe- didefinisikan dengan baik tentang parameter dari
fungsi kepadatan probabilitas bahwa populasi . Sekarang fokus utama tidak
akan data sampel per se, melainkan menggunakan informasi yang
dikumpulkan dari data sampel untuk menarik kesimpulan tentang modulasi
pop. Dan fungsi kepadatan probabilitas hampir secara universal dianggap
sebagai dasar dari kesimpulan untuk data multivariat adalah multivariat
normal. (Untuk
1.2 Sejarah singkat perkembangan multivariat analysis3

deskripsi singkat tentang fungsi densitas normal multivariat dan cara menilai
apakah suatu set data multivariat sesuai dengan kepadatan, lihat tion sek- 1.6).
teknik multivariat yang inferensi formal penting dijelaskan dalam Bab7 dan 8.
Namun dalam banyak kasus ketika berhadapan dengan data multivariat,
perbedaan tersirat ini antara eksplorasi dan inferensial mungkin herring merah
karena tujuan umum analisis yang paling multivariat, apakah implisit eksplorasi
atau inferensial adalah untuk mengungkap, display, atau ekstrak setiap “sinyal”
dalam data di hadapan kebisingan dan untuk menemukan apa memiliki data untuk
memberitahu kami.

1.2 Sejarah singkat perkembangan analisis


multivariat
Asal-usul analisis multivariat mungkin adalah pekerjaan yang dilakukan oleh
Francis Galton dan Karl Pearson pada abad ke-19 akhir mengukur hubungan-
kapal antara keturunan dan karakteristik orangtua dan pengembangan
koefisien korelasi. Dan kemudian, di tahun-tahun awal abad ke-20, Charles
Spearman meletakkan dasar-dasar analisis faktor (lihat Bab5) sementara
menyelidiki kecerdasan berkorelasi quotient (IQ) tes. Selama dua decades, ini
Spearman work wsebagai diperpanjang by Hotelling dan by Thurstone.
metode multivariat juga termotivasi oleh masalah di bidang ilmiah lain
selain psikologi, dan pada 1930-an Fisher dikembangkan analisis fungsi
diskriminan linear untuk memecahkan masalah taksonomi menggunakan
beberapa perubahan bentuk botani. Dan Fisher ditroduction dari analisis
dari variance sayan tdia 1920 wsegera diikuti oleh generalisasi multivariat,
analisis multivariat varian yang, berdasarkan pada karya Bartlett dan Roy.
(Teknik ini tidak tercakup
dalam teks ini untuk alasan yang ditetapkan dalam Kata Pengantar.)
Pada hari-hari awal, bantuan komputasi untuk mengambil beban dari
sejumlah besar aritmatika yang terlibat dalam penerapan ods meth-
multivariat yang diusulkan yang sangat terbatas dan, akibatnya,
perkembangan yang terutama matematika dan penelitian multivariat adalah,
pada saat itu, sebagian besar cabang dari aljabar linear. Namun, kedatangan
dan ekspansi yang cepat dari penggunaan komputer elektronik pada paruh
kedua abad ke-20 menyebabkan meningkatnya aplikasi praktis dari metode
yang ada analisis multivariat dan minat baru dalam penciptaan teknik-teknik
baru.
Pada tahun-tahun awal abad ke-21, ketersediaan luas yang relatif murah
dan sangat kuat komputer pribadi dan laptop bersekutu dengan software
statistik yang fleksibel berarti bahwa semua metode analisis multivariat
dapat diterapkan secara rutin bahkan untuk set data yang sangat besar seperti
yang dihasilkan dalam, misalnya, genetika, pencitraan, dan astronomi. Dan
kation appli teknik multivariat untuk sejumlah besar data sekarang telah
diberi nama sendiri, data mining, yang telah didefinisikan
sebagai”pencabutan yang trivial informasi implisit, yang sebelumnya tidak
diketahui dan berpotensi berguna dari
4 1 multivariat Data dan Analisis Multivariat

data." buku yang berguna pada data mining adalah dariFayyad, Piatetsky-
Shapiro, Smyth, dan Uthurusamy (1996) dan Tangan, Mannila, dan Smyth
(2001).

1.3 Jenis variabel dan masalah yang mungkin


dari nilai-nilai yang hilang
Sebuah contoh hipotetis data multivariat diberikan pada Tabel 1.1. Simbol
khusus NA menandakan hilang nilai-nilai (menjadi Tidak Tersedia); nilai
variabel ini untuk subjek yang hilang.

Meja Data hypo: 1.1. Hipotetis Set Data multivariat.

individu sex usia IQ depresi berat badan kesehatan


1 Pria 21 120 Ya Sangat baik 150
2 Pria 43 NA Tidak ada yang 160
sangat baik
3 Pria 22 135 Tidakrata-rata 135
4 Pria 86 150 Tidak ada yang 140
sangat miskin
5 Pria 60 92 Iya Baik 110
6 Peremp 16 130 Iya Baik 110
uan
7 Peremp NA 150 Ya Sangat baik 120
uan
8 Peremp 43 NA Iya rata-rata 120
uan
9 Peremp 22 84 Tidakrata-rata 105
uan
10 Peremp 80 70 Tidak Baik 100
uan

Di sini, jumlah unit (orang dalam hal ini) adalah n = 10, dengan jumlah
variabel yang q = 7 dan, misalnya, x34 = 135. Dalam R, sebuah “Data.frame”
adalah struktur data yang tepat untuk mewakili data persegi panjang tersebut.
Himpunan bagian dari unit (baris) atau variabel (kolom) dapat diekstraksi melalui
operator bagian [; yaitu,
R> hypo [1: 2, c ( "kesehatan", "berat")]
berat badan
kesehatan
1 Sangat baik 150
2 Sangat baik 160
ekstrak nilai-nilai X15, x16 dan x25, X26 dari data hipotetis disajikan pada
Tabel 1.1. Data ini menggambarkan bahwa variabel yang membentuk satu
set data multivariat belum tentu semua akan dari jenis yang sama. Empat
tingkat pengukuran sering dibedakan:
Nominal: variabel kategori berurutan. Contohnya termasuk pengobatan
lokasi al, jenis kelamin responden, warna rambut, ada atau tidak adanya
depresi, dan sebagainya.
1.3 Jenis variabel dan masalah yang mungkin hilang values5

Ordinal: Dimana ada pemesanan tapi tidak ada implikasi jarak yang sama
antara titik-titik yang berbeda dari skala. Contohnya termasuk kelas sosial,
persepsi diri kesehatan (masing-masing kode dari saya ke V, katakanlah),
dan tingkat pendidikan (tidak sekolah, primer, sekunder, atau pendidikan
tersier).
Selang: Di mana ada perbedaan sama antara poin berturut-turut pada skala
tetapi posisi nol adalah sewenang-wenang. Contoh klasik adalah
surement Measures suhu menggunakan Celsius atau Fahrenheit
timbangan.
Rasio: Level tertinggi dari pengukuran, di mana satu dapat menyelidiki
besaran ative rel- skor serta perbedaan antara mereka. Posisi nol adalah
tetap. Contoh klasik adalah ukuran absolut dari suhu (dalam Kelvin,
misalnya), tetapi yang umum lainnya meliputi usia (atau waktu lain dari
acara tetap), berat badan, dan panjang.
Dalam banyak buku teks statistik, pembahasan berbagai jenis KASIH
ukur yang sering diikuti dengan rekomendasi untuk yang teknik statistik
yang cocok untuk setiap jenis; misalnya, analisis data nominal harus dibatasi
ringkasan statistik seperti jumlah kasus, mode, dll Dan, untuk data ordinal,
sarana dan standar deviasi tidak cocok. TapiVelleman dan Wilkinson (1993)
membuat titik penting yang membatasi pilihan metode statistik dengan cara
ini mungkin merupakan praktek yang berbahaya untuk data analisis-pada
dasarnya taksonomi pengukuran dijelaskan sering terlalu ketat menerapkan
data dunia nyata. Ini bukan tempat untuk diskusi rinci pengukuran, tapi
kami mengambil pendekatan yang cukup pragmatis untuk masalah tersebut.
Sebagai contoh, kita tidak akan menderita atas memperlakukan variabel
seperti ukuran pression de-, kecemasan, atau kecerdasan seolah-olah mereka
interval skala, meskipun secara ketat mereka masuk ke dalam kategori
ordinal yang dijelaskan di atas.

1.3.1 Nilai yang hilang


Meja 1.1 juga menggambarkan salah satu masalah yang sering dihadapi oleh
para ahli statistik un- dertaking analisis statistik dalam analisis umum dan
multivariat pada khususnya, yaitu kehadiran nilai-nilai dalam data yang
hilang; yaitu, pengamatan serta perubahan bentuk yang seharusnya dicatat
tetapi untuk satu alasan atau lainnya, tidak. nilai-nilai dalam data multivariat
mungkin timbul untuk sejumlah alasan hilang; misalnya, non-respon dalam
survei sampel, putus sekolah di data longitudinal (lihat Bab8), Atau
penolakan untuk menjawab pertanyaan-pertanyaan tertentu dalam kuesioner.
Pendekatan yang paling penting untuk menangani data yang hilang adalah
untuk mencoba untuk menghindari mereka selama tahap pengumpulan data
dari sebuah penelitian. Tetapi meskipun semua upaya peneliti dapat
membuat, dia mungkin masih dihadapkan dengan satu set data yang laser
mengandung sejumlah nilai yang hilang. Jadi apa yang bisa dilakukan? Satu
jawaban untuk pertanyaan ini adalah untuk mengambil lengkap-kasus
dengan analisis karena ini adalah apa yang kebanyakan paket software
statistik lakukan secara otomatis. Menggunakan analisis lengkap-kasus pada
sarana Data multivariat menghilangkan setiap kasus dengan nilai yang
hilang pada salah satu variabel. Sangat mudah untuk melihat bahwa jika
jumlah variabel besar, kemudian bahkan pola jarang nilai-nilai yang hilang
dapat menghasilkan sejumlah besar kasus tidak lengkap. Salah satu
kemungkinan untuk meringankan masalah ini adalah dengan hanya melepas
semua
6 1 multivariat Data dan Analisis Multivariat

variabel yang memiliki banyak nilai-nilai yang hilang. Tapi analisis


lengkap-kasus tidak dianjurkan karena dua alasan:
Menghilangkan sejumlah kemungkinan besar
individu akan menyebabkan sejumlah besar
informasi yang akan dibuang dan
menurunkan ukuran sampel efektif data,
membuat analisis kurang efektif daripada
mereka telah jika semua sampel asli telah
tersedia.
Lebih mengkhawatirkan adalah bahwa
menjatuhkan kasus dengan nilai-nilai yang
hilang pada satu atau lebih variabel dapat
menyebabkan bias yang serius di kedua
estimasi dan ence infer- kecuali kasus
dibuang dasarnya subsampel secara acak

dari data yang diamati (istilah hilang sepenuhnya


secara acak sering digunakan; lihat Bab8 dan Sedikit dan Rubin (1987)
untuk lebih jelasnya).
Jadi, setidaknya, lengkap-kasus analisis mengarah ke kerugian, dan
mungkin kerugian besar, berkuasa dengan membuang data, tapi lebih buruk,
analisis berdasarkan hanya pada kasus lengkap mungkin menyebabkan
menyesatkan kesimpulan dan kesimpulan.
Sebuah alternatif yang relatif sederhana untuk analisis lengkap-kasus
yang sering digunakan adalah analisis-kasus yang tersedia. Ini adalah upaya
langsung untuk mengeksploitasi informasi yang tidak lengkap dengan
menggunakan semua kasus yang tersedia untuk memperkirakan hubungan
kuantitas produk yang menarik. Misalnya, jika peneliti tersebut tertarik
dalam memperkirakan matriks korelasi (lihat Ayat1.5.2) dari set data
multivariat, maka analisis-kasus yang tersedia menggunakan semua kasus
dengan variabel Xi dan Xj hadir untuk memperkirakan korelasi antara dua
variabel. Pendekatan ini tampaknya membuat lebih baik menggunakan data
dari analisis lengkap-kasus, tapi sayangnya analisis-kasus yang tersedia
memiliki masalah sendiri. Sampel individu digunakan perubahan dari
korelasi korelasi, menciptakan potensi kesulitan ketika data hilang tidak
hilang sepenuhnya secara acak. Tidak ada tee yang terjamin bahwa
diperkirakan matriks korelasi bahkan positif-yang pasti yang dapat
menciptakan masalah bagi beberapa metode, seperti analisis faktor (lihat ter
Chap-5) dan pemodelan persamaan struktural (lihat Bab 7), Bahwa peneliti
mungkin ingin berlaku untuk matriks.
Kedua lengkap-kasus dan tersedia-kasus analisis tidak menarik kecuali
nBanyaknya dari hilang values di itu data set adalah "kecil". Sebuah alternatif
menjawab to masalah hilang-data untuk mempertimbangkan beberapa bentuk
imputasi, yang tise prac-dari “mengisi” data yang hilang dengan nilai-nilai yang
masuk akal. Metode yang menghubungkan nilai-nilai yang hilang memiliki keuntungan
bahwa, tidak seperti di analisis lengkap-kasus, nilai-nilai yang diamati dalam kasus-
kasus yang tidak lengkap dipertahankan. Di permukaan, sepertinya imputasi akan
memecahkan masalah hilang-data dan memungkinkan gator investigasi untuk kemajuan
normal. Tapi, dari sudut pandang statistik, hati-hati timbangkan pertimbangan- perlu
diberikan dengan metode yang digunakan untuk imputasi atau sebaliknya dapat
menimbulkan lebih banyak masalah daripada memecahkan; misalnya, imputing variabel
rata-rata yang diamati untuk nilai-nilai variabel yang hilang mempertahankan cara
sampel diamati tapi mendistorsi matriks kovarians (lihat Ayat1.5.1), Biasing esti-
kawin varians dan covariances menuju nol. Di sisi lain, imputing nilai
prediksi dari model regresi cenderung mengembang korelasi yang diamati,
biasing mereka dari nol (lihatSedikit 2005). Dan memperlakukan data yang
diperhitungkan sebagai
jika mereka “nyata” dalam estimasi dan inferensi dapat menyebabkan menyesatkan
kesalahan standar dan p-nilai karena mereka gagal untuk mencerminkan ketidakpastian
karena data yang hilang.
Cara yang paling tepat untuk menangani dengan nilai-nilai yang hilang
adalah dengan prosedur yang disarankan oleh Rubin (1987) dikenal sebagai
beberapa imputasi. Ini adalah teknik Monte Carlo di mana nilai-nilai yang
hilang diganti dengan m> 1 versi simulasi, di mana m adalah biasanya kecil
(katakan 3-10). Setiap set data com- plete simulasi dianalisis dengan
menggunakan metode yang tepat untuk penyelidikan di tangan, dan hasilnya
kemudian dikombinasikan untuk menghasilkan, katakanlah, estimasi dan
interval keyakinan mengenai yang menggabungkan ketidakpastian hilang-
data. Rincian diberikan dalamRubin (1987) dan lebih ringkas dalam Schafer
(1999). Kebajikan besar beberapa imputasi adalah kesederhanaan dan umum
nya. Pengguna dapat menganalisis data dengan menggunakan hampir setiap
teknik yang akan sesuai jika data yang lengkap. Namun, salah satu harus
selalu diingat bahwa nilai-nilai diperhitungkan tidak pengukuran nyata.
Kami tidak mendapatkan sesuatu untuk apa-apa! Dan jika ada sebagian
besar individu dengan sejumlah besar data ing miss, salah satu harus jelas
pertanyaan apakah setiap bentuk analisis statistik adalah perlu repot-repot.

1.4 Beberapa set data multivariat


Ini adalah titik nyaman untuk melihat beberapa set data multivariat dan
sebentar merenungkan jenis pertanyaan yang mungkin menarik dalam setiap
kasus. Kumpulan data pertama terdiri dari dada, pinggang, dan pengukuran
pinggul pada sampel laki-laki dan perempuan dan pengukuran untuk 20
individu ditunjukkan pada Tabel1.2. Dua pertanyaan yang mungkin
ditangani oleh data tersebut;
Bisa ukuran tubuh dan bentuk tubuh diringkas dalam
beberapa cara dengan menggabungkan tiga pengukuran
ke satu nomor?
Apakah ada subtipe dari bentuk tubuh antara laki-laki dan
di antara perempuan di mana individu dari bentuk yang
sama dan antara yang bentuk tubuh berbeda?

Pertanyaan pertama mungkin dijawab oleh analisis komponen utama (lihat


Bab 3), Dan pertanyaan kedua dapat diselidiki menggunakan klaster anal-
ysis (lihat Bab 6).
(Dalam prakteknya, tampaknya intuitif mungkin bahwa kita akan
diperlukan untuk merekam tiga pengukuran pada banyak lebih dari 20
individu untuk memiliki kesempatan untuk bisa mendapatkan meyakinkan
jawaban dari teknik ini untuk pertanyaan-pertanyaan yang menarik.
Pertanyaan tentang berapa banyak unit diperlukan untuk mencapai analisis
yang masuk akal ketika menggunakan berbagai teknik analisis multivariat
akan diambil dalam bab-bab masing menggambarkan masing-masing
teknik.)
Tabel 1.2: ukuran data. Dada, pengukuran pinggang, dan pinggul
pada 20 individu (dalam inci).

dada pinggul pinggang dada pinggul pinggang


jenis kelamin jenis kelamin
343032male 362.435
37 3237male Perempuan
38 3036male 362.537
363339male Perempuan
382933male 342.437
433238male Perempuan
403342male 332.234
383040male Perempuan
40 3037male 36 2638
41 3239male Perempuan
37 2637
Perempuan
342.538
Perempuan
362.637
Perempuan
382.840
Perempuan
352.335
Perempuan

set kedua kami data multivariat terdiri dari hasil analisis kimia pada
tembikar Romano-Inggris dibuat di tiga wilayah yang berbeda (wilayah 1
berisi kiln 1, wilayah 2 berisi kiln 2 dan 3, dan daerah 3 berisi kiln 4 dan 5).
Lengkap kumpulan data, yang akan kita bertemu di Bab6, terdiri dari hasil
analisis kimia pada 45 pot, ditunjukkan pada Tabel 1.3. Satu pertanyaan
yang mungkin diajukan tentang data ini adalah apakah profil kimia masing-
masing pot menyarankan berbagai jenis pot dan jika ada jenis tersebut
terkait dengan pembakaran atau wilayah. Pertanyaan ini dibahas dalam
Bab6.

Tabel 1.3: tembikar data. Data tembikar Romano-Inggris.

Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnOBaO tempat pembakaran
18,8 9.52 2.00 0.79 0.40 3.20 1,01 0,077 0,015 1
16,9 7.33 1,65 0.84 0.40 3.05 0.99 0,067 0,018 1
18.2 7.64 1.82 0.77 0.40 3.07 0.98 0.087 0.014 1
16,9 7.29 1.56 0.76 0.40 3.05 1.00 0,063 0,019 1
17,8 7.24 1.83 0.92 0,43 3,12 0.93 0,061 0,019 1
18,8 7.45 2,06 0,87 0.25 3.26 0,98 0,072 0,017 1
16,5 7.05 1,81 1,73 0.33 3.20 0,95 0,066 0,019 1
18.0 7.42 2,06 1.00 0,28 3,37 0,96 0,072 0,017 1
15,8 7.15 1,62 0,71 0,38 3,25 0.93 0,062 0,017 1
14,6 6.87 1,67 0,76 0,33 3,06 0,91 0,055 0,012 1
13,7 5.83 1.50 0.66 0,13 2,25 0,75 0,034 0,012 1
14,6 6,76 1,63 1,48 0.20 3.02 0,87 0,055 0,016 1
14,8 7.07 1,62 1,44 0,24 3,03 0,86 0,080 0,016 1
17.1 7.79 1.99 0.83 0.46 3.13 0.93 0,090 0,020 1
16,8 7.86 1.86 0.84 0,46 2,93 0,94 0,094 0,020 1
15,8 7,65 1,94 0,81 0,83 3,33 0,96 0,112 0,019 1
Tabel 1.3: Data tembikar (lanjutan).

Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnOBaO tempat pembakaran
18,6 7.85 2,33 0,87 0.38 3.17 0,98 0,081 0,018 1
16,9 7,87 1,83 1,31 0,53 3,09 0,95 0,092 0,023 1
18,9 7.58 2,05 0,83 0,13 3,29 0,98 0,072 0,015 1
18.0 7.50 1,94 0,69 0.12 3.14 0.93 0,035 0,017 1
17,8 7.28 1,92 0.81 0,18 3,15 0,90 0,067 0,017 1
14.4 7.00 4.30 0.15 0,51 4,25 0.79 0.160 0.019 2
13,8 7.08 3.43 0.12 0,17 4.14 0,77 0,144 0,020 2
14,6 7.09 3.88 0.13 0.20 4.36 0,81 0,124 0,019 2
11,5 6.37 5.64 0.16 0,14 3,89 0,69 0,087 0,009 2
13,8 7.06 5.34 0.20 0,20 4,31 0,71 0,101 0,021 2
10.9 6,26 3,47 0,17 0.22 3.40 0,66 0,109 0,010 2
10.1 4.26 4.26 0.20 0,18 3,32 0,59 0,149 0,017 2
11.6 5,78 5,91 0,18 0,16 3,70 0,65 0,082 0,015 2
11.1 5.49 4.52 0.29 0,30 4,03 0,63 0,080 0,016 2
13.4 6.92 7.23 0.28 0,20 4,54 0,69 0,163 0,017 2
12.4 6.13 5.69 0.22 0.54 4.65 0.70 0,159 0,015 2
13.1 6.64 5.51 0.31 0,24 4,89 0,72 0,094 0,017 2
11.6 5.39 3.77 0.29 0,06 4,51 0.56 0,110 0,015 3
11,8 5.44 3.94 0.30 0,04 4.64 0,59 0,085 0,013 3
18.3 1,28 0,67 0,03 0,03 1,96 0,65 0,001 0,014 4
15,8 2,39 0,63 0,01 0,04 1,94 1,29 0,001 0,014 4
18.0 1,50 0,67 0,01 0.06 2.11 0,92 0,001 0,016 4
18.0 1,88 0,68 0,01 0,04 2,00 1.11 0,006 0,022 4
20,8 1,51 0,72 0,07 0,10 2,37 1,26 0,002 0,016 4
17,7 1,12 0,56 0,06 0,06 2,06 0,79 0,001 0,013 5
18.3 1.14 0.67 0.06 0.05 2.11 0,89 0,006 0,019 5
16.7 0,92 0,53 0,01 0,05 1,76 0,91 0,004 0,013 5
14,8 2,74 0,67 0,03 0,05 2,15 1,34 0,003 0,015 5
19,1 1,64 0,60 0,10 0,03 1,75 1,04 0,007 0,018 5
Sumber:. Tubb, A., et al, Archaeometry, 22, 153-171, 1980. Dengan izin.

set ketiga kami data multivariat melibatkan nilai ujian dari sejumlah
besar mahasiswa di enam mata pelajaran; skor untuk lima mata pelajaran
ditunjukkan pada Tabel1.4. Berikut pertanyaan utama yang menarik
mungkin apakah nilai ujian mencerminkan beberapa sifat yang mendasari
dalam mahasiswa yang tidak dapat diukur secara langsung, perhaps "umum
intelligence”? Itu pertanyaan cOuld be diselidiki by menggunakan analisis
faktor exploratory (lihat Bab 5).
10 1 multivariat Data dan Analisis Multivariat

Tabel 1.4: ujian data. nilai ujian selama lima mahasiswa psikologi.

subjek matematika sejarah Inggris fisika geografi kimia


1 60 70 75 58 53 42
2 80 65 66 75 70 76
3 53 60 50 48 45 43
4 85 79 71 77 68 79
5 45 80 80 84 44 46

Set akhir data yang kita akan mempertimbangkan dalam bagian ini
dikumpulkan dalam sebuah studi dari polusi udara di kota-kota di Amerika
Serikat. Variabel-variabel berikut diperoleh untuk 41 kota di AS:
SO2: SO2 konten udara di mikrogram per meter kubik;
suhu: suhu rata-rata tahunan dalam derajat Fahrenheit;
manu: jumlah perusahaan manufaktur yang mempekerjakan 20
pekerja atau lebih;
popul: ukuran populasi (1970
sensus) dalam ribuan; angin:
kecepatan angin rata-rata tahunan
di mil per jam; Curah hujan:
hujan rata-rata tahunan dalam
inci;
predays: rata-rata jumlah hari dengan curah hujan per
tahun.
Data ditunjukkan pada Tabel 1.5.

Tabel 1.5: Data USairpollution. Polusi udara di 41 kota di AS.

SO2 suhu manu predays presipitasi popul angin


Albany 46 47,6 44 116 8.8 33,36 135
Albuquerque 11 56,8 46 244 8,9 7.77 58
Atlanta 24 61,5 368 497 9.1 48.34 115
Baltimore 47 55,0 625 905 9.6 41,31 111
Kerbau 11 47,1 391 463 12.4 36,11 166
Charleston 31 55,2 35 71 6.5 40,75 148
Chicago 110 50,6 3344 3369 10.4 34.44 122
Cincinnati 23 54.0 462 453 7.1 39,04 132
Cleveland 65 49,7 1007 751 10.9 34,99 155
Columbus 26 51,5 266 540 8.6 37,01 134
Dallas 9 66.2 641 844 10.9 35,94 78
Denver 17 51,9 454 515 9.0 12.95 86
Des Moines 17 49.0 104 201 11.2 30,85 103
Detroit 35 49,9 1064 1513 10.1 30.96 129
Hartford 56 49,1 412 158 9.0 43,37 127
Houston 10 68,9 721 1233 10,8 48,19 103
Indianapolis 28 52,3 361 746 9.7 38,74 121
Jacksonville 14 68,4 136 529 8.8 54,47 116
Meja 1,5: Data USairpollution (lanjutan).

SO2 suhu manu predays presipitasi popul angin


Kota Kansas 14 54,5 381 507 10,0 37.00 99
Batu kecil 13 61,0 91 132 8.2 48,52 100
Louisville 30 55,6 291 593 8.3 43,11 123
Memphis 10 61,6 337 624 9.2 49,10 105
Miami 10 75,5 207 335 9.0 59,80 128
Milwaukee 16 45,7 569 717 11,8 29,07 123
Minneapolis 29 43,5 699 744 10,6 25,94 137
Nashville 18 59,4 275 448 7,9 46.00 119
New Orleans 9 68,3 204 361 8.4 56,77 113
Norfolk 31 59,3 96 308 10,6 44,68 116
Omaha 14 51,5 181 347 10.9 30,18 98
Philadelphia 69 54,6 1692 1950 9.6 39,93 115
mukjizat 10 70,3 213 582 6.0 7.05 36
Pittsburgh 61 50,4 347 520 9.4 36,22 147
penyediaan 94 50,0 343 179 10,6 42,75 125
Richmond 26 57,8 197 299 7,6 42,59 115
Salt Lake City 28 51,0 137 176 8.7 15,17 89
San Fransisco 12 56,7 453 716 8.7 20,66 67
Seattle 29 51,1 379 531 9.4 38,79 164
St Louis 56 55,9 775 622 9.5 35,89 105
Washington 29 57,3 434 757 9.3 38,89 111
Wichita 8 56,6 125 277 12,7 30,58 82
Wilmington 36 54.0 80 80 9.0 40,25 114
Sumber: Sokal, RR, Rohlf, FJ, Biometri, WH Freeman, San Francisco, 1981.
Dengan izin.

Apa yang mungkin menjadi pertanyaan yang paling menarik tentang data
ini? Sangat masalah.Safe_mode cakap itu adalah “bagaimana tingkat
polusi yang diukur dengan konsentrasi sulfur dioksida yang terkait dengan
enam variabel lain?” Dalam contoh pertama setidaknya, pertanyaan ini
menunjukkan penerapan regresi linier berganda, dengan konsentrasi sulfur
dioksida sebagai variabel respon dan enam variabel yang tersisa menjadi
variabel independen atau penjelas (yang terakhir adalah label lebih dapat
diterima karena itu "independen"variabel jarang independen satu sama lain). Tetapi
dalam model yang mendasari regresi berganda, hanya respon yang pertimbangan- ered
menjadi variabel acak; variabel penjelas secara ketat diasumsikan tetap, tidak acak,
variabel. Dalam prakteknya, tentu saja, ini jarang terjadi, dan hasil dari suatu kebutuhan
analisis regresi berganda untuk ditafsirkan sebagai tergantung pada nilai-nilai yang
diamati dari variabel penjelas. Jadi, ketika menjawab pertanyaan yang paling menarik
tentang data tersebut, mereka harus benar-benar dipertimbangkan multivariat-hanya ada
variabel acak tunggal yang terlibat-label lebih cocok adalah multivariabel (kita tahu
suara bertele-tele ini,
tapi kami statistik setelah semua). Dalam buku ini, kita akan mengatakan hanya
sedikit tentang model linier berganda untuk data multivariabel dalam Bab8. tapi
pada dasarnya hanya untuk memungkinkan model regresi tersebut akan
diperkenalkan untuk situasi di mana ada respon multivariat; misalnya, dalam
kasus berulang-langkah data dan data longitudinal.
Empat set data di atas belum habis baik pertanyaan bahwa data
multivariat mungkin telah dikumpulkan untuk jawaban atau metode
analisis multivariat yang telah dikembangkan untuk menjawab mereka,
seperti yang akan kita lihat seperti yang kita kemajuan melalui buku.

1.5 covariances, korelasi, dan jarak


Alasan utama mengapa kita harus menganalisis kumpulan data multivariat
menggunakan metode multivariat daripada melihat masing-masing variabel
secara terpisah menggunakan satu atau metode univariat lain akrab adalah
bahwa setiap struktur atau pola dalam data tersebut sebagai mungkin untuk be
tersirat antara by "hubungan" between itu variables atau by relatif “kedekatan”
unit yang berbeda dengan nilai-nilai variabel yang berbeda; dalam beberapa
kasus mungkin dengan keduanya. Dalam kasus pertama, struktur atau pola un-
tertutup akan b e seperti itu bahwa Itu “Link” together itu columns dari itu
data matrix, X, dalam beberapa cara, dan dalam kasus kedua struktur
kemungkinan yang mungkin ditemukan adalah yang melibatkan
himpunan bagian menarik dari unit. Pertanyaannya sekarang muncul
adalah bagaimana kita mengukur hubungan antara variabel dan
bagaimana kita mengukur jarak antara unit yang berbeda. Pertanyaan ini
dijawab dalam subbagian yang mengikuti.

1.5.1 covariances
Kovarians dari dua variabel acak adalah ukuran dence depen- linear mereka.
Populasi (teoritis) kovarians dari dua variabel acak, Xi dan Xj, didefinisikan
oleh

Cov (Xi, Xj) = E (Xi - μi) (Xj -

μj), di mana μi = E (Xi) dan μj = E (Xj); E

menunjukkan harapan.
Jika saya = j, kami mencatat bahwa kovarians dari variabel dengan
dirinya sendiri hanya varians, dan karena itu tidak perlu untuk
mendefinisikan varians dan covariances independen dalam kasus
multivariat. Jika Xi dan Xj yang independen satu sama lain, kovarians
mereka selalu sama dengan nol, tetapi sebaliknya tidak benar. Kovarians
dari Xi dan Xj biasanya dilambangkan dengan σij. Varians dari variabel Xi
adalah σ2 = Es (Xi .μi) -2. nilai yang lebih besar dari kovarians yang
a
menyiratkan tingkat yang Σlebih besar ketergantungan linier antara dua
variabel.
Dalam kumpulan data multivariat dengan q diamati variabel, ada q varians
dan q (q - 1) / 2 covariances. jumlah ini dapat dengan mudah diatur dalam aq ×
q matriks simetris, Σ, di mana
1.5 Covariances, korelasi, dan distances13
 2

σ σ12 . . . σ1q
Σ = σ21. σ . . . σ2q 
2 1

. .
2
 . ..
. . . 
.
.
σq1 σq2 . . . σ2 q
Perhatikan bahwa σij = σji. Matriks ini umumnya dikenal sebagai
matriks varians-kovarians atau hanya matriks kovarians data.
Untuk satu set pengamatan multivariat, mungkin sampel dari beberapa
lation ketenarannya, yang Σ matriks diperkirakan oleh
S = 1 Σ (x n
s- x¯) - x¯) T,
n-1 sa a(x s
a
ya
dimana X T saya = (xi1 . xi2 . . . . . xiq) sa ya s t dia v ektor dari (Numerik) pengamatan fatau t dia
sayath individu dan X = n-1 Σn xsaya adalah
sa itu rata vektor dari pengamatan.
Diagonal S mengandung sampel ya varians dari masing-masing variabel, yang
akan kita menunjukkan
s
sebagai s2.
Kovarians matriks
a untuk data pada Tabel 1.2 dapat diperoleh dengan
menggunakan var () fungsi dalam R; Namun, kita harus “menghapus”
variabel kategoris jenis kelamin dari frame data ukuran dengan subsetting
pada variabel numerik pertama:
R> cov (ukuran [, c ( "dada", "pinggang", "pinggul")])
dada pingga pingg
ng ul
dada 6,632 6,368 3.000
pingg 6,368 12,526 3,579
ang
ping 3.000 3,579 5,945
gul
Jika kita memerlukan matriks kovarians yang terpisah dari pria dan wanita, kita dapat
menggunakan
R> cov (bagian (ukuran, jenis kelamin == "perempuan") [,
+ c ( "dada". "pinggul pinggang")])
dada pingg pingg
ang ul
dada 2,278 2,167 1,556
pingg 2,167 2,989 2,756
ang
ping 1,556 2,756 3,067
gul
R> cov (bagian (ukuran, jenis kelamin == "laki-laki") [,
+ c ( "dada". "pinggul pinggang")])
dada pingga pingg
ng ul
dada 6,7222 0,9444 3,944
pingg 0,9444 2,1000 3,078
ang
ping 3,9444 3,0778 9,344
gul
mana subset () mengembalikan semua pengamatan sesuai dengan betina
(pernyataan pertama) atau laki-laki (pernyataan kedua).
14 1 multivariat Data dan Analisis Multivariat

1.5.2 korelasi
kovarians sering sulit untuk menafsirkan karena tergantung pada timbangan
di mana dua variabel diukur; akibatnya, sering distandardisasi dengan
membagi dengan produk dari standar deviasi dari dua variabel untuk
memberikan kuantitas yang disebut koefisien korelasi, ρij, di mana

dimana σi = aku j
ρaku j = σσiσj
√σ2 . .
Keuntungan dari korelasi adalah bahwa itu adalah independen dari skala
dari dua variabel. Koefisien korelasi terletak antara -1 dan +1 dan
s
memberikan ukuran
a hubungan linear dari variabel Xi dan Xj. Hal ini positif
jika nilai-nilai yang tinggi dari Xi berhubungan dengan nilai-nilai yang
tinggi Xj dan negatif jika nilai-nilai yang tinggi dari Xi berhubungan dengan
nilai-nilai rendah Xj. Jika hubungan antara dua variabel adalah non-linear,
koefisien korelasi mereka bisa menyesatkan.
Dengan variabel q ada q (q 1) /-2 korelasi yang berbeda, yang dapat diatur
dalam korelasi ×AQQ matriks elemen diagonal yang kesatuan. Untuk data yang
diamati, matriks korelasi berisi perkiraan biasa dari ρs, yaitu koefisien korelasi
Pearson, dan umumnya dilambangkan dengan R. Matriks tersebut dapat ditulis
dalam hal sampel kovarian matriks S

R = D-1/2SD-1/2.

di mana D-1/2 = diag (1 / s1,..., 1 / sq) dan si = ss2 adalah standar deviasi
a
sampel variabel i. (Dalam kebanyakan situasi dipertimbangkan dalam buku ini,
kita akan berhadapan dengan kovarians dan korelasi matriks dari peringkat
penuh, q, sehingga kedua matriks akan menjadi non-tunggal, yaitu, dibalik,
untuk memberi matriks S-1 atau R-1. )
Korelasi sampel matriks untuk tiga variabel pada Tabel 1.1 adalah ob-
dirawat dengan seksama dengan menggunakan fungsi cor () di R:
R> cor (ukuran [, c ( "dada", "pinggang", "pinggul")])
dada pingga pinggu
ng l
dada 1.0000 0,6987 0,4778
pingg 0,6987 1.0000 0,4147
ang
ping 0,4778 0,4147 1.0000
gul

1.5.3 Jarak
Untuk beberapa teknik multivariat seperti skala multidimensi (lihat ter Chap-
4) dan analisis cluster (lihat Bab 6), Konsep jarak antara unit dalam data
sering cukup menarik dan penting. Jadi, mengingat nilai-nilai variabel untuk
dua unit, mengatakan satuan i dan j Unit, apa yang berfungsi sebagai ukuran
jarak antara mereka? ukuran umum yang paling digunakan adalah jarak
Euclidean, yang didefinisikan sebagai
..q
dij = . (Xik - Xk)2.
Σ k=
1

di mana xik dan Xk, k = 1,. . . , Q adalah nilai-nilai variabel untuk unit i dan j,
masing-masing. jarak Euclidean dapat dihitung dengan menggunakan dist () fungsi
dalam R.
Ketika variabel dalam kumpulan data multivariat yang pada skala yang
berbeda, akan lebih masuk akal untuk menghitung jarak setelah beberapa
bentuk tion standardisa-. Di sini kita akan menggambarkan ini pada data
pengukuran tubuh dan membagi masing-masing variabel dengan standar deviasi
dengan menggunakan skala fungsi () sebelum menerapkan dist () fungsi-kode R
yang diperlukan dan output
R> dist (skala (ukuran [, c ( "dada", "pinggang", "pinggul")],
+ center = FALSE))
10 11 1 2 3 4 5 6 7 8 9
2 0,17
3 0,15 0,08
4 0.22 0,07 0,14
5 0.11 0,15 0,09 0.22
6 0,29 0,16 0,16 0.19 0,21
7 0,32 0,16 0,20 0,13 0,28 0,14
8 0,23 0.11 0.11 0,12 0.19 0,16 0,13
9 0,21 0.10 0,06 0,16 0,12 0.11 0,17 0,09
10 0,27 0,12 0,13 0,14 0,20 0,06 0,09 0.11 0,09
11 0,23 0,28 0.22 0.33 0.19 0.34 0,38 0.25 0,24 0,32
12 0.22 0,24 0,18 0,28 0,18 0,30 0,32 0,20 0,20 0,28 0,06
...

(Perhatikan bahwa hanya jarak untuk 12 pengamatan pertama


ditampilkan dalam output.)

1.6 Multivariat fungsi kepadatan yang normal


Sama seperti distribusi normal mendominasi teknik univariat, distribusi
normal multivariat memainkan peran penting dalam beberapa prosedur-
prosedur multivariat, meskipun seperti yang disebutkan sebelumnya banyak
analisis multivariat dilakukan dalam semangat eksplorasi data di mana
pertanyaan dari signifikansi statistik yang relatif kurang penting atau tidak
penting sama sekali. Namun demikian, pencari kembali berurusan dengan
kompleksitas data multivariat dapat, pada kesempatan, perlu tahu sedikit
tentang fungsi kepadatan multivariat dan khususnya bagaimana menilai
apakah atau tidak satu set data multivariat dapat diasumsikan memiliki
fungsi kepadatan ini. Jadi kita akan menentukan densitas normal multivariat
dan menjelaskan beberapa sifat-sifatnya.
Untuk vektor variabel q, XT = (x1, x2,..., Xq), fungsi densitas normal
multivariat mengambil bentuk
1
f (X; μ. Σ) = (2π) q / 2det (Σ) -1/2 exp .- (x - μ) TΣ-1 (x - μ) Σ .
2
di mana Σ adalah matriks kovarians populasi variabel dan μ adalah vektor
dari populasi nilai rata-rata dari variabel-variabel. Contoh paling sederhana dari
fungsi densitas normal multivariat adalah densitas normal bivariat dengan q = 2;
ini dapat ditulis secara eksplisit sebagai
f ((X1, x2); (μ1, μ2), σ1, σ2, ρ) =
. Σ-1/2 1
2πσ σ (1 - ρ2) exp .- ×
Σ2 1 2 . Σ2-
.. x1 - μ1 x1 - μ1 x2 - μ2 x2 - μ22 (1 ΣΣ
- ρ2) + .
σ1 σ1 σ2 σ2

di mana μ1 dan μ2 adalah sarana penduduk dari dua variabel, σ2 dan σ2
1 2
adalah populasi varians, dan ρ adalah korelasi populasi antara dua variabel
X1 dan X2. Angka1.1 menunjukkan contoh dari fungsi kepadatan normal
bivariat dengan kedua cara sama dengan nol, baik varians sama untuk satu,
dan korelasi sama dengan 0,5.
Populasi rata-rata vektor dan matriks kovarians populasi dari fungsi
kepadatan multivariat diperkirakan dari sampel pengamatan multivariat
seperti yang dijelaskan dalam subbagian sebelumnya.
Satu properti dari fungsi densitas normal multivariat yang layak disebut di
sini adalah bahwa kombinasi linear dari variabel (yaitu, y = a1X1 + a2X2 + +
aqXq, di mana a1, · a2,..., Aq adalah satu set skalar) itu sendiri terdistribusi
normal dengan mean aTμ dan varians aTΣa, di mana aT = (a1, a2,..., aq).
kombinasi linear dari variabel akan menjadi sangat penting dalam bab-bab
selanjutnya, terutama dalam Bab3.
Untuk banyak metode multivariat yang akan dijelaskan dalam bab-bab
kemudian, sangkaan sebagai- normalitas multivariat tidak kritis terhadap hasil
analisis, tapi mungkin ada kesempatan ketika pengujian normalitas multivariat
mungkin menarik. Sebuah awal yang dapat dibuat mungkin dengan menilai
masing-masing variabel secara terpisah untuk normalitas univariat
menggunakan plot probabilitas. plot seperti biasanya diterapkan dalam analisis
univariat dan melibatkan memesan pengamatan dan kemudian merencanakan
mereka terhadap nilai-nilai yang sesuai dari diasumsikan fungsi distribusi
kumulatif. Ada dua tipe dasar dari plot untuk membandingkan dua distribusi
probabilitas, plot probabilitas-probabilitas dan plot kuantil-kuantil. Diagram
pada Gambar1.2 mungkin digunakan untuk menggambarkan setiap jenis.
Sebuah plot poin yang koordinat adalah kumulatif probabilitas p1 (q) dan p2
(q) untuk nilai yang berbeda dari q dengan
p1 (q) = P (X1 ≤ q),
p2 (q) = P (X2 ≤ q),
x2

x1

Gambar. 1.1. Bivariat fungsi kepadatan normal dengan korelasi ρ = 0,5.

untuk variabel acak X1 dan X2 adalah plot probabilitas-probabilitas, sementara


plot poin yang koordinat adalah quantiles (q1 (p), q2 (p)) untuk nilai yang
berbeda dari p dengan
q1 (P) = p- 1 1(P),
q2 (p) = P-1 (p), 2

adalah plot kuantil-kuantil. Misalnya, plot kuantil-kuantil untuk investigasi


gating asumsi bahwa satu set data dari distribusi normal akan di- volve
plottingthe memerintahkan nilai-nilai sampel dari variabel 1 (yaitu, x (1) 1,
x (2) 1, ..., x (n) 1) terhadap quantiles dari distribusi normal standar, Φ-1 (p
(i)), di mana usu-
sekutu
1 ∫ x
saya - 1 - 2 1
pi 2
n Φ(X) -∞
√ e 2u
= = 2π du.

Hal ini dikenal sebagai plot probabilitas normal.


fungsi distribusi kumulatif

p2q p 1
0 p1q

q q2p q1p

Gambar. 1.2. Kumulatif fungsi distribusi dan quantiles.

Untuk Data multivariat, plot probabilitas normal dapat digunakan untuk


memeriksa setiap variabel secara terpisah, meskipun normalitas marginal
tidak selalu ply im- bahwa variabel mengikuti distribusi normal multivariat.
Atau (atau tambahan), setiap pengamatan multivariat mungkin dikonversi ke
satu nomor dalam beberapa cara sebelum merencanakan. Misalnya, dalam
kasus tertentu sebagai-sessing satu set data untuk normalitas multivariat,
setiap pengamatan q-dimensi, xi, bisa diubah menjadi jarak umum, d2,
memberikan ukuran jarak pengamatan tertentu dari s vektor rata-rata dari
sampel yang lengkap, x; d2 sayas calculated sebagai
a

d2 = (xi - x¯) TS-1 (xi s- x¯), s


a
a
di mana S adalah matriks kovarians sampel. mengukur jarak ini
memperhitungkan varians yang berbeda dari variabel dan covariances pasang
variabel. Jika pengamatan yang timbul dari distribusi normal multivariat, maka
jarak ini memiliki sekitar distribusi chi-kuadrat dengan derajat q kebebasan,
juga dilambangkan dengan χ2 simbol. Jadi merencanakan jarak
memerintahkan terhadap quantiles sesuai dari distribusi
q chi-kuadrat yang tepat
harus mengarah pada garis lurus melalui titik asal.
Kita sekarang akan menilai ukuran tubuh Data pada Tabel 1.2 untuk
hidup normal, meskipun karena hanya ada 20 pengamatan dalam sampel ada
benar-benar terlalu sedikit informasi untuk datang ke kesimpulan yang
meyakinkan. Angka1.3 menunjukkan plot probabilitas yang terpisah untuk
setiap pengukuran; tampaknya ada ada bukti dari setiap keberangkatan dari
linearitas. Plot chi-kuadrat dari 20 jarak umum pada Gambar1.4 tampaknya
menyimpang sedikit dari linearitas, tetapi dengan begitu beberapa
pengamatan sulit untuk memastikan. plot diatur sebagai berikut. Kami
pertama mengekstrak data yang relevan
R> x <- ukuran [, c ( "dada", "pinggang", "pinggul")]
dan memperkirakan sarana ketiga variabel (yaitu, untuk setiap kolom data)
dan matriks kovariansi
R> cm <- colMeans (x) R>
S <- cov (x)
Perbedaan di harus dihitung untuk semua unit di data kami, jadi kami iterate
atas deretan x menggunakan berlaku () fungsi dengan argumen MARGIN = 1
dan, untuk setiap baris, menghitung jarak di:
R> d <- berlaku (x, MARGIN = 1, fungsi (x)
+ t (x - cm) * memecahkan (S) * (x - cm))
jarak yang diurutkan sekarang dapat diplot terhadap quantiles yang tepat dari
distribusi
3
χ2 diperoleh dari qchisq (); lihat Gambar1.4.

R>qqnorm (ukuran [, "dada"], = utama "dada"); qqline (ukuran [, "dada"]) R> qqnorm
(ukuran [, "pinggang"], main = "pinggang"); qqline (ukuran [, "pinggang"]) R>
qqnorm (ukuran [, "pinggul"], = utama "pinggul"); qqline (ukuran [, "pinggul"])
dada pinggang ping
gul
42
32
42

● ●● ●
40

●●●
30
40

● ●●
quantiles sampel

quantiles sampel

quantiles sampel

●●●●
38

●● ● ●●
28


●●●
38

●●●●
●●●●●●
36
26

●●●
●● ●●
3436

●●

34

●●●●●● ●
24

●●
●●● ● ●
22

32

● ● ●

-20 1 2 -20 1 2 -20 1 2

quantiles teoritis quantiles teoritis quantiles teoritis


Gambar. 1.3. plot probabilitas normal pengukuran dada, pinggang, dan pinggul.
20 1 multivariat Data dan Analisis Multivariat
R> plot (qchisq ((1: nrow (x) - 1/2) / nrow (x), df = 3), semacam (d),
+ XLAb = Ekspresi (pasta (chi [3] ^ 2, "Quantile")),
+ YLAb = "Jarak
Memerintahkan") R> abline (a = 0, b = 1)


8
jarak memerintahkan

● ●
6

● ●
4

●●●

●●●●
2

●●●

02.468

2 Quantile 3

Gambar. 1.4. Plot chi-kuadrat dari jarak umum untuk data pengukuran tubuh.

Kita sekarang akan melihat menggunakan plot chi-square pada set data yang
diperkenalkan di awal bab, yaitu polusi udara di kota-kota AS (lihat Tabel 1.5).
Plot probabilitas untuk setiap variabel yang terpisah ditunjukkan pada
Gambar1.5. Di sini, kami juga iterate atas semua variabel, kali ini menggunakan
fungsi khusus, sapply (), yang loop selama nama variabel:
R> tata letak (matrix (1: 8, nc = 2))
R> sapply (colnames (USairpollution), fungsi (x) {
+ qqnorm (USairpollution [[x]]. utama = x)
+ qqline (USairpollution [[x]])
+ })
SO2wind

quantiles sampel
quantiles sampel

● ●●

69 12
● ●
●●●●●●●●●
80

●●●●● ●●●●●●●●●●
●●●●●●●●●●●
●● ●●●●●
●●●●●●●●●●●●●●
20

● ● ●●●●●●●●●●●●●●●● ●
●●

-2-1012-2-1012

Teoretis QuantilesTheoretical quantiles

tempprecip

quantiles sampel
quantiles sampel

45 60 75

● ●●●
●●●● ● ●●●●●●
●●● ●●●●●●●●●●●●●●

1040
●●●●●●● ●●●●●●●●●●●●
●●●●●●●●●● ●
●●●●●●●●●●● ●
● ● ●● ●●
●●

-2-1012-2-1012

Teoretis QuantilesTheoretical quantiles

manupredays
quantiles sampel
quantiles sampel

● ●●●
●●
●●●●●●●●●●●
2000

40.120

●●●●●●●●●●●●●●●
● ●●●
●●●●
●●
●●●●●●●●●●●●●●●●●●● ●●
● ● ●●●●●●●●●●●●●●●●

0

-2-1012-2-1012

Teoretis QuantilesTheoretical quantiles

popul
quantiles sampel


2000


●●
●●●●●●●●●●●●●●●
● ● ●●●●●●●●●●●●●●●●●●●●
0

-2-1012

quantiles teoritis

FIG. 1.5. Normal probability pbanyak untuk USairpollutio n data.


Yang dihasilkan plot tujuh disusun pada satu halaman dengan panggilan
untuk matriks tata letak; lihat Gambar1.5. Plot untuk konsentrasi SO2 dan curah
hujan kedua menyimpang jauh dari linearitas, dan plot untuk pembuatan dan
populasi menunjukkan bukti dari sejumlah outlier. Tapi lebih penting adalah
plot chi-square untuk data, yang diberikan pada Gambar1,6; kode R identik
dengan kode yang digunakan untuk menghasilkan plot chi-square untuk data
pengukuran tubuh. Selain itu, dua poin ekstrim dalam plot telah diberi label
dengan nama-nama kota yang mereka sesuai menggunakan teks ().

R> x <- USairpollution R>


cm <- colMeans (x) R> S
<- cov (x)
R> d <- berlaku (x, 1, fungsi (x) t (x - cm) * memecahkan (S) * (x - cm)) R>
plot (qc <- qchisq ((1: nrow (x) - 1/2) / nrow (x), df = 6),
+ sd <- semacam (d),
+ XLAb = Ekspresi (pasta (chi [6] ^ 2, "Quantile")),
+ YLAb = "Jarak Memerintahkan", = xlim berkisar (qc) * c (1, 1,1)) R>
oups <- yang (rank (abs (qc - sd), dasi = "random")> nrow (x) - 3) R> teks (qc
[oups], sd [oups] - 1,5, nama (oups))
R> abline (a = 0, b = 1)


Chicago
25
jarak memerintahkan

20


●mukjizat
penyediaan
15




10

●●●●●●
●●●●●●
●●●●●●●●●
5

●●●●●●●●●
● ●●●●

51.015

2 Quantile 6

FIG. 1.6. χ2 pbanyak dari umum disikap untuk USairpollutio n data.


1.8 Exercises23

Contoh ini menggambarkan bahwa plot chi-square mungkin juga


berguna untuk mendeteksi kemungkinan outlier dalam data multivariat, di
mana informal outlier adalah “normal” di the sense dari menyimpang
fROM itu natural data variability. OuIdentifikasi tlier penting
dalam banyak aplikasi analisis multivariat baik karena ada
beberapa kepentingan tertentu dalam menemukan
pengamatan anomali atau sebagai tugas pra-pengolahan
sebelum penerapan beberapa metode multivariat dalam
rangka melestarikan hasil dari kemungkinan efek
menyesatkan yang dihasilkan oleh pengamatan ini.
Sejumlah metode untuk mengidentifikasi outlier multivariat
telah diusulkan-lihat, misalnya,Rocke dan Woodruff (1996) dan
Becker dan Mengumpulkan (2001)-dan dalam Bab 2 kita akan melihat
bagaimana sejumlah metode grafis yang dijelaskan di sana juga dapat
membantu untuk deteksi outlier.

1.7 Ringkasan
Mayoritas data yang dikumpulkan dalam semua disiplin ilmu yang
multivariat. Untuk sepenuhnya memahami set data yang paling seperti,
variabel perlu dianalisis secara bersamaan. Sisa teks ini berkaitan dengan
metode yang telah dikembangkan untuk membuat ini mungkin, beberapa
dengan tujuan menemukan setiap pola atau struktur dalam data yang
mungkin memiliki implikasi penting bagi studi masa depan dan beberapa
dengan tujuan menarik kesimpulan tentang data dengan asumsi mereka
sampel dari populasi dengan beberapa fungsi kepadatan probabilitas
tertentu, biasanya normal multivariat.

1.8 latihan
Ex. 1.1 Tentukan matriks korelasi dan matriks kovarians dari data pada
Tabel1.1.
Ex. 1.2 Isi nilai-nilai yang hilang pada Tabel1.1 dengan nilai rata-rata yang
tepat, dan menghitung ulang matriks korelasi data.
Ex. 1.3 Memeriksa kedua plot probabilitas normal masing-masing variabel
dalam data arkeologi pada Tabel1.3 dan plot chi-square dari data.
Melakukan plot menunjukkan sesuatu yang aneh tentang data?
Ex. 1.4 Konversi matriks kovarians yang diberikan di bawah ke dalam
matriks korelasi yang sesuai.

3,8778 2,8110 3,1480 3,5062
2,8110 2,1210 2,2669 2,5690 
.
3,1480 2,2669 2,6550 2.8341 
3,5062 2,5690 2,8341 3,2352

Ex. 1,5 Untuk set kecil (10 5) Data × multivariat diberikan di bawah ini,
menemukan× (10 10) Euclidean matriks jarak untuk baris dari matriks.
Sebuah alternatif untuk jarak Euclidean yang mungkin digunakan dalam
beberapa kasus adalah apa
24 1 multivariat Data dan Analisis Multivariat

dikenal sebagai blok kota jarak (berpikir New York). Menulis beberapa
kode R untuk menghitung blok kota matriks jarak untuk data.

36407 
42746 
40315
62611 

16214
51202 . 

 11261
11544 


70133 
33051 

Anda mungkin juga menyukai