1.1 pengantar
Data multivariat muncul ketika para peneliti merekam nilai-nilai dari
beberapa variabel acak pada sejumlah mata pelajaran atau benda atau
mungkin salah satu dari berbagai lainnya things (we akan use itu umum term
“unit”) sayan which they adalah interested, yang mengarah ke vektor-
dihargai atau multidimensi observasi untuk setiap. Data tersebut dikumpulkan
dalam berbagai disiplin ilmu, dan memang itu mungkin masuk akal untuk
mengklaim bahwa sebagian data set bertemu dalam praktek yang multivariat.
Dalam beberapa penelitian, variabel yang dipilih oleh desain karena mereka
dikenal untuk menjadi penjelas penting dari sistem diselidiki. Dalam
penelitian lain, terutama mereka yang telah sulit atau mahal untuk mengatur,
banyak variabel dapat diukur hanya untuk mengumpulkan informasi sebanyak
mungkin sebagai masalah kemanfaatan atau ekonomi.
Data multivariat mana-mana seperti yang digambarkan oleh empat
contoh berikut:
Psikolog dan ilmuwan perilaku lainnya sering merekam
nilai-nilai dari beberapa variabel kognitif yang berbeda
pada sejumlah mata pelajaran.
peneliti pendidikan dapat tertarik dalam tanda pemeriksaan
ob- dirawat dengan seksama oleh siswa untuk berbagai
mata pelajaran yang berbeda.
Para arkeolog dapat membuat satu set pengukuran pada artefak yang
menarik.
Lingkungan hidup mungkin menilai tingkat polusi dari serangkaian kota bersama dengan mencatat karakteristik lain dari kota yang berkaitan dengan iklim dan ekologi manusia.
B. Everitt dan T. Hothorn, Sebuah Pengantar Terapan Analisis Multivariate dengan R: Gunakan R!, 1
DOI 10,1007 / 978-1-4419-9650-3_1, © Springer Science + Business Media, LLC 2011
2 1 multivariat Data dan Analisis Multivariat
....
nx n1 . ..v nq
deskripsi singkat tentang fungsi densitas normal multivariat dan cara menilai
apakah suatu set data multivariat sesuai dengan kepadatan, lihat tion sek- 1.6).
teknik multivariat yang inferensi formal penting dijelaskan dalam Bab7 dan 8.
Namun dalam banyak kasus ketika berhadapan dengan data multivariat,
perbedaan tersirat ini antara eksplorasi dan inferensial mungkin herring merah
karena tujuan umum analisis yang paling multivariat, apakah implisit eksplorasi
atau inferensial adalah untuk mengungkap, display, atau ekstrak setiap “sinyal”
dalam data di hadapan kebisingan dan untuk menemukan apa memiliki data untuk
memberitahu kami.
data." buku yang berguna pada data mining adalah dariFayyad, Piatetsky-
Shapiro, Smyth, dan Uthurusamy (1996) dan Tangan, Mannila, dan Smyth
(2001).
Di sini, jumlah unit (orang dalam hal ini) adalah n = 10, dengan jumlah
variabel yang q = 7 dan, misalnya, x34 = 135. Dalam R, sebuah “Data.frame”
adalah struktur data yang tepat untuk mewakili data persegi panjang tersebut.
Himpunan bagian dari unit (baris) atau variabel (kolom) dapat diekstraksi melalui
operator bagian [; yaitu,
R> hypo [1: 2, c ( "kesehatan", "berat")]
berat badan
kesehatan
1 Sangat baik 150
2 Sangat baik 160
ekstrak nilai-nilai X15, x16 dan x25, X26 dari data hipotetis disajikan pada
Tabel 1.1. Data ini menggambarkan bahwa variabel yang membentuk satu
set data multivariat belum tentu semua akan dari jenis yang sama. Empat
tingkat pengukuran sering dibedakan:
Nominal: variabel kategori berurutan. Contohnya termasuk pengobatan
lokasi al, jenis kelamin responden, warna rambut, ada atau tidak adanya
depresi, dan sebagainya.
1.3 Jenis variabel dan masalah yang mungkin hilang values5
Ordinal: Dimana ada pemesanan tapi tidak ada implikasi jarak yang sama
antara titik-titik yang berbeda dari skala. Contohnya termasuk kelas sosial,
persepsi diri kesehatan (masing-masing kode dari saya ke V, katakanlah),
dan tingkat pendidikan (tidak sekolah, primer, sekunder, atau pendidikan
tersier).
Selang: Di mana ada perbedaan sama antara poin berturut-turut pada skala
tetapi posisi nol adalah sewenang-wenang. Contoh klasik adalah
surement Measures suhu menggunakan Celsius atau Fahrenheit
timbangan.
Rasio: Level tertinggi dari pengukuran, di mana satu dapat menyelidiki
besaran ative rel- skor serta perbedaan antara mereka. Posisi nol adalah
tetap. Contoh klasik adalah ukuran absolut dari suhu (dalam Kelvin,
misalnya), tetapi yang umum lainnya meliputi usia (atau waktu lain dari
acara tetap), berat badan, dan panjang.
Dalam banyak buku teks statistik, pembahasan berbagai jenis KASIH
ukur yang sering diikuti dengan rekomendasi untuk yang teknik statistik
yang cocok untuk setiap jenis; misalnya, analisis data nominal harus dibatasi
ringkasan statistik seperti jumlah kasus, mode, dll Dan, untuk data ordinal,
sarana dan standar deviasi tidak cocok. TapiVelleman dan Wilkinson (1993)
membuat titik penting yang membatasi pilihan metode statistik dengan cara
ini mungkin merupakan praktek yang berbahaya untuk data analisis-pada
dasarnya taksonomi pengukuran dijelaskan sering terlalu ketat menerapkan
data dunia nyata. Ini bukan tempat untuk diskusi rinci pengukuran, tapi
kami mengambil pendekatan yang cukup pragmatis untuk masalah tersebut.
Sebagai contoh, kita tidak akan menderita atas memperlakukan variabel
seperti ukuran pression de-, kecemasan, atau kecerdasan seolah-olah mereka
interval skala, meskipun secara ketat mereka masuk ke dalam kategori
ordinal yang dijelaskan di atas.
set kedua kami data multivariat terdiri dari hasil analisis kimia pada
tembikar Romano-Inggris dibuat di tiga wilayah yang berbeda (wilayah 1
berisi kiln 1, wilayah 2 berisi kiln 2 dan 3, dan daerah 3 berisi kiln 4 dan 5).
Lengkap kumpulan data, yang akan kita bertemu di Bab6, terdiri dari hasil
analisis kimia pada 45 pot, ditunjukkan pada Tabel 1.3. Satu pertanyaan
yang mungkin diajukan tentang data ini adalah apakah profil kimia masing-
masing pot menyarankan berbagai jenis pot dan jika ada jenis tersebut
terkait dengan pembakaran atau wilayah. Pertanyaan ini dibahas dalam
Bab6.
Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnOBaO tempat pembakaran
18,8 9.52 2.00 0.79 0.40 3.20 1,01 0,077 0,015 1
16,9 7.33 1,65 0.84 0.40 3.05 0.99 0,067 0,018 1
18.2 7.64 1.82 0.77 0.40 3.07 0.98 0.087 0.014 1
16,9 7.29 1.56 0.76 0.40 3.05 1.00 0,063 0,019 1
17,8 7.24 1.83 0.92 0,43 3,12 0.93 0,061 0,019 1
18,8 7.45 2,06 0,87 0.25 3.26 0,98 0,072 0,017 1
16,5 7.05 1,81 1,73 0.33 3.20 0,95 0,066 0,019 1
18.0 7.42 2,06 1.00 0,28 3,37 0,96 0,072 0,017 1
15,8 7.15 1,62 0,71 0,38 3,25 0.93 0,062 0,017 1
14,6 6.87 1,67 0,76 0,33 3,06 0,91 0,055 0,012 1
13,7 5.83 1.50 0.66 0,13 2,25 0,75 0,034 0,012 1
14,6 6,76 1,63 1,48 0.20 3.02 0,87 0,055 0,016 1
14,8 7.07 1,62 1,44 0,24 3,03 0,86 0,080 0,016 1
17.1 7.79 1.99 0.83 0.46 3.13 0.93 0,090 0,020 1
16,8 7.86 1.86 0.84 0,46 2,93 0,94 0,094 0,020 1
15,8 7,65 1,94 0,81 0,83 3,33 0,96 0,112 0,019 1
Tabel 1.3: Data tembikar (lanjutan).
Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnOBaO tempat pembakaran
18,6 7.85 2,33 0,87 0.38 3.17 0,98 0,081 0,018 1
16,9 7,87 1,83 1,31 0,53 3,09 0,95 0,092 0,023 1
18,9 7.58 2,05 0,83 0,13 3,29 0,98 0,072 0,015 1
18.0 7.50 1,94 0,69 0.12 3.14 0.93 0,035 0,017 1
17,8 7.28 1,92 0.81 0,18 3,15 0,90 0,067 0,017 1
14.4 7.00 4.30 0.15 0,51 4,25 0.79 0.160 0.019 2
13,8 7.08 3.43 0.12 0,17 4.14 0,77 0,144 0,020 2
14,6 7.09 3.88 0.13 0.20 4.36 0,81 0,124 0,019 2
11,5 6.37 5.64 0.16 0,14 3,89 0,69 0,087 0,009 2
13,8 7.06 5.34 0.20 0,20 4,31 0,71 0,101 0,021 2
10.9 6,26 3,47 0,17 0.22 3.40 0,66 0,109 0,010 2
10.1 4.26 4.26 0.20 0,18 3,32 0,59 0,149 0,017 2
11.6 5,78 5,91 0,18 0,16 3,70 0,65 0,082 0,015 2
11.1 5.49 4.52 0.29 0,30 4,03 0,63 0,080 0,016 2
13.4 6.92 7.23 0.28 0,20 4,54 0,69 0,163 0,017 2
12.4 6.13 5.69 0.22 0.54 4.65 0.70 0,159 0,015 2
13.1 6.64 5.51 0.31 0,24 4,89 0,72 0,094 0,017 2
11.6 5.39 3.77 0.29 0,06 4,51 0.56 0,110 0,015 3
11,8 5.44 3.94 0.30 0,04 4.64 0,59 0,085 0,013 3
18.3 1,28 0,67 0,03 0,03 1,96 0,65 0,001 0,014 4
15,8 2,39 0,63 0,01 0,04 1,94 1,29 0,001 0,014 4
18.0 1,50 0,67 0,01 0.06 2.11 0,92 0,001 0,016 4
18.0 1,88 0,68 0,01 0,04 2,00 1.11 0,006 0,022 4
20,8 1,51 0,72 0,07 0,10 2,37 1,26 0,002 0,016 4
17,7 1,12 0,56 0,06 0,06 2,06 0,79 0,001 0,013 5
18.3 1.14 0.67 0.06 0.05 2.11 0,89 0,006 0,019 5
16.7 0,92 0,53 0,01 0,05 1,76 0,91 0,004 0,013 5
14,8 2,74 0,67 0,03 0,05 2,15 1,34 0,003 0,015 5
19,1 1,64 0,60 0,10 0,03 1,75 1,04 0,007 0,018 5
Sumber:. Tubb, A., et al, Archaeometry, 22, 153-171, 1980. Dengan izin.
set ketiga kami data multivariat melibatkan nilai ujian dari sejumlah
besar mahasiswa di enam mata pelajaran; skor untuk lima mata pelajaran
ditunjukkan pada Tabel1.4. Berikut pertanyaan utama yang menarik
mungkin apakah nilai ujian mencerminkan beberapa sifat yang mendasari
dalam mahasiswa yang tidak dapat diukur secara langsung, perhaps "umum
intelligence”? Itu pertanyaan cOuld be diselidiki by menggunakan analisis
faktor exploratory (lihat Bab 5).
10 1 multivariat Data dan Analisis Multivariat
Tabel 1.4: ujian data. nilai ujian selama lima mahasiswa psikologi.
Set akhir data yang kita akan mempertimbangkan dalam bagian ini
dikumpulkan dalam sebuah studi dari polusi udara di kota-kota di Amerika
Serikat. Variabel-variabel berikut diperoleh untuk 41 kota di AS:
SO2: SO2 konten udara di mikrogram per meter kubik;
suhu: suhu rata-rata tahunan dalam derajat Fahrenheit;
manu: jumlah perusahaan manufaktur yang mempekerjakan 20
pekerja atau lebih;
popul: ukuran populasi (1970
sensus) dalam ribuan; angin:
kecepatan angin rata-rata tahunan
di mil per jam; Curah hujan:
hujan rata-rata tahunan dalam
inci;
predays: rata-rata jumlah hari dengan curah hujan per
tahun.
Data ditunjukkan pada Tabel 1.5.
Apa yang mungkin menjadi pertanyaan yang paling menarik tentang data
ini? Sangat masalah.Safe_mode cakap itu adalah “bagaimana tingkat
polusi yang diukur dengan konsentrasi sulfur dioksida yang terkait dengan
enam variabel lain?” Dalam contoh pertama setidaknya, pertanyaan ini
menunjukkan penerapan regresi linier berganda, dengan konsentrasi sulfur
dioksida sebagai variabel respon dan enam variabel yang tersisa menjadi
variabel independen atau penjelas (yang terakhir adalah label lebih dapat
diterima karena itu "independen"variabel jarang independen satu sama lain). Tetapi
dalam model yang mendasari regresi berganda, hanya respon yang pertimbangan- ered
menjadi variabel acak; variabel penjelas secara ketat diasumsikan tetap, tidak acak,
variabel. Dalam prakteknya, tentu saja, ini jarang terjadi, dan hasil dari suatu kebutuhan
analisis regresi berganda untuk ditafsirkan sebagai tergantung pada nilai-nilai yang
diamati dari variabel penjelas. Jadi, ketika menjawab pertanyaan yang paling menarik
tentang data tersebut, mereka harus benar-benar dipertimbangkan multivariat-hanya ada
variabel acak tunggal yang terlibat-label lebih cocok adalah multivariabel (kita tahu
suara bertele-tele ini,
tapi kami statistik setelah semua). Dalam buku ini, kita akan mengatakan hanya
sedikit tentang model linier berganda untuk data multivariabel dalam Bab8. tapi
pada dasarnya hanya untuk memungkinkan model regresi tersebut akan
diperkenalkan untuk situasi di mana ada respon multivariat; misalnya, dalam
kasus berulang-langkah data dan data longitudinal.
Empat set data di atas belum habis baik pertanyaan bahwa data
multivariat mungkin telah dikumpulkan untuk jawaban atau metode
analisis multivariat yang telah dikembangkan untuk menjawab mereka,
seperti yang akan kita lihat seperti yang kita kemajuan melalui buku.
1.5.1 covariances
Kovarians dari dua variabel acak adalah ukuran dence depen- linear mereka.
Populasi (teoritis) kovarians dari dua variabel acak, Xi dan Xj, didefinisikan
oleh
menunjukkan harapan.
Jika saya = j, kami mencatat bahwa kovarians dari variabel dengan
dirinya sendiri hanya varians, dan karena itu tidak perlu untuk
mendefinisikan varians dan covariances independen dalam kasus
multivariat. Jika Xi dan Xj yang independen satu sama lain, kovarians
mereka selalu sama dengan nol, tetapi sebaliknya tidak benar. Kovarians
dari Xi dan Xj biasanya dilambangkan dengan σij. Varians dari variabel Xi
adalah σ2 = Es (Xi .μi) -2. nilai yang lebih besar dari kovarians yang
a
menyiratkan tingkat yang Σlebih besar ketergantungan linier antara dua
variabel.
Dalam kumpulan data multivariat dengan q diamati variabel, ada q varians
dan q (q - 1) / 2 covariances. jumlah ini dapat dengan mudah diatur dalam aq ×
q matriks simetris, Σ, di mana
1.5 Covariances, korelasi, dan distances13
2
σ σ12 . . . σ1q
Σ = σ21. σ . . . σ2q
2 1
. .
2
. ..
. . .
.
.
σq1 σq2 . . . σ2 q
Perhatikan bahwa σij = σji. Matriks ini umumnya dikenal sebagai
matriks varians-kovarians atau hanya matriks kovarians data.
Untuk satu set pengamatan multivariat, mungkin sampel dari beberapa
lation ketenarannya, yang Σ matriks diperkirakan oleh
S = 1 Σ (x n
s- x¯) - x¯) T,
n-1 sa a(x s
a
ya
dimana X T saya = (xi1 . xi2 . . . . . xiq) sa ya s t dia v ektor dari (Numerik) pengamatan fatau t dia
sayath individu dan X = n-1 Σn xsaya adalah
sa itu rata vektor dari pengamatan.
Diagonal S mengandung sampel ya varians dari masing-masing variabel, yang
akan kita menunjukkan
s
sebagai s2.
Kovarians matriks
a untuk data pada Tabel 1.2 dapat diperoleh dengan
menggunakan var () fungsi dalam R; Namun, kita harus “menghapus”
variabel kategoris jenis kelamin dari frame data ukuran dengan subsetting
pada variabel numerik pertama:
R> cov (ukuran [, c ( "dada", "pinggang", "pinggul")])
dada pingga pingg
ng ul
dada 6,632 6,368 3.000
pingg 6,368 12,526 3,579
ang
ping 3.000 3,579 5,945
gul
Jika kita memerlukan matriks kovarians yang terpisah dari pria dan wanita, kita dapat
menggunakan
R> cov (bagian (ukuran, jenis kelamin == "perempuan") [,
+ c ( "dada". "pinggul pinggang")])
dada pingg pingg
ang ul
dada 2,278 2,167 1,556
pingg 2,167 2,989 2,756
ang
ping 1,556 2,756 3,067
gul
R> cov (bagian (ukuran, jenis kelamin == "laki-laki") [,
+ c ( "dada". "pinggul pinggang")])
dada pingga pingg
ng ul
dada 6,7222 0,9444 3,944
pingg 0,9444 2,1000 3,078
ang
ping 3,9444 3,0778 9,344
gul
mana subset () mengembalikan semua pengamatan sesuai dengan betina
(pernyataan pertama) atau laki-laki (pernyataan kedua).
14 1 multivariat Data dan Analisis Multivariat
1.5.2 korelasi
kovarians sering sulit untuk menafsirkan karena tergantung pada timbangan
di mana dua variabel diukur; akibatnya, sering distandardisasi dengan
membagi dengan produk dari standar deviasi dari dua variabel untuk
memberikan kuantitas yang disebut koefisien korelasi, ρij, di mana
dimana σi = aku j
ρaku j = σσiσj
√σ2 . .
Keuntungan dari korelasi adalah bahwa itu adalah independen dari skala
dari dua variabel. Koefisien korelasi terletak antara -1 dan +1 dan
s
memberikan ukuran
a hubungan linear dari variabel Xi dan Xj. Hal ini positif
jika nilai-nilai yang tinggi dari Xi berhubungan dengan nilai-nilai yang
tinggi Xj dan negatif jika nilai-nilai yang tinggi dari Xi berhubungan dengan
nilai-nilai rendah Xj. Jika hubungan antara dua variabel adalah non-linear,
koefisien korelasi mereka bisa menyesatkan.
Dengan variabel q ada q (q 1) /-2 korelasi yang berbeda, yang dapat diatur
dalam korelasi ×AQQ matriks elemen diagonal yang kesatuan. Untuk data yang
diamati, matriks korelasi berisi perkiraan biasa dari ρs, yaitu koefisien korelasi
Pearson, dan umumnya dilambangkan dengan R. Matriks tersebut dapat ditulis
dalam hal sampel kovarian matriks S
R = D-1/2SD-1/2.
√
di mana D-1/2 = diag (1 / s1,..., 1 / sq) dan si = ss2 adalah standar deviasi
a
sampel variabel i. (Dalam kebanyakan situasi dipertimbangkan dalam buku ini,
kita akan berhadapan dengan kovarians dan korelasi matriks dari peringkat
penuh, q, sehingga kedua matriks akan menjadi non-tunggal, yaitu, dibalik,
untuk memberi matriks S-1 atau R-1. )
Korelasi sampel matriks untuk tiga variabel pada Tabel 1.1 adalah ob-
dirawat dengan seksama dengan menggunakan fungsi cor () di R:
R> cor (ukuran [, c ( "dada", "pinggang", "pinggul")])
dada pingga pinggu
ng l
dada 1.0000 0,6987 0,4778
pingg 0,6987 1.0000 0,4147
ang
ping 0,4778 0,4147 1.0000
gul
1.5.3 Jarak
Untuk beberapa teknik multivariat seperti skala multidimensi (lihat ter Chap-
4) dan analisis cluster (lihat Bab 6), Konsep jarak antara unit dalam data
sering cukup menarik dan penting. Jadi, mengingat nilai-nilai variabel untuk
dua unit, mengatakan satuan i dan j Unit, apa yang berfungsi sebagai ukuran
jarak antara mereka? ukuran umum yang paling digunakan adalah jarak
Euclidean, yang didefinisikan sebagai
..q
dij = . (Xik - Xk)2.
Σ k=
1
di mana xik dan Xk, k = 1,. . . , Q adalah nilai-nilai variabel untuk unit i dan j,
masing-masing. jarak Euclidean dapat dihitung dengan menggunakan dist () fungsi
dalam R.
Ketika variabel dalam kumpulan data multivariat yang pada skala yang
berbeda, akan lebih masuk akal untuk menghitung jarak setelah beberapa
bentuk tion standardisa-. Di sini kita akan menggambarkan ini pada data
pengukuran tubuh dan membagi masing-masing variabel dengan standar deviasi
dengan menggunakan skala fungsi () sebelum menerapkan dist () fungsi-kode R
yang diperlukan dan output
R> dist (skala (ukuran [, c ( "dada", "pinggang", "pinggul")],
+ center = FALSE))
10 11 1 2 3 4 5 6 7 8 9
2 0,17
3 0,15 0,08
4 0.22 0,07 0,14
5 0.11 0,15 0,09 0.22
6 0,29 0,16 0,16 0.19 0,21
7 0,32 0,16 0,20 0,13 0,28 0,14
8 0,23 0.11 0.11 0,12 0.19 0,16 0,13
9 0,21 0.10 0,06 0,16 0,12 0.11 0,17 0,09
10 0,27 0,12 0,13 0,14 0,20 0,06 0,09 0.11 0,09
11 0,23 0,28 0.22 0.33 0.19 0.34 0,38 0.25 0,24 0,32
12 0.22 0,24 0,18 0,28 0,18 0,30 0,32 0,20 0,20 0,28 0,06
...
x1
p2q p 1
0 p1q
q q2p q1p
R>qqnorm (ukuran [, "dada"], = utama "dada"); qqline (ukuran [, "dada"]) R> qqnorm
(ukuran [, "pinggang"], main = "pinggang"); qqline (ukuran [, "pinggang"]) R>
qqnorm (ukuran [, "pinggul"], = utama "pinggul"); qqline (ukuran [, "pinggul"])
dada pinggang ping
gul
42
32
42
● ●● ●
40
●●●
30
40
● ●●
quantiles sampel
quantiles sampel
quantiles sampel
●●●●
38
●● ● ●●
28
●
●●●
38
●●●●
●●●●●●
36
26
●●●
●● ●●
3436
●●
●
34
●●●●●● ●
24
●●
●●● ● ●
22
32
● ● ●
●
8
jarak memerintahkan
● ●
6
● ●
4
●●●
●
●●●●
2
●●●
●
●
02.468
2 Quantile 3
Gambar. 1.4. Plot chi-kuadrat dari jarak umum untuk data pengukuran tubuh.
Kita sekarang akan melihat menggunakan plot chi-square pada set data yang
diperkenalkan di awal bab, yaitu polusi udara di kota-kota AS (lihat Tabel 1.5).
Plot probabilitas untuk setiap variabel yang terpisah ditunjukkan pada
Gambar1.5. Di sini, kami juga iterate atas semua variabel, kali ini menggunakan
fungsi khusus, sapply (), yang loop selama nama variabel:
R> tata letak (matrix (1: 8, nc = 2))
R> sapply (colnames (USairpollution), fungsi (x) {
+ qqnorm (USairpollution [[x]]. utama = x)
+ qqline (USairpollution [[x]])
+ })
SO2wind
quantiles sampel
quantiles sampel
● ●●
69 12
● ●
●●●●●●●●●
80
●●●●● ●●●●●●●●●●
●●●●●●●●●●●
●● ●●●●●
●●●●●●●●●●●●●●
20
● ● ●●●●●●●●●●●●●●●● ●
●●
-2-1012-2-1012
tempprecip
quantiles sampel
quantiles sampel
45 60 75
● ●●●
●●●● ● ●●●●●●
●●● ●●●●●●●●●●●●●●
1040
●●●●●●● ●●●●●●●●●●●●
●●●●●●●●●● ●
●●●●●●●●●●● ●
● ● ●● ●●
●●
-2-1012-2-1012
manupredays
quantiles sampel
quantiles sampel
● ●●●
●●
●●●●●●●●●●●
2000
40.120
●●●●●●●●●●●●●●●
● ●●●
●●●●
●●
●●●●●●●●●●●●●●●●●●● ●●
● ● ●●●●●●●●●●●●●●●●
●
0
-2-1012-2-1012
popul
quantiles sampel
●
2000
●
●●
●●●●●●●●●●●●●●●
● ● ●●●●●●●●●●●●●●●●●●●●
0
-2-1012
quantiles teoritis
●
Chicago
25
jarak memerintahkan
20
●
●mukjizat
penyediaan
15
●
●
●
10
●●●●●●
●●●●●●
●●●●●●●●●
5
●●●●●●●●●
● ●●●●
51.015
2 Quantile 6
1.7 Ringkasan
Mayoritas data yang dikumpulkan dalam semua disiplin ilmu yang
multivariat. Untuk sepenuhnya memahami set data yang paling seperti,
variabel perlu dianalisis secara bersamaan. Sisa teks ini berkaitan dengan
metode yang telah dikembangkan untuk membuat ini mungkin, beberapa
dengan tujuan menemukan setiap pola atau struktur dalam data yang
mungkin memiliki implikasi penting bagi studi masa depan dan beberapa
dengan tujuan menarik kesimpulan tentang data dengan asumsi mereka
sampel dari populasi dengan beberapa fungsi kepadatan probabilitas
tertentu, biasanya normal multivariat.
1.8 latihan
Ex. 1.1 Tentukan matriks korelasi dan matriks kovarians dari data pada
Tabel1.1.
Ex. 1.2 Isi nilai-nilai yang hilang pada Tabel1.1 dengan nilai rata-rata yang
tepat, dan menghitung ulang matriks korelasi data.
Ex. 1.3 Memeriksa kedua plot probabilitas normal masing-masing variabel
dalam data arkeologi pada Tabel1.3 dan plot chi-square dari data.
Melakukan plot menunjukkan sesuatu yang aneh tentang data?
Ex. 1.4 Konversi matriks kovarians yang diberikan di bawah ke dalam
matriks korelasi yang sesuai.
3,8778 2,8110 3,1480 3,5062
2,8110 2,1210 2,2669 2,5690
.
3,1480 2,2669 2,6550 2.8341
3,5062 2,5690 2,8341 3,2352
Ex. 1,5 Untuk set kecil (10 5) Data × multivariat diberikan di bawah ini,
menemukan× (10 10) Euclidean matriks jarak untuk baris dari matriks.
Sebuah alternatif untuk jarak Euclidean yang mungkin digunakan dalam
beberapa kasus adalah apa
24 1 multivariat Data dan Analisis Multivariat
dikenal sebagai blok kota jarak (berpikir New York). Menulis beberapa
kode R untuk menghitung blok kota matriks jarak untuk data.
36407
42746
40315
62611
16214
51202 .
11261
11544
70133
33051