ANALISIS PEUBAH
GANDA
(Multivariate Analysis)
DR. AZKA UBAIDILLAH
Cakupan 1.
2.
Aspek-aspek Analisis Multivariat (Peubah Ganda) dan Review Aljabar Matriks
Geometri Sampel dan Random Sampling
Materi 3.
4.
Inferensia vektor rata-rata suatu populasi
Inferensia vektor rata-rata pada data berpasangan, pengukuran berulang dan
dua populasi independent
5. One-way MANOVA
6. Two-way MANOVA
7. MANCOVA
8. Analisis Komponen Utama
9. Analisis Faktor
10.Analisis Peubah Ganda Metode Grafik (Biplot, Correspondence Analysis)
11.Analisis Cluster
12.Analisis Korelasi Kanonik
13.Analisis Diskriminan
Referensi
Johnson, Richard A and Dean W. Wichern. Applied Multivariate
Statistical Analysis, fifth ed. Prentice-Hall, Inc. New Jersey. 2002.
Dillon, William R and Matthew Goldstein. Multivariate Analysis
Methods and Applications. John Wiley & Sons, Inc. Canada. 1984.
Hair Jr, Joseph F, et all. Multivariate Data Analysis, fifth ed.
Prentice-Hall, Inc. New Jersey. 1998.
Hardle, W and Simar, L. Applied Multivariate Statistical Analysis,
second ed. Springer-Verlag. 2007
Analisis Peubah Ganda
Pengertian :
Adalah suatu metode Statistika yang digunakan
untuk menganalisa data dari beberapa variabel
yang diukur secara simultan untuk menerangkan
fenomena kompleks yang mungkin hanya bisa
diterangkan dengan mengumpulkan dan analisa data
dari berbagai variabel yang simultan.
Tujuan Analisis Peubah Ganda (1)
Reduksi Data dan menyederhanakan model/struktural
Fenomena yang diteliti terwakilkan sesederhana [mungkin] tanpa banyak kehilangan informasi
yang berharga, serta diharapkan dapat membuat interpretasinya menjadi lebih mudah.
Pengelompokkan/Klasifikasi
Mengklasifikasikan objek atau individu dalam kelompok-kelompok tertentu berdasarkan
ke”mirip”an sejumlah karakteristik tertentu yang diukur.
Menyelidiki hubungan/keterkaitan antar variabel
apakah seluruh variabel saling bebas?
apakah satu atau lebih bergantung pada variabel lainnya? Jika ya, bagaimana bentuk
hubungan tersebut?
Tujuan Analisis Peubah Ganda (2)
Prediksi
Hubungan antar variabel harus ditentukan untuk keperluan
mempredikdi suatu nilai dari satu atau lebih variabel berdasarkan
pada pengamatan pada variabel lainnya
Membentuk dan menguji hipotesis
Menyatakan hipotesis statitik yang dirumuskan dalam bentuk
parameter dari populasi multivariat, kemudian dilakukan
pengujian hipotesis tersebut
Klasifikasi Analisis Peubah Ganda
Teknik dependensi, dapat didefinisikan sebagai
variabel mana saja yang merupakan penjelas dan yang
mana yang dijelaskan
Sedangkan teknik interdependensi tidak ada satu
variabel atau sekelompok variabel yang didefinisikan sbg
variabel bebas atau tak bebas (hanya var X atau Y saja),
variabel di dalam gugus data dilibatkan secara simultan
Teknik Dependensi
Variabel Dependen
Variabel Independen Satu >1
Metrik Non Metrik Metrik Non Metrik
An. Diskriminan
Metrik Regresi Korelasi Kanonik An. DIskrminan Multipel
Reg-Log
Satu
An. DIskrminan Multipel
Non Metrik Uji t An. Diskriminan diskrit MANOVA
Diskrit
An. Diskriminan
Metrik RLB Korelasi Kanonik An. DIskrminan Multipel
Reg-Log
> Satu
An. Diskriminan diskrit An. DIskrminan Multipel
Non Metrik ANOVA MANOVA
An. Konjoint Diskrit
Teknik Interdependensi
Jenis Data
Banyaknya Variabel
Metrik Non Metrik
Tabel Kontingensi 2 arah
Dua Korelasi Sederhana
Model Log Linier
AKU Tabel Kontingensi 2 arah
Lebih dari 2 An.Faktor Model Log Linier
An. Kluster An.Korespondensi
Organisasi Data
Ilustrasi pengukuran karakteristik atau variabel (biasa disebut data) dapat
ditampilkan dalam berbagai cara:
• Tabel
• Matirks
• Grafik, plot data
• Verbal
Data multivariate yang dikumpulkan, dengan cara memilih sejumlah p≥1
variabel atau karakteristik untuk dicatat dari objek amatannya, bisa digunakan
notasi untuk menyatakan nilai dari variabel ke-k pada amatan yang ke-j
Ilustrasi Susunan Data
Matriks Data n × p
Ilustrasi Data
Ukuran Statistik Deskriptif -> ukuran pemusatan, ukuran penyebaran/variasi, ukuran
keeratan hubungan.
Misalkan adalah n buah pengukuran pada variabel pertama, maka
rata-rata sampel dari variabel tsb dinotasikan sebagai :
Rata-rata sampel yang dihitung dari n amatan untuk setiap p variabel, secara umum
dapat dinotasikan:
Ilustrasi Data
Ukuran penyebaran/variasi
Varians/Ragam sampel dari dinotasikan sebagai :
Perlu diperhatikan:
• Untuk sampel kecil, penggunaan pembagi (n-1) lebih tepat dibandingkan
dengan n.
• Dalam analisis Multivariat, varians sampel berada dalam diagonal utama dari
matriks ragam peragam.
Ilustrasi Data
Varians/Ragam sampel dari dinotasikan sebagai :
Matriks Korelasi:
Aljabar Matriks dan
Vektor Acak
DR. AZKA UBAIDILLAH
Konsep Jarak (Distance Concept)
Konsep Jarak (distance) digunakan untuk mengkaji sebaran tiap
amatan terhadap ukuran pemusatan data, deteksi outlier, maupun
kesamaan karakteristik.
Ukuran Jarak (distance):
1. Euclidean Distance
2. Mahalanobis Distance
Euclidian Distance (1)
Setiap koordinat berkontribusi sama dalam jarak
Semakin besar ukuran, semakin besar jarak
Tidak memperhitungkan hubungan antar variabel
Tidak robust
Kurang cocok jika ternyata nilai amatan yang digambarkan
memiliki fluktuasi ataupun arah yang sangat beragam.
Euclidian Distance (2)
Misalnya P=(x1,x2),merupakan nilai dua amatan yang digambarkan dalam
sumbu koordinat ,maka jarak P terhadap titik pusat 0= (0,0) adalah:
jika u ≠ 0 dan v ≠ 0,
jika u = 0 dan v = 0
Perkalian Titik (Dot Product) (2)
Misal u = (u1, u2, u3) dan v = (v1, v2, v3) adalah dua vektor tak nol. Jika θ adalah sudut
antara u dan v, maka hukum cosinus menghasilkan:
z
P(u1, u2, u3)
u
Q(v1, v2, v3)
v
y
x
VEKTOR ORTOGONAL
Vektor-vektor yang tegak lurus disebut juga vektor-vektor ortogonal
Dua vektor u dan v tegak lurus/ortogonal jika dan hanya jika
u.v = 0, ditulis u┴v.
u dan v ortogonal jika dan hanya jika cos θ = 0, dimana θ adalah
sudut antara u dan v. Jika u dan v saling tegak lurus, yaitu θ = π/2
atau θ = 90°.
NORMALISASI VEKTOR
Norm suatu Vektor
Catatan: jika atau jika u.u = 1, maka u disebut vektor satuan
atau dikatakan dinormalisasi.
Setiap vektor satuan bukan nol, dapat dikalikan dengan kebalikan
(resiprokal) dari panjangnya untuk mendapat vektor satuan
Dengan solusi a=2, b=-4 dan c=3. Jika tidak terdapat solusi, maka bukan
kombinasi linear.
Bebas Linier (1)
DEFINISI: Jika S = {u1,u2, ...um } adalah suatu himpunan vektor-vektor
tak kosong, maka persamaan vektor
a1u1+a2u2+ ...+amum= 0
mempunyai paling tidak satu penyelesaian, yaitu
a1= 0, a2= 0, ..., am=0.
Jika ini adalah satu-satunya penyelesaian, maka S disebut suatu
himpunan yang bebas secara linear. Jika ada penyelesaian-
penyelesaian lainnya, maka S disebut himpunan yang tak bebas
secara linear.
Bebas Linier
TEOREMA: Suatu himpunan S = {u1,u2, ...um } dengan beberapa vektor
disebut:
a. Tak bebas secara linear jika dan hanya jika paling tidak salah satu
vektor dalam S dapat dinyatakan sebagai suatu kombinasi linear
dari vektor-vektor lainnya dlm S.
b. Bebas secara linear jika dan hanya jika tidak ada vektor dalam S
yang dapat dinyatakan sebagai suatu kombinasi linear dari vektor-
vektor lain dalam S.
Matriks
Secara umum matriks dapat dituliskan sbb :
[ A ]mx1
Matriks kolom, bila n = 1
[ A ]1x n
Macam matriks
Matriks nol, bila aij =0:
TYPE MATRIKS BUJUR SANGKAR
Matriks Diagonal,
Jika semua elemen sama dengan nol, kecuali
elemen-elemen diagonal utamanya.
aij = 0
aii ≠ 0
TYPE MATRIKS BUJUR SANGKAR
= [I]
[A] = [B] =
[C] =
[C] =
OPERASI MATRIKS
Perkalian dengan skalar :
Suatu matriks [A] dapat dikalikan dengan bil.skalar k
menghasilkan suatu matriks
[D] = k [A]
dij = k . aij
; k = -2
OPERASI MATRIKS
Perkalian matriks
Matriks [A]mxp dan [B]pxn dapat dikalikan menghasilkan
matriks baru
[E]mxn = [A]mxp [B]pxn
dimana :
i = 1, 2, … m ; j = 1, 2, … n ; k = 1, 2, … p
EXAMPLE :
;
Sifat-sifat perkalian matriks :
[A] ( [B] + [C] ) = [A] [B] + [A] [C] ; sifat distributif
[A] ( [B] [C] ) = ( [A] [B] ) [C] ; sifat assosiatif
[A] [B] ≠ [B] [A]
[A] [B] = [A] [C] ; belum tentu [B] = [C]
Perkalian Kronecker
Perkalian Kronecker C dengan D dinotasikan:
EXAMPLE :
Sifat-sifat dari transpose matriks
( [A]T )T = [A]
( k [A] )T = k [A]T
[A] = ; [A]-1 =
Catatan :
Untuk mencari inverse suatu matrix dapat dipakai beberapa
metoda, antara lain : metode ad-joint, metode pemisahan,
metode Gauss-Jordan, metode Cholesky, dsb.
PARTISI MATRIKS
dimana ;
EXAMPLE :
sehingga ;
MATRIKS ORTHOGONAL
Matriks P berdimensi , dikatakan orthogonal jika ,
sehingga
TEOREMA
Misalkan P dan Q matriks orthogonal dan A adalah
sembarang matriks , maka
(a) |P| = ±1
(b) |P’AP| = |A|
(c) PQ adalah matriks orthogonal
TRACE
MATRIKS
Trace Matriks A berdimensi , didefinisikan sebagai
Observasi
multivariate
saling bebas
Centroid of the population adalah titik yang merupakan rata-rata populasi
data dari p variables,
Centroid of the sample adalah titik yang merupakan rata-rata sampel data dari
p variables.
Misal untuk sebuah sampel dari 2 variabel dan 3 amatan :
dan x2
centroid of
x11,x12 the sample
_x•1,x
_ •2
x21,x22 x31,x32
x1
pada p = 2 variabel or ‘row’ space ( nilai baris digunakan sbg
penunjuk koordinat)
Untuk data yang sama
centroid of
x11,x21 ,x31 the sample
_ _ _ 2
x1•,x2•,x3• x12,x22 ,x32
Misalkan data adalah sbb:
Pada row space dengan p = 2 maka plot data dalam scatter diagram
x2
x21,x22
centroid of
(1,7) the sample
x11,x12
x1
Untuk data yang sama:
2
x12,x22
centroid of
the sample
(4,4)
1
x11,x21
Misal diperoleh data sbb:
x3
x31,x32,x33
centroid of
x11,x12,x13
the sample
(-1,4,5)
x21,x22,x23 x1
x2
Untuk data yang sama:
x13,x23,x33
(4,3,1)
x12,x22,x32 1
titik pusat data (4,3,1).
2
x11,x21,x31
Dengan column space akan diperoleh suatu penggambaran geometri dari
pemusatan data. Dimisalkan kita memiliki plot sebuah vektor satuan
berukuran n x 1:
2
Vektor tsb memiliki besar sudut yang sama dengan masing-
masing sumbu koordinat, sehingga normalisasi vektor tsb
adalah:
Dimisalkan beberapa vektor yi (representasi dari berbagai nilai sampel
dari random variable X). ~
2
Proyeksi yi pada unit vektor didefinisikan sebagai
~
Pada n = 3 dimensions ,
diketahui:
y
~i
1 1
~
2
_
Penggunaan vektor satuan sebagai pengali xi , karena proyeksi yi pada
garis 1!
~ ~
Menggunakan teorema Pythagoras, panjang vektor yang tegaklurus
dengan proyeksi y pada 1 adalah . ~
Pada n = 3 dimensions ,
diketahui:
y
~i
1 1
~
2
sehingga vektor deviasi (atau
selisih thd rata-rata) adalah:
Contoh:
_ _ _
x1 = -1.0, x2 = 4.0, dan x3 = 5.0.
sehingga
_
Note xi1 ~ d i =1 ,…,p .
i
~
Jika dilakukan dekomposisi nilai y
Memperhatikan vektor deviasi yang diperoleh
kemudian kita plot nilai vektor deviasi (or residual) tsb (tanpa mengubah
arah/panjangnya )
3
2
Maka jika kita kuadratkan atau panjang vektor deviasi tsb adalah :
sehingga:
atau dengan cara lain
dan
sehingga
sehingga,
Contoh:
dan
B. Random Samples and the Expected Values dari m dan S
~
Misal dari sejumlah pengamatan sejumlah n sampel dengan p variabel,
dengan setiap sel merupakan random varibel Xjk. Sehingga setiap Xj pada
variabel p merupakan random vektor,
Observasi
multivariate
yang saling
bebas
sehingga
bias
dan diketahui :
Maka
sehingga secara umum nilai Generalized Variance sampel adalah
Catatan:
3 3
1 1
2 2
3 3
1 1
2 2
q23 = 900, i.e., d2 dan d3 00< q23 < 900, i.e., d2 dan d3 bergerak
orthogonal (x2 and x3 tidak pada sudut yang searah (x2 dan
berkorelasi) berkorelasi positif)
Result:
Data Set A
Data Set B
Data Set C
Nilai Generalized Variance juga tergantung pada:
- Varians-covarians matriks variabel yang
maka
Maka juga dapat didefinisikan sebuah matriks rata-rata berukuran n x p