MODUL I
ANALISIS KOMPONEN UTAMA
Bertho Tantular - 1
Praktikum Analisis Data Multivariat II Menggunakan Software R
a) Ada sebanyak p komponen utama, yaitu sebanyak variabel yang diamati dan setiap
komponen utama adalah kombinasi linier dari variabel-variabel tersebut
b) Setiap komponen utama saling ortogonal (tegak lurus) dan saling bebas.
c) Komponen utama dibentuk berdasarkan urutan varians dari yang terbesar hingga yang
terkecil, dalam arti sebagai berikut
• komponen utama pertama (KU1) merupakan kombinasi linier dari seluruh variabel
yang diamati dan memiliki varians terbesar
• komponen utama kedua (KU2) merupakan kombinasi linier dari seluruh variabel
yang diamati yang bersifat ortogonal terhadap KU 1 dan memiliki varians kedua
terbesar
• komponen utama ketiga (KU3) merupakan kombinasi linier dari seluruh variabel
yang diamati yang bersifat ortogonal baik terhadap KU 1 maupun KU2, dan memiliki
varians ketiga terbesar
:
• komponen utama ke p (KUp) merupakan kombinasi linier dari seluruh variabel yang
diamati yang bersifat ortogonal terhadap KU 1, KU2, … , KU(p-1) dan memiliki varians
yang terkecil.
Untuk mendapatkan koefisien komponen utama secara bersamaan dapat menggunakan
salah satu cara berikut ini
• dekomposisi eigen value dan eigen vector dari matriks korelasi atau kovarians dari
variabel-variabel yang diamati. Dalam hal ini eigen value merupakan varians setiap
komponen utamanya dan eigen vector merupakan koefisien-koefisien komponen
utamanya
Interpretasi dari komponen utama adalah bahwa komponen utama tersebut merupakan
suatu sistem sumbu baru dalam ruang vektor berdimensi banyak peubah yang diamati. Melalui
komponen utama salib-salib sumbu tersebut telah diubah skalanya dan dirotasi hingga
memiliki sifat varians yang terurut semakin kecil dan ortogonal.
Bertho Tantular - 2
Praktikum Analisis Data Multivariat II Menggunakan Software R
Apabila varians dari variabel-variabel yang diamati mempengaruhi besarnya bobot atau
koefisien kompomnen utamanya maka analisis komponen utama dapat dilakukan menggunakan
matriks varians-kovarians. Secara sederhana varians merupakan suatu informasi dari variabel
yang diamati yang berarti apabila sebuah variabel memiliki pengamatan yang semua nilainya
sama maka variabel tersebut tidak memiliki informasi yang dapat membedakan antar
pengamatan.
Komponen utama adalah himpunan variabel baru yang merupakan kombinasi linier dari
variabel-variabel yang diamati. Komponen utama memiliki sifat varians yang semakin
mengecil, sebagian besar variasi (keragaman atau informasi) dalam himpunan variabel yang
diamati cenderung berkumpul pada beberapa komponen utama pertama, dan semakin sedikit
informasi dari variabel asal yang terkumpul pada komponen utama terakhir. Hal ini berarti
bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa kehilangan
banyak informasi. Dengan cara ini analisis komponen utama dapat digunakan untuk mereduksi
variabel-variabel.
Untuk keperluan reduksi variabel tentu harus ditentukan berapa banyak komponen utama
yang mesti diambil. Ada beberapa cara untuk menentukan berapa banyak komponen utama yang
harus diambil diantaranya adalah
• menggunakan scree plot. Banyak komponen yang diambil adalah pada titik kurva tidak
lagi menurun tajam atau mulai melandai.
Telah dijelaskan bahwa antar komponen utama bersifat ortogonal yang artinya bahwa
setiap komponen utama merupakan wakil dari seluruh variabel asal sehingga komponen-
komponen utama tersebut dapat dijadikan pengganti variabel asal apabila analisis terhadap
variabel tersebut membutuhkan ortogonalitas, Dalam analisis regresi linier multipel memerlukan
suatu syarat tidak adanya multikolinieritas antara variabel-variabel bebasnya. Apabila ternyata
dalam data terdapat multikolinieritas maka komponen utama dapat digunakan sebagai pengganti
variabel-variabel bebas dalam model regresi tersebut.
Dalam analisis komponen utama diperoleh beberapa ukuran-ukuran berikut
Bertho Tantular - 3
Praktikum Analisis Data Multivariat II Menggunakan Software R
1. Nilai total varians merupakan informasi dari seluruh variabel asal yang dapat dijelaskan
oleh komponen-komponen utamanya
2. proporsi varians komponen utama ke k terhadap total varians menunjukkan besarnya
persentase informasi variabel-variabel asal yang terkandung dalam komponen utama
ke-k
3. Nilai koefisien korelasi antara komponen utama dengan variabelnya
Keterangan:
formula: adalah formula untuk variabel numerik tanpa melibatkan variabel respon
data: data yang digunakan berupa data frame meliputi variabel-variabel dalam formula
Sebagai default diambil variabel dari ‘environment(formula)’.
subset: sebuah vektor yang digunakan untuk memilih baris (pengamatan) dari matriks X
Bertho Tantular - 4
Praktikum Analisis Data Multivariat II Menggunakan Software R
na.action: sebuah fungsi yang mengindikasikan apa yang akan dilakukan apabila ada data
hilang
x: adalah matriks numerik atau data frame yang berisi data yang digunakan untuk
analisis
komponen utama
cor: bernilai ”TRUE” apabila yang digunakan matriks korelasi dan bernilai ”FALSE”
untuk
matriks kovarians (matrix korelasi hanya dapat digunakan apabila tidak ada
variabel
konstanta)
scores: bernilai TRUE untuk menampilkan setiap nilai komponen utamanya dan bernilai
FALSE
untuk tidak menampilkan setiap nilai komponen utamanya.
covmat: digunakan apabila inputnya adalah matriks kovarians atau matriks korelasi.
Biasanya
bernama ‘cov.wt’ atau ‘cov.mve’ atau 'cov.mcd’ yang diperoleh dari pajet MASS.
Nilai-nilai yang dapat ditampilkan hasil analisis fungsi princomp adalah sebagai berikut
Bertho Tantular - 5
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dalam fungsi princomp analisis komponen utama menggunakan nilai eigen dari matriks
korelasi atau matriks varians-kovarians. Analisis komponen utama yang menggunakan
dekomposisi nilai singular dari matriks X berada dalam fungsi lain yaitu prcomp. Fungsi print
dapat digunakan untuk menampilkan hasil analisis dan fungsi plot dapat digunakan untuk
menampilkan screeplot.
Contoh Kasus 1:
Jolicoeur dan Mosimann mempelajari mengenai hubungan antara ukuran dan bentuk sejenis
kura-kura. Pada penelitiannya mereka mengambil sampel sebanyak 24 kura-kura jantan dan 24
kura-kura betina dan diukur panjang, lebar dan tinggi kura-kura tersebut. (data diambil dari
Johnson & Wichern, 2002 halaman 339)
Sebelum melakukan analisis dengan definisikan variabel X1 = length, X2 = width, X3 =
height dan X4 = sex kemudian input dulu data tersebut menggunakan software R sebagai berikut
> x1<-
c(98,103,103,105,109,123,123,133,133,133,134,136,138,138,141,147,149,153,155,
155,158,159,162,177,93,94,96,101,102,103,104,106,107,112,113,114,116,117,117,
119,120,120,121,125,127,128,131,135)
> x2<-
c(81,84,86,86,88,92,95,99,102,102,100,102,98,99,105,108,107,107,115,117,115,1
18,124,132,74,78,80,84,85,81,83,83,82,89,88,86,90,90,91,93,89,93,95,93,96,95,
95,106)
Bertho Tantular - 6
Praktikum Analisis Data Multivariat II Menggunakan Software R
> x3<-
c(38,38,42,42,44,50,46,51,51,51,48,49,51,51,53,57,55,56,63,60,62,63,61,67,37,
35,35,39,38,37,39,39,38,40,40,40,43,41,41,41,40,44,42,45,45,45,46,47)
> x4<-rep(c(”F”,”M”),each=24)
Lakukan transformasi sederhana terhadap data (x1, x2 dan x3) tersebut menggunakan log
sebagai berikut
> y1<-log(x1)
> y2<-log(x2)
> y3<-log(x3)
> y<-data.frame(y1,y2,y3)
> Y<-y[25:48,]
> summary(fit_pca)
Importance of components:
Terlihat dari proporsi varians kumulatif Komponen pertama dapat menjelaskan 96% total
varians dan bila ditambahkan komponen kedua menjadi 98%. Artinya apabila kita hanya
mengambil satu komponen saja yaitu komponen pertama sudah mencukupi. Nilai simpangan
baku (standard deviation) pada baris pertama hasil diatas diperoleh dari akar positif nilai eigen
(eigen value) matriks kovarians dari log(y1), log(y2) dan log(y3).
Bertho Tantular - 7
Praktikum Analisis Data Multivariat II Menggunakan Software R
> loadings(fit_pca)
Loadings:
Nilai-nilai loading yang ditampilkan pada hasil di atas adalah nilai vektor eigen dari matriks
kovarians log(y1), log(y2) dan log(y3). Fungsi komponen utamanya adalah sebagai berikut
Untuk membuat dan menampilkan scree plot dilakukan dengan cara sebagai berikut
> plot(fit_pca,type="lines")
Bertho Tantular - 8
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari scree plot tersebut terlihat bahwa kurva mulai landai pada titik comp 2 artinya
bahwa dengan satu komponen saja sudah mencukupi untuk mewakili ketiga variabel tersebut
Menampilkan nilai (score) komponen utama
> fit_pca$scores
Bertho Tantular - 9
Praktikum Analisis Data Multivariat II Menggunakan Software R
Contoh Kasus 2:
Data berikut mengenai rates of return dari lima saham perusahaan yaitu Allied Chemical, du
Pont, Union Carbide, Exxon dan Texaco yang berada di pasar saham New York yang diambil
pada periode 1975 hingga Desember 1976. Berdasarkan nilai penutupan pada hari Jum'at rates
of return didefiniskan sebagai
Diasumsikan bahwa pengamatan saling bebas dalam hal ini adalah minggu dan saham
perusahaan adalah variabelnya yang saling berkorelasi. Dari data sebanyak 100 minggu
diperoleh vektor rata-ratanya adalah
Bertho Tantular - 10
Praktikum Analisis Data Multivariat II Menggunakan Software R
[ ]
1.000 0.577 0.509 0.387 0.462
0.577 1.000 0.599 0.389 0.322
R= 0.509 0.599 1.000 0.436 0.426
0.387 0.389 0.436 1.000 0.523
0.462 0.322 0.426 0.523 1.000
> r<-
c(1,.577,.509,.387,.462,.577,1,.599,.389,.322,.509,.599,1,.436,.426,.387,
.389,.436,1,.523,.462,.322,.426,.523,1)
> R<-matrix(r, 5, 5)
> R
> eigen(R)$value
Bertho Tantular - 11
Praktikum Analisis Data Multivariat II Menggunakan Software R
> eigen(R)$vector
> summary(fit_pca2)
Importance of components:
dari hasil perhitungan tersebut terlihat bahwa proporsi varians untuk komponen 1 baru mencapai
57% dan apabila diambil dua komponen proporsi varians mencapai 73%.
> loadings(fit_pca2)
Loadings:
Bertho Tantular - 12
Praktikum Analisis Data Multivariat II Menggunakan Software R
Nilai loading yang diperoleh hasilnya sama dengan nilai eigen vektor. Nilai loading ini
digunakan sebagai koefisien dari fungsi komponen utamanya.
keterangan:
formula: adalah formula untuk variabel numerik tanpa melibatkan variabel respon
data: data yang digunakan berupa data frame meliputi variabel-variabel dalam formula
Sebagai default diambil variabel dari ‘environment(formula)’.
subset: sebuah vektor yang digunakan untuk memilih baris (pengamatan) dari matriks X
Bertho Tantular - 13
Praktikum Analisis Data Multivariat II Menggunakan Software R
na.action: sebuah fungsi yang mengindikasikan apa yang akan dilakukan apabila ada data
hilang
x: adalah matriks numerik atau data frame yang berisi data yang digunakan untuk
analisis komponen utama
retx: berisi nilai logical (TRUE atau FALSE) yang mengindikasikan rotasi variabel
yang akan digunakan
center: berisi nilai logical (TRUE atau FALSE) yang mengindikasikan pemusatan data
terhadap rata-ratanya.
scale: berisi nilai logical (TRUE atau FALSE) yang mengindikasikan variabel yang
dibakukan
tol: berisi nilai yang mengindikasikan batas bawah komponen mana yang harus
diabaikan. Komponen diabaikan apabila nilai simpangan bakunya kurang dari
atau sama dengan nilai ”tol”.
Nilai-nilai yang dapat ditampilkan hasil analisis fungsi princomp adalah sebagai berikut
sdev: Nilai simpangan baku dari komponen utamanya. Yaitu akar dari nilai eigen
matriks varians-kovarians atau matriks korelasinya melalui perhitungan nilai
singular matriks
data.rotation: adalah matriks variabel loading. Yaitu matriks yang kolom-kolomnya merupakan
nilai-nilai eigen matriks varians-kovarians.
x: adalah nilai dari data yang telah dirotasikan. Nilai ini akan ada apabila fungsi
‘retx’ bernilai TRUE .
center, scale: adalah nilai pemusatan dan pembakuan yang digunakan
Penggunaan fungsi prcomp dapat dilakukan pada contoh kasus 1 dengan cara sebagai
berikut
Bertho Tantular - 14
Praktikum Analisis Data Multivariat II Menggunakan Software R
> summary(fit_pca)
Importance of components:
> fit_pca$x
Bertho Tantular - 15
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dengan cara ini menghasilkan nilai skor komponen utama yang sama dengan cara sebelumnya.
Nilai proporsi varians untuk tiap komponen utama juga bernilai sama dengan cara sebelumnya.
Selain menggunakan fungsi princomp dan prcomp analisis komponen utama juga dapat
dilakukan dengan fungsi principal. Tetapi fungsi principal ini hanya dapat dilakukan apabila
telah diinstallkan paket psych. Paket psych dapat diunduh secara gratis di CRAN (http://cran.r-
project.org/).
Bertho Tantular - 16
Praktikum Analisis Data Multivariat II Menggunakan Software R
MODUL II
ANALISIS FAKTOR
1. Analisis Faktor
Analisis Faktor adalah suatu cara menjelaskan suatu set variabel berdasarkan dimensi
yang lebih umum. Pada dasarnya analisis faktor bertujuan untuk memudahkan interpretasi
melalui struktur pola hubungan atau untuk mereduksi variabel. Hal ini dilakukan dengan cara
mengidentifikasi struktur yang terdapat dalam set variabel yang terobservasi.
Secara umum ada tiga kegunaan utama dari Analisis Faktor yaitu:
Bertho Tantular - 17
Praktikum Analisis Data Multivariat II Menggunakan Software R
dengan:
μi = rata-rata variabel asal ke i
εi = spesifik faktor ke i
Fj = Common faktor ke j.
lij disebut loading dari peubah asal ke i pada faktor ke j.
Atau dalam bentuk matriks menjadi
(X – μ) = L F + ε
(px1) (pxm) (mx1) (px1)
• Dalam set data terdapat multikolinieritas dapat diuji dengan menggunakan Uji Bartlett.
• E(F) = 0, E(e) = 0
• Cov(F) = E(FF’) = I
Koefisien lij disebut loading dari variabel asal ke i pada faktor ke j, maka matriks L adalah
matriks factor loading dan F1, F2,…., Fm , ε1, ε2,…. εp adalah tidak terobservasi.
Bertho Tantular - 18
Praktikum Analisis Data Multivariat II Menggunakan Software R
• Mengidentifikasikan struktur
• Interpretasi faktor (eigen values, explained variances, factor scores, koefisien faktor)
x=Λf+e
dengan x adalah vektor berukuran (p x 1), Λ adalah matriks loading berukuran (p x k), f adalah
vektor skor faktor berukuran (k x 1) dan e adalah galat berukuran (p X 1). Dalam model ini tidak
ada komponen yang terobservasi kecuali x. Asumsi yang mendasari model ini adalah bahwa
faktor tidak saling berkorelasi, dan bahwa galat saling bebas dengan varians phi yang disebut
”uniquenesses”. Kemudian dalam analisi faktor model bagi matriks varians-kovarians x adalah
Σ=Λ'Λ +Ψi
Apabila dilakukan rotasi terhadap data maka Λ dapat digantikan dengan GΛ untuk setiap
Bertho Tantular - 19
Praktikum Analisis Data Multivariat II Menggunakan Software R
F =' X
−1
dan kemudian menggantikan nilai-nilai parameter dengan penaksirnya. Prinsip Metode Bartlett
adalah meminimumkan jumlah kuadrat galat yang sudah dibakukan atau diboboti. Uraian
berikut ini adalah penjelasan syntax dan cara penggunaannya.
Keterangan:
Bertho Tantular - 20
Praktikum Analisis Data Multivariat II Menggunakan Software R
n.obs: banyaknya pengamatan dari data, opsi ini digunakan apabila opsi
na.action: opsi untuk data hilang, digunakan apabila opsi 'x' berupa formula
start: dengan nilai default ‘NULL’ adalah matriks yang berisi nilai awal
scores: nilai skor. Ada dua tipe yaitu "regression" bila menggunakan
metode
least-squares
Bertho Tantular - 21
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dalam analisis faktor ada banyak variasi penggunaannya sehingga sulit bagi kita untuk
membandingkan output dari program yang berbeda-beda. Bagaimanapun metode optimalisasi
dalam analisis faktor menggunakan maximum likelihood cukup sulit.
Contoh Kasus 1
Dalam suatu studi consumer-preference diambil sampel acak dari sejumlah konsumen. Kepada
mereka ditanyakan mengenai 5 atribut dari sebuah produk baru. Respon dari konsumen
menggunakan skala 7 semantik differensial, yang hasilnya telah dihitung menjadi matriks
korelasi berikut ini (Johnson & Wichern, 2002 halaman 487)
Atribut (Variabel) 1 2 3 4 5
Taste 1 0.02 0.96 0.42 0.01
Good buy for money 0.02 1 0.13 0.71 0.85
Flavor 0.96 0.13 1 0.5 0.11
Suitable for snack 0.42 0.71 0.5 1 0.79
Provides lots energy 0.01 0.85 0.11 0.79 1
Bertho Tantular - 22
Praktikum Analisis Data Multivariat II Menggunakan Software R
Sebelum menganalisis data tersebut perlu diinputkan dulu matriks korelasinya dengan
cara sebagai berikut
> mc<-
matrix(c(1,.02,.96,.42,.01,.02,1,.13,.71,.85,.96,.13,1,.5,.11,.42,.71,.5,1,.7
9,.01,.85,.11,.79,1), 5, 5)
> mc
> fit
Call:
Uniquenesses:
Loadings:
Factor1 Factor2
[1,] 0.985
Bertho Tantular - 23
Praktikum Analisis Data Multivariat II Menggunakan Software R
[2,] 0.873
[5,] 0.973
Factor1 Factor2
The degrees of freedom for the model is 1 and the fit was 0.0233
Dari output diatas terlihat bahwa Faktor 1 beranggotakan variabel 2, variabel 4 dan variabel 5
sedangkan variabel 1 dan variabel 3 berada pada Faktor 2.
criteria=NULL, ...)
Keterangan:
eig: adalah parameter berupa eigenvalues yang akan dianalisis
Bertho Tantular - 24
Praktikum Analisis Data Multivariat II Menggunakan Software R
x: adalah input dapat berupa vektor eigenvalues, atau matriks korelasi atau
kovarians dari data (data frame)
aparallel: hasil dari analisis paralel.
Cor berniilai ‘TRUE’ apabila yang digunakan matriks korelasi dan 'FALSE' apabila
yang digunakan matriks kovarians
model: bernilai "components” atau "factors"
criteria: bernilai numerik.
Components : berupa data frame yang berisi banyaknya komponen atau faktor yang
didasarkan atas aturan yang berbeda
Components$noc : Banyaknya komponen atau faktor berdasarkan koordinat optimal (oc)
Components$naf : Banyaknya komponen atau faktor berdasarkan acceleratoin factor (af)
Components$npar.analysis : Banyaknya komponen atau faktor berdasarkan koordinat analisis
paralel
Components$nkaiser : Banyaknya komponen atau faktor berdasarkan aturan Kaiser
Analysis : Berupa Data frame berisi vektor yang berkaitan dengan aturan yang
berbeda
Analysis$Eigenvalues : Menampilkan nilai eigen
Analysis$Prop : Nilai proporsi varians yang dihitung dari nilai eigen
Analysis$Cumu : proporsi kumulatif dari varians yang dihitung dari nilai eigen
Analysis$Pred.eig : prediksi nilai eigen dari setiap koordinat garis regresi optimal
Analysis$OC : nilai koordinat optimal (oc)
Analysis$Acc.factor : nilai Acceleration factor _af_
Analysis$AF : nilai kritis acceleration factor _af_
Bertho Tantular - 25
Praktikum Analisis Data Multivariat II Menggunakan Software R
Secara umum contoh penggunaan paket nFactors untuk data pada Contoh kasus 1 dengan
banyak pengamatan adalah 200 dapat dilihat pada syntax berikut ini
Bertho Tantular - 26
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari gambar diatas diperoleh hasil bahwa banyak faktor yang dapat diambil adalah 2
berdasarkan analisis paralel. Berdasarkan metode acceleration factor (AF) banyak faktor yang
dapat diambil adalah 1. Hal ini sesuai dengan output yang dapat ditampilkan diantaranya
sebagai berikut
> nS$Components
1 0 1 2 3
> nS$Analysis
Bertho Tantular - 27
Praktikum Analisis Data Multivariat II Menggunakan Software R
Metode Principal axes dapat digunakan pada saat metode kemungkinan maksimum tidak
mencapai konvergen. Masalah dalam analisis faktor adalah mencari penaksir terbaik bagi
komunalitas. Apabila Squared Multiple Correlation (SMC) digunakan untuk tiap variabel akan
diperoleh nilai komunalitas yang underestimate. Algoritma yang digunakan tidak mencoba
untuk menemukan solusi terbaik (seperti dalam kriteria kemungkinan maksimum) tetapi cukup
dengan mencapai konvergen dengan cepat melalui dekomposisi nilai eigen.
Pendekatan yang berbeda adalah solusi yang diperoleh dari minimum residual (minres)
merupakan metode kuadrat terkecil yang tidak diboboti (unweighted least squares). Fungsi
optim digunakan dan disesuaikan dengan elemen-elemen matriks korelasi untuk
meminimumkan kuadrat residu. Metode minres dan pa dapat digunakan pada saat metode
maksimum likelihood tidak mencapai konvergen dan dapat digunakan apabila matriks input
singular. Setidaknya solusi yang diperoleh dari metode minres lebih mirip dengan metode
kemungkinan maksimum dibandingkan solusi dari metode pa. Secara umum solusi dari metode
minres dan WLS mengikuti ide dari fungsi factanal.
Metode weighted least squares (WLS) memberikan bobot dari matriks residu dengan 1
dibagi diagonal invers matriks korelasi. Metode generalized least squares (GLS) memberikan
bobotmatriks residual dengan invers matriks korelasi.
Beberapa metode rotasi dalam analisis faktor yang dapat digunakan adalah varimax
meliputi “Varimax”, “quartimax”, “bentlerT” dan “geominT” berupa rotasi ortogonal, dan
oblique meliputi "promax", "oblimin", "simplimax", "bentlerQ, dan "geominQ" atau "cluster".
Uraian berikut adalah penjelasan mengenai syntax dan contoh penggunaannya
min.err : adalah nilai batas untuk iterasi. Iterasi berhenti pada saat perubahan
komunalitas lebih kecil dari nilai min.err
digits : berapa banyak digit output yang digunakan
max.iter : Nilai maksimum iterasi
symmetric : bernilai “TRUE” atau “FLASE”
warnings : bernilai “TRUE” untuk menampilkan peringatan apabila terlalu banyak
faktor yang akan diekstrak
fm : metode faktorisasi bernilai "minres" untuk minimum residual (OLS),
bernilai “wls" untuk weighted least squares (WLS), “gls" untuk
generalized weighted least squares (GLS), "pa" untuk principal factor
dan "ml" untuk maximum likelihood.
alpha : adalah nilai alpha untuk selang kepercayaan RMSEA
Bertho Tantular - 30
Praktikum Analisis Data Multivariat II Menggunakan Software R
n n−1 q q−1
dof = −n q
2 2
2 = n−1−2 p5 2 q
6
−
3
f
dengan n adalah banyak pengamatan
p adalah banyak variabel
q adalah banyak faktor
f adalah fungsi objektif
Phi : interfactor correlation.
communality.iterations: menampilkan taksiran komunalitas dari tiap iterasi (Hanya digunakan
pada metode principal axis)
Residual : menampilkan matriks korelasi residual setelah model faktor digunakan
BIC : menampilkan nilai Bayesian Information Criterion
R2 : Nilai R2 multiple antara faktor dengan penaksir factor score.
Menggunakan nilai ini dapat diketahui korelasi minimum antara dua
faktor dengan rumus 2R2 - 1
r.scores : nilai korelasi dari penaksir factor score
weights : pembobot yang digunakan
Bertho Tantular - 31
Praktikum Analisis Data Multivariat II Menggunakan Software R
Syntax berikut adalah contoh analisis faktor menggunakan principal axis dengan fungsi
factor.pa()
dataku adalah data yang digunakan (raw data atau matriks kovarians/korelasi).
rfactors banyak faktor yang diekstraksi
rotation rotasi yang digunakan dalam hal ini "varimax" or "promax".
Paket nFactors, psych dan FactoMineR tidak disertakan secara default dalam software
tetapi dapat diunduh secara gratis pada the Comprehensive R Archive Network (CRAN) di
alamat http://CRAN.R-project.org/.
Bertho Tantular - 32
Praktikum Analisis Data Multivariat II Menggunakan Software R
MODUL III
ANALISIS KORELASI KANONIK
1. Pendahuluan
Analisis korelasi kanonik berguna untuk mengidentifikai dan kuantifikasi asosiasi antara
dua set variabel. Analisis korelasi kanonik tercurah pada korelasi antara kombinasi linier dari
suatu set variabel dengan kombinasi linier set variabel lainnya. Pasangan-pasangan kombinasi
linier disebut sebagai variabel kanonik sedangakn korelasinya disebut korelasi kanonik. Korelasi
kanonik mengukur kekuatan asosiasi antara dua set variabel.
> library(CCA)
> cc( X, Y)
Contoh
Data berikut mengenai studi nutrisi dari tikus. Data diperoleh dari Pascal Martin dari the
Toxicology and Pharmacology Laboratory (French National Institute for Agronomic Research).
Data ini sudah disertakan dalam paket CCA dengan nama nutrimouse sehingga kita tinggal
Bertho Tantular - 33
Praktikum Analisis Data Multivariat II Menggunakan Software R
mempergunakannya saja. Dari data nutrimouse ingin dikorelasikan gen dengan lipid dari tikus.
Berikut adalah syntax yang digunakan
> plt.cc(res.cc)
Bertho Tantular - 34
Praktikum Analisis Data Multivariat II Menggunakan Software R
Bertho Tantular - 35
Praktikum Analisis Data Multivariat II Menggunakan Software R
MODUL IV
ANALISIS DISKRIMINAN
1. Pendahuluan
Analisis Diskriminan adalah suatu teknik mutivariat yang terkonsentrasi pada pemisahan
secara tegas suatu set objek atau pengamatan dan menenpatkan suatu objek atau pengamatan
baru ke dalam kelompok yang telah didefinisikan sebelumnya. Tujuan analisis diskriminan
sendiri adalah untuk menduga keanggotaan objek atu pengamatan dalam suatu kelompok
melalui fungsi dari variabel-variabel yang diukur pada objek tersebut. Fungsi pembentuk
kelompok tersebut merupakan sebuah model yang linier terhadap variabel maupun terhadap
koefisiennya.
Model linier yang mendasari analisis diskriminan mempunyai setidaknya tiga asumsi
yaitu
1. antar objek atau pengamatan harus saling bebas
2. variabel-variabel penjelas harus memiliki distribusi normal multivariat
3. banyaknya pengamatan harus lebih besar dari banyaknya variabel
> library(MASS)
Paket MASS telah meliputi fungsi analisis diskriminan linier dan kuadratik.
Penggunaan analisis diskriminan menggunakan software R akan dijelaskan melalui
ilustrasi berikut ini:
Dalam rangka mengatur penangkapan Ikan Salmon, sangat diinginkan bisa mengidentifikasi
Bertho Tantular - 36
Praktikum Analisis Data Multivariat II Menggunakan Software R
apakah ikan yang tertangkap berasal dari Alaska atau Kanada. Ikan Salmon mempunyai ciri
khas dalam perkembangan pertumbuhannya. Ikan salmon lahir di air tawar kemudian tumbuh
dewasa di air laut. Untuk keperluan tersebut lima puluh Ikan Salmon diambil dari masing-
masing tempat, dan pertumbuhan diameternya diukur ketika ikan-ikan itu hidup di air tawar dan
ketika hidup di air laut, selain itu dibedakan pula terhadap jenis kelaminnya. Tujuannya adalah
untuk mengetahui apakah ikan yang tertangkap di kemudian hari berasal dari Alaska atau dari
Kanada. (Johnson & Wichern 2002 halaman 607). Untuk keperluan analisis untuk jenis kelamin
diberi kode 1 untuk ikan jantan dan 2 untuk ikan betina.
Deskripsi Data
Untuk menampilkan deskripsi dari data salmon lakukan perintah-perintah berikut:
> salmon<-read.csv("salmon.csv")
> str(salmon)
$ AirLaut : int 368 355 469 506 402 423 440 489 432 403 ...
$ JK : int 2 1 1 2 1 2 1 2 2 1 ...
> alaska<-c(mean(salmon$AirTawar[1:50]),sd(salmon$AirTawar[1:50]) )
> kanada<-c(mean(salmon$AirTawar[51:100]),sd(salmon$AirTawar[51:100]))
> sdes<-data.frame(alaska,kanada)
> row.names(sdes)=c("Rata-rata","Simp.Baku")
> sdes
alaska kanada
> alaska<-c(mean(salmon$AirLaut[1:50]),sd(salmon$AirLaut[1:50]) )
> kanada<-c(mean(salmon$AirLaut[51:100]),sd(salmon$AirLaut[51:100]))
Bertho Tantular - 37
Praktikum Analisis Data Multivariat II Menggunakan Software R
> sdes2<-data.frame(alaska,kanada)
> row.names(sdes2)=c("Rata-rata","Simp.Baku")
> sdes
alaska kanada
Secara deskriptif terlihat bahwa rata-rata diameter pertumbuhan ikan salmon di Alaska lebih
kecil dibandingkan dengan di Kanada.
Bertho Tantular - 38
Praktikum Analisis Data Multivariat II Menggunakan Software R
library(mvnormtest)
Dari grafik data terlihat agak melenceng untuk jarak data yang cukup besar yang
mengindikasikan data tidak berdistribusi normal multivariat.
Bertho Tantular - 39
Praktikum Analisis Data Multivariat II Menggunakan Software R
atau
atau
> lda(x, grouping, prior = proportions, tol = 1.0e-4, method, CV = FALSE, nu, ...)
keterangan:
formula : adalah model atau fungsi yang digunakan. Contoh ‘G ~ x1 + x2 + ...’
dalam hal ini G adalah variabel respon berupa data nominal yang
menjelaskan kelompok dan x1, x2, … adalah variabelnya.
data : berupa data frame dari variabel-variabel yang digunakan dalam formula
x : berupa matriks atau data frame dari variabel-variabel penjelas. Opsi ini
digunakan apabila formula tidak didefinisikan
grouping : suatu faktor yang mendefinisikan kelompok dari tiap pengamatan Opsi
ini digunakan apabila formula tidak didefinisikan
prior : adalah fungsi peluang prior dari keanggotaan kelompok.
tol : nilai toleransi yang digunakan apabila diperoleh matriks singular.
Variabel dan kombinasi linier varians unit variabel yang nilainya kurang
dari Nilai kuadrat tol berguna akan ditolak atau dikeluarkan.
na.action : suatu fungsi untuk penanganan data hilang
method : bernilai ‘"moment"’ untuk penaksir baku bagi rata-rata dan varianas,
"mle” untuk penaksir kemungkinan maksimum, ‘"mve"’ untuk digunakan
dalam ‘cov.mve’, atau "t" untuk penaksir robust berdasarkan distribusi t.
CV : bernilai “TRUE” untuk menampilkan cross-validation.
Nu : derajat bebas untuk metode "t".
Bertho Tantular - 40
Praktikum Analisis Data Multivariat II Menggunakan Software R
Untuk analisis diskriminan linier data Ikan salmon dapat menggunakan perintah-perintah berikut
> library(MASS)
> fit <- lda(Ikan.Salmon ~ AirTawar + AirLaut, data=salmon,
na.action="na.omit")
Call:
Alaska Kanada
0.5 0.5
Group means:
AirTawar AirLaut
Bertho Tantular - 41
Praktikum Analisis Data Multivariat II Menggunakan Software R
LD1
AirTawar 0.04458572
AirLaut -0.01803856
Kemudian apabila ingin mengetahui akurasi dari analisis diskriminan yang telah dibuat lakukan
prosedur berikut ini
> ct
Alaska Kanada
Alaska 44 6
Kanada 1 49
0.88 0.98
[1] 0.93
Secara umum kekeliruan dalam klasifikasi sebesar 7% cukup kecil. Artinya hanya sekitar 7 dari
100 ekor Ikan Salmon Alaska yang diklasifikasikan sebagai Ikan Salmon Kanada dan Ikan
Salmon Kanada yang diklasifikasikan sebagai Ikan Salmon Alaska.
Bertho Tantular - 42
Praktikum Analisis Data Multivariat II Menggunakan Software R
atau
atau
> lda(x, grouping, prior = proportions, tol = 1.0e-4, method, CV = FALSE, nu, ...)
keterangan:
formula : adalah model atau fungsi yang digunakan. Contoh ‘G ~ x1 + x2 + ...’
dalam hal ini G adalah variabel respon berupa data nominal yang
menjelaskan kelompok dan x1, x2, … adalah variabelnya.
data : berupa data frame dari variabel-variabel yang digunakan dalam formula
x : berupa matriks atau data frame dari variabel-variabel penjelas. Opsi ini
digunakan apabila formula tidak didefinisikan
grouping : suatu faktor yang mendefinisikan kelompok dari tiap pengamatan Opsi
ini digunakan apabila formula tidak didefinisikan
Bertho Tantular - 43
Praktikum Analisis Data Multivariat II Menggunakan Software R
Berikut contoh penggunaan analisis diskriminan kuadratik dengan banyak kelompok adalah 3
dan banyak variabel adalah 4 dan ketiga kelompok mempunyai nilai peluang prior yang sama
Bertho Tantular - 44
Praktikum Analisis Data Multivariat II Menggunakan Software R
> library(MASS)
> fit <- qda(G ~ x1 + x2 + x3 + x4, data=na.omit(mydata), prior=c(1,1,1)/3))
Menggambarkan Hasil
Semua pengamatan dapat diplot kedalam sebuah gambar dua dimensi dengan mengambil dua
fungsi diskriminan pertama
Selain itu juga bisa dibuat scatterplot dengan menggunakan warna untuk masing-masing
kategori. Untuk itu gunakan perintah-perintah berikut ini.
# Scatterplot
> pairs(salmon[c("AirTawar","AirLaut")], main="Plot Analisis Diskriminan Ikan
Salmon", pch=22, bg=c("red", "blue")[unclass(salmon$Ikan.Salmon)])
Bertho Tantular - 46
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari Gambar diatas menunjukkan perbedaan kelompok Ikan Salmon dilihat dari dua variabel
diameter ikan pada saat hidup di air tawar dan diameter ikan pada saat hidup di air laut. Warna
merah adalah Ikan Salmon yang berasal dari Alaska dan warna biru menunjukkan Ikan Salmon
yang berasal dari Kanada.
Bertho Tantular - 47
Praktikum Analisis Data Multivariat II Menggunakan Software R
MODUL V
ANALISIS KLASTER
1. Pendahuluan
Secara sederhana Analisis Klaster digunakan untuk menentukan pengelompokkan objek
atau pengamatan yang didasarkan atas kemiripan objek. Objek yang berada dalam satu
kelompok merupakan objek yang mirip satu sama lain dan sebaliknya yang berbeda kelompok
merupakan objek yang tidak mirip satu sama lain.Berbagai metode digunakan untuk
menentukan keanggotaan kelompok dalam analisis klaster. Secara umum analisis klaster dibagi
menjadi dua yaitu Analisis Klaster Hierarki dan Analisis Klaster Non-Hirarki.
Data yang digunakan dalam Analisis Klaster dapat berupa data pengamatan yang
berdistribusi Multivariat atau bisa berupa sebuah matriks simetris proximity yaitu kemiripan
antar objek (similarity) atau ketakmiripan antar objek (dissimilarity). Matriks korelasi bisa
digunakan sebagai matriks proximity sebagai ukuran kemiripan sedangakn matriks jarak
(misalnya Euclidian Distance) sebagai ukuran ketakmiripan.
Bertho Tantular - 48
Praktikum Analisis Data Multivariat II Menggunakan Software R
Bertho Tantular - 49
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dalam hal ini metode diisi dengan jarak yang digunakan yaitu "euclidean", "maximum",
"manhattan", "canberra", "binary" atau "minkowski"
Dalam hal ini metode diisi dengan metode klaster yang digunakan yaitu "ward", "single",
"complete" atau "average". Apabila tidak ingin terlihat tahap dalam dendogramnya gunakan
perintah berikut
Analisis Klaster untuk data pada ilustrasi diatas menggunakan software R adalah sebagai
berikut
Menggunakan metode Single Lingkage
> publik<-read.csv("public.csv")
> str(publik)
$ x1 : num 1.06 0.89 1.43 1.02 1.49 1.32 1.22 1.1 1.34 1.12 ...
$ x2 : num 9.2 10.3 15.4 11.2 8.8 13.5 12.2 9.2 13 12.4 ...
$ x3 : int 151 202 113 168 192 111 175 245 168 197 ...
Bertho Tantular - 50
Praktikum Analisis Data Multivariat II Menggunakan Software R
$ x5 : num 1.6 2.2 3.4 0.3 1 -2.2 2.2 3.3 7.2 2.7 ...
$ x6 : int 9077 5088 9212 6423 3300 11127 7642 13082 8406 6455 ...
$ x8 : num 0.63 1.56 1.06 0.7 2.04 1.24 1.65 0.31 0.86 0.62 ...
> plot(fit)
> plot(fit2)
Bertho Tantular - 51
Praktikum Analisis Data Multivariat II Menggunakan Software R
> plot(fit3)
Bertho Tantular - 52
Praktikum Analisis Data Multivariat II Menggunakan Software R
> plot(fit3)
Bertho Tantular - 53
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari keempat metode yang digunakan terlihat menghasilkan Dendogram yang berbeda-
beda, sehingga kita harus memilih metode yang dapat mengelompokkan data dengan jelas.
Katakan saja dalam kasus ini kita akan menggunaka metode Ward untuk mengelompokkan data
kita. Selanjutnya kita akan mengelompokkan data dengan cara memotong dendogram menjadi 3
klaster menggunakan perintah berikut ini
Bertho Tantular - 54
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari hasil dendogram tersebut terlihat bahwa setiap kotak merupakan sebuah klaster
dengan anggotanya adalah setiap bilangan yang ada dalam kotak tersebut yang menyatakan
objek atau pengamatan.
Klaster 1 beranggotakan objek ke 2, 4, 5, 7, 10, 12, 13, 15, 17, 20, 21
Klaster 2 beranggotakan objek ke 1, 3, 6, 9, 14, 18, 22
Klaster 3 beranggotakan objek ke 8, 11, 16, 19
Salah satu kelebihan software R dalam Analisis Klaster adalah bisa menampilkan p-
value dari Analisis Klaster Hierarki berdasarkan metode bootstrap. Fungsi pvclust( ) dalam
paket pvclust yang digunakan untuk hal tersebut. Klaster-klaster yang sangat didukung oleh
data memiliki p-values yang tinggi. Tetapi perlu diperhatikan dalam paket pvclust yang
dikelompokkan adalah kolom bukan baris, sehingga data kita harus ditranspos terlebih dahulu.
Berikut perintah yang digunakan untuk fungsi pvclust
Bertho Tantular - 55
Praktikum Analisis Data Multivariat II Menggunakan Software R
> library(pvclust)
> fit <- pvclust(mydata, method.hclust="ward",method.dist="euclidean")
> plot(fit) # Menggambarkan dendogram dengan p values
> pvrect(fit, alpha=.95) # Menambahkan kotak diantara kelompok
yang sangat didukung oleh data
Dalam modul ini tidak akan dibahas lebih lanjut mengenai penggunaan fungsi pvclust() ini.
# Keanggotaan Klaster
Data sebelumnya digunakan untuk contoh penggunaan analisis klaster K-means. Berikut
Bertho Tantular - 56
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari gambar diatas banyak klaster yang dapat diambil adalah 6 yaitu titik pada saat kurva mulai
melandai. Sehingga analisis klaster K-means adalah sebagai berikut
> fit
Cluster means:
x1 x2 x3 x4 x5 x6
x7
x8
1 1.2132359
2 1.4679800
3 -0.6493932
4 -0.9655756
5 -0.5963464
6 -0.0904546
Clustering vector:
[1] 3 1 6 5 1 6 1 4 6 5 4 1 5 3 1 4 2 3 3 5 1 5
Available components:
Bertho Tantular - 58
Praktikum Analisis Data Multivariat II Menggunakan Software R
> aggregate(publik1,by=list(fit$cluster),FUN=mean)
Group.1 x1 x2 x3 x4 x5 x6
x7 x8
1 -0.2997473 1.2132359
2 -0.2203441 1.4679800
3 -0.7146294 -0.6493932
4 -0.7146294 -0.9655756
5 1.5650384 -0.5963464
6 -0.2679860 -0.0904546
> agt_klaster
x1 x2 x3 x4 x5 x6
x7 x8 fit.cluster
1 -0.7146294 -0.85168995 3
2 0.7920476 0.82063024 1
3 -0.7146294 -0.07846664 6
4 1.3280197 -0.72581638 5
5 0.2143888 1.68376323 1
6 0.6253007 0.24520824 6
7 -0.7146294 0.98246767 1
8 -0.7146294 -1.42711195 4
9 -0.7146294 -0.43810539 6
10 1.6198267 -0.86967188 5
11 -0.7146294 -0.59994282 4
12 -0.7146294 1.43201611 1
13 2.2749037 -1.03150932 5
14 -0.7146294 -0.92361770 3
15 -0.6610322 0.53291924 1
16 -0.7146294 -0.86967188 4
17 -0.2203441 1.46797999 2
18 -0.7146294 0.01144305 3
Bertho Tantular - 60
Praktikum Analisis Data Multivariat II Menggunakan Software R
19 -0.7146294 -0.83370801 3
20 1.7329764 -0.72581638 5
21 -0.7146294 1.82761873 1
22 0.8694658 0.37108180 5
Menggambarkan Hasil
Dalam software R memungkinkan kita untuk menggambarkan hasil analisis klaster K-
means. Untuk itu harus menggunakan paket Cluster dan paket fpc.Perintah-perintah berikut
yang digunakan untuk menggambarkan klaster yang terbentuk
> library(cluster)
> clusplot(publik1, fit$cluster, color=TRUE, shade=TRUE, labels=2, lines=0)
Bertho Tantular - 61
Praktikum Analisis Data Multivariat II Menggunakan Software R
Dari gambar terlihat dengan jelas anggota dari masing-masing klaster dari warna dan bentuk
titik masing-masing klaster.
> library(fpc)
> plotcluster(publik1, fit$cluster)
Bertho Tantular - 62
Praktikum Analisis Data Multivariat II Menggunakan Software R
Terlihat dari gambar keanggotaan tiap klaster dengan menggunakan angka dan warna untuk
masing-masing klaster tetapi objek yang menjadi anggota klasternya tidak terlihat.
Fungsi lain yang dapat digunakan untuk analisis klaster adalah metode validasi dari
klaster atau lebih tepatnya perbandingan dari dua metode klaster. Fungsi cluster.stats() dalam
paket fpc adalah suatu metode membandingkan kesamaan dua hasil klaster menggunakan
kriteria validasi Hubert's gamma coefficient, the Dunn index dan the corrected rand index.
Baris-basris berikut adalah metode validasi secara umum
> library(fpc)
> cluster.stats(d, fit1$cluster, fit2$cluster)
dengan d adalah matriks jarak fit1 dan fit2 adalah hasil dari dua metode klaster yang digunakan
untuk data yang sama.
Bertho Tantular - 63
Praktikum Analisis Data Multivariat II Menggunakan Software R
4. Multidimensioal Scalling
Multidimensional scalling adalh suatu teknik statistika multivariat yang bertujuan untuk
menganalisis kemiripan (similarity) dan ketakmiripan (dissimilarity) antar objek. Hasil dari
analisis multidimensional scalling adalah berupa gambar titik-titik yang mana jarak antar titik
menunjukkan kemiripan atau ketakmiripan. Selain itu penggunaan multidimensional scalling
juga dapat memberikan petunjuk untuk mengidentifikasi peubah yang tidak diketahui atau
faktor yang memengaruhi munculnya kemiripan atau ketakmiripan.
Dalam software R fungsi yang digunakan untuk multidimensoinal scalling dibedakan
menjadi dua yaitu classical multidimensional scalling (Classical MDS) dan nonmetric
multidimensional scaling (Nonmetric MDS). Input data yang dibutuhkan dalam
multidimensional scalling adalah N objek yang diukur (baris) dalam p variabel numerik
(kolom).
Classical MDS
Untuk classical MDS dapat digunakan fungsi cmdscale( ) dengan perintah-perintah sebagai
berikut:
# Menggambarkan hasil
> x <- fit$points[,1]
> y <- fit$points[,2]
> plot(x, y, xlab="Nama Koordinat 1", ylab="Nama Koordinat 2",
main="Classical MDS", type="n")
> text(x, y, labels = row.names(dataku), cex=.7)
Bertho Tantular - 64
Praktikum Analisis Data Multivariat II Menggunakan Software R
Data mengenai jarak udara antar 12 kota terpilih di amerika serikat sebagai ilustrasi
penggunaan classical MDS dalam software R. Data yang digunakan telah berupa jarak
sebenarnya antar kota. (Johnson & Wichern 2002, halaman 703)
Hal pertama yang mesti dilakkukan adalah menginput data berupa matriks simetris
kemudian diberi nama misalkan airline.csv (dalam format .csv). Kemudian lanjutkan dengan
perintah-perintah berikut ini sehingga keluar output yang diinginkan
> airline<-read.csv("airline.csv")
> names(airline)<-
c("Atlanta","Boston","Cincinati","Columbus","Dallas","Indianapolis","Little
Rock","Los Angeles","Memphis","St.Louis","Spokane","Tampa")
> d<-as.dist(airline)
> d
Boston 1068
912
Boston
Cincinati
Columbus
Dallas
Indianapolis
Little Rock
Los Angeles
Memphis 1831
[,1] [,2]
Output diatas adalah koordinat yang diperlukan untuk menggambarkan ke 12 kota dalam 2
dimensi. Untuk menampilkan gambarnya lanjutkan dengan perintah-perintah berikut ini
Bertho Tantular - 66
Praktikum Analisis Data Multivariat II Menggunakan Software R
Gambar diatas menunjukkan setiap titik-titik yang berdekatan menunjukkan lokasi kota
yang juga berdekatan begitu pula sebaliknya. Dalam ilustrasi ini memperlihatkan kemiripan
antar objek adalah kedekatan jarak sebenarnya secara geografis.
Nonmetric MDS
Selain untuk data metrik multidimensional scalling juga dapat dilakukan untuk data
Bertho Tantular - 67
Praktikum Analisis Data Multivariat II Menggunakan Software R
nonmetrik yang disebut Nonmetric MDS. Dalam software R Nonmetrik MDS dapat dianalisis
menggunakn fungsi isoMDS( ) dalam paket MASS. Baris perintah berikkut adalah tahapan
dalam Nonmetric MDS
> library(MASS)
> d <- dist(dataku) # jarak euclidean antar baris
# Menggambarkan hasil
x <- fit$points[,1]
y <- fit$points[,2]
plot(x, y, main="Nonmetric MDS", type="p", pch=20)
text(x, y, labels = row.names(mydata), cex=.7)
5. Analisis Korespondensi
Analisis Korespondensi adalah suatu prosedur grafis untuk menjelaskan asosiasi dalam
tabel frekuensi terutama pada tabel frekuensi dua arah atau disebut juga tabel kontingensi.
Dalam tabel kontingensi terdiri atas I baris dan J kolom. Analisis korespondensi menghasilkan
titik-titik yang diplotkan dalam grafik yang terdiri atas dua set yaitu sebanyak I titik pada set
pertama yang menyatakan baris dan sebanyak J titik pada set kedua yang menyatakan kolom.
Posisi titik pada grafik menyatakan asosiasi antara keduanya.
Analisis Korespondensi secara umum merupakan metode grafik dalam eksplorasi
hubungan antara dua variabel dalam tabel kontingensi, tentunya variabel yang digunakan besifat
kategori. Grafik yang dihasilkan dalam analisis korespondensi merupakan grafik mdua dimensi.
Dengan titik-titik merupakan kategori dari masing-masing variabel.
Dalam software R ada beberapa fungsi yang dapat digunakan untuk analisis
korespondensi salah satunya adalah paket ca. Paket yang dibuat oleh Nenadic dan Greenacre ini
menghasilkan nilai-nilai yang diperlukan dalma analisis korespondensi selain itu juga
menghasilkan grafik yang sesuai. Paket ca dapat menganalisis multiple correspondence yaitu
apabila variabel kategorinya lebih dari dua. Tetapi dalam modul ini hanya dibahas untuk analisis
Bertho Tantular - 68
Praktikum Analisis Data Multivariat II Menggunakan Software R
> situs<-read.csv(“situs.csv”)
> tabel1
Tipe
Situs A B C D
P0 30 10 10 39
P1 53 4 16 2
P2 73 1 41 1
P3 20 6 1 4
P4 46 36 37 13
P5 45 6 59 10
P6 16 28 169 5
Tipe
Situs A B C D
Bertho Tantular - 69
Praktikum Analisis Data Multivariat II Menggunakan Software R
Tipe
Situs A B C D
> library(ca)
1 2 3
Rows:
P0 P1 P2 P3 P4 P5 P6
Bertho Tantular - 70
Praktikum Analisis Data Multivariat II Menggunakan Software R
Columns:
A B C D
-------- -----
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
Bertho Tantular - 71
Praktikum Analisis Data Multivariat II Menggunakan Software R
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
> plot(fit)
Titik-titik baris (berbentuk bulat) pada gambar yang berdekatan memiliki profil kolom
yang mirip begitupun sebaliknya titik-titik kolom (berbentuk segitiga) pada gambar yang
berdekatan memiliki profil baris yang mirip. Tetapi kita tidak dapat menginterpretasikan jarak
Bertho Tantular - 72
Praktikum Analisis Data Multivariat II Menggunakan Software R
6. Analisis Biplot
Analisis Biplot adalah representasi grafis mengenai informasi yang ada dalam matriks
data berdimensi n x p. Dalam Biplot meliputi dua macam informasi yang ada dala matriks data
yaitu informasi mengenai baris yang berarti unit-unit sampling dan informasi mengenai kolom
yang berarti variabel-variabel. Apabila hanya dua variabel saja maka untuk merepresentasikan
kedua informasi ini dapat menggunakan scatter plot. Tetapi untuk variabel lebih dari dua
diperlukan suatu alat yang dapat memberikan informasi mengenai kedua hal tadi yaitu analisis
biplot.
Secara umum Biplot dapat menyajikan posisi relatif n objek pengamatan dengan p
Bertho Tantular - 73
Praktikum Analisis Data Multivariat II Menggunakan Software R
variabel secara simultan dalam grafik dua dimensi. Sehingga dari penggambaran tersebut dapat
diperoleh informasi mengenai hubungan diantara variabel-variabel, kesamaan relatif dari titik-
titik data individu dan posisi relatif antara individu dengan variabel.
Ilustrasi berikut akan memberikan gambaran mengenai penggunaan Biplot. Data yang
digunakan mengenai 25 Universitas di Amerika Serikat. Dari 25 universitas tersebut diukur
variabel-variabel yang mendukung pada ranking universitas. Variabel yang digunakan adalah
sebagai berikut:
X1 : Rata-rata nilai mahasiswa baru
X2 : persentase mahasiswa baru berasal dari SMA favorit (10 besar)
X3 : Persentase pendaftar yang diterima
X4 : rasio mahasiswa-fakultas
X5 : Nilai harapan belanja tahunan
X6 : Tingkat kelulusan (%)
Data ini akan dibakukan karena ukuran dari variabel-variabel berbeda-beda. (Johnson &
Wichern 2002, halaman 722)
Dalam software R penggunaan Biplot bisa menggunakan fungsi biplot() atau fungsi
bpca() yang terdapat pada paket bpca.
Bertho Tantular - 74
Praktikum Analisis Data Multivariat II Menggunakan Software R
> library(bpca)
> plot(bpca(univ3, var.scale=TRUE), var.cex=1,obj.cex=1)
Bertho Tantular - 75
Praktikum Analisis Data Multivariat II Menggunakan Software R
Secara umum hasil dari kedua fungsi ini menghasilkan gambar yang mirip, hanya saja
fungsi bpca() memperlihatkan gambar yang sedikit lebih jelas dibandingkan dengan fungsi
biplot().
Bertho Tantular - 76
Praktikum Analisis Data Multivariat II Menggunakan Software R
DAFTAR PUSTAKA
Maindonald, John, Barun, W John. (2006) Data Analysis and Graphics Using R – an Example-
Based Approach . Cambridge University Press. UK
http://www.statmethods.net/advstats/
http://cran.r-project.org/packages/
Bertho Tantular - 77