Anda di halaman 1dari 14

Tugas : Analisis Peubah Ganda

ANALISIS KOMPONEN UTAMA DAN ANALISIS DISKRIMINAN

Oleh :

Muhammad Alamsyah NurFaudsan H12116016

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS HASANUDDIN

MAKASSAR

2019
ANALISIS KOMPONEN UTAMA
Analisis Komponen Utama (Principal Component Analysis) adalah analisis multivariate yang
mentransformasi variabel-variabel asal yang saling berkorelasi menjadi variabel-variabel baru
yang tidak saling berkorelasi dengan mereduksi sejumlah variabel tersebut sehingga
mempunyai dimensi yang lebih kecil namun dapat menerangkan sebagian besar keragaman
variabel aslinya.

Banyaknya komponen utama yang terbentuk sama dengan banyaknya variabel asli.
Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria persentase keragaman data
yang diterangkan oleh beberapa komponen utama pertama. Apabila beberapa komponen
utama pertama telah menerangkan lebih dari 75% keragaman data asli, maka analisis cukup
dilakukan sampai dengan komponen utama tersebut.

Bila komponen utama diturunkan dari populasi multivariat normal dengan random
vektor X = (X1, X2,… , Xp) dan vektor rata-rata μ = (μ1, μ2, … , μp) dan matriks
kovarians Σ dengan akar ciri (eigenvalue) yaitu λ1 ≥ λ2 ≥ ⋯ ≥ λp ≥ 0 didapat kombinasi linier
komponen utama yaitu sebagai berikut.

Maka Var(Yi ) = ei'Σei dan Cov(Yi,Yk ) = ei'Σei dimana i,k = 1, 2, ... , p.

Syarat untuk membentuk komponen utama yang merupakan kombinasi linear dari
variabel X agar mempunyai varian maksimum adalah dengan memilih vektor ciri (eigen
vector) yaitu e = (e1, e2, …, ep) sedemikian hingga Var(Yi) = ei'Σei maksimum dan ei'ei = 1.

 Komponen utama pertama adalah kombinasi linear e1'X yang memaksimumkan


Var(e1'X) dengan syarat e1'e1 = 1.
 Komponen utama kedua adalah kombinasi linear e2'X yang
memaksimumkan Var(e2'X) dengan syarat e2'e2 = 1.
 Komponen utama ke-i adalah kombinasi linear ei'X yang memaksimumkan Var(ei'X)
dengan syarat ei'ek = 1 dan Cov(ei'ek)=0 untuk k < 1.

Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi yang sama dengan
akar ciri dari Σ. Akar ciri dari matriks ragam peragam Σ merupakan varian dari komponen
utama Y, sehingga matriks ragam peragam dari Y adalah:
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh
komponen utama yaitu:

Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil
komponen yang mampu menerangkan bagian terbesar keragaman data. Apabila komponen
utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman
total yang bisa diterangkan oleh komponen utama ke-i adalah:

Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih
dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi ini dilakukan terhadap data
yang satuan pengamatannya tidak sama. Bila variabel yang diamati ukurannya pada skala
dengan perbedaan yang sangat lebar atau satuan ukurannya tidak sama, maka variabel
tersebut perlu dibakukan (standardized).

Variabel baku (Z) didapat dari transformasi terhadap variabel asal dalam matriks berikut:

V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah (αii)1/2 sedangkan
unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah

Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri yang didapat
melalui matriks korelasi variabel asal ρ. Untuk mencari akar ciri dan menentukan vektor
pembobotnya sama seperti pada matriks Σ. Sementara tracematriks korelasi ρ akan sama
dengan jumlah p variabel yang dipakai.

Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu
komponen utama akan digunakan jika akar cirinya lebih besar dari satu.
Studi Kasus :

Pada sebuah penelitian diambil sebanyak 28 spesies yang terdiri dari Spesies A, Spesies B,
Spesies C, dan Spesies D. Jumlah mereka dihitung di tiap-tiap stasiun yang terdiri atas 7
stasiun ( data diambil dari Bambang S. Soedibjo, 2008 halaman 47 ). Dengan menggunakan
aplikasi SAS akan dicari hubungan antara jumlah tiap spesies dari tiap stasiun. Datanya
sebagai berikut :

Spesies
Stasiun
A B C D
1 2 20 1 2
2 3 15 6 2
3 3 14 3 1
4 5 15 0 1
5 2 10 3 1
6 5 11 1 1
7 6 2 0 4
Pembahasan :

Pada ilustrasi ini kita lakukan korelasi antar peubah yang terlibat seperti di bawah ini :

proc iml;

CREATE Data VAR {SpesiesA SpesiesB SpesiesC SpesiesD};

INFILE 'AKU.txt';

do DATA;

input SpesiesA SpesiesB SpesiesC SpesiesD;

Append;

End;

Read all into X;

Close AKU

print X;

run;

proc corr data=Data;

var SpesiesA SpesiesB SpesiesC SpesiesD;

run;
Berdasarkan hasil analisis, dapat dilihat bahwa terdapat korelasi yang rendah antara SpesiesA
dan SpesiesB yaitu sebesar 0.1285 dan antara SpesiesA dan SpesiesC sebesar 0.1747.
Sedangkan, antara SpesiesA dan SpesiesD 0.3563

proc princomp cov;

var SpesiesA SpesiesB SpesiesC SpesiesD;

run;

Hasil Output:

 Mean dan Standar Deviasi


 Nilai Eigen dan Vektor Eigen

Interpretasi dari hasil diatas yaitu :

 Tedapat dua komponen yang memiliki nilai eigen lebih besar sama dengan satu, yaitu
komponen 1 dan komponen 2. Komponen 1 dapa menjelaskan sebanyak 83.63% dari
variabel keseluruhan. Komponen 2 dapat menjelaskan sebanyak 11.99% dari variabel
keseluruhan.
 Persamaan yang diperoleh dari Komponen 1:
PC1 = -0.188448(SpesiesA) – 0.353513(SpesiesB) + 0.885183(SpesiesC) –
0.236575(SpesiesD)
 Persamaan yang diperoleh dari Komponen 2:
PC2 = 0.968137(SpesiesA) – 0.185677(SpesiesB) + 0.151423(SpesiesC) +
0.072842(SpesiesD)
ANALISIS DISKRIMINAN
Analisis diskriminan adalah teknik statistika yang dipergunakan untuk mengklasifikasikan
suatu individu atau observasi ke dalam suatu kelas atau kelompok berdasarkan sekumpulan
variabel-variabel (Johnson & Wichern 2007). Model umum analisis diskriminan merupakan
suatu kombinasi linear yang bentuknya sebagai berikut:

Membentuk fungsi diskriminan yang optimal diperlukan beberapa asumsi terhadap data yang
digunakan. Asumsi ini antara lain adalah data pada variabel bebas seharusnya berdistribusi normal
multivariat dan adanya kesamaan matriks varians-kovarians antar kelompok.

Dalam penyusunan fungsi diskriminan ada dua metode yang dapat digunakan, yaitu estimasi simultan
dan estimasi stepwise. Cara mengetahui variabel bebas yang dapat mendiskriminasi suatu kelompok
adalah menggunakan statistik uji Wilks Lamda, yaitu:

Fungsi diskriminan adalah kombinasi linear dari variabel-variabel yang dimiliki oleh
kelompok-kelompok yang akan diklasifikasikan. Untuk dua grup dapat dilakukan
menggunakan fungsi diskriminan linier Fisher, yaitu:

Nilai fungsi diskriminan Z merupakan dasar untuk menentukan suatu objek masuk kelompok
yang mana dengan membandingkannya dengan rata-rata (centroid) dari nilai Z masing-
masing kelompok. Jika ada dua kelompok masing-masing A dan B, maka

Kriteria perbandingan teknik klasifikasi didasarkan pada kesalahan klasifikasinya yang


dikenal dengan Apparent Error Rate (APER) merupakan nilai dari besar kecilnya jumlah
observasi yang salah dalam pengklasifikasian berdasarkan suatu fungsi klasifikasi (Johnson
& Wichern 2007). Adapun APER dihitung dengan terlebih dahulu membuat tabel klasifikasi
sebagai berikut:

Klasifikasi actual dan predicted group

Sumber: Johnson and Wichern (2007)


Sedangkan ketepatan prediksi pengelompokan secara tepat dapat menggunakan rumus Hit
Ratio.

Studi Kasus :

Dosen-dosen Universitas Internasional, sebuah perguruan tinggi swasta diwajibkan untuk


melakukan penelitian (riset) ilmiah minimal sekali setahun. Untuk membantu dosen-dosen
melakukan riset, perguruan tinggi itu menyediakan dana yang dapat diperoleh setelah
proposal penelitian para dosen dianggap layak oleh lembaga penelitian dan pengembangan
(litbang) perguruan tinggi itu. Para dosen yang merasa mampu juga dapat melakukan
penelitian tanpa harus melalui lembaga litbang.

Ternyata sekalipun universitas internasional menyediakan dana penelitian, lebih banyak


dosen yang melakukan penelitian dengan biaya sendiri.

Untuk mengetahui penyebab kenyataan ini dilakukan penelitian terhadap 50 dosen yang
melakukan penelitian, 14 di antaranya lewat litbang, 16 menggunakan biaya sendiri. Empat
variabel yang dijadikan sebagai variabel independen adalah gaji ( X1 ), sikap terhadap litbang
( X2 ), kemampuan melakukan riset ( X3 ) dan daya tarik topic yang diteliti( X4 ). Sampel
dibagi dua. Sebanyak 30 responden dipakai sebagai sampel analisis. Sisanya, 20 responden
dijadikan sebagai sampel holdout ( data diambil dari Umam, 2018 halaman 11 ). Data yang
digunakan yaitu :

Daya
No. Jalur Gaji Sikap Kemampuan
Tarik
1 1 3.2 5 6 7
2 1 4 6 5 5
3 1 5.2 5 5 5
4 1 4 7 6 5
5 1 2.7 6 6 6
6 1 3.5 5 7 6
7 1 4 6 5 7
8 1 5 6 7 6
9 1 4 5 7 6
10 1 3.1 5 6 5
11 1 3.7 6 7 6
12 1 4.4 6 6 5
13 1 3.6 7 7 7
14 1 4 6 6 7
15 2 5 5 6 4
16 2 5.2 4 5 4
17 2 6 5 4 5
18 2 4 5 5 4
19 2 4.7 5 4 5
20 2 4.8 4 4 4
21 2 6.1 3 3 5
22 2 3 3 4 5
23 2 5 4 5 5
24 2 4 4 4 5
25 2 6 3 4 4
26 2 7 2 4 4
27 2 5.6 5 4 4
28 2 5.2 4 3 4
29 2 3.4 4 5 5
30 2 4.7 5 4 5

PEMBAHASAN :

Software SAS

proc iml;

CREATE Data VAR {Y X1 X2 X3 X4};

INFILE 'DISK.txt';

do DATA;

input Y X1 X2 X3 X4;

Append;

End;

Read all into X;

Close DISK

print X;

run;
 Uji Normalitas

proc univariate data=Data Normal;

var X1 X2 X3 X4;

run;

Output :

Variabel X1

Variabel X2

Variabel X3

Variabel X4
Berdasarkan Hasil uji normalitas di atas, untuk variabel X1 dan X2 diperoleh nilai p-value
dari uji Shapiro-Wilk lebih besar dari nilai 𝑎 5% sehingga dapat disimpulkan bahwa cukup
bukti mengatakan variabel X1 dan X2 berdistribusi normal.

 Uji Homoskedastisitas
Dengan hipotesis sebagai berikut :
H0 : Asumsi Homoskedastisitas terpenuhi
H1 : Asumsi Homoskedastisitas tidak terpenuhi

proc discrim data=Data method=normal pool=test;


class Y;
var X1 X2 X3 X4;
run;

Output :

Berdasarkan output diatas, tampak bahwa p-value ( 0.5712 ) lebih besar dari 𝑎 5%
sehingga dapat dikatakan bahwa asumsi Homoskedastisitas terpenuhi.

 Fungsi Diskriminan Linier

Hasil analisis diskriminan menggunakan program SAS diperoleh fungsi diskriminan


linier :
Y1 = -124.02338 + 11.86084(X1) +7.36581(X2) + 10.7780(X3) + 15.70875(X4)
Y2 = -87.34021 + 11.77381 (X1) + 5.58471(X2) + 8.21428(X3) + 12.98523(X4)

 Peranan Relatif Fungsi Diskriminan Linier


proc candisc data=Data;
class Y;
var X1 X2 X3 X4;
run;
Output :

Terlihat bahwa variabel Y1 memiliki peranan relatif sebesar 46.67% dan variabel Y2
sebesar 53.33% . Artinyam, kemampuan dosen untuk melakukan riset ilmiah minimal
sekali setahun dapat diwakili dua fungsi diskriminan linier yang diperoleh.

 Fungsi Diskriminan Kanonik

Hasil analisis diskriminan menggunakan program SAS diperoleh fungsi diskriminan


sebagai berikut :
Y1 = 0.02647(X1) + 0.62215(X2) + 0.91712(X3) + 0.78408(X4)
 Peranan Relatif Fungsi Diskriminan Kanonik

Terlihat bahwa peranan relatif dari Y1 sebesar 87.04%

Kemudian dari tabel uji Wilks Lambda besar p-value untuk fungsi 1 pada software
terlihat signifikan karena besarnya kurag dari 𝑎 5% . Artinya besarnya kemampuan
dosen untuk melakukan riset ilmiah minimal sekali setahun dapat diwakili oleh fungsi
diskriminan yang diperoleh.
DAFTAR PUSTAKA

Soedibjo, BS. 2008. Analisis Komponen Utama Dalam Kajian Ekologi.Jakarta: Pusat
Penelitian Oseanografi-LIPI

Azizah, Nur. 2017. Tugas Multivariate Studi Kasus Analisis Diskriminan. Universitas
Brawijaya Malang

Umam. 2018. Analisis Diskriminan Matematika. Universitas Syiah Kuala

Anda mungkin juga menyukai