Anda di halaman 1dari 18

ANALISIS MULTIVARIAT

“TUGAS V: ANALISIS DISKRIMINAN (4 SOFTWARE)”

Oleh:
MELDA JULIZA
NIM. 176090 500111 006

PROGRAM STUDI MAGISTER STATISTIKA


PROGRAM PASCASARANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BRAWIJAYA
MALANG
2017
ANALISIS DISKRIMINAN

1. Definisi
Model analisis diskriminan ditandai dengan ciri khusus yaitu data variabel dependen
yang harus berupa data kategori, sedangkan data independen justru berupa data non kategori.
Variabel independen (X1 dan seterusnya) adalah data metrik, yaitu data berskala interval atau
rasio. Variabel dependen (Y1) adalah data kategorikal atau nominal. Jika data kategorikal
tersebut hanya terdiri dari 2 kode saja disebut “Two-Groups Discriminant Analysis”. Namun
apabila lebih dari 2 kategori disebut “Multiple Discriminant Analysis”.

2. Tujuan
Variabel Dependen adalah variabel yang menjadi dasar analisis diskriminan. Adapun
tujuan dari analisis diskriminan antara lain:
a. Mengetahui perbedaan yang jelas antar grup pada variabel dependen.
b. Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan yang
membuat perbedaan tersebut.
c. Membuat fungsi atau model diskriminan (yang mirip dengan persamaan regresi).
d. Melakukan klasifikasi terhadap obyek ke dalam kelompok (grup).

3. Proses
Beberapa langkah yang merupakan proses dasar dalam analisi diskriminan antara lain :
a. Memilah variabel-variabel menjadi variabel terikat dan variabel bebas.
b. Menentukan metode untuk membuat Fungsi Diskriminan, yaitu :
 Simultaneous Estimation; semua variabel dimasukkan secara bersama-sama lalu
dilakukan proses Diskriminan.
 Step-Wise Estimation; variabel dimasukkan satu per satu ke dalam model
Diskriminan.
c. Menguji signifikansi Fungsi Diskriminan yang terbentuk, dengan menggunakan Wilk’s
Lambda, Pilai, F test, dan lainnya.
d. Menguji ketepatan klasifikasi dari fungsi diskriminan (secara individual dengan
Casewise Diagnotics).
e. Melakukan interpretasi Fungsi Diskriminan.
Dengan analisis diskriminan, pada akhirnya akan dibuat sebuah model seperti regresi
yaitu satu variabel terikat (dependent) dan banyak variabel bebas (independent). Prinsip
Diskriminan adalah ingin membuat model yang dapat secara jelas menunjukkan perbedaan
(diskriminasi) antar isi variabel dependen.

4. Contoh Kasus
Indeks Harga Konsumen (IHK) Kota Bengkulu 2016, dengan variabel-variabel antara
lain :
a. IHK Kota Bengkulu (Y), dengan kode :
kode 1 = Januari-Juni
kode 2 = Juli-Desember
b. Bahan makanan (X1)
c. Perumahan (X2)
d. Kesehatan (X3)
e. Transfortasi (X4)

Y X1 X2 X3 X4
1 141,42 120,04 126,81 136,39
1 137,75 120,11 129,57 137,67
1 139,6 119,98 129,57 134,81
1 135,22 120,73 129,62 132,69
1 136,58 120,59 129,74 136,49
1 138,37 120,88 130,24 141,6
2 140,88 120,9 130,23 150,26
2 142,4 121,23 130,41 148,5
2 142,76 121,27 130,62 146,64
2 144,36 121,55 130,84 147,7
2 144,24 122,42 130,6 146,4
2 144,46 122,02 130,86 147,49
5. Output (4 Software)
a) NCSS
b) XLSTAT
Summary statistics:
Obs. with Obs. without Std.
Variable Observations missing data missing data Minimum Maximum Mean deviation
X1 12 0 12 135,220 144,460 140,670 3,163
X2 12 0 12 119,980 122,420 120,977 0,769
X3 12 0 12 126,810 130,860 129,926 1,094
X4 12 0 12 132,690 150,260 142,220 6,271

Correlation matrix:
Variables X1 X2 X3 X4
X1 1,000 0,684 0,327 0,782
X2 0,684 1,000 0,700 0,724
X3 0,327 0,700 1,000 0,630
X4 0,782 0,724 0,630 1,000

Discriminant Analysis:
Means by class:
Class \ Variable X1 X2 X3 X4
1 138,157 120,388 129,258 136,608
2 143,183 121,565 130,593 147,832

Sum of weights, prior probabilities and logarithms of determinants for each class:
Class Sum of weights Prior probabilities Log(Determinant)
1 6,000 0,500 2,190
2 6,000 0,500 0,688

Multicolinearity statistics:
Statistic X1 X2 X3 X4
Tolerance 0,253 0,278 0,336 0,232
VIF 3,953 3,603 2,972 4,307

Between-classes covariance matrix:


X1 X2 X3 X4
X1 12,634 2,957 3,355 28,208
X2 2,957 0,692 0,785 6,603
X3 3,355 0,785 0,891 7,492
X4 28,208 6,603 7,492 62,982
Within-class covariance matrix for class 1:
X1 X2 X3 X4
X1 4,811 -0,566 -1,856 1,804
X2 -0,566 0,153 0,268 0,321
X3 -1,856 0,268 1,503 0,746
X4 1,804 0,321 0,746 8,939

Within-class covariance matrix for class 2:


X1 X2 X3 X4
X1 2,046 0,677 0,321 -1,543
X2 0,677 0,316 0,084 -0,573
X3 0,321 0,084 0,060 -0,234
X4 -1,543 -0,573 -0,234 1,989

Pooled within-class covariance matrix:


X1 X2 X3 X4
X1 3,428 0,056 -0,767 0,130
X2 0,056 0,234 0,176 -0,126
X3 -0,767 0,176 0,781 0,256
X4 0,130 -0,126 0,256 5,464

Total covariance matrix:


X1 X2 X3 X4
X1 10,008 1,664 1,133 15,505
X2 1,664 0,591 0,588 3,487
X3 1,133 0,588 1,196 4,319
X4 15,505 3,487 4,319 39,321

Summary of the variables selection:


Nbr. of Variable Partial Wilks' Pr <
variables Variables IN/OUT Status R² F Pr > F Lambda Lambda
1 X4 X4 IN 0,874 69,160 < 0,0001 0,126 < 0,0001

Box test (Fisher's F asymptotic approximation):


-2Log(M) 2,591
F (Observed value) 2,332
F (Critical value) 3,873
DF1 1
DF2 300
p-value 0,128
Alpha 0,05
Kullback's test:
K (Observed value) 1,295
K (Critical value) 3,841
DF 1
p-value 0,255
alpha 0,05

Wilks' Lambda test (Rao's approximation):


Lambda 0,126
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05

Unidimensional test of equality of the means of the classes:


Variable Lambda F DF1 DF2 p-value
X1 1 10
X2 1 10
X3 1 10
X4 0,126 69,160 1 10 < 0,0001

Pillai's trace:
Trace 0,874
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05

Hotelling-Lawley trace:
Trace 6,916
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05
Roy's greatest root:
Root 6,916
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05

Eigenvalues:
F1
Eigenvalue 6,916
Discrimination (%) 100,000
Cumulative % 100,000

Bartlett's test for eigenvalue significancy:


F1
Eigenvalue 6,916
Bartlett's statistic 19,654
p-value 0,000

Variables/Factors correlations:
F1
X1 0,782
X2 0,724
X3 0,630
X4 1,000

Centroids
F1
1 -2,401
2 2,401
c) STATA
Analisis diskriminan group means Analisis diskriminan group summariez

Tabel estat grsummarize di atas menerangkan bahwa kasus yang dianalisis ada 12
pengamatan. 6 pengamatan grup 1 dan 6 pengamatan grup 2. Pada variabel X4 nilai rata-rata
X4 pada kelompok 2 : 147.83, sedangkan kelompok 1: 136.61. Artinya rata-rata X4 terhadap
Keputusan pada grup pertama (2) lebih tinggi dibandingkan dengan kelompok kedua (1).

Uji pengaruh simultan Analisis diskriminan

Tabel estat anova di atas adalah hasil analisis untuk menguji kesamaan rata-rata variabel.
Uji ini menggunakan Uji F dan nilai signifikansi 5%. Jika angka p_value mendekati angka 0
maka cenderung ada perbedaan dalam kelompok. Semua variabel di atas nilai sig < 0.05,
maka keempat variabel memberikan perbedaan pada pengambilan keputusan (Y).

Uji multikolinieritas analisis diskriminan


Tabel diatas adalah tabel analisis Inter Correlations Variabel Independen. Lihat nilai
korelasi, apabila ada korelasi antar variabel independen dengan nilai > 0.5 maka dicurigai ada
gejala multikolinearitas. Tabel di atas tidak terdapat korelasi > 0.5, maka tidak ada
multikolinearitas.

Interpretasi analisis diskriminan

Tabel estat canontest di atas menunjukkan nilai likelihood ratio dan uji F. Signifikansi
ditunjukkan p_value < 0.05, Angka signifikansi sebesar 0,0006 dengan nilai F=20.4. Karena
nilai signifikansi 0,0006 (< 0,05) maka variabel masing-masing kelompok mempunyai
perbedaan yang signifikan. Sehingga dapat dikatakan semua variabel independen secara
simultan mempengaruhi nilai variabel dependen (Y).
Nilai canonical correlation digunakan untuk mengukur derajat hubungan antara hasil
diskriminan atau besarnya variabilitas yang mampu diterangkan oleh variabel independen
terhadap variabel dependen. Dari tabel di atas, diperoleh nilai canonical correlation sebesar
0.9597 bila di kuadratkan maka (0.9597 x 0.9597) = 0.92, artinya 92% varians dari variabel
independen (kelompok) dapat dijelaskan dari model diskriminan yang terbentuk. Nilai
korelasi kanonikal menunjukan hubungan antara nilai diskriminan dengan kelompok. Nilai
sebesar 0,9597 berarti hubungannya sangat tinggi karena mendekati angka 1.

Struktur kanonik
Tabel estat structure menunjukan urutan karakteristik yang paling membedakan
keputusan (Y). Urutan ditentukan dengan nilai mutlak yang paling besar. Variabel X4 adalah
yang paling membedakan, kemudian jumlah X2, X3 dan selanjutnya X1. Tabel di atas
menunjukan adanya korelasi antara variabel-variabel bebas dengan fungsi diskriminan yang
terbentuk. Variabel X4 mempunyai korelasi yang paling tinggi dengan nilai korelasi sebesar
0.77.

Persamaan diskriminan
Analisis koefisien Fungsi diskriminan

Tabel Canonical Discriminat Function Coefficients diatas menunjukkan fungsi


diskriminan dengan persamaan sebagai berikut : Z score = -206.28 + 0.273X1 + 0.708X2 +
0.275X3 + 0.326X4.

Berdasarkan angka tabel di atas, terdapat dua kelompok yang berbeda yaitu kelompok
dengan keputusan 1 dengan centroid (rata-rata kelompok) negatif dan kelompok yang
keputusan 2 dengan centroid (rata-rata kelompok) positif.
Class Function

kelompok 1, persamaannya :
Nilai = -39225.39+ 58.73 (X1) + 425.94 (X2) + 117.97 (X3) + 27.88 (X4)
kelompok 1, persamaannya :
Nilai = -40511.63 + 60.43 (X1) + 430.35 (X2) + 119.69 (X3) + 29.92 (X4)

Analisis multivariat

Tabel di atas menunjukkan nilai uji F pada analisis multivariat dengan menggunakan metode
Wilk’s Lambda, Pillai’s Trace, Lawley-Hotelling trace dan Roy’s largest root. Terlihat bahwa
nilai p_value < 0,05 maka pada derajat kepercayaan 95%, variabel independen secara
simultan mempunyai pengaruh yang bermakna terhadap variabel dependen.

Dari ketiga output diatas, bahwa hasil output dari ketiga software XLSTAT, NCSS dan
STATA memiliki nilai output program yang hampir sama.
d) STATISTICA
summary
Discriminant Function Analysis Summary (Sheet1 in IHK AD STATISTICA)
No. of vars in model: 4; Grouping: Y (2 grps)
Wilks' Lambda: ,07896 approx. F (4,7)=20,412 p< ,0006
Wilks' Partial F-remove p-value Toler. 1-Toler.
N=12 Lambda Lambda (1,7) (R-Sqr.)
X1 0,094046 0,839644 1,336864 0,285520 0,682100 0,317900
X2 0,085550 0,923020 0,583803 0,469792 0,710082 0,289919
X3 0,081405 0,970021 0,216334 0,655970 0,549658 0,450342
X4 0,156736 0,503807 6,894214 0,034126 0,925874 0,074126

Analisis kanonik
Chi-Square Tests with Successive Roots Removed (Sheet1 in IHK AD STATISTICA)
Roots Eigen- Canonicl Wilks' Chi-Sqr. df p-value
Removed value R Lambda
0 11,66387 0,959706 0,078965 20,31002 4 0,000434

Koefisien untuk variabel kanonik


Factor Structure Matrix (Sheet1 in IHK AD STATISTICA)
Correlations Variables - Canonical Roots
(Pooled-within-groups correlations)
Variable Root 1
X1 -0,435395
X2 -0,389739
X3 -0,242214
X4 -0,770026

Rata-rata variabel kanonik


Means of Canonical Variables (Sheet1 in IHK AD STATISTICA)
Group Root 1
G_1:1 3,11767
G_2:2 -3,11767

Raw Coefficients (Sheet1 in IHK AD STATISTICA)


for Canonical Variables
Variable Root 1
X1 -0,2729
X2 -0,7086
X3 -0,2753
X4 -0,3263
Constant 206,2817
Eigenval 11,6639
Cum.Prop 1,0000
Standardized Coefficients (Sheet1 in IHK AD STATISTICA)
for Canonical Variables
Variable Root 1
X1 -0,50522
X2 -0,34308
X3 -0,24334
X4 -0,76280
Eigenval 11,66387
Cum.Prop 1,00000

Squared Mahalanobis Distances (Sheet1 in IHK AD STATISTICA)


Y G_1:1 G_2:2
G_1:1 0,00000 38,87957
G_2:2 38,87957 0,00000

F-values; df = 4,7 (Sheet1 in IHK AD STATISTICA)


Y G_1:1 G_2:2
G_1:1 20,41177
G_2:2 20,41177

p-values (Sheet1 in IHK AD STATISTICA)


Y G_1:1 G_2:2
G_1:1 0,000584
G_2:2 0,000584
e) SAS

The DISCRIM Procedure


Pairwise Generalized Squared Distances Between Groups
Generalized Squared Distance to y
From y 1 2
1 1.38629 40.26586
2 40.26586 1.38629

Linear Discriminant Function


Linear Discriminant Function for y
Variable 1 2
Constant -39225 -40512
x1 58.72919 60.43058
x2 425.93189 430.35003
x3 117.97693 119.69349
x4 27.88007 29.91484

The MEANS Procedure


Variable N Mean Std Dev Minimum Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
x1 12 140.6700000 3.1634935 135.2200000 144.4600000
x2 12 120.9766667 0.7685918 119.9800000 122.4200000
x3 12 129.9258333 1.0937879 126.8100000 130.8600000
x4 12 142.2200000 6.2706372 132.6900000 150.2600000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The MEANS Procedure


y Obs Variable N Mean Std Dev
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 6 x1 6 138.1566667 2.1933232
x2 6 120.3883333 0.3910712
x3 6 129.2583333 1.2259758
x4 6 136.6083333 2.9897453

2 6 x1 6 143.1833333 1.4303240
x2 6 121.5650000 0.5620943
x3 6 130.5933333 0.2442676
x4 6 147.8316667 1.4104810
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

The CORR Procedure


4 Variables: x1 x2 x3 x4
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
x1 12 140.67000 3.16349 1688 135.22000 144.46000
x2 12 120.97667 0.76859 1452 119.98000 122.42000
x3 12 129.92583 1.09379 1559 126.81000 130.86000
x4 12 142.22000 6.27064 1707 132.69000 150.26000
Multivariate Statistics and Exact F Statistics
S=1 M=1 N=2.5
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.07896480 20.41 4 7 0.0006
Pillai's Trace 0.92103520 20.41 4 7 0.0006
Hotelling-Lawley Trace 11.66387055 20.41 4 7 0.0006
Roy's Greatest Root 11.66387055 20.41 4 7 0.0006

The CANDISC Procedure


Adjusted Approximate Squared
Canonical Canonical Standard Canonical
Correlation Correlation Error Correlation
1 0.959706 0.951930 0.023809 0.921035

Likelihood Approximate
Eigenvalue Diff Proportion Cumulative Ratio F Value NumDF DenDF Pr>F
1 11.6639 1.0000 1.0000 0.07896480 20.41 4 7 0.0006

NOTE: The F statistic is exact.

Total Canonical Structure


Variable Can1
x1 0.864648
x2 0.833075
x3 0.664162
x4 0.973949

Pooled Within Canonical Structure


Variable Can1
x1 0.435395
x2 0.389739
x3 0.242214
x4 0.770026

Total-Sample Standardized Canonical Coefficients


Variable Can1
x1 0.863199153
x2 0.544595584
x3 0.301115434
x4 2.046289215

Pooled Within-Class Standardized Canonical Coefficients


Variable Can1
x1 0.5052194889
x2 0.3430815161
x3 0.2433438607
x4 0.7628011663

Raw Canonical Coefficients


Variable Can1
x1 0.2728626320
x2 0.7085628471
x3 0.2752960002
x4 0.3263287525
Class Means on Canonical Variables
y Can1
1 -3.117674153
2 3.117674153

Class Level Information


Variable Prior
y Name Frequency Weight Proportion Probability
1 _1 6 6.0000 0.500000 0.500000
2 _2 6 6.0000 0.500000 0.500000

Linear Discriminant Function for y


Variable 1 2
Constant -39225 -40511
x1 58.72919 60.43058
x2 425.93189 430.35003
x3 117.97693 119.69349
x4 27.88007 29.91484

6. Analisis
a) Uji kesamaan rata-rata grup
Uji ini menggunakan dua cara yaitu dengan wilks’ lamda dan nilai signifikan pada uji F.
Nilai wilks’ lamda mendekati 0 menunjukkan semakin signifikan dan apabila nilai wilks’
lamda mendekati 1 berarti tidak signifikan. Berikut ini hasil uji kesamaan rata-rata
kelompok.

Hipotesis:
H0 : tidak ada perbedaan antar grup
H1 : ada perbedaan antar grup
𝛼 = 5%
Lambda 0,126
F (Observed value) 69,160
F (Critical value) 4,965
DF1 1
DF2 10
p-value < 0,0001
alpha 0,05

Berdasarkan nilai signifikansi pada tabel diatas, terlihat bahwa nilai p_value 0.0001 yang
kurang dari alpha. Sehingga H0 ditolak, artinya bahwa ada perbedaan antar grup.
b) Uji kesamaan matriks kovarian antar grup
Hipotesis:
H0 : grup kovarian matriks adalah relatif sama
H1 : grup kovarian matriks adalah berbeda secara nyata
Statistik uji menggunakan Box’s M
-2Log(M) 2,591
F (Observed value) 2,332
F (Critical value) 3,873
DF1 1
DF2 300
p-value 0,128
Alpha 0,05

Nilai p_palue pada hasil Box’s M adalah sebesar 0.128 yang lebih besar dari alpha,
sehingga H0 diterima. Hal ini menunjukkan bahwa kovarians pada kedua grup adalah
sama, sehingga memenuhi asumsi kovarians dalam analisis diskriminan.
c) Uji ketepatan model diskriminan
Uji ketepatan diukur menggunakan eigenvalues dan wilks’lamda

Fungsi Eigenvalue Lambda Discrimination (%) Cumulative % Canonical R sign


1 6,916 0,126 100,000 100,000 0,9597 0.000

Nilai wilks’lamda 0.126 dengan nilai signifikannya 0,000 yang berarti terdapat
perbedaan yang signifikan pada variabel dependen kelompok 1 dan kelompok 2 pada model
diskriminan. Terlihat bahwa nilai eigen 6.916, nilai eigen semakin besar mengindikasikan
semakin besar pula variansi dari variabel dependen yang dapat dijelaskan oleh fungsi
diskriminan. Canonical correlation menunjukkan keeratan hubungan antara discriminant
score dengan grup. Nilai conanical correlation sebesar 0.96 bila dikuadratkan menjadi 0.92
yang berarti terdapat 92% variasi IHK antar kurun waktu Januari-Juni dengan Juli-Desember
yang dapat dapat dijelaskan oleh variabel diskriminannya.
F1
1 -2,401
2 2,401
Karena ada dua tipe keputusan, maka disebut Two-Group Discriminant, dimana grup yang
satu mempunyai Centroid (Group Means) negatif, dan grup yang satu mempunyai Centroid
(Group Means) positif.

Anda mungkin juga menyukai