Anda di halaman 1dari 16

ANALISIS DISKRIMINAN

(Discriminant Analysis)

1. PENDAHULUAN
Masalah pengelompokkan (klasifikasi) terjadi pada semua aktivitas
manusia. Begitu luasnya beberapa keputusan atau peramalan dibuat atas
dasar informasi yang tersedia, dan suatu prosedur pengelompokkan yang
didasarkan beberapa metoda formal untuk pertimbangan situasi baru.
Apabila ada kasus baru yang berhubungan dengan prosedur
pengelompokkan, maka kasus baru tersebut didefinisikan pada kelompok
mana atas dasar peubah yang diamati. Metode atau prosedur untuk
pengelompokkan suatu data dikelompokkan dengan benar pada
kelompoknya antara lain: pattern recognition, cluster analysis, discrimination, or
supervised learning. (Michie D. et. al., 1994)
Dalam pemodelan statistik terdapat dua hal untuk permasalahan
klasifikasi, yaitu statistik tradisional dan modern. Pertama, statistik
tradisional dikembangkan oleh Fisher di tahun 1936 dikenal dengan
diskriminan linier Fisher. Kedua, statistik modern, yang memanfaatkan
fleksibilitas model, menduga suatu distribusi di dalam masing-masing kelas
yang pada akhirnya menyediakan suatu aturan pengelompokkan. (Dillon,
1978, Sharma S., 1996)
Klasifikasi mempunyai dua arti yang berbeda. Jika diberikan satu set
pengamatan dengan tujuan menetapkan keberadaan kelas atau kelompok
dalam data tanpa diketahui pengelompokkan dengan jelas, maka prosedur
klasifikasi yang digunakan dikenal dengan Unsupervised Learning (Clustering).
Sebaliknya jika untuk menetapkan aturan dengan mana kita dapat

Discriminat Analysis 1
menggolongkan pengamatan baru ke dalam kelas yang ada dikenal dengan
Supervised Learning. Supervised Learning dalam literatur statistik pada
umumnya dikenal sebagai analisis diskriminan, tetapi tidak selalu untuk
masalah diluar klasifikasi. Pada prinsipnya pengelompokkan dari
sekumpulan data digolongkan dengan tepat pada kelompoknya. Keberadaan
data dengan tepat digolongkan mensyaratkan menggolongkan tanpa
kesalahan, sehingga timbul pertanyaan yang secara alami: apakah hal ini
diperlukan untuk menggantikan prosedur pengklasifikasian yang
pengelompokkan sudah diketahui ?

2. ANALISIS DISKRIMINAN
Analisis diskriminan adalah salah satu metode analisis multivariat yang

bertujuan untuk memisahkan beberapa kelompok data yang sudah

terkelompokkan dengan cara membentuk fungsi diskriminan. Untuk

melakukan analisa diskriminan ada asumsi dasar yang mendasari

perhitungan analisa tersebut yaitu: data kasus harus berasal dari dua atau

lebih golongan kelompok, karena analisis diskriminan dipakai untuk

interpretasi seberapa jauh kelompok yang dibedakan tersebut memang

berbeda dan supaya data tersebut dapat dipergunakan untuk

mengklasifikasikan variabel yang akan dibedakan secara matematis, maka

karakteristik yang akan dipakai sebagai pembeda jenis datanya mempunyai

skala pengukuran minimal interval. Secara teoritis tidak ada batas jumlah

discriminating variabel sepanjang jumlah total kasus melebihi jumlah

variabel. (William, 1991).

Discriminat Analysis 2
Masalah yang ditelusuri dalam analisis diskriminan adalah mencari cara

terbaik untuk menyatakan perbedaan antar kelompok tersebut (diskriminasi)

dan untuk mengalokasikan suatu obyek (baru) ke dalam salah satu kelompok

tersebut (klasifikasi). Dan untuk mengatasi dua masalah tersebut dalam

analisis diskriminan terdapat suatu fungsi diskriminan yang merupakan

fungsi atau kombinasi linier variabel-variabel asal yang akan menghasilkan

cara terbaik dalam pemisahan kelompok-kelompok tersebut. Fungsi ini akan

memberikan nilai-nilai sedekat mungkin dalam kelompok dan sejauh

mungkin antar kelompok. Cara terbaik yang digunakan dalam masalah

klasifikasi merupakan cara yang mempunyai peluang terkecil kesalahan

klasifikasi atau tingkat kesalahan pengalokasian obyek dari kelompok-

kelompok tersebut.

Dalam analisis diskriminan diasumsikan bahwa setiap populasi yang

terbentuk dicirikan oleh sebaran peluang bersama dari p variabel acak yang

digunakan dalam pengukuran misal ij (i = 1,2,3,…,k) adalah populasi yang

terbentuk X’=(X1,X2,…,Xp) adalah vektor variabel acak yang diukur, fi(x)

adalah sebaran peluang variabel X untuk populasi. Vektor X didefinisikan

sebagai suatu ruang sampel misalnya R1,R2,…,Rk maka akan dipersoalkan

untuk menentukan batas ruang sampel tersebut sehingga suatu obyek

pengamatan Xo berasal dari Ri berarti obyek tersebut akan dimasukkan pada

populasi i

Discriminat Analysis 3
Apabila :

Pi = peluang suatu obyek terpilih dalam i

Pi|j = peluang bersyarat obyek ditempatkan di i, jika anggota obyek

tersebut anggota j

Pij = peluang bersama suatu obyek dari j ditempatkan di i

Dalam ruang sampel R1,R2,…,Rk seluruh kesalahan pengelompokkan

(misclasification) yang terjadi adalah penjumlahan dari Pij pada i = 1,2,...,k,

i j sehingga peluang bahwa suatu obyek yang berasal dari j dan salah satu

kelompok adalah

k k
E j = Pij = Pj Pij = Pj (1 − Pij ) untuk setiap i j , i = 1, 2, ….., k
i=1 i=1

Bila fj(x) adalah sebaran peluang variabel X untuk populasi j dan

peluang bahwa suatu obyek terlanjur dimasukkan ke dalam ruang sampel Ri

adalah daerah di bawah Ri pada

Pi. j = f j (x)dx
R
i

K
E j = Pj f j (x)dx = Pj 1 − f j (x)dx
i=1,i j Ri Ri

Peluang kesalahan pengelompokan pada k populasi (E) adalah

penjumlahan dari E j , sehingga dapat diperoleh :

K K K
E = E j = Pj 1 − f j (x)dx dimana Pj = 1
j=1 j=1 Ri j=1

K
E=1− Pj f j (x)dx
j =1 Ri

Discriminat Analysis 4
Permasalahan pengelompokan adalah memilih R1,R2,…,Rk sehingga

dapat diminimumkan kesalahan E. Hal ini berarti pula memaksimumkan

peluang untuk alokasi yang benar adalah

K
1−E= Pj f j (x)dx
j =1 Ri

jika K=2 maka menjadi

1 − E = P1 f1 (x) dx + P2 f 2 (x) dx
R R
1 2

dimana : P1 + P2 = 1

R1 dan R2 adalah ruang sampel dari X

R2 = R1* (komplemen dari RI)

Jika P1, P2, f1(x) dan f2(x) diketahui, maka R1 dapat ditentukan

sedemikian hingga :

P1 f1 (x) dx + (1− P2) f 2 (x) dx maksimum


R1 R2

Sehingga R1dan R2 dapat diturunkan menjadi :

f (x) P f (x) P
R 1 2
1 = X| 1
dan R2 =X| 2

P P
f 2 (x) 2 f1 (x) 1

Fungsi inilah yang disebut fungsi diskriminan untuk kasus f1(x) dan

f2(x) normal variabel ganda dengan rata-rata 1 dan 2 diketahui dan matrik

kovarian 1 dan 2 diketahui, maka :

Discriminat Analysis 5
− 1 −1
R1= X|XT 2 (X −2 2)−X
T
1 (X −2 1) C

− 1 −1
R2 = X|XT 2 (X −2 2)−X
T
1 (X −2 1) C

T −1 T −1 P| |1/ 2
C= 1 1 1 − 2 2 ( X − 2 1 ) + 2 ln
2 1
P| |1/ 2
1 2

Fungsi diskriminannya adalah :

D = XT −21(X −2 2)− XT 1−1(X −2 1)

Untuk kasus 1= 2, f1(x) dan f2(x) berbeda hanya pada 1 dan 2

maka
−1
R1 = x | xT ( 1− 2) C

−1
R2 = x | xT ( 1− 2) C

dimana :

P (2T −12-1T −1 1)
C = ln 2
-
P1 2

Fungsi diskriminannya adalah :

D =XT -1( 1− 2)

Dalam bentuk matematis fungsi dapat ditulis :

Di = x1 X1 + x2 X2 + ...... + ip Xp

di mana :

Discriminat Analysis 6
Di = nilai diskriminan ke-i, i = 1,2,…, k-1

k = jumlah kelompok

Nilai dugaan dari 1 , 2, ..., r yaitu b1, b2, …,bp adalah

B = S-1d

di mana :

b’ = (b1, b2, b3,…,bp)

S-1 = matrik kebalikan (inves) dari kovarian gabungan (Spooled)

d = vektor perbedaan rata-rata dari kelompok yang di bandingkan.

Berdasarkan dari hasil pembentukan fungsi diskriminan, maka dapat

digunakan untuk mengelompokkan objek baru ke dalam kelompok tertentu.

Jika 1 dan 2 adalah nilai diskriminan untuk rata-rata kelompok ke-1 dan ke-

2 maka nilai diskriminan batas untuk dua kelompok tersebut adalah ( 1 + 2 )/

2 dan jika 1 2 maka :

Obyek baru akan masuk ke kelompok ke 1 jika D 1


2 (L1 + L2 )

Obyek baru akan masuk ke kelompok ke 2 jika D 1


2 (L1 + L2 )

Untuk perubah yang distandarkan, fungsi diskriminan dapat

diturunkan sebagai berikut :

Yi = di1X1 + di2X2 + …+ dipXp

Discriminat Analysis 7
dimana :

Yi = nilai diskriminan ke-i

di = koefisien pembobot fungsi diskriminan ke-i

X = variabel yang terstandarisasi dari p variabel pembeda

Untuk mendapatkan vektor di, dapat diperoleh dari persamaan ( −1 −


)=0 dan ( −1 − )d = 0 dengan syarat d’ S gab d=1

di mana :

= matrik jumlah kuadrat dalam kelompok

= matrik jumlah kuadrat antar kelompok

= akar karakteristik yang memenuhi persamaan diatas

Sgab = matrik kovarian sampel gabungan

Analisis ini berusaha mengeluarkan variabel yang kurang berguna

dalam pembentukan fungsi diskriminan sebelum dilakukan analisis

selanjutnya. Kriteria seleksi variabel yang akan masuk dalam fungsi

diskriminan dalam memilih variabel pembeda yang paling berarti yaitu

mempunyai nilai F besar atau nilai Wilk’s Lambda yang terkecil. Selanjutnya

variabel pembeda kedua dipilih yang paling berarti berikutnya, dimana

variabel tersebut mampu untuk meningkatkan kriteria pembedaan setelah

dikombinasikan dengan variabel terpilih pertama. Demikian seterusnya,

sampai tidak ada lagi variabel yang mampu untuk meningkatkan perbedaan

setelah dikombinasikan dengan variabel terpilih sebelumnya atau pada setiap

Discriminat Analysis 8
langkah, variabel terpilih dapat dikeluarkan dari analisis, jika
ternyata

dengan masuknya variabel tersebut justru melemahkan daya pembedaan

setelah dikombinasikan dengan variabel sebelumnya.

Contoh:
Misalkan ada dua kelompok, dimana kelompok I terdiri dari 30 Manager
Kontruksi Kecil dan kelompok II terdiri dari 22 Manager Kontruksi Besar.
Diketahui:
X1 = Komitmen Organisasi, dan X2 = Kinerja Manager

X
= −0,0065 X
= −0,2483 S−1 = 131,158 −90,423
1 2 gab

−0,0390 −0,0262 −90,423 108,147


Pertanyaan:
o Tentukan fungsi diskriminan linear Fisher
T
o Alokasikan X0 = −0,210 −0,044

Jawab:
o Fungsi diskriminan linear Fisher
y = eT X = X1 − X 2 T Sgab−1 X

−0,0065 −0,2483 T 131,158 −90,423 X



= 1
X
−0,0390 −0,0262 −90,423 108,147 2

−0,0128 131,158
= 0,2418 −90,423 X1
−90,423 108,147 X2
= 32,871X1 − 23,245X2
o Alokasikan XT = −0,210 −0,044
0

y
1
= X
1
= 32,871 −23,245 −0,0065 = 0,693
−0,0390
y2 = X2 = 32,871 −23,245 −0,2483 = −7,553
0,0262
ˆ 1 1

m = 2 ( y1 + y2 ) = 2 (0,693 −7,553) = −3,43


Pandang Aturan Klasifikasi
T
➢ −1 ˆ
Alokasi X0 ke 1 bila: y
0
= X
1 −X2 S
gab
X
0 m
T
➢ −1 ˆ
Alokasi X0 ke 2 bila: y 0 = X1 −X2 Sgab X0 <m
T
X = 0,210 −0,044
o Alokasikan 0
o Alokasikan X T0= −0,210 0,044
o Alokasikan X T= 0,210 0,044
0

Discriminat Analysis 9
Y = 0,2418
0
−0,065 131,158 −90,423 −0,210
−90,423 108,147 0,044
= 32,871(−0,210) − 23,245(−0,044) = −5,88

• Jadi: y 0 = −5,88 −3,43 Sehingga X0 dialokasikan ke 2

Alokasi X0 bila c (1| 2) = c(2 | 1)


1
w = X1 − X 2 T Sgab−1 X 0 − 2 X1 − X 2 T Sgab−1 X 1 + X2

= T X 0 − mˆ
= −6,62 − (−4,61)
= −2,01

p 0,25
w = −2,01 ln 2
= ln = −1,1→ X0 masuk Grup 2
p1 0,75

Soal:
8 2 4 5 2 6 5 4 7 5
X1 = dan X2 =
7 9
4 7 8 7 7 8 9 8
Pertanyaan:
o Tentukan fungsi diskriminan linear Fisher
o Alokasikan XT = 2 7
0
o Alokasikan X T = 5 9
0

DAFTAR PUSTAKA
Aitchison, J. and Aitken, C.G.G., 1976, Multivariate Binary Discriminantion by the Kernel Method,
Biometrics, Vol 63, 413-420.
Banks, D., Olszewski, R.T. and Maxion R.A 1999. Comparing Methods for Multivariate Nonparametric
Regression. School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, 15213.
Breiman, L., Friedman, J., Olshen, R.A. and Stone, C. 1984. Classification and Regression Tress,
Wadsworth, Belmont, CA.
Caccuolus, T. 1973, Discriminant Analysis and Applications, Academic Press, New York.
Chatfield, C., and Collins, A.J., 1980, Introduction to Multivariate Analysis, Chapman and Hall, New
York.
Dillon, W.R. 1978, On the Performance of Some Multinomial Classification Rules, Journal of American
Statistical Association, 73, pp.305-313
Dillon, W.R. and M. Goldstein, 1978, Multivariate Analysis Methods and Application, John Wiley & Sons,
New York.
Dudoit, S., Fridlyand, J. and Speed, T.P. 2002. Comparison of Discriminantion Methods for the
Classifications of Tumors Using Gene Expression Data. Journal of the American Statistical
Association, 97(457): 77 – 87.

Discriminat Analysis 10
Habbema, J.D.F, 1976, Multivariate Discriminantion Method for Top Quark Analysis, Techonometrics,
39, 91-99.
Hair, J. F. JR., Anderson, R.E., Tatham, R.L. and Black, W.C. 1998. Multivariate Data Analysis, Fifth
Edition, Prentice-Hall, International, Inc.
Holmstrom, L. and Sain, S.R. 1997. Multivariate Discriminant Methods for Top Quark Analysis,
Technometrics, 39, 1, 91-99.
Huberty, C.J. 1994. Applied Discriminant Analysis. A Wiley-Interscience Publication. John Wiley & Sons,
Inc.
Johnson RA and Wichern DW. 1992. Applied Multivariate Statistical Analysis, Prentice Hall, Englewood
Chiffs, New Jersey.
Manly, B.F.J. 1986. Multivariate Statistical Methods. A Primer Chapman & Hall. London.
Michie, D., Spiegelhalter, D.J. and Taylor C.C. 1994. Machine Learning, Neural and Statistical
Classification.
Portier, K.M, 2001, Multivariate Statistical Methods, STA4702/5701.
Sharma, S. 1996 . Applied Multivariate Techniques, John Wiley & Sons, Inc.

Discriminat Analysis 11
Studi Kasus Kinerja Perbankan

Tests of Equality of Group Means

W ilks'
Lambda F df1 df2 Sig.
x1 .775 31.275 1 108 .000
x2 .838 20.824 1 108 .000
x3 .997 .340 1 108 .561
x4 .960 4.452 1 108 .037
x5 .849 19.189 1 108 .000
x6 .997 .283 1 108 .596
x7 .835 21.275 1 108 .000
x8 .990 1.124 1 108 .291
x9 .885 13.983 1 108 .000
x10 .914 10.112 1 108 .002
x11 .953 5.300 1 108 .023
x12 .990 1.087 1 108 .299
x13 .984 1.742 1 108 .190
x14 .994 .658 1 108 .419
x15 .932 7.907 1 108 .006
x16 .932 7.903 1 108 .006
x17 .964 4.036 1 108 .047
x18 .947 5.991 1 108 .016
x19 .918 9.647 1 108 .002
x20 .998 .183 1 108 .670
x21 .919 9.467 1 108 .003
x22 .991 .949 1 108 .332

Box's Test of Equality of Covariance Matrices

Log Determinants

Log
kategori Rank Determinant
1 3 -9.834
2 3 -9.130
Pooled within-groups 3 -9.398
The ranks and natural logarithms of determinants
printed are those of the group covariance matrices.

Discriminat Analysis 12
Test Results
Box's M 12.644
F Approx. 2.043
df1 6
df2 77303.544
Sig. .056
Tests null hypothesis of equal population covariance matrices.

Stepwise Statistics
a, b,c,d
Variables Entered/Removed
Wilks' Lambda
Exact F
Step Entered Statistic df1 df2 df3 Statistic df1 df2 Sig.
1 x1 .775 1 1 108.000 31.275 1 108.000 .000
2 x9 .709 2 1 108.000 21.925 2 107.000 .000
3 x21 .681 3 1 108.000 16.536 3 106.000 .000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 44.
b. Minimum partial F to enter is 3.84.
c. Maximum partial F to remove is 2.71.
d. F level, tolerance, or VIN insufficient for further computation.

Variables in the Analysis

Wilks'
Step Tolerance F to Remove Lambda
1 x1 1.000 31.275
2 x1 .999 26.558 .885
x9 .999 9.975 .775
3 x1 .999 24.263 .837
x9 .985 7.726 .731
x21 .985 4.374 .709

Wilks' Lambda

Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 .775 1 1 108 31.275 1 108.000 .000
2 2 .709 2 1 108 21.925 2 107.000 .000
3 3 .681 3 1 108 16.536 3 106.000 .000

Discriminat Analysis 13
Summary of Canonical Discriminant Functions
Eigenvalues

Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
a
1 .468 100.0 100.0 .565
a. First 1 canonical discriminant functions were used in
the analysis.

Wilks' Lambda

Wilks'
Test of Function(s) Lambda Chi-square df Sig.
1 .681 40.885 3 .000

Standardized Canonical Discriminant Function Coefficients

Func tion
1
x1 .765
x9 .465
x21 -.355

Canonical Discriminant Function Coefficients

Func tion
1
x1 1.911
x9 3.542
x21 -2.034
(Constant) -.451
Unstandardized coefficients

Discriminat Analysis 14
Structure Matrix

Func tion
1
x1 .787
x9 .526
a
x5 .515
a
x10 -.476
x21 -.433
x7a .401
a
x4 .396
x2 a .394
a
x15 .345
x19 a -.279
a
x18 .208
a
x16 .199
a
x17 .196
a
x12 -.193
a
x22 -.149
x13a -.148
a
x20 .106
x6a .078
x11a .078
a
x3 -.036
a
x14 .020
a
x8 .007
Pooled within-groups correlations between discriminating variables
and standardized canonical discriminant functions Variables
ordered by absolute size of correlation within function.
a. This variable not used in the analysis.

Functions at Group Centroids

Func tion
kategori 1
1 .619
2 -.743
Unstandardized canonical discriminant
functions evaluated at group means

Discriminat Analysis 15
Classification Statistics

Classification Processing Summary

Processed 110
Excluded Missing or out-of-range
0
group codes
At least one missing
0
discriminating variable
Used in Output 110

Prior Probabilities for Groups

Cases Used in Analysis


kategori Prior Unweighted Weighted
1 .500 60 60.000
2 .500 50 50.000
Total 1.000 110 110.000

Classification Function Coefficients

kategori
1 2
x1 2.483 -.118
x9 9.890 5.068
x21 5.226 7.995
(Constant) -2.311 -1.781
Fisher's linear discriminant functions

b, c
Classification Results
Predicted Group
Membership
kategori 1 2 Total
Original Count 1 47 13 60
2 5 45 50
% 1 78.3 21.7 100.0
2 10.0 90.0 100.0
Cross-validated a Count 1 45 15 60
2 6 44 50
% 1 75.0 25.0 100.0
2 12.0 88.0 100.0
a. Cross validation is done only for those cases in the analysis. In
cross validation, each case is classified by the functions derived
from all cases other than that case.
b. 83.6% of original grouped cases correctly classified.
c. 80.9% of cross-validated grouped cases correctly classified.

Discriminat Analysis 16

Anda mungkin juga menyukai