Anda di halaman 1dari 71

Analisis Diskriminan dan

Klasifikasi
1. Ayu Indri Astuti
2.Yayan suyanto
3.Yulli Anggraeni
Pemisahan
Pengalokasian

Pemisahan dan Klasifikasi untuk 2
Populasi
Pemisahan dan Klasifikasi untuk
lebih dari 2 Populasi






Pemisahan dan Klasifikasi untuk 2
Populasi




2

Contoh
No. Populasi dan Variabel X yang diukur
1. Kesanggupan dan kesulitan
membayar pertanggung
jawaban properti perusahaan
asuransi
Total aset, biaya saham dan
obligasi, nilai pasar dari saham
dan obligasi, kerugian,
kelebihan, jumlah hadiah yang
tertulis
2. Nonulcer dyspeptics (orang
yang bermasalah dengan
penyakit perut) dan normal
Pengukuran dari kecemasan,
ketergantungan, kesalahan dan
kesempurnaan
3. Keberhasilan atau kegagalan
mahasiswa
Skor ujian masuk, nilai rata-rata
kenaikan kelas SMA,
banyaknya kegiatan di SMA
4. Pembeli produk baru dan
laggard (orang yang selalu
datang terlambat)
Pendidikan, pendapatan, besar
keluarga, banyaknya
pergantian merek

1

2





1

R
1

2

R
2


Pengetahuan yang tidak
lengkap dari kinerja yang akan
datang
Informasi sempurna yang
memerlukan penghancuran
objek
Tidak tersedia atau mahalnya
informasi
Peluang kondisional,

1
) =
1

2
=
1


12 =
1

2
) =
2

1

Populasi
sebenrnya
0
0

C(1|2)
C(2|1)

Matriks Cost (biaya)


ECM : expexted cost of
misclassification







=

1
+

(1|2)
2

Daerah dan yang meminimasi ECM didefinisikan
oleh nilai x sehingga pertidaksamaan di bawah ini
dipenuhi .

1

2

1
()

2
()

(1|2)
(2|1)

1
()

2
()
<
(1|2)
(2|1)

<

2
/
1
= 1 ( peluang prior yang sama)

1

1
()

2
()

(1|2)
(2|1)
;
2

1
()

2
()
<
(1|2)
(2|1)






c(1|2)/c(2|1) = 1 (biaya-biaya misklasifikasi yang sama)

1

1
()

2
()

p
2
p
1
;
2

1
()

2
()
<

1


2
/
1
= 12/(2|1)= 1 atau
2
/
1
= 1/(c(1|2)/c(2|1)) (peluang prior
yang sama dan biaya-biaya misklasifikasi yang sama)

1

1
()

2
()
1 ;
2

1
()

2
()
< 1



Maka objek baru tersebut
kita klasifikasikan ke
dalam
1



total probability of misclassification (TPM)






1

0
=
(
1

0
)

0

0
=

0

1
)(
1
)

0

1
(
1
) +
0

2

0
+
2

0
= 1
1

0
=

0
+
2


Layak
Sederhana
Klasifikasi dengan Dua Multivariat Berpopulasi
Normal
Prosedur klasifikasi yang didasarkan populasi
normal menonjol dalam praktek statistika
dikarenakan kesederhanaanya dan kelayakannya
berefisiensi
besar terhadap suatu model populasi yang luas.
Kita sekarang mengasumsikan
1
(x) dan
2
(x)
adalah multivariat berdensitas normal, vektor mean

1
dan kovarian matrik E
1
untuk yang pertama dan
vektor mean
2
dan kovarian matrik E
2
untuk yang
kedua.
Kasus khusus dari persamaan matiks kovarian
membawa ke sebuah klasifikasi
statistik sederhana linear yang penting.
Contoh 11.3
Contoh ini mengenai deteksi dari pembawa Hemofilia A sebagai prosedur untuk mendeteksi
potensi pembawa Hemofilia A. Sampel darah diperiksa untuk dua grup wanita dan ukuran pada
dua variabel
1
= log 10 (AHF activity) dan
2
= log 10 (AHF like antigen) dicatat. Grup
pertama yaitu
1
= 30 wanita dipilih dari sebuah populasi dari wanita yang tidak membawa gen
hemofilia, grup ini disebut grup normal. Grup kedua yaitu
2
= 22 wanita dipilih dari pembawa
hemofilia A yang diketahui (putri dari hemofilia, ibu dengan lebih dari satu putra
hemofilia, dan ibu dengan satu putra hemofilia dan hubungan hemofilia lainnya), grup ini
disebut pembawa wajib.
Pemeriksa menyediakan informasi

1
=
0,0065
0,0390

2
=
0,2483
0,0262
dan

=
131,158 90,423
90.423 108,147

Oleh karena itu, biaya yang sama dan fungsi diskriminan prior yang sama adalah
y=

x = (

2
)

x = 0,2418 0,0652
131,158 90,423
90,423 108,147

2
= 37.6
1
28.92
2

selain itu, y=

1
= 37,61 28,92
0,0065
00390
= 0,88
y=

2
= 37,61 28,92
0,2483
0,0262
= -10,10
dan titik tengah rata-ratanya =
1
2
(
1

+
2

)=
1
2
(0,88-10,10)=-4,61
Atau kita dapat menggunakan statistik
klasifikasi w :
Mengevaluasi Fungsi Klasifikasi
cara menilai hasil dari sebarang prosedur Jika bentuk dari populasi induk diketahui
dapat dihitung dengan relatif (contoh 11.4)
Untuk populasi induknya tidak diketahui,
Dari (11-8) TPM =
1

1

2

2

1
...(11-28)
Adapun nilai terkecil dari jumlah ini disebut nilai error optimum (OER)
OER =
1

1

2

2

1
... (11-26)
Dimana
1

2
ditentukan oleh kasus khusus (b) dalam (11-7)
Oleh karena itu, OER adalah nilai error untuk kaidah klasifikasi TPM minimum.

Contoh 11.4
Misalkan diberikan sebuah pernyataan untuk nilai error optimum ketika
1
=
2
=
1
2

dan
1

2
() merupakan fungsi densitas normal multivariat dalam (11-10).
Sekarang, aturan klasifikasi ECM minimum dan TPM minimum tepat sama ketika
12 = 21. Karena probabilitas priornya juga sama, daerah klasifikasi TPM
minimum didefinisikan untuk populasi normal oleh (11-12), dengan
12
21

1
= 0. Kita
dapatkan

1

1

2

1

1
2

2

1
+
2

1
0

1

1

2

1

1
2

2

1
+
2

1
< 0
Himpunan ini dapat dinyatakan dalam hubungan =
1

2


1
= sebagai

1

1
2

1

2
(
1
1
+
2
)

1
<
1
2

1

2
(
1
1
+
2
)


Tetapi Y merupakan sebuah kombinasi linear dari variabel acak normal, sehingga
probabilitas densitas dari Y,
1

2
() adalah normal Univariat ( lihat Result 4.2)
dengan rata-rata dan varians diberikan oleh

1
=

1
= (
1

2
)
1
1

2
=

2
= (
1

2
)
2
1

2
= = (
1

2
)
1

2
=
2
1

TPM =
1
2
[kesalahan mengklasifikasikan observasi
1
sebagai
2
] +
1
2
[kesalahan
mengklasifikasikan observasi
2
sebagai
1
]
TPM =
1
2
21 +
1
2
12



P21 = P <
1
2

2

1
+
2

1

= P

1

<
1
2

2

1
+
2
(
1

2
)
1
1 1


= P <
1
2

2

Dimana (. ) merupakan fungsi distribusi kumulatif dari variabel acak normal standar.
Dengan cara yang sama , P12=

2

Sehingga nilai errornya,
OER = TPM minimum =
1
2

2
+
1
2

2
=

2
... (11-27)
Jika sebagai contoh,
2
=
1

2

2
= 2.56, lalu = 2.56 = 1.6 dan
menggunakan tabel appendiks 1, TPM minimum =
1.6
2
= 0.8 = 0.2119
Aturan klasifikasi optimal ini akan tidak tepat dialokasikan pada satu populasi atau
populasi lain nya sekitar 21% dari hubungannya.

Contoh (11.4) menghitung saat fungsi densitas diketahui,
saat tidak diketahui menghitung OER secra tidak langsung, estimasi dari sampel.
Fungsi Klasifikasi sampel, berupa nilai error aktual (AER).
AER =
1
}

1
+
2
}

2

Dimana

1
dan

merepresentasikan daerah klasifikasi yang ditentukan oleh ukuran


sampel
1

2
.

1

1
2

1
+

2
ln
12
21

1

1
2

1
+

2
< ln
12
21

1

AER mengindikasikan bagaimana fungsi akan membentuk sampel yang akan datang.
Seperti halnya nilai error optimal tidak dapat dihitung karena bergantung pada fungsi
densitasnya yang didak diketahui
1

2
().









Ada sebuah pengukuran dari hasil yang tidak bergantung pada bentuk dari populasi induk
dan dapat dihitung untuk sebarang prosedur klasifikasi yang disebut nilai error nyata
(APER), didefinisikan sebagai fraksi dari observasi dalam sampel latihan yang merupakan
misklasifikasi oleh fungsi klasifikasi sampel.

Nilai error nyata dapat dihitung dari matriks confusion ( yang menunjukan grup anggota aktual melawan
prediksi. Untuk
1
observasi dari
1
dan
2
observasi dari
2
, bentuk matriks confusion :


Aktual
Membership
Predicted Membership

1

2

1

1

1
=
1

1

2

2
=
2


2

Dimana,

1
=
1

1

1
=
1

2

2
=
2

2

2
=
2

1

Nilai error nyatanya adalah
APER =





Walau APER mudah dihitung, tapi APER terlalu rendah menaksir AER kecuali jika
ukuran sampel
1

2
sangat besar.
Taksiran nilai error dapat dibuat lebih baik dari AER, relatif tetap mudah dihitung
dan tidak memerlukan asumsi distribusi.
Prosedur untuk memisahkan sampel total ke dalam sampel trining dan sampel validasi.
Sampel trining digunakan untuk menkontruksi fungsi klasifikasi dan sampel validasi
digunakan untuk mengevaluasinya.

- Membutuhkan sampel yang besar
- Fungsi yang dievaluasi bukan fungsi yang dihasilkan. Pada akhirnya hampir
semua data harus digunakan untuk membentuk klasifikasi, agar semua informasi
dari data tidak hilang.
-
Pendekatan lainnya,
Prosedur Holdout Lachenbruch :
1. Mulai dengan pengamatan pada grup
1
. Abaikan satu observasi dari grup ini dan
hasilkan fungsi klasifikasi berdasarkan pada sisa
1
1,
2
observasi.
2. Klasifikasi observasi yang ditahan ( the holdout observation) dengan
menggunakan fungsi yang dihasilkan dari langkah satu.
3. Ulangi langkah satu dan dua sampai semua observasi
1
diklasifikasikan. misal

1
()
adalah banyaknya observasi holdout dalam grup ini (H) yang salah
diklasifikasikan.
4. Ulangi langkah satu sampai tiga untuk observasi
2
. misal
2
()
adalah banyaknya
observasi holdout dalam grup ini yang salah diklasifikasikan.





Estimasi

21

12 dari probabilitas misklasifikasi bersyarat pada (11-1) dan


(11-2) diberikan :

21 =

2
()

1
dan

12 =

2
()

2
(11-31)
dan total proporsi klasifikasi adalah hampir tak bias mengestimasi AER yang
diharapkan, E(AER)

1
()
+
2
()

1
+
2
(11 32)


Fungsi Diskriminan Fisher Pemisahan Populasi
Suatu kombinasi linear yang ditetapkan siperbaiki x diambil dari nilai-nilai

11
,
12
,
1
untuk pengamatan-pengamatan dari populasi yang pertama dan nilai-nilai

21
,
22
, ,
2
2
untuk pengamatan pengamatan dari populasi yang kedua. Pemisahan dua
himpunan ini dari univariat y ditaksir dari selisih antara
1

2
dinyatakan dalam
simpangan baku. Yaitu :
=

1

2

2
=

1

2
1
=1
+
2

2
2
=1

1
+
2
2

Adalah estimasi yang disatukan dari varians. Tujuannya untuk memilih kombinasi linear
x untuk mencapai pemisahan yang maksimum dari sampel
1

2
.

Result 11.4 Kombinasi linear =

memaksimalkan rasio

1

2

2

=


Atas semua vektor-vektor koefisien

yang mungkin dimana =


1

2
.
Maksimum dari perbandingan (11-31) adalah
2
=
1

2

.
1

1

2
.
Sebuah aturan alokasi yang didasarkan pada fungsi Diskriminan Fisher
Alokasi
0

1
jika

0
= (
1

2
)

0

=
1
2
(
1

2
)

1
(
1
+
2
)
Atau

0
0
Alokasi
0

2
jika

0
<
Atau

0
< 0
Bila kedua populasi normal yang mempunyai matriks kovarians yang sama, aturan
pengklasifikasian Fishers adalah dengan ECM yang minimum dengan peluang prior dan
Cost misclassification sama.

Misalkan populasi- populasi
1

2
adalah normal multivariat dengan suatu matriks
kovarians yang umum . lalu seperti di section 6.3, suatu test dari

0

1
=
2

1

1

2

Dapat ditunjukan oleh :

1
+
2
1

1
+
2
2

1
+
2

2

Suatu F-Distribution dengan df
1
=
2
=
1
+
2
1.
Jika
0
ditolak, kita dapat menyimpulkan pemisahan antara kedua populasi populasi

1

2
adalah signifikan.

Klasifikasi Untuk Beberapa Populasi

Nilai Harapan Minimum dari Misclassification Method

Misalkan

adalah fkp dari populasi

, i= 1, 2, , g.

adalah probabilitas prior dari populasi

, i = 1, 2, ,g.
c(k|i) adalah nilai alokasi dari item

, berkaitan dengan

untuk k, i = 1, 2, , g.
Untuk k = 1, c(i|i) = 0.

Nilai harapan kondisional dari klasifikasi x dari
1
sampai
2
, atau
3
, ,

adalah
sebagai berikut,
1 = 2 1 2 1 + 31 3 1 + + 1 1
= 1 1

=2



Perkalian dari ECM kondisional masing-masing oleh probabilitas priornya dan
dijumlahkan akan menghasilkan

=
1
1 +
2
2 + +


=
1
1 1

=2
+
2
2 2

=2
+ +

=2

=

=1

=2

(11-37)

Perhitungan jumlah klasifikasi optimal pada pemilihan kualitas daerah klasifikasi

1
,
2
, ,

khusus dan mendalam seperti persamaan diatas adalah minimum.



Daerah klasifikasi untuk nilai ECM minimum dididefinisikan oleh pengalokasian x
pada populasi

, = 1, 2, , dimana

=1

(11-38)
adalah yang terkecil.

Misalkan semua nilai misklasifikasi sama, dimana nilai harapan
minimum dari aturan misklasifikasi adalah probabilitas total
minimum dari aturan misklasifikasi. (Tanpa menghilangkan
sifat umum, kita dapat menentukan nilai miklasifikasi sama
dengan 1). Menggunakan persamaan diatas, kita akan
mengalokasikan x pada

, k= 1, 2, ,g, dimana

=1

(11-39)
adalah yang terkecil. Persamaan tersebut akan menjadi yang
terkecil ketika mengabaikan bentuk

yang terbesar.
Akibatnya, ketika nilai misklasifikasinya sama , nilai harapan
minimum dari aturan misklasifikasi akan membentuk
persamaan sederhana.


Syarat klasifikasi ECM dengan nilai misklasifikasi sama

Alokasikan x ke

jika

>

untuk semua (11-40)


atau, ekivalen dengan
Alokasikan x pada

jika
ln

> ln

untuk semua (11-41)




Dengan syarat klasifikasi ECM minimum diatas, karena identik
dengan memaksimumkan probabilitas posterior,

,
dimana

=1
=



(11-42)
= 1,2, ,

Persamaan diatas adalah bentuk umum untuk 2 grup.
Secara umum, aturan ECM minimum memiliki 3 komponen;
probabilitas prior, nilai misklasifikasi dan fungsi kepadatan.
Ketiga komponen tersebut harus sudah diketahui atau sudah
diestimasi, sebelum menggunakan aturan tersebut.

Klasifikasi dengan Populasi Normal

Kasus khusus terjadi jika

=
1
2

1
2

exp
1
2

, = 1,2, , (11-43)

Persamaan tersebut adalah fungsi kepadatan berdistribusi normal
multivariate dengan vector mean

dan matriks kovarian

. Untuk
selanjutnya c(i|i)=0, c(k|i)=1, maka:

Alokasikan x ke

jika
ln

= ln

2
ln 2
1
2
ln

1
2


= max

ln

(11-44)

Selanjutnya, kita definisikan nilai diskriminan kuadratik untuk
populasi ke-i menjadi

=
1
2
ln

1
2

+ln

,
= 1, 2, , . (11-45)

adalah nilai kuadratik yang terdiri dari kontribusi dari


variansi umum

, probabilitas prior

, dan jarak kuadrat dari


x ke populasi mean

.
Probabilitas Total Minimum dari Aturan Misklasifikasi untuk
Populasi Normal-

.

Alokasikan x ke

jika
Nilai kuadratik

=
1

,
2

, ,

,

dimana

untuk persamaan yang telah disebutkan diatas,


untuk i=1, 2,, g.
Aturan Estimasi TPM Minimum untuk Beberapa Populasi
normal-

Berbeda

Alokasikan x ke

jika
Nilai

, ,


dimana

diberikan pada estimasi diatas, i=1,2,..,g.


Penyederhanaan bisa dilakukan jika matriks kovarian populasi

sama. Ketika

= , untuk i=1,2,,g, nilai diskriminan persamaan kuadratik akan menjadi

=
1
2
ln
i

1
2
x

1
x +
i

1
x
1
2

i
+lnp
i

Dua bentuk pertama sama dengan
1

,
2

, ,

sehingga
dapat diabaikan untuk tujuan pengalokasian. Bentuk lainnya terdiri dari
konstanta

= ln

1
2

i
dan kombinasi linear dari komponen x.
Definisi nilai diskriminan linier:

=
i

1
x
1
2

i
+ln


Estimasi

, dari nilai diskriminan linier

sesuai dengan estimasi


gabungan ,

1
1
1
+
2
1
2
++

1
+
2
++


Dan diberikan oleh

1

1
2

+ln


Aturan Estimasi TPM Minimum untuk Populasi Normal
dengan Kovarian Sama

Alokasi nilai x ke

jika
Nilaidiskriminan linier

, ,


dimana

adalah diskriminan linier dengan

, i= 1,2,...,g.
Nilai diskriminan linier adalah fungsi linier dari x yang sesuai. Sama seperti
untuk kasus kovarian sama yang didapat dari nilai diskriminan kuadrat untuk
populasi ke-I dengan mengabaikan konstanta
1
2
ln. Hasilnya, estimasi
sampel yang dimasukkan untuk kuantitas populasi yang tidak diketahui,
selanjutnya dapat diinterpretasikan dalam bentuk kuadrat jarak

1
2
=


Dari x ke vector mean sampel

. Aturan penempatannya sebagai berikut:


1. Masukkan x ke populasi

dimana
1
2

2
+ ln

memiliki nilai
terbesar.
2. Lihat aturan tersebut atau yang persamaan yang ekivalennya, lalu
masukkan x ke populasi terdekat. (ukuran jarak dinyatakan oleh ln

)
3. Jika probabilitas priornya tidak diketahui, prosedur yang berguna adalah
dengan menentukan
1
=
2
= =

=
1

.
Observasi selanjutnya dimasukkan ke populasi yang terdekat.
Contoh
Hitung nilai diskriminan linier yang berasal dari data degan g = 3,
populasi diasumsikan sebagai nomor bivariat dengan matrik kovarian
biasa.
Sampel acak dari populasi
1 ,

2
,
3
disebutkan , beserta mean
sampel dan matrik kovariannya.
Metode Fisher untuk Pendiskriminasian diantara
Beberapa Populasi
matriks kovarian populasi adalah sama, yaitu

1
=
2
= =
g
= .
Misal = vector rata-rata dari kombinasi populasi

0
= jumlah dari cross-products diantara grup.
Maka
0
=

=1

dengan =
1

=1

Lalu perhatikan kombinasi linear = yang mempunyai nilai
ekspektasi =

untuk populasi

, dan variansi =

= untuk semua
populasi. Akibatnya, nilai ekspektasi

berubah
sebagaimana populasi yang berasal dari X yang dipilih berubah.
Diskriminan Linear Sampel Fisher

Misalkan

1
,

2
, ,

> 0 menunjukkan min(g-1, p) buah


nilai eigen tak nol dari
1

0
dan
1
,
2
, ,

adalah nilai
vector eigen yang berkorespondensi (sehingga

= 1).
Maka vector koefisien

yang memaksimalkan rasio

=1

=1

=1


Diberikan oleh

1
=
1
. Kombinasi linear
1
=
1
disebut
diskriminan pertama sampel. Sehingga

adalah
diskriminan ke-k dari sampel (diskriminan sampel ke-k), .
Diskriminan Fisher digunakan untuk mendapatkan representasi
data dalam dimensi yang lebih rendah, yang memisahkan
populasi sebanyak mungkin. Atran klasifikasi r buah diskriminan
yang digunakan untuk pengalokasian:
Penggunaan Diskriminan Fisher untuk Klasifikasi
| | | |
k i untuk
x x x x y y
r
j
r
j
r
j
i j k j kj j
=
s =

= = =

) ( '

) ( '

) (
jika pada x Alokasikan
1 1 1
2 2
2
k

t
Prosedur Klasifikasi Fisher
Berdasarkan Diskriminan Sampel
Sebuah perusahaan bergerak dalam penjualan Air Mineral
mengumpulkan data sekelompok konsumen air mineral dengan
variabel berikut:

1.Tipe konsumen dari banyak tipe Air Mineral yang minum
dengan Kode 0 = SEDIKIT (konsumne yang termasuk tipe sedikit
minum air mineral). Kode 1 = BANYAK (konsumen yang termasuk
tipe banyak minum air Mineral)
2.Usia konsumen (tahun)
3.Berat badan konsumen (kilogram)
4.Tinggi badan konsumen (centimeter)
5.Kegiatan olahraga konsumen dalam sehari (jam)
6.Pendapatan konsumen (ribuan rupiah/bulan)
7.Jam kerja konsumen dalam sehari (jam)
Proses Pemilihan Variabel
Tests of Equality of Group Means

Wilks'
Lambda F df1 df2 Sig.
Usia ,945 4,247 1 73 ,043
Berat ,934 5,173 1 73 ,026
Tinggi ,946 4,186 1 73 ,044
Olahraga ,894 8,656 1 73 ,004
Bekerja ,968 2,432 1 73 ,123
Income ,951 3,779 1 73 ,056
Tabel 3.2 Tabel Tests of Equality of Group Means
1. Wilks Lambda
Angka Wilks Lambda berkisar 0 sampai 1. Jika angka mendekati 0, maka data
tiap grup cenderung berbeda, sedangkan jika angka mendekati 1, data tiap grup
cenderung sama.
Proses Pemilihan Variabel
2. Uji Signifikansi (F test)
Uji F dilakukan untuk menguji hipotesis berikut:
Ho : group means dari masing-masing kelompok adalah relatif sama
H1 : group means dari masing-masing kelompok memilik perbedaan secara
nyata.

Jika Sig < 0,05, maka Ho ditolak, yang berarti ada perbedaan antar grup. Jika
Sig > 0,05, maka Ho diterima yang berarti group means masing-masing
kelompok relatif sama. Hal ini menunjukkan bahwa tidak ada perbedaan
antar grup.
Proses Pemilihan Variabel
Analisis Diskriminan mempunyai asumsi bahwa :
Variansi variabel bebas untuk setiap grup seharusnya sama.
Variansi diantara variabel-variabel bebas seharusnya juga sama.
Kedua pengertian diatas dapat disimpulkan bahwa group covariance
matrices adalah relatif sama.

Untuk itu, perlu dilakukan pengujian hipotesis sebagai berikut :
H
o
: group covariance matrices adalah relatif sama
H
1
: group covariance matrices adalah berbeda secara nyata

Adapun penilaian signifikansi dari pengujian hipotesis diatas sebagai
berikut:
Jika Sig < 0,05, maka Ho ditolak.
Jika Sig > 0,05, maka Ho diterima.
Proses Pemilihan Variabel
Dari tampilan tabel test result output,
Test Results
Box's M 33,189
F Approx. 1,441
df1 21
df2 19569,371
Sig. ,087
Tests null hypothesis of equal population covariance matrices.
Dalam kasus ini memiliki nilai sig. 0,087 > 0,05 maka H
o
diterima ini artinya bahwa
data telah memenuhi asumsi analisis diskriminan. Sehingga proses dapat
dilanjutkan.
Proses Diskriminan
Variables Entered/Removed
a,b,c,d

Step
Entered
Min. D Squared
Statistic
Between
Groups
Exact F
Statistic df1 df2 Sig.
1 Olahraga ,462 sedikit and
banyak
8,656 1 73,000 ,004
2 Berat ,776 sedikit and
banyak
7,170 2 72,000 ,001
3 Tinggi 1,208 sedikit and
banyak
7,343 3 71,000 ,000
At each step, the variable that maximizes the Mahalanobis distance between the two
closest groups is entered.
a. Maximum number of steps is 12.
b. Maximum significance of F to enter is .05.
c. Minimum significance of F to remove is .10.
d. F level, tolerance, or VIN insufficient for further computation.
Tabel diatas menunjukan variabel mana saja, dari keseluruhan variabel
yang dimiliki, yang dapat dimasukan dalam model diskriminan.
Proses Diskriminan
1. Uji Signifikansi
Karena nilai sig. yang diperoleh pada ketiga variabel lebih kecil dari
0,05 maka variabel tersebut memang berbeda untuk kedua kelompok variabel
dependent.
Wilks' Lambda
Step
Numbe
r of
Variabl
es
Lamb
da df1 df2 df3
Exact F
Statist
ic df1 df2 Sig.
1 1 ,894 1 1 73 8,656 1 73,00
0
,00
4
2 2 ,834 2 1 73 7,170 2 72,00
0
,00
1
3 3 ,763 3 1 73 7,343 3 71,00
0
,00
0
Proses Diskriminan
Perhatikan kolom Canonical Correlation. Hal tersebut untuk mengukur
keeratan hubungan antara discriminant scores dengan grup. Pada kasus ini
dapat dikatakan bahwa keeratan hubungan antara diskriminan skor dengan
grup sebesar 48,7 %.
a. First 1 canonical discriminant functions
were used in the analysis.
Function

Eigenvalue
% of
Variance
Cumulative
%
Canonical
Correlation
1
,310
a
100,0 100,0 ,487
Eigenvalues
Proses Diskriminan
Structure Matrix

Function
1
Olahraga ,618
usia
a
,521
Berat ,478
Tinggi -,430
income
a
,266
bekerja
a
,139
Tabel diatas menunjukan korelasi antara
variabel independen dengan fungsi
diskriminan yang terbentuk. Variabel yang
tidak dimasukan dalam analisis
diskriminan adalah variabel dengan nilai
korelasi rendah dan diberikan simbol a
disebelah masing-masing variabel
tersebut.

Proses Diskriminan
Dari tabel diatas diperoleh gambaran model diskriminan yang
terbentuk. Model diskriminannya sebagai berikut :
Minum (D) = 7,884 + 0,064 berat (
1
- 0,093 tinggi (
2
+ 0,006
olahraga (
3

Canonical Discriminant
Function Coefficients

Function
1
Berat ,064
Tinggi -,093
Olahraga ,006
(Constant) 7,884
Unstandardized coefficients

Jika nilai minum(D) objek baru < Z = -0,0075, maka objek barudiklasifikasikan ke grup
sedikit (minum).
Jika nilai minum(D) objek baru > Z = -0,0075, maka objek baru diklasifikasikan ke grup
banyak (minum).
Functions at Group
Centroids
Minum
Function
1
Sedikit ,542
Banyak -,557
Unstandardized canonical discriminant
functions evaluated at group means
Karena dalam kasus ini nilai rata-rata kedua grup
sama maka:

=

2
=
0,542 + 0,557
2
= 0,0075
Ket :
Z : Cut point untuk grup yang sama ukuran

: centroid grup sedikit (minum)

: centroid grup banyak (minum)



Prior Probabilities for Groups
Minum
Prior
Cases Used in
Analysis
Unweight
ed
Weighte
d
Sedikit ,500 38 38,000
Banyak ,500 37 37,000
Total 1,000 75 75,000
Tabel 3.10 Tabel Prior Probabilities for Groups
Classification Function Coefficients

Minum
sedikit banyak
berat ,035 -,035
tinggi 3,587 3,690
olahraga ,036 ,030
(Constant) -297,882 -306,557
Fisher's linear discriminant functions
Classification Results
b,c


minum Predicted Group
Membership
Total

sedikit banyak
Original Count sedikit 27 11 38
banyak 13 24 37
% sedikit 71,1 28,9 100,0
banyak 35,1 64,9 100,0
Cross-
validated
a

Count sedikit 27 11 38
banyak 13 24 37
% sedikit 71,1 28,9 100,0
banyak 35,1 64,9 100,0
Adapaun makna dari tabel diatas yaitu bahwa
1. 68 % data diatas sudah tepat diklasifikasikan
2. Pada grup sedikit(minum) 71,1 % sudah diklasifikasikan dengan tepat
sementara 28,9% lainnya misklasifikasi
3. Pada grup banyak(minum), 64,9 % sudah diklasifikasikan dengan tepat
sementara 35,1% lainnya misklasifikasi
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is
classified by the functions derived from all cases other than that case.
b. 68,0% of original grouped cases correctly classified.
c. 68,0% of cross-validated grouped cases correctly classified.
Trimakasih