Statistik Uji :
Varians adalah kuadrat standar deviasi yang mempunyai
n n n
perbedaan pada komponendasar, varians tanpa akar n xi yi xi yi
kuadrat [3]. i 1 i 1 i 1
rq
(6)
n 1 2 n n 2 n n 2
2 2 2
s xi x (4) n xi xi n yi yi
n 1 i 1 i 1 i 1 i 1 i 1
Keterangan:
B. Distribusi Normal Multivariat r = Koefisien Korelasi
Variabel X1,X2,...,Xp dikatakan berditribusi normal n = Jumlah Data
multivariat dengan parameter μ dan Ʃ jika mempunyai
probability density function : C. Uji Homogenitas Varians Kovarians
( X μ )' 1 ( X μ )
1
f ( X i , X 2 ,..., X p )
1
e 2
(5) Asumsi yang harus dipenuhi dalam analisis diskriminan
p/2 1/ 2
( 2 ) adalah kesamaan matriks kovariansi antar grup variabel
Jika X1,X2,.,Xpberdistribusi normal multivariat maka (X- dependen sehingga dapat dikatakan ada homogenitas data.
μ)'Ʃ-1(X-μ) berditribusi χp2. Berdasarkan sifat ini maka Namun jika variansi diantara anggota ditiap-tiap grup tidak
pemeriksaan distribusi multinormal dapat dilakukan dengan sama, dapat dikatakan bahwa terjadi heteroskedastisitas.
cara membuat q-q plot dari nilai di2=(Xi- x )'S-1(Xi- x ), Penyamarataan multivariat untuk homogenitas varians-
i=1,...,n [4]. kovarians setiap variabel dependen adalah homogenitas
Tahapan dari pembuatan q-q plot ini adalah sebagai matriks varians-kovarians. Asumsinya adalah matriks varians-
berikut. kovarians dalam setiap sel rancangannya adalah contoh dari
1. Menentukan nilai vektor rata-rata : x populasi matriks varians-kovarians yang sama. Jika tidak
2. Menentukan nilai matriks varians-kovarians : S homogen, kumpulan matriks adalah sesat atau tidak benar
3. Menentukan nilai jarak Mahalanobis setiap titik sebagai suatu estimasi kovariansdari varians error. Syarat ini
pengamatan dengan vektor rata-ratanya di2=(Xi- x )'S-1(Xi- akan jadi berbeda dari asumsi kesamaan kovarians yang
x ), i=1,...,n dibutuhkan oleh pengulangan pada varians analisis univariat.
4. Mengurutkan nilai di2dari kecil ke besar : d(1)2≤ d(2)2≤ Asumsi berikutnya, tidak dibutuhkan dalam multivariat analisis
d(3)2≤....≤d(n)2 varians, karena semua kovarians dalam kumpulan matriks
5. Tentukan nilai p i 1 / 2 , i 1,..., n adalah equivalent. Pelanggaran dari homogenitas dari
i
n kovarians adalah dasar kebenaran untuk pengambilan
qi keputusan dalam multivariat analisis varians daripada
6. Tentukan nilai q i sedemikian hingga 2 2
f ( ) d pi
pengulangan analisis varians. Pengujian homogenitas ini dapat
7. Buat scatter-plot di2 dengan qi menggunakan nilai Box’s M [4].
Hipotesis :
Pada Proporsi Square Distance menggunakan pemeriksaan
H0 : (ragam dari semua perlakuan sama)
data berdistribusi multivariat normal jika prosentase di2≤ χ2p,0.5 1 2 k
mendekati 50%. H1 : minimal ada satu i j
Pemeriksaan distribusi normal multivariat juga dapat
dilakukan secara visual dengan melihat pola sebaran data pada Statistik uji :
2
C 1 u M
scatterplot antara nilai Square Distance ( d ) dengan nilai j
2 C 1 u n l 1 ln S pooled
n l 1 ln S l (7)
j 0.05 . Apabila plot-plot data
q j 0,5 n l l
c , p p
n n
Dimana,
pengamatan berada pada garis normal dan menyebar acak 1 1 2 p2 3 p 1
u (8)
6 p 1g 1
maka bahwa dapat diputuskan data berdistribusi normal
multivariat, apabila tidak maka dapat dikatakan data tidak l nl 1 l nl 1
n1 1S1 n 2 1S 2 ... n g 1S g
berdistribusi normal multivariat [4]. 1
S pooled
Selain menggunakan kedua metode diatas pengujian (9)
distribusi multivariat biasa menggunakan uji korelasi untuk l n l 1
menguji tingkat signifikansi. Uji ini dilakukan dengan
mengkorelasikan antara nilai dj2 dengan nilai qc, p . Uji ini 2
Daerah penolakan: Tolak H0, jika C p p 1n 1 / 2
3
n1 1 n2 1 C. Langkah Analisis
S pooled S1 S 2 (11)
( n1 1) ( n2 1) ( n1 1) ( n2 1) Langkah analisis yang dilakukan dalam penelitian adalah
sebagai berikut.
1. Mengumpulkan data pasien penyakit kanker paru-paru
3. Menghitung ŷ j yang disebabkan oleh bahan karsinogenik.
X1
^
2. Menguji asumsi distribusi normal multivariat pada data
y X X 2 S pooled
1
T
X dengan X X
(12) pasien penyakit kanker paru yang disebabkan oleh bahan
2
1
j
~ ~
karsinogenik.
4. Menghitung m̂ 3. Menguji kehomogenan data pasien penyakit kanker paru
1 yang disebabkan oleh bahan karsinogenik dengan uji
m 2X X 2 S pooled X 1 X 2
1
1
(13) homogenitas varians.
5. Pengalokasian 4. Melakukan analisis diskriminan data pasien penyakit
kanker paru yang disebabkan bahan karsinogenik.
Jika ŷ j ≥ m̂ maka masuk π1, jika ŷ j < m̂ maka masuk π2. 5. Mnginterpretasikan hasil analisis data.
E. Kanker Paru-Paru 6. Menarik kesimpulan dan saran.
Kanker paru-paru adalah salah satu jenis kanker yang
paling bisa dicegah. Paling tidak terdapat 80-90 persen kasus IV. ANALISIS DAN PEMBAHASAN
kanker paru-paru yang berhubungan dengan kebiasaan
merokok. Pada tahap awal, tidak ada tanda atau gejala kanker A. Statistika Deskriptif
paru-paru yang jelas. Merokok bisa dikatakan sebagai Tujuan dilakukan analisis statistika deskriptif adalah untuk
penyebab utama kanker paru-paru. Orang yang paling berisiko mengetahui karakteristik dari variabel yang diamati yaitu usia,
terkena kanker paru-paru adalah perokok aktif. Sekitar 80-90 berat, dan tinggi pada pasien penyakit kanker paru-paru di
persen kanker paru-paru dikaitkan dengan kebiasaan merokok. RSUD Dr. Soetomo Surabaya.
Meski begitu, bukan berarti setiap perokokan terkena kanker Tabel 2. Karakteristik Data
paru-paru. Selain itu, orang yang tidak merokok juga Kanker
Variabel Mean Varians Minimum Median Maksimum
berkemungkinan terserang kanker paru-paru, meski lebih Paru
rendah jumlahnya. Selain rokok, beberapa penyebab kanker 0 42,16 88,64 33 37 70
Usia
paru-paru lain adalah menghirup arsenik, radiasi, dan polusi 1 51,16 187,39 22 53 70
udara. Kanker paru-paru juga lebih umum terjadi pada orang 0 58,16 146,97 58 58 85
Berat
yang sudah lanjut usia [5]. 1 50,04 70,71 38 50 74
0 164,8 68,25 168 168 176
Tinggi
1 159,16 74,22 140 162 178
4
Tabel 2 menunjukkan bahwa penyakit kanker paru-paru paru di RSUD Dr. Soetomo Surabaya memenuhi asumsi
kelompok control (0) dan case (1) memiliki rata-rata yang distribusi normal multivariat.
rendah pada variabel usia dan berat badan yaitu 42 tahun dan 2. Uji Homogenitas Varians-Kovarians
50 kg dan dapat dikatakan bahwa 50% dari data tersebut diatas Pengujian homogenitas varians digunakan untuk
37 tahun dan 50 kg dengan interval mulai dari 33-70 tahun dan mengetahui matriks varians-kovarians telah homogen atau
38-74 kg serta keragaman data berturut-turut sebesar 88,64 tidak dari data pasien penyakit kanker paru-paru di RSUD Dr.
dan 70,71. Soetomo Surabaya.
Tabel 4. Hasil Uji Homogenitas Varians-Kovarians
B. Pengujian Asumsi Analisis Diskriminan
F df1 df2 F ;df 1,df 2 p-value
Terdapat dua asumsi pada analisis diskriminan yaitu
asumsi distribusi normal multivariat yang dapat dilihat dari 1,693 6 16693,132 2,099 0,118
proporsi, scatterplot, dan pengujian koefisien korelasi serta Tabel 4 menunjukkan bahwa nilai F sebesar 1,693 lebih
asumsi pengujian homogenitas varians kovarians. kecil dari Ftabel sebesar 2,099 dan p-value(0,118) lebih dari
1. Pemeriksaan dan Pengujian Normal Multivariat α(0,05) sehingga dapat diputuskan gagal tolak H0. Kesimpulan
Berikut adalah beberapa pemeriksaan yang dilakukan yang dapat diambil adalah matriks varians-kovarians homogen.
untuk mendeteksi data yang berdistribusi normal multivariat.
a. Proporsi Square Distance C. Analisis Diskriminan
Pemeriksaan proporsi square distance dilakukan untuk Analisis diskriminan digunakan untuk mengelompokkan
mengetahui apakah data pasien penyakit kanker paru-paru di observasi dimana variabel prediktornya merupakan data
RSUD Dr. Soetomo Surabaya merupakan data yang kuantitatif. Sebelum melakukan pengklasifikasian terlebih
berdistribusi normal multivariat dan hal tersebut dapat dilihat dahulu dilakukan uji serentak untuk mengetahui kemampuan
dari proporsi dj2. Setelah dilakukan pemeriksaan, diketahui variabel prediktor dalam membedakan variabel respon. Hasil
pengujiannya adalah sebagai berikut.
bahwa nilai dj2 yang kurang dari nilai 23,0.5 (2,366) adalah Tabel 5. Kemampuan Variabel Prediktor
sebanyak 22 data dan selanjutnya dapat dihitung nilai proporsi Test of Wilk’s Lambda Chi-square df P-value
1 0,041 0,535 0,286 0,001
dan didapatkan hasil sebesar 0,44. Hal ini dapat dikatakan
bahwa data pasien penyakit kanker paru-paru tidak Berdasarkan Tabel 5 dapat dilihat bahwa nilai p-value yang
diperoleh lebih kecil dari α (0,05). Ini berarti bahwa variabel
berdistribusi normal multivariat.
usia, berat badan, dan tinggi badan mampu membedakan
b. Plot Chi-Square secara signifikan kelompok pasien kanker paru-paru. Nilai
Berikut adalah pemeriksaan menggunakan scatterplot. Wilk’s Lambda sebesar 0,041 menjelaskan bahwa keragaman
8
yang tidak mampu dijelaskan oleh pasien kanker paru-paru
7
adalah 0,041. Selanjutnya dilakukan uji parsial untuk
6
mengetahui perbedaan mean masing-masing variabel antar
5
kelompok pasien kanker paru-paru. Hasil pengujiannya adalah
sebagai berikut.
dj2
4
Tabel 6. Perbedaan Rata-rata antar Kelompok
3
Wilk’s P-
2
Variabel F df1 df2
Lambda value
1 Usia 0,867 7,336 1 48 0,009
0 Berat Badan 0,864 7,572 1 48 0,008
0 2 4 6 8 10 12
chi-sq Tinggi Badan 0,896 5,582 1 48 0,022
Gambar 1. Scatterplot Berdasarkan Tabel 6 dapat dilihat bahwa nilai p-value
Gambar 1 menujukkan bahwa titik-titik merah berada variabel usia, berat badan, dan tinggi badan lebih kecil dari α
mengikuti garis linier sehingga dapat dikatakan bahwa data (0,05). Ini berarti bahwa terdapat perbedaan rata-rata pada
pasien penyakit kanker paru-paru di RSUD Dr. Soetomo usia, berat badan, dan tinggi badan antara kelompok control
dan case. Dimana besarnya pengaruh dari setiap variabel
Surabaya berdistribusi normal multivariat.
terhadap fungsi diskriminan yang terbentuk adalah sebagai
c. Pengujian Normal Multivariat
berikut.
Berikut adalah pengujian pada data pasien penyakit kanker Tabel 7. Strukrur Matrik
paru-paru di RSUD Dr. Soetomo Surabaya untuk mengetahui Variabel Function
apakah data berdistribusi normal multivariat. Usia 0,627
Tabel 3. Hasil Uji Normal Multivariat Berat Badan -0,618
rQ Critical point Tinggi Badan 0,539
0,985 0,977 Berdasarkan Tabel 7 dapat dilihat bahwa usia merupakan
Tabel 3 menunjukkan bahwa nilai rQ sebesar 0,985 lebih variabel yang paling berpengaruh dalam penentuan fungsi
besar dari critical point sebesar 0,977 sehingga diperoleh diskriminan karena memiliki nilai paling tinggi yaitu sebesar
keputusan gagal tolak H0. Kesimpulan yang dapat diambil 0,627 dibandingkan variabel berat badan dan tinggi badan.
pada penelitian ini adalah data pasien penyakit kanker paru- Untuk melihat kebaikan dari fungsi diskriminan yang terbentuk
digunakan korelasi kanonikal dengan hasil sebagai berikut.
5
Tabel 8. Keragaman Pasien Kanker Paru-paru Tabel 11 menunjukkan koefiisen fungsi atau model
Canonical diskriminan dari masing-masing kelompok pasien penderita
Eigen % of Cumulative
Function Correlation (CC)2
Value Variance %
(CC) kanker paru-paru. Model untuk pasien kanker paru-paru
1 0,041 100,0 100,0 0,535 0,286 kelompok control adalah sebagai berikut.
Berdasarkan Tabel 8 dapat dilihat nilai kuadrat dari Y1 0,540 0,348 x1 2,545 x 2 2111 ,657 x 3
korelasi kanonikal adalah 0,286. Ini berarti bahwa model Model untuk pasien kanker paru-paru kelompok case adalah
diskriminan yang terbentuk dapat menjelaskan keragaman sebagai berikut.
pasien kanker paru-paru sebesar 28,6%. Y2 0,618 0,430 x1 2,514 x 2 205 ,761 x 3
Dalam mengklasifikasikan observasi pada analisis Untuk pengklasifikasian observasinya berdasarkan nilai Y1
diskriminan digunakan dua metode yaitu metode centroid dan dan Y2. Jika score diskriminant Y1 > Y2 maka observasi
metode Fisher. tersebut diklasifikasikan ke dalam control dan sebaliknya.
1. Metode Centroid Berikut merupakan hasil pengklasifikan observasi
Berikut ini merupakan fungsi dari diskriminan kanonikal menggunakan metode Fisher.
metode centroid. Tabel 11. Ketepatan Klasifikasi Metode Fisher
Tabel 8. Koefisien Fungsi Diskriminan Kanonikal Predicted Group
Variabel Function Pasien Penderita
Membership Total
Constant -4,725 Kanker Paru-paru
0 1
Usia -0,062 0 19 6 25
Berat Badan 0,066 Original
1 7 18 25
Tinggi Badan 0,025
Berdasarkan Tabel 11 dapat diketahui bahwa hasil
Berdasarkan Tabel 8 persamaan dari fungsi diskriminan
klasifikasi dengan menggunakan metode Fisher sama dengan
dengan metode centroid adalah sebagai berikut.
metode centroid. Sehingga nilai APER yang diperoleh adalah
Y 4,725 0,062 x1 0,066 x 2 0 ,025 x 3
26% dan ketepatan akurasi sebesar 74%. Ini berarti bahwa
Untuk mengklasifikasikan observasi pada metode centroid kesalahan dalam pengklasifikasian data sebesar 26% dan
terlebih dahulu dihitung m̂ centroid. Hasilnya adalah sebagai ketepatan seluruh data diklasifikasikan sebesar 74%.
berikut..
Tabel 9. Fungsi pada Metode Centroid V. KESIMPULAN DAN SARAN
Variabel Function m̂ centroid
Control 0,620 Berdasarkan analisis dan pembahasan diatas dapat
0 diperoleh kesimpulan sebagai berikut.
Case -0,620
Berdasarkan Tabel 9 terlihat bawa nilai m̂ centroid adalah Berdasarkan analisis dan pembahasan diatas dapat diperoleh
0. Apabila nilai score discriminant yang diperoleh dari fungsi kesimpulan sebagai berikut.
diskriminan > 0, maka akan diklasifikan ke kategori 0 yaitu 1. Penyakit kanker paru-paru kelompok control (0) dan case
kelompok pasien penderita kanker control, sebaliknya jika (1) memiliki rata-rata yang rendah pada variabel usia dan
nilai score discriminant yang diperoleh dari fungsi diskriminan berat badan yaitu 42 tahun dan 50 kg.
< 0, maka akan diklasifikan ke kategori 1 yaitu kelompok 2. Data pasien penyakit kanker paru-paru berdistribusi normal
pasien penderita kanker case. Berikut merupakan hasil multivariat dan matriks varians kovarians homogen.
klasifikasinya. 3. Hasil analisis diskriminan adalah sebagai berikut.
Tabel 10. Ketepatan Klasifikasi Metode Centroid a. Variabel usia, berat badan, dan tinggi badan mampu
Predicted Group membedakan secara signifikan kelompok pasien kanker
Pasien Penderita
Membership Total paru-paru.
Kanker Paru-paru
0 1 b. Terdapat perbedaan rata-rata pada usia, berat badan,
0 19 6 25 dan tinggi badan antara kelompok control dan case.
Original
1 7 18 25 c. Usia merupakan variabel yang paling berpengaruh
Berdasarkan Tabel 10 dihitung ketepatan klasifikasi yang dalam penentuan fungsi diskriminan dibandingkan berat
dihasilkan dimana nilai APER yang diperoleh merujuk pada badan dan tinggi badan.
Lampiran 11 adalah 26% dan ketepatan akurasi sebesar 74%. d. Model diskriminan yang terbentuk dapat menjelaskan
Ini berarti bahwa kesalahan dalam pengklasifikasian data keragaman pasien kanker paru-paru sebesar 28,6%.
sebesar 26% dan ketepatan seluruh data diklasifikasikan e. Pada metode centroid fungsi diskriminannya adalah
sebesar 74%. Y 4,725 0,062 x1 0,066 x 2 0 ,025 x 3 dan ketepatan
2. Metode Fisher
klasifikasi data sebesar 74%.
Berikut ini merupakan koefisen fungsi diskriminan
f. Pada metode fisher fungsi diskriminannya adalah
berdasarkan metode Fisher.
Tabel 11. Koefisien Fungsi Diskriminan dari Metode Fisher
Y1 0,540 0,348 x1 2,545 x 2 2111 ,657 x 3 kelompok
Function control dan Y2 0,618 0,430 x1 2,514 x 2 205 ,761 x 3
Variabel
Control Case kelompok case serta data tepat diklasifikasikan sebesar
Constant 0,540 0,618 74%.
Usia -,348 -,430
Berat Badan 2,545 2,514
Tinggi Badan -211,657 -205,761
6
DAFTAR PUSTAKA
[1] Amin, Z. (2010). Kanker Paru. Jakarta: Pusat Penerbitan
Departemen Ilmu Penyakit Dalam Fakultas Kedokteran
Universitas Indonesia.
[2] Walpole. (1993). Pengantar Metode Statistika edisi ke-3.
Jakarta: PT. Gramedia Pustaka Utama.
[3] Partino, Idrus. (2009). Statistika Deskriptif. Yogyakarta:
Safira Insana Pers.
[4] Johnson, R. A., & Winchern, D. W. (2007). Applied
Multivariat Statistical Analysis Sixth Edition. New Jersey:
Pearson Prentice Hall.
[5] Suprijono, Agus., dkk. (2007). Penyebab Terjadinya
Kanker Paru-Paru. Surakarta: EGC.
LAMPIRAN 1 24 55 178
Lampiran 1. Data Pasien Penyakit Kanker Paru-Paru di 1 62 40 155
RSUD Dr. Soetomo Surabaya 1 50 55 150
Penyakit Kanker Paru Usia Berat Tinggi 1 53 50 163
0 52 58 158 1 65 74 162
0 50 79 171 1 44 45 166
0 70 70 174 1 36 50 154
0 35 48 150 1 55 45 150
0 41 52 159 1 65 47 168
0 36 45 150 1 64 40 155
0 37 78 176
0 37 51 169 Lampiran 2. Karakteristik Data
0 37 60 170 Descriptive Statistics: Usia; Berat; Tinggi Kelompok 0
0 46 85 170
Variable Mean Variance Minimum Median Maximum
0 45 75 174 Usia 42,16 88,64 33,00 37,00 70,00
Berat 58,16 146,97 40,00 58,00 85,00
0 54 70 161 Tinggi 164,80 68,25 150,00 168,00 176,00
0 34 48 170
0 37 50 165 Descriptive Statistics: Usia; Berat; Tinggi Kelompok 1
0 46 62 175 Variable Mean Variance Minimum Median Maximum
Usia 51,16 187,39 22,00 53,00 70,00
0 45 40 163 Bera 50,04 70,71 38,00 50,00 74,00
0 54 60 150 Tinggi 159,16 74,22 140,00 162,00 178,00
0 34 46 157
0 37 55 164 Lampiran 3. Output Pengujian Normal Multivariat
Data Display
0 35 60 171
0 35 48 152 Matrix MCova
0 56 49 162 155,862 4,749 -22,2314
0 34 60 171 4,749 123,439 43,6755
-22,231 43,676 77,8976
0 33 45 170
Data Display
0 34 60 168
1 70 48 163 dj2
0,650472 5,064900 7,028932 3,420261
1 44 45 163 0,398547 3,174142 5,610382
1 27 41 163 1,415326 1,241400 7,930965 3,884525
2,867186 2,456821 0,870453
1 48 38 150 2,239286 2,198383 3,471508 1,784685
1 53 51 163 0,611046 1,633359 2,700416
0,978944 1,766203 3,247529 1,413680
1 58 43 165 4,658010 0,961945 3,872575
2,733541 0,510316 3,191714 2,047742
1 55 50 150 4,216387 0,798460 4,186966
1 44 70 157 3,316349 3,756321 1,932439 6,513007
4,497691 5,854014 3,234355
1 54 52 165 2,442208 0,612108 5,509896 1,511702
1,972762 2,094109 4,841604
1 22 52 169
3,674425
1 40 55 150
Data Display
1 64 55 170
1 64 55 160 Prop 0,440000
1 48 45 140 Correlations: dj2; qc
1 70 50 150
Pearson correlation of dj2 and qc = 0,985
Lampiran 4. Output Pengujian Homogenitas Varians Lampiran 10. Fungsi pada Metode Centroid
Functions at Group Centroids
Test Results
Penyakit Kanker Paru-paru Function
Box's M 10.898 1
F Approx. 1.693 0 ,620
1 -,620
df1 6 Unstandardized canonical discriminant
functions evaluated at group means
df2 16693.132