Anda di halaman 1dari 32

LAPORAN PRAKTIKUM

ANALISIS MULTVARIAT
Modul V

ANALISIS DISKRIMINAN FAKTOR-FAKTOR YANG MEMENGARUHI


PENDERITA DIABETES DI INDONESIA TAHUN 2012

Oleh :
Arin Berliana Angrenani 06211640000006
Euodia Putri Prastika 06211640000026
Niam Zuhdi Yuliarto 06211640000061

Asisten Dosen :
Sri Hidayati 06211750010027

Dosen :
Dr. Bambang Widjanarko O. S.Si., M.Si.

PROGRAM STUDI SARJANA


JURUSAN STATISTIKA
FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2019
ABSTRAK

Penyakit diabetes ditandai dengan tingginya kadar gula (glukosa) dalam tubuh. Penyakit
ini adalah termasuk penyakit kronis yang mematikan. Jika diabetes tidak dikontrol dengan
baik, dapat timbul berbagai komplikasi yang membahayakan nyawa penderita.
Berdasarkan penelitian Diabetes Atlas tahun 2015, Indonesia menempati posisi ke tujuh
sebagai negara yang memiliki jumlah penderita diabetes terbanyak, yaitu sebesar 11,4 juta
orang. Penderita diabetes mengalami gangguan keseimbangan tranportasi gula kedalam
sel antara gula yang disimpan di hati dan gula yang dikeluarkan dari hati, sehingga kadar
gula dalam darah meningkat. Analisis diskriminan merupakan salah satu dari analisis
multivariat dengan metode dependensi yang bertujuan untuk mengklasifikasikan suatu
individu atau observasi ke dalam kelompok yang saling bebas (mutually exclusive/disjoint)
dan menyeluruh (exhaustive) berdasarkan sejumlah variabel penjelas. Analisis
diskriminan dapat digunakan untuk mengelompokan penderita diabetes yang positif dan
negatif. Data jumlah penderita diabetes positif dan negative beserta faktor-faktor yang
mempengaruhi disebut data imbliced. Berdasarkan hasil analisis didapatkan bahwa uji
asumsi normal mutivariat tidak terpenuhi, namun diasumsikan memenuhi dan uji asumsi
homogenitas terpenuhi. Selanjutnya, hasil analisis diskriminan adalah terdapat perbedaan
nilai rata-rata yang disebabkan oleh variabel konsentrasi glukosa plasma dan antar
variabel tidak terindikasi multikolinieritas. Model yang terbentuk sudah dapat
menjelaskan keragaman sebesar 100%, namun variabel penjelas belum mampu
membedakan grup secara signifikan. Hubungan terbesar dimiliki oleh variabel ketebalan
lipatan kulit. Variabel konsentrasi glukosa plasma memiliki kontribusi terbesar terhadap
fungsi diskriminan. Jika hasil nilai observasi y kurang dari 0,1285 maka observasi tersebut
akan masuk kelompok diabetes negatif, sedangkan jika nilai observasi y lebih besar dari
0,1285 maka observasi tersebut akan masuk ke dalam kelompok diabetes positif. Ketepatan
pengklasifikasian dengan menggunakan metode analisis diskriminan akan menghasilkan
tingkat akurasi sebesar 70% dari data yang ada.

Kata kunci : Analisis Diskriminan, Diabetes, Klasifikasi, Uji Homogenitas, Uji Normal
Multivariat.

ii
DAFTAR ISI

Halaman
HALAMAN JUDUL .............................................................................................. i
ABSTRAK ............................................................................................................. ii
DAFTAR ISI......................................................................................................... iii
DAFTAR TABEL ................................................................................................. v
DAFTAR GAMBAR ............................................................................................ vi
BAB I PENDAHULUAN ..................................................................................... 1
1.1 Latar Belakang ............................................................................................ 1
1.2 Rumusan Masalah ....................................................................................... 2
1.3 Tujuan ......................................................................................................... 2
1.4 Manfaat ....................................................................................................... 2
1.5 Batasan Masalah ......................................................................................... 3
BAB II TINJAUAN PUSTAKA .......................................................................... 4
2.1 Statistika Deskriptif .................................................................................... 4
2.2 Uji Normal Multivariat ............................................................................... 5
2.3 Uji Homogenitas ......................................................................................... 5
2.4 Analisis Diskriminan .................................................................................. 6
2.5 Diabetes....................................................................................................... 7
BAB III METODOLOGI PENELITIAN ........................................................... 8
3.1 Sumber Data ................................................................................................ 8
3.2 Variabel Penelitian ...................................................................................... 8
3.3 Struktur Data ............................................................................................... 8
3.4 Langkah Analisis ........................................................................................ 8
3.5 Diagram Alir ............................................................................................... 9
BAB IV ANALISIS DAN PEMBAHASAN ...................................................... 11
4.1 Analisis Karakteristik Data ....................................................................... 11
4.2 Uji Normal Multivariat ............................................................................. 11
4.3 Uji Homogenitas ....................................................................................... 12
4.4 Analisis Diskriminan ................................................................................ 13
BAB V KESIMPULAN DAN SARAN .............................................................. 19
5.1 Kesimpulan ............................................................................................... 19

iii
5.2 Saran ......................................................................................................... 20
DAFTAR PUSTAKA .......................................................................................... 21
LAMPIRAN

iv
DAFTAR TABEL

Tabel 2.1 Confusion Matrix ................................................................................... 7


Tabel 3.1 Variabel Penelitian ................................................................................. 8
Tabel 3.2 Struktur Data .......................................................................................... 8
Tabel 4.1 Karakteristik Data ................................................................................ 11
Tabel 4.2 Proporsi 𝑑 2j ........................................................................................... 12
Tabel 4.3 Hasil Uji Homogenitas ......................................................................... 12
Tabel 4.4 Hasil Uji Beda Mean untuk Setiap Variabel Penjelas .......................... 13
Tabel 4.5 Korelasi Antar Variabel ....................................................................... 14
Tabel 4.6 Eigenvalues .......................................................................................... 14
Tabel 4.7 Hasil Uji Wilks’ Lambda ...................................................................... 15
Tabel 4.8 Standardized Canonical Discriminant Function Coefficients ............. 15
Tabel 4.9 Structure Matrix ................................................................................... 15
Tabel 4.10 Canonical Discriminant Function Coefficients ................................. 16
Tabel 4.11 Function at Group Centroids ............................................................. 16
Tabel 4.12 Classification Function Coefficients .................................................. 17
Tabel 4.13 Classification Results ......................................................................... 17

v
DAFTAR GAMBAR

Gambar 3.1 Flow Chart Praktikum ..................................................................... 10


Gambar 4.1 Dendogram Metode Single Linkage ................................................ 12
Gambar 4.2 Dendogram Metode Complete Linkage ........................................... 15

vi
DAFTAR LAMPIRAN
Lampiran 1. Data Praktikum ............................................................................... 22
Lampiran 2. Output SPSS Untuk Menghitung Korelasi ..................................... 22
Lampiran 3. Output SPSS Untuk Menghitung Korelasi ..................................... 23
Lampiran 4. Output SPSS Untuk Uji Kebaikan Model ...................................... 23
Lampiran 5. Output SPSS Untuk Uji Signifikansi Model .................................. 23
Lampiran 6. Output SPSS Untuk Analisis Hubungan Variabel Pediktor dengan
Fungsi Diskriminan ............................................................................................... 24
Lampiran 7. Output SPSS Struktur Matrik ......................................................... 24
Lampiran 8. Output SPSS Canonical Discriminant Function Coefficients ........ 25
Lampiran 9. Output SPSS Function at Group Centroids.................................... 25
Lampiran 10. Output SPSS Classification Function Coefficients ...................... 25

vii
BAB I
PENDAHULUAN

1.1 Latar Belakang


Diabetes adalah penyakit yang kronis serta ditandai dengan glukosa (kadar
gula) pada darah yang tinggi. Tubuh tidak dapat menyerap glukosa dengan baik,
sehingga menumpuk di dalam darah dan dapat menimbulkan berbagai gangguan
organ tubuh. Jika diabetes tidak dikontrol dengan baik, dapat timbul berbagai
komplikasi yang membahayakan nyawa penderita. Berdasarkan penelitian WHO
tahun 2000, sebanyak 2,1% penduduk dunia menderita diabetes, penderitas diabetes
di Asia sebanyak 60%, sedangkan di Indonesia sebanyak 1,2-2,3% jumlah
penduduk Indonesia menderita diabetes. Penelitian Diabetes Atlas tahun 2015
mengatakan bahwa Indonesia menempati posisi ke tujuh sebagai negara yang
memiliki jumlah penderitas diabetes terbanyak, yaitu sebesar 11,4 juta orang. Pada
penderita diabetes, ada gangguan keseimbangan tranportasi gula kedalam sel antara
gula yang disimpan di hati dan gula yang dikeluarkan dari hati, sehingga kadar gula
dalam darah meningkat (Tandra, 2017). Hal ini disebabkan oleh dua hal, penyebab
yang pertama karena pankreas yang adalah organ yang terletak di belakang
lambung penghasil insulin, tidak mampu memproduksi insulin. Tanpa insulin, sel-
sel tubuh tidak dapat menyerap dan mengolah glukosa menjadi energi. Penyebab
yang kedua karena sel tubuh tidak memberi respon terhadap kerja insulin sebagai
kunci untuk membuka pintu sel sehingga gula tidak dapat masuk ke dalam sel.
Terdapat 2 tipe diabetes, tipe 1 yang dikenal juga dengan diabetes autoimun
disebabkan oleh faktor genetik dari penderita yang dipengaruhi juga oleh faktor
lingkungan, sedangkan tipe 2 adalah diabetes yang lebih sering terjadi yang
disebabkan oleh sel-sel tubuh yang menjadi kurang sensitif terhadap insulin,
sehingga insulin yang dihasilkan tidak dapat dipergunakan dengan baik (resistensi
sel tubuh terhadap insulin). Penyakit diabetes dapat dianalisis menggunakan
analisis analisis diskriminan.
Analisis diskriminan merupakan salah satu dari analisis multivariat dengan
metode dependensi, dimana metode dependensi adalah metode untuk menganalisis
variabel-variabelnya tidak saling bergantung satu dengan yang lain. Analisis
diskriminan bertujuan untuk mengklasifikasikan suatu individu atau observasi ke

1
dalam kelompok yang saling bebas (mutually exclusive/disjoint) dan menyeluruh
(exhaustive) berdasarkan sejumlah variabel penjelas. Analisis diskriminan
digunakan ketika variabel dependen merupakan data kategorik atau kualitatif
(ordinal atau rasio), sedangkan variabel independen berupa data kuantitatif (interval
atau rasio). Dalam analisis diskriminan variabel dependen hanya satu, sedangkan
variabel independen banyak (Johnson, 2007).
Variabel yang digunakan dalam analisis diskriminan adalah analisis terhadap
faktor – faktor yang mempengaruhi penyakit diabetes tahun 2012 di Indonesia.
Sebelum melakukan analisis diskriminan, dilakukan analisis karakteristik data, uji
asumsi multivariat normal, dan homogenitasnya secara multivariat.

1.2 Rumusan Masalah


Berdasarkan latar belakang di atas, terdapat rumusan masalah sebagai berikut:
1. Bagaimana karakteristik data Imblaced?
2. Bagaimana uji asumsi normal multivariat data data Imblaced?
3. Bagaimana uji asumsi homogenitas data data Imblaced?
4. Bagaimana analisis diskriminan data Imblaced dengan tahapan uji beda mean
antar kelas, kebaikan model, uji signifikan model, analisis hubungan variabel
prediktor dengan fungsi diskriminan, dan analisis ketepatan klasifikasi?

1.3 Tujuan
Berdasarkan rumusan masalah di atas, tujuan yang ingin dicapai adalah
sebagai berikut:
1. Mengetahui karakteristik data Imblaced
2. Mengetahui uji asumsi normal multivariat data data Imblaced
3. Mengetahui uji asumsi homogenitas data data Imblaced
4. Mengetahui analisis diskriminan data Imblaced dengan tahapan uji beda
mean antar kelas, kebaikan model, uji signifikan model, analisis hubungan
variabel prediktor dengan fungsi diskriminan, dan analisis ketepatan
klasifikasi?

1.4 Manfaat
Adapun manfaat yang diperoleh dari penelitian kali ini adalah mengetahui
klasifikasi baru yang terbentuk dari data Imblaced dengan metode analisis

2
diskriminan. Selain itu, dapat memahami asumsi-asumsi dari analisis diskriman,
sehingga ketika dihadapkan dengan masalah diskriminan yang nyata, dapat
menyelesaikannya dengan baik.

1.5 Batasan Masalah


Batasan masalah dalam percobaan kali ini adalah pada data Imblaced terdapat
30 pasien penderita diabetes, dimana ada 8 variabel prediktor yang merupakan
faktor-faktor yang mempengaruhi penyakit diabetes di Indonesia tahun 2012.
Delapan variabel tersebut adalah jumlah kelahiran, konsentrasi glukosa plasma,
tekanan darah diastolik, ketebalan lipatan kulit, serum insulin, indeks massa tubuh,
diabetes predigree function, serta usia pasien.

3
BAB II
TINJAUAN PUSTAKA

2.1 Statistika Deskriptif


Statistika deskriptif berkenaan dengan deskripsi data missal dengan
menghitung rata-rata dan varians dari data mentah; mendeskripsikan menggunakan
tabel-tabel atau grafik sehingga data mentah lebih mudah dipahami dan bermakna.
Statistika deskriptif menunjukkan bagaimana data dapat digambarkan (dideskrip-
sikan) atau disimpulkan baik secara numerik (misal menghitung rata-rata dan
deviasi standar) atau secara grafis (dalam bentuk tabel atau grafik) untuk mendapat-
kan gambaran sekilas mengenai data tersebut sehingga lebih mudah dibaca dan
bermakna (Hasan, 1999).
Contoh statistika deskriptif adalah rata-rata dan deviasi standar. Rata-rata atau
sering disebut mean merupakan rasio dari total nilai pengamatan dengan banyaknya
pengamatan. Rumus yang digunakan untuk menghitung mean dari data tunggal
adalah
∑𝑛
𝑖=1 𝑥𝑖
𝑥̄ = 𝑛
(2.1)
Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
Deviasi standar atau biasa disebut standard deviation adalah ukuran yang
mendeskripsikan penyebaran suatu data. Berikut adalah rumus untuk menhitung
deviasi standar.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
𝑠=√ 𝑛−1
(2.2)

Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
𝑋= nilai rata-rata
Sementara, nilai maksimum adalah nilai tertinggi dari suatu gugus data dan
nilai minimum adalah nilai terendah dari suatu gugus data. Namun, statistika
deskriptif tidak dapat digunakan untuk mengambil suatu kesimpulan yang berkaitan
dengan populasi.

4
2.2 Uji Normal Multivariat
Seringkali sebelum melakukan pemodelan statistik, penting untuk
mengetahui apakah data yang sedang diamati memenuhi asumsi di bawah distribusi
tertentu. Uji normal multivariat merupakan uji yang digunakan untuk mengetahui
apakah data berdistribusi normal secara multivariat atau tidak. Variabel
𝑥1 , 𝑥2 , . . . , 𝑥𝑝 dikatakan berditribusi normal multivariat dengan parameter 𝜇 dan Σ
(Johnson dan Wichern, 2007).
Hipotesis
H0 : data berdistribusi normal multivariat
H1 : data tidak berdistribusi normal multivariat
Taraf siginifikan : 𝛼
Statistik uji :
𝑑𝑗 2 < 𝜒𝛼2 (2.3)
dimana j = banyaknya variabel,
𝑑𝑗 2 = (𝑥 − 𝑥̄ )𝑆 −1 (𝑥 − 𝑥̄ ) (2.4)
1 2
𝑆𝑗𝑗 = 𝑛−1 ∑𝑛𝑗=1(𝑥𝑗 − 𝑥̄ ) (2.5)

Daerah kritis : Tolak 𝐻0 jika 𝑡 < 0,5 roughly 50%

2.3 Uji Homogenitas


Uji homogenitas merupakan pengujian yang dilakukan untuk mengetahui
beberapa kelompok data sampel berasal dari populasi dengan varians yang sama
atau tidak (Johnson dan Wichern, 2007). Salah satu metode yang dapat digunakan
adalah Metode Box’s M dengan uji hipotesis sebagai berikut.
H0 : ∑1 = ∑2 = ⋯ = ∑𝑘
H1 : minimal terdapat satu ∑𝑖 ≠ ∑𝑗 𝑢𝑛𝑡𝑢𝑘 𝑖 ≠ 𝑗
Statistik uji yang digunakan seperti berikut.
1 1
𝜒 2 = −2(1 − 𝑐1 ) [2 ∑𝑘𝑖=1 𝑣𝑖 𝑙𝑛|𝑆𝑖 | − 2 𝑙𝑛‖𝑆𝑝𝑜𝑜𝑙𝑒𝑑 ‖ ∑𝑘𝑖𝑖=1 𝑣𝑖 ] (2.6)

dengan,
∑𝑘
𝑖=1 𝑣𝑖 𝑆𝑖
𝑆𝑝𝑜𝑜𝑙𝑒𝑑 = ∑𝑘
(2.7)
𝑖=1 𝑣𝑖

1 1 2𝑝2 +3𝑝−1
𝑐1 = [∑𝑘𝑖=1 𝑣 − ∑𝑘 ] [6(𝑝+1)(𝑘−1)] (2.8)
𝑖 𝑖=1 𝑣𝑖

5
2
Data akan dikatakan homogen ketika nilai 𝜒 2 ≤ 𝜒(𝑘−1)𝑝(𝑝+1) . Bisa juga
menggunakan nilai p-value yaitu gagal tolak H0 jika p-value > α.

2.4 Analisis Diskriminan


Analisis diskriminan adalah teknik analisis yang digunakan untuk
menglasifikasikan objek kedalam beberapa kelompok dimana pengelompokan ini
terjadi karena ada pengaruh antara variabel prediktor. Analisis diskriminan
termasuk dependence method, yakni adanya variabel dependen dan variabel
independen. Model dasar analisis diskriminan adalah sebuah persamaan yang
menunjukkan suatu kombinasi linier dari berbagai variabel independent
ditunjukkan sebagai berikut (Johnson dan Wichern, 2007).
𝐷 = 𝑏0 + 𝑏1 𝑋 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘 (2.9)
Keterangan:
𝐷 = Skor diskriminan
𝐵 = Koefisien diskriminan atau bobot
𝑋 = prediktor atau variabel independen
Langkah-langkah untuk menganalisis diskriminan adalah sebagai berikut.
1. Uji asumsi
Asumsi yang harus dipenuhi ialah variabel 𝑥 independen dan berdistribusi
multivariat normal serta mempunyai matriks varian yang sama.
2. Pembentukan fungsi linier
Fungsi liniernya ditunjukkan sebagai berikut.
−1
𝑦̂ = (𝑥̅1 − 𝑥̅2 )′ 𝑆𝑝𝑜𝑜𝑙𝑒𝑑 𝑥 = 𝑎̂′ 𝑥 (2.10)
3. Prediksi klasifikasi
Mengklasifikasikan 𝑥 ke populasi 1( 𝜋1 ) jika,
−1 1 −1
(𝑥̅1 − 𝑥̅2 )′ 𝑆𝑝𝑜𝑜𝑙𝑒𝑑 𝑥0 − 2 (𝑥̅1 − 𝑥̅2 )′ 𝑆𝑝𝑜𝑜𝑙𝑒𝑑 (𝑥̅1 + 𝑥̅2 ) ≥ 0 (2.11)

dan jika sebaliknya, maka 𝑥 diklasifikasikan ke populasi 2 ( 𝜋2 ).


4. Evaluasi akurasi klasifikasi
Apparent Error Rate (APER) didefinisikan sebagai nilai dari besar kecilnya
jumlah observasi yang salah diklasifikasikan oleh fungsi klasifikasi. Tingkat
kesalahan klasifikasi diperoleh menggunakan tabel kesalahan klasifikasi dan rumus
sebagai berikut.

6
Tabel 2.1 Confusion Matrix
Kelompok 𝝅𝟏 𝝅𝟐
𝝅𝟏 n1c n1m
𝝅𝟐 n2m n2c
𝑛1 𝑚+ 𝑛2 𝑚
APER= × 100% (2.12)
𝑛1 +𝑛2

Akurasi = 1-APER (2.13)

2.5 Diabetes
Diabetes adalah penyakit yang berlangsung lama atau kronis serta ditandai
dengan kadar gula (glukosa) darah yang tinggi atau di atas nilai normal. Glukosa
yang menumpuk di dalam darah akibat tidak diserap sel tubuh dengan baik dapat
menimbulkan berbagai gangguan organ tubuh. Jika diabetes tidak dikontrol dengan
baik, dapat timbul berbagai komplikasi yang membahayakan nyawa penderita.
Glukosa merupakan sumber energi utama bagi sel tubuh manusia. Kadar gula dalam
darah dikendalikan oleh hormon insulin yang diproduksi oleh pankreas, yaitu organ
yang terletak di belakang lambung. Pada penderita diabetes, pankreas tidak mampu
memproduksi insulin sesuai kebutuhan tubuh. Tanpa insulin, sel-sel tubuh tidak
dapat menyerap dan mengolah glukosa menjadi energi (Harmanto dan Prapti,
2013).
Secara umum, diabetes dibedakan menjadi dua jenis, yaitu diabetes tipe 1 dan
tipe 2. Diabetes tipe 1 terjadi karena sistem kekebalan tubuh penderita menyerang
dan menghancurkan sel-sel pankreas yang memproduksi insulin. Diabetes tipe 2
merupakan jenis diabetes yang lebih sering terjadi. Diabetes jenis ini disebabkan
oleh sel-sel tubuh yang menjadi kurang sensitif terhadap insulin, sehingga insulin
yang dihasilkan tidak dapat dipergunakan dengan baik. Selain kadar glukosa dan
insulin dalam tubuh, diabetes juga dapat dipengaruhi oleh jumlah kelahiran,
tekanan darah, ketebalan lipatan kulit, indeks massa tubuh, dan usia seseorang
(Soegondo, 2007).

7
BAB III
METODOLOGI PENELITIAN

3.1 Sumber Data


Data yang digunakan dalam laporan ini merupakan data sekunder yang
diperoleh dari Tugas Akhir oleh Hartayun Sain (1311 201007) dari Institut
Teknologi Sepuluh Nopember yang berjudul Combine Sampling Support Vector
Machine untuk Klasifikasi Data Imblaced. Data diambil pada hari Jumat, tanggal
10 Mei 2019 pukul 09.50 WIB di Ruang Baca Jurusan Statistika ITS.

3.2 Variabel Penelitian


Variabel yang digunakan dalam penelitian kali ini adalah sebagai berikut.
Tabel 3.1 Variabel Penelitian
Variabel Keterangan Satuan
Hasil Prediksi penyakit diabetes
Y 0 = diabetes negatif Nominal
1 = diabetes positif
X1 Jumlah Kelahiran Rasio
X2 Konsentrasi Glukosa Plasma Rasio
X3 Tekanan Darah Diastolik Rasio
X4 Ketebalan LipatanKulit Rasio
X5 Serum Insulin Rasio
X6 Indeks Massa Tubuh Rasio
X7 Diabetes Predigree Function Rasio
X8 Usia Pasien Rasio
3.3 Struktur Data
Berikut adalah struktur data dalam praktikum ini.
Tabel 3.2 Struktur Data
Y X1 X2 ⋯ X8
Y1 X11 X12 ⋯ X18
Y2 X21 X22 ⋯ X28
Y3 X31 X32 ⋯ X38
⋮ ⋮ ⋮ ⋱ ⋮
Y30 X301 X302 ⋯ X308
3.4 Langkah Analisis
Langkah analisis yang dilakukan dalam penelitian ini adalah sebagai berikut.
1. Merumuskan masalah dan menentukan tujuan.
2. Mencari data sekunder tugas akhir di Ruang Baca Statistika.
3. Menganalisis karakteristik data.

8
4. Melakukan pengujian asumsi distribusi normal multivariat serta uji
homogenitas.
5. Menganalisis data dengan metode analisis diskriminan dengan pengujian
beda mean antar grup/kelas data.
6. Menganalisis kebaikan model berdasarkan nilai R2.
7. Melakukan pengujian signifikansi model berdasarkan P-value dari wilks
lambda.
8. Melihat hubungan variabel prediktor dengan fungsi diskriminan dan
menentukan variabel yang paling berpengaruh dalam penentuan kelas data
suatu objek dalam analisis diskriminan
9. Menghitung besarnya ketepatan klasifikasi dari fungsi diskriminan yang
terbentuk.
10. Menarik kesimpulan dan saran.

3.5 Diagram Alir


Diagram alir menggambarkan alur perjalanan pembuatan laporan ini, mulai
dari proses perumusan masalah, menentukan tujuan penelitian, hingga penarikan
kesimpulan dan saran. Diagram alir yang dipakai dalam laporan ini adalah:

Mulai

Mengumpulkan
Data

Tolak
Uji Normal
Multivariat Diasumsikan

Gagal Tolak

Tolak
Diasumsikan Uji Homogenitas

Gagal Tolak

9
A

Analisis Diskriminan

Kesimpulan

Selesai

Gambar 3.1 Flow Chart Praktikum

10
BAB IV
ANALISIS DAN PEMBAHASAN

4.1 Analisis Karakteristik Data


Eksplorasi data dilakukan untuk mengetahui karakteristik data faktor-faktor
yang mempengaruhi penderita diabetes di Indonesia pada tahun 2012. Berikut
merupakan hasil eksplorasi data menggunakan software SPSS.
Tabel 4.1 Karakteristik Data
Variabel Rata-rata Varians Min Median Max
Konsentrasi Glukosa Plasma 130,07 1075,03 78 122 197
Usia Pasien 38,27 128,69 21 33 59
Pada Tabel 4.1 diperoleh informasi bahwa rata-rata usia pasien yang diambil
sebagai responden adalah 39 tahun dengan tingkat keragaman sebesar 128,69. Usia
termuda pasien adalah 21 tahun sedangkan yang paling tua adalah 59 tahun dengan
50% total jumlah pasien (responden) sebanyak 30 responden berumur dibawah 33
tahun dan 50% lainnya berumur diatas 33 tahun.
Selain dilihat dari sisi usia, hasil penyakit diabetes dapat diprediksi melalui
konsentrasi glukosa plasma. Rata-rata konsentrasi glukosa plasma dari 30
responden adalah 130,07 mg/dl dengan keragaman konsentrasi sebesar 1075,03.
Konsentrasi glukosa plasma tertinggi adalah 197 mg/dl sedangkan terendah adalah
78 mg/dl dengan 50% konsentrasi glukosa plasma pasien berada diatas 122 mg/dl
dan 50% sisanya berada dibawah 122 mg/dl.

4.2 Uji Normal Multivariat


Salah satu asumsi yang harus dipenuhi sebelum melakukan analisis
diskriminan adalah asumsi normal multivariat. Berikut adalah hasil pengujian
normal multivariat menggunakan korelasi nilai 𝑞𝑐 dan 𝑑 2j (jarak Mahalanobis)
secara visual.

11
20

15

dj2
10

0
0 5 10 15 20
qc

Gambar 4.1 Scatterplot antara 𝑞𝑐 dan 𝑑 2j


Gambar 4.1 menunjukkan bahwa titik-titik merah cenderung mengikuti garis
diagonal sehingga dapat disimpulkan bahwa data mengikuti distribusi normal
multivariat. Namun, terkadang pemeriksaan secara visual kurang memberikan hasil
yang baik sehingga perlu diperkuat dengan melakukan pengujian menggunakan uji
korelasi Pearson. Adapun hasil dari uji proporsi disajikan pada Tabel 4.1 berikut.
Tabel 4.2 Proporsi 𝑑 2j
Nilai Proporsi 0,533
Berasarkan Tabel 4.2, nilai proporsi pada uji yang dilakukan dengan minitab
adalah sebesar 0,53 atau sebesar 53%. Nilai tersebut berada di luar rentang 46%-
54% yang merupakan interval proporsi yang telah ditetapkan dalam pengujian
multivariat normal. Sehingga bisa dikatakan bahwa variabel prediktor data
Imblaced tidak berdistribusi normal multivariat. Namun, pada praktikum kali ini
data diasumsikan normal multivariat.

4.3 Uji Homogenitas


Uji homogenitas digunakan untuk menguji matriks varians kovarians dari
sekelompok data homogen/identik atau tidak. Pada praktikum ini dilakukan uji
homogenitas terhadap data Imblaced, dimana hasil pengujian menggunakan
bantuan software SPSS ditampilkan pada tabel berikut.
Tabel 4.3 Hasil Uji Homogenitas
Box’s M F df1 df2 Sig.
65,193 1,199 36 1876,088 0,195
Tabel 4.3 menunjukkan nilai signifikansi pada pengujian homogenitas adalah
0,195 dimana nilai ini lebih besar dari taraf signifikansi yang digunakan (α = 0,05)
sehingga dapat diputuskan untuk gagal tolak H0 yang berarti bahwa variabel

12
penelitian homogen atau memiliki varians yang sama. Sehingga data Imblaced telah
memenuhi asumsi homogen dan dapat dilanjutkan untuk penelitian.

4.4 Analisis Diskriminan


Dalam menganalisa data Imblaced menggunakan analisis diskriminan,
terdapat beberapa tahapan yang harus dilakukan sebagai berikut.
A. Uji Beda Mean Antar Kelas
Dalam analisis diskriminan perlu dilakukan identifikasi awal yaitu uji beda
mean untuk mengetahui faktor-faktor variabel yang signifikan memberi perbedaan
terhadap 2 diagnosa dan sekaligus untuk mengetahui apakah variabel yang
digunakan baik untuk dijadikan sebagai penentu klasifikasi.
Tabel 4.4 Hasil Uji Beda Mean untuk Setiap Variabel Penjelas

Variabel Wilks' Lambda Sig.


X1 0.995688279 0.730286092
X2 0.784769237 0.009812637
X3 0.999951782 0.970949465
X4 0.966443954 0.332578214
X5 0.953838201 0.254214816
X6 0.999784138 0.938578003
X7 0.999946709 0.969459922
X8 0.956469506 0.268536047
Berdasarkan Tabel 4.4, dapat diketahui bahwa terdapat perbedaan nilai rata-
rata (mean) pada salah satu variabel yang digunakan, yaitu konsentrasi glukosa
plasma (X2) untuk diagnosa negatif diabetes dan positif diabetes karena nilai
signifikansi 0,009 yang kurang dari nilai alpha sebesar 0,05. Hal tersebut
menunjukkan bahwa variabel konsentrasi glukosa plasma baik untuk dijadikan
sebagai penentu klasifikasi. Namun untuk variabel lainnya memiliki nilai
signifikansi yang lebih besar dari nilai alpha sebesar 0,05 yang menunjukkan
kurang baik untuk dijadikan sebagai penentu klasifikasi. Selanjutya akan dilihat
hubungan antara masing-masing variabel prediktor menggunakan nilai korelasi
yang disajikan pada Tabel 4.5 berikut.

13
Tabel 4.5 Korelasi Antar Variabel
Variabel X1 X2 X3 X4 X5 X6 X7 X8
X1 1.000 0.210 0.135 -0.510 -0.445 -0.256 -0.113 0.390
X2 0.210 1.000 0.250 -0.134 0.393 0.028 0.066 0.555
X3 0.135 0.250 1.000 -0.007 -0.021 -0.154 -0.145 0.317
X4 -0.510 -0.134 -0.007 1.000 0.456 0.304 0.062 -0.096
X5 -0.445 0.393 -0.021 0.456 1.000 0.072 0.000 0.316
X6 -0.256 0.028 -0.154 0.304 0.072 1.000 0.161 -0.269
X7 -0.113 0.066 -0.145 0.062 0.000 0.161 1.000 0.094
X8 0.390 0.555 0.317 -0.096 0.316 -0.269 0.094 1.000
Tabel 4.5 menunjukkan bahwa korelasi antara variabel jumlah kelahiran dan
konsentrasi glukosa plasma sebesar 0,21 dan bertanda positif yang artinya
berhubungan lurus antara variabel tersebut. Sedangkan untuk korelasi antara jumlah
kelahiran dan ketebalan lipatan kulit sebesar 0,51 dan bertanda negatif, sehingga
dapat diartikan bahwa antara variabel tersebut memiliki hubungan yang terbalik.
Begitu juga dengan variabel-variabel yang lainnya. Sehingga dapat disimpulkan
bahwa antar variabel tidak terindikasi multikolinieritas karena nilai korelasi yang
relatif di bawah angka 0,95.
B. Analisis Kebaikan Model
Tahap selanjutnya adalah menganalisis kebaikan model berdasarkan R2 pada
output SPSS yang diperoleh.
Tabel 4.6 Eigenvalues
% of Cumulative Canonical
Function Eigenvalue
Variance % Correlation
1 0.424 100 100 0,545
Pada Tabel 4.6, satu fungsi (model) yang terbentuk memiliki arti mampu
menjelaskan keragaman dari variabel respon, dalam hal ini adalah diagnosa
penyakit diabetes, sebesar 0,545 atau 54,5%. Selain itu, dengan satu fungsi yang
terbentuk diperoleh eigenvalue sebesar 0,424 yang sudah dapat menjelaskan
keragaman sebesar 100%.
C. Uji Signifikansi Model
Hasil pengujian kesamaan rata-rata kelompok berdasarkan seluruh variabel
penjelas ditunjukkan oleh Tabel 4.7.

14
Tabel 4.7 Hasil Uji Wilks’ Lambda
Test of Wilks’
Chi-square df Sig.
Function(s) Lambda
1 0,702 8.475 8 0,388
Berdasarkan Tabel 4.7, dapat diketahui bahwa statistik uji Wilks’ Lambda
yang dihasilkan sebesar 0,702. Nilai tersebut menunjukkan bahwa 70,2%
keragaman yang tidak dapat dijelaskan. Selain itu, didapatkan juga nilai P-value
sebesar 0,388 sehingga pada tingkat kepercayaan 5% dapat diputuskan untuk gagal
tolak H0 yang artinya bahwa ketiga variabel prediktor atau variabel penjelas belum
mampu membedakan grup secara signifikan.
D. Analisis Hubungan Variabel Prediktor dengan Fungsi Diskriminan
Hasil analisis hubungan variabel prediktor dengan fungsi diskriminan
disajikan pada tabel berikut ini.
Tabel 4.8 Standardized Canonical Discriminant Function Coefficients
Function 1
Jumlah Kelahiran 0.066
Konsentrasi Glukosa Plasma 1.205
Tekanan Darah Diastolik -0.312
Ketebalan Lipatan Kulit 0.724
Serum Insulin -0.381
Indeks Massa Tubuh -0.257
Diabetes Predigree Function -0.097
Usia Pasien -0.137
Tabel 4.8 menunjukkan bahwa pada variabel jumlah kelahiran, konsentrasi
glukosa plasma, dan ketebalan lipatan kulit memiliki hubungan yang positif atau
berbanding lurus dengan fungsi diskriminan. Sedangkan untuk variabel tekanan
darah diastolik, serum insulin, indeks massa tubuh, diabetes predigree function, dan
usia pasien memiliki hubungan negatif atau terbalik dengan fungsi diskriminan.
Hubungan terbesar dimiliki oleh variabel ketebalan lipatan kulit dengan nilai
hubungan sebesar 0,724. Selanjutnya didapatkan struktur matriks sebagai berikut.
Tabel 4.9 Structure Matrix
Function 1
Konsentrasi Glukosa Plasma 0.805
Serum Insulin 0.338
Usia Pasien 0.328
Ketebalan Lipatan Kulit 0.286
Jumlah Kelahiran 0.101
Indeks Massa Tubuh 0.023
Tekanan Darah Diastolik 0.011
Diabetes Predigree Function 0.011

15
Dari Tabel 4.9, yaitu tabel struktur matriks dapat disimpulkan bahwa
konsentrasi glukosa plasma memiliki kontribusi terbesar senilai 80,5% atau
variabel konsentrasi glukosa plasma lebih berpengaruh terhadap fungsi
diskriminan. Sedangkan untuk serum insulin dan usia pasien berkontribusi sebesar
33,8% dan 32,8%. Sedangkan variabel lainnya memiliki kontribusi dibawah 30%.
Berikut didapatkan pula canonical discriminant function coefficients yang disajikan
pada Tabel 4.10.
Tabel 4.10 Canonical Discriminant Function Coefficients
Function 1
Jumlah Kelahiran 0.017
Konsentrasi Glukosa Plasma 0.041
Tekanan Darah Diastolik -0.013
Ketebalan Lipatan Kulit 0.043
Serum Insulin -0.002
Indeks Massa Tubuh -0.029
Diabetes Predigree Function 0.000
Usia Pasien -0.012
(Constant) -3.638
Berdasarkan Tabel 4.10 dapat dibentuk model (persamaan) diskiminan
sebagai berikut.
𝑦 = -3,638 + 0,017 Jumlah Kelahiran + 0,041 Konsentrasi Glukosa Plasma - 0,013
Tekanan Darah Diastolik + 0,043 Ketebalan Lipatan Kulit - 0,002 Serum
Insulin - 0,029 Indeks Massa Tubuh + 0,000 Diabetes Predigree Function -
0,012 Usia Pasien
Apabila nilai diskriminan semakin besar maka akan mengakibatkan observasi
masuk ke kelompok negatif diabetes sedangkan apabila nilai skor diskriminan
semakin kecil maka akan diklasifikasikan ke dalam kelompok positif diabetes.
Selanjutnya, didapatkan function at group centroids yang digunakan untuk
mengetahui dari persamaan 𝑦 diatas observasi akan masuk ke kelompok mana.
Tabel 4.11 Function at Group Centroids
Function
Diagnosa m centroid
1
Diabetes Negatif -0,770
0.1285
Diabetes Positif 0,513
Tabel 4.11 menunjukkan hasil perhitungan group centroids sehingga
diketahui observasi akan masuk pada kelompok diabetes negatif atau kelompok
diabetes positif. Jika hasil nilai observasi 𝑦 kurang dari 0,1285 maka observasi
tersebut masuk kedalam kelompok diabetes negatif. Sedangkan apabila nilai

16
observasi 𝑦 lebih besar dari 0,1285 maka observasi tersebut akan masuk ke dalam
kelompok diabetes positif. Kemudian didapatkan pula classification function
coefficients dari fisher yang digunakan untuk mengetahui observasi masuk ke
dalam kelompok mobil regular atau mobil sports dengan membandingkan kedua
persamaan fisher’s.
Tabel 4.12 Classification Function Coefficients
Diagnosa Diabetes
Negatif Positif
Jumlah Kelahiran -0.148 -0.126
Konsentrasi Glukosa Plasma 0.095 0.147
Tekanan Darah Diastolik 0.061 0.045
Ketebalan Lipatan Kulit 0.082 0.136
Serum Insulin -0.018 -0.020
Indeks Massa Tubuh 0.516 0.479
Diabetes Predigree Function -0.002 -0.002
Usia Pasien 0.336 0.320
(Constant) -21.715 -26.219
Berdasarkan Tabel 4.12 didapatkan persamaan fisher’s sebagai berikut.
𝑦1 = – 21,715 + 0,061 Tekanan Darah Diastolik – 0,018 Serum Insulin + 0,516
Indeks Massa Tubuh – 0,002 Diabetes Predigree Function + 0,336 Usia Pasien
𝑦2 = – 26,219 – 0,126 Jumlah Kelahiran + 0,147 Konsentrasi Glukosa Plasma +
0,136 Ketebalan Lipatan Kulit
E. Analisis Ketepatan Klasifikasi
Setelah dilakukan pengelompokkan selanjutnya dapat dihitung nilai akurasi
terhadap hasil klasifikasi yang terbentuk dengan melihat tabel berikut.
Tabel 4.13 Classification Results
Predicted Group
Diagnosa Membership Total
Diabetes Negatif Positif
Negatif 9 3 12
Count
Positif 6 12 18
Original
Negatif 75 25 100,0
%
Positif 33.3 66.7 100,0
Pada Tabel 4.13 dapat diketahui bahwa 3 dari 12 observasi atau sebesar 25%
pada kelompok diagnosa negatif tidak tepat pengklasifikasiannya atau tidak sesuai
dengan kenyataan, sedangkan pada kelompok diagnosa positif terdapat 6 dari 18
observasi atau sebesar 33,3% pengklasifikasian yang tidak sesuai. Kesalahan
pengklasifikasian tersebut dapat dihitung menggunakan nilai APER sebagai
berikut.

17
6+3 9
𝐴𝑃𝐸𝑅 = = = 0,3
12 + 18 30
Jadi, persentase kesalahan klasifikasi adalah sebesar 30%, sedangkan untuk
mengetahui akurasi atau ketepatan klasifikasi dapat dihitung menggunakan
persamaan berikut.
Persentase Ketepatan Klasifikasi = (1 − 0, ,3)𝑥 100%
= 0,7 𝑥 100%
= 70%
Berdasarkan hasil akurasi diatas dapat disimpulkan bahwa ketepatan
pengklasifikasian dengan menggunakan metode analisis diskriminan akan
menghasilkan tingkat akurasi sebesar 70% dari data yang ada. Dimana nilai akurasi
tersebut juga menunjukkan bahwa total banyaknya kesalahan pengklasifikasian
(missclassify) sebanyak 9 data.

18
BAB V
KESIMPULAN DAN SARAN

5.1 Kesimpulan
Kesimpulan dalam praktikum ini berdasarkan hasil analisis adalah sebagai
berikut:
1. Berdasarkan analisis karakteristik data diketahui bahwa rata-rata usia pasien
yang diambil sebagai responden adalah 39 tahun dengan tingkat keragaman
sebesar 128,69 dan rata-rata konsentrasi glukosa plasma dari 30 responden
adalah 130,07 mg/dl dengan keragaman konsentrasi sebesar 1075,03.
2. Uji asumsi normal multivariat menghasilkan kesimpulan bahwa variabel
prediktor data Imblaced tidak berdistribusi normal multivariat. Namun, pada
praktikum kali ini data diasumsikan normal multivariat.
3. Uji asumsi homogenitas menghasilkan kesimpulan bahwa data Imblaced telah
memenuhi asumsi homogen dan dapat dilanjutkan untuk penelitian.
4. Berikut merupakan kesimpulan analisis diskriminan pada masing-masing
tahap.
A. Tahap uji beda mean antar kelas adalah terdapat perbedaan nilai rata-rata
(mean) pada salah satu variabel yang digunakan, yaitu konsentrasi
glukosa plasma (X2) untuk diagnosa negatif diabetes dan positif diabetes,
yang berarti variabel konsentrasi glukosa plasma baik untuk dijadikan
sebagai penentu klasifikasi dan antar variabel tidak terindikasi
multikolinieritas.
B. Tahap analisis kebaikan model, didapatkan hasil bahwa model yang
terbentuk sudah dapat menjelaskan keragaman sebesar 100%.
C. Tahap uji signifikan model mendapatkan hasil bahwa ketiga variabel
prediktor atau variabel penjelas belum mampu membedakan grup secara
signifikan.
D. Tahap analisis hubungan variabel prediktor dengan fungsi diskriminan
dihasilkan hubungan terbesar dimiliki oleh variabel ketebalan lipatan
kulit. Variabel konsentrasi glukosa plasma memiliki kontribusi terbesar
terhadap fungsi diskriminan, dimana fungsi diskriminan yang terbentuk
adalah sebagai berikut.

19
𝑦 = -3,638 + 0,017 Jumlah Kelahiran + 0,041 Konsentrasi Glukosa Plasma
- 0,013 Tekanan Darah Diastolik + 0,043 Ketebalan Lipatan Kulit - 0,002
Serum Insulin - 0,029 Indeks Massa Tubuh + 0,000 Diabetes Predigree
Function - 0,012 Usia Pasien
Jika hasil nilai observasi 𝑦 kurang dari 0,1285 maka observasi tersebut
masuk kedalam kelompok diabetes negatif, sedangkan apabila nilai
observasi 𝑦 lebih besar dari 0,1285 maka observasi tersebut akan masuk
ke dalam kelompok diabetes positif. Selanjutnya adalah classification
function coefficients dari fisher didapatkan perbandingan model sebagai
berikut.
𝑦1 = – 21,715 + 0,061 Tekanan Darah Diastolik – 0,018 Serum Insulin +
0,516 Indeks Massa Tubuh – 0,002 Diabetes Predigree Function + 0,336
Usia Pasien
𝑦2 = – 26,219 – 0,126 Jumlah Kelahiran + 0,147 Konsentrasi Glukosa
Plasma + 0,136 Ketebalan Lipatan Kulit
E. Persentase kesalahan klasifikasi adalah sebesar 30%. Ketepatan
pengklasifikasian dengan menggunakan metode analisis diskriminan akan
menghasilkan tingkat akurasi sebesar 70% dari data yang ada.

5.2 Saran
Kegiatan praktikum tentang analisis diskriminan ini harus dilakukan dengan
teliti dan cermat, ketika proses penginputan data dan penginterpretasian setiap
output harus benar dan tepat sehingga diharapkan dapat menunjukkan hasil yang
lebih akurat dan sesuai.

20
DAFTAR PUSTAKA

Hasan, M. I. 1999. Pokok-pokok Materi Statistika. Jakarta: Bumi Aksara.


Harmanto, Ning dan Prapti Utami.2013. Jamu Ajaib Penakluk Diabetes. Jakarta
Selatan: PT Agro Media Pustaka.
Johnson, R.A., & Winchen, D.W. 2007. Applied Multivariate Statistical Analysis.
United States: Pearson Education, Inc.
Soegondo, S. 2007. Diagnosis dan Klasifikasi Diabetes Melitus Terkini. Jakarta:
Balai Penerbit FKUI

21
LAMPIRAN
Lampiran 1. Data Praktikum
Y X1 X2 X3 X4 X5 X6 X7 X8
1 6 148 72 35 0 33,6 0,627 50
0 1 85 66 29 0 26,6 0,351 31
1 8 183 64 0 0 23,3 0,672 32
0 1 89 66 23 94 28,1 0,167 21
1 0 137 40 35 168 43,1 2,288 33
0 5 116 74 0 0 25,6 0,201 30
1 3 78 50 32 88 31 0,248 26
0 10 115 0 0 0 35,3 0,134 29
1 2 197 70 45 543 30,5 0,158 53
1 8 125 96 0 0 0 0,232 54
0 4 110 92 0 0 37,6 0,191 30
1 10 168 74 0 0 38 0,537 34
0 10 139 80 0 0 27,1 1,441 57
1 1 189 60 23 846 30,1 0,398 59
1 5 166 72 19 175 25,8 0,587 51
1 7 100 0 0 0 30 0,484 32
1 0 118 84 47 230 45,8 0,551 31
1 7 107 74 0 0 29,6 0,254 31
0 1 103 30 38 83 43,3 0,183 33
1 1 115 70 30 96 34,6 0,529 32
0 3 126 88 41 235 39,3 0,704 27
0 8 99 84 0 0 35,4 0,388 50
1 7 196 90 0 0 39,8 0,451 41
1 9 119 80 35 0 29 0,263 29
1 11 143 94 33 146 36,6 0,254 51
1 10 125 70 26 115 31,1 0,205 41
1 7 147 76 0 0 39,4 0,257 43
0 1 97 66 15 140 23,2 0,487 22
0 13 145 82 19 110 22,2 0,245 57
0 5 117 92 0 0 34,1 0,337 38

Lampiran 2. Output SPSS Untuk Menghitung Korelasi

22
Lampiran 3. Output SPSS Untuk Menghitung Korelasi

Lampiran 4. Output SPSS Untuk Uji Kebaikan Model

Lampiran 5. Output SPSS Untuk Uji Signifikansi Model

23
Lampiran 6. Output SPSS Untuk Analisis Hubungan Variabel Pediktor dengan Fungsi
Diskriminan

Lampiran 7. Output SPSS Struktur Matrik

24
Lampiran 8. Output SPSS Canonical Discriminant Function Coefficients

Lampiran 9. Output SPSS Function at Group Centroids

Lampiran 10. Output SPSS Classification Function Coefficients

25

Anda mungkin juga menyukai