Klasifikasi Penyakit Diabetes Melitus Tipe II Menggunakan Metode Support Vector Machine

Klasifikasi Penyakit Diabetes Melitus Tipe II Menggunakan
Metode Support Vector Machine

Sukmawati1, Armin Lawi1,2, dan Sri Astuti Thamrin3
1
Program Studi Ilmu Komputer,Universitas Hasanuddin, 90245, Makassar, Indonesia.
2
Program Studi Ilmu Komputer, Universitas Hasanuddin, 90245, Makassar, Indonesia.
3
Program Statistika, Universitas Hasanuddin, 90245, Makassar, Indonesia.
Abstrak
Jumlah penderita Diabetes Melitus (DM) tipe II dari tahun ke tahun terus meningkat namun tidak diiringi dengan penanganan
medis yang tepat. Oleh sebab itu penelitian mengenai penanganan yang tepat untuk penderita DM tipe II terus dilakukan.
Salah satu penelitian mengenai penanganan yang tepat untuk penderita DM tipe II yaitu dengan mengidentifikasi kandidat
biomarker yang berasal dari gen yang paling signifikan dengan memanfaatkan 25770 data ekspresi gen dari otot rangka
pada DM tipe II, selanjutnya hasil identifikasi gen informatif tersebut digunakan untuk meningkatkan hasil klasifikasi.
Kandidat biomarker diidentifikasi menggunakan uji-t dua sampel bebas, selanjutnya fitur yang memiliki perbedaan ekspresi
diklasifikasi menggunakan metode Support Vector Machine (SVM). Seleksi fitur dengan menggunakan metode uji-t dua
sampel bebas, menghasilkan kandidat biomarker sebanyak 50 gen (q-value<0,1). Hasil Cross Validation (CV) model
klasifikasi terbaik dari metode SVM yaitu dengan menggunakan kernel linear dengan 𝑐𝑜𝑠𝑡 = 100 sebesar 92,53%.
Kata Kunci: Diabetes melitus tipe II, Ekspresi gen, Microarray, Uji-t, SVM
1. PENDAHULUAN
Diabetes mellitus tipe (DM) II adalah penyakit kronis yang terjadi ketika pankreas tidak dapat lagi
memproduksi insulin dalam jumlah yang cukup atau dapat juga disebabkan oleh berkurangnya kemampuan
tubuh untuk merespons insulin secara efektif [11]. Jumlah pasien DM di dunia terus meningkat, menurut
Federasi Diabetes Internasional (IDF), yang menyatakan bahwa pada 2013 sekitar 382 juta populasi dunia
menderita DM, diperkirakan bahwa prevalensi akan terus meningkat dan mencapai 592 juta pada tahun 2035
[1]. Dari populasi dunia yang menderita diabetes, proporsi kejadian DM tipe II adalah 95% dan 5% adalah DM
tipe I [13].
Peningkatan jumlah penderita DM terus meningkat setiap tahunnya terutama penderita DM tipe II namun
hingga saat ini belum ada penanganan medis yang diketahui dapat menyembuhkan DM secara permanen.
Tindakan pengobatan pada pasien hanya berfungsi untuk melakukan pencegahan komplikasi dengan cara
menjaga kestabilan gula darah dengan pengobatan secara rutin seumur hidup karena DM merupakan penyakit
seumur hidup yang tidak bisa disembuhkan secara permanen [7]. Oleh sebab itu, penelitian mengenai
penanganan yang tepat untuk penderita DM terutama DM tipe II terus dilakukan. Salah satunya adalah dengan
mengidentifikasi kandidat biomarker dari penyakit DM tipe II.
Biomarker merupakan molekul penanda yang khas bagi sel, yang dapat digunakan untuk mendiagnosa suatu
penyakit dan terapi target molekuler penyebab penyakit tertentu [5]. Pengembangan biomaker terutama dalam
kondisi atau kasus-kasus seperti diabetes setidaknya dapat membantu diagnosa lebih awal, akan tetapi dalam
penelitian biomarker di laboratorium membutuhkan waktu yang cukup lama sehingga dibutuhkan suatu
pendekatan yang dapat digunakan untuk menemukan biomarker suatu penyakit. Salah satu pendekatan yang
dapat digunakan untuk mengidentifikasi biomarker adalah dengan menggunakan teknologi DNA microarray
yang dapat mengukur tingkat ekspresi ribuan gen dari sebuah sampel (pasien) secara simultan dalam sebuah
eksperimen [10].
Identifikasi kandidat biomarker menggunakan ekspresi gen dapat memberikan hasil yang sangat penting
karena dapat digunakan untuk mendiagnosa lebih awal penyakit DM serta membantu pengembangan
pengobatan personal (personalized medicine) dan juga membantu para peneliti untuk menemukan penanganan
yang tepat terhadap penyakit DM tipe II, yang mengarah pada perbaikan terapi target molekuler yang telah ada
serta pengembangan pendekatan terapi target molekuler yang baru.
Penemuan kandidat biomarker pada suatu penyakit DM telah banyak dilakukan, salah satu contohnya yaitu
penelitian yang dilakukan oleh zhang dkk [1], dimana penelitian ini menggunakan metode wilayah diskriminatif
dari aktivitas fungsional untuk identifikasi biomarker pada penyakit DM tipe II maka diperoleh akurasi
biomarker dengan 10-fold cross validation yaitu rata-rata 84,79% dari 5 dataset microarray. Selain itu,
penelitian mengenai biomarker juga dilakukan oleh Lu dkk [4], dengan menggunakan metode uji-t dalam
mengidentifikasi biomarker dan metode Support Vector Machine (SVM) untuk mengklasifikasi biomarker
dalam memprediksi paparan radiasi, sehingga diperoleh akurasi dengan 10-fold cross validation yaitu rata-rata
83% dari 11 dataset microarray .
Hasil dari kedua penelitian di atas yang merupakan kandidat biomarker diperoleh dari data microarray yang
diolah menggunakan metode yang berbeda. Namun banyaknya atribut yang terdapat dalam data microarray
akan mempersulit dalam proses klasifikasi, dan memerlukan waktu yang relatif lama dalam proses komputasi
[8]. Kecocokan antara data microarray dan metode yang digunakan sangatlah penting untuk memperoleh hasil
identifikasi biomarker dengan akurasi yang tinggi.
2. MATERIAL DAN METODE

2.1. Dataset
Data yang digunakan dalam penelitian ini adalah data microarray yang diperoleh melalui situs web ncbi.org.
Data diunduh di (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgiacc=GSE18732). Data GSE18732 adalah data
ekspresi mRNA yang berasal dari otot rangka DM tipe II yang memiliki 118 sampel data pasien yang terdiri
dari 47 pasien normal, 45 diabetes, dan 26 glucoseIntolerant. RNA digabungkan ke dalam platform Affymetric
HGU133plus2.
2.2. t-test
Salah satu cara untuk reduksi dimensi data microarray adalah pemilihan gen atau seleksi fitur, yaitu memilih
sejumlah gen tertentu yang berfungsi sebagai pembeda di antara dua kelas dalam data sampel [10].
Pendekatan yang dapat diterapkan untuk pemilihan gen secara umum adalah filter. Salah satu pendekatan filter
menggunakan uji-t [3]. Uji-t digunakan untuk membandingkan antara dua kondisi atau tepat dua populasi apakah
akan menunjukkan perbedaan antara dua kelompok atau tidak.
Rumus uji-t independen yaitu [12]:
𝑥̅𝑖2 − 𝑥̅𝑖1
𝑡𝑖 =
(2.2)
𝑠2 𝑠2
√ 𝑖1 + 𝑖2
𝑛1 𝑛2
dengan
1 2
2
𝑠𝑖𝑗 = ∑(𝑥𝑖𝑦 − 𝑥̅𝑖𝑗 ) (2.3)
(𝑛𝑗−1 )
𝑦∈𝑗
Dimana 𝑥 adalah rata-rata sampel dan 𝑠 adalah standar deviasi sampel. Dari kedua keadaan ini diperoleh 𝑥̅𝑖1 ,
𝑠𝑖1 dan 𝑥̅𝑖2 , 𝑠𝑖2 dengan jumlah gen yang dilambangkan dengan 𝑖 = 1,2, … 𝑚. 𝑗 merupakan dua kelas sampel
yang digunakan dalam penelitian ini yaitu 1 dan 2, 𝑦 merupakan elemen dari dua kelas sampel 𝑗.
Di antara dua kondisi atau tepat dua populasi, tes untuk hipotesis nol (H0) menunjukkan bahwa rata-rata dua
kondisi atau tepat dua populasi adalah sama. Ini berarti bahwa tidak ada perbedaan yang signifikan antara
keduanya, sehingga fitur tidak berkontribusi banyak pada klasifikasi. Oleh karena itu, perlu untuk menolak
hipotesis nol (H0) dan menerima hipotesis alternatif (H1). Dengan demikian, fitur yang memiliki kesamaan
signifikan dapat dihilangkan, dan fitur yang memiliki perbedaan signifikan dapat diterima [12]. Dalam penelitian
ini uji-t akan diterapkan pada setiap fitur, dan Nilai-P digunakan untuk analisis lebih lanjut untuk mendapatkan
fitur yang paling informatif.
2.5. q-value
q-value memberikan ukuran signifikansi masing-masing fitur, secara otomatis q-value dari ribuan fitur diuji
secara bersamaan. q-value secara langsung memberi ukuran yang berarti terhadap fitur yang disebut signifikan,
q-value memberikan ukuran signifikansi masing-masing fitur, secara otomatis q-value dari ribuan fitur diuji
secara bersamaan. q-value secara langsung memberi ukuran yang berarti terhadap fitur yang disebut signifikan,
karena selajutnya fitur yang signifikan kemungkinan akan mengalami beberapa verifikasi biologis, ambang
batas q-value dapat dijadikan sebagai proporsi fitur signifikan yang ternyata merupakan false positive. FDR
adalah ukuran keseimbangan antara jumlah positif sejati dan false positive dalam banyak penelitian genome
wide.
Berikut ini adalah algoritma umum untuk memperkirakan q-value dari daftar p-value [11]:
1. Misalkan 𝑝(1) ≤ 𝑝(2) ≤ ... ≤ 𝑝(𝑚) adalah p-value yang dihasilkan dari uji-t. Ini juga menunjukkan urutan
fitur dalam hal bukti terhadap hipotesis nol.
2. Untuk rentang λ, λ = 0, 0.01, 0.02, ..., 0.95, hitung
#{𝑝𝑗 > 𝜆}
𝜋̂0 = . (2.4)
𝑚(1 − 𝜆)
3. Misalkan f adalah garis kubik alami dengan 3 df 𝜋̂0 (𝜆) pada 𝜆.
4. Tetapkan perkiraan fitur null (𝜋̂0 ) menjadi
𝜋̂0 = 𝑓̂(1). (2.5)
5. Menghitung
𝜋̂0 𝑚. 𝑡
𝑞̂(𝑝(𝑚) ) = min = 𝜋̂0 . 𝑝(𝑚) . (2.6)
𝑡≥𝑝(𝑚) #{𝑝𝑗 ≤ 𝑡}
6. Untuk i = m - 1, m - 2, ..., 1, hitung
𝜋̂0 𝑚. 𝑡 𝜋̂0 𝑚. 𝑝(𝑖)
𝑞̂(𝑝(𝑖) ) = min = min ( , 𝑞̂(𝑝(𝑖+1) )) (2.7)
𝑡≥𝑝(𝑚) #{𝑝𝑗 ≤ 𝑡} 𝑖
7. Memperkirakan q-value untuk setiap i yang merupakan fitur yang paling signifikan menggunakan
rumus 𝑞̂(𝑝(𝑖) ).
2.6. Synthetic Minority Oversampling Technique
Chawla dkk [2] mengusulkan metode Synthetic Minority Oversampling Technique (SMOTE) sebagai salah
satu solusi dalam menangani data tidak seimbang, berbeda dengan metode oversampling sebelumnya yaitu
menduplikat data secara acak. Metode SMOTE menambah jumlah data kelas minor agar setara dengan kelas
mayor dengan cara membangkitkan data buatan. Data buatan atau sintesis tersebut dibuat berdasarkan k-tetangga
terdekat (k-nearest neighbor). Jumlah k-tetangga terdekat ditentukan dengan mempertimbangkan kemudahan
dalam melaksanakannya. Pembangkitan data buatan yang berskala numerik berbeda dengan kategori. Data
numerik diukur jarak kedekatannya dengan jarak Euclidean sedangkan data kategorik lebih sederhana yaitu
dengan nilai modus.
Prosedur pembangkitan data buatan untuk data numerik:
a. Hitung perbedaan antar vektor utama dengan k-tetangga terdekatnya.
b. Kalikan perbedaan dengan angka yang diacak di antara 0 dan 1.
c. Tambahkan perbedaan tersebut ke dalam nilai utama pada vektor utama asal sehingga diperoleh vektor
utama baru.
2.7. Support Vector Machine

Support Vector Machine (SVM) adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa
fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma
pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal
dari teori pembelajaran statistic [6].
2.7.1. SVM pada Data yang Dapat Dipisahkan secara Linear
SVM merupakan usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada
ruang input.
Gambar 1 Penentuan Hyperplane Terbaik

Gambar 1a memperlihatkan beberapa pattern yang merupakan anggota dari dua buah kelas yaitu +1 dan –1.
Pattern yang tergabung pada kelas –1 disimbolkan dengan warna oranye (kotak), sedangkan pattern pada kelas
+1, disimbolkan dengan warna merah (lingkaran). Permasalahan klasifikasi dapat diterjemahkan dengan usaha
menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis
pemisah (discrimination boundaries) ditunjukkan pada Gambar 1a.
Hyperplane pemisah terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane dan
mencari titik optimum hyperplane tersebut. Margin adalah jarak antara hyperplane dengan pattern terdekat dari
masing-masing kelas. Pattern yang paling dekat disebut sebagai support vector. Garis solid pada Gambar 1b
menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua kelas, sedangkan
titik merah dan orange yang berada dalam lingkaran hitam adalah support vector. Usaha untuk mencari lokasi
hyperplane merupakan inti dari proses pembelajaran pada SVM.
Misal data yang tersedia dinotasikan sebagai 𝑥⃗𝑖 𝜖 ℜ𝑑 sedangkan label masing-masing dinotasikan 𝑦𝑖 𝜖 {-1,+1}
untuk i = 1,2, …,n dimana n adalah banyaknya data. Diasumsikan kedua kelas -1 dan +1 dapat terpisah secara
sempurna oleh hyperplane berdimensi d, yang didefinisikan:
𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 = 0 (2.8)
𝑤
⃗⃗⃗ adalah bobot hyperplane dengan margin maksimal dan b adalah posisi bidang relatif terhadap pusat koordinat,
yang menentukan penggeseran hyperplane ke kiri (data maksimal pada kelas -1) dan ke kanan (data minimal
pada kelas +1) yang paling jauh (Gambar 1b). Pattern 𝑥⃗ yang termasuk kelas -1 (sampel negatif) dapat
dirumuskan sebagai pattern yang memenuhi pertidaksamaan
𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≤ −1, (2.9)
pattern 𝑥 yang termasuk kelas +1
𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≥ +1. (2.10)
Margin terbesar dapat ditemukan dengan mengoptimalkan nilai jarak antara hyperplane dan titik terdekatnya
(meminimakan nilai margin), yaitu 1/|𝑤⃗⃗⃗|. Hal tersebut dapat dirumuskan sebagai Quadratic Programming (QP)
problem, yaitu mencari titik minimal persamaan (2.11), dengan memperhatikan constraint persamaan (2.12).
1
𝑚𝑖𝑛 |𝑤 ⃗⃗⃗|2 (2.11)
2
𝑦𝑖 (𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏) − 1 ≥ 0, ∀ 𝑖 (2.12)
dimana 𝑥⃗𝑖 adalah data input, 𝑦𝑖 adalah keluaran dari data 𝑥⃗𝑖 , 𝑤
⃗⃗⃗ dan b adalah parameter-parameter yang kita cari
1
nilainya. Formulasi di atas, ingin meminimalkan fungsi tujuan (objective function) |𝑤 ⃗⃗⃗ |2 atau |𝑤⃗⃗⃗ |2
2
memaksimalkan kuantitas dengan memperhatikan pembatas sebagaimana persamaan (2.9) dan (2.10). Bila
output data 𝑦𝑖 = +1 , maka pembatas menjadi 𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≥ +1. Sebaliknya bila 𝑦𝑖 = −1 , maka pembatas
menjadi 𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≤ −1.
Permasalahan tersebut dapat dipecahkan dengan berbagai teknik komputasi, di antaranya lagrange multiplier.
𝑛
1
𝐿(𝑤 ⃗⃗⃗|2 − ∑ 𝛼𝑖 (𝑦𝑖 ((𝑤
⃗⃗⃗, 𝑏, 𝛼) = |𝑤 ⃗⃗⃗. 𝑥⃗𝑖 + 𝑏) − 1)) (2.13)
2
𝑖=1
𝑛 𝑛 𝑛
1
𝐿(𝑤 ⃗⃗⃗|2 − ∑ 𝛼𝑖 𝑦𝑖 (𝑤
⃗⃗⃗, 𝑏, 𝛼) = |𝑤 ⃗⃗⃗. 𝑥⃗𝑖 ) − 𝑏 ∑ 𝛼𝑖 𝑦𝑖 + ∑ 𝛼𝑖 (2.14)
2
𝑖=1 𝑖=1 𝑖=1
Tambahan constraint, 𝛼𝑖 ≥ 0 (nilai dari koefisien lagrange). Meminimumkan L terhadap 𝑤
⃗⃗⃗ dan b.
𝜕
𝐿(𝑤
⃗⃗⃗, 𝑏, 𝛼) (2.15)
𝜕𝑏
𝜕
𝐿(𝑤⃗⃗⃗, 𝑏, 𝛼) = 0 (2.16)
𝜕𝑤
Dari persamaan (2.15) dan persamaan (2.16) diperoleh persamaan berikut:
𝑛
∑ 𝛼𝑖 𝑦𝑖 = 0 (2.17)
𝑖=1
𝑛
𝑤
⃗⃗⃗ = ∑ 𝛼𝑖 𝑦𝑖 𝑥⃗𝑖 (2.18)
𝑖=1
Nilai 𝑤
⃗⃗⃗ sering kali besar (mungkin tak terhingga), tetapi nilai 𝛼𝑖 terhingga. Untuk itu, formula lagrangian
primal (Lp) problem diubah kedalam lagrangian dual (Ld) problem. Dengan mensubsitusikan persamaan (2.18)
ke Lp diperoleh Ld dengan constraint berbeda.
𝑛 𝑛
1
𝐿𝑑 (𝛼) = ∑ 𝛼𝑖 − ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥⃗𝑖 𝑥⃗𝑗 (2.19)
2
𝑖=1 𝑖,𝑗=1
dimana 𝛼𝑖 adalah Lagrange Multiplier 𝛼𝑖 ≥ 0. Nilai optimal dari persamaan (2.15) dapat dihitung dengan
meminimalkan L terhadap 𝑤 ⃗⃗⃗ dan b, dan memaksimalkan 𝐿 terhadap 𝛼𝑖 , dengan memperhatikan sifat bahwa
pada titik optimal gradient 𝐿 = 0 persamaan (2.19) dapat dimodifikasi sebagai maksimalisasi problem yang
hanya mengandung 𝛼𝑖 , sebagaimana terlihat pada persamaan (2.20) dan (2.21) dibawah ini.
𝑛 𝑛
1
𝑚𝑎𝑥𝛼 𝐿𝑑 = ∑ 𝛼𝑖 − ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥⃗𝑖 𝑥⃗𝑗 (2.20)
2
𝑖=1 𝑖,𝑗=1
𝑛
𝛼𝑖 ≥ 0, 𝑖 = 1, … , 𝑛 dan ∑ 𝛼𝑖 𝑦𝑖 = 0 (2.21)
𝑖=1
Dengan demikian, dapat diperoleh nilai 𝛼𝑖 yang nantinya digunakan untuk menemukan w. Terdapat nilai 𝛼𝑖
untuk setiap data pelatihan. Data pelatihan yang memiliki nilai 𝛼𝑖 > 0 adalah support vector sedangkan sisanya
memiliki nilai 𝛼𝑖 = 0. Secara lebih detail b dihitung dengan cara
1
⃗⃗⃗. 𝑥⃗𝑖+ + 𝑤
𝑏 = − (𝑤 ⃗⃗⃗. 𝑥⃗𝑖− ) (2.22)
2
𝑥⃗𝑖+ dan 𝑥⃗𝑖− adalah support vector dari kelas +1 dan -1 yang digunakan untuk menghitung nilai b. Dengan
demikian fungsi keputusan yang dihasilkan hanya dipengaruhi oleh support vector. Kelas dari data pengujian x
dapat ditentukan berdasarkan nilai dari fungsi keputusan.
𝑛𝑠
𝑓(𝑥𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝑥⃗𝑖 𝑥⃗𝑑 + 𝑏 (2.23)

𝑖=1
𝑥⃗𝑖 = support vector, ns = jumlah support vector, 𝑦𝑖 = kelas data, 𝛼𝑖 = nilai bobot setiap titik data, 𝑥⃗𝑑 = data yang
akan diklasifikasikan dan b = posisi bidang relatif terhadap pusat koordinat atau posisi bidang pemisah.
2.7.2 SVM pada Data yang Tidak Dapat Dipisahkan secara Linear
Untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linier formula SVM harus dimodifikasi
karena tidak akan ada solusi yang ditemukan. Oleh karena itu, kedua bidang pembatas (2.9) dan (2.10) harus
diubah sehingga lebih fleksibel (untuk kondisi tertentu) dengan penambahan variable ξ𝑖 (ξ𝑖 ≥ 0, ∀𝑖 ∶ ξ𝑖 =
0 jika 𝑥𝑖 diklasifikasikan dengan benar) 𝑤⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≥ 1 − 𝜉𝑖 untuk kelas +1 dan 𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏 ≤ −1 + 𝜉𝑖 untuk
kelas -1. Pencarian bidang pemisah terbaik dengan dengan penambahan variabel ξ𝑖 sering juga disebut soft
margin hyperplane.
Dengan demikian persamaan (2.11) dan (2.12) diubah menjadi:
𝑛
1
⃗⃗⃗|2 + 𝐶 ∑ ξ𝑖
min 𝜏(𝑤) = |𝑤 (2.24)
⃗⃗⃗
𝑤 2
𝑖=1
𝑦𝑖 (𝑤
⃗⃗⃗. 𝑥⃗𝑖 + 𝑏) − 1 ≥ 1 − 𝜉𝑖 (2.25)
ξ𝑖 ≥ 0
C adalah parameter yang menentukan besar penalti akibat kesalahan dalam klasifikasi data dan nilainya
ditentukan oleh pengguna. Bentuk persoalan (2.24) dan (2.25) memenuhi prinsip Structural Risk Minimization
1
(SRM), dimana meminimumkan 2 |𝑤 ⃗⃗⃗|2 ekivalen dengan meminimumkan dimensi Vapnik-Chervonekis (VC)
dan meminimumkan 𝐶(∑𝑙𝑖=1 ξ𝑖 ) berarti meminimumkan kesalahan pada data pelatihan (Osuna dkk, 1997).
Selanjutnya, bentuk primal problem sebelumnya berubah menjadi:
𝑛 𝑛
1
𝑚𝑖𝑛 𝐿𝑝 (𝑤 ⃗⃗⃗|2 𝐶 (∑ 𝜉𝑖 ) − ∑ 𝛼𝑖 { 𝑦𝑖 (𝑤
⃗⃗⃗, 𝑏, 𝛼) ≡ |𝑤 ⃗⃗⃗. 𝑥⃗𝑖 + 𝑏)
⃗⃗⃗,𝑏
𝑤 2
𝑖=1 𝑖=1
𝑛
(2.26)
−1 + 𝜉𝑖 } − ∑ 𝜇𝑖 𝜉𝑖
𝑖=1
Pengubahan Lp ke dalam dual problem, menghasilkan formula yang sama dengan persamaan (2.20) sehingga
pencarian bidang pemisah terbaik dilakukan dengan cara yang hampir sama dengan kasus dimana data dapat
dipisahkan secara linier, tetapi rentang nilai 𝛼𝑖 adalah 0 ≥ 𝛼𝑖 ≥ 𝐶. Instance yang memiliki nilai 𝛼𝑖 = 𝐶 disebut
bounded support vector.
Metode lain untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linier adalah dengan
mentransformasikan data ke dalam dimensi ruang fitur (feature space) sehingga dapat dipisahkan secara linier
pada ruang fitur.
Gambar 2 Transformasi dari Ruang Input ke Ruang Fitur
Caranya, data dipetakan dengan menggunakan 𝜙(. ) yang merupakan fungsi pemetaan (transformasi), 𝑥⃗𝑖 →
𝜙(𝑥⃗𝑖 ) data vektor pada ruang input ditransformasi ke dalam ruang fitur sehingga terdapat bidang pemisah yang
dapat memisahkan data sesuai dengan kelasnya (Gambar 2), untuk bisa memakai metode kernel, pembatas
(constraint) perlu diekspresikan dalam bentuk dot product dari vektor data 𝑥⃗𝑖 atau 𝜙(𝑥⃗𝑖 ) .
Dengan menggunakan fungsi transformasi untuk melakukan tranformasi data vektor 𝑥⃗𝑖 ke dot product 𝑥⃗𝑖 →
⃗⃗⃗ = ∑𝑛𝑠
𝜙(𝑥⃗𝑖 ), maka nilai 𝑤 𝑖=1 𝛼𝑖 𝑦𝑖 𝜙(𝑥
⃗𝑖 ), dan fungsi hasil pembelajaran yang dihasilkan adalah
𝑛𝑠
𝑓(𝑥⃗𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝜙(𝑥⃗𝑖 )𝜙(𝑥⃗𝑑 ) + 𝑏 (2.27)

𝑖=1
Ruang fitur dalam prakteknya biasanya memiliki dimensi yang lebih tinggi dari ruang input. Hal ini
mengakibatkan komputasi pada ruang fitur mungkin sangat besar, karena ada kemungkinan ruang fitur dapat
memiliki jumlah fitur yang tidak terhingga. Selain itu, sulit mengetahui fungsi transformasi yang tepat. Untuk
mengatasi masalah ini, pada SVM digunakan “kernel trick”. Dari persamaan (2.27) terdapat dot product
𝜙(𝑥⃗𝑖 )𝜙(𝑥⃗𝑑 ). Jika terdapat sebuah fungsi kernel K sehingga 𝐾(𝑥⃗𝑖 , 𝑥⃗𝑑 ) = 𝜙(𝑥⃗𝑖 )𝜙(𝑥⃗𝑑 ), dot product pada ruang
fitur bisa dihitung dengan menggunakan fungsi kernel. Dengan demikian fungsi yang dihasilkan dari pelatihan
adalah
𝑛𝑠
𝑓(𝑥⃗𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥⃗𝑖 , 𝑥⃗𝑑 ) + 𝑏 (2.28)

𝑖=1
𝑥⃗𝑖 = support vector, ns = jumlah support vector, 𝛼𝑖 = nilai bobot setiap titik data, 𝑦𝑖 = kelas data, 𝑥⃗𝑑 = data yang
akan diklasifikasikan, dan b = posisi bidang relatif terhadap pusat koordinat.
Fungsi kernel yang umum digunakan adalah sebagai berikut:
1. Kernel Linier
𝐾(𝑥𝑖 , 𝑥) = 𝑥𝑖𝑇 𝑥 (2.29)
2. Polynomial kernel
𝐾(𝑥𝑖 , 𝑥) = (𝛾. 𝑥𝑖𝑇 𝑥 + 𝑟) 𝑝 , 𝛾 > 0 (2.30)
3. Radial Basis Function (RBF)
𝐾(𝑥𝑖 , 𝑥) = exp(−𝛾|𝑥𝑖 − 𝑥|2 ) , 𝛾 > (2.31)
3. HASIL DAN DISKUSI

Data pasien dari GSE18732 memiliki 2 kelas, yaitu normal (dmverified: 0) sebanyak 72 dan DM tipe II
(dmverified: 1) sebanyak 46 digunakan untuk klasifikasi. Sebelum membuat seleksi fitur, terlebih dahulu
lakukan preprocessing data. Preprocessing data dilakukan oleh transformasi logaritma dan normalisasi quantile
dengan tujuan memperoleh data yang terdistribusi normal.
Metode seleksi fitur telah diterapkan dengan menggunakan uji-t, dengan tujuan untuk melihat perbedaan
ekspresi gen antara kedua kelompok data. Data yang diperoleh dari uji-t adalah sebanyak 25770 fitur, sehingga
semua data ini memiliki perbedaan ekspresi gen untuk dua kelompok data, p-value dari uji-t dari 25770 ekspresi
gen digunakan untuk menghitung q-value yang merupakan ukuran signifikansi dalam memperkirakan false
positive dari tes yang dianggap signifikan. Hasil identifikasi kandidat biomarker DM tipe II pada tabel 1 yaitu
50 gen (q-value <0,1).
Tabel 1 Kandidat Biomarker
No. Ensembl_transcript_id q-value

1. ENST00000313860_at 0.008373262
2. ENST00000381753_at 0.008373262
3. ENST00000371761_at 0.020635766
4. ENST00000262662_at 0.023935543
5. ENST00000263934_at 0.023935543
6. ENST00000353409_at 0.023935543
7. ENST00000377081_at 0.023935543
8. ENST00000377086_at 0.023935543
9. ENST00000354729_at 0.025096916
10. ENST00000358023_at 0.025096916
11. ENST00000368151_at 0.025096916
12. ENST00000226972_at 0.026018257
⋮ ⋮ ⋮
50. ENST00000372518_at 0.099970818
Data yang akan digunakan oleh peneliti dalam hal ini termasuk data yang memiliki distribusi kelas yang
tidak seimbang. Ini akan menyebabkan algoritma pembelajaran mesin yang digunakan cenderung menghasilkan
prediksi kelas yang tidak memuaskan. Ketika berhadapan dengan dataset yang tidak seimbang, perlu dilakukan
resampling sehingga data menjadi seimbang. Metode resampling yang digunakan dalam penelitian ini adalah
SMOTE. Dengan melakukan resampling menggunakan metode SMOTE diperoleh 184 sampel yang terdiri dari
92 DM dan 92 normal.
Setelah fitur pemilihan, proses klasifikasi akan dilakukan. Dataset yang akan digunakan dalam klasifkasi
berdasarkan fitur terbaik, yaitu sebanyak 50 gen (q-value <0,1). Dalam penelitian ini data dibagi menjadi 2
dengan proporsi data pelatihan 70% dan data uji 30%.
Metode klasifikasi yang digunakan yaitu SVM. Masing-masing data dari data latih dan data uji diambil
secara acak dengan mengutamakan semua klasifikasi termasuk kedalam 2 pembagian data tersebut. Kinerja
klasifikasi dapat dihitung dengan nilai akurasi, sensitivitas, spesifisitas, dan AUC. Berdasarkan Tabel 2, dapat
dilihat bahwa kinerja model yang memiliki akurasi klasifikasi terbaik dari metode SVM, yaitu kernel linear
dengan 𝑐𝑜𝑠𝑡 = (1, 100) dengan proporsi 70% data latih dan 30% data uji yaitu 100% berdasarkan confusion
matrix.
Tabel 2 Kinerja Model berdasarkan Confusion Matrix

Parameter Akurasi
Sensitifitas Spesifitas
Kernel Klasifikasi AUC (%)
Cost (%) (%)
(%)
1 100 100 100 100
Linear 0 10 98,15 96,30 100 9,81
100 100 100 100 100
1 88,89 92,59 85,19 88,9
𝛾 = 0.01 10 94,44 100 88,89 94,4
100 94,44 100 88,89 94,4
𝛾 = 0.1 1 90,47 96.30 85,19 90,7
10 92,59 100 85,19 92,6
100 92,59 100 85,19 92,6
RBF
𝛾 = 0.15 1 70,37 100 40,74 70,4
10 70,37 100 40,74 70,4
100 70,37 100 40,74 70,4
𝛾 = 0.5 1 70,37 100 40,74 70,4
10 70,37 100 40,74 70,4
100 70,37 100 40,74 70,4
1 90,74 96,30 85,19 90,7
Polinomial 𝛾 = 0.01 10 94,44 100 88,89 94,4
Orde 2 100 94,44 100 88,89 94,4
𝛾 = 0.1 1 94,44 100 88,89 94,4
10 94,44 100 88,89 94,4
100 94,44 100 88,89 94,4
𝛾 = 0.15 1 92,59 100 85,19 92,6
10 92,59 100 85,19 92,6
100 92,59 100 \ 85,19 92,6
𝛾 = 0.5 1 92,59 100 85,19 92,6
10 92,59 100 85,19 92,6
100 92,59 100 85,19 92,6
Polinomial 𝛾 = 0.01 1 90,74 96,30 85,19 90,7
Orde 3 10 94,44 100 88,89 94,4
100 94,44 100 88,89 94,4
𝛾 = 0.1 1 90,74 100 81,48 90,7
10 90,74 100 81,48 90,7
100 90,74 100 81,48 90,7
𝛾 = 0.15 1 88,89 100 77,78 88,9
10 88,89 100 77,78 88,9
100 88,89 100 77,78 88,9
𝛾 = 0.5 1 79,63 100 59,26 79,6
10 79,63 100 59,26 79,6
100 79,63 100 59,26 79,6
Pengujian Cross-Validation (CV) dilakukan untuk menentukan konsistensi data yang digunakan untuk data
latih dan data uji model yang memiliki akurasi klasifikasi terbaik dari metode SVM. Data yang telah dilakukan
resampling menggunakan metode SMOTE dipartisi 10 kali dan diulang 1000 kali. CV dilakukan pada model
yang memiliki akurasi klasifikasi metode SVM terbaik, yaitu dengan kernel linear dengan 𝑐𝑜𝑠𝑡 = (1, 100).
CV digunakan untuk menguji kestabilan kinerja metode SVM. Hasil tes CV yang diukur dengan menggunakan
akurasi ditunjukkan pada Tabel 3.
Tabel 3 10-Fold CV
Persentase Nilai Akurasi 100 iterasi pada 10-fold Cross Rata

SVM Validation
⋯
-rata
1 2 3 4 5 6 7 8 1000
Linear
92.37 88. 98 89.20 90.25 91.81 92.42 88.89 92.28 ⋯ 91.78 91.11
𝐶𝑜𝑠𝑡 = 1
Linear
93.98 94.03 93.54 92. 95 88.95 94.59 91.17 92. 95 ⋯ 93.48 92.53
𝐶𝑜𝑠𝑡 = 100
Berdasarkan Tabel 3, kita dapat melihat hasil CV menunjukkan model yang paling memiliki akurasi klasifikasi
terbaik dari metode SVM dengan kernel linear dengan 𝑐𝑜𝑠𝑡 = 100 sebesar 92,53%.
4. KESIMPULAN
Data yang diperoleh dari uji-t yaitu sebanyak 25770 fitur, sehingga semua data ini memiliki perbedaan
ekspresi gen untuk dua kelompok data, p-value dari uji-t dari 25770 ekspresi gen digunakan untuk menghitung
q-value yang merupakan ukuran signifikansi dalam memperkirakan false positive dari tes yang dianggap
signifikan. Hasil identifikasi kandidat biomarker DM tipe II yaitu 50 gen (q-value <0,1). Dengan melakukan
resampling menggunakan metode SMOTE diperoleh 184 sampel yang terdiri dari 92 DM dan 92 normal.
Klasifkasi dilakukan berdasarkan fitur terbaik, yaitu sebanyak 50 gen (q-value <0,1). Kinerja model yang
memiliki akurasi klasifikasi terbaik dari metode SVM, yaitu kernel linear dengan 𝑐𝑜𝑠𝑡 = (1, 100) dengan
proporsi 70% data latih dan 30% data uji yaitu 92,59% berdasarkan confusion matrix. CV dilakukan pada model
yang memiliki akurasi klasifikasi metode SVM terbaik, yaitu dengan menggunakan kernel linear dengan
𝑐𝑜𝑠𝑡 = (1, 100). CV digunakan untuk menguji kestabilan kinerja metode SVM. Hasil CV menunjukkan
model yang paling memiliki akurasi klasifikasi terbaik dari metode SVM dengan menggunakan kernel linear
dengan 𝑐𝑜𝑠𝑡 = 100 yaitu sebesar 92,53%.
DAFTAR PUSTAKA
[1] Aguiree, F. e. (2013). IDF Diabetes Atlas : sixth edition. Basel, Switzerland: International Diabetes
Federation.
[2] Chawla, V., Bowyer, K., Hall, L., dan Kegelmeyer, W. (2002). SMOTE: Synthetic Minority Over-Sampling
Technique. Journal of Artificial Intelligence Research, 169(2002): 321-357.
[3] Leung, Y. d. (2010). A Multiple-Filter-Multiple-Wrapper Approach to Gene Selection and Microarray Data
Classification. IEEE/ACM Transaction on Computational Biology and Bioinformatics, 7(1): 108-117.
[4] Lu, T.-P., Hsu, Y.-Y., Lai, L.-C., Tsai, M.-H., dan Chuang, E. Y. (2014). Identification of Gene Expression
Biomarkers for Predicting Radiation Exposure. Scientific Reports, 4(6293): 1-7.
[5] Ni’mah, M. (2015). Biomarker Sebagai Molekul Diagnostik Penyakit Kanker. Seminar Nasional dan
Workshop "Perkembangan Terkini Sains Farmasi & Klinik 5", 233-238.
[6] Nugroho, A., Witarto, A., dan Handoko, D. (2003). Support Vector Machine. Teori dan Aplikasinya dalam
Bioinformatika, Ilmu Komputer. com, Indonesia, 1-11.
[7] Pratita, N. D. (2012). Hubungan dukungan pasangan dan health locus of control dengan kepatuhan dalam
menjalani proses pengobatan pada penderita diabetes mellitus tipe-2. Calyptra, 1(1): 1-24.
[8] Rusydina, A. W. (2016). Perbandingan Metode Feature Selection Pada High Dimensional Data dan
Klasifikasi Menggunakan Support Vector Machine. Surabaya: Institut Teknologi Sepuluh Nopember.
[9] Soegondo. (2009). Penatalaksanaan Diabetes Melitus Terpadu. Jakarta: Balai Penerbit FKUI.
[10] Stekel, D. (2003). Microarray Bioinformatics. New York: Cambridge University Press.
[11] Storey, J. D., dan Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of
the National Academy of Sciences, 100(16): 9440-9445.
[12] Sudjana. (2005). Metoda Statistika. Bandung: Tarsito.
[13] Wild, S., Roglic, G., A, G., dkk. (2004). Global prevalence of diabetes:estimates for the year 2000 and
projections for 2030. Diabetes Care, 27(5), 1047-1053.
[14] Zhang, X., Gao1, L., Liu3, Z.-P., dan Chen2, L. (2015). Identifying module biomarker in type 2 diabetes
mellitus by discriminative area of functional activity. BMC Bioinformatics, 16 (1): 1-10.

Klasifikasi Penyakit Diabetes Melitus Tipe II Menggunakan Metode Support Vector Machine

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Klasifikasi Penyakit Diabetes Melitus Tipe II Menggunakan Metode Support Vector Machine

Diunggah oleh

Hak Cipta:

Format Tersedia

Klasifikasi Penyakit Diabetes Melitus Tipe II Menggunakan

Metode Support Vector Machine

2. MATERIAL DAN METODE

2.7. Support Vector Machine

Gambar 1 Penentuan Hyperplane Terbaik

𝑓(𝑥𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝑥⃗𝑖 𝑥⃗𝑑 + 𝑏 (2.23)

𝑓(𝑥⃗𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝜙(𝑥⃗𝑖 )𝜙(𝑥⃗𝑑 ) + 𝑏 (2.27)

𝑓(𝑥⃗𝑑 ) = ∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥⃗𝑖 , 𝑥⃗𝑑 ) + 𝑏 (2.28)

3. HASIL DAN DISKUSI

Tabel 1 Kandidat Biomarker

No. Ensembl_transcript_id q-value

Tabel 2 Kinerja Model berdasarkan Confusion Matrix

Persentase Nilai Akurasi 100 iterasi pada 10-fold Cross Rata

[12] Sudjana. (2005). Metoda Statistika. Bandung: Tarsito.

Anda mungkin juga menyukai