Anda di halaman 1dari 28

FAKULTAS MATEMATIKA DAN IPA

DEPARTEMEN ILMU KOMPUTER


INSTITUT PERTANIAN BOGOR

PREDIKSI STRUKTUR SEKUNDER PROTEIN


DENGAN
K-NEAREST NEIGHBOR (KNN) CLASSIFIER
DAN
PRINCIPAL COMPONENT ANALYSIS

Irenne Dwi Ayu Mardiasih (G64124046)


Pembimbing:
Toto Haryanto, SKom, MSi

PROTEIN
Biomolekul raksasa yang merupakan
elemen penyusun utama makhluk
hidup yang dibentuk dari asam
amino (monomer) (Polanski dan
Kimmel 2007).
Ditemukan oleh Jns Jakob Berzelius
pada tahun 1838.

SINTESIS PROTEIN
Secara biologi, sintesis protein terdiri
dari proses:
Transkri
psi

Translasi

Protein

STRUKTUR PROTEIN

Struktur Primer
Struktur Sekunder
Struktur Tersier
Struktur Kuartener
(Polanski dan Kimmel 2007)

STRUKTUR PROTEIN (Lanjt.)


Assembly

Sekunder

Folding

Tersier

Packing

Kuartener

Interaction

PROSES

Primer

LATAR BELAKANG
X-Ray Crystallography dan
Nuclear Magnetic Resonance
(NMR) spectroscopy mahal dan
memakan waktu
Perkembangan teknik kecerdasan
komputasional dalam bidang
bioinformatika
Penelitian sebelumnya tentang
prediksi struktur protein

PENELITIAN TERDAHULU
Lakizadeh (2009)
Data

Without
CN

With CN

68.089

68.588

69.259

70.491

70.714

70.905

71.554

72.285

71.692

72.332

..

..

..

..

..

..

..
24

..
75.368

..
75.966

25

76.200

76.731

Classif JST
er:
Backpropagation
Fitur:
Sliding windows
Contact number
(CN)

PENELITIAN
(Lanjt.)
Classif Support Vector
er:
Machine
Fitur:
Sliding windows
(W)
Fisikokimia
Conformation
parameters
Net charges
Hydrophobic
Side mass

TERDAHULU
Huang Chen
(2013)
Windows
Size (W)

Featur
es

Accuracy
(%)

146

76.32

186

76.79

11

226

77.44

13

266

78.00

15

306

77.78

17

346

77.65

19

386

77.57

PENELITIAN
(Lanjt.)
Ar
(2015)

Classif : Jaringan Saraf Tiruan


er
(JST)
Fitur
: Sliding windows (W =
7 ~ 19)
Fisikokimia
Tanpa ftur
Penambahan ftur
fsikokimia (%)

Akura
Hasil
si

kelas

TERDAHULU

fsikokimia (%)

84.23 terhadap masing-masing


85.18
akurasi
Tanpa ftur
fsikokimia (%)

Penambahan ftur
fsikokimia (%)

66.14

66.46

45.83

45.18

66.85

66.44

Hasil Q3 score sliding window

71.7
73.4
72.9
70.4
68.8
69.1
66.67

11

13

15

17

Sliding windows size (%)

19

RUMUSAN MASALAH

Apakah metode lain dapat


memprediksi struktur protein
sekunder dengan akurasi lebih
optimum?

TUJUAN

Memprediksi struktur sekunder


protein berdasarkan klasifikasi
KNN.
Mengetahui seberapa handal KNN
berhasil mengklasifikasi masingmasing kelas protein.
Mencari ukuran sliding window
optimum.
Menganalisis pengaruh parameter
lebar sliding window dan nilai k
terhadap akurasi dan Q3 score
yang dihasilkan.

RUANG LINGKUP
Input : sekuens
asam amino
Output : struk
Data
struktur sekunder
diperoleh
protein (H, E, C)
dari
penelitia
n Ar
(2015)

Prediksi
dengan
classifer
KNN

Ekstraksi
ciri
dengan
sliding
window
15, 17,
19

Reduksi
data
dengan
proporsi
PCA

80%, 85%,
90%

KERANGKA PENELITIAN

DATA
Data berjumlah 300 file data enzim
berformat DSSP.
Data ini dibagi menjadi 80% data latih dan
20% data uji.
Data latih berjumlah 240 data, sedangkan
data uji 60 data.

Data
latih
Data uji
Total
residu

SW 15

SW 17

SW 19

95 007

94 527

94 047

23 750

23 630

23 510

118 757

PRAPROSES DATA
Praproses data dilakukan melalui 3
tahap:

SLIDING WINDOWS
Sliding window adalah besarnya jendela
yang digunakan sebagai pembentuk pola
dengan memperhatikan sekuen asam
amino tetangganya (Lakizadeh 2009)
Penentuan struktur sekunder sliding
window menggunakan sekuen asam
amino yang berada pada titik tengah
(point of interest) sebagai fokus utama
yang mempunyai pasangan struktur
sekunder.

ILUSTRASI SLIDING WINDOWS


(W = 7)

E = [A, R, N, D,
C, Q, E]
C = [R, N, D, C,
Q, E, G]

H = [E, G, H, I,
L, K, M]

EKSTRAKSI FITUR

REDUKSI DIMENSI DATA


Reduksi dimensi data dilakukan dengan PCA
Proporsi keragaman data 80%, 85%, 90%
Reduksi dimensi data untuk mengurangi
kompleksitas waktu training
Propors
i PCA
80%
85%
90%

Fitur input awal

Fitur input setelah PCA

W 15

W 17

W 19

W 15

W 17

W 19

118757 X
300
118757 X
300
118757 X
300

118757 X
340
118757 X
340
118757 X
340

118757 X
380
118757 X
380
118757 X
380

118757 X
180
118757 X
198
118757 X
218

118757 X
204
118757 X
224
118757 X
247

118757 X
227
118757 X
250
118757 X
276

K-NEAREST NEIGHBOR (KNN)


KNN merupakan algoritme supervised
untuk mengklasifikasi data baru
berdasarkan
kategori
tetangga
terdekat ke-k dengan mengukur jarak
Euclidean.
Perhitungan
jarak
terdekat
dibutuhkan untuk menentukan jumlah
kemiripan yang dihitung dari ciri yang
dimiliki oleh suatu data.

PENGUJIAN KLASIFIKASI
.

HASIL PENGUJIAN KLASIFIKASI


Tahap pengujian dilakukan untuk
mengevaluasi hasil prediksi struktur
protein yang berhasil diklasifikasi

KURVA Q3 SCORE SW 15
84
82
80

81.32

81.28

80.74

78
76

76.33

74
72

73.08

75.84
72.24

76.26
72.68

70
68
66

P80

P85

P90

k=3
k=5
k=7

KURVA Q3 SCORE SW 17
82
80

80.96

80.29

80.37

78
76
74
72

75.74

76.17
73.28

71.95

76.28

72.54

70
68
66

P80

P85

P90

k=3
k=5
k=7

KURVA Q3 SCORE SW 19
82
80

80.96

80

80.7

78
76

76.25

76.17

76.09

74
72

72.96

72.86

72.76

70
68

P80

P85

P90

k=3
k=5
k=7

SIMPULAN
KNN dapat diimplementasikan untuk
memprediksi struktur sekunder protein.
Klasifikasi 3NN mampu memprediksi struktur
sekunder protein hingga 81.32%.
Nilai Q3 score optimal dihasilkan melalui
penggunaan sliding window 15.
Terdapat pengaruh antara sliding window dan
PCA terhadap nilai Q3 score, namun tidak
memberikan pengaruh yang signifikan.
Parameter k memiliki pengaruh dalam hasil
Q3 score. Semakin kecil nilai k, maka semakin
besar nilai Q3 score yang dihasilkan

DAFTAR PUSTAKA
AR R. 2015. Pemodelan Jaringan Saraf Tiruan Untuk
Prediksi Struktur Sekunder Protein [skripsi]. Bogor
(ID): Institut Pertanian Bogor.
Haryanto T. 2011. Pengembangan Hidden Semi Markov
Model dengan Distribusi Durasi State Empiris untuk
Prediksi Struktur Sekunder Protein [thesis]. Bogor
(ID): Institut Pertanian Bogor.
Huang YF, Chen SY. 2013. Extracting Physicochemical
Features to Predict Protein Secondary Structure.
The
Scientifc
World
Journal.
doi
:
10.1155/2013/347106.
Lakizadeh A, Marashi S. 2009. Addition of Contact
Number Information can Improve Protein Secondary
Structure Prediction by Neural Networks.
EXCLI
Journal. 8:66-73.
Polanski A, Kimmel M. 2007. Bioinformatics. Germany
(DE): Springer Science.

Anda mungkin juga menyukai