Presentasi Prediksi Struktur Sekunder Protein

FAKULTAS MATEMATIKA DAN IPA
DEPARTEMEN ILMU KOMPUTER

INSTITUT PERTANIAN BOGOR
PREDIKSI STRUKTUR SEKUNDER PROTEIN

DENGAN
K-NEAREST NEIGHBOR (KNN) CLASSIFIER
DAN
PRINCIPAL COMPONENT ANALYSIS
Irenne Dwi Ayu Mardiasih (G64124046)

Pembimbing:
Toto Haryanto, SKom, MSi
PROTEIN
Biomolekul raksasa yang merupakan
elemen penyusun utama makhluk
hidup yang dibentuk dari asam
amino (monomer) (Polanski dan
Kimmel 2007).
Ditemukan oleh Jns Jakob Berzelius
pada tahun 1838.
SINTESIS PROTEIN
Secara biologi, sintesis protein terdiri
dari proses:
Transkri
psi
Translasi
Protein
STRUKTUR PROTEIN
Struktur Primer
Struktur Sekunder
Struktur Tersier
Struktur Kuartener
(Polanski dan Kimmel 2007)
STRUKTUR PROTEIN (Lanjt.)

Assembly
Sekunder
Folding
Tersier
Packing
Kuartener
Interaction
PROSES
Primer
LATAR BELAKANG
X-Ray Crystallography dan
Nuclear Magnetic Resonance
(NMR) spectroscopy mahal dan
memakan waktu
Perkembangan teknik kecerdasan
komputasional dalam bidang
bioinformatika
Penelitian sebelumnya tentang
prediksi struktur protein
PENELITIAN TERDAHULU
Lakizadeh (2009)
Data
Without
CN
With CN
68.089
68.588
69.259
70.491
70.714
70.905
71.554
72.285
71.692
72.332
..
..
..
..
..
..
..
24
..
75.368
..
75.966
25
76.200
76.731
Classif JST
er:
Backpropagation
Fitur:
Sliding windows
Contact number
(CN)
PENELITIAN
(Lanjt.)
Classif Support Vector
er:
Machine
Fitur:
Sliding windows
(W)
Fisikokimia
Conformation
parameters
Net charges
Hydrophobic
Side mass
TERDAHULU
Huang Chen
(2013)
Windows
Size (W)
Featur
es
Accuracy
(%)
146
76.32
186
76.79
11
226
77.44
13
266
78.00
15
306
77.78
17
346
77.65
19
386
77.57
PENELITIAN
(Lanjt.)
Ar
(2015)
Classif : Jaringan Saraf Tiruan

er
(JST)
Fitur
: Sliding windows (W =
7 ~ 19)
Fisikokimia
Tanpa ftur
Penambahan ftur
fsikokimia (%)
Akura
Hasil
si
kelas
TERDAHULU
fsikokimia (%)
84.23 terhadap masing-masing

85.18
akurasi
Tanpa ftur
fsikokimia (%)
Penambahan ftur
fsikokimia (%)
66.14
66.46
45.83
45.18
66.85
66.44
Hasil Q3 score sliding window
71.7
73.4
72.9
70.4
68.8
69.1
66.67
11
13
15
17
Sliding windows size (%)
19
RUMUSAN MASALAH
Apakah metode lain dapat

memprediksi struktur protein
sekunder dengan akurasi lebih
optimum?
TUJUAN
Memprediksi struktur sekunder

protein berdasarkan klasifikasi
KNN.
Mengetahui seberapa handal KNN
berhasil mengklasifikasi masingmasing kelas protein.
Mencari ukuran sliding window
optimum.
Menganalisis pengaruh parameter
lebar sliding window dan nilai k
terhadap akurasi dan Q3 score
yang dihasilkan.
RUANG LINGKUP
Input : sekuens
asam amino
Output : struk
Data
struktur sekunder
diperoleh
protein (H, E, C)
dari
penelitia
n Ar
(2015)
Prediksi
dengan
classifer
KNN
Ekstraksi
ciri
dengan
sliding
window
15, 17,
19
Reduksi
data
dengan
proporsi
PCA
80%, 85%,
90%
KERANGKA PENELITIAN
DATA
Data berjumlah 300 file data enzim
berformat DSSP.
Data ini dibagi menjadi 80% data latih dan
20% data uji.
Data latih berjumlah 240 data, sedangkan
data uji 60 data.
Data
latih
Data uji
Total
residu
SW 15
SW 17
SW 19
95 007
94 527
94 047
23 750
23 630
23 510
118 757
PRAPROSES DATA
Praproses data dilakukan melalui 3
tahap:
SLIDING WINDOWS
Sliding window adalah besarnya jendela
yang digunakan sebagai pembentuk pola
dengan memperhatikan sekuen asam
amino tetangganya (Lakizadeh 2009)
Penentuan struktur sekunder sliding
window menggunakan sekuen asam
amino yang berada pada titik tengah
(point of interest) sebagai fokus utama
yang mempunyai pasangan struktur
sekunder.
ILUSTRASI SLIDING WINDOWS

(W = 7)
E = [A, R, N, D,
C, Q, E]
C = [R, N, D, C,
Q, E, G]
H = [E, G, H, I,
L, K, M]
EKSTRAKSI FITUR
REDUKSI DIMENSI DATA

Reduksi dimensi data dilakukan dengan PCA
Proporsi keragaman data 80%, 85%, 90%
Reduksi dimensi data untuk mengurangi
kompleksitas waktu training
Propors
i PCA
80%
85%
90%
Fitur input awal
Fitur input setelah PCA
W 15
W 17
W 19
W 15
W 17
W 19
118757 X
300
118757 X
300
118757 X
300
118757 X
340
118757 X
340
118757 X
340
118757 X
380
118757 X
380
118757 X
380
118757 X
180
118757 X
198
118757 X
218
118757 X
204
118757 X
224
118757 X
247
118757 X
227
118757 X
250
118757 X
276
K-NEAREST NEIGHBOR (KNN)

KNN merupakan algoritme supervised
untuk mengklasifikasi data baru
berdasarkan
kategori
tetangga
terdekat ke-k dengan mengukur jarak
Euclidean.
Perhitungan
jarak
terdekat
dibutuhkan untuk menentukan jumlah
kemiripan yang dihitung dari ciri yang
dimiliki oleh suatu data.
PENGUJIAN KLASIFIKASI
.
HASIL PENGUJIAN KLASIFIKASI

Tahap pengujian dilakukan untuk
mengevaluasi hasil prediksi struktur
protein yang berhasil diklasifikasi
KURVA Q3 SCORE SW 15
84
82
80
81.32
81.28
80.74
78
76
76.33
74
72
73.08
75.84
72.24
76.26
72.68
70
68
66
P80
P85
P90
k=3
k=5
k=7
82
80
80.96
80.29
80.37
78
76
74
72
75.74
76.17
73.28
71.95
76.28
72.54
70
68
66
P80
P85
P90
k=3
k=5
k=7
82
80
80.96
80
80.7
78
76
76.25
76.17
76.09
74
72
72.96
72.86
72.76
70
68
P80
P85
P90
k=3
k=5
k=7
SIMPULAN
KNN dapat diimplementasikan untuk
memprediksi struktur sekunder protein.
Klasifikasi 3NN mampu memprediksi struktur
sekunder protein hingga 81.32%.
Nilai Q3 score optimal dihasilkan melalui
penggunaan sliding window 15.
Terdapat pengaruh antara sliding window dan
PCA terhadap nilai Q3 score, namun tidak
memberikan pengaruh yang signifikan.
Parameter k memiliki pengaruh dalam hasil
Q3 score. Semakin kecil nilai k, maka semakin
besar nilai Q3 score yang dihasilkan
DAFTAR PUSTAKA
AR R. 2015. Pemodelan Jaringan Saraf Tiruan Untuk
Prediksi Struktur Sekunder Protein [skripsi]. Bogor
(ID): Institut Pertanian Bogor.
Haryanto T. 2011. Pengembangan Hidden Semi Markov
Model dengan Distribusi Durasi State Empiris untuk
Prediksi Struktur Sekunder Protein [thesis]. Bogor
(ID): Institut Pertanian Bogor.
Huang YF, Chen SY. 2013. Extracting Physicochemical
Features to Predict Protein Secondary Structure.
The
Scientifc
World
Journal.
doi
:
10.1155/2013/347106.
Lakizadeh A, Marashi S. 2009. Addition of Contact
Number Information can Improve Protein Secondary
Structure Prediction by Neural Networks.
EXCLI
Journal. 8:66-73.
Polanski A, Kimmel M. 2007. Bioinformatics. Germany
(DE): Springer Science.

Presentasi Prediksi Struktur Sekunder Protein

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Presentasi Prediksi Struktur Sekunder Protein

Diunggah oleh

Hak Cipta:

Format Tersedia

FAKULTAS MATEMATIKA DAN IPA

DEPARTEMEN ILMU KOMPUTER

PREDIKSI STRUKTUR SEKUNDER PROTEIN

Irenne Dwi Ayu Mardiasih (G64124046)

STRUKTUR PROTEIN (Lanjt.)

Classif : Jaringan Saraf Tiruan

84.23 terhadap masing-masing

Hasil Q3 score sliding window

Sliding windows size (%)

Apakah metode lain dapat

Memprediksi struktur sekunder

ILUSTRASI SLIDING WINDOWS

REDUKSI DIMENSI DATA

Fitur input awal

Fitur input setelah PCA

K-NEAREST NEIGHBOR (KNN)

HASIL PENGUJIAN KLASIFIKASI

Anda mungkin juga menyukai