Anda di halaman 1dari 7

Prediksi Struktur Sekunder Protein Menggunakan Struktur

Protein Lokal Optimal dan Mesin Vektor Pendukung

Abstract
Protein mencakup banyak zat, seperti enzim, hormon dan antibodi yang diperlukan untuk
organisme. Protein ini memiliki bentuk dan struktur yang berbeda yang membedakannya
satu sama lain. Dengan memiliki struktur yang unik, hanya protein yang mampu
menjalankan fungsinya secara efisien. Pentingnya memahami struktur protein telah
mendorong pengembangan database struktur protein dan alat prediksi. Tujuan utama
penelitian ini adalah untuk mengoptimalkan struktur protein lokal dengan Support Vector
Machine (SVM) untuk memprediksi struktur sekunder protein. Sebagian besar studi yang
terkait menggunakan panjang segmen tetap untuk prediksi struktur sekunder dan ini
mungkin menghasilkan hasil yang tidak akurat. Dalam penelitian ini, dataset
tersegmentasi menjadi segmen panjang struktur protein lokal yang berbeda. Panjang
optimal struktur protein lokal ditentukan dan evaluasi dilakukan dengan membandingkan
dengan metode yang ada dan prediksi awal menggunakan struktur asli. Akurasi yang
lebih tinggi dan tingkat positif benar, diperoleh tingkat false positif yang rendah yang
membuktikan keefektifan metode prediksi ini.

1. Perkenalan
Dalam beberapa tahun terakhir, proyek genom manusia telah berhasil menghasilkan
sejumlah besar rangkaian protein baru di database biologis. Ironisnya, kebanyakan dari
mereka sama sekali tidak diketahui dalam fungsi dan struktur dan menyebabkan sekuens
genom lengkap memberi pemahaman yang jauh lebih sedikit pada organisme daripada
yang diharapkan pada awal [1]. Protein mengendalikan dan menengahi banyak aktivitas
biologis sel. Oleh karena itu, untuk mendapatkan pemahaman tentang fungsi seluler,
struktur setiap protein harus dipahami [2]. Ini menunjukkan bahwa studi urutan protein
tunggal atau kompleks kecil tidak lagi cukup untuk membantu pengembangan genom saat
ini.

Prediksi struktur protein merupakan langkah kunci dalam mempelajari dan memahami
fungsi protein. Fakta bahwa fungsi protein tidak hanya bergantung pada urutan protein
tetapi juga bentuk dan struktur menginduksi pentingnya identifikasi struktur protein.
Dengan urutan protein, masalah prediksi struktur sekunder adalah untuk memprediksi
apakah masing-masing asam amino dalam heliks, untai atau tidak. H, E dan C mewakili
helix, strand dan struktur non rutin, masing-masing [3]. Definisi sederhana struktur
sekunder menyembunyikan berbagai keterbatasan. Kompleksitas dasar untuk penugasan
struktur sekunder menyebabkan terciptanya banyak metode penugasan berdasarkan
kriteria atau karakteristik yang berbeda. Karena keterbatasan struktur sekunder, tugas
yang lebih tepat untuk struktur sekunder disajikan yaitu struktur protein lokal. Struktur
protein lokal didefinisikan sebagai deskripsi kumpulan lengkap struktur prototipe atau
protein kecil. Analisis struktur protein lokal merupakan evaluasi setiap bagian tulang
punggung protein. Oleh karena itu, dengan memusatkan perhatian pada struktur protein
lokal, mungkin akan mengembangkan tonggak sejarah baru di masa depan prediksi
struktur sekunder protein
Tujuan dari penelitian ini adalah untuk memprediksi struktur sekunder protein dengan
menggunakan algoritma pembelajaran mesin berdasarkan RS126 sebagai dataset. RS126
penting sebagai dataset inti untuk dilatih dan diuji menggunakan algoritma pembelajaran
mesin karena kumpulan data berisi 126 protein non-redundant dimana jumlah pasangan
protein dalam himpunan memiliki kemiripan lebih dari 25% sepanjang 80 residu.
Mengingat kemiripan kecil dari urutan dataset, ini mewakili situasi yang agak dekat
dengan pengaturan dunia nyata dan dapat dianggap sebagai lingkungan ideal untuk
prediksi struktur sekunder protein. Algoritma pembelajaran mesin yang
diimplementasikan dalam penelitian ini adalah Support Vector Machine (SVM). SVM
digunakan dalam penelitian ini karena dikenal sebagai algoritma yang ampuh untuk
membuat keputusan biner. Hasilnya menggambarkan akurasi yang lebih tinggi dari sistem
prediksi komputasi berdasarkan SVM untuk prediksi struktur sekunder protein.

2. Bahan dan Metode


2.1 Kumpulan data
Dataset yang digunakan dalam penelitian ini adalah RS126. Inisiasi penelitian ini adalah
untuk mendapatkan dataset urutan protein untuk memprediksi struktur sekunder protein.
RS126 adalah salah satu dataset tertua dengan sejarah terpanjang untuk mengevaluasi
prediksi struktur sekunder protein. Skema ini dibuat oleh Rost and Sander [4]. RS126
merupakan dataset yang paling umum digunakan untuk memprediksi struktur protein
yang diterapkan di sebagian besar penelitian termasuk penelitian ini. Ini berisi 23.347
residu dengan panjang urut protein rata-rata 185. 32% RS126 adalah helm alfa, 21%
sebagai untai beta dan 47% sebagai koil.

Dataset RS126 dapat dikumpulkan dari berbagai file data pelengkap pada penelitian atau
penelitian sebelumnya. Selain itu, bisa juga diperoleh dari database online seperti Protein
Data Bank (PDB).

Gambar 1. Daftar dataset RS126 yang digunakan dalam Prediksi Struktur


Sekunder Protein

2.2 Sudut dihedral


Umumnya, sudut dihedral didefinisikan sebagai sudut antara dua bidang. Dalam hal
proteomik, tulang punggung dihedral tulang punggung disebut phi (), psi () dan omega
(). Setiap sudut berbeda memiliki fungsi tersendiri. Sudut dihedral digunakan sebagai
vektor fitur dalam penelitian ini karena bentuk representasi sifatnya, yaitu bentuk
numerik atau bilangan bulat. Selain itu, sudut dihedral memainkan peran kunci dalam
menentukan atau 'mengencangkan' struktur sekunder struktur protein selama proses
penyempitan struktur. Pentingnya informasi sudut dihedral cenderung meningkat seiring
dengan ukuran protein yang dipelajari sebagai kualitas dan kuantitas hambatan lainnya.

Dalam penelitian ini, semua sudut dihedral diperoleh melalui fungsi ramachandran di
Matlab. Fungsi Ramachandran menghasilkan sudut dihedral untuk protein yang
ditentukan oleh PDB database identifier PDBid. PDBid adalah string yang menentukan
pengenal unik untuk catatan struktur protein dalam database PDB. Setiap struktur dalam
database PDB diwakili oleh pengenal alfanumerik empat karakter. PDBid mirip dengan
pengenal protein di RS126. Misalnya, 4hhb adalah pengenal hemoglobin. Hasilnya akan
mengembalikan sudut dihedral untuk setiap protein di RS126 seperti 3 kolom yang
meliputi sudut phi, sudut psi dan sudut omega.
2.3 DSSP
Program DSSP dirancang oleh Kabsch dan Sander [5] sebagai metode standar untuk
menetapkan struktur sekunder ke asam amino protein, mengingat koordinat resolusi atom
protein. DSSP adalah database penugasan struktur sekunder untuk semua entri protein di
Protein Data Bank (PDB). DSSP juga merupakan program yang menghitung entri DSSP
dari entri PDB.

DSSP memiliki delapan jenis struktur sekunder protein, tergantung pada pola ikatan
hidrogen. Daftar bellow menunjukkan berbagai jenis struktur sekunder protein dalam
DSSP:
I) H = alpha helix
Ii) B = residu pada jembatan beta terisolasi
Iii) E = strand yang diperluas, berpartisipasi dalam tangga beta
Iv) G = 3-heliks (3/10 heliks)
V) I = 5 helix (pi helix)
Vi) T = ikatan ikatan hidrogen
Vii) S = tikungan
Viii) L = lainnya

Delapan jenis ini biasanya ditugaskan ke dalam tiga kelompok yang lebih besar: heliks
(G, H dan I), untai (E dan B) dan loop (semua yang lain). Dalam penelitian ini, DSSP
digunakan sebagai kelas fitur dari tiga kelas, yaitu heliks (H), untai (E) dan koil (C).
DSSP dataset dapat diperoleh dari data urutan RS126 yang berisi struktur sekunder dan
akan diimplementasikan sebagai kelas fitur agar sesuai dengan SVM untuk prediksi.

2.4 Metode Menggunakan Dukungan Mesin Vektor


Studi tentang prediksi struktur sekunder protein akan berfokus pada representasi fitur
yang merupakan struktur protein lokal. Dengan menggunakan metode konvensional
algoritma pembelajaran mesin, yang hanya menerapkan Support Vector Machine tidak
efektif dalam memprediksi struktur protein. Hal ini disebabkan oleh perilaku alam
dimana fitur biologis diketahui dinamis daripada dijadikan data statis dalam pemecahan
masalah pengenalan pola. Dengan pemikiran ini, langkah preprocessing dipertimbangkan
sebagai fitur ekstra biologis untuk meningkatkan kinerja sistem dan memprediksi secara
akurat struktur sekunder protein dari struktur protein lokal. Dipercaya bahwa
mempertimbangkan fitur biologis seperti struktur protein lokal, urutan protein informasi
dalam pemilihan fitur sangat penting dalam pendekatan pembelajaran mesin. Alasan
mengapa struktur protein lokal digunakan sebagai fitur tambahan dalam penelitian ini
adalah karena struktur protein lokal mampu menganalisa sekumpulan protein kecil dan
mendekati setiap bagian tulang punggung protein.

Dengan DSSP dan sudut dihedral yang tersedia di ruang kerja, struktur sekunder dan DA
dapat tersegmentasi ke dalam struktur protein lokal yang berbeda dengan panjang segmen
yang berbeda. Setiap struktur protein lokal akan memiliki DA dan DSSP mereka sendiri
setelah segmentasi dan dengan menerapkannya sebagai vektor fitur dan kelas fitur, data
sekarang dapat sesuai dengan SVM untuk klasifikasi untuk memprediksi struktur
sekunder protein.

Support vector machines (SVM) adalah kelompok metode pembelajaran yang diawasi
yang dapat diterapkan pada klasifikasi atau regresi. Support Vector Machine (SVM)
adalah algoritma klasifikasi biner dan dengan atribut ini, sangat cocok untuk tugas
memprediksi struktur sekunder protein. SVM telah menunjukkan bahwa ia mampu
mengklasifikasikan data secara tepat di bidang prediksi struktur sekunder protein,
klasifikasi fungsional protein, pengali lipat protein, dan prediksi lokasi subselular. SVM
sebelumnya telah digunakan dalam prediksi struktur sekunder protein [6] [7] [8] [9]. Uji
validasi silang 10 kali diterapkan untuk mendukung mesin vektor untuk
mengklasifikasikan dan memprediksi struktur sekunder protein.

Dengan menggunakan validasi silang 10 kali lipat, kumpulan data dipartisi menjadi 10
sampel. Dari 10 sampel, 1 di antaranya ditugaskan sebagai model pengujian untuk
memvalidasi data dan sisanya digunakan sebagai model pengujian. Proses validasi silang
diulang sebanyak 10 kali, dimana masing-masing dari 10 sampel digunakan sekali
sebagai model validasi. Semua hasilnya bisa digunakan untuk menghasilkan estimasi
prediksi. Kernel yang diimplementasikan adalah kernel RBF. Dengan menggunakan
kernel non linier, margin hyperplane dapat dioptimalkan. Algoritma masih bekerja sama
dengan algoritma linier, hanya saja kernel RBF diterapkan pada setiap produk titik.

2.5. Pengukuran Kinerja


Kinerja sistem diuji dan output dari sistem akan dianalisis tepat setelah dilepaskan.
Kinerja dan akurasi prediksi struktur protein diukur dan dievaluasi dengan seberapa baik
sistem dapat memprediksi struktur sekunder protein dengan akurasi yang lebih tinggi dan
tingkat false positive yang kurang. . Untuk meningkatkan sistem pengukuran, banyak
digunakan pengukuran evaluasi untuk masalah klasifikasi seperti akurasi, true positive
rate (sensitivitas) dan false positive rate yang akan diterapkan.

Akurasi mengukur probabilitas hasil sebenarnya (benar positif dan negatif benar) di
seluruh populasi (positif benar, positif palsu, negatif palsu, negatif sejati). Akurasi bisa
dihitung sebagai berikut:1

Tingkat positif sejati yang juga dikenal sebagai sensitivitas atau recall mendefinisikan
proporsi positif sebenarnya yang diidentifikasi dengan benar. Ini mengukur probabilitas
nilai positif sejati di antara positif sejati dan negatif palsu. Rumus sensitivitas ditunjukkan
seperti di bawah ini:2

Tingkat positif palsu mengukur probabilitas hasil prediksi positif bila protein adalah
struktur non-sekunder. Hal ini dapat dihitung sebagai berikut:3

Selain menerapkan metode evaluasi di atas, metode statistik, uji t dilaksanakan untuk
validasi hasil yang diperoleh. Uji t adalah uji hipotesis statistik dimana statistik uji
mengikuti distribusi t Student, jika hipotesis nol didukung. Dalam penelitian ini, uji-t
diterapkan pada dua sampel hasil yang mewakili struktur protein lokal yang berbeda.

3. Hasil dan Diskusi


Awalnya, untuk memahami pentingnya optimalisasi struktur protein lokal, prediksi
tersebut dilakukan dengan menggunakan algoritma pembelajaran mesin SVM tanpa
adanya representasi fitur. Dataset RS126 asli digunakan sebagai kumpulan data agar
sesuai dengan SVM untuk pelatihan dan pengujian diikuti dengan evaluasi. RS126 asli
adalah susunan asli dan struktur protein yang diperoleh dari kumpulan data tanpa langkah
pra-pemrosesan yang diterapkan. Keluaran dicatat dan ditabulasikan pada Tabel 1.
Chen mengusulkan bahwa dengan memilih banyak panjang struktur protein lokal, akan
membantu meningkatkan akurasi prediksi struktur sekunder protein [10]. Hasil awal
menunjukkan bahwa keakuratan prediksi tanpa menggunakan pilihan atau representasi
fitur sangat rendah bahkan dibandingkan dengan metode yang ada lainnya. Dengan ini,
penelitian ini mengusulkan optimasi menggunakan struktur protein lokal untuk
memprediksi struktur sekunder protein.

Penelitian ini dilakukan dengan menggunakan 3 panjang segmen yang berbeda, panjang
13, 15 dan 17. Definisi penerapan panjang segmen yang berbeda adalah
memperhitungkan 13, 15 dan 17 residu residu atau asam amino dalam urutan protein.
Untuk setiap protein di RS126, struktur protein lokal dengan 3 segmen segmen berbeda
akan diterapkan. Panjang optimal untuk struktur protein lokal akan ditentukan dengan
menggunakan akurasi keseluruhan terbaik dari hasil evaluasi. Dengan validasi t-test,
signifikansi struktur protein lokal yang optimal dibandingkan dengan metode awal yang
dapat diamati.

Sebagian besar hasil prediksi dievaluasi dengan akurasi seperti yang digambarkan pada
Gambar 2. Menurut Gambar 2, untuk struktur protein lokal dengan panjang segmen 13,
akurasi tertinggi dicapai dengan koil diikuti oleh heliks dan kemudian untai. Hasil yang
sama dikumpulkan dari struktur protein lokal lainnya dimana koil memiliki akurasi
tertinggi di antara semua negara struktural sekunder. Dalam hal struktur sekunder, untuk
helix, panjang segmen 15 dan 17 mencatat akurasi tertinggi dibandingkan dengan yang
lain. Sementara struktur untai dengan panjang 13 memiliki keakuratan tertinggi
dibandingkan dengan panjang 15 dan 17. Sedangkan untuk koil, panjang 17 mencatat
keakuratan tertinggi diantara semua.

Gambar 2. Akurasi masing-masing Struktur Protein Lokal berdasarkan Negara Struktural


Sekunder

Dalam penelitian ini, selain akurasi, untuk memberikan hasil yang lebih andal, true
positive rate dan false positive rate juga digunakan untuk menganalisa hasil prediksi.
Hasil untuk tingkat positif benar dan tingkat positif palsu diilustrasikan pada Gambar 3
dan 4. Untuk tingkat positif yang benar, panjang 17 memiliki skor tertinggi untuk heliks,
panjang 15 untuk untai dan panjang 13 untuk koil. Sedangkan untuk tingkat positif palsu,
panjang 17 memiliki nilai terendah untuk semua keadaan struktural sekunder.

Gambar 3. Tingkat Positif Sejati dari masing-masing Struktur Protein Lokal berdasarkan
Struktur Sekunder

Gambar 4

Dari tabel dan gambar yang diilustrasikan, jelas bahwa secara umum, panjang segmen 17
memiliki akurasi yang lebih baik dibandingkan dengan struktur protein lokal lainnya
dengan skor 0,44, 0,22 dan 0,62. Sebagian besar akurasi yang dicapai adalah yang
tertinggi atau hanya di belakang nilai tertinggi. Serupa dengan tingkat positif sejati,
sebagian besar skor yang dicapai 17 besar berada pada kisaran teratas sementara pada
tingkat positif palsu, panjang 17 memiliki tingkat terendah di antara semua struktur
protein lokal. Dapat disimpulkan bahwa panjang segmen 17 adalah struktur protein lokal
terbaik dalam penelitian ini.
Perbandingan prediksi dengan struktur protein lokal yang optimal dengan prediksi
menggunakan dataset protein asli sedang dilakukan dan dianalisis. Metode yang
diusulkan dengan struktur protein lokal yang optimal diharapkan memiliki kinerja yang
lebih baik dibandingkan dengan metode prediksi konvensional dalam hal akurasi, tingkat
positif benar dan tingkat positif palsu. Perbandingan kinerja kedua metode tersebut
diilustrasikan pada Gambar 5.

Menurut Gambar 5, akurasi prediksi struktur protein lokal jauh lebih tinggi dibanding
prediksi konvensional. Skor akurasi prediksi protein struktur lokal adalah 0,70 dan
hampir menggandakan skor prediksi konvensional. Hal ini menunjukkan bahwa dengan
menerapkan pemilihan atau representasi fitur, akan ada peningkatan prediksi. Selain itu,
prediksi struktur protein lokal memberikan tingkat positif yang lebih tinggi dan tingkat
false positive yang rendah. Semua metode evaluasi di atas menunjukkan bahwa
penerapan struktur protein lokal mencapai peningkatan drastis dibandingkan dengan
metode prediksi tanpa pra-pengolahan atau optimasi.

Hasil validasi lebih lanjut telah diusulkan untuk memastikan keandalan prediksi. Validasi
statistik, uji-t, dilakukan untuk menguji signifikansi hasil yang dikembalikan oleh
prediksi. Tabel 2 menunjukkan hasil uji-t untuk akurasi sistem prediksi antara struktur
protein lokal yang optimal dan struktur asli. Hanya 11 sampel yang ditabulasikan karena
banyaknya urutan protein di dataset RS126. Perlu dicatat bahwa sebagian besar hasil uji-t
menghasilkan nilai h sebagai 1. Ini membuktikan bahwa perbedaan akurasi yang
diprediksi dari prediksi struktur sekunder antara struktur protein lokal yang optimal dan
struktur asli sangat penting. Peningkatan akurasi, true positive rate dan false positive rate
adalah meyakinkan dan dapat diandalkan.

Tabel 2. Contoh Hasil Uji-t untuk Akurasi antara Struktur Protein Lokal Optimal dan
Struktur Asli

Akhirnya, perbandingan ketepatan antara metode yang diusulkan (struktur protein lokal
yang optimal), penelitian awal (struktur asli) dan metode prediksi lainnya dilakukan. Hal
ini untuk mengamati tingkat optimalisasi metode yang diusulkan dibandingkan dengan
metode konvensional atau metode lainnya.

Menurut Tabel 3, dapat diamati dengan jelas bahwa penelitian awal memiliki akurasi
terendah karena kurangnya representasi fitur untuk prediksi. Metode yang diusulkan yang
menerapkan struktur protein lokal yang optimal memiliki akurasi yang lebih tinggi
bahkan dibandingkan metode prediksi lainnya. Ini mungkin karena dengan memecah
struktur protein asli menjadi segmen struktur protein lokal kecil, lebih banyak informasi
dapat dipelajari oleh algoritma dan akan menghasilkan prediksi yang lebih baik. Selain
itu, SVM adalah salah satu algoritma klasifikasi biner yang paling efisien dibandingkan
dengan algoritma yang digunakan oleh metode lain seperti N-gram dan lain-lain.

4. Kesimpulan

Struktur protein lokal yang dioptimalkan dengan SVM telah diusulkan untuk
memprediksi struktur sekunder protein. Ada beberapa hasil menarik yang dihadapi
selama studi ini. Pentingnya prediksi struktur sekunder protein, perbandingan penelitian
dengan pekerjaan sebelumnya, pengaruh struktur protein lokal untuk memprediksi
struktur sekunder protein, penerapan metode statistik untuk meningkatkan keandalan
metode evaluasi telah dilakukan secara ekstensif dan memberikan kontribusi besar
terhadap penelitian. Struktur sekunder protein. Beberapa karya masa depan disarankan
untuk meningkatkan prediksi prediksi struktur sekunder protein saat ini seperti
menggunakan dataset berbeda selain RS126, mengembangkan lebih banyak representasi
fitur dan menggunakan berbagai parameter dalam proses klasifikasi seperti validasi dan
kernel yang berbeda. Penting untuk mempelajari lebih rinci tentang struktur sekunder
protein karena membantu untuk memahami lebih banyak tentang fungsinya. Dengan
pengetahuan proteomik, kontribusi bisa dilakukan ke berbagai bidang seperti
pengembangan obat di bidang kedokteran

Anda mungkin juga menyukai