Abstract
Protein mencakup banyak zat, seperti enzim, hormon dan antibodi yang diperlukan untuk
organisme. Protein ini memiliki bentuk dan struktur yang berbeda yang membedakannya
satu sama lain. Dengan memiliki struktur yang unik, hanya protein yang mampu
menjalankan fungsinya secara efisien. Pentingnya memahami struktur protein telah
mendorong pengembangan database struktur protein dan alat prediksi. Tujuan utama
penelitian ini adalah untuk mengoptimalkan struktur protein lokal dengan Support Vector
Machine (SVM) untuk memprediksi struktur sekunder protein. Sebagian besar studi yang
terkait menggunakan panjang segmen tetap untuk prediksi struktur sekunder dan ini
mungkin menghasilkan hasil yang tidak akurat. Dalam penelitian ini, dataset
tersegmentasi menjadi segmen panjang struktur protein lokal yang berbeda. Panjang
optimal struktur protein lokal ditentukan dan evaluasi dilakukan dengan membandingkan
dengan metode yang ada dan prediksi awal menggunakan struktur asli. Akurasi yang
lebih tinggi dan tingkat positif benar, diperoleh tingkat false positif yang rendah yang
membuktikan keefektifan metode prediksi ini.
1. Perkenalan
Dalam beberapa tahun terakhir, proyek genom manusia telah berhasil menghasilkan
sejumlah besar rangkaian protein baru di database biologis. Ironisnya, kebanyakan dari
mereka sama sekali tidak diketahui dalam fungsi dan struktur dan menyebabkan sekuens
genom lengkap memberi pemahaman yang jauh lebih sedikit pada organisme daripada
yang diharapkan pada awal [1]. Protein mengendalikan dan menengahi banyak aktivitas
biologis sel. Oleh karena itu, untuk mendapatkan pemahaman tentang fungsi seluler,
struktur setiap protein harus dipahami [2]. Ini menunjukkan bahwa studi urutan protein
tunggal atau kompleks kecil tidak lagi cukup untuk membantu pengembangan genom saat
ini.
Prediksi struktur protein merupakan langkah kunci dalam mempelajari dan memahami
fungsi protein. Fakta bahwa fungsi protein tidak hanya bergantung pada urutan protein
tetapi juga bentuk dan struktur menginduksi pentingnya identifikasi struktur protein.
Dengan urutan protein, masalah prediksi struktur sekunder adalah untuk memprediksi
apakah masing-masing asam amino dalam heliks, untai atau tidak. H, E dan C mewakili
helix, strand dan struktur non rutin, masing-masing [3]. Definisi sederhana struktur
sekunder menyembunyikan berbagai keterbatasan. Kompleksitas dasar untuk penugasan
struktur sekunder menyebabkan terciptanya banyak metode penugasan berdasarkan
kriteria atau karakteristik yang berbeda. Karena keterbatasan struktur sekunder, tugas
yang lebih tepat untuk struktur sekunder disajikan yaitu struktur protein lokal. Struktur
protein lokal didefinisikan sebagai deskripsi kumpulan lengkap struktur prototipe atau
protein kecil. Analisis struktur protein lokal merupakan evaluasi setiap bagian tulang
punggung protein. Oleh karena itu, dengan memusatkan perhatian pada struktur protein
lokal, mungkin akan mengembangkan tonggak sejarah baru di masa depan prediksi
struktur sekunder protein
Tujuan dari penelitian ini adalah untuk memprediksi struktur sekunder protein dengan
menggunakan algoritma pembelajaran mesin berdasarkan RS126 sebagai dataset. RS126
penting sebagai dataset inti untuk dilatih dan diuji menggunakan algoritma pembelajaran
mesin karena kumpulan data berisi 126 protein non-redundant dimana jumlah pasangan
protein dalam himpunan memiliki kemiripan lebih dari 25% sepanjang 80 residu.
Mengingat kemiripan kecil dari urutan dataset, ini mewakili situasi yang agak dekat
dengan pengaturan dunia nyata dan dapat dianggap sebagai lingkungan ideal untuk
prediksi struktur sekunder protein. Algoritma pembelajaran mesin yang
diimplementasikan dalam penelitian ini adalah Support Vector Machine (SVM). SVM
digunakan dalam penelitian ini karena dikenal sebagai algoritma yang ampuh untuk
membuat keputusan biner. Hasilnya menggambarkan akurasi yang lebih tinggi dari sistem
prediksi komputasi berdasarkan SVM untuk prediksi struktur sekunder protein.
Dataset RS126 dapat dikumpulkan dari berbagai file data pelengkap pada penelitian atau
penelitian sebelumnya. Selain itu, bisa juga diperoleh dari database online seperti Protein
Data Bank (PDB).
Dalam penelitian ini, semua sudut dihedral diperoleh melalui fungsi ramachandran di
Matlab. Fungsi Ramachandran menghasilkan sudut dihedral untuk protein yang
ditentukan oleh PDB database identifier PDBid. PDBid adalah string yang menentukan
pengenal unik untuk catatan struktur protein dalam database PDB. Setiap struktur dalam
database PDB diwakili oleh pengenal alfanumerik empat karakter. PDBid mirip dengan
pengenal protein di RS126. Misalnya, 4hhb adalah pengenal hemoglobin. Hasilnya akan
mengembalikan sudut dihedral untuk setiap protein di RS126 seperti 3 kolom yang
meliputi sudut phi, sudut psi dan sudut omega.
2.3 DSSP
Program DSSP dirancang oleh Kabsch dan Sander [5] sebagai metode standar untuk
menetapkan struktur sekunder ke asam amino protein, mengingat koordinat resolusi atom
protein. DSSP adalah database penugasan struktur sekunder untuk semua entri protein di
Protein Data Bank (PDB). DSSP juga merupakan program yang menghitung entri DSSP
dari entri PDB.
DSSP memiliki delapan jenis struktur sekunder protein, tergantung pada pola ikatan
hidrogen. Daftar bellow menunjukkan berbagai jenis struktur sekunder protein dalam
DSSP:
I) H = alpha helix
Ii) B = residu pada jembatan beta terisolasi
Iii) E = strand yang diperluas, berpartisipasi dalam tangga beta
Iv) G = 3-heliks (3/10 heliks)
V) I = 5 helix (pi helix)
Vi) T = ikatan ikatan hidrogen
Vii) S = tikungan
Viii) L = lainnya
Delapan jenis ini biasanya ditugaskan ke dalam tiga kelompok yang lebih besar: heliks
(G, H dan I), untai (E dan B) dan loop (semua yang lain). Dalam penelitian ini, DSSP
digunakan sebagai kelas fitur dari tiga kelas, yaitu heliks (H), untai (E) dan koil (C).
DSSP dataset dapat diperoleh dari data urutan RS126 yang berisi struktur sekunder dan
akan diimplementasikan sebagai kelas fitur agar sesuai dengan SVM untuk prediksi.
Dengan DSSP dan sudut dihedral yang tersedia di ruang kerja, struktur sekunder dan DA
dapat tersegmentasi ke dalam struktur protein lokal yang berbeda dengan panjang segmen
yang berbeda. Setiap struktur protein lokal akan memiliki DA dan DSSP mereka sendiri
setelah segmentasi dan dengan menerapkannya sebagai vektor fitur dan kelas fitur, data
sekarang dapat sesuai dengan SVM untuk klasifikasi untuk memprediksi struktur
sekunder protein.
Support vector machines (SVM) adalah kelompok metode pembelajaran yang diawasi
yang dapat diterapkan pada klasifikasi atau regresi. Support Vector Machine (SVM)
adalah algoritma klasifikasi biner dan dengan atribut ini, sangat cocok untuk tugas
memprediksi struktur sekunder protein. SVM telah menunjukkan bahwa ia mampu
mengklasifikasikan data secara tepat di bidang prediksi struktur sekunder protein,
klasifikasi fungsional protein, pengali lipat protein, dan prediksi lokasi subselular. SVM
sebelumnya telah digunakan dalam prediksi struktur sekunder protein [6] [7] [8] [9]. Uji
validasi silang 10 kali diterapkan untuk mendukung mesin vektor untuk
mengklasifikasikan dan memprediksi struktur sekunder protein.
Dengan menggunakan validasi silang 10 kali lipat, kumpulan data dipartisi menjadi 10
sampel. Dari 10 sampel, 1 di antaranya ditugaskan sebagai model pengujian untuk
memvalidasi data dan sisanya digunakan sebagai model pengujian. Proses validasi silang
diulang sebanyak 10 kali, dimana masing-masing dari 10 sampel digunakan sekali
sebagai model validasi. Semua hasilnya bisa digunakan untuk menghasilkan estimasi
prediksi. Kernel yang diimplementasikan adalah kernel RBF. Dengan menggunakan
kernel non linier, margin hyperplane dapat dioptimalkan. Algoritma masih bekerja sama
dengan algoritma linier, hanya saja kernel RBF diterapkan pada setiap produk titik.
Akurasi mengukur probabilitas hasil sebenarnya (benar positif dan negatif benar) di
seluruh populasi (positif benar, positif palsu, negatif palsu, negatif sejati). Akurasi bisa
dihitung sebagai berikut:1
Tingkat positif sejati yang juga dikenal sebagai sensitivitas atau recall mendefinisikan
proporsi positif sebenarnya yang diidentifikasi dengan benar. Ini mengukur probabilitas
nilai positif sejati di antara positif sejati dan negatif palsu. Rumus sensitivitas ditunjukkan
seperti di bawah ini:2
Tingkat positif palsu mengukur probabilitas hasil prediksi positif bila protein adalah
struktur non-sekunder. Hal ini dapat dihitung sebagai berikut:3
Selain menerapkan metode evaluasi di atas, metode statistik, uji t dilaksanakan untuk
validasi hasil yang diperoleh. Uji t adalah uji hipotesis statistik dimana statistik uji
mengikuti distribusi t Student, jika hipotesis nol didukung. Dalam penelitian ini, uji-t
diterapkan pada dua sampel hasil yang mewakili struktur protein lokal yang berbeda.
Penelitian ini dilakukan dengan menggunakan 3 panjang segmen yang berbeda, panjang
13, 15 dan 17. Definisi penerapan panjang segmen yang berbeda adalah
memperhitungkan 13, 15 dan 17 residu residu atau asam amino dalam urutan protein.
Untuk setiap protein di RS126, struktur protein lokal dengan 3 segmen segmen berbeda
akan diterapkan. Panjang optimal untuk struktur protein lokal akan ditentukan dengan
menggunakan akurasi keseluruhan terbaik dari hasil evaluasi. Dengan validasi t-test,
signifikansi struktur protein lokal yang optimal dibandingkan dengan metode awal yang
dapat diamati.
Sebagian besar hasil prediksi dievaluasi dengan akurasi seperti yang digambarkan pada
Gambar 2. Menurut Gambar 2, untuk struktur protein lokal dengan panjang segmen 13,
akurasi tertinggi dicapai dengan koil diikuti oleh heliks dan kemudian untai. Hasil yang
sama dikumpulkan dari struktur protein lokal lainnya dimana koil memiliki akurasi
tertinggi di antara semua negara struktural sekunder. Dalam hal struktur sekunder, untuk
helix, panjang segmen 15 dan 17 mencatat akurasi tertinggi dibandingkan dengan yang
lain. Sementara struktur untai dengan panjang 13 memiliki keakuratan tertinggi
dibandingkan dengan panjang 15 dan 17. Sedangkan untuk koil, panjang 17 mencatat
keakuratan tertinggi diantara semua.
Dalam penelitian ini, selain akurasi, untuk memberikan hasil yang lebih andal, true
positive rate dan false positive rate juga digunakan untuk menganalisa hasil prediksi.
Hasil untuk tingkat positif benar dan tingkat positif palsu diilustrasikan pada Gambar 3
dan 4. Untuk tingkat positif yang benar, panjang 17 memiliki skor tertinggi untuk heliks,
panjang 15 untuk untai dan panjang 13 untuk koil. Sedangkan untuk tingkat positif palsu,
panjang 17 memiliki nilai terendah untuk semua keadaan struktural sekunder.
Gambar 3. Tingkat Positif Sejati dari masing-masing Struktur Protein Lokal berdasarkan
Struktur Sekunder
Gambar 4
Dari tabel dan gambar yang diilustrasikan, jelas bahwa secara umum, panjang segmen 17
memiliki akurasi yang lebih baik dibandingkan dengan struktur protein lokal lainnya
dengan skor 0,44, 0,22 dan 0,62. Sebagian besar akurasi yang dicapai adalah yang
tertinggi atau hanya di belakang nilai tertinggi. Serupa dengan tingkat positif sejati,
sebagian besar skor yang dicapai 17 besar berada pada kisaran teratas sementara pada
tingkat positif palsu, panjang 17 memiliki tingkat terendah di antara semua struktur
protein lokal. Dapat disimpulkan bahwa panjang segmen 17 adalah struktur protein lokal
terbaik dalam penelitian ini.
Perbandingan prediksi dengan struktur protein lokal yang optimal dengan prediksi
menggunakan dataset protein asli sedang dilakukan dan dianalisis. Metode yang
diusulkan dengan struktur protein lokal yang optimal diharapkan memiliki kinerja yang
lebih baik dibandingkan dengan metode prediksi konvensional dalam hal akurasi, tingkat
positif benar dan tingkat positif palsu. Perbandingan kinerja kedua metode tersebut
diilustrasikan pada Gambar 5.
Menurut Gambar 5, akurasi prediksi struktur protein lokal jauh lebih tinggi dibanding
prediksi konvensional. Skor akurasi prediksi protein struktur lokal adalah 0,70 dan
hampir menggandakan skor prediksi konvensional. Hal ini menunjukkan bahwa dengan
menerapkan pemilihan atau representasi fitur, akan ada peningkatan prediksi. Selain itu,
prediksi struktur protein lokal memberikan tingkat positif yang lebih tinggi dan tingkat
false positive yang rendah. Semua metode evaluasi di atas menunjukkan bahwa
penerapan struktur protein lokal mencapai peningkatan drastis dibandingkan dengan
metode prediksi tanpa pra-pengolahan atau optimasi.
Hasil validasi lebih lanjut telah diusulkan untuk memastikan keandalan prediksi. Validasi
statistik, uji-t, dilakukan untuk menguji signifikansi hasil yang dikembalikan oleh
prediksi. Tabel 2 menunjukkan hasil uji-t untuk akurasi sistem prediksi antara struktur
protein lokal yang optimal dan struktur asli. Hanya 11 sampel yang ditabulasikan karena
banyaknya urutan protein di dataset RS126. Perlu dicatat bahwa sebagian besar hasil uji-t
menghasilkan nilai h sebagai 1. Ini membuktikan bahwa perbedaan akurasi yang
diprediksi dari prediksi struktur sekunder antara struktur protein lokal yang optimal dan
struktur asli sangat penting. Peningkatan akurasi, true positive rate dan false positive rate
adalah meyakinkan dan dapat diandalkan.
Tabel 2. Contoh Hasil Uji-t untuk Akurasi antara Struktur Protein Lokal Optimal dan
Struktur Asli
Akhirnya, perbandingan ketepatan antara metode yang diusulkan (struktur protein lokal
yang optimal), penelitian awal (struktur asli) dan metode prediksi lainnya dilakukan. Hal
ini untuk mengamati tingkat optimalisasi metode yang diusulkan dibandingkan dengan
metode konvensional atau metode lainnya.
Menurut Tabel 3, dapat diamati dengan jelas bahwa penelitian awal memiliki akurasi
terendah karena kurangnya representasi fitur untuk prediksi. Metode yang diusulkan yang
menerapkan struktur protein lokal yang optimal memiliki akurasi yang lebih tinggi
bahkan dibandingkan metode prediksi lainnya. Ini mungkin karena dengan memecah
struktur protein asli menjadi segmen struktur protein lokal kecil, lebih banyak informasi
dapat dipelajari oleh algoritma dan akan menghasilkan prediksi yang lebih baik. Selain
itu, SVM adalah salah satu algoritma klasifikasi biner yang paling efisien dibandingkan
dengan algoritma yang digunakan oleh metode lain seperti N-gram dan lain-lain.
4. Kesimpulan
Struktur protein lokal yang dioptimalkan dengan SVM telah diusulkan untuk
memprediksi struktur sekunder protein. Ada beberapa hasil menarik yang dihadapi
selama studi ini. Pentingnya prediksi struktur sekunder protein, perbandingan penelitian
dengan pekerjaan sebelumnya, pengaruh struktur protein lokal untuk memprediksi
struktur sekunder protein, penerapan metode statistik untuk meningkatkan keandalan
metode evaluasi telah dilakukan secara ekstensif dan memberikan kontribusi besar
terhadap penelitian. Struktur sekunder protein. Beberapa karya masa depan disarankan
untuk meningkatkan prediksi prediksi struktur sekunder protein saat ini seperti
menggunakan dataset berbeda selain RS126, mengembangkan lebih banyak representasi
fitur dan menggunakan berbagai parameter dalam proses klasifikasi seperti validasi dan
kernel yang berbeda. Penting untuk mempelajari lebih rinci tentang struktur sekunder
protein karena membantu untuk memahami lebih banyak tentang fungsinya. Dengan
pengetahuan proteomik, kontribusi bisa dilakukan ke berbagai bidang seperti
pengembangan obat di bidang kedokteran