Studi Literatur Pemanfaatan High Performance Computing Dalam Bidang Bioinformatics
Studi Literatur Pemanfaatan High Performance Computing Dalam Bidang Bioinformatics
Studi Literatur Pemanfaatan High Performance Computing Dalam Bidang Bioinformatics
Abstrak— Komputasi tingkat tinggi atau High Ada berbagai macam teknik HPC untuk membantu
Performance Computing (HPC) dapat membantu memudahkan menyelesaikan permasalahan bioinformatika, diantaranya
kinerja dalam berbagai aspek, salah satunya pada bidang adalah Graphics Processing Unit (GPU), Multi-Core,
bioinformatika. Penerapan HPC dalam bidang bioinformatika Multi- processor dan Cluster Computing. Kami akan
antara lain pembuatan basis data dan pengembangan menjelaskan perkembangan mengenai keempat teknik HPC
algoritma untuk analisis sekuens biologis. Tujuan dari studi tersebut yang digunakan untuk membantu proses penelitian
literatur ini untuk menganalisis perkembangan jumlah paper pada bidang bioinformatika berdasarkan banyaknya paper
yang telah dipublikasikan mengenai penggunaan teknik HPC
yang telah dipublikasi pada IEEE dalam kurun waktu lima
dalam bidang bioinformatika dalam kurun waktu lima tahun
terakhir dari tahun 2012 sampai 2016. Teknik HPC yang
tahun terakhir dari 2012 hingga 2016.
digunakan untuk membantu menyelesaikan permasalahan Paper ini terdiri dari beberapa pembahasan, yaitu
bioinformatika, diantaranya adalah Graphics Processing Unit Pendahuluan, Studi Literatur, Metodologi serta Hasil dan
(GPU), Multi- Core, Multi-processor dan Cluster Computing. Analisis. Pada Pendahuluan kami membahas sedikit
Metode yang digunakan dalam studi literatur ini adalah mengenai kegunaan HPC untuk bioinformatika. Studi
pengumpulan, filtrasi, klusterisasi, visualisasi dan analisis Literatur kami membahas beberapa paper yang terkait
data. Dalam studi literatur ini, kami menunjukkan bahwa
dengan HPC untuk bioinformatika, serta mengapa
teknik GPU merupakan teknik yang paling cepat dan efisien
dalam menghitung big data, khususnya data bioinformatika.
bioinformatika tersebut membutuhkan HPC dalam
pengembangannya. Metodologi, kami membahas bagaimana
Kata Kunci—studi literatur; bioinformatika; high cara kami melakukan penelitian ini dari awal pengumpulan
performance computing; Graphics Processing Unit (GPU); data hingga analisis data. Hasil dan Analisis, kami
Multi- Core; Multi-processor; Cluster Computing. membahas bagaimana perkembangan HPC untuk
bioinformatika sesuai dengan data yang telah kami
I. PENDAHULUAN kumpulkan dan sesuai dengan kriteria yang diidentifikasi.
Komputasi tingkat tinggi atau High Performance
II. STUDI LITERATUR
Computing (HPC) dapat membantu memudahkan kinerja
dalam berbagai aspek, salah satunya pada bidang Beberapa penelitian sebelumnya menggunakan teknik
Bioinformatics atau bioinformatika. Bioinformatika Graphics Processing Unit (GPU) untuk bioinformatika.
merupakan gabungan antara ilmu biologi dan teknik Misalnya Konur dan Kiran pada penelitian mereka
informasi. Penerapan HPC dalam bidang bioinformatika menggunakan teknik GPU. Platform yang digunakan adalah
antara lain pembuatan basis data dan pengembangan FLAME (Flinders Large Scale Agent-based Modeling
algoritma untuk analisis sekuens biologis. Contoh topik Environment) untuk mensimulasikan model multi-agen pada
utama pada bidang bioinformatika meliputi basis data untuk arsitektur perangkat keras paralel, termasuk komputer
mengelola informasi biologis, sequence alignment, prediksi dengan kinerja tinggi. Hasil dari penelitian menunjukkan
bentuk struktur protein maupun struktur sekunder RNA, bahwa FLAME GPU adalah kandidat yang baik untuk
analisis filogenetik, dan analisis gen. mensimulasikan dinamika koloni bakteri besar yang
dibentuk oleh banyak sel individu. Oleh karena itu, ini
HPC sangat penting untuk membantu menyelesaikan adalah kerangka komputasi yang mudah digunakan untuk
permasalahan pada bidang bioinformatika tersebut, karena menganalisis sistem komputasi membran yang kompleks
data yang diperlukan sangat banyak dan apabila hanya [1]. Penelitian yang dilakukan oleh Burkitt dan Walker juga
menggunakan komputasi sederhana akan membutuhkan menggunakan teknik GPU untuk mengekstrak informasi
waktu yang lama untuk mengeksekusinya. Misalnya untuk tentang struktur jaringan biologis dari data citra statis.
melakukan penyelarasan DNA besar, memerlukan teknik Tujuan dari penelitian ini adalah untuk menghasilkan model
GPU untuk mempercepat proses eksekusi program. komputasi oviduct 3D unik yang digunakan untuk
menyelidiki dampak lingkungan 3D yang
Seminar Nasional Aplikasi Teknologi Informasi (SNATi) 2017 ISSN: 1907 – 5022
Yogyakarta, 5 Agustus 2017 A-22
Proses filtrasi ini dilakukan melalui focus group D. Visualisasi data
discussion, yang terbagi menjadi dua kelompok. Tiap
kelompok membahas dua teknik HPC per tahun dari tahun Data yang sudah diklusterisasi kemudian
2012 sampai 2016. Kelompok pertama membahas teknik divisualisasikan dalam bentuk grafik. Visualisasi data akan
GPU dan Multicore berdasarkan keyword “Multicore memudahkan dalam membaca dan menganalisis banyak
Bioinformatics” dan “GPU for Bioinformatics”. Kelompok data.
kedua membahas teknik Clustering dan Multiprocessor E. Analisis Data
berdasarkan keyword “Multiprocessor for Bioinformatics”
dan “Clustering Bioinformatics”. Setiap kelompok Pada tahap ini, fokus analisis kami adalah melihat teknik
melakukan proses yang sama, yaitu membaca sejumlah yang sering digunakan dalam bidang bioinformatika,
artikel dengan menggunakan teknik skimming yang berdasarkan penelitian tiap tahun ataupun dari keseluruhan
berfokus pada bagian judul, keyword dan abstrak dari tahun. Kemudian menganalisis paper mengenai penggunaan
artikel. Hasil dari setiap kelompok selanjutnya teknik HPC dalam bidang bioinformatika, serta
dikombinasikan untuk mendapatkan hasil akhir. menganalisis kelebihan dan kekurangan dari masing-masing
teknik HPC.
C. Klusterisasi Data
IV. HASIL DAN PEMBAHASAN
Data yang telah difilter selanjutnya dikelompokkan
berdasarkan tahun dan jenis teknik HPC. Terdapat beberapa Berdasarkan data yang diperoleh dari sciencedirect,
teknik yang digunakan HPC dalam bioinformatika, yaitu biomed central, link springer dan IEEE pada tahap
pengumpulan data, selanjutnya dilakukan proses filtrasi
a. Multicore berdasarkan tahun publikasi yaitu dalam rentang tahun 2012
Multicore adalah komponen komputasi tunggal yang sampai dengan 2016. Distribusi artikel bidang
memiliki dua atau lebih core independen atau unit bioinformatika dari setiap tahunnya dapat dilihat pada Tabel
pemrosesan. Core ini adalah yang membaca dan 1. Hasil distribusi artikel dibawah ini kami peroleh dari
menjalankan instruksi program pada Central Processing focus group discussion. Visualisasi pemanfaatan tiap teknik
Unit (CPU). Instruksi ini pada dasarnya adalah instruksi HPC dalam bidang bioinformatika setiap tahunnya dapat
CPU biasa seperti menambahkan dan memindahkan data . dilihat pada Gambar 2.
Multicore dapat melakukan banyak instruksi secara TABEL I. Jumlah artikel HPC untuk bioinformatika di IEEE
bersamaan. Program berjalan dengan membagi instruksi
menjadi bagian yang lebih kecil untuk dijalankan secara Tahun GPU Multi-core Multi-Processor Clustering
bersamaan pada multicore [9]. 2012 14 10 1 58
2013 16 13 0 48
b. Multiprocessor 2014 29 6 2 42
2015 40 10 1 34
Multiprocessor memiliki dua atau lebih unit pemrosesan. 2016 12 4 0 55
CPU diintegrasikan ke dalam satu sistem komputer. Pada Total 111 43 4 237
dasarnya multiprocessore memiliki dua atau lebih CPU pada
sistem secara fisik. Namun, processor memerlukan
dukungan sebuah sistem untuk mengeksekusi instruksi
program, sementara processor lainnya melakukan instruksi
program yang berbeda secara bersamaan [9].
c. Clustering
Clustering adalah unit logis tunggal yang terdiri dari
beberapa komputer yang terhubung melalui LAN.
Komputer berjejaring pada dasarnya bertindak sebagai
mesin tunggal yang jauh lebih cepat, kapasitas penyimpanan
yang lebih besar, dan integritas data yang lebih baik [10].
d. GPU
Graphics Processing Unit (GPU) adalah prosesor yang
bertugas secara khusus untuk mengolah tampilan grafik.
Model komputasi GPU adalah menggunakan Central
Processing Unit (CPU) dan GPU bersama – sama dalam
model komputasi co-processing yang heterogen. Bagian
berurutan dari aplikasi berjalan pada CPU dan bagian
komputasi intensif dipercepat oleh GPU. Aplikasi berjalan
lebih cepat karena menggunakan kinerja GPU yang tinggi
untuk meningkatkan kinerja [11].
Seminar Nasional Aplikasi Teknologi Informasi (SNATi) 2017 ISSN: 1907 – 5022
Yogyakarta, 5 Agustus 2017 A-23
Berdasarkan pada Gambar 2, dapat diketahui bahwa sequence , protein, kromatografi, preteomics, genomics
teknik HPC yang paling banyak digunakan dalam penerapan
sequence, RNA, oligonukleotida, neurophysiology,
bioinformatika dari tahun 2012 sampai 2016 adalah:
molecular biophysics, cell biophysics, dan gene
expression.
1. Teknik Clustering, pada tahun 2012 sampai 2016 paling
banyak digunakan dibandingkan dengan tiga teknik TABEL II. Distribusi proses bioinformatika – HPC (2012-2016)
lainnya, kecuali pada tahun 2015 berada diurutan kedua.
2. Teknik GPU, pada tahun 2012 sampai 2016 berada di Bioinformatika Clustering GPU Multicore Multi
Processor
bawah satu peringkat dengan teknik Clustering, kecuali Genomic 43 23 17 2
pada tahun 2015 berada diurutan pertama. DNA Sequence 23 25 6 0
3. Teknik Multicore, paling banyak digunakan pada tahun Gen Sequence 6 7 3 0
2013. Tetapi untuk setiap tahunnya teknik ini tetap Filogenetik 46 4 5 1
berada di peringkat ketiga. Protein 58 15 5 0
4. Teknik Multiprocessor, merupakan teknik yang setiap Amino Acid 0 0 2 0
Sequence
tahunnya tidak mengalami perubahan yang signifikan. Biological 0 6 2 0
System Modeling
Berdasarkan hasil yang diperoleh, teknik Clustering Proteomics 6 1 1 1
merupakan teknik yang paling banyak digunakan untuk RNA 18 1 1 0
bidang bioinformatika berdasarkan kurun waktu lima tahun Thermostat 0 1 1 0
Neural Network 1 3 0 0
terakhir. Sebaliknya, teknik Multiprocessor merupakan
Gen Expression 25 1 0 0
teknik yang paling sedikit digunakan untuk bidang Entropy 1 0 0 0
bioinformatika. Teknik clustering banyak digunakan karena Molecular 8 2 0 0
merupakan teknik yang hemat biaya, memiliki kecepatan Biophysic
yang tinggi, serta memiliki perangkat lunak yang Kromatografi 2 0 0 0
terdistribusi dengan baik, sehingga bisa menjalankan tugas Biomedical MRI 0 5 0 0
Biological 0 14 0 0
bioinformatika dengan efisien. Sebaliknya, proses Sequence
multiprocessor memiliki beberapa hambatan misalnya Hidden Markov 0 3 0 0
lambatnya dalam mengeksekusi tugas padahal bidang Models
bioinformatika memiliki data berukuran yang sangat besar Total 237 111 43 4
sampai dengan 64GB. Penulis belum menemukan adanya
penelitian atau referensi yang membandingkan tren TABEL III. Kelebihan dan Kekurangan teknik HPC untuk Bioinformatika
penggunaan teknik HPC untuk bioinformatika setiap
tahunnya.
HPC Kelebihan Kekurangan
Berdasarkan data yang dikumpulkan, proses Clustering Tidak memerlukan Menggunakan banyak energi
bioinformatika yang paling banyak diteliti menggunakan perubahan yang besar dan membutuhkan
HPC adalah filogenetik, DNA sequence , protein, pada sumber code perawatan [12].
kromatografi, preteomics, genomics sequence, RNA, program CPU, kecuali
perubahan untuk
oligonukleotida, neurophysiology, molecular biophysics, message passing [12].
cell biophysics, dan gene expression. Perbandingan data GPU Memiliki jumlah unit Berdasarkan paradigma
lengkap tiap distribusinya dapat dilihat pada Tabel 2. program yang komputasi, perubahan
berkomputasi tinggi, SIMD: konsional cabang
Penggunaan teknik HPC dalam bioinformatika sehingga memungkinkan menyiratkan serialisasi
memiliki kelebihan dan kekurangan dalam menyelesaikan bisa melakukan eksekusi thread. Arsitektur GPU
tugas. Kekurangan dan kelebihan tiap teknik HPC telah ribuan simultan threads. membutuhkan penulisan
dirangkum pada Tabel 3. Tersedia dari ulang code dan mendesain
performansi tinggi ulang algoritma[12].
V. KESIMPULAN memori lokal [12].
Multi Waktu eksekusi cepat Memiliki banyak kendala,
Pada penelitian ini, beberapa kesimpulan yang dapat diambil processor pada multiple programs membutuhkan konfigurasi
adalah sebagai berikut. [9]. yang kompleks [9].
Seminar Nasional Aplikasi Teknologi Informasi (SNATi) 2017 ISSN: 1907 – 5022
Yogyakarta, 5 Agustus 2017 A-25