Anda di halaman 1dari 10

Judul Managing, Analysing, and Integrating Big Data in Medical Bioinformatics:

Open Problems and Future Perspectives


Jurnal
Penulis Ivan Merelli,Horacio Pérez-Sánchez,Sandra Gesing,and Daniele D’Agostino
Nama BioMed Research International
Jurnal
Tahun 2014
Anggota - Govin H. Siagian
Kelompok - Levia Febrialisti
- Oliani Halawa
- Hot Nunut Mega L.
Tujuan Aspek teknologi yang terkait dengan analisis BigData dalam informatika
biomedis.
Terjemahan Pendahuluan
Jurnal Meningkatnya ketersediaan data omics yang dihasilkan dari peningkatan
perolehan hasil biologi molekuler dan teknologi simulasi biologi sistem
merupakan peluang yang belum pernah terjadi sebelumnya bagi para peneliti
bioinformatika, tetapi juga merupakan tantangan besar. Skenario serupa muncul
untuk system perawatan kesehatan, di mana digitalisasi semua pemeriksaan
klinis dan rekam medis menjadi standar di rumah sakit. Jumlah informasi digital
yang begitu besar dan heterogen, yang saat ini disebut BigData, adalah dasar
untuk mengungkap pola tersembunyi dalam data, karena memungkinkan
pembuatan model prediktif untuk aplikasi biomedis kehidupan nyata. Tetapi
masalah utama adalah perlunya solusi teknologi yang lebih baik untuk
menghadapinya.
Definisi sederhana Big Data didasarkan pada konsep kumpulan data yang
ukurannya di luar kemampuan manajemen perangkat lunak basis data relasional
yang khas. Definisi Big Data yang lebih diartikulasikan didasarkan pada
paradigma tiga lawan: volume, variasi, dan kecepatan [1]. Volume mengingat
untuk teknik skalabilitas penyimpanan baru dan pendekatan terdistribusi untuk
permintaan dan pengambilan informasi. V kedua, variasi sumberdata, mencegah
penggunaan struktur relasional yang rapi secara langsung. Akhirnya, laju
peningkatan di mana data dihasilkan, kecepatan, mengikuti pola yang sama
dengan volume. “Kebutuhan akan kecepatan” ini, khususnya untuk aplikasi
terkait web, telah mendorong pengembangan teknik berdasarkan penyimpanan
nilai kunci dan basis data kolom di belakang portal dan antarmuka pengguna,
karena dapat dioptimalkan untuk pengambilan cepat informasi yang telah
dihitung sebelumnya. Dengan demikian, teknologi integrasi cerdas diperlukan
untuk menggabungkan sumber daya yang heterogen: pendekatan yang
menjanjikan adalah penggunaan teknologi yang mengandalkan penempatan yang
lebih ringan sehubungan dengan basis data relasional (yaitu, basis data NoSQL)
dan eksploitasi anotasi semantik dan ontologis. Meskipun definisi Big Data
masih dapat dianggap samar-samar, itu tidak hanya mewakili kata kunci untuk
peneliti atau masalah abstrak: Administrasi AS meluncurkan “Inisiatif Penelitian
dan Pengembangan Data Besar” senilai 200 juta dolar pada Maret 2012, dengan
tujuan untuk meningkatkan alat dan teknik untukorganisasi yang tepat, akses
yang efisien, dan analisis cerdas dari volume data digital yang sangat besar [2].
Jumlah investasi yang begitu tinggi dibenarkan oleh manfaat yang diharapkan
dari pemrosesan data, dan ini terutama berlaku untuk ilmu omics.

Sebuah contoh yang berarti diwakili oleh proyek-proyek untuk pengurutan


populasi. Yang pertama adalah 1000 genom [3], yang memberi para peneliti
jumlah data mentah yang luar biasa. Kemudian, proyek ENCODE [4], tindak
lanjut dari Proyek Genom Manusia (Penelitian Genomik) [5], bertujuan untuk
mengidentifikasi semua elemen fungsional dalam genom manusia. Saat ini,
penelitian ini bergerak pada skala yang lebih besar: seperti yang terlihat jelas
mempertimbangkan proyek Genome 10K [6] dan Proyek Genom 100K yang
lebih baru [7]. Hanya untuk memberikan urutan besarnya, jumlah data yang
dihasilkan dalam konteks Proyek 1000Genomes diperkirakan dalam 100
Terabyte (TB), dan Proyek 100KGenomes kemungkinan akan menghasilkan 100
kali lipat data tersebut. Biaya penargetan untuk mengurutkan satu individu akan
segera mencapai $1000 [8], yang terjangkau tidak hanya untuk proyek penelitian
besar tetapi juga untuk individu. Kami menghadapi paradoks bahwa solusi
termurah untuk mengatasi data ini adalah dengan mengurutkan ulang genom
ketika analisis diperlukan alih-alih menyimpannya untuk digunakan kembali di
masa mendatang [9].

ARSITEKTUR BIG DATA


Domain yang terkait dengan aplikasi intensif data memiliki kesamaan dari tiga
lawan yang disebutkan di atas, meskipun cara sebenarnya di mana informasi ini
diperoleh, disimpan, dan dianalisis dapat sangat bervariasi dari satu bidang ke
bidang lainnya. Aspek umum utama diwakili oleh persyaratan untuk arsitektur TI
yang mendasarinya. Ketersediaan array disk hanya beberapa ratus TB
sebenarnya tidak cukup, karena akses ke data akan, secara statistik, beberapa
gagal [10]. Dengan demikian, infrastruktur penyimpanan yang andal harus kuat
sehubungan dengan masalah ini. Selain itu, analisis Big Data membutuhkan
akses data yang sering untuk analisis dan integrasi informasi, yang menghasilkan
operasi transfer data yang cukup besar. Meskipun kita dapat mengasumsikan
adanya jumlah bandwidth yang cukup di dalam sebuah cluster, penggunaan
infrastruktur komputasi terdistribusi memerlukan mengadopsi solusi yang
efektif. Aspek lain juga harus ditangani, seperti kebijakan akses aman ke data
mentah dan hasil turunan. Memilih arsitektur tertentu dan membangun sistem
Big Data yang tepat merupakan tantangan karena beragam faktor heterogen.
Semua vendor besar seperti IBM [11], Oracle [12], dan Microsoft [13]
mengusulkan solusi (kebanyakan berorientasi bisnis) berdasarkan ekosistem
perangkat lunak mereka. Di sini kita akan membahas aspek arsitektur utama
dengan mempertimbangkan proyek sumber terbuka dan pengalaman ilmiah.
Kekhawatiran pertama dan jelas dengan Big Data adalah volume informasi yang
harus dihadapi para peneliti, terutama di bidang bioinformatika. Pada tingkat
yang lebih rendah, ini adalah masalah TI dari sistem file dan keandalan
penyimpanan, yang solusinya tidak jelas dan tidak unik. Pertanyaan terbuka
adalah sistem file apa yang harus dipilih dan apakah jaringan akan cukup cepat
untuk mengakses data ini. Masalah yang timbul dalam akses dan pengambilan
data dapat disorot dengan pertimbangan sederhana [14]: memindai data pada
hard disk fisik modern dapat dilakukan dengan throughput sekitar
100Megabytes/dtk. Oleh karena itu, pemindaian 1 Terabyte membutuhkan
waktu 5 jam dan 1 Petabyte membutuhkan waktu 5000 jam. Masalah Big Data
tidak hanya bergantung pada pengarsipan dan konservasi data dalam jumlah
besar. Tantangan sebenarnya adalah untuk mengakses data tersebut dengan cara
yang efisien, menerapkan paralelisme besar-besaran tidak hanya untuk
komputasi, tetapi juga untuk penyimpanan.

FASILITAS KOMPUTASI UNTUK MENGANALISIS BIG DATA


Platform tradisional untuk mengoperasikan kerangka kerja perangkat lunak yang
memfasilitasi analisis Big Data adalah cluster HPC, mungkin diakses melalui
infrastruktur komputasi grid [45]. Namun pendekatan tersebut memiliki
kelemahan yang mungkin untuk memberikan kemungkinan yang tidak memadai
untuk menyesuaikan lingkungan komputasi jika fasilitas komputasi tidak dimiliki
oleh para ilmuwan yang akan menganalisis data. Ini adalah salah satu alasan
mengapa layanan komputasi awan semakin penting sebagai solusi ekonomi
untuk melakukan analisis skala besar berdasarkan kebutuhan, khususnya untuk
laboratorium menengah-kecil yang tidak mampu membayar biaya untuk
membeli dan memelihara infrastruktur yang cukup kuat [46]. Pada bagian ini
kami akan mengulas secara singkat aplikasi atau proyek bioinformatika yang
mengeksploitasi platform ini. Komputasi Klaster.Pendekatan paralel data, yaitu
paradigm paralelisasi yang membagi data untuk dianalisis di antara proses yang
hampir independen, adalah solusi yang cocok untuk berbagai jenis analisis Big
Data yang menghasilkan skalabilitas tinggi dan angka kinerja. Masalah utama
saat mengembangkan aplikasi menggunakan paralelisme data adalah pilihan
algoritme, strategi untuk dekomposisi data, penyeimbangan beban di antara node
komputasi yang mungkin heterogen, dan keakuratan hasil secara keseluruhan
[47].
Komputasi GPU.Teknologi HPC adalah yang terdepan dalam revolusi analisis
data yang dipercepat, sehingga memungkinkan untuk melakukan terobosan
pemrosesan yang secara langsung diterjemahkan menjadi manfaat nyata bagi
masyarakat dan lingkungan. Penggunaan perangkat akselerator seperti GPU
merupakan solusi hemat biaya yang dapat mendukung hingga 11,5 Teraflops
dalam satu perangkat (yaitu, kartu grafis AMD Radeon R9 295X2) dengan harga
sekitar $1.500.

Salah satu portal/perangkat lunak gratis paling terkenal untuk analisis data
bioinformatika, Galaxy oleh Universitas Negeri Penn tersedia di cloud [59].
Idenya adalah bahwa dengan ketersediaan data yang sporadis, individu dan
laboratorium mungkin memiliki kebutuhan untuk, selama periode waktu tertentu,
memproses jumlah data yang sangat bervariasi. Variabilitas seperti itu dalam
volume data membebankan persyaratan variabel pada ketersediaan sumber daya
komputasi yang digunakan untuk memproses data yang diberikan. Daripada
harus membeli dan memelihara sumber daya komputasi yang diinginkan atau
harus menunggu lama untuk menyelesaikan pekerjaan pemrosesan data, Tim
Galaxy telah memungkinkan Galaxy untuk dipakai pada infrastruktur komputasi
awan, terutama Amazon Elastic Compute Cloud (EC2). Instance Galaxy di cloud
berperilaku seperti instance local Galaxy kecuali bahwa ia menawarkan manfaat
ketersediaan sumber daya komputasi awan dan model kepemilikan sumber daya
bayar sesuai pemakaian. Memiliki akses sederhana ke Galaxy di cloud
memungkinkan banyak instance Galaxy diperoleh dan dimulai sesuai kebutuhan
untuk memproses data yang diberikan. Setelah kebutuhan mereda, instans
tersebut dapat dirilis sesederhana saat diperoleh. Dengan paradigm seperti itu,
seseorang hanya membayar untuk sumber daya yang mereka butuhkan dan
gunakan, sementara semua kekhawatiran dan biaya lainnya dihilangkan.

AKSES KEAMANAN DATA


Selain meningkatkan kemampuan pencarian melalui ontologi, metadata, dan data
terkait untuk mengakses data secara efisien, aspek kegunaan juga merupakan
topik mendasar untuk Big Data. Para ilmuwan ingin fokus pada penelitian
spesifik mereka sambil membuat dan menganalisis data tanpa perlu mengetahui
semua beban tingkat rendah yang terkait dengan infrastruktur manajemen data
yang mendasarinya. Permintaan ini dapat diatasi dengan gerbang sains yang
merupakan titik masuk tunggal ke aplikasi dan data melintasi batas organisasi.
Keamanan data adalah aspek lain yang harus diperhatikan saat memberikan
akses ke Big Data, khususnya saat bekerja di sektor kesehatan.

Contoh gerbang sains dalam bidang bioinformatika yang diajukan adalah


MoSGrid (grid simulasi molekuler) [115] yang mendukung komunitas simulasi
molekuler dengan antarmuka pengguna yang intuitif di bidang kimia kuantum,
dinamika molekul, dan penyaringan docking. Ini telah dikembangkan di atas
WSPGRADE/gUSE dan menampilkan manajemen metadata dengan kemampuan
pencarian melalui Lucene [116] dan manajemen data terdistribusi melalui sistem
file terdistribusi berbasis objekXtreemFS [117]. Sementara kemampuan ini telah
dikembangkan sebelum Data Avenue tersedia di WS-PGRADE, arsitektur
berlapis dari gerbang sains MoSGrid telah dirancang untuk memungkinkan
integrasi lebih lanjut sistem manajemen data dan dengan demikian dapat
diperluas untuk Data Avenue.

Keamanan.Teknologi apa pun yang digunakan, manajemen data terdistribusi


untuk aplikasi biomedis dengan opsi komunitas untuk berbagi data memerlukan
otentikasi yang sangat aman dan tindakan yang aman untuk memastikan
kebijakan akses yang ketat dan integritas data [118]. Bioinformatika medis, pada
kenyataannya, sering berkaitan dengan data sensitif dan mahal seperti proyek
yang berkontribusi pada desain obat berbantuan komputer atau di lingkungan
seperti rumah sakit. Distribusi data meningkatkan kompleksitas dan melibatkan
transfer data melalui banyak perangkat jaringan. Dengan demikian, kehilangan
data atau korupsi dapat terjadi.

PERSPEKTIF DAN MASALAH TERBUKA


Data dianggap sebagai Paradigma Keempat dalam sains [120], selain ilmu
eksperimental, teoretis, dan komputasi. Ini menjadi sangat benar dalam biologi
komputasi, di mana, misalnya, pendekatan "urutkan dulu, pikirkan nanti" dengan
cepat mengatasi pendekatan yang didorong oleh hipotesis. Dalam konteks ini,
integrasi BigData sangat penting untuk bioinformatika yang merupakan “perekat
yang menyatukan penelitian biomedis.” Ada banyak masalah terbuka untuk
manajemen dan analisis Big Data, khususnya di bidang biologi komputasi dan
perawatan kesehatan. Beberapa karakteristik dan isu-isu terbuka dari tantangan
ini telah dibahas dalam makalah ini, seperti aspek arsitektur dan kemampuan
yang cukup fleksibel untuk mengumpulkan dan menganalisis berbagai jenis
informasi. Sangat penting untuk menghadapi berbagai informasi yang harus
dikelola oleh infrastruktur tersebut, yang harus diatur dalam konteks tanpa
skema, menggabungkan konsistensi santai dan kapasitas besar untuk mencerna
data. Oleh karena itu, titik kritisnya adalah bahwa database relasional tidak cocok
untuk masalah Big Data. Mereka tidak memiliki skalabilitas horizontal,
membutuhkan konsistensi yang keras, dan menjadi sangat kompleks ketika ada
kebutuhan untuk mewakili hubungan terstruktur.
Hasil Skenario serupa muncul untuk sistem perawatan kesehatan, di mana digitalisasi
Review semua pemeriksaan klinis dan rekam medis menjadi standar di rumah sakit.
Jumlah informasi digital yang begitu besar dan heterogen, yang saat ini disebut
BigData, adalah dasar untuk mengungkap pola tersembunyi dalam data, karena
memungkinkan pembuatan model prediktif untuk aplikasi biomedis kehidupan
nyata. Definisi Big Data yang lebih diartikulasikan didasarkan pada paradigma
tiga lawan: volume, variasi, dan kecepatan.
Tujuan akhir dari kegiatan penelitian dalam ilmu omics adalah untuk mengubah
sejumlah data menjadi informasi yang dapat digunakan dan pengetahuan yang
nyata. Sistem biologis sangat kompleks, dan algoritme yang terlibat dalam
menganalisisnya juga sangat kompleks. Mereka masih membutuhkan banyak
upaya untuk meningkatkan kemampuan prediktif dan analitis mereka.
 ARSITEKTUR BIG DATA
Analisis Big Data membutuhkan akses data yang sering untuk analisis
dan integrasi informasi, yang menghasilkan operasi transfer data yang
cukup besar.
1. Mengelola dan Mengakses Big Data
Kekhawatiran pertama dan jelasdengan Big Data adalah
volume informasi yang harus dihadapi parapeneliti, terutama di
bidang bioinformatika. Pada tingkat yang lebihrendah, ini adalah
masalah TI dari sistem file dan keandalanpenyimpanan, yang
solusinya tidak jelas dan tidak unik. Masalah yang timbul dalam
akses dan pengambilan data dapat disorot dengan pertimbangan
sederhana [14]: memindai data pada hard disk fisik modern dapat
dilakukan dengan throughput sekitar 100Megabytes/dtk. Oleh
karena itu, pemindaian 1 Terabyte membutuhkan waktu 5 jam dan
1 Petabytemembutuhkan waktu 5000 jam. Masalah Big Data tidak
hanyabergantung pada pengarsipan dan konservasi data dalam
jumlah besar.Tantangan sebenarnya adalah untuk mengakses data
tersebut dengancara yang efisien, menerapkan paralelisme besar-
besaran tidak hanyauntuk komputasi, tetapi juga untuk
penyimpanan.Jika infrastruktur lokal dieksploitasi untuk analisis
Big Data, satu solusi efektif diwakili oleh penggunaan arsitektur
klien/server di mana penyimpanan data tersebar di antara
beberapaperangkat dan dapat diakses melalui jaringan (lokal).
Perangkat lunak dapat secara otomatis memindahkan data
yang lebih jarang diakses ke penyimpanan yang lebih murah yang
tersedia diinfrastruktur, sambil meninggalkan sumber daya
penyimpanan yanglebih cepat dan lebih mahal (yaitu, disk SSD
atau flash) untuk data yanglebih penting. Manajemen dipandu
oleh analitik, menggunakan pola,karakteristik penyimpanan, dan
jaringan untuk menentukan ke manaharus memindahkan data.
Mengenai operasi I/O, aspek kuncinya adalah dukungan yang
efisien untuk streaming besar atau pembacaanacak kecil, selain
penulisan besar dan berurutan untukmenambahkan data ke file.
Operasi lain juga didukung, tetapi dapatdiimplementasikan
dengan cara yang kurang efisien
2. Perangkat tengah untuk Big Data
Apache Hadoop , kerangka kerja perangkat lunak sumber
terbukauntuk penyimpanan skala besar dan pemrosesan kumpulan
datapada perangkat keras komoditas terdistribusi. Hadoop terdiri
daridua komponen utama, HDFS dan MapReduce. Yang terakhir
adalah kerangka kerja sederhana untuk pemrosesan
terdistribusiberdasarkan:Peta dan Mengurangi fungsi, yang biasa
digunakandalam pemrograman fungsional. DalamPeta langkah
input dipartisimoleh proses master menjadi submasalah yang lebih
kecil dan kemudian didistribusikan ke proses pekerja. Dalam
Mengurangi langkah proses master mengumpulkan hasil dan
menggabungkannya dalam beberapa cara untuk memberikan
jawaban atas masalah yang awalnya coba dipecahkan.
Untuk memberikan contoh di bidang bioinformatika, dalam
proyek The Cancer Genome Atlas,para peneliti menerapkan
proses “sharding”, membagi data genommenjadi potongan-
potongan kecil yang lebih mudah dikelola untukpemrosesan
berbasis cluster, memanfaatkan kerangka Hadoop danGenome
Analysis Toolkit (GATK)
Hadoop adalah dasar untuk solusi tingkat tinggi lainnya
sepertiApache Hive [39], infrastruktur gudang data terdistribusi
untukmenyediakan ringkasan, kueri, dan analisis data. Apache
Hivemendukung analisis kumpulan data besar yang disimpan
dalam HDFS dan sistem file yang kompatibel seperti sistem file
Amazon S3. Ini menyediakan bahasa seperti SQL yang disebut
HiveQL sambil mempertahankan dukungan penuh untuk
peta/pengurangan. Untuk mempercepat kueri, ia menyediakan
indeks, termasuk indeks bitmap, dan layak untuk dieksploitasi di
beberapa aplikasi bioinformatika. Hadoop dianggap hampir
identik dengan Big Data. Namun,
Ada beberapa alternatif berdasarkan paradigma
MapReduceyang sama seperti Disco [42], kerangka kerja
komputasiterdistribusi yang ditujukan untuk menyediakan
platform. MapReduce untuk pemrosesan Big Data menggunakan
aplikasiPython, yang dapat digabungkan dengan toolkit
Biopython dari Open Bioinformatics Foundation, Storm,
terdistribusisistem komputasi real-time untuk pemrosesan cepat,
dan aliranbesar data dan sistem kepemilikan, misalnya, dari
Software AG,LexisNexis, dan ParStream
Kesimpulan
Daftar
Pustaka
Pendukung
(selain
referensi
utama)

Anda mungkin juga menyukai