NIM : 210211060254
* - sesuai penulis
Untuk Buku
Tahunan IMIA 2001
Versi web – http://bioinfo.mbb.yale.edu/~nick/bioinformatics/
1. Abstrak
Banjir data berarti bahwa banyak tantangan dalam biologi sekarang menjadi
tantangan dalam komputasi. Bioinformatika, penerapan teknik komputasi
untuk menganalisis informasi yang terkait dengan biomolekul dalam skala
besar, kini telah memantapkan dirinya sebagai disiplin dalam biologi
molekuler, dan mencakup berbagai bidang studi mulai dari biologi struktural,
genomik hingga studi ekspresi gen.
Dalam ulasan ini kami memberikan pengantar dan gambaran umum tentang
keadaan lapangan saat ini. Kami membahas prinsip-prinsip utama yang
mendukung analisis bioinformatika, melihat jenis informasi biologis dan
database yang umum digunakan, dan akhirnya memeriksa beberapa studi
yang sedang dilakukan, terutama dengan mengacu pada sistem regulasi
transkripsi.
2. Perkenalan
Data biologis membanjiri pada tingkat yang belum pernah terjadi sebelumnya (1).
Misalnya pada Agustus 2000, repositori GenBank urutan asam nukleat berisi 8.214.000
entri (2) dan database SWISS-PROT urutan protein berisi 88.166 (3). Rata-rata, jumlah
informasi yang disimpan dalam database ini berlipat ganda setiap 15 bulan (2). Selain
itu, sejak publikasi genom H. influenzae (4), urutan lengkap untuk lebih dari 40
organisme telah dirilis, mulai dari 450 gen hingga lebih dari 100.000. Tambahkan ke
data ini dari segudang proyek terkait yang mempelajari ekspresi gen, menentukan
struktur protein yang dikodekan oleh gen, dan merinci bagaimana produk ini
berinteraksi satu sama lain, dan kita dapat mulai membayangkan jumlah besar dan
berbagai informasi yang sedang diproduksi.
1
Sebagaimana diserahkan ke Oxford English Dictionary
Sebagai hasil dari lonjakan data ini, banyak tantangan dalam biologi sebenarnya
menjadi tantangan dalam komputasi. Pendekatan semacam itu sangat ideal karena
kemudahan komputer dapat menangani data dalam jumlah besar dan menyelidiki
dinamika kompleks yang diamati di alam. Bioinformatika, subjek tinjauan saat ini, sering
didefinisikan sebagai penerapan teknik komputasi untuk memahami dan mengatur
informasi yang terkait dengan makromolekul biologis. Perkawinan senapan antara dua
subjek ini sebagian besar disebabkan oleh fakta bahwa biologi itu sendiri adalah
teknologi informasi; Fisiologi dan perilaku organisme sebagian besar ditentukan oleh
gennya, yang pada tingkat dasar dapat dilihat sebagai repositori informasi digital. Pada
saat yang sama, ada kemajuan besar dalam teknologi yang memasok data mentah;
menurut Anthony Kerlavage dari Celera, laboratorium eksperimental dapat dengan
mudah menghasilkan lebih dari 100 gigabyte data sehari (5). Kekuatan pemrosesan
yang luar biasa ini telah diimbangi dengan perkembangan teknologi komputer; area
perbaikan yang paling penting adalah CPU, penyimpanan disk dan Internet,
memungkinkan perhitungan yang lebih cepat, penyimpanan data yang lebih baik dan
merevolusi metode untuk mengakses dan bertukar data.
2.2 Tujuan bioinformatika
Tujuan bioinformatika adalah tiga kali lipat. Pertama, pada bioinformatika yang paling
sederhana mengatur data dengan cara yang memungkinkan peneliti untuk mengakses
informasi yang ada dan mengirimkan entri baru saat diproduksi, misalnya Bank Data
Protein untuk struktur makromolekul 3D (6, 7). Sementara kurasi data adalah tugas
penting, informasi yang disimpan dalam database ini pada dasarnya tidak berguna
sampai dianalisis. Dengan demikian tujuan bioinformatika jauh melampaui kontrol
volume belaka. Tujuan kedua adalah untuk mengembangkan alat dan sumber daya
yang membantu dalam analisis data. Misalnya, setelah mengurutkan protein tertentu,
menarik untuk membandingkannya dengan urutan yang dikarakterisasi sebelumnya. Ini
membutuhkan lebih dari sekedar pencarian database langsung. Dengan demikian,
program seperti FASTA (8) dan PSI-BLAST (9) harus mempertimbangkan apa yang
merupakan kemiripan biologis yang signifikan.Pengembangan sumber daya tersebut
membutuhkan pengetahuan yang luas tentang teori komputasi, serta pemahaman
menyeluruh tentang biologi. Tujuan ketiga adalah menggunakan alat-alat ini untuk
menganalisis data dan menafsirkan hasilnya dengan cara yang bermakna secara
biologis. Secara tradisional, studi biologi meneliti sistem individu secara rinci, dan
sering membandingkannya dengan beberapa yang terkait. Dalam bioinformatika, kami
juga dapat melakukan analisis global terhadap semua datayang tersedia dengan tujuan
mengungkap prinsip-prinsip umum yang berlaku di banyaksistem dan menyoroti fitur
yang unik bagi sebagian orang.
Dalam ulasan ini, kami memberikan pengantar bioinformatika. Kami fokus pada tujuan
pertama dan ketiga yang baru saja dijelaskan, dengan referensi khusus untuk kata
kunci yang digarisbawahi dalam definisi: informasi, informatika, organisasi,
pemahaman, aplikasi skala besar dan praktis. Secara khusus, kami membahas
berbagai data yang saat ini sedang diperiksa, database di mana mereka diatur, jenis
analisis yang sedang dilakukan menggunakan sistem pengaturan transkripsi sebagai
contoh, dan akhirnya membahas beberapa aplikasi praktis utama bioinformatika.
Tabel 1 mencantumkan jenis data yang dianalisis dalam bioinformatika dan berbagai
topik yang kami anggap termasuk dalam bidang ini. Di sini kita mengambil pandangan
luas dan menyertakan subjek yang biasanya tidak terdaftar. Kami juga memberikan
nilai perkiraan yang menggambarkan ukuran data yang sedang dibahas.
Kami mulai dengan ikhtisar sumber informasi: ini dapat dibagi menjadi urutan DNA
mentah, urutan protein, struktur makromolekul, urutan genom, dan data genom utuh
lainnya. Urutan DNA mentah adalah string dari empat huruf dasar yang terdiri dari gen,
masing-masing biasanya 1.000 basa. Repositori GenBank dari urutan asam nukleat
saat ini memegang total 9,5 miliar basa dalam 8,2 juta entri (semua angka database
per Agustus 2000). Pada tingkat berikutnya adalah urutan protein yang terdiri dari string
20 huruf asam amino. Saat ini ada sekitar 300.000 urutan protein yang diketahui,
dengan protein bakteri khas yang mengandung sekitar 300 asam amino. Data struktural
makromolekul mewakili bentuk informasi yang lebih kompleks. Saat ini ada 13.000 entri
di Bank Data Protein, PDB, yang sebagian besar adalah struktur protein. File PDB khas
untuk protein berukuran sedang berisi koordinat xyz sekitar 2.000 atom.
Euforia ilmiah baru-baru ini berpusat pada sekuensing genom keseluruhan. Seperti
halnya urutan DNA mentah, genom terdiri dari rangkaian huruf dasar, mulai dari 1,6 juta
basa pada Haemophilus influenzae hingga 3 miliar pada manusia. Aspek penting dari
genom lengkap adalah perbedaan antara daerah pengkodean dan daerah non-
pengkodean – urutan berulang 'sampah' yang membentuk sebagian besar urutan basa,
terutama pada eukariota. Kita sekarang dapat mengukur tingkat ekspresi hampir setiap
gen dalam sel tertentu pada tingkat genom keseluruhan meskipun ketersediaan publik
dari data tersebut masih terbatas. Pengukuran tingkat ekspresi dilakukan di bawah
kondisi lingkungan yang berbeda, berbagai tahap siklus sel dan jenis sel yang berbeda
dalam organisme multi-seluler. Saat ini dataset terbesar untuk ragi telah membuat
sekitar 20 pengukuran titik waktu untuk 6.000 gen (10). Data skala genomik lainnya
termasuk informasi biokimia tentang jalur metabolisme, jaringan pengaturan, data
interaksi protein-protein dari eksperimen dua-hibrida, dan KO sistematis gen individu
untuk menguji kelayakan suatu organisme.
Apa yang terlihat dari daftar ini adalah keragaman dalam ukuran dan kompleksitas
kumpulan data yang berbeda. Selalu ada lebih banyak data berbasis urutan daripada
data struktural karena relatif mudahnya diproduksi. Ini sebagian terkait dengan yang
lebih besar kompleksitas dan informasi-konten struktur individu dibandingkan dengan
urutan individu. Sementara lebih banyak informasi biologis dapat diturunkan dari
struktur tunggal daripada urutan protein, masalahnya diatasi dengan menganalisis
jumlah datayang lebih besar.
Sumber data Ukuran data Topik bioinformatika
Urutan DNA 8,2 juta Memisahkan wilayah pengkodean dan
mentah urutan non-pengkodean Identifikasi intron dan
(9,5 miliar basis) ekson
Prediksi produk gen
Analisis forensik
Simulasi
molekuler
(perhitungan
medan gaya,
gerakan molekuler,
prediksi docking)
Ada istilah umum untuk menggambarkan hubungan antara pasangan protein atau gen
dari mana mereka berasal: protein analog memiliki lipatan terkait, tetapi urutan yang
tidak terkait, sedangkan protein homolog keduanya secara berurutan dan struktural
serupa. Kedua kategori kadang-kadang bisa sulit dibedakan terutama jika hubungan
antara kedua protein jauh (17, 18). Di antara homolog, berguna untuk membedakan
antara ortolog, protein dalam spesies berbeda yang telah berevolusi dari gen leluhur
yang sama, dan paralog, protein yang terkait dengan duplikasi gen dalam genom (19).
Biasanya, ortolog mempertahankan fungsi yang sama sementara paralog berevolusi
berbeda, tetapi fungsi terkait (20).
Konsep penting yang muncul dari pengamatan ini adalah bahwa dari "daftar bagian"
terbatas untuk organisme yang berbeda (21, 22): inventarisasi protein yang terkandung
dalam suatu organisme, diatur menurut sifat yang berbeda seperti urutan gen, lipatan
protein atau fungsi. Mengambil lipatan protein sebagai contoh, kami menyebutkan
bahwa dengan beberapa pengecualian, struktur tersier protein mengadopsi salah satu
repertoar lipatan terbatas. Karena jumlah keluarga lipatan yang berbeda jauh lebih kecil
daripada jumlah keluarga gen, mengkategorikan protein dengan lipatan memberikan
penyederhanaan substansial dari isi genom. Penyederhanaan serupa dapat diberikan
oleh atribut lain seperti fungsi protein. Dengan demikian, kami berharap gagasan
tentang daftar bagian terbatas ini menjadi semakin umum dalam analisis genom di
masa depan.
Jelas, aspek penting dalam mengelola volume data yang besar ini terletak pada
pengembangan metode untuk menilai kesamaan antara biomolekul yang berbeda dan
mengidentifikasi yang terkait. Di bawah ini, kita membahas database utama yang
menyediakan akses ke sumber informasi primer, dan juga memperkenalkan beberapa
database sekunder yang secara sistematis mengelompokkan data (Tabel 2). Klasifikasi
ini memudahkan perbandingan antara genom dan produk mereka, memungkinkan
identifikasi tema umum antara yang terkait danmenyoroti fitur yang unik bagi sebagian
orang.
Basis data URL
Urutan protein
(primer)
SWISS-PROT www.expasy.ch/sprot/sprot-top.html
PIR-Internasional www.mips.biochem.mpg.de/proj/protseqdb
G www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pro
HANTU tein
NRDB
N W.Bioynb.MUD.AC.UK/DeBrowser/Print/Print.H
E
Pfam
Struktur
makromolekul
Bank Data Protein (PDB) www.rcsb.org/pdb
Database Asam Nukleat ndbserver.rutgers.edu/
(NDB) Database www.ncifcrf.gov/CRYS/HIVdb/NEW_DATABAS
Protease HIV ReLiBase E www2.ebi.ac.uk:8081/home.html
PDBsum www.biochem.ucl.ac.uk/bsm/pdbsum
CATH www.biochem.ucl.ac.uk/bsm/cath
SCOP scop.mrc-
FSSP lmb.cam.ac.uk/scop
www2.embl-
ebi.ac.uk/dali/fssp
Urutan nukleotida
Zhenp www.ncbi.nlm.nih.gov/Genbank
ong www.ebi.ac.uk/embl
www.ddbj.nig.ac.jp/
Embal
TTPJ
Urutan genom
Masukkan genom www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Ge
Roda www.ncbi.nlm.nih.gov/COG
Database terintegrasi
InterPro www.ebi.ac.uk/interpro
(SRS) www.ncbi.nlm.nih.gov/Entrez
Entrez
Selanjutnya kita melihat database struktur makromolekul. Bank Data Protein, PDB (6,
7), menyediakan arsip utama dari semua struktur 3D untuk makromolekul seperti
protein, RNA, DNA dan berbagai kompleks. Sebagian besar ~ 13.000 struktur (Agustus
2000) diselesaikan dengan kristalografi sinar-x dan NMR, tetapi beberapa model teoritis
juga disertakan. Karena informasi yang diberikan dalam entri PDB individu bisa sulit
untuk diekstraksi, PDBsum (30) menyediakan halaman Web terpisah untuk setiap
struktur dalam PDB yang menampilkan analisis struktural terperinci, diagram skematik
dan data tentang interaksi antara molekul yang berbeda dalam entri yang diberikan.
Tiga database utama mengklasifikasikan protein berdasarkan struktur untuk
mengidentifikasi hubungan struktural dan evolusioner: CATH (31), SCOP (32), dan
database FSSP (33). Semua terdiri dari taksonomi struktural hierarkis di mana
kelompok protein meningkatkan kesamaan pada tingkat yang lebih rendah dari pohon
klasifikasi. Selain itu, banyak database fokus pada jenis makromolekul tertentu. Ini
termasuk Database Asam Nukleat, NDB (34), untuk struktur yang terkait dengan asam
nukleat, database protease HIV (35) untuk struktur protease HIV-1, HIV-2 dan SIV dan
kompleksnya, dan ReLiBase (36) untuk kompleks reseptor-ligan.
Sumber terbaru dari data skala genomik berasal dari eksperimen ekspresi, yang
mengukur tingkat ekspresi gen individu. Eksperimen ini mengukur jumlah mRNA atau
produk protein yang diproduksi oleh sel. Untuk yang pertama, ada tiga teknologi utama:
microarray cDNA (42-44), Affymatrix GeneChip (45) dan metode SAGE (46). Metode
pertama mengukur tingkat relatif kelimpahan mRNA antara sampel yang berbeda,
sedangkan dua yang terakhir mengukur tingkat absolut. Sebagian besar upaya dalam
analisis ekspresi gen telah terkonsentrasi pada ragi dan genom manusia dan sampai
sekarang, tidak ada repositori pusat untuk data ini. Untuk ragi, dataset Young (10),
Church (47) dan Samson (48) menggunakan metode GeneChip, sedangkan siklus sel
Stanford (49), pergeseran diauxic (50) dan dataset mutan penghapusan (51)
menggunakan microarray. Sebagian besar mengukur kadar mRNA di seluruh siklus sel
ragi, meskipun beberapa fokus pada tahap tertentu dalam siklus. Bagi manusia, aplikasi
utamanya adalah memahami ekspresi dalam tumor dan sel kanker. Proyek Molecular
Portraits of Breast Tumours (52), Lymphoma and Leukaemia Molecular Profiling (53)
menyediakan data dari percobaan microarray pada sel kanker manusia.
Teknologi untuk mengukur kelimpahan protein saat ini terbatas pada elektroforesis gel
2D diikuti oleh spektrometri massa (54). Karena gel hanya dapat secara rutin
menyelesaikan sekitar 1.000 protein (55), hanya yang paling melimpah yang dapat
divisualisasikan. Saat ini, data dari eksperimen ini hanya tersedia dari literatur (56, 57).
3.6 Integrasi data
Pada tingkat dasar, masalah ini sering diatasi dengan menyediakan tautan eksternal ke
database lain, misalnya di PDBsum, halaman web untuk struktur individual
mengarahkan pengguna ke entri yang sesuai di PDB, NDB, CATH, SCOP dan SWISS-
PROT. Pada tingkat yang lebih maju, ada upaya untuk mengintegrasikan akses di
beberapa sumber data. Salah satunya adalah Sequence Retrieval System, SRS (59),
yang memungkinkan database file datar diindeks satu sama lain; Hal ini memungkinkan
pengguna untuk mengambil, link dan mengakses entri dari asam nukleat, urutan
protein, motif protein, struktur protein dan database bibliografi. Lainnya adalah fasilitas
Entrez (39), yang menyediakan gerbang serupa ke urutan DNA dan protein, data
pemetaan genom, struktur makromolekul 3D dan database bibliografi PubMed (60).
Pencarian gen tertentu di kedua database akan memungkinkan transisi yang mulus ke
genom asalnya, urutan protein yang dikodekannya, strukturnya, referensi bibliografi dan
entri yang setara untuk semua gen terkait.
Setelah memeriksa data, kita dapat mendiskusikan jenis-jenis analisis yang dilakukan.
Seperti yang ditunjukkan pada Tabel 1, bidang studi yang luas dalam bioinformatika
dapat dipisahkan sesuai dengan sumber informasi yang digunakan dalam penelitian.
Untuk urutan DNA mentah, penyelidikan melibatkan pemisahan daerah pengkodean
dan non-pengkodean, dan identifikasi intron, ekson dan daerah promotor untuk
membuat anotasi DNA genom (61) (62). Untuk urutan protein, analisis termasuk
mengembangkan algoritma untuk perbandingan urutan (63), metode untuk
menghasilkan beberapa urutan keberpihakan (64), dan mencari domain fungsional dari
motif urutan yang dilestarikan dalam keselarasan tersebut. Investigasi data struktural
meliputi prediksi struktur protein sekunder dan tersier, metode produksi untuk
keberpihakan struktural 3D (65, 66), memeriksa geometri protein menggunakan
pengukuran jarak dan sudut, perhitungan bentuk permukaan dan volume dan analisis
protein interaksi dengan subunit lain, DNA, RNA dan molekul yang lebih kecil. Studi-
studi ini telah mengarah pada topik simulasi molekuler di mana data struktural
digunakan untukmenghitung energetika yang terlibat dalam menstabilkan struktur
makromolekul, mensimulasikan gerakan dalam makromolekul, dan menghitung energi
yang terlibat dalam docking molekuler. Meningkatnya ketersediaan urutan genom
beranotasi telah menghasilkan pengenalan genomik komputasi dan proteomik - analisis
skala besar genom lengkap dan protein yang mereka kodekan. Penelitian meliputi
karakterisasi kandungan protein dan jalur metabolisme antara genom yang berbeda,
identifikasi protein yang berinteraksi, penugasan dan prediksi produk gen, dan analisis
skala besartingkat ekspresi gen. Beberapa topik penelitian ini akan ditunjukkan dalam
contoh analisis kami tentang sistem regulasi transkripsi.
Bidang studi lain yang telah kami sertakan dalam Tabel 1 adalah pengembangan
perpustakaan digital untuk pencarian bibliografi otomatis, basis pengetahuan informasi
biologis dari literatur, metode analisis DNA dalam forensik, prediksi struktur asam
nukleat, simulasi jalur metabolisme, dan analisis keterkaitan - menghubungkan gen
spesifik dengan sifat penyakit yang berbeda.
Gambar 1 merangkum poin-poin utama yang kami angkat dalam diskusi kami tentang
pengorganisasian dan pemahaman data biologis - pengembangan teknik
bioinformatika telah memungkinkan perluasan analisis biologis dalam dua dimensi,
kedalaman dan luasnya. Yang pertama diwakili oleh sumbu vertikal pada gambar dan
menguraikan pendekatan yang mungkin untuk proses desain obat rasional. Tujuannya
adalah untuk mengambil protein tunggal dan menindaklanjuti analisis yang
memaksimalkan pemahaman kita tentang protein yang dikodekannya. Dimulai dengan
urutan gen, kita dapat menentukan urutan protein dengan kepastian yang kuat. Dari
sana, algoritma prediksi dapat digunakan untuk menghitung struktur yang diadopsi oleh
protein. Perhitungan geometri dapat menentukan bentuk permukaan protein dan
simulasi molekul dapat menentukan medan gaya di sekitar molekul. Akhirnya, dengan
menggunakan algoritma docking, seseorang dapat mengidentifikasi atau merancang
ligan yang dapat mengikat protein, membuka jalan untuk merancang obat yang secara
khusus mengubah fungsi protein. Dalam praktiknya, langkah-langkah perantara masih
sulit dicapai secara akurat, dan itu yang terbaik dikombinasikan dengan metode
eksperimental untuk mendapatkan beberapa data,
Tujuan dari dimensi kedua, luasnya dalam analisis biologis, adalah untuk
membandingkan gen dengan yang lain. Awalnya, algoritma sederhana dapat
digunakan untuk membandingkan urutan dan struktur sepasang protein terkait. Dengan
jumlah protein yang lebih besar, algoritma yang ditingkatkan dapat digunakan untuk
menghasilkan beberapa keberpihakan, dan mengekstrak pola urutan atau templat
struktural yang menentukan keluarga protein. Dengan menggunakan data ini, juga
dimungkinkan untuk membangun pohon filogenetik untuk melacak jalur evolusi protein.
Akhirnya, dengan lebih banyak data, informasi harus disimpan dalam database skala
besar. Perbandingan menjadi lebih kompleks, membutuhkan beberapa skema
penilaian, dan kami dapat melakukan sensus skala genom yang menyediakan akun
statistik komprehensif fitur protein, seperti kelimpahan struktur atau fungsi tertentu
dalam genom yang berbeda. Ini juga memungkinkan kita untuk membangun pohon
filogenetik yang melacak evolusi seluruh organisme.
Bidang subjek yang berbeda yang kami sebutkan memerlukan berbagai jenis teknik
informatika. Secara singkat, untuk organisasi data, database biologis pertama adalah
file datar sederhana. Namun dengan meningkatnya jumlah informasi, metode database
relasional dengan antarmuka halaman Web telah menjadi semakin populer. Dalam
analisis urutan, teknik termasuk metode perbandingan string seperti pencarian teks dan
algoritma penyelarasan 1D. Identifikasi motif dan pola untuk beberapa urutan
bergantung pada pembelajaran mesin, pengelompokan, dan teknik penambangan
data. Teknik analisis struktural 3D meliputi perhitungan geometri Euclidean
dikombinasikan dengan aplikasi dasar kimia fisik, representasi grafis permukaan dan
volume, dan perbandingan struktural dan metode pencocokan 3D. Untuk simulasi
molekuler, mekanika Newton, mekanika kuantum, mekanika molekuler dan perhitungan
elektrostatik diterapkan. Di banyak bidang ini, metode komputasi harus dikombinasikan
dengan analisis statistik yang baik untuk memberikan ukuran obyektif untuk signifikansi
hasil.
Protein pengikat DNA memiliki peran sentral dalam semua aspek aktivitas genetik
dalam suatu organisme, berpartisipasi dalam proses seperti transkripsi, pengemasan,
penataan ulang, replikasi dan perbaikan. Pada bagian ini, kami fokus pada studi yang
telah berkontribusi pada pemahaman kami tentang regulasi transkripsi pada organisme
yang berbeda. Melalui contoh ini, kami menunjukkan bagaimana bioinformatika telah
digunakan untuk meningkatkan pengetahuan kita tentang sistem biologis dan juga
menggambarkan aplikasi praktis dari berbagai bidang studi yang telah diuraikan secara
singkat sebelumnya. Kami mulai dengan mempertimbangkan analisis struktural tentang
bagaimana protein pengikat DNA mengenali urutan basa tertentu. Kemudian, kami
meninjau beberapa studi genom yang telah mengkarakterisasi sifat faktor transkripsi
pada organisme yang berbeda, dan metode yang telah digunakan untuk
mengidentifikasi situs pengikatan peraturan di daerah hulu. Akhirnya, kami memberikan
gambaran umum tentang analisis ekspresi gen yang baru-baru ini dilakukan dan
menyarankan penggunaan analisis peraturan transkripsi di masa depan untuk
merasionalisasi pengamatan yang dilakukan dalam eksperimen ekspresi gen. Semua
hasil yang kami jelaskan telah ditemukan melalui studi komputasi.
Pada Agustus 2000, ada 379 struktur kompleks protein-DNA di PDB. Analisis struktur
ini telah memberikan wawasan berharga tentang prinsip-prinsip stereokimia
pengikatan, termasuk bagaimana urutan basa tertentu dikenali dan bagaimana struktur
DNA cukup sering dimodifikasi pada pengikatan.
Taksonomi struktural protein pengikat DNA, mirip dengan yang disajikan dalam SCOP
dan CATH, pertama kali diusulkan oleh Harrison (72) dan diperbarui secara berkala
untuk mengakomodasi struktur baru saat mereka dipecahkan (73). Klasifikasi terdiri dari
sistem dua tingkat: tingkat pertama mengumpulkan protein menjadi delapan kelompok
yang berbagi fitur struktural kasar untuk mengikat DNA, dan yang kedua terdiri dari 54
keluarga protein yang secara struktural homolog satu sama lain. Perakitan sistem
semacam itu menyederhanakan perbandingan metode pengikatan yang berbeda; ini
menyoroti keragaman geometri kompleks protein-DNA yang ditemukan di alam, tetapi
juga menggarisbawahi pentingnya interaksi antara -heliks dan alur utama DNA, mode
utama pengikatan di lebih dari setengah keluarga protein. Sementara jumlah struktur
yang diwakili dalam PDB tidak selalu mencerminkan kepentingan relatif dari protein
yang berbeda dalam sel, jelas bahwa motif helix-turn-helix, koordinasi seng dan
ritsleting leusin digunakan berulang kali. Ini memberikan kerangka kerja kompak yang
menyajikan -helix pada permukaan protein yang beragam secara struktural. Pada
tingkat kasar, adalah mungkin untuk menyoroti perbedaan antara domain faktor
transkripsi yang "hanya" mengikat DNA dan mereka yang terlibat dalam katalisis (74).
Meskipun ada pengecualian, yang pertama biasanya mendekati DNA dari satu wajah
dan slot ke alur untuk berinteraksi dengan tepi dasar. Yang terakhir biasanya
menyelimuti substrat, menggunakan jaringan kompleks struktur sekunder dan loop.
Berfokus pada protein dengan -heliks, struktur menunjukkan banyak variasi, baik
dalam urutan asam amino dan geometri rinci. Mereka jelas telah berevolusi secara
independen sesuai dengan persyaratan konteks di mana mereka ditemukan.
Sementara mencapai kecocokan yang erat antara -helix dan alur utama, ada cukup
fleksibilitas untuk memungkinkan protein dan DNA mengadopsi konformasi yang
berbeda. Namun, beberapa penelitian yang menganalisis geometri pengikatan -heliks
menunjukkan bahwa sebagian besar mengadopsi konformasi yang cukup seragam
terlepas dari keluarga protein. Mereka biasanya dimasukkan ke dalam alur utama ke
samping, dengan sumbu memanjang mereka kira-kira sejajar dengan kemiringan yang
digariskan oleh tulang punggung DNA. Sebagian besar dimulai dengan N-terminus di
alur dan memanjang keluar, menyelesaikan dua hingga tiga putaran dalam jarak kontak
asam nukleat (75, 76).
Ini membawa kita untuk melihat interaksi tingkat atom antara pasangan asam amino
basa individu. Analisis semacam itu didasarkan pada premis bahwa proporsi yang
signifikan dari pengikatan DNA spesifik dapat dirasionalisasi dengan kode pengakuan
universal antara asam amino dan basa, yaitu apakah residu protein tertentu lebih
disukai berinteraksi dengan nukleotida tertentu terlepas dari jenis kompleks protein-
DNA (79). Studi telah mempertimbangkan ikatan hidrogen, kontak van der Waals dan
ikatan yang dimediasi air (80-82). Hasil penelitian menunjukkan bahwa sekitar 2/3 dari
semua interaksi adalah dengan tulang punggung DNA dan bahwa peran utama mereka
adalah salah satu stabilisasi urutan-independen. Sebaliknya, interaksi dengan basa
menampilkan beberapa preferensi yang kuat, termasuk interaksi arginin atau lisin
dengan guanin, asparagin atau glutamin dengan adenin dan treonin dengan timin.
Preferensi tersebut dijelaskan melalui pemeriksaan stereokimia rantai samping asam
amino dan tepi basa. Juga disorot adalah jenis interaksi yang lebih kompleks di mana
asam amino tunggal menghubungi lebih dari satu langkah basa secara bersamaan,
sehingga mengenali urutan DNA pendek. Hasil ini menunjukkan bahwa spesifisitas
universal, yang diamati di semua kompleks protein-DNA, memang ada. Namun, banyak
interaksi yang biasanya dianggap tidak spesifik, seperti yang dengan tulang punggung
DNA, juga dapat memberikan spesifisitas tergantung pada konteks di mana mereka
dibuat.
Berbekal pemahaman tentang struktur protein, motif pengikat DNA dan stereokimia
rantai samping, aplikasi utama adalah prediksi pengikatan baik oleh protein yang
diketahui mengandung motif tertentu, atau mereka yang memiliki struktur yang
dipecahkan dalam bentuk yang tidak kompleks. Yang paling umum adalah prediksi
untuk interaksi alur -helix-mayor - mengingat urutan asam amino, urutan DNA apa
yang akan dikenalinya (77, 83). Dalam pendekatan yang berbeda, teknik simulasi
molekuler telah digunakan untuk merapat seluruh protein dan DNA berdasarkan
perhitungan medan gaya di sekitar dua molekul (84, 85).
Alasan bahwa kedua metode hanya bertemu dengan keberhasilan yang terbatas
adalah karena bahkan untuk kasus-kasus yang tampaknya sederhana seperti -helix-
binding, ada banyak faktor lain yang harus dipertimbangkan. Perbandingan antara
struktur asam nukleat terikat dan tidak terikat menunjukkan bahwa pembengkokan DNA
adalah fitur umum dari kompleks yang terbentuk dengan faktor transkripsi (74, 86). Ini
dan faktor-faktor lain seperti interaksi elektrostatik dan kation-mediated membantu
pengenalan tidak langsung dari urutan nukleotida, meskipun mereka belum dipahami
dengan baik. Oleh karena itu, sekarang jelas bahwa aturan rinci untuk pengikatan DNA
spesifik akan spesifik keluarga, tetapi dengan tren yang mendasari seperti interaksi
arginin-guanin.
Karena kekayaan data biokimia yang tersedia, studi genom dalam bioinformatika telah
berkonsentrasi pada organisme model, dan analisis sistem peraturan tidak terkecuali.
Identifikasi faktor transkripsi dalam genom selalu tergantung pada strategi pencarian
kesamaan, yang mengasumsikan hubungan fungsional dan evolusioner antara protein
homolog. Pada E., penelitian sejauh ini diperkirakan total 300 hingga 500 regulator
transkripsi (87) dan PEDANT (88), database fungsi gen yang ditetapkan secara
otomatis, menunjukkan bahwa biasanya 2-3% genom prokariotik dan 6-7% genom
eukariotik terdiri dari protein pengikat DNA. Karena tugas hanya selesai untuk 40-60%
genom pada Agustus 2000, angka-angka inikemungkinan besar meremehkan jumlah
sebenarnya. Meskipun demikian, mereka sudah mewakili sejumlah besar protein dan
jelas bahwa ada lebih banyak regulator transkripsi pada eukariota daripada spesies
lain. Ini tidak mengherankan, mengingat organisme telah mengembangkan
mekanisme transkripsi yang relatif canggih.
Baru-baru ini, dengan menggunakan kombinasi urutan dan data struktural, kami
memeriksa konservasi urutan asam amino antara protein pengikat DNA terkait, dan
efek mutasi terhadap pengenalan urutan DNA. Keluarga struktural yang dijelaskan di
atas diperluas untuk memasukkan protein yang terkait dengan kesamaan urutan, tetapi
strukturnya tetap tidak terpecahkan. Sekali lagi, anggota keluarga yang sama homolog,
dan mungkin berasal dari nenek moyang yang sama.
Kelas ketiga, dan yang paling menarik, terdiri dari keluarga di mana pengikatan juga
spesifik tetapi anggota yang berbeda mengikat urutan dasar yang berbeda. Di sini
residu protein sering mengalami mutasi, dan anggota keluarga dapat dibagi menjadi
subfamili sesuai dengan urutan asam amino pada posisi kontak basa; mereka yang
berada dalam subfamili yang sama diprediksi mengikat urutan DNA yang sama dan
mereka yang memiliki subfamili berbeda untuk mengikat urutan yang berbeda. Secara
keseluruhan, subfamili berhubungan baik dengan fungsi protein dan anggota subfamili
yang sama ditemukan untuk mengatur jalur transkripsi yang sama. Analisis gabungan
dari urutan dan data struktural yang dijelaskan oleh penelitian ini memberikan wawasan
tentang bagaimana perancah pengikat DNA homolog mencapai kekhususan yang
berbeda dengan mengubah urutan asam amino mereka. Dengan demikian, protein
mengembangkan fungsi yang berbeda, sehingga memungkinkan faktor transkripsi
yang terkait secara struktural untuk mengatur ekspresi gen yang berbeda. Oleh karena
itu, kelimpahan relatif keluarga pengatur transkripsi dalam genom tergantung, tidak
hanya pada pentingnya fungsi protein tertentu, tetapi juga dalam kemampuan
beradaptasi motif pengikat DNA untuk mengenali urutan nukleotida yang berbeda. Ini,
pada gilirannya, tampaknya paling baik diakomodasi oleh motif pengikatan sederhana,
seperti jari-jari seng.
Deteksi situs regulasi pada eukariota menimbulkan masalah yang lebih sulit karena
urutan konsensus cenderung jauh lebih pendek, bervariasi, dan tersebar pada jarak
yang sangat jauh. Namun, studi awal pada S. cerevisiae memberikan pengamatan yang
menarik untuk protein GATA dalam regulasi metabolisme nitrogen. Sementara urutan
konsensus GATA 5 pasangan basa ditemukan hampir di mana-mana dalam genom,
satu situs pengikatan terisolasi tidak cukup untuk menggunakan fungsi pengaturan
(101). Oleh karena itu, spesifisitas aktivitas GATA berasal dari pengulangan urutan
konsensus dalam daerah hulu gen terkontrol dalam banyak salinan. Sebuah studi awal
telah menggunakan pengamatan ini untuk memprediksi situs peraturan baru dengan
mencari oligonukleotida yang terlalu terwakili di daerah non-coding ragi dan genom
cacing (102, 103).
Setelah mendeteksi situs pengikatan peraturan, ada masalah mendefinisikan gen yang
sebenarnya diatur, yang biasa disebut regulon. Umumnya, situs pengikatan
diasumsikan terletak langsung di hulu regulon; Namun, ada masalah berbeda yang
terkait dengan asumsi ini, tergantung pada organisme. Untuk prokariota, ini diperumit
oleh kehadiran operon; Sulit untuk menemukan gen yang diatur dalam operon karena
dapat terletak beberapa gen di hilir dari urutan pengaturan. Seringkali sulit untuk
memprediksi organisasi operon (104), terutama untuk menentukan gen yang ditemukan
di kepala, dan sering ada kurangnya konservasi jangka panjang dalam urutan gen
antara organisme terkait (105). Masalah pada eukariota bahkan lebih parah; Situs
regulasi sering bertindak di kedua arah, situs pengikatan biasanya jauh dari regulon
karena daerah intergenik yang besar, dan regulasi transkripsi biasanya merupakan
hasil dari tindakan gabungan oleh beberapa faktor transkripsi secara kombinatorial.
Terlepas dari masalah ini, penelitian ini telah berhasil mengkonfirmasi jalur regulasi
transkripsi dari sistem yang dikarakterisasi dengan baik seperti sistem respons
sengatan panas (99). Selain itu, adalah layak untuk memverifikasi prediksi secara
eksperimental, terutama menggunakan data ekspresi gen.
Banyak studi ekspresi sejauh ini berfokus pada merancang metode untuk
mengelompokkan gen dengan kesamaan dalam profil ekspresi. Ini untuk menentukan
protein yang diekspresikan bersama dalam kondisi seluler yang berbeda. Secara
singkat, metode yang paling umum adalah pengelompokan hierarkis, peta
pengorganisasian mandiri, dan pengelompokan K-means. Metode hierarkis awalnya
berasal dari algoritma untuk membangun pohon filogenetik, dan mengelompokkan gen
dengan cara "bottom-up"; Gen dengan profil ekspresi yang paling mirip dikelompokkan
terlebih dahulu, dan mereka yang memiliki profil lebih beragam dimasukkan secara
iteratif (106-108). Sebaliknya, peta pengorganisasian diri (109, 110) dan metode K-
means (111) menggunakan pendekatan "top-down" di mana pengguna menentukan
jumlah cluster untuk dataset. Cluster awalnya ditetapkan secara acak, dan gen
dikelompokkan kembali secara iteratif sampai mereka dikelompokkan secara optimal.
Dengan metode ini, sangat menarik untuk menghubungkan data ekspresi dengan
atribut lain seperti struktur, fungsi dan lokalisasi subseluler dari setiap produk gen.
Memetakan sifat-sifat ini memberikan wawasan tentang karakteristik protein yang
diekspresikan bersama, dan juga menyarankan beberapa kesimpulan menarik tentang
keseluruhan biokimia sel. Dalam ragi, protein yang lebih pendek cenderung lebih tinggi
diekspresikan daripada protein yang lebih panjang, mungkin karena relatif mudahnya
diproduksi (112). Melihat kandungan asam amino, gen yang sangat diekspresikan
umumnya diperkaya dengan alanin dan glisin, dan habis dalam asparagin; Ini dianggap
mencerminkan persyaratan penggunaan asam amino dalam organisme, di mana
sintesis alanin dan glisin secara energetik lebih murah daripada asparagin. Beralih ke
struktur protein, tingkat ekspresi laras TIM dan lipatan hidrolase NTP paling tinggi,
sedangkan untuk ritsleting leusin, jari seng dan lipatan yang mengandung heliks
transmembran paling rendah. Ini berkaitan dengan fungsi yang terkait dengan lipatan
ini; Yang pertama umumnya terlibat dalam jalur metabolisme dan yang terakhir dalam
proses pensinyalan atau transportasi (113). Hal ini juga tercermin dalam hubungan
dengan lokalisasi protein subseluler, di mana ekspresi protein sitoplasma tinggi, tetapi
protein nuklir dan membran cenderung rendah (114, 115).
Hubungan yang lebih kompleks juga telah dinilai. Kebijaksanaan konvensional adalah
bahwa produk gen yang berinteraksi satu sama lain lebih cenderung memiliki profil
ekspresi yang sama daripada jika tidak (116, 117). Namun, sebuah penelitian baru-baru
ini menunjukkan bahwa hubungan ini tidak sesederhana itu (118). Sementara profil
ekspresi serupa untuk produk gen yang terkait secara permanen, misalnya dalam
subunit ribosom besar, profil berbeda secara signifikan untuk produk yang hanya terkait
sementara, termasuk yang termasuk dalam jalur metabolisme yang sama.
Seperti dijelaskan di bawah ini, salah satu kekuatan pendorong utama di balik analisis
ekspresi adalah menganalisis garis sel kanker (119). Secara umum, telah ditunjukkan
bahwa garis sel yang berbeda (misalnya sel epitel dan ovarium) dapat dibedakan
berdasarkan profil ekspresi mereka, dan bahwa profil ini dipertahankan ketika sel
ditransfer dari in vivo ke lingkungan in vitro (120). Dasar perbedaan fisiologis mereka
terlihat jelas dalam ekspresi gen spesifik; Misalnya, tingkat ekspresi produk gen yang
diperlukan untuk perkembangan melalui siklus sel, terutama gen ribosom, berkorelasi
baik dengan variasi laju proliferasi sel. Analisis komparatif dapat diperluas ke sel-sel
tumor, di mana penyebab kanker dapat ditemukan dengan menunjukkan dengan tepat
area variasi biologis dibandingkan dengan sel normal. Misalnya pada kanker payudara,
gen yang terkait dengan proliferasi sel dan jalur transduksi sinyal yang diatur IFN
ditemukan diregulasi (52, 121). Salah satu kesulitan dalam pengobatan kanker adalah
menargetkan terapi spesifik untuk jenis tumor yang berbeda secara patogenegenetik,
untuk memaksimalkan kemanjuran dan meminimalkan toksisitas. Oleh karena itu,
perbaikan dalam klasifikasi kanker telah menjadi pusat kemajuan dalam pengobatan
kanker. Meskipun perbedaan antara berbagai bentuk kanker - misalnya subclass
leukemia akut - telah mapan, masih tidak mungkin untuk menegakkan diagnosis klinis
berdasarkan tes tunggal. Dalam sebuah penelitian baru-baru ini, leukemia myeloid akut
dan leukemia limfoblastik akut berhasil dibedakan berdasarkan profil ekspresi sel-sel
ini (53). Karena pendekatan ini tidak memerlukan pengetahuan biologis sebelumnya
tentang penyakit, ini dapat memberikan strategi umum untuk mengklasifikasikan semua
jenis kanker.
Jelas, aspek penting dari pemahaman data ekspresi terletak pada pemahaman dasar
regulasi transkripsi. Namun, analisis di bidang ini masih terbatas pada analisis awal
tingkat ekspresi pada mutan ragi yang kekurangan komponen kunci dari kompleks
inisiasi transkripsi (10, 122).
Pendekatan yang setara juga digunakan dalam genomik. Penemuan homolog banyak
digunakan untuk mengkonfirmasi daerah pengkodean dalam genom yang baru
diurutkan dan data fungsional sering ditransfer untuk membubuhi keterangan gen
individu. Pada skala yang lebih besar, ini juga menyederhanakan masalah pemahaman
genom kompleks dengan menganalisis organisme sederhana terlebih dahulu dan
kemudian menerapkan prinsip yang sama untuk yang lebih rumit - ini adalah salah satu
alasan mengapa proyek genomik struktural awal berfokus pada Mycoplasma genitalium
(91).
Ironisnya, ide yang sama dapat diterapkan secara terbalik. Target obat potensial
dengan cepat ditemukan dengan memeriksa apakah homolog protein mikroba esensial
hilang pada manusia. Pada skala yang lebih kecil, perbedaan struktural antara protein
serupa dapat dimanfaatkan untuk merancang molekul obat yang secara khusus
mengikat satu struktur tetapi tidak yang lain.
Salah satu aplikasi medis bioinformatika paling awal adalah membantu desain obat
yang rasional. Gambar 2 menguraikan pendekatan yang sering dikutip, mengambil
produk gen MLH1 sebagai contoh target obat. MLH1 adalah gen manusia yang
mengkode protein perbaikan ketidakcocokan (mmr) yang terletak di lengan pendek
kromosom 3 (125). Melalui analisis keterkaitan dan kemiripannya dengan gen MMR
pada tikus, gen tersebut telah terlibat dalam kanker kolorektal nonpolyposis (126).
Mengingat urutan nukleotida, urutan asam amino yang mungkin dari protein yang
dikodekan dapat ditentukan dengan menggunakan perangkat lunak terjemahan. Teknik
pencarian urutan kemudian dapat digunakan untuk menemukan homolog dalam
organisme model, dan berdasarkan kesamaan urutan, dimungkinkan untuk
memodelkan struktur protein manusia pada struktur yang dikarakterisasi secara
eksperimental. Akhirnya, algoritma docking dapat merancang molekul yang dapat
mengikat struktur model, memimpin jalan bagi tes biokimia untuk menguji aktivitas
biologis mereka pada protein yang sebenarnya.
Gambar 2. Di atas adalah skema yang menguraikan bagaimana para ilmuwan
dapat menggunakan bioinformatika untuk membantu penemuan obat rasional.
MLH1 adalah gen manusia yang mengkode protein perbaikan ketidakcocokan
(mmr) yang terletak di lengan pendek kromosom 3. Melalui analisis keterkaitan dan
kemiripannya dengan gen MMR pada tikus, gen tersebut telah terlibat dalam
kanker kolorektal nonpolyposis. Mengingat urutan nukleotida, urutan asam amino
yang mungkin dari protein yang dikodekan dapat ditentukan dengan menggunakan
perangkat lunak terjemahan. Teknik pencarian urutan dapat digunakan untuk
menemukan homolog dalam organisme model, dan berdasarkan kesamaan urutan,
dimungkinkan untuk memodelkan struktur protein manusia pada struktur yang
dikarakterisasi secara eksperimental. Akhirnya, algoritma docking dapat
merancang molekul yang dapat mengikat struktur model, memimpin jalan bagi tes
biokimia untuk menguji aktivitas biologis mereka pada protein yang sebenarnya.
Meskipun database dapat secara efisien menyimpan semua informasi yang terkait
dengan genom, struktur, dan kumpulan data ekspresi, penting untuk menyingkat semua
informasi ini menjadi tren dan fakta yang dapat dipahami pengguna dengan mudah.
Generalisasi yang luas membantu mengidentifikasi bidang subjek yang menarik untuk
analisis rinci lebih lanjut, dan menempatkan pengamatan baru dalam konteks yang
tepat. Hal ini memungkinkan seseorang untuk melihat apakah mereka tidak biasa
dengan cara apapun.
Melalui sensus skala besar ini, seseorang dapat menjawab sejumlah pertanyaan
evolusioner, biokimia, dan biofisik. Misalnya, apakah lipatan protein spesifik terkait
dengan kelompok filogenetik tertentu? Seberapa umum lipatan yang berbeda dalam
organisme tertentu? Dan sejauh mana lipatan dibagi antara organisme terkait? Apakah
sejauh ini berbagi ukuran paralel keterkaitan berasal dari pohon evolusi tradisional?
Studi awal menunjukkan bahwa frekuensi lipatan sangat berbeda antara organisme dan
bahwa pembagian lipatan antara organisme sebenarnya mengikuti klasifikasi
filogenetik tradisional (21, 41). Kami juga dapat mengintegrasikan data tentang fungsi
protein; Mengingat bahwa lipatan protein tertentu sering dikaitkan dengan fungsi
biokimia spesifik (68, 69), temuan ini menyoroti keragaman jalur metabolisme pada
organisme yang berbeda (20, 105).
Seperti yang telah kita bahas sebelumnya, salah satu sumber informasi genom baru
yang paling menarik adalah data ekspresi. Menggabungkan informasi ekspresi dengan
klasifikasi struktural dan fungsional protein, kita dapat bertanya apakah tingginya
kejadian lipatan protein dalam genom merupakan indikasi tingkat ekspresi yang tinggi
(112). Data skala genom lebih lanjut yang dapat kita pertimbangkan dalam survei skala
besar termasuk lokalisasi subseluler protein dan interaksinya satu sama lain (127-129).
Dalam hubungannya dengan data struktural, kita kemudian dapat mulai menyusun peta
semua interaksi protein-protein dalam suatu organisme.
Aplikasi terbaru dalam ilmu kedokteran berpusat pada analisis ekspresi gen (130). Ini
biasanya melibatkan kompilasi data ekspresi untuk sel-sel yang terkena penyakit yang
berbeda (131), misalnya kanker (53, 132, 133) dan ateriosclerosis (134), dan
membandingkan pengukuran terhadap tingkat ekspresi normal. Identifikasi gen yang
diekspresikan secara berbeda dalam sel yang terkena memberikan dasar untuk
menjelaskan penyebab penyakit dan menyoroti target obat potensial. Dengan
menggunakan proses yang dijelaskan pada Gambar 2, seseorang akan merancang
senyawa yang mengikat protein yang diekspresikan, atau mungkin yang lebih penting,
regulator transkripsi telah menyebabkan perubahan tingkat ekspresi. Mengingat
senyawa timbal, percobaan microarray kemudian dapat digunakan untuk mengevaluasi
tanggapan terhadap intervensi farmakologis, (135, 136) dan juga memberikan tes awal
untuk mendeteksi atau memprediksi toksisitas obat percobaan.
8. Kesimpulan
Dengan banjir data saat ini, metode komputasi telah menjadi sangat diperlukan untuk
penyelidikan biologis. Awalnya dikembangkan untuk analisis urutan biologis,
bioinformatika sekarang mencakup berbagai bidang studi termasuk biologi struktural,
genomik dan studi ekspresi gen. Dalam ulasan ini, kami memberikan pengantar dan
gambaran umum tentang keadaan lapangan saat ini. Secara khusus, kami membahas
jenis informasi biologis dan database yang umum digunakan, memeriksa beberapa
studi yang sedang dilakukan - dengan mengacu pada sistem pengaturan transkripsi -
dan akhirnya melihat beberapa aplikasi praktis lapangan.
Dua pendekatan utama mendukung semua studi dalam bioinformatika. Pertama adalah
membandingkan dan mengelompokkan data menurut kesamaan yang bermakna
secara biologis dan kedua, menganalisis satu jenis data untuk menyimpulkan dan
memahami pengamatan untuk jenis data lain. Pendekatan ini tercermin dalam tujuan
utama lapangan, yaitu untuk memahami dan mengatur informasi yang terkait dengan
molekul biologis dalam skala besar. Akibatnya, bioinformatika tidak hanya memberikan
kedalaman yang lebih besar untuk penyelidikan biologi, tetapi menambahkan dimensi
luasnya juga. Dengan cara ini, kami dapat memeriksa sistem individual secara rinci dan
juga membandingkannya dengan yang terkait untuk mengungkap prinsip-prinsip umum
yang berlaku di banyak sistem dan menyoroti fitur-fitur tidak biasa yang unik bagi
sebagian orang.
Kami berterima kasih kepada Patrick McGarvey atas komentar pada naskah.