Anda di halaman 1dari 29

Nama : Jeremy Mandagi

NIM : 210211060254

Apa itu bioinformatika? Pengantar dan gambaran umum

Nicholas M Luscombe, Dov Greenbaum &


Mark Gerstein * Departemen Biofisika
Molekuler dan Biokimia Universitas Yale, 266
Whitney Avenue
PO Box 208114, New Haven CT 06520-8114, Amerika
Serikat
< mark.gerstein@yale.edu >

* - sesuai penulis
Untuk Buku
Tahunan IMIA 2001
Versi web – http://bioinfo.mbb.yale.edu/~nick/bioinformatics/

1. Abstrak

Banjir data berarti bahwa banyak tantangan dalam biologi sekarang menjadi
tantangan dalam komputasi. Bioinformatika, penerapan teknik komputasi
untuk menganalisis informasi yang terkait dengan biomolekul dalam skala
besar, kini telah memantapkan dirinya sebagai disiplin dalam biologi
molekuler, dan mencakup berbagai bidang studi mulai dari biologi struktural,
genomik hingga studi ekspresi gen.

Dalam ulasan ini kami memberikan pengantar dan gambaran umum tentang
keadaan lapangan saat ini. Kami membahas prinsip-prinsip utama yang
mendukung analisis bioinformatika, melihat jenis informasi biologis dan
database yang umum digunakan, dan akhirnya memeriksa beberapa studi
yang sedang dilakukan, terutama dengan mengacu pada sistem regulasi
transkripsi.
2. Perkenalan

Data biologis membanjiri pada tingkat yang belum pernah terjadi sebelumnya (1).
Misalnya pada Agustus 2000, repositori GenBank urutan asam nukleat berisi 8.214.000
entri (2) dan database SWISS-PROT urutan protein berisi 88.166 (3). Rata-rata, jumlah
informasi yang disimpan dalam database ini berlipat ganda setiap 15 bulan (2). Selain
itu, sejak publikasi genom H. influenzae (4), urutan lengkap untuk lebih dari 40
organisme telah dirilis, mulai dari 450 gen hingga lebih dari 100.000. Tambahkan ke
data ini dari segudang proyek terkait yang mempelajari ekspresi gen, menentukan
struktur protein yang dikodekan oleh gen, dan merinci bagaimana produk ini
berinteraksi satu sama lain, dan kita dapat mulai membayangkan jumlah besar dan
berbagai informasi yang sedang diproduksi.

2.1 Bioinformatika – definisi1

(Molecular) bio – informatics: bioinformatics is conceptualising biology in terms of


molecules (in the sense of physical chemistry) and applying “informatics techniques”
(derived from disciplines such as applied maths, computer science and statistics) to
understand and organise the information associated with these molecules, on a large
scale. In short, bioinformatics is a management information system for molecularbiology
and has many practical applications.

1
Sebagaimana diserahkan ke Oxford English Dictionary

Sebagai hasil dari lonjakan data ini, banyak tantangan dalam biologi sebenarnya
menjadi tantangan dalam komputasi. Pendekatan semacam itu sangat ideal karena
kemudahan komputer dapat menangani data dalam jumlah besar dan menyelidiki
dinamika kompleks yang diamati di alam. Bioinformatika, subjek tinjauan saat ini, sering
didefinisikan sebagai penerapan teknik komputasi untuk memahami dan mengatur
informasi yang terkait dengan makromolekul biologis. Perkawinan senapan antara dua
subjek ini sebagian besar disebabkan oleh fakta bahwa biologi itu sendiri adalah
teknologi informasi; Fisiologi dan perilaku organisme sebagian besar ditentukan oleh
gennya, yang pada tingkat dasar dapat dilihat sebagai repositori informasi digital. Pada
saat yang sama, ada kemajuan besar dalam teknologi yang memasok data mentah;
menurut Anthony Kerlavage dari Celera, laboratorium eksperimental dapat dengan
mudah menghasilkan lebih dari 100 gigabyte data sehari (5). Kekuatan pemrosesan
yang luar biasa ini telah diimbangi dengan perkembangan teknologi komputer; area
perbaikan yang paling penting adalah CPU, penyimpanan disk dan Internet,
memungkinkan perhitungan yang lebih cepat, penyimpanan data yang lebih baik dan
merevolusi metode untuk mengakses dan bertukar data.
2.2 Tujuan bioinformatika

Tujuan bioinformatika adalah tiga kali lipat. Pertama, pada bioinformatika yang paling
sederhana mengatur data dengan cara yang memungkinkan peneliti untuk mengakses
informasi yang ada dan mengirimkan entri baru saat diproduksi, misalnya Bank Data
Protein untuk struktur makromolekul 3D (6, 7). Sementara kurasi data adalah tugas
penting, informasi yang disimpan dalam database ini pada dasarnya tidak berguna
sampai dianalisis. Dengan demikian tujuan bioinformatika jauh melampaui kontrol
volume belaka. Tujuan kedua adalah untuk mengembangkan alat dan sumber daya
yang membantu dalam analisis data. Misalnya, setelah mengurutkan protein tertentu,
menarik untuk membandingkannya dengan urutan yang dikarakterisasi sebelumnya. Ini
membutuhkan lebih dari sekedar pencarian database langsung. Dengan demikian,
program seperti FASTA (8) dan PSI-BLAST (9) harus mempertimbangkan apa yang
merupakan kemiripan biologis yang signifikan.Pengembangan sumber daya tersebut
membutuhkan pengetahuan yang luas tentang teori komputasi, serta pemahaman
menyeluruh tentang biologi. Tujuan ketiga adalah menggunakan alat-alat ini untuk
menganalisis data dan menafsirkan hasilnya dengan cara yang bermakna secara
biologis. Secara tradisional, studi biologi meneliti sistem individu secara rinci, dan
sering membandingkannya dengan beberapa yang terkait. Dalam bioinformatika, kami
juga dapat melakukan analisis global terhadap semua datayang tersedia dengan tujuan
mengungkap prinsip-prinsip umum yang berlaku di banyaksistem dan menyoroti fitur
yang unik bagi sebagian orang.

Dalam ulasan ini, kami memberikan pengantar bioinformatika. Kami fokus pada tujuan
pertama dan ketiga yang baru saja dijelaskan, dengan referensi khusus untuk kata
kunci yang digarisbawahi dalam definisi: informasi, informatika, organisasi,
pemahaman, aplikasi skala besar dan praktis. Secara khusus, kami membahas
berbagai data yang saat ini sedang diperiksa, database di mana mereka diatur, jenis
analisis yang sedang dilakukan menggunakan sistem pengaturan transkripsi sebagai
contoh, dan akhirnya membahas beberapa aplikasi praktis utama bioinformatika.

3. "... INFORMASI yang terkait dengan molekul-molekul ini ..."

Tabel 1 mencantumkan jenis data yang dianalisis dalam bioinformatika dan berbagai
topik yang kami anggap termasuk dalam bidang ini. Di sini kita mengambil pandangan
luas dan menyertakan subjek yang biasanya tidak terdaftar. Kami juga memberikan
nilai perkiraan yang menggambarkan ukuran data yang sedang dibahas.

Kami mulai dengan ikhtisar sumber informasi: ini dapat dibagi menjadi urutan DNA
mentah, urutan protein, struktur makromolekul, urutan genom, dan data genom utuh
lainnya. Urutan DNA mentah adalah string dari empat huruf dasar yang terdiri dari gen,
masing-masing biasanya 1.000 basa. Repositori GenBank dari urutan asam nukleat
saat ini memegang total 9,5 miliar basa dalam 8,2 juta entri (semua angka database
per Agustus 2000). Pada tingkat berikutnya adalah urutan protein yang terdiri dari string
20 huruf asam amino. Saat ini ada sekitar 300.000 urutan protein yang diketahui,
dengan protein bakteri khas yang mengandung sekitar 300 asam amino. Data struktural
makromolekul mewakili bentuk informasi yang lebih kompleks. Saat ini ada 13.000 entri
di Bank Data Protein, PDB, yang sebagian besar adalah struktur protein. File PDB khas
untuk protein berukuran sedang berisi koordinat xyz sekitar 2.000 atom.

Euforia ilmiah baru-baru ini berpusat pada sekuensing genom keseluruhan. Seperti
halnya urutan DNA mentah, genom terdiri dari rangkaian huruf dasar, mulai dari 1,6 juta
basa pada Haemophilus influenzae hingga 3 miliar pada manusia. Aspek penting dari
genom lengkap adalah perbedaan antara daerah pengkodean dan daerah non-
pengkodean – urutan berulang 'sampah' yang membentuk sebagian besar urutan basa,
terutama pada eukariota. Kita sekarang dapat mengukur tingkat ekspresi hampir setiap
gen dalam sel tertentu pada tingkat genom keseluruhan meskipun ketersediaan publik
dari data tersebut masih terbatas. Pengukuran tingkat ekspresi dilakukan di bawah
kondisi lingkungan yang berbeda, berbagai tahap siklus sel dan jenis sel yang berbeda

dalam organisme multi-seluler. Saat ini dataset terbesar untuk ragi telah membuat
sekitar 20 pengukuran titik waktu untuk 6.000 gen (10). Data skala genomik lainnya
termasuk informasi biokimia tentang jalur metabolisme, jaringan pengaturan, data
interaksi protein-protein dari eksperimen dua-hibrida, dan KO sistematis gen individu
untuk menguji kelayakan suatu organisme.

Apa yang terlihat dari daftar ini adalah keragaman dalam ukuran dan kompleksitas
kumpulan data yang berbeda. Selalu ada lebih banyak data berbasis urutan daripada
data struktural karena relatif mudahnya diproduksi. Ini sebagian terkait dengan yang
lebih besar kompleksitas dan informasi-konten struktur individu dibandingkan dengan
urutan individu. Sementara lebih banyak informasi biologis dapat diturunkan dari
struktur tunggal daripada urutan protein, masalahnya diatasi dengan menganalisis
jumlah datayang lebih besar.
Sumber data Ukuran data Topik bioinformatika
Urutan DNA 8,2 juta Memisahkan wilayah pengkodean dan
mentah urutan non-pengkodean Identifikasi intron dan
(9,5 miliar basis) ekson
Prediksi produk gen
Analisis forensik

Urutan protein 300.000 urutan Algoritma perbandingan urutan


(~ 300 asam Beberapa algoritma
amino masing- penyelarasan urutan
masing) Identifikasi motif urutan yang
dilestarikan

Struktur 13.000 struktur (~ Prediksi struktur sekunder dan


makromolek 1.000 koordinat tersier Algoritma penyelarasan
ul atom masing- struktural 3D Pengukuran
masing) geometri protein Perhitungan
bentuk permukaan dan
volume Interaksi antarmolekul

Simulasi
molekuler
(perhitungan
medan gaya,
gerakan molekuler,
prediksi docking)

Genom 40 genom Karakterisasi


lengkap pengulangan Tugas
(1.6 juta – struktural pada gen
Masing-masing 3 Analisis filogenetik
miliar basis) Sensus skala genomik
(karakterisasi kandungan protein, jalur
metabolisme)
Analisis keterkaitan yang
menghubungkan gen spesifik dengan
penyakit

Ekspresi gen Terbesar: ~20 Mengkorelasikan pola ekspresi


pengukuran Memetakan data ekspresi ke data
titik waktu urutan, struktural dan biokimia
untuk ~6.000
gen
Data lainnya

Sastra 11 juta kutipan Perpustakaan digital untuk bibliografi


otomatis
Pencarian
Database pengetahuan data dari
literatur
Jalur metabolisme
Simulasi jalur

Tabel 1. Sumber data yang digunakan dalam bioinformatika, kuantitas


setiap jenis data yang saat ini (Agustus 2000) tersedia, dan bidang studi
bioinformatika yang memanfaatkan data ini

4. "... ATUR informasi dalam SKALA BESAR ..."

3.1 Redundansi dan multiplisitas data

Sebuah konsep yang mendukung sebagian besar metode penelitian dalam


bioinformatika adalah bahwa banyak dari data ini dapat dikelompokkan bersama
berdasarkan kesamaan yang bermakna secara biologis. Misalnya, segmen urutan
sering diulang pada posisi DNA genom yang berbeda (11). Gen dapat dikelompokkan
ke dalam gen dengan fungsi tertentu (misalnya tindakan enzimatik) atau sesuai dengan
jalur metabolisme tempat mereka berada (12), meskipun di sini, gen tunggal
sebenarnya dapat memiliki beberapa fungsi (13). Lebih jauh lagi, protein yang berbeda
sering memiliki urutan yang sebanding – organisme sering memiliki banyak salinan gen
tertentu melalui duplikasi dan spesies yang berbeda memiliki protein yang setara atau
serupa yang diwariskan ketika mereka menyimpang satu sama lain dalam evolusi.
Pada tingkat struktural, kami memperkirakan akan ada sejumlah terbatas struktur
tersier yang berbeda - perkiraan berkisar antara 1.000 dan 10.000 lipatan (14, 15) - dan
protein mengadopsi struktur yang setara bahkan ketika mereka sangat berbeda dalam
urutan (16). Akibatnya, meskipun jumlah struktur dalam PDB telah meningkat secara
eksponensial, tingkat penemuan lipatan baru sebenarnya telah menurun.

Ada istilah umum untuk menggambarkan hubungan antara pasangan protein atau gen
dari mana mereka berasal: protein analog memiliki lipatan terkait, tetapi urutan yang
tidak terkait, sedangkan protein homolog keduanya secara berurutan dan struktural
serupa. Kedua kategori kadang-kadang bisa sulit dibedakan terutama jika hubungan
antara kedua protein jauh (17, 18). Di antara homolog, berguna untuk membedakan
antara ortolog, protein dalam spesies berbeda yang telah berevolusi dari gen leluhur
yang sama, dan paralog, protein yang terkait dengan duplikasi gen dalam genom (19).
Biasanya, ortolog mempertahankan fungsi yang sama sementara paralog berevolusi
berbeda, tetapi fungsi terkait (20).

Konsep penting yang muncul dari pengamatan ini adalah bahwa dari "daftar bagian"
terbatas untuk organisme yang berbeda (21, 22): inventarisasi protein yang terkandung
dalam suatu organisme, diatur menurut sifat yang berbeda seperti urutan gen, lipatan
protein atau fungsi. Mengambil lipatan protein sebagai contoh, kami menyebutkan
bahwa dengan beberapa pengecualian, struktur tersier protein mengadopsi salah satu
repertoar lipatan terbatas. Karena jumlah keluarga lipatan yang berbeda jauh lebih kecil
daripada jumlah keluarga gen, mengkategorikan protein dengan lipatan memberikan
penyederhanaan substansial dari isi genom. Penyederhanaan serupa dapat diberikan
oleh atribut lain seperti fungsi protein. Dengan demikian, kami berharap gagasan
tentang daftar bagian terbatas ini menjadi semakin umum dalam analisis genom di
masa depan.

Jelas, aspek penting dalam mengelola volume data yang besar ini terletak pada
pengembangan metode untuk menilai kesamaan antara biomolekul yang berbeda dan
mengidentifikasi yang terkait. Di bawah ini, kita membahas database utama yang
menyediakan akses ke sumber informasi primer, dan juga memperkenalkan beberapa
database sekunder yang secara sistematis mengelompokkan data (Tabel 2). Klasifikasi
ini memudahkan perbandingan antara genom dan produk mereka, memungkinkan
identifikasi tema umum antara yang terkait danmenyoroti fitur yang unik bagi sebagian
orang.
Basis data URL
Urutan protein
(primer)
SWISS-PROT www.expasy.ch/sprot/sprot-top.html
PIR-Internasional www.mips.biochem.mpg.de/proj/protseqdb

Urutan protein (komposit)


BURUN www.bioinf.man.ac.uk/dbbrowser/OWL

G www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pro

HANTU tein

NRDB

Urutan protein (sekunder)


CETAKA W.Xpac.c/Lanjutkan

N W.Bioynb.MUD.AC.UK/DeBrowser/Print/Print.H

PROSIT TML W.Shankar.ACUC/BAM/

E
Pfam

Struktur
makromolekul
Bank Data Protein (PDB) www.rcsb.org/pdb
Database Asam Nukleat ndbserver.rutgers.edu/
(NDB) Database www.ncifcrf.gov/CRYS/HIVdb/NEW_DATABAS
Protease HIV ReLiBase E www2.ebi.ac.uk:8081/home.html
PDBsum www.biochem.ucl.ac.uk/bsm/pdbsum
CATH www.biochem.ucl.ac.uk/bsm/cath
SCOP scop.mrc-
FSSP lmb.cam.ac.uk/scop
www2.embl-
ebi.ac.uk/dali/fssp

Urutan nukleotida
Zhenp www.ncbi.nlm.nih.gov/Genbank

ong www.ebi.ac.uk/embl
www.ddbj.nig.ac.jp/
Embal
TTPJ

Urutan genom
Masukkan genom www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Ge

Gensensus nome bioinfo.mbb.yale.edu/genome

Roda www.ncbi.nlm.nih.gov/COG

Database terintegrasi
InterPro www.ebi.ac.uk/interpro

Sistem pengambilan urutan www.expasy.ch/srs5

(SRS) www.ncbi.nlm.nih.gov/Entrez

Entrez

Tabel 2. Daftar URL untuk database yang dikutip dalam ulasan.

3.2 Database urutan protein

Database urutan protein dikategorikan sebagai primer, komposit atau sekunder.


Database primer berisi lebih dari 300.000 urutan protein dan berfungsi sebagai
repositori untuk data mentah. Beberapa repositori yang lebih umum, seperti SWISS-
PROT (3) dan PIR-International (23), membubuhi keterangan urutan serta
menggambarkan fungsi protein, struktur domain dan modifikasi pasca-translasi.
Database komposit seperti OWL (24) dan NRDB (25) mengkompilasi dan menyaring
data urutan dari database primer yang berbeda untuk menghasilkan set non-redundan
gabungan yang lebih lengkap daripada database individu dan juga termasuk data
urutan protein dari daerah pengkodean yang diterjemahkan dalam database urutan
DNA (lihat di bawah). Database sekunder berisi informasi yang berasal dari urutan
protein dan membantu pengguna menentukan apakah urutan baru milik keluarga
protein yang diketahui. Salah satu yang paling populer adalah PROSITE (26), database
pola dan profil urutan pendek yang menjadi ciri situs biologis yang signifikan dalam
protein. PRINTS (27) memperluas konsep ini dan menyediakan ringkasan sidik jari
protein
– kelompok motif yang dilestarikan yang menjadi ciri keluarga protein. Motif biasanya
dipisahkan sepanjang urutan protein, tetapi mungkin bersebelahan dalam ruang 3D
ketika protein dilipat. Dengan menggunakan beberapa motif, sidik jari dapat
menyandikan lipatan protein dan fungsi lebih fleksibel daripada PROSITE. Akhirnya,
Pfam (28) berisi koleksi besar beberapa urutan keberpihakan dan profil Model Markov
Tersembunyi yang mencakup banyak domain protein umum. Pfam-A terdiri dari
keberpihakan yang dikompilasi secara manual yang akurat sementara Pfam-B adalah
pengelompokan otomatis dari seluruh database SWISS-PROT. Database sekunder
yang berbeda ini baru-baru ini dimasukkan ke dalam satu sumber daya bernama
InterPro (29).

3.3 Database struktural

Selanjutnya kita melihat database struktur makromolekul. Bank Data Protein, PDB (6,
7), menyediakan arsip utama dari semua struktur 3D untuk makromolekul seperti
protein, RNA, DNA dan berbagai kompleks. Sebagian besar ~ 13.000 struktur (Agustus
2000) diselesaikan dengan kristalografi sinar-x dan NMR, tetapi beberapa model teoritis
juga disertakan. Karena informasi yang diberikan dalam entri PDB individu bisa sulit
untuk diekstraksi, PDBsum (30) menyediakan halaman Web terpisah untuk setiap
struktur dalam PDB yang menampilkan analisis struktural terperinci, diagram skematik
dan data tentang interaksi antara molekul yang berbeda dalam entri yang diberikan.
Tiga database utama mengklasifikasikan protein berdasarkan struktur untuk
mengidentifikasi hubungan struktural dan evolusioner: CATH (31), SCOP (32), dan
database FSSP (33). Semua terdiri dari taksonomi struktural hierarkis di mana
kelompok protein meningkatkan kesamaan pada tingkat yang lebih rendah dari pohon
klasifikasi. Selain itu, banyak database fokus pada jenis makromolekul tertentu. Ini
termasuk Database Asam Nukleat, NDB (34), untuk struktur yang terkait dengan asam
nukleat, database protease HIV (35) untuk struktur protease HIV-1, HIV-2 dan SIV dan
kompleksnya, dan ReLiBase (36) untuk kompleks reseptor-ligan.

3.4 Urutan Nukleotida dan Genom

Seperti dijelaskan sebelumnya, kegembiraan terbesar saat ini terletak pada


ketersediaan urutan genom lengkap untuk organisme yang berbeda. Database
GenBank (2), EMBL (37) dan DDBJ (38) berisi urutan DNA untuk gen individu yang
menyandikan produk protein dan RNA. Sama seperti database urutan protein komposit,
database nukleotida Entrez (39) mengkompilasi data urutan dari database primer ini.

Karena sekuensing seluruh genom sering dilakukan melalui kolaborasi internasional,


genom individu dipublikasikan di lokasi yang berbeda. Database genom Entrez (40)
menyatukan semua genom lengkap dan parsial di satu lokasi dan saat ini mewakili lebih
dari 1.000 organisme (Agustus 2000). Selain menyediakan urutan nukleotida mentah,
informasi disajikan pada beberapa tingkat detail termasuk: daftar genom lengkap,
semua kromosom dalam suatu organisme, pandangan rinci kromosom tunggal yang
menandai daerah pengkodean dan non-pengkodean, dan gen tunggal. Di setiap tingkat
ada presentasi grafis, analisis pra-komputasi dan tautan ke bagian lain dari Entrez.
Misalnya, anotasi untuk gen tunggal termasuk urutan protein yang diterjemahkan,
urutan keselarasan dengan gen serupa dalam genom lain dan ringkasan fungsi yang
dikarakterisasi atau diprediksi secara eksperimental. GeneCensus (41) juga
menyediakan titik masuk untuk analisis genom dengan perbandingan seluruh genom
interaktif dari perspektif evolusi. Database memungkinkan pembangunan pohon
filogenetik berdasarkan kriteria yang berbeda seperti RNA ribosom atau kejadian
lipatan protein. Situs ini juga memungkinkan beberapa perbandingan genom, analisis
genom tunggal dan pengambilan informasi untuk gen individu. Database COGs (20)
mengklasifikasikan protein yang dikodekan dalam 21 genom lengkap berdasarkan
kesamaan urutan. Anggota dari Cluster of Orthologous Group yang sama, COG,
diharapkan memiliki arsitektur domain 3D yang sama dan seringkali, fungsi serupa.
Aplikasi database yang paling mudah adalah untuk memprediksi fungsi protein yang
tidak dikarakterisasi melalui homologinya terhadap protein yang dikarakterisasi, dan
juga untuk mengidentifikasi pola filogenetik kejadian protein - misalnya, apakah COG
yang diberikan diwakili di sebagian besar atau semua organisme atau hanya dalam
beberapa spesies yang terkait erat.

3.5 Data ekspresi gen

Sumber terbaru dari data skala genomik berasal dari eksperimen ekspresi, yang
mengukur tingkat ekspresi gen individu. Eksperimen ini mengukur jumlah mRNA atau
produk protein yang diproduksi oleh sel. Untuk yang pertama, ada tiga teknologi utama:
microarray cDNA (42-44), Affymatrix GeneChip (45) dan metode SAGE (46). Metode
pertama mengukur tingkat relatif kelimpahan mRNA antara sampel yang berbeda,
sedangkan dua yang terakhir mengukur tingkat absolut. Sebagian besar upaya dalam
analisis ekspresi gen telah terkonsentrasi pada ragi dan genom manusia dan sampai
sekarang, tidak ada repositori pusat untuk data ini. Untuk ragi, dataset Young (10),
Church (47) dan Samson (48) menggunakan metode GeneChip, sedangkan siklus sel
Stanford (49), pergeseran diauxic (50) dan dataset mutan penghapusan (51)
menggunakan microarray. Sebagian besar mengukur kadar mRNA di seluruh siklus sel
ragi, meskipun beberapa fokus pada tahap tertentu dalam siklus. Bagi manusia, aplikasi
utamanya adalah memahami ekspresi dalam tumor dan sel kanker. Proyek Molecular
Portraits of Breast Tumours (52), Lymphoma and Leukaemia Molecular Profiling (53)
menyediakan data dari percobaan microarray pada sel kanker manusia.

Teknologi untuk mengukur kelimpahan protein saat ini terbatas pada elektroforesis gel
2D diikuti oleh spektrometri massa (54). Karena gel hanya dapat secara rutin
menyelesaikan sekitar 1.000 protein (55), hanya yang paling melimpah yang dapat
divisualisasikan. Saat ini, data dari eksperimen ini hanya tersedia dari literatur (56, 57).
3.6 Integrasi data

Penelitian yang paling menguntungkan dalam bioinformatika sering dihasilkan dari


mengintegrasikan berbagai sumber data (58). Misalnya, koordinat 3D protein lebih
berguna jika dikombinasikan dengan data tentang fungsi protein, kejadian dalam
genom yang berbeda, dan interaksi dengan molekul lain. Dengan cara ini, masing-
masing informasi dimasukkan ke dalam konteks sehubungan dengan data lain.
Sayangnya, tidak selalu mudah untuk mengakses dan referensi silang sumber-sumber
informasi ini karena perbedaan dalam nomenklatur dan format file.

Pada tingkat dasar, masalah ini sering diatasi dengan menyediakan tautan eksternal ke
database lain, misalnya di PDBsum, halaman web untuk struktur individual
mengarahkan pengguna ke entri yang sesuai di PDB, NDB, CATH, SCOP dan SWISS-
PROT. Pada tingkat yang lebih maju, ada upaya untuk mengintegrasikan akses di
beberapa sumber data. Salah satunya adalah Sequence Retrieval System, SRS (59),
yang memungkinkan database file datar diindeks satu sama lain; Hal ini memungkinkan
pengguna untuk mengambil, link dan mengakses entri dari asam nukleat, urutan
protein, motif protein, struktur protein dan database bibliografi. Lainnya adalah fasilitas
Entrez (39), yang menyediakan gerbang serupa ke urutan DNA dan protein, data
pemetaan genom, struktur makromolekul 3D dan database bibliografi PubMed (60).
Pencarian gen tertentu di kedua database akan memungkinkan transisi yang mulus ke
genom asalnya, urutan protein yang dikodekannya, strukturnya, referensi bibliografi dan
entri yang setara untuk semua gen terkait.

4. "...MEMAHAMI dan mengatur informasi ..."

Setelah memeriksa data, kita dapat mendiskusikan jenis-jenis analisis yang dilakukan.
Seperti yang ditunjukkan pada Tabel 1, bidang studi yang luas dalam bioinformatika
dapat dipisahkan sesuai dengan sumber informasi yang digunakan dalam penelitian.
Untuk urutan DNA mentah, penyelidikan melibatkan pemisahan daerah pengkodean
dan non-pengkodean, dan identifikasi intron, ekson dan daerah promotor untuk
membuat anotasi DNA genom (61) (62). Untuk urutan protein, analisis termasuk
mengembangkan algoritma untuk perbandingan urutan (63), metode untuk
menghasilkan beberapa urutan keberpihakan (64), dan mencari domain fungsional dari
motif urutan yang dilestarikan dalam keselarasan tersebut. Investigasi data struktural
meliputi prediksi struktur protein sekunder dan tersier, metode produksi untuk
keberpihakan struktural 3D (65, 66), memeriksa geometri protein menggunakan
pengukuran jarak dan sudut, perhitungan bentuk permukaan dan volume dan analisis
protein interaksi dengan subunit lain, DNA, RNA dan molekul yang lebih kecil. Studi-
studi ini telah mengarah pada topik simulasi molekuler di mana data struktural
digunakan untukmenghitung energetika yang terlibat dalam menstabilkan struktur
makromolekul, mensimulasikan gerakan dalam makromolekul, dan menghitung energi
yang terlibat dalam docking molekuler. Meningkatnya ketersediaan urutan genom
beranotasi telah menghasilkan pengenalan genomik komputasi dan proteomik - analisis
skala besar genom lengkap dan protein yang mereka kodekan. Penelitian meliputi
karakterisasi kandungan protein dan jalur metabolisme antara genom yang berbeda,
identifikasi protein yang berinteraksi, penugasan dan prediksi produk gen, dan analisis
skala besartingkat ekspresi gen. Beberapa topik penelitian ini akan ditunjukkan dalam
contoh analisis kami tentang sistem regulasi transkripsi.

Bidang studi lain yang telah kami sertakan dalam Tabel 1 adalah pengembangan
perpustakaan digital untuk pencarian bibliografi otomatis, basis pengetahuan informasi
biologis dari literatur, metode analisis DNA dalam forensik, prediksi struktur asam
nukleat, simulasi jalur metabolisme, dan analisis keterkaitan - menghubungkan gen
spesifik dengan sifat penyakit yang berbeda.

Selain menemukan hubungan antara protein yang berbeda, banyak bioinformatika


melibatkan analisis satu jenis data untuk menyimpulkan dan memahami pengamatan
untuk jenis data lain. Contohnya adalah penggunaan urutan dan data struktural untuk
memprediksi struktur sekunder dan tersier dari urutan protein baru (67). Metode-
metode ini, terutama yang pertama, sering didasarkan pada aturan statistik yang
berasal dari struktur, seperti kecenderungan urutan asam amino tertentu untuk
menghasilkan elemen struktural sekunder yang berbeda. Contoh lain adalah
penggunaan data struktural untuk memahami fungsi protein; Di sini penelitian telah
menyelidiki hubungan lipatan protein yang berbeda dan fungsinya (68, 69) dan
menganalisis kesamaan antara situs pengikatan yang berbeda tanpa adanya homologi
(70). Dikombinasikan dengan pengukuran kesamaan, studi ini memberi kita
pemahaman tentang berapa banyak informasi biologis yang dapat ditransfer secara
akurat antara protein homolog (71).

4.1 Spektrum bioinformatika

Gambar 1 merangkum poin-poin utama yang kami angkat dalam diskusi kami tentang
pengorganisasian dan pemahaman data biologis - pengembangan teknik
bioinformatika telah memungkinkan perluasan analisis biologis dalam dua dimensi,
kedalaman dan luasnya. Yang pertama diwakili oleh sumbu vertikal pada gambar dan
menguraikan pendekatan yang mungkin untuk proses desain obat rasional. Tujuannya
adalah untuk mengambil protein tunggal dan menindaklanjuti analisis yang
memaksimalkan pemahaman kita tentang protein yang dikodekannya. Dimulai dengan
urutan gen, kita dapat menentukan urutan protein dengan kepastian yang kuat. Dari
sana, algoritma prediksi dapat digunakan untuk menghitung struktur yang diadopsi oleh
protein. Perhitungan geometri dapat menentukan bentuk permukaan protein dan
simulasi molekul dapat menentukan medan gaya di sekitar molekul. Akhirnya, dengan
menggunakan algoritma docking, seseorang dapat mengidentifikasi atau merancang
ligan yang dapat mengikat protein, membuka jalan untuk merancang obat yang secara
khusus mengubah fungsi protein. Dalam praktiknya, langkah-langkah perantara masih
sulit dicapai secara akurat, dan itu yang terbaik dikombinasikan dengan metode
eksperimental untuk mendapatkan beberapa data,

misalnya mengkarakterisasi struktur protein yang diinginkan.

Gambar 1. Pergeseran paradigma selama beberapa dekade terakhir telah


mengambil banyak biologi dari bangku laboratorium dan telah memungkinkan
integrasi disiplin ilmu lainnya, khususnya komputasi. Hasilnya adalah perluasan
penelitian biologi secara luas dan mendalam. Sumbu vertikal menunjukkan
bagaimana bioinformatika dapat membantu desain obat rasional dengan pekerjaan
minimal di laboratorium basah. Dimulai dengan urutan gen tunggal, kita dapat
menentukan dengan kepastian yang kuat, urutan protein. Dari sana, kita dapat
menentukan struktur menggunakan teknik prediksi struktur. Dengan perhitungan
geometri, kita dapat menyelesaikan permukaan protein lebih lanjut dan melalui
simulasi molekuler menentukan medan gaya di sekitar molekul. Akhirnya algoritma
docking dapat memberikan prediksi ligan yang akan mengikat pada permukaan
protein, sehingga membuka jalan bagi desain obat khusus untuk molekul itu.

Sumbu horizontal menunjukkan bagaimana masuknya data biologis dan kemajuan


teknologi komputer telah memperluas ruang lingkup biologi. Awalnya dengan
sepasang protein, kita dapat membuat perbandingan antara urutan dan struktur
protein terkait evolusi. Dengan lebih banyak data, algoritma untuk beberapa
keberpihakan beberapa protein menjadi perlu. Dengan menggunakan beberapa
urutan, kita juga dapat membuat pohon filogenetik untuk melacak perkembangan
evolusi protein yang dimaksud. Akhirnya, dengan banjir data yang kita hadapi saat
ini, kita perlu membangun database besar untuk menyimpan, melihat dan
mendekonstruksi informasi. Keberpihakan sekarang menjadi lebih kompleks,
membutuhkan skema penilaian yang canggih dan ada cukup data untuk menyusun
sensus genom - setara genom dari sensus populasi - menyediakan akuntansi
statistik komprehensif fitur protein dalam genom.

Tujuan dari dimensi kedua, luasnya dalam analisis biologis, adalah untuk
membandingkan gen dengan yang lain. Awalnya, algoritma sederhana dapat
digunakan untuk membandingkan urutan dan struktur sepasang protein terkait. Dengan
jumlah protein yang lebih besar, algoritma yang ditingkatkan dapat digunakan untuk
menghasilkan beberapa keberpihakan, dan mengekstrak pola urutan atau templat
struktural yang menentukan keluarga protein. Dengan menggunakan data ini, juga
dimungkinkan untuk membangun pohon filogenetik untuk melacak jalur evolusi protein.
Akhirnya, dengan lebih banyak data, informasi harus disimpan dalam database skala
besar. Perbandingan menjadi lebih kompleks, membutuhkan beberapa skema
penilaian, dan kami dapat melakukan sensus skala genom yang menyediakan akun
statistik komprehensif fitur protein, seperti kelimpahan struktur atau fungsi tertentu
dalam genom yang berbeda. Ini juga memungkinkan kita untuk membangun pohon
filogenetik yang melacak evolusi seluruh organisme.

5. "... menerapkan TEKNIK INFORMATIKA ..."

Bidang subjek yang berbeda yang kami sebutkan memerlukan berbagai jenis teknik
informatika. Secara singkat, untuk organisasi data, database biologis pertama adalah
file datar sederhana. Namun dengan meningkatnya jumlah informasi, metode database
relasional dengan antarmuka halaman Web telah menjadi semakin populer. Dalam
analisis urutan, teknik termasuk metode perbandingan string seperti pencarian teks dan
algoritma penyelarasan 1D. Identifikasi motif dan pola untuk beberapa urutan
bergantung pada pembelajaran mesin, pengelompokan, dan teknik penambangan
data. Teknik analisis struktural 3D meliputi perhitungan geometri Euclidean
dikombinasikan dengan aplikasi dasar kimia fisik, representasi grafis permukaan dan
volume, dan perbandingan struktural dan metode pencocokan 3D. Untuk simulasi
molekuler, mekanika Newton, mekanika kuantum, mekanika molekuler dan perhitungan
elektrostatik diterapkan. Di banyak bidang ini, metode komputasi harus dikombinasikan
dengan analisis statistik yang baik untuk memberikan ukuran obyektif untuk signifikansi
hasil.

6. Peraturan transkripsi - studi kasus dalam bioinformatika

Protein pengikat DNA memiliki peran sentral dalam semua aspek aktivitas genetik
dalam suatu organisme, berpartisipasi dalam proses seperti transkripsi, pengemasan,
penataan ulang, replikasi dan perbaikan. Pada bagian ini, kami fokus pada studi yang
telah berkontribusi pada pemahaman kami tentang regulasi transkripsi pada organisme
yang berbeda. Melalui contoh ini, kami menunjukkan bagaimana bioinformatika telah
digunakan untuk meningkatkan pengetahuan kita tentang sistem biologis dan juga
menggambarkan aplikasi praktis dari berbagai bidang studi yang telah diuraikan secara
singkat sebelumnya. Kami mulai dengan mempertimbangkan analisis struktural tentang
bagaimana protein pengikat DNA mengenali urutan basa tertentu. Kemudian, kami
meninjau beberapa studi genom yang telah mengkarakterisasi sifat faktor transkripsi
pada organisme yang berbeda, dan metode yang telah digunakan untuk
mengidentifikasi situs pengikatan peraturan di daerah hulu. Akhirnya, kami memberikan
gambaran umum tentang analisis ekspresi gen yang baru-baru ini dilakukan dan
menyarankan penggunaan analisis peraturan transkripsi di masa depan untuk
merasionalisasi pengamatan yang dilakukan dalam eksperimen ekspresi gen. Semua
hasil yang kami jelaskan telah ditemukan melalui studi komputasi.

6.1 Studi struktural

Pada Agustus 2000, ada 379 struktur kompleks protein-DNA di PDB. Analisis struktur
ini telah memberikan wawasan berharga tentang prinsip-prinsip stereokimia
pengikatan, termasuk bagaimana urutan basa tertentu dikenali dan bagaimana struktur
DNA cukup sering dimodifikasi pada pengikatan.
Taksonomi struktural protein pengikat DNA, mirip dengan yang disajikan dalam SCOP
dan CATH, pertama kali diusulkan oleh Harrison (72) dan diperbarui secara berkala
untuk mengakomodasi struktur baru saat mereka dipecahkan (73). Klasifikasi terdiri dari
sistem dua tingkat: tingkat pertama mengumpulkan protein menjadi delapan kelompok
yang berbagi fitur struktural kasar untuk mengikat DNA, dan yang kedua terdiri dari 54
keluarga protein yang secara struktural homolog satu sama lain. Perakitan sistem
semacam itu menyederhanakan perbandingan metode pengikatan yang berbeda; ini
menyoroti keragaman geometri kompleks protein-DNA yang ditemukan di alam, tetapi
juga menggarisbawahi pentingnya interaksi antara -heliks dan alur utama DNA, mode
utama pengikatan di lebih dari setengah keluarga protein. Sementara jumlah struktur
yang diwakili dalam PDB tidak selalu mencerminkan kepentingan relatif dari protein
yang berbeda dalam sel, jelas bahwa motif helix-turn-helix, koordinasi seng dan
ritsleting leusin digunakan berulang kali. Ini memberikan kerangka kerja kompak yang
menyajikan -helix pada permukaan protein yang beragam secara struktural. Pada
tingkat kasar, adalah mungkin untuk menyoroti perbedaan antara domain faktor
transkripsi yang "hanya" mengikat DNA dan mereka yang terlibat dalam katalisis (74).
Meskipun ada pengecualian, yang pertama biasanya mendekati DNA dari satu wajah
dan slot ke alur untuk berinteraksi dengan tepi dasar. Yang terakhir biasanya
menyelimuti substrat, menggunakan jaringan kompleks struktur sekunder dan loop.

Berfokus pada protein dengan -heliks, struktur menunjukkan banyak variasi, baik
dalam urutan asam amino dan geometri rinci. Mereka jelas telah berevolusi secara
independen sesuai dengan persyaratan konteks di mana mereka ditemukan.
Sementara mencapai kecocokan yang erat antara -helix dan alur utama, ada cukup
fleksibilitas untuk memungkinkan protein dan DNA mengadopsi konformasi yang
berbeda. Namun, beberapa penelitian yang menganalisis geometri pengikatan -heliks
menunjukkan bahwa sebagian besar mengadopsi konformasi yang cukup seragam
terlepas dari keluarga protein. Mereka biasanya dimasukkan ke dalam alur utama ke
samping, dengan sumbu memanjang mereka kira-kira sejajar dengan kemiringan yang
digariskan oleh tulang punggung DNA. Sebagian besar dimulai dengan N-terminus di
alur dan memanjang keluar, menyelesaikan dua hingga tiga putaran dalam jarak kontak
asam nukleat (75, 76).

Mengingat orientasi pengikatan yang serupa, mengejutkan untuk menemukan bahwa


interaksi antara setiap posisi asam amino sepanjang -heliks dan nukleotida pada DNA
sangat bervariasi antara keluarga protein yang berbeda. Namun, dengan
mengklasifikasikan asam amino sesuai dengan ukuran rantai sampingnya, kami dapat
merasionalisasi pola interaksi yang berbeda. Aturan interaksi didasarkan pada premis
sederhana bahwa untuk posisi residu tertentu pada -heliks dalam konformasi yang
sama, asam amino kecil berinteraksi dengan nukleotida yang jaraknya dekat dan asam
amino besar dengan yang lebih jauh (76, 77). Studi setara untuk mengikat dengan motif
struktural lainnya, seperti -jepit rambut, juga telah dilakukan (78). Ketika
mempertimbangkan interaksi ini, penting untuk ingat bahwa daerah yang berbeda dari
permukaan protein juga menyediakan antarmuka dengan DNA.

Ini membawa kita untuk melihat interaksi tingkat atom antara pasangan asam amino
basa individu. Analisis semacam itu didasarkan pada premis bahwa proporsi yang
signifikan dari pengikatan DNA spesifik dapat dirasionalisasi dengan kode pengakuan
universal antara asam amino dan basa, yaitu apakah residu protein tertentu lebih
disukai berinteraksi dengan nukleotida tertentu terlepas dari jenis kompleks protein-
DNA (79). Studi telah mempertimbangkan ikatan hidrogen, kontak van der Waals dan
ikatan yang dimediasi air (80-82). Hasil penelitian menunjukkan bahwa sekitar 2/3 dari
semua interaksi adalah dengan tulang punggung DNA dan bahwa peran utama mereka
adalah salah satu stabilisasi urutan-independen. Sebaliknya, interaksi dengan basa
menampilkan beberapa preferensi yang kuat, termasuk interaksi arginin atau lisin
dengan guanin, asparagin atau glutamin dengan adenin dan treonin dengan timin.
Preferensi tersebut dijelaskan melalui pemeriksaan stereokimia rantai samping asam
amino dan tepi basa. Juga disorot adalah jenis interaksi yang lebih kompleks di mana
asam amino tunggal menghubungi lebih dari satu langkah basa secara bersamaan,
sehingga mengenali urutan DNA pendek. Hasil ini menunjukkan bahwa spesifisitas
universal, yang diamati di semua kompleks protein-DNA, memang ada. Namun, banyak
interaksi yang biasanya dianggap tidak spesifik, seperti yang dengan tulang punggung
DNA, juga dapat memberikan spesifisitas tergantung pada konteks di mana mereka
dibuat.

Berbekal pemahaman tentang struktur protein, motif pengikat DNA dan stereokimia
rantai samping, aplikasi utama adalah prediksi pengikatan baik oleh protein yang
diketahui mengandung motif tertentu, atau mereka yang memiliki struktur yang
dipecahkan dalam bentuk yang tidak kompleks. Yang paling umum adalah prediksi
untuk interaksi alur -helix-mayor - mengingat urutan asam amino, urutan DNA apa
yang akan dikenalinya (77, 83). Dalam pendekatan yang berbeda, teknik simulasi
molekuler telah digunakan untuk merapat seluruh protein dan DNA berdasarkan
perhitungan medan gaya di sekitar dua molekul (84, 85).

Alasan bahwa kedua metode hanya bertemu dengan keberhasilan yang terbatas
adalah karena bahkan untuk kasus-kasus yang tampaknya sederhana seperti -helix-
binding, ada banyak faktor lain yang harus dipertimbangkan. Perbandingan antara
struktur asam nukleat terikat dan tidak terikat menunjukkan bahwa pembengkokan DNA
adalah fitur umum dari kompleks yang terbentuk dengan faktor transkripsi (74, 86). Ini
dan faktor-faktor lain seperti interaksi elektrostatik dan kation-mediated membantu
pengenalan tidak langsung dari urutan nukleotida, meskipun mereka belum dipahami
dengan baik. Oleh karena itu, sekarang jelas bahwa aturan rinci untuk pengikatan DNA
spesifik akan spesifik keluarga, tetapi dengan tren yang mendasari seperti interaksi
arginin-guanin.

6.2 Studi genomik

Karena kekayaan data biokimia yang tersedia, studi genom dalam bioinformatika telah
berkonsentrasi pada organisme model, dan analisis sistem peraturan tidak terkecuali.
Identifikasi faktor transkripsi dalam genom selalu tergantung pada strategi pencarian
kesamaan, yang mengasumsikan hubungan fungsional dan evolusioner antara protein
homolog. Pada E., penelitian sejauh ini diperkirakan total 300 hingga 500 regulator
transkripsi (87) dan PEDANT (88), database fungsi gen yang ditetapkan secara
otomatis, menunjukkan bahwa biasanya 2-3% genom prokariotik dan 6-7% genom
eukariotik terdiri dari protein pengikat DNA. Karena tugas hanya selesai untuk 40-60%
genom pada Agustus 2000, angka-angka inikemungkinan besar meremehkan jumlah
sebenarnya. Meskipun demikian, mereka sudah mewakili sejumlah besar protein dan
jelas bahwa ada lebih banyak regulator transkripsi pada eukariota daripada spesies
lain. Ini tidak mengherankan, mengingat organisme telah mengembangkan
mekanisme transkripsi yang relatif canggih.

Dari kesimpulan studi struktural, strategi terbaik untuk mengkarakterisasi pengikatan


DNA dari faktor transkripsi putatif di setiap genom adalah mengelompokkannya
berdasarkan homologi dan menganalisis masing-masing keluarga. Klasifikasi tersebut
disediakan dalam database urutan sekunder yang dijelaskan sebelumnya dan juga
yang mengkhususkan diri dalam protein regulator seperti RegulonDB (89) dan
TRANSFAC (90). Penggunaan yang lebih besar adalah penyediaan tugas struktural
untuk protein; Mengingat faktor transkripsi, akan sangat membantu untuk mengetahui
motif struktural yang digunakannya untuk mengikat, sehingga memberi kita
pemahaman yang lebih baik tentang bagaimana ia mengenali urutan target. Genomik
struktural melalui bioinformatika menetapkan struktur untuk produk protein genom
dengan menunjukkan kesamaan dengan protein dari struktur yang diketahui (91). Studi-
studi ini telah menunjukkan bahwa faktor transkripsi prokariotik paling sering
mengandung motif helix-turn-helix (87, 92) dan faktor eukariotik mengandung motif
helix-turn-helix tipe homeodomain, jari seng atau motif ritsleting leusin. Dari klasifikasi
protein di setiap genom, jelas bahwa berbagai jenis protein pengatur berbeda dalam
kelimpahan dan keluarga berbeda dalam ukuran. Sebuah studi oleh Huynen dan van
Nimwegen (93) telah menunjukkan bahwa anggota keluarga tunggal memiliki fungsi
yang sama, tetapi karena persyaratan fungsi ini bervariasi dari waktu ke waktu,
demikian juga kehadiran setiap keluarga gen dalam genom.

Baru-baru ini, dengan menggunakan kombinasi urutan dan data struktural, kami
memeriksa konservasi urutan asam amino antara protein pengikat DNA terkait, dan
efek mutasi terhadap pengenalan urutan DNA. Keluarga struktural yang dijelaskan di
atas diperluas untuk memasukkan protein yang terkait dengan kesamaan urutan, tetapi
strukturnya tetap tidak terpecahkan. Sekali lagi, anggota keluarga yang sama homolog,
dan mungkin berasal dari nenek moyang yang sama.

Konservasi asam amino dihitung untuk beberapa urutan keberpihakan masing-masing


keluarga (94). Umumnya, posisi keselarasan yang berinteraksi dengan DNA lebih baik
dilestarikan daripada sisa permukaan protein, meskipun pola rinci konservasi cukup
kompleks. Residu yang menghubungi tulang punggung DNA sangat dilestarikan di
semua keluarga protein, menyediakan satu set interaksi stabilisasi yang umum untuk
semua protein homolog. Konservasi posisi penyelarasan yang menghubungi basa, dan
mengenali urutan DNA, lebih kompleks dan dapat dirasionalisasi dengan
mendefinisikan model 3-kelas untuk pengikatan DNA. Pertama, keluarga protein yang
mengikat secara non-spesifik biasanya mengandung beberapa residu kontak basa
yang dilestarikan; Tanpa kecuali, interaksi dibuat dalam alur minor di mana ada sedikit
diskriminasi antara tipe basa. Kontak biasanya digunakan untuk menstabilkan
deformasi dalam struktur asam nukleat, terutama dalam pelebaran alur minor DNA.
Kelas kedua terdiri dari keluarga yang semua anggotanya menargetkan urutan
nukleotida yang sama; Di sini, posisi kontak basa benar-benar atau sangat
dilestarikan memungkinkan protein terkait untuk menargetkan urutan yang sama.

Kelas ketiga, dan yang paling menarik, terdiri dari keluarga di mana pengikatan juga
spesifik tetapi anggota yang berbeda mengikat urutan dasar yang berbeda. Di sini
residu protein sering mengalami mutasi, dan anggota keluarga dapat dibagi menjadi
subfamili sesuai dengan urutan asam amino pada posisi kontak basa; mereka yang
berada dalam subfamili yang sama diprediksi mengikat urutan DNA yang sama dan
mereka yang memiliki subfamili berbeda untuk mengikat urutan yang berbeda. Secara
keseluruhan, subfamili berhubungan baik dengan fungsi protein dan anggota subfamili
yang sama ditemukan untuk mengatur jalur transkripsi yang sama. Analisis gabungan
dari urutan dan data struktural yang dijelaskan oleh penelitian ini memberikan wawasan
tentang bagaimana perancah pengikat DNA homolog mencapai kekhususan yang
berbeda dengan mengubah urutan asam amino mereka. Dengan demikian, protein
mengembangkan fungsi yang berbeda, sehingga memungkinkan faktor transkripsi
yang terkait secara struktural untuk mengatur ekspresi gen yang berbeda. Oleh karena
itu, kelimpahan relatif keluarga pengatur transkripsi dalam genom tergantung, tidak
hanya pada pentingnya fungsi protein tertentu, tetapi juga dalam kemampuan
beradaptasi motif pengikat DNA untuk mengenali urutan nukleotida yang berbeda. Ini,
pada gilirannya, tampaknya paling baik diakomodasi oleh motif pengikatan sederhana,
seperti jari-jari seng.

Mengingat pengetahuan tentang regulator transkripsi yang terkandung dalam setiap


organisme, dan pemahaman tentang bagaimana mereka mengenali urutan DNA,
sangat menarik untuk mencari situs pengikatan potensial mereka dalam urutan genom
(95). Untuk prokariota, sebagian besar analisis melibatkan pengumpulan data pada
situs pengikatan yang diketahui secara eksperimental untuk protein tertentu dan
membangun urutan konsensus yang menggabungkan variasi nukleotida. Situs
tambahan ditemukan dengan melakukan pencarian pencocokan kata di seluruh genom
dan menilai situs kandidat dengan kesamaan (96-99). Tidak mengherankan, sebagian
besar situs yang diprediksi ditemukan di daerah non-coding DNA (96) dan hasil
penelitian sering disajikan dalam database seperti RegulonDB (89). Pendekatan
pencarian konsensus sering dilengkapi dengan studi genom komparatif yang mencari
daerah hulu gen ortolog pada organisme yang terkait erat. Melalui pendekatan
semacam itu, ditemukan bahwa setidaknya 27% dari motif pengaturan DNA E. yang
diketahui dilestarikan dalam satu atau lebih bakteri yang terkait jauh (100).

Deteksi situs regulasi pada eukariota menimbulkan masalah yang lebih sulit karena
urutan konsensus cenderung jauh lebih pendek, bervariasi, dan tersebar pada jarak
yang sangat jauh. Namun, studi awal pada S. cerevisiae memberikan pengamatan yang
menarik untuk protein GATA dalam regulasi metabolisme nitrogen. Sementara urutan
konsensus GATA 5 pasangan basa ditemukan hampir di mana-mana dalam genom,
satu situs pengikatan terisolasi tidak cukup untuk menggunakan fungsi pengaturan
(101). Oleh karena itu, spesifisitas aktivitas GATA berasal dari pengulangan urutan
konsensus dalam daerah hulu gen terkontrol dalam banyak salinan. Sebuah studi awal
telah menggunakan pengamatan ini untuk memprediksi situs peraturan baru dengan
mencari oligonukleotida yang terlalu terwakili di daerah non-coding ragi dan genom
cacing (102, 103).

Setelah mendeteksi situs pengikatan peraturan, ada masalah mendefinisikan gen yang
sebenarnya diatur, yang biasa disebut regulon. Umumnya, situs pengikatan
diasumsikan terletak langsung di hulu regulon; Namun, ada masalah berbeda yang
terkait dengan asumsi ini, tergantung pada organisme. Untuk prokariota, ini diperumit
oleh kehadiran operon; Sulit untuk menemukan gen yang diatur dalam operon karena
dapat terletak beberapa gen di hilir dari urutan pengaturan. Seringkali sulit untuk
memprediksi organisasi operon (104), terutama untuk menentukan gen yang ditemukan
di kepala, dan sering ada kurangnya konservasi jangka panjang dalam urutan gen
antara organisme terkait (105). Masalah pada eukariota bahkan lebih parah; Situs
regulasi sering bertindak di kedua arah, situs pengikatan biasanya jauh dari regulon
karena daerah intergenik yang besar, dan regulasi transkripsi biasanya merupakan
hasil dari tindakan gabungan oleh beberapa faktor transkripsi secara kombinatorial.

Terlepas dari masalah ini, penelitian ini telah berhasil mengkonfirmasi jalur regulasi
transkripsi dari sistem yang dikarakterisasi dengan baik seperti sistem respons
sengatan panas (99). Selain itu, adalah layak untuk memverifikasi prediksi secara
eksperimental, terutama menggunakan data ekspresi gen.

6.3 Studi ekspresi gen

Banyak studi ekspresi sejauh ini berfokus pada merancang metode untuk
mengelompokkan gen dengan kesamaan dalam profil ekspresi. Ini untuk menentukan
protein yang diekspresikan bersama dalam kondisi seluler yang berbeda. Secara
singkat, metode yang paling umum adalah pengelompokan hierarkis, peta
pengorganisasian mandiri, dan pengelompokan K-means. Metode hierarkis awalnya
berasal dari algoritma untuk membangun pohon filogenetik, dan mengelompokkan gen
dengan cara "bottom-up"; Gen dengan profil ekspresi yang paling mirip dikelompokkan
terlebih dahulu, dan mereka yang memiliki profil lebih beragam dimasukkan secara
iteratif (106-108). Sebaliknya, peta pengorganisasian diri (109, 110) dan metode K-
means (111) menggunakan pendekatan "top-down" di mana pengguna menentukan
jumlah cluster untuk dataset. Cluster awalnya ditetapkan secara acak, dan gen
dikelompokkan kembali secara iteratif sampai mereka dikelompokkan secara optimal.

Dengan metode ini, sangat menarik untuk menghubungkan data ekspresi dengan
atribut lain seperti struktur, fungsi dan lokalisasi subseluler dari setiap produk gen.
Memetakan sifat-sifat ini memberikan wawasan tentang karakteristik protein yang
diekspresikan bersama, dan juga menyarankan beberapa kesimpulan menarik tentang
keseluruhan biokimia sel. Dalam ragi, protein yang lebih pendek cenderung lebih tinggi
diekspresikan daripada protein yang lebih panjang, mungkin karena relatif mudahnya
diproduksi (112). Melihat kandungan asam amino, gen yang sangat diekspresikan
umumnya diperkaya dengan alanin dan glisin, dan habis dalam asparagin; Ini dianggap
mencerminkan persyaratan penggunaan asam amino dalam organisme, di mana
sintesis alanin dan glisin secara energetik lebih murah daripada asparagin. Beralih ke
struktur protein, tingkat ekspresi laras TIM dan lipatan hidrolase NTP paling tinggi,
sedangkan untuk ritsleting leusin, jari seng dan lipatan yang mengandung heliks
transmembran paling rendah. Ini berkaitan dengan fungsi yang terkait dengan lipatan
ini; Yang pertama umumnya terlibat dalam jalur metabolisme dan yang terakhir dalam
proses pensinyalan atau transportasi (113). Hal ini juga tercermin dalam hubungan
dengan lokalisasi protein subseluler, di mana ekspresi protein sitoplasma tinggi, tetapi
protein nuklir dan membran cenderung rendah (114, 115).

Hubungan yang lebih kompleks juga telah dinilai. Kebijaksanaan konvensional adalah
bahwa produk gen yang berinteraksi satu sama lain lebih cenderung memiliki profil
ekspresi yang sama daripada jika tidak (116, 117). Namun, sebuah penelitian baru-baru
ini menunjukkan bahwa hubungan ini tidak sesederhana itu (118). Sementara profil
ekspresi serupa untuk produk gen yang terkait secara permanen, misalnya dalam
subunit ribosom besar, profil berbeda secara signifikan untuk produk yang hanya terkait
sementara, termasuk yang termasuk dalam jalur metabolisme yang sama.

Seperti dijelaskan di bawah ini, salah satu kekuatan pendorong utama di balik analisis
ekspresi adalah menganalisis garis sel kanker (119). Secara umum, telah ditunjukkan
bahwa garis sel yang berbeda (misalnya sel epitel dan ovarium) dapat dibedakan
berdasarkan profil ekspresi mereka, dan bahwa profil ini dipertahankan ketika sel
ditransfer dari in vivo ke lingkungan in vitro (120). Dasar perbedaan fisiologis mereka
terlihat jelas dalam ekspresi gen spesifik; Misalnya, tingkat ekspresi produk gen yang
diperlukan untuk perkembangan melalui siklus sel, terutama gen ribosom, berkorelasi
baik dengan variasi laju proliferasi sel. Analisis komparatif dapat diperluas ke sel-sel
tumor, di mana penyebab kanker dapat ditemukan dengan menunjukkan dengan tepat
area variasi biologis dibandingkan dengan sel normal. Misalnya pada kanker payudara,
gen yang terkait dengan proliferasi sel dan jalur transduksi sinyal yang diatur IFN
ditemukan diregulasi (52, 121). Salah satu kesulitan dalam pengobatan kanker adalah
menargetkan terapi spesifik untuk jenis tumor yang berbeda secara patogenegenetik,
untuk memaksimalkan kemanjuran dan meminimalkan toksisitas. Oleh karena itu,
perbaikan dalam klasifikasi kanker telah menjadi pusat kemajuan dalam pengobatan
kanker. Meskipun perbedaan antara berbagai bentuk kanker - misalnya subclass
leukemia akut - telah mapan, masih tidak mungkin untuk menegakkan diagnosis klinis
berdasarkan tes tunggal. Dalam sebuah penelitian baru-baru ini, leukemia myeloid akut
dan leukemia limfoblastik akut berhasil dibedakan berdasarkan profil ekspresi sel-sel
ini (53). Karena pendekatan ini tidak memerlukan pengetahuan biologis sebelumnya
tentang penyakit, ini dapat memberikan strategi umum untuk mengklasifikasikan semua
jenis kanker.

Jelas, aspek penting dari pemahaman data ekspresi terletak pada pemahaman dasar
regulasi transkripsi. Namun, analisis di bidang ini masih terbatas pada analisis awal
tingkat ekspresi pada mutan ragi yang kekurangan komponen kunci dari kompleks
inisiasi transkripsi (10, 122).

7. "... banyak APLIKASI PRAKTIS ..."

Di sini, kami menjelaskan beberapa kegunaan utama bioinformatika.

7.1 Menemukan Homolog

Seperti dijelaskan sebelumnya, salah satu kekuatan pendorong di balik bioinformatika


adalah pencarian kesamaan antara biomolekul yang berbeda. Selain memungkinkan
organisasi data yang sistematis, identifikasi homolog protein memiliki beberapa
kegunaan praktis langsung. Yang paling jelas adalah mentransfer informasi antara
protein terkait. Sebagai contoh, mengingat protein yang dikarakterisasi dengan buruk,
adalah mungkin untuk mencari homolog yang lebih dipahami dan dengan hati-hati,
menerapkan beberapa pengetahuan yang terakhir ke yang pertama. Khususnya
dengan data struktural, model teoritis protein biasanya didasarkan pada struktur
homolog dekat yang diselesaikan secara eksperimental (123). Teknik serupa
digunakan dalam pengenalan lipatan di mana prediksi struktur tersier bergantung pada
menemukan struktur homolog jarak jauh dan memeriksa apakah prediksi tersebut layak
secara energetik (124). Di mana data biokimia atau struktural kurang, penelitian dapat
dilakukan pada organisme tingkat rendah seperti ragi dan hasilnya diterapkan pada
homolog pada organisme tingkat tinggi seperti manusia, di mana eksperimen lebih
menuntut.

Pendekatan yang setara juga digunakan dalam genomik. Penemuan homolog banyak
digunakan untuk mengkonfirmasi daerah pengkodean dalam genom yang baru
diurutkan dan data fungsional sering ditransfer untuk membubuhi keterangan gen
individu. Pada skala yang lebih besar, ini juga menyederhanakan masalah pemahaman
genom kompleks dengan menganalisis organisme sederhana terlebih dahulu dan
kemudian menerapkan prinsip yang sama untuk yang lebih rumit - ini adalah salah satu
alasan mengapa proyek genomik struktural awal berfokus pada Mycoplasma genitalium
(91).

Ironisnya, ide yang sama dapat diterapkan secara terbalik. Target obat potensial
dengan cepat ditemukan dengan memeriksa apakah homolog protein mikroba esensial
hilang pada manusia. Pada skala yang lebih kecil, perbedaan struktural antara protein
serupa dapat dimanfaatkan untuk merancang molekul obat yang secara khusus
mengikat satu struktur tetapi tidak yang lain.

7.2 Desain Obat Rasional

Salah satu aplikasi medis bioinformatika paling awal adalah membantu desain obat
yang rasional. Gambar 2 menguraikan pendekatan yang sering dikutip, mengambil
produk gen MLH1 sebagai contoh target obat. MLH1 adalah gen manusia yang
mengkode protein perbaikan ketidakcocokan (mmr) yang terletak di lengan pendek
kromosom 3 (125). Melalui analisis keterkaitan dan kemiripannya dengan gen MMR
pada tikus, gen tersebut telah terlibat dalam kanker kolorektal nonpolyposis (126).
Mengingat urutan nukleotida, urutan asam amino yang mungkin dari protein yang
dikodekan dapat ditentukan dengan menggunakan perangkat lunak terjemahan. Teknik
pencarian urutan kemudian dapat digunakan untuk menemukan homolog dalam
organisme model, dan berdasarkan kesamaan urutan, dimungkinkan untuk
memodelkan struktur protein manusia pada struktur yang dikarakterisasi secara
eksperimental. Akhirnya, algoritma docking dapat merancang molekul yang dapat
mengikat struktur model, memimpin jalan bagi tes biokimia untuk menguji aktivitas
biologis mereka pada protein yang sebenarnya.
Gambar 2. Di atas adalah skema yang menguraikan bagaimana para ilmuwan
dapat menggunakan bioinformatika untuk membantu penemuan obat rasional.
MLH1 adalah gen manusia yang mengkode protein perbaikan ketidakcocokan
(mmr) yang terletak di lengan pendek kromosom 3. Melalui analisis keterkaitan dan
kemiripannya dengan gen MMR pada tikus, gen tersebut telah terlibat dalam
kanker kolorektal nonpolyposis. Mengingat urutan nukleotida, urutan asam amino
yang mungkin dari protein yang dikodekan dapat ditentukan dengan menggunakan
perangkat lunak terjemahan. Teknik pencarian urutan dapat digunakan untuk
menemukan homolog dalam organisme model, dan berdasarkan kesamaan urutan,
dimungkinkan untuk memodelkan struktur protein manusia pada struktur yang
dikarakterisasi secara eksperimental. Akhirnya, algoritma docking dapat
merancang molekul yang dapat mengikat struktur model, memimpin jalan bagi tes
biokimia untuk menguji aktivitas biologis mereka pada protein yang sebenarnya.

7.3 Sensus skala besar

Meskipun database dapat secara efisien menyimpan semua informasi yang terkait
dengan genom, struktur, dan kumpulan data ekspresi, penting untuk menyingkat semua
informasi ini menjadi tren dan fakta yang dapat dipahami pengguna dengan mudah.
Generalisasi yang luas membantu mengidentifikasi bidang subjek yang menarik untuk
analisis rinci lebih lanjut, dan menempatkan pengamatan baru dalam konteks yang
tepat. Hal ini memungkinkan seseorang untuk melihat apakah mereka tidak biasa
dengan cara apapun.

Melalui sensus skala besar ini, seseorang dapat menjawab sejumlah pertanyaan
evolusioner, biokimia, dan biofisik. Misalnya, apakah lipatan protein spesifik terkait
dengan kelompok filogenetik tertentu? Seberapa umum lipatan yang berbeda dalam
organisme tertentu? Dan sejauh mana lipatan dibagi antara organisme terkait? Apakah
sejauh ini berbagi ukuran paralel keterkaitan berasal dari pohon evolusi tradisional?
Studi awal menunjukkan bahwa frekuensi lipatan sangat berbeda antara organisme dan
bahwa pembagian lipatan antara organisme sebenarnya mengikuti klasifikasi
filogenetik tradisional (21, 41). Kami juga dapat mengintegrasikan data tentang fungsi
protein; Mengingat bahwa lipatan protein tertentu sering dikaitkan dengan fungsi
biokimia spesifik (68, 69), temuan ini menyoroti keragaman jalur metabolisme pada
organisme yang berbeda (20, 105).

Seperti yang telah kita bahas sebelumnya, salah satu sumber informasi genom baru
yang paling menarik adalah data ekspresi. Menggabungkan informasi ekspresi dengan
klasifikasi struktural dan fungsional protein, kita dapat bertanya apakah tingginya
kejadian lipatan protein dalam genom merupakan indikasi tingkat ekspresi yang tinggi
(112). Data skala genom lebih lanjut yang dapat kita pertimbangkan dalam survei skala
besar termasuk lokalisasi subseluler protein dan interaksinya satu sama lain (127-129).
Dalam hubungannya dengan data struktural, kita kemudian dapat mulai menyusun peta
semua interaksi protein-protein dalam suatu organisme.

7.4 Aplikasi lebih lanjut dalam ilmu kedokteran

Aplikasi terbaru dalam ilmu kedokteran berpusat pada analisis ekspresi gen (130). Ini
biasanya melibatkan kompilasi data ekspresi untuk sel-sel yang terkena penyakit yang
berbeda (131), misalnya kanker (53, 132, 133) dan ateriosclerosis (134), dan
membandingkan pengukuran terhadap tingkat ekspresi normal. Identifikasi gen yang
diekspresikan secara berbeda dalam sel yang terkena memberikan dasar untuk
menjelaskan penyebab penyakit dan menyoroti target obat potensial. Dengan
menggunakan proses yang dijelaskan pada Gambar 2, seseorang akan merancang
senyawa yang mengikat protein yang diekspresikan, atau mungkin yang lebih penting,
regulator transkripsi telah menyebabkan perubahan tingkat ekspresi. Mengingat
senyawa timbal, percobaan microarray kemudian dapat digunakan untuk mengevaluasi
tanggapan terhadap intervensi farmakologis, (135, 136) dan juga memberikan tes awal
untuk mendeteksi atau memprediksi toksisitas obat percobaan.

Kemajuan lebih lanjut dalam bioinformatika dikombinasikan dengan genomik


eksperimental untuk individu diperkirakan akan merevolusi masa depan perawatan
kesehatan. Skenario khas untuk pasien dapat dimulai dengan genotip pasca-kelahiran
untuk menilai kerentanan atau kekebalan dari penyakit dan patogen tertentu. Dengan
informasi ini, kombinasi unik dari vaksin dapat diresepkan, meminimalkan biaya
perawatan kesehatan dari perawatan yang tidak perludan mengantisipasi serangan
penyakit di kemudian hari. Pemeriksaan seumur hidup secara teratur dapat mengarah
pada panduan untuk asupan nutrisi dan deteksi dini penyakit apa pun (137). Selain
itu, perawatan berbasis obat dapat disesuaikan secarakhusus untuk pasien dan
penyakit, sehingga memberikan pengobatan yang paling efektif dengan efek samping
minimal (138). Mengingat tingkat perkembangan saat ini, skenario seperti itu dalam
perawatan kesehatan tampaknya mungkin terjadi dalam waktu yang tidak terlalu lama.

8. Kesimpulan

Dengan banjir data saat ini, metode komputasi telah menjadi sangat diperlukan untuk
penyelidikan biologis. Awalnya dikembangkan untuk analisis urutan biologis,
bioinformatika sekarang mencakup berbagai bidang studi termasuk biologi struktural,
genomik dan studi ekspresi gen. Dalam ulasan ini, kami memberikan pengantar dan
gambaran umum tentang keadaan lapangan saat ini. Secara khusus, kami membahas
jenis informasi biologis dan database yang umum digunakan, memeriksa beberapa
studi yang sedang dilakukan - dengan mengacu pada sistem pengaturan transkripsi -
dan akhirnya melihat beberapa aplikasi praktis lapangan.

Dua pendekatan utama mendukung semua studi dalam bioinformatika. Pertama adalah
membandingkan dan mengelompokkan data menurut kesamaan yang bermakna
secara biologis dan kedua, menganalisis satu jenis data untuk menyimpulkan dan
memahami pengamatan untuk jenis data lain. Pendekatan ini tercermin dalam tujuan
utama lapangan, yaitu untuk memahami dan mengatur informasi yang terkait dengan
molekul biologis dalam skala besar. Akibatnya, bioinformatika tidak hanya memberikan
kedalaman yang lebih besar untuk penyelidikan biologi, tetapi menambahkan dimensi
luasnya juga. Dengan cara ini, kami dapat memeriksa sistem individual secara rinci dan
juga membandingkannya dengan yang terkait untuk mengungkap prinsip-prinsip umum
yang berlaku di banyak sistem dan menyoroti fitur-fitur tidak biasa yang unik bagi
sebagian orang.

9. Ucapan Terima Kasih

Kami berterima kasih kepada Patrick McGarvey atas komentar pada naskah.

Anda mungkin juga menyukai