Anda di halaman 1dari 12

BASIC LOCAL ALIGNMENT SEARCH TOOLS (BLAST)

ARTIKEL

Disusun untuk memenuhi salah satu tugas mata kuliah Bioinformatika yang
diampu oleh Dr. Topik Hidayat, M.Si.

Oleh:
Dwi Surya Artie 1401037
Biologi C 2014

PROGRAM STUDI BIOLOGI


DEPARTEMEN PENDIDIKAN BIOLOGI
FAKULTAS PENDIDIKAN MATEMATIKAN DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PENDIDIKAN INDONESIA
BANDUNG
2017
BASIC LOCAL ALIGNMENT SERACH TOOLS (BLAST)

Dalam kemajuan ilmu pengetahuan, khususnya biologi, menghadapkan


para biologist dengan tantangan dalam memahami sejumlah besar data struktural
yang dihasilkan dari berbagai tingkat sistem biologis makhluk hidup (Pevsner,
2015). Dalam memahami data peneliti harus mempertimbangkan kompleksitas
sains yang dimiliki dari permasalahan yang diangkat. Era “biologi baru” hadir
dengan adanya kemunculan atau pengembangan ilmu pengetahuan disamping ilmu
biologi itu sendiri yang mendukung, seperti bioinformatika dan biologi
komputasional.

Gambar 1. Bioinformatik

(Canduri, F., dan Dini, W. J. S, 2017)

Bioinformatika merupakan ilmu terapan yang lahir dari perkembangan


teknologi informasi dibidang molekular. Pembahasan dibidang bioinformatik ini
tidak terlepas dari perkembangan biologi molekular modern, salah satunya
peningkatan pemahaman manusia dalam bidang genomic yang terdapat dalam
molekul DNA. Istilah bioinformatik awal dikemukakan di era 1970-an oleh Paulien
Hogeweg untuk mengolah data analisis biologi dengan menggunakan komputer.
Bioinformatik merupakan kombinasi dari berbagai kajian ilmu biologi dan
teknologi informatika yang terfokus dalam tingkatan aplikasi sel dan biologi
molekul pada bioteknologi modern. Bioinformatika merupakan kajian yang
memadukan disiplin ilmu biologi molekul, matematika dan teknik informasi.
Bidang ini mencakup penerapan metode-metode matematika, statistika, dan
informatika untuk memecahkan masalah-masalah biologis, terutama dengan
menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan
(James, 2001). Seiring dengan adanya perkembangan internet, hal ini juga
mendukung berkembangnya pemanfaatan bidang bioinformatika. Basis data yang
ada bisa didapatkan melalui sambungan internet dan memudahkan peneliti untuk
mengumpulkan dan memperoleh sekuen biologis yang digunakan sebagai bahan uji
analisa. Selain itu, penyebaran program-program perangkat lunak maupun aplikasi
bioinformatika sudah mulai mudah didapatkan melalui internet sehingga
memudahkan peneliti dalam mengakses program-program tersebut dan kemudian
memudahkan pengembangannya.

Pensejajaran sekuens untuk mencari kesamaan, termasuk perbandingan


urutan sekuens merupakan salah satu prinsip dasar yang digunakan dalam
komputasional biologi yang sudah ditemukan dan disebarluaskan penggunaannya
di kalangan para biologist (Canduri, F., dan Dini, W. J. S, 2017). Pensejajaran
sekuens merupakan proses pengaturan sekuens sehingga kesamaan yang dimiliki
sekuens tersebut terlihat dan tampak nyata. Sequence alignment merupakan metode
yang mendasar dalam analisis sekuens. Metode ini digunakan untuk mempelajari
evolusi dari sekuens-sekuens yang diuji dengan leluhurnya. Adanya
ketidakcocokan (mismatch) dalam alignment dihubungkan dengan terjadinya
proses mutasi, sedangkan gap diasosiasikan dengan terjadinya proses insersi atau
delesi. Dengan metode sequence allignment ini membantu para peneliti juga untuk
mengetahui sekuens conserved atau sekuens yang dipertahankan selama proses
evolusi dari sekuens – sekuens yang ada, dimana hal ini bisa dijadikan dasar
hipotesis bahwa sekuens tersebut bisa jadi memiliki peran yang penting bagi
organisme yang bersangkutan.

Terdapat 2 jenis alignment yang digunakan yakni global dan lokal.


Pensejajaran global diantaranya adalah dengan membandingkan satu keseluruhan
sekuens dengan sekuens lainnya secara keseluruhan dengan hasil berupa
perbandingan dari dua sekuens keseluruhan, sedangkan pensejajaran lokal
menggunakan hanya sebagian dari sekuens dan mencoba menselaraskannya dengan
sekuens lainnya dengan hasil mengungkapkan daerah yang sangat mirip, namun
tidak harus memberikan perbandingan di seluruh dua rangkaian. Dalam hal ini
pendekatan pensejajaran global sangat berguna saat peneliti ingin membandingkan
organisme yang memiliki urutan basa yang pendek, namu biaya yang sangat mahal
menjadi salah satu kekurangan dari pendekatan secara global ini. Keselarasan lokal
menggunakan metode pemrograman heuristik yang lebih sesuai untuk berhasil
mencari database yang sangat besar, namun tidak selalu memberikan solusi yang
paling optimal. Bahkan dengan keterbatasan ini, keberpihakan lokal sangat penting
bagi bidang genomik karena mereka dapat menemukan wilayah homologi yang
terkait dengan keturunan antara dua sekuens yang berbeda (McClean, 2004).

BLAST (Basic Local Alignment Searc Tool) merupakan salah satu


“perangkat” dalam bioinformatika yang sering digunakan untuk membantu peneliti
dalam menelusuri basis data sekuens yang mirip dengan sekuens tertentu.
Penelusuran BLAST ini berperan banyak dalam bidang bioteknologi yang sedang
banyak berkembang saat ini, diantaranya adalah untuk menemukan gen yang serupa
pada beberapa organisme yang berbeda dll. Dalam hal ini dasar kerja BLAST yang
digunakan adalah pensejajaran sekuens yang ingin ditelusuri.
Gambar 2. BLAST

(sumber : bioinformatics-made-simple.com)

Tabel 1. Halaman web yang berelasi dengan BLAST di NCBI

Konten halaman URL


Blast – home page https://www.ncbi.nlm.nh.gov/BLAST/
The statistics of sequensce
https://www.ncbi.nlm.nh.gov/BLAST/tutor
similarity scories (introduction to
ial /Altschul.I.html
BLAST statistics)
BLAST frequently asked question https://www.ncbi.nlm.nh.gov/BLAST/blast
(FAQ) _FAQ.html
https://www.ncbi.nlm.nh.gov/education/B
BLAST information (tutorials)
LASTinfo/Information3.html
BLAST ftp site - clients and https://www.ncbi.nlm.nh.gov/blast
databases
https://www.ncbi.nlm.nh.gov/toolbox/ncbi
BLAST source code
_tools
https://www.ncbi.nlm.nh.gov/BLAST/blast
BLAST references
_references.html

Algoritma BLAST pertama dikenalkan oleh The National Center of


Biotechnology Information (NCBI) pada tahun 1990. Versi yang dikenalkan itu
merupakan versi yang masih memiliki keterbatasan fungsi, namun pada masanya
algoritma BLAST ini sangat berharga bagi semua peneliti yang mengerjakan urutan
rantai asam amino maupun nukleotida tanpa mengetahui bagaimana
membandingkan urutan tersebut dengan database yang sudah ada. Saat itu, BLAST
digunakan untuk mensejajarkan sekuen yang tidak memiliki gap saja dan hasilnya
memberikan nilai p bagi peneliti untuk mengevaluasi signifikansi hasilnya. Tahun
1997 menjadi tahun bagi algoritma BLAST dalam membuat langkah luar biasa
menuju masa depan bioinformatika.

Gambar 3. Parameter yang ada pada algoritma BLAST


Tabel 2. Progam BLAST

Tipe kueri Tipe sekuens


Program
sekuens target
Membandingkan sekuens asam amino
BLASTP Protein Protein kueri dengan sekuens protein yang ada
di database
Membandingkan sekuens nukleotida
BLASTN Nukleotida Nukleotida kueri dengan sekuens nukleotida yang
ada di database
Membandingkan sekuens nukleotida
Nukleotida kueri yang sudah ditranslasi dengan
BLASTX Protein
(translasi) sekuens nukleotida yang ada di
database
Membandingkan sekuens protein
Nukleotida
TBLASTN Protein kueri dengan sekuens nukleotida yang
(translasi)
secara dinamis sudah ditranslasi
Membandingkan 6 frame translasi dari
Nukleotida Nukleotida sekuens nukleotida kueri dengan6
TBLASTX
(translasi) (translasi) frame translasi dari sekuens nukleotida
yang ada di database

Menurut McClean (2004) menyebutkan bahwa langkah pertama dalam


algoritma BLAST adalah dengan memotong sekuen query menjadi “kata” yang
pendek namun spesifik. “kata” ini adalah series dari karakter yang dimiliki oleh
sekuens kueri. Biasanya memiliki panjang 3 karakter saja. Contohnya, terdapat 12
asam amino yang dekat dengan ujung gugus amino pada Aradbidopsis thaliana
sekuens protein phoshoglucomutase yaitu NYLENFQVATFN. Sekuen ini akan
dibagi menjadi 3 karakter dimana pemilihan urutan kata nya diambil dengan cara
mengambil asam amino paling awal lalu ke asam amino selanjutnya sampai terpilih
3 urutan asam amino. Kata kedua dimulai dengan asam amino kedua dari asam
amino pertama yang sudah digunakan sebelumnya, sehingga terbentuk 7 kata yaitu
: NYL YLE LEN ENF NFV FVQ VQA QAT ATF TFN.

Kata – kata diatas selanjutnya dibandingkan dengan sekuens yang ada di


database. Misalkan dibandingkan dengan sekuens pada kelinci yang sama sama
memiliki sekuens phoshoglucomutase.

Untuk mendapatkan hasil pencarian BLAST yang asli, potongan kata yang
memiliki nilai T diatas 18 yang digunakan sebagai potongan kata yang akan
melakukan pemanjangan pensejajaran. Nilai T diperoleh dengan menggunakan
matriks penilaian. Matriks BLOSUM 62 adalah salah satu matriks default yang
digunakan untuk pencarian protein. Penyelarasan diperluas ke dua arah sampai nilai
penyelarasan menurun nilainya. Sebagai contoh, perhatikan keselarasan berikut
antara A. thaliana dan phophoglucomutase otot kelinci:

Garis tengah memberikan informasi berikut. Sebuah surat menunjuk sebuah


identitas (atau kesamaan tinggi) di antara dua urutan. Sebuah "+" berarti dua urutan
serupa namun tidak terlalu mirip. Jika tidak ada simbol yang diberikan di antara dua
urutan, maka substitusi non-serupa telah terjadi. Pensejajaran yang nilai T nya tidak
mengalami penurunan kemudian dibandingkan dengan skor yang diperoleh dengan
pencarian acak. Keselarasan yang nilainya di atas cutoff disebut High Scoring
Segment Pair (HSP). Setelah proses penyelarasan ini selesai untuk sebuah query
dan setiap urutan subjek dalam database, sebuah laporan dihasilkan. Laporan ini
menyediakan daftar keberpihakan (ukuran default 50) dengan nilai lebih besar dari
nilai cutoff S.
Untuk setiap alignment yang dilaporkan, sebuah Expect (e) Value dihitung
dan juga dilaporkan. Nilai ini adalah fungsi dari nilai S dan ukuran database. Sebuah
nilai e dari 1 berarti bahwa satu keselarasan menggunakan kueri ukuran ini akan
menghasilkan nilai S dalam nilai database ini. Seperti yang dapat Anda bayangkan,
nilai e -10 (= 1x10-10) berarti bahwa jauh lebih tidak mungkin bahwa kesempatan
acak mengarah pada keselarasan saat ini dibandingkan dengan keselarasan dengan
nilai e 1. Nilai harapan sering dianggap sebagai sebuah probabilitas Dengan kata
lain, probabilitas untuk mencapai nilai nilai ini dengan menggunakan urutan
panjang ini terhadap database dengan ukuran ini sama dengan nilai harapan. Oleh
karena itu, nilai e yang lebih rendah berarti bahwa keselarasan signifikan pada
tingkat probabilitas tertentu. Penting agar Anda mencatat bahwa nilai harapan
spesifik untuk database dengan ukuran tertentu. Artinya, jika Anda melakukan
penyisipan BLAST Anda di kemudian hari, nilai e Anda mungkin berubah karena
ukuran database telah berubah.

Secara umum, jika nilai e value nya -30, dapat dipastikan bahwa sekuens
yang diuji merupakan sekuens yang homolog dengan sekuens dari database yang
disejajarkan. Selanjutnya, nilai e -5 sering dianggap cukup signifikan saat
menganotasi genom. Contoh di atas menggambarkan proses penggunaan query
protein untuk mencari keberpihakan dalam database protein. Keseluruhan proses
BLAST yang sudah dijelaskan adalah sama dapat digunakan untuk nukleotida

Seluruh proses BLAST yang dijelaskan di atas sama untuk pencarian


nukleotida kecuali ukuran kata default adalah sebelas dan matriks penilaian yang
berbeda diterapkan. Matriks penilaian digunakan untuk mendapatkan nilai S. Untuk
nukleotida, ini sederhana; Setiap pertandingan identik diberi nilai yang sama, dan
semua ketidakcocokan diberi skor penalti (negatif).

Menurut Pertsemlidis dan Fondon (2001), pada algoritma BLAST terdapat


tiga langkah yang digunakan, yakni pada langkah pertama, BLAST akan menyaring
daerah sekuens dengan kompleksitas rendah (misalnya seperti pengulangan urutan
CA) dan menghapusnya dari urutan kueri. Kompleksitas komposisi rendah atau
perulangan periodik pendek dapat menghasilkan hasil statistik yang signifikan
namun secara biologis tidak menarik. Penyaringan dan pemindahan ini dapat
dikontrol dengan bendera -F dari versi BLAST yang berdiri sendiri dan dengan
kotak centang di versi web. Selanjutnya, BLAST menghasilkan daftar semua urutan
singkat, atau kata-kata, yang membentuk kueri (Gambar 4a).

Gambar 4. Algoritma BLAST. (a) dengan urutan kueri sekuens sepanjang


“L”, BLAST mendapatkan daftar kata dengan panjang w = 3 karakter. (b) daftar
kata yang memiliki skor tinggi dibandingan dengan databaseurutan dan
pencocokan hasil identifikasi. (c) Untuk setiap kata yang cocok atau sesuai, proses
pensejajaran mengalami pemanjangan dari kedua arah untuk mendapatkan skor
yang lebih tinggi dibandingkan skor ambang S.

Panjang kata default adalah 3 dan 11, untuk urutan asam amino dan urutan
nukleotida, masing-masing, dan dapat disesuaikan dengan menggunakan bendera -
W dalam versi yang berdiri sendiri. Langkah kedua, BLAST akan menelusuri target
database urutan untuk mencari kecocokan yang sama persis dengan daftar kata yang
dihasilkan (Gambar 4b). Jika ditemukan kecocokan, itu digunakan untuk
menaburkan kemungkinan keselarasan antara query dan sekuens yang ada di
database. Pada langkah ketiga, metode BLAST mencoba melakukan pemanjangan
dari usaha menyelaraskan bagian – bagian atau kata yang cocok di kerua arah,
selama skornya terus mengalami peningkatan (Gambar 4c). Hasil penyelarasan
disebut dengan highscoring pair (HSP).

Selanjutnya, BLAST menentukan apakah setiap skor yang ditemukan oleh


salah satu metode di atas bernilai lebih besar daripada skor cutoff tertentu S,
ditentukan secara empiris dengan memeriksa kisaran skor yang diberikan dengan
membandingkan urutan acak dan kemudian memilih nilai yang secara signifikan
lebih besar. Pasangan skor maksimal, atau MSPs, dari keseluruhan database
diidentifikasi dan terdaftar. Akhirnya, BLAST menentukan signifikansi statistik
setiap skor, pada awalnya dengan menghitung probabilitas bahwa dua urutan acak,
satu panjang dari urutan kueri dan yang lainnya panjang dari database (jumlah dari
semua urutan database) dengan Komposisi yang sama (nukleotida atau asam
amino) bisa menghasilkan skor yang dihitung. Terkadang, dua atau lebih pasangan
segmen dapat dibuat menjadi penyelarasan yang lebih panjang. Dalam kasus
tersebut, penilaian gabungan dari signifikansi dibuat oleh salah satu dari dua
metode yaitu: metode Poisson didasarkan pada asumsi bahwa probabilitas dari
beberapa skor lebih tinggi ketika skor terendah dari setiap himpunan lebih tinggi;
Metode sum-of-scores menghitung probabilitas jumlah skor. Versi sebelumnya
BLAST menggunakan metode Poisson, sedangkan versi yang lebih baru, termasuk
BLIM BLIM dan BLAST gapped, gunakan metode sum-of scores.
DAFTAR PUSTAKA

Canduri, F., dan Dini, W. J. S. (2017). Bioinformatics: an overview and its


applications. GMR

Pertsemlidis, A., dan Fondon, J. W. (2001). Having a BLAST with bioinformatics


(and avoiding BLASTphemy). Genome Biology 2001, 2(10):reviews2002.1–
2002.1

Pevsner J (2015). Bioinformatics and functional genomics, 3rd ed. John Wiley &
Sons Inc, Chichester.

Phil McClean. (2004). BLAST : Basic Local Alignment Search Tool