Pertemuan 2

PERTEMUAN 1
INTRODUCTION TO BIOINFORMATIC
Bioinformatika merupakan cabang ilmu dari 2 sudut pandang
- Bioinformatika semua tools bioinformatika yang bisa digunakan untuk
menanngkap/menginterprestasikan, menganalisa pada data biological
- Bidang interdisciplinary yang memanfaatkan ilmu computer, matematika, fisika, dan biologi
Biologist  orang yang focus pada collect molecular data : DNA dan protein sequence, gene expression,
etc
Computer scientist  yang paham pada bidang (math, statistica, etc). develop tools, softwares,
algorithms, untuk store dan analisis data
Bioinformatika  study biogical questions dengan analisis data molekul
SEJARAH BIOINFORMATIKA
1950-1970 : Asal
Analisis protein adalah titik awalnya
Pada awal 1950-an, tidak banyak yang diketahui tentang asam deoksiribonukleat (DNA). Statusnya
sebagai pembawa molekul informasi genetic masih kontroversial pada waltu itu.
Pada tahun 1953 double-helix structure DNA diselesaikan oleh Watson, Crick dan franklin
Pada akhir 1950-an. Selain kemajuan besar dalam penentuan struktur protein melalui kristalografi,
ururta pertama dari protein, insulin, diterbitkan.
Dayhoff : bioinformatika pertama
Margaret Dayhoff (1925-1983) adalah fisikawan Amerika kimiawan yang mempelopori penerapan
komputasi metode untuk bidang biokimia.
Bersama Robert S. Ledley, seorang fisikawan yang juga berusaha untuk membawa sumber daya
komputasi ke biomedis masalah, baik menggabungkan keahlian mereka dan dikembangkan
“COMPROTEIN “ program computer lengkap untuk IB, 7090” diranccang untuk menentukan struktur
prime protein menggunakan data sekuensing peptide Edman dari tahun 1958-1962
Sisilah kehidupan yang dibantu computer
Pada tahun 1963, Zuckerkandl dan Pauling menciptakan istilah “paleogenetika” cabang baru dari
biologi evolusioner yang mencoba menyusun kembali sejarah evolusi protein melalui pewarisan dan
perubahan halus waktu, dan dalam proses yang sama, menyusun kembali urutannya dari “nenek moyang”
mereka. Mengamati perubahan bahasa ibu
Keduanya mengamati bahwa protein ortologi dari organisme vertebrata, seperti hemoglobin,
menunjukkan tingkat kesamaan yang terlalu tinggi selama waktu evolusi yang lama untuk menjadi hasil
dari evolusi atau konvergen
1970-1980 Pergesaran paradigm dari protein ke analisis DNA
Menguraikan bahasa DNA : kode geneitk
Spesifikasi untuk setiap makhluk hidup (lebih tepatnya, 'proteinnya') dikodekan dalam susunan
nukleotida spesifik dari molekul DNA.
Oleh karena itu, jika seseorang dapat mengetahui bagaimana sel menerjemahkan 'bahasa DNA' ke dalam
rangkaian polipeptida, ia dapat memprediksi struktur utama dari setiap protein yang dihasilkan oleh suatu
organisme dengan 'membaca DNA-nya'.
Pada tahun 1968, semua 64 kodon kode genetik diuraikan, DNA sekarang 'dapat dibaca', dan pencapaian
terobosan ini membutuhkan cara sederhana dan terjangkau untuk mendapatkan urutan DNA.
1980-1990 Kemajuan parallel dalam biologi dan ilmu computer
Metode molekuler untuk menargetkan dan memperkuat gen tertentu
Jackson, Symons dan Berg (1972) menggunakan endonuklease restriksi dan DNA ligase untuk
memotong dan menyisipkan DNA virus SV40 sirkular ke dalam DNA lambda, dan kemudian mengubah
Escherichia coli sel dengan konstruksi ini
Ketika molekul DNA yang dimasukkan direplikasi dalam organisme inang, itu juga diperkuat sebagai:
E. coli kultur tumbuh, menghasilkan beberapa juta salinan dari satu sisipan DNA
Eksperimen ini memelopori isolasi dan amplifikasi gen secara independen dari organisme sumbernya
(misalnya, SV40 adalah virus yang menginfeksi primata)
Akses ke computer dan perangkat lunak khusus
Sebelum tahun 1970-an, sebuah 'komputer mini' cukup memiliki dimensi dan berat kulkas rumah
tangga kecil, tidak termasuk terminal dan unit penyimpanan. Batasan ukuran membuat akuisisi komputer
menjadi rumit bagi individu atau kelompok kerja kecil.
Pada tahun 1984, Grup Komputer Genetika Universitas Wisconsin menerbitkan rangkaian perangkat
lunak 'GCG' eponymous, kumpulan 33 alat baris perintah untuk memanipulasi urutan DNA, RNA atau
protein. GCG dirancang untuk bekerja pada komputer mainframe skala kecil (DEC VAX-11). Ini adalah
koleksi perangkat lunak pertama yang dikembangkan untuk analisis urutan.
1990-2000 : genomic, bionformatika strukturan, dan jalan raya informasi
Fajar era genomic
Pada tahun 1995, urutan genom lengkap pertama dari organisme hidup bebas (Haemophilus influenzae)
diurutkan oleh The Institute for Genomic Research (TIGR) yang dipimpin oleh ahli genetika J. Craig
Venter
Namun, titik balik yang memulai era genomik, seperti yang kita ketahui sebenarnya, adalah publikasi
genom manusia pada awal abad ke-21.
Sekuensing seluruh genom membutuhkan jutaan dolar dan tahun untuk mencapai penyelesaian, bahkan
untuk genom bakteri. Sebaliknya, pengurutan genom manusia dengan teknologi 2018 akan menelan
biaya $1000 dan memakan waktu kurang dari seminggu
Bioinformatika online
Pada awal 1990-an Conseil Européen pour la Recherche Nucléaire (CERN) memprakarsai World Wide
Web, sebuah sistem informasi global yang terbuat dari dokumen yang saling terkait. Teknologi ini juga
menyebabkan terciptanya banyak sumber daya bioinformatika yang dapat diakses di seluruh dunia.
Database urutan nukleotida pertama di dunia, EMBL Nucleotide Sequence Data Library (yang
mencakup beberapa database lain seperti SWISS-PROT dan REBASE), tersedia di Web pada tahun 1993
https://www.ncbi.nlm.nih.gov . Database terkenal ada 3 : EMBL, NCBI, DDBJ
Situs web NCBI yang terkenal dibuat tersedia online pada tahun 1994 (termasuk alat BLAST, yang
memungkinkan untuk melakukan penyelarasan berpasangan secara efisien). Kemudian muncul
pembentukan beberapa database utama yang masih digunakan sampai sekarang: Genom (1995), PubMed
(1997) dan Human Genome (1999)
2000-2010 High-throughput bioinformatics 
Urutan generasi kedua
Sekuensing DNA didemokratisasi dengan munculnya pengurutan generasi kedua (juga disebut
pengurutan generasi berikutnya atau NGS) yang dimulai dengan teknologi yrosequencing '454'
Teknologi ini memungkinkan pengurutan ribuan hingga jutaan molekul DNA dalam satu mesin berjalan,
sehingga meningkatkan lagi tantangan komputasi lama
Ada begitu banyak alat yang berhubungan dengan urutan. Oleh karena itu penguasaan alat-alat baru
harus dibenarkan dengan peningkatan waktu komputasi atau hasil dengan kualitas yang jauh lebih baik
2010-Hari ini : Prespektif sekarang dan masa depan
Mendefinisikan dengan jelas profesi bioinformatika Evolusi terbaru terkait bioinformatika adalah
munculnya peneliti yang mengkhususkan diri dalam bidang ini: ahli bioinformatika. Bahkan setelah lebih
dari 50 tahun bioinformatika, masih belum ada konsensus pasti tentang apa itu ahli bioinformatika
Apa yang pasti, bagaimanapun, adalah bahwa ada peningkatan yang signifikan dalam (i) alat yang mudah
digunakan, sering tersedia melalui server Web integratif seperti Galaxy, dan (ii) membantu komunitas
seperti SEQanswers dan BioStar. Ada juga kebutuhan eksplosif untuk ahli bioinformatika di pasar kerja
di sektor akademik, swasta dan pemerintah
NCBI (National Center Biotechnolgy International)

NCBI  pustaka bank DNA. Terletak di Amerika Bethesda, MD
Dibuat pada tahun 1988 sebagai bagian dari Perputakaan Nasional Kedokteran di NIH
- Membangun database publik
- Penelitian dalam biologi komputasi
- Kembangkan alat perangkat lunak untuk analisis urutan
- Menyebarkan informasi biomedis
Basis data dan layanan NCBI
- GenBank database urutan terbesar
- Akses publik gratis ke literatur biomedis
 PubMed Medline gratis
 PubMed Central akses online teks lengkap
- Entrez database molekuler dan literatur terintegrasi
- BLAST layanan pencarian urutan volume tertinggi
- VAST pencarian kesamaan struktur
- Software and Data base
Jenis database
- Primary database
 Kiriman asli oleh eksperimentalis
 Konten dikendalikan oleh pengirim
 Contoh: GenBank, SNP, GEO
- Derivative database
 Dibangun dari data primer
 Konten yang dikendalikan oleh pihak ketiga (NCBI)
 Contoh: Refseq, TPA, RefSNP, UniGene, protein NCBI, struktur, conserved domain
GenBank : basis data urutan utama NCBI
- Basis data urutan nukleotida aja
- Arsip di alam :
o Historis
o Reflektif dari sudut pandang pengirim (Subjektif)
o Berulang
- Data genbank
o Pengajuan langsung (catatan tradisioal)
o Pengiriman batch (EST, GSS, STS)
o Akun FTP (data genom)
- Tiga database yang berkolaborasi
o Genbank
o DNA Database of Japan (DDJB)
o European Molecular Biology Laboratory (EMBL) database
International Nucleotide Sequence Database Collaboration (INSDC)
Traditional GenBank Record
Accession Ex U07418  stable, reportable, universal. Kalau mau search menggunakan U0
Version (track change in sequence) EX GI (Acess code Internal NCBI)
PRIMARY VS DERIVATE SEQUENCE DATABASE
Primary sequence  sequence yang utama.
Refseq : basis data urutan derivative NCBI
- Transkrip dan protein yang dikuratori
o ditinjau
o manusia, tikus, tikus, lalat buah, ikan zebra, genom mikroba arabidopsis (protein), dan
banyak lagi
- Transkrip model dan protein
- Wilayah Genom Terkumpul (contigs)
o gen manusia
o genom tikus
o genom tikus
- Catatan kromosom
o Gen manusia
o mikroba
o organel
PERTEMUAN 3
DNA SEQUENCING
DNA : structure dan fungsi

Dna tersusun aatas monomer-monomer nukloetida yang terdiri dari 3 bagian :
- deoxyribose (gula yang kehilangan 1 molekul OH)
- phosphate (tulang punggung)
- nitrogen base (A-T, C-G)
ikatan-ikatan tersebut membentuk double-helix DNA 5’-3’
jika genetic disusun secara keseluruhan dari yang paling atas :
 Genetic  keseluruhan materi genetic makhluk hidup
 Chromosome  pilinan dari DNA yang dimampatkan sedekimian rupa sehingga menjadi
kompak
 DNA
 Gen  unit terkecil DNA. Gen merupakan bagian yang menyandikan dari suatu protein.
GENOM, total materi genetic di dalam organisme manusia yang terdiri dari 23 pasang kromosom
Gen bagian dari DNA yang mengkode protein, dapat menentukan karakteristik makhluk hidup ( warna
mata, rambu ikal, warna kulit, dll)
STUDI DNA (GENETIKA)
- Potensi gen yang besar seperti ketahanan terhadap kondisi berat, metabolit sekunder , dll)
- Mutasi pada DNA dapat dikonfirmasi (varian SARS-Cov-2 karena mutasi, kemanjuran vaksin)
- iagnosis dini penyakit keturunan
- Obat presisi
- Diet pribadi (nutrigenomik & nutrigenetik)
- Industri bioteknologi (hormon, enzim)
- Evolusi studi
- Konservasi keanekaragaman hayati Indonesia
PENGURUTAN DNA
- Pengurutan DNA adalah proses untuk menentukan urutan asam nukleat
- Sekuensing dilakukan dengan pengurutan DNA, yang berbeda dalam prinsip pengurutannya.
- Saat ini, setidaknya ada tiga kategori pengurutan DNA yang digunakan di seluruh dunia:
o Generasi pertama: Sanger sequencer
o Generasi kedua: Illumina (Next gen-sequencing)
o Generasi ketiga: PacBio dan Oxford Nanopore
SANGER SEQUENCER
- Berdasarkan nukleotida pemutusan rantai
- Popular digunakan di banyak lab di seluruh dunia
Keuntungan
- Panjang baca hingga 1 kilo pasang basa (kbp)
- Akurasi tinggi membaca hingga 99,99% persequence
Kekurangan
- Biaya per base lebih tinggi
- Output rendah
- Perlu proses PCR
ILUMINA
- Berdasarkan pengurutan dengan sintesis
- Mesin NGS yang paling banyak digunakan diseluruh dunia
Keuntungan
- Akurasi membaca tingi
- Harga murah perbase
- Throughput tinggi karena pengurutan massif parallel sequencing
Kekurangan
- Urutan pembacaan pendek 50-300 kpb
- Sehingga menyebabkan banyak celah (gap) dalam proses perakitan genom
TEKNOLOGI OXFORD NANOPORE (ONT)
- Berdasarkan urutan real time sequencing
- Digunakan oleh banyak lab diseluruh dunia
Keuntungan
- Perangkat kecil dan portable
- Pembacaan panjang hingga 4 mpb
- Harga sekuensing murah
- Throughput tinggi
- Keakuratan membaca semakin baik
Kekurangan
- Akurasi pembacaan tunggal lebih rendah
PERTEMUAN 6
Alligment  menyusun urutan primer DNA, RNA atau protein untuk mengidentifikasi daerah kesamaan
yang mungkn=in berasal dari fungsional, structural atau hubungan evolusi antara urutan
Fungsi mengetahui alligment :
- Digunakan scara luas dalam bioinformatika
- Protein dan gen memiliki panjang yang berbeda walaupun ada kemiripan karena kesalahan dalam
pengurutan dan variasi genetic antara spesies
- Identifikasi peristiwa evolusi, penyisipan, penghapusan dan penggantian
- Tujuaan untuk “allign” urutan sehingga jumlah mutasi diminalkan
Sequence alligment tell us tentang :
- Fungsi atau aktivitas gen/protein baru
- Struktur atau bentuk protein baru
- Lokasi atau lokasi pilihan protein
- Stabilitas gen atau protein
- Asal gen atau protein
- Asal atau filogeni suatu organel
- Asal atau filogeni suatu organisme
Dotplot : visualisasi keselarasan

1. Ambil dua kata bahasa inggris
THISSEQUENCE and THATSEQUENCE
2. Tempatkan dua barisan pada sumbu vertical dan horizontal graph
3. Letakkan titik dimanapun ada kecocokan
4. Garis diagonal adalah identitas
kesalarasan local
Melihat kesamaan
- % identitiy  jumlah DNA/RNA atau asam amibo identic
- % similary  fungsinya sama (biochemical equivalence)
- Substitusi matriks
o Nilai yang diteiapkan berdasarkan probabilitas substitusi
o Skor keselarasan
Matriks PAM dan BLOSUM untuk barisan AA
Sebagian besar matriks penyelarasan protein diturunkan secara empiris:
o Matriks Skor PAM
 membandingkan panjang penuh protein yang terkait erat
 Mengukur frekuensi dari semua kemungkinan pasangan substitusi
o Matriks Skor BLOSUM
 membandingkan daerah protein yang sangat terkonservasi
 blok
mensckor alligment harus memperhitungan
1. substation (pergantian)
2. gaps
gap penalities
- mulai dari gap yang baru
- memperpanjang kesenjangan yang adaa
score all, pilih score yang paling tinggi
ALIGMENT
- menemukan daerah dari identitas urutan atau kesamaan
- memasukan celah untuk mencerminkan indel
- menskor kemungkinan keberpihakan untuk menemukan keselarasan optimal dengan aliment
Alat yang umum untuk alligment
- BLAST untuk mengindetifikasi urutan yang serupa, diberikatan urutan query
- ClustalW untuk menyelaraskan dua atau lebih urutan di seluruh panjnangya
BLAST YOUR SEQUENCE
- Menggunakan matriks PAM atau BLOSUM
- membagi urutan kueri menjadi short strings, yang disebut kata
- mencari melalui database untuk menemukan urutan subjek yang mengandung kata-kata yang
mirip
- Ketika menemukan kata-kata yang mirip, itu meluas dan menilai keselarasan
- Output terdiri dari semua urutan subjek yang sejajar dengan kueri pada atau di atas nilai ambang
batas
- Jika tidak ada kata yang mirip, maka tidak ada keselarasan
Semakin kecil angka word size ya maka semakin banyak kemungkinan match y
HSPs adalah wilayah Aligned
- Pasangan segmen dengan skor tinggi = kecocokan kata asli ditambah ekstensi
 skor tinggi = skor keselarasan di atas ambang batas
 segmen = wilayah urutan kueri yang disejajarkan dengan subjek
 pair = keselarasan antara dua urutan (query dan subjek)
- BLAST sering menghasilkan beberapa HSP pendek daripada satu wilayah selaras
BLAST results report local alignments
Kueri adalah seluruh urutan protein (posisi 1 hingga 749)
Skor, Nilai-E, Identitas, Positif, Kesenjangan

Pertemuan 2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 2

Diunggah oleh

Hak Cipta:

Format Tersedia

PERTEMUAN 1

NCBI (National Center Biotechnolgy International)

DNA : structure dan fungsi

Dotplot : visualisasi keselarasan

Anda mungkin juga menyukai