Kuliah 02 Biological - Databases
Kuliah 02 Biological - Databases
Bioinformatika:
Pengenalan Basis data Biologi
5
Basis data Object-oriented
Dalam bahasa pemrograman berorientasi objek, objek
dapat dianggap sebagai unit yang menggabungkan
data dan rutinitas matematika yang bekerja pada data.
Database terstruktur sedemikian rupa sehingga objek
dihubungkan oleh satu set pointer yang
mendefinisikan hubungan yang telah ditentukan
sebelumnya antara objek
Bahasa pemrograman yang biasa digunakan utk
menyusun Basis data, seperti C++.
6
Cth Basis data Object-oriented
• Lebih flexksibel
• Kurang memiliki dasar matematika yang kuat dibandingkan basis data relasional
8
Basis data Biologi
9
Basis data Biologi
Masih menggunakan ketiga jenis model penyusunan basis data di atas
Berdasarkan isinya, Basis data biologi dapat digolongkan:
Basis data Primer
Dokumen data biologi asli yang diunggah oleh para peneliti.
Cth: Gen Bank dan Protein Data Bank (PDB)
Basis data Sekunder
Data yg sudah diproses dgn komputer. Sudah ada informasi tambahan secara manual.
Database urutan protein yang diterjemahkan berisi anotasi fungsional termasuk dalam
kategori ini.
Cth: SWISS-Prot ; Protein Information Resources (PIR)
Basis data Khusus (Specialized database)
Memenuhi kebutuhan penelitian tertentu.
Cth: Flybase, HIV sequence database, dan Ribosomal Database Project
Basis data Primer
Basis data terbesar yang menyimpan data mentah urutan asam
nukleat yang dihasilkan dan diunggah para periset seluruh dunia:
GenBank,
11
Basis data Primer (2)
Saat ini sebagian besar jurnal ilmiah mensyaratkan pengunggahan ke
GenBank, EMBL, atau DDBJ untuk menjami data molekular fundamental
tersedia secara bebas.
Ketiga basis data saling bertukar data dan membentuk International
Nucleotide Sequence Database Collaboration.
Walau datanya sama, ada sedikit perbedaan format penyajian data.
Hanya PDB yang menyajikan 3-D struktur makromolekul biologi, yaitu
koordinat atom makromolekul (baik protein maupun asam nukleat) yang
didapatkan ndari kristalografi x-ray dan NMR.
format flat file digunakan untuk menyajikan nama protein, penemu, detail
percobaan, struktur sekunder, kofaktor, dan koordinat atom.
Web interface PDB juga menyajikan piranti untuk manipulasi citra
sederhana.
12
Basis data Sekunder
13
Basis data dalam Bioinformatika
Basis data Sequence
Sequence analysis
Functional genomics
sequencing errors
frame-shifts
Contaminated with sequences from cloning
vectors
Exceptional Care for sequences produced before
the 1990s
Redundancy
repeated submission
GenBank (US)
▪ (http://www.ncbi.nlm.nih.gov/Genbank/index.html)
EMBL (Europe)
▪ (http://www.ebi.ac.uk/embl/)
DDBJ (Japan)
▪ (http://www.ddbj.nig.ac.jp/)
Primary basis datas
http://www.ebi.ac.uk/embl/Services/DBStats/
www.ncbi.nlm.nih.gov
ENTREZ
NCBI (USA) National Center for Biotechnology Information
Manually curated
Phylogenetic-based annotations
All 3 now combining efforts to form UniProt
(http://www.uniprot.org)
Low-annotation basis datas
ESTs (Expressed Sequence Tags)
Low quality sequences generated by high
-volume sequencing the 3’ or 5’ end of cDNAs
http://www.rcsb.org/pdb/
MMDB (Molecular Modelling basis data)
Scan Prosite
(http://www.expassy.org/prosite) and PRINTS
(http://bioinf.man.ac.uk/dbbrowser/PRINTS/)
Store conserved motifs occurring in nucleic acid or
protein sequences
Motifs can be stored as consensus sequences,
alignments, or using statistical representations
such as residue frequency tables
Ribosomal RNA basis datas
RDP (Michigan State University, USA)
http://rdp.cme.msu.edu/html/
rRNA basis data (University of Antwerp, Belgium)
http://rrna.uia.ac.be/
ribosomal RNA sequences are pre-aligned
according to their secondary structure
Usage: creating data sets for molecular phylogeny,
especially for microbial taxonomy and identification
Immunological Sequence basis datas
http://imgt.cnusc.fr:8104/
Results of microarray experiments measuring the change in specific mRNA content under
certain conditions
2D gel electrophoresis images representing the protein content of a cell or tissue under
specific conditions
MEDLINE (http://ncbi.nlm.nih.gov/PubMed/)
HighWire (http://www.highwire.org)
Variation
dbSNP (http://ncbi.nlm.nih.gov/SNP/)
HGBase (http://hgbase/interactiva/de)
Metabolic pathways
KEGG (http://kegg.genome.ad.jp/kegg/)
WIT (http://wit.mcs/anl.gov/WIT2)
Organisms and nomenclature
Mendel (http://mbclserver.rutgers.edu/CPGN)
Methods for Accessing Data
local installation
screen scraping
BioPerl
FTP sites
Local Installations
SRS
Ensembl
www.ensembl.org
Screen Scraping
URL spoofing
html parsing
Requirements
html module
www.bioperl.org
SWISSPROT
European/Swiss Bioinformatics Institute 1986
Often by the people who have been working with the gene
E.g., [AC]-x-V-x(4)-{ED}
Interpreted as:
Sequence Coverage
11912 families
110800 Domains
CATH
124 folds
226 Superfamily
14473 Domain
Using basis datas
with the FASTA Format
mcaaqrsaaalaaaaprtvyafsarplaggepfnlsslrgkvllienvak
slcgttvrdytqmndlqrrlgprglvvlgfpcnqfghqenakneeilncl
yvrpgggfepnfmlfekcevngekahplfaflrevlptpsddatalmtdp
kfitwspvcrndvswnfekflvgpdgvpvrrysrrfltidiepdietlls
qgasa
Analyzing Results
Using PERL Scripts
basis data servers now do:
PERL Tutorial
PDB Format
The PDB format consists of a collection of fixed format records that describe :
Atomic coordinates,
Hydrogen bonding
Biological assemblies
Active sites
The challenge
(Boguski, 1999)
In 1995, the number of genes in the basis data started to exceed the number of
papers on molecular biology and genetics in the literature!
Data types
primary data sequence primary basis data
AATGCGTATAGGC DNA
DMPVERILEALAVE amino acid
Contoh:
– NCBI Genbank (sekuen DNA dan translasinya)
– UniProt/SwissProt (sekuen protein)
– PDB (struktur kristal protein dan makromolekul)
– dbEST (potongan-potongan sekuen mRNA)
– dbGSS (survei sekuen genom)
– Trace Archive (data hasil sekuensing DNA)
– SAGEMap, GEO (data eksperimen microarray)
basis data sekunder
• Knowledge repository
• Data bersumber dari basis data primer/utama
• Data dianotasi oleh kurator (umumnya manual)
• Non-redundant
• Ada jeda waktu untuk sinkronisasi dengan sumber
basis data primer
Contoh:
– NCBI RefSeq (sekuen DNA dan translasinya)
– UniProt/TrEMBL (sekuen protein)
– Ensembl (sekuen genom eukaryotes)
– MMDB (struktur kristal protein dan makromolekul)
basis data komposit
Contoh:
– EuPathDB (basis data patogen eukaryotes, seperti Plasmodium, dsb)
– MitoMAP (basis data mapping genome mitochodria)
– Mammalian ncRNA (sekuen ncRNA dari mamalia)
– REBASE (basis data enzim restriksi)
– SGD (basis data jamur/fungi)
– KEGG (basis data pathway, dsb)
– HIVdb (basis data resistansi HIV-1)
– Reactome (basis data pathway)
– Gramene (comparative resources untuk tanaman)
– PlantGDB (basis data genome tanaman)
basis data literatur
• PubMed (http://www.ncbi.nih.gov/pubmed)
– Jurnal internasional bidang ilmu alam & kedokteran
– Abstrak, Penulis, Jurnal