Introduo
Como parte do PGH, estudos paralelos tm sido feitos aqui no Brasil como o do organismo
Xylella fastidiosa financiado pela FAPESP e do Trypanosoma cruzi realizado pelo grupo de
pesquisa do Departamento de Bioqumica e Biologia Molecular (DBBM) da Fundao
Oswaldo Cruz (FioCruz)[Fio00].
Entre os diversos assuntos pesquisados at agora destacam-se o armazenamento e o acesso
aos dados de biologia molecular em bancos de dados, em particular as sequncias de cidos
nuclicos e aminocidos e suas respectivas anotaes, e os algoritmos para anlises destes
dados.
Com o avano da tecnologia, existem cada vez mais sequncias e anotaes [Doo90] e no
possvel determinar a quantidade de informaes que ainda ser obtida de diversos
organismos com o andamento do projeto genoma. Isso torna fundamental o uso de um banco
de dados bem estruturado que permita o armazenamento, o acesso e o processamento destas
informaes de forma simples e eficiente.
Os bancos de dados de genoma representam hoje uma das principais ferramentas de suporte
para os bilogos moleculares e geneticistas. de fundamental importncia para a pesquisa
nesta rea realizar cadastros de sequncias e de algumas anotaes relacionadas, e realizar
consultas nestes bancos a fim de levantar dados para anlises biolgicas. Entre estas anlises
possvel destacar a comparao de sequncias e o descobrimento de novos genes, funes e
caractersticas de uma nova sequncia. Para que estes bancos de dados possam ser realmente
utilizados necessrio tratar de vrios pontos importantes. Entre eles possvel destacar:
Existe ainda o problema da integrao das bases de dados de genoma Atualmente, diversos
centros de pesquisa tm feito esforos para cadastrar sequncias de diferentes organismos.
Assim, existem diversos bancos de dados, cada um com um modelo de dados distinto e
utilizando diferentes tecnologias, sobre os quais os usurios tm necessidade de interagir.
Alm disso, h vrios estudos para a obteno de algoritmos que faam anlises eficientes em
todo este volume de dados. Um dos problemas mais importantes para anlises destes dados
o de comparao de sequncias, pois ela a base para vrias outras manipulaes mais
elaboradas [MS94]. possvel citar duas principais famlias de algoritmos que realizam
comparaes de sequncias armazenadas em bancos de dados, a FAST [Pea91] e a BLAST
[AGM+90].
Este trabalho tem por objetivo apresentar os principais bancos de dados de genoma, as
caractersticas de cada um e os principais algoritmos envolvidos nas anlises de sequncias
em uma dada base. Em particular, ser estudada a integrao destas bases heterogneas de
forma a ser possvel responder a determinadas consultas distribudas.
O texto est organizado da seguinte forma: na seo 2 so apresentados conceitos de biologia
celular e molecular considerados importantes para o entendimento deste trabalho. A seo 3
em seguida descreve as principais aplicaes de informtica na rea de biologia hoje em dia, a
saber, os bancos de dados e os algoritmos utilizados. apresentada na seo 4 uma
classificao das implementaes que visam a integrao dos bancos de dados aplicados
biologia. J a quinta seo apresenta as caractersticas e funcionalidades de alguns dos
principais bancos de dados existentes e tambm de esforos de integrao. Finalmente
encerra-se com uma seo com comentrios finais e trabalhos em andamento e futuros.
Esta seo tem por objetivo apresentar alguns conceitos bsicos da rea de biologia celular e
molecular, visando facilitar a compreenso do texto como um todo e foi baseado em [Rob85].
Protenas
As unidades constituintes das protenas so os aminocidos. Existem vinte tipos de
aminocidos, representados pelos caracteres A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T,
V, W, Y.
bases diferentes, enquanto que as protenas contm 20 diferentes aminocidos. Dessa maneira,
o cdigo lido em grupos de trs bases, sendo trs o nmero mnimo necessrio para a
codificao de 20 aminocidos. Veja na Figura 5 a ilustrao do cdigo gentico.
Por volta de 1964 todos os 64 cdons possveis haviam sido decifrados. 61 cdons
correspondem a aminocidos e 3 representam sinais para a terminao das cadeias
polipeptdicas. Sabendo que existem somente 20 aminocidos, fica evidente que vrios trios
podem codificar para o mesmo aminocido; isto , alguns dos trios so sinnimos. A prolina,
por exemplo, codificada por CCU, CCA, CCG e CCC.
Mutao
Outro conceito importante da biologia o de mutao, que uma mudana no contedo do
DNA. Os tipos de mudanas podem ser de substituio de base, insero de base, remoo de
base, e rearranjo ou troca na ordem de segmentos de base. Estas mudanas podem ser
divididas em classes dependendo da escala com que elas ocorrem. Algumas mudanas so
fenmenos localizados, enquanto outras ocorrem um milho de vezes seguidas.
Genoma
O genoma o contedo de todo DNA presente em uma clula, incluindo todos os genes e
todas as regies intergnicas.
Sequncia e Biossequncia
O termo sequncia finita de caracteres, ou simplesmente sequncia ou cadeia, ser usado
no sentido restrito de uma sequncia finita de caracteres de um dado alfabeto S. Assim, se S =
{A,C,T,G}, ento ATTCCG e CCGA so sequncias. Uma biossequncia [MS94] uma
sequncia onde o alfabeto S = {A,C,G,T} (DNA) ou S = {A,C,G,U} (RNA) ou S formado
pelos 20 aminocidos citados anteriormente.
As biossequncias podem ser tratadas como cadeias de texto. Por este motivo, os bilogos
moleculares podem colet-las e guard-las em arquivos texto. Foi isso o que foi feito no incio
dos processos de sequenciamento [Doo90]. No entanto, com o avano da tecnologia, a
produo de biossequncias aumentou e, consequentemente, os dados armazenados em
arquivos textos cresceram muito, tornando sua manuteno e a dos programas de aplicao
relacionados muito trabalhosa. Diante disto os bilogos moleculares comearam a usar
Sistemas Gerenciadores de Bancos de Dados (SGBD), mais apropriados para gerenciar
grandes volumes de dados.
Quando se comeou a armazenar, os dados eram obtidos atravs de publicaes em artigos
cientficos. Com o avano da tecnologia e, consequentemente, com o crescimento exponencial
do volume de biossequncias, tais dados passaram a ser submetidos aos bancos de dados
atravs da Internet [Doo90]. Isto possibilitou uma grande facilidade na submisso de
biossequncias aos bancos de dados, o que muito importante para que os bilogos possam
acessar e fazer suas anlises em novos dados mais rapidamente.
Atualmente os bancos de dados de biologia molecular (BDBM) utilizam sistemas de banco de
dados relacional, sistemas orientados a objetos e ainda existem alguns que nem propriamente
banco de dados so, utilizando apenas flat files [NK99].
difcil estimar o nmero de BDBM existentes. Hoje em dia existem no somente os bancos
de dados de sequncias de nucleotdeos (DNA) e de aminocidos (protenas), mas tambm
inmeros outros com informaes bem especficas, como organismos especiais (ex.:
Eukariotic [PPJ+00], Escherichia Coli [NK99] e Drosophilia [Fly99]), biossequncias
especficas (ex.: tRNA e rRNA), enzimas, mutaes, famlias de biossequncias (filogenia),
etc. Alm disso, j existem bancos que guardam estruturas tridimensionais das
biossequncias, como por exemplo o PDB [BWF+00].
possvel destacar os seguintes BDBM como os maiores atualmente: GenBank Sequence
Database [BML+00], EMBL Nucleotide Sequence Database [BBC+00], Genome Sequence
Database (GSDB) [HCF+00], Genome Database (GDB) [LCP+98], PIR (Protein
Identification Resource) - International Protein Sequence Database [BGH+00], e A.
Caenorhabditis elegans DataBase (ACeDB). Nestes bancos de dados esto armazenadas
anotaes relevantes, alm das prprias biossequncias.
Apresentaremos aqui alguns exemplos de bancos de dados de biologia molecular (BDBM) ,
suas caractersticas mais importantes e alguns algoritmos para anlises destes dados.
3.1
Exemplos de BDBMs
Existem inmeros BDBM, a seguir est uma lista com alguns dos mais importantes deles.
GenBank Sequence Database [BML+00]
Organizao responsvel: National Center for Biotechnology Information (NCBI) at the
National Library of Medicine (NLM), National Institutes of Healthy (NIH)
Informaes principais: Sequncias de nucleotdeos
URL: http://www.ncbi.nlm.nih.gov/Genbank/index.html
EMBL Nucleotide Sequence Database [BBC+00]
Organizao responsvel: EMBL OutStation - The European Bioinformatics Institute
Informaes principais: Seqncias de nucleotdeos
URL: http://www.ebi.ac.uk/embl/index.html
Genome Sequence Database (GSDB) [HCF+00]
Organizao responsvel: Department of Energy
Infrastructure -National Center for Genome Resources
(DOE)
Federated
Information
10
11
atacar o problema da redundncia onde sequncias similares foram agrupadas, desde que
fosse possvel inferir que uma delas era a origem das outras.
Os principais bancos de dados genricos que armazenam sequncias de nucleotdeos so
aqueles que compem o International Nucleic Acid Sequence Data Library, formado pelas
bases de dados denominadas de Genbank, DDBJ e EMBL. Estes bancos armazenam tambm
informaes sobre partes das sequncias que codificam molculas de protenas ou de RNA,
alm de anotaes que contm outras informaes biolgicas relevantes. Tais informaes so
anotadas no campo features. A descrio completa do contedo de tal campo pode ser
encontrada em http://ncbi.nlm.nih.gov/genbank/gbrel.txt.
Alm destes, outros bancos de dados especficos de um dado organismo tambm armazenam
informaes sobre sequncias, como por exemplo o AceDB e toda a famlia de bancos de
dados que baseada na sua arquitetura. A descrio completa da famlia de bancos de dados
ACeDB pode ser encontrada em http://genome.cornell.edu/acedoc/index.html .
Outros bancos de dados especializados (em determinadas clulas ou componentes, em
mutaes, em funes gnicas, etc.) tambm armazenam informaes de sequncias, como
por exemplo o Mitomap [KLB+97].
Sequncias de protenas
Os bancos de dados de sequncias de protenas armazenam alm da prpria sequncia,
informaes sobre a funo da protena no organismo. Tais bancos de dados tm tambm
como caracterstica a redundncia e inconsistncia das informaes sobre as sequncias
armazenadas.
O principal banco de sequncias de protenas o Swiss-Prot. Existe maior cuidado com a
qualidade da informao que includa neste banco, seu contedo no redundante e inclui
extensas anotaes sobre as sequncias. No entanto, este cuidado exige um intervalo de tempo
entre a incluso de uma sequncia nos bancos de nucleotdeos e sua correspondente traduo
para o Swiss-Prot. O banco que armazena esta traduo automtica o TrEMBL. Alguns
bancos de nucleotdeos tambm armazenam sequncias de protenas, como por exemplo o
Genbank.
Protenas
Os bancos de dados de protenas so especializados. O banco ENZYME e o banco LIGAND
armazenam informaes sobre enzimas. O banco PROSITE armazena documentaes acerca
de famlias de protenas. Existem outros bancos de dados de grupamentos de protenas
segundo diferentes critrios / algoritmos, como por exemplo o banco BLOCKS.
Os bancos de dados de sequncias de protenas contm links para estes bancos de dados, que
tm anotaes mais completas sobre cada uma.
Estruturas de protenas
Estes bancos de dados armazenam as representaes da protena em um plano ou em trs
dimenses. O principal banco de estruturas o PDB, que armazena informaes estruturais de
molculas de cido nuclico. Estes bancos de dados no contm o mesmo volume de
informaes existente nos bancos de protenas, devido ao difcil processo de obteno de
dados, feito via cristalografia.
12
Taxonomia
Os bancos de dados de taxonomia so bastante discutidos, uma vez que no existe consenso
entre os especialistas sobre as classificaes ali contidas. Os exemplos destes bancos de dados
so: Species 2000, International Organization for Plant Information, Integrated Taxonomic
Information System, The Tree of Life Project, entre outros. Cabe ressaltar que o Genbank
mantm tambm informaes de taxonomia, que so definidas e mantidas por um grupo de
especialistas independente.
Publicaes
Os bancos de dados de publicaes armazenam e disseminam informaes sobre a literatura
cientfica de diversas reas. Na rea da biologia molecular, o mais importante repositrio de
tais informaes o MEDLINE, agora denominado PUBMED, que pode ser acessado via
NCBI, atravs de uma interface denominada Entrez. O correspondente ao MEDLINE para a
rea agrcola o AGRICOLA.
13
14
15
3.5 Interao
No incio da coleta e do armazenamento dos dados de biologia, os bancos de dados eram
totalmente isolados, isto , no existia nenhuma troca de informao entre eles. Com o passar
do tempo, foi-se tendo a preocupao em integrar estes bancos de dados. Um bilogo, por
16
17
18
19
20
21
22
23
iso-jta: string,
journal-title: string,
% ISSN number
volume: string,
24
issue: string,
year: int,
pages: string,
abstract: string,
keywd: { string } ] }
A notao utilizada no exemplo descrito anteriormente apresentada a seguir.
Descrio dos tipos
Notao
Terminologia ASN.1
Lista
{ || || }
Sequncia de
Conjunto
{ }
Conjunto de
Registro
[ l1: 1, , ln: n]
Sequncia
(campos rotulados)
< l1: 1, , ln: n>
Variante
Escolha
ABCRRAA
118 bp ss-rRNA
RNA
15-SEP-1990
5S ribosomal RNA.
25
FEATURES
Location/Qualifiers
rRNA
1..118
27 a
40 c
32 g
17 t
2 others
ORIGIN
1 gatctggtgg ccatggcggg agcaaatcag ccgatcccat cccgaactcg gccgtcaaat
61 gccccagcgc ccatgatact ctgcctcaag gcacggaaaa gtcggtcgcc gccagayy
Os rtulos referem-se s seguintes informaes biolgicas:
Locus: nome curto escolhido para sugerir a definio da sequncia.
Definition: descrio concisa da sequncia.
Accession number: nmero de acesso primrio, um valor nico e imutvel atribudo para
cada sequncia.
Nid: identificador nico da sequncia cido-nuclica que atribudo pelo NCBI ao registro
de sequncia do GenBank. Enquanto o accession number uma chave de recuperao nica
para um registro no banco de dados, mesmo que alguma modificao tenha sido feita, o Nid
muda sempre que uma sequncia modificada.
Keywords: palavras-chave associadas ao gene ou a outras informaes sobre o registro.
Segment: informaes sobre a ordem em que este registro aparece na srie de sequncias
descontnuas de uma mesma molcula.
Source/Organism: O campo Source consiste de duas partes. A primeira parte encontrada
depois do rtulo Source e contm o nome do organismo onde a sequncia foi encontrada. A
segunda parte consiste de informaes encontradas depois do rtulo secundrio Organism.
Ela possui o nome cientfico formal do organismo (gnero e espcie, onde foi catalogado)
seguido por sua taxonomia.
Reference: citaes a todos os artigos que contm dados sobre este registro. Ele composto
pelo nmero da referncia e o local das bases na sequncia citada e por mais cinco partes:
Authors, Title, Journal, Medline, e Remark.
Authors: lista os autores na ordem em que eles aparecem no artigo citado.
Title: ttulo da publicao.
Journal: citao da literatura para o registro da sequncia. A palavra Unpublished aparecer
depois do rtulo secundrio Journal se os dados no aparecerem na literatura cientfica, mas
foi diretamente depositado no banco de dados. Para as sequncias publicadas a linha Journal
contm a tese, a revista, ou o livro, incluindo o ano de publicao.
Medline: identificador nico da National Library of Medicine's Medline para a citao (se
conhecida).
Remark: comentrio que especifica a relevncia da citao do registro.
Comment: referncias cruzadas para outras sequncias, comparaes com outras colees,
anotaes de modificaes no nome do Locus e outras observaes.
26
Features:
sequncia.
27
disponibilizados via WWW, rede local ou mesmo via execuo local, cujo cdigo obtido
por FTP, atravs das seguintes ferramentas:
aplicativo Entrez, que consiste de uma interface de integrao dos dados de sequncias
com dados de outros bancos contendo informaes referentes taxonomia, estrutura 3D, populao e genome assembly. Tambm so disponibilizados, atravs desta interface,
dados de publicaes relativas s sequncias.
similaridade de sequncias, que disponibilizada por um conjunto de programas que
executam o algoritmo bsico BLAST.
buscas nos bancos de dados especializados dbEST, dbSTS e dbGSS (Genome Survey
Sequence).
O mecanismo de consulta ao GenBank dado atravs do aplicativo Entrez, que tem verso
WWW. A consulta pode ser feita via atributos palavra-chave, sequncia e UID. No
permitido o acesso s estruturas do banco via browse. Um usurio comum do banco no
acessa diretamente as suas estruturas, via SQL ou outras funes.
Existem mecanismos de exportao de dados que permitem aos usurios receber as
sequncias solicitadas em formato texto, ou mesmo a base completa em arquivo no formato
ASN.1. O formato ASN.1 usado para gerar estruturas de dados estticas da linguagem C, a
serem compiladas com as aplicaes (por exemplo Entrez). Desta forma a interface
periodicamente modificada para acomodar mudanas no esquema do banco ou mesmo novos
tipos de consultas. O mesmo pode ser feito com aplicaes dos usurios.
Integrao com outros bancos de dados
O GenBank conta com uma aplicao (Entrez) que implementa a integrao entre diferentes
bancos de dados, atravs de consultas baseadas em formulrios. Ao se acessar o aplicativo,
uma pgina www dinmica apresentada, onde possvel selecionar o banco a ser
pesquisado, segundo critrios que so informados. Os dados resultantes da consulta podem ser
utilizadas para uma consulta posterior.
Os bancos de dados que participam da integrao so:
Nucleotide -
Protein -
Genome -
Structure -
Cabe ressaltar que todos os bancos que participam da integrao tem links entre si.
5.1.2 GSDB
O GSDB um banco de dados relacional, implementado em Sybase, e se dedica a dar suporte
pesquisa cientfica atravs da criao, manuteno e distribuio de uma coleo de
sequncias de DNA e de informaes correlatas. Em cooperao com os maiores repositrios
de sequncias de DNA (DDBJ, EMBL e GenBank), o GSDB permite o acesso e coleciona
dados diretamente dos autores de diversas maneiras, incluindo as mais novas formas de
acesso aos dados advindas das necessidades de sequenciamento em larga escala, a saber:
28
direta atualizao da base de dados. Centros de pesquisa que utilizam o SGBD Sybase
podem implementar aplicaes que atualizem diretamente a base de dados, utilizando
um acesso cliente-servidor. Neste caso, o centro de pesquisa responsvel pela
qualidade da informao armazenada.
via World Wide Web. O servidor Web oferece diversos mecanismos de acesso,
inclusive consultas ad-hoc em SQL. No caso de atualizao da base, os dados
submetidos passam por um processo de controle de qualidade do GSDB.
cpia da base. Os centros de pesquisa que dispem de uma licena do tipo cliente do
Sybase podem acessar uma cpia read-only da base, utilizando tanto as ferramentas de
acesso providas pelo SGBD como programas especficos para tal.
A evoluo do GSDB teve os seguintes marcos:
em 1979, incio de operao no Los Alamos Sequence Library.
de 1982 a 1992, operou como GenBank. A base de dados relacional foi implementada
em 1989.
em 1993, tornou-se Genome Sequence DataBase.
em 1994, a base foi para o National Center for Genome Resources.
em 1996, gerada uma nova verso da base, denominada 1.0.
Esquema e evoluo
O GSDB armazena informaes sobre sequncias, publicaes e membros da comunidade
cientfica. Tais informaes esto tambm disponveis no GenBank. Estas bases de dados
trocam informaes diariamente no sentido de compatibilizar os respectivos contedos. Para
modelar a base de dados, foi utilizado o modelo de entidades e relacionamentos [Che76].
Assim, por exemplo, a entidade sequncia est relacionada entidade gene e o tipo de
relacionamento de um-para-muitos. Da mesma forma, uma sequncia pode constar de
diversas publicaes, cada uma elaborada por diversos autores. Um autor pode tambm
participar de inmeras publicaes. O relacionamento entre as entidades sequncia e
publicaes tambm do tipo um-para-muitos, enquanto que o relacionamento entre as
entidades publicaes e autores do tipo muitos-para-muitos.
A seguir, apresentada uma breve descrio dos enfoques que influenciaram a evoluo do
modelo de dados do banco, a saber:
o modelo tradicional de bancos de dados cientficos (entrada de dados de sequncias via
citaes em publicaes cientficas),
o modelo de publicao eletrnica de dados (entrada de dados de sequncias via
submisso direta feita por laboratrios de sequenciamento ou por pesquisadores),
anotaes da comunidade cientfica (possibilidade de anotaes de informaes
adicionais sobre as sequncias feitas pela comunidade cientfica), e
o modelo de banco de dados federados (diviso da base em trs, uma contendo os dados
das sequncias, outra de publicaes e a terceira de membros da comunidade cientfica).
No caso, a dita federao local e so mantidos links com outros bancos de dados.
A primeira implementao do GSDB foi baseada no modelo tradicional. Neste modelo, os
dados de sequncias, de artigos e de membros da comunidade cientfica eram coletados a
29
partir das publicaes cientficas e armazenados em arquivos do tipo texto. Estes arquivos
eram ento disponibilizados para a comunidade. Em 1986 a gerao de sequncias cresceu
acima da capacidade administrativa do GSDB, que ficou impossibilitado de acompanhar tal
crescimento. Alm disso, as prprias editoras passaram a limitar a quantidade de novas
sequncias a serem publicadas. Desta forma, a informao contida no banco de dados ficaria
incompleta se no ocorresse uma mudana no modelo de captura de informaes.
O novo modelo foi denominado publicao eletrnica de dados. Neste modelo, os
pesquisadores comunicam as suas descobertas diretamente ao banco de dados e so
responsveis por assegurar a qualidade da informao. Desta forma, a administrao do
GSDB trocou a funo de coleta e garantia de qualidade dos dados por outras. Ficou
responsvel pela manuteno da estrutura do banco, pelo desenvolvimento de novas
ferramentas de software, pelo projeto dos novos processos de obteno dos dados e pelo
suporte aos usurios. Assim, em 1987 o banco de dados passou a ser suportado por um SGBD
relacional e a permitir a submisso de sequncias via processo batch. O processo batch foi
escolhido porque poucos membros da comunidade cientfica tinham acesso Internet.
Em 1992 novas necessidades surgiram. Foi necessrio reduzir a interveno da equipe na
base, no sentido de submisso manual de sequncias e no suporte comunidade para adio e
correo de dados de sequncias e de anotaes biolgicas. Assim, em 1994 houve novo reprojeto do banco de dados para suportar as seguintes necessidades:
alterao das informaes, de forma on-line (via Internet), pela comunidade cientfica,
em substituio ao processo batch existente,
facilidades de incluso de novas anotaes por pessoas da comunidade, que no aquelas
que submeteram a sequncia, de forma a se ter uma completa caracterizao das
mesmas,
facilidades de modularizao dos servios e suporte a links com outros bancos de dados,
de forma a se criar uma federao de servios de genoma. Este suporte baseia-se na
concepo e implementao de um banco de dados federativo que minimize o escopo de
cada banco de dados participante da federao. Os mantenedores dos bancos de dados
gastam recursos substanciais para armazenar informaes adicionais sobre as
sequncias, tais como: taxonomia, genes e dados bibliogrficos. O princpio bsico da
federao trata do armazenamento das sequncias nos bancos de dados principais, com
links para estas informaes adicionais.
O novo esquema do banco foi criado em 1995 e aperfeioado em 1996, gerando a verso 1.0,
que, de forma sucinta, contm as seguintes caractersticas:
adoo de critrios de segurana e qualidade dos dados. O ponto central da segurana
o critrio de propriedade. O usurio que inserir um dado no banco o dono daquela
informao e s ele pode modific-la (os administradores do banco tambm podem
faz-lo). Outros usurios podem acessar o dado para leitura, desde que este seja um
dado pblico. O dono da informao informa a privacidade do dado: pblico ou
privado. Um software especial do SGBD verifica a qualidade dos dados pblicos e os
disponibiliza para a comunidade.
incluso de novos tipos de dados, como por exemplo a representao de alinhamentos
de mltiplas sequncias, sequncias descontnuas (com informaes sobre gaps), dados
confidenciais de sequncias e resultados de anlises. O esquema do banco permite
tambm que se represente colees de elementos especficos do banco (grupos de
30
31
Cada classe tem portanto uma estrutura de dados em forma de rvore, onde est delimitada a
altura de cada sub-rvore e os tipos de dados ou sub-classes que so permitidos em cada
posio. A esta estrutura de dados dado o nome de modelo. Objetos so instncias das
classes e, em geral, seus dados no contm todas as informaes vlidas e possveis da
estrutura. Esta representao traz as seguintes vantagens:
objetos ainda pouco estudados podem ser representados pois ramos da rvore com
informaes ainda desconhecidas, podem estar ausentes. Mesmo que tais objetos sejam
numerosos no banco de dados, ocupam pouco espao em disco e em memria,
aumentando a eficincia do sistema.
se houver necessidade de extenso do esquema, fato que bastante comum e frequente
na rea, basta alterar a estrutura com a extenso desejada. Cabe observar que todos os
dados que existiam na base permanecem vlidos. Apenas no contm informaes sobre
a extenso feita.
possvel a incluso de anotaes biolgicas relevantes sobre os dados (na forma de
comentrios), sem afetar os algoritmos de busca de informaes.
Os desenvolvedores do ACeDB, de forma deliberada, evitaram a implementao da herana
mltipla mas permitiram que dois objetos possam ter sub-rvores comuns. Por exemplo
considere a representao de dois objetos do tipo Gene, um estudado atravs da gentica
clssica (no-clonado) e outro obtido por similaridade com uma protena de outro organismo
(clonado). Estas instncias podem ser consideradas como arqutipos de duas sub-classes da
classe Gene.
No ACeDB os objetos so representados em duas classes: a classe tipo B, que representa
objetos na forma de rvore e a classe tipo A, que representa objetos como arrays de dados,
forma esta de representao das sequncias de DNA.
A razo do sucesso do ACeDB est nesta representao flexvel do esquema do banco, que
permitiu a sua adoo para armazenamento de dados do sequenciamento de diversos
organismos, bastando adequar a estrutura (modelo) dos dados s informaes que se deseja
representar.
Para a definio do modelo de dados, O ACeDB conta com uma linguagem prpria (Data
Definition Language). Para exemplificar a linguagem apresentada a seguir uma parte da
definio da classe Gene e um exemplo de uma instncia da classe.
// definio da classe Gene
?Gene Reference_allele
Molecular_information
?Allele
Clone ?Clone XREF Gene
Sequence ?Sequence XREF Gene
2point ?2point_data
3point ?3point_data
32
n1162
Molecular_information
Clone MT#JAL1
// R significa rename
O software conta tambm com uma linguagem de consulta prpria denominada AQL
(ACeDB Query Language) que foi projetada de acordo com os conceitos utilizados nas
linguagens OQL [Cat94] (proposta pelo ODMG para linguagem de consulta a bancos de
dados orientados a objetos), Lorel (linguagem de consulta a dados semi-estruturados no
sistema
Lore,
desenvolvido
em
Stanford
[GMW+97])
e
Boulder
(http://stein.cshl.org/software/boulder/) sistema de acesso aos dados via valor de atributo,
desenvolvido por Lincoln Stein para o Whitehead Genome Center).
33
34
#include <stdio.h>
#include "srs.h"
int main ()
{
SrsEnv ();
LibOpen ();
if (Query ("[swissprot-def:elastase]", "Q1"))
printf ("query Q1 found %d entries\n", SetSize ("Q1"));
}
Este mtodo de integrao bastante popular entre os pesquisadores em biologia molecular e
existem diversas implementaes baseadas em links.
Em algumas implementaes, os links so percorridos no sentido de se atender a uma dada
consulta e, neste caso, existe perda de significado semntico no percurso. Por exemplo, o
banco LinkDB utiliza os percursos via links para atender a consultas. Ao se questionar, neste
banco, quais as publicaes que se referem a uma dada protena ?, o atendimento consulta
procura pela protena no banco de dados Swiss-Prot, porm este banco no tem links para o
banco Medline (de publicaes), no permitindo o acesso de forma direta. Assim, por
exemplo, pode-se caminhar via GenBank, que pode ser percorrido via Swiss-Prot (a protena
tem link com as sequncias onde aparecem), e que tem links para o Medline. O problema
aparece quando a sequncia do GenBank tem mais de uma protena anotada pois a resposta
das publicaes pode ser referente a uma outra protena da sequncia e no aquela que deu
origem consulta.
5.2.2 IGD
O Integrated Genomic Database (http://igd.rz-berlin.mpg.de/~www/lpi.html) [Rit94] um
exemplo de um data warehouse de biologia molecular [Mar95].
O IGD prov um esquema comum para os bancos de dados subjacentes, uma interface de
usurio grfica popular (AceDB) e facilidade de consulta. Como a maioria das atualizaes
aos bancos de dados ACeDB so feitas atravs de arquivos textos e no atravs de sistemas de
gerenciamento de transaes esperado na maioria dos SGBDs, atualizaes dirias s so
eficientes porque no feita muita checagem de restrio [DOB95].
Neste mtodo a integrao reside fisicamente em um local, pode ser consultada sem acesso
remoto a banco de dados e por isso permite acesso rpido aos dados. No entanto, possvel
imaginar um cenrio onde consultas em um esquema virtual IGD so traduzidas em consultas
em dados originados dos bancos de dados bases do IGD [DOB95].
O custo de manuteno deste sistema muito alto. No est claro quais ferramentas foram
construdas no projeto do IGD para tratar da evoluo dos esquemas e dos dados. Atualmente,
os BDBMs possuem tamanhos modestos e o recarregamento do banco de dados praticvel.
Mas isto no ser verdade no futuro onde atualizaes incrementais sero inevitveis. Nesta
hora, questes como evoluo de esquemas, manuteno do nvel dos dados, e manuteno
de tabelas de ligao sero predominantes [DOB95].
35
5.2.3 CPL/Kleisli
O sistema CPL/Kleisli tem como mtodo de integrao o acoplamento fraco. Foi
desenvolvido por um grupo da University of Pennsylvania [BDH+95] [HWO+94] [Won94].
Sua implementao, chamada Kleisli, inclui uma poderosa linguagem de consulta chamada
CPL que modela complexos tipos de dados de bancos de dados tais como listas, conjuntos,
registros, e variaes usadas em ASN.1 [IOS87]. CPL pode expressar consultas em tais tipos
de dado, e pode codificar regras de tranformaes entre tipos de dados, tais como projees
para simplificao de tipos complexos. Kleisli tem sido usada para responder com sucesso
uma das consultas consideradas desafios pela DOE Informatics Summit [Rob94]: Encontre
informao nas seqncias de DNA conhecidas de um cromossomo humano 22, assim como
as informaes de seqncias homlogas de outros organismos. Kleisli responde tal consulta
combinando informaes de localizao de cromossomo de um servidor Sybase GDB com
seqncias e dados homlogos do servidor GenBank Entrez (ASN.1) [BDH+95] [Kar95].
O sistema CPL/Kleisli [BDH+95] suporta consultas ad hoc formuladas sobre bancos de dados
distribudos e heterogneos. Hoje o sistema tem sido usado para integrar recursos autnomos,
somente de leitura, atravs de vises de usurios(mediadores). Neste modo, CPL/Kleisli
oferece as seguintes vantagens: uma interface uniforme para sistemas heterogneos,
construo barata, e manuteno relativamente barata de consultas complexas entre os
mltiplos bancos de dados; tratamento uniforme dos recursos heterogneos e de algoritmos de
anlises do banco de dados (ex. BLAST); otimizao de consultas distribudas incluindo
paralelismo e lazy evaluation; um sistema de tipos necessrio para a integrao de recursos
heterogneos; e modularizao dos drivers de dados para acesso aos recursos distribudos
[DOB95].
No entanto, existe uma desvantagem significativa no estilo do mediador desta integrao.
Experimentos com o sistema CPL mostraram que o sistema de rede existente muito frgil e
muito lento para permitir tempos de respostas adequados para muitas consultas distribudas.
claro que isto depende fortemente do recurso em particular que est sendo acessado; consultas
no servidor Entrez so intolerveis, enquanto que as consultas nos sistemas de bancos de
dados relacionais locais so rpidas, robustas e podem ser paralelizadas para obter
significativas melhoras na performance. Alm disso, enquanto atualizaes em sistemas
individuais subjacentes podem ser executadas dentro do sistema CPL-Morphase [DHK95],
atualizaes a nvel global ainda no so suportadas [DOB95].
Comentrios Finais
36
Referncias
[ABS00]
[AG97]
[AGM+90]
[AMS+97]
[BBC+00]
[BDO95]
[BDH+95]
[BGH+00]
[BML+00]
37
[Cas92]
[Cat94]
[CM95]
[DHK95]
[DOB95]
[DOE00a]
U.S.
Department
of
Energy.
Human
Genome
http://www.er.doe.gov/production/ober/hug_top.html, 2000.
[DOE00b]
[Doo90]
[Fio00]
[Fly99]
[Fre91]
[Gen00]
[GG95]
[GMW+97]
[GRS94]
[GSDB00]
[HCF+00]
38
Project
and
Research.
Informatics".
[HG00]
[HWO+94]
[IOS87]
[Kar95]
[KDG96]
[KLB+97]
[Kro93]
[KRT96]
[LCP+98]
[LP85]
[Mar95]
[MC95]
[MCK97]
[MR95]
[MS94]
[MS97]
[NK99]
39
Journal
of
[Pea90]
[Pea91]
[PL88]
[PPJ+00]
[Qia93]
[QR95]
[Rit94]
[Rob85]
[Rob94]
[Sha99]
[SL90]
[SU94]
[TMO+00]
[Uch94]
[WL83]
[Won94]
40