Bancos de Dados de Genomas

Bancos de Dados de Genoma
Luiz Fernando Bessa Seibel, Melissa Lemos e Srgio Lifschitz

Departamento de Informtica
Pontifcia Universidade Catlica do Rio de Janeiro
{seibel, melissa, lifschitz}@inf.puc-rio.br
Resumo: Os bancos de dados de genoma representam hoje uma das
principais ferramentas de suporte para os bilogos moleculares e
geneticistas. Para que estes bancos de dados possam ser realmente utilizados
na prtica necessrio tratar de vrios pontos importantes, incluindo a
definio do modelo de dados mais adequado, as necessidades de
processamento, as anlises e controles semntico dos dados e os meios de
acesso e o problema da integrao das bases de dados. Neste trabalho
pretendemos apresentar os principais bancos de dados de genoma e os
algoritmos envolvidos nas anlises de sequncias. Sero discutidos em
particular os aspectos da integrao destas bases de dados e alguns outros
tpicos de pesquisa na rea de banco de dados.
Introduo
Muitos projetos de anlise de genoma esto sendo desenvolvidos atualmente. O Projeto

Genoma Humano (PGH) um dos maiores. Formalmente iniciado em Outubro de 1990, o
PGH tem como objetivo principal descobrir todos os genes humanos e torn-los acessveis
para estudos biolgicos posteriores, alm de determinar a sequncia completa das
aproximadamente 3 bilhes de bases do DNA. Todos os organismos so focos deste projeto
porque todos tm seu prprio genoma e esto relacionados atravs de similaridades de
sequncias de DNA. Assim, mesmo os genomas no humanos podem trazer novos
conhecimentos sobre a biologia humana. Vrios pases tm estabelecido programas de
pesquisas do genoma humano, entre os quais o Brasil [DOE00a] [DOE00b].
A informao detalhada do DNA ser chave para o entendimento da estrutura, organizao e
funo do DNA nos cromossomos. Mapas de genoma de outros organismos provero a base
para estudos comparativos que sero essenciais para o entendimento de sistemas biolgicos
mais complexos. Genes envolvidos em vrias doenas genticas sero encontrados, e estudos
podero ser feitos para se descobrir como tais genes contribuem para as doenas genticas.
Prticas mdicas sero radicalmente alteradas quando novas tecnologias clnicas baseadas no
diagnstico de DNA forem combinadas com informaes de mapas genticos. A nfase aos
tratamentos de doenas ser dada a preveno. Pesquisadores sero capazes de prever
indivduos com tendncia a doenas particulares e novas terapias podero ser feitas baseadas
em novas drogas, em tcnicas de imunoterapia, em evitar condies ambientais que possam
disparar a doena, e possivelmente, em substituio dos genes problemticos
[DOE00a][DOE00b].
Como parte do PGH, estudos paralelos tm sido feitos aqui no Brasil como o do organismo
Xylella fastidiosa financiado pela FAPESP e do Trypanosoma cruzi realizado pelo grupo de
pesquisa do Departamento de Bioqumica e Biologia Molecular (DBBM) da Fundao
Oswaldo Cruz (FioCruz)[Fio00].
Entre os diversos assuntos pesquisados at agora destacam-se o armazenamento e o acesso
aos dados de biologia molecular em bancos de dados, em particular as sequncias de cidos
nuclicos e aminocidos e suas respectivas anotaes, e os algoritmos para anlises destes
dados.
Com o avano da tecnologia, existem cada vez mais sequncias e anotaes [Doo90] e no
possvel determinar a quantidade de informaes que ainda ser obtida de diversos
organismos com o andamento do projeto genoma. Isso torna fundamental o uso de um banco
de dados bem estruturado que permita o armazenamento, o acesso e o processamento destas
informaes de forma simples e eficiente.
Os bancos de dados de genoma representam hoje uma das principais ferramentas de suporte
para os bilogos moleculares e geneticistas. de fundamental importncia para a pesquisa
nesta rea realizar cadastros de sequncias e de algumas anotaes relacionadas, e realizar
consultas nestes bancos a fim de levantar dados para anlises biolgicas. Entre estas anlises
possvel destacar a comparao de sequncias e o descobrimento de novos genes, funes e
caractersticas de uma nova sequncia. Para que estes bancos de dados possam ser realmente
utilizados necessrio tratar de vrios pontos importantes. Entre eles possvel destacar:
Utilizao de um modelo de dados apropriado;
Adoo de algoritmos que permitam anlises complexas nas sequncias cadastradas

no banco;
Controle do cadastramento de sequncias de forma a evitar mltiplas inseres do

mesmo dado na base. Isto pode ser realizado atravs de algoritmos especialmente
construdos para verificar a pr-existncia de tais sequncias no banco.
Existe ainda o problema da integrao das bases de dados de genoma Atualmente, diversos
centros de pesquisa tm feito esforos para cadastrar sequncias de diferentes organismos.
Assim, existem diversos bancos de dados, cada um com um modelo de dados distinto e
utilizando diferentes tecnologias, sobre os quais os usurios tm necessidade de interagir.
Alm disso, h vrios estudos para a obteno de algoritmos que faam anlises eficientes em
todo este volume de dados. Um dos problemas mais importantes para anlises destes dados
o de comparao de sequncias, pois ela a base para vrias outras manipulaes mais
elaboradas [MS94]. possvel citar duas principais famlias de algoritmos que realizam
comparaes de sequncias armazenadas em bancos de dados, a FAST [Pea91] e a BLAST
[AGM+90].
Este trabalho tem por objetivo apresentar os principais bancos de dados de genoma, as
caractersticas de cada um e os principais algoritmos envolvidos nas anlises de sequncias
em uma dada base. Em particular, ser estudada a integrao destas bases heterogneas de
forma a ser possvel responder a determinadas consultas distribudas.
O texto est organizado da seguinte forma: na seo 2 so apresentados conceitos de biologia
celular e molecular considerados importantes para o entendimento deste trabalho. A seo 3
em seguida descreve as principais aplicaes de informtica na rea de biologia hoje em dia, a
saber, os bancos de dados e os algoritmos utilizados. apresentada na seo 4 uma
classificao das implementaes que visam a integrao dos bancos de dados aplicados
biologia. J a quinta seo apresenta as caractersticas e funcionalidades de alguns dos
principais bancos de dados existentes e tambm de esforos de integrao. Finalmente
encerra-se com uma seo com comentrios finais e trabalhos em andamento e futuros.
Conceitos de Biologia Celular e Molecular
Esta seo tem por objetivo apresentar alguns conceitos bsicos da rea de biologia celular e
molecular, visando facilitar a compreenso do texto como um todo e foi baseado em [Rob85].
2.1 A Clula: Organizao Estrutural

O estudo do mundo vivo mostra que a evoluo produziu uma imensa variedade de formas.
Existem em torno de quatro milhes de espcies diferentes de bactrias, protozorios, vegetais
e animais, que diferem em sua morfologia, funo e comportamento. Entretanto sabe-se agora
que, quando os organismos vivos so estudados a nvel celular e molecular, observa-se um
plano nico principal de organizao. O objetivo da biologia celular e molecular
precisamente este plano unificado de organizao isto , a anlise das clulas e molculas
que constituem as unidades estruturais de todas as formas de vida. A clula a unidade
estrutural e funcional bsica dos organismos vivos.
Clulas Procariticas e Eucariticas
As clulas so identificadas como pertencentes a dois grupos: procariticas e eucariticas. A
principal diferena entre estes dois tipos celulares a ausncia de um envoltrio nuclear nas
clulas procariticas. O cromossomo desta clula ocupa um espao denominado nucleide,
estando em contato direto com o protoplasma. As clulas eucariticas possuem um ncleo
verdadeiro com um envoltrio nuclear elaborado, atravs do qual ocorrem trocas entre o
ncleo e o citoplasma.
2.2 A Clula: Organizao Molecular

A estrutura celular visvel aos microscpios ptico e eletrnico resultante de um arranjo de
molculas numa ordem bastante precisa. Apesar de haver muito ainda a ser aprendido,
comearam a surgir os princpios gerais da organizao molecular de algumas estruturas
celulares, como membranas, ribossomos, cromossomos, mitocndrias e cloroplastos.
Numerosas estruturas celulares so constitudas por molculas bastante grandes denominadas
polmeros. Existem dois exemplos importantes de polmeros nos organismos vivos. So eles:
cidos nuclicos, que resultam da repetio de quatro diferentes unidades denominadas
nucleotdeos. A sequncia linear de quatro nucleotdeos na molcula de DNA a fonte
bsica da informao gentica.
Protenas ou polipeptdeos so compostos por aproximadamente 20 aminocidos,

presentes em diversas propores, unidos por ligaes peptdicas. A ordem em que estes
20 monmeros podem se unir d origem a um nmero astronmico de combinaes em
diferentes molculas proticas, determinando no s sua especificidade, mas tambm sua
atividade biolgica.
cidos Nuclicos
Todos os organismos vivos contm cidos nuclicos na forma de cido desoxirribonuclico
(DNA) e cido ribonuclico (RNA).
O DNA o principal armazenador da informao gentica. Esta informao copiada ou
transcrita para molculas de RNA, cujas as sequncias de nucleotdeos contm o cdigo
para a ordenao especfica de aminocidos. As protenas so ento sintetizadas num processo
que envolve a traduo do RNA. Refere-se frequentemente srie de eventos acima
relacionada como o dogma central da biologia molecular; ela pode ser resumida na forma
esquematizada na Figura 1:
Figura 1.Processos transcrio e traduo.

Em clulas superiores, o DNA localiza-se principalmente no ncleo, dentro dos
cromossomos. Uma pequena quantidade de DNA fica no citoplasma, contida nas
mitocndrias e cloroplastos. O RNA encontrado tanto no ncleo, onde sintetizado, quanto
no citoplasma, onde tem lugar a sntese protica.
cidos Nuclicos: uma Pentose, um Fosfato e quatro Bases
Os cidos nuclicos so compostos por uma molcula de acar (pentose), bases nitrogenadas
(purinas e piridiminas) e cido fosfrico. Veja a Figura 2.
Figura 2. cido Nuclico

4
As pentoses so de dois tipos: ribose no RNA e desoxirribose no DNA.

As bases encontradas nos cidos nuclicos so tambm de dois tipos: piridiminas e purinas.
No DNA as piridiminas so timina (T) e citosina (C); as purinas so adenina (A) e
guanina(G). O RNA contm uracila (U) no lugar de timina.
Toda a informao gentica de um organismo vivo est armazenada em sua sequncia linear
das quatro bases. Portanto, um alfabeto de quatro letras (A, T, C, G) deve codificar a estrutura
primria (i.., o nmero e a sequncia dos 20 aminocidos) de todas as protenas.
O DNA uma Hlice Dupla
A estrutura do DNA mostrada na Figura 3. Ele composto por duas cadeias helicoidais de
polinucleotdeos com giro para a direita, formando uma hlice dupla em torno de um mesmo
eixo central. As duas fitas so antiparalelas, unidas por pontes de hidrognio estabelecidas
entre os pares de bases. Desde que existam uma distncia fixa entre as duas molculas de
acar nas fitas opostas, somente certos pares de bases podem se encaixar na estrutura. Os
nicos pares possveis so o AT e o CG.
A sequncia axial de bases ao longo de uma cadeia de polinucleotdeo pode variar
consideravelmente, porm na outra cadeia a sequncia deve ser complementar. Devido a esta
propriedade, dada uma ordem de bases em uma cadeia, a outra exatamente complementar.
Figura 3. A dupla hlice do DNA.
Estrutura do RNA: classes e conformao

A estrutura primria do RNA semelhante do DNA, exceto pela substituio da ribose pela
desoxirribose e da uracila pela timina. A composio de bases do RNA no similar a do
DNA, pois as molculas de RNA so compostas por uma nica cadeia.
Existem trs principais classes de cido ribonuclico: o RNA mensageiro (mRNA), o RNA de
transferncia (tRNA) e o ribossmico (rRNA). Todos esto envolvidos na sntese protica. O
mRNA contm a informao gentica para a sequncia de aminocidos, o tRNA identifica e
transporta as molculas de aminocidos at o ribossomo, e o rRNA representa 50% da massa
dos ribossomos, organelas que fornecem um suporte molecular para as reaes qumicas da
montagem de um polipeptdeo.
Protenas
As unidades constituintes das protenas so os aminocidos. Existem vinte tipos de
aminocidos, representados pelos caracteres A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T,
V, W, Y.
2.3 Biologia Molecular do Gene

O DNA transporta a informao gentica de maneira codificada de clula a clula e dos pais
para a prognie. Toda a informao necessria para a formao de um novo organismo est
contida na sequncia linear das quatro bases, e a replicao fiel desta informao assegurada
pela estrutura de dupla cadeia do DNA onde o A pareia-se somente com o T e o G com o C.
O DNA no est livre dentro da clula, mas forma complexos com protenas na estrutura
denominada cromatina. No momento da diviso celular, a cromatina condensa-se na forma de
cromossomos. Veja Figura 4.
Figura 4. A clula e o cromossomo.

Os cromossomos so filamentos encontrados no interior do ncleo das clulas. Eles ocorrem
normalmente em pares, tm diferentes tamanhos e formas e seu nmero constante em cada
espcie de ser vivo.
O gene uma unidade hereditria que consiste numa sequncia particular de bases no DNA e
que especifica a produo de uma certa protena (por exemplo, uma enzima).
Trs Nucleotdeos codificam um Aminocido
Os cdons, ou unidades hereditrias que contm o cdigo de informao para um aminocido,
so compostos por trs nucleotdeos (um trio). Esta informao encontra-se no DNA, de onde
transcrita para o RNA mensageiro; assim, o mRNA possui a sequncia de bases
complementar do DNA do qual foi copiado. O DNA e o mRNA possuem somente quatro
6
bases diferentes, enquanto que as protenas contm 20 diferentes aminocidos. Dessa maneira,
o cdigo lido em grupos de trs bases, sendo trs o nmero mnimo necessrio para a
codificao de 20 aminocidos. Veja na Figura 5 a ilustrao do cdigo gentico.
Por volta de 1964 todos os 64 cdons possveis haviam sido decifrados. 61 cdons
correspondem a aminocidos e 3 representam sinais para a terminao das cadeias
polipeptdicas. Sabendo que existem somente 20 aminocidos, fica evidente que vrios trios
podem codificar para o mesmo aminocido; isto , alguns dos trios so sinnimos. A prolina,
por exemplo, codificada por CCU, CCA, CCG e CCC.
Mutao
Outro conceito importante da biologia o de mutao, que uma mudana no contedo do
DNA. Os tipos de mudanas podem ser de substituio de base, insero de base, remoo de
base, e rearranjo ou troca na ordem de segmentos de base. Estas mudanas podem ser
divididas em classes dependendo da escala com que elas ocorrem. Algumas mudanas so
fenmenos localizados, enquanto outras ocorrem um milho de vezes seguidas.
Genoma
O genoma o contedo de todo DNA presente em uma clula, incluindo todos os genes e
todas as regies intergnicas.
Figura 5. O cdigo gentico.
Sequncia e Biossequncia
O termo sequncia finita de caracteres, ou simplesmente sequncia ou cadeia, ser usado
no sentido restrito de uma sequncia finita de caracteres de um dado alfabeto S. Assim, se S =
{A,C,T,G}, ento ATTCCG e CCGA so sequncias. Uma biossequncia [MS94] uma
sequncia onde o alfabeto S = {A,C,G,T} (DNA) ou S = {A,C,G,U} (RNA) ou S formado
pelos 20 aminocidos citados anteriormente.
Bancos de Dados e Algoritmos de Biologia Molecular
As biossequncias podem ser tratadas como cadeias de texto. Por este motivo, os bilogos
moleculares podem colet-las e guard-las em arquivos texto. Foi isso o que foi feito no incio
dos processos de sequenciamento [Doo90]. No entanto, com o avano da tecnologia, a
produo de biossequncias aumentou e, consequentemente, os dados armazenados em
arquivos textos cresceram muito, tornando sua manuteno e a dos programas de aplicao
relacionados muito trabalhosa. Diante disto os bilogos moleculares comearam a usar
Sistemas Gerenciadores de Bancos de Dados (SGBD), mais apropriados para gerenciar
grandes volumes de dados.
Quando se comeou a armazenar, os dados eram obtidos atravs de publicaes em artigos
cientficos. Com o avano da tecnologia e, consequentemente, com o crescimento exponencial
do volume de biossequncias, tais dados passaram a ser submetidos aos bancos de dados
atravs da Internet [Doo90]. Isto possibilitou uma grande facilidade na submisso de
biossequncias aos bancos de dados, o que muito importante para que os bilogos possam
acessar e fazer suas anlises em novos dados mais rapidamente.
Atualmente os bancos de dados de biologia molecular (BDBM) utilizam sistemas de banco de
dados relacional, sistemas orientados a objetos e ainda existem alguns que nem propriamente
banco de dados so, utilizando apenas flat files [NK99].
difcil estimar o nmero de BDBM existentes. Hoje em dia existem no somente os bancos
de dados de sequncias de nucleotdeos (DNA) e de aminocidos (protenas), mas tambm
inmeros outros com informaes bem especficas, como organismos especiais (ex.:
Eukariotic [PPJ+00], Escherichia Coli [NK99] e Drosophilia [Fly99]), biossequncias
especficas (ex.: tRNA e rRNA), enzimas, mutaes, famlias de biossequncias (filogenia),
etc. Alm disso, j existem bancos que guardam estruturas tridimensionais das
biossequncias, como por exemplo o PDB [BWF+00].
possvel destacar os seguintes BDBM como os maiores atualmente: GenBank Sequence
Database [BML+00], EMBL Nucleotide Sequence Database [BBC+00], Genome Sequence
Database (GSDB) [HCF+00], Genome Database (GDB) [LCP+98], PIR (Protein
Identification Resource) - International Protein Sequence Database [BGH+00], e A.
Caenorhabditis elegans DataBase (ACeDB). Nestes bancos de dados esto armazenadas
anotaes relevantes, alm das prprias biossequncias.
Apresentaremos aqui alguns exemplos de bancos de dados de biologia molecular (BDBM) ,
suas caractersticas mais importantes e alguns algoritmos para anlises destes dados.
3.1
Exemplos de BDBMs
Existem inmeros BDBM, a seguir est uma lista com alguns dos mais importantes deles.
GenBank Sequence Database [BML+00]
Organizao responsvel: National Center for Biotechnology Information (NCBI) at the
National Library of Medicine (NLM), National Institutes of Healthy (NIH)
Informaes principais: Sequncias de nucleotdeos
URL: http://www.ncbi.nlm.nih.gov/Genbank/index.html
EMBL Nucleotide Sequence Database [BBC+00]
Organizao responsvel: EMBL OutStation - The European Bioinformatics Institute
Informaes principais: Seqncias de nucleotdeos
URL: http://www.ebi.ac.uk/embl/index.html
Genome Sequence Database (GSDB) [HCF+00]
Organizao responsvel: Department of Energy
Infrastructure -National Center for Genome Resources
(DOE)
Federated
Information

URL: http://www.ncgr.org/gsdb/gsdb.html
Genome Database (GDB) [LCP+98]
Organizao responsvel: U.S Department of Energy, com apoio adicional de U.S. National
Institutes of Health, Japanese Science and Technology Agency, the British Medical Research
Council, INSERM of France, e European Union.
URL: http://www.gdb.org/
PIR (Protein Identification Resource)-International Protein Sequence Database
[BGH+00]
Organizao responsvel: National Biomedical Research Foundation (NBRF), Munich
Information Center for Protein Sequences (MIPS), e Japan International Protein Information
Database (JIPID)
Informaes principais: Seqncias de aminocidos
URL: http://www-nbrf.georgetown.edu/
Swiss-Prot Protein Sequence Data Bank
Organizao responsvel: EMBL Outstation - The European Bioinformatics Institute (EBI)
e Swiss Institute of Bioinformatics (SIB)
Informaes principais: Seqncias de aminocidos
URL: http://www.expasy.ch/sprot, e http://www.ebi.ac.uk/swissprot.
Protein Data Bank (PDB) [BWF+00]

Organizao responsvel: Federal Government Agency
Informaes principais: Estruturas tercirias da protena
URL: http://www.rcsb.org/pdb
A Caenorhabditis elegans DataBase (ACeDB)
Organizao responsvel: NIH National Center for Research Resources
Informaes principais: C. elegans, Human Chromosome 21, Human Chromosome X,
Drosophila melanogaster, mycobacteria, Arabidopsis, soybeans, rice, maize, grains, forest
trees, Solanaceae, Aspergillus nidulans, Bos taurus, Gossypium hirsutum, Neurospora crassa,
Saccharomyces cerevisiae, Schizosaccharomyces pombe, and Sorghum bicolor.
URL: http://probe.nalusda.gov:8000/acedocs
FlyBase [Fly99]
Organizao responsvel: U.S. National Institutes of Health e British Medical Research
Council.
Informaes principais: Drosophila
URL: http://fly.ebi.ac.uk:7081/docs
Eukariotic Promoter Database (EPD) [PPJ+00]
Organizao responsvel: ISREC em Epalinges s/Lausanne (Switzerland)
Informaes principais: Eukariotic promoter
URL: http://www.epd.isb-sib.ch
DNA Data Bank of Japan (DDBJ) [TMO+00]
Organizao responsvel: Center for Information Biology, National Institute of Genetics,
Yata, Mishima, Japan
Informaes principais: Sequncias de Nucleotdeos.
URL: http://www.ddbj.nig.ac.jp
3.2 Caractersticas de BDBMs

3.2.1 Volume Grande de Dados
Um dos pontos mais importantes a considerar no contexto de BDBM o volume de dados,
que vem aumentando com o passar do tempo devido ao avano da tecnologia e do grande
interesse no Projeto Genoma. Como exemplo, possvel citar o Projeto Genoma Humano
[HG00] [DOE00a] [DOE00b]. Nele existem aproximadamente 3 bilhes de bases arranjadas
ao longo dos cromossomos, em uma ordem particular para cada indivduo. Alm do
comprimento de um nico genoma ser consideravelmente grande, h ainda a necessidade de
armazenar genomas de vrios seres e muitas informaes relacionadas a eles.
O armazenamento, e posterior acesso e processamento a toda esta informao, um grande
desafio para profissionais de computao e especialistas em biologia e informtica. Um
10
milho de bases (chamada de megabase) de dados de sequncia de DNA equivalente a 1

megabyte de espao de armazenamento de dados em um computador. Como o genoma
humano tem aproximadamente 3 bilhes de pares de bases, um genoma precisaria de 3
gigabytes de espao de armazenamento de dados em um computador [Cas92]. Isto somente
para os dados da sequncia de nucleotdeos, no incluindo anotaes e outras informaes que
podem estar associadas aos dados da sequncia.
A cada dia que passa mais anotaes esto sendo associadas aos dados da sequncia, o que
no uma surpresa porque a sequncia meramente um ponto de partida para entendimentos
biolgicos mais profundos. Alm disso, vale ressaltar que estes dados (sequncia e suas
anotaes) so informaes de um nico ser ou organismo. necessrio considerar
informaes de um nmero indeterminado de organismos e seres, o que torna fundamental o
uso de um banco de dados bem estruturado que permita o armazenamento, o acesso e o
processamento destas informaes de forma simples e eficiente.
O GenBank, por exemplo, tem atualmente mais de 7GB de dados, sendo que tem aumentado
de volume a taxas considerveis, tendo dobrado de dezembro de 1999 a abril de 2000
[Gen00].
3.2.2 Informaes Armazenadas
Os bancos de dados aplicados biologia molecular podem se classificados de acordo com as
informaes biolgicas que armazenam [AG97], que so, principalmente, de:
sequncias (de nucleotdeos ou de protenas) e anotaes sobre as mesmas,
protenas e informaes sobre as respectivas funces,
estruturas de molculas de protenas (secundrias, representadas em um plano, ou
tercirias, representadas em trs dimenses),
taxonomia (classificaes dos organismos vivos),
bibliografia na rea de biologia molecular (artigos, jornais, peridicos, etc).
Sequncias de nucleotdeos
Os bancos de sequncias de nucleotdeos armazenam, alm da prpria sequncia, anotaes
contendo dados de caractersticas biolgicas relevantes sobre elas, que so: organismo a que
pertence, sites das sequncias que codificam molculas de protenas, funo, fentipo
(caractersticas aparentes), e links para outros bancos de dados contendo informaes
biolgicas sobre a sequncia.
Embora exista um controle sobre rros comuns detectados na submisso de sequncias ao
banco, a qualidade da informao do pesquisador que submeteu a sequncia. Os laboratrios
que submetem sequncias ao banco tem diferentes critrios sobre a qualidade da sequncia
que est sendo enviada. Alm disso, alguns tem a preocupao de retirar da sequncia os
dados de clones vindos do sequenciamento, outros no agem desta forma, poluindo a
sequncia com informaes desnecessrias. Assim, redundncias e inconsistncias so
inevitveis. Os bancos de dados de nucleotdeos apresentam, portanto, diversos rros. As
sequncias existentes nestes bancos esto incompletas, contaminadas e com rros oriundos do
prprio sequenciamento. Os administradores de algumas dessas bases de dados resolveram
11
atacar o problema da redundncia onde sequncias similares foram agrupadas, desde que
fosse possvel inferir que uma delas era a origem das outras.
Os principais bancos de dados genricos que armazenam sequncias de nucleotdeos so
aqueles que compem o International Nucleic Acid Sequence Data Library, formado pelas
bases de dados denominadas de Genbank, DDBJ e EMBL. Estes bancos armazenam tambm
informaes sobre partes das sequncias que codificam molculas de protenas ou de RNA,
alm de anotaes que contm outras informaes biolgicas relevantes. Tais informaes so
anotadas no campo features. A descrio completa do contedo de tal campo pode ser
encontrada em http://ncbi.nlm.nih.gov/genbank/gbrel.txt.
Alm destes, outros bancos de dados especficos de um dado organismo tambm armazenam
informaes sobre sequncias, como por exemplo o AceDB e toda a famlia de bancos de
dados que baseada na sua arquitetura. A descrio completa da famlia de bancos de dados
ACeDB pode ser encontrada em http://genome.cornell.edu/acedoc/index.html .
Outros bancos de dados especializados (em determinadas clulas ou componentes, em
mutaes, em funes gnicas, etc.) tambm armazenam informaes de sequncias, como
por exemplo o Mitomap [KLB+97].
Sequncias de protenas
Os bancos de dados de sequncias de protenas armazenam alm da prpria sequncia,
informaes sobre a funo da protena no organismo. Tais bancos de dados tm tambm
como caracterstica a redundncia e inconsistncia das informaes sobre as sequncias
armazenadas.
O principal banco de sequncias de protenas o Swiss-Prot. Existe maior cuidado com a
qualidade da informao que includa neste banco, seu contedo no redundante e inclui
extensas anotaes sobre as sequncias. No entanto, este cuidado exige um intervalo de tempo
entre a incluso de uma sequncia nos bancos de nucleotdeos e sua correspondente traduo
para o Swiss-Prot. O banco que armazena esta traduo automtica o TrEMBL. Alguns
bancos de nucleotdeos tambm armazenam sequncias de protenas, como por exemplo o
Genbank.
Protenas
Os bancos de dados de protenas so especializados. O banco ENZYME e o banco LIGAND
armazenam informaes sobre enzimas. O banco PROSITE armazena documentaes acerca
de famlias de protenas. Existem outros bancos de dados de grupamentos de protenas
segundo diferentes critrios / algoritmos, como por exemplo o banco BLOCKS.
Os bancos de dados de sequncias de protenas contm links para estes bancos de dados, que
tm anotaes mais completas sobre cada uma.
Estruturas de protenas
Estes bancos de dados armazenam as representaes da protena em um plano ou em trs
dimenses. O principal banco de estruturas o PDB, que armazena informaes estruturais de
molculas de cido nuclico. Estes bancos de dados no contm o mesmo volume de
informaes existente nos bancos de protenas, devido ao difcil processo de obteno de
dados, feito via cristalografia.
12
Taxonomia
Os bancos de dados de taxonomia so bastante discutidos, uma vez que no existe consenso
entre os especialistas sobre as classificaes ali contidas. Os exemplos destes bancos de dados
so: Species 2000, International Organization for Plant Information, Integrated Taxonomic
Information System, The Tree of Life Project, entre outros. Cabe ressaltar que o Genbank
mantm tambm informaes de taxonomia, que so definidas e mantidas por um grupo de
especialistas independente.
Publicaes
Os bancos de dados de publicaes armazenam e disseminam informaes sobre a literatura
cientfica de diversas reas. Na rea da biologia molecular, o mais importante repositrio de
tais informaes o MEDLINE, agora denominado PUBMED, que pode ser acessado via
NCBI, atravs de uma interface denominada Entrez. O correspondente ao MEDLINE para a
rea agrcola o AGRICOLA.
3.3 Modelo dos Dados

Diversos modelo de dados tem sido utilizados para representao das informaes biolgicas.
Esta seo discute brevemente as implementaes existentes e as vantagens e desvantagens de
cada uma em termos de representao de fatos biolgicos e de facilidades para os usurios.
Modelo Relacional
Diversas bases de dados de biologia molecular so implementadas em bancos de dados
relacionais disponveis no mercado. Tal tecnologia, no entanto, apresenta vantagens e
desvantagens para esta aplicao [NK99], que sero resumidas a seguir.
O modelo relacional agrega a informao em tuplas, onde cada tupla (ou linha da tabela
relacional) representa uma coleo de valores correlacionados, que no podem mais ser
separados em relaes mais simples. A normalizao serve para eliminar problemas inerentes
duplicao de dados, que so: mltiplas atualizaes e gerao de tuplas esprias na
operao de juno.
Nos bancos de dados de biologia molecular frequente a ausncia de informaes (atributos
com valor NULL), fato que aumenta a decomposio dos dados em tabelas menores. Alm
disso, as frequentes excees feitas s estruturas relacionais tendem a aumentar a
decomposio, gerando novas tabelas. Assim, enquanto proliferam as tabelas do banco de
dados, tornando os tens de dados mais simples e de fcil entendimento de forma isolada, uma
nova dificuldade aparece na compreenso e manuteno da estrutura dos dados, bem como no
domnio completo do esquema. Em parte, isso deve-se ao fato de que o modelo relacional
no representa relaes existentes dentro de tuplas.
Por exemplo, na implementao relacional do Mitomap, a entidade genetic locus sofreu os
seguintes desmembramentos ao longo do tempo:
Fase 1: Genetic locus (nome, start, stop, dados_mutao, etc.)
Fase 2: Genetic locus (nome, start, stop, id_mutao, etc.)
Mutao (id_mutao, tipo_mutao, dados_tipo_mutao, etc.)
13
Fase 3: Genetic locus (nome, start, stop, id_mutao, etc.)

Mutao (id_mutao, tipo_mutao, etc.)
Mutao_insero (dados_mutao_insero)
Mutao_excluso (dados_mutao_excluso)
Mutao_alterao (dados_mutao_alterao)
Ou seja, o objeto biolgico se torna menos claro a cada decomposio.
Dado ao grande tamanho destas bases de dados e ao elevado nmero de tabelas, rapidamente
estas bases de dados se tornam ingerenciveis e mesmo incompreensveis pelos prprios
administradores.
A definio de relaes no modelo E-R ideal para representar relaes (binrias) bem
definidas entre as entidades. No entanto, os dados biolgicos nem sempre se encaixam nessa
categoria, devido s transformaes existentes em virtude, por exemplo, de novas
classificaes ou de novas descobertas biolgicas. Assim, necessrio que o modelo que
represente tais dados seja mais flexvel, de forma a facilitar a sua adequao ao mundo real. O
modelo relacional no fornece tal flexibilidade.
A formulao de consultas ao modelo implementado exige o conhecimento da sua estrutura,
limitando o tipo de consultas que poderiam ser feitas, desencorajando a explorao da base
por usurios comuns. Ou seja, apenas especialistas em bancos de dados poderiam fazer tais
consultas, fato que refora a nfase a ser dada na simplicidade do modelo de dados, para que
possa ser compreendido pelos usurios.
Existem, no entanto, benefcios na adoo de um modelo relacional para os bancos de dados
para biologia molecular. A teoria da normalizao, baseada em dependncias funcionais,
garante a ausncia de anomalias na base. A implementao relacional responsvel ainda
pela obteno de respostas rpidas s consultas, e por simplificar a tarefa de programao.
Em oposio a estes fatos, a validade da normalizao se torna irrelevante se a tupla no pode
representar o dado em questo, e a rapidez no pode ser avaliada se a consulta desejada no
pode ser feita. Adicione-se a isso o fato de que o modelo relacional no se ajusta facilmente
natureza dos dados biolgicos. Por exemplo, no possvel representar um atributo com
mltiplos tipos de dados, mas isso pode acontecer na natureza.
Em resumo, o modelo relacional representa o mapeamento incompleto do mundo real para o
conjunto de informaes necessrias ao estudo da biologia molecular, tornando a
compreenso e atualizao dos dados bastante difceis. Tais alteraes s poderiam ser feitas
com o completo conhecimento do esquema do banco, e no necessariamente com o completo
conhecimento dos dados biolgicos e de suas relaes.
Uma dificuldade adicional que o modelo relacional no prov facilidades de forma a
compartilhar informaes com outras bases de dados, sendo necessria a carga de tabelas nas
vrias bases e sua permanente atualizao. Assim, as informaes de uma base no podem
apontar para ou serem apontadas por outras bases de dados, fato possvel e de simples
implementao em outros modelos.
Pelas razes descritas acima, diversas implementaes usando outros modelos tm sido
desenvolvidas.
14
Modelo Orientado a Objetos

Algumas bases de dados biolgicas foram implementadas no modelo de dados orientado a
objetos (OO). O modelo OO traz vantagens em relao ao modelo relacional, pois permite
mapeamento direto de conceitos complexos do mundo real em estruturas de dados do modelo
[NK99], [CM95], [Kro93].
O projeto dos objetos do modelo permite determinar o grau de normalizao / simplificao
de cada entidade / objeto envolvido (tal fato no est ligado s regras do modelo).
Com a adoo do modelo OO, o usurio final recebe o benefcio do conhecimento do objeto
de forma completa. Tal modelo tambm prov uma coleo de mtodos e de estruturas para
modelar, manter e consultar os dados.
Porm, o modelo OO tambm apresenta problemas. Objetos so representados em estruturas
de dados fixas, tm mtodos prprios e se relacionam atravs de ponteiros. Isso implica em
que uma alterao no esquema do banco de dados pode acarretar na alterao da estrutura
utilizada e mesmo na reprogramao dos mtodos j implementados. Outro ponto
problemtico a utilizao de ponteiros para os objetos e do identificador nico do objeto
(OID), que, embora relevantes para o modelo, no so necessariamente relevantes em termos
biolgicos. Este fato pode dificultar a compreenso da referncia aos dados por um usurio
comum.
Para dificultar ainda mais o quadro, a herana biolgica nada tem a ver com a herana
advinda do modelo OO. As estruturas da biologia so representadas em uma enorme
variedade de classes, que frequentemente no tm qualquer relao entre si. Assim, no existe
nenhum benefcio em herdar atributos de outras classes de objetos.
Embora o modelo orientado a objetos favorea o mapeamento do mundo real, ainda existem
inmeras deficincias a serem resolvidas, que favoreceram o surgimento de novas
implementaes utilizando outros modelos [NK99].
Modelo Relacional-Objeto
O modelo relacional-objeto o mais adequado para aplicaes de biologia molecular porque
so orientadas a consultas e requerem o uso de dados complexos.
Realmente os bancos de dados que utilizam o modelo de dados relacional-objeto tem sido
recentemente utilizados para o armazenamento de dados de biologia molecular, uma vez que
aliam a facilidade de consulta inerente ao modelo relacional com o tratamento de dados
complexos.
Os bancos de dados que adotam este modelo permitem a formulao de consultas utilizandose funes e operadores definidos pelos usurios. Tais requisitos no existem na definio da
linguagem SQL-2, utilizada nos bancos que adotam o modelo relacional, porm so utilizados
nas linguagens de consulta dos bancos de dados que adotam o modelo relacional-objeto
(estes requisitos esto includos no padro SQL-3).
O AatDB (banco de dados do genoma da Arabdopsis thaliana) pode ser citado como exemplo
de implementao neste modelo.
15
Modelo de Dados Semi-Estruturados

Diversos bancos de dados biolgicos implementam o arquivamento dos objetos utilizando
dados semi-estruturados. o caso do ACeDB e do GenBank. Outros bancos de dados se
utilizam do cdigo do AceDB e portanto utilizam o mesmo modelo. O AceDB optou por este
tipo de implementao pelas facilidades inerentes alterao dos objetos, sem
necessriamente exigir a alterao dos mtodos j utilizados.
Para o AceDB, os objetos so definidos de acordo com uma linguagem cuja sintaxe
semelhante XML [ABS00], onde a representao dos dados pode ser vista como uma
rvore, cujos nodos podem estar presentes ou no e onde existem facilidades (inerentes da
estrutura) no sentido de adicionar, excluir e alterar ns ou sub-rvores. Assim, o AceDB
armazena os dados nessa estrutura (rvore), em formato binrio.
Outras fontes de dados de biologia tm arquivos semi-estruturados, de forma a facilitar a troca
de informaes com outros bancos. o caso do Genbank, que utiliza o padro ASN.1
[IOS87].
Dados com formatos especficos
Os dados complexos podem ser tambm armazenados parte em formatos especficos a fim
de permitirem manipulao por algoritmos (programas) especiais. o caso do formato TFASTA, que facilita a execuo dos algoritmos FASTA e BLAST, para verificao de prexistncia de uma dada sequncia no banco. O prprio GenBank, alm de outros bancos
relacionais implementam este tipo de arquivamento.
3.4 Interface de Acesso

A interface para os usurios destes bancos precisa ser muito bem desenvolvida para que o
acesso aos dados seja facilitado ao mximo. Ela pode prover mecanismos de consultas
triviais, como buscas por palavras-chaves, autores, referncias; mas tambm pode permitir
consultas mais complexas, permitindo a utilizao de operadores lgicos. Alm disso, a
interface deve permitir a execuo de algoritmos necessrios em biologia molecular, como os
de comparao de sequncias (por exemplo o FASTA [Pea91] e o BLAST [AGM+90]).
Interfaces para consultas so muito importantes para facilitar a interao dos cientistas com os
bancos de dados. Os cientistas no esto preparados para manipular linguagens de consultas
complexas e por isso preferem interfaces de usurio grficas e mais intuitivas [MR95].
No simples construir uma interface que permita aos bilogos executar todas as operaes
em biossequncias que desejam com seus respectivos parmetros tendo em vista que a
complexidade dos processamentos sobre as biossequncias e as buscas eficientes sobre um
grande volume de dados so problemas ainda no bem resolvidos.
3.5 Interao
No incio da coleta e do armazenamento dos dados de biologia, os bancos de dados eram
totalmente isolados, isto , no existia nenhuma troca de informao entre eles. Com o passar
do tempo, foi-se tendo a preocupao em integrar estes bancos de dados. Um bilogo, por
16
exemplo, alm de pesquisar por informaes de uma determinada sequncia de nucleotdeos

em um nico banco de dados, gostaria de obter informaes sobre a mesma sequncia
armazenadas em outros bancos de dados. Desta forma, os bancos de dados comearam a fazer
referncias a outros bancos de dados. O banco de dados GDB, por exemplo, possui
referncias ao GenBank, isto consegue-se descobrir qual registro do GDB armazena dados
de uma certa sequncia que est no GenBank [SU94].
Alm disso, diferentes bancos de dados podem possuir os mesmos dados. Por exemplo o
GSDB [HCF+00], um banco de dados relacional implementado em Sybase, interage com os
repositrios de sequncias de DNA DDBJ, EMBL e GenBank [GSDB00]. Desta forma estes
bancos mantm seus dados replicados (parcial ou totalmente) em outros bancos.
3.5.1 Distribuio e Integrao dos Dados
Cada banco de dados de biologia molecular consiste em um grande e variado montante de
tipos de dados, que foram desenvolvidos independentemente, apesar de tais dados serem
muito relacionados uns com os outros. Os cientistas que utilizam tais bancos precisam fazer
consultas em vrios destes bancos. Esta tarefa no simples se eles no contarem com um
sistema que os ajude. por isso que necessria a integrao e o gerenciamento eficiente
destes bancos de dados.
J existem vrios sistemas desenvolvidos que integram bancos de dados de biologia molecular
[SU94],[MCK97],[KDG96]. Mas devido grande dificuldade de se integrar tais bancos,
existem muitos aspectos que ainda no atendem s necessidades dos bilogos.
Os bancos de dados de biologia molecular foram criados por diversos grupos internacionais.
Ainda no existe um padro em algum nvel de abstrao, muito menos em todos os nveis
existentes de heterogeneidade, tais como o modelo conceitual, o modelo de dados, ou a
linguagem de consulta. Isto faz com que tais bancos sejam completamente diferentes uns dos
outros.
Uma infra-estrutura de informao federada precisa tratar da heterogeneidade como uma
considerao primria e prover poderosas ferramentas que identifiquem a heterogeneidade
imediatamente. Os mtodos que no identificam a maioria destes nveis iro falhar mesmo
quando confrontarem com um nmero moderado de banco de dados [Kar95].
3.5.2 Conceitos Diferentes
Alm da heterogeneidade estrutural e de representao j mencionada, existe outra to
importante quanto e mais difcil de ser tratada: a heterogeneidade semntica. Os conceitos que
foram usados na criao dos bancos de dados so muito diferentes. Como por exemplo, a
palavra gene pode ter significados diferentes em bancos de dados distintos [Fre91].
Para que as informaes em bancos de dados heterogneos sejam comparadas, preciso
primeiro entender os diferentes conceitos em ambos. preciso ento escolher entre traduzir
os significados e torn-los uniformes, ou deix-los sozinhos e notar as diferenas. Isto muito
complicado de ser feito porque os conceitos no so claros e seu entendimento depende das
pessoas que projetaram o banco. Alm disso, encontrar documentao sobre estes bancos
uma tarefa bastante complicada pois h muito pouca informao disponvel na literatura.
17
3.5.3 Gerenciamento de Memria

Outra caracterstica a considerar sobre os BDBM a estrutura de armazenamento fsico
(estrutura de dados em memria secundria) para a representao das biossequncias. Em
geral, os bancos de dados convencionais possuem estruturas de armazenamento e mtodos de
acesso como ndices primrios e secundrios, que melhoram o tempo de acesso aos dados.
As aplicaes no convencionais, como os bancos de dados temporais e espaciais, trouxeram
inovaes tanto de estrutura de armazenamento quanto nos mtodos de acesso. E isto motiva
um estudo com o objetivo de encontrar uma estrutura de armazenamento tambm para os
BDBM, j que hoje em dia as biossequncias so armazenadas como simples textos e seus
acessos no levam em considerao nenhuma caracterstica particular de alguma aplicao da
biologia.
possvel supor que se o banco de dados e a memria principal que armazenam as
biossequncias para suas anlises fossem estruturados de maneira mais ad-hoc, levando em
considerao caractersticas particulares de determinadas aplicaes da biologia molecular,
estas aplicaes poderiam vir a ter uma melhora significativa em suas performances.
3.6 Aplicaes e Algoritmos

Existem diversas aplicaes neste contexto de biologia computacional. Entre elas possvel
destacar [MS94]:
Comparao de biossequncias
Compara uma biossequncia a outra a fim de encontrar trechos semelhantes entre elas;
Montagem de fragmentos de DNA
Dadas vrias sequncias de fragmentos de DNA, busca-se reconstituir (fragment
assembly) o trecho de DNA do qual esses fragmentos provieram atravs de
comparaes entre elas;
Mapeamento Fsico de Cromossomo ou Mapeamento Fsico de DNA
Ao se iniciar o estudo de um cromossomo, uma das tcnicas usadas a de quebr-lo
em vrios pedaos atravs de enzimas de restrio. Estes pedaos so ento replicados
atravs de um processo chamado clonagem, que cria cpias desses fragmentos. Essas
cpias recebem o nome de clones. No processo de quebra, a informao de localizao
de cada clone no cromossomo perdida e o problema consiste em recuperar esta
informao;
Construo de rvores Filogenticas
objetivo principal esclarecer histrias evolutivas dos organismos. Este
esclarecimento feito atravs da construo de rvores filogenticas, que mostram
como os organismos atualmente existentes se relacionam atravs de organismos
ancestrais;
Predio de Estruturas
As biossequncias que formam um cido nuclico ou protena so muito mais do que
simples cadeias unidimensionais de nucleotdeos ou aminocidos. Essas cadeias se
dobram de diversas formas e apresentam diversas estruturas tridimensionais. Essas
18
estruturas esto intimamente relacionadas funo das molculas e, portanto, sua

determinao fundamental para o estudo dos cidos nuclicos e protenas. Muitas
estruturas ainda no foram desvendadas e, por esse motivo, muito esforo vem sendo
feito na procura de mtodos computacionais que auxiliem em suas predies.
3.6.1 Algoritmos de Comparao
Entre as aplicaes apresentadas, a comparao de sequncias a operao primitiva mais
importante na rea de biologia computacional e serve de base para muitas outras
manipulaes mais elaboradas. A grosso modo, esta operao consiste em encontrar trechos
semelhantes entre duas ou mais sequncias. Contudo, por trs desta aparente simplicidade,
esconde-se uma vasta gama de problemas distintos, com formalizaes diversas, muitos deles
exigindo algoritmos e estruturas de dados prprias para sua execuo eficiente.
A seguir so dados alguns exemplos prticos de comparao de biossequncias [MS94]:
1. Sejam duas sequncias sobre o mesmo alfabeto com aproximadamente 10.000 caracteres.
Suponha que elas possuem composies idnticas, exceto por divergncias isoladas
(inseres, remoes ou substituies de caracteres) que ocorrem a taxa de um erro a cada
100 caracteres. Deseja-se encontrar estes erros. Este problema aparece quando um gene
sequenciado por dois laboratrios diferentes e deseja-se comparar os resultados, ou
quando a sequncia foi digitada mais de uma vez e deseja-se tratar erros de digitao.
2. Sejam duas sequncias de algumas centenas de caracteres sobre um mesmo alfabeto.
Deseja-se decidir se existe um prefixo de uma delas que seja semelhante a um sufixo da
outra. Em caso afirmativo um alinhamento entre as regies semelhantes deve ser
produzido. Suponha esta mesma situao, exceto que em vez de duas, existam 500
sequncias que devem ser comparadas duas a duas. Estes problemas aparecem no contexto
de montagem de fragmentos em programas de auxlio a sequenciamento de DNA em larga
escala.
3. Sejam duas sequncias de algumas centenas de caracteres sobre um mesmo alfabeto.
Deseja-se decidir se h algum trecho de uma delas semelhante a um trecho de tamanho
aproximadamente igual na outra. A semelhana no medida em termos de porcentagem
de caracteres idnticos, mas em termos de um esquema de pontuao que atribui uma nota
fixa a cada par de caracteres do alfabeto. Dois trechos so considerados semelhantes se a
soma das notas dadas a caracteres alinhados for superior a um dado valor. Suponha esta
mesma situao, exceto que, em vez de duas, temos uma sequncia fixa que deve ser
comparada a vrias outras. Estes problemas aparecem no contexto de buscas de
semelhanas locais usando bases de dados de biossequncias.
Famlias FAST e BLAST
Existem ainda os algoritmos de comparao que so utilizados especialmente em anlises de
biossequncias armazenadas em bancos de dados. As famlias de algoritmos mais utilizadas
atualmente so as FAST [Pea91] e BLAST [AGM+90].
Durante os anos 80, Lipman, Pearson e Wilbur descreveram em detalhes heursticas usadas
em seus programas para buscas em bases de biossequncias [WL83][LP85] [PL88]. O
primeiro programa a surgir foi o FASTP [LP85], que faz buscas com protenas. A seguir
apareceu uma verso para sequncias de nucleotdeos, FASTN. Posteriormente ambos foram
juntados num nico programa chamado FASTA [PL88]. Estes programas efetuam
19
comparaes locais e retornam apenas um alinhamento local - considerado o timo. Mais

tarde, programas que tambm obtm vrios alinhamentos locais (LFASTA, PLFASTA) foram
incorporados famlia de programas FAST. Um sumrio destes programas encontra-se em
[Pea90]. Um estudo extenso sobre a sensibilidade (capacidade de detectar homologias
remotas) e seletividade (capacidade de detectar falsas homologias) de FASTA foi
empreendido por Pearson [Pea91].
Na dcada de 90 surgiram os programas BLAST (Basic Local Alignment Search Tool)
[AGM+90][AMS+97]. O algoritmo BLAST foi desenvolvido por Altschul, Gish, Miller,
Myers e Lipman [AGM+90]. A motivao para o desenvolvimento de BLAST foi a
necessidade de aumentar a velocidade do FASTA. Como na famlia FAST, o BLAST possui
verses para protenas (BLASTP) e cidos nuclicos (BLASTN).
Comentrios Finais
Atualmente existem diversos grupos de pesquisas em bioinformtica nas reas de
algoritmos([MS97], [Sha99], [KRT96]), integrao de BDBM ([MC95], [MCK97]), [Kar95],
[BDO95], [BDH+95]) e construo de ferramentas para o funcionamento completo de um
laboratrio de biologia molecular incluindo interface com o usurio, banco de dados, entre
outras [GRS94].
O nosso grupo de pesquisa, no Departamento de Informtica da PUC-Rio, alm de estudar
estas reas pesquisa estruturas de armazenamento em memria principal e secundria para as
biossequncias que sejam mais adequadas s aplicaes de biologia computacional.
Distribuio e Integrao de BDBMs
No captulo anterior foi comentado o que so e porqu surgiram os BDBMs, a distribuio

dos dados da biologia molecular e a necessidade da integrao dos BDBMs. Neste captulo
sero apresentados requisitos que devem ser cumpridos e algumas suposies simplificadoras
para a integrao de BDBMs e alguns mtodos que so utilizados para se integrar BDBMs.
4.1 Requisitos e Pressupostos de Integrao

Procura-se nesta seo descrever o ambiente heterogneo de fontes de informao de biologia
molecular em termos de requisitos sobre as fontes de dados, as necessidades dos usurios e
funcionalidades do ambiente de integrao. Procura-se com esta descrio conhecer melhor o
problema, que tem diversos aspectos, nem todos atendidos pela tecnologia atual de bancos de
dados.
4.2 Caractersticas das Fontes de Dados

As fontes de dados de biologia molecular podem ser [DOB95]:
arquivos com uma dada estrutura, que precisa ser conhecida para que se possa recuperar
os dados (por exemplo, dados no formato ASN.1 e do GenBank);
arquivos com dados em formato apropriado para troca de informaes e que conta com
interface grfica para consulta (por exemplo, ACeDB);
20
bancos de dados implementados via Sistemas Gerenciadores de Bancos de Dados

(SGBDs), com modelos de dados relacional, orientado a objeto e relacional-objeto e
interfaces de consulta bem definidas;
arquivos com dados em formato apropriado para execuo de determinadas aplicaes
(FASTA, BLAST).
Com o desenvolvimento de novas tcnicas de experimentos na rea da biologia molecular,
novas leis e generalizaes tem sido descobertas. Tal fato tem provocado mudanas radicais
nos esquemas das fontes de dados. Mesmo que seja possvel construir um esquema
satisfatrio que represente as necessidades da rea, isto representa uma pequena parcela das
informaes biolgicas. E mais, ser tambm necessria a integrao destas informaes com
outras no-biolgicas, prevendo-se novas alteraes de esquema advindas da. Assim, o
esquema das fontes de dados no esttico.
Fontes de dados so conectadas via Internet e devem ser capazes de atender a consultas
complexas, embora algumas das existentes atualmente, no atendam a este requisito.
As atualizaes feitas sobre uma fonte de dados local so restritas e controladas pelos seus
mantenedores. duvidoso supor que essa autonomia local seja abandonada para permitir
maior flexibilidade nas transaes, no sentido de suportar a implementao de atualizaes
globais. No entanto, os usurios priorizam o acesso aos dados mais recentes. Portanto, as
atualizaes so relevantes e devem ser feitas a tempo.
4.3 Necessidades dos Usurios

Os usurios tem necessidade de formular consultas complexas sobre a base de dados
distribuda. At recentemente, os usurios se satisfaziam em navegar atravs das fontes de
dados e obter informaes relacionadas a outras quase que por acaso. Muitos esto satisfeitos
com os pacotes de software que utilizam, dotados de uma interface grfica apropriada para a
visualizao de mapas do genoma em estudo. No entanto, a necessidade de anlises avanadas
sobre os dados exige facilidades de formulao de consultas complexas. Alm disso, com os
avanos tecnolgicos na rea de comunicao de dados, os usurios esperam que as respostas
s consultas fiquem mais rpidas.
A interface comumente adotada para consultas consiste na apresentao de um formulrio
onde os usurios preenchem lacunas e opes. Por trs deste formulrio simples, devem,
entretanto, existir camadas de software capazes de suportar consultas arbitrrias feitas base
distribuda e heterognea, complementadas por otimizadores capazes de fornecer, de forma
eficiente, respostas s consultas ad-hoc formuladas.
Atualmente existem aplicativos com interface web que possibilitam a formulao de consultas
a um conjunto pr-definido e limitado de bancos de dados. No entanto, os usurios no devem
ser forados a restringir o nmero de bancos a serem acessados por uma consulta.
Para a formulao de consultas, os usurios tambm no devem conhecer locais fsicos,
esquemas ou mesmo mecanismos de acesso s fontes de dados.
21
4.4 Ambiente de Integrao

Ferramentas especiais de alto nvel devem capturar as mudanas de esquema porventura
existentes em cada banco componente do ambiente heterogneo e incorporar estas mudanas
no esquema global (devem gerenciar a heterogeneidade). [Kar95]
Interfaces especiais sofisticadas devem ser elaboradas de forma a facilitar a formulao de
consultas complexas pela comunidade cientfica em geral.
Em resumo, a meta da pesquisa na rea de biologia molecular a de permitir aos usurios a
interao, com uma srie de fontes de dados, como se estivessem interagindo com apenas
uma. As fontes de dados envolvidas na interao so aquelas que contm informaes
relevantes para a mesma. Estas fontes de dados esto distribudas, so heterogneas e foram
implementadas com modelos de dados distintos. A interatividade acima descrita significa
acesso via Web, formulao de consultas a objetos biolgicos especficos, formulao de
consultas complexas e mesmo atualizaes envolvendo um ou vrios objetos e relaes
biolgicas.
4.5 Mtodos de Interoperabilidade de Bancos de Dados

O objetivo da pesquisa de interoperabilidade em bancos de dados permitir que os usurios
interajam com um conjunto de bancos de dados desconectados e heterogneos como se
estivessem interagindo com cada banco de dados individualmente. "Interao" possui vrios
significados, como, por exemplo, procurar informao sobre um objeto em particular,
executar consultas complexas, executar atualizaes. Ser apresentado a seguir uma breve
descrio dos mtodos de interoperabilidade de BDBMs e uma avaliao deles com relao
aos requisitos que foram expostos anteriormente.
4.5.1 Mtodo 1: Referncias Cruzadas
Neste mtodo, um registro de um banco de dados pode possuir uma referncia a um outro
registro de um outro banco de dados. Com este tipo de referncia, tornou-se possvel que um
usurio obtivesse informaes que esto relacionadas umas com as outras. Por exemplo, o
bilogo encontrou uma seqncia muito parecida com a de seu interesse em um determinado
banco de dados A. Analisando as informaes desta seqncia, ele descobre que mais
informaes sobre ela esto armazenadas em um outro banco de dados B. Logo para
completar sua pesquisa, o bilogo deve se conectar com este outro banco. Neste mtodo o
usurio tem que fazer muitas tarefas que no esto automatizadas.
4.5.2 Mtodo 2: Navegao em Hipertexto
Este mtodo permite aos usurios navegar de um registro de um banco de dados para outro
registro de outro banco de dados, atravs de links entre os dois. Geralmente somente uma
operao suportada: procurar dentro de um banco de dados para encontrar um ponto de
partida (como por exemplo recuperar um registro do GenBank usando o nome de uma
protena), e ento ir para outro banco de dados atravs de link. Por exemplo, um registro do
GenBank possui link para o registro do Medline associado a ele, por isso o usurio atravs do
GenBank pode ver o registros do Medline que o interessarem.
22
4.5.3 Mtodo 3: Data Warehouse

Neste mtodo, um conjunto de bancos de dados heterogneos so traduzidos e carregados
fisicamente dentro de um nico banco de dados chamado data warehouse. Para cada banco de
dados que integrado no data warehouse, preciso definir um tradutor do formato e do
conceito do banco de dados, para o formato e o conceito do repositrio central. Os conceitos
do banco de dados data warehouse precisam conter todos os conceitos dos bancos de dados
componentes que so includos no warehouse. Por exemplo, este mtodo poderia ser utilizado
para carregar o SwissProt, PDB, e o PIR dentro de um grande banco de dados Oracle.
Tradues precisam ser definidas entre os diferentes conceitos do SwissProt, PIR e PDB para
um conceito do warehouse. Uma vez que todos os bancos de dados esto presentes no
warehouse do Oracle, consultas arbitrrias podem ser aplicadas aos dados. O processamento
de consulta mais rpido em sistemas warehouse porque os dados so locais.
4.5.4 Mtodo 4: Bancos de dados Heterogneos Fracamente Acoplados
Esta tcnica permite aos usurios construir consultas complexas que so avaliadas entre vrios
bancos de dados fisicamente distintos e heterogneos. Uma consulta identifica explicitamente
todos os bancos de dados componentes, todas as tabelas e atributos (no caso de SGBD
relacional) que so consultados em cada banco. Uma simples consulta pode incluir referncias
a vrios bancos de dados.
4.5.5 Mtodo 5: Bancos de Dados Heterogneos com Acoplamento Forte
Sistema de bancos de dados heterogneos com acoplamento forte composto por um
conjunto de sistemas de bancos de dados componentes, heterogneos, cooperativos mas
autnomos, integrados de tal forma na federao que consultas e atualizaes podem ser
realizadas, de forma transparente localizao dos dados e aos caminhos de acesso. Tal
transparncia obtida pela traduo dos diferentes esquemas dos componentes para um
modelo de dados comum e integrado, compondo um esquema global. Todas as transaes que
envolvem mais de um banco de dados so definidas em termos do esquema global [Uch94].
O acoplamento forte paga um preo alto na autonomia por ter integrao de esquema. A fim
de participar da integrao, os usurios de bancos de dados individuais freqentemente tm
que comprometer seu jeito de entender e representar a semntica. Como resultado, eles
freqentemente tm que lidar com representaes que no so naturais e nem to adequadas
para suas aplicaes. A manuteno dos esquemas torna-se muito difcil pelo uso da
integrao. Qualquer mudana em um esquema individual, dever estar de acordo com todos
os esquemas participantes da integrao, o que freqentemente requisitar reprojetar o
esquema integrado e recodificar todas as aplicaes dependentes dele [Qia93]. O esquema de
integrao federado no tem sido utilizado em bioinformtica devido possivelmente s
constantes mudanas nos esquemas locais determinados pela evoluo das pesquisas, ao uso
de diferentes modelos de dados e tecnologias, alm da complexidade inerente sua
implementao.
Comentrios Finais
Nessa seo foram apresentados os requisitos e suposies acerca da integrao de BDBMs e
os mtodos de integrao de BDBMs passveis de utilizao. Grande parte da complexidade
de implementao dos mtodos de integrao devida necessidade de se ter um
conhecimento aprofundado em biologia.
23
As similaridades semnticas e as diferenas esquemticas so assuntos muito importantes para

qualquer mtodo que trate da interoperabilidade de bancos de dados, assim, a pesquisa atual
na rea tem tratado de aplicar ontologias e de construir ferramentas de traduo de esquemas.
Outro aspecto importantssimo e no tratado neste trabalho diz respeito s anotaes
biolgicas nas diversas fontes de dados da pesquisa. Tais anotaes requerem ainda uma
observncia cuidadosa com relao qualidade da informao disponvel e a integrao dos
bancos de dados que contm tais anotaes ir facilitar sobremaneira a execuo desta tarefa.
Bancos de Dados de Biologia Molecular
Nesta seo so apresentados alguns exemplos de bancos de dados de biologia molecular,

considerados mais expressivos para o exemplificar o texto. Assim, so detalhados os
seguintes bancos de dados: GenBank, que armazena os dados em flat files no formato ASN.1,
o GSDB que constitui um exemplo de implementao relacional e o ACeDB, que um
exemplo de um banco de dados implementado especificamente para abrigar esta aplicao e
que utiliza um esquema orientado a objetos, com dados armazenados em formato XML.
So ainda apresentados os esforos mais significativos de integrao de bancos de dados
aplicados biologia, de acordo com os mtodos apresentados no captulo anterior. Desta
forma, so apresentados os sistemas SRS (com mtodo de integrao via links), IGD (que
utiliza como mtodo a construo de um data warehouse) e CPL/Kleisli (que tem
acoplamento fraco).
5.1 Exemplos de BDBMs

5.1.1 GenBank
O GenBank hoje o mais importante repositrio amplo de sequncias de nucleotdeos.
usado como referncia no sentido de verificar se uma dada sequncia j est catalogada. O
histrico do volume de sequncias armazenadas no GenBank demonstra que, a cada ano, o
nmero de sequncias armazenadas, bem como o nmero de bases, cresce cerca de 70% por
ano. A cada ano novas verses da base so disseminadas. Cada verso pode ter alterao na
quantidade de informaes armazenadas, bem como a incluso ou alterao de atributos, ou
mesmo a incluso ou alterao de conceitos biolgicos.
O GenBank mantm arquivos contendo estruturas ASN.1. Tais estruturas implementam um
tipo de modelo de dados semi-estruturado, bastante til para troca de informaes com a
comunidade cientfica. Segue-se um exemplo de descrio do formato ASN.1 para a entidade
de dados Publicaes do GenBank, utilizando a notao em CPL [BDH+95] .
Publications={[title: string,
author: { || [name: string, initial: string] || },
journal: < uncontrolled: string,
controlled: < medline-jta: string,
% Medline journal title abreviation
iso-jta: string,
% ISO journal title abreviation
journal-title: string,
% Full journal title
issn: string > >
% ISSN number
volume: string,
24
issue: string,
year: int,
pages: string,
abstract: string,
keywd: { string } ] }
A notao utilizada no exemplo descrito anteriormente apresentada a seguir.
Descrio dos tipos
Notao
Terminologia ASN.1
Lista
{ || || }
Sequncia de
Conjunto
{ }
Conjunto de
Registro
[ l1: 1, , ln: n]
Sequncia
(campos rotulados)
< l1: 1, , ln: n>
Variante
Escolha
(atributos de estruturas, do tipo union da linguagem C, rotulados)

Esquema e evoluo
O Genbank armazena sequncias de nucleotdeos e protenas, alm de informaes biolgicas
relevantes sobre cada sequncia, que so, por exemplo, o nome cientfico e a taxonomia do
organismo de origem, um conjunto de anotaes que especificam regies codificantes na
sequncia e tambm outras regies de relevncia biolgica. Nestas anotaes esto includas
ainda informaes sobre as protenas sintetizadas nas regies codificantes que foram anotadas
(funo, estrutura, etc.). Um registro do GenBank identificado pelo atributo nmero de
acesso. A seguir apresentado um exemplo de registro do GenBank . Cada registro possui
rtulos que definem a informao que est armazenada.
LOCUS
ABCRRAA
118 bp ss-rRNA
RNA
15-SEP-1990
DEFINITION Acetobacter sp. (strain MB 58) 5S ribosomal RNA, complete sequence.

ACCESSION M34766
KEYWORDS
SOURCE
5S ribosomal RNA.
Acetobacter sp. (strain MB 58) rRNA.
ORGANISM Acetobacter sp.

Prokaryotae; Gracilicutes; Scotobacteria; Aerobic rods and cocci;
Azotobacteraceae.
REFERENCE 1 (bases 1 to 118)
AUTHORS Bulygina,E.S., Galchenko,V.F., Govorukhina,N.I., Netrusov,A.I.,
Nikitin,D.I., Trotsenko,Y.A. and Chumakov,K.M.
TITLE
Taxonomic studies of methylotrophic bacteria by 5S ribosomal RNA

sequencing
JOURNAL J. Gen. Microbiol. 136, 441-446 (1990)
25
FEATURES
Location/Qualifiers
rRNA
1..118
/note="5S ribosomal RNA"

BASE COUNT
27 a
40 c
32 g
17 t
2 others
ORIGIN
1 gatctggtgg ccatggcggg agcaaatcag ccgatcccat cccgaactcg gccgtcaaat
61 gccccagcgc ccatgatact ctgcctcaag gcacggaaaa gtcggtcgcc gccagayy
Os rtulos referem-se s seguintes informaes biolgicas:
Locus: nome curto escolhido para sugerir a definio da sequncia.
Definition: descrio concisa da sequncia.
Accession number: nmero de acesso primrio, um valor nico e imutvel atribudo para
cada sequncia.
Nid: identificador nico da sequncia cido-nuclica que atribudo pelo NCBI ao registro
de sequncia do GenBank. Enquanto o accession number uma chave de recuperao nica
para um registro no banco de dados, mesmo que alguma modificao tenha sido feita, o Nid
muda sempre que uma sequncia modificada.
Keywords: palavras-chave associadas ao gene ou a outras informaes sobre o registro.
Segment: informaes sobre a ordem em que este registro aparece na srie de sequncias
descontnuas de uma mesma molcula.
Source/Organism: O campo Source consiste de duas partes. A primeira parte encontrada
depois do rtulo Source e contm o nome do organismo onde a sequncia foi encontrada. A
segunda parte consiste de informaes encontradas depois do rtulo secundrio Organism.
Ela possui o nome cientfico formal do organismo (gnero e espcie, onde foi catalogado)
seguido por sua taxonomia.
Reference: citaes a todos os artigos que contm dados sobre este registro. Ele composto
pelo nmero da referncia e o local das bases na sequncia citada e por mais cinco partes:
Authors, Title, Journal, Medline, e Remark.
Authors: lista os autores na ordem em que eles aparecem no artigo citado.
Title: ttulo da publicao.
Journal: citao da literatura para o registro da sequncia. A palavra Unpublished aparecer
depois do rtulo secundrio Journal se os dados no aparecerem na literatura cientfica, mas
foi diretamente depositado no banco de dados. Para as sequncias publicadas a linha Journal
contm a tese, a revista, ou o livro, incluindo o ano de publicao.
Medline: identificador nico da National Library of Medicine's Medline para a citao (se
conhecida).
Remark: comentrio que especifica a relevncia da citao do registro.
Comment: referncias cruzadas para outras sequncias, comparaes com outras colees,
anotaes de modificaes no nome do Locus e outras observaes.
26
Features:
sequncia.
tabela que contm caractersticas encontradas em determinados stios da
Base Count: sumrio do nmero de ocorrncias de cada cdigo base na sequncia.

Origin: especificao de como a primeira base da sequncia relatada est localizada dentro do
genoma. Isto possivelmente inclui sua localizao dentro de um grande mapa gentico.
Sequence: informa a sequncia de nucleotdeos.
O Genbank passou por diversas alteraes de esquema, cada uma delas para representar novas
informaes, tais como:
representao de sequncias de protenas, a partir das de nucleotdeos que esto
armazenadas no banco.
dados de genes, observados nas sequncias, que foram armazenados no formato EST
(Expressed Sequence Tags).
informaes biolgicas relevantes sobre uma sequncia (e no apenas genes), que foram
armazenadas no formato STS (Sequence Tagged Site).
informaes de sequncias obtidas atravs de um processo de sequenciamento
especfico, que foram armazenadas no formato HTGS (HighTthroughput Genomic
Sequence).
informaes de mutaes de genes, no formato SNP (Single Nucleotide Polimorphisms).
taxonomia.
estrutura tridimensional de protenas.
links para a literatura (MEDLINE).
A cada alterao de esquema, os dados so atualizados, sendo que a sequncia recebe um
novo identificador (nmero de acesso). O identificador anterior armazenado de forma a no
se perder a referncia anterior. Tal fato tem como objetivo permitir que os usurios
acostumados a utilizar um conjunto de identificadores de sequncias em suas pesquisas no
necessitem atualizar tais identificadores a cada mudana de esquema.
Arquitetura do ambiente do GenBank
A submisso de sequncias ao banco feita atravs dos seguintes programas:
BankIt, interface de submisso via Web.
Sequin, software stand alone de interface de submisso via Mail.
Existem tambm servios batch para envio de sequncias ao banco em formatos
especiais, que so: EST (expressed sequence tags), STS (sequence tagged site) e HTGS
(high throughput genomic sequence). Essas submisses geram o arquivamento das
sequncias em bancos de dados especficos.
O GenBank tem, parte, um banco de dados de mutaes denominado SNP (single
nucleotide polymorphism) onde possvel submeter sequncias a esta base.
O GenBank troca dados com os bancos EMBL, DDBJ e GSDB de forma a manter o
repositrio de sequncias o mais completo possvel. Os dados do GenBank so
27
disponibilizados via WWW, rede local ou mesmo via execuo local, cujo cdigo obtido
por FTP, atravs das seguintes ferramentas:
aplicativo Entrez, que consiste de uma interface de integrao dos dados de sequncias
com dados de outros bancos contendo informaes referentes taxonomia, estrutura 3D, populao e genome assembly. Tambm so disponibilizados, atravs desta interface,
dados de publicaes relativas s sequncias.
similaridade de sequncias, que disponibilizada por um conjunto de programas que
executam o algoritmo bsico BLAST.
buscas nos bancos de dados especializados dbEST, dbSTS e dbGSS (Genome Survey
Sequence).
O mecanismo de consulta ao GenBank dado atravs do aplicativo Entrez, que tem verso
WWW. A consulta pode ser feita via atributos palavra-chave, sequncia e UID. No
permitido o acesso s estruturas do banco via browse. Um usurio comum do banco no
acessa diretamente as suas estruturas, via SQL ou outras funes.
Existem mecanismos de exportao de dados que permitem aos usurios receber as
sequncias solicitadas em formato texto, ou mesmo a base completa em arquivo no formato
ASN.1. O formato ASN.1 usado para gerar estruturas de dados estticas da linguagem C, a
serem compiladas com as aplicaes (por exemplo Entrez). Desta forma a interface
periodicamente modificada para acomodar mudanas no esquema do banco ou mesmo novos
tipos de consultas. O mesmo pode ser feito com aplicaes dos usurios.
Integrao com outros bancos de dados
O GenBank conta com uma aplicao (Entrez) que implementa a integrao entre diferentes
bancos de dados, atravs de consultas baseadas em formulrios. Ao se acessar o aplicativo,
uma pgina www dinmica apresentada, onde possvel selecionar o banco a ser
pesquisado, segundo critrios que so informados. Os dados resultantes da consulta podem ser
utilizadas para uma consulta posterior.
Os bancos de dados que participam da integrao so:
Nucleotide -
sequncias derivadas do GenBank.
Protein -
protenas derivadas de sequncias do GenBank.
Genome -
montagens de cdigo gentico.
Structure -
estruturas 3-D de protenas.
PopSet - sequncias de populaes.

PubMed -
dados bibliogrficos do MEDLINE e de outros bancos.
Cabe ressaltar que todos os bancos que participam da integrao tem links entre si.
5.1.2 GSDB
O GSDB um banco de dados relacional, implementado em Sybase, e se dedica a dar suporte
pesquisa cientfica atravs da criao, manuteno e distribuio de uma coleo de
sequncias de DNA e de informaes correlatas. Em cooperao com os maiores repositrios
de sequncias de DNA (DDBJ, EMBL e GenBank), o GSDB permite o acesso e coleciona
dados diretamente dos autores de diversas maneiras, incluindo as mais novas formas de
acesso aos dados advindas das necessidades de sequenciamento em larga escala, a saber:
28
direta atualizao da base de dados. Centros de pesquisa que utilizam o SGBD Sybase
podem implementar aplicaes que atualizem diretamente a base de dados, utilizando
um acesso cliente-servidor. Neste caso, o centro de pesquisa responsvel pela
qualidade da informao armazenada.
via World Wide Web. O servidor Web oferece diversos mecanismos de acesso,
inclusive consultas ad-hoc em SQL. No caso de atualizao da base, os dados
submetidos passam por um processo de controle de qualidade do GSDB.
cpia da base. Os centros de pesquisa que dispem de uma licena do tipo cliente do
Sybase podem acessar uma cpia read-only da base, utilizando tanto as ferramentas de
acesso providas pelo SGBD como programas especficos para tal.
A evoluo do GSDB teve os seguintes marcos:
em 1979, incio de operao no Los Alamos Sequence Library.
de 1982 a 1992, operou como GenBank. A base de dados relacional foi implementada
em 1989.
em 1993, tornou-se Genome Sequence DataBase.
em 1994, a base foi para o National Center for Genome Resources.
em 1996, gerada uma nova verso da base, denominada 1.0.
Esquema e evoluo
O GSDB armazena informaes sobre sequncias, publicaes e membros da comunidade
cientfica. Tais informaes esto tambm disponveis no GenBank. Estas bases de dados
trocam informaes diariamente no sentido de compatibilizar os respectivos contedos. Para
modelar a base de dados, foi utilizado o modelo de entidades e relacionamentos [Che76].
Assim, por exemplo, a entidade sequncia est relacionada entidade gene e o tipo de
relacionamento de um-para-muitos. Da mesma forma, uma sequncia pode constar de
diversas publicaes, cada uma elaborada por diversos autores. Um autor pode tambm
participar de inmeras publicaes. O relacionamento entre as entidades sequncia e
publicaes tambm do tipo um-para-muitos, enquanto que o relacionamento entre as
entidades publicaes e autores do tipo muitos-para-muitos.
A seguir, apresentada uma breve descrio dos enfoques que influenciaram a evoluo do
modelo de dados do banco, a saber:
o modelo tradicional de bancos de dados cientficos (entrada de dados de sequncias via
citaes em publicaes cientficas),
o modelo de publicao eletrnica de dados (entrada de dados de sequncias via
submisso direta feita por laboratrios de sequenciamento ou por pesquisadores),
anotaes da comunidade cientfica (possibilidade de anotaes de informaes
adicionais sobre as sequncias feitas pela comunidade cientfica), e
o modelo de banco de dados federados (diviso da base em trs, uma contendo os dados
das sequncias, outra de publicaes e a terceira de membros da comunidade cientfica).
No caso, a dita federao local e so mantidos links com outros bancos de dados.
A primeira implementao do GSDB foi baseada no modelo tradicional. Neste modelo, os
dados de sequncias, de artigos e de membros da comunidade cientfica eram coletados a
29
partir das publicaes cientficas e armazenados em arquivos do tipo texto. Estes arquivos
eram ento disponibilizados para a comunidade. Em 1986 a gerao de sequncias cresceu
acima da capacidade administrativa do GSDB, que ficou impossibilitado de acompanhar tal
crescimento. Alm disso, as prprias editoras passaram a limitar a quantidade de novas
sequncias a serem publicadas. Desta forma, a informao contida no banco de dados ficaria
incompleta se no ocorresse uma mudana no modelo de captura de informaes.
O novo modelo foi denominado publicao eletrnica de dados. Neste modelo, os
pesquisadores comunicam as suas descobertas diretamente ao banco de dados e so
responsveis por assegurar a qualidade da informao. Desta forma, a administrao do
GSDB trocou a funo de coleta e garantia de qualidade dos dados por outras. Ficou
responsvel pela manuteno da estrutura do banco, pelo desenvolvimento de novas
ferramentas de software, pelo projeto dos novos processos de obteno dos dados e pelo
suporte aos usurios. Assim, em 1987 o banco de dados passou a ser suportado por um SGBD
relacional e a permitir a submisso de sequncias via processo batch. O processo batch foi
escolhido porque poucos membros da comunidade cientfica tinham acesso Internet.
Em 1992 novas necessidades surgiram. Foi necessrio reduzir a interveno da equipe na
base, no sentido de submisso manual de sequncias e no suporte comunidade para adio e
correo de dados de sequncias e de anotaes biolgicas. Assim, em 1994 houve novo reprojeto do banco de dados para suportar as seguintes necessidades:
alterao das informaes, de forma on-line (via Internet), pela comunidade cientfica,
em substituio ao processo batch existente,
facilidades de incluso de novas anotaes por pessoas da comunidade, que no aquelas
que submeteram a sequncia, de forma a se ter uma completa caracterizao das
mesmas,
facilidades de modularizao dos servios e suporte a links com outros bancos de dados,
de forma a se criar uma federao de servios de genoma. Este suporte baseia-se na
concepo e implementao de um banco de dados federativo que minimize o escopo de
cada banco de dados participante da federao. Os mantenedores dos bancos de dados
gastam recursos substanciais para armazenar informaes adicionais sobre as
sequncias, tais como: taxonomia, genes e dados bibliogrficos. O princpio bsico da
federao trata do armazenamento das sequncias nos bancos de dados principais, com
links para estas informaes adicionais.
O novo esquema do banco foi criado em 1995 e aperfeioado em 1996, gerando a verso 1.0,
que, de forma sucinta, contm as seguintes caractersticas:
adoo de critrios de segurana e qualidade dos dados. O ponto central da segurana
o critrio de propriedade. O usurio que inserir um dado no banco o dono daquela
informao e s ele pode modific-la (os administradores do banco tambm podem
faz-lo). Outros usurios podem acessar o dado para leitura, desde que este seja um
dado pblico. O dono da informao informa a privacidade do dado: pblico ou
privado. Um software especial do SGBD verifica a qualidade dos dados pblicos e os
disponibiliza para a comunidade.
incluso de novos tipos de dados, como por exemplo a representao de alinhamentos
de mltiplas sequncias, sequncias descontnuas (com informaes sobre gaps), dados
confidenciais de sequncias e resultados de anlises. O esquema do banco permite
tambm que se represente colees de elementos especficos do banco (grupos de
30
sequncias, componentes de alinhamentos, colees e unidades de publicao

eletrnica).
Arquitetura do ambiente e interface com os usurios

O GSDB est implementado em um sistema de gerncia de banco de dados comercial. Uma
camada de software que permite a visualizao dos objetos do banco est disponvel aos
usurios e esta camada faz acesso ao banco. Os usurios e desenvolvedores acessam o SGBD
e suas aplicaes diretamente (via SQL) ou atravs da camada de objetos.
5.1.3 AceDB
O ACeDB (A Caenorhabditis elegans Data Base) um sistema de gerncia de banco de dados
que alm de armazenar os resultados de projetos de sequenciamento e mapeamento de em
larga escala, permite representar dados de experimentos genticos de uma forma bastante
flexvel. O ACeDB foi criado por Richard Durbin (Sanger Centre, Cambridge - UK) e por
Jean-Thierry-Mieg (CNRS, Montpellier FR). O nome ACeDB alm de indicar o software de
gerenciamento de banco de dados, indica tambm a base de dados resultante do
sequenciamento do DNA do nematide C. elegans.
O software consiste de:
mdulo de gerenciamento de banco de dados central (kernel), com dados baseados em
um modelo flexvel, projetado especificamente para manipular informaes biolgicas,
mdulo de interface com os usurios, dotado de recursos grficos e que tem telas
especficas para representar tais informaes,
conjunto de ferramentas que lidam com informaes biolgicas (por exemplo, o
software gene finder, desenvolvido por Phil Green, na Washington University, St.
Louis).
O software ACeDB tem sido mantido pelos seus desenvolvedores. Como seu cdigo fonte
distribudo gratuitamente, diversos pesquisadores tem feito implementaes adicionais, que
so tornadas pblicas. Assim, a comunidade cientfica que utiliza tal ferramenta tem se
beneficiado de constantes atualizaes e de novas implementaes.
O ACeDB portanto uma ferramenta genrica, que utilizada por diversos laboratrios, para
armazenamento de resultados de sequenciamentos de diversos organismos: bactrias, fungos,
plantas e mesmo de alguns cromossomos humanos.
Esquema e evoluo
O ACeDB um sistema orientado a objetos. Para os bilogos, esta forma de representao
dos dados mais intuitiva que a utilizada em tabelas relacionais. Cada objeto representado
por um nico identificador, o seu nome, e contm diversos atributos organizados sob a forma
de uma rvore. Os ns da rvore so tambm nomeados e apontam para outros objetos ou so
folhas e contm valores, que podem ser numricos ou cadeias de caracteres. Assim, o modelo
flexvel porque permite, com facilidade, a adio de novos ns, em substituio s folhas da
rvore. Cada objeto alocado a uma classe e, atravs desta representao, possvel a
construo de sub-classes de objetos. Comentrios podem ser adicionados em qualquer ponto
da rvore.
31
Cada classe tem portanto uma estrutura de dados em forma de rvore, onde est delimitada a
altura de cada sub-rvore e os tipos de dados ou sub-classes que so permitidos em cada
posio. A esta estrutura de dados dado o nome de modelo. Objetos so instncias das
classes e, em geral, seus dados no contm todas as informaes vlidas e possveis da
estrutura. Esta representao traz as seguintes vantagens:
objetos ainda pouco estudados podem ser representados pois ramos da rvore com
informaes ainda desconhecidas, podem estar ausentes. Mesmo que tais objetos sejam
numerosos no banco de dados, ocupam pouco espao em disco e em memria,
aumentando a eficincia do sistema.
se houver necessidade de extenso do esquema, fato que bastante comum e frequente
na rea, basta alterar a estrutura com a extenso desejada. Cabe observar que todos os
dados que existiam na base permanecem vlidos. Apenas no contm informaes sobre
a extenso feita.
possvel a incluso de anotaes biolgicas relevantes sobre os dados (na forma de
comentrios), sem afetar os algoritmos de busca de informaes.
Os desenvolvedores do ACeDB, de forma deliberada, evitaram a implementao da herana
mltipla mas permitiram que dois objetos possam ter sub-rvores comuns. Por exemplo
considere a representao de dois objetos do tipo Gene, um estudado atravs da gentica
clssica (no-clonado) e outro obtido por similaridade com uma protena de outro organismo
(clonado). Estas instncias podem ser consideradas como arqutipos de duas sub-classes da
classe Gene.
No ACeDB os objetos so representados em duas classes: a classe tipo B, que representa
objetos na forma de rvore e a classe tipo A, que representa objetos como arrays de dados,
forma esta de representao das sequncias de DNA.
A razo do sucesso do ACeDB est nesta representao flexvel do esquema do banco, que
permitiu a sua adoo para armazenamento de dados do sequenciamento de diversos
organismos, bastando adequar a estrutura (modelo) dos dados s informaes que se deseja
representar.
Para a definio do modelo de dados, O ACeDB conta com uma linguagem prpria (Data
Definition Language). Para exemplificar a linguagem apresentada a seguir uma parte da
definio da classe Gene e um exemplo de uma instncia da classe.
// definio da classe Gene
?Gene Reference_allele
Molecular_information
?Allele
Clone ?Clone XREF Gene
Sequence ?Sequence XREF Gene
Map Physical pMap UNIQUE ?Contig XREF Gene UNIQUE Int

Autopos
Genetic gMap ?Chromosome XREF Gene UNIQUE Float UNIQUE Float
Mapping_data
2point ?2point_data
3point ?3point_data
32
Location ?Laboratory #Lab_Location

?Lab_Location Freezer Text
Liquid_N2 Text
// instncia da classe Gene
ced-4 Reference_allele
n1162
Molecular_information
Clone MT#JAL1
Map Genetic gMap III -2.7

Mapping_data 2point "ced-4 unc-32/+ +"
Location Cambridge Freezer A6
O ACeDB representa internamente os dados em forma de rvore, em formato binrio. A

entrada dos dados (e sada) feita via arquivos ASCII denominados ACE files, onde as
informaes so representadas de acordo com uma sintaxe especfica, semelhante XML
[XML98]. A seguir, apresentado um exemplo de arquivo de entrada de dados do ACeDB.
No exemplo dado, definida a sequncia de nome ACT3, com ttulo, referncia base EMBL
e o seu DNA. Em seguida, no mesmo arquivo mostrada a forma de atualizao dos dados
armazenados atravs da troca do nome de uma sequncia de zk643 para ZK643 (se a primeira
existir).
// definio de uma sequncia
Sequence ACT3
Title ``C. elegans actin gene (3)''
Library EMBL CEACT3 X16798
// DNA correspondente sequncia (classe A)
DNA ACT3
aagagagacatcctcccgctcccttcccacacccacttgctcttttctat
tgaccacacattatgaagataaccatgttactaatcaaattcgtgttctt
ttccaatttctttttc
// troca do nome de uma sequncia
-R Sequence zk643 ZK643
// R significa rename
O software conta tambm com uma linguagem de consulta prpria denominada AQL
(ACeDB Query Language) que foi projetada de acordo com os conceitos utilizados nas
linguagens OQL [Cat94] (proposta pelo ODMG para linguagem de consulta a bancos de
dados orientados a objetos), Lorel (linguagem de consulta a dados semi-estruturados no
sistema
Lore,
desenvolvido
em
Stanford
[GMW+97])
e
Boulder
(http://stein.cshl.org/software/boulder/) sistema de acesso aos dados via valor de atributo,
desenvolvido por Lincoln Stein para o Whitehead Genome Center).
33
Integrao com outros bancos de dados

O ACeDB no tem integrao com outros bancos de dados. No entanto nada impede que uma
dada definio de um objeto (modelo do objeto) tenha ponteiros para objetos de outros bancos
de dados. Alm disso, como o formato dos arquivos de entrada e sada so bem definidos, isto
, contam com uma sintaxe prpria, suas informaes so, de certa forma, apropriadas para
integrao. Faltando aliar o componente semntico atravs, por exemplo, da adoo de uma
ontologia.
Interface com os usurios
O ACeDB permite acesso s informaes da base via interface textual e grfica. No entanto,
bastante aceito na comunidade cientfica em virtude de sua interface grfica, que apresenta,
para os usurios as informaes biolgicas em um formato bastante apropriado. As telas
grficas disponveis incluem a exibio do mapa gentico, do mapa fsico e da sequncia. O
ACeDB permite tambm a adio de imagens aos dados, assim, possvel apresentar por
exemplo a imagem do gel, entre outras. O mapa gentico informa os stios geneticamente
relevantes (por exemplo, posies de mutaes ou de marcadores moleculares). O mapa fsico
fornece uma viso de superposies de sequncias no cdigo gentico, via contigs, sequncias
e marcadores. A exibio de dados de sequncias contm regies codificantes (genes), regies
de similaridade e regies promotoras, entre outras. O ACeDB tambm exibe o gel resultante
do sequenciamento.
5.2 Integrao de Bancos de Dados de Biologia Molecular

5.2.1 SRS - Sequence Retrieval System
O sistema SRS (http://expasy.cbr.nrc.ca/srs5) um exemplo de integrao utilizando links.
Integra mais de trinta e cinco bases de dados com informaes biolgicas atravs da
implementao de links entre objetos que compem estas bases. A lista completa est em
http://srs.ebi.ac.uk/srs5list.html.
O sistema permite a formulao de consultas atravs de uma linguagem prpria. A linguagem
foi inicialmente projetada no sentido de interpretar informaes em bancos de dados que
utilizam arquivos texto como forma de armazenamento (flat files). A sintaxe de cada um
descrita em camadas. Inicialmente so descritos os registros de um banco, em seguida as
estruturas de dados de cada registro e finalmente os tems de dados que compem as
estruturas.
Na linguagem pode-se especificar que bancos procurar e sobre que atributos efetuar as
consultas. Por exemplo, a consulta: Selecione o atributo DEFinition no banco de dados PIR,
onde o valor do atributo = elastase, seria expressa como:
[pir-def:elastase]
Os comandos da linguagem podem ser embutidos na linguagem C, atravs de uma API
especialmente desenvolvida, tornando a ferramenta bastante til.
Exemplo de uso da API:
34
#include <stdio.h>
#include "srs.h"
int main ()
{
SrsEnv ();
LibOpen ();
if (Query ("[swissprot-def:elastase]", "Q1"))
printf ("query Q1 found %d entries\n", SetSize ("Q1"));
}
Este mtodo de integrao bastante popular entre os pesquisadores em biologia molecular e
existem diversas implementaes baseadas em links.
Em algumas implementaes, os links so percorridos no sentido de se atender a uma dada
consulta e, neste caso, existe perda de significado semntico no percurso. Por exemplo, o
banco LinkDB utiliza os percursos via links para atender a consultas. Ao se questionar, neste
banco, quais as publicaes que se referem a uma dada protena ?, o atendimento consulta
procura pela protena no banco de dados Swiss-Prot, porm este banco no tem links para o
banco Medline (de publicaes), no permitindo o acesso de forma direta. Assim, por
exemplo, pode-se caminhar via GenBank, que pode ser percorrido via Swiss-Prot (a protena
tem link com as sequncias onde aparecem), e que tem links para o Medline. O problema
aparece quando a sequncia do GenBank tem mais de uma protena anotada pois a resposta
das publicaes pode ser referente a uma outra protena da sequncia e no aquela que deu
origem consulta.
5.2.2 IGD
O Integrated Genomic Database (http://igd.rz-berlin.mpg.de/~www/lpi.html) [Rit94] um
exemplo de um data warehouse de biologia molecular [Mar95].
O IGD prov um esquema comum para os bancos de dados subjacentes, uma interface de
usurio grfica popular (AceDB) e facilidade de consulta. Como a maioria das atualizaes
aos bancos de dados ACeDB so feitas atravs de arquivos textos e no atravs de sistemas de
gerenciamento de transaes esperado na maioria dos SGBDs, atualizaes dirias s so
eficientes porque no feita muita checagem de restrio [DOB95].
Neste mtodo a integrao reside fisicamente em um local, pode ser consultada sem acesso
remoto a banco de dados e por isso permite acesso rpido aos dados. No entanto, possvel
imaginar um cenrio onde consultas em um esquema virtual IGD so traduzidas em consultas
em dados originados dos bancos de dados bases do IGD [DOB95].
O custo de manuteno deste sistema muito alto. No est claro quais ferramentas foram
construdas no projeto do IGD para tratar da evoluo dos esquemas e dos dados. Atualmente,
os BDBMs possuem tamanhos modestos e o recarregamento do banco de dados praticvel.
Mas isto no ser verdade no futuro onde atualizaes incrementais sero inevitveis. Nesta
hora, questes como evoluo de esquemas, manuteno do nvel dos dados, e manuteno
de tabelas de ligao sero predominantes [DOB95].
35
5.2.3 CPL/Kleisli
O sistema CPL/Kleisli tem como mtodo de integrao o acoplamento fraco. Foi
desenvolvido por um grupo da University of Pennsylvania [BDH+95] [HWO+94] [Won94].
Sua implementao, chamada Kleisli, inclui uma poderosa linguagem de consulta chamada
CPL que modela complexos tipos de dados de bancos de dados tais como listas, conjuntos,
registros, e variaes usadas em ASN.1 [IOS87]. CPL pode expressar consultas em tais tipos
de dado, e pode codificar regras de tranformaes entre tipos de dados, tais como projees
para simplificao de tipos complexos. Kleisli tem sido usada para responder com sucesso
uma das consultas consideradas desafios pela DOE Informatics Summit [Rob94]: Encontre
informao nas seqncias de DNA conhecidas de um cromossomo humano 22, assim como
as informaes de seqncias homlogas de outros organismos. Kleisli responde tal consulta
combinando informaes de localizao de cromossomo de um servidor Sybase GDB com
seqncias e dados homlogos do servidor GenBank Entrez (ASN.1) [BDH+95] [Kar95].
O sistema CPL/Kleisli [BDH+95] suporta consultas ad hoc formuladas sobre bancos de dados
distribudos e heterogneos. Hoje o sistema tem sido usado para integrar recursos autnomos,
somente de leitura, atravs de vises de usurios(mediadores). Neste modo, CPL/Kleisli
oferece as seguintes vantagens: uma interface uniforme para sistemas heterogneos,
construo barata, e manuteno relativamente barata de consultas complexas entre os
mltiplos bancos de dados; tratamento uniforme dos recursos heterogneos e de algoritmos de
anlises do banco de dados (ex. BLAST); otimizao de consultas distribudas incluindo
paralelismo e lazy evaluation; um sistema de tipos necessrio para a integrao de recursos
heterogneos; e modularizao dos drivers de dados para acesso aos recursos distribudos
[DOB95].
No entanto, existe uma desvantagem significativa no estilo do mediador desta integrao.
Experimentos com o sistema CPL mostraram que o sistema de rede existente muito frgil e
muito lento para permitir tempos de respostas adequados para muitas consultas distribudas.
claro que isto depende fortemente do recurso em particular que est sendo acessado; consultas
no servidor Entrez so intolerveis, enquanto que as consultas nos sistemas de bancos de
dados relacionais locais so rpidas, robustas e podem ser paralelizadas para obter
significativas melhoras na performance. Alm disso, enquanto atualizaes em sistemas
individuais subjacentes podem ser executadas dentro do sistema CPL-Morphase [DHK95],
atualizaes a nvel global ainda no so suportadas [DOB95].
Comentrios Finais
A rea de bioinformtica hoje em dia uma das mais interessantes e importantes da

computao, trazendo vrias novas questes e problemas em aberto para os pesquisadores da
rea. Com a atual corrida de sequenciamento e a evoluo tecnolgica, o volume de dados
hoje bastante considervel e tende a crescer muito nos prximos anos. Assim, natural que os
SGBDs sejam sistemas pensados em prover suporte ao armazenamento e acesso eficientes aos
dados.
Nesse trabalho foram descritos alguns aspectos relacionados ao uso de sistemas de bancos de
dados, em particular as anlises de sequncias e respectivos algoritmos e os problemas de
integrao das bases. Alm disso, foram apresentados alguns projetos e bancos de dados
dentre os mais representativos discutidos na literatura.
36
Existem alguns projetos de pesquisa sendo realizados em todo mundo, no Brasil em

particular, mas na rea de banco de dados ainda h relativamente poucos resultados obtidos. O
foco principal tem sido na integrao das bases de dados e todos os aspectos relacionados.
Porm, h vrios outros problemas interessantes em aberto, entre eles, a prpria definio do
modelo de dados mais apropriado.
Outro assunto interessante que tem interessado nosso grupo de pesquisa diz respeito aos
esquemas de armazenamento e gerncia de memria para lidar com as biossequncias. Como
em outras reas para os quais SGBDs foram especializados como por exemplo, SGBD
espaciais, temporais, etc. - possvel que se pense em estruturas de armazenamento melhor
adaptadas ao contexto da aplicao. Entre outros temas de pesquisa h o estudo de possveis
ndices (ou filtros) para uso nos algoritmos de anlise e comparao de sequncias. Quanto
gerncia de memria, pode-se pensar em estruturas e mtodos para disponibilizar o maior
nmero de biossequncias para utilizao nos programas de comparao.
Independente de ser uma rea relativamente nova e na qual poucos pesquisadores tm tido
acesso bibliografia e aos dados e processos, fato que se trata de uma rea das mais
promissoras para a computao, em particular a rea de banco de dados. Sem o devido suporte
de SGBDs cientficos, o volume de dados esperado no banco de dados to grande e
complexo que poderia vir a inviabilizar todo o esforo de sequenciamento feito at agora.
Referncias
[ABS00]
S. Abiteboul, P. Buneman e D. Suciu. "Data on the Web - From Relations to

Semistructured Data and XML". Morgan Kaufmann, 2000.
[AG97]
M.Ashburner, N.Goodman Informatics Genome and Genetics Databases,

Current Opinion in Genetics & Development, 1997, 7:750-756.
[AGM+90]
S. F. Altschul, W. Gish, W. Miller, E. W. Myers, e D. J. Lipman. "A basic

local alignment search tool". J. of Molecular Biology 215, pp. 403-410, 1990.
[AMS+97]
S. F. Altschul, T. L. Madden, A. A. Schffer, J. Zhang, Z. Zhang, W. Miller, e

D.J.Lipman.Gapped blast and psi-blast:a new generation of protein
database search programs". Nucleic Acids Research, 25(17), pp.3389-3402,
1997.
[BBC+00]
W. Baker, A. van den Broek, E. Camon, P. Hingamp, P. Sterk, G. Stoesser,

M. Ann Tuli. "The EMBL Nucleotide Sequence Database". Nucleic Acids
Research 28(1), pp. 19-23, 2000.
[BDO95]
P.Buneman, S.B. Davidson, C.Overton. "Challenges in Integrating Biological

Data Sources". Journal of Computational Biology 2 (4), pp.557-572, 1995.
[BDH+95]
P.Buneman, S.B.Davidson, K.Hart, G.C.Overton, L.Wong. A Data

Transformation System for Biological Data Sources. Proceedings of 21th
International Conference on Very Large Data Bases, pp 158-169, 1995.
[BGH+00]
W. C. Barker, J. S. Garavelli, H. Huang, P. B. McGarvey, B. C. Orcutt, G. Y.

Srinivasarao, C. Xiao, L. L. Yeh, R. S. Ledley, J. F. Janda, F. Pfeiffer, H.
Mewes, A. Tsugita, C. Wu. "The Protein Information Resource (PIR)".
Nucleic Acids Research 28(1), pp. 41-44, 2000.
[BML+00]
D. A. Benson, I. Karsch-Mizrachi, D. J. Lipman, J. Ostell, B. A. Rapp, D. L.
37
Wheeler. "GenBank". Nucleic Acids Research 28(1), pp. 15-18, 2000.

[BWF+00]
H. M. Berman, J. Westbrook, Z. Feng, G. Gillil, T. N. Bhat, H. Weissig, I. N.

Shindyalov, P. E. Bourne. "The Protein Data Bank". Nucleic Acids Research
28(1), pp. 235-242, 2000.
[Cas92]
Denise Casey. Primer on Molecular Genetics. HGP, U.S. Department of

Energy, 1992. http://www.ornl.gov/hgmis/publicat/primer/intro.html.
[Cat94]
The Object Database Standard: ODMG-93, Cattell R.G.G., San Francisco:

Morgan Kaufmann, 1994.
[CM95]
I.A.Chen, , V.M Markowitz. "An Overview of the Object-Protocol Model

(OPM) and the OPM Data Management Tools". Information Systems,
20(5):393-418.
[DHK95]
S. Davidson, C. Hara, A. Kosky. "Morphing sparsely Populated Data". Julho,

1995. Disponvel em http://www.cis.upenn.edu/~kosky/mimbd95.html.
[DOB95]
S.B.Davidson, C.Overton, P.Buneman. "Challenges in Integrating Biological

Data Sources". Julho, 1995. http://db.cis.upenn.edu/Publications/.
[DOE00a]
U.S.
Department
of
Energy.
Human
Genome
http://www.er.doe.gov/production/ober/hug_top.html, 2000.
[DOE00b]
U.S. Department of Energy. Human Genome Project Information.

http://www.ornl.gov/TechResources/Human_Genome/home.html, 2000.
[Doo90]
Russel F. Doolittle, editor. "Molecular Evolution: Computer Analisys of

Protein and Nucleic Acid Sequences." Methods in Enzymology. Academic
Press 183, 1990.
[Fio00]
FioCruz. http://www.dbbm.fiocruz.br/genome/tcruzi/tcruzi.html, 2000.
[Fly99]
The FlyBase Consortium. "The FlyBase Database of the Drosophila Genome

Projects and community literature". Nucleic Acids Research 27 (1), pp. 8588, 1999.
[Fre91]
K. A. Frenkel. "The Human Genome

Communications of the ACM 34(11), 1991.
[Gen00]
GenBank, http://www.ncbi.nlm.nih.gov/GenBank/index.html., 2000
[GG95]
N. Guarino, P. Giaretta. "Ontologies and Knowledge Bases towards a

Terminological Clarification". Towards Very Large Knowledge Bases,
pg.25-32. IOS Press, Amsterdam.
[GMW+97]
R. Goldman, J.McHugh, J. Widom e S. Abiteboul, Lore: A Database

Management System for Semi-structured Data, SIGMOD Record, 26(3):5466, September 1997 (http://www-db.stanford.edu/lore).
[GRS94]
N.Goodman, S.Rozen, L.Stein. "Managing Laboratory Workflow with

LabBase". Proceedings of the 1994 Conference on Computers in Medicine.
[GSDB00]
The Genome Sequence DB. http://www.ncgr.org/research/sequence/, 2000.
[HCF+00]
C. Harger, G. Chen, A. Farmer, W. Huang, J. Inman, D. Kiphart, F. Schilkey,

M. P. Skupski1, J. Weller. "The Genome Sequence DataBase". Nucleic Acids
Research 28(1), pp 31-32., 2000.
38
Project
and
Research.
Informatics".
[HG00]
The Natl Human Genome Research Inst. http://www.nhgri.nih.gov/, 2000.
[HWO+94]
K. Hart, L. Wong, C. Overton, P. Buneman. "Using a Query Language to

Integrate Biological Data "
http://www.cis.upenn.edu/~cbil/mimbd94/mimbd94CPL.html.
[IOS87]
International Organization for Standardization(1987). "Information

processing systems - Open Systems Interconnection - Specification of
Abstract Syntax Notation One (ASN.1)". Technical Report ISO-8824,
International Organization for Standardization, Switzerland.
[Kar95]
P.D.Karp. "A Strategy for Database Interoperation".

Computational Biology 2(4), pp. 573-586, 1995.
[KDG96]
G. J.L.Kemp, J. Dupont, P. M.D.Gary Using the Functional Data Model to

Integrate Distributes Biological Data Sources. Proceedings: Eighth
International Conference on Scientific and Statistical Database Systems,
IEEE Computer Society Press, pp. 176-185, 1996.
[KLB+97]
A.Kogelnik, M.Lott, M.Brown, S.Navathe, D.Wallace MITOMAP: An

Update on the Human Mitochondrial Genome Database, Nucleic Acid
Research, 25(1), 1977.
[Kro93]
P. Kroha. Objects and Databases. The McGRAW-HILL International

Series in Software Engineering. The McGraw-Hill, 1993.
[KRT96]
R. Karp, L. Ruzzo, M. Tompa. "Algorithms in Molecular Biology".

http://www.cs.washington.edu/education/courses/590bi/96wi/, 1996.
[LCP+98]
S. I. Letovsky, R. W. Cottingham, C. J. Porter, P. W. D. Li. "GDB: the

Human Genome Database". Nucleic Acids Research 26(01), pp. 94-99, 1998.
[LP85]
D. J. Lipman e W. R. Pearson. "Rapid and sensitive protein similarity

search." Science 227, pp. 1435-1441, 1985.
[Mar95]
V.M. Markowitz. "Heterogeneous Molecular Biology Database Systems".

Disponvel em http://gizmo.lb.gov/.
[MC95]
V. M. Markowitz, I.A. Chen. "An Overview of the Object Protocol Model

(OPM) and the OPM Data Management Tools". Inform Systems 20 (5) 1995.
[MCK97]
V.M.Markowitz, I.A.Chen, A.S.Kosky:Exploring Heterogeneous Molecular

Biology Databases in the Context of the Object-Protocol Model. Theoretical
and Computational Genome Research, pp. 161-176, Plenum Press, 1997.
[MR95]
V.M.Markowitz, O.Ritter. "Characterizing Heterogeneous Molecular Biology

Database Systems". Journal of Computational Biology, 2(4), 1995.
[MS94]
J. Meidanis e J. C. Setbal. "Uma Introduo Biologia Computacional". IX

Escola de Computao. Recife, 1994.
[MS97]
J. Meidanis e J. C. Setbal. "Introduction to Computacional Molecular

Biology". PWS Publishing Company, 1997.
[NK99]
S.B.Navathe, A.M.Kogelnik. "The Challenges of Modeling Biological

Information for Genome Databases". P.P.Chen et al. (Eds.): Conceptual
Modeling, LNCS 1565, pp. 168-182, 1999.
39
Journal
of
[Pea90]
W. R. Pearson. "Rapid and sensitive sequence comparison with FASTP and

FASTA." Em [Doo90], pp. 63-98.
[Pea91]
W. R. Pearson. "Searching Protein Sequence Libraries: Comparison of the

Sensitivity and Selectivity of the Smith-Waterman and FASTA algorithms."
Genomics 11, pp.635-650, 1991.
[PL88]
W. R. Pearson e D. J. Lipman. "Improved Tools for Biological Sequence

Comparison." Proceedings of the National Academy of Sciences of the
U.S.A. 85, pp. 2444-2448, 1988.
[PPJ+00]
R. C. Prier, V. Praz, T. Junier, C. Bonnard, P. Bucher. "The Eukaryotic

Promoter Database (EPD)". Nucleic Acid Research 28(01), p.302-303, 2000.
[Qia93]
X. Qian. Semantic Interoperation via Intelligent Mediation. In Proc 3rd Intl

Workshop on Research Issues in Data Engineering: Interoperability in
Multidatabase Systems, pp. 228-231. IEEE Computer Society Press, 1993.
[QR95]
X. Qian, L. Raschid. Query Interoperation among Object-Oriented and

Relational Databases. In Proceedings of the Eleventh Conference on Data
Engineering, pgs. 271-278. IEEE Computer Society Press.
[Rit94]
O. Ritter. "The Integrated Genomic Database". Computational Methods in

Genome Research (S.Suhai, ed.), 57-73, Plenum, New York, 1994.
[Rob85]
E.M.F. De Roberts, Jr "Bases da Biologia Celular e Molecular". Ed.

Guanabara, 1985.
[Rob94]
R. Robbins. "Report of the invitational DOE Workshop on genome

informatics". 26-27 April 1993; Genome Informatics I: Community
databases. Journal of Computational Biology, 1(3): 173-190.
[Sha99]
R.Shamir. "Algorithms in Molecular Biology".

http://www.math.tau.ac.il/~shamir/algmb/algmb98.html, 1999.
[SL90]
A. Sheth, J. Larson. Federated Database Systems for Managing Distributed,

Heterogeneous and Autonomous Databases. ACM Computing Surveys,
22(3), Setembro, 1990.
[SU94]
N. Sakamoto, K. Ushijima, Designing and Integrating Human Genome

Databases with Object-Oriented Technology. DEXA, pp.145-152, 1994.
[TMO+00]
Y.Tateno, S. Miyazaki, M.Ota, H.Sugawara, T.Gojobori. "DNA Data Bank of

Japan (DDBJ) in collaboration with mass sequencing teams". Nucleic Acids
Research 28(01), pp. 24-26, 2000.
[Uch94]
E. Ucha. HEROS Um Sistema de Bancos de Dados Heterogneos:

Integrando Esquemas. Departamento de Informtica PUC-Rio, Dissertao
de Mestrado em Informtica: Cincia da Computao, 1994.
[WL83]
W.J. Wilbur e D. J. Lipman. "Rapid similarity searches of nucleic acid and

protein data banks." Proc Natl Academy of Sciences USA, pp.726-730, 1983.
[Won94]
L. Wong. "Querying Nested Collections". PhD thesis, Univ. of Pennsylvania.
40

Bancos de Dados de Genomas

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bancos de Dados de Genomas

Diunggah oleh

Hak Cipta:

Format Tersedia

Bancos de Dados de Genoma

Luiz Fernando Bessa Seibel, Melissa Lemos e Srgio Lifschitz

Muitos projetos de anlise de genoma esto sendo desenvolvidos atualmente. O Projeto

Utilizao de um modelo de dados apropriado;

Adoo de algoritmos que permitam anlises complexas nas sequncias cadastradas

Controle do cadastramento de sequncias de forma a evitar mltiplas inseres do

Conceitos de Biologia Celular e Molecular

2.1 A Clula: Organizao Estrutural

2.2 A Clula: Organizao Molecular

Protenas ou polipeptdeos so compostos por aproximadamente 20 aminocidos,

Figura 1.Processos transcrio e traduo.

Figura 2. cido Nuclico

As pentoses so de dois tipos: ribose no RNA e desoxirribose no DNA.

Figura 3. A dupla hlice do DNA.

Estrutura do RNA: classes e conformao

2.3 Biologia Molecular do Gene

Figura 4. A clula e o cromossomo.

Figura 5. O cdigo gentico.

Bancos de Dados e Algoritmos de Biologia Molecular

Informaes principais: Sequncias de nucleotdeos

Protein Data Bank (PDB) [BWF+00]

3.2 Caractersticas de BDBMs

milho de bases (chamada de megabase) de dados de sequncia de DNA equivalente a 1

3.3 Modelo dos Dados

Fase 3: Genetic locus (nome, start, stop, id_mutao, etc.)

Modelo Orientado a Objetos

Modelo de Dados Semi-Estruturados

3.4 Interface de Acesso

exemplo, alm de pesquisar por informaes de uma determinada sequncia de nucleotdeos

3.5.3 Gerenciamento de Memria

3.6 Aplicaes e Algoritmos

estruturas esto intimamente relacionadas funo das molculas e, portanto, sua

comparaes locais e retornam apenas um alinhamento local - considerado o timo. Mais

Distribuio e Integrao de BDBMs

No captulo anterior foi comentado o que so e porqu surgiram os BDBMs, a distribuio

4.1 Requisitos e Pressupostos de Integrao

4.2 Caractersticas das Fontes de Dados

bancos de dados implementados via Sistemas Gerenciadores de Bancos de Dados

4.3 Necessidades dos Usurios

4.4 Ambiente de Integrao

4.5 Mtodos de Interoperabilidade de Bancos de Dados

4.5.3 Mtodo 3: Data Warehouse

As similaridades semnticas e as diferenas esquemticas so assuntos muito importantes para

Bancos de Dados de Biologia Molecular

Nesta seo so apresentados alguns exemplos de bancos de dados de biologia molecular,

5.1 Exemplos de BDBMs

% Medline journal title abreviation

% ISO journal title abreviation

% Full journal title

issn: string > >

(atributos de estruturas, do tipo union da linguagem C, rotulados)

DEFINITION Acetobacter sp. (strain MB 58) 5S ribosomal RNA, complete sequence.

Acetobacter sp. (strain MB 58) rRNA.

ORGANISM Acetobacter sp.

Taxonomic studies of methylotrophic bacteria by 5S ribosomal RNA

JOURNAL J. Gen. Microbiol. 136, 441-446 (1990)

/note="5S ribosomal RNA"

tabela que contm caractersticas encontradas em determinados stios da

Base Count: sumrio do nmero de ocorrncias de cada cdigo base na sequncia.

sequncias derivadas do GenBank.

protenas derivadas de sequncias do GenBank.

montagens de cdigo gentico.

estruturas 3-D de protenas.

PopSet - sequncias de populaes.