Metodo Sage

88 Revista Biotecnologia Cincia & Desenvolvimento - Edio n 33 - julho/dezembro 2004
Pesquisa
Anlise Serial da
EXPRESSO GNICA
1. Introduo
acmulo exponencial de
seqncias gnicas e
genomas depositados em
bancos de dados pblicos
mundiais tm aumentado
consideravelmente a demanda por
metodologias que permitam sua iden-
tificao funcional ou confirmao de
homologia, alm da elucidao dos
padres de expresso. Entretanto, a
anlise convencional de genes indivi-
duais por northern ou transcrio
reversa e reao em cadeia da
polimerase (reverse-transcritption-
polymerase chain reaction ou RT-
PCR), apesar de precisa e robusta, no
apresenta a eficincia e a rapidez
(throughput) necessrias para acom-
panhar o ritmo de seqenciamento e
descoberta de novos genes. Aborda-
gens mais eficientes de anlise da
expresso gnica em nvel genmico
(genome-wide expression profiling)
constituem-se num desafio presente
na identificao e no estudo simult-
neo de um grande nmero de genes
envolvidos em diversos processos bi-
olgicos, desde o desenvolvimento
dos organismos at suas interaes
com fatores ambientais (Donson et al.,
2002).
A determinao da seqncia
genmica completa de plantas supe-
riores, tais como Arabidopsis thaliana
(The Arabidopsis Genome Initiative,
2000) e quase total do arroz (Oryza
sativa) (Yu et al., 2002; Goff et al.,
2002) representa apenas o nvel inici-
al de elucidao da complexidade ge-
ntica. Apesar do intenso esforo de
investigao nos ltimos 15 anos, me-
nos de 10% do total dos 25.540 genes
Tercilio Calsa Junior
Laboratrio de Melhoramento de Plantas
Centro de Energia Nuclear na Agricultura
Universidade de So Paulo
tercilio@cena.usp.br
Vagner Augusto Benedito
benedito@cena.usp.br
Antonio Vargas de Oliveira Figueira
figueira@cena.usp.br
Ilustraes cedidas pelos autores
o d o t m o d e s a B o a z i d i r b i H R C P o t n e m a i c n e q e S
o p i T o d a h c e F o t r e b A o t r e b A
e d a d i l i b i s n e S a d a r e d o M a t l A a t l a / a d a r e d o M
e d a d i c i f i c e p s E a x i a B a t l A a t l A
o s s e r p x E a d a d i d e M a v i t a l e R a v i t a l e R a t u l o s b A
s o d a D r a r g e t n I e d e d a d i l i b i s s o P m i S o N m i S
s o s r u c e R e d e d a d i s s e c e N
s i a t n e m u r t s n I
a t l A a x i a B a i d M
o h l a b a r T e d e d a d i s n e t n I a x i a B a t l A a t l A
o t s u C o t l A o x i a B o t l A
s o l p m e x E
y a r r a o r c i m - o g i l O
y a r r a o r c i m - A N D c
P L F A - A N D c
y a l p s i d l a i t n e r e f f i D
E G A S
S S P M
Quadro 1. Comparao entre as principais tecnologias aplicadas anlise de expresso em nvel genmico,
adaptado de Breyne & Zabeau (2001).
Anlise Serial da Expresso Gnica (SAGE) na Genmica de Plantas
Revista Biotecnologia Cincia & Desenvolvimento - Edio n 33 - julho/dezembro 2004 89
Figura 1. Esquema geral da metodologia SAGE
Captura dos mRNAs
(magnetic beads)
mRNA
mRNA
cDNA
Sntese do cDNA
(fita dupla)
Clivagem com Enzima
de Ancoragem
(NlaIII-CATG)
cDNA
NlaIII
GTAC
Diviso em 2 fraes e
Ligao dos Adaptadores
Ligase
GTAC
GTAC
A
B
Clivagem com Enzima de
Tagging(BsmFI)
Ligao dos
ditags ~100pb
Tipo IIs
A
A
A
A
GTAC
GTAC
BsmFI
BsmFI
DTP-1 CATG
GTAC
Tag
T a gC A T G
G T A C
D T P - 2
B
B
DTP-1 NlaIII Tag Tag NlaIII DTP-2
ditag ~26pb
ditag ~100pb(16h)
Amplificao dos
. . . . . . ~100pb
DTP-1
DTP-1 DTP-2
DTP-2
Tag Tag NlaIII NlaIII
NlaIII NlaIII
NlaIII NlaIII
Isolamento dos . . . . . ~26pb
DTP-1 DTP-2
CATG
CATG
CATG
CATG
CATG
CATG
CATG
CATG CATG CATG
GTAC
GTAC
GTAC
GTAC
GTAC
GTAC
GTAC
GTAC GTAC GTAC
Concatmero
Formao dos concatmeros
(concatenao)
Clonagem e
Sequenciamento
Contagem e
Anotao dos
Tags
Calsa Jr T. (2004)
Tag Tag
Tag Tag
Tag Tag
Tag Tag
Tag Tag
Tag Tag
Tag Tag
Tag Tag
Tag Tag Tag Tag Tag Tag
Tag Tag Tag Tag Tag Tag Tag Tag
de Arabidopsis j foram estudados
experimentalmente, e o desafio futu-
ro consiste em determinar a funo de
todos os genes remanescentes e suas
interaes (Breyne & Zabeau, 2001;
Donson et al., 2002). Portanto, novas
abordagens so necessrias para de-
tectar e anotar todos os genes de uma
espcie (Yamada et al., 2003).
A anlise espacial e temporal da
transcrio um aspecto preliminar
importante na genmica funcional. A
anlise da expresso gnica em nvel
genmico consiste em diversas abor-
dagens iniciais para a caracterizao
em larga escala das funes gnicas
(Breyne & Zabeau, 2001). A compa-
rao entre perfis transcricionais
contrastantes (gentipos; condies
fisiolgicas ou ontolgicas diversas)
pode auxiliar na identificao dos genes
responsveis pelo processo biolgico
em estudo (Meyers et al., 2004).
Os mai ores avanos nas
tecnologias de quantificao da ex-
presso gnica global ocorreram na
ltima dcada; contudo, todas as
metodologias disponveis apresentam
limitaes especficas, e as diversas
tecnologias [ESTs (Expressed Sequence
Tags), macro e microarranjos (macro e
microarrays), RT-PCR, SAGE (Serial
Analysis of Gene Expression), MPSS
(Massive Parallel Signature
Sequencing)] produzem plataformas
de dados distintas, nem sempre
interconversveis ou comparveis.
Anlise global
da expresso gnica
A primeira abordagem para se
determinar de modo global os nveis
de expresso gnica foi baseada no
seqenciamento massivo de transcri-
tos (ESTs) (Adams et al., 1995), parti-
cularmente til para a descoberta de
novos genes, mas extremamente tra-
balhoso e dispendioso. Foram ento
desenvolvidas abordagens alternati-
vas para a deteco e quantificao da
expresso gnica no nvel genmico.
De acordo com o pri nc pi o
metodol gi co uti l i zado, estas
tecnologias podem ser diferenciadas
em trs grupos: i) hibridizao de
sondas, ii) seqenciamento de regi-
es especficas de fragmentos de cDNA
(tags) e iii) anlise de fragmentos de
cDNA amplificados via PCR (Quadro
1). Esses mtodos de anlise global da
expresso gnica tambm podem ser
classificados em outras duas categori-
as: como sistemas fechados, que ana-
lisam seqncias j conhecidas, ou
abertos, que no exigem o conheci-
mento prvio das seqncias dos
genes em estudo. Os mtodos por
hibridizao so fechados, enquanto
os de anlise de fragmentos de cDNA
ampl i fi cados e aquel es vi a
seqenciamento so caracteristicamen-
te mtodos abertos.
Os mtodos baseados em
hibridizao (microarrays de clones
de cDNA ou de oligonucleotdeos sin-
tetizados in situ) tm sido amplamen-
te utilizados para a anlise transcricional
em diversos organismos, incluindo plan-
tas (Richmond & Somerville, 2000;
Schaffer et al., 2000; Lockhart et al.,
1996; Schena et al., 1996). Atualmen-
te, esta anlise aplicada a um grupo
limitado de espcies, geralmente na-
quelas que j possuem seqncias
genmicas completas ou grandes quan-
tidades de cDNA ou ESTs disponveis,
sendo comercialmente acessveis ape-
nas para Arabidopsis e arroz, ou atra-
vs de consrcios acadmicos para
cevada, algodo, repolho, milho, bata-
ta, tomate e trigo (Meyers et al., 2004).
A maior vantagem da tecnologia de
microarrays consiste na anlise con-
junta de um grande nmero de se-
qncias (at 50.000 transcritos) e na
possibilidade de integrao de gran-
des conjuntos de dados oriundos de
diversos experimentos. Apesar da sua
grande utilidade e potencialidade, a
tecnologia de microarrays limitada
pelo alto custo dos equipamentos e
disponibilidade de arranjos (manufa-
turados in loco ou adquiridos comerci-
almente), e por que geralmente ape-
nas a frao seqenciada dos genes ou
ESTs de um organismo poder ser estu-
dada. Outras limitaes incluem pro-
blemas associados com a hibridizao
cruzada entre transcritos e seqncias-
alvo (causada pela intensa duplicao
de genes observada em plantas, mes-
mo em genomas simples como o de
Arabidopsis), alm da restrita sensibi-
lidade para transcritos pouco freqen-
tes (Meyers et al., 2004). Os mRNAs
abundantes so sobre-representados
em bibliotecas de cDNA, enquanto
que transcritos mais raros, dificilmente
clonados, no so amostrados, apesar
de muitas vezes serem importantes
genes regulatrios. Como exemplo,
estima-se que apenas 60% dos genes
de Arabidopsis estejam representa-
dos na coleo de ESTs disponvel
para esta espcie (Richmond &
Somerville, 2000; Wortman et al.,
2003).
O desenvol vi ment o de
microarranjos com toda a seqncia
genmica (whole genome array
WGA) permitir suplantar algumas
dessas limitaes, transformando a tc-
nica em um sistema aberto de anlise.
Yamada et al. (2003) mostraram que o
uso de WGA em Arabidopsis levou
deteco de transcritos oriundos de
regies do genoma no anotadas pre-
viamente e permitiu a identificao de
5.817 novos transcritos.
Entre os mtodos abertos de an-
lise global de transcritos, vrias tcni-
cas baseadas na eletroforese em gel
tm sido amplamente utilizadas para a
deteco e caracterizao de genes
expressos diferencialmente, em com-
binao com a PCR, como o differential
display (DDRT, Liang & Pardee, 1992),
j detalhado por Carneiro & Dusi
(2002). Entretanto, devido baixa
sensibilidade do DDRT associada
freqente deteco de falso-positivos,
novos mtodos foram propostos, tais
como cDNA-AFLP (Bachem et
al . , 1996); TOGA (Total Gene
Expression Analysis; Sutcliffe et al.,
Quadro 2. Comparaes metodolgicas entre as tcnicas SAGE, Long-SAGE e RL-SAGE adaptado de Gowda et al.(2004).
n.d.: no-descrito
a c i t s r e t c a r a C / a p a t E ) 5 9 9 1 , . l a t e u c s e l u c l e V ( E G A S
E G A S - g n o L
) 2 0 0 2 , . l a t e a h a S (
E G A S - L R
A N R m e d e d a d i t n a u Q g 5 g 2 g n 0 5
s e r o d a t p a d a s o a s A N D c s o d o a g i L h 2 . d . n
h 6 1
/ s A N D c o t s e g i D a l N I I I h 1 h 1
h 5 , 2
s g a t i d o a g i L h 6 1 h 5 , 2
h 6 1
s R C P e d o r e m N 0 0 3 . d . n 0 2
) b p 6 3 1 / 0 0 1 ~ ( s g a t i d s o d o a c i f i r u P g n i l o o P E G A P % 2 1 , . d . n E G A P % 2 1
) b p 0 4 / 6 2 ~ ( s g a t i d s o d o a c i f i r u P
E G A P % 2 1 . d . n
E G A P % 6 1
s e r o d a t p a d a s o d o o m e R
. d . n . d . n
a n i d i v a t p e r t s e
s o r e m t a c n o c s o d o t s e g i D
. d . n . d . n
U 0 1 a l N . n i m 1 , C 7 3 , I I I
s o r e m t a c n o c s o d o a c i f i r u P
E G A P % 8 d . n
E G A P % 6
s e n o l c s o d g n i n e e r c S
s a i n l o c e d R C P . d . n
s a i n l o c e d R C P
o t r e s n i e d o i d m o h n a m a T
b p 0 0 5 - 0 0 3 . d . n
b p 0 0 0 1
o r e m t a c n o c / s g a T ) b p 4 1 ( 2 2 . d . n ) b p 1 2 ( 0 5

2000) e GeneCalling (Shimkets et al.,
1999), todos fundamentados numa
mistura de cDNAs fracionada em con-
juntos menores e amplificados em
regies especficas (tags). Estes tags
so posteriormente separados em gis
de alta resoluo, gerando padres
nicos de expresso gnica e permi-
tindo a identificao de transcritos
expressos em condies contrastantes
(bandas diferenciais). Pode-se citar
como limitaes do cDNA-AFLP a ne-
cessidade de vrias reaes de PCR
para a obteno de um padro geral
de expresso e, ao contrrio dos de-
mais tipos de mtodos, os dados pro-
duzidos no poderem ser prontamen-
te mesclados ou comparados. De
forma geral, as tcnicas baseadas em
populaes subtrativas de cDNA so
teis para a anlise comparativa entre
dois tipos ou condies celulares, mas
produzem apenas um quadro relativo
e parcial, sem informaes de carter
absoluto, alm de no permitirem a
deteco de transcritos expressos em
nveis reduzidos. Porm, a construo
de banco de dados de referncia de
perfis de cDNA-AFLP a partir de an-
lises sistemticas de transcritos sob
vrias condies e estdios pode per-
mitir a identificao de genes diferen-
cialmente expressos por comparao,
de forma muito eficiente (Donson et
al., 2002).
A tecnologia SAGE (Velculescu et
al, 1995), ou anlise serial da expres-
so gnica, baseia-se na contagem em
alta escala de regies especficas (tags)
constitudas por 9-10 bases, obtidas de
uma populao de transcritos. Este
mtodo tem sido amplamente utiliza-
do para anlises de expresso gnica
em clulas e tecidos humanos e de
mamferos, fungos, protozorios e al-
gumas espcies vegetais (Velculescu
et al., 2000; Lash et al., 2000) [Figura
1]. Outra tecnologia desenvolvida
recentemente, o MPSS (Massive
Parallel Signature Sequencing)
potencializa a soluo para algumas
limitaes da SAGE (Brenner et al.,
2000). Entretanto, o MPSS proprie-
trio, tecnicamente complexo e de
custo extremamente elevado, no se
apresentando ainda disponvel para a
maior parte da comunidade cientfica
(Brenner et al., 2000; Christensen et
al., 2003; Meyers et al., 2004).
As principais vantagens da SAGE
so a medida absoluta da expresso
gnica em vez de uma anlise relativa,
a gerao de conjuntos de dados digi-
tais passveis de novas incluses e o
menor custo de seqenciamento por
transcrito amostrado. Diversas altera-
es e otimizaes da SAGE tm sido
publicadas, visando aumentar sua efi-
cincia ou permitir sua aplicao em
determi nadas amostragens
transcricionais. Uma limitao no
apenas da SAGE, mas como de qual-
quer metodologia baseada em tags
comparando-se aos microarranjos, o
fato de o custo das replicaes biol-
gicas ou tcnicas ser proibitivo, levan-
do a uma estimativa da varincia para
os mtodos com tags incompleta ou
pouco caracterizada (Meyers et al.,
2004).
2. A Tecnologia SAGE
A anlise serial da expresso
gnica (SAGE; Velculescu et al., 1995)
baseia-se em dois princpios (Figura
1). Primeiramente, uma seqncia de
nucleotdeos (tag) de 9-10 pares de
bases (pb) possui informao suficien-
te para a identificao de um transcrito
nico, pois uma seqncia de apenas
9 pb pode distinguir 262.144 (4
9
)
transcritos, considerando uma distri-
buio aleatria de bases, sendo que
as estimativas indicam que os genomas
de organismos superiores codificam
muito menos que esse limite. Em
segundo l ugar, a l i gao
(concatenao) dos tags permite a
Figura 2. Exemplo de estratgia de processamento dos dados obtidos via SAGE
Cromatogramas
Anlise da Qualidade do Sequenciamento
Arquivos PHD
Phred
qualidade
redundncia
visualizao
Estatstica
SAGEmap
SAGEnhaft
(erros?)
eSAGE
Tags (sequncia, frequncia)
Phrap/CAP3
Comparaes
Bancos de EST
Anotao
Consed
anlise eficiente dos transcritos de um
modo serial, pelo seqenciamento de
mltiplos tags contidos em um nico
clone. A anlise serial dos tags de
seqncia exige mecanismos para a
identificao dos limites de cada tag
(Figura 1). A principal desvantagem
da SAGE a necessidade de
seqenciamento de um grande nme-
ro de tags para o monitoramento de
genes raramente expressos. Alm
disso, os tags obtidos so curtos e,
portanto, nem sempre distintos. A
identificao de genes com base em
seqncias curtas depende da dispo-
nibilidade de bancos de ESTs devida-
mente caracterizados, ou da seqn-
cia genmica.
Na tcnica de SAGE, o DNA com-
plementar (cDNA) sintetizado a par-
tir do mRNA utilizando-se como inici-
ador uma seqncia oligo-d(T)
biotinilada. O cDNA de dupla fita
obt i do di geri do com uma
endonucl ease (enzi ma de
ancoramento, NlaIII), a qual deve clivar
a maioria dos transcritos pelo menos
uma vez. As enzimas de restrio com
stios de reconhecimento de 4 pb so
utilizadas nesta fase, pois teoricamen-
te clivam em mdia a cada 4
4
= 256
bases, enquanto a maioria dos transcri-
tos so consideravelmente maiores
que isso. As fraes dos cDNAs mais
prximas s extremidades 3 do cDNA
so capturadas por ligao da biotina
dos iniciadores poli-T empregados na
sntese do cDNA com a estreptavidina
ligada a partculas magnticas. Este
processo gera um stio nico em cada
transcrito que corresponde ao stio de
restrio NlaIII localizado mais prxi-
mo da cauda poli-A. O cDNA ento
dividido em duas partes, sendo que
cada metade ligada nas extremida-
des a um adaptador distinto, mas am-
bos contendo uma seqncia de reco-
nhecimento para uma enzima de res-
trio do tipo IIS (enzima para isola-
mento dos tags ou enzima de tagging,
FokI ou BsmFI). Essas endonucleases
clivam a uma distncia definida dos
seus stios de reconhecimento, a qual
pode variar de acordo com as condi-
es da reao (13 ou 14 pb no caso
da BsmFI a 65C). Os adaptadores so
desenhados de tal modo que a
clivagem dos produtos da ligao pela
enzima de tagging resulte na liberao
dos adaptadores ligados a um pedao
curto de cDNA (9 a 10 pb mais o stio
de reconhecimento de NlaIII, CATG).
As extremidades dos tags so repara-
das por tratamento com a enzima
Klenow (fragmento maior da DNA
polimerase I), tornando-se abruptas
Figura 3. Cromatogramas aps seqenciamento de clones SAGE.
(blunt ends). Ento, as duas fraes
so ligadas e servem como molde para
a amplificao via PCR com iniciado-
res que se anelam nos adaptadores. A
amplificao produz cDNA suficiente
para as manipulaes posteriores. Os
produtos da amplificao (~100 pb)
contm dois tags (um ditag = ~26 pb)
ligados em suas regies 3, e so
flanqueados por stios de reconheci-
mento (4 pb) pela enzima de
ancoramento (NlaIII) localizados nos
adaptadores (40 pb cada). A clivagem
dos produtos de amplificao com
esta endonuclease permite o isola-
mento dos ditags, separando-os dos
adaptadores por eletroforese em gel
no-desnaturante de poliacrilamida
(PAGE). Uma vez coletados, os ditags
so submetidos ligao em srie para
formao dos concatmeros. Estes,
por sua vez, so fracionados por tama-
nho via eletroforese em gel de agarose
ou poliacrilamida, coletando-se geral-
mente as fraes de 300-500 pb e de
500-1000 pb, as quais so separada-
mente submetidas clonagem em
vetor plasmidial linearizado com a
enzima de restrio SphI, cuja extre-
midade gerada coesiva com a da
enzima NlaIII. Desse modo, a
clonagem dos concatmeros e a sele-
o dos clones resultam na coleo de
tags da SAGE. O seqenciamento
unidirecional desses clones e o
processamento dos dados resultantes
determinam de forma serial a seqn-
cia e a freqncia dos tags, represen-
tando a populao de transcritos
amostrada.
O nmero apropriado de tags a
ser seqenciado depende dos objeti-
vos de cada experimento, sendo in-
versamente proporcional aos nveis
expressos dos transcritos em estudo,
sendo tambm funo da viabilidade
do seqenciamento de clones. Por
exemplo, para a obteno de um
conjunto de 50.000 tags faz-se neces-
srio seqenciar cerca de 2.500 clones
(considerando uma mdia de 20 tags
por concatmero).
3. Avanos tcnicos
De modo geral, a metodologia
SAGE original (Velculescu et al., 1995)
tem sido empregada com diversas
alteraes visando aumentar a eficin-
cia e a aplicabilidade da tcnica. O
protocolo foi adaptado para a aplica-
o em amostras biolgicas menores,
denominado microSAGE (Datson et
al., 1999). O microSAGE simplifica-
do devido incorporao dos procedi-
mentos em um nico tubo (cujas pa-
redes possuem adsoro especfica),
desde o isolamento do RNA at a
liberao dos tags, alm de um nme-
ro maior de ciclos de PCR. Com as
modificaes realizadas, foi possvel
analisar a expresso gnica a partir de
amostras 500-5000 vezes menores do
que necessrio pelo protocolo origi-
nal.
No procedimento original, a rea-
o de ligao dos adaptadores aos
cDNAs clivados por NlaIII apresenta
uma tendncia para a formao de
homodmeros (adaptador-adaptador e
cDNA-cDNA), em detrimento da liga-
o desejvel adaptador-cDNA, vital
para a fidelidade da SAGE em repre-
sentar a populao de transcritos
amostrada. Para maximizar a eficin-
cia desta etapa, foi proposta a utiliza-
o de adaptadores contendo o stio
de ligao metilado juntamente com
uma mistura de T4 DNA Ligase e
NlaIII, resultando numa reao de liga-
o direcionada (So et al., 2004). As-
sim, os homodmeros indesejveis
eventualmente formados na reao
seriam clivados em seguida, ao passo
que os heterodmeros desejveis, uma
vez formados, no seriam digeridos
pela NlaIII, que sensvel metilao.
Essa ligao direcional permite a ob-
t eno quase uni cament e de
heterodmeros adaptador-cDNA, favo-
recendo significativamente a clonagem
e representatividade de todos os trans-
critos na coleo de tags.
A separao eficiente dos ditags
e dos adaptadores aps a amplificao
e digesto tambm crtica. A utiliza-
o de iniciadores biotinilados na am-
plificao permite a remoo dos
adaptadores com partculas magnti-
cas recobertas por estreptavidina
(Powell, 1998). Esta estratgia resul-
tou em maior rendimento de ditags e
clones com maior nmero de tags por
clone (at 39 em comparao mdia
de 21 obtida com o protocolo origi-
nal). Para a maior eficincia da SAGE,
o mximo de informao deve ser
obtido a partir de cada clone visando-
se minimizar o seqenciamento. Al-
ternativamente, foi proposta a purifi-
cao dos ditags de 26 pb via
cromatografi a l qui da de al ta
performance (HPLC) utilizando colu-
nas de poliestireno/divinilbenzeno e
tampo de acetato de tetraetilamnio
com fase mvel de acetonitrila (Nielsen
et al., 2003). Verificou-se que, com-
parativamente purificao via PAGE,
estes ditags apresentavam mnima
contaminao por adaptadores, maior
facilidade de ligao e permitiam a
formao de concatmeros mais lon-
gos. Uma outra sugesto mais simples
e acessvel para purificao dos ditags
a separao por PAGE (16%) utili-
Quadro 3. Principais softwares disponveis para extrao e anlise dos tags SAGE.
a m a r g o r P t u p n I e c a f r e t n I a c i t s t a t s E o s U a i c n r e f e R
0 0 3 E G A S q e s . l a c o l e u l a v - P e t n e u q e r f ) 7 9 9 1 ( . l a t e g n a h Z
0 0 0 2 E G A S q e s . l a c o l e u l a v - P e t n e u q e r f ) E G A S - I ( . c n I , n e G o r t i v n I
E G A S e d h p . / q e s .
e g i x e , s e l p m i s , l a c o l
s s e c c A t f o s o r c i M
e u l a v - P e t n e c s e r c ) 0 0 0 2 ( s i n n I & s e i l u g r a M
E G A S U q e s . e n i l - n o e u l a v - P e t n e c s e r c ) 0 0 0 2 ( . l a t e n e p m a K n a v
t f a h n E G A S d h p . / q e s . e n i l - n o o i u b i r t s i d a d e t s u j A l a i c i n i ) 4 0 0 2 ( . l a t e h t r a b s s i e B
zando tampo de carregamento con-
vencional contendo xileno-cianol e
azul de bromofenol, sem colorao
com brometo de etdio (Mathupala &
Sloan, 2002). A regio do gel compre-
endida entre os corantes excisada,
pois contm a banda composta pelos
ditags (26 pb), evitando-se a rea
onde se encontra o xileno-cianol, pois
este corante apresenta migrao igual
banda dos adaptadores (40 pb) nes-
tas condies.
A manipulao dos ditags, to
logo sejam purificados, deve ser feita
a 4C para minimizar a ocorrncia de
degradao preferencial dos fragmen-
tos com maior %AT por desnaturao
em temperatura ambiente e em tam-
pes com baixa concentrao salina
(Margulies et al., 2001). Isso inclui
desde a exciso e eluio do gel de
poliacrilamida (Mathupala & Sloan,
2002) at a precipitao (em etanol,
acetato de amnio e glicognio), seca-
gem, ressuspenso e armazenamento
dos ditags (Margulies et al., 2001).
Um outro problema observado
no protocolo original de SAGE se refe-
re ao nmero de ditags concatenados
na reao de l i gao
(concatamerizao). So formados
concatmeros de tamanho variado,
sendo que os menores podem agre-
gar-se e migrar juntamente com os
maiores durante a eletroforese, sendo
ento co-purificados e tambm sub-
metidos concatenao. Foi proposta
uma fase de aquecimento logo aps a
concatamerizao e anterior
eletroforese, visando impedir a forma-
o de agregados contaminantes. Esta
modificao rendeu concatmeros
clonados contendo em mdia 67 tags
(Kenzelmann & Muhlemann, 1999).
A reao de concatamerizao
(ligao a 4C) pode ser controlada
pela aliquotagem peridica e anlise
em gel de 1% agarose at que os
concatmeros atinjam um tamanho
mdio de 800 pb (Mathupala & Sloan,
2002). Outra modificao proposta
para aumentar a eficincia da clonagem
em cerca de trs vezes foi o tratamen-
to dos concatmeros com a enzima T4
DNA polimerase, que torna as extre-
midades abruptas (Khoel et al., 2003),
uma vez que as extremidades coesivas
dos concatmeros podem no estar
intactas devido a alguma atividade
exonuclease residual.
Ao contrrio de alteraes
metodolgicas localizadas, modifica-
es significativas do protocolo pa-
dro surgiram mais recentemente
(Gowda et al., 2004), conseguindo
reduzir tanto a quantidade inicial de
mRNA utilizado (favorecendo a diges-
to completa dos transcritos) quanto o
nmero de reaes de PCR, simulta-
neamente ao aumento do nmero de
clones obtidos. A baixa eficincia de
clonagem e o tamanho reduzido de
insertos geralmente associados SAGE
derivam principalmente da provvel
circularizao dos concatmeros du-
rante sua formao (Gowda et al.,
2004). A eficincia da SAGE aumen-
tada significativamente pela incluso
de uma di gest o rpi da dos
concatmeros com a endonuclease
NlaIII (10 U, 37C, 1 minuto) anterior-
mente clonagem, assim como de
modificaes em outras reaes para a
obteno dos ditags, constituindo o
protocolo da tcnica RL-SAGE (Robust
Long SAGE; Gowda et al., 2004) (ver
Quadro 2). Apenas com a linearizao
parcial dos concatmeros foi possvel
reduzir em mais de 90% o nmero de
PCRs necessrios, alm de se gerar at
4,5 milhes de tags a partir de
5-10 ng de mRNA (Gowda et
al., 2004).
4. Anlise dos dados de
bibliotecas SAGE
Uma vez construda e
seqenciada uma biblioteca
SAGE, os dados (seqncia, fre-
qncia e anotao dos tags)
so utilizados em anlises quali-
tativas e quantitativas, de modo
a se produzir um perfil de ex-
presso gnica passvel de compara-
o e interpretao biolgica. Desta-
ca-se aqui o fato de os dados SAGE
serem digitais, no havendo a necessi-
dade de armazenar os clones SAGE
aps o seqenciamento, tal qual
requerido nas bibliotecas de cDNA,
por exemplo. Algumas estratgias de
processamento dos dados da SAGE
tm sido aplicadas de acordo com o
organismo estudado, a disponibilidade
dos respectivos bancos de dados
genmicos e transcricionais, e obvia-
mente as ferramentas de bioinformtica
compatveis. As aplicaes em
bioinformtica tm papel essencial para
a SAGE em trs funes bsicas: extra-
o e gerenciamento dos dados; an-
lise estatstica (distribuio e compa-
raes); e anotao dos tags (Figura
2).
Inicialmente, os cromatogramas
de sada do analisador automtico de
DNA so submetidos anlise de qua-
lidade para se estimar a eficincia e
confiabilidade do seqenciamento, as-
sim como eventual contaminao por
seqncias do vetor de clonagem. Os
insertos de clones SAGE possuem pa-
dro de seqncia caracterstico, onde
dois tags (ditag) so flanqueados pelo
stio da enzima de ancoramento (ge-
ralmente NlaIII - CATG) (Figura 3).
Em seguida, utilizado um programa
de extrao dos tags a partir dos arqui-
vos de seqenciamento. Para isso, a
maioria dos programas disponveis acei-
tam como entrada os arquivos texto
gerados no seqenciamento (exten-
so .seq), ao passo que outros, mais
recentes, tambm admitem alternati-
vamente os arquivos resultantes da
anlise dos cromatogramas pelos pro-
gramas Phred-Phrap (Ewing & Green,
1998; Ewing et al., 1998) (extenso
s o d a D e d e s a B s o m s i n a g r O o s s e c A o i r c s e D
E G A S e m y z n e G
m o c . e m y z n e g . w w w
s n e i p a s o m o H o d a v i r p
e s i a m r o n s o d i c e t
s o s o r e c n a c
t e n E G A S
g r o . t e n e g a s . w w w
s u M s n e i p a s o m o H
s u l u c s u m
s e c y m o r a h c a S
e a s i v e r e c
o c i l b p
s o s o r e c n a c
p a m E G A S
e g a s / v o g . h i n . m l n . i b c n . w w w
s o i r V o c i l b p s e i d n o c / s o p i t s o i r v
P A G C e i n e G E G A S
g r o . p a g c . w w w
s n e i p a s o m o H o c i l b p
s o s o r e c n a c
Quadro 4. Principais bases de dados SAGE disponveis
.phd) que incluem para cada base
definida um valor de qualidade (Phred
score). Esta diferenciao est direta-
mente ligada reduo de erros de
seqenciamento. Alm do tipo de
arquivo de entrada, os principais pro-
gramas de extrao de dados SAGE
distingem-se tambm em outros
parmetros (Quadro 3). Adicional-
mente, outros programas tm sido
desenvolvidos para: detectar a pre-
sena de erros potenciais nos conjun-
tos de tags e suas contagens; analisar
comparativamente bibliotecas; auxili-
ar o planejamento de experimentos; e
facilitar a anotao dos tags originrios
de espcies modelo. So exemplos o
POWER_SAGE (Man et al., 2000);
ExProView (Larsson et al., 2000); e o
SAGEScreen (Akmaev & Wang, 2004).
Na etapa de extrao dos tags
computado o nmero de vezes que
cada tag encontrado. Aps a extra-
o, o software gera uma tabulao da
seqncia e da freqncia de cada tag,
representando teoricamente cada
transcrito amostrado e sua abundncia.
Considerando-se o exemplo de fluxo-
grama de anlise (Figura 2), observa-
se que arquivos resultantes da anlise
de qualidade do seqenciamento
(.phd) so utilizados para a extrao
dos tags (definio de suas seqnci-
as; contagens ou freqncias; conte-
do de GC; e comparaes) pelo pro-
grama eSAGE (Margulies & Innis,
2000). O eSAGE tambm detecta e
contabiliza o nmero de ditags dupli-
cados presente nas seqncias dos
concatmeros, e extrai apenas tags
sem bases ambguas, isto , apenas
tags com todas as bases definidas (A,
T, C ou G). As comparaes entre
bibliotecas podem ser conduzidas no
eSAGE, o qual informa a significncia
estatstica para cada variao de fre-
qncia encontrada, determinada pe-
los respectivos valores P (Audic &
Claverie, 1997).
Um padro transcricional obtido
pode ser submetido a uma anlise de
verificao de erros potenciais, de acor-
do com modelos estatsticos de distri-
buio, minimizando a presena po-
tencial de artefatos gerados tanto por
vieses experimentais (vis ou bias de
amplificao; degradao seletiva; du-
o r e n G o l o c o t o r P o a c i l p A
, s a c i g l o d o t e m s e a r e t l A
o a t o n A a r a p e t n o F
s g a T
/ s o c i n / s i a t o t ( ) s e h c t a m
a c i t s t a t s E s a i c n r e f e R
s i s p o d i b a r A
l a n i g i r O o i r f o a a t s o p s e R
s g a t i d s T S E + s A N D c , E T m e b p 6 2 7 6 3 3 / 9 4 0 2 1 / 0 8 2 1 2 r o l a v P o z a r e ) 3 0 0 2 ( . l a t e g n u J
l a n i g i r O m e o i r f o a a t s o p s e R
n e l p
s g a t i d , E T m e b p 6 2 c t a m o n h
p a m E G A S
7 7 8 1 / 1 2 2 4 / 3 7 2 1 2 o z a r ) 3 0 0 2 ( e e L & e e L
l a n i g i r O
a i n e g s n a r t a t s o p s e R
) o i r c s n a r t e d r o t a f (
0 0 8 ~ p u e l a c s , ' 3 G T A C , s R C P
h c t a m s T S E + s A N D c , o t e l p m o c
4 1 3 3 > / 4 2 0 1 1 / 5 2 9 7 2
d
r o l a v P ) 3 0 0 2 ( . l a t e y h t r a v a r k a h C
l a n i g i r O
o a r a l u c i d a r a t s o p s e R
T N T
s T S E + s A N D c % 0 7 ~ / 6 2 7 4 2 / 7 0 3 4 6 o z a r ) 3 0 0 2 ( . l a t e n a m k E
E D A S
e
r a l u c i d a r a m o t p i r c s n a r T
) - ( S K I I S B p , A N R m s o n e m n u l b , t
I o b M o a t o n a , m e g a r o c n a a r a p
r o p s g a t m o c a m o n e g o d s i a u t r i v
. s R T U
2 3 8 0 2 / 8 7 0 2 5 / 3 8 0 4 4 1 r o l a v P ) 4 0 0 2 ( . l a t e s e m a z i F
a z y r O
l a n i g i r O
a
z o r r a . s v o d a g a l a z o r r A
o r i e u q e s e d
s r e m i r p s T S E + S A N D c , s o d a l i n i t o i b 7 6 3 1 / 1 2 9 5 / 2 2 1 0 1 r o l a v P ) 9 9 9 1 ( . l a t e a r u m u s t a M
l a n i g i r O
e d o u d n I
a s e f e d e d s o m s i n a c e m
, a m o n e g o n o a t o n a , 3 M E G p
e I I I a l N o i t s o d m e g a c e h c
s T S E + s A N D c / o a t n e i r o
% 0 7 - 0 3 / 0 0 7 5 / 0 0 1 0 1 r o l a v P ) a 3 0 0 2 ( . l a t e a r u m u s t a M
l a n i g i r O
a h l o f e d a m o t p i r c s n a r T
e t n e m e s e
a d s e t n a s g i t n o c e d e s i l n A
, ' 3 G T A C , o a r t x e h c t a m
- i l o p m o c s T S E + s A N D c , o t e l p m o c
A
% 0 5 ~ / 3 1 3 5 1 / 9 1 5 0 5 - ) 3 0 0 2 ( . l a t e s g n i b b i G
E G A S r e p u S
m o c s a d a t c e f n i s a h l o F
a e s i r g e h t r o p a n g a M
o c E ( I 5 1 P s g a t , 3 M E G p , ) b p 2 2
a m o n e g + s T S E + s A N D c
- / 6 4 5 7 / 9 1 1 2 1 o z a r ) b 3 0 0 2 ( . l a t e a r u m u s t a M
a e Z , a z y r O E G A S - L R
e d r a i l o f a m o t p i r c s n a r T
e d s a l u t n l p e d e z o r r a
o h l i m
0 2 , A N R m s o n e m o t i u m u e l a c s p
s o d l a i c r a p o t s e g i d , s R C P
m o c s o r e m t a c n o c I I I a l N s A N D c ,
a m o n e g + T S E +
0 0 0 0 0 5 2 ~
f
% 0 4 - 5 1 / - /
- ) 4 0 0 2 ( . l a t e a d w o G
s u n i P l a n i g i r O a m e l i x o d o a r u t a M
s r e m i r p o t n e m i c e u q a , s o d a l i n i t o i b
o t n e m a n o i c a r f , s o r e m t a c n o c s o d
s T S E + s A N D c , e s o r a g a m e
8 8 1 9 1 / 1 4 6 2 4 / 5 5 8 0 5 1
b
o z a r
c
) 2 0 0 2 ( n a e D & z n e r o L
Quadro 5. Principais aplicaes da metodologia SAGE em organismos vegetais
a
Velculescu et al. (1995).
b
estimado por amostragem.
c
razo de variao numrica entre a contagem de cada tag entre bibliotecas.
d
em relao aos tags de contagem > 1.
E
Virlon et al. (1999)
f
estimado pelo nmero de clones isolados e no seqenciados.
plicao de ditags) quanto por erros
no seqenciamento. Para se quantificar
a taxa potencial de erro experimental,
pode-se utilizar concomitantemente
ao eSAGE a anlise dos mesmos dados
na verso on-line do programa
SAGEnhaft (Beissbarth et al., 2004;
http://tagcalling.mbgproject.org/
extract-library.html). Este, por sua
vez, retorna a contagem de cada tag
corrigida por um modelo terico de
distribuio, que considera as informa-
es de qualidade do seqenciamento
contidas no base-calling feito pelo
programa Phred e a probabilidade de
cada base ser um erro dependendo
das bases vizinhas e dos tags com
seqncia similar. O objetivo com-
pensar as probabilidades de erro ex-
perimental detectadas pela alterao
da freqncia do tag errado na bibli-
oteca. A diferena entre a contagem
observada do tag e a sua contagem
corrigida denominada taxa de erro
potencial (). Em geral, observa-se
que, da mesma forma que nas biblio-
tecas SAGE existe uma grande quanti-
dade de tags que aparecem poucas
vezes, poucos tags aparecem muitas
vezes. A maioria dos tags que apre-
sentam D aparecem poucas vezes na
biblioteca e poucos tags que possuem
aparecem muitas vezes. O modelo
de ajuste SAGEnhaft pondera estatisti-
camente o fato de quanto mais fre-
qente um tag estiver numa bibliote-
ca, menor a chance de ele ser um
erro experimental e, portanto, maior
a chance de ele representar verdadei-
ramente um gene expresso. Tags de
contagem menor que 5 possuem au-
mento significativo na probabilidade
de erro, mas mesmo assim, os tags
menos freqentes no so geralmente
excludos da SAGE em plantas, mes-
mo porque podem chegar a perfazer
at cerca de 70% do total de tags
(Lorenz & Dean, 2002).
6. Anotao dos tags
A anlise dos dados gerados no
seqenciamento de bibliotecas SAGE
exige recursos que incluam mtodos
de anlise e bases de dados especfi-
cas. Os bancos de dados SAGE dispo-
nveis, alguns pblicos e outros priva-
dos (Quadro 4), concentram-se ainda
para espcies-modelo animais, princi-
palmente humanos, camundongo e
Caenorhabditis elegans, mas alguns j
incluem dados de espcies vegetais
(http: //www. ncbi . nl m. ni h. gov/
p r o j e c t s / S A G E /
index.cgi?cmd=printstats).
A anotao dos tags SAGE difere
daquela usualmente empregada para
seqenciamento de ESTs em dois as-
pectos principais. Em primeiro lugar,
o menor tamanho do tag SAGE (~10-
14 pb) exige que sua identificao
fundamente-se na identidade com-
pleta, isto , para haver associao
entre elas necessrio que as 10 ou 14
bases (9-10 pb do tag e 4 pb do stio
da enzima NlaIII) sejam iguais se-
qncia encontrada. Em segundo lu-
gar, a confiabilidade da anotao
maior quando esta conduzida com-
parativamente a um banco de seqn-
cias expressas (cDNAs) ou mesmo
seqncia do genoma. Todavia, da-
dos genmicos e ou transcricionais de
organismos-modelo filogeneticamen-
te prximos espcie de interesse
podem ser eventualmente utilizados
para a obteno de uma anotao
preliminar. Neste contexto existe a
base pblica dos Gene Indices, listas
de colees de seqncias de cDNA
anotadas e sistematicamente deposi-
tadas no TIGR (The Institute of Geno-
me Research; www.tigr.org). Uma
alternativa til nos casos de organis-
mos modelo j bastante estudados via
SAGE a sua identificao em biblio-
tecas SAGE j construdas, depositadas
e anotadas contra os acessos do Uni-
Gene/NCBI (www.ncbi.nlm.nih.gov/
UniGene). Esta busca pode ser reali-
zada no banco de dados pblicos de
bibliotecas SAGE denominado SAGE-
map (www.ncbi.nlm.nih.gov/sage),
especfico para depsito e anlise de
dados SAGE no NCBI, integrado
coleo de dados de expresso gnica
do GenBank que inclui tambm infor-
maes oriundas de microarranjos
(GEO, Gene Expression Omnibus;
Edgar et al . , 2002;
www.ncbi.nlm.nih.gov/geo). Entre-
tanto, a maioria dos bancos de dados
SAGE disponveis no so de organis-
mos vegetais, sendo principalmente
de tecidos humanos e de Mus muscu-
lus, assim como as ferramentas on-
line para gerenciamento, anlise e
anotao dos tags SAGE. So exem-
plos o CGAP/SAGE Genie (Boon et al.,
2002), SAGEnet (www.sagenet.org) e
o The Mouse SAGE Site (Divina &
Forejt, 2004). Mesmo o SAGEmap
no dispe de recursos on-line que
permitam, por exemplo, realizar a
anotao de uma coleo de tags em
alta escala, de maneira similar ao pro-
grama MegaBLAST. possvel obter
os dados depositados no SAGEmap e
compar-los aos dados locais para sua
anotao, pois muitos tags deposita-
dos no SAGEmap j se encontram
associados a um cluster do UniGene j
anotado, com uma funo presumvel
atribuda.
Outra complicao na anotao
de tags SAGE o fato de alguns deles
estarem ausentes at mesmo do
genoma de alguns organismos, como
j foi verificado em Arabidopsis
thaliana (Fizames et al., 2004). At
recentemente, estes tags eram atribu-
dos a vis experimental, erros no
seqenciamento e simplesmente des-
cartados, apesar de chegarem a perfa-
zer at 40% do total dos tags obtidos.
As razes para este aparente parado-
xo tm sido parcialmente elucidadas
pela deteco e provveis funes de
mRNAs antisenso (Meyers et al., 2004),
mas o isolamento significativo de in-
meros tags SAGE que sequer podem
ser encontrados nem mesmo no
genoma do organismo que lhes deu
origem no mnimo intrigante, e abre
as portas para novas linhas de pesqui-
sa envolvendo a provvel existncia
de mecanismos ainda desconhecidos
de processamento e regulao ps-
transcricionais.
Finalmente, a anotao dos tags
de uma biblioteca SAGE de natureza
presumvel e preliminar. comum
ocorrerem tags desconhecidos ou sem
anotao definida, assim como um tag
corresponder igualmente a mais de
uma anotao. De modo geral, a
identificao dos tags com maior rele-
vncia para o fenmeno estudado con-
duz validao dos resultados por
tcnicas complementares a SAGE, tais
como a GLGI (Chen et al., 2002), RT-
PCR quantitativo ou northern blot e
abre caminhos para estudos gnicos
funcionais.
7. Anlise estatstica
A metodologia SAGE considera-
da como um sistema aberto em rela-
o ao gerenciamento e anlise dos
tags devido aos diversos sistemas e
ferramentas disponveis para a extra-
o e incluso de novos tags, anlises
comparativas e estatsticas e anotao,
ou seja, associao de cada tag a um
gene previamente conhecido (Tuteja
& Tuteja, 2004). As inferncias esta-
tsticas dos dados SAGE devem ser
utilizadas sobre dois aspectos: i) de-
tectar e ajustar eventuais erros atribu-
dos s etapas potencialmente ten-
denciosas da metodologia SAGE (am-
plificao; formao de ditags; e
seqenciamento); e ii) definir a proba-
bilidade de uma determinada variao
encontrada na freqncia de um tag
entre bibliotecas distintas ser significa-
tiva (P < 0,05), ou seja, no ser deriva-
da do acaso.
Modelos matemticos tm sido
propostos para detectar e corrigir er-
ros potenciais presentes nos tags de
bibliotecas SAGE, considerando a pro-
babilidade cumulativa de um determi-
nado tag conter pelo menos uma base
errnea originada de erros experimen-
tais, em funo das seqncias e da
distribuio dos tags que compem
uma determinada biblioteca. Stollberg
et al. (2000) e Colinge & Feger (2001)
destacaram as conseqncias dos er-
ros experimentais, em especial os de
seqenciamento, na interpretao dos
resultados SAGE e, apesar de descrev-
los como inerentes tcnica, propuse-
ram a utilizao de programas capazes
de identificar os tags com elevada
probabilidade de erro, elimin-los do
conjunto de dados e ajustar novamen-
te a freqncia dos tags remanescen-
tes, com base em modelos de distri-
buio (Poisson, binomial) estatistica-
mente apropriados. Cai et al. (2004),
e mais detalhadamente Akmaev &
Wang (2004), tambm descreveram
abordagens similares para contornar
os erros experimentais da SAGE.
Beissbarth et al. (2004) publicaram
recentemente um novo modelo esta-
tstico para correo dos erros poten-
ciais em bibliotecas SAGE, a partir dos
valores de qualidade atribudos a cada
base (base-calling) pelo software Phred
(Ewing & Green, 1998; Ewing et al.,
1998) e de acordo com um modelo de
ajuste para distribuio de Poisson.
Essa estratgia est disponibilizada para
uso on-line(tagcalling.mbgproject.org).
Di versas ferramentas de
bioinfomtica incorporaram testes es-
tatsticos aplicveis aos dados de bibli-
otecas SAGE, nos quais o desconheci-
mento da varincia (uma vez que a
SAGE geralmente uma amostragem
sem repeties) compensado por
simulaes ou fundamentado no pa-
dro de distribuio dos tags (Tuteja &
Tuteja, 2004; Vncio et al., 2003). A
comparao entre os cinco principais
testes estatsticos utilizados para aferir
a significncia entre as variaes na
freqncia de tags entre bibliotecas
SAGE (teste de Madden; SAGE300;
Teste exato de Fisher; Teste Z; Teste
de Audic & Claverie) revelou conclu-
sivamente que os mtodos apresen-
tam resultados muito similares quando
aplicados a um mesmo conjunto de
dados (Ruijter et al., 2002). Em geral,
os programas que comparam estatisti-
camente bibliotecas SAGE utilizam o
teste P (Audic & Claverie, 1997), in-
cluindo o programa distribudo gratui-
tamente eSAGE (Margulies & Innis,
2000) e o servio disponvel on-line
USAGE (van Kampen et al., 2000).
A anotao dos tags SAGE tem
sido conduzida pela busca da identida-
de com outras seqncias j anotadas,
geralmente ESTs ou mesmo tags SAGE
que j tenham mostrado correspon-
dncia com seqncias expressas de
funo atribuda, como no caso do
SAGEmap anotado via UniGene
(NCBI). Entretanto, os tags SAGE
podem eventualmente no ser longos
o bastante para se obter um grau de
correspondncia nico para uma ano-
tao adequada (Lee et al., 2002), e a
extenso dos tags em ESTs maiores
por meio experimental pode ser ne-
cessria (GLGI; Chen et al., 2002; van
der Berg et al., 1999) para resolver a
anotao dos tags de maior interesse.
O uso da seqncia genmica com-
pleta de um organismo para a anota-
o de seus tags SAGE tem sido apli-
cada em algumas espcies modelo.
Pleasance et al. (2003) obtiveram maior
eficincia na anotao de tags compa-
rando-os com colees de tags
conceituais extrados de transcritos
tericos, ou seja, de seqncias gnicas
computacionalmente obtidas a partir
da anlise da seqncia genmica de
Drosophila melanogaster e
Caenorhabditis elegans.
Recentemente, outra abordagem
mais estringente foi utilizada para a
anotao de tags oriundos de bibliote-
cas SAGE. Objetivando-se caracterizar
o transcriptoma e facilitar a anotao
do genoma de clulas-tronco embrio-
nrias de camundongo (Wei et al.,
2004), foi descrita uma nova
metodologia para o isolamento das 20
primeiras e das 20 ltimas bases de
cada transcrito da amostra, atravs de
5LongSAGE (5LS) e 3LongSAGE
(3LS). O mapeamento dos tags 5LS
e 3LS no genoma possibilitou a loca-
lizao, para cada gene analisado, do
stio de incio da transcrio e de
poliadenilao, respectivamente. Ain-
da, utilizando cada par corresponden-
te de tags (5e 3), foi verificado que
mais de 90% dos tags analisados real-
mente correspondiam ao primeiro e
ao ltimo exon do respectivo gene, e
tambm, em 81% das tentativas, foi
possvel amplificar via RT-PCR o trans-
crito completo usando-se como inicia-
dores os tags 5e 3 correspondentes.
9. Aplicaes em plantas -
Exemplos e validao
experimental
Embora amplamente utilizada
para a anlise geral de transcritos em
levedura (Velculescu et al., 1997) e na
expresso diferencial de genes em
cl ul as humanas normai s e
cancergenas (Zhang et al., 1997;
Polyak et al., 1997), a tcnica de SAGE
est sendo adotada em espcies ve-
getais mais lentamente. A aplicao
mais importante em plantas a iden-
tificao de genes diferencialmente
expressos, constituindo-se num mto-
do adequado para a caracterizao da
transcrio em tecidos especficos ou
em condies fisiolgicas diversas
(Matsumura et al., 1999). Outra e
igualmente importante aplicao da
SAGE a indicao dos genes diferen-
cialmente expressos para o isolamen-
to de novos promotores para o contro-
le de transgenes.
A disponibilidade de bancos de
dados derivados da anlise de cDNAs
em larga escala consiste num pr-
requisito importante para viabilizar a
aplicao da SAGE em plantas, uma
vez que a anotao dos tags baseia-se
em bancos pr-existentes, principal-
mente de ESTs obtidos da regio 3
dos mRNAs. A concluso do Projeto
SUCEST/FAPESP tornou extremamen-
te atrativa a aplicao da SAGE para
estudos em cana-de-acar, com um
total de 291. 689 transcri tos
seqenciados, dos quais 259.325
(88,9%) so de regies 5 e 32.364
(11,1%) so de regies 3 (Vettore et
al., 2003). Outros projetos de
seqenciamento de cDNA em outras
espcies j concludos ou em anda-
mento podem favorecer a expanso
da aplicao da SAGE em vegetais.
A SAGE vem sendo utilizada em
anlises transcricionais em larga escala
em plantas de maneira crescente. O
trabalho pioneiro de Matsumura et al.
(1999) usou a SAGE na definio de
um perfil transcricional de Oryza sativa
e na identificao da expresso gnica
diferencial entre plntulas cultivadas
em solo irrigado e em sequeiro. Desde
ento, di versas i novaes
metodolgicas foram descritas visan-
do aumentar a eficincia de clonagem
e, de forma especial, na extrao e
anotao dos tags SAGE oriundos de
plantas (Quadro 5).
As principais incorporaes
metodologia SAGE em aplicaes de
anlise do transcriptoma de espcies
vegetais foram: a) uso de primers
biotinilados para amplificao e remo-
o dos adaptadores (Matsumura et
al., 1999; Lorenz & Dean, 2002); b)
aquecimento dos concatmeros a 65C
ant es do fraci onament o por
eletroforese (Lorenz & Dean, 2002);
c) manuseio dos ditags de 26 pb em
tampo TE no gelo, com maior con-
centrao salina (Jung et al., 2003; Lee
& Lee, 2003); d) uso de endonucleases
alternativas para a ancoragem (MboI)
e tagging (MmeI, EcoP15I) para au-
mentar a eficincia de amostragem e
o tamanho do tag (Matsumura et al.,
2003b; Fizames et al., 2004); e e)
reduo da quantidade inicial de mRNA
(Fizames et al., 2004; Gowda et al.,
2004) e de PCRs na etapa de amplifi-
cao dos ditags de 100 pb (Gowda et
al., 2004).
Dentre as tcnicas utilizadas para
validar experimentalmente, em me-
nor escala, as variaes de expresso
gnica detectadas via SAGE em plan-
tas, tm-se empregado principalmen-
te northern blot (Jung et al., 2003;
Matsumura et al., 2003a; Chakravarthy
et al., 2003); real-time RT-PCR (Ekman
et al., 2003); RT-PCR e 3RACE-PCR
(Matsumura et al., 1999). De modo
significativo, mesmo empregando di-
versas tcnicas de validao aplicadas
em diversas espcies, na grande mai-
oria das vezes as variaes detectadas
por comparao entre bibliotecas SAGE
foram confirmadas proporcionalmen-
te pelos outros mtodos de anlise de
expresso gnica.
10. Concluso e perspectivas
A eficincia e robustez da
tecnologia SAGE, j amplamente evi-
denciada em inmeras aplicaes de
anlises transcricionais em humanos e
outros mamferos e animais modelo,
fungos e plantas tendem a favorecer
sua utilizao. Da mesma forma, a
implementao de ferramentas de
bioinformtica mais dinmicas e espe-
cficas para o gerenciamento, anlise e
anotao de dados SAGE, aliada aos
avanos met odol gi cos no
seqenciamento e ao desenvolvimen-
to de novas tcnicas para validao
experimental, tornaro a SAGE cada
vez mais verstil na obteno de res-
postas sobre os mais variados proces-
sos biolgicos cuja regulao passe
pela transcrio. De forma comple-
mentar s outras tcnicas para anlise
transcricional em escala genmica, a
SAGE tem grandes contribuies a dar
nas etapas iniciais do complexo pano-
rama da genmica funcional.
11. Literatura citada
Adams MD, Kerlavage A, Fleischmann
RD, Fuldner RA, Bult CJ, Lee NH,
Kirkness EF, Weinstock KG,
Gocayne JD, White, O (1995).
Initial assessment of human gene
diversity and expression patterns
based upon 83 million nucleotides
of cDNA sequence. Nature, 377:
3-174.
Akmaev VR, Wang CJ (2004).
Correction of sequence-based
artifacts in serial analysis of gene
expression. Bioinformatics 20:
1254-63.
Audic S, Claverie JM (1997). The
significance of digital gene
expression profiles. Genome Res.
7: 986-995.
Bachem CW, van der Hoeven RS, de
Bruijn SM, Vreugdenhil D, Zabeau
M, Visser RG (1996). Visualization
of differential gene expression
using a novel method of RNA
fingerprinting based on AFLP:
analysis of gene expression during
potato tuber development. Plant
J. 9: 745-53.
Beissbarth T, Hyde L, Smyth GK, Job
C, Boon WM, Tan SS, Scott HS,
Speed TP (2004). Statistical
modeling of sequencing errors in
SAGE libraries. Bioinformatics
20(1): I31-I39.
Boon K, Osorio EC, Greenhut SF,
Schaefer CF, Shoemaker J, Polyak
K, Morin PJ, Buetow KH, Strausberg
RL, De Souza SJ, Riggins GJ (2002).
An anatomy of normal and
malignant gene expression. Proc
Natl Acad Sci U S A 99: 11287-92.
Brenner S, Johnson M, Bridgham J,
Golda G, Lloyd DH, Johnson D,
Luo S, McCurdy S, Foy M, Ewan M,
Roth R, George D, Eletr S, Albrecht
G, Vermaas E, Williams SR, Moon
K, Burcham T, Pallas M, DuBridge
RB, Kirchner J, Fearon K, Mao J,
Corcoran K (2000). Gene
expression analysis by massively
parallel signature sequencing
(MPSS) on microbead arrays. Nat
Biotechnol. 18: 630-4. Erratum in:
Nat Biotechnol (2000) 18: 1021.
Breyne P, Zabeau M (2001). Genome-
wide expression analysis of plant
cell cycle modulated genes. Curr
Opin Plant Biol. 4: 136-42.
Cai L, Huang H, Blackshaw S, Liu JS,
Cepko C, Wong WH (2004).
Clustering analysis of SAGE data
using a Poisson approach. Genome
Biol. 5: R51.
Carneiro VTC, Dusi DMA (2002).
Apomixia. Biotecnologia Cincia
& Desenvolvimento, 25: 36-42.
Chakravarthy S, Tuori RP, DAscenzo
MD, Fobert PR, Despres C, Martin
GB (2003). The tomato
transcription factor Pti4 regulates
defense-related gene expression
via GCC box and non-GCC box cis
elements. Plant Cell. 15: 3033-50.
Chen J, Lee S, Zhou G, Wang SM
(2002). High-throughput GLGI
procedure for converting a large
number of serial analysis of gene
expression tag sequences into 3'
complementary DNAs. Genes
Chromosomes Cancer 33: 252-61.
Christensen TM, Vejlupkova Z, Sharma
YK, Arthur KM, Spatafora JW,
Albright CA, Meeley RB, Duvick
JP, Quatrano RS, Fowler JE (2003).
Conserved subgroups and
developmental regulation in the
monocot rop gene family. Plant
Physiol., 133: 1791-1808.
Colinge J, Feger G (2001). Detecting
the impact of sequencing errors
on SAGE data. Bioinformatics. 17:
840-2.
Datson NA, van der Perk-de Jong J,
van den Berg MP, de Kloet ER,
Vreugdenhil E (1999). MicroSAGE:
a modified procedure for serial
analysis of gene expression in
limited amounts of tissue. Nucleic
Acids Res. 27: 1300-7.
Divina P, Forejt J (2004). The Mouse
SAGE Site: database of public
mouse SAGE libraries. Nucleic
Acids Res. 32: D482D483.
Donson J, Fang Y, Espiritu-Santo G,
Xing W, Salazar A, Miyamoto S,
Armendarez V, Volkmuth W
(2002). Comprehensive gene
expression analysis by transcript
profiling. Plant Mol Biol. 48: 75-97.
Edgar R, Domrachev M, Lash AE (2002).
Gene Expression Omnibus: NCBI
gene expression and hybridization
array data repository. Nucleic Acids
Res. 30: 207-210.
Ekman DR, Lorenz WW, Przybyla AE,
Wolfe NL, Dean JF (2003). SAGE
analysis of transcriptome responses
in Arabidopsis roots exposed to
2,4,6-trinitrotoluene. Plant Physiol.
133: 1397-406.
Ewing B, Green P (1998). Base-calling
of automated sequencer traces
using phred. II. Error probabilities.
Genome Res. 8: 186-94.
Ewing B, Hillier L, Wendl MC, Green P
(1998). Base-calling of automated
sequencer traces using phred. I.
Accuracy assessment. Genome
Res. 8: 175-85.
Fizames C, Munos S, Cazettes C, Nacry
P, Boucherez J, Gaymard F,
Piquemal D, Delorme V, Commes
T, Doumas P, Cooke R, Marti J,
Sentenac H, Gojon A (2004). The
Arabidopsis root transcriptome by
serial analysis of gene expression.
Gene identification using the
genome sequence. Plant Physiol.
134: 67-80.
Gibbings JG, Cook BP, Dufault MR,
Madden SL, Khuri S, Turnbull CJ,
Dunwell JM (2003). Global
transcript analysis of rice leaf and
seed using SAGE technology. Plant
Biotech. J. 1: 271-285.
Goff SA, Ricke D, Lan TH, Presting G,
Wang R, Dunn M, Glazebrook J et
al.. (2002). A draft sequence of the
rice genome (Oryza sativa L. ssp.
japonica). Science. 296: 92-100.
Gowda M, Jantasuriyarat C, Dean RA,
Wang GL (2004). Robust-
LongSAGE (RL-SAGE): a
substantially improved LongSAGE
method for gene discovery and
transcriptome analysis. Plant
Physiol. 134: 890-7.
Jung SH, Lee JY, Lee DH (2003). Use
of SAGE technology to reveal
changes in gene expression in
Arabidopsis leaves undergoing cold
stress. Plant Mol Biol. 52: 553-67.
Kenzelmann M, Muhlemann K (1999).
Substantially enhanced cloning
efficiency of SAGE (Serial Analysis
of Gene Expression) by adding a
heating step to the original
protocol. Nucleic Acids Res. 27:
917-8.
Khoel A, Friauf E, Nothwang HG
(2003). Efficient cloning of SAGE
tags by blunt-end ligation of
pol i shed concatemers.
BioTechniques 34: 692-694.
Larsson M, Stahl S, Uhlen M, Wennborg
A (2000). Expression profile viewer
(ExProView): a software tool for
transcriptome analysis. Genomics.
63: 341-53
Lash AE, Tolstoshev CM, Wagner L,
Schuler GD, Strausberg RL, Riggins
GJ, Altschul SF (2000). SAGEmap:
a public gene expression resource.
Genome Res. 10: 1051-60.
Lee JY, Lee DH (2003). Use of serial
analysis of gene expression
technology to reveal changes in
gene expression in Arabidopsis
pollen undergoing cold stress.
Plant Physiol. 132: 517-29.
Lee S, Clark T, Chen J, Zhou G, Scott
LR, Rowley JD, Wang SM (2002).
Correct identification of genes
from serial analysis of gene
expressi on tag sequences.
Genomics. 79: 598-602.
Liang P, Pardee AB (1992). Differential
display of eukaryotic messenger
RNA by means of the polymerase
chain reaction. Science. 257: 967-
71.
Lockhart DJ, Dong H, Byrne MC,
Follettie MT, Gallo MV, Chee MS,
Mittmann M, Wang C, Kobayashi
M, Horton H, Brown EL (1996).
Expressi on moni tori ng by
hybridization to high-density
oligonucleotide arrays. Nat
Biotechnol. 14: 1675-80.
Lorenz WW, Dean JF (2002). SAGE
profiling and demonstration of
differential gene expression along
the axial developmental gradient
of lignifying xylem in loblolly pine
(Pinus taeda). Tree Physiol. 22:
301-10.
Man MZ, Wang X, Wang Y (2000).
POWER_SAGE: compari ng
stati sti cal tests for SAGE
experiments. Bioinformatics. 16:
953-9.
Margulies EH, Innis JW (2000). eSAGE:
managing and analysing data
generated with serial analysis of
gene expressi on (SAGE).
Bioinformatics. 16: 650-1.
Margulies EH, Kardia SLR, Innis JW
(2001). Identi fi cati on and
prevention of a GC content bias in
SAGE libraries. Nucleic Acids Res.
29: e60.
Mathupala SP, Sloan AE (2002). In
gel purified ditags direct synthesis
of highly efficient SAGE libraries.
BMC Genomics 3: 20.
Matsumura H, Nirasawa S, Kiba A,
Urasaki N, Saitoh H, Ito M, Kawai-
Yamada M, Uchimiya H, Teraucho
R (2003a). Overexpression of Bax
inhibitor suppresses the fungal
elicitor-induced cell death in rice
(Oryza sativa L.) cells. Plant J. 33:
425-434.
Matsumura H, Nirasawa S, Terauchi R
(1999). Technical advance: trans-
cript profiling in rice (Oryza sativa
L.) seedlings using serial analysis
of gene expression (SAGE). Plant
J. 20: 719-26.
Matsumura H, Reich S, Ito A, Saitoh H,
Kamoun S, Winter P, Kahl G,
Reuter M, Kruger DH, Terauchi R
(2003b). Gene expression analysis
of plant host-pathogen interactions
by SuperSAGE. Proc Natl Acad Sci
U S A. 100: 15718-15723.
Meyers BC, Galbraith DW, Nelson T,
Agrawa V (2004). Methods for
transcriptional profiling in plants.
Be fruitful and replicate. Plant
Physiol. 135: 637-652.
Nielsen MD, Millichip M, Josefsen K
(2003). High-performance liquid
chromatography purification of 26-
bp serial analysis of gene
expression ditags results in higher
yields, longer concatemers, and
substantial time savings. Analytical
Biochemistry 313: 128-132.
Pleasance ED, Marra MA, Jones SJM
(2003). Assessment of SAGE in
transcript identification. Genome
Res. 13: 1203-15.
Polyak K, Xia Y, Zweier JL, Kinzler
KW, Vogelstein B (1997). A model
for p53-induced apoptosis. Nature.
389: 300-5.
Powell J (1998). Enhanced concatemer
cloning-a modification to the SAGE
(Seri al Anal ysi s of Gene
Expression) technique. Nucleic
Acids Res. 26: 3445-6.
Richmond T, Somerville S (2000).
Chasing the dream: plant EST
microarrays. Curr Opin Plant Biol.
3: 108-16.
Ruijter JM, Van Kampen AH, Baas F
(2002). Statistical evaluation of
SAGE libraries: consequences for
experimental design. Physiol
Genomics. 11: 37-44.
Saha S, Sparks AB, Rago C, Akmaev V,
Wang CJ, Vogelstein B, Kinzler
KW, Velculescu VE (2002). Using
the transcriptome to annotate the
genome. Nat Biotechnol. 20: 508-
12.
Schaffer R, Landgraf J, Perez-Amador
M, Wisman E (2000). Monitoring
genome-wide expression in plants.
Curr Opin Biotechnol. 11: 162-7.
Schena M, Shalon D, Heller R, Chai A,
Brown PO, Davis RW (1996).
Parallel human genome analysis:
microarray-based expression
monitoring of 1000 genes. Proc
Natl Acad Sci U S A. 93: 10614-9.
Shimkets RA, Lowe DG, Tai JT, Sehl P,
Jin H, Yang R, Predki PF, Rothberg
BE, Murtha MT, Roth ME, Shenoy
SG, Windemuth A, Simpson JW,
Simons JF, Daley MP, Gold SA,
McKenna MP, Hillan K, Went GT,
Rothberg JM (1999). Gene
expression analysis by transcript
profiling coupled to a gene
database query. Nat Biotechnol.
17: 798-803.
So AP, Turner RFB, Haynes CA (2004).
Increasing the efficiency of SAGE
adaptor ligation by direct ligation
chemistry. Nucleic Acids Res. 32:
e96.
Stollberg J, Urschitz J, Urban Z, Boyd
CD (2000). A quanti tati ve
evaluation of SAGE. Genome Res.
10: 1241-8.
Sutcliffe JG, Foye PE, Erlander MG,
Hilbush BS, Bodzin LJ, Durham JT,
Hasel KW (2000). TOGA: an
automated parsing technology for
analyzing expression of nearly all
genes. Proc Natl Acad Sci U S A. 97:
1976-81.
The Arabidopsis Genome Initiative
(2000). Analysis of the genome
sequence of the flowering plant
Arabidopsis thaliana. Nature. 408:
796-815.
Tuteja R, Tuteja N (2004). Serial analysis
of gene expression (SAGE):
unraveling the bioinformatics tools.
BioEssays, 26: 916-922.
van der Berg A, van der Leij J, Poppema
S (1999). Serial analysis of gene
expression: rapid RT-PCR analysis
of unknown SAGE tags. Nucleic
Acids Res. 27: e17.
van Kampen AH, van Schaik BD, Pauws
E, Michiels EM, Ruijter JM, Caron
HN, Versteeg R, Heisterkamp SH,
Leunissen J, Baas F, van der Mee
M (2000). USAGE: a web-based
approach towards the analysis of
SAGE data. Serial Analysis of Gene
Expression. Bioinformatics 16: 899-
905.
Velculescu VE, Zhang L, Zhou W,
Vogelstein J, Basrai MA, Bassett
DE Jr, Hieter P, Vogelstein B,
Ki nzl er KW (1997).
Characterization of the yeast
transcriptome. Cell. 88: 243-51.
Velculescu VE, Vogelstein B, Kinzler
KW (2000). Analysing uncharted
transcriptomes with SAGE. Trends
Genet. 16: 423-5.
Velculescu VE, Zhang L, Vogelstein B,
and Kinzler KW (1995). Serial
Analysis Of Gene Expression.
Science 270: 484-487.
Vncio RZN, Brentani H, Pereira CAB
(2003). Using credibility intervals
instead of hypothesis tests in SAGE
analysis. Bioinformatics 19: 2461-
2464,.
Vettore AL, da Silva FR, Kemper EL,
Souza GM, da Silva AM, Ferro MI et
al.. (2003). Analysis and functional
annotation of an expressed
sequence tag collection for tropi-
cal crop sugarcane. Genome Res.
13: 2725-35.
Virlon B, Cheval L, Buhler JM, Billon E,
Doucet A, Elalouf JM (1999). Serial
mi croanal ysi s of renal
transcriptomes. Proc Natl Acad Sci
U S A. 96: 15286-91.
Wang ZX, Yamanouchi U, Katayose Y,
Sasaki T, Yano M (2001).
Expression of the Pib rice-blast-
resistance gene family is up-
regulated by environmental
conditions favouring infection and
by chemical signals that trigger
secondary plant defences. Plant
Mol Biol. 47: 653-61.
Wei CL, Ng P, Chiu KP, Wong CH, Ang
CC, Lipovich L, Liu ET, Ruan Y
(2004). 5Long serial analysis of
gene expression (LongSAGE) and
3LongSAGE for transcriptome
characterization and genome
annotation. Proc Natl Acad Sci U S
A. , www. pnas. org/cgi /doi /
10.1073/pnas.0403514101.
Wortman JR, Haas BJ, Hannick LI,
Smith RK Jr, Maiti R, Ronning CM,
Chan AP, Yu C, Ayele M, Whitelaw
CA, et al. (2003). Annotation of
the Arabidopsis genome. Plant
Physiol., 132: 461-468.
Yamada K, Lim J, Dale JM, Chen H,
Shinn P, Palm, CJ, Southwick AM,
Wu HC, Kim C, Nguyen M, et al.
(2003). Empirical analysis of
transcriptionl activity in the
Arabidopsis genome. Science 302:
842-846.
Yu J, Hu S, Wang J, Wong GK, Li S, Liu
B, Deng Y, Dai L et al.. (2002). A
draft sequence of the rice genome
(Oryza sativa L. ssp. indica).
Science. 296: 79-92.
Zhang L, Zhou W, Velculescu VE, Kern
SE, Hruban RH, Hamilton SR,
Vogelstein B, Kinzler KW (1997).
Gene expression profiles in nor-
mal and cancer cells. Science 276:
1268-1272.

Metodo Sage

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Metodo Sage

Diunggah oleh

Hak Cipta:

Format Tersedia

88 Revista Biotecnologia Cincia & Desenvolvimento - Edio n 33 - julho/dezembro 2004

Anda mungkin juga menyukai