O primeiro material genético a ser sequenciado foi o RNA (tRNA e Rrna) através de uma
técnica lenta, baseada na química analítica, que só permitia verificar a composição da base,
mas a sua sequência. O RNA foi escolhido por ser mais facilmente obtido, não possuírem fita
complementar e pelo seu menor tamanho. A técnica de degradação química consistia no
tratamento com ribonuclease para identificar os monômeros.
Histórico
- Robert Holley (1965) sequenciou completamente o tRNA-Ala de S. cerevisae.
Primeira geração:
Multiplicação bacteriana para aumentar a quantidade de fragmento de DNA (clonagem)
A técnica se baseia nos Nucleótideo dideoxi (ddNTP), que não possuem um OH na extremidade
3’ da pentose e sim um H, o que faz com que a polimerase pare a síntese. O método consiste
na amplificação do fragmento de DNA na presença de dNTPs e ddNTPS, fazendo com que eu
tenha a amplificação de fragmentos com diferentes tamanhos. Esses fragmentos são
colocados em uma eletroforese em gel de poliacrilamida e a sequencia é deduzida de acordo
com o tamanho dos fragmentos.
A técnica de sanger continua sendo usada ate hoje devido a mudanças na técnica ao longo dos
anos, uma das principais foi a sua automação. Uso de ddNTPS marcados com fluoroferos de
cor diferente e Eletroforese em capilar, o que permite que os fragmentos fluorescentes sejam
detectados por laser e representados em um cromatograma.
Segunda Geração:
Tipos de sequenciamento:
SBS: Sequenciamento por síntese. CRT: Terminação Reversível Cíclica e SNA: Adição de um
único nucleotídeo. (DNA polimerase)
SBL: Sequenciamento por ligação. (DNA ligase)
1. Fragmentação do DNA
2. Ligação de adaptadores
3. Amplificação
4. Sequenciamento
Pirosequenciamento – 454
1. Fragmentação do DNA: etapa de separação das fitas e preparação para ligação na bead
2. Ligação dos fragmentos em bead de ferro que contem o primer para amplificação
3. Amplificação por PCR em emulsão; A bead se encontram em uma solução de água e
óleo o que permite com que elas fiquem nas micelas formadas, onde ocorre a
amplificação da sequencia presa na bead. Essas beads são coletadas e colocadas em
poços com regentes da luciferina.
4. Sequenciamento por síntese, é feito por lavagem de uma base por vez. As bases não
possuem terminador (o que permite a adição de sequencia com bases iguais como
TTT) em uma lavagem só. A síntese é Assíncrona, o que indica que os fragmentos
crescem de maneira diferente, podendo ter tamanhos diferentes. Quando a base é
adicionada o fosfato liberado reage com as soluções do poço e cria luz, a emissão da
luz é diferente se mais de uma base for adicionada. Mas é impossível saber quantas
bases foram adicionadas em sequencia com certeza.
Ion Torrent
A única diferença desse pro 454(base sem terminador, PCR por emulsão, sequenciamento por
síntese, síntese assíncrona) é a forma de detecção, no 454 temos uma detecção por luz, já no
ion torrente a detecção é feita por mudança de pH, quando uma base é adicionada ocorre a
liberação de um próton H+ e a descoberta de qual base foi adicionada é feita segundo a
comparação com um padrão que o sequenciador possui.
Illumina
SOLiD
- Sequenciamento de molécula única (SMS) – isso não significa todo o genoma de uma vez,
mas moléculas com tamanhos enormes.
- Sem etapas de amplificação (PCR)
PacBio
O que é a montagem?
O mais usado hoje em dia é o illumina, devido ao seu tamanho aceitável dos reads, a
quantidade de dados gerável e o seu custo competitivo.
Formato FASTA: forma de armazenar mais de uma sequencia pelo indicador “>”, porem não
possui um sistema que indica a qualidade da sequencia
Formato FASTQ: Formato padrão de armazenar a sequencia, que possui um indicador de
qualidade através do PHERED33.
Montagem
Métodos de Montagem
-A montagem por referencia substitui o alinhamento entre os reads pelo alinhamento em uma
sequencia de referencia de um organismo evolutivamente próxima, resultando em uma
sequencia consenso. Esse tipo de alinhamento pode ser tendencioso e pode dificultar a
descoberta de novos genes ou regiões que sejam diferentes da referencia.
Montagem de novo
OLC (Overlap Layout Consensus): Também possui uma sobreposição com todos, porem ele ver
a maior pontuação global e não apenas local.
Grafos de Bruijn: É um grafo orientado representando as sobreposições (pelas arestas) entre
sequencia de símbolos, sem com o mesmo tamanho (k-mer). Os vértices são representados
pelas sequencias, uma vez que as arestas são as sobreposições, podemos enxergar as
repetições como bifurcações.
Grafo de strings: Overlap de todas as leituras, retirada de leituras contidas em outras leituras
ou outras sobreposições.
Planejando um genoma
Repetições: Impossível de resolver repetições sem reads mais longos que o tamanho da área
repetida.
Ploidia: quando maior a ploidia mais complexo de montar
Cobertura
Quanto maior a cobertura maior a garantia que mais sites tenham sido sequenciados, permite
uma maior confiança na resolução da sequencia consenso e a identificação de sítios
heterozigotos com maior confiança.
Cobertura = L (Tamanho dos reads) x N (Número de reads) / G (Comprimento do genoma)
Objetivos
Procariotos:
Desafios biológicos: Genoma mais curto, requer menos dados Existe material disponível?
Desafios Monetários: Menor custo que um genoma de eucarioto
Desafios Técnicos : Ploidia, haplóide, mais fácil de montar com os programas atuais, Tamanho
- Não tão grande, possível fechar em poucos contigs, ou em apenas um scaffold ; Origem do
material - colônias? swabs?
Tecnologia de sequenciamento disponível - Reads curtos + mate-pair geralmente dão bons
resultados.
Eucariotos
Desafios biológicos:
Genes - Contigs precisam ser maiores que o produto do genes, reads curtos
Cromossomos - Montagem de scaffolds altamente contígua, mapas ópticos
Desafios Monetários: Observar objetivo primário para evitar o efeito funil de dinheiro
Desafios Técnicos : Ploidia, Espécie diplóide? Poliploide?, Tamanho - Entre razoável e
impossível - Origem do material - Fresco? Museu? –
Tecnologia de sequenciamento disponível - Reads curtos e mate-pair e reads super longos
N50 dos scaffolds com pelo menos o tamanho médio dos genes pode ser um alvo decente
para o processo de anotação. (indica que pelo menos metade do meu conjunto gênico esta
disponível para a predição)
O foco da anotação são geralmente genes que codificam proteínas, o que não significa
que genes que codificam RNAs ou sequencias de regulação não sejam contemplados.
Fase computacional
1. Identificando repetições
Devido a sua grande prevalência em genoma eucariotos e devido aos genes associados a
transposição não fazerem parte do catalogo genético do organismo. Porém, é um processo
trabalhoso porque as repetições raramente são conservadas, tendo bastante variabilidade na
sequência.
Durante a predição de genes devemos esconder as regiões repetidas dos preditores genes
(mascarar). Isso funciona como uma forma de sinalização aos preditores que ali está
presente uma repetição, para que a predição não seja atrapalhada. As repetições podem
gerar alinhamentos errados, atrasando o processo de predição, assim como produzir falsas
evidencias de anotação de genes.
Alinhamento de evidencias:
De todas as formas de evidencias externa a que tem o maior poder de aumentar a acurácia
do processo de predição é o RNA-seq.
- Acham uma única sequência codificante mais provável para cada gene
- Não reportam regiões não traduzidas
- O treinamento do programa para reconhecer os genes é problemático ( o programa precisa
gravar como é mais ou menos a estrutura dos genes do organismo)
- Organismos, mesmo próximos podem diferir no tamanho dos introns, uso de códons e
conteúdo GC.
Fase de anotação
São todas as informações que se pode associar a uma sequência: função da proteína,
localização celular, domínios funcionais, alelos, mutações, associação a doenças. Mas que não
estão mostradas na sequência. (tipo manual e automática)
Anotações erradas são erros que podem se propagar, por isso é necessário corrigir erros na
predição e na anotação. Uma forma de fazer isso é verificação de dados na literatura que
corroboram com aquele metadado. (anotação manual)
Transcritômica
Tipos de transcritos: mRNA, non-coding RNA (ncRNA), small RNA (sRNA), rRNA, tRNA
Abordagens em transcritoma
Microarranjos (hibridização)
É uma ferramenta para a analise global de genes expressos que permite a investigação de
milhares de genes em uma amostra através de uma reação de hibridização.
Baseadas em sequenciamento:
SAGE
CAGE
MPSS
-sequenciamento massivamente paralelo de assinaturas
- Sage de alto rendimento
- Usa beads para prender as tags
RNA-seq
1. Extração do RNA
2. Fragmentação do RNA
3. Conversão em cDNA e biblioteca de cDNA
4. Sequenciamento (single-end e paired-end)
RNA-seq vs Microarranjos
- Dados de contagem
- Pequeno número de repeats
- Grande quantidade de genes
- Presença de superdiversão
- Tamanho das bibliotecas diferentes
*Normalização*
*Validação*
Banco de dados.
Metagenômica
- Qualquer ambiente em que se possa extrair DNA é um alvo porem há dificuldades com
amostras com alta salinidade, amostras de solo e amostras com alto pH.
Epigenética
É o estudo dos fenótipos herdáveis que não envolvem alterações na sequencia do DNA.
- Ela normalmente estuda mudanças que afetam a expressão genica e o que pode produzir
mudanças fenótipas herdáveis. Essas mudanças podem resultar de fatores/influencia externa
ou ambiental ou ainda parte do processo de desenvolvimento celular do organismo, sendo
necessariamente herdáveis.
Metilação de DNA
Modificação em Histonas
Esses sinais podem vir de dentro da célula, das células ou do mundo externo (ambiente)
Diferentes sinais são emitidos dependendo do estagio de crescimento do organismo, das suas
interações sociais, dieta e outros insumos. Esses sinais desencadeiam mudanças no epigenoma,
permitindo que as células respondam dinamicamente ao mundo exterior.
Transmissão do epigenoma
- Alguns genes conseguem escapar da reprogramação dos gametas ( onde todas as marcações
são retiradas, para que a totipotencia da célula seja mantida e ela não permaneça com marcas
de expressões dos parentais)
- Um exemplo de genes que fogem da reprogramação são os genes de Imprinting Genômico.
(Contribui para o equilíbrio evolutivo, onde a expressão do gene vai depender de qual parental
aquela copia veio, sendo apenas uma copia herdada dos dois ativada e a outra silenciada)