Genomica Resumo Ap2

Sequenciamento de DNA
O primeiro material genético a ser sequenciado foi o RNA (tRNA e Rrna) através de uma
técnica lenta, baseada na química analítica, que só permitia verificar a composição da base,
mas a sua sequência. O RNA foi escolhido por ser mais facilmente obtido, não possuírem fita
complementar e pelo seu menor tamanho. A técnica de degradação química consistia no
tratamento com ribonuclease para identificar os monômeros.
Histórico
- Robert Holley (1965) sequenciou completamente o tRNA-Ala de S. cerevisae.
Primeira geração:
Multiplicação bacteriana para aumentar a quantidade de fragmento de DNA (clonagem)
Maxam e Gilbert: Método de Degradação Química
A extremidade 5’ do fragmento de DNA é marcado radioativamente e um tratamento químico

é feito para a retirada de bases nitrogenadas do fragmento de maneira semiseletiva
(purina/pirimidina). Os nucleotídeos com purinas (A+G) são despurinados usando ácido
fórmico, as guaninas (e algumas adeninas) são metiladas por dimetil sulfato. As pirmidinas
(C+T) são hidrolisadas por hidrazina, a adição de sal (cloreto de sódio) a inibe que timina seja
hidrolizada pela hidrazina, hidrolizando somente citosina. O DNA é clivado por piperidina
quente logo depois do sitio abásico. Os fragmentos gerados nas quatro reações são então
separados por eletroforese. Então para ser visualizar os fragmentos o gel é exposto a raios-X.
Sanger: Método Dideoxi
A técnica se baseia nos Nucleótideo dideoxi (ddNTP), que não possuem um OH na extremidade
3’ da pentose e sim um H, o que faz com que a polimerase pare a síntese. O método consiste
na amplificação do fragmento de DNA na presença de dNTPs e ddNTPS, fazendo com que eu
tenha a amplificação de fragmentos com diferentes tamanhos. Esses fragmentos são
colocados em uma eletroforese em gel de poliacrilamida e a sequencia é deduzida de acordo
com o tamanho dos fragmentos.
A técnica de sanger continua sendo usada ate hoje devido a mudanças na técnica ao longo dos
anos, uma das principais foi a sua automação. Uso de ddNTPS marcados com fluoroferos de
cor diferente e Eletroforese em capilar, o que permite que os fragmentos fluorescentes sejam
detectados por laser e representados em um cromatograma.
Segunda Geração:
- Uso de PCR para a amplificação

- Arranjo cíclico
- Leituras curtas e com alto rendimento (bilhões de reads)
-Também conhecido como NGS (Nova geração de sequenciamento)
Diferenças entre eles: Amplificação, tipo de enzima que liga os nucleotídeos, detecção e
adição das bases.
Tipos de sequenciamento:
SBS: Sequenciamento por síntese. CRT: Terminação Reversível Cíclica e SNA: Adição de um
único nucleotídeo. (DNA polimerase)
SBL: Sequenciamento por ligação. (DNA ligase)
Como todos os sequenciamentos de segunda geração seguem um arranjo cíclico, o seguinte

fluxo é comum:
1. Fragmentação do DNA
2. Ligação de adaptadores
3. Amplificação
4. Sequenciamento
Pirosequenciamento – 454
1. Fragmentação do DNA: etapa de separação das fitas e preparação para ligação na bead
2. Ligação dos fragmentos em bead de ferro que contem o primer para amplificação
3. Amplificação por PCR em emulsão; A bead se encontram em uma solução de água e
óleo o que permite com que elas fiquem nas micelas formadas, onde ocorre a
amplificação da sequencia presa na bead. Essas beads são coletadas e colocadas em
poços com regentes da luciferina.
4. Sequenciamento por síntese, é feito por lavagem de uma base por vez. As bases não
possuem terminador (o que permite a adição de sequencia com bases iguais como
TTT) em uma lavagem só. A síntese é Assíncrona, o que indica que os fragmentos
crescem de maneira diferente, podendo ter tamanhos diferentes. Quando a base é
adicionada o fosfato liberado reage com as soluções do poço e cria luz, a emissão da
luz é diferente se mais de uma base for adicionada. Mas é impossível saber quantas
bases foram adicionadas em sequencia com certeza.
Ion Torrent
A única diferença desse pro 454(base sem terminador, PCR por emulsão, sequenciamento por
síntese, síntese assíncrona) é a forma de detecção, no 454 temos uma detecção por luz, já no
ion torrente a detecção é feita por mudança de pH, quando uma base é adicionada ocorre a
liberação de um próton H+ e a descoberta de qual base foi adicionada é feita segundo a
comparação com um padrão que o sequenciador possui.
Illumina
1. Fragmentação (extração do Dna, purificação..)

2. Adptadores: são colocados adaptadores 5’ e 3’ nas duas fitas de DNA (diferentes), eles
serão ligados a index, sequencias q ligarão a flowcell e primers para a amplificação po
PCR por ponte.
3. Amplificação, é feita por PCR por ponte onde o fragmento se liga a um oligo 3’, sendo
amplificado, retirado a copia e depois se liga os 5’ para ser amplificado de novo por
amplificação por ponte (onde o oligo 5’ se liga ao seu complementar ao lado formando
uma ponte com a sequência) – isso acontece varias vezes para várias sequencias
4. Sequenciamento por síntese, as sequencias serão lavadas com as 4 bases ao mesmo
tempo (marcadas com fluoróforos de cor diferente), cada Base possui terminador o
que faz com que a síntese seja síncrona e que os fragmentos tenham o mesmo
tamanho, crescendo juntos. E que precise ocorrer uma retirada do terminador antes
de ser adicionada uma nova base. A detecção da base ocorre por luz, através da
geração de um cromatograma de acordo com que as bases vão sendo adicionas.
SOLiD
1. Fragmentação (extração do Dna, purificação..)

2. Adptadores (adicionados no começo e no fim da sequência)
3. Amplificação por PCR por ponte.
4. Sequenciamento po ligação (DNA ligase), ocorre a lavagem com oligonucleotideos
marcados (e não bases), cada oligonucleotideo tem um terminador, o que faz com que
seja síntese síncrona. Cada base é verificada duas vezes. O oligo é ligado a sequencia
e a fluorescência é liberada e convertida na base de acordo com os dados de uma
tabela fornecida pelo sequenciador. A detecção da base é feita peça a luz liberada
pelos oligonucleotideos por vários ciclos.
Terceira Geração:
- Sequenciamento de molécula única (SMS) – isso não significa todo o genoma de uma vez,
mas moléculas com tamanhos enormes.
- Sem etapas de amplificação (PCR)
PacBio
Sequenciamento de poucas quantidades de DNA, a DNA polimerase fica presa no fundo do

poço onde a emissão de luz é detectada no fundo do poço conforme ela vai adicionando as
bases que contem fluoróforos.
Nanopore
O sequenciamento acontece através da detecção de um nucleotídeo através da diferença de

potencial nos poros na membrana de uma bicamada lipídica (hemolisina alfa). A variação no
pH é comparada com um padrão que o aparelho possui e assim ele sabe qual o nucleotideo
que foi adicionado. Esse tipo de tecnologia é usado pelo minION.
Montagem de Genomas
Genoma: um conjunto de genes de um organismo
O que é a montagem?
É um processo para se obter o genoma do organismo, a partir das sequencias de fragmentos

do DNA geradas em equipamentos sequenciadores, identificando a sobreposição entre os
fragmentos e gerando sequencias maiores. É uma reconstrução do fragmento inicial.
Com o que montamos um genoma?
Com dados de informação de ordem biológica. Através do sequenciamento de DNA e o

armazenamento dos dados.
Montamos usando muitos fragmentos pequenos e identificando as suas sobreposições, as

novas tecnologias ajudam bastante nisso
O mais usado hoje em dia é o illumina, devido ao seu tamanho aceitável dos reads, a
quantidade de dados gerável e o seu custo competitivo.
Os tipo de dados de leitura mais comum do illumina são:

O pair end é mais usado para fragmentos curtos, quando comparado com o mate pair que é
usado para obter fragmentos longos e os adaptadores ficam no meio da sequencia e quando
se encontram temos um fragmento de circular, sendo chamados de adaptadores de
circularização.
O mate pair pode ser usado para saber as extremidades da molécula ou ate para saber o
tamanho da molécula original.
Como esses dados são armazenados?
Formato FASTA: forma de armazenar mais de uma sequencia pelo indicador “>”, porem não
possui um sistema que indica a qualidade da sequencia
Formato FASTQ: Formato padrão de armazenar a sequencia, que possui um indicador de
qualidade através do PHERED33.
O PHERED33 representa a qualidade na leitura do sequenciador, assim como a probabilidade

daquela leitura estar incorreta.
Pré-processamento
1. Observar a qualidade das bases do sequenciamento.
Pode ser feita utilizando o programa FastQC

2. Retirando sequencias artificiais
Qual o objetivo primário de quem sequencia um genoma?
Reconstrução aproximada da molécula original
Montagem
Montagem de contigs, sendo os contigues: a sobreposição das leituras formando uma

sequência continua. Existe a presença de N, indicando sequencias sem sobreposições e a
quantidade de N representa a distancia entre elas.
Singlets ou singletons: reads que não se sobrepõem a outros reads

Scaffolds: são contigs ordenados e orientados.
SuperScaffolds: conjunto de scaffolds orientados e ordenados
Gap: Região não montada, mas de tamanho estimado, entre duas estruturas de montagem.
Pode acontecer no processo de montagem ou por um artefato do sequenciamento.
A sequencia consenso é formada pela sequencia de DNA resultante do alinhamento múltiplo

dos reads sobrepostos em um contig ou de um caminho percorrido em um grafo de bruijn.
A cobertura indica o numero de vezes que uma base é sequenciada.
Repetições (repeats): Regiões que se repetem no genoma. Se o tamanho da repetição for

maior que o tamanho dos reads, os programas montadores apresentam dificuldades:
● Posicionamento correto das leituras:
○ Gerar gaps;
○ Contigs mal formados;
○ Scaffolds mal formados.
Métodos de Montagem
Montagem por referencia
-A montagem por referencia substitui o alinhamento entre os reads pelo alinhamento em uma
sequencia de referencia de um organismo evolutivamente próxima, resultando em uma
sequencia consenso. Esse tipo de alinhamento pode ser tendencioso e pode dificultar a
descoberta de novos genes ou regiões que sejam diferentes da referencia.
Montagem de novo
- Consiste na reconstrução da sequência somente pela sobreposição das informações de

leitura (dos reads) e da distancia média entre elas (pair end e mate pair). Esse tipo de método
permite encontrar sequencias diferentes do da referência, mas tem dificuldade para ordenar
as repetições. Mapa ótico é uma das técnicas usadas para gerar cromossomos a partir de
supersaffolds.
Em procarioto a circularização da molécula é uma evidencia da montagem.
Algoritmos de Montagem de novo
Guloso: é um algoritmo de sobreposição máxima de sequencias, comparando a maior

pontuação pela ligação com todas as sequencias possíveis. Mas ele não enxerga de uma forma
global e sim apenas o alinhamento local. (fazendo com que perdemos o melhor consenso
global e é bastante custoso computacionalmente.
OLC (Overlap Layout Consensus): Também possui uma sobreposição com todos, porem ele ver
a maior pontuação global e não apenas local.
Grafos de Bruijn: É um grafo orientado representando as sobreposições (pelas arestas) entre
sequencia de símbolos, sem com o mesmo tamanho (k-mer). Os vértices são representados
pelas sequencias, uma vez que as arestas são as sobreposições, podemos enxergar as
repetições como bifurcações.
Grafo de strings: Overlap de todas as leituras, retirada de leituras contidas em outras leituras
ou outras sobreposições.
Mapa óptico (BioNano)
Permite juntar scaffolds e superscaffolds de modo a montar braços cromossomais. O seu

posicionamento em um cromossomo. São usados para genomas mais próximos de finalização.
Desvantagens: Custo elevado, não é possível com DN/A fragmentado ou de baixa qualidade e
o draft do genoma precisa ser de alta continguidade.
1. Extração de DNA genômico
2. Tratamento com endonuclease que reconhece o sitio com C e retira a base.
3. Colocar nucleotídeo C marcado fluorescente no lugar do que foi retirado
4. Cada molécula é separada e linearizadas em canelas e a fluorescência é fotografada.
5. Essa imagem é comparada com a do DNA original sem a retirada e marcação das bases
6. Servindo pra criar sequencias consenso baseada na sequencia e não só no padrão de
clivagem.
Planejando um genoma
Desafio monetários: Orçamento para sequenciamento - Custo de pessoal (técnicos, serviços) -

Qual o seu prazo? - Custo computacional.
Desafios técnicos: Repetições - Ploidia - Tamanho - Origem do material - Tecnologia de
sequenciamento disponível.
Repetições: Impossível de resolver repetições sem reads mais longos que o tamanho da área
repetida.
Ploidia: quando maior a ploidia mais complexo de montar
Cobertura
Quanto maior a cobertura maior a garantia que mais sites tenham sido sequenciados, permite
uma maior confiança na resolução da sequencia consenso e a identificação de sítios
heterozigotos com maior confiança.
Cobertura = L (Tamanho dos reads) x N (Número de reads) / G (Comprimento do genoma)
Exemplo: (100 bp) x (800,000,000 reads) / (1,000,000,000 bp) = 40x de cobertura
Objetivos
Genes: requer boa cobertura, porem menor contiguidade

Cromossomos contíguos: Requer excelente cobertura, reads longos e uma montagem anterior
Finalização de um genoma: Mapas ópticos mapas de ligação, não precisa de mais reads.
Procariotos:
Desafios biológicos: Genoma mais curto, requer menos dados Existe material disponível?
Desafios Monetários: Menor custo que um genoma de eucarioto
Desafios Técnicos : Ploidia, haplóide, mais fácil de montar com os programas atuais, Tamanho
- Não tão grande, possível fechar em poucos contigs, ou em apenas um scaffold ; Origem do
material - colônias? swabs?
Tecnologia de sequenciamento disponível - Reads curtos + mate-pair geralmente dão bons
resultados.
Eucariotos
Desafios biológicos:
Genes - Contigs precisam ser maiores que o produto do genes, reads curtos
Cromossomos - Montagem de scaffolds altamente contígua, mapas ópticos
Desafios Monetários: Observar objetivo primário para evitar o efeito funil de dinheiro
Desafios Técnicos : Ploidia, Espécie diplóide? Poliploide?, Tamanho - Entre razoável e
impossível - Origem do material - Fresco? Museu? –
Tecnologia de sequenciamento disponível - Reads curtos e mate-pair e reads super longos
O que sequenciar para montar uma bactéria?
Illumina: pair-ends reads e mate pair reads

Cobertura: media de 2 milhoes de reads de 100 pb
PacBio: 100x em reads longos
O que sequenciar para montar um eucarioto?
Illumina: Paired-end reads e mate pair reads

- paired-end reads (shotgun)
- mate pair reads
PacBio: como complemento para uma montagem inicial.
Tenho uma montagem e agora?
1. Verificar a qualidade da montagem
Tamanho da montagem: o mais próximo possível do genoma inicial.

Não podemos comparar a qualidade de montagem em organismos diferentes, mas de mesmo
organismo e de preferencia feita pelo mesmo montador, podemos ver que menores scaffolds
com N50 maior são melhores que maior scaffolds com N50 menor.
N50: O valor de N50 é o mesmo do tamanho do menor contig/scaffold dentro do conjunto de
contigs/scaffolds cujo os tamanhos somados é igual a metade do total da montagem. (VALOR
QUE INDICA QUE METADE DOS CONTIGUES SÃO MAIORES QUE ESSE)
1. Montagem
2. Scaffolds
3. Ordenação decrescente por tamanho
4. O N50 é menor valor presente na metade das sequencias
E se a montagem estiver ruim?
1. Podemos montar novamente (com o mesmo programa e parâmetros diferentes ou

com programas diferentes)
2. Conciliar montagens diferentes, feita por diferentes montadores
3. Fazer o Gapfiling: realizar mini montagens locais. Podendo ser por mapeamento ou de
novo.
Predição de genes e anotação
Anotação de genomas: Anotação de DNA ou anotação do genoma é o processo de identificar a

localização dos genes e todas as sequencias codificantes em um genoma e determinar o que
esses genes fazem.
Verificação na qualidade da montagem – Verificar a contiguidade de uma montagem.

- Observar na sequencia de referencia: tamanho médio dos genes e dos exons/introns
-Tamanho da montagem, numero de contigs e scaffolds, N50.
N50 dos scaffolds com pelo menos o tamanho médio dos genes pode ser um alvo decente
para o processo de anotação. (indica que pelo menos metade do meu conjunto gênico esta
disponível para a predição)
- Tamanho dos genes é mais ou menos proporcional ao tamanho do genoma.

- O tamanho do genoma é importante pra saber qual o tamanho do N50 mínimo que eu
preciso.
A predição e anotação é dividida em duas fases: Fase computacional e fase de anotação.

Fase computacional: AB INITIO e BASEADO EM EVIDENCIAS
Fase de anotação: Quando aos genes são adicionados metadados.
O foco da anotação são geralmente genes que codificam proteínas, o que não significa
que genes que codificam RNAs ou sequencias de regulação não sejam contemplados.
Fase computacional
1. Identificando repetições
As repetições são sequencias de baixa complexidade, por exemplo homopolímeros ou DNA

satélites. Assim como: elementos moveis, profagos, LINEs, SINEs e MITEs.
Porque é importante identificar as repetições?
Devido a sua grande prevalência em genoma eucariotos e devido aos genes associados a
transposição não fazerem parte do catalogo genético do organismo. Porém, é um processo
trabalhoso porque as repetições raramente são conservadas, tendo bastante variabilidade na
sequência.
As ferramentas geralmente acham repetições por homologia ou de novo.
Durante a predição de genes devemos esconder as regiões repetidas dos preditores genes
(mascarar). Isso funciona como uma forma de sinalização aos preditores que ali está
presente uma repetição, para que a predição não seja atrapalhada. As repetições podem
gerar alinhamentos errados, atrasando o processo de predição, assim como produzir falsas
evidencias de anotação de genes.
2. Começando a predição gênica
Alinhamento de evidencias:
O que? Proteinas, EST e RNA-seq.

De onde? Transcritos ou proteínas previamente identificados para o organismo que esta sendo
anotado. Sequencias de proteínas, transcritos ou ESTs de organismos relacionados.
Esses dados podem ser retirados de banco de dados biológicos ou de bancada.

Depois que o alinhamento é feito é verificado, Porcentagem de similaridade (bases ou aa da
mesma classe entre uma sequencia e outra) e porcentagem de identidade (bases ou aa
idênticos entre uma sequencia e outra).
De todas as formas de evidencias externa a que tem o maior poder de aumentar a acurácia
do processo de predição é o RNA-seq.
Predição de genes ab initio
- Usa-se de modelos matemático em vez de evidencias externas, o que os torna independentes

das evidencias externas para a determinação do gene ou de fronteiras intron-exon
Desvantagens:
- Acham uma única sequência codificante mais provável para cada gene
- Não reportam regiões não traduzidas
- O treinamento do programa para reconhecer os genes é problemático ( o programa precisa
gravar como é mais ou menos a estrutura dos genes do organismo)
- Organismos, mesmo próximos podem diferir no tamanho dos introns, uso de códons e
conteúdo GC.
Alinhamento de evidencia vs Ab initio
- O alinhamento de evidencias externas, quando temos dados de RNA-seq, só permitem que

aqueles genes ou proteínas que sejam compartilhadas entre o organismo que estamos
estudando e o organismo de onde estamos pegando a evidencia sejam preditos.
Já no ab initio podemos dizer quais genes são únicos para o organismos estudado.
O ideal seria unir as duas informações.
Fase de anotação
A anotação é o processo de adição de metadados a uma sequência.
Mas o que são metadados?
São todas as informações que se pode associar a uma sequência: função da proteína,
localização celular, domínios funcionais, alelos, mutações, associação a doenças. Mas que não
estão mostradas na sequência. (tipo manual e automática)
Temos formatos padronizados, mas precisamos que sejam mais descritos:

1. Fronteiras entre introns e exons
2. Sítios de splicing
3. Códons de início e códons de parada
4. UTRS
5. Transcritos alternativos.
Anotações erradas são erros que podem se propagar, por isso é necessário corrigir erros na
predição e na anotação. Uma forma de fazer isso é verificação de dados na literatura que
corroboram com aquele metadado. (anotação manual)
Transcritômica
É o conjunto completo de transcritos de uma célula e sua quantidade para um determinado

estado de desenvolvimento ou condição fisiológica.
Tipos de transcritos: mRNA, non-coding RNA (ncRNA), small RNA (sRNA), rRNA, tRNA
Objetivos principais: quantificação dos transcritos, mudança na expressão de genes (em

diferentes condições ou estágio de desenvolvimento).
Porque estudar RNAs? Nível informacional e suas relações com o fenótipo

Qual a importância de estudar o transcritoma de um organismo?
- Determinar e interpretar os elementos funcionais de um genoma

- Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de
desenvolvimento ou em uma determinada condição.
-Compreender os elementos presentes no desenvolvimento de doenças
-O transcritoma é um retrato de uma amostra biologia em um dado momento sob dada
condição!
Abordagens em transcritoma
Microarranjos (hibridização)
É uma ferramenta para a analise global de genes expressos que permite a investigação de
milhares de genes em uma amostra através de uma reação de hibridização.
Baseadas em sequenciamento:
SAGE
- Análise seriada da expressão gênica

- É uma técnica que produz um retrato da população de mRNA em uma amostra de interesse
na forma de pequenas etiquetas que correspondem aos fragmentos dos transcritos.
- Lista de tags de sequencia curta
- Determinar de qual mRNA original (e, portanto, qual gene) o tag foi extraído.
CAGE
-Cap analise de gene expressão

- Cage é uma técnica que tira um retrato da porção 5’ de uma poção de mRNAs em uma
amostra biológica
- Usando-se um genoma de referencia pode determinar o mRNA original (e, portanto, de qual
gene ) do qual a etiqueta foi extraída
- Permite a quantificação pelo numero de tags
MPSS
-sequenciamento massivamente paralelo de assinaturas
- Sage de alto rendimento
- Usa beads para prender as tags
RNA-seq
1. Extração do RNA
2. Fragmentação do RNA
3. Conversão em cDNA e biblioteca de cDNA
4. Sequenciamento (single-end e paired-end)
RNA-seq vs Microarranjos
- todos os genes/genes alvos

-Rna seq é a medida absoluta de expressão
- Maior sensibilidade
- Identificação de transcritos raros
- Identificação de transcritos novos
- Análise de splicing alternativos
- Expressão de alelos específicos
- Reações cruzadas nos microarranjos
- Custo/amostra pode ser diminuído com multiplex
*Avaliação da qualidade dos dados*
Montagem dos dados (de novo ou/e por referencia)
Caracteristicas dos dados de RNAseq:
- Dados de contagem
- Pequeno número de repeats
- Grande quantidade de genes
- Presença de superdiversão
- Tamanho das bibliotecas diferentes
*Normalização*
RPKM: padroniza o nível de expressão quando comparado com o tamanho do transcrito
*Validação*
Banco de dados.
Metagenômica
É o estudo do material genético obtido diretamente de amostras ambientais.
META: significa vários organismos.
Porque fazer Metagenômica?
Apenas 0,1% dos microrganismos é cultivado em laboratório, com a Metagenômica podemos

estudar os microrganismos cultivados e os que não podemos cultivar em laboratório. Temos
assim uma noção real da diversidade genética presente naquela amostra ambiental sem a
necessidade do cultivo.
- Qualquer ambiente em que se possa extrair DNA é um alvo porem há dificuldades com
amostras com alta salinidade, amostras de solo e amostras com alto pH.
- A Metagenômica abre a possibilidade de descoberta de novos táxons, novos genes e novas

funções.
Conseguimos montar genomas completos com dados de Metagenômica?

Sim, mas vai depender da cobertura do sequenciamento. Se faz possível montar o genoma
daquela população mais frequente, pois a cobertura do seu genoma vai ser maior em relação a
das outras espécies presentes.
- Estudos de Metagenômica mostra que a recombinação é bastante frequente entre os

organismos e é a principal força evolutiva. Além disso, existem hotspots para a evolução,
como ilhas genômicas.
Abordagem centrada em genes
- Genes que se encontram mais frequentes em uma comunidade do que em outra

provavelmente são benéficos à vida naquele ambiente.
- Genes super representados mas que são desconhecidos abrem portas para novas pesquisas
em busca de novas funções.
- Entretanto, genes que são benéficos e novos mas que estejam pouco representados, muito
provavelmente passarão despercebidos.
- Os genes essenciais serão presentes tanto em um ambiente como em outro.
Epigenética
É o estudo dos fenótipos herdáveis que não envolvem alterações na sequencia do DNA.
- Ela normalmente estuda mudanças que afetam a expressão genica e o que pode produzir
mudanças fenótipas herdáveis. Essas mudanças podem resultar de fatores/influencia externa
ou ambiental ou ainda parte do processo de desenvolvimento celular do organismo, sendo
necessariamente herdáveis.
Quais as modificações mais comuns?
- Metilação do DNA (ilhas CPG)

- Modificação de histonas
Alteram a expressão gênica sem alterar a sequência de DNA.
Qual o efeito das modificações?
- Remodelamento da cromatina – tornando regiões do DNA mais ou menos acessíveis a

transcrição (afetando a expressão genica)
Metilação de DNA
- Adição de um grupo metil nas ilhas CpG
Modificação em Histonas
- As modificações podem ocorrer ao longo de toda a sequencia da proteína, mas principalmente

nas porções N-Terminal, as mais comuns são a Acetilação e a Metilação. Mas, podemos ter
várias, como ubiquitinação, fosforilação, sumoilação, ribosilação e Citrulinação.
Essas mudanças ocorrem devido a presença de SINAIS.
Esses sinais podem vir de dentro da célula, das células ou do mundo externo (ambiente)
Diferentes sinais são emitidos dependendo do estagio de crescimento do organismo, das suas
interações sociais, dieta e outros insumos. Esses sinais desencadeiam mudanças no epigenoma,
permitindo que as células respondam dinamicamente ao mundo exterior.
- Sinais internos direcionam as atividades necessárias para a manutenção do corpo, como a

reposição de células sanguíneas e da pele e a reparação de tecidos e órgãos danificados.
- Durante esses processos, assim como durante o desenvolvimento embrionário, as experiências
da célula são transferidas para o epigenoma, onde elas desligam e ativam conjuntos específicos
de genes.
Transmissão do epigenoma
- Alguns genes conseguem escapar da reprogramação dos gametas ( onde todas as marcações
são retiradas, para que a totipotencia da célula seja mantida e ela não permaneça com marcas
de expressões dos parentais)
- Um exemplo de genes que fogem da reprogramação são os genes de Imprinting Genômico.
(Contribui para o equilíbrio evolutivo, onde a expressão do gene vai depender de qual parental
aquela copia veio, sendo apenas uma copia herdada dos dois ativada e a outra silenciada)
Umas das principais dificuldades no estudo do epigenoma é Demonstrar que o efeito

epigenético é passado por várias gerações para excluir a possibilidade de exposição direta aos
mesmo fatores e o outro é o fato de muitas das mudanças epigenéticas serem transitórias.
Técnicas usadas no estudo de Epigenética: Imunopreciptação de cromatina (CHIP-on-CHIP e

CHIP-seq), enzimas com restrição sensíveis a metilação, DamID e sequenciamento de bissulfito.
CHIP-seq: o sequenciamento da cromatina imuno preciptada pela histona.

Enzimas de restrição sensíveis a metilação: quebra o DNA com essas enzimas e com não
sensíveis e compara-se os fragmentos.
DamID: marca regiões próximas a sítios de metilação (ilhas cpg)
Sequenciamento Bissulfito: O bissulfito transforma as C não metiladas em U e as metiladas
continuam sendo C. Sendo possível observar onde possui metilação pela comparação das
sequencias antes e depois do tratamento com bissulfito.

Genomica Resumo Ap2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Genomica Resumo Ap2

Diunggah oleh

Hak Cipta:

Format Tersedia

Sequenciamento de DNA

Maxam e Gilbert: Método de Degradação Química

A extremidade 5’ do fragmento de DNA é marcado radioativamente e um tratamento químico

Sanger: Método Dideoxi

- Uso de PCR para a amplificação

Como todos os sequenciamentos de segunda geração seguem um arranjo cíclico, o seguinte

1. Fragmentação (extração do Dna, purificação..)

1. Fragmentação (extração do Dna, purificação..)

Sequenciamento de poucas quantidades de DNA, a DNA polimerase fica presa no fundo do

O sequenciamento acontece através da detecção de um nucleotídeo através da diferença de

Genoma: um conjunto de genes de um organismo

É um processo para se obter o genoma do organismo, a partir das sequencias de fragmentos

Com o que montamos um genoma?

Com dados de informação de ordem biológica. Através do sequenciamento de DNA e o

Montamos usando muitos fragmentos pequenos e identificando as suas sobreposições, as

Os tipo de dados de leitura mais comum do illumina são:

Como esses dados são armazenados?

O PHERED33 representa a qualidade na leitura do sequenciador, assim como a probabilidade

1. Observar a qualidade das bases do sequenciamento.

Pode ser feita utilizando o programa FastQC

Qual o objetivo primário de quem sequencia um genoma?

Reconstrução aproximada da molécula original

Montagem de contigs, sendo os contigues: a sobreposição das leituras formando uma

Singlets ou singletons: reads que não se sobrepõem a outros reads

A sequencia consenso é formada pela sequencia de DNA resultante do alinhamento múltiplo

A cobertura indica o numero de vezes que uma base é sequenciada.

Repetições (repeats): Regiões que se repetem no genoma. Se o tamanho da repetição for

Montagem por referencia

- Consiste na reconstrução da sequência somente pela sobreposição das informações de

Em procarioto a circularização da molécula é uma evidencia da montagem.

Algoritmos de Montagem de novo

Guloso: é um algoritmo de sobreposição máxima de sequencias, comparando a maior

Mapa óptico (BioNano)

Permite juntar scaffolds e superscaffolds de modo a montar braços cromossomais. O seu

Desafio monetários: Orçamento para sequenciamento - Custo de pessoal (técnicos, serviços) -

Exemplo: (100 bp) x (800,000,000 reads) / (1,000,000,000 bp) = 40x de cobertura

Genes: requer boa cobertura, porem menor contiguidade

O que sequenciar para montar uma bactéria?

Illumina: pair-ends reads e mate pair reads

O que sequenciar para montar um eucarioto?

Illumina: Paired-end reads e mate pair reads

Tenho uma montagem e agora?

1. Verificar a qualidade da montagem

Tamanho da montagem: o mais próximo possível do genoma inicial.

E se a montagem estiver ruim?

1. Podemos montar novamente (com o mesmo programa e parâmetros diferentes ou

Predição de genes e anotação

Anotação de genomas: Anotação de DNA ou anotação do genoma é o processo de identificar a

Verificação na qualidade da montagem – Verificar a contiguidade de uma montagem.

- Tamanho dos genes é mais ou menos proporcional ao tamanho do genoma.

A predição e anotação é dividida em duas fases: Fase computacional e fase de anotação.

As repetições são sequencias de baixa complexidade, por exemplo homopolímeros ou DNA

Porque é importante identificar as repetições?

As ferramentas geralmente acham repetições por homologia ou de novo.

2. Começando a predição gênica

O que? Proteinas, EST e RNA-seq.

Esses dados podem ser retirados de banco de dados biológicos ou de bancada.

Predição de genes ab initio

- Usa-se de modelos matemático em vez de evidencias externas, o que os torna independentes

Alinhamento de evidencia vs Ab initio

- O alinhamento de evidencias externas, quando temos dados de RNA-seq, só permitem que

O ideal seria unir as duas informações.

A anotação é o processo de adição de metadados a uma sequência.

Avaliação da qualidade dos dados