Anda di halaman 1dari 4

DIPLOMADO EN CIENCIAS OMICAS. UNIVERSIDAD DEL VALLE.

Guía 5.5. Anotación usando dammit

Dammit es un flujo de trabajo para anotación escrita por Camille Scott, es relativamente estándar
para transcriptomas: comienza por construir modelos genéticos con Transdecoder, luego usa las
siguientes bases de datos de proteínas como evidencia para la anotación: Pfam-A, Rfam, OrthoDB,
uniref90 (uniref es opcional con la opción --full). Si se dispone de un conjunto de datos de
proteínas para su organismo (o una especie estrechamente relacionada), esto también se puede
suministrar a la línea de control con las bases de datos de usuarios como evidencia opcional para
la anotación.

Además, se ejecuta BUSCO v3, que comparará el contenido del gen en su transcriptoma con un
conjunto de datos específico del linaje. El resultado es una proporción de su transcriptoma que
coincide con el conjunto de datos, que puede utilizarse como una estimación de la integridad de
su transcriptoma en función de la expectativa evolutiva (Simho et al. 2015). Hay varios conjuntos
de datos específicos de linaje disponibles de los autores de BUSCO. Usaremos el conjunto de datos
metazoa para este transcriptoma.

Instalaremos los programas necesarios

conda create -y --name py3.dammit python=3

source activate py3.dammit

conda config --add pinned_packages 'r-base >=3.4'

conda install –c bioconda dammit


DIPLOMADO EN CIENCIAS OMICAS. UNIVERSIDAD DEL VALLE. 2

1. Preparación de las bases de datos

dammit tiene dos subcomandos principales: dammit databases y dammit annotate. El


comando de bases de datos comprueba que las bases de datos están instaladas y preparadas, y si
se ejecuta con el indicador --install, realizará esa instalación y preparación. Si solo ejecuta dammit
databases por su cuenta, debería recibir una notificación de que algunas tareas de la base de
datos no están actualizadas. Por lo tanto, necesitamos instalarlos!

dammit databases --install --busco-group metazoa

2. Anotación

Creando un directorio

mkdir -p annotation_new

cd annotation_new

Obteniendo los datos, en este caso usaremos un ensamblaje de novo de Nematostella vectensis.

curl -OL
https://darchive.mblwhoilibrary.org/bitstream/handle/1912/5613/Trinit
y.fasta

head -3000 Trinity.fasta > trinity.nema.fasta


DIPLOMADO EN CIENCIAS OMICAS. UNIVERSIDAD DEL VALLE. 3

Ahora descargaremos una base de datos personalizada de proteínas de Nematostella vectensis.


Alguien ya ha creado una base de datos adecuada para nosotros Putnam et al. 2007 (proteoma de
referencia disponible a través de uniprot). Si tienes un organismo no modelo, es probable que
necesite tomar proteínas de una especie muy relacionada. Esto dependerá de su conocimiento de
su sistema!

curl -LO
ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledge
base/reference_proteomes/Eukaryota/UP000001593_45351.fasta.gz

gunzip -c UP000001593_45351.fasta.gz > nema.reference.prot.faa

rm UP000001593_45351.fasta.gz

Ahora solo queda correr la anotación:

dammit annotate trinity.nema.fasta --busco-group metazoa --user-


databases nema.reference.prot.faa --n_threads 4
DIPLOMADO EN CIENCIAS OMICAS. UNIVERSIDAD DEL VALLE. 4

Mientras se ejecuta Dammit, imprimirá qué tarea está ejecutando en el terminal. Esto no solo
ayuda a organizar el flujo de trabajo subyacente, sino que también significa que si lo
interrumpimos, ¡se reanudará correctamente! Después de una ejecución exitosa, tendrá un nuevo
directorio llamado trinity.nema.fasta.dammit. Revisa cuantos archivos generaste:

ls trinity.nema.fasta.dammit/

Los archivos más importantes para usted son trinity.nema.fasta.dammit.fasta,


trinity.nema.fasta.dammit.gff3 y trinity.nema.fasta.dammit.stats.json.