Herramientas bioinformáticas
Bases de Datos
NCBI
Uniprot
SILVA
Greengenes
KEGG
Biocyc (Metacyc)
Qiime
Instalación (Crear pdf para que al iniciar el taller ya se tengan los programas instalados)
Se recomienda Unix/Linux (En caso de no contar con ello, se puede instalar en windows la
app de Unix)
Bioconda
Qiime2
Artefactos
Asignación taxonómica
Análisis de diversidad
Transcriptómica
Tutorial instalación de R
Primeramente, es necesario
https://www.digitalocean.com/community/tutorials/how-to-install-r-on-ubuntu-16-04-2
Sys-bio
Metabolic reconstruction
Matlab
Cobra
Raven
modelseed
Bigg
Modelos metabólicos
Alcance
Regulación transcripcional
Ejemplos/predicciones
Instalación de Qiime2
Qiime2 no puede ser instalado en Windows, sin embargo ya existe un subsistema Unix/linux
para windows
3. Reiniciar
1. Introducir el sig código para la descarga del instalador para la versión de 64bit con python
3.6
$ wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
https://conda.io/miniconda.html
2. En la terminal, correr:
$ bash Miniconda3-latest-Linux-x86_64.sh
3. Seguir las instrucciones (Si no estás seguro de las opciones, puedes dejar los valores por
defecto)
Instalar Qiime2
$ wget https://data.qiime2.org/distro/core/qiime2-2018.6-py35-linux-conda.yml
$ conda env create -n qiime2-2018.6 --file qiime2-2018.6-py35-linux-conda.yml
# OPTIONAL CLEANUP
$ rm qiime2-2018.6-py35-linux-conda.yml
Instalación COBRA
https://opencobra.github.io/cobratoolbox/latest/installation.html
Windows
Please download the git tools for Windows. During the installation process, please
ensure that you select Use Git Bash and optional Unix tools from the Windows
Command prompt. In addition, please make sure that you select Checkout as-is,
commit Unix-style line endings.
3. Please note the --depth=1 in the clone command. Run this command in
>> testAll
Instalación RAVEN Toolbox
https://github.com/SysBioChalmers/RAVEN
Installation
Required software
● A functional MATLAB installation (version 2013b or later).
Dependencies
● libSBML MATLAB API (version 5.16 is recommended), which is utilised for
importing and exporting GEMs in SBML format. Note: not needed if COBRA
Toolbox is installed.
● At least one solver for linear programming:
○ Preferred: Gurobi Optimizer (version 7.5 or higher), academic license is
available here.
○ Alternative/legacy: MOSEK (version 7 only), academic license is
available here.
○ If the user has COBRA Toolbox installed, it is possible to use the
default COBRA solver (the one which is set by changeCobraSolver).
Instructions
RAVEN Toolbox
Once extracted, ensure that all other software dependencies (e.g. libSBML, Gurobi)
are installed (see above for list, below for instructions. Then, open MATLAB and run
the following command:
cd('[location]/RAVEN/installation'))
checkInstallation
This function checks the functionality for libSBML MATLAB API and solver software.
It automatically recognises which solvers are installed and sets the first functional
solver as the default RAVEN solver. The default RAVEN solver be changed any time
by typing in Matlab:
setRavenSolver('solverName')
libSBML
1. Download libSBML from the link above and install to your favourite directory.
2. In MATLAB, run the following command:
addpath('[location]/libSBML-5.x.0-matlab')
savepath
where [location] is where you installed libSBML and 5.x.0 is your libSBML version.
COBRA Toolbox
changeCobraSolver('glpk')
setRavenSolver('cobra')
Glosario
ADN ribosomal 16S. El 16S rDNA es el gen que codifica para el componente estructural 16S rRNA del
ribosoma bacteriano (Parte de la subunidad pequeña ribosomal 30s). Este fragmento está altamente
conservado a través de todos los procariotes. El gen contiene regiones variables que pueden ser
útiles para la identificación taxonómica de bacterias.
Alineamiento de secuencias. - Arreglo mutuo de dos o más secuencias, que muestra donde estas
son similares y donde difieren. Un alineamiento óptimo es aquel que muestra la mayor cantidad de
correspondencias y la menor cantidad de diferencias.
Biología de sistemas (systems biology). - Un nuevo enfoque de las ciencias biológicas, que se basa en
el estudio de la estructura y dinámica de los sistemas biológicos como tales, apoyado pero no
restringido a las evidencias experimentales obtenidas a partir del estudio de sus componentes
individuales.
BLAST. – Acrónimo para Basic Local Alignment Search Tool, el cual es un algoritmo que identifica
regiones similares entre aminoácidos o secuencias de nucleótidos. Una búsqueda con BLAST te
permite comparar una secuencia deseada contra una librería o base de datos de secuencias,
asociando las secuencias de la base de datos que se asemejan a la secuencia de interés, por encima
de un determinado límite de similaridad.
De-multiplex. – Proceso por el cual se separan las diferentes muestras, después de ser amplificadas,
que se encuentran dentro de una biblioteca (formadas previa a la secuenciación) identificadas con
secuencias cortas, llamadas adaptadores (barcode sequence). El multiplexing permite la
secuenciación de diferentes muestras en una sola corrida.
Diagrama de caja y bigotes. - Herramienta gráfica de estadística que representa un resumen de una
serie de datos. Es usado en los análisis exploratorios de datos para visualizar la distribución de los
datos, su valor central y su variación. Se interpreta de la siguiente manera: El rectángulo representa
el 50% de los datos; el límite superior del rectángulo, o tercer cuartil, representa el 75% de los datos;
y el límite inferior, 1er cuartil, representa el 25% de los datos. La línea dentro del rectángulo es la
mediana. Los bigotes indican los valores máximo y mínimo de los datos o 1.5 veces el rango
intercuartil (Q3-Q1) si están presentes datos fuera de estos rangos, denominados valores atípicos.
Escisión (splicing). - Proceso mediante el cual los intrones son escindidos del ARN mensajero que fue
transcrito a partir de un gen discontinuo. En algunos casos también se escinden exones (de forma
controlada) dando lugar a diferentes productos proteicos que derivan del mismo gen, en un proceso
que se conoce como escisión o splicing alternativo.
Expresión Diferencial. - Un gen está diferencialmente expresado cuando sus valores de expresión
bajo ciertas condiciones son estadísticamente significativos.
Familia. - Grupos de proteínas (y sus genes codificantes) que comparten características funcionales
semejantes y una obvia relación entre sus secuencias.
FASTA. - 1. (algoritmo, herramienta) Una herramienta desarrollada por Pearson y Lipman para el
alineamiento de secuencias de ácidos nucleicos y proteínas.
2. (formato) Uno de los formatos más simples utilizados para almacenar secuencias nucleotídicas o
aminoacídicas. Una entrada con formato FASTA tiene dos bloques fundamentales, el primero está
formado por una sola línea que comienza con '>' y no es más que una descripción de la secuencia y
el segundo está formado por la secuencia en sí e implica tantas líneas como sea necesario. Por
ejemplo:
MTFQLILFYIFAVIILYGAIKTVTAKNPVHAA
VGAVMVLTFCVSAMLWMLMQAEFLGVTLVVVY
LHLVLFLFVVMMLNIDIEEMRAGFWRHAPVAG
DIPAVVGTLLAVALILILVNPKTDLAAFGLMK
DYNNIRDLGSRIYTDY
FASTAQ. – Formato de texto para las lecturas obtenidas con NGS, que contiene además de la
secuencia de ADN, la información sobre la calidad de cada base. Cada secuencia de lectura es
representada por un encabezado que contiene la información de la secuencia, mediante un
identificador único; una segunda, que contiene las bases de ADN en forma de texto (ATG); una
tercera línea que comienza con el símbolo “+” y puede contener información adicional (opcional); la
última línea contiene símbolos ASCII, estos serán de igual longitud al número de bases en la
secuencia, el cual contiene el valor de calidad PRHED, para cada una.
Librería de cDNAs. - Una colección de moléculas bicatenarias de ADN (cDNAs) obtenidas a partir de
las moléculas de los ARN mensajeros correspondientes. Puesto que los cDNAs se obtienen a partir de
moléculas de ARN mensajero, las librerías de cDNAs permiten obtener información acerca de los
genes estructurales que se están expresando en la célula en un momento dado. Las bibliotecas de
cDNAs también se usan experimentalmente para conocer la secuencia codificante de los genes
discontinuos típicos de eucariontes, después de que los exones han sido escindidos.
Linux. - Sistema operativo derivado de UNIX que, manteniendo casi todas las ventajas que este
último ofrece, puede ser ejecutado en computadoras personales. Fue desarrollado originalmente
por el estudiante finlandés de informática Linus Torvalds, que publicó su código fuente en 1990, en
la forma de código abierto. Este hecho, unido a la estructura modular del sistema operativo (basado
en la integración de componentes de software independientes) generó una nueva visión de
desarrollo informático y ha permitido que Linux se haya expandido notablemente, gracias al trabajo,
muchas veces voluntario y sin ánimo de lucro, de miles de programadores a todo lo largo del mundo.
Actualmente están disponibles varias distribuciones de Linux, ofertadas por diversos proveedores,
como RedHat, SuSE o Mandrake Inc.
Metabolismo. - El conjunto regulado y coordinado de reacciones químicas que tienen lugar en un
organismo vivo, cada una catalizada por una enzima específica. Una vía metabólica es el conjunto de
reacciones que lleva a la síntesis o degradación de una biomolécula dada, en tanto que un
metabolito es un intermediario en una vía metabólica. El metabolismo es la suma del anabolismo
(conjunto de las vías de síntesis, que requieren energía) y del catabolismo (conjunto de las vías de
degradación, que permiten obtener la energía necesaria para poder llevar a cabo las vías de síntesis).
Metaboloma. - El conjunto de vías metabólicas que ocurren en una célula, tejido u organismo,
incluyendo su interrelación y regulación.
OTU. - Acrónimo para Operational Taxonomic Units. Conjunto de lecturas que difieren por menos de
un límite fijado en su secuencia, este límite usualmente es 3%.
PHRED (Valor). - Valor que establece la calidad de una secuencia o nucleótido producto de una
secuenciación.
Proteoma. - El conjunto de proteínas que se están expresando en un momento dado, en una célula,
tejido u organismo. El proteoma puede considerarse como dinámico si se compara con el genoma,
pues varía con el tiempo y/o con diferentes estados fisiológicos o patológicos específicos.
Proteómica. - Rama de la biología que se dedica al estudio del proteoma, incluyendo los métodos y
técnicas específicas que se usan con este objetivo.
Recombinación. - El proceso a través del cual se forma un nuevo genotipo, generalmente debido a
reordenamientos que ocurren a nivel del genoma.
Replicación. - Proceso en el cual se obtienen dos moléculas de ADN doble cadena hijas a partir de
una molécula doble cadena parental. Cada una de las dobles hélices hijas está formada por una
hebra de la molécula parental y una sintetizada como parte del proceso, por lo que este se describe
como semiconservativo.
Transcripción. - El proceso mediante el cual la información contenida en una de las hebras de una
molécula de ADN es usada como molde para la síntesis enzimática de una cadena de ARN, con una
secuencia complementaria a la de la cadena de ADN que sirvió de molde.
Transcriptoma. - El total de todas las formas de ARNs transcriptos a partir del genoma, en un célula,
tejido u organismo. El transcriptoma, al igual que el proteoma, puede considerarse como dinámico
cuando se compara con el genoma. A veces se circunscribe sólo al conjunto de los ARNs mensajeros.
Transcriptómica. - Rama de la biología que se dedica al estudio del transcriptoma, incluyendo los
métodos y técnicas específicas que se usan con este objetivo.
UNIX. - Sistema operativo multiusuario y multitarea, desarrollado originalmente por Ken Thompson y
Dennis Ritchie en los laboratorios Bell en 1969, para su uso en minicomputadoras. Ofrece múltiples
ventajas y se considera potente, más portable e independiente de equipos concretos que otros
sistemas operativos. El UNIX está disponible en varias formas, entre las que se encuentran AIX, una
versión de UNIX adaptada por IBM (para su uso en estaciones de trabajo basadas en RISC), Solaris,
versión de Sun Mycrosystems y A/UX (versión gráfica para equipos Apple Macintosh).
Bibliografía
https://www.dnalinkseqlab.com/glossary/
https://www.ebi.ac.uk/training/online/glossary
http://fbio.uh.cu/sites/bioinfo/glosario.html