Anda di halaman 1dari 12

Temario Cursos Ómicas

1.- Ciencias Ómicas

Introducción (Omic science and tools)


Génomica
Transcriptómica
Proteomica
Metabolómica
Herramientas para las ómicas
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5658597/

Cómo la bioinformática complementa a las ciencias ómicas

Herramientas para la obtención de datos


NGS
Shotgun
Tipos de datos utilizados
Fasta
Fastq (Versión con mas info que fasta)
Biom
GFF

Herramientas bioinformáticas

Bases de Datos
NCBI
Uniprot
SILVA
Greengenes
KEGG
Biocyc (Metacyc)
Qiime

Instalación (Crear pdf para que al iniciar el taller ya se tengan los programas instalados)

Se recomienda Unix/Linux (En caso de no contar con ello, se puede instalar en windows la
app de Unix)

Bioconda
Qiime2
Artefactos
Asignación taxonómica
Análisis de diversidad
Transcriptómica

Conceptos teóricos y aplicaciones


Analisis de expresion diferencial (En R, no son necesarias habilidades de programacion)
Normalizacion de muestras (Diferentes metodos)
Cómo encontrar genes expresados diferencialmente
Estabilización de varianza
Visualización de resultados
Gráficos

Tutorial instalación de R

Primeramente, es necesario

https://www.digitalocean.com/community/tutorials/how-to-install-r-on-ubuntu-16-04-2

Sys-bio
Metabolic reconstruction
Matlab
Cobra
Raven
modelseed
Bigg
Modelos metabólicos
Alcance
Regulación transcripcional
Ejemplos/predicciones

SRA Toolskit (Tentativo, solo explicar para que funciona)


Trinity ¿?
Bowtie ¿?
Pyhton

Instalación de Qiime2

Qiime2 no puede ser instalado en Windows, sin embargo ya existe un subsistema Unix/linux
para windows

1. Desde la tienda descargar el bash de Debian/Ubuntu

2. Al terminar la instalación, abrir Powershell como administrador (Click derecho) e introducir


el sig código:
$ Enable-WindowsOptionalFeature -Online
-FeatureNameMicrosoft-Windows-Subsystem-Linux

3. Reiniciar

Para la instalación de qiime2 en la terminal es necesario contar con miniconda

1. Introducir el sig código para la descarga del instalador para la versión de 64bit con python
3.6
$ wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh

o en la sig página descargar cualquiera de las otras opciones (Mac Os X)

https://conda.io/miniconda.html

2. En la terminal, correr:
$ bash Miniconda3-latest-Linux-x86_64.sh

Debes estar en la carpeta donde se hizo la descarga, prueba con


$ bash /mnt/c/User/…/Miniconda3

Si obtienes algún error:


$apt update
$apt-get install bzip2 && ca-certificates

3. Seguir las instrucciones (Si no estás seguro de las opciones, puedes dejar los valores por
defecto)

Instalar Qiime2

$ wget https://data.qiime2.org/distro/core/qiime2-2018.6-py35-linux-conda.yml
$ conda env create -n qiime2-2018.6 --file qiime2-2018.6-py35-linux-conda.yml

# OPTIONAL CLEANUP
$ rm qiime2-2018.6-py35-linux-conda.yml

Instalación COBRA

https://opencobra.github.io/cobratoolbox/latest/installation.html

The COnstraint-Based Reconstruction and Analysis Toolbox is a MATLAB software


suite for quantitative prediction of cellular and multicellular biochemical networks with
constraint-based modelling. It implements a comprehensive collection of basic and
advanced modelling methods, including reconstruction and model generation as well
as biased and unbiased model-driven analysis methods.

It is widely used for modelling, analysing and predicting a variety of metabolic


phenotypes using genome-scale biochemical networks.

Windows
Please download the ​git tools for Windows. During the installation process, please
ensure that you select ​Use Git Bash and optional Unix tools from the Windows
Command prompt​​. In addition, please make sure that you select ​Checkout as-is,
commit Unix-style line endings​​.

Download and installation


1. Download this repository (the folder ​./cobratoolbox/ will be created). You
can clone the repository using:
2. $​ git clone --depth​=​1​ https://github.com/opencobra/cobratoolbox.git cobratoolbox

3. Please note the ​--depth=1 in the clone command. Run this command in

Terminal (on and ) or in ​Git Bash (on ) - ​not in . Although not


recommended, you can download the repository as a ​compressed archive​.

4. Change to the folder ​cobratoolbox/​ and run from


5. >>​​ ​initCobraToolbox

Test the installation


You may test your installation by running from

>>​​ ​testAll
Instalación RAVEN Toolbox

https://github.com/SysBioChalmers/RAVEN

The RAVEN (Reconstruction, Analysis and Visualization of Metabolic Networks)


Toolbox 2 is a software suite for Matlab that allows for semi-automated
reconstruction of genome-scale models (GEMs). It makes use of published models
and/or KEGG, MetaCyc databases, coupled with extensive gap-filling and quality
control features. The software suite also contains methods for visualizing simulation
results and omics data, as well as a range of methods for performing simulations and
analyzing the results. The software is a useful tool for system-wide data analysis in a
metabolic context and for streamlined reconstruction of metabolic networks based on
protein homology.

The RAVEN Toolbox 2 paper is now available from ​bioRxiv​.

Installation

Required software
● A functional ​MATLAB​ installation (version 2013b or later).

Dependencies
● libSBML MATLAB API (version 5.16 is recommended), which is utilised for
importing and exporting GEMs in SBML format. Note: not needed if ​COBRA
Toolbox​ is installed.
● At least one solver for linear programming:
○ Preferred: ​Gurobi Optimizer (version 7.5 or higher), academic license is
available ​here​.
○ Alternative/legacy: ​MOSEK (version 7 only), academic license is
available ​here​.
○ If the user has ​COBRA Toolbox installed, it is possible to use the
default COBRA solver (the one which is set by ​changeCobraSolver​).

Instructions

RAVEN Toolbox

Obtain a RAVEN Toolbox in one of the following ways:

● In Terminal/Command Prompt, navigate to the desired installation directory


and run the following Git command:

git clone git@github.com:SysBioChalmers/RAVEN.git

● Alternatively, download the latest ​release of RAVEN Toolbox as a ZIP file,


and extracted to your favourite directory.

Once extracted, ensure that all other software dependencies (e.g. libSBML, Gurobi)
are installed (see above for ​list​, below for ​instructions​. Then, open MATLAB and run
the following command:

cd(​'[location]/RAVEN/installation'​))
checkInstallation

where ​[location]​ is the directory where you installed RAVEN.

This function checks the functionality for libSBML MATLAB API and solver software.
It automatically recognises which solvers are installed and sets the first functional
solver as the default RAVEN solver. The default RAVEN solver be changed any time
by typing in Matlab:

setRavenSolver(​'solverName'​)

Available solver names are ​gurobi​, ​mosek​ and ​cobra​.

In Unix-based systems ​checkInstallation also checks the consistency of external


binary programs. If these binaries are broken, they need to be re-compiled from their
corresponding source codes. See the documentation for the corresponding software
for more details.

libSBML

1. Download libSBML from the link ​above​ and install to your favourite directory.
2. In MATLAB, run the following command:

addpath(​'[location]/libSBML-5.x.0-matlab'​)
savepath

where ​[location]​ is where you installed libSBML and ​5.x.0​ is your libSBML version.

COBRA Toolbox

1. To gain access to functions from COBRA Toolbox, follow installation


instructions provided.
2. To use COBRA-specified solvers (e.g. open-source GLPK solver), configure
COBRA and RAVEN with the following commands:

changeCobraSolver(​'glpk'​)
setRavenSolver(​'cobra'​)

Glosario

ADN ribosomal 16S. El 16S rDNA es el gen que codifica para el componente estructural 16S rRNA del
ribosoma bacteriano (Parte de la subunidad pequeña ribosomal 30s). Este fragmento está altamente
conservado a través de todos los procariotes. El gen contiene regiones variables que pueden ser
útiles para la identificación taxonómica de bacterias.

Alineamiento de secuencias. - Arreglo mutuo de dos o más secuencias, que muestra donde estas
son similares y donde difieren. Un alineamiento óptimo es aquel que muestra la mayor cantidad de
correspondencias y la menor cantidad de diferencias.

Amplicon. - Fragmento específico o locus de ADN, o ARN de un organismo, generalmente 200-1000


pb producto final de replicación artificial por PCR.

ASV (Amplicon sequence Variant). - Es un conjunto de lecturas producto de la secuenciación masiva,


a diferencia de los OTU, estos conjuntos de lecturas pueden tener variaciones entre sí de un
nucleótido.

Biblioteca. - Conjunto de fragmentos de secuencias de ADN


Biología computacional (computational biology). - Este término se aplica, generalmente, a la
creación de modelos computacionales a partir de datos obtenidos no necesariamente a nivel
molecular.

Biología de sistemas (systems biology). - Un nuevo enfoque de las ciencias biológicas, que se basa en
el estudio de la estructura y dinámica de los sistemas biológicos como tales, apoyado pero no
restringido a las evidencias experimentales obtenidas a partir del estudio de sus componentes
individuales.

BLAST. – Acrónimo para Basic Local Alignment Search Tool, el cual es un algoritmo que identifica
regiones similares entre aminoácidos o secuencias de nucleótidos. Una búsqueda con BLAST te
permite comparar una secuencia deseada contra una librería o base de datos de secuencias,
asociando las secuencias de la base de datos que se asemejan a la secuencia de interés, por encima
de un determinado límite de similaridad.

Consenso. - Una manera de representar la información que aporta un alineamiento de secuencias. El


consenso descarta toda la información, excepto la más significativa, concentrándose sólo en las
posiciones más conservadas.

Contig. - Fragmentos de una secuencia de ADN contiguo , el cual resulta de un alineamiento


múltiple de lecturas de secuencias superpuestas en una sola secuencia consenso.

De-multiplex. – Proceso por el cual se separan las diferentes muestras, después de ser amplificadas,
que se encuentran dentro de una biblioteca (formadas previa a la secuenciación) identificadas con
secuencias cortas, llamadas adaptadores (barcode sequence). El multiplexing permite la
secuenciación de diferentes muestras en una sola corrida.

Diagrama de caja y bigotes. - Herramienta gráfica de estadística que representa un resumen de una
serie de datos. Es usado en los análisis exploratorios de datos para visualizar la distribución de los
datos, su valor central y su variación. Se interpreta de la siguiente manera: El rectángulo representa
el 50% de los datos; el límite superior del rectángulo, o tercer cuartil, representa el 75% de los datos;
y el límite inferior, 1er cuartil, representa el 25% de los datos. La línea dentro del rectángulo es la
mediana. Los bigotes indican los valores máximo y mínimo de los datos o 1.5 veces el rango
intercuartil (Q3-Q1) si están presentes datos fuera de estos rangos, denominados valores atípicos.

Escisión (splicing). - Proceso mediante el cual los intrones son escindidos del ARN mensajero que fue
transcrito a partir de un gen discontinuo. En algunos casos también se escinden exones (de forma
controlada) dando lugar a diferentes productos proteicos que derivan del mismo gen, en un proceso
que se conoce como escisión o splicing alternativo.

Exón. - Región codificante dentro de un gen discontinuo.

Expresión Diferencial. - Un gen está diferencialmente expresado cuando sus valores de expresión
bajo ciertas condiciones son estadísticamente significativos.

Familia. - Grupos de proteínas (y sus genes codificantes) que comparten características funcionales
semejantes y una obvia relación entre sus secuencias.

FASTA. - 1. (algoritmo, herramienta) Una herramienta desarrollada por Pearson y Lipman para el
alineamiento de secuencias de ácidos nucleicos y proteínas.
2. (formato) Uno de los formatos más simples utilizados para almacenar secuencias nucleotídicas o
aminoacídicas. Una entrada con formato FASTA tiene dos bloques fundamentales, el primero está
formado por una sola línea que comienza con '>' y no es más que una descripción de la secuencia y
el segundo está formado por la secuencia en sí e implica tantas líneas como sea necesario. Por
ejemplo:

>NADH dehydrogenase I chain J

MTFQLILFYIFAVIILYGAIKTVTAKNPVHAA

VGAVMVLTFCVSAMLWMLMQAEFLGVTLVVVY

LHLVLFLFVVMMLNIDIEEMRAGFWRHAPVAG

DIPAVVGTLLAVALILILVNPKTDLAAFGLMK

DYNNIRDLGSRIYTDY

FASTAQ. – Formato de texto para las lecturas obtenidas con NGS, que contiene además de la
secuencia de ADN, la información sobre la calidad de cada base. Cada secuencia de lectura es
representada por un encabezado que contiene la información de la secuencia, mediante un
identificador único; una segunda, que contiene las bases de ADN en forma de texto (ATG); una
tercera línea que comienza con el símbolo “+” y puede contener información adicional (opcional); la
última línea contiene símbolos ASCII, estos serán de igual longitud al número de bases en la
secuencia, el cual contiene el valor de calidad PRHED, para cada una.

Innovación biotecnológica. - Productos relacionados al uso industrial de material biológicamente


activo derivado de organismos, incluyendo el empleo de estos. El material biológicamente activo
puede ser material inanimado como proteínas estructurales, antígenos y enzimas. A su vez derivados
del ADN, ARN o porciones de genes. Materia animada como microorganismos, líneas celulares, que
en conjunto forman plantas y animales. Así, los materiales biológicamente activos se distinguen de
los productos biotecnológicos tradicionales.

Intrón. - Región no codificante dentro de un gen discontinuo.

Librería de cDNAs. - Una colección de moléculas bicatenarias de ADN (cDNAs) obtenidas a partir de
las moléculas de los ARN mensajeros correspondientes. Puesto que los cDNAs se obtienen a partir de
moléculas de ARN mensajero, las librerías de cDNAs permiten obtener información acerca de los
genes estructurales que se están expresando en la célula en un momento dado. Las bibliotecas de
cDNAs también se usan experimentalmente para conocer la secuencia codificante de los genes
discontinuos típicos de eucariontes, después de que los exones han sido escindidos.

Linux. - Sistema operativo derivado de UNIX que, manteniendo casi todas las ventajas que este
último ofrece, puede ser ejecutado en computadoras personales. Fue desarrollado originalmente
por el estudiante finlandés de informática Linus Torvalds, que publicó su código fuente en 1990, en
la forma de código abierto. Este hecho, unido a la estructura modular del sistema operativo (basado
en la integración de componentes de software independientes) generó una nueva visión de
desarrollo informático y ha permitido que Linux se haya expandido notablemente, gracias al trabajo,
muchas veces voluntario y sin ánimo de lucro, de miles de programadores a todo lo largo del mundo.
Actualmente están disponibles varias distribuciones de Linux, ofertadas por diversos proveedores,
como RedHat, SuSE o Mandrake Inc.
Metabolismo. - El conjunto regulado y coordinado de reacciones químicas que tienen lugar en un
organismo vivo, cada una catalizada por una enzima específica. Una vía metabólica es el conjunto de
reacciones que lleva a la síntesis o degradación de una biomolécula dada, en tanto que un
metabolito es un intermediario en una vía metabólica. El metabolismo es la suma del anabolismo
(conjunto de las vías de síntesis, que requieren energía) y del catabolismo (conjunto de las vías de
degradación, que permiten obtener la energía necesaria para poder llevar a cabo las vías de síntesis).

Metaboloma. - El conjunto de vías metabólicas que ocurren en una célula, tejido u organismo,
incluyendo su interrelación y regulación.

Motivos (Motifs). - Regiones conservadas relativamente cortas (de 10 a 20 residuos) en un


alineamiento múltiple de varias secuencias de proteínas que pertenecen a la misma familia. Los
motivos, también conocidos como bloques, representan usualmente elementos importantes desde
el punto de vista estructural o funcional y pueden utilizarse como descriptores de la familia en
cuestión. Un conjunto de motivos representa una región consenso de ADN.

NGS. – Acrónimo de Next Generation Sequencing.

Ortólogos. -Regiones conservadas de nucleótidos o aminoácidos entre especies

OTU. - Acrónimo para Operational Taxonomic Units. Conjunto de lecturas que difieren por menos de
un límite fijado en su secuencia, este límite usualmente es 3%.

Parálogos. - Regiones conservadas de nucleótidos o aminoácidos en un mismo genoma

Patrón. - Descriptor de un motivo. Un patrón es una representación abreviada de la secuencia


consenso de un motivo. Los patrones, también conocidos como expresiones regulares, se han
utilizado para la identificación de motivos en el análisis de secuencias.

PHRED (Valor). - Valor que establece la calidad de una secuencia o nucleótido producto de una
secuenciación.

Proteoma. - El conjunto de proteínas que se están expresando en un momento dado, en una célula,
tejido u organismo. El proteoma puede considerarse como dinámico si se compara con el genoma,
pues varía con el tiempo y/o con diferentes estados fisiológicos o patológicos específicos.

Proteómica. - Rama de la biología que se dedica al estudio del proteoma, incluyendo los métodos y
técnicas específicas que se usan con este objetivo.

Reacciones catabólicas. – Procesos metabólicos que degradan compuestos orgánicos complejos, a


unos más simples. Estos procesos liberan energía.

Recombinación. - El proceso a través del cual se forma un nuevo genotipo, generalmente debido a
reordenamientos que ocurren a nivel del genoma.

Replicación. - Proceso en el cual se obtienen dos moléculas de ADN doble cadena hijas a partir de
una molécula doble cadena parental. Cada una de las dobles hélices hijas está formada por una
hebra de la molécula parental y una sintetizada como parte del proceso, por lo que este se describe
como semiconservativo.

Secuencias (Regiones) conservadas. – Secuencias similares o idénticas de ácidos nucleicos o


aminoácidos entre especies (Ortólogos) o de un mismo genoma (parálogos)
Traducción. - El proceso mediante el cual la información contenida en una molécula de ARN
mensajero especifica la secuencia de aminoácidos para la síntesis de una cadena polipeptídica,
durante el proceso de biosíntesis de proteínas.

Transcripción. - El proceso mediante el cual la información contenida en una de las hebras de una
molécula de ADN es usada como molde para la síntesis enzimática de una cadena de ARN, con una
secuencia complementaria a la de la cadena de ADN que sirvió de molde.

Transcriptoma. - El total de todas las formas de ARNs transcriptos a partir del genoma, en un célula,
tejido u organismo. El transcriptoma, al igual que el proteoma, puede considerarse como dinámico
cuando se compara con el genoma. A veces se circunscribe sólo al conjunto de los ARNs mensajeros.

Transcriptómica. - Rama de la biología que se dedica al estudio del transcriptoma, incluyendo los
métodos y técnicas específicas que se usan con este objetivo.

UNIX. - Sistema operativo multiusuario y multitarea, desarrollado originalmente por Ken Thompson y
Dennis Ritchie en los laboratorios Bell en 1969, para su uso en minicomputadoras. Ofrece múltiples
ventajas y se considera potente, más portable e independiente de equipos concretos que otros
sistemas operativos. El UNIX está disponible en varias formas, entre las que se encuentran AIX, una
versión de UNIX adaptada por IBM (para su uso en estaciones de trabajo basadas en RISC), Solaris,
versión de Sun Mycrosystems y A/UX (versión gráfica para equipos Apple Macintosh).

Bibliografía

https://www.dnalinkseqlab.com/glossary/

https://www.ebi.ac.uk/training/online/glossary

http://fbio.uh.cu/sites/bioinfo/glosario.html

Anda mungkin juga menyukai