Anda di halaman 1dari 128

Introduccin a la Bioinformtica

Carlos Gaete Eastman IBVB Universidad de Talca

Bioinformtica
Definicin intuitiva

Conjunto de herramientas informticas que sugieren soluciones a problemas biolgicos

Bioinformtica
Simulacin cintica o metablica Bioqumica terica, anlisis estructural o energtico de biomolculas, prediccin de estructura Anlisis y manipulacin de secuencias de DNA o protena

Bioinformtica
Definiciones oficial NIH Bioinformatics -Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire store, organize, archive, analyze, or visualize such data. Computational Biology - The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological behavioral, and social systems.

Bioinformtica: Ciencia que utiliza herramientas informticas basadas en modelos matemticos y estadsticos, para estudiar los fenmenos biolgicos Computador: Aparato electrnico de mltiples componentes capaz de procesar y almacenar informacin en base a instrucciones Hardware: Dispositivos electromecnicos de operacin (unidades de almacenamiento temporal y permanente, clculo, memoria, I/O, grficos) Software: Conjunto de instrucciones interpretables por el computador (sistema operativo, programas, aplicaciones)

Programa: Conjunto de instrucciones mediante las cuales un computador realiza una tarea Algoritmo: Set de instrucciones detallado para completar una tarea en una serie de pasos finitos Heurstica: Mtodo de aplicacin de un algoritmo basado en la experiencia de su aplicacin Base de Datos: Repositorio de informacin estructurado y jerarquizado Posee un lenguaje de consulta (SQL: Structured Query Languaje)

Dogma Central de la Biologa Molecular

Transcripcin

Traduccin

DNA
Factores de Regulacin Promotores Factores de transcripcin Secuencias no codificantes

RNA
Intrones Exones Regiones de splicing alternativo Tipos RNA mRNA (solo exones) tRNA (transferencia) rRNA (ribosomal)

Protena
Modificacin postranscripcional

Genes: Procariontes v/s Eucariontes

Procariontes:
ORFs contiguos Pocas y cortas secuencias intergnicas Genes sobrelapados (2 o 3 frame)

Eucariontes:
ORFs no contiguos Gran nmero de intrones por gen e.g. Humano: 1.5 ~ 3% genoma codificante >40% DNA repetitivo Genes sobrelapados (2 o 3 frame) Splicing alternativo

Estructura de un Gen Eucarionte


Promoter Region Transcript

TF binding sites

TATA box

Transcription Initiation point

Coding regions (exons) Non Coding regions (introns)

Factores Basales de Transcripcin


Factores comunes a todos los genes Maquinaria bsica

TATA Box (TATA Binding Protein, une el complejo de transcripcin RNA-polimerasa)

Factores Regulatorios de Transcripcin


Responsables de las diferencias de expresin Promotores que activan o bloquean la expresin gnica Reconocen secuencias especficas de DNA de ~3 nucletidos

Tamao de Genomas
E.coli (bacteria) S. cerevisiae (levadura) Menor cromosoma humano Genoma humano completo 4.6 x 106 bases 15 x 106 bases 50 x 106 bases 3 x 109 bases

A mayor tamao mayor complejidad? De qu factor depende la complejidad?

Complejidad depende de los genes?


Composicin del DNA (eucarionte): Regiones codificantes (genes)
E. coli ~4,000 genes Levadura ~6,000 genes C. Elegans ~13,000 genes Humanos ~32,000 genes
20K Genes hacen la diferencia?

Regiones de control o regulacin de expresin


Tpicamente cercanas a genes Determinan cuando y cuanto de un gen es expresado

Junk DNA (funcin desconocida)

Podemos identificar niveles de informacin en la clula

Informacin Molecular: Nivel I DNA


Secuencias DNA crudas:
Codificante o no?
Intrn Exn Promotor Factores de transcripcin
atggcaattaaaattggtatcaatggttttggtcgtatcggccgtatcgtattccgtgca gcacaacaccgtgatgacattgaagttgtaggtattaacgacttaatcgacgttgaatac atggcttatatgttgaaatatgattcaactcacggtcgtttcgacggcactgttgaagtg aaagatggtaacttagtggttaatggtaaaactatccgtgtaactgcagaacgtgatcca gcaaacttaaactggggtgcaatcggtgttgatatcgctgttgaagcgactggtttattc ttaactgatgaaactgctcgtaaacatatcactgcaggcgcaaaaaaagttgtattaact ggcccatctaaagatgcaacccctatgttcgttcgtggtgtaaacttcaacgcatacgca ggtcaagatatcgtttctaacgcatcttgtacaacaaactgtttagctcctttagcacgt gttgttcatgaaactttcggtatcaaagatggtttaatgaccactgttcacgcaacgact gcaactcaaaaaactgtggatggtccatcagctaaagactggcgcggcggccgcggtgca ........................
Exon 3
Eco RI (3566)

Equivalente a genes?

Bacteria:
~1 Kb x gen ~2 Mb x genoma

mRNA 1
Eco RI (4432)

Exon 2
Eco RI (3093) Ava I (3052) Pst I (2501)

CDS 1
Hin dIII (4755) Pst I (5043) Eco RI (5461) Ava I (5558) Xma I (5558) Sma I (5560)

II
Cla I (6041) Ava I (5826)

Sma I (1930) Xma I (1928)

X V VII IX VIII

Ava I (1928) Eco RI (1745)

Exon 1
Bam HI (1144) Eco RI (992) Eco RI (632) Ava I (300) Sma I (277) Xma I (275) Ava I (275)

Exon 4
Eco RI (6050) Ava I (6419) Xma I (6419) Sma I (6421) Eco RI (6681)

IV
Apa LI (4744)

M13
6407 bp

Exon 5
Ava I (7230) Xma I (7230) Sma I (7232)

III
Bam HI (2221)

Ava I (243) Eco RI (30) Hin dIII (2)

I VI

Cla I (2529)

Exon 6

Ava I (8396)

AF274889S1
8483 bp

Informacin Molecular: Nivel II Protenas


Alfabeto de 20 letras (Amino cidos, aa) ACDEFGHIKLMNPQRSTVWY excluye BJOUXZ ~300 aa de promedio para protenas (bacteria) ~200 aa para un dominio ~200.000 secuencias de protenas conocidas (PDB + Swissprot)

Informacin Molecular: Nivel III Estructura 3D


DNA RNA - Protenas

Informacin Molecular: Nivel IV Metabolismo


Relaciones entre genes, protenas y sus expresiones fenotpicas Vas de expresin proteica: Protena-Protena Metablicas Inmunolgicas Desarrollo Adhesin Apoptosis

Tarea de la Bioinformtica

Simplificacin de Informacin
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

~20K 40K
Genes

Humano

~3K 5K
Pliegues

~10K
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Genes

C elegans

Es posible determinar funcin sobre la estructura o sobre la secuencia?

Paradigma Bioinformtico
DNA
Secuencias Genes Factores de Transcripcin Genomas

RNA
Secuencia Intrn Exn

Protena
Secuencias Genes Factores de Transcripcin Genomas

Fenotipo
Normalidad Enfermedad

Vas Metablicas

Aplicaciones Bioinformticas Bases de Datos


Prediccin genes Estructura proteica Expresin gnica y proteica Ingeniera: Gentica Proteica Metablica

Bioinformtica: Para qu sirve?


Dado la capacidad de obtener secuencias gnicas y protecas podemos:
Usar bases de datos de secuencias gnicas para
Predecir genes por homologa de secuencias Predecir secuencias proteicas a partr de secuencias gnicas Estudiar relaciones evolutivas entre organismos

Usar bases de datos se secuencias protecas para:


Predecir funcionalidad proteca por similitud estructural y/o de secuencias Predecir estructura secundaria y terciaria de protenas Predecir sitios activos

Utilizar modelos asistidos por computador


Genmica: Genomas, Diseo de organismos in slico Protemica: Interaccin Ligando-Receptor, Docking, Mutacin sitio dirigida Modelos integrales: Membrana, Canales Inicos, Bombas, Receptores

Utilizar bases de datos relacionales para


Determinar genes relacionados a enfermedades genticas Relacionar estructura proteica con funcin

Rango de Accin de la Bioinformtica


Bases de Datos: Secuencias Genes Genomas Bases de Datos: Secuencias Protenas Proteomas Bases de Datos: Vas Metablicas y Estructurales Enfermedades Genticas Interrelaciones Proteina-Proteina

Secuencias Genmicas (Genmica)

Protenas (Protemica)

Vas de expresin (Metabolmica)

Breve Historia
50s Primeras bases de datos de archivos planos 60s Protein information resource PIR: Base de datos de secuencias de protenas (http://www-nbrf.georgetown.edu) 70s Genbank, primera versin: Base de datos de secuencias gnicas (http://www.ncbi.nlm.nih.gov) 80s

Modelos de datos relacionales


1980 EMBL (http://www.ebi.ac.uk) - 1984 DDBJ (http://www.ddbj.nig.ac.jp) 1984 1986 Projecto piloto Genoma Humano: The Human Genome Initiative 1988 FASTA: Formato de archivo y heurstica de bsqueda

90s

Mtodos de alineamiento de secuencias, primera secuencia pblica


1990 1990 1995 NIH lanza proyecto genoma humano: 15 aos, US$3.000 Millones, US$1 x bp BLAST: heurstica de bsqueda (Altschul et al.) Primera genoma publicado: Hemophilus influenzae, TIGR

1993 1998

Primera base de datos genmica en internet C. elegans Craig Venter funda Celera Genomics

(http://www.sanger.ac.uk/Projects/C_elegans/)

2001 Primer borrador del genoma humano (75 al 80%): Celera y National Human Genome Research (USA)

La Carrera Genmica

Bacteria 1.6 Mb ~1600 genes


[Science 269: 496]

Eukaryote 13 Mb ~6K genes


[Nature 387: 1]

Animal ~100 Mb ~20K genes


[Science 282: 1945]

Human ~3 Gb ~100K genes


[???]

Human ~3 Gb ~20K 40K genes


[Science 291: 1304]

1995

1997

1998

2000

2001

FEBRERO 2001:

Consorcio Pblico

Celera Genomics

Secuenciacin Sntesis paralela/combinatoria Screening masivo Separacin Purificacin Cristalizacin ...

Protemica Genmica estructural Qumica combinatoria

BIOINFORMTICA
Genmica funcional FarmacoGenmica

Secuenciacin

masiva

Proyectos Genoma

Secuenciacin masiva Anotacin genoma

Determinacin genoma

Genes del Glaucoma?

GenBank ha crecido en forma exponencial desde 1994 Entre 1999 y 2000 ha crecido a una tasa de 19.890.146 bases/da Dobla el nmero de secuencias cada 14 meses aproximadamente

GenBank

Genmica funcional

Anlisis estadstico

DNA-chips .
Procesado imagen Explotacin de datos

Perfil expresin gnica

Anlisis estadstico Mtodos de clustering Redes neuronales Gene ontology

Genmica estructural Prediccin funcional y estructural


Seleccin modelos

Rayos X NMR
Homologa Tcnicas estructurafuncin Modelizacin molecular

Estructura 3D

Estructura 3D

Determinacin funcin. Nuevas biomolculas

PDB
Ms de 54.000 estructuras Aumento de informacin en tasa exponencial

Tasa negativa para nuevas formas 3D (SCOP)

Secuencia DNA

Secuencia Protena

Reconocimiento Molecular

Estructura 3D

La capacidad de reconocimiento es la base de la funcin biolgica La estructura 3D es necesaria para el reconocimiento

Rosalyn Franklin

Mapa difraccin B-DNA

COX-2

ADA

FKBP

XO

ATP (Mg) - ACV

Protemica Genmica funcional/estructural

Determinacin proteoma
Teora control metablico

Metaboloma

PLASMA HUMANO

Qumica combinatoria/HTS Chequeo masivo

Diseo bibliotecas

Sntesis Anlisis masivos


Modelizacin molecular

Nuevos frmacos

Pero volvamos al principio


A la informacin primaria

PROCESADO DE LA INFORMACION
...CTTAGC...........CAGGC.........CCTTAACG...... ...CTTAGC...........CAGGC.........CCTTAACG ......

IDENTIFICAR LOS GENES

ATTW...PGL

CC...TWP

AGG....FVG

ESTRUCTURA Y FUNCION DE LAS PROTEINAS

MEDIANTES ESTUDIOS EVOLUTIVOS

SIMILITUD EN LAS SECUENCIAS BIOLOGICAS IMPLICA SIMILITUD DE ESTRUCTURA Y FUNCION

Flujo de informacin
Sec. Protena Secuencia Genmica cDNA...

Nueva Secuencia
Sabemos qu es? Se parece a otras?

Podemos Copiar estructura? Funcin?

La realidad de las secuencias obtenidas de los proyectos genoma

Como anotamos las secuencias nuevas???

Grados de dificultad
1. Homlogos identificables mediante alineamientos de secuencia (blast, clustal, pfam,...).
Es posible efectuar predicciones estructurales y funcionales fiables

2. Homlogos remotos identificables por otros mtodos (psi-blast, threading)


Es posible efectuar predicciones estructurales de baja resolucin. No suele haber relaciones funcionales evidentes.

3. Sin homlogos detectables


Predicciones 1D, identificacin de motivos de secuencia: Fiabilidad limitada

Herramientas
Bases de datos primarias: Swissprot, EMBL, GenBank, PDB,... Comparacin y alineamiento de secuencias: Blast, PSIBlast, Clustal,... Threading: 3D-PSSM, Recopilacin de famlias estructurales: Pfam, Blocks,... Prediccin 1D: PredictProtein (PHD), Identificacin de motivos de secuencia: PROSITE, PSORT,

Tipos de bases de datos


Primarias
Principales reservas de informacin. Contienen datos de secuencia y estructura con nula o poca informacin adicional.

Derivadas
Confeccionadas a partir del procesado de los datos primarios. Ofrecen informacin adicional

Bases de datos Biolgicas


Primarias
Informacin suministrada por trabajo experimental La institucin receptora organiza la informacin pero no aade nada Ejemplo GenBank

Derivadas
Anotadas a posteriori Los datos son revisados, corregidos y se aade informacin bibliogrfica Ejemplo SWISS-PROT Derivadas computacionalmente Ejemplo PFAM Combinaciones especficas

Database Categories List


Nuc. Ac. Res. 2001 29(1) 1-10

Major Sequence Repositories (7) Comparative Genomics (2) Gene Expression (16) Gene Identification and Structure (23) Genetic and Physical Maps (11) Genomic Databases (33) Intermolecular Interactions (4) Metabolic Pathways and Cellular Regulation (10) Mutation Databases (35) Pathology (6) Protein Databases (42) Protein Sequence Motifs (16) Proteome Resources (5) RNA Sequences (24) Retrieval Systems and Database Structure (3) Structure (27) Transgenics (2) Varied Biomedical Content (15)

Los componentes

Nucletidos y DNA

BASES NITROGENADAS
H N H3 C N N H O H N O H

Pirimidinas

N R

N R

N R

CITOSINA

TIMINA

URACILO

H O H N N

N N

Purinas

H N H N N R N N R

GUANINA

ADENINA

LAS BASES POSEEN UNA HUELLA DACTILAR UNICA BASADA EN SU PAUTA DE PUENTES DE HIDROGENO

H N4 C4 C5 C6 N1 R

H O6 H N3 C2 O2 H N H N1 C2 N3 C6 C5 C4

N7 C8 N9 R

CITOSINA

GUANINA

NUCLEOSIDO (base + azucar) NUCLEOTIDO (base + azucar + fosfato)


NH2
NH2

HOH2 C C4 ' C3 ' HO

N O4' C1 ' C2 ' OH

O9P 3OH2 C C4 ' C3 ' HO

N O4' C1 ' C2 ' OH

ADENOSINA

ADENOSINA TRIFOSFATO (ATP)

Apareamientos cannicos (Watson-Crick)

La estructura secundaria nativa del DNA es siempre helicoidal


Dobles hlices (A, B, Z). Triples hlices (d(Pu:Py:Pu); d(Pu:Py:Py)) Cuadruples hlices (motivo G-DNA) La gran mayora de hlices son dextrgiras

Estructura DNA
En situaciones normales la estructura del DNA no es relevante en bioinformtica El reconocimiento DNA DNA se produce en base a apareamientos normales W i C. La interaccin DNA-Protena es mrito de la protena, el DNA suele adaptarse simplemente a la interaccin.

Complejo DNA-UvrB

cmo son las protenas?

qu informacin tenemos?
Secuencias de protena
Obtenidas directamente o por traduccin de sequencias de DNA
SWISSPROT: http://www.expasy.ch/

Estructuras tridimensionales
PROTEIN DATA BANK: http://www.rcsb.org/

Sequencias
Permiten relacionar protenes y agruparlas formando familias
RIAGHLRPQREDDVCLKRSDCRAKGGVSGFKVAILGAAGGIGQPLAMLMKMNPLV R-SAVSRSSSSNRL-LSRS--FATESVPERKVAVLGAAGGIGQPLALLMKLNPLV -----LSALARPVGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----LSALARPAGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----------------------------AKVAVLGASGGIGQPLSLLLKNSPLV -----LSRVAKRAFSSTVAN--------PYKVTVLGAGGGIGQPLSLLLKLNHKV

Protenas con secuencia parecida suelen poseer idntica estructura

Cristal de protena

Difraccin de Rayos X

Densidad electrnica

H 8 H 1 H 2 H 3 H 4 H 5 H 6 3 4. 1 -

H 9 3. 2 -

H 0 -

H C 4 2. 4 -

H E 2. 9

H T 3. 2 2. 9

HI 2. 8 -

Aminocidos hidrofbicos
O O NH3+
O O NH3+

O O NH3+
O

O NH3+

Ala (A)
O O NH3+ O
O

Val (V)
O

Leu (L)

Ile (I)

NH3+
O

NH3+ O

O NH2+

NH

Met (M)

Trp (W)

Phe (F)

Pro (P)

Aminocidos polares neutros


O

O
O O NH3+

NH3+

NH3+ NH2
O

NH2

Gly (G)
O
NH3+ OH

Asn (N)
O O HO NH3+
O

Gln (Q)
O
NH3+

OH

Ser (S)
O

Thr (T)
O NH3+ SH

Tyr (Y)

Cys (C)

O O

Aminocidos cargados
NH3+
O
O

O NH2
O NH3+ NH+

NH H2N NH2
NH3+

NH

Arg (R)
O O NH3+

Lys (K)
O O

His (H)

NH3+ O

O O

Glu (E)

Asp (D)

O NH3+ R1 O

NH3+ R2

O NH3+ R1 N H

R2 O O

O H N

R2 N H NH

O N H

R4

...
O R3 O

...
R1

... aa1 - aa2 - aa3 - aa4 ...

Niveles de estructuracin
Estructura primaria Estructura secundaria Estructura terciaria Estructura cuaternaria

son posibles todas las conformaciones?


Diagrama de Ramachandran

Prediccin de estructura secundaria

son posibles todas las conformaciones?

Hlice

Estructuras (paralelas)

Estructuras (antiparalelas)

Estructuras no peridicas
giros, loops

Estructuras no peridicas
giros, loops

jerarqua del plegamiento


Estructuras supersecundarias
Agrupaciones sencillas de elementes de estructura secundaria

Dominios estructurales Elementos con autonoma estructural Reconocimiento de plegamientos Prediccin de estructura 3D Estructura terciaria Estructura cuaternaria

alfa-loop-alfa

Unin de metales Unin a DNA

alfa-loop-alfa

alfa-loop-alfa

beta - hairpin

beta - hairpin

Greek key

Este motivo tiene un plegamiento especialmente favorable

Greek key

Este motivo tiene un plegamiento especialmente favorable

alfa - beta

La hlice se sita siempre en el mismo lado de la hoja

Dominios
Bloques de estructura con autonoma
Estructural Plegamiento A veces funcional

Una protena puede contener uno o ms dominios, en una o ms cadenas polipeptdicas. Los dominios se aprovechan. Se espera un mximo cerca de 1000 dominios diferentes.

Clasificacin de dominios CATH


Todo alfa Todo beta Alfa / beta Alfa + beta Irregulares

Agrupaciones todo
25 45

Agrupaciones todo

4 - bundles

4 - bundles

Hemoglobin a

Anexina V

Ortogonal - sandwich

jelly roll

- barrel

Porina

/ barrel

/ doubly wound
Rossman fold

qu podemos hacer?
Prediccin de plegamiento Anlisis conformacional ...

Anlisis estructural Hemoglobina. La deleccin de Lys 60 produce talasemia


Ayala S. et al. Human Mut. Mutation in brief (1997), 11 (5) 412-419

Chemical unfolding of barnase


Protein (pH=7) + counterions + water or water/urea (8M) Periodic Boundary Conditions NPT (P=1 atm) AMBER/OPLS

NMR

MD(water) 5 ns

Reconocimiento molecular
Complementariedad estructural
Ocultacin de superficies hidrofbicas Pares inicos Mantenimiento de puentes de hidrgeno

Los grupos que participan en la interaccin determinan la especificidad de la misma.

Reconocimiento molecular.
Energa de interaccin

Efecto hidrofbico.
Relacionado con la entropa del agua

Entropia conformacional Puente de hidrgeno Interaccin electrosttica

qu podemos hacer?
Prediccin de reactividad Docking Prediccin de modos de reconocimiento ...

HSV Thymidine Kinase MIP O (-1)

ATP binding site

Localizacin centro regulador MDHm

DOCKING

Timidina quinasa HSV 1. Mecanismo de reaccin

Wat Wat

TK - ATP (Mg) - ACV

Complejo Cataltico tras 2 ns MD

ATP (Mg) - ACV

COX-2 Celecoxib

Reconocimiento de frmacos

Sequencia DNA

Sequencia Protena

Reconocimiento Molecular

Estructura 3D

Notas de prudencia
Los mtodos de prediccin no son infalibles y no es siempre posible calibrar su fiabilidad No se puede predecir aquello que no se conoce Las bases de datos pueden contener informacin errnea Se debe evitar la sobrevaloracin de resultados

Anda mungkin juga menyukai