Bioinformtica
Definicin intuitiva
Bioinformtica
Simulacin cintica o metablica Bioqumica terica, anlisis estructural o energtico de biomolculas, prediccin de estructura Anlisis y manipulacin de secuencias de DNA o protena
Bioinformtica
Definiciones oficial NIH Bioinformatics -Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire store, organize, archive, analyze, or visualize such data. Computational Biology - The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological behavioral, and social systems.
Bioinformtica: Ciencia que utiliza herramientas informticas basadas en modelos matemticos y estadsticos, para estudiar los fenmenos biolgicos Computador: Aparato electrnico de mltiples componentes capaz de procesar y almacenar informacin en base a instrucciones Hardware: Dispositivos electromecnicos de operacin (unidades de almacenamiento temporal y permanente, clculo, memoria, I/O, grficos) Software: Conjunto de instrucciones interpretables por el computador (sistema operativo, programas, aplicaciones)
Programa: Conjunto de instrucciones mediante las cuales un computador realiza una tarea Algoritmo: Set de instrucciones detallado para completar una tarea en una serie de pasos finitos Heurstica: Mtodo de aplicacin de un algoritmo basado en la experiencia de su aplicacin Base de Datos: Repositorio de informacin estructurado y jerarquizado Posee un lenguaje de consulta (SQL: Structured Query Languaje)
Transcripcin
Traduccin
DNA
Factores de Regulacin Promotores Factores de transcripcin Secuencias no codificantes
RNA
Intrones Exones Regiones de splicing alternativo Tipos RNA mRNA (solo exones) tRNA (transferencia) rRNA (ribosomal)
Protena
Modificacin postranscripcional
Procariontes:
ORFs contiguos Pocas y cortas secuencias intergnicas Genes sobrelapados (2 o 3 frame)
Eucariontes:
ORFs no contiguos Gran nmero de intrones por gen e.g. Humano: 1.5 ~ 3% genoma codificante >40% DNA repetitivo Genes sobrelapados (2 o 3 frame) Splicing alternativo
TF binding sites
TATA box
Tamao de Genomas
E.coli (bacteria) S. cerevisiae (levadura) Menor cromosoma humano Genoma humano completo 4.6 x 106 bases 15 x 106 bases 50 x 106 bases 3 x 109 bases
Equivalente a genes?
Bacteria:
~1 Kb x gen ~2 Mb x genoma
mRNA 1
Eco RI (4432)
Exon 2
Eco RI (3093) Ava I (3052) Pst I (2501)
CDS 1
Hin dIII (4755) Pst I (5043) Eco RI (5461) Ava I (5558) Xma I (5558) Sma I (5560)
II
Cla I (6041) Ava I (5826)
X V VII IX VIII
Exon 1
Bam HI (1144) Eco RI (992) Eco RI (632) Ava I (300) Sma I (277) Xma I (275) Ava I (275)
Exon 4
Eco RI (6050) Ava I (6419) Xma I (6419) Sma I (6421) Eco RI (6681)
IV
Apa LI (4744)
M13
6407 bp
Exon 5
Ava I (7230) Xma I (7230) Sma I (7232)
III
Bam HI (2221)
I VI
Cla I (2529)
Exon 6
Ava I (8396)
AF274889S1
8483 bp
Tarea de la Bioinformtica
Simplificacin de Informacin
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
~20K 40K
Genes
Humano
~3K 5K
Pliegues
~10K
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Genes
C elegans
Paradigma Bioinformtico
DNA
Secuencias Genes Factores de Transcripcin Genomas
RNA
Secuencia Intrn Exn
Protena
Secuencias Genes Factores de Transcripcin Genomas
Fenotipo
Normalidad Enfermedad
Vas Metablicas
Protenas (Protemica)
Breve Historia
50s Primeras bases de datos de archivos planos 60s Protein information resource PIR: Base de datos de secuencias de protenas (http://www-nbrf.georgetown.edu) 70s Genbank, primera versin: Base de datos de secuencias gnicas (http://www.ncbi.nlm.nih.gov) 80s
90s
1993 1998
Primera base de datos genmica en internet C. elegans Craig Venter funda Celera Genomics
(http://www.sanger.ac.uk/Projects/C_elegans/)
2001 Primer borrador del genoma humano (75 al 80%): Celera y National Human Genome Research (USA)
La Carrera Genmica
1995
1997
1998
2000
2001
FEBRERO 2001:
Consorcio Pblico
Celera Genomics
BIOINFORMTICA
Genmica funcional FarmacoGenmica
Secuenciacin
masiva
Proyectos Genoma
Determinacin genoma
GenBank ha crecido en forma exponencial desde 1994 Entre 1999 y 2000 ha crecido a una tasa de 19.890.146 bases/da Dobla el nmero de secuencias cada 14 meses aproximadamente
GenBank
Genmica funcional
Anlisis estadstico
DNA-chips .
Procesado imagen Explotacin de datos
Rayos X NMR
Homologa Tcnicas estructurafuncin Modelizacin molecular
Estructura 3D
Estructura 3D
PDB
Ms de 54.000 estructuras Aumento de informacin en tasa exponencial
Secuencia DNA
Secuencia Protena
Reconocimiento Molecular
Estructura 3D
Rosalyn Franklin
COX-2
ADA
FKBP
XO
Determinacin proteoma
Teora control metablico
Metaboloma
PLASMA HUMANO
Diseo bibliotecas
Nuevos frmacos
PROCESADO DE LA INFORMACION
...CTTAGC...........CAGGC.........CCTTAACG...... ...CTTAGC...........CAGGC.........CCTTAACG ......
ATTW...PGL
CC...TWP
AGG....FVG
Flujo de informacin
Sec. Protena Secuencia Genmica cDNA...
Nueva Secuencia
Sabemos qu es? Se parece a otras?
Grados de dificultad
1. Homlogos identificables mediante alineamientos de secuencia (blast, clustal, pfam,...).
Es posible efectuar predicciones estructurales y funcionales fiables
Herramientas
Bases de datos primarias: Swissprot, EMBL, GenBank, PDB,... Comparacin y alineamiento de secuencias: Blast, PSIBlast, Clustal,... Threading: 3D-PSSM, Recopilacin de famlias estructurales: Pfam, Blocks,... Prediccin 1D: PredictProtein (PHD), Identificacin de motivos de secuencia: PROSITE, PSORT,
Derivadas
Confeccionadas a partir del procesado de los datos primarios. Ofrecen informacin adicional
Derivadas
Anotadas a posteriori Los datos son revisados, corregidos y se aade informacin bibliogrfica Ejemplo SWISS-PROT Derivadas computacionalmente Ejemplo PFAM Combinaciones especficas
Major Sequence Repositories (7) Comparative Genomics (2) Gene Expression (16) Gene Identification and Structure (23) Genetic and Physical Maps (11) Genomic Databases (33) Intermolecular Interactions (4) Metabolic Pathways and Cellular Regulation (10) Mutation Databases (35) Pathology (6) Protein Databases (42) Protein Sequence Motifs (16) Proteome Resources (5) RNA Sequences (24) Retrieval Systems and Database Structure (3) Structure (27) Transgenics (2) Varied Biomedical Content (15)
Los componentes
Nucletidos y DNA
BASES NITROGENADAS
H N H3 C N N H O H N O H
Pirimidinas
N R
N R
N R
CITOSINA
TIMINA
URACILO
H O H N N
N N
Purinas
H N H N N R N N R
GUANINA
ADENINA
LAS BASES POSEEN UNA HUELLA DACTILAR UNICA BASADA EN SU PAUTA DE PUENTES DE HIDROGENO
H N4 C4 C5 C6 N1 R
H O6 H N3 C2 O2 H N H N1 C2 N3 C6 C5 C4
N7 C8 N9 R
CITOSINA
GUANINA
ADENOSINA
Estructura DNA
En situaciones normales la estructura del DNA no es relevante en bioinformtica El reconocimiento DNA DNA se produce en base a apareamientos normales W i C. La interaccin DNA-Protena es mrito de la protena, el DNA suele adaptarse simplemente a la interaccin.
Complejo DNA-UvrB
qu informacin tenemos?
Secuencias de protena
Obtenidas directamente o por traduccin de sequencias de DNA
SWISSPROT: http://www.expasy.ch/
Estructuras tridimensionales
PROTEIN DATA BANK: http://www.rcsb.org/
Sequencias
Permiten relacionar protenes y agruparlas formando familias
RIAGHLRPQREDDVCLKRSDCRAKGGVSGFKVAILGAAGGIGQPLAMLMKMNPLV R-SAVSRSSSSNRL-LSRS--FATESVPERKVAVLGAAGGIGQPLALLMKLNPLV -----LSALARPVGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----LSALARPAGAALRRS-FSTSAQNNAKVAVLGASGGIGQPLSLLLKNSPLV -----------------------------AKVAVLGASGGIGQPLSLLLKNSPLV -----LSRVAKRAFSSTVAN--------PYKVTVLGAGGGIGQPLSLLLKLNHKV
Cristal de protena
Difraccin de Rayos X
Densidad electrnica
H 8 H 1 H 2 H 3 H 4 H 5 H 6 3 4. 1 -
H 9 3. 2 -
H 0 -
H C 4 2. 4 -
H E 2. 9
H T 3. 2 2. 9
HI 2. 8 -
Aminocidos hidrofbicos
O O NH3+
O O NH3+
O O NH3+
O
O NH3+
Ala (A)
O O NH3+ O
O
Val (V)
O
Leu (L)
Ile (I)
NH3+
O
NH3+ O
O NH2+
NH
Met (M)
Trp (W)
Phe (F)
Pro (P)
O
O O NH3+
NH3+
NH3+ NH2
O
NH2
Gly (G)
O
NH3+ OH
Asn (N)
O O HO NH3+
O
Gln (Q)
O
NH3+
OH
Ser (S)
O
Thr (T)
O NH3+ SH
Tyr (Y)
Cys (C)
O O
Aminocidos cargados
NH3+
O
O
O NH2
O NH3+ NH+
NH H2N NH2
NH3+
NH
Arg (R)
O O NH3+
Lys (K)
O O
His (H)
NH3+ O
O O
Glu (E)
Asp (D)
O NH3+ R1 O
NH3+ R2
O NH3+ R1 N H
R2 O O
O H N
R2 N H NH
O N H
R4
...
O R3 O
...
R1
Niveles de estructuracin
Estructura primaria Estructura secundaria Estructura terciaria Estructura cuaternaria
Hlice
Estructuras (paralelas)
Estructuras (antiparalelas)
Estructuras no peridicas
giros, loops
Estructuras no peridicas
giros, loops
Dominios estructurales Elementos con autonoma estructural Reconocimiento de plegamientos Prediccin de estructura 3D Estructura terciaria Estructura cuaternaria
alfa-loop-alfa
alfa-loop-alfa
alfa-loop-alfa
beta - hairpin
beta - hairpin
Greek key
Greek key
alfa - beta
Dominios
Bloques de estructura con autonoma
Estructural Plegamiento A veces funcional
Una protena puede contener uno o ms dominios, en una o ms cadenas polipeptdicas. Los dominios se aprovechan. Se espera un mximo cerca de 1000 dominios diferentes.
Agrupaciones todo
25 45
Agrupaciones todo
4 - bundles
4 - bundles
Hemoglobin a
Anexina V
Ortogonal - sandwich
jelly roll
- barrel
Porina
/ barrel
/ doubly wound
Rossman fold
qu podemos hacer?
Prediccin de plegamiento Anlisis conformacional ...
NMR
MD(water) 5 ns
Reconocimiento molecular
Complementariedad estructural
Ocultacin de superficies hidrofbicas Pares inicos Mantenimiento de puentes de hidrgeno
Reconocimiento molecular.
Energa de interaccin
Efecto hidrofbico.
Relacionado con la entropa del agua
qu podemos hacer?
Prediccin de reactividad Docking Prediccin de modos de reconocimiento ...
DOCKING
Wat Wat
COX-2 Celecoxib
Reconocimiento de frmacos
Sequencia DNA
Sequencia Protena
Reconocimiento Molecular
Estructura 3D
Notas de prudencia
Los mtodos de prediccin no son infalibles y no es siempre posible calibrar su fiabilidad No se puede predecir aquello que no se conoce Las bases de datos pueden contener informacin errnea Se debe evitar la sobrevaloracin de resultados