FACULTAD DE INGENIERA
SECRETARA DE INVESTIGACIN Y POSGRADO
TESIS
META HEURISTCAS PARA EL PROBLEMA DE PLEGAMIENTO DE
PROTENAS
Presenta:
Emmanuel Acosta De Len
Director de Tesis
Dr. Luis Carlos Gonzlez Gurrola
_________________
_________________
_________________
RESUMEN
META
HEURISTICAS
PARA
EL
PROBLEMA
DE
PLEGAMIENTO
DE
PROTEINAS
Por:
Emmanuel Acosta De Len
Secretara de Investigacin y Posgrado
Facultad de Ingeniera
Universidad Autnoma de Chihuahua
Presidente: Luis Carlos Gonzlez Gurrola
La presente investigacin presenta como objetivo principal encontrar solucin al
problema de plegamiento de las protenas conocido tambin como PFP haciendo
uso de tres meta heursticas distintas siendo estas un algoritmo gentico,
bsqueda por vecindarios variable VNS y bsqueda tab siendo adaptadas al PFP
usando el modelo Hidrofbico-Polar o HP en dos y en tres dimensiones. Para el
conjunto de pruebas se hizo uso de cadenas de entrada de los aminocidos de las
protenas en las cuales ya se ha obtenido el mayor nmero de contactos
topolgicos no covalentes que se encuentran en la literatura los cuales son usados
para encontrar la eficiencia mxima encontrada con cada uno de dichas meta
heursticas de bsqueda aqu propuestas y los resultados se encuentran en un
porcentaje que se pondera con la media de la eficiencia en cada caso de prueba
individual.
ABSTRACT
By: Emmanuel Acosta De Len
TABLA DE CONTENIDOS
RESUMEN ......................................................................................................................................... 3
ABSTRACT ....................................................................................................................................... 4
CAPITULO I INTRODUCCIN ..................................................................................................... 8
1.1 Antecedentes. ........................................................................................................................................ 8
1.2 Problema de Investigacin. .................................................................................................................... 8
1.3 Pregunta de Investigacin. ..................................................................................................................... 8
1.4 Objetivo general. ................................................................................................................................... 9
1.4.1 Objetivos especficos ........................................................................................................................... 9
1.5 Justificacin ........................................................................................................................................... 9
1.6 Aportacin practica ................................................................................................................................ 9
1.7 Objeto de estudio ................................................................................................................................ 10
1.8 Idea a defender .................................................................................................................................... 10
1.9 Hiptesis .............................................................................................................................................. 10
Operadores ................................................................................................................................................ 19
Tipos de operadores. ................................................................................................................................. 19
Mutacin ................................................................................................................................................... 20
Evaluacin de los resultados. ..................................................................................................................... 22
MULTIOBJETIVO ........................................................................................................................ 23
ALGORITMO GENTICO ........................................................................................................... 26
Introduccin. ............................................................................................................................................. 26
Mtodo. ..................................................................................................................................................... 26
Inicializacin del algoritmo gentico. ......................................................................................................... 27
Seleccin .................................................................................................................................................... 27
Operadores genticos. ............................................................................................................................... 28
Tcnicas de cruzamiento. ........................................................................................................................... 28
Mutacin PFP............................................................................................................................................. 28
Aplicacin de algoritmo gentico en PFP. .................................................................................................. 29
Inicializacin del AG para PFP .................................................................................................................... 29
Seleccin AG-PFP ....................................................................................................................................... 29
Cruzamiento AG-PFP .................................................................................................................................. 29
Detalle para la unin de dos soluciones ..................................................................................................... 30
Mutacin AG-PFP ....................................................................................................................................... 34
INDICE DE FIGURAS................................................................................................................... 56
BIBLIOGRAFA ............................................................................................................................ 57
CAPITULO I
INTRODUCCIN
1.1 Antecedentes.
El problema de plegamiento de protenas o PFP ha sido un problema
multidisciplinario que lleva siendo estudiado ms de cincuenta aos (Dill &
MacCallum, The Protein-Folding Problem, 50 Years On, 2012) Actualmente la
pregunta de mayor relevancia se define como: Es capaz un algoritmo
computacional encontrar y predecir como una protena se plegara? Hoy en da
gracias a los amplios bancos de prueba se puede tener un conjunto de casos de
prueba suficientes para llevar a cabo esta investigacin.
1.5 Justificacin
El plegamiento de protenas.
1.8 Idea a defender
10
CAPITULO II
MARCO TERICO
2.1 El problema de plegamiento de protenas.
11
2.2 El modelo HP
Propuesto por Dill (Dill, Theory for the folding and stability of globular proteins,
1985)es un modelo sumamente simplificado para examinar el plegamiento de las
protenas en el espacio, este modelo se dicta a partir de las observaciones de las
interacciones hidrofbicas entre los aminocidos, mismas interacciones que forzan
a la protena a su estado nativo. Todos los aminocidos se pueden clasificar como
hidrofbicos o polares y la secuencia del plegamiento de la protena se define
como como una caminata autoevitante en un plano en dos o tres dimensiones. El
modelo HP imita el efecto hidrofbico asignando un peso negativo (favorable) a
interacciones entre residuos hidrofbicos no covalentes. Protenas que tienen una
energa, la ponderacin, mnima se consideran estar en su estado nativo.
El modelo HP se puede expresar en 2D o en 3D en un plano de vrtices
cuadradas y aunque este abstrado hasta este punto es aun as un problema NPdificil (Crescenzi, 1998) por lo que es necesario aplicar una meta heurstica de
bsqueda.
12
13
Por si misma, la bsqueda local es una meta heurstica para solucionar problemas
de optimizacin difciles. La bsqueda local es usada en problemas que puedan
ser formuladas para una solucin que maximiza (o minimiza) un criterio entre
cierto nmero de soluciones candidatas. Los algoritmos de bsqueda local se
mueven de una solucin a otra en el espacio de soluciones candidatas, tambin
llamado nicamente espacio de soluciones, aplicando movimientos o cambios
locales hasta que se encuentra un ptimo adecuado o ha pasado cierto lapso de
tiempo.
Variantes VNS
Existen extensiones o variantes del VNS en las que se presentan alteraciones que
cambian la manera de cmo se exploran las soluciones.
1. Variable Neighborhood Descent (VND). Es un mtodo que se obtiene si
apartir del VNS se hace un cambio determinista de vecindarios y no cuando
se cumpla la condicin de optimalidad que presenta el VNS.
2. VNS Reducido. Es un mtodo obtenido cuando se seleccionan varios
puntos de () y no se hace ningn descenso, en lugar de eso los puntos
nuevos se comparan con los actuales y se actualizan en los que haya una
mejora. Para la condicin de paro de esta variante se tiene una variable
que es el tiempo del CPU que toma entre iteraciones y entre dos
mejoras de soluciones.
3. Skewed VNS (VNS sesgado). Explora soluciones muy lejanas en el espacio
actual, una vez que una solucin en esa regin ha sido encontrada es
16
VNS paralelo
VNS Primal-Dual
Operadores
Los operadores consisten en una serie de movimientos tirar o pull movements
(N.Lesh, M. Mitzenmacher, 2003) que generan pequeos cambios en una solucin
sin alterar su integridad.
Orilla
Esquina
Mltiple
entonces
puede
bajar
90
para
la
derecha
la
izquierda
respectivamente.
como no tan buena considerando que hay una serie de elementos sin contactos
topolgicos no covalentes.
Para generar una mutacin en una solucin es necesario evaluarla como en la
figura N en donde haya elementos hidrofbicos con contacto topolgico con otros
se les asigna a estos elementos un valor de 1 y 0.5 para los elementos contiguos
a este sin importar si son hidrofbicos o polares.
Los indicadores muestran que es deseable hacer una mutacin en las reas en
donde hay elementos hidrofbicos sin contactos topolgicos no covalentes. La
mutacin solo se hace en una de estas reas a la vez, cuando haya dos o ms
reas se cuenta el total de elementos y se obtiene para cada parte una
probabilidad equivalente. Es decir, en el ejemplo de la imagen hay nueve
elementos en la parte ms grande y tres en la parte pequea, por lo tanto hay un
75% de probabilidad de que la mutacin se haga en la parte grande y un 25% de
que lo haga en la pequea. Ver figura 5.
21
22
Multiobjetivo
23
24
Lo que dicta que para dos contactos en donde la diferencia de sus posiciones es
menor o igual a ocasiona que se active una funcin multiobjetivo, de lo contrario
la otra lo har.
Es importante destacar que las funciones multiobjetivo son una descomposicin
de una funcin de objetivo nico, as que la sumatoria de las funciones
multiobjetivo de uno solo de los enfoques (subconjuntos, paridad, localidad) da
como resultado la funcin original de evaluacin propuesta en el modelo HP. La
principal funcin es crear frentes de Pareto, es decir, encontrar un conjunto de
soluciones que entre ellas no sean unas mejores que otras pero que sean
soluciones con una conformacin distinta y un valor diferente por cada sub funcin
de evaluacin tambin llamadas conjunto de soluciones no dominadas, es decir
que para una solucin domine a una solucin entonces para cada valor que
conforma la solucin debe ser menor o igual a los de la solucin pero al menos
un valor de debe ser menor al de y esto puede verse en la siguiente notacin.
25
ALGORITMO GENTICO
Introduccin.
Operadores genticos.
Cruzamiento de un solo punto: Un punto nico se elige entre las dos cadenas que
representan los padres, todos los datos de un punto antes de un padre y del otro
despus se unen para formar al nico hijo.
Cruzamiento multipunto: Dos puntos son elegidos entre las cadenas del padre y
del hijo, se intercambian las sub cadenas generadas de la forma que se forman
dos hijos por cada dos padres.
Mutacin PFP.
Para evitar la convergencia prematura, es decir que todos los individuos de una
generacin presenten las mismas caractersticas se introduce la mutacin
estocstica, esta es que con cierta probabilidad una solucin puede ser
reconstruida o mutada para introducir estos nuevos miembros a la generacin.
28
Dado que las soluciones para el PFP utilizando el modelo HP ya sea en dos o tres
dimensiones por su naturaleza son elementos que no necesitan ser representados
de otra manera pues presentan tanto como cromosomas y una aptitud que es el
total de contactos topolgicos no covalentes por lo tanto la poblacin se genera de
forma aleatoria utilizando la tcnica mencionada en la seccin de VNS para PFP.
No se utilizan tcnicas para mejorar la media de la aptitud de la poblacin, como
sera elegir la mejor de cada cien u otras tcnicas mostradas en las secciones
anteriores. El nmero de pobladores ser de cien por generacin mantenindose
fijo.
Seleccin AG-PFP
En dos dimensiones:
Sea Mitad Padre 1 la solucin parcial generada a partir de cortar en el punto P la
solucin Padre 1 y Mitad Padre 2 la solucin parcial de Padre 2 con el mismo
procedimiento. Mitad Padre 1 quedara fijo con los puntos en el espacio que tiene
originalmente mientras de Mitad Padre 2 ser la estructura que este cambiando
para encontrar la forma de unirla.
Para unirla hasta cuatro opciones (una siempre infactible) antes de aplicar una
alteracin siendo estas opciones los lugares que estn disponibles en el ltimo
elemento de Mitad Padre 1 como se muestra en la figura 6.
Y el procedimiento es el siguiente:
30
31
Se genera un punto P y se hacen los cortes para generar Mitad Padre 1 y Mitad
Padre 2, P = 11
En este punto es necesario unir las dos soluciones, Mitad Padre 2 intentara unirse
en el ltimo punto de Mitad Padre 2 en +X, -X, +Y y Y, si no lo logra rotara o
girara en espejo y rotara y lo intentara de nuevo. Si no entonces un nuevo corte P.
En este caso Mitad Padre 2 tuvo que girar solo dos veces para encontrar una
solucin factible.
32
En tres dimensiones.
Las similitudes entre el cruzamiento de soluciones en dos y tres dimensiones son
muchas. Los nicos cambios para tres dimensiones son los siguientes:
Ahora las mitades de las soluciones se pueden unir en dos puntos ms que
son +Z y Z
33
Mutacin AG-PFP
Por cada individuo por cada generacin se tiene una probabilidad de mutacin de
0.3% para evitar la convergencia prematura. Al finalizar cada generacin se realiza
este procedimiento y consiste en reconstruir una solucin que haya sido
seleccionada con esa probabilidad. La reconstruccin de la solucin ayuda a crear
diversidad en la poblacin de tal manera que nuevos genes son introducidos.
34
Introduccin.
El termino bsqueda tab o tab search fue introducido en 1989 por Fred Glover
en el mismo artculo en el cual acuo el termino metaheurstica. Los principios
fundamentales de la bsqueda fueron elaborados en una serie de artculos de
finales de los aos ochenta y principios de los noventa, que fueron luego
unificados en el libro Tab Search de 1997. El destacado existo de la bsqueda
tab para resolver problemas de optimizacin duros, especialmente aquellos que
surgen en aplicaciones del mundo real, ha causado una explosin de nuevas
aplicaciones durante los ltimos aos.
La bsqueda tab es en si una meta heurstica que gua un procedimiento
heurstico de bsqueda local en la bsqueda de optimalidad local. Su filosofa se
basa en derivar y explotar una coleccin de estrategias inteligentes de resolucin
de problemas basadas en procedimientos implcitos y explcitos de aprendizaje
como se revisara ms delante.
Desarrollo Histrico.
Tipos de memoria
La memoria a corto plazo por s solo puede ser suficiente para lograr la solucin
superior a los encontrados por los mtodos convencionales de bsqueda locales,
pero a medio y largo plazo las estructuras son a menudo necesarios para resolver
los problemas ms difciles. La bsqueda tab es a menudo como punto de
referencia frente a otros mtodos de meta heursticas. Tal como recocido
simulado, algoritmos genticos, algoritmos de optimizacin de colonias de
hormigas, optimizacin de bsqueda reactiva, Gua de Bsqueda local. Adems,
38
Intensificacin y Diversificacin
Las estrategias de intensificacin y diversificacin constituyen dos elementos
altamente importantes en un proceso de bsqueda tab. Las estrategias de
intensificacin se basan en la modificacin de reglas de seleccin para favorecer
la eleccin de buenas combinaciones de movimientos y caractersticas de
soluciones encontradas. Esto implica que es necesario identificar un conjunto de
soluciones elite cuyos buenos atributos puedan ser incorporados a nuevas
soluciones creadas. La perteneca al conjunto de soluciones elite se determina
generalmente atendiendo a los valores de la funcin objetivo comparados con la
mejor solucin obtenida hasta el momento.
Aplicacin en el PFP
La aplicacin de la bsqueda tab en el PFP en un formato grfico se realiza de la
siguiente manera:
1. Iniciar con una solucin aleatoria, puede ser una solucin que siga una
lnea recta pudiendo ser horizontal o vertical.
2. Se realiza el primer doblez que consiste en iterar por cada punto y elegir de
manera aleatoria si se realiza un doblez en las direcciones en las que sea
posible hacerlo.
39
Figura 11 Representacin de los movimientos que genera la bsqueda tab en una solucin (Imagen propia)
40
CAPITULO III
MATERIALES Y MTODOS
En esta seccin se describen los materiales que se utilizaron para llevar a cabo y
dar solucin a los objetivos por medio de actividades que desembocan en una
meta.
3.1 Objetivo especfico 1: Investigar el estado del arte para la solucin al PFP
Objetivo
Investigar el estado del
arte para la solucin al
PFP
Actividades
Herramientas
Bsqueda en revistas de
divulgacin cientfica
artculos relacionados con Revistas de divulgacin
el PFP
cientfica.
Analizar mtodos para su Bases de datos.
solucin encontrados en
Acceso a bases de datos
dichos artculos.
desde exclusivas desde
Definir y acotar el alcance redes escolares.
de la investigacin.
Meta
Obtener un texto
sintentizado de resultados
actuales para el
tratamiento del PFP con
tablas de salidas.
Objetivo
Adaptar un algoritmo
gentico y bsqueda tab
para el PFP en dos y tres
dimensiones y Bsqueda
por vecindarios variable en
dos dimensiones exclusivo.
Actividades
Investigar la definicin de
cada meta heurstica.
Definir una representacin
del PFP adecuada a cada
meta heurstica.
Crear los operadores
necesarios para la directa
aplicacin de cada
metaheurstica.
Herramientas
Meta
42
Objetivo
Crear un conjunto de
datos de prueba para
la evaluacin del
rendimiento de las
tcnicas de bsqueda.
Actividades
Herramientas
Meta
Obtener las tablas de
resultados propia para
comprobar que tan
eficientes fueron las
pruebas y los
algoritmos.
43
CAPITULO IV
RESULTADOS
La literatura actual ofrece un conjunto de datos de prueba que se han recopilado
entre varios autores y de forma informal han venido siendo los casos clsicos
tanto para dos y tres dimensiones. Aqu se presenta la lista con identificador del
conjunto de pruebas, as como los ptimos que se han encontrado en la
actualidad.
a. El estado del arte del tratamiento al problema PFP
E*
2d1
18
-4
2d2
18
-8
2d3
18
-9
2d4
20
-9
2d5
20
-10
2d6
24
-9
2d7
25
-8
2d8
36
-14
2d9
48
-23
2d10
50
-21
2d11
60
-36
2d12
64
-42
2d13
85
-53
2d14
100
-48
2d15
100
-50
44
Para 3D
Secuencia
E*
3d1
20
-11
3d2
24
-13
3d3
25
-9
3d4
36
-18
3d5
46
-32
3d6
48
-31
3d7
50
-32
3d8
58
-44
3d9
60
-52
3d10
64
-55
3d11
67
-56
3d12
88
-72
3d13
103
-56
3d14
124
-71
3d15
136
-80
Salida:
Entrada:
Cadena de
entrada en texto
plano
Conversion a
coordenadas
mapa cartesiano
para
tratamiento por
la aplicacion
45
Mximo numero de
contactos topologicos
no covalentes (carga
negativa) y los puntos
del plano cartesiano
para formar la
estructura
46
Mtodo el cual recibe una lista con coordenadas, que puede ser un camino vaco
(una lista nueva) o uno que ya contenga ciertas coordenadas y de ah contine
generndolo de manera aleatoria. Esto es especialmente til para cuando se
desee generar una mutacin parcial de una solucin. Devuelve un camino
aleatorio o parcialmente aleatorio.
El catlogo de mtodos para el algoritmo gentico en tres dimensiones es el
siguiente y contiene los procedimientos esenciales que el mismo algoritmo implica
siendo los crticos la generacin de poblacin inicial, la seleccin y el cruzamiento
:
47
Para la bsqueda tab se obtienen unos mtodos con nombre igual pues la
bsqueda tab excepto que no hace uso de los mtodos de generar poblacin,
seleccin ni cruzamiento puesto que no existe la necesidad, pero si que hace uso
del mtodo cruzar que toma dos soluciones y con caractersticas de las dos
(descrito en la seccin del algoritmo gentico) forma soluciones y de esta manera
obtennos soluciones tab que son las que empeoran la solucin y bsquedas
aceptadas para poder llenar la memoria.
48
49
Esta seccin muestra los resultados que se obtuvieron con la aplicacin de estas
tres meta heursticas de forma tabular. Para 2D:
Secuencia
E*
AG
VNS
Tabu2D
Pre-NSGA-II
2d1
18
-4
-4
-2
-4
-4
2d2
18
-8
-8
-6
-8
-8
2d3
18
-9
-9
-6
-9
-9
2d4
20
-9
-9
-6
-9
-9
2d5
20
-10
-10
-4
-10
-10
2d6
24
-9
-9
-5
-9
-9
2d7
25
-8
-8
-3
-8
-8
2d8
36
-14
-14
-7
-12
-14
2d9
48
-23
-20
-11
-17
-21
2d10
50
-21
-17
-13
-15
17
2d11
60
-36
-31
-22
-25
-32
2d12
64
-42
-29
-19
-26
-30
2d13
85
-53
-42
-32
-38
-45
2d14
100
-48
-38
-24
-34
-40
2d15
100
-50
-40
-22
-33
-41
90.74%
54.06%
80.79%
92.17%
Tabla de resultados 2D
50
Para 3D:
Secuencia
E*
AG3D
Tabu3D
3d1
20
-11
-11
-11
3d2
24
-13
-13
-13
3d3
25
-9
-9
-9
3d4
36
-18
-18
-18
3d5
46
-32
-32
-32
3d6
48
-31
-31
-31
3d7
50
-32
-30
-29
3d8
58
-44
-35
-34
3d9
60
-52
-47
-45
3d10
64
-55
-48
-48
3d11
67
-56
-41
-40
3d12
88
-72
-48
-46
3d13
103
-56
-41
-40
3d14
124
-71
-51
-49
3d15
136
-80
-52
-50
86.72 %
81.14%
Tabla de resultados 3D
de
bsqueda
que
utiliza
no
son
los
adecuados
para
la
52
CAPITULO V
CONCLUSIONES Y TRABAJO FUTURO
5.1 Conclusiones para AG-PFP
que muchas veces la solucin se quedaba en un valle y jams pudo salir de ah,
de ah los resultados pobres mostrados por este algoritmo. Tambin se destaca
que es la primera vez que se utiliza en este problema ya que al menos para la
fecha de creacin de esta investigacin no se encontr evidencia de que haya sido
anteriormente aplicado.
5.3 Conclusiones para la bsqueda tab.
Queda aun sin establecerse las razones de por qu el VNS sigue siendo un
decadente rival contra los otros mtodos, adems de esto quedan pendientes
ciertos puntos a analizar:
54
55
INDICE DE FIGURAS
56
BIBLIOGRAFA
57