Modelos Ocultos de Markov para la creaci´on de perfiles en familias de secuencias Pablo Mois´es Lucero Otorongo T´ecnicas Inteligentes en Bioinform´ ati Universidad de Sevilla
21 de junio de 2017
1.
Introducci´ on
Entender el comportamiento de las c´elulas y organismos a llevado al ser humano a desarrollar diversos m´etodos y t´ecnicas para descubrir el conocimiento que estas albergan. De esta forma se puede realizar un estudio de la estructura de los ser vivos y de sus procesos vitales, el campo que estudio todos estos procesos se le conoce como Biolog´ıa. Por otra parte, con la aparici´on del calculo computacional nuevas ´areas han ido emergiendo, como la bio-inform´ atica, donde tareas como guardar, ordenar y clasificar inmensas secuencias de datos (amino´acidos o prote´ınas) est´an al orden del d´ıa. Por lo tanto, el uso de algoritmos de programaci´on y modelos, ya sean deterministas o probabil´ısticos, contemplan las bases de esta campo. Uno de los problemas que se presentan en el modelado de datos, sobre todo al modelar familias de secuencias, es la contemplaci´on de todos detalles presentes en esta, como la aparici´ on de huecos (en ingles gaps). Muchos algoritmos de alineamiento de secuencias contemplan estos huecos como una penalizaci´on que se debe agregar al crear su matriz de puntuaciones, pero no disponen de una interpretaci´ on mas profunda de los mismos, por lo cual sus modelos se vuelven d´ebiles al no tener una base probabilista fuerte. Para solucionar este inconveniente se dio paso al uso de los Modelos Ocultos de Markov (Hidden Models Markov, HMM), los cuales en sus inicios fueron implementados para el reconocimiento del habla. De esta forma se promovi´o una estructura general para el an´ alisis estad´ıstico en la generaci´on y alineaci´on de secuencias [1] [2]. A lo largo de este documento se da a conocer nociones b´asicas de biolog´ıa sobre secuenciaci´ on, tipos de alineamiento de secuencias (pares o m´ ultiples) y perfiles. Siendo el ultimo el apartado en el cual se da a conocer el uso de HMM para la creacion de perfiles.
1
2.
Fundamentos b´ asicos de biolog´ıa
El ´ acido desoxiribonucleico ( ADN) esta formado por dos cadenas de nucleotido, permite controlar el metabolismo del ser vivo y es el encargado de la transmisi´ on hereditaria mediante un almacenamiento a largo plazo de la informaci´ on. Los nucle´ otidos que forman el ADN son: la Adenina (A), Timina (T), Guanina (G) y Citosina (C). Mismos que solo pueden unirse a su respectivo complementario, es decir, la Adenina se une solo con la Timina y la Guanina a la Citosina. Las secuencias formadas por estos nucle´otidos se le conoce como c´ odigo gen´etico [3]. Este c´ odigo va cambiando para cada generaci´on manteniendo algunos nucle´ otidos. Entre su estructura encontramos: Primaria: Se representa como una secuencia (c´odigo) de nucle´otidos encadenados. Dicho c´ odigo representa la informaci´on gen´etica, en funci´on de la distribuci´ on de los nucle´otidos. Secundaria: En este modelo se propone la formaci´on del ADN mediante dos hebras de nucle´ otidos complementarias entre cada una. Esta estructura de doble h´elice permite explicar la forma de almacenamiento de la informaci´ on gen´etica y la de duplicaci´on de la misma. Terciaria: Explica el forma almacenamiento del ADN para crear los cromosomas. Esta estructura esta retorcida en si misma formando una superhelice. Cuaternaria: Hace referencia a un nivel de organizaci´on mas elevado de los acidos nucle´ ´ otidos. Representa una interacci´on ente ´acidos y otras mol´eculas. Por otra parte tenemos el ´ acido ribonucleico ARN que a diferencia del ADN esta compuesto por una hebra y con nucle´otidos son diferentes a del ADN; Adenina (A), Uracila (U), Citosina (C) y Guanina (G). Este ARN es una mol´ecula intermediaria que se encarga de convertir la informaci´on del ADN en secuencias de amino´ acidos en las prote´ınas [3]. Dentro del ARN encontramos los siguientes tipos: ARN ribosomatico: Dispone de una estructurara de doble h´elice y esta asociado a prote´ınas para formar los ribosomas. ARN de transferencia: Transporta loa amino´acidos hasta las ribosomas para que sean sintetizados en prote´ınas ARN mensajero: Es el que se transformara en prote´ına, la cual esta compuesta de una secuencia de amino´acidos los cuales se ubicaran en funci´ on del orden que se indique en el mensaje, tomando como referencia los codenes de inicio y fin. Las funciones de las prote´ınas se encuentran especificadas por la informaci´ on codificada en los genes, por mencionar algunas puede ser: capitalizaci´on de 2
reacciones metab´ olicas, replicar del ADN. Dichas funciones depender´a fuertemente de la estructura y la secuencia de amino´acidos que disponga una prote´ına.
3.
Alineamiento de secuencias
Si tenemos dos secuencias de amino´acidos, se debe poder calcular la posibilidad de que ambas desciendan de otra en com´ un (ancestro), por alg´ un proceso de mutaci´ on o selecci´ on. Por esta raz´on se desarrollaron los alineamientos de secuencias, los cuales permiten saber si un grupo de secuencias se relacionan entre si, dentro de estas tenemos los alineamientos por pares y m´ ultiples.
3.1.
Alineamiento por pares
El alineamiento de secuencia sirve para comparar si dos secuencias est´an relacionadas, en la figura (1) se puede observar dos secuencias en un formato de texto donde las columnas alineadas pueden contener caracteres id´enticos o similares, la fila central de cada alineamiento indica posiciones id´enticos con letras y similares con el signo mas (+)[1].
Figura 1: (a) Una similitud clara con la beta globina humana. (b) Alineaci´on estructuralmente plausible de la leogemoglobina del altramuz amarillo. (c) Alineamiento altamente falso para un nematodo hom´ologo glutati´on S-transferasa denominado F11G11.2. En la figura (1. a) se puede observar 18 coincidencias entre las dos secuencias que son de la misa familia. De la figura (1. b) se sabe que est´an relacionados estructuralmente (3D), pero para este caso hay un menor numero de coincidencias y en algunos lugares se han insertado espacio vac´ıos para mantener la alineaci´on entre regiones donde la lehemoglobina tiene residuos adicionales. Para la figura (1. c) muestra un numero igual de coincidencias, sin embargo este alineamiento es falso dado que la estructura y funci´on de esta prote´ına es completamente diferente.
3
3.2.
Alineamiento m´ ultiple
El Alineamiento M´ ultiple de Secuencias (AMS) busca alinear dos o mas secuencias para as´ı encontrar la mejor coincidencia entre ellas. Existen varios m´etodos para realizar este alineamiento; uno de ellos es la programaci´ on din´ amica la cual buscar´ a, de forma global, el alineamiento optimo, esto lleva a un coste computacional elevado, dado que conforme se agregue mas secuencias el coste aumentar´ a de forma global, convirti´endose as´ı en un problema NP-Completo. Por lo cual, el uso de algoritmos heur´ısticos se a vuelto popular, permitiendo simplificar el problema[1]. Estos alineamientos tiene dos par´ametros importante: la penalizaci´on y una matriz de sustituci´ on; para el primero se realiza una penalizaci´on en funci´on de los huecos que se agreguen y para el segundo se crea una matriz con puntuaciones o probabilidades del alineamiento de cada par de secuencia. Entre los tipos de alineamientos m´ ultiples tenemos: Progresivos: Este m´etodo busca alinear pares de secuencias de forma progresiva. Para lo cual inicia realizando un alineamiento entre pares de secuencias mas similares. Para realizar el alineamiento m´ ultiple, se crea un arbol gu´ıa el cual se encarga de indicar el orden en el cual se deben ir ´ agregando los pares de secuencia[4]. Iterativo: Su forma de trabajar es similar a los m´etodos progresivos, con la diferencia de que estos realizan una re-evaluaci´on de los alineamiento producidos anteriormente[5].
3.3.
Perfiles
Antes de definir lo que es un perfil, primero debemos conocer el significado para motivos y dominio; el primero son peque˜ nas zonas con amino´acidos bastante conservadas (ordenadas) que suelen representar ciertas funciones de las prote´ınas como: sitios de uni´ on de ligamentos, centros activos etc; y el segundo puede ser una regi´ on mas grande pero con una menor similitud, suele corresponder con el n´ ucleo de un dominio estructural siendo esta la zona mas similar entre las prote´ınas de una familia. Por lo tanto determinar motivos y dominios, (v´ease la figura (2)), en una prote´ına permitir´ıa definir funciones y estructuras de la misma.
4
Figura 2: Ejemplo de motivos en un alineamiento m´ ultiple (tomado de sequlator.com) .
Ahora, en base a lo mencionado en el p´arrafo anterior podemos decir que un perfil es la descripci´ on cualitativa o cuantitativa de un dominio. Este puede ser una tabla que indique las probabilidades de los amino´acidos o una una matriz de puntuaci´ on espec´ıfica para cada posici´on (en ingles Position Specific Scoring Matrix, PSSM). Para construir esta matriz se necesita tener en cuenta; (i) el alineamiento m´ ultiple, (las frecuencia de los amino´acidos) y sus propiedades f´ısico-qu´ımicas. Un ejemplo sencillo se observa en la figura (3).
5
AATAGTCGC GGTAGTCTA ATTAGTCGA GCTAGTCGG
A: T: G: C:
0.5 0 0.5 0
0.25 0.25 0.25 0.25
0 1 0 0
1 0 0 0
0 0 1 0
0 1 0 0
0 0 0 1
0 0.25 0.75 0
0.5 0 0.25 0.25
Figura 3: Creaci´on de un perfil .
Ahora si tenemos una nueva secuencia y queremos calcular si tiene un motivo concreto debemos asignar puntuaciones cada letra de la secuencia, ejemplo: AT GAGT CGA = 0,5 + 0,25 + 0 + 1 + 1 + 1 + 1 + 0,75 + 0,5 = 6 entre mas alta sea la puntuaci´ on mayor sera la probabilidad de que la secuencia dada contenga el motivo o dominio determinado. HHMM Profile: Los perfiles son utilizados para modelar dominios de prote´ınas y familias de secuencias de ADN mediante alineaciones de secuencias m´ ultiples.
3.3.1.
Matrices de puntuaci´ on
Las matriz de puntuaci´ on o tambi´en llamada matriz de sustituci´on, describe, como un car´ acter en una secuencia cambia a otro en fusi´on del tiempo. Entre las mas populares encontramos la PAM y la BLOSUM, mismas que se presentan a continuaci´ on: Point Accepted Mutation (PAM) PAM cuya traducci´on en espa˜ nol seria Mutaci´ on Puntual Aceptada, es una matriz u ´til al trabajar con alineamientos en escalas de tiempo cercanos. Observa prote´ınas cercanamente relacionadas con un 85 % de similitud. Existen diferentes versiones de esta matriz por ejemplo PAM1 y PAMx, el primero hace referencia a que el 1 % de los amino´ acidos han cambiado y el segundo hace referencia a x sustituciones por cada 100 amino´acidos. Entre las matrices mas comunes encontramos PAM30 y PAM70[6]. BLocks SUbstitution Matrix (BLOSUM) BLOSUM muy utilizada para alineamientos entre secuencias que han cambiado en tiempos relativamente largos mediante la utilizaci´on de alineamientos locales [7], esta matriz implementa un sistema de puntuaci´on log-odds radio (radio de ocurrencia de combinaci´ on de amino´acidos).
6
4.
Perfiles tipo Modelo Oculto de Markov
Los Modelos Ocultos de Markov (en ingles Hidden Models Markov (HMM)) en sus inicios fueron desarrollados para tareas de reconocimiento de voz, detr´as de estos existe una base probabil´ıstica fuerte que permitido su popularidad de uso en ese campo. La base probabil´ıstica de los perfiles vistos anteriormente es d´ebil por lo cual la creaci´ on de un nuevo perfil tipo HMM dar´a una una base m´as solida y compleja al modelado de familias de prote´ınas.
4.1.
Construcci´ on de perfiles HMM (pHMM)
Para construir un perfil tipo HMM se debe modelar tres aspectos de los alineamientos y cada aspecto representa un posible estado para cada posici´on de la secuencia: Coincidencia Inserci´ on Supresi´ on Donde la inserci´ on y supresi´on permiten hacer frente a los espacio vac´ıos. En la figura (4) se pueden observar la representaci´on de cada estado en las secuencias del alineamiento m´ ultiple[8].
Figura 4: Estados de una secuencia.
4.1.1.
Modelar coincidencia
Una regi´ on puede ser modelado mediante una sucesi´on de estados de coincidencia; es decir creamos una estructura repetitiva de estados pero con diferentes probabilidades en cada posici´on. De esta forma se obtiene un modelo probabil´ıstico completo para secuencias en una familia. De forma trivial podemos decir que las PSSMs puede ser vistos como HMMs. En la figura (5) se puede observar un perfil-HMM donde el INICIO y FIN del modelo pueden ser modelados con estados ficticios. 7
Figura 5: Estructura de transici´on de un modelo de coincidencia 4.1.2.
Modelar inserciones
Las inserciones son partes de una secuencia que no coinciden con nada el modelo, como se vio en la figura (4), para esto se debe introducir nuevos estados los cuales son representados con un diamante, como se muestra en la figura (6). Estos estados son a˜ nadidos despu´es de cada estado de coincidencia donde cada uno de ellos tiene una auto-transici´on para tener en cuenta las inserciones de secuencias de residuos.
Figura 6: Estructura de transici´on de un modelo inserci´on
4.1.3.
Modelar supresiones
Una supresi´ on hace referencia a un fragmento de una secuencia que se salta el alineamiento. Dado que estos estados no tienen residuos son considerados estados silenciosos pueden ”saltar”de una estado de coincidencia a otro posterior. Su modelado se observa en la figura (7) y son representados con circulo.
Figura 7: Estructura de transici´on de un modelo de supresi´on
4.1.4.
Modelo completo
La estructura del modelo completo se lo observa en la figura 8, que como se puede ver dispone de estados de coincidencia, inserci´on y supresi´on.
8
Figura 8: Estructura de transici´on de un perfil HMM completo. Un perfil HMM para un alineamiento m´ ultiple de secuencias es presentado en la figura (9), se puede observar el numero de columnas utilizado para modelar dicho alineamiento y los caminos que siguen cada secuencia.
Figura 9: Perfil HMM de un fragmento de alineamiento m´ ultiple de secuencias. Por otra parte dado que el modelo completo tiene estos tres estados ahora se debe decir la longitud que tendr´a el perfil y probabilidades de transici´on. Para la definir la longitud del modelo se lo puede realizar de forma heur´ıstica; si los mitad o mas de los elementos en una columna son vac´ıos, la posicion como tal no es considerada un estado de coincidencia. Para la estimaci´ on de los par´ametros del modelo (las probabilidades de emisi´ on y transici´ on) seria suficiente realizar un conteo de las transiciones entre estados y las emisiones de s´ımbolos por cada estado.
9
5.
Conclusiones
Se ha dado a concocer una nocion basica b´asicas de biolog´ıa, seguida de los diferentes tipos de alineamientos, la creaci´on de perfiles para posteriormente centrarse en el estudio del modelado de perfiles usando HMMs; donde se conoci´o su estructura y configuraci´ on de par´ametros Los HMMS se ha vuelto una herramienta fuerte para el modelado de prote´ınas, tanto as´ı que puede ser usado para el modelado de ADN y ARN. Esto debido a que los perfiles HMM han permitido modelar mejor las familias de prote´ınas y ha permitido la detecci´on de de miembros potenciales en una familia.
Referencias [1] Richard Durbin, Sean R Eddy, Anders Krogh, and Graeme Mitchison. Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge university press, 1998. [2] Anders Krogh, Michael Brown, I Saira Mian, Kimmen Sj¨olander, and David Haussler. Hidden markov models in computational biology: Applications to protein modeling. Journal of molecular biology, 235(5):1501–1531, 1994. [3] Martin Egli and Wolfram Saenger. Principles of nucleic acid structure. Springer Science & Business Media, 2013. [4] Da-Fei Feng and Russell F Doolittle. Progressive sequence alignment as a prerequisitetto correct phylogenetic trees. Journal of molecular evolution, 25(4):351–360, 1987. [5] Martin Gollery. Bioinformatics: Sequence and genome analysis, david w. mount. cold spring harbor, ny: Cold spring harbor laboratory press, 2004, 692 pp., 75.00, paperback. isbn 0-87969-712-1. Clinical Chemistry, 51(11):2219–2219, 2005. [6] Teresa K Attwood and David J Parry-Smith. Introducci´ on a la Bioinform´ atica. Pearson Educaci´ on, SA, 2002. [7] Steven Henikoff and Jorja G Henikoff. Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences, 89(22):10915–10919, 1992. [8] Christopher Bystroff and Anders Krogh. Hidden markov models for prediction of protein features. Protein Structure Prediction, pages 173–198, 2008.
10