Una aproximación conceptual a las ciencias ómicas OBJETIVO ESTRATÉGICO 4 Desarrollar e implementar investigaciones y servicios en las áreas biotecnológicas e informáticas en el CBBC.
El Proyecto Caldas BioRegión como mecanismo para desarrollar e implementar investigaciones y servicios en las áreas de biotecnología e informática, desarrolló un documento como punto de partida para comprender comprender la aplicación de la Bioinformática en los procesos de investigación y desarrollo.
www.bios.co
Una Aproximación Conceptual a Las Ciencias Ómicas
Una aproximación conceptual las ciencias ómicas
Centro de Bioinformática y Biología Computacional de Colombia (958-59498) ISBN 978-958-59498-5-0
Autor(es) González Muñoz, Andrea Alvarez Yela, Astrid Catalina López Alvarez, Diana Quintero, Andrés Orozco Arias, Simón Guyot, Romain Cristancho Ardila, Marco Aurelio Zuluaga, Martha Botero, Kelly Mosquera Rendón, Jeanneth Garavito, Andrea
Corrector Grafos Soluciones S.A.S
Diagramación e Impresión Editorial Blanecolor S.A.S
Descripción Física Propalibro Beige de 70 gr 148 páginas tamaño 17 x 24 cm
70 Ejemplares
Manizales, Colombia.
Conceptos en Ciencias Ómicas
PREFACIO Nunca anes se han enido anos daos de secuenciación disponibles y la posibilidad de conar con ecnologías que se acualizan consanemene, que permien esudiar de orma masiva y simulánea cienos de especies para dierenes objeivos, enre los cuales se desacan los esudios de axonomía molecular, evolución y la producción de compuesos poenciales con uso indusrial. Sin duda, la generación de daos biológicos basados en la secuenciación de alo rendimieno iene un uuro promeedor, dado que el poencial vislumbrado para esa área proyeca que la secuenciación direca de ARN y de proeínas, así como la medicina personalizada de ala precisión, dejan de ser posibilidad para converirse en realidad. El acelerado aumeno de genomas parciales o compleos secuenciados y, a su vez, de esudios basados en ecnologías de secuenciación usando alguna de las ciencias ómicas, requiere considerables esuerzos que no involucran el mejoramieno de los equipos de secuenciación, sino principalmene el raslado de la inormación generada a un conexo biológico úil para solucionar problemas de carácer médico, agrícola o ambienal. Además, se crea la necesidad de que los invesigadores engan una expericia para conseguir el análisis adecuado de los daos generados y que los cenros de invesigación posean mejores inraesrucuras compuacionales para hacer rene a esos desaíos. Lo anerior, con el propósio de garanizar apropiados diseños experimenales para la exploación de la inormación, que consiuye la mayor preocupación en la invesigación cienífica hoy en día. Ese libro preende ser un abre bocas al enendimieno y la adopción de los emas mencionados, como insumo a esudianes e invesigadores ineresados en comprender esas nuevas emáicas.
1
AGRADECIMIENTOS Agradecemos a la Gobernación de Caldas en Colombia por la financiación de este libro a través del proyecto de regalías, Caldas-Bioregión
2
Conceptos en Ciencias Ómicas
Prefacio Agradecimientos
ÍNDICE
1 2
I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA MOLECULAR, LA BIOINFORMÁTICA Y LA BIOLOGÍA COMPUTACIONAL
9
1. PRINCIPIOS EN BIOLOGÍA MOLECULAR 1.1. Biomoléculas de la vida: ADN, ARN y proeínas 1.1.1. Ácido desoxirribonucleico 1.1.2. Ácido ribonucleico 1.1.3. Proeínas 1.2 Dogma cenral de la biología molecular 1.3. Genomas y genes 1.3.1. Genomas procarioas 1.3.2. Genomas eucarioas 1.3.3. Anoación de genomas 1.4. Variación genéica en los genomas 1.4.1. Tipos de variación genéica 1.4.2. Tasas de muación 1.4.3. Epigenéica como uene adicional de variación genéica 1.5. Reerencias
10 10 10 11 16 19 20 21 22 23 23 24 26 27 29
2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL 2.1. Orígenes e hisoria de la bioinormáica 2.1.1. Nacimieno de la Bioinormáica: convergencia de inormación biológica, eoría evoluiva y compuadores 2.2. Bioinormáica y biología compuacional: hardware, sisemas operaivos, sisemas de conecividad, lenguajes de programación, bases de daos y reposiorios 2.2.1. Compuación de alo rendimieno (HPC) y compuación en paralelo 2.2.2. Sisema operaivo Linux/UNIX 2.2.3. Lenguajes de programación 2.2.4. Bases de daos y reposiorios 2.3. ‘Big Daa’ en Bioinormáica 2.4. Reerencias
32 32
36 36 37 38 39 39 42
3. SECUENCIACIÓN 3.1. Secuenciación de primera generación 3.1.1. Secuenciación Sanger 3.2. Secuenciación de segunda generación 3.2.1. Secuenciación 454 3.2.2. Secuenciación SOLiD
44 44 44 46 46 48
32
3
3.2.3. Secuenciación Ion Torren TM 3.2.4. Secuenciación Illumina® 3.3. Secuenciación de ercera generación 3.3.1. Secuenciación HeliScope 3.3.2. Secuenciación PacBio® 3.3.3. Secuenciación Oxord Nanopore 3.4. Reerencias
49 50 52 52 53 54 57
II. “ÓMICAS”: GENÓMICA, METAGENÓMICA, TRANSCRIPTÓMICA, PROTEÓMICA Y METABOLÓMICA
98
4. GENÓMICA
59
4.1. Consideraciones para la deerminación de la esraegia de secuenciación genómica a implemenar 4.2. Diseño experimenal 4.2.1. Muesreo 4.2.2. Réplicas 4.2.3. Exracción del ADN 4.2.4. Tipos de secuenciación genómica 4.2.5. Conrol de calidad 4.2.6. Ensamblaje 4.2.7. Anoación 4.2.8. Visualización de la anoación 4.3. Reerencias
5. METAGENÓMICA 5.1. Definición 5.2. Enoques de la meagenómica 5.3. Diseño Experimenal 5.3.1. Esudios meagenómicos mediane el enoque de amplificación de gen marcador o meagenómica dirigida 5.3.2. Esudios meagenómicos mediane el enoque de genomas compleos 5.4. Reerencias 6. TRANSCRIPTÓMICA 6.1. Tecnologías para el esudio del ranscripoma 6.2. Diseño experimenal 6.2.1. Experimeno 6.2.2. Preparación de las librerías y secuenciación 6.2.3. Flujo de análisis bioinormáicos de daos de RNA-Seq 6.3. Reerencias
4
62 65 66 66 67 67 74 75 78 81 82
88 89 92 93 94 94 97
100 100 103 105 106 108 113
Conceptos en Ciencias Ómicas
7. METABOLÓMICA 7. 1. Diseño experimenal 7.1.1. Reconocimieno de parones (Meabolie fingerprining) 7.1.2. Idenificación de biomarcadores (biomarker discovery) 7.1.3. Meabolómica no dirigida ( Unargeed meabolomics ) 7.2. Preparación de muesra y écnicas insrumenales analíicas 7.2.1. Aspecos generales de la especromería de masas 7.3. Procesamieno de daos meabolómicos 7.3.1. Formao y filrado 7.3.2. Deección de picos 7.3.3. Deconvolución de señales 7.3.4. Idenificación de Isóopos 7.3.5. Idenificación de aducos 7.3.6. Idenificación y anoación de compuesos 7.3.7. Alineación 7.3.8. Valores perdidos 7.4. Análisis de daos 7.4.1. Normalización 7.4.2. Transormación y escalado 7.4.3. Análisis de componenes principales 7.4.4. Regresión lineal de mínimos cuadrados parciales con análisis discriminane (PLS-DA) 7.4.5. Validación cruzada 7.4.6. Tes de permuaciones 7.4.7. Análisis de redes: del análisis esadísico a la inerpreación biológica 7.5. Reerencias
117 118 118 119 120 121 123 126 128 129 129 130 130 130 131 132 132 133 133 134
8. PROTEÓMICA 8.1. Diseño experimenal 8.1.1. Exracción y separación de proeínas. 8.1.2. Especromería de masas (MS) 8.1.3. Análisis bioinormáicos 8.2. Reerencias
140 140 141 142 143 144
135 135 135 136 138
5
ÍNDICE DE TABLAS Tabla 1.1. El código genéico universal. Tabla 2.1. Principales plaaormas de secuenciación y sus caracerísicas. Tabla 5.1. Lisado de algunos proyecos pioneros en meagenómica Tabla 7.1. Dierencias enre analizadores de masa. Tabla 7.2. Plaaormas para el procesamieno de señales cromaográficas y especros de masas. Tabla 7.3. Méodos de escalado, objeivo, venajas y desvenajas.
6
17 56 91 126 127 134
Conceptos en Ciencias Ómicas
ÍNDICE DE FIGURAS Figura 1.1. Esrucura del ADN. Se muesran las bases nirogenadas A, T, C y G; la secuencia de nucleóidos del ADN y las cadenas complemenarias que conorman la esrucura de la doble hélice. Figura 1.2. Proceso de la ranscripción del ADN a ARN. Figura 1.3. Procesamieno del ARN mensajero maduro. Figura 1.4. Esquemaización de la ranserencia de inormación y procesos de replicación, ranscripción y raducción del Dogma Cenral de la Biología Molecular. Figura 1.5. Expresión génica y esrucura del ARN mensajero en eucarioas vs procarioas. Figura 2.1. Línea del iempo del origen de la bioinormáica. Figura 4.1. Número de genomas de planas publicados: represenación gráfica del número de genomas de planas publicados en los úlimos 18 años. Los daos provienen de la página htp://www.plabipd.de/ Figura 5.1. Conribuciones de la meagenómica en dierenes áreas del conocimieno. Figura 5.2. Enoques de los esudios meagenómicos. Figura 6.1. Eapas de un esudio ranscripómico basado en RNA-Seq. Figura 7.1. Caracerísicas principales de un esudio meabolómico. En verde componene correspondiene al área de la biología, química en azul y bioinormáica en amarillo. Figura 7.2. Reacciones de derivaización de compuesos semivoláiles. Primero meoximación, segundo silanización. Figura 7.3. Tipos de ionización de muesras. Figura 7.4. Analizadores de masas
10 12 13 19 22 36 69 90 93 104 118 122 124 125
7
8
Conceptos en Ciencias Ómicas
I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA MOLECULAR, LA BIOINFORMÁTICA Y LA BIOLOGÍA COMPUTACIONAL ANDREA GONZÁLEZ MUÑOZ
Los innumerables avances en las ecnologías de secuenciación de ácidos nucleicos, proeínas y oros compuesos químicos, sumado a los desarrollos en las ciencias de la compuación en la úlima década, han promovido la generación masiva de daos biológicos a nivel molecular y el aumeno de la capacidad compuacional para el análisis de esa gran canidad de inormación. Eso ha dado lugar a la era pos-genómica, en la que la generación de inormación no represena un gran obsáculo para la invesigación genéica en diversas áreas de las ciencias biológicas. Los desaíos de la era pos-genómica consisen en descirar el libro de la vida que esá inmerso denro de las millones de bases comprendidas en los genomas, así como en las complejas redes de ineracción enre proeínas y en la redes de las vías meabólicas. La manipulación, organización, predicción y modelización de los daos genéicos se han llevado a cabo gracias a la bioinormáica, que caraceriza genomas, ranscripomas, proeomas y meabolomas; además, la bioinormáica permie reconsruir filogenias, esudiar la variación genéica, idenificar marcadores en enoipos de inerés y rasgos complejos, realizar amizajes de biomarcadores para mejoramieno genéico, diagnósico y raamieno de enermedades, analizar la expresión de los genes y comprender la ineracción gen x ambiene, enre muchas oras líneas de invesigación. El análisis e inerpreación de esos daos biológicos se susenan sobre un enendimieno proundo de las bases genéicas de los seres vivos, la expresión del ADN, ARN y proeínas, y los procesos moleculares y celulares mediados por las vías del meabolismo. Complemenario a eso, la variación genéica en los genomas cumple un rol undamenal en la generación de diversidad y la evolución de los seres vivos, sobre la cual se sopora el inerés por idenificar las poenciales variaciones genéicas que dierencian las especies e individuos.
9
1. PRINCIPIOS EN BIOLOGÍA MOLECULAR ANDREA GONZÁLEZ MUÑOZ
1.1. Biomoléculas de la vida: ADN, ARN y proteínas 1.1.1. Ácido desoxirribonucleico Las insrucciones de la vida en la Tierra se encuenran en el maerial genéico de los seres vivos, alojado en el núcleo de las células eucarioas o de libre circulación en las células procarioas. Ese maerial esá compueso por ácido desoxirribonucleico (ADN), un ipo de ácido nucleico conormado químicamene por cuaro bases nirogenadas que componen el alabeo del libro de la vida: adenina (A), imina (T), guanina (G) y ciosina (C). Esas bases esán compuesas por un azúcar penosa (desoxirribosa) y un grupo osao (Figura 1.1), y esán unidas repeiivamene en numerosas combinaciones de secuencia (4 n secuencias posibles para una cadena de ADN de longiud n), mediane enlaces osodiéser covalenes que unen el carbono 5’ del azúcar de una base nirogenada con el carbono 3’ del azúcar de ora base (Figura 1.1). Esrucuralmene, el ADN esá consiuido por dos cadenas de bases nirogenadas, unidas de manera complemenaria A con T y C con G, mediane puenes (dobles y riples) de hidrógeno, respecivamene. Esas cadenas complemenarias se pliegan en orma ridimensional en esrucura de doble hélice (Figura 1.1), que se puede considerar como una esrucura de escalera en espiral, donde las bases nirogenadas complemenarias y los puenes de hidrógeno que las unen conorman los peldaños de la escalera y las penosas y grupos osaos consiuyen los lados de sopore. Las cadenas de la doble hélice se orienan en senido conrario, es decir, la secuencia de una de las cadenas se oriena en senido 5’ – 3’ y la secuencia de la cadena complemenaria se oriena en senido 3’ – 5’. Puente de Hidrógeno
Terminal
O
N
O
HC
O
P O H2 C H
H
C
O
HC
O H2 C H
O H
T
N
N
C
H
N H
O
H
H
O
HC
O H2 C
3´
H
N 5´
O
A
C
3´
H H
H
H
CH3
O C
N
H
C H
5´
O
P
H
O
H H
C
T
A
C
G
O A
T
3´
H H
CH N
G
3´
H H
OH2C
C
T
N
C
O
O
O
N
C
H
N
C
H
N C
N
H
G
P
OH2C
H N
P
CH
N
H
H
5´
O
H H
N C
C
H
O
Terminal
N
O
3´
O
O C
C 5´
3´
O
H
C
O
H H
N
H
C
O
O
H
C
H HC
O
H
O
H
P
OH2C
N
C
O H
H H
CH
C
A
N N
H
O
H2 C
C
5´
O
N
O
C
H
P
N
C
N
5´
3´
O
H
3´
3´
H H
N
H
CH3
H
O
O H2C
CH
O
H
H
H
C
C
N C
N
H
P
H
C
N
O O
C
N
H H
H
N C
G
O
H
C
C
N 5´
3´
10
Terminal H
H
5´
5´
O O
O
T er minal 5´
P
O
OH Terminal 3´
OPO3 Terminal 5´
Conceptos en Ciencias Ómicas
Figura 1.1. Esrucura del ADN. Se muesran las bases nirogenadas A, T, C y G; la secuencia de nucleóidos del ADN y las cadenas complemenarias que conorman la esrucura de la doble hélice. El ADN en el núcleo esá asociado a proeínas llamadas hisonas, sobre las cuales se enrolla para conormar la cromaina, la esrucura organizacional del ADN. La cromaina coniene más del doble de proeína que de ADN y esá conormada por nucleosomas, enrollamienos que conienen ~200 pares de bases de ADN, organizadas repeiivamene en ocámeros de hisonas en orma de collar. La máxima compacación de la cromaina se presena en orma de cromosomas, los cuales se observan en la meaase de la división celular. La cromaina se puede clasificar de acuerdo a dos ipos de organización: heerocromaina y eucromaina. La primera es una orma densamene compacada que no es ranscripcionalmene aciva, es decir, en ese esado, los genes en esas regiones no se esán expresando debido al superenrollamieno del ADN. El segundo ipo comprende regiones de ADN no condensadas, donde ocurre ranscripción o expresión del maerial genéico. Un cromosoma puede conener regiones de heerocromaina y eucromaina al mismo iempo, las cuales pueden variar de acuerdo a la eapa del ciclo celular o las necesidades meabólicas de la célula.
1.1.2. Ácido ribonucleico La inormación genéica conenida en el ADN esá represenada por la secuencia lineal de la molécula, eso quiere decir que dierenes secuencias de nucleóidos ransmien disinos mensajes biológicos. No obsane, si el ADN se encuenra en el núcleo y jamás sale de ése, excepo durane la división celular, enonces ¿cómo es que el ADN ransmie las insrucciones genéicas al reso de la célula? En ese proceso paricipa la molécula de ácido ribonucleico (ARN), un segundo ipo de ácido nucleico compueso ambién por cuaro bases nirogenadas, res de las cuales compare químicamene con el ADN: adenina (A), guanina (G) y ciosina (C), y una que difiere con respeco al ADN: uracilo (U). La correspondencia en composición de bases nirogenadas enre el ADN y ARN permie que el ADN sirva como molde para la sínesis de moléculas de ARN de cadena sencilla y con secuencia complemenaria al ADN, que se lleva a cabo en un proceso conocido como ranscripción (Figura 1.2). Aunque el ARN no coniene imina, exise complemenariedad enre la adenina del ADN y el uracilo del ARN. Por su pare, la imina del ADN encuenra su base complemenaria en la adenina del ARN, al como ocurre enre las dos cadenas del ADN.
11
Hebra Antisentido 3’
5’
A T G A C G G A T C AG C C G C AA G C GG AA T T GG U A C U G CC U A GU C GG C GUU Transcrito de ARN
ARN Polimerasa
T A C T G CC T A G T C GG C G T T C GC C T T A A CC 5’
3’ Hebra Sentido
Figura 1.2. Proceso de la ranscripción del ADN a ARN. La ranscripción es un proceso undamenal en la célula, pueso que permie la expresión de la inormación conenida en el ADN a ravés del ARN, el cual puede salir del núcleo y ejercer su unción en el cioplasma. Exisen dierenes ipos de ARN: ARN mensajero; ARN ribosomal; ARN de ranserencia y oros ipos de ARN involucrados en diversos procesos celulares como regulación de la expresión de los genes, replicación del ADN y modificaciones a proeínas. A coninuación, se describe cada ipo.
ARN mensajero (ARNm) Las moléculas de ARNm, ambién llamadas ranscrios, son poradoras de la inormación genéica conenida en el ADN, que poseriormene son raducidas a proeínas en los ribosomas de la célula. En oras palabras, el ARNm es una molécula inermediaria produco de la expresión de los genes en una célula. No odos los genes se ranscriben al mismo iempo o al mismo nivel de expresión ni odas las células de un organismo expresan los mismos genes. Así mismo, una célula no expresa el mismo conjuno de genes durane odo su ciclo celular ni bajo odas las condiciones. Además, las moléculas de ARNm presenes en una célula en un momeno dado dependen de los genes que se requieran para los procesos celulares que se producen en ese momeno en paricular. 12
Conceptos en Ciencias Ómicas
La ranscripción del ADN a ARNm genera una molécula precursora conocida como pre-ARNm, la cual debe pasar por eapas de procesamieno en el núcleo para crear una molécula de ARNm capaz de ser raducida a proeína. En los procarioas, sin embargo, no es necesario ese procesamieno; en eucarioas, poco después de iniciar la ranscripción, cuando el ARNm alcanza una longiud enre 25 y 30 bases, se da la adición de una caperuza meilada (7-meilguanilao) en el exremo 5’ de la molécula, con el fin de proeger el ARNm de degradación por exonucleasas y ambién proporcionar un siio de reconocimieno del ARNm en el ribosoma. Adicionalmene, finalizada la ranscripción ocurre un clivaje enzimáico en el exremo 3’ del ARNm, seguido por la adición de cienos de bases de adenina (conocida como cola poli A) por un proceso de poliadenilación, realizado por la enzima poli-A polimerasa. Un ercer paso del procesamieno incluye el clivaje de secuencias inrónicas (no codificanes para proeína) y ligación de los exones (secuencias codificanes) adyacenes, en un proceso conocido como splicing . La Figura 1.3 muesra la molécula de ARNm precursora originando una molécula madura de ARNm en eucarioas.
Núcleo Exon Intron
Exon
Intron
Exon
ADN Caperuza
Transcripción y adición de caperuza y cola poliA
Transcrito precursor
AAAA Eliminación de Intrones Cola
AAAA Empalme de Exones
AAAA
ARNm
Transcrito Maduro
Citoplasma
Figura 1.3. Procesamieno del ARN mensajero maduro. 13
ARN ribosomal (ARNr) Los ARNr son las principales moléculas consiuyenes de los ribosomas, los organelos celulares encargados de la raducción del ARNm a proeína. Esas moléculas no poran inormación que se raduce a proeína, es decir, no son codificanes; no obsane, son undamenales para la sínesis de las proeínas, caalizando los enlaces químicos (enlaces pepídicos) que componen una proeína. Los ARNr se ranscriben a parir de los genes del ADN ribosomal (ADNr), que varían en número, secuencia y longiud enre las células procarioas y eucarioas. En procarioas, exisen res moléculas de ARNr: 23S, 16S y 5S, que en conjuno abarcan alrededor de 4500 bases y componen el ribosoma, juno con 54 proeínas. Los nombres de esas moléculas provienen de su amaño en érminos de la asa de sedimenación de la parícula por cenriugación, medido en unidades Svedberg (S). Por su pare, las moléculas de ARNr en eucarioas son cuaro: 28S, 18S, 5.8S y 5S, que comprenden más de 5500 bases y componen el ribosoma eucarioa, juno con 82 proeínas. Los ARNr son de cadena sencilla y presenan una esrucura plegada alamene conservada enre los linajes de la vida, aspeco que se debe a su acividad caalíica imporane para la unción del ribosoma; aunque a nivel de secuencia los ARNr no son an conservados. De hecho, los genes que ranscriben los ARNr se han consiuido en marcadores moleculares para reconsruir la hisoria evoluiva de los linajes de la vida, así como para idenificar las especies. Algunas regiones del ADNr evolucionan lenamene, mienras que oras regiones divergen rápidamene enre linajes.
ARN de transferencia (ARNt) Los ARN son moléculas pequeñas de cadena sencilla y 74-95 bases, ranscrias a parir de los genes de ADN en el núcleo o en la miocondria, que de manera similar al ARNr no son codificanes, sino que cumplen variadas unciones en la célula. Su unción principal es la de ser moléculas conecoras enre el ARNm y el ribosoma durane la sínesis proeica. Todos los ARN comparen una esrucura secundaria y erciaria que permien el reconocimieno por pare del ribosoma, dando lugar a su paricipación en la raducción del ARNm, mediane la incorporación de aminoácidos en la proeína naciene. Los ARN presenan una esrucura secundaria en orma de rébol, con unión por complemenariedad enre los erminales 5’ y 3’ de su secuencia, así como complemenariedad enre regiones inernas de la molécula que orman esrucuras plegadas en orma de bucle. Adicionalmene, los ARN erminan en una secuencia acepora –CCA–, que caraceriza a ese ipo de moléculas y es incorporada durane la ranscripción del ADN o agregada enzimáicamene como una modificación pos-ranscripcional. Como pare de la esrucura secundaria ambién se encuenra el anicodón, ubicado en el mismo lugar en odas los ARN y en el exremo conrario a la secuencia acepora, el cual compone el siio
14
Conceptos en Ciencias Ómicas
de unión y reconocimieno del codón del ARNm (secuencia de res nucleóidos del ARNm que deermina el aminoácido a incorporar en la proeína sineizada, de acuerdo con el código genéico, Tabla 1.1). Los ARN pueden esar sujeos a modificaciones químicas en sus bases, como meilaciones o deamidaciones, que pueden cambiar la ineracción de la molécula con el ribosoma o alerar sus propiedades de reconocimieno del codón, en caso al de que se den en el anicodón. En la biogénesis de la molécula de ARN hay pasos imporanes en la maduración de la molécula para que esa pueda llevar a cabo su unción. Esos pasos incluyen procesamieno, splicing , adición de la secuencia acepora CCA y modificaciones pos-ranscripcionales; algunos ocurren en el núcleo y oros en el cioplasma. A parir del ranscrio primario (pre-ARN), ocurre la eliminación de secuencias 5’ y 3’ adicionales no necesarias, así como de secuencias inrónicas, mediane la acción de nucleasas y endonucleasas en eucarioas y arqueas, o por auo-clivaje en bacerias. Tras la eliminación de inrones se requiere la ligación de los exones, acividad que es realizada por una ligasa de ARN. Poseriormene, algunos pre-ARN requerirán la adición enzimáica de la secuencia acepora CCA, debido a que esa no se encuenra originalmene en el gen correspondiene. Finalmene, las modificaciones pos-ranscripcionales de algunas bases de la molécula consiuyen una caracerísica de odos los ARN maduros, y ienen el propósio de regular la localización subcelular de los ARN, esabilizar la molécula esrucuralmene, decodificar, brindar un conrol de calidad y/o incluso paricipar en la respuesa inmune conra agenes inecciosos (Hori e al., 2014). En los dierenes linajes se ha enconrado a nivel genómico que los ARN varían en número de genes, organización genómica (e.g. repeiciones en ándem por evenos de duplicación) y número de pseudogenes (genes que han perdido su unción oal o unción canónica), lo que indica parones linaje-específicos complejos. En el genoma humano, por ejemplo, se ha enconrado un número mayor al esperado de genes de ARN, por lo cual, se podrían aribuir unciones no canónicas para algunos de esos genes, más allá de su paricipación en la raducción. Además, los proyecos de secuenciación de genomas en mamíeros han idenificado un gran número de genes de ARN isodecodificadores, es decir, que producen ARN que comparen el mismo anicodón. En el genoma humano se ha idenificado que más de la miad de genes de ARN son de ese ipo, lo cual indica una ala redundancia de ARN en el genoma. Sin embargo, lo ineresane de los ARN isodecodificadores es que difieren en su secuencia inerna y presenan un menor grado de aminoacilación en comparación con los ARN canónicos involucrados en raducción, de ahí que algunos puedan paricipar en unciones diversas (Parisien, Wang & Pan, 2013). Enre las oras unciones descubieras o sugeridas para los ARN, se ha reerenciado su paricipación en regulación (e.g. en la organización de genomas eucarioas separando dominios de cromaina acivos de los no acivos y en la regulación de la expresión génica ane evenos de esrés por vía de ARN de inererencia o ARNi), así como en la señalización y biosínesis de aminoácidos, grupos hemo, clorofila y anibióicos. Además, pueden 15
paricipar en la replicación viral, el remodelamieno de la pared celular, el eiqueado de proeínas para degradación, la supervivencia celular por inererencia de la vía apopóica mediada por ciocromo C en la miocondria y el meabolismo energéico, enre oras unciones (Kirchner & Ignaova, 2015; Raina & Ibba, 2014).
OTROS TIPOS DE ARN Exisen oros ipos de ARN no codificanes que esán involucrados en varios procesos celulares y llevan a cabo unciones dierenes a las de los ARNm, ARNr y ARN. Esos ARN han cobrado mayor imporancia a parir de los proyecos de secuenciación de genomas, en los que se ha enconrado una ala abundancia de ese ipo de moléculas, con unciones predichas o demosradas en procesos regulaorios principalmene. Por ejemplo, en eucarioas se encuenran diversos ipos de ARNs involucrados en modificaciones posranscripcionales o replicación de ADN, ales como: ARN pequeño nuclear ( small nuclear RNA, snRNA) que paricipa en splicing ; ARN pequeño nucleolar ( small nucleolar RNA, snoRNA) que lleva a cabo la modificación de nucleóidos en oros ARNs; ribonucleasa P y MRP (RNase P, RNase MRP) involucrados en la maduración del ARN y la replicación de ADN, en el caso del RNase MRP; el componene de ARN de la elomerasa (TERC), imporane en la sínesis elomérica en muchos eucarioas; y el ARN líder de splicing (SL RNA) que paricipa en rans-splicing del ARNm y en el procesamieno del ARN (Cech & Seiz, 2014; Malone & Hannon, 2009; Palazzo & Lee, 2015; Woodhams, Sadler, Penny & Collins, 2007). Por oro lado, oros ipos de ARN no codificanes paricipan principalmene en unciones reguladoras de la expresión génica, incluyendo: ARN largos no codificanes ( long noncoding RNA, lncRNA) que regulan la ranscripción génica por regulación epigenéica; micro ARNs (miRNA) y ARNs coros de inererencia (siRNA) involucrados en regulación génica; ARN piwi de ineracción (piRNA) que acúan en deensa de ransposones y oras poenciales unciones; ARN anisenido (asRNA) que paricipan en aenuación ranscripcional, esabilización del ARNm y bloqueo raduccional (Barel, 2009; Malone & Hannon, 2009; Ørom & Shiekhatar, 2013; Poning, Oliver & Reik, 2009). Finalmene, un ipo de ARN regulador de recién gran inerés es el ARN CRISPR (crRNA), el cual se encuenra en bacerias y arqueas cumpliendo un rol en resisencia a parásios mediane acción dirigida al ADN, cuya aplicación acual se ha cenrado en la edición génica dirigida (Sander & Joung, 2014).
1.1.3. Proteínas Las proeínas son moléculas muy diversas en secuencia, esrucura y unción. Se esima que una célula humana puede ener enre 250000 a un millón de proeínas dierenes, localizadas en odos los comparimienos y procesos celulares, cumpliendo unciones esrucurales, enzimáicas, ransporadoras, hormonales, mensajeras, de almacenamieno, deensa, enre oras; odas indispensables para el uncionamieno y manenimieno 16
Conceptos en Ciencias Ómicas
celular. Las proeínas consiuyen gran pare del enoipo de un organismo, por lo ano, su diversidad es an amplia como la canidad de enoipos observados en los seres vivos.
AMINOÁCIDOS Las proeínas son las macromoléculas ejecuoras de las insrucciones del ADN, raducidas a parir del ARNm. Químicamene, esán conormadas por una secuencia de aminoácidos, unidos por enlaces pepídicos. Exisen 20 aminoácidos que conorman odas las proeínas posibles (Tabla 1.1), los cuales presenan una composición química con un grupo uncional amino (-NH2) en un exremo (conocido como amino erminal o N-erminal) y un grupo uncional carboxilo (-COOH) en el oro exremo (carboxi-erminal o C-erminal). El cenro de la molécula lo compone un carbono ala unido a los dos grupos uncionales mencionados y a una cadena laeral o grupo R, que difiere químicamene enre los 20 aminoácidos y confiere las propiedades bioquímicas a cada uno, por ejemplo, hidroobicidad, polaridad y aromaicidad.
Tabla 1.1. El código genéico universal.
Segunda letra U
a r t e U L a r e m i r P C
A
C
A
G
U UUU Phe UCU UAU UGU Tyr Cys UUC UCC UAC UGC C Ser UUA UCA UAA UGA Terminación A Leu Terminación UUG UCG UAG UGG Trp G
CUU CCU CAU CUC CCC CAC Pro Leu CUA CCA CAA CUG CCG CAG AUU AUC Ile AUA AUG Met
ACU AAU ACC AAC Thr ACA AAA ACG AAG
GUU GCU GAU GUC GCC GAC Val Ala G GUA GCA GAA GUG GCG GAG
His Gln Asn Lys Asp Glu
CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG
U
Arg
C
a r t e L a r e c r e T
A G
Ser Arg
U C A G U
Gly
C A G
17
CÓDIGO GENÉTICO Los aminoácidos son raducidos en los ribosomas a parir del ARNm, siguiendo el código genéico, el cual esablece la combinación de riplees de nucleóidos o codones, que raducen para uno de los 20 aminoácidos (Tabla 1.1). Varios codones (2-6) pueden raducir para un mismo aminoácido, por lo que se dice que el código genéico es degenerado; eso implica que pariendo de un codón se sabe el aminoácido exaco que raduce, pero a parir de un aminoácido no se conoce la secuencia exaca del codón que lo genera. Los únicos dos aminoácidos que esán raducidos por un solo codón son meionina y ripóano. No obsane, a pesar de ser degenerado, en algunas especies puede exisir un sesgo hacia la uilización de cieros codones para raducir deerminado aminoácido, por ejemplo, en el genoma humano es más probable enconrar que la alanina corresponda al codón GCC, que a GCG, aunque ambos la raducen.Eso puede deberse a una mejor eficiencia en la raducción de cieros codones en los ribosomas. Por ora pare, cabe resalar dos codones de gran imporancia en el código genéico: el codón que marca el inicio de la raducción de una proeína –AUG– , que raduce al aminoácido meionina y los codones que marcan la erminación de la raducción, UAA, UAG y UGA. De acuerdo con lo anerior, odas las proeínas deberían comenzar con una meionina, sin embargo, no es así, debido a procesamienos pos-raduccionales, ya que esos pueden eliminar la meionina de inicio en la proeína madura. Además, exisen excepciones al código genéico universal, en las que los codones de erminación mencionados aneriormene codifican para un aminoácido, como en miocondrias, levaduras, planas, Mycoplasma capricolum y los proozoos Paramecium y Terahymena.
ESTRUCTURA DE LAS PROTEÍNAS Esrucuralmene, las proeínas se describen de acuerdo con cuaro niveles. La esrucura primaria corresponde a la secuencia lineal de aminoácidos, deerminada por el genoma. La esrucura secundaria involucra un plegamieno local dirigido por la ineracción enre aminoácidos adyacenes y por los ángulos de orsión de los enlaces de los aminoácidos, dando lugar a esrucuras en ala hélice y lámina bea, conecadas por giros de la molécula y esabilizadas por puenes de hidrógeno. La esrucura erciaria obedece a la conormación ridimensional más esable de la proeína, es decir, al arreglo espacial de las conormaciones secundarias, mediado por ineracciones no-covalenes, puenes disuluro y la ineracción con el ambiene acuoso de la célula. La unción de una proeína esá asociada con su organización a nivel erciario, ya que a ese nivel se conorman los siios caalíicos o siios acivos de enzimas y se evidencian los moivos esrucurales, que hacen reerencia a segmenos de la proeína que esán cercanos espacialmene pero no en secuencia. Los moivos esrucurales generalmene se encuenran conservados en dierenes proeínas, eso permie agruparlas por su unción o esrucura. Además, la presencia de un moivo esrucural o deerminada esrucura erciaria en una proeína desconocida permie inerir su posible unción por asociación. Finalmene, la esrucura cuaernaria involucra la ineracción enre dierenes cadenas (polipépidos) que se unen para conormar una proeína uncional.
18
Conceptos en Ciencias Ómicas
MODIFICACIONES POST-TRADUCCIONALES Las proeínas pueden esar conormadas sólo por aminoácidos o esar conjugadas con carbohidraos (glicoproeínas), osaos (osoproeínas), lípidos (lipoproeínas) o combinaciones de esos. De igual orma, los residuos de aminoácidos pueden esar modificados con grupos químicos como glicosil, provenienes de carbohidraos (glicosilaciones), osorilo (osorilaciones), meilo (meilaciones), acilo, aceilo, ubiquiina, niroxilo, ec. Esas modificaciones cambian las propiedades de una proeína, aporan a la diversidad uncional de la misma e influyen en su ineracción con oras proeínas y moléculas. Además, muchos procesos celulares, como la replicación y ranscripción del ADN, cascadas de señalización, ransducción de señales, procesos regulaorios y de ranspore, enre oros, requieren la ormación de complejos proeicos que acúan de manera sinérgica para cumplir deerminadas unciones.
1.2 Dogma central de la biología molecular Como se ha mencionado en varias ocasiones, el ADN es la unidad de herencia de las células y los seres vivos, que coniene las insrucciones que rigen en gran pare el uncionamieno del ARN y las proeínas. El ADN se puede replicar para generar más copias de ADN o se puede ranscribir a dierenes ipos de ARN, incluyendo el ARNm, la principal molécula mensajera de las células. Esa secuencia de evenos en los que se evidencia una ranserencia lineal de inormación biológica desde ADN a ARN a proeína consiuye el dogma cenral de la biología molecular (Figura 1.4), propueso por Francis Crick en 1956 - 1970, quien ue el co-descubridor de la esrucura del ADN juno con James Wason, Francis Crick, Maurice Wilkins y Rosalind Franklin en 1953. Replicación
Traducción
Transcripción
Proteína ADN
ARN
19
Figura 1.4. Esquemaización de la ranserencia de inormación y procesos de replicación, ranscripción y raducción del Dogma Cenral de la Biología Molecular. El dogma cenral de la biología molecular en su manera clásica, se puede considerar algo simplificado con respeco a la complejidad biológica que se evidencia a parir de los esudios en genómica, ranscripómica, proeómica y meabolómica. El dogma cenral conocido acualmene es mucho más amplio y la ranserencia de inormación no es lineal; a ese respeco, el ARN ambién se puede reroranscribir a ADN y replicar para producir más copias de ARN como ocurre en muchos virus. De igual manera, la unción del ARN y las proeínas no solo consiuyen el resulado de las insrucciones genéicas del ADN, debido a que ora pare de su uncionalidad puede esar deerminada por modificaciones pos-ranscripcionales, pos-raduccionales o epigenéicas. Sin embargo, el planeamieno clásico del dogma cenral aún se sosiene y consiuye la base del uncionamieno celular, aunque reconociendo la amplia gama de procesos que ocurren adicionales a ese esqueleo cenral. Los res procesos principales del dogma cenral de la biología molecular son los siguienes: replicación del ADN, ranscripción del ADN a ARN y raducción del ARNm a proeína. Esos se encuenran deallados en un amplio reperorio de la lieraura, así que no serán raados en ese capíulo.
1.3. Genomas y genes El genoma consiuye el manual de insrucciones para el uncionamieno y sosenimieno de los seres vivos, ya que esá compueso por el conjuno de genes y secuencias no génicas que deerminan el nivel más undamenal de los procesos celulares. Los linajes de la vida presenan una gran diversidad en sus amaños genómicos, desde los genomas virales y bacerianos más pequeños, con 3 kilobases y 160 kilobases, hasa el genoma humano con alrededor de 3,1 gigabases (Gb), el genoma vegeal más grande con 150 Gb, correspondiene a la especie Paris japónica, o el de la ameba Amoeba dubia, con el genoma más grande conocido que alcanza 670 Gb. El amaño genómico, sin embargo, no es indicaivo del nivel de complejidad de un organismo, dado que un mayor amaño de genoma no necesariamene esá correlacionado con un mayor número de genes presenes. Aunque los amaños de genoma enre el nemáodo Caenorhabdiis elegans, el pez cebra Danio rerio, la planaArabidopsis haliana, el raónMus musculus y el humanoHomo sapiens difieren en varios órdenes de magniud (desde 100,2 Mb – 3,1 Gb), esas especies comparen un número similar de genes codificanes enre ~20000 hasa ~ 25000. La dierencia radica en el conenido de secuencias de ADN no codificanes y repeiivas que se encuenran en ala abundancia en genomas de gran amaño, las cuales en un principio ueron consideradas ADN “basura” por no codificar para proeínas. No obsane, los proyecos de secuenciación de genomas han mosrado que esas secuencias esán lejos de ser basura, de hecho, se ha posulado que esas regiones pueden 20
Conceptos en Ciencias Ómicas
ener unciones basane imporanes para la regulación de diversos procesos y vías meabólicas en la célula, lo cual se aribuye a que paricipan en el conrol de la expresión de genes y hasa cromosomas compleos, al paricipar en la esrucuración de la cromaina (Mehrora & Goyal, 2014). Recienemene se han idenificado variaciones y modulaciones en esas secuencias de ADN que esán asociadas a enermedades y síndromes graves en humanos (López-Flores & Garrido-Ramos, 2012). Además, las secuencias de ADN no codificane y repeiivas son muy inormaivas para esudios evoluivos y filogenéicos, así como para el enendimieno de la organización y comporamieno de los genomas eucarioas (Mehrora & Goyal, 2014), porque son regiones genómicas que acumulan variaciones en secuencia y en número de copias.
1.3.1. Genomas procariotas Los genomas procarioas presenan una esrucura de genoma compaca, con una ala proporción de conenido génico en relación con el reso del genoma y poco espacio enre los genes. El mayor conocimieno del genoma de los procarioas ha provenido del esudio de la baceria modelo Escherichia coli. No obsane, cabe resalar que su organización de genoma no es necesariamene represenaivo de odos los procarioas, dada la considerable diversidad genómica enre los miembros de ese grupo. Aun así, es necesario mencionar algunas caracerísicas de los genomas procarioas, ejemplificadas por el genoma de E. coli, como: un bajo conenido de secuencias no codificanes, baja recuencia de secuencias repeiivas y la presencia de operones, los cuales corresponden a un grupo de genes que esán ubicados con proximidad en el genoma, separados incluso por uno o dos nucleóidos, cuya expresión se da como una sola unidad. En cepas de E. coli se ha enconrado solo un 11% de secuencias no codificanes y hasa 600 operones, compuesos por genes con unción relacionada, de al manera que paricipan en una misma vía bioquímica o vías asociadas (Griswold, 2008). Por úlimo, los genes procarioas no conienen secuencias inrónicas (a excepción de algunas Archaea) y presenan una longiud más cora que la de los genes de organismos eucarioas, incluso después del clivaje de las secuencias de inrones de los eucarioas. La Figura 1.5 muesra la esrucura de un gen procarioa comparada con la de un gen eucarioa.
21
Procariotas
ADN Región codicante ARNm Policistrónico
P P P
Región no codicante
5´
3´
Policistrónico
Múltiples Proteínas Eucariotas
ADN Región codicante Región no codicante 3’
Región no codicante 5’
AAAAA
ARNm G P P P CH3
5´
3´
Poli-A
Caperuza
Figura 1.5. Expresión génica y esrucura del ARN mensajero en eucarioas vs procarioas. 1.3.2. Genomas eucariotas La organización de los genomas eucarioas ha mosrado ser mucho más compleja que la de los procarioas. Los eucarioas presenan una variedad de regiones genómicas, que se han descrio como genes, secuencias codificanes (CDS), secuencias no codificanes, secuencias regulaorias, elemenos repeiivos, elemenos ransponibles, enre oros. La proporción de cada una de esas regiones genómicas varía enre especies, aunque en general la presencia de grandes canidades de secuencias de ADN no codificanes y repeiivas es una caracerísica de los genomas eucarioas, alcanzando hasa un 90% del conenido de algunos genomas (López-Flores & Garrido-Ramos, 2012). En ese senido, muchas planas presenan un alo amaño de genoma, no obsane, en algunos casos su conenido génico no difiere basane con respeco a oros grupos axonómicos, por lo que su gran amaño se debe a un alo conenido de ADN repeiivo y no codificane. 22
Conceptos en Ciencias Ómicas
En el linaje eucariota se ha identificado un conjunto de 458 genes que están altamente conservados y se encuentran virtualmente en todos los eucariotas, debido a su participación en las funciones básicas celulares, y que en inglés se han denominado Core Eukaryotic Genes (COG). La identificación de los COG se basó en los genomas disponibles de seis organismos modelo: Homo sapiens, Drosophila melanogaster (mosca de la fruta), Arabidopsis thaliana, Caenorhabditis elegans, Saccharomyces cerevisiae (levadura) y Schizosaccharomyces pombe (levadura) (Parra et al., 2009). Este conjunto de genes ortólogos (que tienen su origen en un ancestro eucariota común) ha sido útil para determinar la calidad de las descripciones de genomas nuevos, de tal manera que es una medida de cuán completa o correcta es la secuencia de un genoma. Incluso, los COG también han sido útiles como modelos de genes para la búsqueda de genes en genomas eucariotas. 1.3.3. Anotación de genomas El proceso de describir un genoma con respecto a su contenido de genes, así como a la localización, estructura y función de las secuencias génicas y no génicas se denomina anotación. La anotación de genomas ha sido un área muy importante y ha representado un desafío científico y computacional extenso en los proyectos de secuenciación genómica, ya que el conocimiento de la secuencia de un genoma es apenas un primer paso en el proceso de descifrar el potencial genómico de un organismo o especie (Yandell & Ence, 2012). Para un genoma desconocido y sobre el cual no hay información de referencia disponible, la anotación involucra la implementación de herramientas bioinformáticas para la predicción del contenido de secuencias génicas, en términos de su posición en el genoma y estructura, seguido de la traducción de las secuencias codificantes a proteínas y la predicción de la función o actividad de las proteínas predichas. La predicción de genes generalmente se basa en modelos génicos de organismos conocidos, con los cuales se asume una estructura génica conservada para la mayoría de genes. En esta sección vimos que los genomas presentan una gran diversidad en su tamaño, organización de secuencia y estructura. Lo anterior es producto de la variabilidad que ha tenido lugar durante la evolución de los genomas de las diferentes especies y que se evidencia a través de los diferentes tipos de variaciones genéticas que se han identificado con el estudio de los genomas y secuencias genéticas.
1.4. Variación genética en los genomas La diversidad de la vida en la Tierra es el resultado de variaciones genéticas acumuladas a través del tiempo, que constituyen la base de la evolución de las especies. Esta variación ha resultado de eventos aleatorios como mutaciones puntuales, rearreglos cromosómicos y eventos de recombinación homóloga en el material genético de los organismos. Las mutaciones son cambios en la secuencia de nucleótidos del ADN que pueden producir modificaciones a nivel génico y, posteriormente, proteico, influyendo en el fenotipo de un
organismo. Esos cambios pueden ser heredables, como ocurre con las muaciones de la 23
línea germinal, heredadas de los padres a la progenie, y que esarán presenes en odas las células de un organismo. Por oro lado, las muaciones pueden ser somáicas (muaciones de novo), que se adquieren en algún momeno de la vida de un individuo a causa de acores ambienales o de errores en la replicación del ADN. Esas muaciones no esán presenes en odas las células del organismo, excepo que ocurran en la línea germinal, y no pueden ser heredadas a la progenie.
1.4.1. Tipos de variación genética SNVs y SNPs Las muaciones pueden corresponder a cambios punuales en un nucleóido de la secuencia de ADN, conocidas como varianes de nucleóido sencillo ( single nucleoide varians , o SNVs), algunas de las cuales se denominan polimorfismos de nucleóido sencillo ( single nucleoide polymorphisms, o SNPs) cuando se presenan con una recuencia mínima del 1% en una población. La mayoría de dierencias enoípicas enre los individuos se deben a polimorfismos que no represenan eecos adversos sobre el organismo, aunque algunos sí pueden llevar a eecos deleéreos. A nivel de enoipo, una SNV presene en una secuencia codificane se considera sinónima si no genera un cambio en la secuencia de la proeína codificada; por el conrario, se considera no-sinónima si se raduce a un cambio en el amino ácido codificado por el codón en el que se presena la muación, lo que puede conducir a poenciales repercusiones en la unción de la proeína muada producida.
Indels Las muaciones ambién pueden abarcar varios nucleóidos que pueden esar inserados (inserciones) o ausenes (deleciones) en la secuencia del maerial genéico de un organismo con respeco a oro, y que en conjuno son conocidas como indels. Los indels más recuenes son aquellos que involucran elemenos de secuencias repeiivas como las repeiciones en ándem de número variable ( variable number andem repeas, o VNTRs) y las repeiciones en ándem sencillas ( simple andem repeas, o STRs); por eso la presencia de repeiciones puede predisponer esa región del ADN a la presencia de indels. Los evenos de inserción ambién pueden deberse a elemenos ransponibles o ransposones, los cuales esán esparcidos por el genoma y pueden ransporarse de manera direca desde una región cromosómica a ora. A nivel biológico, un indel en la secuencia de un gen puede aecar el marco abiero de lecura del mismo y generar una secuencia codificane errónea que producirá una proeína dierene a la original o generar un codón de parada premauro que produzca una secuencia codificane incomplea y, por consiguiene, una proeína runcada. En ambos casos, se verá aecada la uncionalidad 24
Conceptos en Ciencias Ómicas
del produco proeico, lo cual podrá ener repercusiones leves a graves sobre el enoipo del organismo, dependiendo de la imporancia y unción de la proeína en la célula.
Recombinación homóloga La recombinación homóloga es el inercambio de ragmenos de secuencia enre dos moléculas de ADN homólogas, lo cual ocurre durane el enrecruzamieno de cromosomas homólogos en la meiosis para la producción de gameos. Por oro lado, la recombinación homóloga ambién iene lugar durane la división celular somáica (miosis) como mecanismo de reparación de rupuras en la doble cadena del ADN. La recombinación homóloga es un generador de variación genéica, ya que da lugar a nuevas combinaciones de secuencia (alelos) de los genes en la progenie durane la meiosis, o a muaciones somáicas durane la miosis.
Rearreglos cromosómicos Los rearreglos cromosómicos ambién consiuyen un ipo de muaciones ocasionadas por rupuras en la doble cadena de ADN como produco de daño al ADN por radiación, agenes químicos o errores durane la recombinación homóloga o replicación, los cuales pueden cambiar la esrucura cromosómica, alerar la unción y ransmisión de algunos genes. Los rearreglos pueden repercuir en deleciones que represenan la pérdida de odo un gen, una pare de ése o incluso en deleciones más grandes que abarcan múliples genes. Ese ipo de deleciones esrucurales difieren de un indel, ya que comprenden regiones más grandes del genoma, mienras que un indel abarca menos bases ( ≤1000 pares de bases, pb). Por su pare, conrario a una deleción, una duplicación implica un aumeno en el número de copias de una región cromosómica. Si las regiones duplicadas se encuenran en proximidad se considera que se encuenran en andem, en el mismo orden o en orden reverso. Las duplicaciones génicas represenan evenos imporanes en la evolución de los genomas, dado que las copias adicionales de genes pueden promover que algunas copias adquieran nuevas unciones y con ello nuevos genes. Las duplicaciones y deleciones son produco de evenos de recombinación homóloga desiguales, errores en la reparación de rompimienos en la doble cadena del ADN o errores en la replicación. Las deleciones y duplicaciones de genes y segmenos cromosómicos en el orden de los muli-kilobases se conocen como varianes en el número de copias ( copy number varians, CNVs). Los CNVs pueden aecar el equilibrio génico normal, porque cambian la dosis génica de la pare cromosómica aecada, ano por la pérdida de una copia de un segmeno como por la adición de una o varias copias exras de un segmeno del maerial genéico. Las deleciones y duplicaciones esán relacionadas con oro ipo de rearreglo que son las ranslocaciones. Una ranslocación ocurre enre cromosomas no homólogos y hace reerencia a la unión de una región de un cromosoma con oro (ranslocación no recíproca) o al inercambio de segmenos enre dos cromosomas (ranslocación recíproca). Esos evenos de ranslocación se deben a rupuras en la doble cadena del ADN en dos lugares 25
disinos, seguido por la reinserción de los segmenos en oro lugar. Una ranslocación se considera balanceada si hay un inercambio equivalene de maerial genéico enre los cromosomas, o desbalanceada si la ranslocación produce una deleción o duplicación de segmenos genéicos. Oro ipo de rearreglo esá represenado por las inversiones. En una inversión, un segmeno cromosómico sure una roación de 180°, debido a un eveno de recombinación en un mismo cromosoma o a rupuras en la doble cadena del ADN en dos lugares disinos y a la liberación de la región cromosómica, seguido por la reinserción del segmeno en una orienación dierene a la original. Un cambio en el orden de los genes en un segmeno inverido no necesariamene implica una aleración en el enoipo, a no ser que el puno de rupura en el ADN se haya producido al inerior de un gen, que se alere la regulación y expresión de un gen o grupo de genes en el segmeno inverido, o que la inversión se presene en esado homocigoo. Un úlimo ipo de rearreglo corresponde a variaciones en el número de cromosomas, incluyendo la ausencia o copia adicional de un cromosoma compleo (aneuploidía) o la presencia de más de dos juegos cromosómicos compleos (poliploidía). Un organismo con un solo juego cromosómico se denomina haploide, un organismo con dos juegos es un diploide y un organismo con juegos cromosómicos adicionales es poliploide. La aneuploidía generalmene iene repercusiones graves sobre el enoipo, ocasionando enermedades genéicas graves e incluso inviabilidad del embrión dependiendo de la nauraleza del cromosoma ausene o con copia adicional.
1.4.2. Tasas de mutación Teniendo en cuena que las muaciones son la base de la evolución de los seres vivos, es imporane el conocimieno de las asas de muación en los dierenes linajes de los seres vivos. La asa de muación es una medida de la ocurrencia de cambios en el maerial genéico a ravés del iempo. La acumulación de muaciones y la asa de muación en las poblaciones son imporanes para evaluar el esado y salud genéica de las mismas. Exise una relación inversamene proporcional enre la asa de muación y el amaño del genoma, la cual es aplicable para virus, procarioas y eucarioas unicelulares. Por el conrario, los organismos mulicelulares presenan una relación direcamene proporcional enre la asa de muación y el amaño del genoma. Los procarioas presenan mayores niveles de fidelidad en los procesos de replicación, ranscripción y raducción que los eucarioas. No obsane, a dierencia de los eucarioas, las procarioas y los virus acumulan un mayor número de muaciones en menor iempo debido en gran pare a sus coros iempos generacionales, por lo cual sus poblaciones evolucionan más rápidamene que las de los eucarioas con mayores iempos generacionales. En los organismos unicelulares y mulicelulares, la asa de muación por base replicada -10 es de similar magniud (10 -9 - 10 ), por lo ano, en unción del amaño del genoma se 26
Conceptos en Ciencias Ómicas
observa que a mayor amaño de ese, mayor número de muaciones por genoma replicado. De lo conrario, los virus presenan las mayores asas de muación con respeco a los demás organismos, aunque ienen los genomas más pequeños; en paricular los virus de ARN acumulan un número elevado de muaciones por genoma replicado con respeco a los demás, incluso oros virus de ADN. Como caso especial, los virus con genomas de ARN presenan asas de muación en órdenes de magniud más alas que las asas para procarioas, eucarioas e incluso virus -3 de ADN, con valores enre 10 -6 y 10 de asa de muación por base replicada. Los virus de ARN presenan alas recuencias de muaciones debido a la ausencia de enzimas ARN exonucleasas que corrigen errores durane la replicación, y eso sumado a evenos de recombinación y alas asas de replicación, repercue en que la asa de evolución de los virus de ARN sea millones de veces más rápida que la de sus hospederos eucarioas, permiiendo una mayor diversificación y adapación a presiones del ambiene. Por ejemplo, el ADN humano requiere periodos de iempo a escala geológica para evolucionar al mismo nivel que los virus de ARN, los cuales evolucionan durane una sola generación humana.
1.4.3. Epigenética como fuente adicional de variación genética Exise un ipo de variación genéica que no radica en cambios en la secuencia del ADN, sino que iene oro origen en el genoma. Gemelos monocigoos con la misma secuencia de ADN pueden exhibir enoipos dierenes, pero ¿a qué se debe esa variación?, ¿es suscepible de ser heredada? En pare, la respuesa yace en la epigenéica, más precisamene, en los cambios heredables en la expresión de los genes, más no en la secuencia de los mismos. Es decir, la epigenéica es una uene de variación que involucra la modificación de las bases nucleoídicas del ADN, que aeca la orma en que son ‘leídos’ los genes, acivando o desacivando genes (Allis & Jenuwein, 2016; Chadwick, 2015; Corini e al., 2016). Los evenos epigenéicos ocurren de manera normal en las células; a ese respeco, conribuyen a que exisan dierenes ipos de células en los organismos, que llevan a cabo dierenes procesos celulares y son enoípicamene dierenes, aunque odas las células conienen la misma secuencia de maerial genéico. Los mecanismos que paricipan en la epigenéica, que dan lugar a la expresión dierencial de los genes por modificación de la ranscripción de los mismos, incluyen meilaciones, modificaciones de las hisonas, ARN de inererencia y elemenos ransponibles. A coninuación, se describe cada uno:
Metilación del ADN Consise en la adición enzimáica de un grupo meilo al ADN, por acción de un ipo de ADN meilranserasa. Es un proceso con ala especificidad que ocurre en siios CpG, que hacen reerencia a la ubicación de una ciosina adyacene a una guanina unidas por un osao.
27
Modificaciones de histonas Las hisonas son proeínas acopladas al ADN en el núcleo, sobre las cuales se enrolla el ADN para consiuir la cromaina. Las modificaciones pos-raduccionales de las hisonas repercuen en la organización de la cromaina y, por consiguiene, en las regiones del ADN que quedarán accesibles para ser ranscrias y expresadas. Esas modificaciones comprenden aceilaciones, meilaciones, osorilaciones y ubiquiinaciones. Las meilaciones pueden acivar o desacivar una región de la cromaina para la ranscripción dependiendo de la región donde ocurren; mienras que las aceilaciones y ubiquiinaciones generalmene esán asociadas a cromaina aciva y las desaceilaciones con cromaina inaciva. Un ejemplo de la imporancia de las modificaciones de hisonas como mecanismo epigenéico es la paricipación en la inacivación de uno de los cromosomas X en las hembras, con el fin de eviar eecos de dosis génica por la presencia de dos copias de ese cromosoma (Brockdorff, 2011).
ARN de interferencia (ARNi) Consiuye el silenciamieno ransiorio de genes por acción de moléculas coras de ARN que pueden inhibir la raducción de moléculas de ARNm o inacivar la ranscripción de genes por esrucuración de la cromaina. En el primer caso, moléculas coras de ARN encuenran complemenariedad con ranscrios de ARNm (ormando ARNs de doble cadena o dsARN) y se acoplan a proeínas específicas, ormando un complejo de silenciamieno inducido por ARN (ARN-induced silencing complex, o RISC), que lleva a cabo la degradación del ARNm impidiendo la raducción a proeína. El segundo caso de ARNi involucra la ineracción de un complejo proeico en el núcleo que se une a moléculas coras de ARN e ineracúa con residuos meilados de hisonas, dando lugar a un complejo ranscripcional de silenciamieno inducido por ARN ( ARN-induced ranscripional silencing, o RITS). Enre las moléculas de ARN que paricipan en esas unciones se encuenran los small inerering ARNs (siARN) y microARNs.
Elementos transponibles Los elemenos ransponibles son secuencias móviles en el ADN que pueden conener promoores, aisladores y señales involucradas en la regulación de la expresión génica, los cuales ienen la capacidad de inegrarse en dierenes regiones del genoma. De esa manera, pueden aecar la expresión génica a nivel epigenéico por inervención en los siios promoores de iniciación de la ranscripción.
28
Conceptos en Ciencias Ómicas
1.5. Referencias Allis, C. D., & Jenuwein, T. (2016). The molecular hallmarks o epigeneic conrol. Naure Reviews Geneics, 17 (8), (8), 487–500. htps://doi.org/10.1038/nrg.2016.59. Balin, S. J., & Cascalho, M. (2009). The rae o muaion o a single gene. Nucleic Acids Research, 38 (5), (5), 1575–1582. htps://doi.org/10.1093/nar/gkp1119. Barrick, J. E. (2016). Wha is he muaion rae rae during genome replicaion? replicaion? Cell Biology by he Numbers.
Barel, D. P. (2009). MicroRNAs: Targe Recogniion and Regulaory Funcions. Cell, 136(2), 215–233. htps://doi.org/10.1016/j.cell.2009.01.002. Benley, S. D., & Parkhill, J. (2004). Comparaive genomic srucure o prokaryoes. Annual Review o Geneics, 38 (13), (13), 771–792. htps://doi.org/10.1146/annurev. gene.38.072902.094318. Bermudez-Sanana, C., Atolini, C. S.-O., Kirsen, T., Engelhard, J., Prohaska, S. J., Seigele, S., y Sadler, P. F. F. (2010). Genomic organizaion o eukaryoic RNAs. BMC Genomics, 11, 270. htps://doi.org/10.1186/1471-2164-11-270. Brockdorff, N. (2011). Chromosome silencing mechanisms in X-chromosome inacivaion: unknown unknowns. Developmen, 138 (23), (23), 5057–5065. htps://doi. org/10.1242/dev.065276. Campbell, C. D., & Eichler, E. E. (2013). Properies and raes o germline muaions in humans. Trends in Geneics, 29 (10), (10), 575–584. htps://doi.org/10.1016/j. ig.2013.04.005. Cech, T. R., & Seiz, J. A. (2014). The Noncoding RNA Revoluion- Trashing Old Rules o Forge New Ones. Cell, 157 (1), (1), 77–94. htps://doi.org/10.1016/j.cell.2014.03.008. Chadwick, B. P. (Ed.). (2015). Epigeneics: Curren research and emerging rends. Poole: Caiser Academic Press. htps://doi.org/doi.org/10.21775/9781910190074. Corini, R., Barbi, M., Car, B. R., Lavelle, C., Lesne, A., Mozziconacci, J., & Vicor, J. M. (2016). The physics o epigeneics. Reviews o Modern Physics, 88 (2), (2), 1- 29. htps:// doi.org/10.1103/RevModPhys.88.025002. Daniell, H., Lin, C.-S., Yu, M., & Chang, W.-J. (2016). Chloroplas genomes: diversiy, evoluion, and applicaions in geneic engineering. Genome Biology, 17 (1), (1), 134. htps://doi.org/10.1186/s13059-016-1004-2. De Koning, A. P. J., Gu, W., Casoe, T. A., Bazer, M. A., y Pollock, D. D. (2011). Repeiive elemens may comprise over Two-Thirds Two-Thirds o he human genome. PLoS Geneics, 7 (12). (12). htps://doi.org/10.1371/journal.pgen.1002384. Drake, J. W., W., & Holland, J. J. (1999). Muaion raes among RNA viruses. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, A merica, 96 (24), 13910- 3. htps://doi.org/10.1073/pnas.96.24.13910. Dupon, C., Arman, D. R., & Brenner, C. A. (2009). Epigeneics: Ep igeneics: Definiion, mechanisms and clinical perspecive. Seminars in Reproducive Medicine, 27 (5), 351– 357. htps:// doi.org/10.1055/s-0029-1237423. Ekblom, R., & Wol, J. B. W. (2014). A field guide o whole-genome sequencing, assembly and annoaion. Evoluionary Applicaions, 7 (9), (9), 1026– 1042. htps://doi. org/10.1111/eva.12178. 29
Elena, S. F., & Sanjuán, R. (2005). Adapive Value o High Muaion Raes o RNA Viruses : Separaing Causes rom Consequences. Journal o Virology, 79 (18), (18), 1155511558. htps://doi.org/10.1128/JVI.79.18.11555. Fischer, S., Bernard, S., Beslon, G., & Knibbe, C. (2014). A model or genome size evoluion. Bullein o Mahemaical Biology, 76 (9), 2249–2291. htps://doi. org/10.1007/s11538-014-9997-8 Francioli, L. C., Polak, P. P., Koren, A., Menelaou, A., Chun, S., Renkens, I., … Sunyaev, S. R. (2015). Genome-wide paterns and properies o de novo muaions in humans. Naure Geneics, 47 (7), (7), 822–826. htps://doi.org/10.1038/ng.3292. Geslain, R., & Pan, T. (2011). RNA: Vas reservoir o RNA molecules wih unexpeced regulaory uncion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 108 (40), (40), 16489 - 16490. htps://doi.org/10.1073/pnas.1113715108. Goodenbour, J. M., & Pan, T. (2006). Diversiy o RNA genes in eukaryoes. Nucleic Acids Research, 34 (21), 6137–6146. htps://doi.org/10.1093/nar/gkl725. Griffihs, A., Gelbar, W., Lewonin, R., & Miller, J. (2002). Modern Geneic Analysis. New York: W Freeman and Co. Holland, J., Spindler, K., Horodyski, F., Grabau, E., Nichol, S., & VandePol, S. (1982). Rapid evoluion o RNA genomes. Science (New York, N.Y.), 215 (4540), (4540), 1577- 85. htps://doi.org/10.1126/science.7041255. Hori, H., Tomikawa, C., Hiraa, A., Toh, Y., Tomia, K., Ueda, T., & Waanabe, K. (2014). Transer RNA Synhesis and Regulaion. In Encycopledia o Lie Sciences eLS (pp. 1–17). Ld. htps://doi.org/10.1002/9780470015902.a0000529.pub2. Hou, Y., Y., & Lin, S. (2009). Disinc gene number-genome size relaionships or eukaryoes and non-eukaryoes: Gene conen esimaion or dinoflagellae genomes. PLoS ONE, 4(9). htps://doi.org/10.1371/journal.pone.0006978. Kirchner, S., & Ignaova, Z. (2015). Emerging roles o RNA in adapive ranslaion, signalling dynamics and disease. Naure Reviews Geneics, 16, 98 - 112. htps://doi. org/10.1038/nrg3861. Krebs, J. E., Goldsein, E. S., & Kilparick, S. T. (2013). Lewin’s Genes. Unied Saes: Jones & Barlet Learning. Ku, C.-S., Vasiliou, V., & Cooper, D. N. (2012). A new era in he discovery o de novo muaions underlying human geneic disease. Human Genomics, 6 (1), 27. htps:// doi.org/10.1186/1479-7364-6-27. Li, Y., & Zhou, H. (2009). RNAs as regulaors in gene expression. Science in China Series C: Lie Sciences, 52 (3), (3), 245–252. htps://doi.org/10.1007/s11427-009-0039-y htps://doi.org/10.1007/s11427-009-0039-y.. Lodish, H., Berk, A., Kaiser, C. A., Krieger, M., Brescher, A., Ploegh, H., … Scot, M. P. Biology.. New York: W Freeman and Co. (2012). Molecular Cell Biology López-Flores, I., & Garrido-Ramos, M. A. (2012). The repeiive DNA conen o eukaryoic genomes. Genome Dynamics, 7 , 1–28. htps://doi.org/10.1159/000337118. Lynch, M. (2010a). Evoluion o he muaion rae. Trends in Geneics, 26 (8), 345–352. htps://doi.org/10.1016/j.ig.2010.05.003. Lynch, M. (2010b). Rae, molecular specrum, and consequences o human muaion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America,
107(3), 961–8. htps://doi.org/10.1073/pnas.0912629107. 30
Conceptos en Ciencias Ómicas
Malone, C. D., & Hannon, G. J. (2009). Small RNAs as Guardians o he Genome. Cell, 136(4), 656- 668. htps://doi.org/10.1016/j.cell.2009.01.045. Mehrora, S., & Goyal, V. (2014). Repeiive Sequences in Plan Nuclear DNA: Types, Disribuion, Evoluion and Funcion. Genomics, Proeomics and Bioinormaics, 12 (4), (4), 164–171. htps://doi.org/10.1016/j.gpb.2014.07.003. Miller, G. (2010). The Seducive S educive Allure o Behavioral Epigeneics. Science, 329, 24 - 27. htps://doi.org/10.1126/science.329.5987.24. Milo, R., Jorgensen, P., Moran, U., Weber, G., & Springer, M. (2009). BioNumbers The daabase o key numbers in molecular and cell biology. Nucleic Acids Research, 38 (SUPPL.1), (SUPPL.1), 750–753. htps://doi.org/10.1093/nar/gkp889. Ørom, U. A., & Shiekhatar, R. (2013). Long Noncoding RNAs Usher In a New Era in he Biology o Enhancers. Cell, 154(6), 1190–1193. htps://doi.org/10.1016/j. cell.2013.08.028. Palazzo, A. F., & Lee, E. S. (2015). Non-coding RNA: wha is uncional and wha is junk? Froniers in Geneics, 6, 2. htps://doi.org/10.3389/gene.2015.00002. Parisien, M., Wang, X., & Pan, T. (2013). Diversiy o human RNA genes rom he 1000-genomes projec. RNA Biology, 10(12), 1853–1867. htps://doi.org/10.4161/ rna.27361. Parra, G., Bradnam, K., Ning, Z., Keane, T., T., & Kor, I. (2009). Assessing he gene space in draf genomes. Nucleic Acids Research, 37 (1), (1), 289–297. htps://doi.org/10.1093/ nar/gkn916. Poning, C. P., Oliver, P. L., & Reik, W. (2009). Evoluion and Funcions o Long Noncoding RNAs. Cell, 136(4), 629–641. htps://doi.org/10.1016/j.cell.2009.02.006. Raina, M., & Ibba, M. (2014). TRNAs as regulaors o biological processes. Froniers in Geneics, 5 (JUN), (JUN), 1 - 14. htps://doi.org/10.3389/gene.2014.00171. Sander, J. D., & Joung, J. K. (2014). CRISPR-Cas sysems or ediing, regulaing and argeing genomes. Na Bioech, 32 (4), (4), 347–355. Recuperado de htp://dx.doi. org/10.1038/nb.2842. Tchurikov Tc hurikov,, N. A. (2005). Molecular mechanisms o epigeneics. Biochemisry (Moscow), 70(4), 406 - 423. htps://doi.org/10.1007/s10541-005-0131-2. Treangen, Tr eangen, T. J., & Salzberg, S. L. (2012). Repeiive DNA and nex-generaion sequencing: compuaional challenges and soluions. Naure Reviews. Geneics, 13 (1), (1), 36 - 46. htps://doi.org/10.1038/nrg3117. Velman, J. a, & Brunner, H. G. (2012). De novo muaions in human geneic disease. Naure Reviews. Geneics, 13 (8), (8), 565–75. htps://doi.org/10.1038/nrg3241. Weinhold, B. (2006). Epigeneics: he science o change. Environmenal Healh Perspecives., 114 (3), A160–A167. htps://doi.org/10.1289/ehp.114-a160. Wilson, D. N., & Cae, J. H. D. (2012). The Srucure and Funcion o he Eukaryoic Ribosome. Cold Spring Harbor Perspec Biol, 4, a011536. htps://doi.org/10.1101/ cshperspec.a011536. Woodhams, M. D., Sadler, P. F., Penny, D., & Collins, L. J. (2007). RNase MRP and Biology,, he RNA processing cascade in he eukaryoic eukar yoic ancesor. BMC Evoluionary Biology 7 (Suppl (Suppl 1), S13–S13. htps://doi.org/10.1186/1471-2148-7-S1-S13. Yandell, M., & Ence, D. (2012). A beginner’s guide o eukaryoic genome annoaion. Naure Rev Gene, 13(5), 329–342. htps://doi.org/10.1038/nrg3174. 31
2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ROMAIN GUYOT SIMÓN OROZCO-ARIAS ANDREA GONZÁLEZ MUÑOZ MARCO AURELIO CRISTANCHO ARDILA
2.1. Orígenes e historia de la bioinformática La bioinormáica es un campo cienífico muy nuevo (de unas pocas décadas) y sus orígenes aún no esán claros. Además, la verdadera definición y áreas de aplicación de la bioinormáica no esán bien definidas ni comprendidas por numerosos cieníficos. La principal explicación para esa conusión en sus orígenes y definiciones radica en que la bioinormáica es un campo híbrido derivado de diversas disciplinas, ales como la genéica, biología, genómica, bioquímica, inormáica, maemáica, enre oras. La definición cora para la bioinormáica puede ser el uso de la inormáica para manejar y analizar la inormación biológica. En el 2001, el Cenro Nacional de Inormación en Bioecnología (NCBI, por sus siglas en inglés) definió claramene bioinormáica como: La bioinormáica es concepualizar la biología en érminos de las macromoléculas (en el senido ísico-químico) y luego aplicar écnicas “inormáicas” (derivadas de disciplinas como las maemáicas aplicadas, ciencia compuacional y esadísica) para enender y organizar la inormación asociada con esas moléculas a gran escala (Luscombe e al, 2001). No obsane ¿cuándo ue creada la bioinormáica y qué ipo de inormación permie enender y organizar? En la era de la secuenciación de genomas y ranscripomas a gran escala, la ercera generación de ecnologías de secuenciación y la compuación en la nube, es ineresane rasrear el origen y la hisoria de la bioinormáica. En ese capíulo describiremos brevemene su hisoria y veremos numerosos concepos y herramienas descrios y esablecidos hace más de 40 años por cieníficos pioneros. ¿Esán esas herramienas y concepos adapados a los nuevos desaíos de la secuenciación de alo rendimieno?
2.1.1. Nacimiento de la Bioinformática: convergencia de información biológica, teoría evolutiva y computadores Los orígenes e hisoria de la bioinormáica esán cercanamene relacionados con la disponibilidad de inormación biológica a “gran escala” (moléculas biológicas: proeínas y nucleóidos) y la disponibilidad de compuadores y lenguajes de programación para invesigadores académicos. Esa convergencia se logró en 1960 cuando surgieron las primeras proeínas secuenciadas, los compuadores y lenguajes de programación 32
Conceptos en Ciencias Ómicas
accesibles a no inormáicos. La primera proeína secuenciada ue realizada por Frederick Sanger (1955), la insulina bovina, de 51 aminoácidos, mienras el primer méodo de secuenciación de nucleóidos ue esablecido por Ray Wu de la Universidad de Cornell, obeniéndose las primeras secuencias en 1970-1971. Rápidamene, se esablecieron las meodologías y écnicas para secuenciar proeínas y poseriormene nucleóidos (Méodos de secuenciación de nucleóidos de Sanger, Maxam y Gilber en 1977). Además del mejoramieno écnico de la secuenciación, la eoría general que sugería que las moléculas (proeínas y nucleóidos) podrían ser poradoras de inormación biológica y evoluiva se expandió por la comunidad cienífica (Hagen, 2000). En 1954, surgió uno de los lenguajes de programación de alo nivel de más amplia acepación cienífica, denominado Forran, que ue desarrollado por Backus e IBM, y liberado por IBM en 1957. Forran ue considerado de ácil aprendizaje por cieníficos, incluso es usado hoy en día. Poserior a esa convergencia, aparecen los primeros programas bioinormáicos para deerminar las secuencias de aminoácidos, las primeras bases de daos y herramienas para exraer inormación de esas. Adicionalmene, el código de aminoácidos de una sola lera ue desarrollado y liberado por Margare Dayhoff de la Fundación Nacional de Invesigación Biomédica (NBRF, por sus siglas en inglés) (Dayhoff, 1965; Dayhoff, 1974; Dayhoff e al., 1980; Orcut & Dayhoff, 1983). Margare Dayhoff y sus colegas ambién organizaron proeínas en amilias de acuerdo a sus similiudes, mediane el desarrollo de la primera mariz de similiud (PAM) y describieron méodos para predecir relaciones evoluivas, creando de aco la nueva rama cienífica de la evolución molecular. Por odos esos logros pioneros, Margare Dayhoff es considerada la undadora del campo de la bioinormáica en sus definiciones modernas (en 1980 desarrolló incluso un sisema de bases de daos en línea al que se podía acceder vía línea eleónica, la primera base de daos de secuencias disponible para la búsqueda desde compuadores remoos). Aunado a lo anerior, la base de daos pionera de Margare Dayhoff –llamada el “Alas de Secuencia y Esrucura Proeica” – ue usada para esablecer en 1984 la base de daos PIR (Recurso de Inormación de Proeína), que aún es usada 33 años después por numerosos cieníficos en odo el mundo. La relaiva acumulación de inormación biológica en los años 70 y 80 llevó al desarrollo de bases de daos de secuencias de ADN. GenBank ue undada en 1979 por Waler Goad (la ercera liberación de GenBank en 1982 enía 606 secuencias, conrasado con las ~201 millones a hoy). El EMBL ue undado en 1980 en el Laboraorio Europeo de Biología Molecular y el DDBJ ue creado en 1984 (Banco de daos de ADN de Japón). Más adelane, herramienas de búsqueda como Enrez (Sisema de búsqueda global en base de daos cruzada) ueron desarrolladas para permiir búsquedas rápidas en bases de daos vía ineraz web y palabras clave.
33
Por lo ano, con la primera base de daos de secuencias proeicas y los rabajos pioneros de homología de proeínas surgió un gran inerés en deecar homología y similiud esadísicamene significaiva enre proeínas lejanamene relacionadas, creando herramienas y algorimos para los alineamienos de secuencias (desarrollados inicialmene en los años 70). El algorimo Needleman y Wunsch, que coninúa siendo un méodo esándar y preciso para alinear dos secuencias, ue desarrollado para enconrar un alineamieno ópimo mediane un enoque de venana corrediza o sliding window (usando programación dinámica) (Needleman & Wunsch, 1970). Dicho alineamieno se conoce ahora como “alineamieno global” enre dos secuencias, pueso que el algorimo preende enconrar un alineamieno ópimo enre odos los residuos de las dos secuencias. Más adelane, Smih y Waerman ambién esudiaron y desarrollaron méodos de alineamieno local (Smih & Waerman, 1981), que consisieron en idenificar y alinear subregiones de secuencias basado en un sisema de punuación usando una mariz de similiud y un sisema de punuación de gaps. Poseriormene, los algorimos de alineamieno múliple (más de dos secuencias) ueron desarrollados por Johnson & Doolitle (1986), y esán basados en alineamienos sucesivos enre el par de secuencias más cercanas, que ahora son comúnmene usados como paso inicial para esudios filogenéicos. Ora convergencia basada en el desarrollo de bases de daos de secuencias (GenBank, EMBL y DDBJ), así como los algorimos para realizar alineamienos globales y locales y el descubrimieno de dierenes organismos que comparen homología de secuencia, promovieron el desarrollo de herramienas para la búsqueda de homología de secuencia en bases de daos. De esa orma, se desarrollaron FASTA y BLAST en 1988 y 1990, respecivamene, los cuales proporcionaron un méodo rápido para enconrar ramos coros de secuencias en grandes bases de daos de secuencia. La aplicación BLAST, acualmene usada en numerosos siios web, hace pare de las herramienas bioinormáicas más populares, ciada más de 50000 veces en arículos cieníficos y consiuye una de las más uilizadas por los cieníficos. Desde los años 80, la secuenciación de ADN, que se hizo popular en los laboraorios de biología molecular de odo el mundo, juno con el desarrollo de algorimos y bases de daos, llevaron a la deerminación de los cieníficos de disponer de programas capaces de manipular y analizar secuencias individuales o en conjuno. En los inicios, el Grupo de Compuación Genéica de la Universidad de Wisconsin (UWGCG) desarrolló un primer conjuno de programas sobre compuadores VAX (Devereux, Haeberli & Smihies, 1984) para analizar y manipular secuencias. Más arde, se hizo disponible una suie comercial de 130 programas para el análisis de secuencias (ambién llamado el Paquee Wisconsin (Wisconsin PackageTM) (Womble, 1999)). Con su insalación en un servidor Unix y disponibilidad vía remoa por erminal de línea de comandos, GCG ue muy popular para proyecos que abarcaban un gran número de
34
Conceptos en Ciencias Ómicas
secuencias, mediane el uso de una sucesión de programas. Una suie de programas bioinormáicos libre y equivalene a GCG ue la llamada EMBOSS (Suie Europea de Sofware Libre para Biología Molecular) ( European Molecular Biology Open Sofware Suie ), creada en 1998 con un espíriu de código abiero (Rice, Longden & Bleasby, 2000) 1. Esa suie de programas reemplazó a GCG en un gran número de siios en el mundo. Finalmene, en los años 2000 los proyecos de secuenciación de genoma compleo de organismos eucarioas y procarioas (ales como levadura (Goffeau e al., 1996), Arabidopsis (Kaul e al., 2000) y humano (Lander e al., 2001)) llevaron a una revolución oal en el campo de la bioinormáica con el acelerado desarrollo de herramienas capaces de analizar y ensamblar miles de secuencias, juno con herramienas para anoar y analizar genomas compleos. Fue en ese momeno en que la bioinormáica salió del lado oscuro de la ciencia y se hizo ampliamene popular y esencial para las ciencias biológicas. Enre odos los insiuos que pariciparon en el desarrollo de la bioinormáica en los años 1990-2000, cabe desacar como pionero el Insiuo para Invesigación Genómica (TIGR, por sus siglas en inglés), undado por Craig Vener en 1992 (ahora inegrado al Insiuo J. Craig Vener, htp://www.jcvi.org/cms/home/), que paricipó en el desarrollo de algorimos pioneros para el ensamblaje y anoación de genomas, y orece cursos prácicos en genómica, bioinormáica para esudianes y cieníficos de odo el mundo. En ese capíulo hemos viso que numerosos concepos y herramienas que esaban disponibles desde inicios de los años 70 y 80 permiieron el desarrollo de la bioinormáica en el conexo del análisis de cienos a miles de secuencias (Figura 2.1). Acualmene exisen más de 201 millones de enradas en GenBank (que represenan más de 234 Giga pares de bases (Gpb)), 487 millones de secuencias en la división de proyecos de Whole genome shogun (WGS) (que represenan 2164 Gpb), juno con mucha más inormación almacenada en el sisema reposiorio de lecuras de secuencia Sequence Read Archive (SRA) del NCBI (más de 100 Tera pb (Tpb) para el 2011). Esos valores se duplican cada 18 meses. Esa canidad de inormación, más lo que se producirá con las nuevas ecnologías de secuencias, consiuye uno de los reos de la bioinormáica, en érminos del desarrollo de bases de daos y herramienas de análisis. Se esima que para el año 2025 se endrán daos de secuencia de al menos 1 billón de seres humanos, sin conar los daos que se obendrán a parir de oros grupos de organismos (Sephens e al., 2015). Los reos que se presenan para una ciencia como la bioinormáica ane esa avalancha de daos son enormes en el desarrollo de sisemas eficienes de ranserencia, análisis, visualización y almacenamieno de daos.
1 Inormación disponible en htp://emboss.sourceorge.ne.
35
Primera secuencia proteica (insulina bovina) por F. Sanger
Alineamiento global Needlman & Wunsch
Primera colección de secuencias proteicas (M. Dayho)
1955
1960
1965
Un sistema de base de datos de proteínas "en línea"
Técnicas de secuenciación de ADN Sanger
1970
Alineamiento local Smith & Waterman
1975
1980
Primer modelo probabilístico de evolución proteica PAM (M. Dayho)
Genoma de Arabidopsis ~20000 genomas secuenciados
Genoma de la levadura
1985
1990
1995
2000
2005
2010
2015
Base de datos PIR DDBJ Primeros programas CGC
Construcción de árboles logenéticos (Fitch & Margoliash)
Liberación del lenguaje de programación Fortran
Genoma humano
Alineamientos múltiples
GenBank
Primer microprocesador Intel 4004
EMBL Fundación de Microso
Protocolo TCP
FASTA BLAST
EMBOSS
Creación de la WWW
Figura 2.1. Línea del iempo del origen de la bioinormáica.
2.2. Bioinformática y biología computacional: hardware, sistemas operativos, sistemas de conectividad, lenguajes de programación, bases de datos y repositorios La bioinormáica hace pare de un área mayor que es la biología compuacional, la cual involucra la combinación de las ciencias compuacionales para la solución de problemas biológicos. Como ciencia compuacional, la bioinormáica requiere del uso de ecnologías e inraesrucura de alo rendimieno para el almacenamieno, procesamieno y manipulación de daos, las cuales esán basadas en: hardware, sisemas operaivos, sisemas de conecividad y lenguajes de programación adecuados para su aplicación a grandes volúmenes de daos. Además, la bioinormáica depende ueremene de bases de daos y reposiorios para el almacenamieno, disponibilidad pública y búsqueda de oda la inormación biológica.
2.2.1. Computación de alto rendimiento (HPC) y computación en paralelo Respeco al hardware, la bioinormáica se susena acualmene en el uso de clúseres (conjuno de equipos de cómpuo, llamados nodos, unidos a ravés de una red de daos de ala velocidad, que se comporan como un solo equipo de compuación de alo 36
Conceptos en Ciencias Ómicas
rendimieno ( High Perormance Compuing HPC), o compuación en la nube, que se basa en procesamieno de daos llevado a cabo en máquinas viruales alojadas en servidores remoos (Sephens e al., 2015). Una arquiecura de clúser HPC esá compuesa generalmene por uno o varios nodos maesros, los cuales se encargan de la adminisración de oda la arquiecura, la ineracción direca con el usuario y el monioreo de servicios; varios nodos de procesamieno, que se encargan de ejecuar los procesos soliciados por el usuario; un sisema de archivos disribuido; y un esquema de inerconexión de alo rendimieno, como Eherne, Myrine o Infiniband, que permien una conexión en red veloz, con baja laencia, para ranserir daos enre nodos del clúser. Además, cada nodo esá compueso por unidades de procesamieno, bien sea solo CPUs o en combinación con GPUs y MICs, con memoria comparida y/o disribuida (Barrios, Ceballos & Bedoya, 2014). Para sacar provecho de ese ipo de inraesrucuras se deben usar esraegias de paralelismo que conemplen múliples recursos al mismo iempo, como varios CPUs de un mismo nodo, varios compuadores o incluso usar más de una ecnología de procesamieno simuláneamene (CPUs, GPUs, MICs, enre oros), a ravés de compuación paralela (Ocaña & de Olieira, 2015; Orozco-Arias e al., 2017). La ineraz de paso de mensajes (MPI) es considerada el esándar por deeco en la programación paralela (Khan, Jameel & Shafi, 2014), la cual permie la comunicación de procesos que corren en simuláneo sobre la misma máquina o incluso en dierenes nodos. Exisen dierenes paradigmas de paralelismo, ales como: ejecuar procesos independienes simuláneamene, descomponer el problema en areas y ejecuarlas en paralelo, y añadir paralelismo a nivel de insrucciones, dividiendo el problema en pasos y ejecuándolos en paralelo, cada uno procesando dierenes daos (Aguilar & Leiss, 2004). La capacidad de procesamieno de los supercompuadores acuales alcanza los peaflops 2 y ha generado impaco en innovación en dierenes áreas de la ciencia y la ingeniería, al converirse en uno de los res pilares de la ciencia (Fernández-González e al., 2015).
2.2.2. Sistema operativo Linux/UNIX Con respeco a sisemas operaivos usados para análisis bioinormáicos, es muy imporane que quien desee adenrarse en el mundo de la biología compuacional y la bioinormáica aprenda a rabajar con acilidad desde la línea de comandos de UNIX/ Linux. Una impresión que aún se conserva enre la mayoría de los usuarios de PCs es que Linux es muy complicado de insalar y de enender, pero en los úlimos años la insalación y el acceso a las dierenes disribuciones de Linux se ha simplificado dramáicamene, hasa al puno que ya no es necesario ener vasos conocimienos inormáicos para insalar alguna de esas en un compuador personal. Así mismo, ha ayudado mucho en la ransición a sisemas operaivos Linux, el hecho de que muchas de las disribuciones 2 Flops (Floaing poin operaions per second) (Operaciones de coma floane por segundo) es la unidad de medida de rendimieno en HPC.
37
esán presando especial aención a crear ineraces gráficas amigables y que no suponen un cambio drásico para usuarios radicionales. La imporancia de amiliarizarse con cualquier sisema operaivo basado en Linux radica en que la mayoría de las mejores herramienas disponibles en ese campo esán diseñadas para ser uilizadas desde la línea de comandos, debido a que permie un gran conrol sobre la orma en que se ejecua el programa, desde especificar las opciones hasa poder correr múliples rabajos al mismo iempo y ener un conrol oal de los procesos. Al respeco, en la publicación de Junio de 2017 de la reconocida lisa Top500 de las 500 supercompuadoras más rápidas del mundo, el 99,6% de esas supercompuadoras corren bajo un sisema operaivo Linux. Las supercompuadoras resanes (2) uncionan bajo un sisema operaivo IBM AIX, que es una variane del sisema UNIX.
2.2.3. Lenguajes de programación Además de un sisema operaivo que adminisre los recursos de hardware de manera eficiene, los análisis bioinormáicos ambién dependen de programas y herramienas para realizar el procesamieno y areas de análisis sobre los daos. Esos programas esán escrios en lenguajes de programación (y aunque exisen muchos), los más usados son Perl, Pyhon, Java, R, C y C++, enre oros. Un lenguaje de programación se emplea para crear programas, scrips y algorimos, y es un lenguaje ormal de compuación que permie la realización de procesos a ravés de insrucciones que son comunicadas al compuador (Ben-Ari, 2006). En ano exisen dierenes lenguajes de programación, un mismo programa desarrollado en dierenes lenguajes puede variar rene a la eficiencia y velocidad para llevar a cabo las areas (Fourmen & Gillings, 2008). Eso se debe a que los lenguajes pueden variar en cuano a la orma de ser implemenados (compilados o inerpreados), el paradigma que siguen (imperaivos, declaraivos u orienados a objeos) y la orma de manipular daos o variables, enre muchos oros aspecos. Por lo anerior, cada lenguaje iene sus venajas y, por lo ano, es más adecuado para uno u oro fin. En ese senido, Perl es un lenguaje poene para escribir scrips; Pyhon es un lenguaje de ácil codificación; Java es un lenguaje porable orienado a objeos; R es un lenguaje y ambiene para compuación esadísica; finalmene, C y C++ son muy eficienes en sisemas operaivos y conroladores. De esa manera, la programación en bioinormáica deermina varios aspecos compuacionales en un análisis de daos, como espacio de memoria y almacenamieno requerido, velocidad de compuación y vinculación enre dierenes programas involucrados en un mismo análisis global (implemenado en los llamados pipelines o flujos), enre oros (Fourmen & Gillings, 2008).
38
Conceptos en Ciencias Ómicas
2.2.4. Bases de datos y repositorios ¿Cuána inormación hay disponible? Si nos basáramos en los daos de secuencias de genes obenidos hasa ahora –201663568– se requerirían aproximadamene unos 20 exabyes de espacio de almacenamieno [un exabye equivale a 200000 películas de Bluray], desde que Genbank hizo accesible su base de daos de secuencias de ADN en 1992. Sin embargo, con las nuevas ecnologías de secuenciación masiva esos daos rápidamene se han converido en el doble de secuencias – 487891767–, generadas en an solo 15 años. ¿Dónde se almacena oda esa inormación? La inormación exisene acualmene se almacena, procesa, usa y maniene en bases de daos que se incremenan por la incorporación de secuencias proporcionadas por invesigadores de odas pares del mundo. Esas bases de daos son accesibles desde cualquier lugar del mundo a ravés de Inerne y conienen inormación no solo de secuencias de ADN o secuencias proeicas, sino que ienen asociada oda una colección de publicaciones y exos cieníficos. Las secuencias de ADN se manienen en res grandes bases de daos que sirven a la comunidad cienífica: EMBL (European Molecular Biology Laboraory); GenBank (he NIH geneic sequence daabase) y DDBJ (DNA Daabase o Japan). La más reciene edición especial de la revisa cienífica Nucleic Acids Research describe que exisen al menos 1685 bases de daos de biología molecular (Rigden, Fernández-Suárez & Galperin, 2015), lo que demuesra la explosión de daos con que cuenan los invesigadores de las áreas de las ciencias biológicas.
2.3. ‘Big Data’ en Bioinformática Hemos viso que la bioinormáica esá orienada al análisis de los daos que se producen en las ciencias ómicas, las cuales incluyen la genómica, ranscripómica, meagenómica, proeómica, meabolómica, enre oras. En conjuno, esas ómicas componen un conocimieno exensivo e inegral de los sisemas biológicos a dierenes niveles y represenan canidades masivas de inormación, hasa al puno que la canidad de daos biológicos exisene acualmene alcanza los exabyes (EB), equivalene a 10 6 Terabyes (TB) (Li & Chen, 2014). Por esa razón, se habla acualmene de ‘Big Daa’ en bioinormáica, por lo cual esa disciplina se esá enrenando a los desaíos ecnológicos que surgen a la hora de adquirir, almacenar, disribuir, analizar e inegrar Big Daa para la exracción de nuevo conocimieno. Big Daa se ha definido como odo el conjuno de daos que no se pueden procesar o analizar uilizando procesos o herramienas radicionales como bases de daos relacionales o ablas de Excel. Así, la bioinormáica se ha enrenado al reo de opimizar procesos en relación con el manejo del volumen de daos, la velocidad de procesamieno de los daos y la variabilidad inherene a los daos biológicos. Traar con Big Daa en biología es esencial, pueso que la nauraleza compleja y heerogénea de un sisema biológico ameria
39
invesigaciones que abarquen grandes amaños de muesra e inegren daos de dierenes niveles biológicos, con el fin de obener una visión global y dinámica de los procesos y enómenos biológicos. Un aspeco que ha conribuido a la acelerada producción de daos ha sido la posibilidad de que invesigadores pariculares puedan generar grandes volúmenes de daos de secuencia, lo cual hace una década requería de una red de cenros de secuenciación (McCulloch, 2013). A ese respeco, el proyeco de secuenciación del genoma humano represenó un esuerzo de 13 años de rabajo y la colaboración inernacional de invesigadores cieníficos de dierenes cenros de invesigación alamene reconocidos, con un presupueso aproximado de 2,7 mil millones de dólares, financiado principalmene por los Insiuos Nacionales de Salud (Naional Insiues o Healh NIH) y el Deparameno de Energía (Deparmen o Energy DOE) de los Esados Unidos, así como por oros grupos a nivel mundial. Acualmene, un grupo de invesigación pequeño puede obener un genoma humano secuenciado en an solo 26 horas y por un coso cercano a los $1000 dólares. Ese panorama ha empoderado a invesigadores en odo el mundo para poder realizar invesigaciones cieníficas a nivel ómico, permiiendo la disponibilidad de daos que lleven a ormular diversas pregunas de invesigación a parir de los mismos, en comparación con la generación de daos para responder una preguna deerminada (McCulloch, 2013). Exisen cinco ipos principales de daos en bioinormáica, a saber: daos de expresión génica; daos de secuencia de ADN, ARN y proeínas; daos de ineracción proeínaproeína; daos de vías meabólicas y daos de Gene Onology (Kashyap e al., 2014). Por consiguiene, la bioinormáica ambién cumple la unción de conribuir con reposiorios y bases de daos para oda esa variedad de inormación biológica, además de proporcionar mejores recursos y herramienas compuacionales para la manipulación y análisis de daos (Sephens e al., 2015). Como vimos aneriormene, la compuación en paralelo y la compuación de alo rendimieno (HPC) –represenada en nubes, clúseres, redes y unidades de procesamieno gráfico–, implican un gran avance porque reducen el iempo oal de procesamieno de grandes volúmenes de daos y acilian el manejo de los mismos, dado que no es posible analizar Big Daa biológica en compuadores personales (Ocaña & de Oliveira, 2015). La enorme canidad de daos ómicos, inexplorados en su gran mayoría, ha conducido a un cambio de enoque en las ciencias biológicas, desde una ciencia impulsada por hipóesis a una ciencia de daos impulsada por el descubrimieno de conocimieno nuevo a parir de daos disponibles, siguiendo meodologías libres de hipóesis (Rati, 2015). Eso ha apoyado el auge de la generación de daos, pueso que un gran número de invesigaciones en años recienes se han orienado a obener secuencias de genomas, ranscripomas o proeomas compleos con el fin de explorar la inormación conenida en ellos, sin ener alguna hipóesis específica que se desee comprobar.
40
Conceptos en Ciencias Ómicas
En ese senido, la exracción e inerpreación de la inormación a parir de bases de daos y reposiorios ómicos usando algorimos bioinormáicos es de gran imporancia (Trionova e al., 2013). No obsane, con el gran volumen de daos capaces de ser generados, ambién ha surgido una ala redundancia en los daos en cada nivel analizado, lo que a su vez presena un desaío para analizar la inormación y exraer conocimieno (Sarkar, 2016). De esa orma, para Big Daa en daos biológicos, igualmene ha sido muy necesaria la aplicación de écnicas esadísicas y maemáicas para la inegración de daos, así como de esraegias para reducir el espacio de búsqueda en un conjuno grande de daos (Sarkar, 2016), con el fin de exraer inormación relevane en un conexo biológico dado, eviando perderse en un océano de Big Daa.
41
2.4. Referencias Aguilar, J.L., & Leiss, E. (2004). Inroducción a La Compuación Paralela. Mérida: ediorial venezolana. Barrios, C.J., Ceballos,D., & Bedoya, D. (2014). SC Camp 2014: Concepos Generales Sobre HPC Con Ejercicios Prácicos Aplicados a Bioinormáica. Manizales, Colombia: Memorias del SC Camp 2014. Ben-Ari, M. (2006). Undersanding Programming Languages. Chicheser: John Wiley & Sons, Ld. Dayhoff, M. O. (1974). Compuer Analysis o Proein Sequences. En Compuers in Lie Science Research (pp. 9–14) .Esados Unidos: Springer. Dayhoff, M. O., Schwarz, R. M., Chen, H. R., Hun, L. T., Barker, W. C., & Orcut, B. C. (1980). Nucleic acid sequence bank. Science, 209 (4462), 1182-1182. Dayhoff, M.O. (1965). Compuer Aids o Proein Sequence Deerminaion. Journal o Theoreical Biology, 8 (1), 97–112. Devereux, J., Haeberli, P., & Smihies, O. (1984). A Comprehensive Se o Sequence Analysis Programs or he VAX. Nucleic Acids Research, 12 (1), 387–95. Fernández, A., Rosillo, R., Dávila, J., & Maellán, V. (2015). Hisorical Review and Fuure Challenges in Supercompuing and Neworks o Scienific Communicaion. The Journal o Supercompuing, 71 (12), 4476 – 4503. Fourmen, M., & Gillings, M. (2008). A Comparison o Common Programming Languages Used in Bioinormaics. BMC Bioinormaics, 9 (1), 82. Goffeau, A., Barrell, B. G., Bussey, H., Davis, R. W., Dujon, B., Feldmann, H., & Louis, E. (1996). Lie wih 6000 Genes. Science, 274(5287), 546–567. Hagen, J.B. (2000). The Origins o Bioinormaics. Naure Reviews Geneics, 1 (3), 231– 36. Johnson, M.S., & Russell, F. D. (1986). A Mehod or he Simulaneous Alignmen o Three or More Amino Acid Sequences. Journal o Molecular Evoluion, 23 (3), 267–78. Kashyap, H., Ahmed, H. A., Hoque, N., Roy, S., & Bhatacharyya, D. K. (2015). Big Daa Analyics in Bioinormaics: A Machine Learning Perspecive. Journal o Laex Class Files, 13 (9), 1–20. Kaul, S., Koo, H. L., Jenkins, J., Rizzo, M., Rooney, T., Tallon, L. J., & Town, C. D. (2000). Analysis o he Genome Sequence o he Flowering Plan Arabidopsis Thaliana. Naure, 408 (6814), 796–815. Khan, O., Jameel, M., & Shafi, A. (2014). High Perormance Message-Passing InfiniBand Communicaion Device or Java HPC. Procedia Compuer Science, 29, 1468–79. Lander, E. S., Linon, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., ... & Funke, R. (2001). Iniial Sequencing and Analysis o he Human Genome. Li, Y., & Chen, L. (2014). Big Biological Daa: Challenges and Opporuniies. Genomics, Proeomics & Bioinormaics, 12, 187–89. Luscombe, N. M., Greenbaum, D., & Gersein, M. (2001). Wha Is Bioinormaics? A Proposed Definiion and Overview o he Field. Mehods o Inormaion in Medicine, 40(4), 346–58. 42
Conceptos en Ciencias Ómicas
McCulloch, E. S. (2013). Harnessing he Power o Big Daa in Biological Research. BioScience, 63 (9), 715–16. Needleman, S. B., & Wunsch, C. D. (1970). A General Mehod Applicable o he Search or Similariies in he Amino Acid Sequence o Two Proeins. Journal o Molecular Biology, 48 (3), 443–53. Ocaña, K., & de Oliveira, D. (2015). Parallel Compuing in Genomic Research: Advances and Applicaions. Advances and Applicaions in Bioinormaics and Chemisry, AABC (8), 23–35. Orcut, B. C., George, D. G., & Dayhoff, M. O. (1983). Proein and Nucleic Acid Sequence Daabase Sysems. Annual Review o Biophysics and Bioengineering, 12 (1), 419–41. Orozco, S., Tabares, R., Ceballos, D., & Guyo, R. (2017). Parallel Programming in Biological Sciences, Taking Advanage o Supercompuing in Genomics. En Colombian Conerence on Compuing (pp. 627–43). Cham, Alemania: Springer Inernaional Publisching. Rati, E. (2015). Big Daa Biology : Beween Eliminaive Inerences and Exploraory Experimens. Philosophy o Science, 82 (2),198–218. Rice, P., Longden, I., & Bleasby, A. (2000). EMBOSS: The European Molecular Biology Open Sofware Suie. Rigden, D.J., Fernández-Suárez, X.M., & Galperin, M.Y. (2015). The 2016 Daabase Issue o Nucleic Acids Research and an Updaed Molecular Biology Daabase Collecion. Nucleic Acids Research, 44 (D1), D1-D6. Sarkar, R.R. (2016). The Big Daa Deluge in Biology: Challenges and Soluions. Journal o Inormaics and Daa Mining 1 (2), 14. Smih, T.F., & Waerman, M.S. (1981). Idenificaion o Common Molecular Subsequences. Journal o Molecular Biology, 147 (1), 195–97. Sephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Eron, M. J., & Robinson, G. E. (2015). Big Daa: Asronomical or Genomical? PLoS Biology 13 (7), 1–11. Trionova, O. P., Il’in, V. A., Kolker, E. V., & Lisisa, A. V. (2013). Big Daa in Biology and Medicine. Aca Naurae 5 (3(18)), 13–16. Womble, D.D. (1999). GCG: The Wisconsin Package o Sequence Analysis Programs. Bioinormaics Mehods and Proocols, 3–22.
43
3. SECUENCIA SECUENCIACIÓN CIÓN ASTRID CATALINA ALVAREZ-YELA
El descubrimieno de la esrucura de doble hélice del ácido desoxirribonucleico (ADN), hecho por Wason & Crick en 1953, ue sin duda uno de los hechos más rascendenales de odos los iempos en la biología molecular. A parir de ese momeno se empezaron a descirar los procesos celulares que subyacen en el dogma cenral de la biología molecular y que deerminan las caracerísicas biológicas de los seres vivos. Desde enonces los esuerzos en invesigación se enocarían en enrar en esa doble hélice, leerla y descirar la disribución de las bases nirogenadas que habían sido descrias en 1953. En ese capíulo haremos un recorrido a ravés del iempo para conocer los méodos y écnicas bioquímicas que han sido desarrolladas para deerminar la secuencia de nucleóidos del ADN. Describiremos las principales caracerísicas de las ecnologías desarrolladas comercialmene, eniendo en cuena los méodos bioquímicos que emplean, sus rendimienos, asas de error y las venajas que orecen.
3.1. Secuenciación de primera generación 3.1.1. Secuenciación Sanger En 1977, el laboraorio de Frederick Sanger publicó el méodo de la erminación de la cadena para secuenciación de maerial genéico (Morozova & Marra, 2008), que más arde sería reconocido como el méodo Sanger, y que se convirió en el primer paso hacia un mundo de posibilidades ilimiadas en invesigación cienífica a nivel genéico. El méodo se basa en la sínesis de la cadena complemenaria de un molde de ADN en presencia de 2’, 3’-dideoxinucleóidos (ddNTPs), que acúan como erminadores de cadena irreversibles. En ese méodo el ADN que se analiza es clonado in vivo usando vecores bacerianos, para obener una canidad suficiene de la muesra. Poseriormene, el ADN se exrae de los vecores y se usa para el proceso de secuenciación en cuaro reacciones independienes. Las reacciones se llevan a cabo en cuaro ubos dierenes que conienen los reacivos de polimerización de ADN (cebadores, polimerasa, 2’-deoxinucleóidos (dNTPs), ec.) y sólo uno de los cuaro dierenes ddNTPs. Cuando un ddNTP es inroducido en la cadena, el proceso de exensión ermina y, como se desarrolla simuláneamene en las dierenes copias del genoma, se obienen ragmenos de dierenes longiudes con un úlimo nucleóido en común. Los producos de reacción son analizados en un gel de elecroore elecrooresis sis de poliacrilamida en el que se cargan en cuaro pozos y se revelan gracias a la fluorescencia incorporada en cada base. Finalmene, las bandas de corrida se analizan y la posición de cada nucleóido en el gel es regisrada para elucidar la composición de la secuencia esudiada (Kircher & Kelso, 2010). 44
Conceptos en Ciencias Ómicas
Poseriormene, dierenes avances en los insrumenos de deección y en maeriales permiieron que el méodo Sanger uviera mejoras imporanes en la canidad de daos que podía generar y en el iempo del proceso. La reacción de secuenciación se basa en una modificación de la cadena de polimerasa (PCR, por sus siglas en inglés) con dideoxinucleóidos marcados con fluoróoros y se mejora la velocidad de separación de los ragmenos de ADN por el reemplazo de los geles de poliacrilamida por los de elecrooresis elecroor esis capilar en 1990 (Prober e al., 1987). Además se inroduce el análisis paralelo de varias muesras por medio de arreglos de capilares (Cohen e al., 1988), y se disminuye las canidades de maerial genéico g enéico requerido para el proceso. Con la ecnología Sanger disponible acualmene, alrededor de 384 muesras pueden analizarse de orma paralela y pueden generarse lecuras de 600 a 1000 pb. Los rendimienos con un equipo de 96 capilares han sido esimados en 6 megabyes (Mb) de secuencias por día con cosos aproximados de USD $500 por Mb (Kircher & Kelso, 2010). Los errores principales de la secuenciación se deben a sesgos durane la amplificación in vivo, que pueden presenarse dependiendo del vecor uilizado, baja resolución de la polimerasa en regiones repeiivas y homopoliméricas, poca reproducividad de varianes en los exremos de las secuencias, mala asignación de bases y deleciones que se incremenan con la longiud de las lecuras. Sin embargo, esa ecnología es una de las que presenan -6 menores asas de error, alrededor de ≈ 10 , y ha sido ampliamene usada en invesigación cienífica. Esas caracerísicas marcaron marcaron la capacidad del primer equipo de secuenciación, denominado poseriormene como equipo de primera generación. Algunas de las plaaormas comerciales basadas en el méodo de Sanger ueron: •
•
•
ABI Prism 310: ue lanzada en 1996 como el primer secuenciador capilar. GE Healtcare MegaBACE - ABI Prism 3700 DNA Analyzer: lanzadas en 1998 y 1999 como los primeros secuenciadores capilares paralelizados con 96 capilares en un solo sisema. ABI 3710xl: equipo lanzado en el 2000 con un arreglo de 96 capilares y capaz de producir 900 lecuras con un Phred de 20, para un rendimieno oal de 96 kb/3 horas.
La ecnología Sanger dominó el mercado durane 30 años en los que permiió la obención del primer genoma secuenciado, correspondiene al bacerióago φX 174 174 (5.386 pb), acilió el esudio de genomas pequeños de dierenes microorganismos y conribuyó significaivamene a la secuenciación del genoma humano. Esos resulados impulsaron iniciaivas para el desarrollo de nuevas ecnologías, como por ejemplo, el programa de los 1000 genomas del Insiuo Nacional de Salud (NIH) y el Insiuo Nacional de Invesigación del Genoma Humano (NHGRI) de los Esados Unidos, financiado con más de 70 millones de dólares (Mardis, 2011). Dicho desarrollo se hizo angible en el 2005, con un cambio oal en la concepción de los equipos de secuenciación y el surgimieno de las plaaormas de nueva generación (del inglés: Nex Generaion Sequencing ).). 45
3.2. Secuenciación de segunda generación La secuenciación de nueva generación o NGS, ha supueso una revolución en las ciencias de la vida en los úlimos diez años, eniendo mayor relevancia en la biomedicina y en la agronomía, sin embargo ambién ha adquirido una imporancia en el esudio de la diversidad biológica permiiendo el genoipado de miles de marcadores en cienos de individuos (Schmuz, 2010). Las nuevas plaaormas cenran sus esuerzos en la creación de librerías genómicas para secuenciación, en la paralelización del proceso y en el análisis de grandes canidades de daos; esas son las res principales caracerísicas que compararemos en ese capíulo porque represenan a los equipos lanzados al mercado como equipos de segunda generación, y las que han deerminado el éxio y la permanencia de las grandes compañías a ravés del iempo. Ora de las caracerísicas novedosas de las ecnologías NGS es la probabilidad de secuenciar ragmenos de ADN desde sus dos exremos, generando librerías pareadas para el análisis. Si dichas secuencias pareadas se obienen de ragmenos lineales, se denominan librerías paired end (PE) y si se obienen de ragmenos circulares, nos reeriremos a librerías mae pair (MP). (MP). Los amaños de insero aproximados para las libreríaspaired end van desde 300 a 500 pb, mienras que las mae pair alcanzan alcanzan longiudes de 1,5 a 20 kilobyes (Kb), generando mayor inormación sobre opologías esrucurales del ADN (Mardis, 2011). La venaja de ese ipo de implemenaciones es que permien descubrir variaciones esrucurales en el genoma, porque se reduce la probabilidad de que los alineamienos a un genoma de reerencia sean al azar, al resringirlos por dos lecuras que deben ir acopladas.
3.2.1. Secuenciación 454 La primera ecnología de NGS lanzada al mercado se denominó 454, ue producida por Roche Lie Science en 2005 e inauguró el uso de PCR en emulsión para procesos de secuenciación. Para iniciar el análisis, el ADN es paricionado en dierenes ragmenos a los que se les agregan adapadores en los exremos, dichos adapadores permien su capura denro de perlas de esrepavidina que son incorporadas en goas de emulsión. Esas goas ienen odos los reacivos de una reacción de PCR y acúan como pequeños reacores en los que se producen alrededor de 107 copias de un molde de ADN (Margulies e al., 2005). Idealmene, en cada goa de emulsión se ha cargado un único ragmeno de ADN y, por ano, las copias son idénicas y alamene fieles al molde. Cuando las copias esán lisas se procede a su secuenciación sobre una placa picoiuladora, la cual permie el análisis de los millones de ragmenos generados de manera simulánea a ravés de un proceso denominado pirosecuenciación. Esa ecnología idenifica incorporaciones individuales de nucleóidos por medio de una cascada de reacción que 46
Conceptos en Ciencias Ómicas
ermina en la producción de luz ácilmene deecada por el equipo. El proceso inicia cuando las soluciones de polimerización, con cada uno de los dNTPs marcados, son adicionadas de orma secuencial a la placa picoiuladora y se libera piroosao (PPi) cuando un nucleóido es incorporado a la cadena en exensión. Ese piroosao es ransormado a ATP por una ATP sulurilasa y el ATP es capado por una lucierasa que lo usa para emiir luz (Kircher & Kelso, 2010). La producción de quimioluminiscencia es deecada por una cámara con disposiivo de carga acoplada. Los resulados son analizados y la presencia de los picos de luz permie esablecer el orden de los nucleóidos en la secuencia analizada. El méodo ue paralelizado poseriormene para poder incorporar cerca de 2 millones de pozos en una única placa, donde se alojan perlas de 28 �m de diámero cubieras con las cadenas sencillas a ser analizadas. Esa ecnología ue adquirida por Roche en 2007. Con 454 pueden generarse lecuras de 100 a 500 pb con un rendimieno aproximado de 80 a 120 Mb en 4 horas (750 Mb en un día), con un coso esimado de USD $20 por Mb (Kircher & Kelso, 2010; Morozova & Marra, 2008). Sin embargo, algunas de las limiaciones de la ecnología residen en la incorreca esimación de regiones homopoliméricas, pequeñas inserciones/deleciones, errores asociados a la incorporación de más de un ragmeno en una perla de amplificación o la reducción de la eficiencia de las enzimas, con una consecuene disminución en la inensidad de la señal emiida. Lo anerior conlleva asas de error más alas que las de Sanger, alrededor de ≈ 10-3 ó 10-4, pero menores a las de oras ecnologías. Debido a sus caracerísicas, 454 ha sido la ecnología más uilizada en invesigaciones cieníficas con más de 100 publicaciones y ha sido alamene recomendada para la idenificación de polimorfismos de nucleóido simple (SNPs). Roche desconinuó su producción en 2016 por los bajos rendimienos y alos cosos rene a sus compeidores. Algunas de las plaaormas comerciales de 454 ueron: •
•
•
454 GS20: ue lanzada en el 2005 como el primer secuenciador comercial de Roche. Producía lecuras de 100 pb y enía una capacidad de 20 mega pares de bases (Mpb) por corrida. 454 GS FLX Titanium: ese equipo ue lanzado comercialmene en 2007, generaba lecuras de 300 a 500 pb y enía una capacidad de 450 Mpb por corrida. Fue ampliamene usado para esudios que involucraban el mapeo y ensamblaje de genomas. 454 GS Junior: equipo lanzado en 2009 como la versión de escriorio del GS FLX, con una capacidad de 35 Mb por corrida, produciendo lecuras de 400 pb. Sus caracerísicas lo hicieron úil para proyecos de ranscripómica y meagenómica.
47
3.2.2. Secuenciación SOLiD En búsqueda de innovación y con una ecnología dierene, Applied Biosysems desarrolló la plaaorma de secuenciación SOLiD que llegó al mercado con su primer equipo comercial en 2007. Esa ecnología se basa en secuenciación por ligación que, de orma equivalene a como se hace en 454, uiliza PCR en emulsión para la creación y amplificación de las librerías. La dierencia radica en que, en ese caso, los producos de reacción son ranseridos a una placa de vidrio donde se produce la secuenciación por medio de rondas secuenciales de hibridación y ligación. La secuenciación inicia con la adición de cebadores universales que son complemenarios a los adapadores de los producos de PCR y de sondas de nucleóidos marcadas fluorescenemene, sobre la placa de vidrio. Cada sonda esá compuesa por dos bases conocidas y una serie de seis bases degeneradas y universales, que pueden parearse con cualquier molde de nucleóidos (Goodwin e al., 2016). Esas sondas se inercepan con los amplicones a analizar y una ligasa se encarga de hacer la incorporación química, se lava el exceso de reacivos y se revela la idenidad de las bases incorporadas. Poseriormene, se remueve el fluoróoro y las res úlimas bases degeneradas de la cadena en exensión, se lava nuevamene la celda y se complea un ciclo de ligación. Ese proceso se repie de al modo que se genera una cadena en la que se conocen dos bases cada res bases sin idenidad. La cadena generada se desnauraliza y se remueve del molde para iniciar oro ciclo de hibridación. En los siguienes cinco ciclos de hibridación se uilizan cebadores más coros que los uilizados previamene, con la dierencia en una base (n-1), de modo que al complear el proceso cada nucleóido es analizado por duplicado permiiendo la discriminación enre un error de secuenciación y un polimorfismo en la secuencia (Moorhie, Matocks & Wrigh, 2011). Exisen 16 sondas de acuerdo a las combinaciones de dinucleóidos que se pueden rasrear y que esán marcadas fluorescenemene por cuaro coloranes, dando como resulado un campo de color que debe ser regisrado y analizado por el disposiivo para generar la secuencia complea (Goodwin e al., 2016). En 2008, y después de muchas ransiciones corporaivas, Applied Biosysems pasó a ser Lie Technologies. En el 2013, Thermo Fisher adquirió la compañía y es quien acualmene comercializa equipos basados en la ecnología inicial. SOLiD puede generar lecuras de 25 a 75 pb con un rendimieno aproximado de 1-3 gigabye (Gb) en ocho días. Uno de los principales errores de la plaaorma es la baja represenación de regiones ricas en GC, errores de susiución y el llamado de alsas varianes, que conribuyen al error oal -3 aproximado de ≈ 10 a 10-4 (Goodwin e al., 2016; Kircher & Kelso, 2010). Así mismo, se presenan errores asociados a la creación de las librerías, mezcla de secuencias denro de las perlas de reacción, desase en la secuenciación, remoción incomplea de los coloranes y derimeno de la señal de los marcadores (Kircher & Kelso, 2010). En general, sus caracerísicas han hecho que sea uilizada con éxio en proyecos de genómica, ranscripómica y epigenéica, pueso que presena alas asas de precisión para deección de muaciones y variabilidad genéica. 48
Conceptos en Ciencias Ómicas
Algunas de las plaaormas comerciales de SOLiD son: •
•
•
SOLiD 3 plus: equipo comercial desde 2009 con un rendimieno de 60 Gb por corrida y una precisión de 99,94% en los procesos de secuenciación. Puede generar lecuras MP 2 x 50 pb y lecuras individuales de 50 pb. 5500xl SOLiD: equipo de escriorio lanzado al mercado en el 2011, puede producir lecuras MP 2 x 60 pb y PE 75 pb x 35 pb, con una capacidad oal de 600 Gb por corrida (Lie echnologies). 5500w SOLiD: equipo lanzado en 2012 con una precisión de 99,99%. Recomendado para deección de alelos de baja recuencia en invesigaciones asociadas a enermedades. Puede producir hasa 320 Gb por corrida, con lecuras PE 2 x 50 pb.
3.2.3. Secuenciación Ion Torrent TM En 2010, la compañía Lie Technologies lanzó la primera plaaorma basada en deección ópica de los iones H + que son liberados como resulado de la incorporación de un nucleóido en un proceso de sínesis de ADN. El sisema usa un sisema semiconducor inegrado y un ransisor de eeco de campo sensible a iones (ISFET), para deecar el cambio en el pH generado por los iones liberados (Goodwin e al., 2016). Inicialmene, se preparan las librerías de orma equivalene a la descria para 454, de modo que se usa PCR en emulsión para clonar los ragmenos de ADN a analizar. Poseriormene, las perlas con los amplicones son disribuidas en micropozos donde se da la secuenciación por sínesis, los nucleóidos son adicionados a la reacción de orma secuencial, se incorporan y generan una señal de volaje, como resulado del cambio de pH, que es deecada por el sensor (Reuer, Spacek & Snyder, 2015). Ion TorrenTM puede generar lecuras de 35 a 400 pb con un rendimieno aproximado de 50 Mb-15 Gb en 2-7 horas (Goodwin e al., 2016). Sus asas de error se deben a la poca discriminación de las regiones homopoliméricas que son mayores a seis pb e inserciones/ deleciones. Algunas de las plaaormas comerciales de Ion Torren TM son: •
•
•
Ion Proton: equipo comercializado desde el 2012, produce lecuras de 200 pb con una capacidad hasa de 10 Gb (Reuer, Spacek & Snyder, 2015). Recomendado para secuenciación de exomas y análisis de ranscripoma compleo. IonPersonal Genome Machine (PGM) Dx: equipo lanzado en el 2016, produce lecuras de 400 pb con una capacidad de 1 Gb por corrida (Reuer e al., 2015). Úil para resecuenciación de genomas y análisis de genomas pequeños. Ion S5 XL: equipo lanzado en 2016 con un sisema de preparación de librerías (Ion Che) y de cargado del sisema para auomaizar odo el proceso. Sin embargo, no genera librerías pareadas (Goodwin, McPherson & McCombie, 2016). Produce lecuras de 200 a 600 pb, con una capacidad máxima de 16 Gb por corrida. 49
3.2.4. Secuenciación Illumina® En el 2006, Solexa inrodujo su primer equipo comercial basando su ecnología en una secuenciación por sínesis que emplea ddNTPs modificados. Esos nucleóidos ienen marcadores fluorescenes removibles y acúan como erminadores reversibles. En el 2007 Solexa ue adquirido por Illumina® y la compañía inició su carrera de éxio en la secuenciación de cienos de genomas de microorganismos, planas y animales, conviriéndose en una de las más imporanes a nivel mundial. El proceso de secuenciación de Illumina® inicia con la disrupción del ADN y la creación de librerías a parir de ragmenos de cadena sencilla que son ligados a dos ipos de adapadores. Los primeros adapadores permien que los ragmenos a analizar se unan a una celda de flujo y conienen una zona para ligación de cebadores. Cuando esán en la celda, las moléculas se flexionan y se hibridan con oligonucleóidos complemenarios al adapador del exremo libre, de modo que se orma una esrucura de puene en la que se da la sínesis de racimos de cadenas complemenarias. Al final del proceso, cada racimo puede conener hasa 1000 copias de un solo ragmeno (Morozova & Marra, 2008). Las cadenas complemenarias consiuyen amplicones obenidos por PCR y represenan las cadenas principales y reversas de la secuencia original, con las que se inicia el proceso de secuenciación en las dos direcciones. La secuenciación se da en ciclos consecuivos en los que se dispone una mezcla con los reacivos necesarios y un solo dNTP marcado y bloqueado para que se dé la sínesis de la cadena complemenaria a los amplicones iniciales. Los nucleóidos no ligados son lavados juno con los residuos de reacción, se revela la idenidad del que ue incorporado por la fluorescencia emiida, se remueve el fluoróoro y el grupo bloqueado para que comience el nuevo ciclo (Goodwin, McPherson & McCombie, 2016). Algunos de los nuevos equipos producidos por Illumina® uncionan con un sisema de dos fluoróoros en lugar de cuaro, requiriendo menos reacivos, mejorando el rendimieno y acelerando los procesos de secuenciación (Reuer, Spacek & Snyder, 2015). Con Illumina® pueden generarse lecuras desde 25 hasa 300 pb, con rendimienos aproximados desde 36 Gb a 1,8 Tb en iempos de 24 horas a res días (Buermans & Den Dunnen, 2014). A pesar de que la ecnología es más eeciva deerminando regiones homopoliméricas (99,5% de precisión), no es viable para resolver regiones repeiivas coras, por el amaño pequeño de las lecuras producidas. Se han reporado asas de -2 -3 error alrededor de ≈ 10 - 10 asociadas a problemas de susiución de nucleóidos, baja represenación de regiones ricas en AT y GC, ruido inroducido durane la creación de las librerías o desases en la lecura de los racimos durane la secuenciación (Morozova & Marra, 2008; Kircher & Kelso, 2010). A pesar de esas limiaciones, la secuenciación con Illumina® es una de las más uilizadas acualmene para odo ipo de análisis genéicos e invesigaciones cieníficas.
50
Conceptos en Ciencias Ómicas
Algunas de las plaaormas comerciales de Illumina® son: •
•
•
•
•
•
•
•
Solexa 1G analyzer: equipo lanzado en el 2006, genera lecuras 35 pb con capacidad para producir 1 Gb de daos por corrida (Kircher & Kelso, 2010). NextSeq 500: lanzado en el 2014 como un secuenciador de escriorio y rápido para pequeños laboraorios. Produce lecuras PE 2 x 150 pb y a su máxima capacidad puede secuenciar 120 Gb o un genoma humano a 30x en 30 horas (Reuer e al., 2015). HiSeq 2000: equipo inroducido al mercado en 2014, genera lecuras 2 x 100 pb y es capaz de producir 600 Gb de inormación por corrida. Fue el primer insrumeno en leer daos de las dos superficies de las celdas de flujo, doblando el rendimieno de los equipos. MiSeq: lanzado en 2015 como un secuenciador de mesa personal, ideal para secuenciación dirigida y de genomas pequeños (Reuer e al., 2015). Puede generar g enerar lecuras PE 2 x 300 pb con un rendimieno de 15 Gb por corrida. HiSeq X Ten: es el insrumeno con mayor capacidad generado hasa el 2016 y lanzado en 2014 como un secuenciador a escala población. Produce lecuras PE 2 x 150 y su capacidad es de 1,8 Tb en res días o 18000 genomas humanos por año, a una proundidad de 30x (Reuer e al., 2015). Sin embargo, esa condición limia su uso a pocas aplicaciones, como es el caso de la secuenciación de genoma compleo (WGS) (Buermans & Den Dunnen, 2014). HiSeq 2500: secuenciador lanzado al mercado en el 2015, produce lecuras PE 2 x 250, ienen un rendimieno de 1 Tb por corrida y en su configuración más rápida puede generar un genoma humano a una proundidad de 30x en 27 horas (Reuer e al., 2015). HiSeq 3000/4000: lanzada al mercado con una disribución de celdas compuesa de billones de pozos de amaño y espacio esandarizados de modo que permien mayor densidad de los racimos a secuenciar. Su capacidad es inermedia enre la del HiSeq 2500 y el HiSeq X Ten y puede generar lecuras sencillas de 50 pb o PE 2 × 75 pb - 2 × 150 pb. NovaSeq 5000/6000: lanzada en 2017 incorpora ecnología de célula de flujo modelada para generar un nivel de rendimieno sin precedenes para una amplia gama de aplicaciones de secuenciación. Además aprovecha la ecnología de secuenciación por sínesis (SBS) de Illumina® con el fin de orecer daos precisos y un rendimieno robuso puede generar lecuras lecuras de 2 × 50 pb, 2 x 100 pb y 2 × 150 pb con una capacidad enre 167 Gb a 3000 Gb.
Una de las limiaciones más grandes de las lecuras coras obenidas a parir de los equipos de segunda generación es que no son apropiadas para realizar ensamblaje de novo de genomas g enomas porque ésos presenan regiones alamene repeiivas, con aleraciones en el número de copias o variaciones esrucurales, que son relevanes en los procesos de evolución y adapación de las especies (Morozova & Marra, 2008). Como se ha mencionado previamene, el uso de lecuras pareadas acilia un poco la localización de esas regiones 51
y, por ano, mejora en ciera medida el uso de esas ecnologías para esas aplicaciones, sin ser suficiene. Es por ello que las ecnologías más recienes, denominadas de ercera generación, buscan generar una mayor resolución de esas regiones mediane la generación de lecuras más largas (Kbs), lo cual eliminaría las ambigüedades de elemenos problemáicos para la secuenciación previa. Adicionalmene, las plaaormas eliminan los errores asociados a la amplificación inicial de los ragmenos de ADN por PCR, basándose en la secuenciación de molécula única.
3.3. Secuenciación de tercera generación 3.3.1. Secuenciación HeliScope En el 2009, Helicos Bioscience Corporaion ue la primera compañía en inroducir la secuenciación en iempo real de moléculas únicas y eliminar el uso de la PCR para amplificar el maerial de d e esudio. El proceso de secuenciación inicia con el raccionamieno del ADN y la separación de las cadenas, después se adhiere una cola de poli-A a cada una de las hebras por medio de una polimerasa que al mismo iempo inroduce una adenina fluorescenemene marcada. Los ragmenos procesados son dispuesos en una celda de flujo donde se ligan a nucleóidos de poli-T y donde su capura puede revelarse por la emisión de fluorescencia de las adeninas. Con las coordenadas esablecidas para las cadenas, se elimina la marcación fluorescene fluorescene e inicia la idenificación de bases (Kircher & Kelso, 2010). Las polimerasas encargadas de hacer la exensión de la cadena reversa a parir de la región de poli-T son dispuesas sobre la superficie de la celda, juno con uno de los cuaro dNTPs marcados fluorescenemene. Debido a una ralenización de la incorporación de los nucleóidos por la presencia del marcador, se espera que un único nucleóido sea incorporado anes de que se revele la celda y los reacivos sean lavados de la plaaorma para repeir el proceso con los siguienes nucleóidos. Debido a sus caracerísicas, no odas las moléculas se secuencian de orma sincronizada y el proceso es un poco más leno. A pesar de su innovación, esa ecnología no ha enido mayor acogida en el mercado y su alo coso ha impedido que sea comercializada exiosamene. exiosamene. HeliScope puede generar lecuras de 24 a 70 pb con un rendimieno aproximado de 4150 Mb por día y un coso aproximado de USD $0,33 por Mb (Kircher & Kelso, 2010). Las asas de error asociadas al sisema son un poco mayores con respeco a oras ecnologías y se asocian principalmene a problemas de inserciones/deleciones que limian la resolución de las lecuras a la hora de mapear adecuadamene genomas complejos.
52
Conceptos en Ciencias Ómicas
3.3.2. Secuenciación PacBio® La plaaorma más usada hasa el momeno para la generación de lecuras largas ue lanzada por Pacific Bioscience® en 2010 y se basa en la secuenciación de moléculas únicas en iempo real (SMRT). La preparación de los ragmenos a secuenciar inicia ligando adapadores en orma de horquilla sobre los exremos de moléculas de ADN o ADNc digeridas, generando un molde con apa (campana SMRT). Ese molde es leído varias veces por una polimerasa, aumenando así la precisión y generando cadenas complemenarias con una secuencia consenso circular para cada molde (Goodwin e al., 2016; Reuer e al., 2015). Ese proceso ocurre en celdas de flujo especializadas para deección de señales, con miles de pozos de ondo ransparene (ZMW), en los que se fija la polimerasa para permiir que la cadena de ADN a analizar sea procesada. La sínesis de las cadenas complemenarias de ADN es visualizada en iempo real en cada pozo por medio de una cámara que regisra el color y la duración de la luz emiida por los nucleóidos marcados, que se incorporan en el ondo de la celda. Las señales emiidas se van regisrando de orma secuencial porque la polimerasa rompe el enlace del fluoróoro durane la incorporación y ése se diunde uera del pozo y lejos del sensor. PacBio® puede generar lecuras de 10 a 15 Kb con un rendimieno aproximado de 1 Gb en cuaro horas, empleando librerías con amaños de insero que van desde 250 pb hasa 40 Kb (Reuer e al., 2015). Las asas de error del sisema son alas, pueden llegar hasa un 15% y son dominadas por problemas de inserción/deleción de nucleóidos. Sin embargo, se puede superar esa limiación con una coberura suficienemene ala y la compañía ha anunciado mejoras en los equipos que ayuden a corregir ese problema. Así, PacBio® se ha converido en la mejor opción para las aplicaciones que requieren ensamblaje de novo de humanos, animales o planas, en ano que permie revelar las esrucuras genómicas complejas (variación esrucural, isoormas, ec.), para generar ranscrios de longiud imporane y, adicionalmene, para análisis de bases modificadas por seguimieno a las cinéicas de polimerización. Las plaaormas comerciales de PacBio® son (Pacific bioscience, 2016): •
•
PacBio® RS II: después del PacBio® RS, que ue vendido a un grupo limiado de clienes, el PacBio® RS II llegó al mercado en 2013. Es capaz de producir lecuras promedio 15 Kb con algunos ragmenos individuales que pueden alcanzar hasa los 60 Kb y iene un rendimieno máximo de 1 Gb por corrida. PacBio® Sequel System: equipo lanzado en 2015 con una capacidad de secuenciación diez veces mayor a la del RS II.
53
Tras la eliminación de la amplificación del ADN por PCR, con la ecnología de secuenciación de molécula única, y de los ciclos ieraivos de procesamieno, con la secuenciación en iempo real, una nueva generación de ecnologías llegaría al mercado con la eliminación final de la necesidad de usar la polimerasa para mediar la lecura de los nucleóidos en una secuencia de inerés. La única ecnología de cuara generación que ha llegado al mercado elimina esa dependencia y orece una concepción dierene de la secuenciación.
3.3.3. Secuenciación Oxford Nanopore En 2014, Oxord Nanopore Technologies lanzó al mercado el primer prooipo de un secuenciador basado en nanoporos. La ecnología cambió la concepción de los secuenciadores radicionales al deecar direcamene la composición del ADN a parir de una molécula de cadena sencilla que se ransloca por un poro y bloquea el paso de volaje a ravés del sisema. La ranslocación requiere el acoplamieno de un moor secundario que, por lo general, es ora proeína. Los bloqueos generados en el poro producen cambios en el volaje que son caracerísicos para cada secuencia de ADN y se relacionan con las cerca de 1000 posibles señales deecables por el equipo. La preparación de las librerías para la secuenciación es sencilla, el ADN es ragmenado y se agregan adapadores a los exremos: uno para ligar la enzima ranslocadora y el oro para ormar una esrucura de horquilla que permie el paso de la cadena líder, seguida de la cadena reversa (Reuer e al., 2015). Tras el proceso se generan lecuras 1D y 2D que pueden alinearse para crear la secuencia consenso. Las plaaormas acuales son celdas de flujo con cienos de micropozos independienes que conienen bicapas sinéicas en donde esán inserados los nanoporos, ya sea de origen biológico o de esado sólido (Goodwin e al., 2016). Los nanoporos de esado sólido han sido diseñados en membranas inorgánicas de nirilo de silicona, aluminio o graeno. Los nanoporos de origen biológico más usados corresponden a canales de α-hemolisina, de la porina MspA o de canales del bacerióago phi29 (Feng, Zhang, Ying, Wang & Du, 2015; Moorhie e al., 2011). Para hacer la idenificación de las bases, la molécula complea de ADN puede pasar a ravés del poro o los nucleóidos individuales pueden ser alimenados consecuivamene por el sisema de deección, después de escindirse de la cadena. Mejoras en la ecnología resolverán los problemas acuales del sisema con respeco al conrol sobre la velocidad de ranslocación del ADN a ravés de los poros, mejorando la precisión en la idenificación de bases y ampliando su rango de aplicaciones. Con esa plaaorma las asas de error por inserción/deleción y susiución son alrededor del 30%, conviriénlas en una limiane para su uso. Adicionalmene, se han reporado allas en el sisema a la hora de idenificar bases modificadas, ya que esas aleran los cambios reporados en el volaje. Se espera que mejoras en la pare química y los algorimos del sisema permian superar esas dificulades. 54
Conceptos en Ciencias Ómicas
Las plaaormas de Oxord nanopore son: •
•
•
MK1 MinION: ese equipo ue lanzado en el 2014 como el secuenciador más pequeño del mercado con 3x10 cm, solo requiere un compuador personal y es una gran opción para rabajos de campo por su ala porabilidad. Genera lecuras de 5 a 60 Kb de longiud y ienen una capacidad máxima de 10 Gb por corrida. GridIONx5: ese equipo es un sisema de mesa compaco diseñado para ejecuar y analizar hasa cinco celdas de Flujo MinION. Es ideal para laboraorios con múliples proyecos que necesian las venajas de la secuenciación nanopore: preparación simple de las librerías genómicas, análisis en iempo real y lecuras largas. La versión acual de la química y el programa permien la generación de hasa 100 Gb de daos durane una ejecución y el módulo de cálculo es capaz de analizar esos daos en iempo real. PromethION: es un insrumeno de mesa diseñado para análisis de alo rendimieno y alo número de muesras. Su diseño modular permie un nuevo paradigma de flujo de rabajo versáil en el que muchos experimenos dierenes se pueden ejecuar en iempo real, sin resricciones de iempos de ejecución fijos. Usa la misma ecnología que el secuenciador MinION. Planea ser la plaaorma más grande de generación de daos con 48 celdas de flujo, cada una con 3000 poros que deecan 500 pb por segundo. Su rendimieno oal puede ser de 2 a 4 Tb por corrida a oda capacidad.
55
A coninuación, se resumen las principales caracerísicas de las plaaormas de secuenciación a ravés del iempo (Tabla 2.1). Plataforma
Fabricante
Método de secuenciación
Longitud de lecturas (pb)
Tasa de error
Costo estimado ($USD)
10-3
500/Mb
htps://www. hermofisher. com/co/ en/home/ lie-science/ sequencing/ sangersequencing.hml
Rendimiento
Link
Sanger
Applied Terminación de la Biosysems cadena - Lie Technologies - Thermo Fisher Scienific
600 1000
6 Mb/día
454
Lie Science - Pirosecuenciación Roche
700 >1000
-4 35 - 700 Mb/ 10-3 ó 10 día
20/Mb
htp://allseq. com/knowledgebank/ sequencingplaorms/454roche/
SOLiD
Applied Secuenciación por Biosysems ligación - Lie Technologies - Thermo Fisher Scienific
25 - 75
125 - 400 Mb/día
5,81/Mb
htps://www. hermofisher. com/co/ en/home/ lie-science/ sequencing/ nex-generaionsequencing/ solid-nexgeneraionsequencing.hml
Ion Torren
Lie Deección ópica Technologies de iones H+ - Thermo Fisher Scienific
35 - 400 pb
25 Mb - 2 Gb/h
-2 10
25 3500/Gb
htps://www. hermofisher. com/co/en/ home/brands/ ion-orren.hml
Illumina®
Solexa Illumina®
Secuenciación por sínesis con erminadores reversibles
25 - 500 pb
1,5 - 25 Gb/h
≈
-2 -3 10 - 10
20 1000/Gb
htps://www. Illumina.com/
Heliscope
Helicos Bioscience
Secuenciación por sínesis
24 - 70 pb
4150 Mb/día
≈
-2 10
0,33/Mb
htp://seqll. com/
PacBio®
Pacific Bioscience
Secuenciación de moléculas únicas en iempo real (SMRT)
10 - 15 Kb
1 Gb/4 horas
15%
1000/Gb
htp://www. pacb.com/
Oxord Nanopore
Oxord Nanopore Technologies
Traslocación en nanoporos
5 - 60 Kb
1,5 Gb/48 h
30%
750/Gb
htps:// nanoporeech. com/
56
≈
-4 10-3 ó 10
≈
Conceptos en Ciencias Ómicas
3.4. Referencias Buermans, H. P. J., & Den Dunnen, J. T. (2014). Nex generaion sequencing echnology: Advances and applicaions. Biochimica e Biophysica Aca, 1842 (10), 1932 - 1941. htp://doi.org/10.1016/j.bbadis.2014.06.015. Cohen, A. S., Najarian, D. R., Paulus, A., Gutman, A., Smih, J. A., & Karger, B. L. (1988). Rapid separaion and purificaion o oligonucleoides by high-perormance capillary gel elecrophoresis. Proceedings o he Naional Academy o Sciences, 85, 9660– 9663. Deamer, D., Akeson, M., & Branon, D. (2016). Three decades o nanopore sequencing. Naure Bioechnology, 34 (5), 518–524. htp://doi.org/10.1038/nb.3423. Feng, Y., Zhang, Y., Ying, C., Wang, D., & Du, C. (2015). Nanopore-based ourhgeneraion DNA sequencing echnology. Genomics, Proeomics and Bioinormaics, 13 (1), 4–16. htp://doi.org/10.1016/j.gpb.2015.01.009. Goodwin, S., McPherson, J. D., & McCombie, W. R. (2016). Coming o age: en years o nex-generaion sequencing echnologies. Naure Reviews Geneics, 17 (6), 333 - 351. htp://doi.org/10.1038/nrg.2016.49. Illumina. (2009). Go where he biology akes you. Recuperado de htps://www. Illumina.com/documens/producs/brochures/brochure_genome_analyzer.pd. Kircher, M., & Kelso, J. (2010). High-hroughpu DNA sequencing - Conceps and limiaions. BioEssays, 32 (6), 524–536. htp://doi.org/10.1002/bies.200900181. Lie echnologies. (Sin echa). discover wha comes rom accuracy. Rerieved rom hps://www3.appliedbiosysems.com/cms/groups/global_markeing_group/ documens/generaldocumens/cms_088661.pd. Mardis, E. R. (2011). A decade’s perspecive on DNA sequencing echnology. Naure, 470(7333), 198 - 203. htp://doi.org/10.1038/naure09796. Mardis, E. R. (2013). Nex-Generaion Sequencing Plaorms. Annu. Rev. Anal. Chem, 6, 287–303. htp://doi.org/10.1146/annurev-anchem-062012-092628. Margulies, M., Egholm, M., Alman, W. E., Atiya, S., Bader, J. S., & Bemben, L. A. (2005). Genome sequencing in microabricaed high-densiy picolire reacors. Naure, 437, 376–380. Mezker, M. L. (2010). Sequencing echnologies - he nex generaion. Naure Reviews. Geneics, 11(1), 31– 46. htp://doi.org/10.1038/nrg2626. Moorhie, S., Matocks, C. J., & Wrigh, C. F. (2011). Review o massively parallel DNA sequencing echnologies. The HUGO Journal, 5 (1– 4), 1 - 12. htp://doi.org/10.1007/ s11568 011 9156-3. Morozova, O., & Marra, M. A. (2008). Applicaions o nex-generaion sequencing echnologies in uncional genomics. Genomics, 92 (5), 255–264. htp://doi. org/10.1016/j.ygeno.2008.07.001. Pacific bioscience. (2016). The Sequencing Markeplace. Recuperado de htp://allseq. com/knowledge bank/sequencing plaorms/pacific-biosciences/. Prober, J. M., Trainor, G. L., Dam, R. J., Hobbs, F. W., Roberson, C. W., Zagursky, R. J., … Baumeiser, K. (1987). A sysem or rapid DNA sequencing wih fluorescen chainerminaing dideoxynucleoides. Science, 238, 336–341. 57
Reuer, J. A., Spacek, D. V., & Snyder, M. P. (2015). High-Throughpu Sequencing Technologies. Molecular Cell, 58 (4), 586–597. htp://doi.org/10.1016/j. molcel.2015.05.004. Wason, J. D., & Crick, F. H. C. (1953). Molecular srucure o nucleic acids. Naure. Recuperado de htp://doi.org/10.1097/BLO.0b013e3181468780.
58
Conceptos en Ciencias Ómicas
II. “ÓMICAS”: GENÓMICA, METAGENÓMICA, TRANSCRIPTÓMICA, PROTEÓMICA Y METABOLÓMICA DIANA LÓPEZ-ALVAREZ
La era de las ciencias ómicas, que incluyen la genómica, ranscripómica, proeómica, meabolómica, exómica, meagenómica y epigenéica, ha surgido para describir dierenes écnicas del campo de la biología con gran canidad de daos a gran escala, y a su vez, ha llegado para quedarse con miras a un uuro muy promeedor, que juno con los avances inormáicos, preende ser la solución a miles de pregunas e inquieudes del diario vivir, como por ejemplo: ¿cuános microorganismos podemos enconrar en una muesra ambienal?, ¿cómo se expresa en una deerminada enermedad un individuo enermo comparado con oro sano? o ¿cómo las variaciones del genoma de un individuo y su relación con la enermedad son imporanes para enender, diagnosicar, raar y prevenir su salud?, ¿cómo responden las planas respeco a evenos exremos ocasionados por el cambio climáico?, ¿cómo se pueden suplir las necesidades de abasecer una población mundial en crecimieno a ravés de una agriculura sosenible que requiere de desarrollos bioecnológicos? De igual orma, esas ciencias esán asociadas con el desarrollo de algorimos basados en modelos maemáicos y esadísicos, con el fin de almacenar, recuperar y comparir daos de alo rendimieno, para la comparación de secuencias, la consrucción del árboles filogenéicos/evoluivos, el reconocimieno de parones específicos en el genoma, la anoación de secuencias, el desciramieno de ruas meabólicas o el diseño de medicamenos (modelado molecular) (Yadav, 2015). Mienras que el genoma, exoma, ranscripoma, epigenoma y el meagenoma se relacionan con secuencias de ADN (ácido desoxirribonucleico) y ARN (ácido ribonucleico), y aprovechan las mismas ecnologías que han impulsado la secuenciación genómica; el proeoma y el meaboloma, se basan en ecnologías oalmene dierenes para generar daos. Ese volumen de daos esá siendo gesionado con éxio por experos en bioinormáica a ravés del desarrollo de bases de daos biológicas de acceso abiero a nivel mundial. Además, enemos a nuesra disposición y alcance, inormación no solo de daos, sino ambién de lieraura y programas compuacionales, que con un pesañar siguen apareciendo a un rimo veriginoso, en ano surge un gran número de herramienas, que ha omenado iniciaivas dirigidas a recogerlas y enumerarlas, un ejemplo de eso lo orece la plaaorma OMICools con una recopilación de plaaormas y bases de daos empleados en la acualidad. Oros casos son, el EBI, que iene un poral de servicios de bioinormáica que enumera una variedad de bases de daos y herramienas adapadas para emas específicos; Bioconducor que proporciona herramienas de análisis y scrips desarrollados por los 59
esadísicos para una variedad de análisis y soluciones bioinormáicas; GiHUB el cual es un reposiorio grauio que acilia la colaboración y el inercambio de herramienas y unciones inormáicas, y finalmene, Exper Proein Analysis Sysem que es una biblioeca paricularmene reconocida por las herramienas de proeómica. Sin embargo, con esa gran canidad de posibilidades, es necesario ser precavidos con el uso de las herramienas, ya que ninguna es inegral e inalible, y se hace imperaivo la elección con sensaez de las más adecuadas para los propósios del proyeco del usuario final. Por lo ano, la gesión y la minería de daos son dos emas imporanes para la invesigación generada por las “ómicas”, exigiendo la inervención inmediaa de la bioinormáica. En la acualidad, no hablamos de un genoma secuenciado sino de cienos y miles. Desde la secuenciación del primer organismo vivo, la baceria Haemophilus influenzae (Fleischmann e al., 1995), se ha compleado la secuencia complea o parcial de los genomas de 1236 arqueas, 103760 bacerias, 492 proisas, 2520 hongos, 401 planas, 1153 animales, 46 viroides, 7465 virus y 19 genomas de oros organismos eucarioas (www.ncbi.nlm.nih.gov/ genome/browse). Además se cuenan con genomas de varios organismos modelos, con la iniciaiva del genoma de Arabidopsis haliana en el año 2000, se obuvo el primer genoma de una plana modelo para idenificar genes y deerminar sus unciones, y abrió las pueras a la secuenciación de oras planas modelos de imporancia para la agriculura debido a su imporancia económica y alimenicia como lo son Brachypodium disachyon (The Inernaional Brachypodium Iniiaive, 2010) para los cereales emplados; Lous japonicus (Sao e al., 2008) para esudiar el enómeno propio de leguminosas en la fijación de nirógeno, de la misma manera que es usado el Medicago runcalua (Young e al., 2007), además se secuenció el primer culivo de imporancia mundial como lo es el arroz asiáico (Oryza saiva) (Goff e al., 2002a). Esas especies juno con el sorgo (Paerson e al., 2009); maíz (Schnable e al., 2009); soja (Schmuz e al., 2014); papa (The Poao Genome Sequencing Consorium, 2011); garbanzo (Jain e al., 2013); cebada (The Barley Genome Sequencing Consorium, 2012); sandía (Guo e al., 2013), melón (Garcia-Mas e al., 2012) y rigo (Brenchley e al., 2012) ienen dierenes bases de daos con un genoma compleo disponible al público que quiera consularlo y usarlo para esudios de mejora genéica. En la acualidad hay más de 52 genomas de culivos y árboles secuenciados y publicados. ¿Pero en qué se basa la elección de la secuenciación de un genoma? Se basa principalmene en la imporancia del organismo en nuesro enorno, en ese caso, si causa enermedades en el hombre o son planas base de nuesra alimenación o son especies de imporancia económica, o modelos represenaivos de los grandes grupos (planas, mamíeros, insecos, ec.) y resulan úiles para exrapolar su inormación a oros grupos mediane un enoque genómico comparaivo. Lo anerior hace de la genómica, la ciencia de las “ómicas” con mayor desarrollo y menores limiaciones económicas y écnicas. Las ómicas ambién presenan una relación e impaco esrecho en el campo de la salud 60
Conceptos en Ciencias Ómicas
abarcando la medicina, epidemiología, nurición y bioecnología, incluso, incluyendo oras ómicas como la armacogenómica, pueso que desde la secuenciación del genoma humano presenado en 2001 (Inernaional Human Genome Sequencing Consorium, 2001), esas ciencias han ido acercándonos a una medicina de precisión, cada vez más personalizada y preveniva, porque una especificación exaca de odas las paologías a nivel individual, pueden desencadenar a largo plazo en la erradicación complea de la enermedad. Fuera de presenarnos aplicaciones en evaluación de riesgos, prevención, diagnósico de muy ala ecnología y raamieno, en los que los médicos, enermeras, consejeros genéicos y oros proesionales del cuidado de la salud pueden rabajar con las personas para concenrar los esuerzos en iniciaivas que manengan la salud de un individuo (Heinner, 2015); incluso desarrollando biomarcadores de seguimieno en enermedades rasmisibles y no rasmisibles para opar por nuevas inervenciones y guías de raamieno médico (Heinner, 2015). Ha cobrado ana imporancia la medicina de precisión, que la adminisración del presidene Barack Obama anunció en 2015 la secuenciación de un millón de genomas humanos para ese fin. Por consiguiene, el aumeno de odos esos esudios basados en ómicas necesia educación en las ecnologías asociadas y en bioinormáica para llevar a cabo buenos diseños y análisis experimenales adecuados. En ese capíulo, nosoros preendemos proporcionar una visión general de las ecnologías acuales para generar, analizar, usar y comparir daos de las ómicas.
61
4. GENÓMICA DIANA LÓPEZ-ALVAREZ ANDREA GARAVITO
El genoma incluye la oalidad de la inormación genéica que posee un organismo, ano codificane (genes) como la no-codificane (regiones repeiivas, regulaorias e inergénicas), de la cual dependen odas sus unciones biológicas. Se encuenra regisrado denro del ADN de cada una de sus células, a nivel del núcleo y de organelos como las miocondrias y los cloroplasos. La genómica es la ciencia que esudia los dierenes ámbios del genoma, desde su esrucura y unción hasa la ineracción exisene enre los genes y el ambiene en el que se desarrolla el organismo. La genómica se subdivide en cuaro principales áreas, dependiendo del ámbio de esudio que implican: 1. La genómica esrucural, relacionada con el esudio de la nauraleza ísica del genoma y la localización de los genes denro de ése. Se basa en la secuenciación, mapeo, ensamblaje y anoación del genoma, permiiendo la idenificación e uilización de variaciones esrucurales. Es al vez el área más conocida de la genómica por las implicaciones acuales que iene a nivel de la invesigación biológica. 2. La genómica uncional busca poder enender la relación enre los genes de un organismo y sus caracerísicas ísicas (el enoipo). Se basa en el esudio de la unción y la expresión de los genes, al analizar sus niveles de ranscripción, raducción, y las posibles ineracciones enre ellos. 3. La genómica comparaiva se encarga de analizar las dierencias y similiudes a nivel esrucural enre los genomas de múliples organismos, deerminando los cambios evoluivos exisenes y sus posibles implicaciones. 4. La genómica de poblaciones, que invesiga de qué manera los procesos evoluivos aecan el genoma, basándose en una evaluación de los cambios exisenes en el genoma de los individuos denro de cada población y enre las dierenes poblaciones. En el presene capíulo hablaremos principalmene de la genómica esrucural, y ocaremos algunos de los aspecos de la genómica comparada, uncional y de poblaciones.
4.1. Consideraciones para la determinación de la estrategia de secuenciación genómica a implementar Deerminar la esraegia para llevar a cabo una secuenciación del genoma de inerés es el primer paso a seguir, siendo crucial inerrogarse sobre varias cuesiones básicas anes de planificar y llevar a cabo el proyeco. El primer y más imporane cuesionamieno es deerminar el por qué la secuencia del genoma del organismo es necesaria, y cuál es el 62
Conceptos en Ciencias Ómicas
objeivo al que se busca llegar con ella. Si se pare del hecho de que la secuenciación complea de un genoma es un proceso largo, complejo y cososo, se debe considerar si es posible o no responder a la preguna biológica uilizando algún oro ipo de écnica menos demandane. Si definiivamene la preguna a responder requiere la secuenciación del genoma, es imporane deerminar el nivel de refinamieno esperado, pueso que de ése dependerá la meodología a uilizar y los recursos económicos y compuacionales requeridos para complear el proyeco. Dependiendo de la asa de error y la represenaividad obenida, los genomas se pueden clasificar denro de caegorías que describen la calidad del ensamblaje (Chain e al., 2009):
1. Borrador estándar: secuencias provenienes de dierenes plaaormas de secuenciación, ensambladas en conigs (secuencia conigua de ADN consruida a parir del consenso enre secuencias más coras). 2. Borrador de alta calidad: secuencia con una coberura de al menos 90% del genoma. 3. Borrador de alta calidad mejorado: secuencia en donde se ha ejecuado la corrección de los errores del ensamblaje por curación manual o auomáica, consruido superconigs (unión de conigs, ambién llamados scaffolds), y colmado de brechas. 4. Genoma mejorado por anotación: las anomalías en las regiones codificanes han sido corregidas, más no aquellas localizadas en las regiones repeidas. Es el esándar base para muchos de los análisis que requieren secuencias genómicas como las comparaciones de siios de splicing alernaivo y las reconsrucciones meabólicas. 5. Terminado, no contiguo: ensamblaje de ala calidad, que ha sido someido a mejoramieno manual o auomáico, en donde la mayoría de brechas, errores y regiones de baja calidad han sido corregidos, por medio de daos y meodologías complemenarias a la secuenciación. 6. Terminado: secuencias con menos de un error por cada 100000 pares de bases, y en donde cada replicón (cromosomas en el caso de eucarioas) esá ensamblado en una sola secuencia conigua. Cabe anoar que bajo las aneriores premisas, solo unos cuanos genomas eucarioas se encuenran a nivel de un genoma erminado. De hecho, en la base de daos GOLD, de más de 132000 proyecos de secuenciación de genomas reporados hasa el momeno, solo unos 6500 genomas bacerianos y 287 eucarioas se consideran como erminados 3. En la acualidad solo exisen unos cuanos genomas oalmene secuenciados y finalizados, ales como: el genoma humano, el del raón, el de Arabidopsis (pequeña plana de la amilia de las brasicáceas, que ha sido uilizada como modelo en planas), y el del arroz, odos ellos obenidos con base en la meodología de clon por clon. Es de esperar que con el avance en las ecnologías de secuenciación, muchos más genomas lleguen a esar oalmene erminados en los años venideros. Oro de los punos imporanes para ener en cuena en la secuenciación de un genoma, proviene de las caracerísicas inrínsecas a la biología del organismo de inerés, como la 3 Daos consulados en abril 2017 en la página htps://gold.jgi.doe.gov/.
63
complejidad de su genoma y su nivel de heerocigosidad. Dichas consideraciones pueden ser menos relevanes para la mayoría de animales y microorganismos, sin embargo, son imporanes al momeno de secuenciar genomas de planas. Respeco a la complejidad del genoma, varios aspecos son alamene relevanes para un programa de secuenciación genómica. El primero es el amaño del genoma en esudio, pueso que de él dependerá el número de lecuras necesarias para alcanzar la coberura o proundidad, y por ende, la calidad del ensamblaje deseado. Las variaciones en el amaño del genoma denro de los axones se encuenran en su mayoría denro de una escala de una a una y media orden de magniud (Fedoroff, 2012). Pero exisen casos excepcionales como el de las angiospermas, donde el rango de amaños genómicos varía en más de res órdenes de magniud (con genomas haploides que se encuenran enre los 63 Mb y 150 Gb) (Kelly e al., 2012). Las variaciones pueden ocurrir enre organismos relaivamene cercanos, haciendo necesario conocer de anemano el amaño esimado para la especie de inerés. El segundo aspeco es el nivel de ploidía, porque iene un eeco direco en el amaño del genoma, y a su vez en el grado de complejidad al momeno del ensamblaje. Dicha complejidad esá ligada al alo grado de redundancia y a los posibles errores en la resolución de regiones homólogas (Renny-Byfield & Wendel, 2014). En ercer lugar, se encuenra la exisencia de duplicaciones genómicas ancesrales recienes, que de la misma orma que los evenos de poliploidización, pueden aumenar los errores en el ensamblaje de las regiones parálogas. El úlimo aspeco, aunque no menos imporane, es el porcenaje de secuencias repeiivas. Las secuencias repeiivas pueden represenar hasa un 90% del genoma (Wegrzyn e al., 2014), y pueso que dicho porcenaje esá alamene correlacionado con el amaño del mismo, se esperan porcenajes alos en los genomas de mayor amaño. La mayoría de las secuencias repeiivas corresponden a elemenos ransponibles, principalmene reroansposones con LTR ( Long Terminal Repeas ), los cuales por su gran amaño son los responsables de muchas de las variaciones esrucurales enconradas enre los genomas de organismos relacionados y de la consecuene expansión en el amaño del genoma (Fedoroff, 2012). La complejidad en el ensamblaje de un genoma esá alamene ligada con el amaño y la canidad de los reroransposones presenes, pueso que ésos crean ambigüedades en el ensamblaje que los programas no pueden resolver sin inormación adicional. Las repeiciones pueden enonces ser colapsadas por los ensambladores en una sola secuencia, crear quimeras al concaenar secuencias alejadas en el genoma o ser separadas en conigs más pequeños dando ensamblajes alamene ragmenados (Treangen & Salzberg, 2012). Para erminar, el úlimo aspeco imporane a ener en cuena anes de un programa de secuenciación genómica es el nivel de heerocigosidad del organismo en esudio. El grado de heerocigosidad depende de varios parámeros poblacionales y de la biología del organismo, siendo un indicador de la variabilidad genéica denro de la especie. El ensamblaje de genomas con regiones alamene heerocigoas puede resular en secuencias 64
Conceptos en Ciencias Ómicas
ragmenadas, debido a la ala de resolución de los márgenes enre las regiones alamene heerocigoas, ensambladas en conigs alernaivos y aquellas homocigoas ya colapsadas.
4.2. Diseño experimental El diseño experimenal es un érmino usado para planear eficienemene los méodos para la obención de los daos, con el fin de obener la máxima canidad de inormación a parir de la menor canidad de rabajo. Cuando se va a llevar a cabo un esudio en el campo de las ómicas, es necesario esablecer cieras consideraciones anes de comenzar el experimeno, mencionadas previamene, odo eso con el fin de ener claro los pasos para la generación de los daos de secuenciación. En la siguiene sección vamos a poner a su disposición algunas consideraciones perinenes: •
•
•
¿Cuál es la preguna que se quiere responder? ¿Cómo se decide cuános daos se van a generar para responder a la preguna? ¿Cuáles acores pueden influenciar la canidad de los daos que se van a generar?
a. Número de muestras: ¿cuánas muesras son necesarias para llevar a cabo un experimeno?, ¿es necesario ener replicas biológicas y écnicas?, ¿es necesario ener conroles? b. Tipo de lectura: una lecura es una secuencia simple de un ragmeno que proviene de una librería secuenciada. Pueden ser secuenciadas en una sola dirección y ser lecuras simples provenienes de librerías single-end o ener dos lecuras provenienes de librerías paired-end secuenciadas en dos direcciones. Las lecurasmae pair provenienes de librerías Jumping , son largos ragmenos de ADN circularizados, en los que la unión es capurada por un adapador bioinilado. Finalmene enemos las lecuras Linked , cuya longiud esá enre 50-100Kb. c. Tipo de librerías: una librería es una colección de ragmenos de ADN que ha sido preparada para ser secuenciada. Exisen res ipos de librería para daos coros: las provenienes de single-end, las depaired-end y las de mae-paired. En el caso de daos PacBio®, se consruyen dos ipos: CLR ( Coninuous Long Reads, por sus siglas en inglés, reads largos coninuos) y CCS ( Circular Consensus Sequences, por sus siglas en inglés, secuencias consenso circulares). d. Número de lecturas: dependerá del nivel de exaciud y robusez que se quiera llevar a cabo en el experimeno. La proundidad de secuenciación (o coberura de secuenciación), corresponde al número de veces que se espera que cada nucleóido sea represenado en un ciero número de lecuras a una longiud dada, puede reducir la asa de error de las lecuras en los proyecos de secuenciación. En érminos generales, una mayor coberura disminuye la asa de error de cada nucleóido en un ensamblaje de secuencias, no obsane, la selección de una mayor o menor coberura dependerá del propósio de esudio. e. Longitud de las lecturas: para la mayoría de los experimenos son úiles las lecuras más largas, aunque, si esas lecuras son de una calidad baja la uilidad se 65
perderá. Exisen lecuras coras de ala calidad; dependiendo del experimeno será la exigencia de una mínima longiud de lecura. f. Complejidad de la librería: es considerado el número de disinos ragmenos en una librería. No obsane, después de la amplificación, se pueden ener muchas copias de un mismo ragmeno inicial que no ayudan a aumenar dicha complejidad e incluso puede ser perjudicial para su análisis. g. ¿Cuál equipo de secuenciación se utilizará?: considerar qué ipos de lecuras se obienen y cuál es la longiud de las lecuras.
4.2.1. Muestreo En caso de conar con raamienos, las unidades experimenales se asignan a los mismos de manera azarosa, con el fin de eliminar el eeco de las variables y los acores inconrolados que pueden ocasionar variaciones a lo largo de la duración del experimeno, haciéndose necesario aleaorizar: •
•
•
Las muesras con respeco a los raamienos. El orden de manipulación de las muesras. Las corridas, geles, librerías, geles y días en respeco a las muesras.
4.2.2. Réplicas La replicación consise en repeir la creación de un enómeno, de modo que se puede esimar la variabilidad asociada al mismo. En el diseño experimenal de un esudio exisen dierenes ipos de réplicas, las cuales pueden ser biológicas o écnicas de la siguiene nauraleza:
Réplicas Biológicas: son la unidad experimenal con la que se lleva a cabo el proyeco, por ejemplo, plana/animal, muesra ambienal, ejidos, ec. Deben ser independienemene muesreadas de la población. Réplicas Técnicas: cualquier repeición por debajo de la unidad experimenal, asociadas a un insrumeno o a la preparación de las muesras, son úiles cuando la variabilidad écnica es grande y pueden ser más económicas. Solo inormarán sobre la variabilidad en la medición media de una muesra única, como dierenes hojas de la misma plana; dierenes alícuoas de la misma muesra ambienal y dierenes alícuoas de la misma exracción. Siempre damos más imporancia a las réplicas biológicas que a las écnicas, no obsane, cuando esamos pensando en evaluar una ecnología esa imporancia se inviere, debido a que es necesario esudiar la variación a dierenes niveles. Hay que ener en cuena que las repeiciones biológicas son a menudo más eficaces en el aumeno de la poencia para deecar meabolios / genes dierenciales. 66
Conceptos en Ciencias Ómicas
Ora opción que enemos en el muesreo es llevar a cabo, agrupaciones de “muesras”; eóricamene, la agrupación puede reducir la varianza biológica, pero no las dierencias écnicas. Cuando la canidad de muesra individual es limiada o la ecnología es exremadamene cososa, la agrupación de muesras puede aumenar la precisión de la esimación del nivel de cambio enre dos grupos.
4.2.3. Extracción del ADN Para secuenciar un genoma el primer paso es recuperar el ADN del organismo. Para ello se necesia una muesra suficienemene grande de maerial (sangre, saliva, hojas, dependiendo del ipo de organismo), a parir de la cual se busca obener las moléculas de ADN lo más inacas posibles, por medio de un proceso que busca liberar el ADN de cada una de las células presenes en la muesra y purificarlo. Una vez obenido el ADN es procesado para permiir su secuenciación, siendo los pasos requeridos dependienes del ipo de ecnología uilizada.
4.2.4. Tipos de secuenciación genómica Como se mencionó aneriormene, la genómica esrucural esudia la nauraleza ísica del genoma, los genes, secuencias regulaorias y no codificanes presenes denro de ése. Se basa en la secuenciación, mapeo, ensamblaje y anoación del genoma, ya sea a nivel de una muesra ambienal, como en algunos de los esudios en meagenómica (ver Capiulo 5), un organismo, o como se ha desarrollado en los úlimos años, a nivel de una sola célula (Gawad e al., 2016). Dependiendo de los objeivos y de los recursos disponibles, la secuenciación puede ocalizarse en la oalidad de un genoma o cenrarse solo en algunos segmenos específicos de ése.
4.2.4.1. Secuenciación del genoma completo o Whole genome Sequencing Como su nombre lo indica, la secuenciación del genoma compleo se basa en la obención, por medio de dierenes ecnologías, de la oalidad del genoma de un organismo, ya sea por la primera vez ( de novo) o usando una reerencia como base (re-secuenciación). La secuenciación de novo, se caraceriza por la obención de un genoma ensamblado a parir de secuencias coras sin la uilización de un genoma de reerencia previo. La complejidad que revela secuenciar un genoma compleo de novo es equivalene a omar una copia de una obra lieraria, oocopiar cada una de las páginas de ella varias veces, pasar cada hoja por una riuradora de papel, y luego raar de re-ensamblar una de las copias complea para que pueda ser leída. De ninguna manera es lo mismo secuenciar el genoma de una baceria que el de un humano o el de un pino, porque el primero equivaldría a un pequeño libro de algunas páginas, el segundo a un clásico de la lieraura universal, mienras que el ercero equivaldría a varios omos de una enciclopedia. Para la obención de un genoma nuevo ensamblado correcamene se requiere obener un número 67
de secuencias que represenen varias veces la oalidad del genoma del organismo. El número de veces dependerá del grado de complejidad, el ipo de ecnología uilizada y la calidad deseada del ensamblaje final (Sims e al., 2014). Por su pare, en la re-secuenciación de un genoma se uiliza una secuencia de reerencia para ayudar en el ensamblaje, proveniene de un organismo lo más próximo axonómicamene al organismo en esudio. La re-secuenciación sirve principalmene para enconrar las dierencias enre los genomas de individuos de la misma especie o especies ueremene aparenadas. Dicho ipo de análisis se lleva a cabo, por lo general, en los esudios de genómica comparaiva (Guo e al., 2013), diversidad (Weigel & Mot, 2009), filogenia (Rosenblum e al., 2013), y más recienemene de pangenómica (Hirsch e al., 2014).
Secuenciación de genomas completos Desde la publicación de los primeros genomas compleamene secuenciados, el baceriano Haemophilus influenzae (Fleischmann e al., 1995) y el eucarioaSaccharomyces cerevisiae (Goffeau e al., 1996), hasa nuesros días, ha habido un aumeno casi exponencial en el número de genomas publicados. Los primeros genomas secuenciados: H. influenzae (Fleischmann e al., 1995); S. cerevisae (Goffeau e al., 1996);Caenorhabdiis elegans (The C.elegans Sequencing Consorium, 1998); Drosophila melanogaser (Adams e al., 2000); Arabidopsis haliana (The Arabidopsis Genome Iniiaive, 2000);Homo sapiens (Inernaional Human Genome Sequencing Consorium, 2001) y Oryza saiva (Goff e al., 2002b), dieron la paua a nivel écnico y ecnológico para la secuenciación de genomas compleos. Dichos genomas ueron obenidos por secuenciación de ipo Sanger (ver Capíulo 3), requiriendo pasar por la clonación del genoma ragmenado denro de vecores moleculares como los BACs (Cromosomas arificiales bacerianos). Esa écnica, así como la secuenciación Sanger en sí misma, son procesos dispendiosos ano en el iempo (13 años para alcanzar el primer borrador del genoma humano) y cosos derivados (300 millones de dólares para el mismo). A parir de 2005, con la comercialización de las nuevas ecnologías de secuenciación Nex generaion sequencing o NGS , hemos sido esigos de la creciene acilidad con la que se puede obener la secuencia de un genoma compleo, del aumeno en la resolución obenida, y de la impresionane reducción en los cosos derivados. Para finales del año 2015, el coso de obención de un borrador de ala calidad de un genoma humano esaba en menos de 1500 dólares, ardando 26 horas para su consecución (sin incluir el iempo necesario para los análisis bioinormáicos poseriores) 4 . Un ejemplo de las impresionanes repercusiones que ha enido la especacular reducción de cosos es el hio de 50 genomas de planas secuenciados (ver Figura 4.1), que ue alcanzando en 2013 (Michael & Jackson, 2013). Se espera en los años por venir que la 4 Para mayor inormación consular la página htps://www.genome.gov/sequencingcoss/.
68
Conceptos en Ciencias Ómicas
endencia se conserve, e incluso que se acenúe, con la popularización en aumeno de las ecnologías de secuenciación de ercera generación o de secuenciación de una sola molécula. s a m o s n a e d g e a c d i l o b d u p a l s u a m t u n c a l a p o r e e d m ú N
200 ) b ) M b ) 0 3 b 4 M 0 M ( 3 4 5 a ( 2 c i a 1 ( n c i a o d n p n a a i j i l p a s p s h t s s a s i a i i v s v t p t a o a s s d i a a b z z y a r y r r A O O
150
100
50
0 0 0 0 2
1 0 0 2
2 0 0 2
3 0 0 2
4 5 4
4 0 0 2
5 0 0 2
) b M a 0 x 0 ) e 5 b l o ( M S a 0 r p 0 r e a 5 z c ( y l o a a h r e n c f i A r d i t i n i e s l o v m l u S o u I s i t n i e p B V A G o P
6 0 0 2
7 0 0 2
8 0 0 2
) b M 0 3 ) 7 b ( r G o 4 . l 2 0 o ( c s 0 i 0 b y 2 a q m m e s u i h a H e g r Z o S
9 0 0 2
0 1 0 2
1 1 0 2
) b G 0 2 1 ( s e i b a a e c i P
S R O I B I C A P
2 1 0 2
3 1 0 2
4 1 0 2
l e u q e S O I N B O C I A n i P M
5 1 0 2
6 1 0 2
q e S a v o N
7 1 0 2
Año
Figura 4.1. Número de genomas de planas publicados: represenación gráfica del número de genomas de planas publicados en los úlimos 18 años. Los daos provienen de la página htp://www.plabipd.de/
Estudios de epigenética Los esudios de epigenéica hacen reerencia al análisis de los procesos de regulación que no involucran la secuencia de ADN, sino que suceden durane la eapa de expresión. Los principales casos de epigenéica involucran la meilación de ADN en los residuos de ciosina, la modificación pos-raduccional de las colas de las hisonas que soporan el ADN y posicionamienos de nucleosomas, enre oros. Su esudio es imporane porque dichas modificaciones esán implicadas en procesos de oncogénesis y desarrollo en odo ipo de cáncer. Denro de las écnicas desarrolladas para hacer análisis de epigenéica enconramos la mehyl-seq que consise en la capura y enriquecimieno del ADN meilado, seguido de una digesión seleciva de las regiones meiladas y no meiladas, modificación de las bases con el grupo meil y secuenciación.
4.2.4.2. Secuenciación dirigida Exisen écnicas que permien esudiar una pare represenaiva del genoma de un individuo, caracerizar su genoipo y compararlo con el de oros individuos mediane 69
dierenes marcadores genéicos. Eso porque en ocasiones cuando el objeivo del proyeco no requiere la realización de una secuenciación complea, exise la posibilidad de hacer una selección de los ragmenos genómicos a secuenciar. Dicha selección pasa por un enriquecimieno o una selección previa de los ragmenos, haciendo uso de una gran variedad de écnicas undamenadas en cuaro méodos moleculares: la capura por hibridación, la amplificación por PCR, la amplificación uilizando sondas inveridas que equivale a una combinación de las dos primeras y la uilización de enzimas de resricción. La secuenciación dirigida presena varias venajas a la hora de la obención de daos, porque incremena la proundidad de secuenciación para cada uno de los ragmenos blancos, por lo ano, la sensibilidad de deección, reduce los cosos relaivos por cada una de las muesras al permiir agrupar varias de ellas en una sola línea de secuenciación (el llamado muliplexing ), disminuye la canidad de ADN necesario por muesra, y finalmene, incremena la especificidad y la uniormidad de las secuencias obenidas (Mamanova e al., 2010). La capura por hibridación, la amplificación por PCR y la amplificación por sondas inveridas son comúnmene uilizadas en la secuenciación de exomas, mienras que la amplificación por PCR y la uilización de enzimas de resricción se ocalizan más en la obención de varianes y SNPs uilizados como marcadores moleculares, como en el caso del Genoyping by sequencing o GBS (ver más adelane). Las écnicas moleculares brindan inormación a dierenes niveles axonómicos. Todas ienen sus limiaciones y su aplicación esará deerminada en gran medida por la inormación que esamos buscando con la uilización de un sisema de marcadores moleculares, así como por la disponibilidad de recursos necesarios para el desarrollo de ese ipo de écnicas. Hay muchos ipos de marcadores moleculares disponibles, pero el que debe seleccionarse de acuerdo a un deerminado proyeco depende de: •
•
•
•
•
Los objeivos del proyeco. Las variables del germoplasma. Las poblaciones a analizar. El nivel de resolución. La exisencia o no de un rabajo anerior del cual se pueda omar venaja para el diseño de un marcador.
Sin embargo, una vez obenidos los daos del secuenciador, la bioinormáica nos permie disponer de herramienas para idenificar posibles marcadores a parir de los daos crudos. No hay un méodo esándar para el procesamieno de los mismos, pero si exisen unos pasos mínimos que se llevan a cabo, en ano el procesamieno puede variar dependiendo de la consrucción de las librerías y el méodo de secuenciación empleado. 70
Conceptos en Ciencias Ómicas
Empleando enzimas de restricción Ese méodo emplea el uso de enzimas de resricción (ER), para realizar cores en regiones específicas del genoma (enzimas sensibles a las regiones meiladas), obeniendo muchos loci disribuidos al azar por el genoma. Enre los dierenes méodos que emplean ER se encuenran la secuenciación de represenación reducida (RRL), la secuenciación de ADN asociada a los siios de resricción (RAD-seq) y la secuenciación de baja coberura para genoipado (GBS). Para su análisis bioinormáico, el méodo emplea la deección de SNPs denro de los genomas, siendo el SNP un cambio en una base denro de una secuencia de ADN y la orma más común de variación genéica. Con respeco a oras écnicas, ese méodo incremena la rapidez a la hora de llevar a cabo la genoipificación de especies y permie la obención de un gran número de daos de ala precisión y cosos moderadamene bajo. De igual manera el ER eecúa análisis genoípicos y axonómicos para consruir mapas genéicos y para idenificar marcadores unidos a un carácer en paricular. A ese respeco, si se muesrea una población es posible esimar su variabilidad genéica al uilizar un carácer o marcador que propicie la medición de dicha variabilidad, muy úil para varios aspecos de la biología poblacional (análisis de paernidad, flujo de genes, ec.) y mejoramieno genéico. Cieramene, es posible elaborar un mapa del genoma cuando se iene inormación sobre un número suficiene de marcadores genéicos reparidos de orma represenaiva. La resolución de ese mapa aumena de orma proporcional a la canidad de daos disponibles. Una vez que se iene el mapa del genoma se puede esablecer la correlación de los marcadores siuados en ese con una caracerísica paricular (como el color, sabor, amaño y resisencia a paógenos) e idenificar la localización del gen o los genes asociados a un carácer enoípico.
RAD-seq “Restriction Associated DNA Sequencing” Esa écnica ue originalmene descria por Miller y colaboradores (2007) y esá basada en la plaaorma de mariz de oligonucleóidos sonda ( microarrays ). Baird y colaboradores (2008), adaparon poseriormene los RAD-seq a la plaaorma de secuenciación masiva (amplificación por puene y secuenciación por sínesis) para deecar de manera eficiene los polimorfismos de ADN sin necesidad de ningún conocimieno molecular de las especies objeo de esudio. Poseriormene, usando una secuenciación RAD de pares de ragmenos ( paired-end reads, RAD-PE), en la cual los dos exremos finales del ragmeno de ADN (lecuras direca y reversa; orward and reverse reads ) son secuenciados, se puede mejorar la écnica para generar a parir de ellos secuencias ensambladas (conigs) de mayor longiud y con buena proundidad de coberura ( coverage ), con el fin de genoipar las muesras (Eter e al., 2011; Peerson e al., 2012). 71
Lo anerior se puede llevar a cabo, en ano se dispone o no de un genoma de reerencia. Cuando se dispone de dicho genoma los reads pueden mapearse y localizarse en sus cromosomas. En el caso de no disponer de al genoma, como ocurre en la mayoría de las especies no modelo, se procede al ensamblaje de novo de los reads obenidos de la secuenciación de los exremos de ragmenos amplificados en clúseres. La solidez de ese méodo ha sido corroborada por simulaciones en ordenador y mapeo (Amores e al., 2014). El procesado y el análisis bioinormáico de los daos generados ( reads ), de las disinas muesras a genoipar, secuenciadas aleaoriamene en odo el genoma, y su poserior alineación conra un genoma de reerencia, permie idenificar variaciones genéicas de cambios en una única base nucleoídica o SNPs ( Single Nucleoide Polimorphism ), así como inserciones y/o deleciones de las mismas. Los marcadores SNP han cobrado imporancia debido a su abundancia y variabilidad inraspecífica en los genomas de los individuos en esudio (Gupa e al., 2008). La écnica RAD consise en la preparación de librerías genómicas empleando ER, permiiendo obener una represenación ragmenada del genoma (Davey e al., 2011). Tras la digesión del ADN genómico se añaden dos adapadores erminales en los exremos de los ragmenos, que se emplean para amplificar los ragmenos (ase clusering ) y para secuenciar sus regiones erminales direcas y reversas (ase de secuenciación). Uno de los adapadores lleva en su secuencia un código de barras que permie idenificar cada muesra individual, y de esa manera es posible secuenciar hasa 96 muesras disinas en una calle de la plaaorma ( lane ) conjunamene, ormando una mezcla muliplex , previa selección de los amaños de ragmenos adecuados. La calidad de la librería de ragmenos amplificados se verifica a ravés de la visualización en un gel de agarosa y cuanificando su concenración (Davey e al., 2011); de esa orma se pueden secuenciar un gran número de individuos, aunque a una baja coberura. Esa ecnología se ha aplicado principalmene en animales y planas, algunos ejemplos en planas alógamas son: vid (Wang e al., 2012); cardo ( Cynara cardunculus ) (Scaglione e al., 2012); girasol ( Helianhus annuus ) (Pegadaraju e al., 2013); eucalipo (Gratapaglia and Sederoff, 1994), en el caso de las auógamas enconramos la cebada (Elshire e al., 2011); el rigo (Poland e al., 2012) y Lolium (Hegary e al., 2013) que se esá empleando acualmene en el esudio de diversas especies silvesres. Los daos SNPs obenidos de la écnica RAD esán siendo uilizados para reconsruir filogeograías y arboles filogénicos en diversos organismos (Lemmon & Lemmon, 2012; McCormack e al., 2013; Zellmer e al., 2012), incluso sin disponer de un conocimieno previo sobre la diversidad de sus genomas (Cachen e al., 2013; Masreta-Yanes e al., 2015; Nadeau e al., 2012; Rubin e al., 2012). El hecho de que los SNPs esén disribuidos a lo largo del genoma nuclear y que vayan asociados a una variación neura o adapaiva, además de su relaiva acilidad de genoipado y de ranserencia ecnológica enre los laboraorios (Ogden e al., 2013), ha permiido que un gran número de complejos de 72
Conceptos en Ciencias Ómicas
especies incluyendo las planas poliploides comiencen a ser esudiadas con esos marcadores (Buggs e al., 2012; Ilu e al., 2012; Lai e al., 2012; Wang e al., 2013).
GBS “Genotyping by sequencing” Es un méodo para reducir la complejidad del genoma que ambién emplea enzimas de resricción, pero sensibles a meilación para su digesión. Se dierencia de los RADseq y RRL porque no lleva a cabo una selección de ragmenos por amaño anes de la secuenciación. Ese méodo ue descrio la primera vez por Elshire e al. (2011). La meodología es similar a RAD-seq, la ER más empleada es ApeKI, requiere de dos ipos de adapadores, incluyendo los barcodes , haciendo posible secuenciar hasa 384 muesras de orma simulánea en una corrida. La amplificación de los ragmenos con los adapadores ocurre mediane PCR y se realiza una purificación para eliminar resos de adapadores y reacivos, los que son evaluados mediane una elecrooresis en gel de agarosa y un especrooómero anes de la secuenciación.
Empleando amplificación de PCR, hibridización por selección o amplificación dirigida del genoma Exoma El exoma es la pare del genoma ormado por los exones, los cuales son las regiones codificanes que se van a ranscribir para dar lugar a las proeínas. El esudio del exoma ha cobrado relevancia en los úlimos años y corresponde a una de las ormas más compleas y complejas de esudiar nuesro ADN; un exoma humano consise en, aproximadamene, 180000 exones que consiuyen cerca del 1% del oal del genoma (unas 30 megabases de ADN). Su imporancia radica en que se ha cenrado en mapear varianes codificanes que permien idenificar causas de enermedades, ya que la mayoría de alelos involucrados en enermedades mendelianas aecan direcamene la secuencia codificane. Además, una ala proporción de las varianes que aleran una proeína aecan su unción y son deleéreas.
Genome Skimming “Genome Skimming” es un érmino que comenzó a emplearse desde el 2012 (Sraub e al., 2012) para describir enoques de secuenciación poco prounda, cuyo fin es el descubrimieno de secuencias orólogas conservadas para esudios filogenómicos. Se basa en el enriquecimieno dirigido de regiones genómicas específicas, que son secuenciadas empleando plaaormas el alo rendimieno, proporcionando la oporunidad de ensamblar y analizar racciones genómicas de ala copia, como genomas plasídicos, miocondriales y ADN ribosomal nuclear (ADNr). Esa écnica ambién puede proporcionar secuencias parciales de loci nucleares de baja copia, suficienes para diseñar cebadores de PCR o 73
sondas para aproximaciones de reducción del genoma basados en hibridación (Sraub e al., 2012). Esa écnica se ha uilizado con éxio para una variedad de propósios (Bock e al., 2014; Malé e al., 2014), compensando el reducido número de marcadores independienes recuperados rene a oras venajas; no haciéndose necesario un genoma de reerencia. Teniendo en cuena que se necesia una menor coberura y se pueden secuenciar más muesras con códigos de barras, reduciendo de manera crucial el cose por muesra, su uso es basane empleado para esudios poblacionales o filogenéicos que emplean alos números de muesra.
Chip-seq Busca idenificar siios de unión de proeínas al ADN usando inmunoprecipiación de cromaina, enriquecimieno de los ragmenos de unión y su secuenciación con NGS. El poserior mapeo de las secuencias obenidas al genoma revela la ubicación de los siios de regulación o modificación de la cromaina.
4.2.5. Control de calidad El conrol de calidad de los daos crudos permie llevar a cabo un análisis rápido del esado de las lecuras obenidas con el fin de idenificar y excluir daos con problemas serios de calidad. Las herramienas usadas permien deerminar la calidad de las bases (probabilidad de que la base asignada sea la correca), la disribución de los nucleóidos, la disribución del conenido de GC, secuencias repeidas, enre oros parámeros, como es el caso del programa FasQC 5. Enre las esraegias para excluir daos, exise la endencia a filrar las lecuras que engan poca calidad, o corarlos a parir de la posición en la cual la calidad comienza a decaer. Enre los programas más usados enconramos Cuadap 6 , Trimmomaic (Bolger e al., 2014) y FASTX-Toolki 7 . En el caso de lecuras largas, se han desarrollado flujos de rabajo como el HGAP 8 , sin embargo, hay que ener en cuena que con los avances inormáicos acuales, odos los días enemos nuevos programas en uso. Ora siuación a ener en cuena rene al conrol de calidad son los conaminanes. En la acualidad exisen dierenes herramienas disponibles que sirven para realizar una comprobación rápida de posibles conaminanes en lecuras de secuenciación de muesras o librerías. Eso se lleva a cabo dándole a cada una de esas lecuras una asignación axonómica, que en algunos casos puede llegar hasa nivel de especie, deecando, de esa manera, si las mismas esán conaminadas con ADN de oras uenes. Es decir, si se esá realizando un ensamblaje de novo de una especie X que desaorunadamene presena 5 Al respeco se recomienda visiar la página htp://www.bioinormaics.babraham.ac.uk/projecs/asqc/. 6 Para obener más inormación sobre el programa se recomienda visiar la página htp://code.google.com/p/cuadap/. 7 Hay inormación disponible sobre el programa en htp://hannonlab.cshl.edu/asx_oolki.com. 8 Hay inormación disponible sobre el programa en htps://gihub.com/PacificBiosciences/Bioinormaics.Training/wiki/HGAP.
74
Conceptos en Ciencias Ómicas
secuencias de ADN de múliples organismos que no han sido eliminados, el usuario se arriesgará a obener resulados pobres y conigs quiméricos. Los conaminanes pueden ser el resulado de problemas a la hora de la exracción, como consecuencia del ipo de coleca o muesreo realizado. Eso es basane recuene en el caso de algas u oros simbiones. Enre las herramienas más usadas para llevar a cabo la asignación axonómica de las lecuras, enemos: •
•
•
•
Blas. Kraken9. Cenriuge10. Blobology11.
4.2.6. Ensamblaje Una vez que se han limpiado resos de adapadores en las lecuras obenidas por el secuenciador, y las secuencias de baja calidad han sido reiradas, es posible comenzar con el ensamblaje del genoma. Idealmene, un ensamblaje de genoma es el se de secuencias reunidas que mejor se aproxima al genoma secuenciado. Dependiendo del ipo de genoma exisen dierenes programas, cuya escogencia dependerá principalmene del organismo con el que se esá rabajando, y del ipo de secuenciación uilizado. Para secuencias coras, como las que se obienen en la secuenciación Illumina®, se uilizan programas basados en los graos de Bruijn (DBG - De Bruijn graph assembly ), que son represenaciones de los solapamienos enre ragmenos coros de secuencias llamados k-meros; mienras que para las secuencias más largas, como las obenidas con PacBio® o Nanopore® se usan los ensambladores basados en el consenso por solapamieno (OLC – Overlap/Layou/Consensus assembly ), que uilizan la similiud enre secuencias para deerminar los solapamienos. En ambos casos las lecuras obenidas son inroducidas a los programas de ensamblaje, capaces de enregar ragmenos únicos reconsruidos (llamados conigs). Lo que se busca poseriormene es reorganizar dichos conigs con la ayuda de inormaciones adicionales que permian organizarlos para consruir lo que se llama scaffolds (superconigs). Como es de esperar, la reconsrucción de un genoma es un proceso dispendioso, cuyos resulados dependerán de muchos acores ya explicados previamene (calidad de la secuenciación, la meodología uilizada, la coberura uilizada, y la inormación adicional que se disponga). La mayor pare de los proyecos de secuenciación de genomas se basan en la secuenciación aleaoria ( shogun), por consiguiene, es de esperarse que en su gran mayoría lo que se obiene al final es un borrador aproximaivo del genoma en esudio, 9 Acerca de Kraken se sugiere visiar htps://ccb.jhu.edu/sofware/kraken/ htps://gihub.com/DerrickWood/kraken. 10 Sobre Cenriuge se recomienda visiar htps://ccb.jhu.edu/sofware/cenriuge/. 11 Sobre Blobology se recomienda visiar htps://gihub.com/blaxerlab/bloboloy.
75
cuyo nivel de refinamieno depende de los acores ya mencionados. A coninuación, se deallan algunos programas bioinormáicos para el ensamblaje de genomas, clasificados de acuerdo con los pasos de análisis: 1. Ensamblaje y 2. Evaluación de la calidad del ensamblaje.
Ensamblaje SPAdes Es un se de herramienas diseñando para ensamblar genomas, concebido como una plaaorma escalable y ácil de modificar, se ue ampliando gradualmene en una amilia de herramienas SPAdes, dirigidas a varias ecnologías y aplicaciones de secuenciación, uilizando por deeco una mezcla de valores de k en sus k-meros. Requiere como archivos de enrada lecuras en “paired-end”, “mae-pairs”, y no pareadas, en ormaos BAM, FASTA y FASTQ. Acepa lecuras de Illumina®, Ion TorrenTM, y PacBio®12 (Bankevich e al., 2012). Además del ensamblador SPAdes consanemene acualizado, ahora incluye: •
•
•
•
•
•
MetaSPAdes: ensamblador para daos meagenómicos. RnaSPAdes: ensamblador de novo para RNA-seq (en preparación, Comunicación personal). PlasmidSPAdes: ensamblaje de plásmidos a parir de los daos de secuenciación del genoma compleo. ExSPAnder: módulo para la resolución de repeición. HybridSPAdes: módulo para el ensamblaje híbrido de lecuras coras precisas con lecuras largas y propensas a errores, como las lecuras de Pacific Biosciences y Oxord Nanopore. GeneSPAdes: herramiena dirigida a la reconsrucción exaca de los grupos de genes biosinéicos uilizando su esrucura de dominio (en preparación, comunicación personal).
Velvet Es un ensamblador basado en los graos de Bruijn, diseñado para manipular secuencias coras ipo Illumina®. Velve elimina eficienemene los errores y resuelve las repeiciones de manera independiene. La corrección de errores se basa en la usión de secuencias iguales, y la resolución de repeiciones se hace al separar los caminos que comparen solapamienos. Requiere archivos de enrada lecuras en ormaos FASTA, FASTQ, SAM y BAM, enre oros 13 .
12 Al respeco puede enconrarse inormación en htp://bioin.spbau.ru/en/spades. 13 A ese respeco se sugiere visiar la página htps://gihub.com/dzerbino/velve.
76
Conceptos en Ciencias Ómicas
ABySS Es un ensamblador de novo para secuencias coras, de ipo “paired-end”, obenidas a parir de grandes se de daos. Se basa en una represenación disribuida de los graos de Bruijn, lo que permie compuar de orma paralela el algorimo en muchos procesadores. El algorimo procede en dos eapas. En la primera odas los posibles k-meros son generados a parir de las lecuras, poseriormene los errores son reirados a parir de los ses de k-meros, y los primeros conigs son así consruidos. En la segunda eapa, la inormación derivada de las lecuras “mae-pair” es uilizada para exender los conigs y para resolver las ambigüedades en los solapamienos enre conigs 14 .
MaSuRCA Es un ensamblador que combina la eficiencia de los graos de Bruijn con las caracerísicas del ensamblaje OLC, permiiendo longiudes de lecuras variables y olerando un nivel significaivo de errores en el secuenciamieno. MaSuRCA ransorma las lecuras en “paired-end” en un número menor de “super-lecuras” de mayor longiud. Las superlecuras son una exensión base a base de la lecura original, desde sus dos exremidades siempre y cuando la exensión sea única. Dichas super-lecuras permie el ensamblaje de daos provenienes de lecuras coras (Illumina®), o mezclas enre lecuras coras y largas.
FALCON Es un se de herramienas pensadas para el alineamieno de lecuras largas derivadas de la secuenciación en iempo real de una sola molécula (plaaorma PacBio®) y su ensamblaje de genomas haploides y diploides. Preserva rasro de los conigs alernaivos, lo que permie crear haploipos en ase, de los organismos diploides e idenificar la presencia de heerocigocidades enre cromosomas homólogos 15 .
CANU Fue diseñado para acepar lecuras de PacBio® RS II o del MinION de Nanopore. Su arquiecura modulable permie que el programa corra desde en compuadores personales hasa en clúseres de orma paralelizada. La ejecución de Canu maneja y ejecua cada una de las areas principales del ensamblador: corrección, recore y consrucción de conigs únicos.
Evaluación en la calidad del ensamblaje Cuando el genoma ha sido ensamblado, es recomendable deerminar la calidad del ensamblaje logrado, calculando algunos parámeros de evaluación de la eecividad como los amaños de conigs, número de ensamblajes incorrecos, porcenaje de la represenación del genoma. 14 Puede enconrarse más inormación en htp://www.bcgsc.ca/plaorm/bioino/sofware/abyss. 15 Al respeco, se sugiere ver htps://gihub.com/PacificBiosciences/FALCON.
77
QUAST Es un conjuno de herramienas para la evaluación y comparación de la calidad del ensamblaje del genoma. Compara aquellos que disponen de genoma de reerencia y los que no lo hacen. Produce repores de los parámeros de evaluación, ablas de sumario y gráficos para ayudar a la inerpreación y publicación de daos. Los pasos compuacionalmene más demandanes pueden ser corridos en paralelo. Presena una modificación para la evaluación de ensamblajes meagenómicos llamada, MeaQUAST 16 .
4.2.7. Anotación La anoación se refiere a dos procesos: en primer lugar, los genes y sus esrucuras inrónicas-exónicas (anoación esrucural) y en segundo lugar, agregar meadaos, ales como asociaciones con érminos de Onología de genes (GO, del inglés Gene Onology) y descripciones uncionales, a anoaciones esrucurales (anoación uncional). La anoación de esrucuras génicas se divide en una ase “compuacional”, en la cual se generan predicciones de genes ab iniio, basadas en modelos maemáicos, y predicciones basadas en evidencias, como secuencias de expresión, ranscrios y proeínas conocidas. La ase siguiene consise en la “anoación”, en la cual se asignan descripciones uncionales a los genes predichos en la primera ase. La mayoría de programas acualmene disponibles para anoación esán enocados en genes codificanes de proeínas y no en la anoación de oro ipo de secuencias genómicas como elemenos ransponibles, secuencias repeiivas y genes codificanes de ARNs de ranserencia, ribosomal u oros. La razón de eso es que las secuencias y elemenos repeiivos complican el proceso compuacional de anoación, y las herramienas uilizadas para esos, son dierenes a las que se uilizan en los pipelines comunes de anoación genómica. Un pipeline para anoación genómica debe inegrar y manejar dierenes ipos de evidencias en la orma de secuencias expresadas (ESTs), daos de proyecos de RNA-Seq, homologías de proeínas y predicciones de genes, con la capacidad de poder sineizar odos esos daos en modelos de genes consisenes, para luego generar predicciones robusas de sus aribuos uncionales. Por lo anerior se obienen archivos de salida con los daos de anoación organizados, de al manera que se puedan ver gráficamene en visualizadores genómicos y almacenar en bases de daos de anoación. En las próximas páginas se deallan algunas herramienas bioinormáicas basane usadas para la anoación de genomas, genes y proeínas, clasificadas de acuerdo con los pasos de análisis: 1. Predicción de genes y secuencias codificanes. 2. Predicción de aribuos uncionales de proeínas. 16
Sobre MeaQUAST, se sugiere ver htp://quas.sourceorge.ne.
78
Conceptos en Ciencias Ómicas
4.2.7.1. Programas bioinformáticos para la anotación
Augustus Predice genes en secuencia genómicas eucarioas, basándose en la evaluación de evidencias de regiones poencialmene codificanes de proeínas mediane un Modelo Oculo de Markov Generalizado (GHMM) 17 que inegra inormación inrínseca y exrínseca.
Glimmer Un sisema para enconrar genes en ADN microbiano, especialmene en genomas de bacerias, arqueas y virus 18.
Glimmerhmm Un predicor de genes basado ambién en Modelos Oculos de Markov Generalizado (GHMM), pero adicionalmene incorpora modelos de siios de splicing obenidos a parir de oro programa, GeneSplicer, y de un árbol de decisiones adapado del programa GlimmerM. También uiliza Modelos Inerpolados de Markov para la generación de los modelos codificanes y no codificanes. Acualmene, GlimmerHMM incluye en sus esrucuras inrones, regiones inergénicas y cuaro ipos de exones (inicial, inernos, finales y sencillos) 19.
Repeatmasker Realiza un amizaje de las secuencias de ADN para buscar regiones repeiivas y de baja complejidad. La salida del programa es una anoación deallada de las repeiciones presenes en las secuencias de enrada, así como una versión modificada de la secuencia de enrada, en la cual se han enmascarado odas las repeiciones anoadas (reemplazas por Ns). Acualmene más del 56% de la secuencia genómica del humano es idenificada y enmascarada por el programa 20.
Transdecoder v3.0.0 Predice regiones codificanes en ranscrios reconsruidos a parir de daos de RNA-Seq 21.
17 Al respeco se sugiere ver htp://bioin.uni-greiswald.de/augusus/. 18 Se sugiere ver htp://ccb.jhu.edu/sofware/glimmer/index.shml. 19 A ese respeco se sugiere ver htp://ccb.jhu.edu/sofware/glimmerhmm/. 20 Inormación disponible en htp://www.repeamasker.org/. 21 Inormación disponible en htp://ransdecoder.gihub.io.
79
NCBI-blast Es un suie de programas proporcionados por el Naional Cener or Bioechnology (NCBI) para el alineamieno local (comparación) de secuencias de enrada conra una base de daos blanco22.
Rapsearch. Es una herramiena de búsqueda rápida de proeínas por similiud 23.
Interproscan Es una herramiena que combina dierenes méodos de reconocimieno de parones proeicos en un solo recurso 24.
Hmmer Proporciona acceso a los algorimos de búsqueda de homología enconrados en la suie del programa de HMMER. Desde el primer lanzamieno de la página web en 2011, el reperorio de búsqueda se ha expandido para incluir el algorimo de búsqueda ieraiva, jackhammer. El crecimieno coninuo de las bases de daos de secuencias significa que la canidad de coincidencias obenidas en una búsqueda puede ser exuberane. Por consiguiene, se han desarrollado maneras adicionales de presenar los resulados de búsqueda por homología, permiiendo que puedan resumirse de acuerdo con su disribución axonómica o arquiecura de dominios. Esos dos crierios se pueden usar de orma combinada para filrar los resulados de acuerdo con las necesidades del usuario 25 .
Tmhmm Programa para la predicción de hélices ransmembrana en proeínas 26.
Signalp Predice la presencia y ubicación de siios de clivaje de pépido señal en secuencias de amino ácidos de dierenes organismos: procarioas Gram-posiivos y Gram-negaivos y eucarioas27 . 22 Inormación disponible en htp://blas.ncbi.nlm.nih.gov/Blas.cgi. 23 Inormación disponible en htp://omics.inormaics.indiana.edu/mg/RAPSearch2/. 24 Inormación disponible en htps://code.google.com/archive/p/inerproscan/. 25 Inormación disponible en htp://www.ebi.ac.uk/Tools/hmmer/. 26 Inormación disponible en htp://www.cbs.du.dk/services/TMHMM/. 27 Inormación disponible en htp://www.cbs.du.dk/services/SignalP/.
80
Conceptos en Ciencias Ómicas
Blast2GO Una herramiena bioinormáica para la anoación uncional de secuencia y minería de daos sobre las anoaciones resulanes, basadas principalmene en érminos de Onología de genes (GO, del inglés Gene Onology). Blas2GO opimiza la ranserencia de unción enre secuencias homólogas a ravés de un algorimo elaborado que iene en cuena similiud, exensión de la homología, base de daos de reerencia, la jerarquía del GO y la calidad de las anoaciones originales. La herramiena incluye numerosas unciones para la visualización, manejo y análisis esadísico de resulados de anoación, incluyendo un análisis de enriquecimieno de genes. La aplicación sopora anoaciones con InerPro, códigos enzimáicos, vías KEGG, graos acíclicos direcos GO (DAGs) y GOslim 28.
Maker Es una herramiena de anoación genómica y de manejo de daos diseñada para proyecos de genoma de segunda generación (no modelo). MAKER2 puede procesar conjunos de daos de segunda generación de virualmene cualquier amaño, produciendo anoaciones precisas para genomas nuevos, para los cuales los daos de enrenamieno son limiados, de baja calidad y casi inexisenes. Permie el uso de daos de RNA-Seq para mejorar la calidad de la anoación y se pueden usar esos daos para acualizar anoaciones exisenes, mejorando significaivamene su calidad. MAKER2 ambién permie evaluar la calidad de las anoaciones genómicas e idenificar y priorizar anoaciones problemáicas para su curación manual 29.
4.2.8. Visualización de la anotación El resulado de las anoaciones de los genes puede ser viso direcamene en el compuador o puede ser cargado en páginas web que permien enconrar las caracerísicas de los genes anoados, a ravés de herramienas diseñadas para la descripción, el análisis, visualización y la disribución de la anoación. Uno de los programas más uilizados acualmene para la visualización y exploración de daos de genoma es JBrowse, derivado de GBrowse, uno de los primeros visualizadores.
28 Inormación disponible en htps://www.blas2go.com/. 29 Inormación disponible en htp://www.yandell-lab.org/sofware/maker.hml.
81
4.3. Referencias Adams M.D., Celniker S.E., Hol R.A., Evans C.A., Gocayne J.D., Amanaides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N., Suton G.G., Worman J.R., Yandell M.D., Zhang Q., Chen L.X., Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Peiffer B.D., Wan K.H., Doyle C., Baxer E.G., Hel G., Nelson C.R., Gabor G.L., Miklos, Abril J.F., Agbayani A., An H.-J., Andrews-Pannkoch C., Baldwin D., Ballew R.M., Basu A., Baxendale J., Bayrakaroglu L., Beasley E.M., Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S., Borkova D., Bochan M.R., Bouck J., Broksein P., Brotier P., Buris K.C., Busam D.A., Buler H., Cadieu E., Cener A., Chandra I., Cherry J.M., Cawley S., Dahlke C., Davenpor L.B., Davies P., Pablos B.d., Delcher A., Deng Z., Mays A.D., Dew I., Diez S.M., Dodson K., Doup L.E., Downes M., DuganRocha S., Dunkov B.C., Dunn P., Durbin K.J., Evangelisa C.C., Ferraz C., Ferriera S., Fleischmann W., Fosler C., Gabrielian A.E., Garg N.S., Gelbar W.M., Glasser K., Glodek A., Gong F., Gorrell J.H., Gu Z., Guan P., Harris M., Harris N.L., Harvey D., Heiman T.J., Hernandez J.R., Houck J., Hosin D., Houson K.A., Howland T.J., Wei M.-H., e al. (2000). The Genome Sequence o Drosophila melanogaser. Science, 287:2185. Amores, A., Cachen, J., Nanda, I., Warren, W., Waler, R., Scharl, M., Poslehwai J.H. (2014). A RAD-Tag Geneic Map or he Playfish (Xiphophorus maculaus). Reveals Mechanisms o Karyoype Evoluion Among Teleos Fish. Geneics, 197 , 625-U307. DOI: 10.1534/geneics.114.164293. Baird N.A., Eter P.D., Awood T.S., Currey M.C., Shiver A.L., Lewis Z.A., Selker E.U., Cresko W.A., Johnson E.A. (2008). Rapid SNP Discovery and Geneic Mapping Using Sequenced RAD Markers. Plos One 3. Bankevich A., Nurk S., Anipov D., Gurevich A.A., Dvorkin M., Kulikov A.S., Lesin V.M., Nikolenko S.I., Pham S., Prjibelski A.D., Pyshkin A.V., Sirokin A.V., Vyahhi N., Tesler G., Alekseyev M.A., Pevzner P.A. (2012). SPAdes: A New Genome Assembly Algorihm and Is Applicaions o Single-Cell Sequencing. Journal o Compuaional Biology, 19, 455-477. DOI: 10.1089/cmb.2012.0021. Bock, D.G., Kane N.C., Eber, D.P., Rieseberg, L.H. (2014). Genome skimming reveals he origin o he Jerusalem Arichoke uber crop species: neiher rom Jerusalem nor an arichoke. New Phyologis, 201, 1021-1030. DOI: 10.1111/nph.12560. Bolger, A.M., Lohse, M., Usadel, B. (2014). Trimmomaic: a flexible rimmer or Illumina sequence daa. Bioinormaics, 30, 2114-2120. DOI: 10.1093/bioinormaics/bu170. Brenchley R., Spannagl M., Peier M., Barker G.L.A., D’Amore R., Allen A.M., McKenzie N., Kramer M., Kerhornou A., Bolser D., Kay S., Waie D., Trick M., Bancrof I., Gu Y., Huo N., Luo M.C., Sehgal S., Gill B., Kianian S., Anderson O., Kersey P., Dvorak J., McCombie W.R., Hall A., Mayer K.F.X., Edwards K.J., Bevan M.W., Hall N. (2012). Analysis o he breadwhea genome using whole-genome shogun sequencing. Naure, 491, 705-710. DOI: 10.1038/naure11650. Buggs R.J.A., Renny-Byfield S., Cheser M., Jordon-Thaden I.E., Viccini L.F., Chamala 82
Conceptos en Ciencias Ómicas
S., Leich A.R., Schnable P.S., Barbazuk W.B., Solis P.S., Solis D.E. (2012). Nexgeneraion sequencing and genome evoluion in allopolyploids. American Journal o Boany, 99, 372-382. DOI: 10.3732/ajb.1100395. Cachen, J., Bassham, S., Wilson, T., Currey, M., O’Brien, C., Yeaes, Q., Cresko, W.A. (2013). The populaion srucure and recen colonizaion hisory o Oregon hreespine sickleback deermined using resricion-sie associaed DNA-sequencing. Molecular Ecology, 22, 2864-2883. DOI: 10.1111/mec.12330. Chain P.S.G., Graham D.V., Fulon R.S., FizGerald M.G., Hoseler J., Muzny D., Ali J., Birren B., Bruce D.C., Buhay C., Cole J.R., Ding Y., Dugan S., Field D., Garriy G.M., Gibbs R., Graves T., Han C.S., Harrison S.H., Highlander S., Hugenholz P., Khouri H.M., Kodira C.D., Kolker E., Kyrpides N.C., Lang D., Lapidus A., Malati S.A., Markowiz V., Meha T., Nelson K.E., Parkhill J., Piluck S., Qin X., Read T.D., Schmuz J., Sozhamannan S., Serk P., Srausberg R.L., Suton G., Thomson N.R., Tiedje J.M., Weinsock G., Wollam A., Deter J.C. (2009). Genome Projec Sandards in a New Era o Sequencing. Science, 326, 236. Davey, J.W., Hohenlohe, P.A., Eter, P.D., Boone, J.Q., Cachen, J.M., Blaxer, M.L. (2011) Genome-wide geneic marker discovery and genoyping using nex-generaion sequencing. Naure Reviews Geneics 12:499-510. Elshire, R.J., Glaubiz, J.C., Sun, Q., Poland, J.A., Kawamoo, K., Buckler, E.S., Michell, S.E. (2011). A Robus, Simple Genoyping-by-Sequencing (GBS). Approach or High Diversiy Species. Plos One 6. Eter, P.D., Bassham, S., Hohenlohe, P.A., Johnson, E.A., Cresko, W.A. (2011). SNP discovery and genoyping or evoluionary geneics using RAD sequencing. Mehods in molecular biology (Clifon, N.J.) . 772, 157-78. DOI: 10.1007/978-1-61779-228-1_9. Fedoroff, N.V. (2012) Transposable Elemens, Epigeneics, and Genome Evoluion. Science, 338, 758-767. DOI: 10.1126/science.338.6108.758. Fleischmann R.D., Adams M.D., Whie O., Clayon R.A., Kirkness E.F., Kerlavage A.R., Bul C.J., Tomb J.F., Doughery B.A., Merrick J.M., e al.(1995). Whole-genome random sequencing and assembly o Haemophilus influenzae Rd. Science, 269, 496. Garcia-Mas J., Benjak A., Sanseverino W., Bourgeois M., Mir G., Gonzalez V.M., Henaff E., Camara F., Cozzuo L., Lowy E., Alioo T., Capella-Guierrez S., Blanca J., Canizares J., Ziarsolo P., Gonzalez-Ibeas D., Rodriguez-Moreno L., Droege M., Du L., AlvarezTejado M., Lorene-Galdos B., Mele M., Yang L.M., Weng Y.Q., Navarro A., MarquesBone T., Aranda M.A., Nuez F., Pico B., Gabaldon T., Roma G., Guigo R., Casacubera J.M., Arus P., Puigdomenech P. (2012). The genome o melon ( Cucumis melo L.). Proceedings o he Naional Academy o Sciences o he Unied Saes o America 109, 11872-11877. DOI: 10.1073/pnas.1205415109.
Gawad, C., Koh, W., Quake, S.R. (2016). Single-cell genome sequencing: curren sae o he science. Na Rev Gene, 17, 175-188. DOI: 10.1038/nrg.2015.16. Goff S.A., Ricke D., Lan T.H., Presing G., Wang R.L., Dunn M., Glazebrook J., Sessions A., Oeller P., Varma H., Hadley D., Huchinson D., Marin C., Kaagiri F., Lange B.M., Moughamer T., Xia Y., Budworh P., Zhong J.P., Miguel T., Paszkowski U., Zhang S.P.,
83
Colber M., Sun W.L., Chen L.L., Cooper B., Park S., Wood T.C., Mao L., Quail P., Wing R., Dean R., Yu Y.S., Zharkikh A., Shen R., Sahasrabudhe S., Thomas A., Cannings R., Guin A., Pruss D., Reid J., Tavigian S., Michell J., Eldredge G., Scholl T., Miller R.M., Bhanagar S., Adey N., Rubano T., Tusneem N., Robinson R., Feldhaus J., Macalma T., Oliphan A., Briggs S.…(2002a). A draf sequence o he rice genome ( Oryza saiva L. ssp japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275. Goffeau A., Barrell B.G., Bussey H., Davis R.W., Dujon B., Feldmann H., Galiber F., Hoheisel J.D., Jacq C., Johnson M., Louis E.J., Mewes H.W., Murakami Y., Philippsen P., Tetelin H., Oliver S.G. (2002b). A Draf Sequence o he Rice Genome (Oryza saiva L. ssp. japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275. Goffeau, A., Barrell, B.G., Bussey, H., Davis, R.W., Dujon, B., Feldmann, H., Galiber, F., Hoheisel, J.D…(1996). Lie wih 6000 Genes. Science, 274, 546. Gratapaglia, D., Sederoff, R. (1994) Geneic-Linkage Maps o Eucalypus-Grandis and Eucalypus-Urophylla Using a Pseudo-Tescross - Mapping Sraegy and Rapd Markers. Geneics, 137, 1121-1137. Guo, S., Zhang, J., Sun, H., Salse, J., Lucas, W.J., Zhang, H., Zheng Y., Mao, L., Ren, Y… (2013). The draf genome o waermelon (Cirullus lanaus) and resequencing o 20 diverse accessions. Na Gene, 45, 51- 58. DOI: htp://www.naure.com/ng/journal/ v45/n1/abs/ng.2470.hml#supplemenary-inormaion. Gupa, P.K., Rusgi, S., Mir, R.R. (2008). Array-based high-hroughpu DNA markers or crop improvemen. Herediy, 101, 5-18. Hegary, M., Yadav, R., Lee, M., Armsead, I., Sanderson, R., Scollan, N., Powell, W., Sko, L. (2013). Genoyping by RAD sequencing enables mapping o aty acid composiion rais in perennial ryegrass (Lolium perenne (L.)). Plan Bioechnology Journal, 11, 572-581. Heinner, G. (2015). Hacia la medicina personalizada: implicancias de las ciencias básicas y las “ómicas” en la prácica clínica. Revisa Peruana de Medicina Experimenal y Salud Publica, 32, 629-632. Hirsch, C.N., Foerser, J.M., Johnson, J.M., Sekhon, R.S., Mutoni, G., Vaillancour, B., Peñagaricano, F., Lindquis, E…(2014). Insighs ino he Maize Pan-Genome and Pan-Transcripome. The Plan Cell, 26, 121-135. Ilu, D.C., Coae, J.E., Luciano, A.K., Owens, T.G., May, G.D., Farmer, A., Doyle, J.J. (2012). A comparaive ranscripomic sudy o an alloeraploid and is diploid progeniors illusraes he unique advanages and challenges o rna-seq in plan species. American Journal o Boany. 99, 383-396. DOI: 10.3732/ajb.1100312. Inernaional Human Genome Sequencing Consorium. (2001). Iniial sequencing and analysis o he human genome. Naure, 409, 860 - 921. DOI: htp://www.naure. com/naure/journal/v409/n6822/suppino/409860a0_S1.hml. Jain, M., Misra, G., Pael, R.K., Priya, P., Jhanwar, S., Khan, A.W., Shah, N., Singh, V.K… (2013). A draf genome sequence o he pulse crop chickpea ( Cicer arieinum L.). Plan Journal, 74, 715-729. DOI: 10.1111/pj.12173. Kelly, L.J., Leich, A.R., Fay, M.F., Renny-Byfield, S., Pellicer, J., Macas, J., Leich, I.J. (2012). Why size really maters when sequencing plan genomes. 84
Conceptos en Ciencias Ómicas
Plan Ecology & Diversiy, 5, 415-425. DOI: 10.1080/17550874.2012.716868.
Lai, Z., Kane, N.C., Kozik, A., Hodgins, K.A., Dlugosch, K.M., Barker, M.S., Mavienko, M., Yu, Q…(2012). Genomics o composiae weeds: es libraries, microarrays, and evidence o inrogression. American Journal o Boany. 99, 209-218. DOI: 10.3732/ ajb.1100313. Lemmon, A.R., Lemmon, E.M. (2012). High-Throughpu Idenificaion o Inormaive Nuclear Loci or Shallow-Scale Phylogeneics and Phylogeography. Sysemaic Biology, 61, 745-761. Malé, P.-J.G., Bardon, L., Besnard, G., Coissac, E., Delsuc, F., Engel J., Lhuillier, E., Scoti-Sainagne, C…(2014). Genome skimming by shogun sequencing helps resolve he phylogeny o a panropical ree amily. Molecular Ecology Resources, 14, 966975. DOI: 10.1111/1755-0998.12246. Mamanova, L., Coffey, A.J., Scot, C.E., Kozarewa, I., Turner, E.H., Kumar A., Howard E., Shendure J…(2010). Targe-enrichmen sraegies or nex-generaion sequencing. Na Meh, 7, 111-118. DOI: htp://www.naure.com/nmeh/journal/v7/n2/suppino/ nmeh.1419_S1.hml. Masreta-Yanes, A., Arrigo, N., Alvarez, N., Jorgensen, T.H., Pinero, D., Emerson, B.C. (2015). Resricion sie-associaed DNA sequencing, genoyping error esimaion and de novo assembly opimizaion or populaion geneic inerence. Molecular Ecology Resources, 15, 28-41. DOI: 10.1111/1755-0998.12291. McCormack, J.E., Hird, S.M., Zellmer, A.J., Carsens, B.C., Brumfield, R.T. (2013). Applicaions o nex-generaion sequencing o phylogeography and phylogeneics. Molecular Phylogeneics and Evoluion, 66, 526-538. Michael, T.P., Jackson, S. (2013). The Firs 50 Plan Genomes. Plan Gen, 6. DOI: 10.3835/plangenome2013.03.0001in. Miller, M.R., Dunham, J.P., Amores, A., Cresko, W.A., Johnson, E.A. (2007). Rapid and cos-effecive polymorphism idenificaion and genoyping using resricion sie associaed DNA (RAD) markers. Genome Research, 17, 240-248. Nadeau, N.J., Whibley, A., Jones, R.T., Davey, J.W., Dasmahapara, K.K., Baxer, S.W., Quail, M.A., Joron M…(2012). Genomic islands o divergence in hybridizing Heliconius buterflies idenified by large-scale argeed sequencing. Philosophical Transacions o he Royal Sociey B-Biological Sciences, 367, 343-353. DOI: 10.1098/ rsb.2011.0198. Ogden, R., Gharbi, K., Mugue, N., Marinsohn, J., Senn, H., Davey, J.W., Pourkazemi, M., McEwing, R…(2013). Surgeon conservaion genomics: SNP discovery and validaion using RAD sequencing. Molecular Ecology, 22, 3112-3123. DOI: 10.1111/mec.12234. Paerson, A.H., Bowers, J.E., Bruggmann, R., Dubchak, I., Grimwood, J., Gundlach, H., Haberer, G., Hellsen, U... (2009). The Sorghum bicolor genome and he diversificaion o grasses. Naure, 457, 551-556. DOI: 10.1038/naure07723. Pegadaraju, V., Nipper, R., Hulke, B., Qi, L.L., Schulz, Q. (2013). De novo sequencing o sunflower genome or SNP discovery using RAD (Resricion sie Associaed DNA) approach. Bmc Genomics, 14. Peerson, B.K., Weber, J.N., Kay, E.H., Fisher, H.S., Hoeksra, H.E. (2012). Double Diges 85
RADseq: An Inexpensive Mehod or de novo SNP Discovery and Genoyping in Model and Non-Model Species. Plos One 7, e37135. DOI: 10.1371/journal.pone.0037135. Poland, J.A., Brown, P.J., Sorrells, M.E., Jannink, J.L. (2012). Developmen o HighDensiy Geneic Maps or Barley and Whea Using a Novel Two-Enzyme Genoypingby-Sequencing Approach. Plos One 7. Renny-Byfield, S., Wendel, J.F. (2014). Doubling down on genomes: Polyploidy and crop plans. American Journal o Boany, 101, 1711-1725. Rosenblum, E.B., James, T.Y., Zamudio, K.R., Pooren, T.J., Ilu, D., Rodriguez, D., Easman, J.M., Richards-Hrdlicka, K…(2013). Complex hisory o he amphibiankilling chyrid ungus revealed wih genome resequencing daa. Proceedings o he Naional Academy o Sciences, 110, 9385-9390. Rubin, B.E.R., Ree, R.H., & Moreau, C.S. (2012). Inerring Phylogenies rom RAD Sequence Daa. Plos One 7. DOI: 10.1371/journal.pone.0033394. Sao S., Nakamura Y., Kaneko T., Asamizu E., Kao T., Nakao M., Sasamoo S., Waanabe A…(2008). Genome Srucure o he Legume, Lous japonicus. DNA Research: An Inernaional Journal or Rapid Publicaion o Repors on Genes and Genomes, 15,
227-239. DOI: 10.1093/dnares/dsn008. Scaglione, D., Acquadro, A., Poris, E., Tirone, M., Knapp, S.J., & Laneri, S. (2012). RAD ag sequencing as a source o SNP markers in Cynara cardunculus L. Bmc Genomics, 13. Schmuz, J., McClean, P.E., Mamidi, S., Wu, G.A., Cannon, S.B., Grimwood, J., Jenkins, J., Shu, S.Q…(2014). A reerence genome or common bean and genome-wide analysis o dual domesicaions. Naure Geneics, 46, 707-713. DOI: 10.1038/ng.3008. Schnable, P.S., Ware, D., Fulon, R.S., Sein, J.C., Wei, F.S., Pasernak, S., Liang, C.Z., Zhang, J.W…(2009). The B73 Maize genome: Complexiy, diversiy, and dynamics. Science, 326, 1112-1115. DOI: 10.1126/science.1178534. Sims, D., Sudbery, I., Ilot, N.E., Heger, A., & Poning, C.P. (2014). Sequencing deph and coverage: key consideraions in genomic analyses. Na Rev Gene, 15, 121-132. DOI: 10.1038/nrg3642. Sraub, S.C.K., Parks, M., Weiemier, K., Fishbein, M., Cronn, R.C., & Lison, A. (2012). Navigaing he ip o he genomic iceberg: nex-generaion sequencing or plan sysemaics. American Journal o Boany, 99, 349-364. DOI: 10.3732/ajb.1100335. The Arabidopsis Genome Iniiaive. (2000). Analysis o he genome sequence o he flowering plan Arabidopsis haliana. Naure, 408, 796- 815. DOI: htp://www. naure.com/naure/journal/v408/n6814/suppino/408796a0_S1.hml. The Barley Genome Sequencing Consorium. (2012). A physical, geneic and uncional sequence assembly o he barley genome. Naure, 491, 711-716. The C.elegans Sequencing Consorium. (1998). Genome Sequence o he Nemaode C. elegans: A Plaorm or Invesigaing Biology.Science, 282, 2012. The Inernaional Brachypodium Iniiaive. (2010). Genome sequencing and analysis o he model grass Brachypodium disachyon. Naure, 463, 763- 768. DOI: Doi 10.1038/Naure08747.
86
Conceptos en Ciencias Ómicas
The Poao Genome Sequencing Consorium. (2011). Genome sequence and analysis o he uber crop poao. Naure, 475, 189 - 195. DOI: htp://www.naure.com/naure/ journal/v475/n7355/abs/naure10158-1.2.hml#supplemenary-inormaion. Treangen, T.J., & Salzberg, S.L. (2012). Repeiive DNA and nex-generaion sequencing: compuaional challenges and soluions. Na Rev Gene, 13, 36-46. Wang, N., Fang, L.C., Xin, H.P., Wang, L.J., & Li, S.H. (2012). Consrucion o a highdensiy geneic map or grape using nex generaion resricion-sie associaed DNA sequencing. Bmc Plan Biology, 12. Wang, N., Thomson, M., Bodles, W.J.A., Craword, R.M.M., Hun, H.V., Feahersone, A.W., Pellicer, J., & Buggs, R.J.A. (2013). Genome sequence o dwar birch (Beula nana) and cross-species RAD markers. Molecular Ecology, 22, 3098-3111. DOI: 10.1111/mec.12131. Wegrzyn, J.L., Liechy, J.D., Sevens, K.A., Wu, L.-S., Loopsra, C.A., Vasquez-Gross, H.A., Doughery, W.M., Lin, B.Y…(2014). Unique Feaures o he Loblolly Pine (Pinus aeda L.) Megagenome Revealed Through Sequence Annoaion. Geneics, 196, 891909. DOI: 10.1534/geneics.113.159996. Weigel D., Mot R. (2009). The 1001 Genomes Projec or Arabidopsis haliana. Genome Biology, 10, 107. DOI: 10.1186/gb-2009-10-5-107. Yadav, D. (2015). Relevance o Bioinormaics in he era o Omics driven research. Journal o Nex Generaion Sequencing & Applicaions, 2, e102. DOI: 10.4172/24699853.1000e102. Young, B., Beck, S., Córdova, J., Ember, D., Franke, I., Hernandez, P., Herzog, S., Pacheco, V…(2007). Digial disribuion maps o species endemic o he eas slope o he Andes in Peru and Bolivia. NaureServe. Virginia, USA: Arlingon. Zellmer, A.J., Hanes, M.M., Hird, S.M., & Carsens, B.C. (2012). Deep Phylogeographic Srucure and Environmenal Differeniaion in he Carnivorous Plan Sarracenia alaa. Sysemaic Biology, 61, 763-777.
87
5.METAGENÓMICA JEANNETH MOSQUERA RENDÓN DIANA LÓPEZ-ALVAREZ
En la Tierra enconramos que los microorganismos son los seres vivos con mayor abundancia, incluso enconramos más células bacerianas en un cuerpo humano que sus propias células. Además, las bacerias y las arqueas pueden vivir en oda clase de ambienes –incluyendo ambienes exremos de 340°C (Wooley, Godzik & Friedberg, 2010)–; ésas son esenciales para la vida, ya que son uene primaria de nurienes. Sin embargo, solo un pequeño porcenaje de esos microorganismos pueden ser culivados y secuenciados de manera aislada, lo que hace diícil su esudio. La meagenómica aparece para revolucionar y solvenar esos problemas, permiiendo esudiar direcamene comunidades microbianas en sus hábias naurales a ravés de la obención de la inormación genómica, caracerizando desde 10 a 10000 especies en un esudio. Los análisis meagenómicos de ácidos nucleicos proveen acceso direco a los genomas de la mayoría de microorganismos no culivados (Nesme e al., 2016). Por lo ano, surgen muchas definiciones de meagenómica como las que veremos más adelane, pero en general se define como el esudio genómico de microorganismos sin culivar muesreados desde sus hábias. Sus aplicaciones son inmensas, dado que podemos secuenciar oda la vida en la Tierra, desde el suelo, pasando por el mar, hasa el aire; acelerando el descubrimieno de nuevos filos, clases, géneros y especies, así como nuevos genes, enzimas y unciones que engan impaco en secores como la agroindusria y la armacéuica. Además, iene aplicación en el monioreo de ecosisemas naurales o someidos a presiones ambienales con el fin de proponer medidas que ayuden a su resauración. Finalmene, una de las medidas más imporanes desde el puno de visa anropocénrico es el conocimieno del microbioma humano, porque puede aporarnos inormación de la salud de las personas. El esudio meagenómico ha omado ana uerza, que la adminisración del expresidene de los Esados Unidos Barack Obama anunciaba en mayo de 2016, una nueva Iniciaiva Nacional del Microbioma, con el fin de crear herramienas cieníficas, descubrimienos y écnicas de enrenamieno que permiirían avanzar en los esuerzos para curar el asma y la depresión, limpiar los derrames de peróleo e incluso aumenar los rendimienos de los culivos. Los microbiomas ya han sido oco de inensos esudios de inerés público con iniciaivas como el Proyeco del Microbioma de la Tierra ( Earh Microbiome Projec -EMP) (Gilber, Jansson & Knigh, 2014), TerraGenome (Vogel e al., 2009), el Proyeco del Microbioma Brasilero (Pylro e al., 2014), la iniciaiva China del Microbioma del 32 Suelo30, EcoFINDERS31 , MicroBliz , MeaHIT, el Proyeco Microbioma Humano 30 Inormación disponible en htp://english.issas.cas.cn/. 31Inormación disponible en htp://ecofinders.dmu.dk/. 32 Inormación disponible en htp://www.microbliz.com.au/.
88
Conceptos en Ciencias Ómicas
(Human Microbiome Projec ), Tara Oceans y la Expedición de Muesreo Oceánica Global (The Global Ocean Sampling Expediion ). Incluso, el Consorcio de Esándares Genómicos (Genomics Sandards Consorium -GSC) ha definido la inormación mínima que debe conener un meadao para la secuenciación de un meagenoma. Acualmene, el problema no radica en poder esudiar los meagenomas, sino, en el análisis complejo de ese conjuno de daos, que incluyen un alo volumen de secuencias y requiere nuevas aproximaciones y recursos compuacionales. El primer paso de un análisis de esa índole involucra análisis comparaivos de varios ribosomas y proeínas y bases de daos de nucleóidos. Eso genera un coso compuacional elevado, requiriendo servidores o clúser que puedan permiir su realización y que incluyan comparaciones filogenéicas, anoaciones uncionales, clasificación de secuencias ( binning ), perfiles filogenómicos, reconsrucciones meabólicas y modelización.
5.1. Definición La meagenómica se ha converido en una imporane herramiena para explorar y analizar la colección de genomas microbianos presenes en diversas comunidades o nichos ambienales (marinas, agua dulce, suelo), en planas, en animales o en el hombre; siendo muy úil para la deección de microorganismos que no habían podido ser culivados de manera radicional. El érmino de “Meagenómica” ue acuñado por Handelsman en 1998, luego de haber realizado clonaciones de ADN direcamene de muesras ambienales (Handelsman, Rondon, Brady, Clardy & Goodman, 1998). En la acualidad, la meagenómica se basa en el esudio del maerial genéico recuperado de muesras biológicas o medioambienales que, juno con la aplicación de dierenes aproximaciones genómicas y herramienas bioinormáicas, han permiido describir la esrucura axonómica presene en las comunidades microbianas en dierenes enornos y su unción poencial, lo que nos acerca a descubrir nuevos genes, enzimas o meabolios de gran inerés médico e indusrial. La meagenómica permie obener inormación relacionada con:
I. diversidad filogenéica, al lograr la idenificación de los microrganismos presenes en una comunidad microbiana, su cuanificación, su disribución, sus relaciones filogenéicas y su dinámica. II.meagenómica uncional, con la cual es posible realizar la búsqueda de acividades enzimáicas o nuevas ruas meabólicas. III. meagenómica comparaiva, permie relacionar especies con unciones específicas o unciones específicas con deerminados hábias. IV. la evolución de genes. Adicionalmene, la meagenómica conribuye en la búsqueda de soluciones a problemas prácicos de dierenes áreas del conocimieno como las ciencias de la vida, ciencias de 89
la ierra, ciencias biomédicas, bioenergía, biorremediación, bioecnología y agriculura (Figura 5.1).
Ciencias de la vida Aporta en el avance del entendimiento de las comunidades microbianas, su ecología y su evolución.
Metagenómica Ciencias de la tierra Contribuye en el desarrollo de modelos de ecosistemas microbianos para describir y precidir los porcesos ambientales globales, su cambio y sostenibilidad.
Ciencias biomédicas Ayuda en la comprensión del papel del microbioma humano en la salud, y en el desarrollo de nuevas estrategias de diagnóstico y tratamiento de diferentes enfermedades.
Bioenergía Favorece el desarrollo de sistemas y procesos microbianos de nuevos recursos bioenergéticos más económicos y ambientalmente sostenibles.
Biorremediación La metagenómica permite el desarrollo de herramientas para el control de daños al medio ambiente en todos los niveles.
Biotecnología Permite la identicación y explotación de metabolitos y enzimas presentes en las comunidades microbianas que generan productos industriales (alimentos, cosméticos, farmaceúticos, etc)
Agricultura Contribuye en el desarrollo de métodos más ecaces e integrales para la detección temprana de enfermedades de los cultivos y detección de contaminantes en los alimentos.
Figura 5.1. Conribuciones de la meagenómica en dierenes áreas del conocimieno. Desde el primer regisro de una célula baceriana en 1663, por Anonie van Leeuwenhoek, se han desarrollado dierenes esraegias para esudiar los microorganismos presenes en los dierenes ambienes. En la acualidad, se ha logrado describir dierenes especies microbianas mediane el análisis de secuencias de ADN de microrganismos sin necesidad de ser culivados. Eso se evidencia en los dierenes proyecos pioneros desarrollados en meagenómica (Tabla 5.1), denro de los cuales cabe resalar uno de los primeros esudios realizados y publicados sobre comunidades microbianas de aguas superficiales oceánicas en el Mar de los Sargazos (Bermudas), que ueron secuenciadas empleando ecnología Sanger, obeniendo 1045 mil millones de pares de bases, correspondienes a 1,66 millones de lecuras, donde ueron enconrados aproximadamene 1800 disinas especies y más de 1,2 millones de nuevos genes codificanes incluyendo 782 nuevos genes oorrecepores (Vener, 2004). Uno de los esudios más ambiciosos de los úlimos años ha sido el proyeco de Expedición de Muesreo Oceánica Global (GOS), desarrollado durane los años 2006 y 2007, en el que ueron analizados 200 liros de agua del Océano Alánico noroese y del Pacífico 90
Conceptos en Ciencias Ómicas
ropical, obeniendo 7,7 millones de lecuras de 800 pb, con la idenificación de nuevas especies de bacerias y nuevas amilias de proeínas (Rusch e al., 2007). Oro proyeco de gran dimensión ue el Proyeco del Microbioma Humano (HMP), desarrollado en el 2008, cuyo objeivo ue idenificar y caracerizar los microorganismos residenes en cinco dierenes zonas del cuerpo humano (cavidad oral, piel, vagina, inesinos y cavidad nasal/ pulmonar), buscando correlaciones enre los cambios de los microbiomas de pacienes enermos y sanos. En ese proyeco ueron secuenciadas más de 2000 muesras, generando aproximadamene 23 millones de lecuras de ala calidad, las cuales pudieron ser asignadas a 674 clados axonómicos (Nelson e al., 2010). Los esudios aneriores ueron realizados en virud de los avances en el desarrollo de las ecnologías de secuenciación de los úlimos años (ver Capiulo 3), permiiendo la reducción de los cosos y haciéndolas más asequibles a los invesigadores, con mejores rendimienos de producción de daos y calidad, impulsando así la revolución de los esudios de diversidad microbiana, la búsqueda e idenificación de nuevas enzimas, meabolios, ruas meabólicas, la comprensión de la dinámica de comunidades microbianas y su imporancia en dierenes áreas como salud, agriculura, bioecnología, enre oras. Por consiguiene, en la acualidad se cuena con 17412 meagenomas, 1312 mearanscripomas, 78221 amplicones, 138 ensamblajes, los cuales se encuenran dispuesos en bases de daos públicas33.
Tabla 5.1. Lisado de algunos proyecos pioneros en meagenómica Proyecto Descripción Biopelícula en un efluene En primera insancia de minas hicieron una librería de 16S ARNr para averiguar si la diversidad era baja. Luego produjeron una librería con ragmenos de 3,2 kb e hicieron 103462 lecuras mediane ‘ shogun sequencing ’ para obener 76,2 millones pb de secuencia.
Mar de Sargasso.
SANGER 1,66 millones de lecuras resularon en 1045 mil millones de pb en secuencia
SANGER Global Ocean Sampling Secuenciaron 7,7 millones de (41 muesras en 8000 km lecuras de 800 pb cada uno desde el Nore de Océano (6,3 mil millones de bases). Alánico a Sur del Océano SANGER Pacifico).
Resultado Referencia bibliográfica Lograron ensamblar casi (Tyson e al., 2004) el genoma compleo de Lepospirillum group II and Ferroplasma ype II, y parcialmene oros res genomas. Análisis de cada genoma reveló ruas para la fijación de carbono y nirógeno y la generación de energía. Esimaron la diversidad de 1800 especies disinas incluidos 148 nuevos filoipos.Enconraron 1,2 (Vener, 2004) millones de genes nuevos incluyendo 782 nuevos oorrecepores. Consiguieron definir nuevas especies de bacerias y casi consiguieron ensamblar (Rusch e al., 2007) el genoma de una especie dominane e idenificaron nuevas amilias de proeínas.
33 Disponibles en EBI Meagenomics (2017) htps://www.ebi.ac.uk/meagenomics/.
91
Proyecto Nueve medioambienes: Suberráneo, salino, marino, agua dulce, coral, microbialios, pescado, animal, mosquio.
Descripción 1040665 lecuras bacerianas de 45 muesras disinas y 541979 secuencias virales de 41 muesras disinas. Resuló en aproximadamene 150 mil millones de pb de secuencia. PIROSECUENCIACIÓN
Océano Árico. 195107 lecuras de 16S ARNr Ocho muesras en de arqueas de 8 muesras disinas localizaciones y con una media de 24388 proundidades lecuras por muesra.
PIROSECUENCIACIÓN Cinco mananiales 14000 a 15000 lecuras por geoermales del parque muesra. nacional de Yellowsone con disinas propiedades SANGER fisicoquímicas.
Resultado Referencia bibliográfica Ese esudio comparaivo (Dinsdale e al., 2008) demuesra que, aunque la diversidad uncional se maniene en los disinos medio ambiene exisen dierencias relaivas que permien predecir las condiciones biogeoquímicas de cada medio ambiene. Los resulados revelan las caracerísicas (Galand, Casamayor, biogeográficas de las Kirchman, Povin, y Lovejoy, arqueas marinas del árico 2009). y como cieros ipos de arqueas dominan en las disinas proundidades del océano árico. Los daos revelaron que cieros filos predominan (Inskeep e al., 2010). según las condiciones de cada mananial. Las acividades enzimáicas que enconraron indican cuales son las unciones imporanes en cada medioambiene especialmene acividades relacionados con el ranspore de elecrones.
5.2. Enfoques de la metagenómica Los esudios de meagenómica presenan dos enoques: el primero se denomina “meagenómica de amplificación del gen marcador” o “meagenómica dirigida” (Figura 5.2), donde regiones específicas de ADN de las comunidades microbianas son amplificadas empleando cebadores inormaivos axonómicos como el gen ARNr 16S (procarioas), el ITS (hongos) o el gen LSU (eucarioas). El segundo enoque denominado “meagenómica aleaoria” o “Whole Genome Sequencing , WGS” (Figura 5.2), ayuda a reconsruir ragmenos grandes o genomas compleos de los microorganismos presenes en dierenes comunidades, permiiendo caracerizar una gran canidad de secuencias codificanes y no codificanes, analizar la composición axonómica y, a su vez, el poencial meabólico y uncional de las comunidades microbianas esudiadas.
92
Conceptos en Ciencias Ómicas
Estudios Metagenómicos Metagenómica dirigida o amplicación del gen marcador
Enfoques
Metagenómica aleatoria o Whole Genome Sequencing
¿Qué hace?
¿Qué hace?
Estudia la composición y abundancia de especies en las muestras analizadas
Estudia los genomas y genes preentes en las muestras analizadas
¿Para Qué?
¿Para Qué?
Evaluar la distribución taxonómica en las muestras analizadas Determinar la diversidad microbiana presente en las muestras analizadas
Relacionar poblaciones con diferentes factores
Determinar el perl funcional de las muestras analizadas
Contrastar la composición taxonómica de diferentes muestras
Obtención de genes de interés
Contrastar la composición taxonómica y funcional de diferentes muestras Relacionar funciones y especies de procedencia
Figura 5.2. Enoques de los esudios meagenómicos.
5.3. Diseño Experimental Un esudio meagenómico esá consiuido por cuaro pasos básicos: 1. Aislamieno del maerial genéico, en ese paso se realiza la exracción de ADN direcamene de las muesras ambienales y se da la generación de los ragmenos de ADN del amaño indicado. 2. Preparación de la librería meagenómica, ya sea (i) amplicones del gen 16S ARNr ó (ii) genomas compleos. 3. Secuenciación. 4. Análisis bioinormáico, en esa eapa se hace uso de dierenes herramienas bioinormáicas con el fin de analizar regiones específicas de ADN o genomas compleos de microorganismos presenes (bacerias, hongos o arqueas) en el ambiene esudiado, dependiendo del enoque del esudio meagenómico. Ese paso nos permie enconrar secuencias de ADN desconocidas que describen unciones novedosas de microorganismos ambienales, imposibles de descubrir por écnicas basadas en el culivo (Mukherjee, Hunemann, Ivanova, Kyrpides & Pai, 2015), o explorar la diversidad uncional, las ruas meabólicas y conocer las ineracciones enre especies en ambienes deerminados.
93
5.3.1. Estudios metagenómicos mediante el enfoque de amplificación de gen marcador o metagenómica dirigida Los esudios meagenómicos mediane el enoque de amplificación de gen marcador o meagenómica dirigida presenan la siguiene meodología en el análisis bioinormáico: •
•
•
Procesamiento de las secuencias obtenidas por las técnicas de secuenciación. Ese paso comprende el demuliplexado de las muesras, es decir, se realiza la idenificación del barcode de cada secuencia obenida para agruparlas por muesras. Agrupación de las secuencias según el porcentaje de similitud. En ese paso se asume que las secuencias con un porcenaje de similiud mayor a 97% corresponden a una misma especie o género, si el porcenaje de similiud es más del 90% corresponden a un mismo orden o amilia y por encima de un 80% corresponde a filo o clase. Las agrupaciones o clúseres generados en ese paso se denominan como Unidades Taxonómicas Operacionales (OTU). Para lograr esas agrupaciones de secuencias por similiud se han desarrollado dierenes algorimos, denro de los más conocidos o empleados enconramos a UCLUST y USEARCH (Edgar, 2010), MOTHUR (Schloss e al., 2009) y CD-HIT (W. Li & Godzik, 2006). Asignación taxonómica. Aquí se emplean bases de daos como Greengenes (McDonald e al., 2012), Silva (Yilmaz e al., 2014), RDP (Cole e al., 2014) y NCBI (Federhen, 2012), para la idenificación de la axonomía de cada uno de los OTU agrupados. Poseriormene, se procede al análisis de diversidad microbiana (ala y bea diversidad). 5.3.2. Estudios metagenómicos mediante el enfoque de genomas completos
El análisis bioinormáico de los esudios meagenómicos donde son secuenciados genomas compleos comprenden los siguienes pasos: I. Preprocesamieno de lecuras. II. Ensamblaje de secuencias. III. Anoación de secuencias. IV. Agrupamieno de secuencias y clasificación axonómica de especies microbianas. V. Análisis de diversidad y esadísico de los daos meagenómicos.
I. Preprocesamiento de lecturas Se requiere una serie de pasos de preprocesamieno de las lecuras para la realización de odo el análisis bioinormáico. Esa eapa incluye: (a) limpieza de las lecuras de bajas de calidad, empleando herramienas como FASTX-Toolki (HannonLab, 2014) o FasQC (Andrews, 2010), (b) remoción de lecuras de conaminación o lecuras de baja complejidad realizadas con herramienas como DUK (M. Li, Copeland & Han, 2011) y (c) remoción de quimeras o secuencias que son más del 95% idénicas. 94
Conceptos en Ciencias Ómicas
II. Ensamblaje de secuencias En ese paso se emplean las lecuras para consruir o ensamblar conigs, que permian obener secuencias lo suficienemene confiables que cubran parcial o oalmene el genoma de los microorganismos analizados. Las secuencias generadas en ese paso sirven de suminisro para la deección de marcos abieros de lecura ORFs, es decir, las zonas del genoma que conienen secuencias que codifican genes. Ese paso reside en una area de gran requerimieno compuacional, debido a los alos recursos de procesamieno de memoria que requieren los dierenes algorimos dedicados al ensamblaje, los cuales disponen de dos esraegias: ensamblaje basado en reerencia o ensamblaje de novo. La elección de alguno de ellos depende del conjuno de daos que será analizado y las necesidades específicas de la preguna de invesigación. El ensamblaje de novo, se refiere al ensamblaje de secuencias coniguas largas o conigs sin la uilización de un genoma conocido. Conrario al ensamblaje de reerencia que emplea uno o más genomas de reerencia para realizar la creación de conigs.
III. Anotación de secuencias Seguido del ensamblaje de los conigs y la predicción de los ORFs, se encuenra el paso de la asignación uncional de las secuencias mediane: (a) predicción de unciones al realizar la idenificación de caracerísicas de inerés denro de los genes como dominios conservados, moivos o parones uncionales empleando dierenes bases de daos de proeínas curadas; y (b) la asignación uncional de genes puaivos, la cual se basa en la búsqueda de secuencias homólogas en bases de daos curadas de proeínas. Gracias a la predicción de genes, secuencias pepídicas o enzimas de las secuencias meagenómicas es posible realizar el análisis del poencial meabólico de las comunidades microbianas esudiadas. Exisen dierenes herramienas ales como MG-RAST (Meyer, Paarmann, D’Souza, & Eal., 2008), IMG/M (Markowiz e al., 2012), FragGeneScan (Rho, Tang & Ye, 2010), MeaGeneMark (Zhu, Lomsadze & Borodovsky, 2010), Meagene (Noguchi, Park & Takagi, 2006) y Orphelia (Hoff, Lingner, Meinicke & Tech, 2009), desarrolladas para la clasificación de ramos de secuencia, ano codificanes o no codificanes. Adicionalmene, enconramos bases de daos de reerencia ampliamene uilizadas para obener anoaciones para el conjuno de daos meagenómicos como: KEGG, SEED, COG/KOG, PFAM y TIGRFAM (Oulas e al., 2015).
IV. Agrupamiento de secuencias y clasificación taxonómica Ese paso represena el proceso de agrupación de las lecuras o conigs en clúseres denominados OTUs para la asignación o clasificación de los grupos axonómicos específicos de filo, orden, amilia, género o especie de cada uno de los OTUs. Acualmene exisen 95
dierenes herramienas para lograr esa labor, denro de las que cabe resalar: Phylopyhia, S-GSOM, PCAHIER, TACAO, IMG/M, MG-RAST, Mohur, MEGAN, QIIME, TANGO, CARMA, SOr-ITEMS, MeaPhyler, PhymmBL and MeaCluser (Neelakana & Sulana, 2013).
V. Análisis de biodiversidad y estadístico Un esudio de meagenómica coniene una gran canidad de daos que requieren ser cuidadosamene evaluados uilizando méodos esadísicos apropiados. Por ese moivo, exisen dierenes herramienas bioinormáicas como MOTHUR (Schloss e al., 2009), QIIME (Caporaso e al., 2010), MEGAN (Huson, Auch, Qi & Schuser, 2007), que permien llevar a cabo: •
•
•
•
•
96
Análisis de ala-diversidad, que evalúa la riqueza de microorganismos de una muesra y la uniormidad de la disribución de la abundancia de los mismos, por medio de curvas de rareacción, esimadores de riqueza, índices de diversidad y equiaividad (como Índice de Shannon, Índice de Simpson, Diversidad filogenéica (PD), Índice de Chao, enre oros). Análisis de bea-diversidad, el cual evalúa la similiud (o dierencia) en la composición de microorganismos enre las muesras a ravés de índices de Bray Curis, Weighed Unirac y Unweighed Unirac, PCoA, enre oros. Gráficos de abundancia de la composición axonómica y análisis filogenéicos. Análisis mulivariados, medidas de disimiliud y análisis de similaridad. Análisis de significancia esadísica.
Conceptos en Ciencias Ómicas
5.4. Referencias Andrews, S. (2010). FasQC: A qualiy conrol ool or high hroughpu sequence daa. Recuperado de //www.bioinormaics.babraham.ac.uk/projecs/asqc/. Caporaso, J. G., Kuczynski, J., Sombaugh, J., Bitinger, K., Bushman, F. D., Cosello, E. K., Knigh, R…. (2010). QIIME allows analysis o high-hroughpu communiy sequencing daa. Naure Mehods, 7 (5), 335– 6. Recuperado de htp://www.naure. com/nauremehods/.%5Cnhtp://dx.doi.org/10.1038/nmeh..303. Cole, J. R., Wang, Q., Fish, J. A., Chai, B., McGarrell, D. M., Sun, Y., & Tiedje, J. M. (2014). Ribosomal Daabase Projec: Daa and ools or high hroughpu rRNA analysis. Nucleic Acids. Recuperado de htps://doi.org/10.1093/nar/gk1244. Dinsdale, E. A., Edwards, R. A., Hall, D., Angly, F., Breibar, M., Brulc, J. M., Rohwer, F…(2008). Funcional meagenomic profiling o nine biomes. Naure. Recuperado de htps://doi.org/10.1038/naure06810. Edgar, R. C. (2010). Search and clusering orders o magniude aser han BLAST. Bioinormaics.Recuperado de htps://doi.org/10.1093/bioinormaics/bq461. Federhen, S. (2012). The NCBI Taxonomy. Nucleic Acids Res. DOI: htps://doi. org/10.1093/nar/gkr1178. Galand, P. E., Casamayor, E. O., Kirchman, D. L., Povin, M., & Lovejoy, C. (2009). Unique archaeal assemblages in he Arcic Ocean unveiled by massively parallel ag sequencing. The ISME Journal. DOI: htps://doi.org/10.1038/ismej.2009.23. Gilber, J. A., Jansson, J. K., & Knigh, R. (2014). The Earh Microbiome projec: successes and aspiraions. BMC Biology, 12 (1), 69.DOI: htps://doi.org/10.1186/ s12915-014-0069-1. Handelsman, J., Rondon, M. R., Brady, S. F., Clardy, J., & Goodman, R. M. (1998). Molecular biological access o he chemisry o unknown soil microbes: a new ronier or naural producs. Chemisry & Biology. DOI:htps://doi.org/10.1016/ S1074-5521(98)90108-9. HannonLab. (2014). FASTX oolki. Hoff, K. J., Lingner, T., Meinicke, P., & Tech, M. (2009). Orphelia: Predicing genes in meagenomic sequencing reads. Nucleic Acids Research. DOI: htps://doi. org/10.1093/nar/gkp327 Huson, D. H., Auch, A. F., Qi, J., & Schuser, S. C. (2007). MEGAN analysis o meagenomic daa MEGAN analysis o meagenomic daa. Genome Research. DOI: htps://doi.org/10.1101/gr.5969107. Inskeep, W. P., Rusch, D. B., Jay, Z. J., Herrgard, M. J., Kozubal, M. A., Richardson, T. H., Frazier, M… (2010). Meagenomes rom high-emperaure chemorophic sysems reveal geochemical conrols on microbial communiy srucure and uncion. PLoS ONE. DOI: htps://doi.org/10.1371/journal.pone.0009773. Li, M., Copeland, A., & Han, J. (2011). DUK – A Fas and Efficien Kmer Maching Tool. Lawrence Berkeley Naional Laboraory. LBNL Paper LBNL-4516E-Poser P.
Li, W., & Godzik, A. (2006). Cd-hi: A as program or clusering and comparing large ses o proein or nucleoide sequences. Bioinormaics. DOI: htps://doi. org/10.1093/bioinormaics/bl158. 97
Markowiz, V. M., Chen, I. M. A., Chu, K., Szeo, E., Palaniappan, K., Grechkin, Y., Kyrpides, N. C… (2012). IMG/M: The inegraed meagenome daa managemen and comparaive analysis sysem. Nucleic Acids Research. DOI:htps://doi.org/10.1093/ nar/gkr975. McDonald, D., Price, M. N., Goodrich, J., Nawrocki, E. P., DeSanis, T. Z., Probs, A., Hugenholz, P…(2012). An improved Greengenes axonomy wih explici ranks or ecological and evoluionary analyses o baceria and archaea. The ISME Journal. DOI: htps://doi.org/10.1038/ismej.2011.139. Meyer, F., Paarmann, D., D’Souza, M., & Eal. (2008). The meagenomics RAST server—a public resource or he auomaic phylo- geneic and uncional analysis o meagenomes. BMC Bioinormaics. DOI:htps://doi.org/10.1186/1471-2105-9-386. Mukherjee, S., Hunemann, M., Ivanova, N., Kyrpides, N. C., & Pai, A. (2015). Largescale conaminaion o microbial isolae genomes by Illumina PhiX conrol. Sandards in Genomic Sciences. DOI:htps://doi.org/10.1186/1944-3277-10-18. Neelakana, G., & Sulana, H. (2013). The Use o Meagenomic Approaches o Analyze changes in Microbial communiies. Microbiology Insighs, 6, 37– 48. DOI:htps:// doi.org/10.4137/MBI.S10819. Nelson, K. E., Weinsock, G. M., Highlander, S. K., Worley, K. C., Creasy, H. H., Worman, J. R., Zhu, D… (2010). A Caalog o Reerence Genomes rom he Human Microbiome. Science. DOI:htps://doi.org/10.1126/science.1183605. Nesme, J., Achouak, W., Agahos, S. N., Bailey, M., Baldrian, P., Brunel, D., Bodelier, P…(2016). Back o he Fuure o Soil Meagenomics Edied by . 7 (February ), 1–5. DOI:htps://doi.org/10.3389/micb.2016.00073. Noguchi, H., Park, J., & Takagi, T. (2006). MeaGene: Prokaryoic gene finding rom environmenal genome shogun sequences. Nucleic Acids Research. DOI:htps:// doi.org/10.1093/nar/gkl723. Oulas, A., Pavloudi, C., Polymenakou, P., Pavlopoulos, G. A., Papanikolaou, N., Kooulas, G., Iliopoulos, I…(2015). Meagenomics: Tools and insighs or analyzing nex-generaion sequencing daa derived rom biodiversiy sudies. Bioinormaics and Biology Insighs. DOI:htps://doi.org/10.4137/BBI.S12462. Pylro, V. S., Roesch, L. F. W., Orega, J. M., do Amaral, A. M., Tola, M. R., Hirsch, P. R., Azevedo, V…(2014). Brazilian Microbiome Projec: Revealing he Unexplored Microbial Diversiy-Challenges and Prospecs. Microbial Ecology, 67 (2), 237–241. DOI:htps://doi.org/10.1007/s00248-013-0302-4. Rho, M., Tang, H., & Ye, Y. (2010). FragGeneScan: Predicing genes in shor and errorprone reads. Nucleic Acids Research. DOI: htps://doi.org/10.1093/nar/gkq747. Rusch, D. B., Halpern, A. L., Suton, G., Heidelberg, K. B., Williamson, S., Yooseph, S., Vener, J. C…(2007). The Sorcerer II Global Ocean Sampling expediion: Norhwes Alanic hrough easern ropical Pacific. PLoS Biology.DOI: htps://doi.org/10.1371/ journal.pbio.0050077. Schloss, P. D., Wescot, S. L., Ryabin, T., Hall, J. R., Harmann, M., Holliser, E. B., Weber, C. F…(2009). Inroducing mohur: Open-source, plaorm-independen, communiysuppored sofware or describing and comparing microbial communiies. Applied and Environmenal Microbiology. DOI:htps://doi.org/10.1128/AEM.01541-09. 98
Conceptos en Ciencias Ómicas
Tyson, G. W., Chapman, J., Hugenholz, P., Allen, E. E., Ram, R. J., Richardson, P. M., Banfield, J. F…(2004). Communiy srucure and meabolism hrough reconsrucion o microbial genomes rom he environmen. Naure.DOI: htps://doi.org/10.1038/ naure02340. Vener, J. C. (2004). Environmenal Genome Shogun Sequencing o he Sargasso Sea. Science . DOI:htps://doi.org/10.1126/science.1093857. Vogel, T. M., Simone, P., Jansson, J. K., Hirsch, P. R., Tiedje, J. M., van Elsas, J. D., Philippo, L…(2009). TerraGenome: a consorium or he sequencing o a soil meagenome. Na Rev Micro, 7 (4), 252. Recuperado de htp://dx.doi.org/10.1038/ nrmicro2119. Wooley, J. C., Godzik, A., & Friedberg, I. (2010). A primer on meagenomics. PLoS Compuaional Biology. DOI:htps://doi.org/10.1371/journal.pcbi.1000667. Yilmaz, P., Parrey, L. W., Yarza, P., Gerken, J., Pruesse, E., Quas, C., Glöckner, F. O… (2014). The SILVA and “all-species Living Tree Projec (LTP)” axonomic rameworks. Nucleic Acids Research. DOI:htps://doi.org/10.1093/nar/gk1209. Zhu, W., Lomsadze, A., y Borodovsky, M. (2010). Ab iniio gene idenificaion in meagenomic sequences. Nucleic Acids. Recuperado de htps://doi.org/10.1093/ nar/gkq275.
99
6. TRANSCRIPTÓMICA KELLY BOTERO OROZCO ANDREA GONZÁLEZ MUÑOZ
La expresión génica es un proceso celular que inermedia la ranserencia de las insrucciones genéicas conenidas en el ADN para dar lugar a la sínesis de los producos génicos finales, como proeínas y ARN no codificanes uncionales. El conjuno de odos los ranscrios expresados en una célula, ejido u organismo en un momeno dado se denomina ranscripoma. El ranscripoma presena una expresión variable, por ejemplo, se pueden dierenciar ranscrios expresados por genes consiuivos, que generalmene presenan niveles de expresión consanes en odas las células y condiciones en un organismo, mienras que la expresión de muchos oros ranscrios es resulado del eeco de esímulos exernos en deerminadas condiciones o momenos fisiológicos (Wang, Gersein & Snyder, 2009). Esa nauraleza variable del ranscripoma en el espacio y iempo hace que su esudio, denominado ranscripómica, nos permia conocer dierencias cuaniaivas y cualiaivas enre múliples moléculas de ARNm (Tan, Ipcho, Trengove, Oliver & Solomon, 2009) para enender los elemenos uncionales del genoma y los consiuyenes de las redes génicas de los dierenes ipos y procesos celulares ane deerminados evenos inducores (Weake & Workman, 2010). Así mismo, la ranscripómica provee inormación que permie caalogar odos los ranscrios de la célula, con el fin de deerminar el perfil ranscripcional de los genes, idenificar los exremos 5’ y 3’ del genoma e idenificar parones de empalme y regulación coordinada de los genes (Imadi, Kazi, Ahanger, Gucel & Ahmad, 2015). El ranscripoma no es sineizado de novo, odas las células reciben durane la división celular pare del ranscripoma de su célula precursora y ése es manenido por la ranscripción, que reemplaza sucesivamene las moléculas de ARN que van siendo degradadas (Brown, 2002). Ese proceso depende de esímulos inra o exracelulares para desencadenar cascadas de señalización que deerminan la expresión de los genes. El ARNm rara vez represena más del 4% del ARN oal de la célula (Brown, 2002) y su abundancia esá asociada con la unción que desempeña en un proceso celular específico. Evenos celulares, ales como la replicación, la dierenciación, la división celular y oros rasgos enoípicos a nivel morológico y uncional son el resulado de la expresión dierencial de genes a ravés del proceso de ranscripción (Soo & Lopez, 2012).
6.1. Tecnologías para el estudio del transcriptoma Varias ecnologías se han desarrollado para caracerizar ranscripomas, incluyendo enoques basados en hibridación de sondas con genes candidaos, eiqueas de secuencia 100
Conceptos en Ciencias Ómicas
y secuenciación de ARN (Tan e al., 2009; Wang e al., 2009). Anes del avance de las ecnologías de secuenciación de nueva generación (NGS), el esudio de la expresión génica se cenraba en uno o pocos ranscrios a la vez, a ravés de ecnologías como Norhern Blo, basado en la separación del ARN por peso molecular usando elecrooresis en gel desnauralizane y su ranserencia a un sopore sólido, donde la presencia y la abundancia del ARN de inerés son ineridas con sondas de hibridación (VanGuilder, Vrana & Freeman, 2008). Ora écnica consise en la reacción en cadena de la polimerasa cuaniaiva con ranscripasa inversa (RT-qPCR), que uiliza la ranscripasa inversa para converir el ARNm en ADN complemenario (ADNc), luego amplifica las secuencias de un gen de inerés usando cebadores específicos y permie cuanificar la abundancia de ARNm mediane la medición de los producos de la amplificación (Becker-André & Hahlbrock, 1989; Noonan e al., 1990). Por oro lado, la écnica de los microarreglos permie la deección y cuanificación de miles de ranscrios conocidos o puaivos de una célula (Schena, Shalon, Davis & Brown, 1995), mediane la medición de la inensidad de una señal fluorescene emiida en la hibridación enre el ADNc y una sonda oligo-nucleoídica inmovilizada en una mariz sólida (Pozhikov, Tauz & Noble, 2007). Debido a su coso y eficiencia, los microarreglos son aún comúnmene uilizados por muchos laboraorios alrededor del mundo para dierenes análisis de expresión génica (Morozova, Hirs & Marra, 2009), enre ellos, la idenificación de perfiles de expresión (Nowrousian, 2007), deección y cuanificación de isoormas y evaluación de genes relacionados con respuesas a esímulos o a condiciones pariculares (Schenk e al., 2000). No obsane, los microarreglos no permien la deección de ranscrios desconocidos, ni esudiar la secuencia de los ranscrios deecados (Morozova e al., 2009). Además, la cuanificación de los ranscrios puede resular imprecisa, debido a que esá deerminada por la señal fluorescene emiida durane la hibridación. En érminos generales, los méodos previamene descrios, basados en hibridación, requieren conocimienos previos sobre las secuencias y ienen un limiado rango de deección de los ranscrios (Okoniewski & Miller, 2006; Royce, Rozowsky & Gersein, 2007). Por el conrario, enoques basados en eiqueas de secuencia permien deerminar la idenidad y la abundancia de los ranscrios direcamene a parir de la secuenciación de secuencias de ADNc (Imadi e al., 2015). No obsane, los principales méodos bajo ese enoque usan secuenciación Sanger, los cuales por el alo coso y la necesidad de clonación, resulan no ser coso-eecivos ni écnicamene viables para caracerizar exhausivamene ranscripomas compleos (Morozova e al., 2009). Enre esos méodos cabe mencionar la secuenciación de eiqueas de secuencias expresadas (ESTs, del inglés Expressed Sequence Tag ), desarrollada para el descubrimieno de nuevos genes y la idenificación de regiones genómicas codificanes (Adams e al., 1991), que hace reerencia a secuencias de lecura única producidas a parir de la secuenciación 101
del exremo 3’ o 5’ de un clon de ADNc (Pozhikov e al., 2007; Bouck & Vision, 2007; Morozova e al., 2009). Las ESTs represenan ípicamene sólo secuencias parciales de los ranscrios originales, incluso, los ensamblajes rara vez cubren los ranscrios compleos, por lo cual resulan diíciles de evaluar cuando no exise un genoma de reerencia (Bouck & Vision, 2007). Sumado a eso, debido al coso del méodo para generar las ESTs, esas no son secuenciadas con una proundidad suficiene para proporcionar un análisis cuaniaivo de la expresión génica (Tan e al., 2009). Por ora pare, el Análisis en Serie de la Expresión Génica (SAGE, del inglés S erial Analysis o Gene Expression ) (Velculescu, Zhang, Vogelsein & Kinzler, 1995) se basa en la secuenciación y cuanificación de oligoeiqueas de 14 o 21 pb que van del exremo 3’ al exremo 5’ del ARNm, y luego se comparan conra bases de daos de ESTs o de genomas para idenificar los correspondienes genes expresados. Los experimenos SAGE impusieron venajas sobre los microarreglos, como la capacidad para deecar ranscrios nuevos y obener mediciones direcas de la abundancia de los ranscrios deecados. De igual orma, exisen múliples varianes del SAGE como MicroSAGE (Dason, van der Perk-de Jong, van den Berg, de Kloe y Vreugdenhil, 1999), SAGE-lie (Peers e al., 1999), SADE (Virlon e al., 1999), (Virlon e al., 1999), Long-SAGE (Saha e al., 2002), SuperSAGE (Irie, Masumura, Terauchi & Saioh, 2003) y DeepSAGE (Nielsen, Hogh & Emmersen, 2006), que ueron desarrolladas para mejorar la écnica (Tan e al., 2009). Por úlimo, el advenimieno de las ecnologías NGS conribuyó al desarrollo de la secuenciación de ARN (RNA-Seq) (Imadi e al., 2015), un enoque que ransormó el alcance y la escala de los esudios ranscripómicos, proporcionando ácil acceso y ala resolución de secuencia y abundancia de los ranscrios (Marin, Fei, Giovannoni & Rose, 2013). Ese écnica iene dierenes venajas, a saber: no requiere genoma de reerencia para generar inormación úil sobre los ranscrios celulares (Srickler, Bombarely & Mueller, 2012); no hay resricción para la deección de ranscrios que corresponden a secuencias genómicas exisenes; revela la posición precisa de los límies de la ranscripción génica; no iene límie superior de cuanificación de ranscrios; y es el primer méodo que permie obener la secuencia y la abundancia de los ranscrios a escala genómica (Cloonan e al., 2008; Morazavi, Williams, McCue, Schaeffer & Wold, 2008). Su implemenación ha permiido la idenificación de ranscrios y polimorfismos de nucleóido simple (SNPs), obener perfiles de expresión génica enre dierenes muesras, conocer la esrucura de los exones y realizar análisis ano de expresión dierencial de genes como de varianes de splicing alernaivo (Sims, Sudbery, Ilot, Heger & Poning, 2014). 102
Conceptos en Ciencias Ómicas
Debido a su exaciud en érminos de idenidad y abundancia de los ranscrios y a la acilidad para realizar comparaciones significaivas de los ranscrios enre dierenes muesras, RNA-Seq ha remplazado, en buena medida, los oros méodos de cuanificación de la expresión génica. Además, las ecnologías de RNA-Seq permien la exploración de ranscripomas compleos, lo cual es poco accesible con los méodos previamene desarrollados (Marin e al., 2013). A pesar de esas venajas, RNA-Seq iene sus propios reos, ya que se producen grandes y complejos conjunos de daos, cuya inerpreación no siempre es ácil. El análisis de daos se puede enrenar a problemas en la variación (no biológica) de las muesras esudiadas y a problemas écnicos inherenes a las ecnologías NGS, la secuenciación de las lecuras y los proocolos de preparación de las librerías de secuenciación. Esos problemas pueden generar un sesgo en los análisis, por lo que se requiere un cuidadoso diseño experimenal y un adecuado conrol y normalización de los daos generados (Conesa e al., 2016; Finoello & Di Camillo, 2015).
6.2. Diseño experimental Un esudio ranscripómico aplicando RNA-Seq comprende las siguienes eapas principales (Figura 6.1):
I. Experimeno. II. Preparación de las librerías y secuenciación. III. Flujo de análisis bioinormáicos de daos de RNA-Seq.
103
Extracción de ARN
Biología experimental
Fragmentación del ARN y transcripción reversa Construcción de librerías y secuenciación
Millones de lecturas cortas
Biología computacional
Control de calidad y preprocesamiento Alineamiento a genoma de referencia o ensamblaje de novo Indexado a regiones codicantes/exones/empalmes
Análisis de genes diferencialmente expresados (DEGs) Anotación estructural del transcriptoma Análisis de vías metabólicas o redes de coexpresión
Biología de sistemas
Análisis integrativos con datos epigenómicos/proteómicos
Análisis de enriquecimiento Inferencias biológicas
Figura 6.1. Eapas de un esudio ranscripómico basado en RNA-Seq. Dado que múliples acores (biológicos y exernos) influyen en la expresión génica en un momeno dado, el diseño de un experimeno de RNA-Seq debe ser cuidadosamene planeado para conrolar y/o idenificar la variación generada por la nauraleza de las muesras, la manipulación de las mismas, la condición de experimenación, enre oros. Por lo ano, implica ener en cuena aspecos en el diseño experimenal como el número de muesras, las réplicas biológicas y/o écnicas y conroles. Luego, la preparación de las librerías de ARN y secuenciación requieren una ala calidad e inegridad de la muesra de ARN oal exraída y la definición del ipo de librería y méodo de enriquecimieno del ARN que se desea esudiar (e.g. la mayoría de esudios ranscripómicos se han cenrado en ARNm, aunque ambién hay esudios enocados en ARNs no codificanes como miRNAs, lncRNAs, siRNAs, ec.). 104
Conceptos en Ciencias Ómicas
De igual manera, se debe definir la ecnología de NGS a emplear, el número ópimo de lecuras requeridas para cumplir con el objeivo del esudio, el amaño de las lecuras de secuenciación, enre oros. Por úlimo, los esudios de RNA-Seq generalmene siguen un flujo de análisis bioinormáico que comprende la reconsrucción de ranscrios de novo o por mapeo sobre genoma o ranscripoma de reerencia; descubrimieno de isoormas y varianes; anoación de ranscrios; esimación de la abundancia de ranscrios expresados mediane mapeo y coneo de lecuras sobre un genoma o ranscripoma de reerencia; y análisis de expresión dierencial usando méodos esadísicos. Finalmene, se incluyen análisis para idenificar unciones enriquecidas o sobrerrepresenadas enre los genes dierencialmene expresados, que incluyen enriquecimieno uncional, redes de coexpresión de genes y de ineracción, enre oros.
6.2.1. Experimento Los daos generados a parir de un experimeno de RNA-Seq se orienan a responder pregunas biológicas de inerés. Con al fin, es deerminane hacer un buen diseño experimenal de las muesras a secuenciar, es decir, la elección del ipo de librería, la proundidad de la secuenciación (o número de lecuras por muesras) y el número de réplicas biológicas necesarias para el esudio. Un diseño experimenal inadecuado puede llevar a conundir variaciones écnicas con variaciones biológicas, lo cual repercue en conclusiones erradas. Así, un error en el diseño experimenal solo podrá corregirse remplazando las muesras con una nueva secuenciación. De esa manera, y de acuerdo con las más recienes direcrices del proyeco ENCODE 34 para las mejores prácicas en RNA-Seq, en el diseño del experimeno se debe definir el número de réplicas biológicas y écnicas que deben ser secuenciadas por cada raamieno. Las réplicas experimenales son imporanes para evaluar y aislar uenes de variación en las medidas de un experimeno, con el propósio de conrolar el eeco del ruido sobre los resulados de los análisis y pruebas de hipóesis. Las réplicas biológicas corresponden a muesras biológicamene dierenes e independienes, que se miden de manera paralela y aporan una medida de la variación biológica aleaoria que puede ser uene de ruido. Por su pare, las réplicas écnicas son mediciones repeidas de una misma muesra y represenan la variación aleaoria y uene de ruido asociado a aspecos écnicos como equipos y proocolos (Blainey, Krzywinski & Alman, 2014). El proyeco ENCODE recomienda incluir dos o más réplicas biológicas. Algunos auores recomiendan de dos a cuaro (Liu, Zhou, & Whie, 2013), y oros reporan que menos de doce réplicas pueden inducir a la idenificación ano de verdaderos negaivos como alsos posiivos (Schurch e al., 2016). De oro lado, en érminos de réplicas écnicas, ENCODE menciona que no se requieren réplicas de la misma librería de ARN, excepo en casos donde se conoce o sospecha de una variabilidad biológica inusualmene ala, en los cuales es críico separar la variación écnica de la biológica. A ese respeco, esudios de ARNs de 34
Disponible en htps://www.encodeprojec.org/.
105
baja abundancia pueden requerir un alo número de réplicas biológicas y, evenualmene, réplicas écnicas, debido a que son por nauraleza más variables que los ARNs de ala abundancia. En cualquier caso, deerminar con cuidado el número de réplicas es clave para el éxio de un análisis de expresión dierencial (Anders & Huber, 2010; Eduardo e al., 2014; Soneson & Delorenzi, 2013).
6.2.2. Preparación de las librerías y secuenciación Para la preparación de las librerías de RNA-Seq se requiere la exracción del ARN oal de la muesra y su poserior procesamieno para enriquecer el ARN de inerés. Como en odo experimeno de NGS, la calidad e inegridad del maerial genéico es clave para garanizar la calidad de las librerías y de los daos de secuenciación generados. La selección del proocolo de exracción de ARN oal y su poserior esabilización y almacenamieno es deerminane para eviar la degradación de ese ácido nucleico inesable y de rápida degradación, dada su nauraleza ransioria en la célula como molécula mensajera. Una vez exraído el ARN oal de la muesra, se deben emplear proocolos para remover el ARNr que se encuenra de manera abundane en las células, hasa un 90% del ARN oal. En ese capíulo nos cenraremos en el esudio del RNA-Seq orienado al ARNm, por ser la aplicación más ampliamene usada. El enriquecimieno de ARNm a parir de muesras de eucarioas generalmene implica el enriquecimieno selecivo de esas moléculas por capura de colas poli(A) o la eliminación del ARNr por degradación. La selección de uno u oro méodo depende de la canidad inicial de ARNm en la muesra, de al manera que, si se encuenra en baja proporción con respeco al ARN oal, se debe opar por la eliminación del ARNr. Por su pare, en procarioas, la ausencia de poliadenilación del ARNm hace que sólo sea viable realizar eliminación del ARNr (Conesa e al., 2016). Finalmene, la preparación de una librería concluye con la sínesis de ADNc a parir del ARNm a ravés de la ranscripasa inversa. Las moléculas de ADNc esán ligadas a adapadores para obener librerías de ADNc, que son amplificadas mediane varianes de la PCR. Las librerías son secuenciadas masivamene y en paralelo con ecnologías NGS (las más empleadas acualmene para RNA-Seq son Illumina® e Ion Torren TM), donde millones de secuencias coras –llamadas lecuras– son generadas. Un segundo aspeco a considerar en la preparación de las librerías es el ipo de las mismas, en ese caso, dependiendo del propósio de esudio, la librerías de secuenciación se pueden generar a parir de lecuras sencillas desde un solo exremo del ragmeno secuenciado (SE, del inglés single-end sequencing reads ) o de lecuras pareadas desde ambos exremos (PE, del inglés paired-end sequencing reads ). Es aconsejable uilizar PE cuando la predicción de genes en el genoma no es muy buena, o se quieren analizar isoormas y splicing alernaivo, mienras que SE es suficiene cuando la anoación es muy buena y se quiere ener una idea de la expresión a nivel de locus. Las librerías SE son recomendables para el análisis y la predicción de ARNs no codificanes, en las que las PE puedan resular 106
Conceptos en Ciencias Ómicas
en la sobreesimación de ranscrios y complejizan el ensamblaje de los mismos, debido al riesgo inherene de secuenciar por duplicado cada ranscrio. Las lecuras PE pueden ser mejores para mapear en varias ubicaciones, ensamblar de novo y dierenciar isoormas. Sumado al ipo de librería, la longiud de las lecuras secuenciadas ambién es relevane, por ejemplo, se recomiendan lecuras de mayor amaño si se desea deecar nuevos ranscrios e isoormas, pueso que permien obener un mejor mapeo e idenificación de ranscrios. Por oro lado, en años recienes ha sido de inerés consruir librerías de RNA-Seq ‘hebraespecíficas’, las cuales conservan la inormación sobre la hebra o cadena de ADN de la cual se ranscribió la molécula de ARN (senido o anisenido). Esa inormación es úil para los análisis de descubrimieno de nuevos ranscrios y cuanificación de la expresión, porque evia conusiones o errores en las esimaciones de abundancia debido al solapamieno de ranscrios (Conesa e al., 2016). Sumado a los aspecos aneriormene discuidos, oro puno clave para considerar en un experimeno de RNA-Seq es la proundidad de secuenciación (o coberura de secuenciación), que corresponde al número de veces que cada nucleóido esá represenado en un ciero número de lecuras de longiud dada. En érminos generales, una mayor coberura disminuye la asa de error de cada nucleóido en un ensamblaje de secuencias, no obsane, la selección de una mayor o menor coberura dependerá del propósio de esudio y la nauraleza de la muesra de ARN. A dierencia de esudios de secuenciación de genoma, en los que la proundidad de secuenciación se expresa como el número de bases oales secuenciadas sobre el amaño esimado del genoma haploide (e.g. 50X, 100X), en RNA-Seq se dificula esa esimación de la proundidad, porque la ranscripción no se produce a parir de odo el genoma, sino que aproximadamene el 2% del genoma humano ranscribe ARN que codifica a proeína, y es inciera la proporción ranscria en un momeno dado. Por consiguiene para RNA-Seq, ENCODE ha esablecido un número ópimo de lecuras por muesra según el objeivo deseado, con un mínimo de 30 millones (M) de lecuras por muesra para cualquier esudio de RNA-Seq. Así, si se preende reconsruir un perfil ranscripcional basado en un ranscripoma o genoma de reerencia con el fin de evaluar expresión dierencial, se recomiendan 30 M de lecuras SE o PE de longiud mayor a 30 pb; si se desea descubrir nuevos ranscrios e isoormas, cuanificar ranscrios de baja abundancia y/o se esán analizando muesras complejas, se recomiendan enre 100 M y 200 M de lecuras PE de longiud mayor a 76 pb. En paricular, para esudios de RNASeq a parir de muesras humanas, con fines de deerminar expresión dierencial, se recomiendan 30-50 M de lecuras SE o PE por muesra. Varios auores concuerdan con esas recomendaciones de proundidad de secuenciación (Conesa e al., 2016).
107
Después de la secuenciación de las librerías de RNA-Seq, se obienen las lecuras crudas de secuenciación. Esas se procesan mediane un flujo de análisis bioinormáico que permie obener inormación acerca de los ranscrios expresados, los perfiles de expresión y el poencial meabólico de las muesras analizadas, con el fin de asociar esa inormación genéica a un enoipo de inerés.
6.2.3. Flujo de análisis bioinformáticos de datos de RNA-Seq No exise un sólo flujo de análisis aplicable a odos los ipos de experimenos e invesigaciones basadas en RNA-Seq, dada la diversa nauraleza de las muesras, diseños experimenales, écnicas de secuenciación y daos. No obsane, un flujo de análisis de RNA-Seq comprende a grandes rasgos las siguienes eapas principales:
I. II. III. IV.
Conrol de calidad y preprocesamieno de los daos crudos de secuenciación. Ensamblaje de novo y reconsrucción de ranscrios por mapeo. Esimación de abundancias y coneos de ranscrios. Análisis de expresión dierencial.
I. Control de calidad y preprocesamiento de los datos crudos de secuenciación Al igual que para los demás daos de NGS, las lecuras crudas produco de RNA-Seq se deben someer a conrol de calidad para deerminar la calidad por base secuenciada y por lecura secuenciada, conenido de A, T, G y C, disribución de la longiud de las lecuras, presencia de secuencias de adapadores, secuencias sobrerrepresenadas y posible conaminación, así como oros sesgos écnicos que pueden aecar el análisis de los daos. Para daos de secuenciación generados en la plaaorma Illumina®, el análisis de calidad de las lecuras se realiza más comúnmene con el programa FasQC, mienras que para daos de la plaaorma Ion Torren TM, por ejemplo, se recomienda el programa MAPQ, debido a las dierencias en codificación de valores de calidad de las bases y oras caracerísicas propias de la plaaorma de secuenciación. Con base en los repores de calidad generados por los dos programas aneriormene mencionados, generalmene se deermina si las lecuras crudas requieren de un preprocesamieno anes de pasar a ensamblaje y análisis poseriores. Ese paso consise en la eliminación de secuencias de adapadores, core ( rimming ) y filrado de bases de baja calidad, enre oros, para lo cual se emplean comúnmene programas como Trimmomaic, Cuadap y FasX-Toolki. Además de ese filro aplicado, el preprocesamieno de los daos de secuenciación ambién incluye la deección y eliminación de lecuras correspondienes a ARN ribosomal u oro ipo de lecuras no correspondienes a ARNm. De esa manera, para la eliminación de ruido ocasionado por secuencias ribosomales se uiliza el programa riboPicker, una herramiena que alinea las lecuras de secuenciación conra secuencias ribosomales proporcionadas por las bases de daos Silva, GreenGenes, RDP, Ram y NCBI, con el objeivo de idenificarlas y eliminarlas del conjuno de daos. Sin un enriquecimieno previo del ARN oal, la 108
Conceptos en Ciencias Ómicas
mayoría de ARN recuperado de esudios ranscripómicos es ribosomal y no mensajero, por ese moivo, es necesario eliminar las secuencias que inerfieren en el ensamblaje de un ranscripoma. Después de esa eapa, las lecuras filradas son uilizadas para el ensamblaje del ranscripoma.
II. Ensamblaje de novo y reconstrucción de transcritos por mapeo En la ausencia de un genoma o ranscripoma de reerencia para el organismo de esudio, exisen herramienas capaces de realizar ensamblaje de novo. Para al fin, se emplean programas como Triniy, Trans-Abyss y SOAPdenovo-Trans; enre los cuales Triniy es el más ampliamene uilizado, porque inegra un flujo de rabajo que incluye no solo el ensamblaje de los ranscrios y sus varianes, sino ambién el cálculo de esadísicas de calidad de ensamblaje, predicción de secuencias codificanes y presena compaibilidad con la suie esadísica R para análisis de expresión dierencial. En caso de conar con un genoma o ranscripoma de reerencia, las lecuras pueden ser mapeadas a la reerencia disponible, uilizando programas como BWA, Bowie o Bowie2, MAQ, TopHa, STAR, enre oros. En el mapeo de lecuras de RNA-Seq conra un genoma de reerencia, los alineadores empleados para ese fin, ales como TopHa y STAR, cuenan con algorimos opimizados para mapear lecuras divididas (denominadas splice o juncion reads en inglés), las cuales mapean en el límie enre dos exones y por ano resulan ragmenadas por una región inrónica en el genoma de reerencia. Eso es problemáico compuacionalmene para alineadores como BWA, Bowie y MAQ, porque inerfieren en la inserción de salos o gaps an largos como aquellos correspondienes a empalmes ( juncions ). Luego de la reconsrucción de ranscrios, en muchos esudios el inerés reside en anoar los ranscrios para deerminar su idenidad y unción. Ese proceso de anoación consise, en primer lugar, en idenificar las secuencias codificanes (CDS) en los ranscrios y raducir los CDS a proeínas hipoéicas, uilizando programas como Transdecoder (inegrado en Triniy) y Coding Poenial Calculaor. Luego, los CDS y/o las proeínas predichas son comparados por BLAST conra las secuencias de un ranscripoma o proeoma anoado para el organismo de esudio, o conra secuencias de organismos relacionados que esán disponibles en bases de daos públicas como Genbank, UniPro, Pam, enre oras. De esa orma, se puede deerminar el perfil de los ranscrios expresados y descubrir nuevos ranscrios o isoormas.
III. Estimación de abundancias y conteos de transcritos La cuanificación de daos de RNA-Seq se basa en la premisa de que el número de lecuras correspondienes a un ranscrio es una medida de la expresión del gen del cual proviene. De esa manera, la cuanificación comprende la esimación de la abundancia de un ranscrio mediane el coneo de número de lecuras que mapean sobre dicho ranscrio, y 109
requiere, en consecuencia, del mapeo de las lecuras de secuenciación conra un genoma o ranscripoma de reerencia. En caso de no exisir uno, se uiliza como reerencia un ranscripoma ensamblado de novo a parir de las mismas lecuras. La cuanificación de ranscrios es necesaria para el análisis de expresión dierencial, el cual consise en comparar la expresión de genes enre las muesras de un esudio de RNA-Seq con el fin de deerminar dierencias significaivas. Para que las muesras sean comparables enre sí se deben resolver diversos problemas que pueden surgir durane la cuanificación, y pueden esar relacionados con el coneo de lecuras que mapean en múliples regiones de la reerencia, coneo de lecuras solapanes, especificidad de hebra, no uniormidad de disribución de lecuras a lo largo un gen, ranscrios de ala y baja abundancia, dierencias en la longiud de los ranscrios, dierencias en proundidad de secuenciación o amaño enre las librerías. Por lo anerior, un paso clave en la esimación de abundancias y coneo de ranscrios consise en normalizar los daos de las abundancias de los ranscrios hipoéicos. Normalizar por el amaño de librería implica llevar a una misma escala odas las librerías correspondienes a cada raamieno para eviar alsos posiivos, dado que una librería con mayor proundidad de secuenciación iene más probabilidad de ener genes dierencialmene sobreexpresados, respeco a ora librería, sin ser consecuencia del raamieno. Además, los ranscrios más aecados por una baja proundidad de secuenciación serán aquellos con bajos niveles de expresión y longiudes reducidas, debido a que un ranscrio de mayor longiud presenará más probabilidad de ser secuenciado y de ener un número mayor de lecuras alineadas que uno de menor longiud, implicando una mayor probabilidad de ser deecado como un DEG, sin ser biológicamene real (Dillies e al., 2013; Oshlack & Wakefield, 2009). Exisen dierenes méodos de normalización, los más uilizados son la normalización por amaño de librería y por longiud del ragmeno o ranscrio (Eduardo e al., 2014). Un méodo que realiza ambas normalizaciones es Fragmens Per Kilobase o Transcrip Per Million Mapped Reads (FPKM) oReads per Kilobase o Transcrip per million mapped reads (RPKM); la única dierencia enre ambos, es que el primero uiliza ragmenos y el segundo lecuras. Se emplea generalmene la normalización FPKM cuando se ienen librerías ipo PE, debido a que esas ienen dos lecuras por ragmeno. Una vez normalizados los daos por esos méodos, es posible cuanificar niveles de ranscripos y realizar comparaciones más precisas enre las muesras (Morazavi e al., 2008). La esimación de la abundancia de ranscrios se puede realizar por méodos basados en alineamienos usando los programas RSEM o eXpress, así como méodos de esimación libres de alineamienos con programas como Kalliso o Salmon. A parir de los coneos esimados por esos méodos, se consruyen marices de expresión de ranscrios y genes, donde las filas corresponden a cada uno de los ranscrios y las columnas a las muesras, y conienen los coneos de lecuras por ranscrio por muesra. Esa mariz de coneos de expresión es el insumo para los análisis de expresión dierencial poseriores. 110
Conceptos en Ciencias Ómicas
IV. Análisis de expresión diferencial En los análisis de expresión dierencial, se realizan pruebas esadísicas rigurosas para deerminar si las dierencias observadas en el coneo de lecuras enre genes son significaivamene mayores a las dierencias esperadas por la variación aleaoria que exise de manera naural enre las muesras. Con ese fin, se han desarrollado numerosos algorimos esadísicos para modelar los daos de coneo y generar valores de significancia ajusada (p-value ajusado) y razón de cambio en la expresión ( old-change ), con el objeivo de seleccionar los genes que esán significaivamene dierencialmene expresados (Rapapor e al., 2013). Debido al gran número de genes presenes en cada ensayo de RNA-Seq, se requiere una corrección para las múliples comparaciones (una por cada gen enre dos raamienos), para eviar alsos posiivos, ya que a medida que aumenan las comparaciones, aumena la probabilidad de enconrar dierencias debidas al azar. Lo anerior hace reerencia al concepo de asa de alsos descubrimienos (FDR), el cual es ampliamene uilizado para conrolar ese ipo de error. La esimación correca del FDR requiere de valores de significancia precisos, basados en una disribución eórica de los daos. Por consiguiene, si dicha disribución eórica no se cumple será diícil rechazar alsos posiivos de orma acerada. Por eso los méodos usados acualmene no asumen una disribución normal de los daos, la cual no se cumple para daos de RNA-Seq, sino que se basan en una disribución de Poisson (Marioni, Mason, Mane, Sephens & Gilad, 2008) o una binomial negaiva (Anders & Huber, 2010) para conrolar mejor la sobredispersión observada enre réplicas écnicas y biológicas, respecivamene. Tal es el caso de programas paraméricos como EdgeR y DESeq2, que consiuyen dos de los paquees más ampliamene usados en análisis de expresión dierencial y hacen pare del programa esadísico R. Esos programas asumen una disribución eórica de Poisson o binomial negaiva de los daos y basan sus cálculos en una esimación de la relación exisene enre media y varianza. Oros programas comúnmene usados para expresión dierencial a parir de daos de RNA-Seq son: PoissonSeq, baySeq y Cuffdiff de la Suie Tuxedo (Rapapor e al., 2013; Trapnell e al., 2012). No obsane, con cualquiera de los programas mencionados, los parámeros de media y varianza son diíciles de esimar por separado con pocas réplicas biológicas. En ese senido, si no se cuena con un número adecuado de réplicas biológicas del experimeno de RNA-Seq, esas écnicas pueden ser sensibles a la variabilidad presene enre réplicas (Bullard, Purdom, Hansen & Dudoi, 2010). Luego de obener el conjuno de genes significaivamene dierencialmene expresados enre las muesras analizadas, dependiendo del objeo de esudio, se pueden hacer análisis de anoación uncional sobre ese conjuno de genes, con el propósio de idenificar procesos biológicos y unciones moleculares, basadas en anoaciones conra GO, que esén 111
sub o sobrerrepresenadas. También se pueden deerminar vías meabólicas de KEGG donde pueden esar paricipando los genes y a ravés de las cuales se puede idenificar si hay una expresión coordinada de deerminados genes (mediane la consrucción de redes de coexpresión génica) y los módulos uncionales enriquecidos en dichas redes, enre oros análisis derivados. Toda esa inormación obenida a parir de daos de RNASeq y la idenificación de genes dierencialmene expresados permie conocer un perfil ranscripcional y un panorama de los procesos celulares e ineracciones génicas que pueden esar ocurriendo en una célula o ejido bajo una condición o momeno dado.
112
Conceptos en Ciencias Ómicas
6.3. Referencias Adams, M. D., Kelley, J. M., Gocayne, J. D., Dubnick, M., Polymeropoulos, M. H., Xiao, H., Moreno, R. F…(1991). Complemenary DNA sequencing: expressed sequence ags and human genome projec. Science, 252 (5013), 1651–6. Anders, S., & Huber, W. (2010). Differenial expression analysis or sequence coun daa. Genome Biology, 11 (10), R106.DOI: htps://doi.org/10.1186/gb-2010-1110-r106. Becker-André, M., & Hahlbrock, K. (1989). Absolue mRNA quanificaion using he polymerase chain reacion (PCR). A novel approach by a PCR aided ranscrip iraion assay (PATTY). Nucleic Acids Research, 17 (22), 9437–46. Blainey, P., Krzywinski, M., & Alman, N. (2014). Poins o Significance: Replicaion. Na Meh, 11(9), 879–880. Recuperado de htp://dx.doi.org/10.1038/nmeh.3091. Bouck, A., & Vision, T. (2007). The molecular ecologis’s guide o expressed sequence ags. Molecular Ecology, 16 (5), 907–924.DOI: htps://doi.org/10.1111/j.1365294X.2006.03195.x Brown, T. (2002). Transcripomes and Proeomes. En Genomes. (Garland Sc). Oxord. Bullard, J. H., Purdom, E., Hansen, K. D., & Dudoi, S. (2010). Evaluaion o saisical mehods or normalizaion and differenial expression in mRNA-Seq experimens. BMC Bioinormaics, 11, 94. DOI:htps://doi.org/10.1186/1471-2105-11-94. Cloonan, N., Forres, A. R. R., Kolle, G., Gardiner, B. B. A., Faulkner, G. J., Brown, M. K., Grimmond, S. M…(2008). Sem cell ranscripome profiling via massive-scale mRNA sequencing. Naure Mehods, 5 (7), 613– 619. DOI:htps://doi.org/10.1038/ nmeh.1223. Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A., Morazavi, A…(2016). A survey o bes pracices or RNA-Seq daa analysis. Genome Biology, 17 (1), 13. DOI:htps://doi.org/10.1186/s13059-016-0881-8. Dason, N. A., van der Perk-de Jong, J., van den Berg, M. P., de Kloe, E. R., & Vreugdenhil, E. (1999). MicroSAGE: a modified procedure or serial analysis o gene expression in limied amouns o issue. Nucleic Acids Research, 27 (5), 1300–7. Dillies, M.-A., Rau, A., & Auber, J. (2013). A comprehensive evaluaion o normalizaion mehods or Illumina high-hroughpu RNA sequencing daa analysis. Briefings in Bioinormaics, 14 (6), 671– 683. DOI: htp://dx.doi.org/10.1093/bib/bbs046. Eduardo, A., Cubillos, R., Jiménez, L. P., Sc, M., Jimena, A., Giraldo, B., & Ph, D. (2014). Una revisión para no experos rna-Seq Daa Analysis in Prokaryoes. A Review or Non-expers, 19 (2), 131–142. Finoello, F., & Di Camillo, B. (2015). Measuring differenial gene expression wih RNASeq: challenges and sraegies or daa analysis. B riefings in Funcional Genomics, 14(2), 130–142.DOI: htps://doi.org/10.1093/bgp/elu035. Imadi, S. R., Kazi, A. G., Ahanger, M. A., Gucel, S., & Ahmad, P. (2015). Plan ranscripomics and responses o environmenal sress: an overview. Journal o Geneics, 94(3), 525–537.DOI: htps://doi.org/10.1007/s12041-015-0545-6.
113
Irie, T., Masumura, H., Terauchi, R., & Saioh, H. (2003). Serial Analysis o Gene Expression (SAGE) o Magnaporhe grisea : genes involved in appressorium ormaion. Molecular Geneics and Genomics, 270 (2), 181– 189. htps://doi. org/10.1007/s00438-003-0911-6. Liu, Y., Zhou, J., & Whie, K. P. (2013). RNA-Seq differenial expression sudies: more sequence, or more replicaion? Bioinormaics, 30 (3), 301– 304. htps://doi. org/10.1093/bioinormaics/bt688. Marioni, J. C., Mason, C. E., Mane, S. M., Sephens, M., & Gilad, Y. (2008). RNA-Seq: An assessmen o echnical reproducibiliy and comparison wih gene expression arrays. Genome Research, 18 (9), 1509– 1517. DOI:htps://doi.org/10.1101/gr.079558.108. Marin, L. B. B., Fei, Z., Giovannoni, J. J., & Rose, J. K. C. (2013). Caalyzing plan science research wih RNA-Seq. Froniers in Plan Science, 66 .DOI: htps://doi. org/10.3389/pls.2013.00066. Morozova, O., Hirs, M., & Marra, M. (2009). Applicaions o new sequencing echnologies or ranscripome analysis. Annual Review o Genomics, 10, 135– 151. DOI:htps://doi.org/10.1146/annurev-genom-082908-145957. Morazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping and quaniying mammalian ranscripomes by RNA-Seq. Naure Mehods, 5 (7), 621–628.DOI: htps://doi.org/10.1038/nmeh.1226. Nielsen, K. L., Hogh, A. L., & Emmersen, J. (2006). DeepSAGE--digial ranscripomics wih high sensiiviy, simple experimenal proocol and muliplexing o samples. Nucleic Acids Research, 34 (19), e133– e133. DOI:htps://doi.org/10.1093/nar/gkl714. Noonan, K. E., Beck, C., Holzmayer, T. A., Chin, J. E., Wunder, J. S., Andrulis, I. L… (1990). Quaniaive analysis o MDR1 (mulidrug resisance) gene expression in human umors by polymerase chain reacion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 87 (18), 7160–4. Nowrousian, M. (2007). O paterns and pahways: microarray echnologies or he analysis o filamenous ungi. Fungal Biology Reviews, 21 (4), 171– 178. DOI:htps:// doi.org/10.1016/j.br.2007.09.002. Okoniewski, M. J., & Miller, C. J. (2006). Hybridizaion ineracions beween probeses in shor oligo microarrays lead o spurious correlaions. BMC Bioinormaics, 7 (1), 276. DOI:htps://doi.org/10.1186/1471-2105-7-276. Oshlack, A., & Wakefield, M. J. (2009). Transcrip lengh bias in RNA-Seq daa conounds sysems biology. Biology Direc, 4, 14. DOI:htps://doi.org/10.1186/17456150-4-14. Peers, D. G., Kassam, A. B., Yonas, H., O’Hare, E. H., Ferrell, R. E., & Brusky, A. M. (1999). Comprehensive ranscrip analysis in small quaniies o mRNA by SAGE-lie. Nucleic Acids Research, 27 (24), e39. Pozhikov, A. E., Tauz, D., & Noble, P. A. (2007). Oligonucleoide microarrays: Widely applied - Poorly undersood. Briefings in Funcional Genomics and Proeomics, 6 (2), 141–148. DOI: htps://doi.org/10.1093/bgp/elm014.
114
Conceptos en Ciencias Ómicas
Rapapor, F., Khanin, R., Liang, &., Pirun, M., Krek, A., Zumbo, P., Beel, D…(2013). Comprehensive evaluaion o differenial gene expression analysis mehods or RNA-Seq daa. Genome Biology, 14 (9), 3158. DOI:htps://doi.org/10.1186/gb-201314-9-r95. Royce, T. E., Rozowsky, J. S., & Gersein, M. B. (2007). Toward a universal microarray: predicion o gene expression hrough neares-neighbor probe sequence idenificaion. Nucleic Acids Research, 35 (15), e99. DOI:htps://doi.org/10.1093/ nar/gkm549. Saha, S., Sparks, A. B., Rago, C., Akmaev, V., Wang, C. J., Vogelsein, B., Velculescu, V. E…(2002). Using he ranscripome o annoae he genome. Naure Bioechnology, 20(5), 508–512. DOI: htps://doi.org/10.1038/nb0502-508. Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quaniaive monioring o gene expression paterns wih a complemenary DNA microarray. Science, 270(5235), 467–70. Schenk, P. M., Kazan, K., Wilson, I., Anderson, J. P., Richmond, T., Somerville, S. C., & Manners, J. M. (2000). Coordinaed plan deense responses in Arabidopsis revealed by microarray analysis. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 97 (21), 11655–60. DOI:htps://doi.org/10.1073/ pnas.97.21.11655. Schurch, N. J., Schofield, P., Gierliński, M., Cole, C., Shersnev, A., Singh, V., Baron, G. J…(2016). How many biological replicaes are needed in an RNA-Seq experimen and which differenial expression ool should you use? RNA, 22(6), 839–851. DOI:htps:// doi.org/10.1261/rna.053959.115. Sims, D., Sudbery, I., Ilot, N. E., Heger, A., & Poning, C. P. (2014). Sequencing deph and coverage: key consideraions in genomic analyses. Naure Reviews. Geneics, 15 (2), 121–32. DOI: htps://doi.org/10.1038/nrg3642. Soneson, C., & Delorenzi, M. (2013). A comparison o mehods or differenial expression analysis o RNA-Seq daa. BMC Bioinormaics, 14 (1), 91. DOI:htps:// doi.org/10.1186/1471-2105-14-91. Soo, J., & Lopez, C. (2012). RNA-Seq : herramiena ranscripómica úil para el esudio de ineracciones plana-paógeno. Fiosanidas, 16(2), 101–113. Srickler, S. R., Bombarely, A., & Mueller, L. a. (2012). Designing a ranscripome nexgeneraion sequencing projec or a nonmodel plan species. American Journal o Boany, 99 (2), 257–66. DOI:htps://doi.org/10.3732/ajb.1100292. Tan, K. C., Ipcho, S. V. S., Trengove, R. D., Oliver, R. P., & Solomon, P. S. (2009). Assessing he impac o ranscripomics, proeomics and meabolomics on ungal phyopahology. Molecular Plan Pahology, 10 (5), 703–715. DOI:htps://doi. org/10.1111/j.1364-3703.2009.00565.x. Trapnell, C., Robers, A., Goff, L., Perea, G., Kim, D., Kelley, D. R., Pacher, L…(2012). Differenial gene and ranscrip expression analysis o RNA-Seq experimens wih TopHa and Cufflinks. Naure Proocols, 7 (3), 562– 578. DOI:htps://doi.org/10.1038/ npro.2012.016.
115
VanGuilder, H. D., Vrana, K. E., & Freeman, W. M. (2008). Tweny-five years o quaniaive PCR or gene expression analysis. BioTechniques, 44 (5), 619– 626. DOI:htps://doi.org/10.2144/000112776. Velculescu, V. E., Zhang, L., Vogelsein, B., & Kinzler, K. W. (1995). Serial analysis o gene expression. Science, 270(5235), 484–7. Virlon, B., Cheval, L., Buhler, J. M., Billon, E., Douce, A., & Elalou, J. M. (1999). Serial microanalysis o renal ranscripomes. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 96 (26), 15286–91. Wang, Z., Gersein, M., & Snyder, M. (2009). RNA-Seq: a revoluionary ool or ranscripomics. Naure Reviews. Geneics, 10 (1), 57–63. DOI:htps://doi. org/10.1038/nrg2484. Weake, V. M., & Workman, J. L. (2010). Inducible gene expression: diverse regulaory mechanisms. Naure Reviews. Geneics, 11 (6), 426–37. DOI:htps://doi.org/10.1038/ nrg2781.
116
Conceptos en Ciencias Ómicas
7. METABOLÓMICA MARTHA ZULUAGA
En esa sección se esudiarán las caracerísicas principales que se deben ener en cuena en un esudio meabolómico, las écnicas insrumenales más uilizadas y algunas maneras de abordar el raamieno y análisis de los daos desde dierenes ipos de esudio (reconocimieno de parones, idenificación de biomarcadores, perfilamieno de meabolios, enoipificación, esudios dirigidos y no dirigidos). También se aciliarán algunos ejemplos con hipervínculos a plaaormas para que el lecor ineracúe y aplique los concepos brindados. Para empezar, definiremos la meabolómica como el análisis del comporamieno de los meabolios de bajo peso molecular (menor a 1500 Dalon) en un sisema biológico (Fiehn e al., 2000). El primer acercamieno experimenal se publicó en 1998 por Oliver y colaboradores en el rabajo “Sysemaic uncional analysis o he yeas genome” , en el que se uiliza especroscopía de inrarrojo con ransormada de Fourier y especromería de masas en ándem para idenificar los cambios en los meabolios de la levadura ane una modificación genéica juno con el esudio del proeoma y el ranscripoma (lo que se denominó genómica uncional). Un año más arde ue acuñado el érmino meabonómica haciendo reerencia a la medida cuaniaiva y muliparamérica de la respuesa dinámica a sisemas vivos ane un esímulo fisiopaológico o modificación genéica (Nicholson, Lindon & Holmes, 1999). Aunque los érminos meabonómica y meabolómica ueron acuñados a finales de 1900 y principios del 2000 respecivamene, el érmino meaboloma ue reporado con el desarrollo de la eoría del análisis de flujos por Derr en 1985 y con la eoría del conrol meabólico por Cornish-Bowden en 1989, los cuales explican el meaboloma como el conjuno de compuesos de bajo peso molecular. Ese movimieno e inerés en el monioreo de la mayor canidad posible de meabolios de bajo peso molecular, el desarrollo de écnicas insrumenales cada vez más sensibles y robusas y el rápido crecimieno en las herramienas bioinormáicas, son los elemenos que avorecieron el surgimieno de los esudios meabolómicos. En ese senido, esa ciencia emergene inegra res áreas del conocimieno como son: la biología, la química y la bioinormáica. Pare de una preguna biológica, la cual es esudiada a ravés de experimenación e insrumenación química, y finalmene, los resulados son analizados a ravés de las herramienas bioinormáicas (Figura 7.1). Así mismo, los esudios meabolómicos se pueden dividir en res grandes procesos: el primero iene que ver con la muesra, la recolección, el raamieno químico y el análisis insrumenal para la adquisición de daos especrales (por especromería de masas o resonancia magnéica nuclear). En segundo lugar, el raamieno bioinormáico y quimiomérico de las señales y en ercer lugar, el raamieno esadísico para la inerpreación biológica. 117
Pregunta Biológica Planteamiento del probleme y condiciones experimentales
Diseño de Experimentos Obtención de muestras
1
2
3
Análisis quimico
Preparación de las muestras Detección de Picos: Deconvolución de señales
Análisis instrumental
RMN 1
2
3
Procesamieno de datos
Alineación
Análisis Univariado
MS
Normalización
4
Identicación
Análisis de datos
Análisis Multivariado
Interpretación biológica
Figura 7.1. Caracerísicas principales de un esudio meabolómico. En rojo componene correspondiene al área de la biología, química en verde y bioinormáica en azul.
7. 1. Diseño experimental Los esudios meabolómicos pueden clasificarse de acuerdo al objeivo biológico que se desea abordar, bien sea para reconocimieno de parones ( meabolie fingerprining ), para descubrimieno de biomarcadores ( biomarker discovery ), como herramiena para la enoipificación de esudios no dirigidos ( unargeed meabolomics ). O para el perfilamieno de amilias de compuesos o esudios dirigidos ( argeed meabolomics or meabolie profiling ).
7.1.1. Reconocimiento de patrones (Metabolite fingerprinting) El reconocimieno de parones o “ meabolie fingerprining ” consise en la idenificación de señales caracerísicas de un grupo experimenal (Fiehn, 2002). Para el reconocimieno de parones no es necesaria la idenificación de odos los meabolios presenes en una muesra. Esos esudios esán dirigidos principalmene a la idenificación del menor número de señales que permian la discriminación enre semejanzas y dierencias de los grupos experimenales, con el fin de dar una inerpreación del comporamieno biológico. Su diseño experimenal radica en la clasificación de grupos y conroles, en la idenificación de señales que inervienen en una rua específica o en la idenificación de marcadores 118
Conceptos en Ciencias Ómicas
pre-esablecidos de enermedades o modos de acción (Sumner, Mendes & Dixon, 2003). El reconocimieno de parones puede realizarse mediane dierenes écnicas analíicas como méodos especroscópicos (IR, UV, RMN); ambién se han uilizado esos méodos con acoplamienos cromaográficos como es el uso de la cromaograía líquida de ala eficiencia acoplada a resonancia magnéica nuclear, lo que hace que se incremene significaivamene la sensibilidad, y a su vez, los cosos del análisis debido al uso de ases móviles deueradas. El análisis esadísico de los daos se puede abordar con un modelo de regresión mulivariado y un análisis discriminane. Hay disinos esudios que presenan análisis de varianzas con pruebas pos hoc para la deerminación de dierencias enre las variables en varios grupos experimenales, pero hay que ener presene que los meabolios (variables) son daos alamene correlacionados. Por lo ano, se debe ener especial cuidado y cereza que los daos analizados no presenan colinealidad.
7.1.2. Identificación de biomarcadores (biomarker discovery) Debido a que el objeivo principal del desarrollo de biomarcadores en meabolómica es el de crear un modelo predicivo a parir de un conjuno de múliples compuesos, la clasificación de los grupos experimenales o el análisis discriminane de los daos no es suficiene. Es necesario reporar y validar el modelo maemáico uilizado, reporar la sensibilidad y especificidad del biomarcador mediane curvas ROC ( receiver operaor characerisics ) con los inervalos de confianza asociados y en ocasiones, evaluar la reproducibilidad del ensayo, con el objeivo de poderlos llevar a la prácica clínica (Xia, Broadhurs, Wilson & Wishar, 2013). El análisis químico debe esar dirigido a la idenificación y cuanificación precisa de un conjuno de compuesos presenes en la muesra los cuales deben ser seleccionados a priori. Eso requiere ala sensibilidad insrumenal y precisión en la idenificación de los compuesos. Por esa razón, en muchos esudios se reporan los resulados desde dierenes plaaormas insrumenales (e.g. MS/MS, RMN de ala resolución o MS n). Según Xia y colaboradores (2013), los esudios dirigidos a la idenificación de biomarcadores consan de los siguienes pasos:
I. Selección del biomarcador. II. Evaluación del desempeño. III. Modelo maemáico
I. La selección del biomarcador Consise en idenificar los compuesos que generan el mayor poder discriminane (por ejemplo, enre sanos y enermos; enre dierenes especies; enre expuesos y no 119
expuesos). Generalmene se realiza mediane algorimos supervisados de aprendizaje de máquina o modelos de regresión mulivariada.
II. La evaluación del desempeño Consise en la validación de los biomarcadores propuesos. Usualmene se lleva a cabo mediane validación cruzada y/o es de permuaciones, seguido de la evaluación de sensibilidad y especificidad mediane las curvas ROC con los inervalos de confianza y las asas de cambio.
III. La creación del modelo matemático Consise en uilizar los compuesos resulado del análisis mulivariado y discriminane para aplicarlos a una regresión (e.g. regresión logísica) (Xia e al., 2013). Para evaluar la robusez maemáica del modelo, especialmene cuando se cuena con pocas muesras se recomienda hacer una validación mediane “ boosrap resampling ” de odo el conjuno de daos (Xia e al., 2013). Poseriormene, los compuesos seleccionados como poenciales biomarcadores deben ser cuanificados mediane una plaaorma analíica robusa. Finalmene, para validar los biomarcadores es recomendable, en la medida de las posibilidades, repeir el experimeno bajo las mismas condiciones y con los mismos organismos, seguido de un esudio de muesras de una población similar a las condiciones de laboraorio y, por úlimo, realizar las pruebas inerlaboraorio.
7.1.3. Metabolómica no dirigida (Untargeted metabolomics) En los esudios no dirigidos se preende seleccionar la mayor canidad de señales especrales que puedan discriminar con precisión un organismo de oro, o comporamienos biológicos en dierenes sisemas. En ese senido, el análisis insrumenal se lleva a cabo en equipos de ala sensibilidad y el procesamieno de daos represena un reo en la selección de algorimos para el filrado de ruido y la deconvolución de señales. En la acualidad se cuena con plaaormas libres y librerías en R que permien hacer ese procesamieno mediane ineraces muy amigables con el usuario, enre las más 37 usadas esán: XCMS 35, MZmine36 y MAIT . Para analizar los resulados obenidos no necesariamene se debe hacer la idenificación y anoación de meabolios a priori ; en los esudios no dirigidos es usual rabajar con los daos crudos sin idenificar, con la lisa de picos, con los daos especrales o con las señales alineadas (Xia & Wishar, 2011), para poseriormene, mediane esadísica mulivariada, seleccionar grandes conjunos de daos según el comporamieno biológico. 35 Disponible en htps://xcmsonline.scripps.edu. 36 Disponible en mzmine.gihub.io/. 37 Disponible en htps://www.bioconducor.org/packages/release/bioc/hml/MAIT.hml.
120
Conceptos en Ciencias Ómicas
7.2. Preparación de la muestra y técnicas instrumentales analíticas La preparación de la muesra depende, no sólo del origen y ipo de muesra, sino ambién del ipo de esudio meabolómico a llevar a cabo (dirigido o no dirigido), y poseriormene de la écnica insrumenal a uilizar (LC/MS, GC/MS o NMR). La preparación de la muesra de un esudio dirigido busca separar las susancias a analizar y reducir al máximo las inererencias de la mariz. Por oro lado, en un esudio no dirigido se debe ener cuidado de no alerar la composición de la muesra, es decir, se debe cuidar la inegridad de odos los meabolios presenes en la muesra. Dependiendo del origen de las muesras esas pueden ser desde los meabolios endógenos de las células (Zuluaga e al., 2016) hasa muesras ambienales. Esa gran variación de marices represena la gran diversidad en las opciones para la elección del méodo. Sin embargo, hay aspecos en común que el raamieno de la muesra requiere abordar. Por ejemplo, remover macromoléculas, disminuir o eliminar compuesos que puedan generar un eeco mariz de supresión de iones, y remover inererencias que puedan aecar la adquisición de daos. Una revisión más deallada de la preparación de muesras de dierenes marices puede ser enconrada en la revisión de Zuluaga e al., (2016). De acuerdo a la écnica insrumenal uilizada, se deben ener algunos cuidados especiales para asegurar buenos resulados. Por ejemplo, para análisis meabolómicos basados en especromería de masas, es necesario garanizar la limpieza de la uene de iones durane odo el experimeno. Por ese moivo, se recomienda verificar con blancos cada ciero número de muesras con el fin de eviar el decremeno gradual de la señal oal. Si el análisis por especromería de masas va acoplado a cromaograía de gases se debe ener en cuena las condiciones de derivaización de la muesra y la limpieza periódica del liner. Para eso se sugiere realizar pruebas de conrol de calidad con mezclas de esándares de dierenes grupos uncionales que se llevan a derivaización para deerminar las figuras de mério de la reacción (linealidad, reproducibilidad, recuperación, sensibilidad y selecividad) así como los posibles aducos que se puedan llegar a generar durane la reacción de derivaización. Esa derivaización para los esudios meabolómicos generalmene se realiza en dos eapas: la primera, la meoximación para la proección de grupos uncionales carbonílicos; la segunda una silanización de los hidrógenos ranseribles al medio (Figura 7.2). McKelvie, Yuk, Xu, Simpson & Simpson (2009), compararon res meodologías dierenes de derivaización usando meilsilil rifluoroaceamida (MSTFA), meilerbuilsilil rifluoroaceamida (MTBSTFA) e hidrocloruro de hidroxilamina rifluoroaceamida (HMDS, TFA), de los cuales el ercer méodo les permiió obener el mayor rendimieno de meabolios.
121
OMe
O R
O
HCI NH2
OH
OMe
N R
F3C
R
37 C
O OH
60 C/15min
N
Si
N
OH
OMe
N
30min
R
O Si
O
F3C
N
H
Figura 7.2. Reacciones de derivaización de compuesos semivoláiles. Primero meoximación, segundo silanización. Para los esudios basados en cromaograía líquida acoplados a especromería de masas se debe asegurar que ningún compueso de la mariz esé generando supresión de señales. Para esa écnica ambién se sugiere la inyección de blancos y muesras conrol para verificar denro de la marcha el desempeño de la misma. Por oro lado si el méodo de elección es la resonancia magnéica nuclear, es necesario considerar los reacivos deuerados a uilizar e insrumenalmene la supresión de la recuencia de la señal del agua. En ese senido, se recomienda evaluar dierenes solvenes de exracción para garanizar el mayor número de meabolios en el exraco. En un esudio realizado por Brown y colaboradores (2008), compararon dierenes solvenes, iempo de depuración y liofilización, con el objeo de enconrar los ópimos para la preparación de muesras de ejido de lombriz para un análisis en RMN. En ese esudio se analizaron seis solvenes dierenes: buffer osao, agua deuerada, aceonirilo deuerado, benceno, cloroormo, meanol y dimeil sulóxido (odos deuerados), enconrando que el buffer osao presenó la mayor reproducibilidad, mayor concenración y variedad de meabolios. Como se mencionó aneriormene, la preparación de la muesra esá muy relacionada con la écnica insrumenal en la que se basará el esudio, la elección de la écnica dependerá de la accesibilidad y los recursos con los que cuene el invesigador, ya que odas presenan oralezas y aspecos por rabajar. Por ejemplo, la resonancia magnéica nuclear (RMN) ha sido ampliamene uilizada, debido a que es un méodo robuso en el que se puede idenificar y cuanificar direcamene sin necesidad de esándares exernos ni curvas de calibración, ya que la señal es proporcional a la concenración molar del compueso (Lubbe, Ali, Verpore, & Choi, 2013). Ora de las venajas de esa écnica es la mínima manipulación y ácil preparación de la muesra, lo que la hace muy reproducible, además del hecho de que maniene la inegridad de la muesra al ser una écnica no desrucible. Las limiaciones de 122
Conceptos en Ciencias Ómicas
la écnica de RMN radican principalmene en los cosos de manenimieno de los equipos y la baja sensibilidad, por lo que generalmene se ha uilizado en experimenos conrolados, aunque úlimamene eso ha ido mejorando al incremenar la recuencia de los equipos. Por oro lado, los esudios basados en la especromería de masas se han vuelo más populares debido a la disponibilidad en los laboraorios, la versailidad y los cosos de manenimieno. El ipo de ionización más comúnmene uilizada en esa revisión ue la ionización por elecrospray (ESI) combinada con la écnica cromaográfica líquida (LC/ MS TOF), en ano esa provee una buena sensibilidad y selecividad por un amplio rango de compuesos. Sin embargo, una de las limiaciones de los esudios meabolómicos en los que se uiliza cromaograía líquida, es el procesamieno de los daos, ya que consume mucho iempo por las librerías de especros basadas en iempos de reención, además son limiadas y generalmene deben ser consruidas por cada laboraorio, lo que hace que se incremenen los cosos por la consecución de esándares. Finalmene, los esudios basados en cromaograía gaseosa son muy populares, en cuano el coso oal por muesra puede llegar a ser menor que las oras écnicas y el libre acceso a librerías y reposiorios de especros hace que el procesamieno de los daos sea más ácil, asequible y ransparene. La limiación se siúa en el procesamieno de muesra, dado que esas deben ser derivaizadas para converirlas en compuesos voláiles, lo cual puede aumenar el error experimenal y aecar la reproducibilidad. No obsane, hay proocolos generales esablecidos para el raamieno de muesras para esudios meabolómicos.
7.2.1. Aspectos generales de la espectrometría de masas La elección en el ipo de ionización en los esudios meabolómicos es crucial para asegurar la calidad de los resulados, ya que esa dependerá de la nauraleza de la muesra y la clase de inormación que se desea obener. La ionización se puede dividir en dos grupos: ionización en ase gaseosa o ionización por desorción. En el primer caso, la muesra se vaporiza y poseriormene es ionizada, esa écnica de ionización es uilizada principalmene en meabolios érmicamene esables y de bajo peso molecular. En el segundo caso, los meabolios esán embebidos en una mariz y son ionizados direcamene generando iones gaseosos. Denro de la ionización en ase gaseosa se encuenra la ionización por impaco elecrónico y la ionización química. Por oro lado, la ionización por desorción coniene la ionización por elecrospray, ionización en superficie, ionización FAB ( Fas aom bombardmen ), DART (Direc analysis in real ime ) y la ionización por láser (Figura 7.3). En la ionización por impaco elecrónico las moléculas que se encuenran en ase de vapor son ionizadas por medio de un haz de elecrones de ala energía. Los elecrones provienen de un filameno y son acelerados mediane un dierencial de poencial variable enre 5 y 70 V, generando energías enre 5 y 70 eV. Cuando las moléculas enran en conaco con el haz de elecrones puede darse la eliminación de un elecrón, eliminación de dos elecrones, capación de un elecrón o la disociación de la molécula (siendo la eliminación de un elecrón el proceso más probable). La ionización 123
química ocurre mediane una reacción bimolecular, en la que el meano es someido a presiones de 1mm Hg generando iones meonio (CH5+) que son puesos en conaco con las moléculas de la muesra generando la ionización de las mismas.
Ionización
Por desorción
Fase de Vapor
Impacto electrónico
Electrospray
FAB
DART
Láser
MALDI
Ionización química SELDI
Figura 7.3. Tipos de ionización de muesras. Por oro lado, la ionización por elecrospray se realiza a presión amosérica, haciendo pasar la muesra más el solvene por un capilar meálico al cual al final se le aplica una corriene de 3-4 KV. Eso genera una niebla de finas goas cargadas elécricamene, lo que acilia la evaporación del solvene y las moléculas pueden quedar cargadas posiiva o negaivamene. La ionización en superficie es uilizada para compuesos de baja volailidad, en los que la ionización ocurre sobre una superficie a elevadas emperauras. La ionización FAB se da a ravés de áomos de xenón o cesio que son impacados sobre una mariz, la cual cede un proón que ionizaría la muesra que esá embebida en la mariz. Esa se uiliza generalmene para moléculas polares y de alo peso molecular. La ionización DART consa de un haz ormado por áomos de helio producidos por descarga elécrica que impaca la muesra y ransfiere proones a los analios, no requiere un solvene mariz. Finalmene, la ionización asisida por láser, consise en la pulsación de ondas de luz que impacan una mariz en el caso MALDI (ionización por desorción con láser asisida por una mariz) para generar el agene ionizane, y por ende, ionizar los meabolios. En el caso SELDI (ionización por desorción con láser sobre una superficie), los analios se fijan sobre
124
Conceptos en Ciencias Ómicas
una superficie sólida por adsorción, la cual se recubre con un solvene que acúa como una mariz que poseriormene es irradiado con el láser para generar los agenes ionizanes. Respeco a los analizadores de masas, ienen como objeivo el separar los iones generados en el proceso de ionización. Esos se pueden clasificar en dos grandes grupos: los analizadores de barrido y los analizadores de ransmisión de iones simuláneo. Denro del primer grupo se encuenran el analizador magnéico y el cuadrupolar. En el segundo grupo se encuenran el analizador de rampa de iones, el iempo de vuelo y el analizador de ransormada de Fourier (Figura 7.4). La dierencia que exise enre los analizadores se puede resumir en res parámeros: la resolución, la masa máxima que pueden medir y la ransmisión de iones. En la Tabla 7.1 se muesran las dierencias enre los dos ipos de analizadores respeco a los parámeros (Sashenko y Marínez, 2010).
Analizadores de masas
Analizadores de barrido
Analizadores de transmisión de iones simultáneos Analizador de tiempo de vuelo
Analizador magnético Analizador de trampa de iones Analizador cuadrupolar Analizador de transformada de Fourier
Figura 7.4. Analizadores de masas El analizador magnéico es el menos recuene en la acualidad y uiliza un campo magnéico para separar los iones someiéndolos a una curvaura en el rayeco hasa el deecor, la velocidad cinéica la llevan los iones generados por el campo magnéico; esos analizadores ienen una resolución de 900 m/z. El analizador cuadrupolar esá conormado por cuaro barras meálicas ubicadas de manera circular y paralela, sobre las cuales se aplica un poencial de radiorecuencia alerno para realizar el barrido de masas; su resolución es de 500 a 1000 m/z. La dierencia del analizador de rampa de iones con respeco al anerior es que los iones pueden quedar confinados durane un periodo más largo, debido a una 125
recuencia adicional exerna que es aplicada, y permie que los iones sean eyecados de la rampa en orden creciene de la relación m/z. En el analizador de iempo de vuelo los iones generados en la uene son acelerados mediane un pulso de poencial elécrico y la velocidad de cada ion es inversamene proporcional a su relación masa carga, haciendo el iempo de análisis muy coro.
Tabla 7.1. Dierencias enre analizadores de masa. Parámetro.
Analizadores de barrido.
Analizadores de transmisión de iones simultáneo.
Comentario.
Resolución
Las masas exacas permien Masas nominales (Números Masas exacas (hasa seis dierencias isómeros y eneros) decimales) especies isobáricas
Masa máxima
Límie para la masa
Transmisión de iones
Baja sensibilidad
Los TOF, infinio
Virualmene
Ala sensibilidad
Relación enre los iones que se orman en la cámara de ionización y los que después de aravesar el analizador alcanzan el deecor
7.3. Procesamiento de datos metabolómicos El procesamieno de los daos en meabolómica comienza con la ransormación de los archivos de daos crudos en una represenación que acilie el acceso a las caracerísicas de cada ion (Kaajamaa & Oresic, 2007). Descrio de ora orma, se refiere a la conversión de señales cromaográficas, especros de masas o especros de recuencia (según sea la écnica analíica uilizada) en marices numéricas que conengan la inormación de cada señal como el iempo de reención, la relación masa carga (m/z) y la inensidad de los iones, con el fin de que puedan ser poseriormene analizados esadísicamene. Debido a que los esudios meabolómicos esán conormados de un gran número de daos, de la misma orma que las oras ómicas es necesario el uso de herramienas inormáicas para un apropiado raamieno de los daos (Sugimoo, Kawakami, Rober & Soga, 2012), las cuales han crecido en los úlimos años. En la abla 7.2 se presena la lisa de las plaaormas de acceso libre y comercial para procesamieno de daos meabolómicos basados en especromería de masas.
Tabla 7.2. Plaaormas para el procesamieno de señales cromaográficas y especros de masas.
126
Conceptos en Ciencias Ómicas Nombre
Características
Tipo
Lenguaje
COMSPARI
Visualización para la búsqueda de dierencias enre pares de Libre. corridas.
C
Coninuous profilemodels
Alineación y normalización para daos de series de iempo.
Libre.
MaLab
LCMSWARP
Alineación por iempo de reención y cluserización.
Libre.
C++
MapQuan
Filrado de ruido, deección de pico y visualización.
Libre.
C
MahDAMP
Comparación direca de daos crudos sin selección de picos, Libre. incluye méodos para preprocesamieno como agrupación en cuadrícula (binning), subsracción de línea base, suavizado y normalización.
Paquee de Maemáica
MET-IDEA
Exrae los daos de la inensidad del ion lisados por orden Libre. creciene de ion/iempo de reención de múliples corridas.
.NET plaorm
MSFACTs
Alineación y comparación de cromaogramas crudos o lisa de Libre. picos.
Java
Msigh
Visualización y análisis visual de la comparación de corridas Libre. múliples.
Windows plaorm
msInspec
Deección de pico, alineación, normalización y visualización.
Libre.
R, Java
MZmine
Filrado de ruido, deección de picos, alineación, anoación, Libre. normalización, visualización, compuación disribuida.
R, Java
SpecArray
Filrado de ruido, cenralización, deección de pico, alineación Libre. y visualización.
C
Xalign
Deección de pico, alineación y conrol de calidad.
C++
XCMS
Filrado de ruido, deección de pico, normalización, anoación Libre. y visualización.
R
MAIT
Deección de pico, anoación de picos y visualización.
Libre.
R
BinBase daa base
Auomáica anoación de meabolios.
Libre.
BlueFuse
Filrado, deección de pico, alineación, méodos univariados y Comercial: BlueGenome, mulivariados para el análisis de daos. Cambridge, UK.
Genedaa Expressionnis
Filrado, deección de pico, alineación por m/z y iempo de Comercial: Genedaa, Basel, reención, anoación, esadísica y módulos de inerpreación. Suiza.
LineUp
Alineación de daos cromaográficos.
MarkerLynx
Deección de pico y alineación, análisis de componenes Comercial: Waers, Milord, principales (PCA). MA.EU.
MarkerView
Deección de pico y alineación, PCA, es .
Applied Biosysem, Foser Ciy, CA. EU.
MassHuner Profiling sofware
Exracción de caracerísicas y alineación.
Agilen Technologies Sana Clara, CA. EU.
Meabolic Profiler
Compila inormación cruda en ablas de iempo de reención, Bruker Dalonic y Bruker m/z e inensidades. Anoación y PCA. BioSpin, Billerica, MA. EU.
meAlign
Filración, corrección de línea base, deección de pico y PlanResearch inernaional, alineación. B.V. Holanda.
MS Resolver
Resuelve daos mulicomponenes de insrumenación con Patern Recogniion Sysem. mulideección en conribuciones individuales.
Profile
Conversión de exensión, deección de picos y alineación, Phenomenome Discoveries, análisis esadísico. Canadá.
Roseta Elucidaor
Deección de pico y alineación, análisis esadísico y Roseta visualización. Seatle. EU.
Sieve
Comparación de múliples cromaogramas.
Thermo Fisher Scienific. EU.
ChromaTOF
Deconvolución, visualización y repore.
LECO.
Libre.
Comercial: Inomerics.
Biosofware,
127
7.3.1. Formato y filtrado Si el procesamieno de los daos se desea realizar en un programa libre o en una plaaorma web, es necesario inicialmene converir la exensión del archivo, ya que dependiendo de la marca del equipo uilizada en el laboraorio, cada casa comercial iene una exensión y un ormao de archivo dierene y único para su marca. Sin embargo, cada programa comercial iene la opción de exporar los archivos a ormaos universales. Los ormaos acualmene uilizados por las plaaormas de acceso abiero son neCDF, mzXML (Kaajamaa y Oresic, 2007; Sugimoo, Kawakami, Rober & Soga, 2012). Los méodos de filrado se uilizan principalmene para remover los eecos del ruido o la línea base. En los esudios por cromaograía acoplados a especromería de masas se espera obener dos ipos de ruido: el generado por el equipo (ruido aleaorio) y el generado por el solvene. Los algorimos más uilizados para la remoción del ruido son los siguienes: movimieno de venana ( moving average window ), filrado por mediana ( median filer ), Savizky-Golay, polinomio local ( local plynomial fiting ) y ransormación ondeada ( wavele ransormaion). Esas écnicas de filrado y suavizado se usan undamenalmene en cromaograía líquida, pueso que por eeco de los solvenes de la ase móvil, las señales son menos homogéneas que en la cromaograía gaseosa. El filrado por la mediana ( median filer ) consise en reemplazar cada puno (K) de las flucuaciones del ruido por la media de odos los valores K. Ese valor K debe ser opimizado a ravés de blancos con dierenes condiciones y solvenes, porque un K muy grande puede ener un alo grado de suavizado y ocular algunas señales verdaderas, mienras que valores muy pequeños pueden no hacer mucho cambio en las señales. La écnica de suavizado a ravés del algorimo de Savizky-Golay es la más popular y es similar a la de polinomio local. En esa cada puno es reemplazado por un esimado de una unción polinómica calculada con los punos circundanes; una venaja de SavizkyGolay es que las derivadas pueden ser calculadas simuláneamene. El algorimo de ransormación ondeada ( Wavele ransormaion ) consise en el reconocimieno de las recuencias de onda, es decir, las flucuaciones producidas en el ruido son más rápidas que las generadas por una señal de un compueso. La idea consise en reemplazar los coeficienes de las flucuaciones rápidas por cero, lo cual exraca únicamene las recuencias correspondienes a las señales (Wehrens, 2011). Finalmene, un ipo especial de suavizado de señales es a ravés del pixelado ( Binning ), que no solo promedia los valores conseguidos para pixel, sino que ambién disminuye el número de variables. Aunque la resolución de la imagen disminuye, se puede idenificar con mayor acilidad las principales caracerísicas. Ese méodo de suavizado de señal ambién iene sus limiaciones, porque deerminar el amaño del pixel es cuesión de ensayo y error, pero iene más venajas que rabajar sobre medias o medianas (Wehrens, 2011).
128
Conceptos en Ciencias Ómicas
7.3.2. Detección de picos Los raamienos inormáicos para la deección de señales esán enocados en la idenificación de odos los compuesos, al eviar los alsos posiivos y al proveer inormación cuaniaiva de la abundancia de los iones presenes. Para eso, una de las esraegias más uilizadas es la conversión de la inormación adquirida en gráficos caresianos donde el eje “x” es el iempo de reención y el eje “y” es la relación m/z. De allí se separan las señales y se abulan en orden de iempo de reención y m/z; si bien eso ayuda en gran medida a la organización y separación de los daos, hay un acor experimenal que se debe ener en cuena: la ionización (ya que para ionizaciones suaves, como la de elecrospray, se pueden enconrar ablas “más limpias”). Es decir, se encuenran menos ragmenos de un mismo compueso, pero por lo general, en el proceso de selección de picos se debe lidiar ambién con aducos de iones, isómeros y dierenes esados de carga con la elución de compuesos en un mismo iempo de reención. Por eso después es necesario realizar la idenificación de isómeros, aducos y la deconvolución los cuales serán descrios a coninuación.
7.3.3. Deconvolución de señales Cuando se realiza una ionización suave, se espera obener un solo pico por compueso, para que esos a su vez eluyan uno a uno de la columna cromaográfica. Sin embargo, eso no ocurre siempre, hay compuesos que viajan a ravés de la columna con una velocidad muy similar, por lo ano, un gran número de meabolios coeluyen y no son cromaográficamene bien resuelos, por consiguiene, los especros de masas ambién quedan superpuesos, en ese senido, es necesario separar maemáicamene las señales solapadas y reorganizar los iones que provienen de cada meabolio, proceso que se conoce como deconvolución. Los parámeros con los que se deben alimenar los dierenes programas para deconvolucionar picos son dierenes de acuerdo a la casa comercial. En un esudio realizado por Lu y colaboradores (2008), publicado en el Journal Trends in Analyical Chemisry, se eecuó una comparación de res programas, dos de ellos comerciales – ChromaTOF y AnalyzerPro–, así como AMDIS, que se puede descargar de manera libre, cada uno de los cuales iene dierenes parámeros de uso y algorimos desarrollados por cada casa comercial. En ese esudio se enconró que AMDIS produce más alsos posiivos, y los programas AnalyzerPro y ChromaTOF reporaron más alsos negaivos. No obsane, si se omiieran los alsos negaivos del programa ChromaToF, que resuló con mayor validez en los resulados, el número de meabolios deconvolucionados correcamene sería mayor a los oros dos, aunque iene la limiación de que sólo recibe daos procesados en equipos LECO, mienras que AMDIS y AnalyzerPro, reciben los ormaos universales. 129
7.3.4. Identificación de Isótopos Los analizadores de masas de ala resolución (como TOF y RITF) permien la idenificación de iones isoópicos, los cuales comúnmene son deconvolucionados en el flujo de rabajo de procesamieno de daos en los esudios meabolómicos. Si el objeivo del esudio no es seguir un parón isoópico (bien sea porque la molécula haya sido marcada isoópicamene en el experimeno o porque se requiere idenificar las ransormaciones de alguna molécula), es necesario agrupar los parones isoópicos para minimizar el número de señales que van a ser idenificadas, y que generen una inormación adecuada para lo que se busca en el experimeno. Con al fin se debe proveer al programa la inormación sobre la relación m/z máxima permiida para ser considerados iguales, la olerancia en iempo de reención y la carga máxima para deecar un parón isoópico.
7.3.5. Identificación de aductos Se eniende como aduco, la unión de moléculas mediane un enlace covalene, que no produce cambios esrucurales. Esa unión se produce durane la reacción de derivaización o por los compuesos de la mariz que coniene los analios. La masa de esos aducos dependerá de la esraegia de derivaización uilizada, en el caso de la cromaograía gaseosa, y de los solvenes uilizados, en el caso de la cromaograía líquida.
7.3.6. Identificación y anotación de compuestos La idenificación de compuesos se lleva a cabo mediane la similiud de especros obenidos con las librerías disponibles en el equipo o las consruidas en cada laboraorio. La anoación de compuesos desconocidos hace reerencia a la búsqueda del compueso basados en el especro de masas y el índice de reención en bases de daos públicas como (HMDB, KEGG, PubChem, Chemspider, enre oros) o con la idenificación insrumenal (e.g. mediane MS/MS). El índice de reención de Kovas es el indicador más uilizado como unción de las propiedades de la columna (ipo de columna, edad, longiud, grosor de ase esacionaria) es uilizado para fijar un valor en unción del iempo de reención, dado que el desplazamieno de los picos son observados siempre enre cada corrida cromaográfica, con el fin de fijar una posición para cada meabolio denro del cromaograma. Eso permie que se puedan crear bases de daos universales que pueden ser almacenadas y usadas a lo largo de los años a ravés del uso del índice de reención (Skogerson, Wohlgemuh, Barupal & Fiehn, 2011). El índice de reención se deermina dopando las muesras con esándares conocidos, generalmene alcanos desde C6 hasa C24, pero acualmene se usan ambién los éseres meílicos de ácidos grasos (FAMES) en el mismo rango, ya que los ácidos grasos meilados han mosrado un desempeño inequívoco en la deección auomaizada (Skogerson e al., 2011). 130
Conceptos en Ciencias Ómicas
7.3.7. Alineación La alineación de señales consise en asignar un mismo pico en dierenes muesras o corridas cromaográficas, debido al desplazamieno que suren los picos enre las dierenes corridas. Para eso se han desarrollado dierenes esraegias, a saber: el análisis de las señales en una sola dimensión, la adición de esándar inerno y los méodos sin adición de esándares inernos. El méodo de grupos cenrados consise en generar un cromaograma promedio con los daos de odos los cromaogramas de un mismo esudio, en el cual los picos generados en el cromaograma promedio van a definir un cenro de agrupación, para poseriormene omar cada pico de las muesras individuales y emparejar con el pico del cenro de grupo. Una limiación de ese méodo es que la desviación en el iempo de reención del pico enre las dierenes muesras, porque no puede ser mayor a la disancia enre dos picos adyacenes de la misma muesra. El méodo de arreglo de venana de iempo de reención consise en organizar y exraer la lisa de picos de odas las muesras e ir ormando grupos de picos usando un inervalo en el iempo de reención. La desvenaja de ese méodo es que la opimización del inervalo se debe hacer manualmene a ensayo y error, pero puede ser que no sea reproducible para oro experimeno. El méodo de adición de esándar inerno consise en adicionar pequeñas canidades de esándares que se puedan disribuir a lo largo de la corrida cromaográfica, con el propósio de usar un desplazamieno lineal en el iempo de reención de cada muesra adquirida. Las limiaciones de ese méodo consisen, en primer lugar, en asumir que el desplazamieno de los picos corresponde a una unción lineal. En segundo lugar, en requerir un paso más en el procesamieno de la muesra, que es la adición de esándares que pueden aecar o enmascarar la presencia de oros meabolios. Enre los méodos sin adición de esándar inerno reside la correlación opimizada de orma (Correlaion opimized warping – COW ), la cual busca exhausivamene posibles conjunos de curvauras segmenadas que puedan ser usados para alinear un cromaograma con el oro usando una medida de correlación. El méodo de ormación cuadráica ( quadraic warping uncion ), modela las flucuaciones ieraivamene en una unción cuadráica para minimizar las dierencias enre las razas de dos cromaogramas (Smih, Wan, O’Maille, Abagyan & Siuzdak, 2006). El méodo de XCMS inicia haciendo un agrupamieno brusco de los cromaogramas. Eso con el propósio de buscar grupos con picos bien resuelos, los cuales son usados
131
emporalmene como esándares para calcular la media en iempo de reención y la desviación de la media para cada muesra en ese grupo. Poseriormene, a cada muesra se le deermina una curva no lineal de iempo de reención con un modelo polinómico local (Smih e al., 2006).
7.3.8. Valores perdidos Se presenan los valores perdidos porque la concenración de un meabolio en una muesra deerminada quedó por debajo del límie de la insrumenación usada. En ano esos valores perdidos pueden generar inconvenienes en el momeno de hacer el análisis esadísico, es imporane reemplazar el valor cero por oro valor calculado mediane varias esraegias: la primera de esas consise en calcular el valor medio del valor más pequeño deecado para ese ión (oros programas uilizan la ercera pare del valor más pequeño deecado). Ora de las esraegias consise en asignar el valor del ruido de ondo (Couran, Anignac, Dervilly-Pinel & Le Bizec, 2014).
7.4. Análisis de datos Los daos adquiridos en un esudio meabolómico ienen la caracerísica de una ala dimensionalidad en la que generalmene el número de variables excede el número de observaciones, enendiéndose por variable los meabolios idenificados y no idenificados. Ora de las caracerísicas reside en las variables que esán correlacionadas, ya que perenecen a un mismo sisema biológico (Couran e al., 2014). Por esa úlima razón es que el uso de análisis univariado en esudios meabolómicos ha sido criicado; sin embargo, en el caso en que la variación enre muesras es muy aleaoria, el análisis mulivariane no es el adecuado para idenificar dichas dierencias. En esos casos debe aplicarse esadísica univariada (Smih e al., 2006). Las variaciones en las concenraciones de los meabolios pueden esar aecadas no necesariamene por el eveno biológico, sino ambién pueden esar influidas por oros acores como: la dierencia en el orden de magniud, eso es, la dierencia que puede haber enre el promedio de concenración de un meabolio con el promedio de un meabolio. Por ejemplo la glucosa o el ATP que se encuenran en grandes concenraciones, y eso no quiere decir que los meabolios que esán en bajas concenraciones sean menos imporanes. Oro acor puede ser la variación écnica que es el error en el raamieno de la muesra (Van den Berg, Hoesloo, Weserhuis, Smilde & van der Wer, 2006). En ese senido, anes de hacer el análisis esadísico es necesario minimizar odos los errores sisemáicos que puedan ener los daos crudos, a ravés de la normalización, la ransormación y el escalado de los daos, los cuales se explicaran a coninuación.
132
Conceptos en Ciencias Ómicas
7.4.1. Normalización El objeivo de la normalización de los daos consise en corregir la variación sisemáica y en escalar los daos, de manera que las dierenes muesras de un esudio puedan ser comparadas enre sí (Casillo, Gopalacharyulu, Yeukuri & Orešič, 2011). En oras palabras, se raa de eliminar la variación que puede ser conusa y que proviene, por ejemplo, del raamieno de la muesra, mienras se reiene la variación relevane (la variación de origen biológico). La normalización puede realizarse mediane dos méodos dierenes: a ravés de esándar inerno o a ravés de acores de escala. El méodo de esándar inerno se basa en la división de la inensidad de las señales de los compuesos por la inensidad del esándar inerno. La elección del esándar debe undamenarse en un compueso que, en general, pueda describir el comporamieno de la mayor canidad de meabolios en la muesra. El méodo de acores de escala se puede realizar a ravés de la mediana o el promedio de las inensidades, en el cual se dividen las inensidades o las áreas de cada pico por el promedio de las aluras de los picos, o por el promedio del cuadrado de las aluras de los picos, la alura del pico máximo o por la suma de las aluras o el área de los picos en una muesra (Casillo e al., 2011).
7.4.2. Transformación y escalado Las ransormaciones son conversiones no lineales de los daos para converir las relaciones muliplicaivas por relaciones adiivas y para hacer la disribución del sesgo más simérico. Las ransormaciones son necesarias para idenificar las relaciones biológicas a ravés de écnicas lineales (Van den Berg e al., 2006). Eso porque las ransormaciones logarímicas reducen el orden de magniud, haciéndolo más similar a los valores pequeños, los cuales llegan a ener eecos de pseudo escalado enre los valores grandes y los pequeños, por lo ano, es imporane realizar un escalado después de la ransormación. Hay dierenes meodologías para realizar un escalado, enre ellas pueden mencionarse el auo escalado, el escalado en rango, el escalado de Pareo, el escalado exenso y el escalado por nivel. En la Tabla 7.3 puede observarse el objeivo, las venajas y las desvenajas de cada esraegia.
133
Tabla 7.3. Méodos de escalado, objeivo, venajas y desvenajas. Método Auo escalado
Objetivo Comparar meabolios basados en correlaciones.
Ventajas Todos los meabolios se vuelven igual de imporanes. Todos los meabolios se vuelven igual de imporanes y el escalado es relaivo a la respuesa biológica. Maniene los daos cerca a los daos originales
Desventajas Inflación de las medidas de error.
Escalado por inervalo
Comparar los meabolios de acuerdo al rango de respuesa biológica.
Escalado de Pareo
Reduce la imporancia relaiva de los valores de magniud grande, pero maniene la esrucura de los daos parcialmene inaca.
Escalado exenso
Enocarse en meabolios que presenan pequeñas flucuaciones
Apuna a la robusez, puede No es recomendable uilizar el conocimieno para grandes variaciones previo del grupo inducidas sin un grupo predeerminado
Escalado por nivel
Se enoca en la respuesa relaiva
Adecuado para la idenificación de biomarcadores
Inflación de las medidas de error y sensible a ouliers.
Sensible a grandes asas de cambio
Inflación de las medidas de error
7.4.3. Análisis de componentes principales El análisis de componenes principales (PCA) es el méodo mulivariane más uilizado para explorar los daos meabolómicos. Eso se debe a que poseen más número de variables (meabolios) que observaciones, y los meabolios esán alamene correlacionados, es decir, es posible explicar el eveno biológico refiriéndose a unos pocos meabolios (los que presenan mayor variabilidad). En ese orden de ideas, el PCA permie reducir la dimensionalidad de los daos, generando nuevas variables llamadas variables laenes o componenes principales, que son variables que no esán correlacionadas y que ayudarán a idenificar los meabolios que mayor variación biológica presenan y los posibles ouliers. El PCA es una écnica maemáica que no requiere la suposición de normalidad mulivariane de los daos, pero si eso se cumple puede arrojar una inerpreación más prounda de los componenes. Para realizar el cálculo de los componenes principales es necesario calcular la varianza y organizar la mariz en orden descendiene de varianza. Se iene enonces una serie de variables (meabolios) x 1, x 2 , …, x p y se raa de calcular a parir de ellas un conjuno de variables y 1, y 2 , …, y p no correlacionadas, donde cada y j (j=1,2,..,p) es una combinación lineal de variables originales (X 1, X 2 ,..., X p ). Poseriormene, los valores de los coeficienes de cada variable se vecorizan y se proyecan en un plano.
134
Conceptos en Ciencias Ómicas
7.4.4. Regresión lineal de mínimos cuadrados parciales con análisis discriminante (PLS-DA) La regresión lineal de mínimos cuadrados parciales (PLS) es una écnica supervisada y combina las caracerísicas de dos écnicas mulivarianes: el análisis de componenes principales y la regresión lineal múliple (Valdéz, 2010). En primer lugar, exrae un conjuno de acores laenes que explica en la mayor medida posible la covarianza enre variables dependienes e independienes, y luego aplica la regresión pronosica deerminando los valores de las variables dependienes mediane la descomposición de las variables independienes. El análisis discriminane, modela la relación enre un grupo de variables predicores y una variable de respuesa caegórica, es decir, la variable que indica a qué clase o grupo perenece una muesra. PLS-DA es usada, principalmene, para el desarrollo de modelos predicivos en los que ajusa múliples variables en un modelo individual y luego las variables son agrupadas de acuerdo a la variable caegórica de mayor influencia. Esos modelos deben ir acompañados de la validación del poder predicivo.
7.4.5. Validación cruzada La validación cruzada se realiza principalmene para deerminar el poder predicivo de un modelo mulivariado, cuando por cuesiones de disponibilidad de muesra no se puede repeir el experimeno bajo las mismas condiciones. En la mayoría de los esudios meabolómicos se cuena con pocas muesras para verificar la reproducibilidad del experimeno, por eso se opa por la esraegia llamada “ re-sampling mehods ”. Uno de esos méodos es la validación cruzada, la cual consise en uilizar pare de los daos para ser enrenados y esimar el modelo, para luego hallar la esimación de las observaciones que no se incluyeron con los daos para la validación (los cuales son conocidos), y finalmene, idenificar los errores en la clasificación de los daos. Ese proceso es repeido un número de ciclos durane los cuales se realiza una división dierene de los daos, de manera que cada dao pueda servir una sola vez en el subgrupo de daos para enrenar.
7.4.6. Test de permutaciones El es de permuaciones se realiza para conesar la siguiene preguna: ¿esos resulados pueden ser obenidos únicamene por el azar? La idea de un es de permuación es crear modelos sin senido “ nonsense models ” a ravés de la permuación de las observaciones, pero dejando los róulos de las muesras inacos (e.g. caso – conrol) y repiiendo el modelo al usar los daos permuados. Eso se realiza un gran número de veces y odos los resulados serán aleaorios. Ese es de permuación permie evaluar ambién el poder predicivo del modelo original. 135
7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica El análisis de redes de meabolios se uiliza principalmene para para mosrar las relaciones bioquímicas exisenes enre los meabolios. Comúnmene las redes se consruyen a parir de los nodos (meabolios) y los enlaces que son los que presenan las dierenes relaciones enre ellos. Esas relaciones pueden ser de ipo químico (una reacción, una enzima, una rua bioquímica, enre oros); de ipo esrucural (similiud en especro de masas o similiud esrucural) y de ipo esadísico (correlación posiiva o correlación negaiva) (Grapov, Wanichhanarak & Fiehn, 2015). Las redes meabólicas esán represenadas por redes de escala libre, ese ipo de opología se presena cuando hay pocos nodos con una ala conecividad y el reso de nodos ienen pocos enlaces. Denro de la opología de la red hay propiedades esrucurales globales y propiedades locales. En el grupo de las globales se encuenran el grado de disribución enendido como el número de enlaces que iene un nodo, el coeficiene de agrupamieno (clusering ) y la modularidad. En el grupo de las locales residen los subgraos, las medidas de cenralidad, las ruas y el análisis de ineracción elemenaria.
Medidas globales Como se mencionó aneriormene, el grado calcula el número de enlaces que esán relacionados con un mismo nodo. El coeficiene de agrupamieno depende del número de vecinos que comparen conexión; en oras palabras, el número de riángulos que pueda ormar con los nodos vecinos (Shannon, 2002). El coeficiene de modularidad mide la uerza de división de una red en módulos o agrupamienos. Las redes con ala modularidad presenan un gran número de conexiones denro del mismo grupo, pero escasas conexiones con oros grupos. Las redes meabólicas presenan alos grados de modularidad por las diversas subredes o ciclos meabólicos que presena un sisema vivo, y ese sisema es indicador de las ruas que esán mediadas por un grupo de meabolios.
Medidas locales Las medidas locales permien inerir en los parones de ineracción. Los subgraos represenan un subgrupo de nodos con un grupo de enlaces conecados enre ellos (una misma rua bioquímica o un mismo parón de ragmenación en el especro de masas). Por oro lado, la cenralidad es una medida local de la posición relaiva de un nodo denro del grao y es usada para esimar la imporancia relaiva denro de una red. Hay dierenes medidas de cenralidad basadas en la conecividad del nodo, las cuales se denominan “Degree Cenraliy” o grado de cenralidad. Esas calculan las ruas más coras con oros nodos de proximidad cenral ambién llamadas Closeness Cenraliy , así como las que calculan el número de ruas más coras que pasan a ravés del nodo, y se denominan inermediación o beweenness cenraliy. Ora medida local es la redundancia 136
Conceptos en Ciencias Ómicas
(Pahway redundancy ), esa mide la presencia de muchas ruas enre el mismo par de nodos, ese es un indicador de robusez en las ruas bioquímicas y esá correlacionado con las medidas de inermediación. Si en el análisis del meabolismo se iene en cuena únicamene la caracerísica general de opología como el grado, se puede llegar a conclusiones parciales, por ese moivo, en las redes meabólicas es necesario exracar ambién propiedades locales (Aitokallio & Schwikowski, 2006). En ese senido, una vez la red de inerés ha sido represenada mediane un grao, su análisis consa de dos pasos: el primer paso consise en aplicar los algorimos para compuar propiedades locales del grao, seguido de las locales como el número de subgraos, la longiud de los caminos más coros enre nodos conecados indirecamene (cenralidad). El segundo paso consise en evaluar la sensibilidad y especificidad del modelo de predicción usando bases de daos validadas (Aitokallio & Schwikowski, 2006). Finalmene, oro uso de las redes en esudios meabolómicos es la de asociación de ragmenos de los especros de masas de los compuesos idenificados con los desconocidos. Ese se lleva a cabo mediane algorimos de similaridad y correlación (Grapov e al., 2015). Una aplicación libre uilizada para ese fin es MeaMapR 38 la cual puede ser descargada y ejecuada en R mediane la librería Shiny.
38
htp://dgrapov.gihub.io/MeaMapR/
137
7.5. Referencias Aitokallio, T., & Schwikowski, B. (2006). Graph-based mehods or analysing neworks in cell biology. Briefings in Bioinormaics, 7 (3), 243–255. DOI:htps://doi. org/10.1093/bib/bbl022. Casillo, S., Gopalacharyulu, P., Yeukuri, L., & Orešič, M. (2011). Algorihms and ools or he preprocessing o LC-MS meabolomics daa. Chemomerics and Inelligen Laboraory Sysems, 108 (1), 23– 32. DOI: htps://doi.org/htp://doi.org/10.1016/j. chemolab.2011.03.010. Cornish-Bowden, A. (1989). Meabolic conrol heory and biochemical sysems heory: Differen objecives, differen assumpions, differen resuls. Journal o Theoreical Biology, 136(4), 365–377. DOI:htps://doi.org/htps://doi.org/10.1016/S0022 5193(89)80154-7. Couran, F., Anignac, J.-P., Dervilly-Pinel, G., & Le Bizec, B. (2014). Basics o mass specromery based meabolomics. Proeomics, 2369–2388. Derr, R. F. (1985). Modern meabolic conrol-heory. 1. Fundamenal heorems. Biochemical Archives, 1 (4), 239–247. Fiehn, O. (2002). Meabolomics : The link beween genoypes and phenoypes. Plan Molecular Biology. Plan Molecular Biology, 48 (1–2), 155–171. Fiehn, O., Kopka, J., Dormann, P., Almann, T., Trehewey, R. N., & Willmizer, L. (2000). Meabolie profiling or plan uncional genomics. Naure Bioechnology, 18 (11), 1157–1161. Rerieved rom htp://dx.doi.org/10.1038/81137. Grapov, D., Wanichhanarak, K., & Fiehn, O. (2015). MeaMapR : Pahway Independen Meabolomic Nework Analysis In- corporaing Unknowns. Bioinormaics Advance Access, 5–8. Recuperado de file:///Users/marhazuluagarojas/Documens/ Mendeley/Grapov, Wanichhanarak, Fiehn - 2015 - MeaMapR Pahway Independen Meabolomic Nework Analysis In- corporaing Unknowns.pd. Kaajamaa, M., & Oresic, M. (2007). Daa processing or mass specromery- based meabolomics. Journal o Chromaography, 1158 (1– 2), 318– 28.DOI: htps://doi. org/htp://doi.org/10.1016/j.chroma.2007.04.021. Lu, H., Liang, Y., Dunn, W. B., Shen, H., & Kell, D. B. (2008). Comparaive evaluaion o sofware or deconvoluion o meabolomics daa based on GC-TOF-MS. T rAC Trends in Analyical Chemisry, 27 (3), 215– 227. DOI:htps://doi.org/htp://doi. org/10.1016/j.rac.2007.11.004. Lubbe, A., Ali, K., Verpore, R., & Choi, Y. H. (2013). Meabolomics in pracice: Successul Sraegies o Generae and Analyze Meabolic Daa. En W.-V. V. G. & C. KGaA. (Ed.), NMR-Based Meabolomics Analysis (pp. 209–234). Weinheim, Germany: Lämmerhoer & W. Weckwerh. McKelvie, J. R., Yuk, J., Xu, Y., Simpson, A. J., & Simpson, M. J. (2009). 1H NMR and GC/MS meabolomics o earhworm responses o sub-lehal DDT and endosulan exposure. Meabolomics, 5 (1), 84– 94. Recuperado de htp://link.springer. com/10.1007/s11306-008-0122-6. Nicholson, J. K., Lindon, J. C., & Holmes, E. (1999). Meabonomics undersanding he 138
Conceptos en Ciencias Ómicas
meabolic responses o living sysems o pahophysiological simuli via mulivariae saisical analysis o biological NMR specroscopic daa. Xenobioica, 29 (11), 1181– 1189. Recuperado de file:///Users/marhazuluagarojas/Documens/Mendeley/ Nicholson, Lindon, Holmes - 1999 - “Meabonomics” undersanding he meabolic responses o living sysems o pahophysiological simuli.pd. Shannon, S. (2002). Handbook o Complemenary and Alernaive Therapies in Menal Healh. San Diego, Caliornia: Academic Press. Skogerson, K., Wohlgemuh, G., Barupal, D. K., & Fiehn, O. (2011). The volaile compound BinBase mass specral daabase. BMC Bioinormaics, 12 (1), 321. DOI:htps://doi. org/htp://doi.org/10.1186/1471-2105-12-321. Smih, C., Wan, E. J., O’Maille, G., Abagyan, R., & Siuzdak, G. (2006). XCMS: processing mass specromery daa or meabolie profiling using nonlinear peak alignmen, maching, and idenificaion. Analyical Chemisry, 78 (3), 779–787. DOI:htps://doi. org/htp://doi.org/10.1021/ac051437y. Sashenko, E. E., & Marínez, J. R. (2010). Separar , ragmenar e inegrar : la ruina de un análisis por GC-MS . Parones de ragmenación de moléculas orgánicas. Scienia Chromaographica, 2 (2), 23–46. Sugimoo, M., Kawakami, M., Rober, M., & Soga, T. (2012). Bioinormaics ools or mass specroscopy-based meabolomic daa processing and analysis. Bioinormaics, 96– 108. Recuperado de htp://www.ncbi.nlm.nih.gov/pmc/aricles/PMC3299976/. Sumner, L. W., Mendes, P., & Dixon, R. A. (2003). Plan meabolomics: large-scale phyochemisry in he uncional genomics era. Phyochemisry, 62 (6), 817– 836. DOI: htps://doi.org/htps://doi.org/10.1016/S0031- 9422(02)00708-2. Valdéz, D. (2010). Regresión por Mínimos Cuadrados Parciales. Varianza, 7 (3), 18–22. Van den Berg, R., Hoesloo, H. C. J., Weserhuis, J., Smilde, A. K., & van der Wer, M. J. (2006). Cenering, scaling, and ransormaions: improving he biological inormaion conen o meabolomics daa. BMC Genomics, 7, 142. DOI: htps://doi. org/htp://doi.org/10.1186/1471-2164-7-142. Wehrens, R. (2011). Chemomerics wih R. En R. Genleman, K. Hornik, & G. Parmigiani (Eds.). Spinger. Recuperado de file:///Users/marhazuluagarojas/Documens/ Mendeley/Wehrens - 2011 - Chemomerics wih R.pd. Xia, J., Broadhurs, D. I., Wilson, M., & Wishar, D. S. (2013). Translaional biomarker discovery in clinical meabolomics: an inroducory uorial. Meabolomics, 9(2), 280–299. DOI:htps://doi.org/htps://doi.org/10.1007/s11306-012-0482-9. Xia, J., & Wishar, D. S. (2011). Meabolomic daa processing, analysis, and inerpreaion using MeaboAnalys. Curren Proocols in Bioinormaics, 14. DOI:htps://doi.org/ htp://doi.org/10.1002/0471250953.bi1410s34. Zuluaga, M., Robledo, S., Osorio-zuluaga, G. A., Yahe, L., Gonzalez, D., & Taborda, G. (2016). Meabolomics and pesicides : sysemaic lieraure review using graph heory or analysis o reerences. NOVA, 13(25), 7–16. Zuluaga, M., Melchor, J. J., Tabares-Villa, F. A., Taborda, G., & Sepúlveda-Arias, J. C. (2016). Meabolie Profiling o Monior Organochlorine Pesicide Exposure in HepG2 Cell Culure. Chromaographia, 1–8. htps://doi.org/10.1007/s10337-016-3031-2 139
8. PROTEÓMICA ANDREA GONZÁLEZ MUÑOZ ANDRÉS QUINTERO DIANA LÓPEZ ALVAREZ
Las proeínas son unidades uncionales y esrucurales básicas de la vida, porque conribuyen en dierenes procesos biológicos y bioquímicos. Inervienen desde la diversidad y flexibilidad meabólica de los microorganismos (que los hace esenciales en el uncionamieno de los ecosisemas y de valor para la sociedad), hasa la variedad enoípica de los organismos y su capacidad de respuesa al ambiene (Garavio, González, Mosquera, López & Crisancho, 2017). Las proeínas con respeco a sus correspondienes genes y ranscrios ienen una mayor complejidad, ya que esán sujeas a modificaciones pos-ranscripcionales y posraduccionales (Zhang, Wu, Senoien & Paša-Tolić, 2014), haciendo que con relaiva recuencia no exisa una correlación direca enre el flujo de la inormación de ADN-ARN o de ARN-proeína (Wrigh, Noirel, Ow & Fazeli, 2012). Por lo ano, el proeoma, como se le conoce al complemeno proeico del genoma, iene mayor complejidad que el genoma o el ranscripoma (ese érmino ue usado por primera vez en 1994). El proeoma es considerado un elemeno alamene variable en unción del iempo y de las condiciones micro y macro ambienales (Garavio e al., 2017), debido a que esos acores modulan el perfil de expresión de proeínas en un sisema biológico (Chandrasekhar, Dileep, Lebonah & Kumari, 2014). La ciencia ómica que se encarga de esudiar el proeoma es conocida como la proeómica, aporando inormación complemenaria a la genómica y ranscripómica, dada su nauraleza de ómica uncional. Al usar la proeómica, se puede consruir un panorama inegrado de muchos procesos bioquímicos, ineracciones moleculares y acividades meabólicas que ocurren en una célula, ejido u organismo, logrando con ello esudiar el vínculo genoipoenoipo y la diversidad uncional de la biodiversidad (Garavio e al., 2017).
8.1. Diseño experimental La proeómica usa principalmene méodos de alo rendimieno ( high-hroughpu ), desde la aparición de la especromería de masas (MS), con el fin de idenificar, caracerizar y cuanificar proeínas a gran escala (Garavio e al., 2017). La proeómica se puede dividir en proeómica de expresión y en proeómica uncional. La primera se encarga de analizar el proeoma oal y sus medidas cuaniaivas (perfiles de expresión global de proeínas, comparar perfiles de expresión proeica), mienras que la segunda permie deerminar la unción y la regulación de su expresión, esudiar ineracciones proeína-proeína y complejos proeicos, e idenificar y localizar modificaciones pos-raduccionales. Los méodos en proeómica involucran procesos complejos de exracción y separación de proeínas de 140
Conceptos en Ciencias Ómicas
acuerdo con sus propiedades fisicoquímicas, mediane elecrooresis o cromaograía, sumado a especromería de masas (MS) acoplado a análisis bioinormáicos para su idenificación y cuanificación (Garavio e al., 2017). Para la preparación de una muesra en proeómica, se emplean dos enoques denominados botom-up y op-down . Esos hacen reerencia, respecivamene, a si el exraco de proeínas es digerido enzimáicamene con ripsina, dando lugar a pépidos que serán analizados, o si las proeínas inacas son analizadas sin digesión (Garavio e al., 2017). El botom-up iene una similiud con la écnica de secuenciaciónshogun, con la finalidad de generar un perfil proeico global. Por su pare, el op-down esá orienado al esudio de modificaciones pos-raduccionales, la idenificación de ésas a parir de pépidos se ve limiada por una posible coberura incomplea de la proeína e incapacidad de predecir el parón combinaorio de múliples modificaciones en una misma proeína. Eso úlimo es relevane para las hisonas que presenan combinaciones específicas de aceilaciones, meilaciones y osorilaciones que regulan el uncionamieno de la cromaina (Garavio e al., 2017).
8.1.1. Extracción y separación de proteínas. Para llevar a cabo la exracción de proeínas a parir de muesras biológicas, se pueden emplear células, ejidos, sangre, suero, enre oros ejidos; además implica la homogenización de la muesra y su lisis celular para liberar las proeínas inracelulares. Se pueden emplear proocolos de disrupción celular por homogenización mecánica, ulrasónica, presión, emperaura y/o soluciones de deergenes, sales y agenes reducores. Seguido de la exracción y solubilización o precipiación de las proeínas, mediane agenes caorópicos y solvenes orgánicos como enol meanol/aceao de amonio, ácido ricloroacéico/ aceona, ácido acéico/urea/bromuro ceilrimeilamon-io (CTAB), enre oros (Marínez, Hernández, Amigo, Miralles & Gómez, 2013). Poseriormene, se hace una separación o pre-raccionamieno del exraco proeico con el fin de reducir la complejidad de la muesra y/o enriquecer proeínas de inerés o de baja abundancia (Alelaar, Muñoz & Heck, 2012). Debido a que una muesra biológica esá compuesa por una mezcla compleja de proeínas, es necesario llevar a cabo un proceso de separación o raccionamieno para que puedan ser analizadas por especromería de masas, permiiendo incremenar el número de proeínas idenificadas. Dicha separación se puede realizar mediane elecrooresis bidimensional en geles de poliacrilamida (conocida como 2D-PAGE o 2D SDS-PAGE), en la cual se separan las proeínas, con sus varianes y modificaciones, en una primera dimensión del gel de acuerdo con su puno isoelécrico y en una segunda dimensión según su peso molecular (Chandramouli & Qian, 2009). Adicionalmene, la segunda esraegia de separación de mayor precisión y más usada, es la cromaograía líquida de ala resolución (HPLC), que se basa en propiedades fisicoquímicas dierenciales enre las proeínas, de al manera que se
141
separan en dierenes racciones a ravés de su elución por la columna de cromaograía (Garavio e al., 2017). Enre los desaíos que implica ese paso se pueden enconrar, la complejidad de la muesra biológica, el amplio rango dinámico de concenración de sus proeínas y/o la nauraleza bioquímica de algunas proeínas, por ejemplo, el enoque op-down que presena mayores desaíos para las écnicas de separación, requiriéndose el uso de dierenes ormas de preraccionamieno.
8.1.2. Espectrometría de masas (MS) La especromería de masas mide con precisión el peso de una molécula y exacamene su relación masa/carga (m/z), haciendo que en los úlimos años se haya logrado una velocidad de generación de daos de cinco a diez veces, una sensibilidad de diez a 50 veces en la deección, y una ala resolución imporane para lograr dierenciar enre una gran canidad de pépidos (Parker, Warren & Mocanu, 2010), permiiendo la caracerización de 5000 a 10000 proeínas de un proeoma (Banscheff, Lemeer, Saviski & Kuser, 2012). Los especrómeros de masas son insrumenos compuesos por una uene de ionización, un analizador y un deecor de iones, que miden la masa de moléculas cargadas para la poserior idenificación de ésas, sus modificaciones químicas y esrucura (Garavio e al., 2017). En la acualidad exisen en el mercado dierenes ipos de especrómeros de masas que incluyen el cuadrupolo, la rampa de iones (2D y 3D) y el iempo de vuelo ( Time o Fligh o TOF). Una de las esraegias para la idenificación de proeínas mediane la especromería de masas, es la llamada especromería de masas en ándem (MS/MS), que consise en dos corridas en ándem de MS, con el fin de generar una primera deerminación de la masa molecular del pépido o proeína, seguido de una deerminación de la secuencia de aminoácidos que lo componen (Cravat, Simon & Yaes, 2007). En la primera corrida de MS, las proeínas o pépidos se cargan (ionizan) por medio de la uene y se ransfieren a una ase gaseosa. Poseriormene, el analizador separa los pépidos o proeínas cargadas, de acuerdo con su rayecoria en un campo elécrico o magnéico, o por su TOF (ambos basados en su relación m/z ), luego se deeca, amplifica la señal y genera un especro de masas (Parker, Warren & Mocanu, 2010; Walher & Mann, 2010). La segunda corrida involucra, por su pare, la ragmenación del pépido o proeína a ravés de una celda de colisión con gases neuros, generando sus respecivos aminoácidos cargados, que son analizados de acuerdo con su relación m/z , pasan por el deecor y se genera el especro de masas de los residuos aminoácidos (Cravat e al., 2007; Garavio e al., 2017). Las principales écnicas de ionización usadas acualmene son:
142
Conceptos en Ciencias Ómicas
I. Ionización por elecrospray (ESI), desarrollada por John Fenn. II.Desorción/ionización láser asisida por mariz ( Marix-Assised Laser Desorpion/ Ionizaion o MALDI), desarrollada por Koichi Tanaka. Ambos desarrolladores recibieron el premio Nobel de Química en 2002 por esas écnicas (Garavio e al., 2017). A menudo se uilizan las dos écnicas de ionización, debido a que no odos los pépidos presenan la misma eficiencia de ionización, la cual puede depender de la écnica empleada (Garavio e al., 2017). En consecuencia, para realizar MS/MS de mezclas que sean poco complejas se pueden emplear especrómeros de masas ipo MALDI-TOF-TOF. Respeco a la cuanificación basada en especromería de masas, con el fin de deerminar la canidad de proeínas presenes en la muesra analizada, exisen dierenes méodos como: el Isoope-Coded Affiniy Tags (ICAT);Isobaric ags or relaive and absolue quaniaion (iTRAQ); Sable isoope labeling wih aminoacid in cell culure (SILAC), y finalmene, la de libre marcaje o label ree , que esá siendo basane uilizada en la acualidad, debido a que no emplea ningún marcaje minimizando el número de pasos en la preparación de la muesra.
8.1.3. Análisis bioinformáticos Enre los dierenes análisis bioinormáicos algunos son similares a los usados en meabolómica, dado que emplean la ecnología de especromería de masas. Para la cuanificación de las proeínas se lleva a cabo un paso de normalización de cada muesra. Seguidamene, para el preprocesamieno de daos de proeómica, se pueden emplear varios programas, el más usado es Proeowizard , que consise en un conjuno de librerías y herramienas modulares de código abiero y acilia el análisis de daos. Las librerías permien una creación rápida de herramienas mediane un marco que simplifica y unifica el acceso de archivos de daos y ejecua compuaciones básicas en un se de daos químicos y LC-MS. Enre los pasos a realizar, en muchas ocasiones se encuenra el de converir los daos crudos (.raw) a archivos mzXML. Ese paso se realiza con la herramiena MSconver en ambiene gráfico.
Identificación de péptidos Para la idenificación de pépidos, podemos usar la herramiena SearchGUI, una ineraz para configurar y correr algorimos de búsqueda de pépidos, ales como: OMSSA, X!TANDEM, MSGF, enre oros. La idenificación de los pépidos corresponde a cada ragmeno analizado por LC-MS, y es necesario uilizar dierenes algorimos de búsqueda conra una base de daos de secuencias de proeínas del organismo de inerés. El programa SearchGUI incorpora los algorimos de búsqueda más imporanes hasa la echa. El primer paso conduce a la creación de una base de daos señuelo, donde se oma la base de daos de secuencias de proeínas del organismo de inerés, en ormao asa y se hace un reverso de cada una de esas. Una vez se obienen las secuencias señuelo concaenadas con las secuencias originales, se realiza la búsqueda con SearchGUI. El archivo de salida 143
de SearchGUI es un .zip, en el que se encuenran odos los resulados de la búsqueda de cada uno de los algorimos de búsqueda. Así mismo, se usa oro programa llamado PepideShaker, el cual consise en un moor de búsqueda independiene de plaaorma, para la inerpreación de daos de idenificación de resulados proeómicos. Para obener resulados consenso de odas las búsquedas realizadas, se uiliza, por ende, PepideShaker , el cual evalúa odos los modelos enconrados por los algorimos de búsqueda y los concaena en un solo archivo de exensión .cpsx. Luego, se vuelve a uilizar PepideShaker para crear un archivo de anoación de pépidos mz iden (.mzid), el cual coniene las anoaciones para cada uno de los especros que esán en el archivo mg.
Cuantificación de proteínas Una vez se obiene la idenificación de cada uno de los especros, es necesario cuanificar el valor de expresión de las proeínas a las cuales les ueron idenificados pépidos. Eso se realiza sobre el ambiene de programación y esadísico R, que usa el paquee MSnbase y el paquee MzID para leer los daos crudos y el archivo de idenificación; a parir de eso se hace la cuanificación de odas las proeínas idenificadas. Una vez se iene la abla de expresión, es necesario normalizar los daos usando el paquee Vsn y, poseriormene, el análisis mulivariable se realiza con el paquee PcaMehods. Algunas especificaciones de los paquees uilizados se presenan a coninuación:
MSnbase Un paquee de R/Bioconducor, para el análisis de experimenos de proeómica cuaniaiva. MSnbase provee una plaaorma para un análisis de daos exploraorio, permiiendo imporación de daos crudos, conrol de calidad, visualización y cuanificación.
Vsn Un paquee de R/Bioconducor, que implemena un méodo para normalizar daos de inensidades. El méodo usa una variane robusa del esimador de máxima verosimiliud. El modelo incorpora calibración de daos.
MzID Un paquee de R/Bioconducor para leer archivos mzIden.
PcaMethods Un paquee de R/Bioconducor para análisis de PCA bayesiano, PCA probabilísico y PCA Nipals. 144
Conceptos en Ciencias Ómicas
8.2. Referencias Alelaar, A. F. M., Munoz, J., & Heck, A. J. R. (2012). Nex-generaion proeomics: owards an inegraive view o proeome dynamics. Naure Reviews Geneics, 14 (1), 35– 48. DOI:htps://doi.org/10.1038/nrg3356. Banscheff, M., Lemeer, S., Saviski, M. M., & Kuser, B. (2012). Quaniaive mass specromery in proeomics: Criical review updae rom 2007 o he presen. Analyical and Bioanalyical Chemisry, 404 (4), 939– 965. DOI:htps://doi. org/10.1007/s00216-012-6203-4. Chandramouli, K., & Qian, P.-Y. (2009). Proeomics: challenges, echniques and possibiliies o overcome biological sample complexiy. Human Genomics and Proeomics, 22 . DOI: htps://doi.org/10.4061/2009/239204. Chandrasekhar, K., Dileep, A., Lebonah, D. E., & Kumari, J. P. (2014). A Shor Review on Proeomics and is Applicaions. Inernaional Journal o Research in Engineering and Technology, 3, 147– 158. DOI: htps://doi.org/10.18052/www.scipress.com/ ILNS.17.77. Cravat, B. F., Simon, G. M., & Yaes, J. R. (2007). The biological impac o massspecromery-based proeomics. Naure, 450(7172), 991– 1000. DOI: htps://doi. org/10.1038/naure06525. Garavio, A., González-Muñoz, A., Mosquera-Rendón, J., Caalina, A., López, D., & Crisancho, M. A. (2017). Lain American biodiversiy and perspecives o sudy i using omics echnologies Biodiversidad lainoamericana y sus perspecivas de esudio con ecnologías “ ómicas .” Mexican Journal o Bioechnology, 2 (2), 98–129. Marínez, D., Hernández, B., Amigo, L., Miralles, B., & Gómez, J. Á. (2013). Exracion/ Fracionaion Techniques or Proeins and Pepides and Proein Digesion. En F. Toldrá y L. M. L. Nolle (Eds.), Proeomics in Foods: Principles and Applicaions (pp. 21– 50). Boson, MA: Springer US. DOI: htps://doi.org/10.1007/978-1-4614-56261_2. Parker, C. E., Warren, M. R., & Mocanu, V. (2010). Chaper 5 Mass Specromery or Proeomics. En O. Alzae (Ed.), Neuroproeomics (p. 26). Boca Raon: CRC Press/ Taylor & Francis. Recuperado de htp://www.ncbi.nlm.nih.gov/pubmed/21882443. Walher, T. C., & Mann, M. (2010). Mass specromery-based proeomics in cell biology. Journal o Cell Biology, 190 (4), 491–500. DOI:htps://doi.org/10.1083/ jcb.201004052. Wrigh, P. C., Noirel, J., Ow, S. Y., & Fazeli, A. (2012). A review o curren proeomics echnologies wih a survey on heir widespread use in reproducive biology invesigaions. Theriogenology, 77 (4), 738– 765. DOI: htps://doi.org/10.1016/j. heriogenology.2011.11.012. Zhang, Z., Wu, S., Senoien, D. L., & Paša-Tolić, L. (2014). High-Throughpu Proeomics. Annual Review o Analyical Chemisry, 7 (1), 427– 454. DOI:htps://doi.org/10.1146/ annurev-anchem-071213-020216.
145