Una-aproximación-conceptual-a-las-Ciencias-Omicas.pdf

Una aproximación conceptual a las ciencias ómicas OBJETIVO ESTRATÉGICO 4 Desarrollar e implementar investigaciones y servicios en las áreas biotecnológicas e informáticas en el CBBC.

El Proyecto Caldas BioRegión como mecanismo para desarrollar e implementar investigaciones y servicios en las áreas de biotecnología e informática, desarrolló un documento como punto de partida para comprender comprender la aplicación de la Bioinformática en los procesos de investigación y desarrollo.

www.bios.co

Una Aproximación Conceptual a Las Ciencias Ómicas

Una aproximación conceptual las ciencias ómicas

Centro de Bioinformática y Biología Computacional de Colombia (958-59498) ISBN 978-958-59498-5-0

Autor(es) González Muñoz, Andrea Alvarez Yela, Astrid Catalina López Alvarez, Diana Quintero, Andrés Orozco Arias, Simón Guyot, Romain Cristancho Ardila, Marco Aurelio Zuluaga, Martha Botero, Kelly Mosquera Rendón, Jeanneth Garavito, Andrea

Corrector Grafos Soluciones S.A.S

Diagramación e Impresión Editorial Blanecolor S.A.S

Descripción Física Propalibro Beige de 70 gr 148 páginas tamaño 17 x 24 cm

70 Ejemplares

Manizales, Colombia.

Conceptos en Ciencias Ómicas

PREFACIO Nunca anes se han enido anos daos de secuenciación disponibles y la posibilidad de conar con ecnologías que se acualizan consanemene, que permien esudiar de orma masiva y simulánea cienos de especies para dierenes objeivos, enre los cuales se desacan los esudios de axonomía molecular, evolución y la producción de compuesos poenciales con uso indusrial. Sin duda, la generación de daos biológicos basados en la secuenciación de alo rendimieno iene un uuro promeedor, dado que el poencial vislumbrado para esa área proyeca que la secuenciación direca de ARN y de proeínas, así como la medicina personalizada de ala precisión, dejan de ser posibilidad para converirse en realidad. El acelerado aumeno de genomas parciales o compleos secuenciados y, a su vez, de esudios basados en ecnologías de secuenciación usando alguna de las ciencias ómicas, requiere considerables esuerzos que no involucran el mejoramieno de los equipos de secuenciación, sino principalmene el raslado de la inormación generada a un conexo biológico úil para solucionar problemas de carácer médico, agrícola o ambienal. Además, se crea la necesidad de que los invesigadores engan una expericia para conseguir el análisis adecuado de los daos generados y que los cenros de invesigación posean mejores inraesrucuras compuacionales para hacer rene a esos desaíos. Lo anerior, con el propósio de garanizar apropiados diseños experimenales para la exploación de la inormación, que consiuye la mayor preocupación en la invesigación cienífica hoy en día. Ese libro preende ser un abre bocas al enendimieno y la adopción de los emas mencionados, como insumo a esudianes e invesigadores ineresados en comprender esas nuevas emáicas.

1

AGRADECIMIENTOS Agradecemos a la Gobernación de Caldas en Colombia por la financiación de este libro a través del proyecto de regalías, Caldas-Bioregión

2


Prefacio Agradecimientos

ÍNDICE

1 2

I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA MOLECULAR, LA BIOINFORMÁTICA Y LA BIOLOGÍA COMPUTACIONAL

9

1. PRINCIPIOS EN BIOLOGÍA MOLECULAR 1.1. Biomoléculas de la vida: ADN, ARN y proeínas 1.1.1. Ácido desoxirribonucleico 1.1.2. Ácido ribonucleico 1.1.3. Proeínas 1.2 Dogma cenral de la biología molecular 1.3. Genomas y genes 1.3.1. Genomas procarioas 1.3.2. Genomas eucarioas 1.3.3. Anoación de genomas 1.4. Variación genéica en los genomas 1.4.1. Tipos de variación genéica 1.4.2. Tasas de muación 1.4.3. Epigenéica como uene adicional de variación genéica 1.5. Reerencias

10 10 10 11 16 19 20 21 22 23 23 24 26 27 29

2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL 2.1. Orígenes e hisoria de la bioinormáica 2.1.1. Nacimieno de la Bioinormáica: convergencia de inormación biológica, eoría evoluiva y compuadores 2.2. Bioinormáica y biología compuacional: hardware, sisemas operaivos, sisemas de conecividad, lenguajes de programación, bases de daos y reposiorios 2.2.1. Compuación de alo rendimieno (HPC) y compuación en paralelo 2.2.2. Sisema operaivo Linux/UNIX 2.2.3. Lenguajes de programación 2.2.4. Bases de daos y reposiorios 2.3. ‘Big Daa’ en Bioinormáica 2.4. Reerencias

32 32

36 36 37 38 39 39 42

3. SECUENCIACIÓN 3.1. Secuenciación de primera generación 3.1.1. Secuenciación Sanger 3.2. Secuenciación de segunda generación 3.2.1. Secuenciación 454 3.2.2. Secuenciación SOLiD

44 44 44 46 46 48

32

3

3.2.3. Secuenciación Ion Torren TM 3.2.4. Secuenciación Illumina® 3.3. Secuenciación de ercera generación 3.3.1. Secuenciación HeliScope 3.3.2. Secuenciación PacBio® 3.3.3. Secuenciación Oxord Nanopore 3.4. Reerencias

49 50 52 52 53 54 57

II. “ÓMICAS”: GENÓMICA, METAGENÓMICA, TRANSCRIPTÓMICA, PROTEÓMICA Y METABOLÓMICA

98

4. GENÓMICA

59

4.1. Consideraciones para la deerminación de la esraegia de secuenciación genómica a implemenar 4.2. Diseño experimenal 4.2.1. Muesreo 4.2.2. Réplicas 4.2.3. Exracción del ADN 4.2.4. Tipos de secuenciación genómica 4.2.5. Conrol de calidad 4.2.6. Ensamblaje 4.2.7. Anoación 4.2.8. Visualización de la anoación 4.3. Reerencias

5. METAGENÓMICA 5.1. Definición 5.2. Enoques de la meagenómica 5.3. Diseño Experimenal 5.3.1. Esudios meagenómicos mediane el enoque de amplificación de gen marcador o meagenómica dirigida 5.3.2. Esudios meagenómicos mediane el enoque de genomas compleos 5.4. Reerencias 6. TRANSCRIPTÓMICA 6.1. Tecnologías para el esudio del ranscripoma 6.2. Diseño experimenal 6.2.1. Experimeno 6.2.2. Preparación de las librerías y secuenciación 6.2.3. Flujo de análisis bioinormáicos de daos de RNA-Seq 6.3. Reerencias

4

62 65 66 66 67 67 74 75 78 81 82

88 89 92 93 94 94 97

100 100 103 105 106 108 113


7. METABOLÓMICA 7. 1. Diseño experimenal 7.1.1. Reconocimieno de parones (Meabolie fingerprining) 7.1.2. Idenificación de biomarcadores (biomarker discovery) 7.1.3. Meabolómica no dirigida ( Unargeed meabolomics ) 7.2. Preparación de muesra y écnicas insrumenales analíicas 7.2.1. Aspecos generales de la especromería de masas 7.3. Procesamieno de daos meabolómicos 7.3.1. Formao y filrado 7.3.2. Deección de picos 7.3.3. Deconvolución de señales 7.3.4. Idenificación de Isóopos 7.3.5. Idenificación de aducos 7.3.6. Idenificación y anoación de compuesos 7.3.7. Alineación 7.3.8. Valores perdidos 7.4. Análisis de daos 7.4.1. Normalización 7.4.2. Transormación y escalado 7.4.3. Análisis de componenes principales 7.4.4. Regresión lineal de mínimos cuadrados parciales con análisis discriminane (PLS-DA) 7.4.5. Validación cruzada 7.4.6. Tes de permuaciones 7.4.7. Análisis de redes: del análisis esadísico a la inerpreación biológica 7.5. Reerencias

117 118 118 119 120 121 123 126 128 129 129 130 130 130 131 132 132 133 133 134

8. PROTEÓMICA 8.1. Diseño experimenal 8.1.1. Exracción y separación de proeínas. 8.1.2. Especromería de masas (MS) 8.1.3. Análisis bioinormáicos 8.2. Reerencias

140 140 141 142 143 144

135 135 135 136 138

5

ÍNDICE DE TABLAS Tabla 1.1. El código genéico universal. Tabla 2.1. Principales plaaormas de secuenciación y sus caracerísicas. Tabla 5.1. Lisado de algunos proyecos pioneros en meagenómica Tabla 7.1. Dierencias enre analizadores de masa. Tabla 7.2. Plaaormas para el procesamieno de señales cromaográficas y especros de masas. Tabla 7.3. Méodos de escalado, objeivo, venajas y desvenajas.

6

17 56 91 126 127 134


ÍNDICE DE FIGURAS Figura 1.1. Esrucura del ADN. Se muesran las bases nirogenadas A, T, C y G; la secuencia de nucleóidos del ADN y las cadenas complemenarias que conorman la esrucura de la doble hélice. Figura 1.2. Proceso de la ranscripción del ADN a ARN. Figura 1.3. Procesamieno del ARN mensajero maduro. Figura 1.4. Esquemaización de la ranserencia de inormación y procesos de replicación, ranscripción y raducción del Dogma Cenral de la Biología Molecular. Figura 1.5. Expresión génica y esrucura del ARN mensajero en eucarioas vs procarioas. Figura 2.1. Línea del iempo del origen de la bioinormáica. Figura 4.1. Número de genomas de planas publicados: represenación gráfica del número de genomas de planas publicados en los úlimos 18 años. Los daos provienen de la página htp://www.plabipd.de/ Figura 5.1. Conribuciones de la meagenómica en dierenes áreas del conocimieno. Figura 5.2. Enoques de los esudios meagenómicos. Figura 6.1. Eapas de un esudio ranscripómico basado en RNA-Seq. Figura 7.1. Caracerísicas principales de un esudio meabolómico. En verde componene correspondiene al área de la biología, química en azul y bioinormáica en amarillo. Figura 7.2. Reacciones de derivaización de compuesos semivoláiles. Primero meoximación, segundo silanización. Figura 7.3. Tipos de ionización de muesras. Figura 7.4. Analizadores de masas

10 12 13 19 22 36 69 90 93 104 118 122 124 125

7

8


I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA MOLECULAR, LA BIOINFORMÁTICA Y LA BIOLOGÍA COMPUTACIONAL ANDREA GONZÁLEZ MUÑOZ

Los innumerables avances en las ecnologías de secuenciación de ácidos nucleicos, proeínas y oros compuesos químicos, sumado a los desarrollos en las ciencias de la compuación en la úlima década, han promovido la generación masiva de daos biológicos a nivel molecular y el aumeno de la capacidad compuacional para el análisis de esa gran canidad de inormación. Eso ha dado lugar a la era pos-genómica, en la que la generación de inormación no represena un gran obsáculo para la invesigación genéica en diversas áreas de las ciencias biológicas. Los desaíos de la era pos-genómica consisen en descirar el libro de la vida que esá inmerso denro de las millones de bases comprendidas en los genomas, así como en las complejas redes de ineracción enre proeínas y en la redes de las vías meabólicas. La manipulación, organización, predicción y modelización de los daos genéicos se han llevado a cabo gracias a la bioinormáica, que caraceriza genomas, ranscripomas, proeomas y meabolomas; además, la bioinormáica permie reconsruir filogenias, esudiar la variación genéica, idenificar marcadores en enoipos de inerés y rasgos complejos, realizar amizajes de biomarcadores para mejoramieno genéico, diagnósico y raamieno de enermedades, analizar la expresión de los genes y comprender la ineracción gen x ambiene, enre muchas oras líneas de invesigación. El análisis e inerpreación de esos daos biológicos se susenan sobre un enendimieno proundo de las bases genéicas de los seres vivos, la expresión del ADN, ARN y proeínas, y los procesos moleculares y celulares mediados por las vías del meabolismo. Complemenario a eso, la variación genéica en los genomas cumple un rol undamenal en la generación de diversidad y la evolución de los seres vivos, sobre la cual se sopora el inerés por idenificar las poenciales variaciones genéicas que dierencian las especies e individuos.

9

1. PRINCIPIOS EN BIOLOGÍA MOLECULAR ANDREA GONZÁLEZ MUÑOZ

1.1. Biomoléculas de la vida: ADN, ARN y proteínas 1.1.1. Ácido desoxirribonucleico Las insrucciones de la vida en la Tierra se encuenran en el maerial genéico de los seres vivos, alojado en el núcleo de las células eucarioas o de libre circulación en las células procarioas. Ese maerial esá compueso por ácido desoxirribonucleico (ADN), un ipo de ácido nucleico conormado químicamene por cuaro bases nirogenadas que componen el alabeo del libro de la vida: adenina (A), imina (T), guanina (G) y ciosina (C). Esas bases esán compuesas por un azúcar penosa (desoxirribosa) y un grupo osao (Figura 1.1), y esán unidas repeiivamene en numerosas combinaciones de secuencia (4 n secuencias posibles para una cadena de ADN de longiud n), mediane enlaces osodiéser covalenes que unen el carbono 5’ del azúcar de una base nirogenada con el carbono 3’ del azúcar de ora base (Figura 1.1). Esrucuralmene, el ADN esá consiuido por dos cadenas de bases nirogenadas, unidas de manera complemenaria A con T y C con G, mediane puenes (dobles y riples) de hidrógeno, respecivamene. Esas cadenas complemenarias se pliegan en orma ridimensional en esrucura de doble hélice (Figura 1.1), que se puede considerar como una esrucura de escalera en espiral, donde las bases nirogenadas complemenarias y los puenes de hidrógeno que las unen conorman los peldaños de la escalera y las penosas y grupos osaos consiuyen los lados de sopore. Las cadenas de la doble hélice se orienan en senido conrario, es decir, la secuencia de una de las cadenas se oriena en senido 5’ – 3’ y la secuencia de la cadena complemenaria se oriena en senido 3’ – 5’. Puente de Hidrógeno

Terminal

O

N

O

HC

O

P O H2 C H

H

C

O

HC

O H2 C H

O H

T

N

N

C

H

N H

O

H

H

O

HC

O H2 C

3´

H

N 5´

O

A

C

3´

H H

H

H

CH3

O C

N

H

C H

5´

O

P

H

O

H H

C

T

A

C

G

O A

T

3´

H H

CH N

G

3´

H H

OH2C

C

T

N

C

O

O

O

N

C

H

N

C

H

N C

N

H

G

P

OH2C

H N

P

CH

N

H

H

5´

O

H H

N C

C

H

O

Terminal

N

O

3´

O

O C

C 5´

3´

O

H

C

O

H H

N

H

C

O

O

H

C

H HC

O

H

O

H

P

OH2C

N

C

O H

H H

CH

C

A

N N

H

O

H2 C

C

5´

O

N

O

C

H

P

N

C

N

5´

3´

O

H

3´

3´

H H

N

H

CH3

H

O

O H2C

CH

O

H

H

H

C

C

N C

N

H

P

H

C

N

O O

C

N

H H

H

N C

G

O

H

C

C

N 5´

3´

10

Terminal H

H

5´

5´

O O

O

T er minal 5´

P

O

OH Terminal 3´

OPO3 Terminal 5´


Figura 1.1. Esrucura del ADN. Se muesran las bases nirogenadas A, T, C y G; la secuencia de nucleóidos del ADN y las cadenas complemenarias que conorman la esrucura de la doble hélice. El ADN en el núcleo esá asociado a proeínas llamadas hisonas, sobre las cuales se enrolla para conormar la cromaina, la esrucura organizacional del ADN. La cromaina coniene más del doble de proeína que de ADN y esá conormada por nucleosomas, enrollamienos que conienen ~200 pares de bases de ADN, organizadas repeiivamene en ocámeros de hisonas en orma de collar. La máxima compacación de la cromaina se presena en orma de cromosomas, los cuales se observan en la meaase de la división celular. La cromaina se puede clasificar de acuerdo a dos ipos de organización: heerocromaina y eucromaina. La primera es una orma densamene compacada que no es ranscripcionalmene aciva, es decir, en ese esado, los genes en esas regiones no se esán expresando debido al superenrollamieno del ADN. El segundo ipo comprende regiones de ADN no condensadas, donde ocurre ranscripción o expresión del maerial genéico. Un cromosoma puede conener regiones de heerocromaina y eucromaina al mismo iempo, las cuales pueden variar de acuerdo a la eapa del ciclo celular o las necesidades meabólicas de la célula.

1.1.2. Ácido ribonucleico La inormación genéica conenida en el ADN esá represenada por la secuencia lineal de la molécula, eso quiere decir que dierenes secuencias de nucleóidos ransmien disinos mensajes biológicos. No obsane, si el ADN se encuenra en el núcleo y jamás sale de ése, excepo durane la división celular, enonces ¿cómo es que el ADN ransmie las insrucciones genéicas al reso de la célula? En ese proceso paricipa la molécula de ácido ribonucleico (ARN), un segundo ipo de ácido nucleico compueso ambién por cuaro bases nirogenadas, res de las cuales compare químicamene con el ADN: adenina (A), guanina (G) y ciosina (C), y una que difiere con respeco al ADN: uracilo (U). La correspondencia en composición de bases nirogenadas enre el ADN y ARN permie que el ADN sirva como molde para la sínesis de moléculas de ARN de cadena sencilla y con secuencia complemenaria al ADN, que se lleva a cabo en un proceso conocido como ranscripción (Figura 1.2). Aunque el ARN no coniene imina, exise complemenariedad enre la adenina del ADN y el uracilo del ARN. Por su pare, la imina del ADN encuenra su base complemenaria en la adenina del ARN, al como ocurre enre las dos cadenas del ADN.

11

Hebra Antisentido 3’

5’

A T G A C G G A T C AG C C G C AA G C GG AA T T GG U A C U G CC U A GU C GG C GUU Transcrito de ARN

ARN Polimerasa

T A C T G CC T A G T C GG C G T T C GC C T T A A CC 5’

3’ Hebra Sentido

Figura 1.2. Proceso de la ranscripción del ADN a ARN. La ranscripción es un proceso undamenal en la célula, pueso que permie la expresión de la inormación conenida en el ADN a ravés del ARN, el cual puede salir del núcleo y ejercer su unción en el cioplasma. Exisen dierenes ipos de ARN: ARN mensajero; ARN ribosomal; ARN de ranserencia y oros ipos de ARN involucrados en diversos procesos celulares como regulación de la expresión de los genes, replicación del ADN y modificaciones a proeínas. A coninuación, se describe cada ipo.

ARN mensajero (ARNm) Las moléculas de ARNm, ambién llamadas ranscrios, son poradoras de la inormación genéica conenida en el ADN, que poseriormene son raducidas a proeínas en los ribosomas de la célula. En oras palabras, el ARNm es una molécula inermediaria produco de la expresión de los genes en una célula. No odos los genes se ranscriben al mismo iempo o al mismo nivel de expresión ni odas las células de un organismo expresan los mismos genes. Así mismo, una célula no expresa el mismo conjuno de genes durane odo su ciclo celular ni bajo odas las condiciones. Además, las moléculas de ARNm presenes en una célula en un momeno dado dependen de los genes que se requieran para los procesos celulares que se producen en ese momeno en paricular. 12


La ranscripción del ADN a ARNm genera una molécula precursora conocida como pre-ARNm, la cual debe pasar por eapas de procesamieno en el núcleo para crear una molécula de ARNm capaz de ser raducida a proeína. En los procarioas, sin embargo, no es necesario ese procesamieno; en eucarioas, poco después de iniciar la ranscripción, cuando el ARNm alcanza una longiud enre 25 y 30 bases, se da la adición de una caperuza meilada (7-meilguanilao) en el exremo 5’ de la molécula, con el fin de proeger el ARNm de degradación por exonucleasas y ambién proporcionar un siio de reconocimieno del ARNm en el ribosoma. Adicionalmene, finalizada la ranscripción ocurre un clivaje enzimáico en el exremo 3’ del ARNm, seguido por la adición de cienos de bases de adenina (conocida como cola poli A) por un proceso de poliadenilación, realizado por la enzima poli-A polimerasa. Un ercer paso del procesamieno incluye el clivaje de secuencias inrónicas (no codificanes para proeína) y ligación de los exones (secuencias codificanes) adyacenes, en un proceso conocido como splicing . La Figura 1.3 muesra la molécula de ARNm precursora originando una molécula madura de ARNm en eucarioas.

Núcleo Exon Intron

Exon

Intron

Exon

ADN Caperuza

Transcripción y adición de caperuza y cola poliA

Transcrito precursor

AAAA Eliminación de Intrones Cola

AAAA Empalme de Exones

AAAA

ARNm

Transcrito Maduro

Citoplasma

Figura 1.3. Procesamieno del ARN mensajero maduro. 13

ARN ribosomal (ARNr) Los ARNr son las principales moléculas consiuyenes de los ribosomas, los organelos celulares encargados de la raducción del ARNm a proeína. Esas moléculas no poran inormación que se raduce a proeína, es decir, no son codificanes; no obsane, son undamenales para la sínesis de las proeínas, caalizando los enlaces químicos (enlaces pepídicos) que componen una proeína. Los ARNr se ranscriben a parir de los genes del ADN ribosomal (ADNr), que varían en número, secuencia y longiud enre las células procarioas y eucarioas. En procarioas, exisen res moléculas de ARNr: 23S, 16S y 5S, que en conjuno abarcan alrededor de 4500 bases y componen el ribosoma, juno con 54 proeínas. Los nombres de esas moléculas provienen de su amaño en érminos de la asa de sedimenación de la parícula por cenriugación, medido en unidades Svedberg (S). Por su pare, las moléculas de ARNr en eucarioas son cuaro: 28S, 18S, 5.8S y 5S, que comprenden más de 5500 bases y componen el ribosoma eucarioa, juno con 82 proeínas. Los ARNr son de cadena sencilla y presenan una esrucura plegada alamene conservada enre los linajes de la vida, aspeco que se debe a su acividad caalíica imporane para la unción del ribosoma; aunque a nivel de secuencia los ARNr no son an conservados. De hecho, los genes que ranscriben los ARNr se han consiuido en marcadores moleculares para reconsruir la hisoria evoluiva de los linajes de la vida, así como para idenificar las especies. Algunas regiones del ADNr evolucionan lenamene, mienras que oras regiones divergen rápidamene enre linajes.

ARN de transferencia (ARNt) Los ARN son moléculas pequeñas de cadena sencilla y 74-95 bases, ranscrias a parir de los genes de ADN en el núcleo o en la miocondria, que de manera similar al ARNr no son codificanes, sino que cumplen variadas unciones en la célula. Su unción principal es la de ser moléculas conecoras enre el ARNm y el ribosoma durane la sínesis proeica. Todos los ARN comparen una esrucura secundaria y erciaria que permien el reconocimieno por pare del ribosoma, dando lugar a su paricipación en la raducción del ARNm, mediane la incorporación de aminoácidos en la proeína naciene. Los ARN presenan una esrucura secundaria en orma de rébol, con unión por complemenariedad enre los erminales 5’ y 3’ de su secuencia, así como complemenariedad enre regiones inernas de la molécula que orman esrucuras plegadas en orma de bucle. Adicionalmene, los ARN erminan en una secuencia acepora –CCA–, que caraceriza a ese ipo de moléculas y es incorporada durane la ranscripción del ADN o agregada enzimáicamene como una modificación pos-ranscripcional. Como pare de la esrucura secundaria ambién se encuenra el anicodón, ubicado en el mismo lugar en odas los ARN y en el exremo conrario a la secuencia acepora, el cual compone el siio

14


de unión y reconocimieno del codón del ARNm (secuencia de res nucleóidos del ARNm que deermina el aminoácido a incorporar en la proeína sineizada, de acuerdo con el código genéico, Tabla 1.1). Los ARN pueden esar sujeos a modificaciones químicas en sus bases, como meilaciones o deamidaciones, que pueden cambiar la ineracción de la molécula con el ribosoma o alerar sus propiedades de reconocimieno del codón, en caso al de que se den en el anicodón. En la biogénesis de la molécula de ARN hay pasos imporanes en la maduración de la molécula para que esa pueda llevar a cabo su unción. Esos pasos incluyen procesamieno, splicing , adición de la secuencia acepora CCA y modificaciones pos-ranscripcionales; algunos ocurren en el núcleo y oros en el cioplasma. A parir del ranscrio primario (pre-ARN), ocurre la eliminación de secuencias 5’ y 3’ adicionales no necesarias, así como de secuencias inrónicas, mediane la acción de nucleasas y endonucleasas en eucarioas y arqueas, o por auo-clivaje en bacerias. Tras la eliminación de inrones se requiere la ligación de los exones, acividad que es realizada por una ligasa de ARN. Poseriormene, algunos pre-ARN requerirán la adición enzimáica de la secuencia acepora CCA, debido a que esa no se encuenra originalmene en el gen correspondiene. Finalmene, las modificaciones pos-ranscripcionales de algunas bases de la molécula consiuyen una caracerísica de odos los ARN maduros, y ienen el propósio de regular la localización subcelular de los ARN, esabilizar la molécula esrucuralmene, decodificar, brindar un conrol de calidad y/o incluso paricipar en la respuesa inmune conra agenes inecciosos (Hori e al., 2014). En los dierenes linajes se ha enconrado a nivel genómico que los ARN varían en número de genes, organización genómica (e.g. repeiciones en ándem por evenos de duplicación) y número de pseudogenes (genes que han perdido su unción oal o unción canónica), lo que indica parones linaje-específicos complejos. En el genoma humano, por ejemplo, se ha enconrado un número mayor al esperado de genes de ARN, por lo cual, se podrían aribuir unciones no canónicas para algunos de esos genes, más allá de su paricipación en la raducción. Además, los proyecos de secuenciación de genomas en mamíeros han idenificado un gran número de genes de ARN isodecodificadores, es decir, que producen ARN que comparen el mismo anicodón. En el genoma humano se ha idenificado que más de la miad de genes de ARN son de ese ipo, lo cual indica una ala redundancia de ARN en el genoma. Sin embargo, lo ineresane de los ARN isodecodificadores es que difieren en su secuencia inerna y presenan un menor grado de aminoacilación en comparación con los ARN canónicos involucrados en raducción, de ahí que algunos puedan paricipar en unciones diversas (Parisien, Wang & Pan, 2013). Enre las oras unciones descubieras o sugeridas para los ARN, se ha reerenciado su paricipación en regulación (e.g. en la organización de genomas eucarioas separando dominios de cromaina acivos de los no acivos y en la regulación de la expresión génica ane evenos de esrés por vía de ARN de inererencia o ARNi), así como en la señalización y biosínesis de aminoácidos, grupos hemo, clorofila y anibióicos. Además, pueden 15

paricipar en la replicación viral, el remodelamieno de la pared celular, el eiqueado de proeínas para degradación, la supervivencia celular por inererencia de la vía apopóica mediada por ciocromo C en la miocondria y el meabolismo energéico, enre oras unciones (Kirchner & Ignaova, 2015; Raina & Ibba, 2014).

OTROS TIPOS DE ARN Exisen oros ipos de ARN no codificanes que esán involucrados en varios procesos celulares y llevan a cabo unciones dierenes a las de los ARNm, ARNr y ARN. Esos ARN han cobrado mayor imporancia a parir de los proyecos de secuenciación de genomas, en los que se ha enconrado una ala abundancia de ese ipo de moléculas, con unciones predichas o demosradas en procesos regulaorios principalmene. Por ejemplo, en eucarioas se encuenran diversos ipos de ARNs involucrados en modificaciones posranscripcionales o replicación de ADN, ales como: ARN pequeño nuclear ( small nuclear RNA, snRNA) que paricipa en splicing ; ARN pequeño nucleolar ( small nucleolar RNA, snoRNA) que lleva a cabo la modificación de nucleóidos en oros ARNs; ribonucleasa P y MRP (RNase P, RNase MRP) involucrados en la maduración del ARN y la replicación de ADN, en el caso del RNase MRP; el componene de ARN de la elomerasa (TERC), imporane en la sínesis elomérica en muchos eucarioas; y el ARN líder de splicing (SL RNA) que paricipa en rans-splicing del ARNm y en el procesamieno del ARN (Cech & Seiz, 2014; Malone & Hannon, 2009; Palazzo & Lee, 2015; Woodhams, Sadler, Penny & Collins, 2007). Por oro lado, oros ipos de ARN no codificanes paricipan principalmene en unciones reguladoras de la expresión génica, incluyendo: ARN largos no codificanes ( long noncoding RNA, lncRNA) que regulan la ranscripción génica por regulación epigenéica; micro ARNs (miRNA) y ARNs coros de inererencia (siRNA) involucrados en regulación génica; ARN piwi de ineracción (piRNA) que acúan en deensa de ransposones y oras poenciales unciones; ARN anisenido (asRNA) que paricipan en aenuación ranscripcional, esabilización del ARNm y bloqueo raduccional (Barel, 2009; Malone & Hannon, 2009; Ørom & Shiekhatar, 2013; Poning, Oliver & Reik, 2009). Finalmene, un ipo de ARN regulador de recién gran inerés es el ARN CRISPR (crRNA), el cual se encuenra en bacerias y arqueas cumpliendo un rol en resisencia a parásios mediane acción dirigida al ADN, cuya aplicación acual se ha cenrado en la edición génica dirigida (Sander & Joung, 2014).

1.1.3. Proteínas Las proeínas son moléculas muy diversas en secuencia, esrucura y unción. Se esima que una célula humana puede ener enre 250000 a un millón de proeínas dierenes, localizadas en odos los comparimienos y procesos celulares, cumpliendo unciones esrucurales, enzimáicas, ransporadoras, hormonales, mensajeras, de almacenamieno, deensa, enre oras; odas indispensables para el uncionamieno y manenimieno 16


celular. Las proeínas consiuyen gran pare del enoipo de un organismo, por lo ano, su diversidad es an amplia como la canidad de enoipos observados en los seres vivos.

AMINOÁCIDOS Las proeínas son las macromoléculas ejecuoras de las insrucciones del ADN, raducidas a parir del ARNm. Químicamene, esán conormadas por una secuencia de aminoácidos, unidos por enlaces pepídicos. Exisen 20 aminoácidos que conorman odas las proeínas posibles (Tabla 1.1), los cuales presenan una composición química con un grupo uncional amino (-NH2) en un exremo (conocido como amino erminal o N-erminal) y un grupo uncional carboxilo (-COOH) en el oro exremo (carboxi-erminal o C-erminal). El cenro de la molécula lo compone un carbono ala unido a los dos grupos uncionales mencionados y a una cadena laeral o grupo R, que difiere químicamene enre los 20 aminoácidos y confiere las propiedades bioquímicas a cada uno, por ejemplo, hidroobicidad, polaridad y aromaicidad.

Tabla 1.1. El código genéico universal.

Segunda letra U

a r t e U L a r e m i r P C

A

C

A

G

U UUU Phe UCU UAU UGU Tyr Cys UUC UCC UAC UGC C Ser UUA UCA UAA UGA Terminación A Leu Terminación UUG UCG UAG UGG Trp G

CUU CCU CAU CUC CCC CAC Pro Leu CUA CCA CAA CUG CCG CAG AUU AUC Ile AUA AUG Met

ACU AAU ACC AAC Thr ACA AAA ACG AAG

GUU GCU GAU GUC GCC GAC Val Ala G GUA GCA GAA GUG GCG GAG

His Gln Asn Lys Asp Glu

CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG

U

Arg

C

a r t e L a r e c r e T

A G

Ser Arg

U C A G U

Gly

C A G

17

CÓDIGO GENÉTICO Los aminoácidos son raducidos en los ribosomas a parir del ARNm, siguiendo el código genéico, el cual esablece la combinación de riplees de nucleóidos o codones, que raducen para uno de los 20 aminoácidos (Tabla 1.1). Varios codones (2-6) pueden raducir para un mismo aminoácido, por lo que se dice que el código genéico es degenerado; eso implica que pariendo de un codón se sabe el aminoácido exaco que raduce, pero a parir de un aminoácido no se conoce la secuencia exaca del codón que lo genera. Los únicos dos aminoácidos que esán raducidos por un solo codón son meionina y ripóano. No obsane, a pesar de ser degenerado, en algunas especies puede exisir un sesgo hacia la uilización de cieros codones para raducir deerminado aminoácido, por ejemplo, en el genoma humano es más probable enconrar que la alanina corresponda al codón GCC, que a GCG, aunque ambos la raducen.Eso puede deberse a una mejor eficiencia en la raducción de cieros codones en los ribosomas. Por ora pare, cabe resalar dos codones de gran imporancia en el código genéico: el codón que marca el inicio de la raducción de una proeína –AUG– , que raduce al aminoácido meionina y los codones que marcan la erminación de la raducción, UAA, UAG y UGA. De acuerdo con lo anerior, odas las proeínas deberían comenzar con una meionina, sin embargo, no es así, debido a procesamienos pos-raduccionales, ya que esos pueden eliminar la meionina de inicio en la proeína madura. Además, exisen excepciones al código genéico universal, en las que los codones de erminación mencionados aneriormene codifican para un aminoácido, como en miocondrias, levaduras, planas, Mycoplasma capricolum y los proozoos Paramecium y Terahymena.

ESTRUCTURA DE LAS PROTEÍNAS Esrucuralmene, las proeínas se describen de acuerdo con cuaro niveles. La esrucura primaria corresponde a la secuencia lineal de aminoácidos, deerminada por el genoma. La esrucura secundaria involucra un plegamieno local dirigido por la ineracción enre aminoácidos adyacenes y por los ángulos de orsión de los enlaces de los aminoácidos, dando lugar a esrucuras en ala hélice y lámina bea, conecadas por giros de la molécula y esabilizadas por puenes de hidrógeno. La esrucura erciaria obedece a la conormación ridimensional más esable de la proeína, es decir, al arreglo espacial de las conormaciones secundarias, mediado por ineracciones no-covalenes, puenes disuluro y la ineracción con el ambiene acuoso de la célula. La unción de una proeína esá asociada con su organización a nivel erciario, ya que a ese nivel se conorman los siios caalíicos o siios acivos de enzimas y se evidencian los moivos esrucurales, que hacen reerencia a segmenos de la proeína que esán cercanos espacialmene pero no en secuencia. Los moivos esrucurales generalmene se encuenran conservados en dierenes proeínas, eso permie agruparlas por su unción o esrucura. Además, la presencia de un moivo esrucural o deerminada esrucura erciaria en una proeína desconocida permie inerir su posible unción por asociación. Finalmene, la esrucura cuaernaria involucra la ineracción enre dierenes cadenas (polipépidos) que se unen para conormar una proeína uncional.

18


MODIFICACIONES POST-TRADUCCIONALES Las proeínas pueden esar conormadas sólo por aminoácidos o esar conjugadas con carbohidraos (glicoproeínas), osaos (osoproeínas), lípidos (lipoproeínas) o combinaciones de esos. De igual orma, los residuos de aminoácidos pueden esar modificados con grupos químicos como glicosil, provenienes de carbohidraos (glicosilaciones), osorilo (osorilaciones), meilo (meilaciones), acilo, aceilo, ubiquiina, niroxilo, ec. Esas modificaciones cambian las propiedades de una proeína, aporan a la diversidad uncional de la misma e influyen en su ineracción con oras proeínas y moléculas. Además, muchos procesos celulares, como la replicación y ranscripción del ADN, cascadas de señalización, ransducción de señales, procesos regulaorios y de ranspore, enre oros, requieren la ormación de complejos proeicos que acúan de manera sinérgica para cumplir deerminadas unciones.

1.2 Dogma central de la biología molecular Como se ha mencionado en varias ocasiones, el ADN es la unidad de herencia de las células y los seres vivos, que coniene las insrucciones que rigen en gran pare el uncionamieno del ARN y las proeínas. El ADN se puede replicar para generar más copias de ADN o se puede ranscribir a dierenes ipos de ARN, incluyendo el ARNm, la principal molécula mensajera de las células. Esa secuencia de evenos en los que se evidencia una ranserencia lineal de inormación biológica desde ADN a ARN a proeína consiuye el dogma cenral de la biología molecular (Figura 1.4), propueso por Francis Crick en 1956 - 1970, quien ue el co-descubridor de la esrucura del ADN juno con James Wason, Francis Crick, Maurice Wilkins y Rosalind Franklin en 1953. Replicación

Traducción

Transcripción

Proteína ADN

ARN

19

Figura 1.4. Esquemaización de la ranserencia de inormación y procesos de replicación, ranscripción y raducción del Dogma Cenral de la Biología Molecular. El dogma cenral de la biología molecular en su manera clásica, se puede considerar algo simplificado con respeco a la complejidad biológica que se evidencia a parir de los esudios en genómica, ranscripómica, proeómica y meabolómica. El dogma cenral conocido acualmene es mucho más amplio y la ranserencia de inormación no es lineal; a ese respeco, el ARN ambién se puede reroranscribir a ADN y replicar para producir más copias de ARN como ocurre en muchos virus. De igual manera, la unción del ARN y las proeínas no solo consiuyen el resulado de las insrucciones genéicas del ADN, debido a que ora pare de su uncionalidad puede esar deerminada por modificaciones pos-ranscripcionales, pos-raduccionales o epigenéicas. Sin embargo, el planeamieno clásico del dogma cenral aún se sosiene y consiuye la base del uncionamieno celular, aunque reconociendo la amplia gama de procesos que ocurren adicionales a ese esqueleo cenral. Los res procesos principales del dogma cenral de la biología molecular son los siguienes: replicación del ADN, ranscripción del ADN a ARN y raducción del ARNm a proeína. Esos se encuenran deallados en un amplio reperorio de la lieraura, así que no serán raados en ese capíulo.

1.3. Genomas y genes El genoma consiuye el manual de insrucciones para el uncionamieno y sosenimieno de los seres vivos, ya que esá compueso por el conjuno de genes y secuencias no génicas que deerminan el nivel más undamenal de los procesos celulares. Los linajes de la vida presenan una gran diversidad en sus amaños genómicos, desde los genomas virales y bacerianos más pequeños, con 3 kilobases y 160 kilobases, hasa el genoma humano con alrededor de 3,1 gigabases (Gb), el genoma vegeal más grande con 150 Gb, correspondiene a la especie Paris japónica, o el de la ameba Amoeba dubia, con el genoma más grande conocido que alcanza 670 Gb. El amaño genómico, sin embargo, no es indicaivo del nivel de complejidad de un organismo, dado que un mayor amaño de genoma no necesariamene esá correlacionado con un mayor número de genes presenes. Aunque los amaños de genoma enre el nemáodo Caenorhabdiis elegans, el pez cebra Danio rerio, la planaArabidopsis haliana, el raónMus musculus y el humanoHomo sapiens difieren en varios órdenes de magniud (desde 100,2 Mb – 3,1 Gb), esas especies comparen un número similar de genes codificanes enre ~20000 hasa ~ 25000. La dierencia radica en el conenido de secuencias de ADN no codificanes y repeiivas que se encuenran en ala abundancia en genomas de gran amaño, las cuales en un principio ueron consideradas ADN “basura” por no codificar para proeínas. No obsane, los proyecos de secuenciación de genomas han mosrado que esas secuencias esán lejos de ser basura, de hecho, se ha posulado que esas regiones pueden 20


ener unciones basane imporanes para la regulación de diversos procesos y vías meabólicas en la célula, lo cual se aribuye a que paricipan en el conrol de la expresión de genes y hasa cromosomas compleos, al paricipar en la esrucuración de la cromaina (Mehrora & Goyal, 2014). Recienemene se han idenificado variaciones y modulaciones en esas secuencias de ADN que esán asociadas a enermedades y síndromes graves en humanos (López-Flores & Garrido-Ramos, 2012). Además, las secuencias de ADN no codificane y repeiivas son muy inormaivas para esudios evoluivos y filogenéicos, así como para el enendimieno de la organización y comporamieno de los genomas eucarioas (Mehrora & Goyal, 2014), porque son regiones genómicas que acumulan variaciones en secuencia y en número de copias.

1.3.1. Genomas procariotas Los genomas procarioas presenan una esrucura de genoma compaca, con una ala proporción de conenido génico en relación con el reso del genoma y poco espacio enre los genes. El mayor conocimieno del genoma de los procarioas ha provenido del esudio de la baceria modelo Escherichia coli. No obsane, cabe resalar que su organización de genoma no es necesariamene represenaivo de odos los procarioas, dada la considerable diversidad genómica enre los miembros de ese grupo. Aun así, es necesario mencionar algunas caracerísicas de los genomas procarioas, ejemplificadas por el genoma de E. coli, como: un bajo conenido de secuencias no codificanes, baja recuencia de secuencias repeiivas y la presencia de operones, los cuales corresponden a un grupo de genes que esán ubicados con proximidad en el genoma, separados incluso por uno o dos nucleóidos, cuya expresión se da como una sola unidad. En cepas de E. coli se ha enconrado solo un 11% de secuencias no codificanes y hasa 600 operones, compuesos por genes con unción relacionada, de al manera que paricipan en una misma vía bioquímica o vías asociadas (Griswold, 2008). Por úlimo, los genes procarioas no conienen secuencias inrónicas (a excepción de algunas Archaea) y presenan una longiud más cora que la de los genes de organismos eucarioas, incluso después del clivaje de las secuencias de inrones de los eucarioas. La Figura 1.5 muesra la esrucura de un gen procarioa comparada con la de un gen eucarioa.

21

Procariotas

ADN Región codicante ARNm Policistrónico

P P P

Región no codicante

5´

3´

Policistrónico

Múltiples Proteínas Eucariotas

ADN Región codicante Región no codicante 3’

Región no codicante 5’

AAAAA

ARNm G P P P CH3

5´

3´

Poli-A

Caperuza

Figura 1.5. Expresión génica y esrucura del ARN mensajero en eucarioas vs procarioas. 1.3.2. Genomas eucariotas La organización de los genomas eucarioas ha mosrado ser mucho más compleja que la de los procarioas. Los eucarioas presenan una variedad de regiones genómicas, que se han descrio como genes, secuencias codificanes (CDS), secuencias no codificanes, secuencias regulaorias, elemenos repeiivos, elemenos ransponibles, enre oros. La proporción de cada una de esas regiones genómicas varía enre especies, aunque en general la presencia de grandes canidades de secuencias de ADN no codificanes y repeiivas es una caracerísica de los genomas eucarioas, alcanzando hasa un 90% del conenido de algunos genomas (López-Flores & Garrido-Ramos, 2012). En ese senido, muchas planas presenan un alo amaño de genoma, no obsane, en algunos casos su conenido génico no difiere basane con respeco a oros grupos axonómicos, por lo que su gran amaño se debe a un alo conenido de ADN repeiivo y no codificane. 22


En el linaje eucariota se ha identificado un conjunto de 458 genes que están altamente conservados y se encuentran virtualmente en todos los eucariotas, debido a su participación en las funciones básicas celulares, y que en inglés se han denominado Core Eukaryotic Genes (COG). La identificación de los COG se basó en los genomas disponibles de seis organismos modelo: Homo sapiens, Drosophila melanogaster (mosca de la fruta), Arabidopsis thaliana, Caenorhabditis elegans, Saccharomyces cerevisiae (levadura) y Schizosaccharomyces pombe (levadura) (Parra et al., 2009). Este conjunto de genes ortólogos (que tienen su origen en un ancestro eucariota común) ha sido útil para determinar la calidad de las descripciones de genomas nuevos, de tal manera que es una medida de cuán completa o correcta es la secuencia de un genoma. Incluso, los COG también han sido útiles como modelos de genes para la búsqueda de genes en genomas eucariotas. 1.3.3. Anotación de genomas El proceso de describir un genoma con respecto a su contenido de genes, así como a la localización, estructura y función de las secuencias génicas y no génicas se denomina anotación. La anotación de genomas ha sido un área muy importante y ha representado un desafío científico y computacional extenso en los proyectos de secuenciación genómica, ya que el conocimiento de la secuencia de un genoma es apenas un primer paso en el proceso de descifrar el potencial genómico de un organismo o especie (Yandell & Ence, 2012). Para un genoma desconocido y sobre el cual no hay información de referencia disponible, la anotación involucra la implementación de herramientas bioinformáticas para la predicción del contenido de secuencias génicas, en términos de su posición en el genoma y estructura, seguido de la traducción de las secuencias codificantes a proteínas y la predicción de la función o actividad de las proteínas predichas. La predicción de genes generalmente se basa en modelos génicos de organismos conocidos, con los cuales se asume una estructura génica conservada para la mayoría de genes. En esta sección vimos que los genomas presentan una gran diversidad en su tamaño, organización de secuencia y estructura. Lo anterior es producto de la variabilidad que ha tenido lugar durante la evolución de los genomas de las diferentes especies y que se evidencia a través de los diferentes tipos de variaciones genéticas que se han identificado con el estudio de los genomas y secuencias genéticas.

1.4. Variación genética en los genomas La diversidad de la vida en la Tierra es el resultado de variaciones genéticas acumuladas a través del tiempo, que constituyen la base de la evolución de las especies. Esta variación ha resultado de eventos aleatorios como mutaciones puntuales, rearreglos cromosómicos y eventos de recombinación homóloga en el material genético de los organismos. Las mutaciones son cambios en la secuencia de nucleótidos del ADN que pueden producir modificaciones a nivel génico y, posteriormente, proteico, influyendo en el fenotipo de un

organismo. Esos cambios pueden ser heredables, como ocurre con las muaciones de la 23

línea germinal, heredadas de los padres a la progenie, y que esarán presenes en odas las células de un organismo. Por oro lado, las muaciones pueden ser somáicas (muaciones de novo), que se adquieren en algún momeno de la vida de un individuo a causa de acores ambienales o de errores en la replicación del ADN. Esas muaciones no esán presenes en odas las células del organismo, excepo que ocurran en la línea germinal, y no pueden ser heredadas a la progenie.

1.4.1. Tipos de variación genética SNVs y SNPs Las muaciones pueden corresponder a cambios punuales en un nucleóido de la secuencia de ADN, conocidas como varianes de nucleóido sencillo ( single nucleoide varians , o SNVs), algunas de las cuales se denominan polimorfismos de nucleóido sencillo ( single nucleoide polymorphisms, o SNPs) cuando se presenan con una recuencia mínima del 1% en una población. La mayoría de dierencias enoípicas enre los individuos se deben a polimorfismos que no represenan eecos adversos sobre el organismo, aunque algunos sí pueden llevar a eecos deleéreos. A nivel de enoipo, una SNV presene en una secuencia codificane se considera sinónima si no genera un cambio en la secuencia de la proeína codificada; por el conrario, se considera no-sinónima si se raduce a un cambio en el amino ácido codificado por el codón en el que se presena la muación, lo que puede conducir a poenciales repercusiones en la unción de la proeína muada producida.

Indels Las muaciones ambién pueden abarcar varios nucleóidos que pueden esar inserados (inserciones) o ausenes (deleciones) en la secuencia del maerial genéico de un organismo con respeco a oro, y que en conjuno son conocidas como indels. Los indels más recuenes son aquellos que involucran elemenos de secuencias repeiivas como las repeiciones en ándem de número variable ( variable number andem repeas, o VNTRs) y las repeiciones en ándem sencillas ( simple andem repeas, o STRs); por eso la presencia de repeiciones puede predisponer esa región del ADN a la presencia de indels. Los evenos de inserción ambién pueden deberse a elemenos ransponibles o ransposones, los cuales esán esparcidos por el genoma y pueden ransporarse de manera direca desde una región cromosómica a ora. A nivel biológico, un indel en la secuencia de un gen puede aecar el marco abiero de lecura del mismo y generar una secuencia codificane errónea que producirá una proeína dierene a la original o generar un codón de parada premauro que produzca una secuencia codificane incomplea y, por consiguiene, una proeína runcada. En ambos casos, se verá aecada la uncionalidad 24


del produco proeico, lo cual podrá ener repercusiones leves a graves sobre el enoipo del organismo, dependiendo de la imporancia y unción de la proeína en la célula.

Recombinación homóloga La recombinación homóloga es el inercambio de ragmenos de secuencia enre dos moléculas de ADN homólogas, lo cual ocurre durane el enrecruzamieno de cromosomas homólogos en la meiosis para la producción de gameos. Por oro lado, la recombinación homóloga ambién iene lugar durane la división celular somáica (miosis) como mecanismo de reparación de rupuras en la doble cadena del ADN. La recombinación homóloga es un generador de variación genéica, ya que da lugar a nuevas combinaciones de secuencia (alelos) de los genes en la progenie durane la meiosis, o a muaciones somáicas durane la miosis.

Rearreglos cromosómicos Los rearreglos cromosómicos ambién consiuyen un ipo de muaciones ocasionadas por rupuras en la doble cadena de ADN como produco de daño al ADN por radiación, agenes químicos o errores durane la recombinación homóloga o replicación, los cuales pueden cambiar la esrucura cromosómica, alerar la unción y ransmisión de algunos genes. Los rearreglos pueden repercuir en deleciones que represenan la pérdida de odo un gen, una pare de ése o incluso en deleciones más grandes que abarcan múliples genes. Ese ipo de deleciones esrucurales difieren de un indel, ya que comprenden regiones más grandes del genoma, mienras que un indel abarca menos bases ( ≤1000 pares de bases, pb). Por su pare, conrario a una deleción, una duplicación implica un aumeno en el número de copias de una región cromosómica. Si las regiones duplicadas se encuenran en proximidad se considera que se encuenran en andem, en el mismo orden o en orden reverso. Las duplicaciones génicas represenan evenos imporanes en la evolución de los genomas, dado que las copias adicionales de genes pueden promover que algunas copias adquieran nuevas unciones y con ello nuevos genes. Las duplicaciones y deleciones son produco de evenos de recombinación homóloga desiguales, errores en la reparación de rompimienos en la doble cadena del ADN o errores en la replicación. Las deleciones y duplicaciones de genes y segmenos cromosómicos en el orden de los muli-kilobases se conocen como varianes en el número de copias ( copy number varians, CNVs). Los CNVs pueden aecar el equilibrio génico normal, porque cambian la dosis génica de la pare cromosómica aecada, ano por la pérdida de una copia de un segmeno como por la adición de una o varias copias exras de un segmeno del maerial genéico. Las deleciones y duplicaciones esán relacionadas con oro ipo de rearreglo que son las ranslocaciones. Una ranslocación ocurre enre cromosomas no homólogos y hace reerencia a la unión de una región de un cromosoma con oro (ranslocación no recíproca) o al inercambio de segmenos enre dos cromosomas (ranslocación recíproca). Esos evenos de ranslocación se deben a rupuras en la doble cadena del ADN en dos lugares 25

disinos, seguido por la reinserción de los segmenos en oro lugar. Una ranslocación se considera balanceada si hay un inercambio equivalene de maerial genéico enre los cromosomas, o desbalanceada si la ranslocación produce una deleción o duplicación de segmenos genéicos. Oro ipo de rearreglo esá represenado por las inversiones. En una inversión, un segmeno cromosómico sure una roación de 180°, debido a un eveno de recombinación en un mismo cromosoma o a rupuras en la doble cadena del ADN en dos lugares disinos y a la liberación de la región cromosómica, seguido por la reinserción del segmeno en una orienación dierene a la original. Un cambio en el orden de los genes en un segmeno inverido no necesariamene implica una aleración en el enoipo, a no ser que el puno de rupura en el ADN se haya producido al inerior de un gen, que se alere la regulación y expresión de un gen o grupo de genes en el segmeno inverido, o que la inversión se presene en esado homocigoo. Un úlimo ipo de rearreglo corresponde a variaciones en el número de cromosomas, incluyendo la ausencia o copia adicional de un cromosoma compleo (aneuploidía) o la presencia de más de dos juegos cromosómicos compleos (poliploidía). Un organismo con un solo juego cromosómico se denomina haploide, un organismo con dos juegos es un diploide y un organismo con juegos cromosómicos adicionales es poliploide. La aneuploidía generalmene iene repercusiones graves sobre el enoipo, ocasionando enermedades genéicas graves e incluso inviabilidad del embrión dependiendo de la nauraleza del cromosoma ausene o con copia adicional.

1.4.2. Tasas de mutación Teniendo en cuena que las muaciones son la base de la evolución de los seres vivos, es imporane el conocimieno de las asas de muación en los dierenes linajes de los seres vivos. La asa de muación es una medida de la ocurrencia de cambios en el maerial genéico a ravés del iempo. La acumulación de muaciones y la asa de muación en las poblaciones son imporanes para evaluar el esado y salud genéica de las mismas. Exise una relación inversamene proporcional enre la asa de muación y el amaño del genoma, la cual es aplicable para virus, procarioas y eucarioas unicelulares. Por el conrario, los organismos mulicelulares presenan una relación direcamene proporcional enre la asa de muación y el amaño del genoma. Los procarioas presenan mayores niveles de fidelidad en los procesos de replicación, ranscripción y raducción que los eucarioas. No obsane, a dierencia de los eucarioas, las procarioas y los virus acumulan un mayor número de muaciones en menor iempo debido en gran pare a sus coros iempos generacionales, por lo cual sus poblaciones evolucionan más rápidamene que las de los eucarioas con mayores iempos generacionales. En los organismos unicelulares y mulicelulares, la asa de muación por base replicada -10 es de similar magniud (10 -9 - 10 ), por lo ano, en unción del amaño del genoma se 26


observa que a mayor amaño de ese, mayor número de muaciones por genoma replicado. De lo conrario, los virus presenan las mayores asas de muación con respeco a los demás organismos, aunque ienen los genomas más pequeños; en paricular los virus de ARN acumulan un número elevado de muaciones por genoma replicado con respeco a los demás, incluso oros virus de ADN. Como caso especial, los virus con genomas de ARN presenan asas de muación en órdenes de magniud más alas que las asas para procarioas, eucarioas e incluso virus -3 de ADN, con valores enre 10 -6 y 10 de asa de muación por base replicada. Los virus de ARN presenan alas recuencias de muaciones debido a la ausencia de enzimas ARN exonucleasas que corrigen errores durane la replicación, y eso sumado a evenos de recombinación y alas asas de replicación, repercue en que la asa de evolución de los virus de ARN sea millones de veces más rápida que la de sus hospederos eucarioas, permiiendo una mayor diversificación y adapación a presiones del ambiene. Por ejemplo, el ADN humano requiere periodos de iempo a escala geológica para evolucionar al mismo nivel que los virus de ARN, los cuales evolucionan durane una sola generación humana.

1.4.3. Epigenética como fuente adicional de variación genética Exise un ipo de variación genéica que no radica en cambios en la secuencia del ADN, sino que iene oro origen en el genoma. Gemelos monocigoos con la misma secuencia de ADN pueden exhibir enoipos dierenes, pero ¿a qué se debe esa variación?, ¿es suscepible de ser heredada? En pare, la respuesa yace en la epigenéica, más precisamene, en los cambios heredables en la expresión de los genes, más no en la secuencia de los mismos. Es decir, la epigenéica es una uene de variación que involucra la modificación de las bases nucleoídicas del ADN, que aeca la orma en que son ‘leídos’ los genes, acivando o desacivando genes (Allis & Jenuwein, 2016; Chadwick, 2015; Corini e al., 2016). Los evenos epigenéicos ocurren de manera normal en las células; a ese respeco, conribuyen a que exisan dierenes ipos de células en los organismos, que llevan a cabo dierenes procesos celulares y son enoípicamene dierenes, aunque odas las células conienen la misma secuencia de maerial genéico. Los mecanismos que paricipan en la epigenéica, que dan lugar a la expresión dierencial de los genes por modificación de la ranscripción de los mismos, incluyen meilaciones, modificaciones de las hisonas, ARN de inererencia y elemenos ransponibles. A coninuación, se describe cada uno:

Metilación del ADN Consise en la adición enzimáica de un grupo meilo al ADN, por acción de un ipo de ADN meilranserasa. Es un proceso con ala especificidad que ocurre en siios CpG, que hacen reerencia a la ubicación de una ciosina adyacene a una guanina unidas por un osao.

27

Modificaciones de histonas Las hisonas son proeínas acopladas al ADN en el núcleo, sobre las cuales se enrolla el ADN para consiuir la cromaina. Las modificaciones pos-raduccionales de las hisonas repercuen en la organización de la cromaina y, por consiguiene, en las regiones del ADN que quedarán accesibles para ser ranscrias y expresadas. Esas modificaciones comprenden aceilaciones, meilaciones, osorilaciones y ubiquiinaciones. Las meilaciones pueden acivar o desacivar una región de la cromaina para la ranscripción dependiendo de la región donde ocurren; mienras que las aceilaciones y ubiquiinaciones generalmene esán asociadas a cromaina aciva y las desaceilaciones con cromaina inaciva. Un ejemplo de la imporancia de las modificaciones de hisonas como mecanismo epigenéico es la paricipación en la inacivación de uno de los cromosomas X en las hembras, con el fin de eviar eecos de dosis génica por la presencia de dos copias de ese cromosoma (Brockdorff, 2011).

ARN de interferencia (ARNi) Consiuye el silenciamieno ransiorio de genes por acción de moléculas coras de ARN que pueden inhibir la raducción de moléculas de ARNm o inacivar la ranscripción de genes por esrucuración de la cromaina. En el primer caso, moléculas coras de ARN encuenran complemenariedad con ranscrios de ARNm (ormando ARNs de doble cadena o dsARN) y se acoplan a proeínas específicas, ormando un complejo de silenciamieno inducido por ARN (ARN-induced silencing complex, o RISC), que lleva a cabo la degradación del ARNm impidiendo la raducción a proeína. El segundo caso de ARNi involucra la ineracción de un complejo proeico en el núcleo que se une a moléculas coras de ARN e ineracúa con residuos meilados de hisonas, dando lugar a un complejo ranscripcional de silenciamieno inducido por ARN ( ARN-induced ranscripional silencing, o RITS). Enre las moléculas de ARN que paricipan en esas unciones se encuenran los small inerering ARNs (siARN) y microARNs.

Elementos transponibles Los elemenos ransponibles son secuencias móviles en el ADN que pueden conener promoores, aisladores y señales involucradas en la regulación de la expresión génica, los cuales ienen la capacidad de inegrarse en dierenes regiones del genoma. De esa manera, pueden aecar la expresión génica a nivel epigenéico por inervención en los siios promoores de iniciación de la ranscripción.

28


1.5. Referencias Allis, C. D., & Jenuwein, T. (2016). The molecular hallmarks o epigeneic conrol. Naure Reviews Geneics, 17 (8), (8), 487–500. htps://doi.org/10.1038/nrg.2016.59. Balin, S. J., & Cascalho, M. (2009). The rae o muaion o a single gene. Nucleic Acids Research, 38 (5), (5), 1575–1582. htps://doi.org/10.1093/nar/gkp1119. Barrick, J. E. (2016). Wha is he muaion rae rae during genome replicaion? replicaion? Cell Biology by he Numbers.

Barel, D. P. (2009). MicroRNAs: Targe Recogniion and Regulaory Funcions. Cell, 136(2), 215–233. htps://doi.org/10.1016/j.cell.2009.01.002. Benley, S. D., & Parkhill, J. (2004). Comparaive genomic srucure o prokaryoes. Annual Review o Geneics, 38 (13), (13), 771–792. htps://doi.org/10.1146/annurev. gene.38.072902.094318. Bermudez-Sanana, C., Atolini, C. S.-O., Kirsen, T., Engelhard, J., Prohaska, S. J., Seigele, S., y Sadler, P. F. F. (2010). Genomic organizaion o eukaryoic RNAs. BMC Genomics, 11, 270. htps://doi.org/10.1186/1471-2164-11-270. Brockdorff, N. (2011). Chromosome silencing mechanisms in X-chromosome inacivaion: unknown unknowns. Developmen, 138 (23), (23), 5057–5065. htps://doi. org/10.1242/dev.065276. Campbell, C. D., & Eichler, E. E. (2013). Properies and raes o germline muaions in humans. Trends in Geneics, 29 (10), (10), 575–584. htps://doi.org/10.1016/j. ig.2013.04.005. Cech, T. R., & Seiz, J. A. (2014). The Noncoding RNA Revoluion- Trashing Old Rules o Forge New Ones. Cell, 157 (1), (1), 77–94. htps://doi.org/10.1016/j.cell.2014.03.008. Chadwick, B. P. (Ed.). (2015). Epigeneics: Curren research and emerging rends. Poole: Caiser Academic Press. htps://doi.org/doi.org/10.21775/9781910190074. Corini, R., Barbi, M., Car, B. R., Lavelle, C., Lesne, A., Mozziconacci, J., & Vicor, J. M. (2016). The physics o epigeneics. Reviews o Modern Physics, 88 (2), (2), 1- 29. htps:// doi.org/10.1103/RevModPhys.88.025002. Daniell, H., Lin, C.-S., Yu, M., & Chang, W.-J. (2016). Chloroplas genomes: diversiy, evoluion, and applicaions in geneic engineering. Genome Biology, 17 (1), (1), 134. htps://doi.org/10.1186/s13059-016-1004-2. De Koning, A. P. J., Gu, W., Casoe, T. A., Bazer, M. A., y Pollock, D. D. (2011). Repeiive elemens may comprise over Two-Thirds Two-Thirds o he human genome. PLoS Geneics, 7 (12). (12). htps://doi.org/10.1371/journal.pgen.1002384. Drake, J. W., W., & Holland, J. J. (1999). Muaion raes among RNA viruses. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, A merica, 96 (24), 13910- 3. htps://doi.org/10.1073/pnas.96.24.13910. Dupon, C., Arman, D. R., & Brenner, C. A. (2009). Epigeneics: Ep igeneics: Definiion, mechanisms and clinical perspecive. Seminars in Reproducive Medicine, 27 (5), 351– 357. htps:// doi.org/10.1055/s-0029-1237423. Ekblom, R., & Wol, J. B. W. (2014). A field guide o whole-genome sequencing, assembly and annoaion. Evoluionary Applicaions, 7 (9), (9), 1026– 1042. htps://doi. org/10.1111/eva.12178. 29

Elena, S. F., & Sanjuán, R. (2005). Adapive Value o High Muaion Raes o RNA Viruses : Separaing Causes rom Consequences. Journal o Virology, 79 (18), (18), 1155511558. htps://doi.org/10.1128/JVI.79.18.11555. Fischer, S., Bernard, S., Beslon, G., & Knibbe, C. (2014). A model or genome size evoluion. Bullein o Mahemaical Biology, 76 (9), 2249–2291. htps://doi. org/10.1007/s11538-014-9997-8 Francioli, L. C., Polak, P. P., Koren, A., Menelaou, A., Chun, S., Renkens, I., … Sunyaev, S. R. (2015). Genome-wide paterns and properies o de novo muaions in humans. Naure Geneics, 47 (7), (7), 822–826. htps://doi.org/10.1038/ng.3292. Geslain, R., & Pan, T. (2011). RNA: Vas reservoir o RNA molecules wih unexpeced regulaory uncion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 108 (40), (40), 16489 - 16490. htps://doi.org/10.1073/pnas.1113715108. Goodenbour, J. M., & Pan, T. (2006). Diversiy o RNA genes in eukaryoes. Nucleic Acids Research, 34 (21), 6137–6146. htps://doi.org/10.1093/nar/gkl725. Griffihs, A., Gelbar, W., Lewonin, R., & Miller, J. (2002). Modern Geneic Analysis. New York: W Freeman and Co. Holland, J., Spindler, K., Horodyski, F., Grabau, E., Nichol, S., & VandePol, S. (1982). Rapid evoluion o RNA genomes. Science (New York, N.Y.), 215 (4540), (4540), 1577- 85. htps://doi.org/10.1126/science.7041255. Hori, H., Tomikawa, C., Hiraa, A., Toh, Y., Tomia, K., Ueda, T., & Waanabe, K. (2014). Transer RNA Synhesis and Regulaion. In Encycopledia o Lie Sciences eLS (pp. 1–17). Ld. htps://doi.org/10.1002/9780470015902.a0000529.pub2. Hou, Y., Y., & Lin, S. (2009). Disinc gene number-genome size relaionships or eukaryoes and non-eukaryoes: Gene conen esimaion or dinoflagellae genomes. PLoS ONE, 4(9). htps://doi.org/10.1371/journal.pone.0006978. Kirchner, S., & Ignaova, Z. (2015). Emerging roles o RNA in adapive ranslaion, signalling dynamics and disease. Naure Reviews Geneics, 16, 98 - 112. htps://doi. org/10.1038/nrg3861. Krebs, J. E., Goldsein, E. S., & Kilparick, S. T. (2013). Lewin’s Genes. Unied Saes: Jones & Barlet Learning. Ku, C.-S., Vasiliou, V., & Cooper, D. N. (2012). A new era in he discovery o de novo muaions underlying human geneic disease. Human Genomics, 6 (1), 27. htps:// doi.org/10.1186/1479-7364-6-27. Li, Y., & Zhou, H. (2009). RNAs as regulaors in gene expression. Science in China Series C: Lie Sciences, 52 (3), (3), 245–252. htps://doi.org/10.1007/s11427-009-0039-y htps://doi.org/10.1007/s11427-009-0039-y.. Lodish, H., Berk, A., Kaiser, C. A., Krieger, M., Brescher, A., Ploegh, H., … Scot, M. P. Biology.. New York: W Freeman and Co. (2012). Molecular Cell Biology López-Flores, I., & Garrido-Ramos, M. A. (2012). The repeiive DNA conen o eukaryoic genomes. Genome Dynamics, 7 , 1–28. htps://doi.org/10.1159/000337118. Lynch, M. (2010a). Evoluion o he muaion rae. Trends in Geneics, 26 (8), 345–352. htps://doi.org/10.1016/j.ig.2010.05.003. Lynch, M. (2010b). Rae, molecular specrum, and consequences o human muaion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America,

107(3), 961–8. htps://doi.org/10.1073/pnas.0912629107. 30


Malone, C. D., & Hannon, G. J. (2009). Small RNAs as Guardians o he Genome. Cell, 136(4), 656- 668. htps://doi.org/10.1016/j.cell.2009.01.045. Mehrora, S., & Goyal, V. (2014). Repeiive Sequences in Plan Nuclear DNA: Types, Disribuion, Evoluion and Funcion. Genomics, Proeomics and Bioinormaics, 12 (4), (4), 164–171. htps://doi.org/10.1016/j.gpb.2014.07.003. Miller, G. (2010). The Seducive S educive Allure o Behavioral Epigeneics. Science, 329, 24 - 27. htps://doi.org/10.1126/science.329.5987.24. Milo, R., Jorgensen, P., Moran, U., Weber, G., & Springer, M. (2009). BioNumbers The daabase o key numbers in molecular and cell biology. Nucleic Acids Research, 38 (SUPPL.1), (SUPPL.1), 750–753. htps://doi.org/10.1093/nar/gkp889. Ørom, U. A., & Shiekhatar, R. (2013). Long Noncoding RNAs Usher In a New Era in he Biology o Enhancers. Cell, 154(6), 1190–1193. htps://doi.org/10.1016/j. cell.2013.08.028. Palazzo, A. F., & Lee, E. S. (2015). Non-coding RNA: wha is uncional and wha is junk? Froniers in Geneics, 6, 2. htps://doi.org/10.3389/gene.2015.00002. Parisien, M., Wang, X., & Pan, T. (2013). Diversiy o human RNA genes rom he 1000-genomes projec. RNA Biology, 10(12), 1853–1867. htps://doi.org/10.4161/ rna.27361. Parra, G., Bradnam, K., Ning, Z., Keane, T., T., & Kor, I. (2009). Assessing he gene space in draf genomes. Nucleic Acids Research, 37 (1), (1), 289–297. htps://doi.org/10.1093/ nar/gkn916. Poning, C. P., Oliver, P. L., & Reik, W. (2009). Evoluion and Funcions o Long Noncoding RNAs. Cell, 136(4), 629–641. htps://doi.org/10.1016/j.cell.2009.02.006. Raina, M., & Ibba, M. (2014). TRNAs as regulaors o biological processes. Froniers in Geneics, 5 (JUN), (JUN), 1 - 14. htps://doi.org/10.3389/gene.2014.00171. Sander, J. D., & Joung, J. K. (2014). CRISPR-Cas sysems or ediing, regulaing and argeing genomes. Na Bioech, 32 (4), (4), 347–355. Recuperado de htp://dx.doi. org/10.1038/nb.2842. Tchurikov Tc hurikov,, N. A. (2005). Molecular mechanisms o epigeneics. Biochemisry (Moscow), 70(4), 406 - 423. htps://doi.org/10.1007/s10541-005-0131-2. Treangen, Tr eangen, T. J., & Salzberg, S. L. (2012). Repeiive DNA and nex-generaion sequencing: compuaional challenges and soluions. Naure Reviews. Geneics, 13 (1), (1), 36 - 46. htps://doi.org/10.1038/nrg3117. Velman, J. a, & Brunner, H. G. (2012). De novo muaions in human geneic disease. Naure Reviews. Geneics, 13 (8), (8), 565–75. htps://doi.org/10.1038/nrg3241. Weinhold, B. (2006). Epigeneics: he science o change. Environmenal Healh Perspecives., 114 (3), A160–A167. htps://doi.org/10.1289/ehp.114-a160. Wilson, D. N., & Cae, J. H. D. (2012). The Srucure and Funcion o he Eukaryoic Ribosome. Cold Spring Harbor Perspec Biol, 4, a011536. htps://doi.org/10.1101/ cshperspec.a011536. Woodhams, M. D., Sadler, P. F., Penny, D., & Collins, L. J. (2007). RNase MRP and Biology,, he RNA processing cascade in he eukaryoic eukar yoic ancesor. BMC Evoluionary Biology 7 (Suppl (Suppl 1), S13–S13. htps://doi.org/10.1186/1471-2148-7-S1-S13. Yandell, M., & Ence, D. (2012). A beginner’s guide o eukaryoic genome annoaion. Naure Rev Gene, 13(5), 329–342. htps://doi.org/10.1038/nrg3174. 31

2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ROMAIN GUYOT SIMÓN OROZCO-ARIAS ANDREA GONZÁLEZ MUÑOZ MARCO AURELIO CRISTANCHO ARDILA

2.1. Orígenes e historia de la bioinformática La bioinormáica es un campo cienífico muy nuevo (de unas pocas décadas) y sus orígenes aún no esán claros. Además, la verdadera definición y áreas de aplicación de la bioinormáica no esán bien definidas ni comprendidas por numerosos cieníficos. La principal explicación para esa conusión en sus orígenes y definiciones radica en que la bioinormáica es un campo híbrido derivado de diversas disciplinas, ales como la genéica, biología, genómica, bioquímica, inormáica, maemáica, enre oras. La definición cora para la bioinormáica puede ser el uso de la inormáica para manejar y analizar la inormación biológica. En el 2001, el Cenro Nacional de Inormación en Bioecnología (NCBI, por sus siglas en inglés) definió claramene bioinormáica como: La bioinormáica es concepualizar la biología en érminos de las macromoléculas (en el senido ísico-químico) y luego aplicar écnicas “inormáicas” (derivadas de disciplinas como las maemáicas aplicadas, ciencia compuacional y esadísica) para enender y organizar la inormación asociada con esas moléculas a gran escala (Luscombe e al, 2001). No obsane ¿cuándo ue creada la bioinormáica y qué ipo de inormación permie enender y organizar? En la era de la secuenciación de genomas y ranscripomas a gran escala, la ercera generación de ecnologías de secuenciación y la compuación en la nube, es ineresane rasrear el origen y la hisoria de la bioinormáica. En ese capíulo describiremos brevemene su hisoria y veremos numerosos concepos y herramienas descrios y esablecidos hace más de 40 años por cieníficos pioneros. ¿Esán esas herramienas y concepos adapados a los nuevos desaíos de la secuenciación de alo rendimieno?

2.1.1. Nacimiento de la Bioinformática: convergencia de información biológica, teoría evolutiva y computadores Los orígenes e hisoria de la bioinormáica esán cercanamene relacionados con la disponibilidad de inormación biológica a “gran escala” (moléculas biológicas: proeínas y nucleóidos) y la disponibilidad de compuadores y lenguajes de programación para invesigadores académicos. Esa convergencia se logró en 1960 cuando surgieron las primeras proeínas secuenciadas, los compuadores y lenguajes de programación 32


accesibles a no inormáicos. La primera proeína secuenciada ue realizada por Frederick Sanger (1955), la insulina bovina, de 51 aminoácidos, mienras el primer méodo de secuenciación de nucleóidos ue esablecido por Ray Wu de la Universidad de Cornell, obeniéndose las primeras secuencias en 1970-1971. Rápidamene, se esablecieron las meodologías y écnicas para secuenciar proeínas y poseriormene nucleóidos (Méodos de secuenciación de nucleóidos de Sanger, Maxam y Gilber en 1977). Además del mejoramieno écnico de la secuenciación, la eoría general que sugería que las moléculas (proeínas y nucleóidos) podrían ser poradoras de inormación biológica y evoluiva se expandió por la comunidad cienífica (Hagen, 2000). En 1954, surgió uno de los lenguajes de programación de alo nivel de más amplia acepación cienífica, denominado Forran, que ue desarrollado por Backus e IBM, y liberado por IBM en 1957. Forran ue considerado de ácil aprendizaje por cieníficos, incluso es usado hoy en día. Poserior a esa convergencia, aparecen los primeros programas bioinormáicos para deerminar las secuencias de aminoácidos, las primeras bases de daos y herramienas para exraer inormación de esas. Adicionalmene, el código de aminoácidos de una sola lera ue desarrollado y liberado por Margare Dayhoff de la Fundación Nacional de Invesigación Biomédica (NBRF, por sus siglas en inglés) (Dayhoff, 1965; Dayhoff, 1974; Dayhoff e al., 1980; Orcut & Dayhoff, 1983). Margare Dayhoff y sus colegas ambién organizaron proeínas en amilias de acuerdo a sus similiudes, mediane el desarrollo de la primera mariz de similiud (PAM) y describieron méodos para predecir relaciones evoluivas, creando de aco la nueva rama cienífica de la evolución molecular. Por odos esos logros pioneros, Margare Dayhoff es considerada la undadora del campo de la bioinormáica en sus definiciones modernas (en 1980 desarrolló incluso un sisema de bases de daos en línea al que se podía acceder vía línea eleónica, la primera base de daos de secuencias disponible para la búsqueda desde compuadores remoos). Aunado a lo anerior, la base de daos pionera de Margare Dayhoff –llamada el “Alas de Secuencia y Esrucura Proeica” – ue usada para esablecer en 1984 la base de daos PIR (Recurso de Inormación de Proeína), que aún es usada 33 años después por numerosos cieníficos en odo el mundo. La relaiva acumulación de inormación biológica en los años 70 y 80 llevó al desarrollo de bases de daos de secuencias de ADN. GenBank ue undada en 1979 por Waler Goad (la ercera liberación de GenBank en 1982 enía 606 secuencias, conrasado con las ~201 millones a hoy). El EMBL ue undado en 1980 en el Laboraorio Europeo de Biología Molecular y el DDBJ ue creado en 1984 (Banco de daos de ADN de Japón). Más adelane, herramienas de búsqueda como Enrez (Sisema de búsqueda global en base de daos cruzada) ueron desarrolladas para permiir búsquedas rápidas en bases de daos vía ineraz web y palabras clave.

33

Por lo ano, con la primera base de daos de secuencias proeicas y los rabajos pioneros de homología de proeínas surgió un gran inerés en deecar homología y similiud esadísicamene significaiva enre proeínas lejanamene relacionadas, creando herramienas y algorimos para los alineamienos de secuencias (desarrollados inicialmene en los años 70). El algorimo Needleman y Wunsch, que coninúa siendo un méodo esándar y preciso para alinear dos secuencias, ue desarrollado para enconrar un alineamieno ópimo mediane un enoque de venana corrediza o sliding window (usando programación dinámica) (Needleman & Wunsch, 1970). Dicho alineamieno se conoce ahora como “alineamieno global” enre dos secuencias, pueso que el algorimo preende enconrar un alineamieno ópimo enre odos los residuos de las dos secuencias. Más adelane, Smih y Waerman ambién esudiaron y desarrollaron méodos de alineamieno local (Smih & Waerman, 1981), que consisieron en idenificar y alinear subregiones de secuencias basado en un sisema de punuación usando una mariz de similiud y un sisema de punuación de gaps. Poseriormene, los algorimos de alineamieno múliple (más de dos secuencias) ueron desarrollados por Johnson & Doolitle (1986), y esán basados en alineamienos sucesivos enre el par de secuencias más cercanas, que ahora son comúnmene usados como paso inicial para esudios filogenéicos. Ora convergencia basada en el desarrollo de bases de daos de secuencias (GenBank, EMBL y DDBJ), así como los algorimos para realizar alineamienos globales y locales y el descubrimieno de dierenes organismos que comparen homología de secuencia, promovieron el desarrollo de herramienas para la búsqueda de homología de secuencia en bases de daos. De esa orma, se desarrollaron FASTA y BLAST en 1988 y 1990, respecivamene, los cuales proporcionaron un méodo rápido para enconrar ramos coros de secuencias en grandes bases de daos de secuencia. La aplicación BLAST, acualmene usada en numerosos siios web, hace pare de las herramienas bioinormáicas más populares, ciada más de 50000 veces en arículos cieníficos y consiuye una de las más uilizadas por los cieníficos. Desde los años 80, la secuenciación de ADN, que se hizo popular en los laboraorios de biología molecular de odo el mundo, juno con el desarrollo de algorimos y bases de daos, llevaron a la deerminación de los cieníficos de disponer de programas capaces de manipular y analizar secuencias individuales o en conjuno. En los inicios, el Grupo de Compuación Genéica de la Universidad de Wisconsin (UWGCG) desarrolló un primer conjuno de programas sobre compuadores VAX (Devereux, Haeberli & Smihies, 1984) para analizar y manipular secuencias. Más arde, se hizo disponible una suie comercial de 130 programas para el análisis de secuencias (ambién llamado el Paquee Wisconsin (Wisconsin PackageTM) (Womble, 1999)). Con su insalación en un servidor Unix y disponibilidad vía remoa por erminal de línea de comandos, GCG ue muy popular para proyecos que abarcaban un gran número de

34


secuencias, mediane el uso de una sucesión de programas. Una suie de programas bioinormáicos libre y equivalene a GCG ue la llamada EMBOSS (Suie Europea de Sofware Libre para Biología Molecular) ( European Molecular Biology Open Sofware Suie ), creada en 1998 con un espíriu de código abiero (Rice, Longden & Bleasby, 2000) 1. Esa suie de programas reemplazó a GCG en un gran número de siios en el mundo. Finalmene, en los años 2000 los proyecos de secuenciación de genoma compleo de organismos eucarioas y procarioas (ales como levadura (Goffeau e al., 1996), Arabidopsis (Kaul e al., 2000) y humano (Lander e al., 2001)) llevaron a una revolución oal en el campo de la bioinormáica con el acelerado desarrollo de herramienas capaces de analizar y ensamblar miles de secuencias, juno con herramienas para anoar y analizar genomas compleos. Fue en ese momeno en que la bioinormáica salió del lado oscuro de la ciencia y se hizo ampliamene popular y esencial para las ciencias biológicas. Enre odos los insiuos que pariciparon en el desarrollo de la bioinormáica en los años 1990-2000, cabe desacar como pionero el Insiuo para Invesigación Genómica (TIGR, por sus siglas en inglés), undado por Craig Vener en 1992 (ahora inegrado al Insiuo J. Craig Vener, htp://www.jcvi.org/cms/home/), que paricipó en el desarrollo de algorimos pioneros para el ensamblaje y anoación de genomas, y orece cursos prácicos en genómica, bioinormáica para esudianes y cieníficos de odo el mundo. En ese capíulo hemos viso que numerosos concepos y herramienas que esaban disponibles desde inicios de los años 70 y 80 permiieron el desarrollo de la bioinormáica en el conexo del análisis de cienos a miles de secuencias (Figura 2.1). Acualmene exisen más de 201 millones de enradas en GenBank (que represenan más de 234 Giga pares de bases (Gpb)), 487 millones de secuencias en la división de proyecos de Whole genome shogun (WGS) (que represenan 2164 Gpb), juno con mucha más inormación almacenada en el sisema reposiorio de lecuras de secuencia Sequence Read Archive (SRA) del NCBI (más de 100 Tera pb (Tpb) para el 2011). Esos valores se duplican cada 18 meses. Esa canidad de inormación, más lo que se producirá con las nuevas ecnologías de secuencias, consiuye uno de los reos de la bioinormáica, en érminos del desarrollo de bases de daos y herramienas de análisis. Se esima que para el año 2025 se endrán daos de secuencia de al menos 1 billón de seres humanos, sin conar los daos que se obendrán a parir de oros grupos de organismos (Sephens e al., 2015). Los reos que se presenan para una ciencia como la bioinormáica ane esa avalancha de daos son enormes en el desarrollo de sisemas eficienes de ranserencia, análisis, visualización y almacenamieno de daos.

1 Inormación disponible en htp://emboss.sourceorge.ne.

35

Primera secuencia proteica (insulina bovina) por F. Sanger

Alineamiento global Needlman & Wunsch

Primera colección de secuencias proteicas (M. Dayho)

1955

1960

1965

Un sistema de base de datos de proteínas "en línea"

Técnicas de secuenciación de ADN Sanger

1970

Alineamiento local Smith & Waterman

1975

1980

Primer modelo probabilístico de evolución proteica PAM (M. Dayho)

Genoma de Arabidopsis ~20000 genomas secuenciados

Genoma de la levadura

1985

1990

1995

2000

2005

2010

2015

Base de datos PIR DDBJ Primeros programas CGC

Construcción de árboles logenéticos (Fitch & Margoliash)

Liberación del lenguaje de programación Fortran

Genoma humano

Alineamientos múltiples

GenBank

Primer microprocesador Intel 4004

EMBL Fundación de Microso

Protocolo TCP

FASTA BLAST

EMBOSS

Creación de la WWW

Figura 2.1. Línea del iempo del origen de la bioinormáica.

2.2. Bioinformática y biología computacional: hardware, sistemas operativos, sistemas de conectividad, lenguajes de programación, bases de datos y repositorios La bioinormáica hace pare de un área mayor que es la biología compuacional, la cual involucra la combinación de las ciencias compuacionales para la solución de problemas biológicos. Como ciencia compuacional, la bioinormáica requiere del uso de ecnologías e inraesrucura de alo rendimieno para el almacenamieno, procesamieno y manipulación de daos, las cuales esán basadas en: hardware, sisemas operaivos, sisemas de conecividad y lenguajes de programación adecuados para su aplicación a grandes volúmenes de daos. Además, la bioinormáica depende ueremene de bases de daos y reposiorios para el almacenamieno, disponibilidad pública y búsqueda de oda la inormación biológica.

2.2.1. Computación de alto rendimiento (HPC) y computación en paralelo Respeco al hardware, la bioinormáica se susena acualmene en el uso de clúseres (conjuno de equipos de cómpuo, llamados nodos, unidos a ravés de una red de daos de ala velocidad, que se comporan como un solo equipo de compuación de alo 36


rendimieno ( High Perormance Compuing HPC), o compuación en la nube, que se basa en procesamieno de daos llevado a cabo en máquinas viruales alojadas en servidores remoos (Sephens e al., 2015). Una arquiecura de clúser HPC esá compuesa generalmene por uno o varios nodos maesros, los cuales se encargan de la adminisración de oda la arquiecura, la ineracción direca con el usuario y el monioreo de servicios; varios nodos de procesamieno, que se encargan de ejecuar los procesos soliciados por el usuario; un sisema de archivos disribuido; y un esquema de inerconexión de alo rendimieno, como Eherne, Myrine o Infiniband, que permien una conexión en red veloz, con baja laencia, para ranserir daos enre nodos del clúser. Además, cada nodo esá compueso por unidades de procesamieno, bien sea solo CPUs o en combinación con GPUs y MICs, con memoria comparida y/o disribuida (Barrios, Ceballos & Bedoya, 2014). Para sacar provecho de ese ipo de inraesrucuras se deben usar esraegias de paralelismo que conemplen múliples recursos al mismo iempo, como varios CPUs de un mismo nodo, varios compuadores o incluso usar más de una ecnología de procesamieno simuláneamene (CPUs, GPUs, MICs, enre oros), a ravés de compuación paralela (Ocaña & de Olieira, 2015; Orozco-Arias e al., 2017). La ineraz de paso de mensajes (MPI) es considerada el esándar por deeco en la programación paralela (Khan, Jameel & Shafi, 2014), la cual permie la comunicación de procesos que corren en simuláneo sobre la misma máquina o incluso en dierenes nodos. Exisen dierenes paradigmas de paralelismo, ales como: ejecuar procesos independienes simuláneamene, descomponer el problema en areas y ejecuarlas en paralelo, y añadir paralelismo a nivel de insrucciones, dividiendo el problema en pasos y ejecuándolos en paralelo, cada uno procesando dierenes daos (Aguilar & Leiss, 2004). La capacidad de procesamieno de los supercompuadores acuales alcanza los peaflops 2 y ha generado impaco en innovación en dierenes áreas de la ciencia y la ingeniería, al converirse en uno de los res pilares de la ciencia (Fernández-González e al., 2015).

2.2.2. Sistema operativo Linux/UNIX Con respeco a sisemas operaivos usados para análisis bioinormáicos, es muy imporane que quien desee adenrarse en el mundo de la biología compuacional y la bioinormáica aprenda a rabajar con acilidad desde la línea de comandos de UNIX/ Linux. Una impresión que aún se conserva enre la mayoría de los usuarios de PCs es que Linux es muy complicado de insalar y de enender, pero en los úlimos años la insalación y el acceso a las dierenes disribuciones de Linux se ha simplificado dramáicamene, hasa al puno que ya no es necesario ener vasos conocimienos inormáicos para insalar alguna de esas en un compuador personal. Así mismo, ha ayudado mucho en la ransición a sisemas operaivos Linux, el hecho de que muchas de las disribuciones 2 Flops (Floaing poin operaions per second) (Operaciones de coma floane por segundo) es la unidad de medida de rendimieno en HPC.

37

esán presando especial aención a crear ineraces gráficas amigables y que no suponen un cambio drásico para usuarios radicionales. La imporancia de amiliarizarse con cualquier sisema operaivo basado en Linux radica en que la mayoría de las mejores herramienas disponibles en ese campo esán diseñadas para ser uilizadas desde la línea de comandos, debido a que permie un gran conrol sobre la orma en que se ejecua el programa, desde especificar las opciones hasa poder correr múliples rabajos al mismo iempo y ener un conrol oal de los procesos. Al respeco, en la publicación de Junio de 2017 de la reconocida lisa Top500 de las 500 supercompuadoras más rápidas del mundo, el 99,6% de esas supercompuadoras corren bajo un sisema operaivo Linux. Las supercompuadoras resanes (2) uncionan bajo un sisema operaivo IBM AIX, que es una variane del sisema UNIX.

2.2.3. Lenguajes de programación Además de un sisema operaivo que adminisre los recursos de hardware de manera eficiene, los análisis bioinormáicos ambién dependen de programas y herramienas para realizar el procesamieno y areas de análisis sobre los daos. Esos programas esán escrios en lenguajes de programación (y aunque exisen muchos), los más usados son Perl, Pyhon, Java, R, C y C++, enre oros. Un lenguaje de programación se emplea para crear programas, scrips y algorimos, y es un lenguaje ormal de compuación que permie la realización de procesos a ravés de insrucciones que son comunicadas al compuador (Ben-Ari, 2006). En ano exisen dierenes lenguajes de programación, un mismo programa desarrollado en dierenes lenguajes puede variar rene a la eficiencia y velocidad para llevar a cabo las areas (Fourmen & Gillings, 2008). Eso se debe a que los lenguajes pueden variar en cuano a la orma de ser implemenados (compilados o inerpreados), el paradigma que siguen (imperaivos, declaraivos u orienados a objeos) y la orma de manipular daos o variables, enre muchos oros aspecos. Por lo anerior, cada lenguaje iene sus venajas y, por lo ano, es más adecuado para uno u oro fin. En ese senido, Perl es un lenguaje poene para escribir scrips; Pyhon es un lenguaje de ácil codificación; Java es un lenguaje porable orienado a objeos; R es un lenguaje y ambiene para compuación esadísica; finalmene, C y C++ son muy eficienes en sisemas operaivos y conroladores. De esa manera, la programación en bioinormáica deermina varios aspecos compuacionales en un análisis de daos, como espacio de memoria y almacenamieno requerido, velocidad de compuación y vinculación enre dierenes programas involucrados en un mismo análisis global (implemenado en los llamados pipelines o flujos), enre oros (Fourmen & Gillings, 2008).

38


2.2.4. Bases de datos y repositorios ¿Cuána inormación hay disponible? Si nos basáramos en los daos de secuencias de genes obenidos hasa ahora –201663568– se requerirían aproximadamene unos 20 exabyes de espacio de almacenamieno [un exabye equivale a 200000 películas de Bluray], desde que Genbank hizo accesible su base de daos de secuencias de ADN en 1992. Sin embargo, con las nuevas ecnologías de secuenciación masiva esos daos rápidamene se han converido en el doble de secuencias – 487891767–, generadas en an solo 15 años. ¿Dónde se almacena oda esa inormación? La inormación exisene acualmene se almacena, procesa, usa y maniene en bases de daos que se incremenan por la incorporación de secuencias proporcionadas por invesigadores de odas pares del mundo. Esas bases de daos son accesibles desde cualquier lugar del mundo a ravés de Inerne y conienen inormación no solo de secuencias de ADN o secuencias proeicas, sino que ienen asociada oda una colección de publicaciones y exos cieníficos. Las secuencias de ADN se manienen en res grandes bases de daos que sirven a la comunidad cienífica: EMBL (European Molecular Biology Laboraory); GenBank (he NIH geneic sequence daabase) y DDBJ (DNA Daabase o Japan). La más reciene edición especial de la revisa cienífica Nucleic Acids Research describe que exisen al menos 1685 bases de daos de biología molecular (Rigden, Fernández-Suárez & Galperin, 2015), lo que demuesra la explosión de daos con que cuenan los invesigadores de las áreas de las ciencias biológicas.

2.3. ‘Big Data’ en Bioinformática Hemos viso que la bioinormáica esá orienada al análisis de los daos que se producen en las ciencias ómicas, las cuales incluyen la genómica, ranscripómica, meagenómica, proeómica, meabolómica, enre oras. En conjuno, esas ómicas componen un conocimieno exensivo e inegral de los sisemas biológicos a dierenes niveles y represenan canidades masivas de inormación, hasa al puno que la canidad de daos biológicos exisene acualmene alcanza los exabyes (EB), equivalene a 10 6 Terabyes (TB) (Li & Chen, 2014). Por esa razón, se habla acualmene de ‘Big Daa’ en bioinormáica, por lo cual esa disciplina se esá enrenando a los desaíos ecnológicos que surgen a la hora de adquirir, almacenar, disribuir, analizar e inegrar Big Daa para la exracción de nuevo conocimieno. Big Daa se ha definido como odo el conjuno de daos que no se pueden procesar o analizar uilizando procesos o herramienas radicionales como bases de daos relacionales o ablas de Excel. Así, la bioinormáica se ha enrenado al reo de opimizar procesos en relación con el manejo del volumen de daos, la velocidad de procesamieno de los daos y la variabilidad inherene a los daos biológicos. Traar con Big Daa en biología es esencial, pueso que la nauraleza compleja y heerogénea de un sisema biológico ameria

39

invesigaciones que abarquen grandes amaños de muesra e inegren daos de dierenes niveles biológicos, con el fin de obener una visión global y dinámica de los procesos y enómenos biológicos. Un aspeco que ha conribuido a la acelerada producción de daos ha sido la posibilidad de que invesigadores pariculares puedan generar grandes volúmenes de daos de secuencia, lo cual hace una década requería de una red de cenros de secuenciación (McCulloch, 2013). A ese respeco, el proyeco de secuenciación del genoma humano represenó un esuerzo de 13 años de rabajo y la colaboración inernacional de invesigadores cieníficos de dierenes cenros de invesigación alamene reconocidos, con un presupueso aproximado de 2,7 mil millones de dólares, financiado principalmene por los Insiuos Nacionales de Salud (Naional Insiues o Healh NIH) y el Deparameno de Energía (Deparmen o Energy DOE) de los Esados Unidos, así como por oros grupos a nivel mundial. Acualmene, un grupo de invesigación pequeño puede obener un genoma humano secuenciado en an solo 26 horas y por un coso cercano a los $1000 dólares. Ese panorama ha empoderado a invesigadores en odo el mundo para poder realizar invesigaciones cieníficas a nivel ómico, permiiendo la disponibilidad de daos que lleven a ormular diversas pregunas de invesigación a parir de los mismos, en comparación con la generación de daos para responder una preguna deerminada (McCulloch, 2013). Exisen cinco ipos principales de daos en bioinormáica, a saber: daos de expresión génica; daos de secuencia de ADN, ARN y proeínas; daos de ineracción proeínaproeína; daos de vías meabólicas y daos de Gene Onology (Kashyap e al., 2014). Por consiguiene, la bioinormáica ambién cumple la unción de conribuir con reposiorios y bases de daos para oda esa variedad de inormación biológica, además de proporcionar mejores recursos y herramienas compuacionales para la manipulación y análisis de daos (Sephens e al., 2015). Como vimos aneriormene, la compuación en paralelo y la compuación de alo rendimieno (HPC) –represenada en nubes, clúseres, redes y unidades de procesamieno gráfico–, implican un gran avance porque reducen el iempo oal de procesamieno de grandes volúmenes de daos y acilian el manejo de los mismos, dado que no es posible analizar Big Daa biológica en compuadores personales (Ocaña & de Oliveira, 2015). La enorme canidad de daos ómicos, inexplorados en su gran mayoría, ha conducido a un cambio de enoque en las ciencias biológicas, desde una ciencia impulsada por hipóesis a una ciencia de daos impulsada por el descubrimieno de conocimieno nuevo a parir de daos disponibles, siguiendo meodologías libres de hipóesis (Rati, 2015). Eso ha apoyado el auge de la generación de daos, pueso que un gran número de invesigaciones en años recienes se han orienado a obener secuencias de genomas, ranscripomas o proeomas compleos con el fin de explorar la inormación conenida en ellos, sin ener alguna hipóesis específica que se desee comprobar.

40


En ese senido, la exracción e inerpreación de la inormación a parir de bases de daos y reposiorios ómicos usando algorimos bioinormáicos es de gran imporancia (Trionova e al., 2013). No obsane, con el gran volumen de daos capaces de ser generados, ambién ha surgido una ala redundancia en los daos en cada nivel analizado, lo que a su vez presena un desaío para analizar la inormación y exraer conocimieno (Sarkar, 2016). De esa orma, para Big Daa en daos biológicos, igualmene ha sido muy necesaria la aplicación de écnicas esadísicas y maemáicas para la inegración de daos, así como de esraegias para reducir el espacio de búsqueda en un conjuno grande de daos (Sarkar, 2016), con el fin de exraer inormación relevane en un conexo biológico dado, eviando perderse en un océano de Big Daa.

41

2.4. Referencias Aguilar, J.L., & Leiss, E. (2004). Inroducción a La Compuación Paralela. Mérida: ediorial venezolana. Barrios, C.J., Ceballos,D., & Bedoya, D. (2014). SC Camp 2014: Concepos Generales Sobre HPC Con Ejercicios Prácicos Aplicados a Bioinormáica. Manizales, Colombia: Memorias del SC Camp 2014. Ben-Ari, M. (2006). Undersanding Programming Languages. Chicheser: John Wiley & Sons, Ld. Dayhoff, M. O. (1974). Compuer Analysis o Proein Sequences. En Compuers in Lie Science Research (pp. 9–14) .Esados Unidos: Springer. Dayhoff, M. O., Schwarz, R. M., Chen, H. R., Hun, L. T., Barker, W. C., & Orcut, B. C. (1980). Nucleic acid sequence bank. Science, 209 (4462), 1182-1182. Dayhoff, M.O. (1965). Compuer Aids o Proein Sequence Deerminaion. Journal o Theoreical Biology, 8 (1), 97–112. Devereux, J., Haeberli, P., & Smihies, O. (1984). A Comprehensive Se o Sequence Analysis Programs or he VAX. Nucleic Acids Research, 12 (1), 387–95. Fernández, A., Rosillo, R., Dávila, J., & Maellán, V. (2015). Hisorical Review and Fuure Challenges in Supercompuing and Neworks o Scienific Communicaion. The Journal o Supercompuing, 71 (12), 4476 – 4503. Fourmen, M., & Gillings, M. (2008). A Comparison o Common Programming Languages Used in Bioinormaics. BMC Bioinormaics, 9 (1), 82. Goffeau, A., Barrell, B. G., Bussey, H., Davis, R. W., Dujon, B., Feldmann, H., & Louis, E. (1996). Lie wih 6000 Genes. Science, 274(5287), 546–567. Hagen, J.B. (2000). The Origins o Bioinormaics. Naure Reviews Geneics, 1 (3), 231– 36. Johnson, M.S., & Russell, F. D. (1986). A Mehod or he Simulaneous Alignmen o Three or More Amino Acid Sequences. Journal o Molecular Evoluion, 23 (3), 267–78. Kashyap, H., Ahmed, H. A., Hoque, N., Roy, S., & Bhatacharyya, D. K. (2015). Big Daa Analyics in Bioinormaics: A Machine Learning Perspecive. Journal o Laex Class Files, 13 (9), 1–20. Kaul, S., Koo, H. L., Jenkins, J., Rizzo, M., Rooney, T., Tallon, L. J., & Town, C. D. (2000). Analysis o he Genome Sequence o he Flowering Plan Arabidopsis Thaliana. Naure, 408 (6814), 796–815. Khan, O., Jameel, M., & Shafi, A. (2014). High Perormance Message-Passing InfiniBand Communicaion Device or Java HPC. Procedia Compuer Science, 29, 1468–79. Lander, E. S., Linon, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., ... & Funke, R. (2001). Iniial Sequencing and Analysis o he Human Genome. Li, Y., & Chen, L. (2014). Big Biological Daa: Challenges and Opporuniies. Genomics, Proeomics & Bioinormaics, 12, 187–89. Luscombe, N. M., Greenbaum, D., & Gersein, M. (2001). Wha Is Bioinormaics? A Proposed Definiion and Overview o he Field. Mehods o Inormaion in Medicine, 40(4), 346–58. 42


McCulloch, E. S. (2013). Harnessing he Power o Big Daa in Biological Research. BioScience, 63 (9), 715–16. Needleman, S. B., & Wunsch, C. D. (1970). A General Mehod Applicable o he Search or Similariies in he Amino Acid Sequence o Two Proeins. Journal o Molecular Biology, 48 (3), 443–53. Ocaña, K., & de Oliveira, D. (2015). Parallel Compuing in Genomic Research: Advances and Applicaions. Advances and Applicaions in Bioinormaics and Chemisry, AABC (8), 23–35. Orcut, B. C., George, D. G., & Dayhoff, M. O. (1983). Proein and Nucleic Acid Sequence Daabase Sysems. Annual Review o Biophysics and Bioengineering, 12 (1), 419–41. Orozco, S., Tabares, R., Ceballos, D., & Guyo, R. (2017). Parallel Programming in Biological Sciences, Taking Advanage o Supercompuing in Genomics. En Colombian Conerence on Compuing (pp. 627–43). Cham, Alemania: Springer Inernaional Publisching. Rati, E. (2015). Big Daa Biology : Beween Eliminaive Inerences and Exploraory Experimens. Philosophy o Science, 82 (2),198–218. Rice, P., Longden, I., & Bleasby, A. (2000). EMBOSS: The European Molecular Biology Open Sofware Suie. Rigden, D.J., Fernández-Suárez, X.M., & Galperin, M.Y. (2015). The 2016 Daabase Issue o Nucleic Acids Research and an Updaed Molecular Biology Daabase Collecion. Nucleic Acids Research, 44 (D1), D1-D6. Sarkar, R.R. (2016). The Big Daa Deluge in Biology: Challenges and Soluions. Journal o Inormaics and Daa Mining 1 (2), 14. Smih, T.F., & Waerman, M.S. (1981). Idenificaion o Common Molecular Subsequences. Journal o Molecular Biology, 147 (1), 195–97. Sephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Eron, M. J., & Robinson, G. E. (2015). Big Daa: Asronomical or Genomical? PLoS Biology 13 (7), 1–11. Trionova, O. P., Il’in, V. A., Kolker, E. V., & Lisisa, A. V. (2013). Big Daa in Biology and Medicine. Aca Naurae 5 (3(18)), 13–16. Womble, D.D. (1999). GCG: The Wisconsin Package o Sequence Analysis Programs. Bioinormaics Mehods and Proocols, 3–22.

43

3. SECUENCIA SECUENCIACIÓN CIÓN ASTRID CATALINA ALVAREZ-YELA

El descubrimieno de la esrucura de doble hélice del ácido desoxirribonucleico (ADN), hecho por Wason & Crick en 1953, ue sin duda uno de los hechos más rascendenales de odos los iempos en la biología molecular. A parir de ese momeno se empezaron a descirar los procesos celulares que subyacen en el dogma cenral de la biología molecular y que deerminan las caracerísicas biológicas de los seres vivos. Desde enonces los esuerzos en invesigación se enocarían en enrar en esa doble hélice, leerla y descirar la disribución de las bases nirogenadas que habían sido descrias en 1953. En ese capíulo haremos un recorrido a ravés del iempo para conocer los méodos y écnicas bioquímicas que han sido desarrolladas para deerminar la secuencia de nucleóidos del ADN. Describiremos las principales caracerísicas de las ecnologías desarrolladas comercialmene, eniendo en cuena los méodos bioquímicos que emplean, sus rendimienos, asas de error y las venajas que orecen.

3.1. Secuenciación de primera generación 3.1.1. Secuenciación Sanger En 1977, el laboraorio de Frederick Sanger publicó el méodo de la erminación de la cadena para secuenciación de maerial genéico (Morozova & Marra, 2008), que más arde sería reconocido como el méodo Sanger, y que se convirió en el primer paso hacia un mundo de posibilidades ilimiadas en invesigación cienífica a nivel genéico. El méodo se basa en la sínesis de la cadena complemenaria de un molde de ADN en presencia de 2’, 3’-dideoxinucleóidos (ddNTPs), que acúan como erminadores de cadena irreversibles. En ese méodo el ADN que se analiza es clonado in vivo usando vecores bacerianos, para obener una canidad suficiene de la muesra. Poseriormene, el ADN se exrae de los vecores y se usa para el proceso de secuenciación en cuaro reacciones independienes. Las reacciones se llevan a cabo en cuaro ubos dierenes que conienen los reacivos de polimerización de ADN (cebadores, polimerasa, 2’-deoxinucleóidos (dNTPs), ec.) y sólo uno de los cuaro dierenes ddNTPs. Cuando un ddNTP es inroducido en la cadena, el proceso de exensión ermina y, como se desarrolla simuláneamene en las dierenes copias del genoma, se obienen ragmenos de dierenes longiudes con un úlimo nucleóido en común. Los producos de reacción son analizados en un gel de elecroore elecrooresis sis de poliacrilamida en el que se cargan en cuaro pozos y se revelan gracias a la fluorescencia incorporada en cada base. Finalmene, las bandas de corrida se analizan y la posición de cada nucleóido en el gel es regisrada para elucidar la composición de la secuencia esudiada (Kircher & Kelso, 2010). 44


Poseriormene, dierenes avances en los insrumenos de deección y en maeriales permiieron que el méodo Sanger uviera mejoras imporanes en la canidad de daos que podía generar y en el iempo del proceso. La reacción de secuenciación se basa en una modificación de la cadena de polimerasa (PCR, por sus siglas en inglés) con dideoxinucleóidos marcados con fluoróoros y se mejora la velocidad de separación de los ragmenos de ADN por el reemplazo de los geles de poliacrilamida por los de elecrooresis elecroor esis capilar en 1990 (Prober e al., 1987). Además se inroduce el análisis paralelo de varias muesras por medio de arreglos de capilares (Cohen e al., 1988), y se disminuye las canidades de maerial genéico g enéico requerido para el proceso. Con la ecnología Sanger disponible acualmene, alrededor de 384 muesras pueden analizarse de orma paralela y pueden generarse lecuras de 600 a 1000 pb. Los rendimienos con un equipo de 96 capilares han sido esimados en 6 megabyes (Mb) de secuencias por día con cosos aproximados de USD $500 por Mb (Kircher & Kelso, 2010). Los errores principales de la secuenciación se deben a sesgos durane la amplificación in vivo, que pueden presenarse dependiendo del vecor uilizado, baja resolución de la polimerasa en regiones repeiivas y homopoliméricas, poca reproducividad de varianes en los exremos de las secuencias, mala asignación de bases y deleciones que se incremenan con la longiud de las lecuras. Sin embargo, esa ecnología es una de las que presenan -6 menores asas de error, alrededor de ≈ 10 , y ha sido ampliamene usada en invesigación cienífica. Esas caracerísicas marcaron marcaron la capacidad del primer equipo de secuenciación, denominado poseriormene como equipo de primera generación. Algunas de las plaaormas comerciales basadas en el méodo de Sanger ueron: •

•

•

ABI Prism 310: ue lanzada en 1996 como el primer secuenciador capilar. GE Healtcare MegaBACE - ABI Prism 3700 DNA Analyzer: lanzadas en 1998 y 1999 como los primeros secuenciadores capilares paralelizados con 96 capilares en un solo sisema. ABI 3710xl: equipo lanzado en el 2000 con un arreglo de 96 capilares y capaz de producir 900 lecuras con un Phred de 20, para un rendimieno oal de 96 kb/3 horas.

La ecnología Sanger dominó el mercado durane 30 años en los que permiió la obención del primer genoma secuenciado, correspondiene al bacerióago φX 174 174 (5.386 pb), acilió el esudio de genomas pequeños de dierenes microorganismos y conribuyó significaivamene a la secuenciación del genoma humano. Esos resulados impulsaron iniciaivas para el desarrollo de nuevas ecnologías, como por ejemplo, el programa de los 1000 genomas del Insiuo Nacional de Salud (NIH) y el Insiuo Nacional de Invesigación del Genoma Humano (NHGRI) de los Esados Unidos, financiado con más de 70 millones de dólares (Mardis, 2011). Dicho desarrollo se hizo angible en el 2005, con un cambio oal en la concepción de los equipos de secuenciación y el surgimieno de las plaaormas de nueva generación (del inglés: Nex Generaion Sequencing ).). 45

3.2. Secuenciación de segunda generación La secuenciación de nueva generación o NGS, ha supueso una revolución en las ciencias de la vida en los úlimos diez años, eniendo mayor relevancia en la biomedicina y en la agronomía, sin embargo ambién ha adquirido una imporancia en el esudio de la diversidad biológica permiiendo el genoipado de miles de marcadores en cienos de individuos (Schmuz, 2010). Las nuevas plaaormas cenran sus esuerzos en la creación de librerías genómicas para secuenciación, en la paralelización del proceso y en el análisis de grandes canidades de daos; esas son las res principales caracerísicas que compararemos en ese capíulo porque represenan a los equipos lanzados al mercado como equipos de segunda generación, y las que han deerminado el éxio y la permanencia de las grandes compañías a ravés del iempo. Ora de las caracerísicas novedosas de las ecnologías NGS es la probabilidad de secuenciar ragmenos de ADN desde sus dos exremos, generando librerías pareadas para el análisis. Si dichas secuencias pareadas se obienen de ragmenos lineales, se denominan librerías paired end (PE) y si se obienen de ragmenos circulares, nos reeriremos a librerías mae pair (MP). (MP). Los amaños de insero aproximados para las libreríaspaired end van desde 300 a 500 pb, mienras que las mae pair alcanzan alcanzan longiudes de 1,5 a 20 kilobyes (Kb), generando mayor inormación sobre opologías esrucurales del ADN (Mardis, 2011). La venaja de ese ipo de implemenaciones es que permien descubrir variaciones esrucurales en el genoma, porque se reduce la probabilidad de que los alineamienos a un genoma de reerencia sean al azar, al resringirlos por dos lecuras que deben ir acopladas.

3.2.1. Secuenciación 454 La primera ecnología de NGS lanzada al mercado se denominó 454, ue producida por Roche Lie Science en 2005 e inauguró el uso de PCR en emulsión para procesos de secuenciación. Para iniciar el análisis, el ADN es paricionado en dierenes ragmenos a los que se les agregan adapadores en los exremos, dichos adapadores permien su capura denro de perlas de esrepavidina que son incorporadas en goas de emulsión. Esas goas ienen odos los reacivos de una reacción de PCR y acúan como pequeños reacores en los que se producen alrededor de 107 copias de un molde de ADN (Margulies e al., 2005). Idealmene, en cada goa de emulsión se ha cargado un único ragmeno de ADN y, por ano, las copias son idénicas y alamene fieles al molde. Cuando las copias esán lisas se procede a su secuenciación sobre una placa picoiuladora, la cual permie el análisis de los millones de ragmenos generados de manera simulánea a ravés de un proceso denominado pirosecuenciación. Esa ecnología idenifica incorporaciones individuales de nucleóidos por medio de una cascada de reacción que 46


ermina en la producción de luz ácilmene deecada por el equipo. El proceso inicia cuando las soluciones de polimerización, con cada uno de los dNTPs marcados, son adicionadas de orma secuencial a la placa picoiuladora y se libera piroosao (PPi) cuando un nucleóido es incorporado a la cadena en exensión. Ese piroosao es ransormado a ATP por una ATP sulurilasa y el ATP es capado por una lucierasa que lo usa para emiir luz (Kircher & Kelso, 2010). La producción de quimioluminiscencia es deecada por una cámara con disposiivo de carga acoplada. Los resulados son analizados y la presencia de los picos de luz permie esablecer el orden de los nucleóidos en la secuencia analizada. El méodo ue paralelizado poseriormene para poder incorporar cerca de 2 millones de pozos en una única placa, donde se alojan perlas de 28 �m de diámero cubieras con las cadenas sencillas a ser analizadas. Esa ecnología ue adquirida por Roche en 2007. Con 454 pueden generarse lecuras de 100 a 500 pb con un rendimieno aproximado de 80 a 120 Mb en 4 horas (750 Mb en un día), con un coso esimado de USD $20 por Mb (Kircher & Kelso, 2010; Morozova & Marra, 2008). Sin embargo, algunas de las limiaciones de la ecnología residen en la incorreca esimación de regiones homopoliméricas, pequeñas inserciones/deleciones, errores asociados a la incorporación de más de un ragmeno en una perla de amplificación o la reducción de la eficiencia de las enzimas, con una consecuene disminución en la inensidad de la señal emiida. Lo anerior conlleva asas de error más alas que las de Sanger, alrededor de ≈ 10-3 ó 10-4, pero menores a las de oras ecnologías. Debido a sus caracerísicas, 454 ha sido la ecnología más uilizada en invesigaciones cieníficas con más de 100 publicaciones y ha sido alamene recomendada para la idenificación de polimorfismos de nucleóido simple (SNPs). Roche desconinuó su producción en 2016 por los bajos rendimienos y alos cosos rene a sus compeidores. Algunas de las plaaormas comerciales de 454 ueron: •

•

•

454 GS20: ue lanzada en el 2005 como el primer secuenciador comercial de Roche. Producía lecuras de 100 pb y enía una capacidad de 20 mega pares de bases (Mpb) por corrida. 454 GS FLX Titanium: ese equipo ue lanzado comercialmene en 2007, generaba lecuras de 300 a 500 pb y enía una capacidad de 450 Mpb por corrida. Fue ampliamene usado para esudios que involucraban el mapeo y ensamblaje de genomas. 454 GS Junior: equipo lanzado en 2009 como la versión de escriorio del GS FLX, con una capacidad de 35 Mb por corrida, produciendo lecuras de 400 pb. Sus caracerísicas lo hicieron úil para proyecos de ranscripómica y meagenómica.

47

3.2.2. Secuenciación SOLiD En búsqueda de innovación y con una ecnología dierene, Applied Biosysems desarrolló la plaaorma de secuenciación SOLiD que llegó al mercado con su primer equipo comercial en 2007. Esa ecnología se basa en secuenciación por ligación que, de orma equivalene a como se hace en 454, uiliza PCR en emulsión para la creación y amplificación de las librerías. La dierencia radica en que, en ese caso, los producos de reacción son ranseridos a una placa de vidrio donde se produce la secuenciación por medio de rondas secuenciales de hibridación y ligación. La secuenciación inicia con la adición de cebadores universales que son complemenarios a los adapadores de los producos de PCR y de sondas de nucleóidos marcadas fluorescenemene, sobre la placa de vidrio. Cada sonda esá compuesa por dos bases conocidas y una serie de seis bases degeneradas y universales, que pueden parearse con cualquier molde de nucleóidos (Goodwin e al., 2016). Esas sondas se inercepan con los amplicones a analizar y una ligasa se encarga de hacer la incorporación química, se lava el exceso de reacivos y se revela la idenidad de las bases incorporadas. Poseriormene, se remueve el fluoróoro y las res úlimas bases degeneradas de la cadena en exensión, se lava nuevamene la celda y se complea un ciclo de ligación. Ese proceso se repie de al modo que se genera una cadena en la que se conocen dos bases cada res bases sin idenidad. La cadena generada se desnauraliza y se remueve del molde para iniciar oro ciclo de hibridación. En los siguienes cinco ciclos de hibridación se uilizan cebadores más coros que los uilizados previamene, con la dierencia en una base (n-1), de modo que al complear el proceso cada nucleóido es analizado por duplicado permiiendo la discriminación enre un error de secuenciación y un polimorfismo en la secuencia (Moorhie, Matocks & Wrigh, 2011). Exisen 16 sondas de acuerdo a las combinaciones de dinucleóidos que se pueden rasrear y que esán marcadas fluorescenemene por cuaro coloranes, dando como resulado un campo de color que debe ser regisrado y analizado por el disposiivo para generar la secuencia complea (Goodwin e al., 2016). En 2008, y después de muchas ransiciones corporaivas, Applied Biosysems pasó a ser Lie Technologies. En el 2013, Thermo Fisher adquirió la compañía y es quien acualmene comercializa equipos basados en la ecnología inicial. SOLiD puede generar lecuras de 25 a 75 pb con un rendimieno aproximado de 1-3 gigabye (Gb) en ocho días. Uno de los principales errores de la plaaorma es la baja represenación de regiones ricas en GC, errores de susiución y el llamado de alsas varianes, que conribuyen al error oal -3 aproximado de ≈ 10 a 10-4 (Goodwin e al., 2016; Kircher & Kelso, 2010). Así mismo, se presenan errores asociados a la creación de las librerías, mezcla de secuencias denro de las perlas de reacción, desase en la secuenciación, remoción incomplea de los coloranes y derimeno de la señal de los marcadores (Kircher & Kelso, 2010). En general, sus caracerísicas han hecho que sea uilizada con éxio en proyecos de genómica, ranscripómica y epigenéica, pueso que presena alas asas de precisión para deección de muaciones y variabilidad genéica. 48


Algunas de las plaaormas comerciales de SOLiD son: •

•

•

SOLiD 3 plus: equipo comercial desde 2009 con un rendimieno de 60 Gb por corrida y una precisión de 99,94% en los procesos de secuenciación. Puede generar lecuras MP 2 x 50 pb y lecuras individuales de 50 pb. 5500xl SOLiD: equipo de escriorio lanzado al mercado en el 2011, puede producir lecuras MP 2 x 60 pb y PE 75 pb x 35 pb, con una capacidad oal de 600 Gb por corrida (Lie echnologies). 5500w SOLiD: equipo lanzado en 2012 con una precisión de 99,99%. Recomendado para deección de alelos de baja recuencia en invesigaciones asociadas a enermedades. Puede producir hasa 320 Gb por corrida, con lecuras PE 2 x 50 pb.

3.2.3. Secuenciación Ion Torrent TM En 2010, la compañía Lie Technologies lanzó la primera plaaorma basada en deección ópica de los iones H + que son liberados como resulado de la incorporación de un nucleóido en un proceso de sínesis de ADN. El sisema usa un sisema semiconducor inegrado y un ransisor de eeco de campo sensible a iones (ISFET), para deecar el cambio en el pH generado por los iones liberados (Goodwin e al., 2016). Inicialmene, se preparan las librerías de orma equivalene a la descria para 454, de modo que se usa PCR en emulsión para clonar los ragmenos de ADN a analizar. Poseriormene, las perlas con los amplicones son disribuidas en micropozos donde se da la secuenciación por sínesis, los nucleóidos son adicionados a la reacción de orma secuencial, se incorporan y generan una señal de volaje, como resulado del cambio de pH, que es deecada por el sensor (Reuer, Spacek & Snyder, 2015). Ion TorrenTM puede generar lecuras de 35 a 400 pb con un rendimieno aproximado de 50 Mb-15 Gb en 2-7 horas (Goodwin e al., 2016). Sus asas de error se deben a la poca discriminación de las regiones homopoliméricas que son mayores a seis pb e inserciones/ deleciones. Algunas de las plaaormas comerciales de Ion Torren TM son: •

•

•

Ion Proton: equipo comercializado desde el 2012, produce lecuras de 200 pb con una capacidad hasa de 10 Gb (Reuer, Spacek & Snyder, 2015). Recomendado para secuenciación de exomas y análisis de ranscripoma compleo. IonPersonal Genome Machine (PGM) Dx: equipo lanzado en el 2016, produce lecuras de 400 pb con una capacidad de 1 Gb por corrida (Reuer e al., 2015). Úil para resecuenciación de genomas y análisis de genomas pequeños. Ion S5 XL: equipo lanzado en 2016 con un sisema de preparación de librerías (Ion Che) y de cargado del sisema para auomaizar odo el proceso. Sin embargo, no genera librerías pareadas (Goodwin, McPherson & McCombie, 2016). Produce lecuras de 200 a 600 pb, con una capacidad máxima de 16 Gb por corrida. 49

3.2.4. Secuenciación Illumina® En el 2006, Solexa inrodujo su primer equipo comercial basando su ecnología en una secuenciación por sínesis que emplea ddNTPs modificados. Esos nucleóidos ienen marcadores fluorescenes removibles y acúan como erminadores reversibles. En el 2007 Solexa ue adquirido por Illumina® y la compañía inició su carrera de éxio en la secuenciación de cienos de genomas de microorganismos, planas y animales, conviriéndose en una de las más imporanes a nivel mundial. El proceso de secuenciación de Illumina® inicia con la disrupción del ADN y la creación de librerías a parir de ragmenos de cadena sencilla que son ligados a dos ipos de adapadores. Los primeros adapadores permien que los ragmenos a analizar se unan a una celda de flujo y conienen una zona para ligación de cebadores. Cuando esán en la celda, las moléculas se flexionan y se hibridan con oligonucleóidos complemenarios al adapador del exremo libre, de modo que se orma una esrucura de puene en la que se da la sínesis de racimos de cadenas complemenarias. Al final del proceso, cada racimo puede conener hasa 1000 copias de un solo ragmeno (Morozova & Marra, 2008). Las cadenas complemenarias consiuyen amplicones obenidos por PCR y represenan las cadenas principales y reversas de la secuencia original, con las que se inicia el proceso de secuenciación en las dos direcciones. La secuenciación se da en ciclos consecuivos en los que se dispone una mezcla con los reacivos necesarios y un solo dNTP marcado y bloqueado para que se dé la sínesis de la cadena complemenaria a los amplicones iniciales. Los nucleóidos no ligados son lavados juno con los residuos de reacción, se revela la idenidad del que ue incorporado por la fluorescencia emiida, se remueve el fluoróoro y el grupo bloqueado para que comience el nuevo ciclo (Goodwin, McPherson & McCombie, 2016). Algunos de los nuevos equipos producidos por Illumina® uncionan con un sisema de dos fluoróoros en lugar de cuaro, requiriendo menos reacivos, mejorando el rendimieno y acelerando los procesos de secuenciación (Reuer, Spacek & Snyder, 2015). Con Illumina® pueden generarse lecuras desde 25 hasa 300 pb, con rendimienos aproximados desde 36 Gb a 1,8 Tb en iempos de 24 horas a res días (Buermans & Den Dunnen, 2014). A pesar de que la ecnología es más eeciva deerminando regiones homopoliméricas (99,5% de precisión), no es viable para resolver regiones repeiivas coras, por el amaño pequeño de las lecuras producidas. Se han reporado asas de -2 -3 error alrededor de ≈ 10 - 10 asociadas a problemas de susiución de nucleóidos, baja represenación de regiones ricas en AT y GC, ruido inroducido durane la creación de las librerías o desases en la lecura de los racimos durane la secuenciación (Morozova & Marra, 2008; Kircher & Kelso, 2010). A pesar de esas limiaciones, la secuenciación con Illumina® es una de las más uilizadas acualmene para odo ipo de análisis genéicos e invesigaciones cieníficas.

50


Algunas de las plaaormas comerciales de Illumina® son: •

•

•

•

•

•

•

•

Solexa 1G analyzer: equipo lanzado en el 2006, genera lecuras 35 pb con capacidad para producir 1 Gb de daos por corrida (Kircher & Kelso, 2010). NextSeq 500: lanzado en el 2014 como un secuenciador de escriorio y rápido para pequeños laboraorios. Produce lecuras PE 2 x 150 pb y a su máxima capacidad puede secuenciar 120 Gb o un genoma humano a 30x en 30 horas (Reuer e al., 2015). HiSeq 2000: equipo inroducido al mercado en 2014, genera lecuras 2 x 100 pb y es capaz de producir 600 Gb de inormación por corrida. Fue el primer insrumeno en leer daos de las dos superficies de las celdas de flujo, doblando el rendimieno de los equipos. MiSeq: lanzado en 2015 como un secuenciador de mesa personal, ideal para secuenciación dirigida y de genomas pequeños (Reuer e al., 2015). Puede generar g enerar lecuras PE 2 x 300 pb con un rendimieno de 15 Gb por corrida. HiSeq X Ten: es el insrumeno con mayor capacidad generado hasa el 2016 y lanzado en 2014 como un secuenciador a escala población. Produce lecuras PE 2 x 150 y su capacidad es de 1,8 Tb en res días o 18000 genomas humanos por año, a una proundidad de 30x (Reuer e al., 2015). Sin embargo, esa condición limia su uso a pocas aplicaciones, como es el caso de la secuenciación de genoma compleo (WGS) (Buermans & Den Dunnen, 2014). HiSeq 2500: secuenciador lanzado al mercado en el 2015, produce lecuras PE 2 x 250, ienen un rendimieno de 1 Tb por corrida y en su configuración más rápida puede generar un genoma humano a una proundidad de 30x en 27 horas (Reuer e al., 2015). HiSeq 3000/4000: lanzada al mercado con una disribución de celdas compuesa de billones de pozos de amaño y espacio esandarizados de modo que permien mayor densidad de los racimos a secuenciar. Su capacidad es inermedia enre la del HiSeq 2500 y el HiSeq X Ten y puede generar lecuras sencillas de 50 pb o PE 2 × 75 pb - 2 × 150 pb. NovaSeq 5000/6000: lanzada en 2017 incorpora ecnología de célula de flujo modelada para generar un nivel de rendimieno sin precedenes para una amplia gama de aplicaciones de secuenciación. Además aprovecha la ecnología de secuenciación por sínesis (SBS) de Illumina® con el fin de orecer daos precisos y un rendimieno robuso puede generar lecuras lecuras de 2 × 50 pb, 2 x 100 pb y 2 × 150 pb con una capacidad enre 167 Gb a 3000 Gb.

Una de las limiaciones más grandes de las lecuras coras obenidas a parir de los equipos de segunda generación es que no son apropiadas para realizar ensamblaje de novo de genomas g enomas porque ésos presenan regiones alamene repeiivas, con aleraciones en el número de copias o variaciones esrucurales, que son relevanes en los procesos de evolución y adapación de las especies (Morozova & Marra, 2008). Como se ha mencionado previamene, el uso de lecuras pareadas acilia un poco la localización de esas regiones 51

y, por ano, mejora en ciera medida el uso de esas ecnologías para esas aplicaciones, sin ser suficiene. Es por ello que las ecnologías más recienes, denominadas de ercera generación, buscan generar una mayor resolución de esas regiones mediane la generación de lecuras más largas (Kbs), lo cual eliminaría las ambigüedades de elemenos problemáicos para la secuenciación previa. Adicionalmene, las plaaormas eliminan los errores asociados a la amplificación inicial de los ragmenos de ADN por PCR, basándose en la secuenciación de molécula única.

3.3. Secuenciación de tercera generación 3.3.1. Secuenciación HeliScope En el 2009, Helicos Bioscience Corporaion ue la primera compañía en inroducir la secuenciación en iempo real de moléculas únicas y eliminar el uso de la PCR para amplificar el maerial de d e esudio. El proceso de secuenciación inicia con el raccionamieno del ADN y la separación de las cadenas, después se adhiere una cola de poli-A a cada una de las hebras por medio de una polimerasa que al mismo iempo inroduce una adenina fluorescenemene marcada. Los ragmenos procesados son dispuesos en una celda de flujo donde se ligan a nucleóidos de poli-T y donde su capura puede revelarse por la emisión de fluorescencia de las adeninas. Con las coordenadas esablecidas para las cadenas, se elimina la marcación fluorescene fluorescene e inicia la idenificación de bases (Kircher & Kelso, 2010). Las polimerasas encargadas de hacer la exensión de la cadena reversa a parir de la región de poli-T son dispuesas sobre la superficie de la celda, juno con uno de los cuaro dNTPs marcados fluorescenemene. Debido a una ralenización de la incorporación de los nucleóidos por la presencia del marcador, se espera que un único nucleóido sea incorporado anes de que se revele la celda y los reacivos sean lavados de la plaaorma para repeir el proceso con los siguienes nucleóidos. Debido a sus caracerísicas, no odas las moléculas se secuencian de orma sincronizada y el proceso es un poco más leno. A pesar de su innovación, esa ecnología no ha enido mayor acogida en el mercado y su alo coso ha impedido que sea comercializada exiosamene. exiosamene. HeliScope puede generar lecuras de 24 a 70 pb con un rendimieno aproximado de 4150 Mb por día y un coso aproximado de USD $0,33 por Mb (Kircher & Kelso, 2010). Las asas de error asociadas al sisema son un poco mayores con respeco a oras ecnologías y se asocian principalmene a problemas de inserciones/deleciones que limian la resolución de las lecuras a la hora de mapear adecuadamene genomas complejos.

52


3.3.2. Secuenciación PacBio® La plaaorma más usada hasa el momeno para la generación de lecuras largas ue lanzada por Pacific Bioscience® en 2010 y se basa en la secuenciación de moléculas únicas en iempo real (SMRT). La preparación de los ragmenos a secuenciar inicia ligando adapadores en orma de horquilla sobre los exremos de moléculas de ADN o ADNc digeridas, generando un molde con apa (campana SMRT). Ese molde es leído varias veces por una polimerasa, aumenando así la precisión y generando cadenas complemenarias con una secuencia consenso circular para cada molde (Goodwin e al., 2016; Reuer e al., 2015). Ese proceso ocurre en celdas de flujo especializadas para deección de señales, con miles de pozos de ondo ransparene (ZMW), en los que se fija la polimerasa para permiir que la cadena de ADN a analizar sea procesada. La sínesis de las cadenas complemenarias de ADN es visualizada en iempo real en cada pozo por medio de una cámara que regisra el color y la duración de la luz emiida por los nucleóidos marcados, que se incorporan en el ondo de la celda. Las señales emiidas se van regisrando de orma secuencial porque la polimerasa rompe el enlace del fluoróoro durane la incorporación y ése se diunde uera del pozo y lejos del sensor. PacBio® puede generar lecuras de 10 a 15 Kb con un rendimieno aproximado de 1 Gb en cuaro horas, empleando librerías con amaños de insero que van desde 250 pb hasa 40 Kb (Reuer e al., 2015). Las asas de error del sisema son alas, pueden llegar hasa un 15% y son dominadas por problemas de inserción/deleción de nucleóidos. Sin embargo, se puede superar esa limiación con una coberura suficienemene ala y la compañía ha anunciado mejoras en los equipos que ayuden a corregir ese problema. Así, PacBio® se ha converido en la mejor opción para las aplicaciones que requieren ensamblaje de novo de humanos, animales o planas, en ano que permie revelar las esrucuras genómicas complejas (variación esrucural, isoormas, ec.), para generar ranscrios de longiud imporane y, adicionalmene, para análisis de bases modificadas por seguimieno a las cinéicas de polimerización. Las plaaormas comerciales de PacBio® son (Pacific bioscience, 2016): •

•

PacBio® RS II: después del PacBio® RS, que ue vendido a un grupo limiado de clienes, el PacBio® RS II llegó al mercado en 2013. Es capaz de producir lecuras promedio 15 Kb con algunos ragmenos individuales que pueden alcanzar hasa los 60 Kb y iene un rendimieno máximo de 1 Gb por corrida. PacBio® Sequel System: equipo lanzado en 2015 con una capacidad de secuenciación diez veces mayor a la del RS II.

53

Tras la eliminación de la amplificación del ADN por PCR, con la ecnología de secuenciación de molécula única, y de los ciclos ieraivos de procesamieno, con la secuenciación en iempo real, una nueva generación de ecnologías llegaría al mercado con la eliminación final de la necesidad de usar la polimerasa para mediar la lecura de los nucleóidos en una secuencia de inerés. La única ecnología de cuara generación que ha llegado al mercado elimina esa dependencia y orece una concepción dierene de la secuenciación.

3.3.3. Secuenciación Oxford Nanopore En 2014, Oxord Nanopore Technologies lanzó al mercado el primer prooipo de un secuenciador basado en nanoporos. La ecnología cambió la concepción de los secuenciadores radicionales al deecar direcamene la composición del ADN a parir de una molécula de cadena sencilla que se ransloca por un poro y bloquea el paso de volaje a ravés del sisema. La ranslocación requiere el acoplamieno de un moor secundario que, por lo general, es ora proeína. Los bloqueos generados en el poro producen cambios en el volaje que son caracerísicos para cada secuencia de ADN y se relacionan con las cerca de 1000 posibles señales deecables por el equipo. La preparación de las librerías para la secuenciación es sencilla, el ADN es ragmenado y se agregan adapadores a los exremos: uno para ligar la enzima ranslocadora y el oro para ormar una esrucura de horquilla que permie el paso de la cadena líder, seguida de la cadena reversa (Reuer e al., 2015). Tras el proceso se generan lecuras 1D y 2D que pueden alinearse para crear la secuencia consenso. Las plaaormas acuales son celdas de flujo con cienos de micropozos independienes que conienen bicapas sinéicas en donde esán inserados los nanoporos, ya sea de origen biológico o de esado sólido (Goodwin e al., 2016). Los nanoporos de esado sólido han sido diseñados en membranas inorgánicas de nirilo de silicona, aluminio o graeno. Los nanoporos de origen biológico más usados corresponden a canales de α-hemolisina, de la porina MspA o de canales del bacerióago phi29 (Feng, Zhang, Ying, Wang & Du, 2015; Moorhie e al., 2011). Para hacer la idenificación de las bases, la molécula complea de ADN puede pasar a ravés del poro o los nucleóidos individuales pueden ser alimenados consecuivamene por el sisema de deección, después de escindirse de la cadena. Mejoras en la ecnología resolverán los problemas acuales del sisema con respeco al conrol sobre la velocidad de ranslocación del ADN a ravés de los poros, mejorando la precisión en la idenificación de bases y ampliando su rango de aplicaciones. Con esa plaaorma las asas de error por inserción/deleción y susiución son alrededor del 30%, conviriénlas en una limiane para su uso. Adicionalmene, se han reporado allas en el sisema a la hora de idenificar bases modificadas, ya que esas aleran los cambios reporados en el volaje. Se espera que mejoras en la pare química y los algorimos del sisema permian superar esas dificulades. 54


Las plaaormas de Oxord nanopore son: •

•

•

MK1 MinION: ese equipo ue lanzado en el 2014 como el secuenciador más pequeño del mercado con 3x10 cm, solo requiere un compuador personal y es una gran opción para rabajos de campo por su ala porabilidad. Genera lecuras de 5 a 60 Kb de longiud y ienen una capacidad máxima de 10 Gb por corrida. GridIONx5: ese equipo es un sisema de mesa compaco diseñado para ejecuar y analizar hasa cinco celdas de Flujo MinION. Es ideal para laboraorios con múliples proyecos que necesian las venajas de la secuenciación nanopore: preparación simple de las librerías genómicas, análisis en iempo real y lecuras largas. La versión acual de la química y el programa permien la generación de hasa 100 Gb de daos durane una ejecución y el módulo de cálculo es capaz de analizar esos daos en iempo real. PromethION: es un insrumeno de mesa diseñado para análisis de alo rendimieno y alo número de muesras. Su diseño modular permie un nuevo paradigma de flujo de rabajo versáil en el que muchos experimenos dierenes se pueden ejecuar en iempo real, sin resricciones de iempos de ejecución fijos. Usa la misma ecnología que el secuenciador MinION. Planea ser la plaaorma más grande de generación de daos con 48 celdas de flujo, cada una con 3000 poros que deecan 500 pb por segundo. Su rendimieno oal puede ser de 2 a 4 Tb por corrida a oda capacidad.

55

A coninuación, se resumen las principales caracerísicas de las plaaormas de secuenciación a ravés del iempo (Tabla 2.1). Plataforma

Fabricante

Método de secuenciación

Longitud de lecturas (pb)

Tasa de error

Costo estimado ($USD)

10-3

500/Mb

htps://www. hermofisher. com/co/ en/home/ lie-science/ sequencing/ sangersequencing.hml

Rendimiento

Link

Sanger

Applied Terminación de la Biosysems cadena - Lie Technologies - Thermo Fisher Scienific

600 1000

6 Mb/día

454

Lie Science - Pirosecuenciación Roche

700 >1000

-4 35 - 700 Mb/ 10-3 ó 10 día

20/Mb

htp://allseq. com/knowledgebank/ sequencingplaorms/454roche/

SOLiD

Applied Secuenciación por Biosysems ligación - Lie Technologies - Thermo Fisher Scienific

25 - 75

125 - 400 Mb/día

5,81/Mb

htps://www. hermofisher. com/co/ en/home/ lie-science/ sequencing/ nex-generaionsequencing/ solid-nexgeneraionsequencing.hml

Ion Torren

Lie Deección ópica Technologies de iones H+ - Thermo Fisher Scienific

35 - 400 pb

25 Mb - 2 Gb/h

-2 10

25 3500/Gb

htps://www. hermofisher. com/co/en/ home/brands/ ion-orren.hml

Illumina®

Solexa Illumina®

Secuenciación por sínesis con erminadores reversibles

25 - 500 pb

1,5 - 25 Gb/h

≈

-2 -3 10 - 10

20 1000/Gb

htps://www. Illumina.com/

Heliscope

Helicos Bioscience

Secuenciación por sínesis

24 - 70 pb

4150 Mb/día

≈

-2 10

0,33/Mb

htp://seqll. com/

PacBio®

Pacific Bioscience

Secuenciación de moléculas únicas en iempo real (SMRT)

10 - 15 Kb

1 Gb/4 horas

15%

1000/Gb

htp://www. pacb.com/

Oxord Nanopore

Oxord Nanopore Technologies

Traslocación en nanoporos

5 - 60 Kb

1,5 Gb/48 h

30%

750/Gb

htps:// nanoporeech. com/

56

≈

-4 10-3 ó 10

≈


3.4. Referencias Buermans, H. P. J., & Den Dunnen, J. T. (2014). Nex generaion sequencing echnology: Advances and applicaions. Biochimica e Biophysica Aca, 1842 (10), 1932 - 1941. htp://doi.org/10.1016/j.bbadis.2014.06.015. Cohen, A. S., Najarian, D. R., Paulus, A., Gutman, A., Smih, J. A., & Karger, B. L. (1988). Rapid separaion and purificaion o oligonucleoides by high-perormance capillary gel elecrophoresis. Proceedings o he Naional Academy o Sciences, 85, 9660– 9663. Deamer, D., Akeson, M., & Branon, D. (2016). Three decades o nanopore sequencing. Naure Bioechnology, 34 (5), 518–524. htp://doi.org/10.1038/nb.3423. Feng, Y., Zhang, Y., Ying, C., Wang, D., & Du, C. (2015). Nanopore-based ourhgeneraion DNA sequencing echnology. Genomics, Proeomics and Bioinormaics, 13 (1), 4–16. htp://doi.org/10.1016/j.gpb.2015.01.009. Goodwin, S., McPherson, J. D., & McCombie, W. R. (2016). Coming o age: en years o nex-generaion sequencing echnologies. Naure Reviews Geneics, 17 (6), 333 - 351. htp://doi.org/10.1038/nrg.2016.49. Illumina. (2009). Go where he biology akes you. Recuperado de htps://www. Illumina.com/documens/producs/brochures/brochure_genome_analyzer.pd. Kircher, M., & Kelso, J. (2010). High-hroughpu DNA sequencing - Conceps and limiaions. BioEssays, 32 (6), 524–536. htp://doi.org/10.1002/bies.200900181. Lie echnologies. (Sin echa). discover wha comes rom accuracy. Rerieved rom hps://www3.appliedbiosysems.com/cms/groups/global_markeing_group/ documens/generaldocumens/cms_088661.pd. Mardis, E. R. (2011). A decade’s perspecive on DNA sequencing echnology. Naure, 470(7333), 198 - 203. htp://doi.org/10.1038/naure09796. Mardis, E. R. (2013). Nex-Generaion Sequencing Plaorms. Annu. Rev. Anal. Chem, 6, 287–303. htp://doi.org/10.1146/annurev-anchem-062012-092628. Margulies, M., Egholm, M., Alman, W. E., Atiya, S., Bader, J. S., & Bemben, L. A. (2005). Genome sequencing in microabricaed high-densiy picolire reacors. Naure, 437, 376–380. Mezker, M. L. (2010). Sequencing echnologies - he nex generaion. Naure Reviews. Geneics, 11(1), 31– 46. htp://doi.org/10.1038/nrg2626. Moorhie, S., Matocks, C. J., & Wrigh, C. F. (2011). Review o massively parallel DNA sequencing echnologies. The HUGO Journal, 5 (1– 4), 1 - 12. htp://doi.org/10.1007/ s11568 011 9156-3. Morozova, O., & Marra, M. A. (2008). Applicaions o nex-generaion sequencing echnologies in uncional genomics. Genomics, 92 (5), 255–264. htp://doi. org/10.1016/j.ygeno.2008.07.001. Pacific bioscience. (2016). The Sequencing Markeplace. Recuperado de htp://allseq. com/knowledge bank/sequencing plaorms/pacific-biosciences/. Prober, J. M., Trainor, G. L., Dam, R. J., Hobbs, F. W., Roberson, C. W., Zagursky, R. J., … Baumeiser, K. (1987). A sysem or rapid DNA sequencing wih fluorescen chainerminaing dideoxynucleoides. Science, 238, 336–341. 57

Reuer, J. A., Spacek, D. V., & Snyder, M. P. (2015). High-Throughpu Sequencing Technologies. Molecular Cell, 58 (4), 586–597. htp://doi.org/10.1016/j. molcel.2015.05.004. Wason, J. D., & Crick, F. H. C. (1953). Molecular srucure o nucleic acids. Naure. Recuperado de htp://doi.org/10.1097/BLO.0b013e3181468780.

58


II. “ÓMICAS”: GENÓMICA, METAGENÓMICA, TRANSCRIPTÓMICA, PROTEÓMICA Y METABOLÓMICA DIANA LÓPEZ-ALVAREZ

La era de las ciencias ómicas, que incluyen la genómica, ranscripómica, proeómica, meabolómica, exómica, meagenómica y epigenéica, ha surgido para describir dierenes écnicas del campo de la biología con gran canidad de daos a gran escala, y a su vez, ha llegado para quedarse con miras a un uuro muy promeedor, que juno con los avances inormáicos, preende ser la solución a miles de pregunas e inquieudes del diario vivir, como por ejemplo: ¿cuános microorganismos podemos enconrar en una muesra ambienal?, ¿cómo se expresa en una deerminada enermedad un individuo enermo comparado con oro sano? o ¿cómo las variaciones del genoma de un individuo y su relación con la enermedad son imporanes para enender, diagnosicar, raar y prevenir su salud?, ¿cómo responden las planas respeco a evenos exremos ocasionados por el cambio climáico?, ¿cómo se pueden suplir las necesidades de abasecer una población mundial en crecimieno a ravés de una agriculura sosenible que requiere de desarrollos bioecnológicos? De igual orma, esas ciencias esán asociadas con el desarrollo de algorimos basados en modelos maemáicos y esadísicos, con el fin de almacenar, recuperar y comparir daos de alo rendimieno, para la comparación de secuencias, la consrucción del árboles filogenéicos/evoluivos, el reconocimieno de parones específicos en el genoma, la anoación de secuencias, el desciramieno de ruas meabólicas o el diseño de medicamenos (modelado molecular) (Yadav, 2015). Mienras que el genoma, exoma, ranscripoma, epigenoma y el meagenoma se relacionan con secuencias de ADN (ácido desoxirribonucleico) y ARN (ácido ribonucleico), y aprovechan las mismas ecnologías que han impulsado la secuenciación genómica; el proeoma y el meaboloma, se basan en ecnologías oalmene dierenes para generar daos. Ese volumen de daos esá siendo gesionado con éxio por experos en bioinormáica a ravés del desarrollo de bases de daos biológicas de acceso abiero a nivel mundial. Además, enemos a nuesra disposición y alcance, inormación no solo de daos, sino ambién de lieraura y programas compuacionales, que con un pesañar siguen apareciendo a un rimo veriginoso, en ano surge un gran número de herramienas, que ha omenado iniciaivas dirigidas a recogerlas y enumerarlas, un ejemplo de eso lo orece la plaaorma OMICools con una recopilación de plaaormas y bases de daos empleados en la acualidad. Oros casos son, el EBI, que iene un poral de servicios de bioinormáica que enumera una variedad de bases de daos y herramienas adapadas para emas específicos; Bioconducor que proporciona herramienas de análisis y scrips desarrollados por los 59

esadísicos para una variedad de análisis y soluciones bioinormáicas; GiHUB el cual es un reposiorio grauio que acilia la colaboración y el inercambio de herramienas y unciones inormáicas, y finalmene, Exper Proein Analysis Sysem que es una biblioeca paricularmene reconocida por las herramienas de proeómica. Sin embargo, con esa gran canidad de posibilidades, es necesario ser precavidos con el uso de las herramienas, ya que ninguna es inegral e inalible, y se hace imperaivo la elección con sensaez de las más adecuadas para los propósios del proyeco del usuario final. Por lo ano, la gesión y la minería de daos son dos emas imporanes para la invesigación generada por las “ómicas”, exigiendo la inervención inmediaa de la bioinormáica. En la acualidad, no hablamos de un genoma secuenciado sino de cienos y miles. Desde la secuenciación del primer organismo vivo, la baceria Haemophilus influenzae (Fleischmann e al., 1995), se ha compleado la secuencia complea o parcial de los genomas de 1236 arqueas, 103760 bacerias, 492 proisas, 2520 hongos, 401 planas, 1153 animales, 46 viroides, 7465 virus y 19 genomas de oros organismos eucarioas (www.ncbi.nlm.nih.gov/ genome/browse). Además se cuenan con genomas de varios organismos modelos, con la iniciaiva del genoma de Arabidopsis haliana en el año 2000, se obuvo el primer genoma de una plana modelo para idenificar genes y deerminar sus unciones, y abrió las pueras a la secuenciación de oras planas modelos de imporancia para la agriculura debido a su imporancia económica y alimenicia como lo son Brachypodium disachyon (The Inernaional Brachypodium Iniiaive, 2010) para los cereales emplados; Lous japonicus (Sao e al., 2008) para esudiar el enómeno propio de leguminosas en la fijación de nirógeno, de la misma manera que es usado el Medicago runcalua (Young e al., 2007), además se secuenció el primer culivo de imporancia mundial como lo es el arroz asiáico (Oryza saiva) (Goff e al., 2002a). Esas especies juno con el sorgo (Paerson e al., 2009); maíz (Schnable e al., 2009); soja (Schmuz e al., 2014); papa (The Poao Genome Sequencing Consorium, 2011); garbanzo (Jain e al., 2013); cebada (The Barley Genome Sequencing Consorium, 2012); sandía (Guo e al., 2013), melón (Garcia-Mas e al., 2012) y rigo (Brenchley e al., 2012) ienen dierenes bases de daos con un genoma compleo disponible al público que quiera consularlo y usarlo para esudios de mejora genéica. En la acualidad hay más de 52 genomas de culivos y árboles secuenciados y publicados. ¿Pero en qué se basa la elección de la secuenciación de un genoma? Se basa principalmene en la imporancia del organismo en nuesro enorno, en ese caso, si causa enermedades en el hombre o son planas base de nuesra alimenación o son especies de imporancia económica, o modelos represenaivos de los grandes grupos (planas, mamíeros, insecos, ec.) y resulan úiles para exrapolar su inormación a oros grupos mediane un enoque genómico comparaivo. Lo anerior hace de la genómica, la ciencia de las “ómicas” con mayor desarrollo y menores limiaciones económicas y écnicas. Las ómicas ambién presenan una relación e impaco esrecho en el campo de la salud 60


abarcando la medicina, epidemiología, nurición y bioecnología, incluso, incluyendo oras ómicas como la armacogenómica, pueso que desde la secuenciación del genoma humano presenado en 2001 (Inernaional Human Genome Sequencing Consorium, 2001), esas ciencias han ido acercándonos a una medicina de precisión, cada vez más personalizada y preveniva, porque una especificación exaca de odas las paologías a nivel individual, pueden desencadenar a largo plazo en la erradicación complea de la enermedad. Fuera de presenarnos aplicaciones en evaluación de riesgos, prevención, diagnósico de muy ala ecnología y raamieno, en los que los médicos, enermeras, consejeros genéicos y oros proesionales del cuidado de la salud pueden rabajar con las personas para concenrar los esuerzos en iniciaivas que manengan la salud de un individuo (Heinner, 2015); incluso desarrollando biomarcadores de seguimieno en enermedades rasmisibles y no rasmisibles para opar por nuevas inervenciones y guías de raamieno médico (Heinner, 2015). Ha cobrado ana imporancia la medicina de precisión, que la adminisración del presidene Barack Obama anunció en 2015 la secuenciación de un millón de genomas humanos para ese fin. Por consiguiene, el aumeno de odos esos esudios basados en ómicas necesia educación en las ecnologías asociadas y en bioinormáica para llevar a cabo buenos diseños y análisis experimenales adecuados. En ese capíulo, nosoros preendemos proporcionar una visión general de las ecnologías acuales para generar, analizar, usar y comparir daos de las ómicas.

61

4. GENÓMICA DIANA LÓPEZ-ALVAREZ ANDREA GARAVITO

El genoma incluye la oalidad de la inormación genéica que posee un organismo, ano codificane (genes) como la no-codificane (regiones repeiivas, regulaorias e inergénicas), de la cual dependen odas sus unciones biológicas. Se encuenra regisrado denro del ADN de cada una de sus células, a nivel del núcleo y de organelos como las miocondrias y los cloroplasos. La genómica es la ciencia que esudia los dierenes ámbios del genoma, desde su esrucura y unción hasa la ineracción exisene enre los genes y el ambiene en el que se desarrolla el organismo. La genómica se subdivide en cuaro principales áreas, dependiendo del ámbio de esudio que implican: 1. La genómica esrucural, relacionada con el esudio de la nauraleza ísica del genoma y la localización de los genes denro de ése. Se basa en la secuenciación, mapeo, ensamblaje y anoación del genoma, permiiendo la idenificación e uilización de variaciones esrucurales. Es al vez el área más conocida de la genómica por las implicaciones acuales que iene a nivel de la invesigación biológica. 2. La genómica uncional busca poder enender la relación enre los genes de un organismo y sus caracerísicas ísicas (el enoipo). Se basa en el esudio de la unción y la expresión de los genes, al analizar sus niveles de ranscripción, raducción, y las posibles ineracciones enre ellos. 3. La genómica comparaiva se encarga de analizar las dierencias y similiudes a nivel esrucural enre los genomas de múliples organismos, deerminando los cambios evoluivos exisenes y sus posibles implicaciones. 4. La genómica de poblaciones, que invesiga de qué manera los procesos evoluivos aecan el genoma, basándose en una evaluación de los cambios exisenes en el genoma de los individuos denro de cada población y enre las dierenes poblaciones. En el presene capíulo hablaremos principalmene de la genómica esrucural, y ocaremos algunos de los aspecos de la genómica comparada, uncional y de poblaciones.

4.1. Consideraciones para la determinación de la estrategia de secuenciación genómica a implementar Deerminar la esraegia para llevar a cabo una secuenciación del genoma de inerés es el primer paso a seguir, siendo crucial inerrogarse sobre varias cuesiones básicas anes de planificar y llevar a cabo el proyeco. El primer y más imporane cuesionamieno es deerminar el por qué la secuencia del genoma del organismo es necesaria, y cuál es el 62


objeivo al que se busca llegar con ella. Si se pare del hecho de que la secuenciación complea de un genoma es un proceso largo, complejo y cososo, se debe considerar si es posible o no responder a la preguna biológica uilizando algún oro ipo de écnica menos demandane. Si definiivamene la preguna a responder requiere la secuenciación del genoma, es imporane deerminar el nivel de refinamieno esperado, pueso que de ése dependerá la meodología a uilizar y los recursos económicos y compuacionales requeridos para complear el proyeco. Dependiendo de la asa de error y la represenaividad obenida, los genomas se pueden clasificar denro de caegorías que describen la calidad del ensamblaje (Chain e al., 2009):

1. Borrador estándar: secuencias provenienes de dierenes plaaormas de secuenciación, ensambladas en conigs (secuencia conigua de ADN consruida a parir del consenso enre secuencias más coras). 2. Borrador de alta calidad: secuencia con una coberura de al menos 90% del genoma. 3. Borrador de alta calidad mejorado: secuencia en donde se ha ejecuado la corrección de los errores del ensamblaje por curación manual o auomáica, consruido superconigs (unión de conigs, ambién llamados scaffolds), y colmado de brechas. 4. Genoma mejorado por anotación: las anomalías en las regiones codificanes han sido corregidas, más no aquellas localizadas en las regiones repeidas. Es el esándar base para muchos de los análisis que requieren secuencias genómicas como las comparaciones de siios de splicing alernaivo y las reconsrucciones meabólicas. 5. Terminado, no contiguo: ensamblaje de ala calidad, que ha sido someido a mejoramieno manual o auomáico, en donde la mayoría de brechas, errores y regiones de baja calidad han sido corregidos, por medio de daos y meodologías complemenarias a la secuenciación. 6. Terminado: secuencias con menos de un error por cada 100000 pares de bases, y en donde cada replicón (cromosomas en el caso de eucarioas) esá ensamblado en una sola secuencia conigua. Cabe anoar que bajo las aneriores premisas, solo unos cuanos genomas eucarioas se encuenran a nivel de un genoma erminado. De hecho, en la base de daos GOLD, de más de 132000 proyecos de secuenciación de genomas reporados hasa el momeno, solo unos 6500 genomas bacerianos y 287 eucarioas se consideran como erminados 3. En la acualidad solo exisen unos cuanos genomas oalmene secuenciados y finalizados, ales como: el genoma humano, el del raón, el de Arabidopsis (pequeña plana de la amilia de las brasicáceas, que ha sido uilizada como modelo en planas), y el del arroz, odos ellos obenidos con base en la meodología de clon por clon. Es de esperar que con el avance en las ecnologías de secuenciación, muchos más genomas lleguen a esar oalmene erminados en los años venideros. Oro de los punos imporanes para ener en cuena en la secuenciación de un genoma, proviene de las caracerísicas inrínsecas a la biología del organismo de inerés, como la 3 Daos consulados en abril 2017 en la página htps://gold.jgi.doe.gov/.

63

complejidad de su genoma y su nivel de heerocigosidad. Dichas consideraciones pueden ser menos relevanes para la mayoría de animales y microorganismos, sin embargo, son imporanes al momeno de secuenciar genomas de planas. Respeco a la complejidad del genoma, varios aspecos son alamene relevanes para un programa de secuenciación genómica. El primero es el amaño del genoma en esudio, pueso que de él dependerá el número de lecuras necesarias para alcanzar la coberura o proundidad, y por ende, la calidad del ensamblaje deseado. Las variaciones en el amaño del genoma denro de los axones se encuenran en su mayoría denro de una escala de una a una y media orden de magniud (Fedoroff, 2012). Pero exisen casos excepcionales como el de las angiospermas, donde el rango de amaños genómicos varía en más de res órdenes de magniud (con genomas haploides que se encuenran enre los 63 Mb y 150 Gb) (Kelly e al., 2012). Las variaciones pueden ocurrir enre organismos relaivamene cercanos, haciendo necesario conocer de anemano el amaño esimado para la especie de inerés. El segundo aspeco es el nivel de ploidía, porque iene un eeco direco en el amaño del genoma, y a su vez en el grado de complejidad al momeno del ensamblaje. Dicha complejidad esá ligada al alo grado de redundancia y a los posibles errores en la resolución de regiones homólogas (Renny-Byfield & Wendel, 2014). En ercer lugar, se encuenra la exisencia de duplicaciones genómicas ancesrales recienes, que de la misma orma que los evenos de poliploidización, pueden aumenar los errores en el ensamblaje de las regiones parálogas. El úlimo aspeco, aunque no menos imporane, es el porcenaje de secuencias repeiivas. Las secuencias repeiivas pueden represenar hasa un 90% del genoma (Wegrzyn e al., 2014), y pueso que dicho porcenaje esá alamene correlacionado con el amaño del mismo, se esperan porcenajes alos en los genomas de mayor amaño. La mayoría de las secuencias repeiivas corresponden a elemenos ransponibles, principalmene reroansposones con LTR ( Long Terminal Repeas ), los cuales por su gran amaño son los responsables de muchas de las variaciones esrucurales enconradas enre los genomas de organismos relacionados y de la consecuene expansión en el amaño del genoma (Fedoroff, 2012). La complejidad en el ensamblaje de un genoma esá alamene ligada con el amaño y la canidad de los reroransposones presenes, pueso que ésos crean ambigüedades en el ensamblaje que los programas no pueden resolver sin inormación adicional. Las repeiciones pueden enonces ser colapsadas por los ensambladores en una sola secuencia, crear quimeras al concaenar secuencias alejadas en el genoma o ser separadas en conigs más pequeños dando ensamblajes alamene ragmenados (Treangen & Salzberg, 2012). Para erminar, el úlimo aspeco imporane a ener en cuena anes de un programa de secuenciación genómica es el nivel de heerocigosidad del organismo en esudio. El grado de heerocigosidad depende de varios parámeros poblacionales y de la biología del organismo, siendo un indicador de la variabilidad genéica denro de la especie. El ensamblaje de genomas con regiones alamene heerocigoas puede resular en secuencias 64


ragmenadas, debido a la ala de resolución de los márgenes enre las regiones alamene heerocigoas, ensambladas en conigs alernaivos y aquellas homocigoas ya colapsadas.

4.2. Diseño experimental El diseño experimenal es un érmino usado para planear eficienemene los méodos para la obención de los daos, con el fin de obener la máxima canidad de inormación a parir de la menor canidad de rabajo. Cuando se va a llevar a cabo un esudio en el campo de las ómicas, es necesario esablecer cieras consideraciones anes de comenzar el experimeno, mencionadas previamene, odo eso con el fin de ener claro los pasos para la generación de los daos de secuenciación. En la siguiene sección vamos a poner a su disposición algunas consideraciones perinenes: •

•

•

¿Cuál es la preguna que se quiere responder? ¿Cómo se decide cuános daos se van a generar para responder a la preguna? ¿Cuáles acores pueden influenciar la canidad de los daos que se van a generar?

a. Número de muestras: ¿cuánas muesras son necesarias para llevar a cabo un experimeno?, ¿es necesario ener replicas biológicas y écnicas?, ¿es necesario ener conroles? b. Tipo de lectura: una lecura es una secuencia simple de un ragmeno que proviene de una librería secuenciada. Pueden ser secuenciadas en una sola dirección y ser lecuras simples provenienes de librerías single-end o ener dos lecuras provenienes de librerías paired-end secuenciadas en dos direcciones. Las lecurasmae pair provenienes de librerías Jumping , son largos ragmenos de ADN circularizados, en los que la unión es capurada por un adapador bioinilado. Finalmene enemos las lecuras Linked , cuya longiud esá enre 50-100Kb. c. Tipo de librerías: una librería es una colección de ragmenos de ADN que ha sido preparada para ser secuenciada. Exisen res ipos de librería para daos coros: las provenienes de single-end, las depaired-end y las de mae-paired. En el caso de daos PacBio®, se consruyen dos ipos: CLR ( Coninuous Long Reads, por sus siglas en inglés, reads largos coninuos) y CCS ( Circular Consensus Sequences, por sus siglas en inglés, secuencias consenso circulares). d. Número de lecturas: dependerá del nivel de exaciud y robusez que se quiera llevar a cabo en el experimeno. La proundidad de secuenciación (o coberura de secuenciación), corresponde al número de veces que se espera que cada nucleóido sea represenado en un ciero número de lecuras a una longiud dada, puede reducir la asa de error de las lecuras en los proyecos de secuenciación. En érminos generales, una mayor coberura disminuye la asa de error de cada nucleóido en un ensamblaje de secuencias, no obsane, la selección de una mayor o menor coberura dependerá del propósio de esudio. e. Longitud de las lecturas: para la mayoría de los experimenos son úiles las lecuras más largas, aunque, si esas lecuras son de una calidad baja la uilidad se 65

perderá. Exisen lecuras coras de ala calidad; dependiendo del experimeno será la exigencia de una mínima longiud de lecura. f. Complejidad de la librería: es considerado el número de disinos ragmenos en una librería. No obsane, después de la amplificación, se pueden ener muchas copias de un mismo ragmeno inicial que no ayudan a aumenar dicha complejidad e incluso puede ser perjudicial para su análisis. g. ¿Cuál equipo de secuenciación se utilizará?: considerar qué ipos de lecuras se obienen y cuál es la longiud de las lecuras.

4.2.1. Muestreo En caso de conar con raamienos, las unidades experimenales se asignan a los mismos de manera azarosa, con el fin de eliminar el eeco de las variables y los acores inconrolados que pueden ocasionar variaciones a lo largo de la duración del experimeno, haciéndose necesario aleaorizar: •

•

•

Las muesras con respeco a los raamienos. El orden de manipulación de las muesras. Las corridas, geles, librerías, geles y días en respeco a las muesras.

4.2.2. Réplicas La replicación consise en repeir la creación de un enómeno, de modo que se puede esimar la variabilidad asociada al mismo. En el diseño experimenal de un esudio exisen dierenes ipos de réplicas, las cuales pueden ser biológicas o écnicas de la siguiene nauraleza:

Réplicas Biológicas: son la unidad experimenal con la que se lleva a cabo el proyeco, por ejemplo, plana/animal, muesra ambienal, ejidos, ec. Deben ser independienemene muesreadas de la población. Réplicas Técnicas: cualquier repeición por debajo de la unidad experimenal, asociadas a un insrumeno o a la preparación de las muesras, son úiles cuando la variabilidad écnica es grande y pueden ser más económicas. Solo inormarán sobre la variabilidad en la medición media de una muesra única, como dierenes hojas de la misma plana; dierenes alícuoas de la misma muesra ambienal y dierenes alícuoas de la misma exracción. Siempre damos más imporancia a las réplicas biológicas que a las écnicas, no obsane, cuando esamos pensando en evaluar una ecnología esa imporancia se inviere, debido a que es necesario esudiar la variación a dierenes niveles. Hay que ener en cuena que las repeiciones biológicas son a menudo más eficaces en el aumeno de la poencia para deecar meabolios / genes dierenciales. 66


Ora opción que enemos en el muesreo es llevar a cabo, agrupaciones de “muesras”; eóricamene, la agrupación puede reducir la varianza biológica, pero no las dierencias écnicas. Cuando la canidad de muesra individual es limiada o la ecnología es exremadamene cososa, la agrupación de muesras puede aumenar la precisión de la esimación del nivel de cambio enre dos grupos.

4.2.3. Extracción del ADN Para secuenciar un genoma el primer paso es recuperar el ADN del organismo. Para ello se necesia una muesra suficienemene grande de maerial (sangre, saliva, hojas, dependiendo del ipo de organismo), a parir de la cual se busca obener las moléculas de ADN lo más inacas posibles, por medio de un proceso que busca liberar el ADN de cada una de las células presenes en la muesra y purificarlo. Una vez obenido el ADN es procesado para permiir su secuenciación, siendo los pasos requeridos dependienes del ipo de ecnología uilizada.

4.2.4. Tipos de secuenciación genómica Como se mencionó aneriormene, la genómica esrucural esudia la nauraleza ísica del genoma, los genes, secuencias regulaorias y no codificanes presenes denro de ése. Se basa en la secuenciación, mapeo, ensamblaje y anoación del genoma, ya sea a nivel de una muesra ambienal, como en algunos de los esudios en meagenómica (ver Capiulo 5), un organismo, o como se ha desarrollado en los úlimos años, a nivel de una sola célula (Gawad e al., 2016). Dependiendo de los objeivos y de los recursos disponibles, la secuenciación puede ocalizarse en la oalidad de un genoma o cenrarse solo en algunos segmenos específicos de ése.

4.2.4.1. Secuenciación del genoma completo o Whole genome Sequencing Como su nombre lo indica, la secuenciación del genoma compleo se basa en la obención, por medio de dierenes ecnologías, de la oalidad del genoma de un organismo, ya sea por la primera vez ( de novo) o usando una reerencia como base (re-secuenciación). La secuenciación de novo, se caraceriza por la obención de un genoma ensamblado a parir de secuencias coras sin la uilización de un genoma de reerencia previo. La complejidad que revela secuenciar un genoma compleo de novo es equivalene a omar una copia de una obra lieraria, oocopiar cada una de las páginas de ella varias veces, pasar cada hoja por una riuradora de papel, y luego raar de re-ensamblar una de las copias complea para que pueda ser leída. De ninguna manera es lo mismo secuenciar el genoma de una baceria que el de un humano o el de un pino, porque el primero equivaldría a un pequeño libro de algunas páginas, el segundo a un clásico de la lieraura universal, mienras que el ercero equivaldría a varios omos de una enciclopedia. Para la obención de un genoma nuevo ensamblado correcamene se requiere obener un número 67

de secuencias que represenen varias veces la oalidad del genoma del organismo. El número de veces dependerá del grado de complejidad, el ipo de ecnología uilizada y la calidad deseada del ensamblaje final (Sims e al., 2014). Por su pare, en la re-secuenciación de un genoma se uiliza una secuencia de reerencia para ayudar en el ensamblaje, proveniene de un organismo lo más próximo axonómicamene al organismo en esudio. La re-secuenciación sirve principalmene para enconrar las dierencias enre los genomas de individuos de la misma especie o especies ueremene aparenadas. Dicho ipo de análisis se lleva a cabo, por lo general, en los esudios de genómica comparaiva (Guo e al., 2013), diversidad (Weigel & Mot, 2009), filogenia (Rosenblum e al., 2013), y más recienemene de pangenómica (Hirsch e al., 2014).

Secuenciación de genomas completos Desde la publicación de los primeros genomas compleamene secuenciados, el baceriano Haemophilus influenzae (Fleischmann e al., 1995) y el eucarioaSaccharomyces cerevisiae (Goffeau e al., 1996), hasa nuesros días, ha habido un aumeno casi exponencial en el número de genomas publicados. Los primeros genomas secuenciados: H. influenzae (Fleischmann e al., 1995); S. cerevisae (Goffeau e al., 1996);Caenorhabdiis elegans (The C.elegans Sequencing Consorium, 1998); Drosophila melanogaser (Adams e al., 2000); Arabidopsis haliana (The Arabidopsis Genome Iniiaive, 2000);Homo sapiens (Inernaional Human Genome Sequencing Consorium, 2001) y Oryza saiva (Goff e al., 2002b), dieron la paua a nivel écnico y ecnológico para la secuenciación de genomas compleos. Dichos genomas ueron obenidos por secuenciación de ipo Sanger (ver Capíulo 3), requiriendo pasar por la clonación del genoma ragmenado denro de vecores moleculares como los BACs (Cromosomas arificiales bacerianos). Esa écnica, así como la secuenciación Sanger en sí misma, son procesos dispendiosos ano en el iempo (13 años para alcanzar el primer borrador del genoma humano) y cosos derivados (300 millones de dólares para el mismo). A parir de 2005, con la comercialización de las nuevas ecnologías de secuenciación Nex generaion sequencing o NGS , hemos sido esigos de la creciene acilidad con la que se puede obener la secuencia de un genoma compleo, del aumeno en la resolución obenida, y de la impresionane reducción en los cosos derivados. Para finales del año 2015, el coso de obención de un borrador de ala calidad de un genoma humano esaba en menos de 1500 dólares, ardando 26 horas para su consecución (sin incluir el iempo necesario para los análisis bioinormáicos poseriores) 4 . Un ejemplo de las impresionanes repercusiones que ha enido la especacular reducción de cosos es el hio de 50 genomas de planas secuenciados (ver Figura 4.1), que ue alcanzando en 2013 (Michael & Jackson, 2013). Se espera en los años por venir que la 4 Para mayor inormación consular la página htps://www.genome.gov/sequencingcoss/.

68


endencia se conserve, e incluso que se acenúe, con la popularización en aumeno de las ecnologías de secuenciación de ercera generación o de secuenciación de una sola molécula. s a m o s n a e d g e a c d i l o b d u p a l s u a m t u n c a l a p o r e e d m ú N

200 ) b ) M b ) 0 3 b 4 M 0 M ( 3 4 5 a ( 2 c i a 1 ( n c i a o d n p n a a i j i l p a s p s h t s s a s i a i i v s v t p t a o a s s d i a a b z z y a r y r r A O O

150

100

50

0 0 0 0 2

1 0 0 2

2 0 0 2

3 0 0 2

4 5 4

4 0 0 2

5 0 0 2

) b M a 0 x 0 ) e 5 b l o ( M S a 0 r p 0 r e a 5 z c ( y l o a a h r e n c f i A r d i t i n i e s l o v m l u S o u I s i t n i e p B V A G o P

6 0 0 2

7 0 0 2

8 0 0 2

) b M 0 3 ) 7 b ( r G o 4 . l 2 0 o ( c s 0 i 0 b y 2 a q m m e s u i h a H e g r Z o S

9 0 0 2

0 1 0 2

1 1 0 2

) b G 0 2 1 ( s e i b a a e c i P

S R O I B I C A P

2 1 0 2

3 1 0 2

4 1 0 2

l e u q e S O I N B O C I A n i P M

5 1 0 2

6 1 0 2

q e S a v o N

7 1 0 2

Año

Figura 4.1. Número de genomas de planas publicados: represenación gráfica del número de genomas de planas publicados en los úlimos 18 años. Los daos provienen de la página htp://www.plabipd.de/

Estudios de epigenética Los esudios de epigenéica hacen reerencia al análisis de los procesos de regulación que no involucran la secuencia de ADN, sino que suceden durane la eapa de expresión. Los principales casos de epigenéica involucran la meilación de ADN en los residuos de ciosina, la modificación pos-raduccional de las colas de las hisonas que soporan el ADN y posicionamienos de nucleosomas, enre oros. Su esudio es imporane porque dichas modificaciones esán implicadas en procesos de oncogénesis y desarrollo en odo ipo de cáncer. Denro de las écnicas desarrolladas para hacer análisis de epigenéica enconramos la mehyl-seq que consise en la capura y enriquecimieno del ADN meilado, seguido de una digesión seleciva de las regiones meiladas y no meiladas, modificación de las bases con el grupo meil y secuenciación.

4.2.4.2. Secuenciación dirigida Exisen écnicas que permien esudiar una pare represenaiva del genoma de un individuo, caracerizar su genoipo y compararlo con el de oros individuos mediane 69

dierenes marcadores genéicos. Eso porque en ocasiones cuando el objeivo del proyeco no requiere la realización de una secuenciación complea, exise la posibilidad de hacer una selección de los ragmenos genómicos a secuenciar. Dicha selección pasa por un enriquecimieno o una selección previa de los ragmenos, haciendo uso de una gran variedad de écnicas undamenadas en cuaro méodos moleculares: la capura por hibridación, la amplificación por PCR, la amplificación uilizando sondas inveridas que equivale a una combinación de las dos primeras y la uilización de enzimas de resricción. La secuenciación dirigida presena varias venajas a la hora de la obención de daos, porque incremena la proundidad de secuenciación para cada uno de los ragmenos blancos, por lo ano, la sensibilidad de deección, reduce los cosos relaivos por cada una de las muesras al permiir agrupar varias de ellas en una sola línea de secuenciación (el llamado muliplexing ), disminuye la canidad de ADN necesario por muesra, y finalmene, incremena la especificidad y la uniormidad de las secuencias obenidas (Mamanova e al., 2010). La capura por hibridación, la amplificación por PCR y la amplificación por sondas inveridas son comúnmene uilizadas en la secuenciación de exomas, mienras que la amplificación por PCR y la uilización de enzimas de resricción se ocalizan más en la obención de varianes y SNPs uilizados como marcadores moleculares, como en el caso del Genoyping by sequencing o GBS (ver más adelane). Las écnicas moleculares brindan inormación a dierenes niveles axonómicos. Todas ienen sus limiaciones y su aplicación esará deerminada en gran medida por la inormación que esamos buscando con la uilización de un sisema de marcadores moleculares, así como por la disponibilidad de recursos necesarios para el desarrollo de ese ipo de écnicas. Hay muchos ipos de marcadores moleculares disponibles, pero el que debe seleccionarse de acuerdo a un deerminado proyeco depende de: •

•

•

•

•

Los objeivos del proyeco. Las variables del germoplasma. Las poblaciones a analizar. El nivel de resolución. La exisencia o no de un rabajo anerior del cual se pueda omar venaja para el diseño de un marcador.

Sin embargo, una vez obenidos los daos del secuenciador, la bioinormáica nos permie disponer de herramienas para idenificar posibles marcadores a parir de los daos crudos. No hay un méodo esándar para el procesamieno de los mismos, pero si exisen unos pasos mínimos que se llevan a cabo, en ano el procesamieno puede variar dependiendo de la consrucción de las librerías y el méodo de secuenciación empleado. 70


Empleando enzimas de restricción Ese méodo emplea el uso de enzimas de resricción (ER), para realizar cores en regiones específicas del genoma (enzimas sensibles a las regiones meiladas), obeniendo muchos loci disribuidos al azar por el genoma. Enre los dierenes méodos que emplean ER se encuenran la secuenciación de represenación reducida (RRL), la secuenciación de ADN asociada a los siios de resricción (RAD-seq) y la secuenciación de baja coberura para genoipado (GBS). Para su análisis bioinormáico, el méodo emplea la deección de SNPs denro de los genomas, siendo el SNP un cambio en una base denro de una secuencia de ADN y la orma más común de variación genéica. Con respeco a oras écnicas, ese méodo incremena la rapidez a la hora de llevar a cabo la genoipificación de especies y permie la obención de un gran número de daos de ala precisión y cosos moderadamene bajo. De igual manera el ER eecúa análisis genoípicos y axonómicos para consruir mapas genéicos y para idenificar marcadores unidos a un carácer en paricular. A ese respeco, si se muesrea una población es posible esimar su variabilidad genéica al uilizar un carácer o marcador que propicie la medición de dicha variabilidad, muy úil para varios aspecos de la biología poblacional (análisis de paernidad, flujo de genes, ec.) y mejoramieno genéico. Cieramene, es posible elaborar un mapa del genoma cuando se iene inormación sobre un número suficiene de marcadores genéicos reparidos de orma represenaiva. La resolución de ese mapa aumena de orma proporcional a la canidad de daos disponibles. Una vez que se iene el mapa del genoma se puede esablecer la correlación de los marcadores siuados en ese con una caracerísica paricular (como el color, sabor, amaño y resisencia a paógenos) e idenificar la localización del gen o los genes asociados a un carácer enoípico.

RAD-seq “Restriction Associated DNA Sequencing” Esa écnica ue originalmene descria por Miller y colaboradores (2007) y esá basada en la plaaorma de mariz de oligonucleóidos sonda ( microarrays ). Baird y colaboradores (2008), adaparon poseriormene los RAD-seq a la plaaorma de secuenciación masiva (amplificación por puene y secuenciación por sínesis) para deecar de manera eficiene los polimorfismos de ADN sin necesidad de ningún conocimieno molecular de las especies objeo de esudio. Poseriormene, usando una secuenciación RAD de pares de ragmenos ( paired-end reads, RAD-PE), en la cual los dos exremos finales del ragmeno de ADN (lecuras direca y reversa; orward and reverse reads ) son secuenciados, se puede mejorar la écnica para generar a parir de ellos secuencias ensambladas (conigs) de mayor longiud y con buena proundidad de coberura ( coverage ), con el fin de genoipar las muesras (Eter e al., 2011; Peerson e al., 2012). 71

Lo anerior se puede llevar a cabo, en ano se dispone o no de un genoma de reerencia. Cuando se dispone de dicho genoma los reads pueden mapearse y localizarse en sus cromosomas. En el caso de no disponer de al genoma, como ocurre en la mayoría de las especies no modelo, se procede al ensamblaje de novo de los reads obenidos de la secuenciación de los exremos de ragmenos amplificados en clúseres. La solidez de ese méodo ha sido corroborada por simulaciones en ordenador y mapeo (Amores e al., 2014). El procesado y el análisis bioinormáico de los daos generados ( reads ), de las disinas muesras a genoipar, secuenciadas aleaoriamene en odo el genoma, y su poserior alineación conra un genoma de reerencia, permie idenificar variaciones genéicas de cambios en una única base nucleoídica o SNPs ( Single Nucleoide Polimorphism ), así como inserciones y/o deleciones de las mismas. Los marcadores SNP han cobrado imporancia debido a su abundancia y variabilidad inraspecífica en los genomas de los individuos en esudio (Gupa e al., 2008). La écnica RAD consise en la preparación de librerías genómicas empleando ER, permiiendo obener una represenación ragmenada del genoma (Davey e al., 2011). Tras la digesión del ADN genómico se añaden dos adapadores erminales en los exremos de los ragmenos, que se emplean para amplificar los ragmenos (ase clusering ) y para secuenciar sus regiones erminales direcas y reversas (ase de secuenciación). Uno de los adapadores lleva en su secuencia un código de barras que permie idenificar cada muesra individual, y de esa manera es posible secuenciar hasa 96 muesras disinas en una calle de la plaaorma ( lane ) conjunamene, ormando una mezcla muliplex , previa selección de los amaños de ragmenos adecuados. La calidad de la librería de ragmenos amplificados se verifica a ravés de la visualización en un gel de agarosa y cuanificando su concenración (Davey e al., 2011); de esa orma se pueden secuenciar un gran número de individuos, aunque a una baja coberura. Esa ecnología se ha aplicado principalmene en animales y planas, algunos ejemplos en planas alógamas son: vid (Wang e al., 2012); cardo ( Cynara cardunculus ) (Scaglione e al., 2012); girasol ( Helianhus annuus ) (Pegadaraju e al., 2013); eucalipo (Gratapaglia and Sederoff, 1994), en el caso de las auógamas enconramos la cebada (Elshire e al., 2011); el rigo (Poland e al., 2012) y Lolium (Hegary e al., 2013) que se esá empleando acualmene en el esudio de diversas especies silvesres. Los daos SNPs obenidos de la écnica RAD esán siendo uilizados para reconsruir filogeograías y arboles filogénicos en diversos organismos (Lemmon & Lemmon, 2012; McCormack e al., 2013; Zellmer e al., 2012), incluso sin disponer de un conocimieno previo sobre la diversidad de sus genomas (Cachen e al., 2013; Masreta-Yanes e al., 2015; Nadeau e al., 2012; Rubin e al., 2012). El hecho de que los SNPs esén disribuidos a lo largo del genoma nuclear y que vayan asociados a una variación neura o adapaiva, además de su relaiva acilidad de genoipado y de ranserencia ecnológica enre los laboraorios (Ogden e al., 2013), ha permiido que un gran número de complejos de 72


especies incluyendo las planas poliploides comiencen a ser esudiadas con esos marcadores (Buggs e al., 2012; Ilu e al., 2012; Lai e al., 2012; Wang e al., 2013).

GBS “Genotyping by sequencing” Es un méodo para reducir la complejidad del genoma que ambién emplea enzimas de resricción, pero sensibles a meilación para su digesión. Se dierencia de los RADseq y RRL porque no lleva a cabo una selección de ragmenos por amaño anes de la secuenciación. Ese méodo ue descrio la primera vez por Elshire e al. (2011). La meodología es similar a RAD-seq, la ER más empleada es ApeKI, requiere de dos ipos de adapadores, incluyendo los barcodes , haciendo posible secuenciar hasa 384 muesras de orma simulánea en una corrida. La amplificación de los ragmenos con los adapadores ocurre mediane PCR y se realiza una purificación para eliminar resos de adapadores y reacivos, los que son evaluados mediane una elecrooresis en gel de agarosa y un especrooómero anes de la secuenciación.

Empleando amplificación de PCR, hibridización por selección o amplificación dirigida del genoma Exoma El exoma es la pare del genoma ormado por los exones, los cuales son las regiones codificanes que se van a ranscribir para dar lugar a las proeínas. El esudio del exoma ha cobrado relevancia en los úlimos años y corresponde a una de las ormas más compleas y complejas de esudiar nuesro ADN; un exoma humano consise en, aproximadamene, 180000 exones que consiuyen cerca del 1% del oal del genoma (unas 30 megabases de ADN). Su imporancia radica en que se ha cenrado en mapear varianes codificanes que permien idenificar causas de enermedades, ya que la mayoría de alelos involucrados en enermedades mendelianas aecan direcamene la secuencia codificane. Además, una ala proporción de las varianes que aleran una proeína aecan su unción y son deleéreas.

Genome Skimming “Genome Skimming” es un érmino que comenzó a emplearse desde el 2012 (Sraub e al., 2012) para describir enoques de secuenciación poco prounda, cuyo fin es el descubrimieno de secuencias orólogas conservadas para esudios filogenómicos. Se basa en el enriquecimieno dirigido de regiones genómicas específicas, que son secuenciadas empleando plaaormas el alo rendimieno, proporcionando la oporunidad de ensamblar y analizar racciones genómicas de ala copia, como genomas plasídicos, miocondriales y ADN ribosomal nuclear (ADNr). Esa écnica ambién puede proporcionar secuencias parciales de loci nucleares de baja copia, suficienes para diseñar cebadores de PCR o 73

sondas para aproximaciones de reducción del genoma basados en hibridación (Sraub e al., 2012). Esa écnica se ha uilizado con éxio para una variedad de propósios (Bock e al., 2014; Malé e al., 2014), compensando el reducido número de marcadores independienes recuperados rene a oras venajas; no haciéndose necesario un genoma de reerencia. Teniendo en cuena que se necesia una menor coberura y se pueden secuenciar más muesras con códigos de barras, reduciendo de manera crucial el cose por muesra, su uso es basane empleado para esudios poblacionales o filogenéicos que emplean alos números de muesra.

Chip-seq Busca idenificar siios de unión de proeínas al ADN usando inmunoprecipiación de cromaina, enriquecimieno de los ragmenos de unión y su secuenciación con NGS. El poserior mapeo de las secuencias obenidas al genoma revela la ubicación de los siios de regulación o modificación de la cromaina.

4.2.5. Control de calidad El conrol de calidad de los daos crudos permie llevar a cabo un análisis rápido del esado de las lecuras obenidas con el fin de idenificar y excluir daos con problemas serios de calidad. Las herramienas usadas permien deerminar la calidad de las bases (probabilidad de que la base asignada sea la correca), la disribución de los nucleóidos, la disribución del conenido de GC, secuencias repeidas, enre oros parámeros, como es el caso del programa FasQC 5. Enre las esraegias para excluir daos, exise la endencia a filrar las lecuras que engan poca calidad, o corarlos a parir de la posición en la cual la calidad comienza a decaer. Enre los programas más usados enconramos Cuadap 6 , Trimmomaic (Bolger e al., 2014) y FASTX-Toolki 7 . En el caso de lecuras largas, se han desarrollado flujos de rabajo como el HGAP 8 , sin embargo, hay que ener en cuena que con los avances inormáicos acuales, odos los días enemos nuevos programas en uso. Ora siuación a ener en cuena rene al conrol de calidad son los conaminanes. En la acualidad exisen dierenes herramienas disponibles que sirven para realizar una comprobación rápida de posibles conaminanes en lecuras de secuenciación de muesras o librerías. Eso se lleva a cabo dándole a cada una de esas lecuras una asignación axonómica, que en algunos casos puede llegar hasa nivel de especie, deecando, de esa manera, si las mismas esán conaminadas con ADN de oras uenes. Es decir, si se esá realizando un ensamblaje de novo de una especie X que desaorunadamene presena 5 Al respeco se recomienda visiar la página htp://www.bioinormaics.babraham.ac.uk/projecs/asqc/. 6 Para obener más inormación sobre el programa se recomienda visiar la página htp://code.google.com/p/cuadap/. 7 Hay inormación disponible sobre el programa en htp://hannonlab.cshl.edu/asx_oolki.com. 8 Hay inormación disponible sobre el programa en htps://gihub.com/PacificBiosciences/Bioinormaics.Training/wiki/HGAP.

74


secuencias de ADN de múliples organismos que no han sido eliminados, el usuario se arriesgará a obener resulados pobres y conigs quiméricos. Los conaminanes pueden ser el resulado de problemas a la hora de la exracción, como consecuencia del ipo de coleca o muesreo realizado. Eso es basane recuene en el caso de algas u oros simbiones. Enre las herramienas más usadas para llevar a cabo la asignación axonómica de las lecuras, enemos: •

•

•

•

Blas. Kraken9. Cenriuge10. Blobology11.

4.2.6. Ensamblaje Una vez que se han limpiado resos de adapadores en las lecuras obenidas por el secuenciador, y las secuencias de baja calidad han sido reiradas, es posible comenzar con el ensamblaje del genoma. Idealmene, un ensamblaje de genoma es el se de secuencias reunidas que mejor se aproxima al genoma secuenciado. Dependiendo del ipo de genoma exisen dierenes programas, cuya escogencia dependerá principalmene del organismo con el que se esá rabajando, y del ipo de secuenciación uilizado. Para secuencias coras, como las que se obienen en la secuenciación Illumina®, se uilizan programas basados en los graos de Bruijn (DBG - De Bruijn graph assembly ), que son represenaciones de los solapamienos enre ragmenos coros de secuencias llamados k-meros; mienras que para las secuencias más largas, como las obenidas con PacBio® o Nanopore® se usan los ensambladores basados en el consenso por solapamieno (OLC – Overlap/Layou/Consensus assembly ), que uilizan la similiud enre secuencias para deerminar los solapamienos. En ambos casos las lecuras obenidas son inroducidas a los programas de ensamblaje, capaces de enregar ragmenos únicos reconsruidos (llamados conigs). Lo que se busca poseriormene es reorganizar dichos conigs con la ayuda de inormaciones adicionales que permian organizarlos para consruir lo que se llama scaffolds (superconigs). Como es de esperar, la reconsrucción de un genoma es un proceso dispendioso, cuyos resulados dependerán de muchos acores ya explicados previamene (calidad de la secuenciación, la meodología uilizada, la coberura uilizada, y la inormación adicional que se disponga). La mayor pare de los proyecos de secuenciación de genomas se basan en la secuenciación aleaoria ( shogun), por consiguiene, es de esperarse que en su gran mayoría lo que se obiene al final es un borrador aproximaivo del genoma en esudio, 9 Acerca de Kraken se sugiere visiar htps://ccb.jhu.edu/sofware/kraken/ htps://gihub.com/DerrickWood/kraken. 10 Sobre Cenriuge se recomienda visiar htps://ccb.jhu.edu/sofware/cenriuge/. 11 Sobre Blobology se recomienda visiar htps://gihub.com/blaxerlab/bloboloy.

75

cuyo nivel de refinamieno depende de los acores ya mencionados. A coninuación, se deallan algunos programas bioinormáicos para el ensamblaje de genomas, clasificados de acuerdo con los pasos de análisis: 1. Ensamblaje y 2. Evaluación de la calidad del ensamblaje.

Ensamblaje SPAdes Es un se de herramienas diseñando para ensamblar genomas, concebido como una plaaorma escalable y ácil de modificar, se ue ampliando gradualmene en una amilia de herramienas SPAdes, dirigidas a varias ecnologías y aplicaciones de secuenciación, uilizando por deeco una mezcla de valores de k en sus k-meros. Requiere como archivos de enrada lecuras en “paired-end”, “mae-pairs”, y no pareadas, en ormaos BAM, FASTA y FASTQ. Acepa lecuras de Illumina®, Ion TorrenTM, y PacBio®12 (Bankevich e al., 2012). Además del ensamblador SPAdes consanemene acualizado, ahora incluye: •

•

•

•

•

•

MetaSPAdes: ensamblador para daos meagenómicos. RnaSPAdes: ensamblador de novo para RNA-seq (en preparación, Comunicación personal). PlasmidSPAdes: ensamblaje de plásmidos a parir de los daos de secuenciación del genoma compleo. ExSPAnder: módulo para la resolución de repeición. HybridSPAdes: módulo para el ensamblaje híbrido de lecuras coras precisas con lecuras largas y propensas a errores, como las lecuras de Pacific Biosciences y Oxord Nanopore. GeneSPAdes: herramiena dirigida a la reconsrucción exaca de los grupos de genes biosinéicos uilizando su esrucura de dominio (en preparación, comunicación personal).

Velvet Es un ensamblador basado en los graos de Bruijn, diseñado para manipular secuencias coras ipo Illumina®. Velve elimina eficienemene los errores y resuelve las repeiciones de manera independiene. La corrección de errores se basa en la usión de secuencias iguales, y la resolución de repeiciones se hace al separar los caminos que comparen solapamienos. Requiere archivos de enrada lecuras en ormaos FASTA, FASTQ, SAM y BAM, enre oros 13 .

12 Al respeco puede enconrarse inormación en htp://bioin.spbau.ru/en/spades. 13 A ese respeco se sugiere visiar la página htps://gihub.com/dzerbino/velve.

76


ABySS Es un ensamblador de novo para secuencias coras, de ipo “paired-end”, obenidas a parir de grandes se de daos. Se basa en una represenación disribuida de los graos de Bruijn, lo que permie compuar de orma paralela el algorimo en muchos procesadores. El algorimo procede en dos eapas. En la primera odas los posibles k-meros son generados a parir de las lecuras, poseriormene los errores son reirados a parir de los ses de k-meros, y los primeros conigs son así consruidos. En la segunda eapa, la inormación derivada de las lecuras “mae-pair” es uilizada para exender los conigs y para resolver las ambigüedades en los solapamienos enre conigs 14 .

MaSuRCA Es un ensamblador que combina la eficiencia de los graos de Bruijn con las caracerísicas del ensamblaje OLC, permiiendo longiudes de lecuras variables y olerando un nivel significaivo de errores en el secuenciamieno. MaSuRCA ransorma las lecuras en “paired-end” en un número menor de “super-lecuras” de mayor longiud. Las superlecuras son una exensión base a base de la lecura original, desde sus dos exremidades siempre y cuando la exensión sea única. Dichas super-lecuras permie el ensamblaje de daos provenienes de lecuras coras (Illumina®), o mezclas enre lecuras coras y largas.

FALCON Es un se de herramienas pensadas para el alineamieno de lecuras largas derivadas de la secuenciación en iempo real de una sola molécula (plaaorma PacBio®) y su ensamblaje de genomas haploides y diploides. Preserva rasro de los conigs alernaivos, lo que permie crear haploipos en ase, de los organismos diploides e idenificar la presencia de heerocigocidades enre cromosomas homólogos 15 .

CANU Fue diseñado para acepar lecuras de PacBio® RS II o del MinION de Nanopore. Su arquiecura modulable permie que el programa corra desde en compuadores personales hasa en clúseres de orma paralelizada. La ejecución de Canu maneja y ejecua cada una de las areas principales del ensamblador: corrección, recore y consrucción de conigs únicos.

Evaluación en la calidad del ensamblaje Cuando el genoma ha sido ensamblado, es recomendable deerminar la calidad del ensamblaje logrado, calculando algunos parámeros de evaluación de la eecividad como los amaños de conigs, número de ensamblajes incorrecos, porcenaje de la represenación del genoma. 14 Puede enconrarse más inormación en htp://www.bcgsc.ca/plaorm/bioino/sofware/abyss. 15 Al respeco, se sugiere ver htps://gihub.com/PacificBiosciences/FALCON.

77

QUAST Es un conjuno de herramienas para la evaluación y comparación de la calidad del ensamblaje del genoma. Compara aquellos que disponen de genoma de reerencia y los que no lo hacen. Produce repores de los parámeros de evaluación, ablas de sumario y gráficos para ayudar a la inerpreación y publicación de daos. Los pasos compuacionalmene más demandanes pueden ser corridos en paralelo. Presena una modificación para la evaluación de ensamblajes meagenómicos llamada, MeaQUAST 16 .

4.2.7. Anotación La anoación se refiere a dos procesos: en primer lugar, los genes y sus esrucuras inrónicas-exónicas (anoación esrucural) y en segundo lugar, agregar meadaos, ales como asociaciones con érminos de Onología de genes (GO, del inglés Gene Onology) y descripciones uncionales, a anoaciones esrucurales (anoación uncional). La anoación de esrucuras génicas se divide en una ase “compuacional”, en la cual se generan predicciones de genes ab iniio, basadas en modelos maemáicos, y predicciones basadas en evidencias, como secuencias de expresión, ranscrios y proeínas conocidas. La ase siguiene consise en la “anoación”, en la cual se asignan descripciones uncionales a los genes predichos en la primera ase. La mayoría de programas acualmene disponibles para anoación esán enocados en genes codificanes de proeínas y no en la anoación de oro ipo de secuencias genómicas como elemenos ransponibles, secuencias repeiivas y genes codificanes de ARNs de ranserencia, ribosomal u oros. La razón de eso es que las secuencias y elemenos repeiivos complican el proceso compuacional de anoación, y las herramienas uilizadas para esos, son dierenes a las que se uilizan en los pipelines comunes de anoación genómica. Un pipeline para anoación genómica debe inegrar y manejar dierenes ipos de evidencias en la orma de secuencias expresadas (ESTs), daos de proyecos de RNA-Seq, homologías de proeínas y predicciones de genes, con la capacidad de poder sineizar odos esos daos en modelos de genes consisenes, para luego generar predicciones robusas de sus aribuos uncionales. Por lo anerior se obienen archivos de salida con los daos de anoación organizados, de al manera que se puedan ver gráficamene en visualizadores genómicos y almacenar en bases de daos de anoación. En las próximas páginas se deallan algunas herramienas bioinormáicas basane usadas para la anoación de genomas, genes y proeínas, clasificadas de acuerdo con los pasos de análisis: 1. Predicción de genes y secuencias codificanes. 2. Predicción de aribuos uncionales de proeínas. 16

Sobre MeaQUAST, se sugiere ver htp://quas.sourceorge.ne.

78


4.2.7.1. Programas bioinformáticos para la anotación

Augustus Predice genes en secuencia genómicas eucarioas, basándose en la evaluación de evidencias de regiones poencialmene codificanes de proeínas mediane un Modelo Oculo de Markov Generalizado (GHMM) 17 que inegra inormación inrínseca y exrínseca.

Glimmer Un sisema para enconrar genes en ADN microbiano, especialmene en genomas de bacerias, arqueas y virus 18.

Glimmerhmm Un predicor de genes basado ambién en Modelos Oculos de Markov Generalizado (GHMM), pero adicionalmene incorpora modelos de siios de splicing obenidos a parir de oro programa, GeneSplicer, y de un árbol de decisiones adapado del programa GlimmerM. También uiliza Modelos Inerpolados de Markov para la generación de los modelos codificanes y no codificanes. Acualmene, GlimmerHMM incluye en sus esrucuras inrones, regiones inergénicas y cuaro ipos de exones (inicial, inernos, finales y sencillos) 19.

Repeatmasker Realiza un amizaje de las secuencias de ADN para buscar regiones repeiivas y de baja complejidad. La salida del programa es una anoación deallada de las repeiciones presenes en las secuencias de enrada, así como una versión modificada de la secuencia de enrada, en la cual se han enmascarado odas las repeiciones anoadas (reemplazas por Ns). Acualmene más del 56% de la secuencia genómica del humano es idenificada y enmascarada por el programa 20.

Transdecoder v3.0.0 Predice regiones codificanes en ranscrios reconsruidos a parir de daos de RNA-Seq 21.

17 Al respeco se sugiere ver htp://bioin.uni-greiswald.de/augusus/. 18 Se sugiere ver htp://ccb.jhu.edu/sofware/glimmer/index.shml. 19 A ese respeco se sugiere ver htp://ccb.jhu.edu/sofware/glimmerhmm/. 20 Inormación disponible en htp://www.repeamasker.org/. 21 Inormación disponible en htp://ransdecoder.gihub.io.

79

NCBI-blast Es un suie de programas proporcionados por el Naional Cener or Bioechnology (NCBI) para el alineamieno local (comparación) de secuencias de enrada conra una base de daos blanco22.

Rapsearch. Es una herramiena de búsqueda rápida de proeínas por similiud 23.

Interproscan Es una herramiena que combina dierenes méodos de reconocimieno de parones proeicos en un solo recurso 24.

Hmmer Proporciona acceso a los algorimos de búsqueda de homología enconrados en la suie del programa de HMMER. Desde el primer lanzamieno de la página web en 2011, el reperorio de búsqueda se ha expandido para incluir el algorimo de búsqueda ieraiva, jackhammer. El crecimieno coninuo de las bases de daos de secuencias significa que la canidad de coincidencias obenidas en una búsqueda puede ser exuberane. Por consiguiene, se han desarrollado maneras adicionales de presenar los resulados de búsqueda por homología, permiiendo que puedan resumirse de acuerdo con su disribución axonómica o arquiecura de dominios. Esos dos crierios se pueden usar de orma combinada para filrar los resulados de acuerdo con las necesidades del usuario 25 .

Tmhmm Programa para la predicción de hélices ransmembrana en proeínas 26.

Signalp Predice la presencia y ubicación de siios de clivaje de pépido señal en secuencias de amino ácidos de dierenes organismos: procarioas Gram-posiivos y Gram-negaivos y eucarioas27 . 22 Inormación disponible en htp://blas.ncbi.nlm.nih.gov/Blas.cgi. 23 Inormación disponible en htp://omics.inormaics.indiana.edu/mg/RAPSearch2/. 24 Inormación disponible en htps://code.google.com/archive/p/inerproscan/. 25 Inormación disponible en htp://www.ebi.ac.uk/Tools/hmmer/. 26 Inormación disponible en htp://www.cbs.du.dk/services/TMHMM/. 27 Inormación disponible en htp://www.cbs.du.dk/services/SignalP/.

80


Blast2GO Una herramiena bioinormáica para la anoación uncional de secuencia y minería de daos sobre las anoaciones resulanes, basadas principalmene en érminos de Onología de genes (GO, del inglés Gene Onology). Blas2GO opimiza la ranserencia de unción enre secuencias homólogas a ravés de un algorimo elaborado que iene en cuena similiud, exensión de la homología, base de daos de reerencia, la jerarquía del GO y la calidad de las anoaciones originales. La herramiena incluye numerosas unciones para la visualización, manejo y análisis esadísico de resulados de anoación, incluyendo un análisis de enriquecimieno de genes. La aplicación sopora anoaciones con InerPro, códigos enzimáicos, vías KEGG, graos acíclicos direcos GO (DAGs) y GOslim 28.

Maker Es una herramiena de anoación genómica y de manejo de daos diseñada para proyecos de genoma de segunda generación (no modelo). MAKER2 puede procesar conjunos de daos de segunda generación de virualmene cualquier amaño, produciendo anoaciones precisas para genomas nuevos, para los cuales los daos de enrenamieno son limiados, de baja calidad y casi inexisenes. Permie el uso de daos de RNA-Seq para mejorar la calidad de la anoación y se pueden usar esos daos para acualizar anoaciones exisenes, mejorando significaivamene su calidad. MAKER2 ambién permie evaluar la calidad de las anoaciones genómicas e idenificar y priorizar anoaciones problemáicas para su curación manual 29.

4.2.8. Visualización de la anotación El resulado de las anoaciones de los genes puede ser viso direcamene en el compuador o puede ser cargado en páginas web que permien enconrar las caracerísicas de los genes anoados, a ravés de herramienas diseñadas para la descripción, el análisis, visualización y la disribución de la anoación. Uno de los programas más uilizados acualmene para la visualización y exploración de daos de genoma es JBrowse, derivado de GBrowse, uno de los primeros visualizadores.

28 Inormación disponible en htps://www.blas2go.com/. 29 Inormación disponible en htp://www.yandell-lab.org/sofware/maker.hml.

81

4.3. Referencias Adams M.D., Celniker S.E., Hol R.A., Evans C.A., Gocayne J.D., Amanaides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N., Suton G.G., Worman J.R., Yandell M.D., Zhang Q., Chen L.X., Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Peiffer B.D., Wan K.H., Doyle C., Baxer E.G., Hel G., Nelson C.R., Gabor G.L., Miklos, Abril J.F., Agbayani A., An H.-J., Andrews-Pannkoch C., Baldwin D., Ballew R.M., Basu A., Baxendale J., Bayrakaroglu L., Beasley E.M., Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S., Borkova D., Bochan M.R., Bouck J., Broksein P., Brotier P., Buris K.C., Busam D.A., Buler H., Cadieu E., Cener A., Chandra I., Cherry J.M., Cawley S., Dahlke C., Davenpor L.B., Davies P., Pablos B.d., Delcher A., Deng Z., Mays A.D., Dew I., Diez S.M., Dodson K., Doup L.E., Downes M., DuganRocha S., Dunkov B.C., Dunn P., Durbin K.J., Evangelisa C.C., Ferraz C., Ferriera S., Fleischmann W., Fosler C., Gabrielian A.E., Garg N.S., Gelbar W.M., Glasser K., Glodek A., Gong F., Gorrell J.H., Gu Z., Guan P., Harris M., Harris N.L., Harvey D., Heiman T.J., Hernandez J.R., Houck J., Hosin D., Houson K.A., Howland T.J., Wei M.-H., e al. (2000). The Genome Sequence o Drosophila melanogaser. Science, 287:2185. Amores, A., Cachen, J., Nanda, I., Warren, W., Waler, R., Scharl, M., Poslehwai J.H. (2014). A RAD-Tag Geneic Map or he Playfish (Xiphophorus maculaus). Reveals Mechanisms o Karyoype Evoluion Among Teleos Fish. Geneics, 197 , 625-U307. DOI: 10.1534/geneics.114.164293. Baird N.A., Eter P.D., Awood T.S., Currey M.C., Shiver A.L., Lewis Z.A., Selker E.U., Cresko W.A., Johnson E.A. (2008). Rapid SNP Discovery and Geneic Mapping Using Sequenced RAD Markers. Plos One 3. Bankevich A., Nurk S., Anipov D., Gurevich A.A., Dvorkin M., Kulikov A.S., Lesin V.M., Nikolenko S.I., Pham S., Prjibelski A.D., Pyshkin A.V., Sirokin A.V., Vyahhi N., Tesler G., Alekseyev M.A., Pevzner P.A. (2012). SPAdes: A New Genome Assembly Algorihm and Is Applicaions o Single-Cell Sequencing. Journal o Compuaional Biology, 19, 455-477. DOI: 10.1089/cmb.2012.0021. Bock, D.G., Kane N.C., Eber, D.P., Rieseberg, L.H. (2014). Genome skimming reveals he origin o he Jerusalem Arichoke uber crop species: neiher rom Jerusalem nor an arichoke. New Phyologis, 201, 1021-1030. DOI: 10.1111/nph.12560. Bolger, A.M., Lohse, M., Usadel, B. (2014). Trimmomaic: a flexible rimmer or Illumina sequence daa. Bioinormaics, 30, 2114-2120. DOI: 10.1093/bioinormaics/bu170. Brenchley R., Spannagl M., Peier M., Barker G.L.A., D’Amore R., Allen A.M., McKenzie N., Kramer M., Kerhornou A., Bolser D., Kay S., Waie D., Trick M., Bancrof I., Gu Y., Huo N., Luo M.C., Sehgal S., Gill B., Kianian S., Anderson O., Kersey P., Dvorak J., McCombie W.R., Hall A., Mayer K.F.X., Edwards K.J., Bevan M.W., Hall N. (2012). Analysis o he breadwhea genome using whole-genome shogun sequencing. Naure, 491, 705-710. DOI: 10.1038/naure11650. Buggs R.J.A., Renny-Byfield S., Cheser M., Jordon-Thaden I.E., Viccini L.F., Chamala 82


S., Leich A.R., Schnable P.S., Barbazuk W.B., Solis P.S., Solis D.E. (2012). Nexgeneraion sequencing and genome evoluion in allopolyploids. American Journal o Boany, 99, 372-382. DOI: 10.3732/ajb.1100395. Cachen, J., Bassham, S., Wilson, T., Currey, M., O’Brien, C., Yeaes, Q., Cresko, W.A. (2013). The populaion srucure and recen colonizaion hisory o Oregon hreespine sickleback deermined using resricion-sie associaed DNA-sequencing. Molecular Ecology, 22, 2864-2883. DOI: 10.1111/mec.12330. Chain P.S.G., Graham D.V., Fulon R.S., FizGerald M.G., Hoseler J., Muzny D., Ali J., Birren B., Bruce D.C., Buhay C., Cole J.R., Ding Y., Dugan S., Field D., Garriy G.M., Gibbs R., Graves T., Han C.S., Harrison S.H., Highlander S., Hugenholz P., Khouri H.M., Kodira C.D., Kolker E., Kyrpides N.C., Lang D., Lapidus A., Malati S.A., Markowiz V., Meha T., Nelson K.E., Parkhill J., Piluck S., Qin X., Read T.D., Schmuz J., Sozhamannan S., Serk P., Srausberg R.L., Suton G., Thomson N.R., Tiedje J.M., Weinsock G., Wollam A., Deter J.C. (2009). Genome Projec Sandards in a New Era o Sequencing. Science, 326, 236. Davey, J.W., Hohenlohe, P.A., Eter, P.D., Boone, J.Q., Cachen, J.M., Blaxer, M.L. (2011) Genome-wide geneic marker discovery and genoyping using nex-generaion sequencing. Naure Reviews Geneics 12:499-510. Elshire, R.J., Glaubiz, J.C., Sun, Q., Poland, J.A., Kawamoo, K., Buckler, E.S., Michell, S.E. (2011). A Robus, Simple Genoyping-by-Sequencing (GBS). Approach or High Diversiy Species. Plos One 6. Eter, P.D., Bassham, S., Hohenlohe, P.A., Johnson, E.A., Cresko, W.A. (2011). SNP discovery and genoyping or evoluionary geneics using RAD sequencing. Mehods in molecular biology (Clifon, N.J.) . 772, 157-78. DOI: 10.1007/978-1-61779-228-1_9. Fedoroff, N.V. (2012) Transposable Elemens, Epigeneics, and Genome Evoluion. Science, 338, 758-767. DOI: 10.1126/science.338.6108.758. Fleischmann R.D., Adams M.D., Whie O., Clayon R.A., Kirkness E.F., Kerlavage A.R., Bul C.J., Tomb J.F., Doughery B.A., Merrick J.M., e al.(1995). Whole-genome random sequencing and assembly o Haemophilus influenzae Rd. Science, 269, 496. Garcia-Mas J., Benjak A., Sanseverino W., Bourgeois M., Mir G., Gonzalez V.M., Henaff E., Camara F., Cozzuo L., Lowy E., Alioo T., Capella-Guierrez S., Blanca J., Canizares J., Ziarsolo P., Gonzalez-Ibeas D., Rodriguez-Moreno L., Droege M., Du L., AlvarezTejado M., Lorene-Galdos B., Mele M., Yang L.M., Weng Y.Q., Navarro A., MarquesBone T., Aranda M.A., Nuez F., Pico B., Gabaldon T., Roma G., Guigo R., Casacubera J.M., Arus P., Puigdomenech P. (2012). The genome o melon ( Cucumis melo L.). Proceedings o he Naional Academy o Sciences o he Unied Saes o America 109, 11872-11877. DOI: 10.1073/pnas.1205415109.

Gawad, C., Koh, W., Quake, S.R. (2016). Single-cell genome sequencing: curren sae o he science. Na Rev Gene, 17, 175-188. DOI: 10.1038/nrg.2015.16. Goff S.A., Ricke D., Lan T.H., Presing G., Wang R.L., Dunn M., Glazebrook J., Sessions A., Oeller P., Varma H., Hadley D., Huchinson D., Marin C., Kaagiri F., Lange B.M., Moughamer T., Xia Y., Budworh P., Zhong J.P., Miguel T., Paszkowski U., Zhang S.P.,

83

Colber M., Sun W.L., Chen L.L., Cooper B., Park S., Wood T.C., Mao L., Quail P., Wing R., Dean R., Yu Y.S., Zharkikh A., Shen R., Sahasrabudhe S., Thomas A., Cannings R., Guin A., Pruss D., Reid J., Tavigian S., Michell J., Eldredge G., Scholl T., Miller R.M., Bhanagar S., Adey N., Rubano T., Tusneem N., Robinson R., Feldhaus J., Macalma T., Oliphan A., Briggs S.…(2002a). A draf sequence o he rice genome ( Oryza saiva L. ssp japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275. Goffeau A., Barrell B.G., Bussey H., Davis R.W., Dujon B., Feldmann H., Galiber F., Hoheisel J.D., Jacq C., Johnson M., Louis E.J., Mewes H.W., Murakami Y., Philippsen P., Tetelin H., Oliver S.G. (2002b). A Draf Sequence o he Rice Genome (Oryza saiva L. ssp. japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275. Goffeau, A., Barrell, B.G., Bussey, H., Davis, R.W., Dujon, B., Feldmann, H., Galiber, F., Hoheisel, J.D…(1996). Lie wih 6000 Genes. Science, 274, 546. Gratapaglia, D., Sederoff, R. (1994) Geneic-Linkage Maps o Eucalypus-Grandis and Eucalypus-Urophylla Using a Pseudo-Tescross - Mapping Sraegy and Rapd Markers. Geneics, 137, 1121-1137. Guo, S., Zhang, J., Sun, H., Salse, J., Lucas, W.J., Zhang, H., Zheng Y., Mao, L., Ren, Y… (2013). The draf genome o waermelon (Cirullus lanaus) and resequencing o 20 diverse accessions. Na Gene, 45, 51- 58. DOI: htp://www.naure.com/ng/journal/ v45/n1/abs/ng.2470.hml#supplemenary-inormaion. Gupa, P.K., Rusgi, S., Mir, R.R. (2008). Array-based high-hroughpu DNA markers or crop improvemen. Herediy, 101, 5-18. Hegary, M., Yadav, R., Lee, M., Armsead, I., Sanderson, R., Scollan, N., Powell, W., Sko, L. (2013). Genoyping by RAD sequencing enables mapping o aty acid composiion rais in perennial ryegrass (Lolium perenne (L.)). Plan Bioechnology Journal, 11, 572-581. Heinner, G. (2015). Hacia la medicina personalizada: implicancias de las ciencias básicas y las “ómicas” en la prácica clínica. Revisa Peruana de Medicina Experimenal y Salud Publica, 32, 629-632. Hirsch, C.N., Foerser, J.M., Johnson, J.M., Sekhon, R.S., Mutoni, G., Vaillancour, B., Peñagaricano, F., Lindquis, E…(2014). Insighs ino he Maize Pan-Genome and Pan-Transcripome. The Plan Cell, 26, 121-135. Ilu, D.C., Coae, J.E., Luciano, A.K., Owens, T.G., May, G.D., Farmer, A., Doyle, J.J. (2012). A comparaive ranscripomic sudy o an alloeraploid and is diploid progeniors illusraes he unique advanages and challenges o rna-seq in plan species. American Journal o Boany. 99, 383-396. DOI: 10.3732/ajb.1100312. Inernaional Human Genome Sequencing Consorium. (2001). Iniial sequencing and analysis o he human genome. Naure, 409, 860 - 921. DOI: htp://www.naure. com/naure/journal/v409/n6822/suppino/409860a0_S1.hml. Jain, M., Misra, G., Pael, R.K., Priya, P., Jhanwar, S., Khan, A.W., Shah, N., Singh, V.K… (2013). A draf genome sequence o he pulse crop chickpea ( Cicer arieinum L.). Plan Journal, 74, 715-729. DOI: 10.1111/pj.12173. Kelly, L.J., Leich, A.R., Fay, M.F., Renny-Byfield, S., Pellicer, J., Macas, J., Leich, I.J. (2012). Why size really maters when sequencing plan genomes. 84


Plan Ecology & Diversiy, 5, 415-425. DOI: 10.1080/17550874.2012.716868.

Lai, Z., Kane, N.C., Kozik, A., Hodgins, K.A., Dlugosch, K.M., Barker, M.S., Mavienko, M., Yu, Q…(2012). Genomics o composiae weeds: es libraries, microarrays, and evidence o inrogression. American Journal o Boany. 99, 209-218. DOI: 10.3732/ ajb.1100313. Lemmon, A.R., Lemmon, E.M. (2012). High-Throughpu Idenificaion o Inormaive Nuclear Loci or Shallow-Scale Phylogeneics and Phylogeography. Sysemaic Biology, 61, 745-761. Malé, P.-J.G., Bardon, L., Besnard, G., Coissac, E., Delsuc, F., Engel J., Lhuillier, E., Scoti-Sainagne, C…(2014). Genome skimming by shogun sequencing helps resolve he phylogeny o a panropical ree amily. Molecular Ecology Resources, 14, 966975. DOI: 10.1111/1755-0998.12246. Mamanova, L., Coffey, A.J., Scot, C.E., Kozarewa, I., Turner, E.H., Kumar A., Howard E., Shendure J…(2010). Targe-enrichmen sraegies or nex-generaion sequencing. Na Meh, 7, 111-118. DOI: htp://www.naure.com/nmeh/journal/v7/n2/suppino/ nmeh.1419_S1.hml. Masreta-Yanes, A., Arrigo, N., Alvarez, N., Jorgensen, T.H., Pinero, D., Emerson, B.C. (2015). Resricion sie-associaed DNA sequencing, genoyping error esimaion and de novo assembly opimizaion or populaion geneic inerence. Molecular Ecology Resources, 15, 28-41. DOI: 10.1111/1755-0998.12291. McCormack, J.E., Hird, S.M., Zellmer, A.J., Carsens, B.C., Brumfield, R.T. (2013). Applicaions o nex-generaion sequencing o phylogeography and phylogeneics. Molecular Phylogeneics and Evoluion, 66, 526-538. Michael, T.P., Jackson, S. (2013). The Firs 50 Plan Genomes. Plan Gen, 6. DOI: 10.3835/plangenome2013.03.0001in. Miller, M.R., Dunham, J.P., Amores, A., Cresko, W.A., Johnson, E.A. (2007). Rapid and cos-effecive polymorphism idenificaion and genoyping using resricion sie associaed DNA (RAD) markers. Genome Research, 17, 240-248. Nadeau, N.J., Whibley, A., Jones, R.T., Davey, J.W., Dasmahapara, K.K., Baxer, S.W., Quail, M.A., Joron M…(2012). Genomic islands o divergence in hybridizing Heliconius buterflies idenified by large-scale argeed sequencing. Philosophical Transacions o he Royal Sociey B-Biological Sciences, 367, 343-353. DOI: 10.1098/ rsb.2011.0198. Ogden, R., Gharbi, K., Mugue, N., Marinsohn, J., Senn, H., Davey, J.W., Pourkazemi, M., McEwing, R…(2013). Surgeon conservaion genomics: SNP discovery and validaion using RAD sequencing. Molecular Ecology, 22, 3112-3123. DOI: 10.1111/mec.12234. Paerson, A.H., Bowers, J.E., Bruggmann, R., Dubchak, I., Grimwood, J., Gundlach, H., Haberer, G., Hellsen, U... (2009). The Sorghum bicolor genome and he diversificaion o grasses. Naure, 457, 551-556. DOI: 10.1038/naure07723. Pegadaraju, V., Nipper, R., Hulke, B., Qi, L.L., Schulz, Q. (2013). De novo sequencing o sunflower genome or SNP discovery using RAD (Resricion sie Associaed DNA) approach. Bmc Genomics, 14. Peerson, B.K., Weber, J.N., Kay, E.H., Fisher, H.S., Hoeksra, H.E. (2012). Double Diges 85

RADseq: An Inexpensive Mehod or de novo SNP Discovery and Genoyping in Model and Non-Model Species. Plos One 7, e37135. DOI: 10.1371/journal.pone.0037135. Poland, J.A., Brown, P.J., Sorrells, M.E., Jannink, J.L. (2012). Developmen o HighDensiy Geneic Maps or Barley and Whea Using a Novel Two-Enzyme Genoypingby-Sequencing Approach. Plos One 7. Renny-Byfield, S., Wendel, J.F. (2014). Doubling down on genomes: Polyploidy and crop plans. American Journal o Boany, 101, 1711-1725. Rosenblum, E.B., James, T.Y., Zamudio, K.R., Pooren, T.J., Ilu, D., Rodriguez, D., Easman, J.M., Richards-Hrdlicka, K…(2013). Complex hisory o he amphibiankilling chyrid ungus revealed wih genome resequencing daa. Proceedings o he Naional Academy o Sciences, 110, 9385-9390. Rubin, B.E.R., Ree, R.H., & Moreau, C.S. (2012). Inerring Phylogenies rom RAD Sequence Daa. Plos One 7. DOI: 10.1371/journal.pone.0033394. Sao S., Nakamura Y., Kaneko T., Asamizu E., Kao T., Nakao M., Sasamoo S., Waanabe A…(2008). Genome Srucure o he Legume, Lous japonicus. DNA Research: An Inernaional Journal or Rapid Publicaion o Repors on Genes and Genomes, 15,

227-239. DOI: 10.1093/dnares/dsn008. Scaglione, D., Acquadro, A., Poris, E., Tirone, M., Knapp, S.J., & Laneri, S. (2012). RAD ag sequencing as a source o SNP markers in Cynara cardunculus L. Bmc Genomics, 13. Schmuz, J., McClean, P.E., Mamidi, S., Wu, G.A., Cannon, S.B., Grimwood, J., Jenkins, J., Shu, S.Q…(2014). A reerence genome or common bean and genome-wide analysis o dual domesicaions. Naure Geneics, 46, 707-713. DOI: 10.1038/ng.3008. Schnable, P.S., Ware, D., Fulon, R.S., Sein, J.C., Wei, F.S., Pasernak, S., Liang, C.Z., Zhang, J.W…(2009). The B73 Maize genome: Complexiy, diversiy, and dynamics. Science, 326, 1112-1115. DOI: 10.1126/science.1178534. Sims, D., Sudbery, I., Ilot, N.E., Heger, A., & Poning, C.P. (2014). Sequencing deph and coverage: key consideraions in genomic analyses. Na Rev Gene, 15, 121-132. DOI: 10.1038/nrg3642. Sraub, S.C.K., Parks, M., Weiemier, K., Fishbein, M., Cronn, R.C., & Lison, A. (2012). Navigaing he ip o he genomic iceberg: nex-generaion sequencing or plan sysemaics. American Journal o Boany, 99, 349-364. DOI: 10.3732/ajb.1100335. The Arabidopsis Genome Iniiaive. (2000). Analysis o he genome sequence o he flowering plan Arabidopsis haliana. Naure, 408, 796- 815. DOI: htp://www. naure.com/naure/journal/v408/n6814/suppino/408796a0_S1.hml. The Barley Genome Sequencing Consorium. (2012). A physical, geneic and uncional sequence assembly o he barley genome. Naure, 491, 711-716. The C.elegans Sequencing Consorium. (1998). Genome Sequence o he Nemaode C. elegans: A Plaorm or Invesigaing Biology.Science, 282, 2012. The Inernaional Brachypodium Iniiaive. (2010). Genome sequencing and analysis o he model grass Brachypodium disachyon. Naure, 463, 763- 768. DOI: Doi 10.1038/Naure08747.

86


The Poao Genome Sequencing Consorium. (2011). Genome sequence and analysis o he uber crop poao. Naure, 475, 189 - 195. DOI: htp://www.naure.com/naure/ journal/v475/n7355/abs/naure10158-1.2.hml#supplemenary-inormaion. Treangen, T.J., & Salzberg, S.L. (2012). Repeiive DNA and nex-generaion sequencing: compuaional challenges and soluions. Na Rev Gene, 13, 36-46. Wang, N., Fang, L.C., Xin, H.P., Wang, L.J., & Li, S.H. (2012). Consrucion o a highdensiy geneic map or grape using nex generaion resricion-sie associaed DNA sequencing. Bmc Plan Biology, 12. Wang, N., Thomson, M., Bodles, W.J.A., Craword, R.M.M., Hun, H.V., Feahersone, A.W., Pellicer, J., & Buggs, R.J.A. (2013). Genome sequence o dwar birch (Beula nana) and cross-species RAD markers. Molecular Ecology, 22, 3098-3111. DOI: 10.1111/mec.12131. Wegrzyn, J.L., Liechy, J.D., Sevens, K.A., Wu, L.-S., Loopsra, C.A., Vasquez-Gross, H.A., Doughery, W.M., Lin, B.Y…(2014). Unique Feaures o he Loblolly Pine (Pinus aeda L.) Megagenome Revealed Through Sequence Annoaion. Geneics, 196, 891909. DOI: 10.1534/geneics.113.159996. Weigel D., Mot R. (2009). The 1001 Genomes Projec or Arabidopsis haliana. Genome Biology, 10, 107. DOI: 10.1186/gb-2009-10-5-107. Yadav, D. (2015). Relevance o Bioinormaics in he era o Omics driven research. Journal o Nex Generaion Sequencing & Applicaions, 2, e102. DOI: 10.4172/24699853.1000e102. Young, B., Beck, S., Córdova, J., Ember, D., Franke, I., Hernandez, P., Herzog, S., Pacheco, V…(2007). Digial disribuion maps o species endemic o he eas slope o he Andes in Peru and Bolivia. NaureServe. Virginia, USA: Arlingon. Zellmer, A.J., Hanes, M.M., Hird, S.M., & Carsens, B.C. (2012). Deep Phylogeographic Srucure and Environmenal Differeniaion in he Carnivorous Plan Sarracenia alaa. Sysemaic Biology, 61, 763-777.

87

5.METAGENÓMICA JEANNETH MOSQUERA RENDÓN DIANA LÓPEZ-ALVAREZ

En la Tierra enconramos que los microorganismos son los seres vivos con mayor abundancia, incluso enconramos más células bacerianas en un cuerpo humano que sus propias células. Además, las bacerias y las arqueas pueden vivir en oda clase de ambienes –incluyendo ambienes exremos de 340°C (Wooley, Godzik & Friedberg, 2010)–; ésas son esenciales para la vida, ya que son uene primaria de nurienes. Sin embargo, solo un pequeño porcenaje de esos microorganismos pueden ser culivados y secuenciados de manera aislada, lo que hace diícil su esudio. La meagenómica aparece para revolucionar y solvenar esos problemas, permiiendo esudiar direcamene comunidades microbianas en sus hábias naurales a ravés de la obención de la inormación genómica, caracerizando desde 10 a 10000 especies en un esudio. Los análisis meagenómicos de ácidos nucleicos proveen acceso direco a los genomas de la mayoría de microorganismos no culivados (Nesme e al., 2016). Por lo ano, surgen muchas definiciones de meagenómica como las que veremos más adelane, pero en general se define como el esudio genómico de microorganismos sin culivar muesreados desde sus hábias. Sus aplicaciones son inmensas, dado que podemos secuenciar oda la vida en la Tierra, desde el suelo, pasando por el mar, hasa el aire; acelerando el descubrimieno de nuevos filos, clases, géneros y especies, así como nuevos genes, enzimas y unciones que engan impaco en secores como la agroindusria y la armacéuica. Además, iene aplicación en el monioreo de ecosisemas naurales o someidos a presiones ambienales con el fin de proponer medidas que ayuden a su resauración. Finalmene, una de las medidas más imporanes desde el puno de visa anropocénrico es el conocimieno del microbioma humano, porque puede aporarnos inormación de la salud de las personas. El esudio meagenómico ha omado ana uerza, que la adminisración del expresidene de los Esados Unidos Barack Obama anunciaba en mayo de 2016, una nueva Iniciaiva Nacional del Microbioma, con el fin de crear herramienas cieníficas, descubrimienos y écnicas de enrenamieno que permiirían avanzar en los esuerzos para curar el asma y la depresión, limpiar los derrames de peróleo e incluso aumenar los rendimienos de los culivos. Los microbiomas ya han sido oco de inensos esudios de inerés público con iniciaivas como el Proyeco del Microbioma de la Tierra ( Earh Microbiome Projec -EMP) (Gilber, Jansson & Knigh, 2014), TerraGenome (Vogel e al., 2009), el Proyeco del Microbioma Brasilero (Pylro e al., 2014), la iniciaiva China del Microbioma del 32 Suelo30, EcoFINDERS31 , MicroBliz , MeaHIT, el Proyeco Microbioma Humano 30 Inormación disponible en htp://english.issas.cas.cn/. 31Inormación disponible en htp://ecofinders.dmu.dk/. 32 Inormación disponible en htp://www.microbliz.com.au/.

88


(Human Microbiome Projec ), Tara Oceans y la Expedición de Muesreo Oceánica Global (The Global Ocean Sampling Expediion ). Incluso, el Consorcio de Esándares Genómicos (Genomics Sandards Consorium -GSC) ha definido la inormación mínima que debe conener un meadao para la secuenciación de un meagenoma. Acualmene, el problema no radica en poder esudiar los meagenomas, sino, en el análisis complejo de ese conjuno de daos, que incluyen un alo volumen de secuencias y requiere nuevas aproximaciones y recursos compuacionales. El primer paso de un análisis de esa índole involucra análisis comparaivos de varios ribosomas y proeínas y bases de daos de nucleóidos. Eso genera un coso compuacional elevado, requiriendo servidores o clúser que puedan permiir su realización y que incluyan comparaciones filogenéicas, anoaciones uncionales, clasificación de secuencias ( binning ), perfiles filogenómicos, reconsrucciones meabólicas y modelización.

5.1. Definición La meagenómica se ha converido en una imporane herramiena para explorar y analizar la colección de genomas microbianos presenes en diversas comunidades o nichos ambienales (marinas, agua dulce, suelo), en planas, en animales o en el hombre; siendo muy úil para la deección de microorganismos que no habían podido ser culivados de manera radicional. El érmino de “Meagenómica” ue acuñado por Handelsman en 1998, luego de haber realizado clonaciones de ADN direcamene de muesras ambienales (Handelsman, Rondon, Brady, Clardy & Goodman, 1998). En la acualidad, la meagenómica se basa en el esudio del maerial genéico recuperado de muesras biológicas o medioambienales que, juno con la aplicación de dierenes aproximaciones genómicas y herramienas bioinormáicas, han permiido describir la esrucura axonómica presene en las comunidades microbianas en dierenes enornos y su unción poencial, lo que nos acerca a descubrir nuevos genes, enzimas o meabolios de gran inerés médico e indusrial. La meagenómica permie obener inormación relacionada con:

I. diversidad filogenéica, al lograr la idenificación de los microrganismos presenes en una comunidad microbiana, su cuanificación, su disribución, sus relaciones filogenéicas y su dinámica. II.meagenómica uncional, con la cual es posible realizar la búsqueda de acividades enzimáicas o nuevas ruas meabólicas. III. meagenómica comparaiva, permie relacionar especies con unciones específicas o unciones específicas con deerminados hábias. IV. la evolución de genes. Adicionalmene, la meagenómica conribuye en la búsqueda de soluciones a problemas prácicos de dierenes áreas del conocimieno como las ciencias de la vida, ciencias de 89

la ierra, ciencias biomédicas, bioenergía, biorremediación, bioecnología y agriculura (Figura 5.1).

Ciencias de la vida Aporta en el avance del entendimiento de las comunidades microbianas, su ecología y su evolución.

Metagenómica Ciencias de la tierra Contribuye en el desarrollo de modelos de ecosistemas microbianos para describir y precidir los porcesos ambientales globales, su cambio y sostenibilidad.

Ciencias biomédicas Ayuda en la comprensión del papel del microbioma humano en la salud, y en el desarrollo de nuevas estrategias de diagnóstico y tratamiento de diferentes enfermedades.

Bioenergía Favorece el desarrollo de sistemas y procesos microbianos de nuevos recursos bioenergéticos más económicos y ambientalmente sostenibles.

Biorremediación La metagenómica permite el desarrollo de herramientas para el control de daños al medio ambiente en todos los niveles.

Biotecnología Permite la identicación y explotación de metabolitos y enzimas presentes en las comunidades microbianas que generan productos industriales (alimentos, cosméticos, farmaceúticos, etc)

Agricultura Contribuye en el desarrollo de métodos más ecaces e integrales para la detección temprana de enfermedades de los cultivos y detección de contaminantes en los alimentos.

Figura 5.1. Conribuciones de la meagenómica en dierenes áreas del conocimieno. Desde el primer regisro de una célula baceriana en 1663, por Anonie van Leeuwenhoek, se han desarrollado dierenes esraegias para esudiar los microorganismos presenes en los dierenes ambienes. En la acualidad, se ha logrado describir dierenes especies microbianas mediane el análisis de secuencias de ADN de microrganismos sin necesidad de ser culivados. Eso se evidencia en los dierenes proyecos pioneros desarrollados en meagenómica (Tabla 5.1), denro de los cuales cabe resalar uno de los primeros esudios realizados y publicados sobre comunidades microbianas de aguas superficiales oceánicas en el Mar de los Sargazos (Bermudas), que ueron secuenciadas empleando ecnología Sanger, obeniendo 1045 mil millones de pares de bases, correspondienes a 1,66 millones de lecuras, donde ueron enconrados aproximadamene 1800 disinas especies y más de 1,2 millones de nuevos genes codificanes incluyendo 782 nuevos genes oorrecepores (Vener, 2004). Uno de los esudios más ambiciosos de los úlimos años ha sido el proyeco de Expedición de Muesreo Oceánica Global (GOS), desarrollado durane los años 2006 y 2007, en el que ueron analizados 200 liros de agua del Océano Alánico noroese y del Pacífico 90


ropical, obeniendo 7,7 millones de lecuras de 800 pb, con la idenificación de nuevas especies de bacerias y nuevas amilias de proeínas (Rusch e al., 2007). Oro proyeco de gran dimensión ue el Proyeco del Microbioma Humano (HMP), desarrollado en el 2008, cuyo objeivo ue idenificar y caracerizar los microorganismos residenes en cinco dierenes zonas del cuerpo humano (cavidad oral, piel, vagina, inesinos y cavidad nasal/ pulmonar), buscando correlaciones enre los cambios de los microbiomas de pacienes enermos y sanos. En ese proyeco ueron secuenciadas más de 2000 muesras, generando aproximadamene 23 millones de lecuras de ala calidad, las cuales pudieron ser asignadas a 674 clados axonómicos (Nelson e al., 2010). Los esudios aneriores ueron realizados en virud de los avances en el desarrollo de las ecnologías de secuenciación de los úlimos años (ver Capiulo 3), permiiendo la reducción de los cosos y haciéndolas más asequibles a los invesigadores, con mejores rendimienos de producción de daos y calidad, impulsando así la revolución de los esudios de diversidad microbiana, la búsqueda e idenificación de nuevas enzimas, meabolios, ruas meabólicas, la comprensión de la dinámica de comunidades microbianas y su imporancia en dierenes áreas como salud, agriculura, bioecnología, enre oras. Por consiguiene, en la acualidad se cuena con 17412 meagenomas, 1312 mearanscripomas, 78221 amplicones, 138 ensamblajes, los cuales se encuenran dispuesos en bases de daos públicas33.

Tabla 5.1. Lisado de algunos proyecos pioneros en meagenómica Proyecto Descripción Biopelícula en un efluene En primera insancia de minas hicieron una librería de 16S ARNr para averiguar si la diversidad era baja. Luego produjeron una librería con ragmenos de 3,2 kb e hicieron 103462 lecuras mediane ‘ shogun sequencing ’ para obener 76,2 millones pb de secuencia.

Mar de Sargasso.

SANGER 1,66 millones de lecuras resularon en 1045 mil millones de pb en secuencia

SANGER Global Ocean Sampling Secuenciaron 7,7 millones de (41 muesras en 8000 km lecuras de 800 pb cada uno desde el Nore de Océano (6,3 mil millones de bases). Alánico a Sur del Océano SANGER Pacifico).

Resultado Referencia bibliográfica Lograron ensamblar casi (Tyson e al., 2004) el genoma compleo de Lepospirillum group II and Ferroplasma ype II, y parcialmene oros res genomas. Análisis de cada genoma reveló ruas para la fijación de carbono y nirógeno y la generación de energía. Esimaron la diversidad de 1800 especies disinas incluidos 148 nuevos filoipos.Enconraron 1,2 (Vener, 2004) millones de genes nuevos incluyendo 782 nuevos oorrecepores. Consiguieron definir nuevas especies de bacerias y casi consiguieron ensamblar (Rusch e al., 2007) el genoma de una especie dominane e idenificaron nuevas amilias de proeínas.

33 Disponibles en EBI Meagenomics (2017) htps://www.ebi.ac.uk/meagenomics/.

91

Proyecto Nueve medioambienes: Suberráneo, salino, marino, agua dulce, coral, microbialios, pescado, animal, mosquio.

Descripción 1040665 lecuras bacerianas de 45 muesras disinas y 541979 secuencias virales de 41 muesras disinas. Resuló en aproximadamene 150 mil millones de pb de secuencia. PIROSECUENCIACIÓN

Océano Árico. 195107 lecuras de 16S ARNr Ocho muesras en de arqueas de 8 muesras disinas localizaciones y con una media de 24388 proundidades lecuras por muesra.

PIROSECUENCIACIÓN Cinco mananiales 14000 a 15000 lecuras por geoermales del parque muesra. nacional de Yellowsone con disinas propiedades SANGER fisicoquímicas.

Resultado Referencia bibliográfica Ese esudio comparaivo (Dinsdale e al., 2008) demuesra que, aunque la diversidad uncional se maniene en los disinos medio ambiene exisen dierencias relaivas que permien predecir las condiciones biogeoquímicas de cada medio ambiene. Los resulados revelan las caracerísicas (Galand, Casamayor, biogeográficas de las Kirchman, Povin, y Lovejoy, arqueas marinas del árico 2009). y como cieros ipos de arqueas dominan en las disinas proundidades del océano árico. Los daos revelaron que cieros filos predominan (Inskeep e al., 2010). según las condiciones de cada mananial. Las acividades enzimáicas que enconraron indican cuales son las unciones imporanes en cada medioambiene especialmene acividades relacionados con el ranspore de elecrones.

5.2. Enfoques de la metagenómica Los esudios de meagenómica presenan dos enoques: el primero se denomina “meagenómica de amplificación del gen marcador” o “meagenómica dirigida” (Figura 5.2), donde regiones específicas de ADN de las comunidades microbianas son amplificadas empleando cebadores inormaivos axonómicos como el gen ARNr 16S (procarioas), el ITS (hongos) o el gen LSU (eucarioas). El segundo enoque denominado “meagenómica aleaoria” o “Whole Genome Sequencing , WGS” (Figura 5.2), ayuda a reconsruir ragmenos grandes o genomas compleos de los microorganismos presenes en dierenes comunidades, permiiendo caracerizar una gran canidad de secuencias codificanes y no codificanes, analizar la composición axonómica y, a su vez, el poencial meabólico y uncional de las comunidades microbianas esudiadas.

92


Estudios Metagenómicos Metagenómica dirigida o amplicación del gen marcador

Enfoques

Metagenómica aleatoria o Whole Genome Sequencing

¿Qué hace?

¿Qué hace?

Estudia la composición y abundancia de especies en las muestras analizadas

Estudia los genomas y genes preentes en las muestras analizadas

¿Para Qué?

¿Para Qué?

Evaluar la distribución taxonómica en las muestras analizadas Determinar la diversidad microbiana presente en las muestras analizadas

Relacionar poblaciones con diferentes factores

Determinar el perl funcional de las muestras analizadas

Contrastar la composición taxonómica de diferentes muestras

Obtención de genes de interés

Contrastar la composición taxonómica y funcional de diferentes muestras Relacionar funciones y especies de procedencia

Figura 5.2. Enoques de los esudios meagenómicos.

5.3. Diseño Experimental Un esudio meagenómico esá consiuido por cuaro pasos básicos: 1. Aislamieno del maerial genéico, en ese paso se realiza la exracción de ADN direcamene de las muesras ambienales y se da la generación de los ragmenos de ADN del amaño indicado. 2. Preparación de la librería meagenómica, ya sea (i) amplicones del gen 16S ARNr ó (ii) genomas compleos. 3. Secuenciación. 4. Análisis bioinormáico, en esa eapa se hace uso de dierenes herramienas bioinormáicas con el fin de analizar regiones específicas de ADN o genomas compleos de microorganismos presenes (bacerias, hongos o arqueas) en el ambiene esudiado, dependiendo del enoque del esudio meagenómico. Ese paso nos permie enconrar secuencias de ADN desconocidas que describen unciones novedosas de microorganismos ambienales, imposibles de descubrir por écnicas basadas en el culivo (Mukherjee, Hunemann, Ivanova, Kyrpides & Pai, 2015), o explorar la diversidad uncional, las ruas meabólicas y conocer las ineracciones enre especies en ambienes deerminados.

93

5.3.1. Estudios metagenómicos mediante el enfoque de amplificación de gen marcador o metagenómica dirigida Los esudios meagenómicos mediane el enoque de amplificación de gen marcador o meagenómica dirigida presenan la siguiene meodología en el análisis bioinormáico: •

•

•

Procesamiento de las secuencias obtenidas por las técnicas de secuenciación. Ese paso comprende el demuliplexado de las muesras, es decir, se realiza la idenificación del barcode de cada secuencia obenida para agruparlas por muesras. Agrupación de las secuencias según el porcentaje de similitud. En ese paso se asume que las secuencias con un porcenaje de similiud mayor a 97% corresponden a una misma especie o género, si el porcenaje de similiud es más del 90% corresponden a un mismo orden o amilia y por encima de un 80% corresponde a filo o clase. Las agrupaciones o clúseres generados en ese paso se denominan como Unidades Taxonómicas Operacionales (OTU). Para lograr esas agrupaciones de secuencias por similiud se han desarrollado dierenes algorimos, denro de los más conocidos o empleados enconramos a UCLUST y USEARCH (Edgar, 2010), MOTHUR (Schloss e al., 2009) y CD-HIT (W. Li & Godzik, 2006). Asignación taxonómica. Aquí se emplean bases de daos como Greengenes (McDonald e al., 2012), Silva (Yilmaz e al., 2014), RDP (Cole e al., 2014) y NCBI (Federhen, 2012), para la idenificación de la axonomía de cada uno de los OTU agrupados. Poseriormene, se procede al análisis de diversidad microbiana (ala y bea diversidad). 5.3.2. Estudios metagenómicos mediante el enfoque de genomas completos

El análisis bioinormáico de los esudios meagenómicos donde son secuenciados genomas compleos comprenden los siguienes pasos: I. Preprocesamieno de lecuras. II. Ensamblaje de secuencias. III. Anoación de secuencias. IV. Agrupamieno de secuencias y clasificación axonómica de especies microbianas. V. Análisis de diversidad y esadísico de los daos meagenómicos.

I. Preprocesamiento de lecturas Se requiere una serie de pasos de preprocesamieno de las lecuras para la realización de odo el análisis bioinormáico. Esa eapa incluye: (a) limpieza de las lecuras de bajas de calidad, empleando herramienas como FASTX-Toolki (HannonLab, 2014) o FasQC (Andrews, 2010), (b) remoción de lecuras de conaminación o lecuras de baja complejidad realizadas con herramienas como DUK (M. Li, Copeland & Han, 2011) y (c) remoción de quimeras o secuencias que son más del 95% idénicas. 94


II. Ensamblaje de secuencias En ese paso se emplean las lecuras para consruir o ensamblar conigs, que permian obener secuencias lo suficienemene confiables que cubran parcial o oalmene el genoma de los microorganismos analizados. Las secuencias generadas en ese paso sirven de suminisro para la deección de marcos abieros de lecura ORFs, es decir, las zonas del genoma que conienen secuencias que codifican genes. Ese paso reside en una area de gran requerimieno compuacional, debido a los alos recursos de procesamieno de memoria que requieren los dierenes algorimos dedicados al ensamblaje, los cuales disponen de dos esraegias: ensamblaje basado en reerencia o ensamblaje de novo. La elección de alguno de ellos depende del conjuno de daos que será analizado y las necesidades específicas de la preguna de invesigación. El ensamblaje de novo, se refiere al ensamblaje de secuencias coniguas largas o conigs sin la uilización de un genoma conocido. Conrario al ensamblaje de reerencia que emplea uno o más genomas de reerencia para realizar la creación de conigs.

III. Anotación de secuencias Seguido del ensamblaje de los conigs y la predicción de los ORFs, se encuenra el paso de la asignación uncional de las secuencias mediane: (a) predicción de unciones al realizar la idenificación de caracerísicas de inerés denro de los genes como dominios conservados, moivos o parones uncionales empleando dierenes bases de daos de proeínas curadas; y (b) la asignación uncional de genes puaivos, la cual se basa en la búsqueda de secuencias homólogas en bases de daos curadas de proeínas. Gracias a la predicción de genes, secuencias pepídicas o enzimas de las secuencias meagenómicas es posible realizar el análisis del poencial meabólico de las comunidades microbianas esudiadas. Exisen dierenes herramienas ales como MG-RAST (Meyer, Paarmann, D’Souza, & Eal., 2008), IMG/M (Markowiz e al., 2012), FragGeneScan (Rho, Tang & Ye, 2010), MeaGeneMark (Zhu, Lomsadze & Borodovsky, 2010), Meagene (Noguchi, Park & Takagi, 2006) y Orphelia (Hoff, Lingner, Meinicke & Tech, 2009), desarrolladas para la clasificación de ramos de secuencia, ano codificanes o no codificanes. Adicionalmene, enconramos bases de daos de reerencia ampliamene uilizadas para obener anoaciones para el conjuno de daos meagenómicos como: KEGG, SEED, COG/KOG, PFAM y TIGRFAM (Oulas e al., 2015).

IV. Agrupamiento de secuencias y clasificación taxonómica Ese paso represena el proceso de agrupación de las lecuras o conigs en clúseres denominados OTUs para la asignación o clasificación de los grupos axonómicos específicos de filo, orden, amilia, género o especie de cada uno de los OTUs. Acualmene exisen 95

dierenes herramienas para lograr esa labor, denro de las que cabe resalar: Phylopyhia, S-GSOM, PCAHIER, TACAO, IMG/M, MG-RAST, Mohur, MEGAN, QIIME, TANGO, CARMA, SOr-ITEMS, MeaPhyler, PhymmBL and MeaCluser (Neelakana & Sulana, 2013).

V. Análisis de biodiversidad y estadístico Un esudio de meagenómica coniene una gran canidad de daos que requieren ser cuidadosamene evaluados uilizando méodos esadísicos apropiados. Por ese moivo, exisen dierenes herramienas bioinormáicas como MOTHUR (Schloss e al., 2009), QIIME (Caporaso e al., 2010), MEGAN (Huson, Auch, Qi & Schuser, 2007), que permien llevar a cabo: •

•

•

•

•

96

Análisis de ala-diversidad, que evalúa la riqueza de microorganismos de una muesra y la uniormidad de la disribución de la abundancia de los mismos, por medio de curvas de rareacción, esimadores de riqueza, índices de diversidad y equiaividad (como Índice de Shannon, Índice de Simpson, Diversidad filogenéica (PD), Índice de Chao, enre oros). Análisis de bea-diversidad, el cual evalúa la similiud (o dierencia) en la composición de microorganismos enre las muesras a ravés de índices de Bray Curis, Weighed Unirac y Unweighed Unirac, PCoA, enre oros. Gráficos de abundancia de la composición axonómica y análisis filogenéicos. Análisis mulivariados, medidas de disimiliud y análisis de similaridad. Análisis de significancia esadísica.


5.4. Referencias Andrews, S. (2010). FasQC: A qualiy conrol ool or high hroughpu sequence daa. Recuperado de //www.bioinormaics.babraham.ac.uk/projecs/asqc/. Caporaso, J. G., Kuczynski, J., Sombaugh, J., Bitinger, K., Bushman, F. D., Cosello, E. K., Knigh, R…. (2010). QIIME allows analysis o high-hroughpu communiy sequencing daa. Naure Mehods, 7 (5), 335– 6. Recuperado de htp://www.naure. com/nauremehods/.%5Cnhtp://dx.doi.org/10.1038/nmeh..303. Cole, J. R., Wang, Q., Fish, J. A., Chai, B., McGarrell, D. M., Sun, Y., & Tiedje, J. M. (2014). Ribosomal Daabase Projec: Daa and ools or high hroughpu rRNA analysis. Nucleic Acids. Recuperado de htps://doi.org/10.1093/nar/gk1244. Dinsdale, E. A., Edwards, R. A., Hall, D., Angly, F., Breibar, M., Brulc, J. M., Rohwer, F…(2008). Funcional meagenomic profiling o nine biomes. Naure. Recuperado de htps://doi.org/10.1038/naure06810. Edgar, R. C. (2010). Search and clusering orders o magniude aser han BLAST. Bioinormaics.Recuperado de htps://doi.org/10.1093/bioinormaics/bq461. Federhen, S. (2012). The NCBI Taxonomy. Nucleic Acids Res. DOI: htps://doi. org/10.1093/nar/gkr1178. Galand, P. E., Casamayor, E. O., Kirchman, D. L., Povin, M., & Lovejoy, C. (2009). Unique archaeal assemblages in he Arcic Ocean unveiled by massively parallel ag sequencing. The ISME Journal. DOI: htps://doi.org/10.1038/ismej.2009.23. Gilber, J. A., Jansson, J. K., & Knigh, R. (2014). The Earh Microbiome projec: successes and aspiraions. BMC Biology, 12 (1), 69.DOI: htps://doi.org/10.1186/ s12915-014-0069-1. Handelsman, J., Rondon, M. R., Brady, S. F., Clardy, J., & Goodman, R. M. (1998). Molecular biological access o he chemisry o unknown soil microbes: a new ronier or naural producs. Chemisry & Biology. DOI:htps://doi.org/10.1016/ S1074-5521(98)90108-9. HannonLab. (2014). FASTX oolki. Hoff, K. J., Lingner, T., Meinicke, P., & Tech, M. (2009). Orphelia: Predicing genes in meagenomic sequencing reads. Nucleic Acids Research. DOI: htps://doi. org/10.1093/nar/gkp327 Huson, D. H., Auch, A. F., Qi, J., & Schuser, S. C. (2007). MEGAN analysis o meagenomic daa MEGAN analysis o meagenomic daa. Genome Research. DOI: htps://doi.org/10.1101/gr.5969107. Inskeep, W. P., Rusch, D. B., Jay, Z. J., Herrgard, M. J., Kozubal, M. A., Richardson, T. H., Frazier, M… (2010). Meagenomes rom high-emperaure chemorophic sysems reveal geochemical conrols on microbial communiy srucure and uncion. PLoS ONE. DOI: htps://doi.org/10.1371/journal.pone.0009773. Li, M., Copeland, A., & Han, J. (2011). DUK – A Fas and Efficien Kmer Maching Tool. Lawrence Berkeley Naional Laboraory. LBNL Paper LBNL-4516E-Poser P.

Li, W., & Godzik, A. (2006). Cd-hi: A as program or clusering and comparing large ses o proein or nucleoide sequences. Bioinormaics. DOI: htps://doi. org/10.1093/bioinormaics/bl158. 97

Markowiz, V. M., Chen, I. M. A., Chu, K., Szeo, E., Palaniappan, K., Grechkin, Y., Kyrpides, N. C… (2012). IMG/M: The inegraed meagenome daa managemen and comparaive analysis sysem. Nucleic Acids Research. DOI:htps://doi.org/10.1093/ nar/gkr975. McDonald, D., Price, M. N., Goodrich, J., Nawrocki, E. P., DeSanis, T. Z., Probs, A., Hugenholz, P…(2012). An improved Greengenes axonomy wih explici ranks or ecological and evoluionary analyses o baceria and archaea. The ISME Journal. DOI: htps://doi.org/10.1038/ismej.2011.139. Meyer, F., Paarmann, D., D’Souza, M., & Eal. (2008). The meagenomics RAST server—a public resource or he auomaic phylogeneic and uncional analysis o meagenomes. BMC Bioinormaics. DOI:htps://doi.org/10.1186/1471-2105-9-386. Mukherjee, S., Hunemann, M., Ivanova, N., Kyrpides, N. C., & Pai, A. (2015). Largescale conaminaion o microbial isolae genomes by Illumina PhiX conrol. Sandards in Genomic Sciences. DOI:htps://doi.org/10.1186/1944-3277-10-18. Neelakana, G., & Sulana, H. (2013). The Use o Meagenomic Approaches o Analyze changes in Microbial communiies. Microbiology Insighs, 6, 37– 48. DOI:htps:// doi.org/10.4137/MBI.S10819. Nelson, K. E., Weinsock, G. M., Highlander, S. K., Worley, K. C., Creasy, H. H., Worman, J. R., Zhu, D… (2010). A Caalog o Reerence Genomes rom he Human Microbiome. Science. DOI:htps://doi.org/10.1126/science.1183605. Nesme, J., Achouak, W., Agahos, S. N., Bailey, M., Baldrian, P., Brunel, D., Bodelier, P…(2016). Back o he Fuure o Soil Meagenomics Edied by . 7 (February ), 1–5. DOI:htps://doi.org/10.3389/micb.2016.00073. Noguchi, H., Park, J., & Takagi, T. (2006). MeaGene: Prokaryoic gene finding rom environmenal genome shogun sequences. Nucleic Acids Research. DOI:htps:// doi.org/10.1093/nar/gkl723. Oulas, A., Pavloudi, C., Polymenakou, P., Pavlopoulos, G. A., Papanikolaou, N., Kooulas, G., Iliopoulos, I…(2015). Meagenomics: Tools and insighs or analyzing nex-generaion sequencing daa derived rom biodiversiy sudies. Bioinormaics and Biology Insighs. DOI:htps://doi.org/10.4137/BBI.S12462. Pylro, V. S., Roesch, L. F. W., Orega, J. M., do Amaral, A. M., Tola, M. R., Hirsch, P. R., Azevedo, V…(2014). Brazilian Microbiome Projec: Revealing he Unexplored Microbial Diversiy-Challenges and Prospecs. Microbial Ecology, 67 (2), 237–241. DOI:htps://doi.org/10.1007/s00248-013-0302-4. Rho, M., Tang, H., & Ye, Y. (2010). FragGeneScan: Predicing genes in shor and errorprone reads. Nucleic Acids Research. DOI: htps://doi.org/10.1093/nar/gkq747. Rusch, D. B., Halpern, A. L., Suton, G., Heidelberg, K. B., Williamson, S., Yooseph, S., Vener, J. C…(2007). The Sorcerer II Global Ocean Sampling expediion: Norhwes Alanic hrough easern ropical Pacific. PLoS Biology.DOI: htps://doi.org/10.1371/ journal.pbio.0050077. Schloss, P. D., Wescot, S. L., Ryabin, T., Hall, J. R., Harmann, M., Holliser, E. B., Weber, C. F…(2009). Inroducing mohur: Open-source, plaorm-independen, communiysuppored sofware or describing and comparing microbial communiies. Applied and Environmenal Microbiology. DOI:htps://doi.org/10.1128/AEM.01541-09. 98


Tyson, G. W., Chapman, J., Hugenholz, P., Allen, E. E., Ram, R. J., Richardson, P. M., Banfield, J. F…(2004). Communiy srucure and meabolism hrough reconsrucion o microbial genomes rom he environmen. Naure.DOI: htps://doi.org/10.1038/ naure02340. Vener, J. C. (2004). Environmenal Genome Shogun Sequencing o he Sargasso Sea. Science . DOI:htps://doi.org/10.1126/science.1093857. Vogel, T. M., Simone, P., Jansson, J. K., Hirsch, P. R., Tiedje, J. M., van Elsas, J. D., Philippo, L…(2009). TerraGenome: a consorium or he sequencing o a soil meagenome. Na Rev Micro, 7 (4), 252. Recuperado de htp://dx.doi.org/10.1038/ nrmicro2119. Wooley, J. C., Godzik, A., & Friedberg, I. (2010). A primer on meagenomics. PLoS Compuaional Biology. DOI:htps://doi.org/10.1371/journal.pcbi.1000667. Yilmaz, P., Parrey, L. W., Yarza, P., Gerken, J., Pruesse, E., Quas, C., Glöckner, F. O… (2014). The SILVA and “all-species Living Tree Projec (LTP)” axonomic rameworks. Nucleic Acids Research. DOI:htps://doi.org/10.1093/nar/gk1209. Zhu, W., Lomsadze, A., y Borodovsky, M. (2010). Ab iniio gene idenificaion in meagenomic sequences. Nucleic Acids. Recuperado de htps://doi.org/10.1093/ nar/gkq275.

99

6. TRANSCRIPTÓMICA KELLY BOTERO OROZCO ANDREA GONZÁLEZ MUÑOZ

La expresión génica es un proceso celular que inermedia la ranserencia de las insrucciones genéicas conenidas en el ADN para dar lugar a la sínesis de los producos génicos finales, como proeínas y ARN no codificanes uncionales. El conjuno de odos los ranscrios expresados en una célula, ejido u organismo en un momeno dado se denomina ranscripoma. El ranscripoma presena una expresión variable, por ejemplo, se pueden dierenciar ranscrios expresados por genes consiuivos, que generalmene presenan niveles de expresión consanes en odas las células y condiciones en un organismo, mienras que la expresión de muchos oros ranscrios es resulado del eeco de esímulos exernos en deerminadas condiciones o momenos fisiológicos (Wang, Gersein & Snyder, 2009). Esa nauraleza variable del ranscripoma en el espacio y iempo hace que su esudio, denominado ranscripómica, nos permia conocer dierencias cuaniaivas y cualiaivas enre múliples moléculas de ARNm (Tan, Ipcho, Trengove, Oliver & Solomon, 2009) para enender los elemenos uncionales del genoma y los consiuyenes de las redes génicas de los dierenes ipos y procesos celulares ane deerminados evenos inducores (Weake & Workman, 2010). Así mismo, la ranscripómica provee inormación que permie caalogar odos los ranscrios de la célula, con el fin de deerminar el perfil ranscripcional de los genes, idenificar los exremos 5’ y 3’ del genoma e idenificar parones de empalme y regulación coordinada de los genes (Imadi, Kazi, Ahanger, Gucel & Ahmad, 2015). El ranscripoma no es sineizado de novo, odas las células reciben durane la división celular pare del ranscripoma de su célula precursora y ése es manenido por la ranscripción, que reemplaza sucesivamene las moléculas de ARN que van siendo degradadas (Brown, 2002). Ese proceso depende de esímulos inra o exracelulares para desencadenar cascadas de señalización que deerminan la expresión de los genes. El ARNm rara vez represena más del 4% del ARN oal de la célula (Brown, 2002) y su abundancia esá asociada con la unción que desempeña en un proceso celular específico. Evenos celulares, ales como la replicación, la dierenciación, la división celular y oros rasgos enoípicos a nivel morológico y uncional son el resulado de la expresión dierencial de genes a ravés del proceso de ranscripción (Soo & Lopez, 2012).

6.1. Tecnologías para el estudio del transcriptoma Varias ecnologías se han desarrollado para caracerizar ranscripomas, incluyendo enoques basados en hibridación de sondas con genes candidaos, eiqueas de secuencia 100


y secuenciación de ARN (Tan e al., 2009; Wang e al., 2009). Anes del avance de las ecnologías de secuenciación de nueva generación (NGS), el esudio de la expresión génica se cenraba en uno o pocos ranscrios a la vez, a ravés de ecnologías como Norhern Blo, basado en la separación del ARN por peso molecular usando elecrooresis en gel desnauralizane y su ranserencia a un sopore sólido, donde la presencia y la abundancia del ARN de inerés son ineridas con sondas de hibridación (VanGuilder, Vrana & Freeman, 2008). Ora écnica consise en la reacción en cadena de la polimerasa cuaniaiva con ranscripasa inversa (RT-qPCR), que uiliza la ranscripasa inversa para converir el ARNm en ADN complemenario (ADNc), luego amplifica las secuencias de un gen de inerés usando cebadores específicos y permie cuanificar la abundancia de ARNm mediane la medición de los producos de la amplificación (Becker-André & Hahlbrock, 1989; Noonan e al., 1990). Por oro lado, la écnica de los microarreglos permie la deección y cuanificación de miles de ranscrios conocidos o puaivos de una célula (Schena, Shalon, Davis & Brown, 1995), mediane la medición de la inensidad de una señal fluorescene emiida en la hibridación enre el ADNc y una sonda oligo-nucleoídica inmovilizada en una mariz sólida (Pozhikov, Tauz & Noble, 2007). Debido a su coso y eficiencia, los microarreglos son aún comúnmene uilizados por muchos laboraorios alrededor del mundo para dierenes análisis de expresión génica (Morozova, Hirs & Marra, 2009), enre ellos, la idenificación de perfiles de expresión (Nowrousian, 2007), deección y cuanificación de isoormas y evaluación de genes relacionados con respuesas a esímulos o a condiciones pariculares (Schenk e al., 2000). No obsane, los microarreglos no permien la deección de ranscrios desconocidos, ni esudiar la secuencia de los ranscrios deecados (Morozova e al., 2009). Además, la cuanificación de los ranscrios puede resular imprecisa, debido a que esá deerminada por la señal fluorescene emiida durane la hibridación. En érminos generales, los méodos previamene descrios, basados en hibridación, requieren conocimienos previos sobre las secuencias y ienen un limiado rango de deección de los ranscrios (Okoniewski & Miller, 2006; Royce, Rozowsky & Gersein, 2007). Por el conrario, enoques basados en eiqueas de secuencia permien deerminar la idenidad y la abundancia de los ranscrios direcamene a parir de la secuenciación de secuencias de ADNc (Imadi e al., 2015). No obsane, los principales méodos bajo ese enoque usan secuenciación Sanger, los cuales por el alo coso y la necesidad de clonación, resulan no ser coso-eecivos ni écnicamene viables para caracerizar exhausivamene ranscripomas compleos (Morozova e al., 2009). Enre esos méodos cabe mencionar la secuenciación de eiqueas de secuencias expresadas (ESTs, del inglés Expressed Sequence Tag ), desarrollada para el descubrimieno de nuevos genes y la idenificación de regiones genómicas codificanes (Adams e al., 1991), que hace reerencia a secuencias de lecura única producidas a parir de la secuenciación 101

del exremo 3’ o 5’ de un clon de ADNc (Pozhikov e al., 2007; Bouck & Vision, 2007; Morozova e al., 2009). Las ESTs represenan ípicamene sólo secuencias parciales de los ranscrios originales, incluso, los ensamblajes rara vez cubren los ranscrios compleos, por lo cual resulan diíciles de evaluar cuando no exise un genoma de reerencia (Bouck & Vision, 2007). Sumado a eso, debido al coso del méodo para generar las ESTs, esas no son secuenciadas con una proundidad suficiene para proporcionar un análisis cuaniaivo de la expresión génica (Tan e al., 2009). Por ora pare, el Análisis en Serie de la Expresión Génica (SAGE, del inglés S erial Analysis o Gene Expression ) (Velculescu, Zhang, Vogelsein & Kinzler, 1995) se basa en la secuenciación y cuanificación de oligoeiqueas de 14 o 21 pb que van del exremo 3’ al exremo 5’ del ARNm, y luego se comparan conra bases de daos de ESTs o de genomas para idenificar los correspondienes genes expresados. Los experimenos SAGE impusieron venajas sobre los microarreglos, como la capacidad para deecar ranscrios nuevos y obener mediciones direcas de la abundancia de los ranscrios deecados. De igual orma, exisen múliples varianes del SAGE como MicroSAGE (Dason, van der Perk-de Jong, van den Berg, de Kloe y Vreugdenhil, 1999), SAGE-lie (Peers e al., 1999), SADE (Virlon e al., 1999), (Virlon e al., 1999), Long-SAGE (Saha e al., 2002), SuperSAGE (Irie, Masumura, Terauchi & Saioh, 2003) y DeepSAGE (Nielsen, Hogh & Emmersen, 2006), que ueron desarrolladas para mejorar la écnica (Tan e al., 2009). Por úlimo, el advenimieno de las ecnologías NGS conribuyó al desarrollo de la secuenciación de ARN (RNA-Seq) (Imadi e al., 2015), un enoque que ransormó el alcance y la escala de los esudios ranscripómicos, proporcionando ácil acceso y ala resolución de secuencia y abundancia de los ranscrios (Marin, Fei, Giovannoni & Rose, 2013). Ese écnica iene dierenes venajas, a saber: no requiere genoma de reerencia para generar inormación úil sobre los ranscrios celulares (Srickler, Bombarely & Mueller, 2012); no hay resricción para la deección de ranscrios que corresponden a secuencias genómicas exisenes; revela la posición precisa de los límies de la ranscripción génica; no iene límie superior de cuanificación de ranscrios; y es el primer méodo que permie obener la secuencia y la abundancia de los ranscrios a escala genómica (Cloonan e al., 2008; Morazavi, Williams, McCue, Schaeffer & Wold, 2008). Su implemenación ha permiido la idenificación de ranscrios y polimorfismos de nucleóido simple (SNPs), obener perfiles de expresión génica enre dierenes muesras, conocer la esrucura de los exones y realizar análisis ano de expresión dierencial de genes como de varianes de splicing alernaivo (Sims, Sudbery, Ilot, Heger & Poning, 2014). 102


Debido a su exaciud en érminos de idenidad y abundancia de los ranscrios y a la acilidad para realizar comparaciones significaivas de los ranscrios enre dierenes muesras, RNA-Seq ha remplazado, en buena medida, los oros méodos de cuanificación de la expresión génica. Además, las ecnologías de RNA-Seq permien la exploración de ranscripomas compleos, lo cual es poco accesible con los méodos previamene desarrollados (Marin e al., 2013). A pesar de esas venajas, RNA-Seq iene sus propios reos, ya que se producen grandes y complejos conjunos de daos, cuya inerpreación no siempre es ácil. El análisis de daos se puede enrenar a problemas en la variación (no biológica) de las muesras esudiadas y a problemas écnicos inherenes a las ecnologías NGS, la secuenciación de las lecuras y los proocolos de preparación de las librerías de secuenciación. Esos problemas pueden generar un sesgo en los análisis, por lo que se requiere un cuidadoso diseño experimenal y un adecuado conrol y normalización de los daos generados (Conesa e al., 2016; Finoello & Di Camillo, 2015).

6.2. Diseño experimental Un esudio ranscripómico aplicando RNA-Seq comprende las siguienes eapas principales (Figura 6.1):

I. Experimeno. II. Preparación de las librerías y secuenciación. III. Flujo de análisis bioinormáicos de daos de RNA-Seq.

103

Extracción de ARN

Biología experimental

Fragmentación del ARN y transcripción reversa Construcción de librerías y secuenciación

Millones de lecturas cortas

Biología computacional

Control de calidad y preprocesamiento Alineamiento a genoma de referencia o ensamblaje de novo Indexado a regiones codicantes/exones/empalmes

Análisis de genes diferencialmente expresados (DEGs) Anotación estructural del transcriptoma Análisis de vías metabólicas o redes de coexpresión

Biología de sistemas

Análisis integrativos con datos epigenómicos/proteómicos

Análisis de enriquecimiento Inferencias biológicas

Figura 6.1. Eapas de un esudio ranscripómico basado en RNA-Seq. Dado que múliples acores (biológicos y exernos) influyen en la expresión génica en un momeno dado, el diseño de un experimeno de RNA-Seq debe ser cuidadosamene planeado para conrolar y/o idenificar la variación generada por la nauraleza de las muesras, la manipulación de las mismas, la condición de experimenación, enre oros. Por lo ano, implica ener en cuena aspecos en el diseño experimenal como el número de muesras, las réplicas biológicas y/o écnicas y conroles. Luego, la preparación de las librerías de ARN y secuenciación requieren una ala calidad e inegridad de la muesra de ARN oal exraída y la definición del ipo de librería y méodo de enriquecimieno del ARN que se desea esudiar (e.g. la mayoría de esudios ranscripómicos se han cenrado en ARNm, aunque ambién hay esudios enocados en ARNs no codificanes como miRNAs, lncRNAs, siRNAs, ec.). 104


De igual manera, se debe definir la ecnología de NGS a emplear, el número ópimo de lecuras requeridas para cumplir con el objeivo del esudio, el amaño de las lecuras de secuenciación, enre oros. Por úlimo, los esudios de RNA-Seq generalmene siguen un flujo de análisis bioinormáico que comprende la reconsrucción de ranscrios de novo o por mapeo sobre genoma o ranscripoma de reerencia; descubrimieno de isoormas y varianes; anoación de ranscrios; esimación de la abundancia de ranscrios expresados mediane mapeo y coneo de lecuras sobre un genoma o ranscripoma de reerencia; y análisis de expresión dierencial usando méodos esadísicos. Finalmene, se incluyen análisis para idenificar unciones enriquecidas o sobrerrepresenadas enre los genes dierencialmene expresados, que incluyen enriquecimieno uncional, redes de coexpresión de genes y de ineracción, enre oros.

6.2.1. Experimento Los daos generados a parir de un experimeno de RNA-Seq se orienan a responder pregunas biológicas de inerés. Con al fin, es deerminane hacer un buen diseño experimenal de las muesras a secuenciar, es decir, la elección del ipo de librería, la proundidad de la secuenciación (o número de lecuras por muesras) y el número de réplicas biológicas necesarias para el esudio. Un diseño experimenal inadecuado puede llevar a conundir variaciones écnicas con variaciones biológicas, lo cual repercue en conclusiones erradas. Así, un error en el diseño experimenal solo podrá corregirse remplazando las muesras con una nueva secuenciación. De esa manera, y de acuerdo con las más recienes direcrices del proyeco ENCODE 34 para las mejores prácicas en RNA-Seq, en el diseño del experimeno se debe definir el número de réplicas biológicas y écnicas que deben ser secuenciadas por cada raamieno. Las réplicas experimenales son imporanes para evaluar y aislar uenes de variación en las medidas de un experimeno, con el propósio de conrolar el eeco del ruido sobre los resulados de los análisis y pruebas de hipóesis. Las réplicas biológicas corresponden a muesras biológicamene dierenes e independienes, que se miden de manera paralela y aporan una medida de la variación biológica aleaoria que puede ser uene de ruido. Por su pare, las réplicas écnicas son mediciones repeidas de una misma muesra y represenan la variación aleaoria y uene de ruido asociado a aspecos écnicos como equipos y proocolos (Blainey, Krzywinski & Alman, 2014). El proyeco ENCODE recomienda incluir dos o más réplicas biológicas. Algunos auores recomiendan de dos a cuaro (Liu, Zhou, & Whie, 2013), y oros reporan que menos de doce réplicas pueden inducir a la idenificación ano de verdaderos negaivos como alsos posiivos (Schurch e al., 2016). De oro lado, en érminos de réplicas écnicas, ENCODE menciona que no se requieren réplicas de la misma librería de ARN, excepo en casos donde se conoce o sospecha de una variabilidad biológica inusualmene ala, en los cuales es críico separar la variación écnica de la biológica. A ese respeco, esudios de ARNs de 34

Disponible en htps://www.encodeprojec.org/.

105

baja abundancia pueden requerir un alo número de réplicas biológicas y, evenualmene, réplicas écnicas, debido a que son por nauraleza más variables que los ARNs de ala abundancia. En cualquier caso, deerminar con cuidado el número de réplicas es clave para el éxio de un análisis de expresión dierencial (Anders & Huber, 2010; Eduardo e al., 2014; Soneson & Delorenzi, 2013).

6.2.2. Preparación de las librerías y secuenciación Para la preparación de las librerías de RNA-Seq se requiere la exracción del ARN oal de la muesra y su poserior procesamieno para enriquecer el ARN de inerés. Como en odo experimeno de NGS, la calidad e inegridad del maerial genéico es clave para garanizar la calidad de las librerías y de los daos de secuenciación generados. La selección del proocolo de exracción de ARN oal y su poserior esabilización y almacenamieno es deerminane para eviar la degradación de ese ácido nucleico inesable y de rápida degradación, dada su nauraleza ransioria en la célula como molécula mensajera. Una vez exraído el ARN oal de la muesra, se deben emplear proocolos para remover el ARNr que se encuenra de manera abundane en las células, hasa un 90% del ARN oal. En ese capíulo nos cenraremos en el esudio del RNA-Seq orienado al ARNm, por ser la aplicación más ampliamene usada. El enriquecimieno de ARNm a parir de muesras de eucarioas generalmene implica el enriquecimieno selecivo de esas moléculas por capura de colas poli(A) o la eliminación del ARNr por degradación. La selección de uno u oro méodo depende de la canidad inicial de ARNm en la muesra, de al manera que, si se encuenra en baja proporción con respeco al ARN oal, se debe opar por la eliminación del ARNr. Por su pare, en procarioas, la ausencia de poliadenilación del ARNm hace que sólo sea viable realizar eliminación del ARNr (Conesa e al., 2016). Finalmene, la preparación de una librería concluye con la sínesis de ADNc a parir del ARNm a ravés de la ranscripasa inversa. Las moléculas de ADNc esán ligadas a adapadores para obener librerías de ADNc, que son amplificadas mediane varianes de la PCR. Las librerías son secuenciadas masivamene y en paralelo con ecnologías NGS (las más empleadas acualmene para RNA-Seq son Illumina® e Ion Torren TM), donde millones de secuencias coras –llamadas lecuras– son generadas. Un segundo aspeco a considerar en la preparación de las librerías es el ipo de las mismas, en ese caso, dependiendo del propósio de esudio, la librerías de secuenciación se pueden generar a parir de lecuras sencillas desde un solo exremo del ragmeno secuenciado (SE, del inglés single-end sequencing reads ) o de lecuras pareadas desde ambos exremos (PE, del inglés paired-end sequencing reads ). Es aconsejable uilizar PE cuando la predicción de genes en el genoma no es muy buena, o se quieren analizar isoormas y splicing alernaivo, mienras que SE es suficiene cuando la anoación es muy buena y se quiere ener una idea de la expresión a nivel de locus. Las librerías SE son recomendables para el análisis y la predicción de ARNs no codificanes, en las que las PE puedan resular 106


en la sobreesimación de ranscrios y complejizan el ensamblaje de los mismos, debido al riesgo inherene de secuenciar por duplicado cada ranscrio. Las lecuras PE pueden ser mejores para mapear en varias ubicaciones, ensamblar de novo y dierenciar isoormas. Sumado al ipo de librería, la longiud de las lecuras secuenciadas ambién es relevane, por ejemplo, se recomiendan lecuras de mayor amaño si se desea deecar nuevos ranscrios e isoormas, pueso que permien obener un mejor mapeo e idenificación de ranscrios. Por oro lado, en años recienes ha sido de inerés consruir librerías de RNA-Seq ‘hebraespecíficas’, las cuales conservan la inormación sobre la hebra o cadena de ADN de la cual se ranscribió la molécula de ARN (senido o anisenido). Esa inormación es úil para los análisis de descubrimieno de nuevos ranscrios y cuanificación de la expresión, porque evia conusiones o errores en las esimaciones de abundancia debido al solapamieno de ranscrios (Conesa e al., 2016). Sumado a los aspecos aneriormene discuidos, oro puno clave para considerar en un experimeno de RNA-Seq es la proundidad de secuenciación (o coberura de secuenciación), que corresponde al número de veces que cada nucleóido esá represenado en un ciero número de lecuras de longiud dada. En érminos generales, una mayor coberura disminuye la asa de error de cada nucleóido en un ensamblaje de secuencias, no obsane, la selección de una mayor o menor coberura dependerá del propósio de esudio y la nauraleza de la muesra de ARN. A dierencia de esudios de secuenciación de genoma, en los que la proundidad de secuenciación se expresa como el número de bases oales secuenciadas sobre el amaño esimado del genoma haploide (e.g. 50X, 100X), en RNA-Seq se dificula esa esimación de la proundidad, porque la ranscripción no se produce a parir de odo el genoma, sino que aproximadamene el 2% del genoma humano ranscribe ARN que codifica a proeína, y es inciera la proporción ranscria en un momeno dado. Por consiguiene para RNA-Seq, ENCODE ha esablecido un número ópimo de lecuras por muesra según el objeivo deseado, con un mínimo de 30 millones (M) de lecuras por muesra para cualquier esudio de RNA-Seq. Así, si se preende reconsruir un perfil ranscripcional basado en un ranscripoma o genoma de reerencia con el fin de evaluar expresión dierencial, se recomiendan 30 M de lecuras SE o PE de longiud mayor a 30 pb; si se desea descubrir nuevos ranscrios e isoormas, cuanificar ranscrios de baja abundancia y/o se esán analizando muesras complejas, se recomiendan enre 100 M y 200 M de lecuras PE de longiud mayor a 76 pb. En paricular, para esudios de RNASeq a parir de muesras humanas, con fines de deerminar expresión dierencial, se recomiendan 30-50 M de lecuras SE o PE por muesra. Varios auores concuerdan con esas recomendaciones de proundidad de secuenciación (Conesa e al., 2016).

107

Después de la secuenciación de las librerías de RNA-Seq, se obienen las lecuras crudas de secuenciación. Esas se procesan mediane un flujo de análisis bioinormáico que permie obener inormación acerca de los ranscrios expresados, los perfiles de expresión y el poencial meabólico de las muesras analizadas, con el fin de asociar esa inormación genéica a un enoipo de inerés.

6.2.3. Flujo de análisis bioinformáticos de datos de RNA-Seq No exise un sólo flujo de análisis aplicable a odos los ipos de experimenos e invesigaciones basadas en RNA-Seq, dada la diversa nauraleza de las muesras, diseños experimenales, écnicas de secuenciación y daos. No obsane, un flujo de análisis de RNA-Seq comprende a grandes rasgos las siguienes eapas principales:

I. II. III. IV.

Conrol de calidad y preprocesamieno de los daos crudos de secuenciación. Ensamblaje de novo y reconsrucción de ranscrios por mapeo. Esimación de abundancias y coneos de ranscrios. Análisis de expresión dierencial.

I. Control de calidad y preprocesamiento de los datos crudos de secuenciación Al igual que para los demás daos de NGS, las lecuras crudas produco de RNA-Seq se deben someer a conrol de calidad para deerminar la calidad por base secuenciada y por lecura secuenciada, conenido de A, T, G y C, disribución de la longiud de las lecuras, presencia de secuencias de adapadores, secuencias sobrerrepresenadas y posible conaminación, así como oros sesgos écnicos que pueden aecar el análisis de los daos. Para daos de secuenciación generados en la plaaorma Illumina®, el análisis de calidad de las lecuras se realiza más comúnmene con el programa FasQC, mienras que para daos de la plaaorma Ion Torren TM, por ejemplo, se recomienda el programa MAPQ, debido a las dierencias en codificación de valores de calidad de las bases y oras caracerísicas propias de la plaaorma de secuenciación. Con base en los repores de calidad generados por los dos programas aneriormene mencionados, generalmene se deermina si las lecuras crudas requieren de un preprocesamieno anes de pasar a ensamblaje y análisis poseriores. Ese paso consise en la eliminación de secuencias de adapadores, core ( rimming ) y filrado de bases de baja calidad, enre oros, para lo cual se emplean comúnmene programas como Trimmomaic, Cuadap y FasX-Toolki. Además de ese filro aplicado, el preprocesamieno de los daos de secuenciación ambién incluye la deección y eliminación de lecuras correspondienes a ARN ribosomal u oro ipo de lecuras no correspondienes a ARNm. De esa manera, para la eliminación de ruido ocasionado por secuencias ribosomales se uiliza el programa riboPicker, una herramiena que alinea las lecuras de secuenciación conra secuencias ribosomales proporcionadas por las bases de daos Silva, GreenGenes, RDP, Ram y NCBI, con el objeivo de idenificarlas y eliminarlas del conjuno de daos. Sin un enriquecimieno previo del ARN oal, la 108


mayoría de ARN recuperado de esudios ranscripómicos es ribosomal y no mensajero, por ese moivo, es necesario eliminar las secuencias que inerfieren en el ensamblaje de un ranscripoma. Después de esa eapa, las lecuras filradas son uilizadas para el ensamblaje del ranscripoma.

II. Ensamblaje de novo y reconstrucción de transcritos por mapeo En la ausencia de un genoma o ranscripoma de reerencia para el organismo de esudio, exisen herramienas capaces de realizar ensamblaje de novo. Para al fin, se emplean programas como Triniy, Trans-Abyss y SOAPdenovo-Trans; enre los cuales Triniy es el más ampliamene uilizado, porque inegra un flujo de rabajo que incluye no solo el ensamblaje de los ranscrios y sus varianes, sino ambién el cálculo de esadísicas de calidad de ensamblaje, predicción de secuencias codificanes y presena compaibilidad con la suie esadísica R para análisis de expresión dierencial. En caso de conar con un genoma o ranscripoma de reerencia, las lecuras pueden ser mapeadas a la reerencia disponible, uilizando programas como BWA, Bowie o Bowie2, MAQ, TopHa, STAR, enre oros. En el mapeo de lecuras de RNA-Seq conra un genoma de reerencia, los alineadores empleados para ese fin, ales como TopHa y STAR, cuenan con algorimos opimizados para mapear lecuras divididas (denominadas splice o juncion reads en inglés), las cuales mapean en el límie enre dos exones y por ano resulan ragmenadas por una región inrónica en el genoma de reerencia. Eso es problemáico compuacionalmene para alineadores como BWA, Bowie y MAQ, porque inerfieren en la inserción de salos o gaps an largos como aquellos correspondienes a empalmes ( juncions ). Luego de la reconsrucción de ranscrios, en muchos esudios el inerés reside en anoar los ranscrios para deerminar su idenidad y unción. Ese proceso de anoación consise, en primer lugar, en idenificar las secuencias codificanes (CDS) en los ranscrios y raducir los CDS a proeínas hipoéicas, uilizando programas como Transdecoder (inegrado en Triniy) y Coding Poenial Calculaor. Luego, los CDS y/o las proeínas predichas son comparados por BLAST conra las secuencias de un ranscripoma o proeoma anoado para el organismo de esudio, o conra secuencias de organismos relacionados que esán disponibles en bases de daos públicas como Genbank, UniPro, Pam, enre oras. De esa orma, se puede deerminar el perfil de los ranscrios expresados y descubrir nuevos ranscrios o isoormas.

III. Estimación de abundancias y conteos de transcritos La cuanificación de daos de RNA-Seq se basa en la premisa de que el número de lecuras correspondienes a un ranscrio es una medida de la expresión del gen del cual proviene. De esa manera, la cuanificación comprende la esimación de la abundancia de un ranscrio mediane el coneo de número de lecuras que mapean sobre dicho ranscrio, y 109

requiere, en consecuencia, del mapeo de las lecuras de secuenciación conra un genoma o ranscripoma de reerencia. En caso de no exisir uno, se uiliza como reerencia un ranscripoma ensamblado de novo a parir de las mismas lecuras. La cuanificación de ranscrios es necesaria para el análisis de expresión dierencial, el cual consise en comparar la expresión de genes enre las muesras de un esudio de RNA-Seq con el fin de deerminar dierencias significaivas. Para que las muesras sean comparables enre sí se deben resolver diversos problemas que pueden surgir durane la cuanificación, y pueden esar relacionados con el coneo de lecuras que mapean en múliples regiones de la reerencia, coneo de lecuras solapanes, especificidad de hebra, no uniormidad de disribución de lecuras a lo largo un gen, ranscrios de ala y baja abundancia, dierencias en la longiud de los ranscrios, dierencias en proundidad de secuenciación o amaño enre las librerías. Por lo anerior, un paso clave en la esimación de abundancias y coneo de ranscrios consise en normalizar los daos de las abundancias de los ranscrios hipoéicos. Normalizar por el amaño de librería implica llevar a una misma escala odas las librerías correspondienes a cada raamieno para eviar alsos posiivos, dado que una librería con mayor proundidad de secuenciación iene más probabilidad de ener genes dierencialmene sobreexpresados, respeco a ora librería, sin ser consecuencia del raamieno. Además, los ranscrios más aecados por una baja proundidad de secuenciación serán aquellos con bajos niveles de expresión y longiudes reducidas, debido a que un ranscrio de mayor longiud presenará más probabilidad de ser secuenciado y de ener un número mayor de lecuras alineadas que uno de menor longiud, implicando una mayor probabilidad de ser deecado como un DEG, sin ser biológicamene real (Dillies e al., 2013; Oshlack & Wakefield, 2009). Exisen dierenes méodos de normalización, los más uilizados son la normalización por amaño de librería y por longiud del ragmeno o ranscrio (Eduardo e al., 2014). Un méodo que realiza ambas normalizaciones es Fragmens Per Kilobase o Transcrip Per Million Mapped Reads (FPKM) oReads per Kilobase o Transcrip per million mapped reads (RPKM); la única dierencia enre ambos, es que el primero uiliza ragmenos y el segundo lecuras. Se emplea generalmene la normalización FPKM cuando se ienen librerías ipo PE, debido a que esas ienen dos lecuras por ragmeno. Una vez normalizados los daos por esos méodos, es posible cuanificar niveles de ranscripos y realizar comparaciones más precisas enre las muesras (Morazavi e al., 2008). La esimación de la abundancia de ranscrios se puede realizar por méodos basados en alineamienos usando los programas RSEM o eXpress, así como méodos de esimación libres de alineamienos con programas como Kalliso o Salmon. A parir de los coneos esimados por esos méodos, se consruyen marices de expresión de ranscrios y genes, donde las filas corresponden a cada uno de los ranscrios y las columnas a las muesras, y conienen los coneos de lecuras por ranscrio por muesra. Esa mariz de coneos de expresión es el insumo para los análisis de expresión dierencial poseriores. 110


IV. Análisis de expresión diferencial En los análisis de expresión dierencial, se realizan pruebas esadísicas rigurosas para deerminar si las dierencias observadas en el coneo de lecuras enre genes son significaivamene mayores a las dierencias esperadas por la variación aleaoria que exise de manera naural enre las muesras. Con ese fin, se han desarrollado numerosos algorimos esadísicos para modelar los daos de coneo y generar valores de significancia ajusada (p-value ajusado) y razón de cambio en la expresión ( old-change ), con el objeivo de seleccionar los genes que esán significaivamene dierencialmene expresados (Rapapor e al., 2013). Debido al gran número de genes presenes en cada ensayo de RNA-Seq, se requiere una corrección para las múliples comparaciones (una por cada gen enre dos raamienos), para eviar alsos posiivos, ya que a medida que aumenan las comparaciones, aumena la probabilidad de enconrar dierencias debidas al azar. Lo anerior hace reerencia al concepo de asa de alsos descubrimienos (FDR), el cual es ampliamene uilizado para conrolar ese ipo de error. La esimación correca del FDR requiere de valores de significancia precisos, basados en una disribución eórica de los daos. Por consiguiene, si dicha disribución eórica no se cumple será diícil rechazar alsos posiivos de orma acerada. Por eso los méodos usados acualmene no asumen una disribución normal de los daos, la cual no se cumple para daos de RNA-Seq, sino que se basan en una disribución de Poisson (Marioni, Mason, Mane, Sephens & Gilad, 2008) o una binomial negaiva (Anders & Huber, 2010) para conrolar mejor la sobredispersión observada enre réplicas écnicas y biológicas, respecivamene. Tal es el caso de programas paraméricos como EdgeR y DESeq2, que consiuyen dos de los paquees más ampliamene usados en análisis de expresión dierencial y hacen pare del programa esadísico R. Esos programas asumen una disribución eórica de Poisson o binomial negaiva de los daos y basan sus cálculos en una esimación de la relación exisene enre media y varianza. Oros programas comúnmene usados para expresión dierencial a parir de daos de RNA-Seq son: PoissonSeq, baySeq y Cuffdiff de la Suie Tuxedo (Rapapor e al., 2013; Trapnell e al., 2012). No obsane, con cualquiera de los programas mencionados, los parámeros de media y varianza son diíciles de esimar por separado con pocas réplicas biológicas. En ese senido, si no se cuena con un número adecuado de réplicas biológicas del experimeno de RNA-Seq, esas écnicas pueden ser sensibles a la variabilidad presene enre réplicas (Bullard, Purdom, Hansen & Dudoi, 2010). Luego de obener el conjuno de genes significaivamene dierencialmene expresados enre las muesras analizadas, dependiendo del objeo de esudio, se pueden hacer análisis de anoación uncional sobre ese conjuno de genes, con el propósio de idenificar procesos biológicos y unciones moleculares, basadas en anoaciones conra GO, que esén 111

sub o sobrerrepresenadas. También se pueden deerminar vías meabólicas de KEGG donde pueden esar paricipando los genes y a ravés de las cuales se puede idenificar si hay una expresión coordinada de deerminados genes (mediane la consrucción de redes de coexpresión génica) y los módulos uncionales enriquecidos en dichas redes, enre oros análisis derivados. Toda esa inormación obenida a parir de daos de RNASeq y la idenificación de genes dierencialmene expresados permie conocer un perfil ranscripcional y un panorama de los procesos celulares e ineracciones génicas que pueden esar ocurriendo en una célula o ejido bajo una condición o momeno dado.

112


6.3. Referencias Adams, M. D., Kelley, J. M., Gocayne, J. D., Dubnick, M., Polymeropoulos, M. H., Xiao, H., Moreno, R. F…(1991). Complemenary DNA sequencing: expressed sequence ags and human genome projec. Science, 252 (5013), 1651–6. Anders, S., & Huber, W. (2010). Differenial expression analysis or sequence coun daa. Genome Biology, 11 (10), R106.DOI: htps://doi.org/10.1186/gb-2010-1110-r106. Becker-André, M., & Hahlbrock, K. (1989). Absolue mRNA quanificaion using he polymerase chain reacion (PCR). A novel approach by a PCR aided ranscrip iraion assay (PATTY). Nucleic Acids Research, 17 (22), 9437–46. Blainey, P., Krzywinski, M., & Alman, N. (2014). Poins o Significance: Replicaion. Na Meh, 11(9), 879–880. Recuperado de htp://dx.doi.org/10.1038/nmeh.3091. Bouck, A., & Vision, T. (2007). The molecular ecologis’s guide o expressed sequence ags. Molecular Ecology, 16 (5), 907–924.DOI: htps://doi.org/10.1111/j.1365294X.2006.03195.x Brown, T. (2002). Transcripomes and Proeomes. En Genomes. (Garland Sc). Oxord. Bullard, J. H., Purdom, E., Hansen, K. D., & Dudoi, S. (2010). Evaluaion o saisical mehods or normalizaion and differenial expression in mRNA-Seq experimens. BMC Bioinormaics, 11, 94. DOI:htps://doi.org/10.1186/1471-2105-11-94. Cloonan, N., Forres, A. R. R., Kolle, G., Gardiner, B. B. A., Faulkner, G. J., Brown, M. K., Grimmond, S. M…(2008). Sem cell ranscripome profiling via massive-scale mRNA sequencing. Naure Mehods, 5 (7), 613– 619. DOI:htps://doi.org/10.1038/ nmeh.1223. Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A., Morazavi, A…(2016). A survey o bes pracices or RNA-Seq daa analysis. Genome Biology, 17 (1), 13. DOI:htps://doi.org/10.1186/s13059-016-0881-8. Dason, N. A., van der Perk-de Jong, J., van den Berg, M. P., de Kloe, E. R., & Vreugdenhil, E. (1999). MicroSAGE: a modified procedure or serial analysis o gene expression in limied amouns o issue. Nucleic Acids Research, 27 (5), 1300–7. Dillies, M.-A., Rau, A., & Auber, J. (2013). A comprehensive evaluaion o normalizaion mehods or Illumina high-hroughpu RNA sequencing daa analysis. Briefings in Bioinormaics, 14 (6), 671– 683. DOI: htp://dx.doi.org/10.1093/bib/bbs046. Eduardo, A., Cubillos, R., Jiménez, L. P., Sc, M., Jimena, A., Giraldo, B., & Ph, D. (2014). Una revisión para no experos rna-Seq Daa Analysis in Prokaryoes. A Review or Non-expers, 19 (2), 131–142. Finoello, F., & Di Camillo, B. (2015). Measuring differenial gene expression wih RNASeq: challenges and sraegies or daa analysis. B riefings in Funcional Genomics, 14(2), 130–142.DOI: htps://doi.org/10.1093/bgp/elu035. Imadi, S. R., Kazi, A. G., Ahanger, M. A., Gucel, S., & Ahmad, P. (2015). Plan ranscripomics and responses o environmenal sress: an overview. Journal o Geneics, 94(3), 525–537.DOI: htps://doi.org/10.1007/s12041-015-0545-6.

113

Irie, T., Masumura, H., Terauchi, R., & Saioh, H. (2003). Serial Analysis o Gene Expression (SAGE) o Magnaporhe grisea : genes involved in appressorium ormaion. Molecular Geneics and Genomics, 270 (2), 181– 189. htps://doi. org/10.1007/s00438-003-0911-6. Liu, Y., Zhou, J., & Whie, K. P. (2013). RNA-Seq differenial expression sudies: more sequence, or more replicaion? Bioinormaics, 30 (3), 301– 304. htps://doi. org/10.1093/bioinormaics/bt688. Marioni, J. C., Mason, C. E., Mane, S. M., Sephens, M., & Gilad, Y. (2008). RNA-Seq: An assessmen o echnical reproducibiliy and comparison wih gene expression arrays. Genome Research, 18 (9), 1509– 1517. DOI:htps://doi.org/10.1101/gr.079558.108. Marin, L. B. B., Fei, Z., Giovannoni, J. J., & Rose, J. K. C. (2013). Caalyzing plan science research wih RNA-Seq. Froniers in Plan Science, 66 .DOI: htps://doi. org/10.3389/pls.2013.00066. Morozova, O., Hirs, M., & Marra, M. (2009). Applicaions o new sequencing echnologies or ranscripome analysis. Annual Review o Genomics, 10, 135– 151. DOI:htps://doi.org/10.1146/annurev-genom-082908-145957. Morazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping and quaniying mammalian ranscripomes by RNA-Seq. Naure Mehods, 5 (7), 621–628.DOI: htps://doi.org/10.1038/nmeh.1226. Nielsen, K. L., Hogh, A. L., & Emmersen, J. (2006). DeepSAGE--digial ranscripomics wih high sensiiviy, simple experimenal proocol and muliplexing o samples. Nucleic Acids Research, 34 (19), e133– e133. DOI:htps://doi.org/10.1093/nar/gkl714. Noonan, K. E., Beck, C., Holzmayer, T. A., Chin, J. E., Wunder, J. S., Andrulis, I. L… (1990). Quaniaive analysis o MDR1 (mulidrug resisance) gene expression in human umors by polymerase chain reacion. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 87 (18), 7160–4. Nowrousian, M. (2007). O paterns and pahways: microarray echnologies or he analysis o filamenous ungi. Fungal Biology Reviews, 21 (4), 171– 178. DOI:htps:// doi.org/10.1016/j.br.2007.09.002. Okoniewski, M. J., & Miller, C. J. (2006). Hybridizaion ineracions beween probeses in shor oligo microarrays lead o spurious correlaions. BMC Bioinormaics, 7 (1), 276. DOI:htps://doi.org/10.1186/1471-2105-7-276. Oshlack, A., & Wakefield, M. J. (2009). Transcrip lengh bias in RNA-Seq daa conounds sysems biology. Biology Direc, 4, 14. DOI:htps://doi.org/10.1186/17456150-4-14. Peers, D. G., Kassam, A. B., Yonas, H., O’Hare, E. H., Ferrell, R. E., & Brusky, A. M. (1999). Comprehensive ranscrip analysis in small quaniies o mRNA by SAGE-lie. Nucleic Acids Research, 27 (24), e39. Pozhikov, A. E., Tauz, D., & Noble, P. A. (2007). Oligonucleoide microarrays: Widely applied - Poorly undersood. Briefings in Funcional Genomics and Proeomics, 6 (2), 141–148. DOI: htps://doi.org/10.1093/bgp/elm014.

114


Rapapor, F., Khanin, R., Liang, &., Pirun, M., Krek, A., Zumbo, P., Beel, D…(2013). Comprehensive evaluaion o differenial gene expression analysis mehods or RNA-Seq daa. Genome Biology, 14 (9), 3158. DOI:htps://doi.org/10.1186/gb-201314-9-r95. Royce, T. E., Rozowsky, J. S., & Gersein, M. B. (2007). Toward a universal microarray: predicion o gene expression hrough neares-neighbor probe sequence idenificaion. Nucleic Acids Research, 35 (15), e99. DOI:htps://doi.org/10.1093/ nar/gkm549. Saha, S., Sparks, A. B., Rago, C., Akmaev, V., Wang, C. J., Vogelsein, B., Velculescu, V. E…(2002). Using he ranscripome o annoae he genome. Naure Bioechnology, 20(5), 508–512. DOI: htps://doi.org/10.1038/nb0502-508. Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quaniaive monioring o gene expression paterns wih a complemenary DNA microarray. Science, 270(5235), 467–70. Schenk, P. M., Kazan, K., Wilson, I., Anderson, J. P., Richmond, T., Somerville, S. C., & Manners, J. M. (2000). Coordinaed plan deense responses in Arabidopsis revealed by microarray analysis. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 97 (21), 11655–60. DOI:htps://doi.org/10.1073/ pnas.97.21.11655. Schurch, N. J., Schofield, P., Gierliński, M., Cole, C., Shersnev, A., Singh, V., Baron, G. J…(2016). How many biological replicaes are needed in an RNA-Seq experimen and which differenial expression ool should you use? RNA, 22(6), 839–851. DOI:htps:// doi.org/10.1261/rna.053959.115. Sims, D., Sudbery, I., Ilot, N. E., Heger, A., & Poning, C. P. (2014). Sequencing deph and coverage: key consideraions in genomic analyses. Naure Reviews. Geneics, 15 (2), 121–32. DOI: htps://doi.org/10.1038/nrg3642. Soneson, C., & Delorenzi, M. (2013). A comparison o mehods or differenial expression analysis o RNA-Seq daa. BMC Bioinormaics, 14 (1), 91. DOI:htps:// doi.org/10.1186/1471-2105-14-91. Soo, J., & Lopez, C. (2012). RNA-Seq : herramiena ranscripómica úil para el esudio de ineracciones plana-paógeno. Fiosanidas, 16(2), 101–113. Srickler, S. R., Bombarely, A., & Mueller, L. a. (2012). Designing a ranscripome nexgeneraion sequencing projec or a nonmodel plan species. American Journal o Boany, 99 (2), 257–66. DOI:htps://doi.org/10.3732/ajb.1100292. Tan, K. C., Ipcho, S. V. S., Trengove, R. D., Oliver, R. P., & Solomon, P. S. (2009). Assessing he impac o ranscripomics, proeomics and meabolomics on ungal phyopahology. Molecular Plan Pahology, 10 (5), 703–715. DOI:htps://doi. org/10.1111/j.1364-3703.2009.00565.x. Trapnell, C., Robers, A., Goff, L., Perea, G., Kim, D., Kelley, D. R., Pacher, L…(2012). Differenial gene and ranscrip expression analysis o RNA-Seq experimens wih TopHa and Cufflinks. Naure Proocols, 7 (3), 562– 578. DOI:htps://doi.org/10.1038/ npro.2012.016.

115

VanGuilder, H. D., Vrana, K. E., & Freeman, W. M. (2008). Tweny-five years o quaniaive PCR or gene expression analysis. BioTechniques, 44 (5), 619– 626. DOI:htps://doi.org/10.2144/000112776. Velculescu, V. E., Zhang, L., Vogelsein, B., & Kinzler, K. W. (1995). Serial analysis o gene expression. Science, 270(5235), 484–7. Virlon, B., Cheval, L., Buhler, J. M., Billon, E., Douce, A., & Elalou, J. M. (1999). Serial microanalysis o renal ranscripomes. Proceedings o he Naional Academy o Sciences o he Unied Saes o America, 96 (26), 15286–91. Wang, Z., Gersein, M., & Snyder, M. (2009). RNA-Seq: a revoluionary ool or ranscripomics. Naure Reviews. Geneics, 10 (1), 57–63. DOI:htps://doi. org/10.1038/nrg2484. Weake, V. M., & Workman, J. L. (2010). Inducible gene expression: diverse regulaory mechanisms. Naure Reviews. Geneics, 11 (6), 426–37. DOI:htps://doi.org/10.1038/ nrg2781.

116


7. METABOLÓMICA MARTHA ZULUAGA

En esa sección se esudiarán las caracerísicas principales que se deben ener en cuena en un esudio meabolómico, las écnicas insrumenales más uilizadas y algunas maneras de abordar el raamieno y análisis de los daos desde dierenes ipos de esudio (reconocimieno de parones, idenificación de biomarcadores, perfilamieno de meabolios, enoipificación, esudios dirigidos y no dirigidos). También se aciliarán algunos ejemplos con hipervínculos a plaaormas para que el lecor ineracúe y aplique los concepos brindados. Para empezar, definiremos la meabolómica como el análisis del comporamieno de los meabolios de bajo peso molecular (menor a 1500 Dalon) en un sisema biológico (Fiehn e al., 2000). El primer acercamieno experimenal se publicó en 1998 por Oliver y colaboradores en el rabajo “Sysemaic uncional analysis o he yeas genome” , en el que se uiliza especroscopía de inrarrojo con ransormada de Fourier y especromería de masas en ándem para idenificar los cambios en los meabolios de la levadura ane una modificación genéica juno con el esudio del proeoma y el ranscripoma (lo que se denominó genómica uncional). Un año más arde ue acuñado el érmino meabonómica haciendo reerencia a la medida cuaniaiva y muliparamérica de la respuesa dinámica a sisemas vivos ane un esímulo fisiopaológico o modificación genéica (Nicholson, Lindon & Holmes, 1999). Aunque los érminos meabonómica y meabolómica ueron acuñados a finales de 1900 y principios del 2000 respecivamene, el érmino meaboloma ue reporado con el desarrollo de la eoría del análisis de flujos por Derr en 1985 y con la eoría del conrol meabólico por Cornish-Bowden en 1989, los cuales explican el meaboloma como el conjuno de compuesos de bajo peso molecular. Ese movimieno e inerés en el monioreo de la mayor canidad posible de meabolios de bajo peso molecular, el desarrollo de écnicas insrumenales cada vez más sensibles y robusas y el rápido crecimieno en las herramienas bioinormáicas, son los elemenos que avorecieron el surgimieno de los esudios meabolómicos. En ese senido, esa ciencia emergene inegra res áreas del conocimieno como son: la biología, la química y la bioinormáica. Pare de una preguna biológica, la cual es esudiada a ravés de experimenación e insrumenación química, y finalmene, los resulados son analizados a ravés de las herramienas bioinormáicas (Figura 7.1). Así mismo, los esudios meabolómicos se pueden dividir en res grandes procesos: el primero iene que ver con la muesra, la recolección, el raamieno químico y el análisis insrumenal para la adquisición de daos especrales (por especromería de masas o resonancia magnéica nuclear). En segundo lugar, el raamieno bioinormáico y quimiomérico de las señales y en ercer lugar, el raamieno esadísico para la inerpreación biológica. 117

Pregunta Biológica Planteamiento del probleme y condiciones experimentales

Diseño de Experimentos Obtención de muestras

1

2

3

Análisis quimico

Preparación de las muestras Detección de Picos: Deconvolución de señales

Análisis instrumental

RMN 1

2

3

Procesamieno de datos

Alineación

Análisis Univariado

MS

Normalización

4

Identicación

Análisis de datos

Análisis Multivariado

Interpretación biológica

Figura 7.1. Caracerísicas principales de un esudio meabolómico. En rojo componene correspondiene al área de la biología, química en verde y bioinormáica en azul.

7. 1. Diseño experimental Los esudios meabolómicos pueden clasificarse de acuerdo al objeivo biológico que se desea abordar, bien sea para reconocimieno de parones ( meabolie fingerprining ), para descubrimieno de biomarcadores ( biomarker discovery ), como herramiena para la enoipificación de esudios no dirigidos ( unargeed meabolomics ). O para el perfilamieno de amilias de compuesos o esudios dirigidos ( argeed meabolomics or meabolie profiling ).

7.1.1. Reconocimiento de patrones (Metabolite fingerprinting) El reconocimieno de parones o “ meabolie fingerprining ” consise en la idenificación de señales caracerísicas de un grupo experimenal (Fiehn, 2002). Para el reconocimieno de parones no es necesaria la idenificación de odos los meabolios presenes en una muesra. Esos esudios esán dirigidos principalmene a la idenificación del menor número de señales que permian la discriminación enre semejanzas y dierencias de los grupos experimenales, con el fin de dar una inerpreación del comporamieno biológico. Su diseño experimenal radica en la clasificación de grupos y conroles, en la idenificación de señales que inervienen en una rua específica o en la idenificación de marcadores 118


pre-esablecidos de enermedades o modos de acción (Sumner, Mendes & Dixon, 2003). El reconocimieno de parones puede realizarse mediane dierenes écnicas analíicas como méodos especroscópicos (IR, UV, RMN); ambién se han uilizado esos méodos con acoplamienos cromaográficos como es el uso de la cromaograía líquida de ala eficiencia acoplada a resonancia magnéica nuclear, lo que hace que se incremene significaivamene la sensibilidad, y a su vez, los cosos del análisis debido al uso de ases móviles deueradas. El análisis esadísico de los daos se puede abordar con un modelo de regresión mulivariado y un análisis discriminane. Hay disinos esudios que presenan análisis de varianzas con pruebas pos hoc para la deerminación de dierencias enre las variables en varios grupos experimenales, pero hay que ener presene que los meabolios (variables) son daos alamene correlacionados. Por lo ano, se debe ener especial cuidado y cereza que los daos analizados no presenan colinealidad.

7.1.2. Identificación de biomarcadores (biomarker discovery) Debido a que el objeivo principal del desarrollo de biomarcadores en meabolómica es el de crear un modelo predicivo a parir de un conjuno de múliples compuesos, la clasificación de los grupos experimenales o el análisis discriminane de los daos no es suficiene. Es necesario reporar y validar el modelo maemáico uilizado, reporar la sensibilidad y especificidad del biomarcador mediane curvas ROC ( receiver operaor characerisics ) con los inervalos de confianza asociados y en ocasiones, evaluar la reproducibilidad del ensayo, con el objeivo de poderlos llevar a la prácica clínica (Xia, Broadhurs, Wilson & Wishar, 2013). El análisis químico debe esar dirigido a la idenificación y cuanificación precisa de un conjuno de compuesos presenes en la muesra los cuales deben ser seleccionados a priori. Eso requiere ala sensibilidad insrumenal y precisión en la idenificación de los compuesos. Por esa razón, en muchos esudios se reporan los resulados desde dierenes plaaormas insrumenales (e.g. MS/MS, RMN de ala resolución o MS n). Según Xia y colaboradores (2013), los esudios dirigidos a la idenificación de biomarcadores consan de los siguienes pasos:

I. Selección del biomarcador. II. Evaluación del desempeño. III. Modelo maemáico

I. La selección del biomarcador Consise en idenificar los compuesos que generan el mayor poder discriminane (por ejemplo, enre sanos y enermos; enre dierenes especies; enre expuesos y no 119

expuesos). Generalmene se realiza mediane algorimos supervisados de aprendizaje de máquina o modelos de regresión mulivariada.

II. La evaluación del desempeño Consise en la validación de los biomarcadores propuesos. Usualmene se lleva a cabo mediane validación cruzada y/o es de permuaciones, seguido de la evaluación de sensibilidad y especificidad mediane las curvas ROC con los inervalos de confianza y las asas de cambio.

III. La creación del modelo matemático Consise en uilizar los compuesos resulado del análisis mulivariado y discriminane para aplicarlos a una regresión (e.g. regresión logísica) (Xia e al., 2013). Para evaluar la robusez maemáica del modelo, especialmene cuando se cuena con pocas muesras se recomienda hacer una validación mediane “ boosrap resampling ” de odo el conjuno de daos (Xia e al., 2013). Poseriormene, los compuesos seleccionados como poenciales biomarcadores deben ser cuanificados mediane una plaaorma analíica robusa. Finalmene, para validar los biomarcadores es recomendable, en la medida de las posibilidades, repeir el experimeno bajo las mismas condiciones y con los mismos organismos, seguido de un esudio de muesras de una población similar a las condiciones de laboraorio y, por úlimo, realizar las pruebas inerlaboraorio.

7.1.3. Metabolómica no dirigida (Untargeted metabolomics) En los esudios no dirigidos se preende seleccionar la mayor canidad de señales especrales que puedan discriminar con precisión un organismo de oro, o comporamienos biológicos en dierenes sisemas. En ese senido, el análisis insrumenal se lleva a cabo en equipos de ala sensibilidad y el procesamieno de daos represena un reo en la selección de algorimos para el filrado de ruido y la deconvolución de señales. En la acualidad se cuena con plaaormas libres y librerías en R que permien hacer ese procesamieno mediane ineraces muy amigables con el usuario, enre las más 37 usadas esán: XCMS 35, MZmine36 y MAIT . Para analizar los resulados obenidos no necesariamene se debe hacer la idenificación y anoación de meabolios a priori ; en los esudios no dirigidos es usual rabajar con los daos crudos sin idenificar, con la lisa de picos, con los daos especrales o con las señales alineadas (Xia & Wishar, 2011), para poseriormene, mediane esadísica mulivariada, seleccionar grandes conjunos de daos según el comporamieno biológico. 35 Disponible en htps://xcmsonline.scripps.edu. 36 Disponible en mzmine.gihub.io/. 37 Disponible en htps://www.bioconducor.org/packages/release/bioc/hml/MAIT.hml.

120


7.2. Preparación de la muestra y técnicas instrumentales analíticas La preparación de la muesra depende, no sólo del origen y ipo de muesra, sino ambién del ipo de esudio meabolómico a llevar a cabo (dirigido o no dirigido), y poseriormene de la écnica insrumenal a uilizar (LC/MS, GC/MS o NMR). La preparación de la muesra de un esudio dirigido busca separar las susancias a analizar y reducir al máximo las inererencias de la mariz. Por oro lado, en un esudio no dirigido se debe ener cuidado de no alerar la composición de la muesra, es decir, se debe cuidar la inegridad de odos los meabolios presenes en la muesra. Dependiendo del origen de las muesras esas pueden ser desde los meabolios endógenos de las células (Zuluaga e al., 2016) hasa muesras ambienales. Esa gran variación de marices represena la gran diversidad en las opciones para la elección del méodo. Sin embargo, hay aspecos en común que el raamieno de la muesra requiere abordar. Por ejemplo, remover macromoléculas, disminuir o eliminar compuesos que puedan generar un eeco mariz de supresión de iones, y remover inererencias que puedan aecar la adquisición de daos. Una revisión más deallada de la preparación de muesras de dierenes marices puede ser enconrada en la revisión de Zuluaga e al., (2016). De acuerdo a la écnica insrumenal uilizada, se deben ener algunos cuidados especiales para asegurar buenos resulados. Por ejemplo, para análisis meabolómicos basados en especromería de masas, es necesario garanizar la limpieza de la uene de iones durane odo el experimeno. Por ese moivo, se recomienda verificar con blancos cada ciero número de muesras con el fin de eviar el decremeno gradual de la señal oal. Si el análisis por especromería de masas va acoplado a cromaograía de gases se debe ener en cuena las condiciones de derivaización de la muesra y la limpieza periódica del liner. Para eso se sugiere realizar pruebas de conrol de calidad con mezclas de esándares de dierenes grupos uncionales que se llevan a derivaización para deerminar las figuras de mério de la reacción (linealidad, reproducibilidad, recuperación, sensibilidad y selecividad) así como los posibles aducos que se puedan llegar a generar durane la reacción de derivaización. Esa derivaización para los esudios meabolómicos generalmene se realiza en dos eapas: la primera, la meoximación para la proección de grupos uncionales carbonílicos; la segunda una silanización de los hidrógenos ranseribles al medio (Figura 7.2). McKelvie, Yuk, Xu, Simpson & Simpson (2009), compararon res meodologías dierenes de derivaización usando meilsilil rifluoroaceamida (MSTFA), meilerbuilsilil rifluoroaceamida (MTBSTFA) e hidrocloruro de hidroxilamina rifluoroaceamida (HMDS, TFA), de los cuales el ercer méodo les permiió obener el mayor rendimieno de meabolios.

121

OMe

O R

O

HCI NH2

OH

OMe

N R

F3C

R

37 C

O OH

60 C/15min

N

Si

N

OH

OMe

N

30min

R

O Si

O

F3C

N

H

Figura 7.2. Reacciones de derivaización de compuesos semivoláiles. Primero meoximación, segundo silanización. Para los esudios basados en cromaograía líquida acoplados a especromería de masas se debe asegurar que ningún compueso de la mariz esé generando supresión de señales. Para esa écnica ambién se sugiere la inyección de blancos y muesras conrol para verificar denro de la marcha el desempeño de la misma. Por oro lado si el méodo de elección es la resonancia magnéica nuclear, es necesario considerar los reacivos deuerados a uilizar e insrumenalmene la supresión de la recuencia de la señal del agua. En ese senido, se recomienda evaluar dierenes solvenes de exracción para garanizar el mayor número de meabolios en el exraco. En un esudio realizado por Brown y colaboradores (2008), compararon dierenes solvenes, iempo de depuración y liofilización, con el objeo de enconrar los ópimos para la preparación de muesras de ejido de lombriz para un análisis en RMN. En ese esudio se analizaron seis solvenes dierenes: buffer osao, agua deuerada, aceonirilo deuerado, benceno, cloroormo, meanol y dimeil sulóxido (odos deuerados), enconrando que el buffer osao presenó la mayor reproducibilidad, mayor concenración y variedad de meabolios. Como se mencionó aneriormene, la preparación de la muesra esá muy relacionada con la écnica insrumenal en la que se basará el esudio, la elección de la écnica dependerá de la accesibilidad y los recursos con los que cuene el invesigador, ya que odas presenan oralezas y aspecos por rabajar. Por ejemplo, la resonancia magnéica nuclear (RMN) ha sido ampliamene uilizada, debido a que es un méodo robuso en el que se puede idenificar y cuanificar direcamene sin necesidad de esándares exernos ni curvas de calibración, ya que la señal es proporcional a la concenración molar del compueso (Lubbe, Ali, Verpore, & Choi, 2013). Ora de las venajas de esa écnica es la mínima manipulación y ácil preparación de la muesra, lo que la hace muy reproducible, además del hecho de que maniene la inegridad de la muesra al ser una écnica no desrucible. Las limiaciones de 122


la écnica de RMN radican principalmene en los cosos de manenimieno de los equipos y la baja sensibilidad, por lo que generalmene se ha uilizado en experimenos conrolados, aunque úlimamene eso ha ido mejorando al incremenar la recuencia de los equipos. Por oro lado, los esudios basados en la especromería de masas se han vuelo más populares debido a la disponibilidad en los laboraorios, la versailidad y los cosos de manenimieno. El ipo de ionización más comúnmene uilizada en esa revisión ue la ionización por elecrospray (ESI) combinada con la écnica cromaográfica líquida (LC/ MS TOF), en ano esa provee una buena sensibilidad y selecividad por un amplio rango de compuesos. Sin embargo, una de las limiaciones de los esudios meabolómicos en los que se uiliza cromaograía líquida, es el procesamieno de los daos, ya que consume mucho iempo por las librerías de especros basadas en iempos de reención, además son limiadas y generalmene deben ser consruidas por cada laboraorio, lo que hace que se incremenen los cosos por la consecución de esándares. Finalmene, los esudios basados en cromaograía gaseosa son muy populares, en cuano el coso oal por muesra puede llegar a ser menor que las oras écnicas y el libre acceso a librerías y reposiorios de especros hace que el procesamieno de los daos sea más ácil, asequible y ransparene. La limiación se siúa en el procesamieno de muesra, dado que esas deben ser derivaizadas para converirlas en compuesos voláiles, lo cual puede aumenar el error experimenal y aecar la reproducibilidad. No obsane, hay proocolos generales esablecidos para el raamieno de muesras para esudios meabolómicos.

7.2.1. Aspectos generales de la espectrometría de masas La elección en el ipo de ionización en los esudios meabolómicos es crucial para asegurar la calidad de los resulados, ya que esa dependerá de la nauraleza de la muesra y la clase de inormación que se desea obener. La ionización se puede dividir en dos grupos: ionización en ase gaseosa o ionización por desorción. En el primer caso, la muesra se vaporiza y poseriormene es ionizada, esa écnica de ionización es uilizada principalmene en meabolios érmicamene esables y de bajo peso molecular. En el segundo caso, los meabolios esán embebidos en una mariz y son ionizados direcamene generando iones gaseosos. Denro de la ionización en ase gaseosa se encuenra la ionización por impaco elecrónico y la ionización química. Por oro lado, la ionización por desorción coniene la ionización por elecrospray, ionización en superficie, ionización FAB ( Fas aom bombardmen ), DART (Direc analysis in real ime ) y la ionización por láser (Figura 7.3). En la ionización por impaco elecrónico las moléculas que se encuenran en ase de vapor son ionizadas por medio de un haz de elecrones de ala energía. Los elecrones provienen de un filameno y son acelerados mediane un dierencial de poencial variable enre 5 y 70 V, generando energías enre 5 y 70 eV. Cuando las moléculas enran en conaco con el haz de elecrones puede darse la eliminación de un elecrón, eliminación de dos elecrones, capación de un elecrón o la disociación de la molécula (siendo la eliminación de un elecrón el proceso más probable). La ionización 123

química ocurre mediane una reacción bimolecular, en la que el meano es someido a presiones de 1mm Hg generando iones meonio (CH5+) que son puesos en conaco con las moléculas de la muesra generando la ionización de las mismas.

Ionización

Por desorción

Fase de Vapor

Impacto electrónico

Electrospray

FAB

DART

Láser

MALDI

Ionización química SELDI

Figura 7.3. Tipos de ionización de muesras. Por oro lado, la ionización por elecrospray se realiza a presión amosérica, haciendo pasar la muesra más el solvene por un capilar meálico al cual al final se le aplica una corriene de 3-4 KV. Eso genera una niebla de finas goas cargadas elécricamene, lo que acilia la evaporación del solvene y las moléculas pueden quedar cargadas posiiva o negaivamene. La ionización en superficie es uilizada para compuesos de baja volailidad, en los que la ionización ocurre sobre una superficie a elevadas emperauras. La ionización FAB se da a ravés de áomos de xenón o cesio que son impacados sobre una mariz, la cual cede un proón que ionizaría la muesra que esá embebida en la mariz. Esa se uiliza generalmene para moléculas polares y de alo peso molecular. La ionización DART consa de un haz ormado por áomos de helio producidos por descarga elécrica que impaca la muesra y ransfiere proones a los analios, no requiere un solvene mariz. Finalmene, la ionización asisida por láser, consise en la pulsación de ondas de luz que impacan una mariz en el caso MALDI (ionización por desorción con láser asisida por una mariz) para generar el agene ionizane, y por ende, ionizar los meabolios. En el caso SELDI (ionización por desorción con láser sobre una superficie), los analios se fijan sobre

124


una superficie sólida por adsorción, la cual se recubre con un solvene que acúa como una mariz que poseriormene es irradiado con el láser para generar los agenes ionizanes. Respeco a los analizadores de masas, ienen como objeivo el separar los iones generados en el proceso de ionización. Esos se pueden clasificar en dos grandes grupos: los analizadores de barrido y los analizadores de ransmisión de iones simuláneo. Denro del primer grupo se encuenran el analizador magnéico y el cuadrupolar. En el segundo grupo se encuenran el analizador de rampa de iones, el iempo de vuelo y el analizador de ransormada de Fourier (Figura 7.4). La dierencia que exise enre los analizadores se puede resumir en res parámeros: la resolución, la masa máxima que pueden medir y la ransmisión de iones. En la Tabla 7.1 se muesran las dierencias enre los dos ipos de analizadores respeco a los parámeros (Sashenko y Marínez, 2010).

Analizadores de masas

Analizadores de barrido

Analizadores de transmisión de iones simultáneos Analizador de tiempo de vuelo

Analizador magnético Analizador de trampa de iones Analizador cuadrupolar Analizador de transformada de Fourier

Figura 7.4. Analizadores de masas El analizador magnéico es el menos recuene en la acualidad y uiliza un campo magnéico para separar los iones someiéndolos a una curvaura en el rayeco hasa el deecor, la velocidad cinéica la llevan los iones generados por el campo magnéico; esos analizadores ienen una resolución de 900 m/z. El analizador cuadrupolar esá conormado por cuaro barras meálicas ubicadas de manera circular y paralela, sobre las cuales se aplica un poencial de radiorecuencia alerno para realizar el barrido de masas; su resolución es de 500 a 1000 m/z. La dierencia del analizador de rampa de iones con respeco al anerior es que los iones pueden quedar confinados durane un periodo más largo, debido a una 125

recuencia adicional exerna que es aplicada, y permie que los iones sean eyecados de la rampa en orden creciene de la relación m/z. En el analizador de iempo de vuelo los iones generados en la uene son acelerados mediane un pulso de poencial elécrico y la velocidad de cada ion es inversamene proporcional a su relación masa carga, haciendo el iempo de análisis muy coro.

Tabla 7.1. Dierencias enre analizadores de masa. Parámetro.

Analizadores de barrido.

Analizadores de transmisión de iones simultáneo.

Comentario.

Resolución

Las masas exacas permien Masas nominales (Números Masas exacas (hasa seis dierencias isómeros y eneros) decimales) especies isobáricas

Masa máxima

Límie para la masa

Transmisión de iones

Baja sensibilidad

Los TOF, infinio

Virualmene

Ala sensibilidad

Relación enre los iones que se orman en la cámara de ionización y los que después de aravesar el analizador alcanzan el deecor

7.3. Procesamiento de datos metabolómicos El procesamieno de los daos en meabolómica comienza con la ransormación de los archivos de daos crudos en una represenación que acilie el acceso a las caracerísicas de cada ion (Kaajamaa & Oresic, 2007). Descrio de ora orma, se refiere a la conversión de señales cromaográficas, especros de masas o especros de recuencia (según sea la écnica analíica uilizada) en marices numéricas que conengan la inormación de cada señal como el iempo de reención, la relación masa carga (m/z) y la inensidad de los iones, con el fin de que puedan ser poseriormene analizados esadísicamene. Debido a que los esudios meabolómicos esán conormados de un gran número de daos, de la misma orma que las oras ómicas es necesario el uso de herramienas inormáicas para un apropiado raamieno de los daos (Sugimoo, Kawakami, Rober & Soga, 2012), las cuales han crecido en los úlimos años. En la abla 7.2 se presena la lisa de las plaaormas de acceso libre y comercial para procesamieno de daos meabolómicos basados en especromería de masas.

Tabla 7.2. Plaaormas para el procesamieno de señales cromaográficas y especros de masas.

126

Conceptos en Ciencias Ómicas Nombre

Características

Tipo

Lenguaje

COMSPARI

Visualización para la búsqueda de dierencias enre pares de Libre. corridas.

C

Coninuous profilemodels

Alineación y normalización para daos de series de iempo.

Libre.

MaLab

LCMSWARP

Alineación por iempo de reención y cluserización.

Libre.

C++

MapQuan

Filrado de ruido, deección de pico y visualización.

Libre.

C

MahDAMP

Comparación direca de daos crudos sin selección de picos, Libre. incluye méodos para preprocesamieno como agrupación en cuadrícula (binning), subsracción de línea base, suavizado y normalización.

Paquee de Maemáica

MET-IDEA

Exrae los daos de la inensidad del ion lisados por orden Libre. creciene de ion/iempo de reención de múliples corridas.

.NET plaorm

MSFACTs

Alineación y comparación de cromaogramas crudos o lisa de Libre. picos.

Java

Msigh

Visualización y análisis visual de la comparación de corridas Libre. múliples.

Windows plaorm

msInspec

Deección de pico, alineación, normalización y visualización.

Libre.

R, Java

MZmine

Filrado de ruido, deección de picos, alineación, anoación, Libre. normalización, visualización, compuación disribuida.

R, Java

SpecArray

Filrado de ruido, cenralización, deección de pico, alineación Libre. y visualización.

C

Xalign

Deección de pico, alineación y conrol de calidad.

C++

XCMS

Filrado de ruido, deección de pico, normalización, anoación Libre. y visualización.

R

MAIT

Deección de pico, anoación de picos y visualización.

Libre.

R

BinBase daa base

Auomáica anoación de meabolios.

Libre.

BlueFuse

Filrado, deección de pico, alineación, méodos univariados y Comercial: BlueGenome, mulivariados para el análisis de daos. Cambridge, UK.

Genedaa Expressionnis

Filrado, deección de pico, alineación por m/z y iempo de Comercial: Genedaa, Basel, reención, anoación, esadísica y módulos de inerpreación. Suiza.

LineUp

Alineación de daos cromaográficos.

MarkerLynx

Deección de pico y alineación, análisis de componenes Comercial: Waers, Milord, principales (PCA). MA.EU.

MarkerView

Deección de pico y alineación, PCA, es .

Applied Biosysem, Foser Ciy, CA. EU.

MassHuner Profiling sofware

Exracción de caracerísicas y alineación.

Agilen Technologies Sana Clara, CA. EU.

Meabolic Profiler

Compila inormación cruda en ablas de iempo de reención, Bruker Dalonic y Bruker m/z e inensidades. Anoación y PCA. BioSpin, Billerica, MA. EU.

meAlign

Filración, corrección de línea base, deección de pico y PlanResearch inernaional, alineación. B.V. Holanda.

MS Resolver

Resuelve daos mulicomponenes de insrumenación con Patern Recogniion Sysem. mulideección en conribuciones individuales.

Profile

Conversión de exensión, deección de picos y alineación, Phenomenome Discoveries, análisis esadísico. Canadá.

Roseta Elucidaor

Deección de pico y alineación, análisis esadísico y Roseta visualización. Seatle. EU.

Sieve

Comparación de múliples cromaogramas.

Thermo Fisher Scienific. EU.

ChromaTOF

Deconvolución, visualización y repore.

LECO.

Libre.

Comercial: Inomerics.

Biosofware,

127

7.3.1. Formato y filtrado Si el procesamieno de los daos se desea realizar en un programa libre o en una plaaorma web, es necesario inicialmene converir la exensión del archivo, ya que dependiendo de la marca del equipo uilizada en el laboraorio, cada casa comercial iene una exensión y un ormao de archivo dierene y único para su marca. Sin embargo, cada programa comercial iene la opción de exporar los archivos a ormaos universales. Los ormaos acualmene uilizados por las plaaormas de acceso abiero son neCDF, mzXML (Kaajamaa y Oresic, 2007; Sugimoo, Kawakami, Rober & Soga, 2012). Los méodos de filrado se uilizan principalmene para remover los eecos del ruido o la línea base. En los esudios por cromaograía acoplados a especromería de masas se espera obener dos ipos de ruido: el generado por el equipo (ruido aleaorio) y el generado por el solvene. Los algorimos más uilizados para la remoción del ruido son los siguienes: movimieno de venana ( moving average window ), filrado por mediana ( median filer ), Savizky-Golay, polinomio local ( local plynomial fiting ) y ransormación ondeada ( wavele ransormaion). Esas écnicas de filrado y suavizado se usan undamenalmene en cromaograía líquida, pueso que por eeco de los solvenes de la ase móvil, las señales son menos homogéneas que en la cromaograía gaseosa. El filrado por la mediana ( median filer ) consise en reemplazar cada puno (K) de las flucuaciones del ruido por la media de odos los valores K. Ese valor K debe ser opimizado a ravés de blancos con dierenes condiciones y solvenes, porque un K muy grande puede ener un alo grado de suavizado y ocular algunas señales verdaderas, mienras que valores muy pequeños pueden no hacer mucho cambio en las señales. La écnica de suavizado a ravés del algorimo de Savizky-Golay es la más popular y es similar a la de polinomio local. En esa cada puno es reemplazado por un esimado de una unción polinómica calculada con los punos circundanes; una venaja de SavizkyGolay es que las derivadas pueden ser calculadas simuláneamene. El algorimo de ransormación ondeada ( Wavele ransormaion ) consise en el reconocimieno de las recuencias de onda, es decir, las flucuaciones producidas en el ruido son más rápidas que las generadas por una señal de un compueso. La idea consise en reemplazar los coeficienes de las flucuaciones rápidas por cero, lo cual exraca únicamene las recuencias correspondienes a las señales (Wehrens, 2011). Finalmene, un ipo especial de suavizado de señales es a ravés del pixelado ( Binning ), que no solo promedia los valores conseguidos para pixel, sino que ambién disminuye el número de variables. Aunque la resolución de la imagen disminuye, se puede idenificar con mayor acilidad las principales caracerísicas. Ese méodo de suavizado de señal ambién iene sus limiaciones, porque deerminar el amaño del pixel es cuesión de ensayo y error, pero iene más venajas que rabajar sobre medias o medianas (Wehrens, 2011).

128


7.3.2. Detección de picos Los raamienos inormáicos para la deección de señales esán enocados en la idenificación de odos los compuesos, al eviar los alsos posiivos y al proveer inormación cuaniaiva de la abundancia de los iones presenes. Para eso, una de las esraegias más uilizadas es la conversión de la inormación adquirida en gráficos caresianos donde el eje “x” es el iempo de reención y el eje “y” es la relación m/z. De allí se separan las señales y se abulan en orden de iempo de reención y m/z; si bien eso ayuda en gran medida a la organización y separación de los daos, hay un acor experimenal que se debe ener en cuena: la ionización (ya que para ionizaciones suaves, como la de elecrospray, se pueden enconrar ablas “más limpias”). Es decir, se encuenran menos ragmenos de un mismo compueso, pero por lo general, en el proceso de selección de picos se debe lidiar ambién con aducos de iones, isómeros y dierenes esados de carga con la elución de compuesos en un mismo iempo de reención. Por eso después es necesario realizar la idenificación de isómeros, aducos y la deconvolución los cuales serán descrios a coninuación.

7.3.3. Deconvolución de señales Cuando se realiza una ionización suave, se espera obener un solo pico por compueso, para que esos a su vez eluyan uno a uno de la columna cromaográfica. Sin embargo, eso no ocurre siempre, hay compuesos que viajan a ravés de la columna con una velocidad muy similar, por lo ano, un gran número de meabolios coeluyen y no son cromaográficamene bien resuelos, por consiguiene, los especros de masas ambién quedan superpuesos, en ese senido, es necesario separar maemáicamene las señales solapadas y reorganizar los iones que provienen de cada meabolio, proceso que se conoce como deconvolución. Los parámeros con los que se deben alimenar los dierenes programas para deconvolucionar picos son dierenes de acuerdo a la casa comercial. En un esudio realizado por Lu y colaboradores (2008), publicado en el Journal Trends in Analyical Chemisry, se eecuó una comparación de res programas, dos de ellos comerciales – ChromaTOF y AnalyzerPro–, así como AMDIS, que se puede descargar de manera libre, cada uno de los cuales iene dierenes parámeros de uso y algorimos desarrollados por cada casa comercial. En ese esudio se enconró que AMDIS produce más alsos posiivos, y los programas AnalyzerPro y ChromaTOF reporaron más alsos negaivos. No obsane, si se omiieran los alsos negaivos del programa ChromaToF, que resuló con mayor validez en los resulados, el número de meabolios deconvolucionados correcamene sería mayor a los oros dos, aunque iene la limiación de que sólo recibe daos procesados en equipos LECO, mienras que AMDIS y AnalyzerPro, reciben los ormaos universales. 129

7.3.4. Identificación de Isótopos Los analizadores de masas de ala resolución (como TOF y RITF) permien la idenificación de iones isoópicos, los cuales comúnmene son deconvolucionados en el flujo de rabajo de procesamieno de daos en los esudios meabolómicos. Si el objeivo del esudio no es seguir un parón isoópico (bien sea porque la molécula haya sido marcada isoópicamene en el experimeno o porque se requiere idenificar las ransormaciones de alguna molécula), es necesario agrupar los parones isoópicos para minimizar el número de señales que van a ser idenificadas, y que generen una inormación adecuada para lo que se busca en el experimeno. Con al fin se debe proveer al programa la inormación sobre la relación m/z máxima permiida para ser considerados iguales, la olerancia en iempo de reención y la carga máxima para deecar un parón isoópico.

7.3.5. Identificación de aductos Se eniende como aduco, la unión de moléculas mediane un enlace covalene, que no produce cambios esrucurales. Esa unión se produce durane la reacción de derivaización o por los compuesos de la mariz que coniene los analios. La masa de esos aducos dependerá de la esraegia de derivaización uilizada, en el caso de la cromaograía gaseosa, y de los solvenes uilizados, en el caso de la cromaograía líquida.

7.3.6. Identificación y anotación de compuestos La idenificación de compuesos se lleva a cabo mediane la similiud de especros obenidos con las librerías disponibles en el equipo o las consruidas en cada laboraorio. La anoación de compuesos desconocidos hace reerencia a la búsqueda del compueso basados en el especro de masas y el índice de reención en bases de daos públicas como (HMDB, KEGG, PubChem, Chemspider, enre oros) o con la idenificación insrumenal (e.g. mediane MS/MS). El índice de reención de Kovas es el indicador más uilizado como unción de las propiedades de la columna (ipo de columna, edad, longiud, grosor de ase esacionaria) es uilizado para fijar un valor en unción del iempo de reención, dado que el desplazamieno de los picos son observados siempre enre cada corrida cromaográfica, con el fin de fijar una posición para cada meabolio denro del cromaograma. Eso permie que se puedan crear bases de daos universales que pueden ser almacenadas y usadas a lo largo de los años a ravés del uso del índice de reención (Skogerson, Wohlgemuh, Barupal & Fiehn, 2011). El índice de reención se deermina dopando las muesras con esándares conocidos, generalmene alcanos desde C6 hasa C24, pero acualmene se usan ambién los éseres meílicos de ácidos grasos (FAMES) en el mismo rango, ya que los ácidos grasos meilados han mosrado un desempeño inequívoco en la deección auomaizada (Skogerson e al., 2011). 130


7.3.7. Alineación La alineación de señales consise en asignar un mismo pico en dierenes muesras o corridas cromaográficas, debido al desplazamieno que suren los picos enre las dierenes corridas. Para eso se han desarrollado dierenes esraegias, a saber: el análisis de las señales en una sola dimensión, la adición de esándar inerno y los méodos sin adición de esándares inernos. El méodo de grupos cenrados consise en generar un cromaograma promedio con los daos de odos los cromaogramas de un mismo esudio, en el cual los picos generados en el cromaograma promedio van a definir un cenro de agrupación, para poseriormene omar cada pico de las muesras individuales y emparejar con el pico del cenro de grupo. Una limiación de ese méodo es que la desviación en el iempo de reención del pico enre las dierenes muesras, porque no puede ser mayor a la disancia enre dos picos adyacenes de la misma muesra. El méodo de arreglo de venana de iempo de reención consise en organizar y exraer la lisa de picos de odas las muesras e ir ormando grupos de picos usando un inervalo en el iempo de reención. La desvenaja de ese méodo es que la opimización del inervalo se debe hacer manualmene a ensayo y error, pero puede ser que no sea reproducible para oro experimeno. El méodo de adición de esándar inerno consise en adicionar pequeñas canidades de esándares que se puedan disribuir a lo largo de la corrida cromaográfica, con el propósio de usar un desplazamieno lineal en el iempo de reención de cada muesra adquirida. Las limiaciones de ese méodo consisen, en primer lugar, en asumir que el desplazamieno de los picos corresponde a una unción lineal. En segundo lugar, en requerir un paso más en el procesamieno de la muesra, que es la adición de esándares que pueden aecar o enmascarar la presencia de oros meabolios. Enre los méodos sin adición de esándar inerno reside la correlación opimizada de orma (Correlaion opimized warping – COW ), la cual busca exhausivamene posibles conjunos de curvauras segmenadas que puedan ser usados para alinear un cromaograma con el oro usando una medida de correlación. El méodo de ormación cuadráica ( quadraic warping uncion ), modela las flucuaciones ieraivamene en una unción cuadráica para minimizar las dierencias enre las razas de dos cromaogramas (Smih, Wan, O’Maille, Abagyan & Siuzdak, 2006). El méodo de XCMS inicia haciendo un agrupamieno brusco de los cromaogramas. Eso con el propósio de buscar grupos con picos bien resuelos, los cuales son usados

131

emporalmene como esándares para calcular la media en iempo de reención y la desviación de la media para cada muesra en ese grupo. Poseriormene, a cada muesra se le deermina una curva no lineal de iempo de reención con un modelo polinómico local (Smih e al., 2006).

7.3.8. Valores perdidos Se presenan los valores perdidos porque la concenración de un meabolio en una muesra deerminada quedó por debajo del límie de la insrumenación usada. En ano esos valores perdidos pueden generar inconvenienes en el momeno de hacer el análisis esadísico, es imporane reemplazar el valor cero por oro valor calculado mediane varias esraegias: la primera de esas consise en calcular el valor medio del valor más pequeño deecado para ese ión (oros programas uilizan la ercera pare del valor más pequeño deecado). Ora de las esraegias consise en asignar el valor del ruido de ondo (Couran, Anignac, Dervilly-Pinel & Le Bizec, 2014).

7.4. Análisis de datos Los daos adquiridos en un esudio meabolómico ienen la caracerísica de una ala dimensionalidad en la que generalmene el número de variables excede el número de observaciones, enendiéndose por variable los meabolios idenificados y no idenificados. Ora de las caracerísicas reside en las variables que esán correlacionadas, ya que perenecen a un mismo sisema biológico (Couran e al., 2014). Por esa úlima razón es que el uso de análisis univariado en esudios meabolómicos ha sido criicado; sin embargo, en el caso en que la variación enre muesras es muy aleaoria, el análisis mulivariane no es el adecuado para idenificar dichas dierencias. En esos casos debe aplicarse esadísica univariada (Smih e al., 2006). Las variaciones en las concenraciones de los meabolios pueden esar aecadas no necesariamene por el eveno biológico, sino ambién pueden esar influidas por oros acores como: la dierencia en el orden de magniud, eso es, la dierencia que puede haber enre el promedio de concenración de un meabolio con el promedio de un meabolio. Por ejemplo la glucosa o el ATP que se encuenran en grandes concenraciones, y eso no quiere decir que los meabolios que esán en bajas concenraciones sean menos imporanes. Oro acor puede ser la variación écnica que es el error en el raamieno de la muesra (Van den Berg, Hoesloo, Weserhuis, Smilde & van der Wer, 2006). En ese senido, anes de hacer el análisis esadísico es necesario minimizar odos los errores sisemáicos que puedan ener los daos crudos, a ravés de la normalización, la ransormación y el escalado de los daos, los cuales se explicaran a coninuación.

132


7.4.1. Normalización El objeivo de la normalización de los daos consise en corregir la variación sisemáica y en escalar los daos, de manera que las dierenes muesras de un esudio puedan ser comparadas enre sí (Casillo, Gopalacharyulu, Yeukuri & Orešič, 2011). En oras palabras, se raa de eliminar la variación que puede ser conusa y que proviene, por ejemplo, del raamieno de la muesra, mienras se reiene la variación relevane (la variación de origen biológico). La normalización puede realizarse mediane dos méodos dierenes: a ravés de esándar inerno o a ravés de acores de escala. El méodo de esándar inerno se basa en la división de la inensidad de las señales de los compuesos por la inensidad del esándar inerno. La elección del esándar debe undamenarse en un compueso que, en general, pueda describir el comporamieno de la mayor canidad de meabolios en la muesra. El méodo de acores de escala se puede realizar a ravés de la mediana o el promedio de las inensidades, en el cual se dividen las inensidades o las áreas de cada pico por el promedio de las aluras de los picos, o por el promedio del cuadrado de las aluras de los picos, la alura del pico máximo o por la suma de las aluras o el área de los picos en una muesra (Casillo e al., 2011).

7.4.2. Transformación y escalado Las ransormaciones son conversiones no lineales de los daos para converir las relaciones muliplicaivas por relaciones adiivas y para hacer la disribución del sesgo más simérico. Las ransormaciones son necesarias para idenificar las relaciones biológicas a ravés de écnicas lineales (Van den Berg e al., 2006). Eso porque las ransormaciones logarímicas reducen el orden de magniud, haciéndolo más similar a los valores pequeños, los cuales llegan a ener eecos de pseudo escalado enre los valores grandes y los pequeños, por lo ano, es imporane realizar un escalado después de la ransormación. Hay dierenes meodologías para realizar un escalado, enre ellas pueden mencionarse el auo escalado, el escalado en rango, el escalado de Pareo, el escalado exenso y el escalado por nivel. En la Tabla 7.3 puede observarse el objeivo, las venajas y las desvenajas de cada esraegia.

133

Tabla 7.3. Méodos de escalado, objeivo, venajas y desvenajas. Método Auo escalado

Objetivo Comparar meabolios basados en correlaciones.

Ventajas Todos los meabolios se vuelven igual de imporanes. Todos los meabolios se vuelven igual de imporanes y el escalado es relaivo a la respuesa biológica. Maniene los daos cerca a los daos originales

Desventajas Inflación de las medidas de error.

Escalado por inervalo

Comparar los meabolios de acuerdo al rango de respuesa biológica.

Escalado de Pareo

Reduce la imporancia relaiva de los valores de magniud grande, pero maniene la esrucura de los daos parcialmene inaca.

Escalado exenso

Enocarse en meabolios que presenan pequeñas flucuaciones

Apuna a la robusez, puede No es recomendable uilizar el conocimieno para grandes variaciones previo del grupo inducidas sin un grupo predeerminado

Escalado por nivel

Se enoca en la respuesa relaiva

Adecuado para la idenificación de biomarcadores

Inflación de las medidas de error y sensible a ouliers.

Sensible a grandes asas de cambio

Inflación de las medidas de error

7.4.3. Análisis de componentes principales El análisis de componenes principales (PCA) es el méodo mulivariane más uilizado para explorar los daos meabolómicos. Eso se debe a que poseen más número de variables (meabolios) que observaciones, y los meabolios esán alamene correlacionados, es decir, es posible explicar el eveno biológico refiriéndose a unos pocos meabolios (los que presenan mayor variabilidad). En ese orden de ideas, el PCA permie reducir la dimensionalidad de los daos, generando nuevas variables llamadas variables laenes o componenes principales, que son variables que no esán correlacionadas y que ayudarán a idenificar los meabolios que mayor variación biológica presenan y los posibles ouliers. El PCA es una écnica maemáica que no requiere la suposición de normalidad mulivariane de los daos, pero si eso se cumple puede arrojar una inerpreación más prounda de los componenes. Para realizar el cálculo de los componenes principales es necesario calcular la varianza y organizar la mariz en orden descendiene de varianza. Se iene enonces una serie de variables (meabolios) x 1, x 2 , …, x p y se raa de calcular a parir de ellas un conjuno de variables y 1, y 2 , …, y p no correlacionadas, donde cada y j (j=1,2,..,p) es una combinación lineal de variables originales (X 1, X 2 ,..., X p ). Poseriormene, los valores de los coeficienes de cada variable se vecorizan y se proyecan en un plano.

134


7.4.4. Regresión lineal de mínimos cuadrados parciales con análisis discriminante (PLS-DA) La regresión lineal de mínimos cuadrados parciales (PLS) es una écnica supervisada y combina las caracerísicas de dos écnicas mulivarianes: el análisis de componenes principales y la regresión lineal múliple (Valdéz, 2010). En primer lugar, exrae un conjuno de acores laenes que explica en la mayor medida posible la covarianza enre variables dependienes e independienes, y luego aplica la regresión pronosica deerminando los valores de las variables dependienes mediane la descomposición de las variables independienes. El análisis discriminane, modela la relación enre un grupo de variables predicores y una variable de respuesa caegórica, es decir, la variable que indica a qué clase o grupo perenece una muesra. PLS-DA es usada, principalmene, para el desarrollo de modelos predicivos en los que ajusa múliples variables en un modelo individual y luego las variables son agrupadas de acuerdo a la variable caegórica de mayor influencia. Esos modelos deben ir acompañados de la validación del poder predicivo.

7.4.5. Validación cruzada La validación cruzada se realiza principalmene para deerminar el poder predicivo de un modelo mulivariado, cuando por cuesiones de disponibilidad de muesra no se puede repeir el experimeno bajo las mismas condiciones. En la mayoría de los esudios meabolómicos se cuena con pocas muesras para verificar la reproducibilidad del experimeno, por eso se opa por la esraegia llamada “ re-sampling mehods ”. Uno de esos méodos es la validación cruzada, la cual consise en uilizar pare de los daos para ser enrenados y esimar el modelo, para luego hallar la esimación de las observaciones que no se incluyeron con los daos para la validación (los cuales son conocidos), y finalmene, idenificar los errores en la clasificación de los daos. Ese proceso es repeido un número de ciclos durane los cuales se realiza una división dierene de los daos, de manera que cada dao pueda servir una sola vez en el subgrupo de daos para enrenar.

7.4.6. Test de permutaciones El es de permuaciones se realiza para conesar la siguiene preguna: ¿esos resulados pueden ser obenidos únicamene por el azar? La idea de un es de permuación es crear modelos sin senido “ nonsense models ” a ravés de la permuación de las observaciones, pero dejando los róulos de las muesras inacos (e.g. caso – conrol) y repiiendo el modelo al usar los daos permuados. Eso se realiza un gran número de veces y odos los resulados serán aleaorios. Ese es de permuación permie evaluar ambién el poder predicivo del modelo original. 135

7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica El análisis de redes de meabolios se uiliza principalmene para para mosrar las relaciones bioquímicas exisenes enre los meabolios. Comúnmene las redes se consruyen a parir de los nodos (meabolios) y los enlaces que son los que presenan las dierenes relaciones enre ellos. Esas relaciones pueden ser de ipo químico (una reacción, una enzima, una rua bioquímica, enre oros); de ipo esrucural (similiud en especro de masas o similiud esrucural) y de ipo esadísico (correlación posiiva o correlación negaiva) (Grapov, Wanichhanarak & Fiehn, 2015). Las redes meabólicas esán represenadas por redes de escala libre, ese ipo de opología se presena cuando hay pocos nodos con una ala conecividad y el reso de nodos ienen pocos enlaces. Denro de la opología de la red hay propiedades esrucurales globales y propiedades locales. En el grupo de las globales se encuenran el grado de disribución enendido como el número de enlaces que iene un nodo, el coeficiene de agrupamieno (clusering ) y la modularidad. En el grupo de las locales residen los subgraos, las medidas de cenralidad, las ruas y el análisis de ineracción elemenaria.

Medidas globales Como se mencionó aneriormene, el grado calcula el número de enlaces que esán relacionados con un mismo nodo. El coeficiene de agrupamieno depende del número de vecinos que comparen conexión; en oras palabras, el número de riángulos que pueda ormar con los nodos vecinos (Shannon, 2002). El coeficiene de modularidad mide la uerza de división de una red en módulos o agrupamienos. Las redes con ala modularidad presenan un gran número de conexiones denro del mismo grupo, pero escasas conexiones con oros grupos. Las redes meabólicas presenan alos grados de modularidad por las diversas subredes o ciclos meabólicos que presena un sisema vivo, y ese sisema es indicador de las ruas que esán mediadas por un grupo de meabolios.

Medidas locales Las medidas locales permien inerir en los parones de ineracción. Los subgraos represenan un subgrupo de nodos con un grupo de enlaces conecados enre ellos (una misma rua bioquímica o un mismo parón de ragmenación en el especro de masas). Por oro lado, la cenralidad es una medida local de la posición relaiva de un nodo denro del grao y es usada para esimar la imporancia relaiva denro de una red. Hay dierenes medidas de cenralidad basadas en la conecividad del nodo, las cuales se denominan “Degree Cenraliy” o grado de cenralidad. Esas calculan las ruas más coras con oros nodos de proximidad cenral ambién llamadas Closeness Cenraliy , así como las que calculan el número de ruas más coras que pasan a ravés del nodo, y se denominan inermediación o beweenness cenraliy. Ora medida local es la redundancia 136


(Pahway redundancy ), esa mide la presencia de muchas ruas enre el mismo par de nodos, ese es un indicador de robusez en las ruas bioquímicas y esá correlacionado con las medidas de inermediación. Si en el análisis del meabolismo se iene en cuena únicamene la caracerísica general de opología como el grado, se puede llegar a conclusiones parciales, por ese moivo, en las redes meabólicas es necesario exracar ambién propiedades locales (Aitokallio & Schwikowski, 2006). En ese senido, una vez la red de inerés ha sido represenada mediane un grao, su análisis consa de dos pasos: el primer paso consise en aplicar los algorimos para compuar propiedades locales del grao, seguido de las locales como el número de subgraos, la longiud de los caminos más coros enre nodos conecados indirecamene (cenralidad). El segundo paso consise en evaluar la sensibilidad y especificidad del modelo de predicción usando bases de daos validadas (Aitokallio & Schwikowski, 2006). Finalmene, oro uso de las redes en esudios meabolómicos es la de asociación de ragmenos de los especros de masas de los compuesos idenificados con los desconocidos. Ese se lleva a cabo mediane algorimos de similaridad y correlación (Grapov e al., 2015). Una aplicación libre uilizada para ese fin es MeaMapR 38 la cual puede ser descargada y ejecuada en R mediane la librería Shiny.

38

htp://dgrapov.gihub.io/MeaMapR/

137

7.5. Referencias Aitokallio, T., & Schwikowski, B. (2006). Graph-based mehods or analysing neworks in cell biology. Briefings in Bioinormaics, 7 (3), 243–255. DOI:htps://doi. org/10.1093/bib/bbl022. Casillo, S., Gopalacharyulu, P., Yeukuri, L., & Orešič, M. (2011). Algorihms and ools or he preprocessing o LC-MS meabolomics daa. Chemomerics and Inelligen Laboraory Sysems, 108 (1), 23– 32. DOI: htps://doi.org/htp://doi.org/10.1016/j. chemolab.2011.03.010. Cornish-Bowden, A. (1989). Meabolic conrol heory and biochemical sysems heory: Differen objecives, differen assumpions, differen resuls. Journal o Theoreical Biology, 136(4), 365–377. DOI:htps://doi.org/htps://doi.org/10.1016/S0022 5193(89)80154-7. Couran, F., Anignac, J.-P., Dervilly-Pinel, G., & Le Bizec, B. (2014). Basics o mass specromery based meabolomics. Proeomics, 2369–2388. Derr, R. F. (1985). Modern meabolic conrol-heory. 1. Fundamenal heorems. Biochemical Archives, 1 (4), 239–247. Fiehn, O. (2002). Meabolomics : The link beween genoypes and phenoypes. Plan Molecular Biology. Plan Molecular Biology, 48 (1–2), 155–171. Fiehn, O., Kopka, J., Dormann, P., Almann, T., Trehewey, R. N., & Willmizer, L. (2000). Meabolie profiling or plan uncional genomics. Naure Bioechnology, 18 (11), 1157–1161. Rerieved rom htp://dx.doi.org/10.1038/81137. Grapov, D., Wanichhanarak, K., & Fiehn, O. (2015). MeaMapR : Pahway Independen Meabolomic Nework Analysis In- corporaing Unknowns. Bioinormaics Advance Access, 5–8. Recuperado de file:///Users/marhazuluagarojas/Documens/ Mendeley/Grapov, Wanichhanarak, Fiehn - 2015 - MeaMapR Pahway Independen Meabolomic Nework Analysis In- corporaing Unknowns.pd. Kaajamaa, M., & Oresic, M. (2007). Daa processing or mass specromery- based meabolomics. Journal o Chromaography, 1158 (1– 2), 318– 28.DOI: htps://doi. org/htp://doi.org/10.1016/j.chroma.2007.04.021. Lu, H., Liang, Y., Dunn, W. B., Shen, H., & Kell, D. B. (2008). Comparaive evaluaion o sofware or deconvoluion o meabolomics daa based on GC-TOF-MS. T rAC Trends in Analyical Chemisry, 27 (3), 215– 227. DOI:htps://doi.org/htp://doi. org/10.1016/j.rac.2007.11.004. Lubbe, A., Ali, K., Verpore, R., & Choi, Y. H. (2013). Meabolomics in pracice: Successul Sraegies o Generae and Analyze Meabolic Daa. En W.-V. V. G. & C. KGaA. (Ed.), NMR-Based Meabolomics Analysis (pp. 209–234). Weinheim, Germany: Lämmerhoer & W. Weckwerh. McKelvie, J. R., Yuk, J., Xu, Y., Simpson, A. J., & Simpson, M. J. (2009). 1H NMR and GC/MS meabolomics o earhworm responses o sub-lehal DDT and endosulan exposure. Meabolomics, 5 (1), 84– 94. Recuperado de htp://link.springer. com/10.1007/s11306-008-0122-6. Nicholson, J. K., Lindon, J. C., & Holmes, E. (1999). Meabonomics undersanding he 138


meabolic responses o living sysems o pahophysiological simuli via mulivariae saisical analysis o biological NMR specroscopic daa. Xenobioica, 29 (11), 1181– 1189. Recuperado de file:///Users/marhazuluagarojas/Documens/Mendeley/ Nicholson, Lindon, Holmes - 1999 - “Meabonomics” undersanding he meabolic responses o living sysems o pahophysiological simuli.pd. Shannon, S. (2002). Handbook o Complemenary and Alernaive Therapies in Menal Healh. San Diego, Caliornia: Academic Press. Skogerson, K., Wohlgemuh, G., Barupal, D. K., & Fiehn, O. (2011). The volaile compound BinBase mass specral daabase. BMC Bioinormaics, 12 (1), 321. DOI:htps://doi. org/htp://doi.org/10.1186/1471-2105-12-321. Smih, C., Wan, E. J., O’Maille, G., Abagyan, R., & Siuzdak, G. (2006). XCMS: processing mass specromery daa or meabolie profiling using nonlinear peak alignmen, maching, and idenificaion. Analyical Chemisry, 78 (3), 779–787. DOI:htps://doi. org/htp://doi.org/10.1021/ac051437y. Sashenko, E. E., & Marínez, J. R. (2010). Separar , ragmenar e inegrar : la ruina de un análisis por GC-MS . Parones de ragmenación de moléculas orgánicas. Scienia Chromaographica, 2 (2), 23–46. Sugimoo, M., Kawakami, M., Rober, M., & Soga, T. (2012). Bioinormaics ools or mass specroscopy-based meabolomic daa processing and analysis. Bioinormaics, 96– 108. Recuperado de htp://www.ncbi.nlm.nih.gov/pmc/aricles/PMC3299976/. Sumner, L. W., Mendes, P., & Dixon, R. A. (2003). Plan meabolomics: large-scale phyochemisry in he uncional genomics era. Phyochemisry, 62 (6), 817– 836. DOI: htps://doi.org/htps://doi.org/10.1016/S0031- 9422(02)00708-2. Valdéz, D. (2010). Regresión por Mínimos Cuadrados Parciales. Varianza, 7 (3), 18–22. Van den Berg, R., Hoesloo, H. C. J., Weserhuis, J., Smilde, A. K., & van der Wer, M. J. (2006). Cenering, scaling, and ransormaions: improving he biological inormaion conen o meabolomics daa. BMC Genomics, 7, 142. DOI: htps://doi. org/htp://doi.org/10.1186/1471-2164-7-142. Wehrens, R. (2011). Chemomerics wih R. En R. Genleman, K. Hornik, & G. Parmigiani (Eds.). Spinger. Recuperado de file:///Users/marhazuluagarojas/Documens/ Mendeley/Wehrens - 2011 - Chemomerics wih R.pd. Xia, J., Broadhurs, D. I., Wilson, M., & Wishar, D. S. (2013). Translaional biomarker discovery in clinical meabolomics: an inroducory uorial. Meabolomics, 9(2), 280–299. DOI:htps://doi.org/htps://doi.org/10.1007/s11306-012-0482-9. Xia, J., & Wishar, D. S. (2011). Meabolomic daa processing, analysis, and inerpreaion using MeaboAnalys. Curren Proocols in Bioinormaics, 14. DOI:htps://doi.org/ htp://doi.org/10.1002/0471250953.bi1410s34. Zuluaga, M., Robledo, S., Osorio-zuluaga, G. A., Yahe, L., Gonzalez, D., & Taborda, G. (2016). Meabolomics and pesicides : sysemaic lieraure review using graph heory or analysis o reerences. NOVA, 13(25), 7–16. Zuluaga, M., Melchor, J. J., Tabares-Villa, F. A., Taborda, G., & Sepúlveda-Arias, J. C. (2016). Meabolie Profiling o Monior Organochlorine Pesicide Exposure in HepG2 Cell Culure. Chromaographia, 1–8. htps://doi.org/10.1007/s10337-016-3031-2 139

8. PROTEÓMICA ANDREA GONZÁLEZ MUÑOZ ANDRÉS QUINTERO DIANA LÓPEZ ALVAREZ

Las proeínas son unidades uncionales y esrucurales básicas de la vida, porque conribuyen en dierenes procesos biológicos y bioquímicos. Inervienen desde la diversidad y flexibilidad meabólica de los microorganismos (que los hace esenciales en el uncionamieno de los ecosisemas y de valor para la sociedad), hasa la variedad enoípica de los organismos y su capacidad de respuesa al ambiene (Garavio, González, Mosquera, López & Crisancho, 2017). Las proeínas con respeco a sus correspondienes genes y ranscrios ienen una mayor complejidad, ya que esán sujeas a modificaciones pos-ranscripcionales y posraduccionales (Zhang, Wu, Senoien & Paša-Tolić, 2014), haciendo que con relaiva recuencia no exisa una correlación direca enre el flujo de la inormación de ADN-ARN o de ARN-proeína (Wrigh, Noirel, Ow & Fazeli, 2012). Por lo ano, el proeoma, como se le conoce al complemeno proeico del genoma, iene mayor complejidad que el genoma o el ranscripoma (ese érmino ue usado por primera vez en 1994). El proeoma es considerado un elemeno alamene variable en unción del iempo y de las condiciones micro y macro ambienales (Garavio e al., 2017), debido a que esos acores modulan el perfil de expresión de proeínas en un sisema biológico (Chandrasekhar, Dileep, Lebonah & Kumari, 2014). La ciencia ómica que se encarga de esudiar el proeoma es conocida como la proeómica, aporando inormación complemenaria a la genómica y ranscripómica, dada su nauraleza de ómica uncional. Al usar la proeómica, se puede consruir un panorama inegrado de muchos procesos bioquímicos, ineracciones moleculares y acividades meabólicas que ocurren en una célula, ejido u organismo, logrando con ello esudiar el vínculo genoipoenoipo y la diversidad uncional de la biodiversidad (Garavio e al., 2017).

8.1. Diseño experimental La proeómica usa principalmene méodos de alo rendimieno ( high-hroughpu ), desde la aparición de la especromería de masas (MS), con el fin de idenificar, caracerizar y cuanificar proeínas a gran escala (Garavio e al., 2017). La proeómica se puede dividir en proeómica de expresión y en proeómica uncional. La primera se encarga de analizar el proeoma oal y sus medidas cuaniaivas (perfiles de expresión global de proeínas, comparar perfiles de expresión proeica), mienras que la segunda permie deerminar la unción y la regulación de su expresión, esudiar ineracciones proeína-proeína y complejos proeicos, e idenificar y localizar modificaciones pos-raduccionales. Los méodos en proeómica involucran procesos complejos de exracción y separación de proeínas de 140


acuerdo con sus propiedades fisicoquímicas, mediane elecrooresis o cromaograía, sumado a especromería de masas (MS) acoplado a análisis bioinormáicos para su idenificación y cuanificación (Garavio e al., 2017). Para la preparación de una muesra en proeómica, se emplean dos enoques denominados botom-up y op-down . Esos hacen reerencia, respecivamene, a si el exraco de proeínas es digerido enzimáicamene con ripsina, dando lugar a pépidos que serán analizados, o si las proeínas inacas son analizadas sin digesión (Garavio e al., 2017). El botom-up iene una similiud con la écnica de secuenciaciónshogun, con la finalidad de generar un perfil proeico global. Por su pare, el op-down esá orienado al esudio de modificaciones pos-raduccionales, la idenificación de ésas a parir de pépidos se ve limiada por una posible coberura incomplea de la proeína e incapacidad de predecir el parón combinaorio de múliples modificaciones en una misma proeína. Eso úlimo es relevane para las hisonas que presenan combinaciones específicas de aceilaciones, meilaciones y osorilaciones que regulan el uncionamieno de la cromaina (Garavio e al., 2017).

8.1.1. Extracción y separación de proteínas. Para llevar a cabo la exracción de proeínas a parir de muesras biológicas, se pueden emplear células, ejidos, sangre, suero, enre oros ejidos; además implica la homogenización de la muesra y su lisis celular para liberar las proeínas inracelulares. Se pueden emplear proocolos de disrupción celular por homogenización mecánica, ulrasónica, presión, emperaura y/o soluciones de deergenes, sales y agenes reducores. Seguido de la exracción y solubilización o precipiación de las proeínas, mediane agenes caorópicos y solvenes orgánicos como enol meanol/aceao de amonio, ácido ricloroacéico/ aceona, ácido acéico/urea/bromuro ceilrimeilamon-io (CTAB), enre oros (Marínez, Hernández, Amigo, Miralles & Gómez, 2013). Poseriormene, se hace una separación o pre-raccionamieno del exraco proeico con el fin de reducir la complejidad de la muesra y/o enriquecer proeínas de inerés o de baja abundancia (Alelaar, Muñoz & Heck, 2012). Debido a que una muesra biológica esá compuesa por una mezcla compleja de proeínas, es necesario llevar a cabo un proceso de separación o raccionamieno para que puedan ser analizadas por especromería de masas, permiiendo incremenar el número de proeínas idenificadas. Dicha separación se puede realizar mediane elecrooresis bidimensional en geles de poliacrilamida (conocida como 2D-PAGE o 2D SDS-PAGE), en la cual se separan las proeínas, con sus varianes y modificaciones, en una primera dimensión del gel de acuerdo con su puno isoelécrico y en una segunda dimensión según su peso molecular (Chandramouli & Qian, 2009). Adicionalmene, la segunda esraegia de separación de mayor precisión y más usada, es la cromaograía líquida de ala resolución (HPLC), que se basa en propiedades fisicoquímicas dierenciales enre las proeínas, de al manera que se

141

separan en dierenes racciones a ravés de su elución por la columna de cromaograía (Garavio e al., 2017). Enre los desaíos que implica ese paso se pueden enconrar, la complejidad de la muesra biológica, el amplio rango dinámico de concenración de sus proeínas y/o la nauraleza bioquímica de algunas proeínas, por ejemplo, el enoque op-down que presena mayores desaíos para las écnicas de separación, requiriéndose el uso de dierenes ormas de preraccionamieno.

8.1.2. Espectrometría de masas (MS) La especromería de masas mide con precisión el peso de una molécula y exacamene su relación masa/carga (m/z), haciendo que en los úlimos años se haya logrado una velocidad de generación de daos de cinco a diez veces, una sensibilidad de diez a 50 veces en la deección, y una ala resolución imporane para lograr dierenciar enre una gran canidad de pépidos (Parker, Warren & Mocanu, 2010), permiiendo la caracerización de 5000 a 10000 proeínas de un proeoma (Banscheff, Lemeer, Saviski & Kuser, 2012). Los especrómeros de masas son insrumenos compuesos por una uene de ionización, un analizador y un deecor de iones, que miden la masa de moléculas cargadas para la poserior idenificación de ésas, sus modificaciones químicas y esrucura (Garavio e al., 2017). En la acualidad exisen en el mercado dierenes ipos de especrómeros de masas que incluyen el cuadrupolo, la rampa de iones (2D y 3D) y el iempo de vuelo ( Time o Fligh o TOF). Una de las esraegias para la idenificación de proeínas mediane la especromería de masas, es la llamada especromería de masas en ándem (MS/MS), que consise en dos corridas en ándem de MS, con el fin de generar una primera deerminación de la masa molecular del pépido o proeína, seguido de una deerminación de la secuencia de aminoácidos que lo componen (Cravat, Simon & Yaes, 2007). En la primera corrida de MS, las proeínas o pépidos se cargan (ionizan) por medio de la uene y se ransfieren a una ase gaseosa. Poseriormene, el analizador separa los pépidos o proeínas cargadas, de acuerdo con su rayecoria en un campo elécrico o magnéico, o por su TOF (ambos basados en su relación m/z ), luego se deeca, amplifica la señal y genera un especro de masas (Parker, Warren & Mocanu, 2010; Walher & Mann, 2010). La segunda corrida involucra, por su pare, la ragmenación del pépido o proeína a ravés de una celda de colisión con gases neuros, generando sus respecivos aminoácidos cargados, que son analizados de acuerdo con su relación m/z , pasan por el deecor y se genera el especro de masas de los residuos aminoácidos (Cravat e al., 2007; Garavio e al., 2017). Las principales écnicas de ionización usadas acualmene son:

142


I. Ionización por elecrospray (ESI), desarrollada por John Fenn. II.Desorción/ionización láser asisida por mariz ( Marix-Assised Laser Desorpion/ Ionizaion o MALDI), desarrollada por Koichi Tanaka. Ambos desarrolladores recibieron el premio Nobel de Química en 2002 por esas écnicas (Garavio e al., 2017). A menudo se uilizan las dos écnicas de ionización, debido a que no odos los pépidos presenan la misma eficiencia de ionización, la cual puede depender de la écnica empleada (Garavio e al., 2017). En consecuencia, para realizar MS/MS de mezclas que sean poco complejas se pueden emplear especrómeros de masas ipo MALDI-TOF-TOF. Respeco a la cuanificación basada en especromería de masas, con el fin de deerminar la canidad de proeínas presenes en la muesra analizada, exisen dierenes méodos como: el Isoope-Coded Affiniy Tags (ICAT);Isobaric ags or relaive and absolue quaniaion (iTRAQ); Sable isoope labeling wih aminoacid in cell culure (SILAC), y finalmene, la de libre marcaje o label ree , que esá siendo basane uilizada en la acualidad, debido a que no emplea ningún marcaje minimizando el número de pasos en la preparación de la muesra.

8.1.3. Análisis bioinformáticos Enre los dierenes análisis bioinormáicos algunos son similares a los usados en meabolómica, dado que emplean la ecnología de especromería de masas. Para la cuanificación de las proeínas se lleva a cabo un paso de normalización de cada muesra. Seguidamene, para el preprocesamieno de daos de proeómica, se pueden emplear varios programas, el más usado es Proeowizard , que consise en un conjuno de librerías y herramienas modulares de código abiero y acilia el análisis de daos. Las librerías permien una creación rápida de herramienas mediane un marco que simplifica y unifica el acceso de archivos de daos y ejecua compuaciones básicas en un se de daos químicos y LC-MS. Enre los pasos a realizar, en muchas ocasiones se encuenra el de converir los daos crudos (.raw) a archivos mzXML. Ese paso se realiza con la herramiena MSconver en ambiene gráfico.

Identificación de péptidos Para la idenificación de pépidos, podemos usar la herramiena SearchGUI, una ineraz para configurar y correr algorimos de búsqueda de pépidos, ales como: OMSSA, X!TANDEM, MSGF, enre oros. La idenificación de los pépidos corresponde a cada ragmeno analizado por LC-MS, y es necesario uilizar dierenes algorimos de búsqueda conra una base de daos de secuencias de proeínas del organismo de inerés. El programa SearchGUI incorpora los algorimos de búsqueda más imporanes hasa la echa. El primer paso conduce a la creación de una base de daos señuelo, donde se oma la base de daos de secuencias de proeínas del organismo de inerés, en ormao asa y se hace un reverso de cada una de esas. Una vez se obienen las secuencias señuelo concaenadas con las secuencias originales, se realiza la búsqueda con SearchGUI. El archivo de salida 143

de SearchGUI es un .zip, en el que se encuenran odos los resulados de la búsqueda de cada uno de los algorimos de búsqueda. Así mismo, se usa oro programa llamado PepideShaker, el cual consise en un moor de búsqueda independiene de plaaorma, para la inerpreación de daos de idenificación de resulados proeómicos. Para obener resulados consenso de odas las búsquedas realizadas, se uiliza, por ende, PepideShaker , el cual evalúa odos los modelos enconrados por los algorimos de búsqueda y los concaena en un solo archivo de exensión .cpsx. Luego, se vuelve a uilizar PepideShaker para crear un archivo de anoación de pépidos mz iden (.mzid), el cual coniene las anoaciones para cada uno de los especros que esán en el archivo mg.

Cuantificación de proteínas Una vez se obiene la idenificación de cada uno de los especros, es necesario cuanificar el valor de expresión de las proeínas a las cuales les ueron idenificados pépidos. Eso se realiza sobre el ambiene de programación y esadísico R, que usa el paquee MSnbase y el paquee MzID para leer los daos crudos y el archivo de idenificación; a parir de eso se hace la cuanificación de odas las proeínas idenificadas. Una vez se iene la abla de expresión, es necesario normalizar los daos usando el paquee Vsn y, poseriormene, el análisis mulivariable se realiza con el paquee PcaMehods. Algunas especificaciones de los paquees uilizados se presenan a coninuación:

MSnbase Un paquee de R/Bioconducor, para el análisis de experimenos de proeómica cuaniaiva. MSnbase provee una plaaorma para un análisis de daos exploraorio, permiiendo imporación de daos crudos, conrol de calidad, visualización y cuanificación.

Vsn Un paquee de R/Bioconducor, que implemena un méodo para normalizar daos de inensidades. El méodo usa una variane robusa del esimador de máxima verosimiliud. El modelo incorpora calibración de daos.

MzID Un paquee de R/Bioconducor para leer archivos mzIden.

PcaMethods Un paquee de R/Bioconducor para análisis de PCA bayesiano, PCA probabilísico y PCA Nipals. 144


8.2. Referencias Alelaar, A. F. M., Munoz, J., & Heck, A. J. R. (2012). Nex-generaion proeomics: owards an inegraive view o proeome dynamics. Naure Reviews Geneics, 14 (1), 35– 48. DOI:htps://doi.org/10.1038/nrg3356. Banscheff, M., Lemeer, S., Saviski, M. M., & Kuser, B. (2012). Quaniaive mass specromery in proeomics: Criical review updae rom 2007 o he presen. Analyical and Bioanalyical Chemisry, 404 (4), 939– 965. DOI:htps://doi. org/10.1007/s00216-012-6203-4. Chandramouli, K., & Qian, P.-Y. (2009). Proeomics: challenges, echniques and possibiliies o overcome biological sample complexiy. Human Genomics and Proeomics, 22 . DOI: htps://doi.org/10.4061/2009/239204. Chandrasekhar, K., Dileep, A., Lebonah, D. E., & Kumari, J. P. (2014). A Shor Review on Proeomics and is Applicaions. Inernaional Journal o Research in Engineering and Technology, 3, 147– 158. DOI: htps://doi.org/10.18052/www.scipress.com/ ILNS.17.77. Cravat, B. F., Simon, G. M., & Yaes, J. R. (2007). The biological impac o massspecromery-based proeomics. Naure, 450(7172), 991– 1000. DOI: htps://doi. org/10.1038/naure06525. Garavio, A., González-Muñoz, A., Mosquera-Rendón, J., Caalina, A., López, D., & Crisancho, M. A. (2017). Lain American biodiversiy and perspecives o sudy i using omics echnologies Biodiversidad lainoamericana y sus perspecivas de esudio con ecnologías “ ómicas .” Mexican Journal o Bioechnology, 2 (2), 98–129. Marínez, D., Hernández, B., Amigo, L., Miralles, B., & Gómez, J. Á. (2013). Exracion/ Fracionaion Techniques or Proeins and Pepides and Proein Digesion. En F. Toldrá y L. M. L. Nolle (Eds.), Proeomics in Foods: Principles and Applicaions (pp. 21– 50). Boson, MA: Springer US. DOI: htps://doi.org/10.1007/978-1-4614-56261_2. Parker, C. E., Warren, M. R., & Mocanu, V. (2010). Chaper 5 Mass Specromery or Proeomics. En O. Alzae (Ed.), Neuroproeomics (p. 26). Boca Raon: CRC Press/ Taylor & Francis. Recuperado de htp://www.ncbi.nlm.nih.gov/pubmed/21882443. Walher, T. C., & Mann, M. (2010). Mass specromery-based proeomics in cell biology. Journal o Cell Biology, 190 (4), 491–500. DOI:htps://doi.org/10.1083/ jcb.201004052. Wrigh, P. C., Noirel, J., Ow, S. Y., & Fazeli, A. (2012). A review o curren proeomics echnologies wih a survey on heir widespread use in reproducive biology invesigaions. Theriogenology, 77 (4), 738– 765. DOI: htps://doi.org/10.1016/j. heriogenology.2011.11.012. Zhang, Z., Wu, S., Senoien, D. L., & Paša-Tolić, L. (2014). High-Throughpu Proeomics. Annual Review o Analyical Chemisry, 7 (1), 427– 454. DOI:htps://doi.org/10.1146/ annurev-anchem-071213-020216.

145

Una-aproximación-conceptual-a-las-Ciencias-Omicas.pdf

Recommend Documents