ESTRUCTURA MOLECULAR DEL GEN EUCARIOTA Actualizada por Gabriela Pacheco, 2011.
Como se verá luego en esta guía, (Organización de la Información Genética), el genoma de los organismos eucariotas se organiza en unidades denominadas cromosomas, que consisten cada una de ellas en una única molécula de ADN de doble cadena. Es importante recordar que químicamente el ADN es un ácido nucleico, que consiste en un polímero lineal (no ramificado) de unidades conocidas como nucléotidos (monómero). En todos los organismos celulares (incluso en algunos virus) el polímero forma una estructura de doble cadena o doble hélice. Cada cadena tiene una polaridad definida (Ver Figura 1); por convención las secuencias de ADN (simple cadena) se escriben siempre en sentido 5´→3´. Esto significa que una cadena simple de ADN comienza con un nucleótido en el que el grupo fosfato del C 5´ de la unidad de ribosa se encuentra libre. ¿Donde se localiza el ADN en una célula eucariótica?. ¿Y en una rocariótica?
La doble cadena de ADN que compone un cromosoma tiene una gran longitud que puede expresarse en número de nucleótidos. Por ejemplo, el tamaño del cromosoma 22 del humano medido en número de nucleótidos es 48 x 10 6 (48 Figura 1. La forma en que los nucleótidos se millones). Si consideramos el largo total alinean confiere al ADN una polaridad química. del genoma haploide del humano, es decir Puede pensarse como un bloque con un extremo que tiene una llave (el fosfato 5´) y el otro extremo el largo de sus 23 cromosomas, el número con un cerradura cerradura (el hidroxilo 3´). 3´). Así cada cadena de nucleótidos asciende a 3,2 x 10 9. completa tendrá todas sus subunidades alineadas en Arabidopsis thaliana una especie vegetal la misma orientación. Además los dos extremos de modelo de estudio, posee un genoma de la cadena serán fácilmente distinguibles, uno tendrá aproximadamente aproximadamente 1,35 x 10 10 8 nucleótidos, una llave (5´) y el otro una cerradura (3´). Esta polaridad en el ADN se indica refiriéndose a un valor obtenido sumando el largo de sus 5 extremo como 5´ y al otro como 3´. cromosomas. El cromosoma 1 de esta especie, el cual es el más largo de todos, 7 posee aproximadamente aproximadamente 3,4 x 10 nucleótidos. Estas largas secuencias de nucleótidos contienen la información hereditaria completa para el organismo que la porta. Funcionalmente las secuencias que componen el genoma pueden ser divididas en genes Figura 2. Núcleo Nú úcleo de la c cé élula con su élula Siguiendo con los ejemplos dotació ón de cromosomas dotación anteriores podemos mencionar que el tamaño promedio de un ADN gen de Arabidopsis thaliana es de 2 x 103 nucleótidos y en humanos es de 10 4- 1,5x104 nucleótidos. Por lo tanto se desprende fácilmente que cada molécula discreta de ADN Detalle de un cromosoma Segmento de ADN que (cromosoma) podrá contener constituye un gen una gran cantidad de genes. Los genomas completos de Figura 2. Detalle de una porción de ADN del genoma que diferentes organismos pueden constituye un gen.
16
tener tan pocos como <500 genes (algunas bacterias), hasta tantos como >40.000 como el humano. Si bien las secuencias de ADN que conforman el genoma de un individuo se dividen en genes, una porción importante de este ADN representa secuencias no codificantes (no rinden proteínas). Esta organización de las secuencias del ADN se estudiará en detalle en la Unidad 5 de esta Guía. En un gran número de procesos, un gen constituye una secuencia de ácido nucleico que codifica para una proteína, así, el producto final de la acción de los genes son polipéptidos los cuales se sintetizan usando ARN (ácido ribonucleico) como molécula intermediaria. El proceso que tiene lugar en el núcleo, a través del cual se produce ARN a partir de ADN se denomina transcripción y el proceso por el cual se produce un polipéptido a partir de ARN mensajero (ARNm) se llama traducción, y tiene lugar en el citoplasma de la célula (ver Figura 3). Considerando su función, podemos entonces definir al gen, a escala molecular, como un fragmento Figura 3. Representación de una célula eucariota donde se de ADN que codifica para un observan los distintos ARN y sus funciones. polipéptido. Si bien la mayoría de los genes que se estudian en nuestro curso corresponden a esta definición, debe considerarse que hay otros tipos de genes cuyos productos finales son ARNs que forman parte de la maquinaria de síntesis proteica de la célula. Un caso común es de los genes que codifican para ARNs ribosomales (ARNr) y ARNs de transferencia (ARNt). La estructura y función de los genes mencionados en último término es diferente de aquella correspondiente a genes que codifican para polipéptidos, a los que nos referiremos a continuación. En todos los casos los genes se localizan en una ubicación particular del cromosoma (locus). La definición simplista de gen: “una secuencia de ADN codificante para una proteína” fue vigente entre mediados de los ‘50 y los ‘80. Entre las épocas de Mendel y Watson y Crick no se conocía cómo era el mecanismo mediante el cual el ADN podía codificar una proteína. Desde el descubrimiento de los intrones se quebró la idea de gen como unidad y con continuidad transcripcional. Podemos entonces definir al gen de la siguiente manera: Definición funcional de gen:
Unidades hereditarias que se transmiten en un individuo de una generación a otra en forma uniforme y predecible, y que contienen información decodificable sobre estructuras y funciones del organismo. Definición detallada de gen (combinación de estructura y función): Unidad de información la cual está físicamente constituida por un ácido nucleico (ADN) que puede 1
estar interrumpido por secuencias (los intrones) y que es codificante para una “unidad” de función (polipéptido, ARN ribosomal o ARN de transferencia). Son las propiedades del gen: Capacidad de almacenamiento y reproducción fidedigna de la información, así como su decodificación. Capacidad de variar, es decir, pueden mutar y recombinar. Dinámica poblacional dentro del contexto de especies biológicas, lo que significa que manifiestan un comportamiento frente a la selección natural o artificial. ¿Cuáles son las propiedades del material que porta la información genética?
En los genes que llevan instrucciones para codificar proteínas pueden describirse: Una región estructural Las regiones regulatorias La Figura 5 esquematiza la estructura molecular de un gen eucariota, detallando las secuencias de importancia.
ADN
Región regulatoria
Región estructural
5´
3´ 5´
3´ Región regulatoria
Otra secuencia regulatoria fuera de la secuencia del gen
Región estructural
Otra secuencia regulatoria fuera de la secuencia del gen
Sitio de inicio de la trascripción (nucleotido+1)
Región estructural
Promotor 5´UTR
Región codificante
Región estructural:
3´UTR
intron intron exon exonde bases ATA la secuencia Esta zonaCGcontiene queexon se traducirá luego en la secuencia de aminoácidos de una proteína ( región codificante). Además, hacia el extremo 5’ se
Sitio de inicio de la trascripción (nucleotido+1) Primeras tres bases (ATG) que codificarán para el codón de iniciación
Ultimas tres bases GA ó TAA ó TAG que codificarán para uno de los 3 posibles codones de terminación o STOP.
1
Región estructural
Esta zona contiene la secuencia de bases que se traducirá luego en la secuencia de aminoácidos de una proteína ( región codificante). Además hacia el extremo 5´ se encuentra la una zona denominada 5´ÚTR, por 5´ untraslated region, es decir 5´ no traducida. Si bien esta secuencia es parte de la región estructural, no esta incluida en la región codificante ya que no será parte de la proteína. Sin embrago, es importante porque será parte del transcripto maduro. Hacia el extremo 3´ se encuentra el 3´ UTR por 3´ untranslated region, es decir, región 3´ no traducida. Tampoco esta secuencia codifica Región regulatoria
Corriente arriba (+)
Región estructural
Corriente abajo (+)
Sitio de inicio de la trascripción (nucleótido+1)
Ubicación de zonas génicas a partir del sitio de inicio de la transcripción (Nucleotido +1). Figura 6.
para aminoácidos, pero contiene zonas de gran importancia. Una de ellas es la señal de corte y poliadenilación. Esto significa que esta secuencia será la que define la terminación de la transcripto y determinará el sitio donde se adicionará en el extremo 3’ del transcripto la cola de poli-A. En mamíferos la señal de poliadenilación es una secuencia conocida: AATAAA, encontrándose entre 10 y 30 bases corriente arriba (Figura 6) del sitio de poliadenilación. Sin embargo en vegetales superiores no existe un consenso acerca de esta secuencia y se han propuesto diferentes secuencias como posibles (algunas de ellas AATAAA, CAYTG, YGTGTTYY y YAYTG) (Y= C o T). Esto indica que aún siendo el procesamiento del extremo 3’ del mensajero una característica eucariótica universal, no opera de la misma manera en diferentes eucariotas. La región codificante
Antes de que fuera posible caracterizar a los genes eucarióticos, se creía que estos tenían la misma estructura que los genes procarióticos. Hoy en día se conocen bien las discrepancias entre la estructura del ADN y la de su correspondiente ARN mensajero. El ARN mensajero siempre incluye una secuencia nucleotídica que se corresponde exactamente con la proteína que De lo que se conoce como región estructural, codifica de acuerdo a las reglas del ¿exactamente cuáles secuencias del ADN se código genético. Pero los genes (el traducen a proteína? ADN) eucarióticos incluyen secuencias adicionales que se encuentran dentro de la región codificante, interrumpiendo la secuencia que representa la proteína. La secuencia codificante contiene a los exones son las secuencias Además de polipéptidos, ¿existe otro tipo de molécula que pueda codificar un gen,?. reprensentadas en el ARN maduro y que codificarán para los aminoácidos. Por definición un gen empieza y termina con exones. El inicio de la región codificante tiene la secuencia ATG (codón de iniciación de la traducción) la cual dará el aminoácido metionina, primer aminoácido de la proteína. El ultimo triplete de nucleótidos de la región codificante puede ser uno de los tres siguientes: TGA, TAA o TAG. Este
1
triplete es el codón STOP o codón de finalización, el cual determina el fin de la traducción. Este codón no se traduce a aminoácido. Además de las secuencias de los exones se encuentran los intrones, que son las secuencias intervinientes entre exones, y que como se dijo arriba, interrumpen la secuencia que codifica la proteína. Los intrones son removidos cuando el transcripto primario es procesado para generar el ARN maduro (a través del proceso de corte y empalme o splicing ). Regiones regulatorias Estas secuencias son sumamente importantes ya que
controlan a qué nivel, cuándo y en
cuáles células será producida la proteína. Existen distintas secuencias regulatorias parea un determinado gen. Entre ellas la región regulatoria más importante es el PROMOTOR del gen, el cual posee secuencias que son consideradas como “sitios de unión al ADN”, es decir, secuencias que permiten que las proteínas que actúan en la transcripción (factores de transcripción), interaccionen con el ADN. En los eucariotas muchos de los promotores conocidos, aunque no todos, poseen una secuencia llamada TATA box (caja TATA), la cual constituye el núcleo del promotor y es el sitio donde se une la ARN polimerasa II (ARN pol II) antes de iniciar ¿Es cierto que los elementos que la transcripción. Esta zona, como su nombre regulan la expresión de un gen, desde el punto de vista químico, lo indica, posee la secuencia consenso 5’están constituidos exclusivamente TATAAA-3’ y está ubicada alrededor de 25 por ADN? pb corriente arriba (-25) del punto de iniciación de transcripción (+1), determinando el sitio de inicio de la transcripción. No es la única secuencia que señaliza el inicio de la transcripción en la mayoría de los promotores donde actúa la ARN pol II, pero si la más importante. Casi siempre está localizada en ese lugar y usualmente está rodeada por secuencias GC. Hay otras dos secuencias corriente arriba del punto de iniciación, que también afectan la expresión génica y están presentes en muchos promotores eucarióticos. Éstas son la CAAT box y la GC box (las cuales constituyen secuencias proximales del promotor ). La caja CAAT recibe ese nombre por su secuencia de consenso (GGCCAATCT) y está a menudo localizada a unas 80 pb corriente arriba del punto de iniciación de la transcripción. Como ocurre con la TATA box , los cambios mutacionales en la CAAT box afectan la actividad génica corriente abajo o la transcripción del ARN. La GC box posee la secuencia de consenso GGGCGG y, con frecuencia, está repetida. Estas cajas presentes en la región promotora constituyen los elementos estructurales de regulación que actúan en CIS , esto es, todas las secuencias presentes en la mólecula de ADN misma, que serán reconocidas por la maquinaria transcripcional para la expresión de un gen dado. Sin embargo, la expresión de un gen no solamente depende de estos factores en CIS , sino también de la participación de un grupo de proteínas conocidas como factores de transcripción. Estos factores ¿Considera que TATA box es proteicos de transcripción (químicamente son inónimo de promotor? proteínas, codificadas a su vez por otro gen del genoma del mismo organismo) asisten a la enzima ARN polimerasa a posicionarse en el promotor, a abrir la doble hebra de ADN ayudando a que la transcripción se inicie, y finalmente colaboran en la liberación de la enzima una vez que la transcripción ha finalizado. Una vez que la ARN polimerasa comienza a elongar la cadena de ARN, los factores de transcripción se liberan del ADN y se vuelven disponibles para iniciar otra ronda de transcripción. De estos factores que trabajan sobre la cadena de ADN pero no pertenecen a ella se dice que actúan en TRANS .
2
Debe considerarse, sin embargo, que existen muchas variaciones a este esquema general en diferentes genes; por ejemplo, algunos promotores no tiene TATA box (llamados por ellos TATA-less) también algunos carecen de las CAAT o GC boxes mientras que otras tienen múltiples copias de ellas. Otras regiones regulatorias pueden modificar la expresión de un gen aún estando situadas muy lejos (en número de ¿Por qué resulta necesaria la existencia de nucleótidos) de la secuencia del elementos regulatorios de la transcripción? mismo. Éstas son los enhancers (aumentadores) y los silencers (silenciadores) las cuales son también parte del ADN del mismo individuo (en la Figura 5 estarían como ejemplo posicionalmente representadas por “Otra secuencia regulatoria fuera de la secuencia de gen”). Como su nombre lo indica, los primeros aumentan el nivel de transcripción del gen mientras que los segundos lo disminuyen hasta incluso lograr silenciarlo por completo. En la próxima unidad podrá observarse la disposición espacial que toma el ADN durante la transcripción, mostrando como interactúan a través de intermediarios, la secuencia del gen que se está transcribiendo con las secuencias de silencers y de enhancers. ¿Cuáles son las secuencias funcionales principales que definen la estructura de un gen eucariótico?
Bibliografía
Libros recomendados (existen versiones resumidas de ediciones previas a las más modernas) pueden consultarse gratuitamente en: http://www.ncbi.nlm.nih.gov/sites/entrez?db=books): Introduction to Genetic Analysis. Griffiths et al. Molecular Biology of the Cell. Alberts et al.
21