APUNTES DE PSICOLOGIA DE LA ATENCION 1/3 Manuel J. Blanco, Universidad de Santiago de Compostela
1. ATENCION SELECTIVA
1. Definición 2. Función de la atención 3. Origen del estudio científico de la atención 4. Control visual: atención pasiva vs. activa 4.1. Reflejo de orientación (*) 4.2. Observación libre. Estudio de la saliencia visual 4.3. Búsqueda visual 4.4. Conclusiones sobre la captura atencional: Captura atencional y ceguera por inatención 5. Atención y movimientos oculares: atención abierta y encubierta 5.1. Tarea de preseñalización (*) 5.2. Teoría premotora 6. Anatomía de la atención - Teoría de las redes atencionales de Posner - Red neuronal por defecto 7. Atención selectiva vs. dividida
(*) Temas tratados en la asignatura de neurociencia cognitiva.
1
1. Definición de atención. "Todos sabemos qué es la atención. Que la mente tome posesión, de una forma vívida y clara, de uno de lo que parecen ser varios objetos o líneas de pensamiento simultáneamente posibles… (La atención) implica dejar de lado algunas cosas para poder tratar otras de forma más eficaz" (William James, 1890, pp. 403-404).
2. Función de la atención. La función de la atención es manejar una limitación natural del cerebro, que es que la cantidad de información que le llega del mundo exterior a través de los nervios sensoriales y la que tiene almacenada en su memoria, “excede mucho la información que es capaz de procesar y asimilar en una experiencia consciente” (Koch, 2004). En psicología es muy usual utilizar metáforas para referirnos a la atención. Una de estas metáforas es la del “cuello de bottella” (otra sería : recursos, energía, Hay una especie de “cuello de botella” (Broadbent, 1958) o “embudo” en el procesamiento sensorial antes de que tomemos consciencia de la información que nos llega. La figura de abajo representa uno de los modelos psicológicos de atención que incorpora esta
2
idea. Es el modelo de “filtro selectivo” de Broadbent (1958).
La consciencia humana posee dos limitaciones fundamentales, las cuales constituyen el objeto de estudio de la psicología de la atención.
a) Selectividad. En primer lugar, la consciencia es selectiva, en el sentido de que no podemos ser conscientes de toda la información al mismo tiempo, sólo de una parte. Así, no podemos recordar de golpe todas nuestras experiencias pasadas, sólo de una en una, y tampoco podemos ser conscientes de todos los estímulos simultáneos que en un momento dado llegan a nuestros órganos sensoriales. Uno de los ejemplos de selectividad más citados en los manuales de psicología es el llamado “efecto cocktail-party”. Es un fenómeno que se produce cuando escuchamos una conversación en medio de otras de fondo. El aspecto selectivo de la consciencia se manifiesta ahí en el hecho de que atender a una conversación impide seguir las otras. Como decía William James en la famosa cita que aparece al principio: atender “implica dejar de lado algunas cosas para poder tratar otras de forma más
3
eficaz”. Si atiendo a lo que me dice una persona no puedo ser consciente de lo que me dice otra que habla al mismo tiempo.
Esta característica de la consciencia, la selectividad, la podemos experimentar también de una forma sencilla observando figuras ambiguas. Se trata de figuras que pueden verse fácilmente de diferentes formas (ver tema 2 de atención). Las conocidas imágenes de “la joven y la vieja”, el “pato o conejo” o el “vaso y las caras” son ejemplos clásicos. La figura de la silueta (Spinning silhouette optical illusion), obra de Nobuyuki Kayahara, es de las más populares actualmente en Internet (figura 1.1). Es una obra animada en la que vemos la silueta de una mujer girando en el sentido de las agujas del reloj o en el sentido contrario. El efecto es sorprendente. Requiere cierto esfuerzo ver las dos formas de movimiento, sobre todo la primera vez que vemos la imagen. Para lograrlo, debemos concentrarnos en cambiar “mentalmente” de sentido. Llega un momento que incluso puedes cambiar tu percepción del movimiento a voluntad. Lo que no lograrás -y este es el punto importante a destacar aquí- es ver las dos opciones al mismo tiempo. El problema de la selectividad lleva a una pregunta básica: ¿cómo el cerebro selecciona una de las opciones e ignora la otra?.
Figura 1.1. Silueta con movimiento ambiguo. Obra de Nobuyuki Kayahara.
b) Temporalidad. La consciencia es dinámica, esto es, cambiante. Nuestra experiencia subjetiva es un continuo flujo de pensamientos y sensaciones, una "corriente" de pensamiento, como William James la definió. No tiene principio ni fin. La consciencia, desde que comienza cuando nos despertamos hasta que finaliza cuando nos dormimos (o entramos, por causas diversas, en un estado de coma) cambia permanentemente. Esto significa que no podemos mantener nuestra atención sobre un mismo objeto durante un
4
tiempo largo. La consciencia es cambiante por naturaleza. Además, el pensamiento consciente no es una serie de imágenes o habla interna perfectamente estructurada y gramaticalmente perfecta. Es algo aparentemente más caótico, muy difícil de representar. No obstante, a pesar de esta temporalidad y caos, está claro que somos capaces de mantener en el tiempo planes de acción orientados a la consecución de metas, priorizando la información relevante y desechando la irrelevante, adaptándonos, en definitiva, a las demandas de nuestro entorno. Este tiempo puede ir desde unos pocos segundos, como cuando atendemos a la luz de un semáforo, a varias horas, como cuando permanecemos concentrados en el trabajo, conduciendo, o mirando la televisión. ¿Cómo es posible esto, dada la temporalidad de la consciencia?. Este es el problema de la “atención sostenida”. La explicación más aceptada hoy en psicología es que el cerebro logra esto combinando procesos conscientes e inconscientes. Desde este punto de vista, el objetivo último de la psicología de la atención sería estudiar el tipo de problemas que el cerebro puede procesar y resolver de manera consciente. En cierto modo, de lo que se trata es de estudiar los límites de la consciencia humana para así comprender para qué sirve ésta, cuál es su función.
Globos de pensamiento en cómics. El pensamiento consciente no se parece en nada a esos "globos de pensamiento" que utilizan los dibujantes de cómic para transmitir información al lector sobre los pensamientos y sentimientos de los personajes. Izquierda: globo poco realista, al estilo “clásico”(de Ernie Bache y Harry Harrison de 1951), tomado del blog de Gerardo Vilches (The watcher and the tower); centro: otra versión similar pero sin globos, los pensamientos “flotan” libres (de Tsugumi Ohba y Takeshi Obata); derecha; globo de pensamiento quizás más "realista" en una viñeta de Saul Steinberg (1969) que descubrí en una conferencia Ted de Daniel Dennett).
5
3. Origen del estudio científico de la atención. El estudio científico de la atención se inicia en la segunda mitad del siglo XIX. Coincide, pues, con el nacimiento de la psicología experimental. Edward B. Titchener, el discípulo de Wilheim Wundt, que pasa por ser el fundador de la psicología experimental, declaraba a finales de ese siglo: “El problema de la atención es, esencialmente, un problema moderno”. Decía esto porque, hasta entonces, nadie había reflexionado sobre la atención como proceso psicológico básico central para el correcto funcionamiento del cerebro. La importancia que se le había dado al tema, cuando había sido objeto de reflexión filosófica o moral, se limitaba a cuestiones de educación o pedagogía. Se reflexionaba sobre la atención en tanto virtud (el “tener capacidad de atención” era, y es, parte importante del perfil de una persona educada) y se debatía sobre cuáles debían ser los métodos mejores para educarla. En la segunda mitad del siglo XIX aparece la psicología experimental y con ella el interés científico por los procesos psicológicos. La referencia bibliográfica de la época más importante es indudablemente el capítulo XI de los Principios de psicología (1890) de William James titulado “Atención”. Algunos de los temas que se trataban en él eran: número de objetos a los que podemos atender simultáneamente, atención a varias tareas simultáneas (atención dividida), atención pasiva vs. voluntaria y límites de la atención sostenida. En síntesis, estos siguen siendo los temas centrales de los que trata actualmente la psicología de la atención.
¿Qué motivó en esa época el interés científico por este tipo de problemas?. Podemos señalar tres razones posibles.
1) La atención ha sido consustancial a la psicología experimental (Crary, 2000). Los sujetos que participaban en los primeros experimentos psicológicos de finales del XIX era personas capaces de atender a las instrucciones del experimentador y rendir al máximo nivel en las pruebas psicológicas. En la época a la que nos estamos refiriendo (segunda mitad del siglo XIX), la
6
mayoría de áreas de experimentación psicológica (psicofísica, tiempo de reacción, condicionamiento, memoria, inteligencia, etc.), y, en especial, la psicología de la percepción, presuponían un observador atento, no distraído. El sujeto experimental debía tener capacidad para “prestar atención” y “desconectarse” de parte de su entorno sensorial con el fin de responder mejor (más rápido y de manera más fiable) a un reducido número de estímulos. Desde entonces, la situación no ha cambiado en psicología en lo que respecta al tipo de observador que se investiga. En buena medida, el control experimental tiene que ver con la psicología de la atención, ya que consiste precisamente en mantener constantes o eliminar los estímulos que pueden distraer al sujeto de la tarea conductual que se investiga, por ejemplo, utilizando habitaciones con poca iluminación e insonorizadas.
2) Otra razón tiene que ver con la importancia que los biólogos en esa época empezaban a conceder a la atención como proceso esencial de la biología humana; se hizo evidente, sobre todo a raíz de la publicación de “El origen de las especies” de Charles Darwin, en 1859, que un animal es capaz de ignorar los estímulos irrelevantes mientras concentra su esfuerzo exclusivamente en los relevantes (alimentación, sexo, presas o predadores, etc). Es en esta época que Ivan Sechenov publica su libro Reflexes of brain (1863), en el que aparece descrito por primera vez el reflejo de orientación (ver más adelante).
3) Finalmente, hay también una dimensión social y cultural en el origen de la psicología de la atención a finales del XIX. Max Nordau, en Degeneration (1892), una obra en la que el escritor hablaba de las tendencias culturales de finales de siglo, hacía la siguiente reflexión sobre la sociedad occidental que veríamos durante el siglo XX: “El final del siglo veinte albergará a una generación a la que no le molestará leer una docena de metros cuadrados de periódicos, que le llamen por teléfono constantemente, pensar en los cinco continentes del planeta de forma simultánea, pasar la mitad de sus vidas en vagones de trenes o máquinas de volar [...] y que sabrá como encontrar la
7
tranquilidad en medio de una ciudad poblada por millones de personas” (Degeneration, 1892). Había conciencia, pues, de los cambios sociales importantes que se avecinaban y que iban a afectar de manera importante a nuestro modo de vivir. Algunos de estos cambios suponían introducir formas nuevas de trabajo productivo (trabajos en cadenas de producción, maquinistas, etc) que, en muchos casos, apenas dejaban margen para errores de atención. Por esta razón, y con objeto de reducir el número de accidentes laborales, en la segunda mitad del siglo XIX comienza el estudio sistemático de la naturaleza y causas de los errores (atencionales) en el trabajo. Uno de los pioneros fue Frederick W. Taylor (1856-1915), quien introdujo el estudio de tiempos para analizar los métodos de trabajo con el fin de, entre otras cosas, determinar el tiempo necesario para que una persona cualificada realice la tarea encomendada con el máximo rendimiento. La idea es que conociendo el tiempo tipo se puede posteriormente planificar y programar con más eficiencia el trabajo y controlar mejor los costes de la mano de obra o la propia producción. El desarrollo industrial y tecnológico en esa época no sólo va a modificar de manera importante las formas de trabajo. También propicia el surgimiento de una industria del ocio y entretenimiento y, con ella, una nueva forma de observar la realidad, consistente básicamente en la mera contemplación de imágenes en movimiento y/o profundidad. Esta forma de observación y las ilusiones ópticas que se experimentan (p.e. ver en 3D) se convertirían en objeto de reflexión entre psicólogos y filósofos (ver Crary, 1992, 2000). Esto no ocurrió de repente, sino gradualmente. Primero, los estudios experimentales sobre las post-imágenes, realizados en las primeras décadas del siglo XIX, habían contríbuido a la invención de técnicas y dispositivos ópticos que pronto se popularizarían y utilizarían como juegos ópticos; es la época del taumátropo (un disco de cartón con dibujos en su anverso y reverso que al hacerlo girar rápidamente provoca la ilusión de percepción simultánea; por ejemplo, un pájaro en un lado y una jaula en otro se ven como un pájaro en una jaula), el zoótropo (un tambor con una secuencia de dibujos en su parte interior y
8
agujeros por donde observar; cuando se gira percibimos los dibujos en movimiento), el praxinoscopio (un desarrollo del anterior) y el estereoscopio (juego de espejos que permite ver dos imágenes ligeramente diferentes, una con el ojo izquierdo y otra con el derecho; se consigue de este modo crear una ilusión de profundidad). Se trata en todos los casos de artilugios con los que experimentar fenómenos de consciencia (post-imágenes de color y tamaño, profundidad estereoscópica, movimiento).
Juegos ópticos de finales del siglo XIX. a) Taumátropo, b) zoótropo, c) estereoscopio, d) fotograma de Fantasmagorie, una película de dibujos animados de Emile Cohl de 1908.
Hoy en día, la dimensión social y cultural de la atención quizás sea más evidente que nunca. En paralelo al enorme desarrollo tecnológico en las últimas décadas, la sociedad moderna evoluciona hacia una sociedad de la información, en la que se supone que debemos tomar decisiones continuamente sobre a qué conviene atender y a qué no. Algunos incluso hablan de una “economía de la atención”, término introducido por Michael H. Goldhaber en 1997, para referirse a la idea de que vivimos en una sociedad en la que la atención humana se trata como un bien escaso que otros individuos tratan de conseguir. En las sociedades occidentales, cada vez es más evidente que vivimos asediados por una cantidad abrumadora de información, que se nos presenta en formas diseñadas para atraer continuamente nuestra atención (webs, teléfonos móviles, anuncios publicitarios, canales de televisión, señales luminosas y auditivas de todo tipo, cine, conciertos, etc). El problema en la sociedad actual sería que la información presuntamente relevante crece cada vez más mientras que los límites de nuestra atención permanecen obviamente fijos. Es por esto que algunos escritores no creen que sea mera coincidencia que el espectacular incremento en las últimas décadas en el diagnóstico médico y psicológico de déficits de atención (TDAH, ver tema 3) vaya paralela
9
a un incremento en las demandas de atención dentro de la sociedad occidental moderna.
4. Control visual: atención pasiva vs. activa Todos tenemos la sensación de que, en buena parte, somos dueños de nuestras mentes y de que podemos atender a una u otra cosa según nuestras intenciones. En este sentido, la consciencia no es como una pantalla sobre la que se proyectan imágenes. Esto nos lleva a una cuestión básica, que es si la atención puede ser controlada por factores exógenos, esto es, relacionados con el estímulo o entorno, o influyen siempre factores endógenos, entre los que se incluyen nuestras intenciones y, en general, el conocimiento que hemos adquirido acerca del mundo y nuestras experiencias personales. Estos dos grupos de factores se acostumbra a llamarlos con términos en inglés: “bottomup” y “top-down”, respectivamente. Esta diferenciación ya la reconocía William James, cuando distinguía entre dos modos básicos de atención: activo y pasivo. La atención activa o “top-down” ocurre cuando la atención está controlada por las intenciones o metas que persigue el observador, y la pasiva o “bottom-up” cuando está guíada exclusivamente por factores relacionados con el entorno. En el caso de la atención visual, estos factores serían, por ejemplo, la saliencia visual, el color, el movimiento, o cualquier otra característica específica de la imagen. Cuando esto último ocurre se habla de captura atencional. Tipos de atención:
Activa
Pasiva
Endógena
Exógena
Top-down
Bottom-up
Voluntaria
Involuntaria
Controlada
Automática
10
Ahora estudiaremos diferentes ejemplos de atención visual pasiva vs activa y algunos de los procedimientos experimentales más utilizados en su investigación: observación libre de imágenes y búsqueda visual. El reflejo de orientación a estímulos inesperados de alta intensidad será el mejor ejemplo de atención pasiva. Cuando los estímulos son de intensidad moderada o alta producen una orientación de los órganos sensoriales hacia su localización de una manera automática (involuntaria). Después estudiaremos qué ocurre con estímulos visuales de intensidad baja. Antes, una observación importante. La mayor parte de la investigación sobre atención, exceptuando quizás los estudios sobre el reflejo de orientación, que han empleado sobre todo estímulos auditivos, han tratado de la atención visual y, más especificamente, de la atención a imágenes presentadas en pantallas de ordenador. Por esta razón, el resto del tema tratará preferentementemente de la atención visual. Además de esta razón importante, hay otras menores que también podrían alegarse para explicar el interés mayoritario de los investigadores por la atención visual frente a otras formas de atención: 1. El conocimiento actual sobre el sistema visual y sus bases neurales es mayor que el que tenemos de otras modalidades sensoriales. 2. La tecnología necesaria para investigar la atención visual es más barata y accesible que la que se requiere para investigar otras modalidades, incluida la audición. 3. Cultura visual. Vivimos en una sociedad donde la imagen visual y el estudio de los factores que atraen la atención hacia ella es tema de gran interés en campos tan diversos como el de la publicidad, la seguridad vial, la rotulación en edificios públicos o el entretenimiento, además, por supuesto, de la propia psicología.
4.1. Reflejo de orientación
11
La respuesta o reflejo de orientación (RO) es la expresión más simple de atención selectiva. Es una respuesta inmediata e involuntaria del organismo a estímulos inesperados de intensidad moderada, como sonidos fuertes, luces brillantes que aparecen de manera repentina, movimiento brusco de objetos en la periferia del campo visual o la desaparición súbita de una luz o sonido prolongado. Un ejemplo típico es la respuesta que podemos dar al sonido de una llamada a nuestro teléfono móvil. La respuesta conductual es inespecífica, es decir, independiente del tipo de estímulo que la provoca, y consiste básicamente en orientar la cabeza y ojos hacia la fuente de la estimulación, de ahí su nombre, además de toda una serie de cambios fisiológicos, llamados componentes de la RO, tales como dilatación de la pupìla o alteración del ritmo cardíaco. La tarea experimental más utilizada actualmente para investigar la RO es la tarea “oddball” con estímulos auditivos. En el procedimiento más habitual, la persona fija la vista mientras escucha sonidos a través de unos auriculares. Se presentan dos clases de estímulos: uno estándar, que se repite con frecuencia, y otro diferente (estímulo “oddball”) que aparece con muy baja frecuencia a intervalos irregulares e impredecibles. En la mayoría de experimentos, la tarea del observador es informar de la aparición de este estímulo raro, generalmente pulsando una tecla en una caja de respuestas. En otros experimentos no se le requiere ninguna respuesta específica a los estímulos acústicos pero se le instruye a hacer al mismo tiempo otra tarea irrelevante (p.e. leer). Curiosamente, con este procedimiento es difícil observar la respuesta conductual típica de orientación, en forma de movimientos de ojos o cabeza, ya que generalmente el experimentador instruye al sujeto participante para que evite tales movimientos con objeto de que estos no interfieran en el registro de medidas fisiológicas (p.e. potenciales evocados). Son estas medidas, precisamente, las que sirven en estos casos para identificar la RO. Los cambios fisiológicos más importantes son los siguientes:
12
a) Interrupción momentánea de otras acciones (p.e. lectura) coincidentes con el estímulo desencadenante, incluyendo la respiración y los pequeños movimientos oculares que ocurren durante la fijación visual; esto último es lo que se llama “inhibición microsacádica”. b) Dilatación de la pupila. c) Deceleración seguida de aceleración de la tasa cardíaca. d) Aumento del tono muscular. e) Aumento de la conductancia de la piel directamente con la intensidad del estímulo. f) Cambios en la actividad bioeléctrica cerebral registrada por electroencefalografía (EEG). El EEG de los humanos y otros animales se caracteriza por fluctuaciones en el voltaje con frecuencias entre 8 y 13 Hz, aproximadamente, lo que se conoce como ritmo alfa. Cuando aparece el estímulo que produce RO, esta actividad eléctrica se sustituye por otra más irregular y rápida. Este cambio se llama “bloqueo alfa”. Suele comenzar unos 4 segundos después de la aparición del estímulo y dura 1 ó 2 segundos si el estímulo es breve. g) Potenciales evocados. Los potenciales evocados o ERPs (eventrelated potentials) son pequeñas fluctuaciones de voltaje que se observan en el EEG asociadas a eventos sensoriales, motores o cognitivos. El ERP se describe generalmente como una secuencia de componentes, que es como se denominan estas fluctuaciones. Cada componente se específica por tres parámetros: amplitud, distribución sobre el cuero cabelludo y latencia o tiempo que transcurre desde la aparición (“onset”) del estímulo al inicio del cambio de voltaje Los componentes asociados el estímulo desencadenante de la RO son dos principalmente. El primero es el potencial de disparidad o “mismatch negativity” (MMN). Se trata de un potencial asociado a estímulos auditivos que ocurre a los 100 milisegundos desde el “onset” del estímulo, aproximadamente, y que parece reflejar el procesamiento sensorial; se observa en el área de recepción cortical primaria. Si el estímulo es lo suficientemente novedoso o dispar, el MMN es seguido de un segundo potencial componente, el P3a, un
13
potencial positivo que se inicia a los 250-280 milisegundos, aproximadamente, y que se distribuye en el córtex prefrontal dorsolateral. Hoy se distingue este potencial de otro próximo en el tiempo, el P3b (antes denominado P300), cuyo pico en amplitud se alcanza a los 250-500 ms y cuya distribución se localiza generalmente en el lóbulo parietal. La diferencia principal entre estos dos potenciales es la siguiente: el P3b se observa sólo cuando el estímulo desencadenante es relevante para la tarea que se encomienda al sujeto, pero no cuando ese estímulo es irrelevante, de ahí que algunos autores propongan utilizar este potencial como indicador de la atención. Por el contrario, el P3a es independiente de la relevancia conductual del estímulo.
Una característica fundamental de la RO es que se habitúa fácilmente. Esto significa que su intensidad, indicada por alguno de los parámetros fisiológicos anteriores (p.e. amplitud del P3a, conductancia de la piel, dilatación de la pupila, inhibición microsacádica, etc), disminuye significativamente si se repite el estímulo, llegando incluso a desaparecer. Esta habituación tiene las siguientes características: a) La curva de habituación puede tener dos fases: una primera, que se denomina sensibilización, en la que se incrementa la respuesta, y una segunda durante la que se produce la disminución o habituación propiamente dicha. b) Después de un período de habituación, la respuesta de orientación a un estímulo diferente se recupera de forma espontánea; esto es lo que se llama deshabituación. Si se producen varias fases de habituación y desabituación, la fase de habituación se hace cada vez más rápida; es lo que se conoce como potenciación de la habituación. c) En general, cuanto mayor sea la frecuencia de la estimulación, más rápido y/o mayor será el decremento de la respuesta.
La RO no es un simple reflejo conductual, como pensaba Ivan Sechenov, el primero en investigar el tema. En realidad, se trata de un complejo patrón de actividad cerebral. Ante un estímulo novedoso, nos
14
paramos sobresaltados y, al mismo tiempo, le prestamos atención y sopesamos las diferentes posibilidades de acción y sus consecuencias. Raramente, o casi nunca, actuamos de una manera automática. Sólo en los primeros meses o años de vida, la RO tiene ese carácter automático y reflejo. Con el tiempo, la atención como proceso reflejo deja paso a una actividad que depende, no sólo del estímulo elicitante, sino también de variables relacionadas con la experiencia y estado del observador, lo que se denominan factores “topdown” o arriba-abajo (ver más adelante). En el lenguaje común, la palabra “zombi” designa en sentido figurado a las personas que se comportan mecánicamente, como si estuvieran privadas de voluntad. Lo que nos enseña el estudio científico de la atención humana es que, en nuestro comportamiento, los episodios de conducta zombi son más bien escasos o inexistentes. En las secciones siguientes vamos a estudiar como los estímulos raramente atraen de forma mecánica o automática nuestra atención. Su efecto en nuestro comportamiento es resultado casi siempre de una compleja interacción entre factores estimulares y otros relacionados con nuestras experiencias pasadas y conocimiento general del mundo.
4.2. Estudio de la saliencia visual. Observación libre de imágenes. ¿Qué factores provocan que miremos un objeto y no otro?. El factor principal es lo que se llama saliencia visual1. El valor de saliencia en cada región de una imagen se define como proporcional a la suma de las diferencias entre esa región y sus vecinas en un conjunto de atributos de la imagen, tales como la orientación y el color. Fíjate en la figura 1.5 que aparece abajo. En a, la mirada va hacia la posición que ocupa la línea roja. Lo mismo ocurre en la 1 El
estudio de la saliencia visual, además de servir para predecir las regiones de la imagen que capturan la atención, ha tenido aplicaciones en otros campos muy diferentes: transporte (detección automática de objetivos, tales como señales de tráfico en la carretera o vehículos militares), edición de imágenes (compresión de imágenes y vídeo, dando mayor calidad a objetos salientes, centrado automático de imágenes para mostrar en pantallas pequeñas), medicina (localización de tumores en mamografías) e inteligencia artificial (simulación de visión en ambientes de realidad virtual.
15
figura b con la línea vertical. En ambos casos, decimos que la saliencia de la imagen en esas posiciones es alta. La saliencia es mucho menor en la imagen c. Aquí también hay un elemento único y diferente del resto (línea roja vertical), pero es difícil encontrarlo ya que no resalta. a
b
c
Figura 1.5. La saliencia del elemento diferente varía en las tres imágenes: es mayor en a, algo menor en b y todavía menor en c.
Hay ahora numerosas pruebas de que el cerebro humano computa un mapa de saliencia visual de la imagen que se proyecta en la retina, posiblemente en una etapa temprana de procesamiento visual, que luego emplea como guía para determinar la fijación y dirección de la mirada (Koch y Ullman, 1985). Esta hipótesis hace una predicción obvia: la mirada debe dirigirse en primer lugar y con más frecuencia a los objetos o regiones que más sobresalen. Esta hipótesis es básicamente correcta. Lo sabemos porque cuando medimos los movimientos oculares de personas mientras inspeccionan imágenes durante unos pocos segundos, sin propósito especial alguno más que el de la simple contemplación, encontramos que la mirada tiende efectivamente a fijarse en los objetos o regiones que más sobresalen. Sin embargo, la relación entre el mapa de saliencia y el patrón espacial de fijaciones oculares no es ni mucho menos perfecta. Un alto grado de saliencia en una región de la imagen no garantiza que la miremos. Otros factores, independientes de la saliencia visual, sesgan la mirada. Hay objetos que parecen tener un significado especial para nosotros, independientemente de su saliencia visual. Esto ocurre con las caras humanas. Cuando inspeccionamos una imagen que contiene caras y objetos diversos,
16
nuestra mirada tiende a fijarse más en las regiones faciales que en cualquier otra. Además, considerando sólo las caras, los ojos tienden a fijarse más en unas partes concretas del rostro -ojos y boca, preferentemente- que en otras, y esto ocurre independientemente de la saliencia visual. La figura 1.6 (derecha) muestra dos ejemplos. Uno es el patrón de fijaciones oculares viendo La Gioconda de Leonardo da Vinci; el otro es ese mismo patrón para la fotografía del rostro de una chica. En el centro aparecen los respectivos mapas de saliencia. En ambos casos podemos comprobar que las zonas de las imágenes en las que se fijan los ojos no son siempre aquellas con mayor saliencia.
Figura 1.6 A) A la izquierda, imagen original de la Gioconda de Leonardo da Vinci; centro, mapa de saliencia visual obtenido con el algoritmo de Itti y Koch; derecha, zonas de la imagen con mayor frecuencia de fijaciones oculares. B) Idem para una de las imágenes estudiadas por Alfred L. Yarbus en su clásica investigación de movimientos oculares. La fotografía, de S. Fridlyand, se titula Chica del Volga (1959). El patrón de movimientos oculares corresponde a la inspección de la fotografía durante tres minutos. En la siguiente dirección internet puedes descargar el código matlab que utilicé para computar el mapa de saliencia de estas imágenes (algoritmo de Itti y Koch): http://www.klab.caltech.edu/~harel/share/gbvs.php.
Un efecto similar al de caras ha sido demostrado recientemente para el texto impreso. Cerf, Frady y Koch (2009) midieron los movimientos oculares durante la inspección de imágenes que contenían una de tres categorías básicas de objetos: caras humanas, texto y teléfonos móviles, esta última de control (ver figura 1.7). Encontraron que el tiempo que la mirada se fijaba en regiones con texto era muy similar al que dedicaban a mirar caras y mucho mayor que la duración media de la fijación en la categoría control. Además, las primeras fijaciones eran también preferentemente en caras y texto.
17
Estos dos ejemplos demuestran que el cerebro humano no utiliza exclusivamente un mapa de saliencia visual para guiar la mirada sino que también emplea información semántica sobre los objetos que percibe. En el caso de las caras, no se sabe con certeza si el sesgo que producen en la mirada es innato o aprendido, lo que sí es cierto es que desde los pocas semanas de vida las caras ya tienen una atracción especial para los bebés (Cashon y Cohen, 2003). Por lo que respecta al texto, su relevancia es aprendida.
Figura 1.7. Ejemplos de imágenes empleadas en los experimentos de Cerf et al (2009). Fijaciones oculares de un sujeto durante dos segundos de observación. En cada imagen, el triángulo y el cuadrado marcan la primera y última fijación, respectivamente, y los círculos las fijaciones intermedias. En la imagen de la izquierda, caras, en el centro, texto, a la derecha, teléfono móvil.
4.3. Búsqueda visual En el apartado anterior estudiamos la atención a imágenes visuales cuando las personas las inspeccionan sin propósito especial alguno, más que el de la simple contemplación. En estas situaciones, a los observadores que participan en los experimentos no se les requiere que realicen ninguna tarea conductual específica, simplemente mirar. Lo que se registra en el experimento suele ser el patrón de movimientos y fijaciones oculares durante el período de observación. Ahora consideraremos una situación algo diferente, en la que los sujetos deben buscar un determinado elemento en la imagen e informar de su presencia o ausencia al experimentador.
18
Procedimientos En una tarea de búsqueda visual el observador debe buscar un estímulo que aparece entre un número más o menos grande de estímulos distractores. El número total de estímulos que se presentan (distractores + estímulo objetivo) se llama tamaño del conjunto (“set size”). La prueba se repite un número más o menos grande de ensayos (p.e. 100). En un porcentaje de ellos, generalmente el 50%, el estímulo objetivo no se presenta, sólo aparecen distractores; en el otro porcentaje, se presenta el objetivo entre los distractores en una posición que cambia al azar en cada ensayo. El observador da en cada ensayo una de dos respuestas, generalmente pulsando una tecla, para indicar si el objetivo está o no presente. El tamaño del conjunto de estímulos varía al azar en cada ensayo y los estímulos permanecen en pantalla hasta que el observador da la respuesta. Los resultados suelen representarse en una gráfica, con el tamaño del conjunto en el eje X y el TR medio en cada condición en el eje Y. El análisis de datos consiste en calcular la pendiente de la función tamaño del conjunto de estímulos - TR. El resultado usual es el siguiente: la pendiente de esta función es menor cuanto más saliente es el estímulo objetivo (ver figura 1.9).
Figura 1.9. Gráfica de experimentos sobre búsqueda visual en los que la medida es el TR y en los que se manipula el tamaño del conjunto.
19
Hasta hace poco, era usual que los psicólogos utilizaran los datos acerca de la pendiente de la función para inferir el modo de búsqueda. Se asumía que la búsqueda podía ser o bien serial o simultánea: serial si el observador analizase uno a uno los elementos del conjunto hasta encontrar el objetivo, y simultánea en el caso de que todos los elementos se procesasen en paralelo hasta un nivel que permitiese la detección del objetivo. Más específicamente, se suponía que la búsqueda era simultánea cuando la pendiente era cero o muy próxima a cero (por ejemplo, < 5 ms); esto puede ocurrir, por ejemplo, cuando buscamos un estímulo rojo entre estímulos verdes (o viceversa). En caso contrario, la búsqueda se suponía que era serial. Además, si la pendiente era aproximadamente el doble en los ensayos negativos (sin objetivo) que en los positivos, se infería que esa búsqueda serial era auto-terminada. La lógica de esto último era la siguiente. En los ensayos positivos, si el observador estuviera examinando de manera serial todos los estímulos ocurriría algunas veces que el objetivo se analizaría de primero, otras veces de último, etc; por término medio, el observador necesitaría revisar la mitad de los estímulos, no la totalidad. Por el contrario, en ensayos negativos, el observador necesitaría procesar todos los estímulos para concluir que el objetivo no estaba presente. En otras palabras, en el caso de que la búsqueda fuese serial, habría que esperar que el incremento del TR al añadir un estímulo al conjunto de búsqueda fuese el doble en ensayos negativos que en ensayos positivos. Hoy en día, hay consenso en que no es posible inferir el tipo de búsqueda (serial vs. paralela) a partir de las pendientes tamaño-TR. El principal argumento es muy simple: cuando tomamos datos de un número grande de sujetos en la misma tarea de búsqueda o cuando comparamos datos de un mismo observador en distintas tareas, no aparece una división clara de pendientes, como cabría esperar si existiese una dicotomía serial/simultánea. Es decir, cuando comparamos muchas pendientes no se observan dos clases o grupos de funciones, sino que las pendientes se ordenan en un continuo, desde 0 hasta varias decenas de milisegundos. Por esta razón, en psicología se habla hoy simplemente de eficiencia de búsqueda tomando como base la
20
pendiente de la función tamaño-TR y ya no se acostumbra a hacer inferencias sobre el tipo de procesamiento, si serial o paralelo; hablamos así de búsquedas eficientes, cuando la pendiente es 0 o próxima a cero (p.e. buscar una línea vertical entre líneas horizontales), y búsquedas más o menos ineficientes, dependiendo de que la magnitud sea más o menos mayor. Vamos a ver ahora dos ejemplos de experimentos en los que se utilizó el procedimiento de búsqueda visual para investigar si ciertos estímulos visuales capturan nuestra atención. En un caso, el estímulo era la aparición repentina de un objeto en una pantalla de ordenador; en el otro el estímulo era una diferencia de color. a) Aparición repentina de un estímulo visual. Yantis y Jonides (1984) fueron los primeros en proponer una demostración de que la aparición repentina de un estímulo visual (“abrupt visual onset”) puede capturar la atención de una manera automática, es decir, independientemente de las intenciones y conocimiento que tienen los observadores. La figura 1.10 representa los estímulos empleados en este experimento. Cada ensayo empezaba con la presentación de una letra objetivo (que variaba en cada ensayo). A continuación se presentaba un conjunto de figuras formadas por siete segmentos lineales, parecidas al número ocho de un reloj digital. Un segundo más tarde aparecía un conjunto de letras. Todas estas letras excepto una se formaban eliminando tres de los segmentos. A estas letras las llamamos estímulos “no-onset”. La otra letra, formada también por cincos segmentos, aparecía en una posición previamente vacía; a esta letra la llamamos estímulo “onset”. La tarea del observador consistía en indicar si este conjunto de letras contenía o no la letra presentaba en primer lugar. En cada ensayo, el número de letras (tamaño del conjunto) y el tipo de objetivo (onset o no-onset) variaban al azar. Los resultados fueron los siguientes: el TR para detectar la presencia del objetivo incrementaba significativamente con el número de letras cuando se trataba de un no-onset, pero no cuando era un onset. Esta era, precisamente, la predicción en el caso de que la aparición repentina de un estímulo capturase automáticamente la atención. Si el onset capturase de manera automática la
21
atención, entonces la detección del objetivo debería ser independiente del número de estímulos simultáneos, pues siempre se procesaría en primer lugar.
Figura 1.10. Representación de los estímulos utilizados por Yantis y Jonides (1984) en sus experimentos sobre captura atencional y resultados (Tomado de Ruz y Lupiañez, 2000).
Hoy esta conclusión plantea dudas. Tse, Sheinberg y Logothetis (2002) midieron los movimientos oculares de fijación en una prueba de detección de estímulos en la periferia del campo visual. Se instruía a los sujetos a que no realizaran ningún movimiento sacádico hacia esos estímulos sino que permaneciesen con la mirada fija en un punto central. La hipótesis de Tse y colaboradores era que si un onset visual captura automáticamente la atención, entonces debería producir también, de manera automática, movimientos oculares que correlacionasen con su posición, incluso en el caso de que el observador tratara (voluntariamente) de fijar la vista en el punto central. Esta predicción se basa en la teoría premotora de la atención (ver más adelante), según la cual, todo cambio de atención va unido a movimientos oculares, sean estos “abiertos”, es decir, claramente observables, sin necesidad de técnica alguna, o “encubiertos”, es decir, no observables a simple vista pero sí con la
22
tecnología adecuada. Estos últimos fueron el objeto de investigación en ese experimento. Los resultados fueron claros: no encontraron ningún dato que indicase que los estímulos periféricos afectasen a los movimientos oculares de fijación. La conclusión de los autores fue rotunda: cambios repentinos en el entorno visual no afectan de manera automática a los movimientos oculares de fijación; por lo tanto, debemos suponer que los onsets visuales no capturan la atención. b) Color. Los experimentos que han tratado la cuestión de si el color captura la atención han empleado en su mayor parte una variante de la tarea de búsqueda visual creada por Jan Theeuwes. La característica principal de la tarea es que entre los estímulos distractores se presenta uno claramente diferente del resto en color; a este estímulo se le conoce como “singleton”. De lo que se trata es de comprobar si este singleton, que no es lo que busca el sujeto (el sujeto busca el objetivo definido por el experimentador), captura la atención. La idea básica es que si existe captura atencional entonces el tiempo de búsqueda del objetivo debe ser mayor con “singleton” que sin él. La figura de abajo representa dos ensayos diferentes de uno de los experimentos de Theeuwes (1992). El observador debía indicar en cada ensayo la orientación de una línea -vertical u horizontal- que aparecía dentro de una forma geométrica de color (rombos y círculos rojos y verdes). El estímulo objetivo aparecía siempre dentro de una forma que difería del resto en forma. Por ejemplo, en un bloque de ensayos, el objetivo aparecía siempre dentro de un círculo y los distractores dentro de rombos. Esto inducía al observador a atender a la forma diferente y luego a hacer un juicio de orientación. En algunos ensayos, una de las formas dentro de las que se presentaban los distractores tenía un color diferente (figura 1.11 derecha); en otros, todas las formas tenían el mismo color, es decir, no había “singleton”. Esta es la condición de “singleton” color. El observador sabía que la variación en el color de la forma era irrelevante para la tarea y que debía ignorarlo para que no le afectase negativamente a su rendimiento. Sin embargo, y tal como esperaban los autores, los resultados mostraron que las respuestas eran más lentas en la
23
presencia del “singleton” de color que en ausencia de éste. ¿Significa esto que el color diferente o singleton capturaba de manera automática la atención?. La respuesta ahora, contrario a lo que pensaba Theeuwes, es no.
Figura 1.11. Estímulos y datos principales del experimento de Theeuwes (1992). Una línea vertical u horizontal aparecía dentro de un círculo verde. A la izquierda, todos los rombos eran verdes (líneas continuas); a la derecha, condición en la que uno de los rombos era rojo (línea discontinua). Los sujetos debían indicar la orientación de la línea que aparecía en el círculo. Abajo aparecen los resultados: la presencia del color irrelevante (singleton) retardaba las respuestas.
4.4. Conclusiones sobre la captura atencional: Captura atencional y ceguera por inatención Imagina que estas viendo un partido de baloncesto y de repente aparece un gorila paseándose entre los jugadores. Casi con toda seguridad pensarás que ese gorila no te pasaría desapercibido. Te equivocarás. Algo tan inesperado como un gorila en medio de la cancha no te distraerá del partido, excepto, claro está, que te hayan dicho que tal cosa va a suceder (hipótesis de
24
la orientación contingente; por ejemplo, que te digan que algo extraño va a ocurrir durante el partido). Este ejemplo del gorila no es arbitrario. Daniel Simons probó en 1999 qué ocurre cuando estamos atentos a un vídeo en el que se ve a dos equipos de jugadores que se pasan un balón y una persona disfrazada de gorila atravesando la escena. A los observadores se les pide que cuenten el número de veces que uno de los equipos se pasa el balón y, después, se les pregunta si han visto algo extraño. Si la respuesta es negativa se les pregunta directamente si han visto un gorila. En el estudio de Simons (1999), la mayor parte de los jugadores (>75%) que hacían la tarea (contar) no veían el gorila, eran ciegos a él. Este fenómeno se conoce como ceguera por inatención. Ocurre cuando estamos enfrascados en una tarea y no nos damos cuenta de algo que ocurre a nuestro alrededor, aunque se trate de algo novedoso, claramente visible (cuando lo esperamos) y altamente significativo. Es evidente que la saliencia semántica de un gorila en medio de los jugadores es extraordinaria, y deberíamos esperar que atrajese nuestra atención casi de una manera refleja. Pero no es esto lo que ocurrió. El fenómeno de la ceguera por inatención fue demostrado por primera vez por Arien Mack e Irwin Rock en 1992 (fueron ellos quienes acuñaron el término). En su experimento, los sujetos hacían una tarea perceptiva muy sencilla: se les presentaba una cruz en el centro de una pantalla y debían indicar cuál de sus brazos (horizontal o vertical) era más largo. En un momento dado, aparecía brevemente en la misma pantalla un estímulo inesperado e irrelevante para la tarea (un cuadrado). De lo que se trataba era de ver si los sujetos detectarían o no este estímulo. Los resultados fueron claros: la mayor parte de los participantes indicó no haberlo visto (después del experimento se les hacía una entrevista), a pesar de ser claramente visible.
5. Atención visual y movimientos oculares: atención encubierta vs abierta El campo visual monocular ocupa un espacio de unos 150º aproximadamente en el plano horizontal y casi otros tantos en el vertical, pero la percepción de detalles queda restringida a una zona muy pequeña de la
25
retina, la que se proyecta en la fóvea, de 1º de diámetro aproximadamente. Conforme nos alejamos de la fóvea, la percepción de detalles declina rápidamente, debido al espaciamiento entre receptores y a la forma en que se establecen conexiones entre células nerviosas (p.e. una mayor número de células receptoras sinapsan en la misma célula ganglionar). En parte, esta limitación la solventamos gracias a los movimientos de los ojos y cabeza que normalmente acompañan los cambios de atención y con los que conseguimos que partes diferentes de la imagen o escena se proyecten sucesivamente en la fóvea. En función de que ocurran o no estos movimientos hablamos de dos formas de atención visual: abierta y encubierta. La atención visual que se acompaña de cambios en la mirada es lo que se conoce como atención abierta. Fijamos los ojos en una posición de la imagen, luego los movemos rápidamente a otra posición y volvemos a fijar, y así sucesivamente. Estos movimientos rápidos se llaman sacadas (ver figura 1.12). Este es el modo natural de atender.
Figura 1.12. Relaciones entre las áreas cerebrales supuestamente implicadas en movimientos oculares sacádicos. Las áreas intervienen de forma serial, esto es, una después de otra, como circuitos neurales independientes. El primer circuito sería sensorial: la información visual de la retina llega al córtex visual primario (V1) y de ahí al córtex extra-estriado (p.e. MT, V4). El segundo sería atencional y se ubicaría principalmente en el córtex parietal posterior (PPC, por sus siglas en inglés). El tercero sería motor y se localizaría en los campos oculares frontales (FEF). La función de este último sería generar señales motoras a partir de la información sensorial filtrada por la atención. Estas señales motoras se envían posteriormente a los circuitos oculomotores localizados en el tronco cerebral (colículo superior) que inervan los músculos oculares. Adaptado de Lynch (2010).
La atención visual sin movimientos oculares, ni de cabeza o tronco, es lo que se llama atención encubierta. La primera referencia científica acerca de la
26
existencia de esta forma de atención aparece en 1867 en el Tratado de óptica fisiológica (vol. 3) del célebre Hermann von Helmholtz. A partir de algunos experimentos sobre la percepción de estímulos visuales breves, Helmholtz creyó tener pruebas de que se puede fijar la vista en un punto al mismo tiempo que atendemos, “simplemente por un acto consciente y voluntario”, a alguna zona de la periferia visual. El efecto empírico que probaría su existencia sería que el tiempo necesario para percibir un estímulo periférico, sin cambiar la mirada, disminuya cuando atendemos a la posición en la que aparecerá en relación a una condición en la que la atención se fija en otra parte de la imagen. Durante mucho tiempo, la hipótesis de Helmholtz permaneció sin una demostración experimental convincente, en el sentido de que no se logró probar de manera clara y consistente el hipotético efecto beneficioso de la atención sobre la percepción de estímulos periféricos. Se hicieron pocos experimentos y no todos dieron resultados positivos. La principal demostración la hizo Michael Posner en los años 80 del siglo pasado (Posner, Nissen y Ogden, 1978) utilizando un procedimiento experimental nuevo, llamado tarea de preseñalización, con el que lograba medir no sólo los beneficios que la atención produce sobre el rendimiento (disminución del tiempo de respuesta) sino también los costes que supone la inatención (aumento del TR).
5.1. Tarea de preseñalización (Tarea Posner) La tarea de preseñalización es la prueba conductual más empleada para medir la atención visual encubierta. Se la conoce también como prueba de costes-beneficios o tarea Posner. Consiste en detectar o identificar un estímulo objetivo que aparece a izquierda o derecha de un punto de fijación central. El efecto conductual que demuestra la existencia de atención encubierta es que las personas somos más rápidas respondiendo cuando los estímulos aparecen en una posición esperada o probable (atención) que cuando aparecen en posiciones no esperadas (inatención) mientras mantenemos la mirada en un punto central equidistante de las posibles localizaciones.
27
La figura 1.15 representa la tarea. El estímulo objetivo va precedido por otro, llamado estímulo indicio, que señaliza la posición más probable del primero. Dependiendo de la correspondencia espacial entre estos dos estímulos, distinguimos tres tipos de ensayos o condiciones: ensayos válidos, cuando el estímulo indicio señaliza la posición exacta en la que se presentará el estímulo objetivo, inválidos, cuando el indicio señaliza la posición contraria, y neutrales, cuando no señaliza (p.e. el indicio se presenta justo en el punto de fijación o en ambos lados simultáneamente). En muchas ocasiones, con objeto de reducir el tiempo de ejecución de la tarea, se prescinde de los ensayos neutrales. Con objeto de motivar al sujeto a atender, el porcentaje de ensayos válidos es mucho mayor que el de inválidos (p.e. 80% de ensayos válidos).
Figura 1.15. Representación de los tres tipos de ensayos en la tarea Posner. A la izquierda, tarea con indicios exógenos; a la derecha, indicios endógenos.
Existen dos tipos de tareas de preseñalización dependiendo de que los indicios sean exógenos o endógenos. Los exógenos son estímulos simples (p.e. flash de luz, cambio de contraste) con alta saliencia visual que aparecen en la misma posición que puede ocupar el estímulo objetivo (figura 1.15a). Los endógenos o simbólicos suelen ser flechas presentadas justo encima del punto de fijación orientadas a izquierda o derecha (figura 1.15b). La figura 1.16 representa los resultados típicos en la tarea Posner en función del tipo de ensayo, válido o inválido, y el intervalo temporal indicioestímulo o SOA (por sus siglas en inglés, Stimulus Onset Asynchrony). Cuando el SOA es corto (< 250 ms): a) el tiempo de reacción es mayor en los ensayos
28
inválidos que en los neutros, es lo que se conoce como coste; b) el TR en ensayos válidos es menor que en ensayos neutros, es lo que se conoce como beneficio. Si aumentamos el SOA, y los indicios son exógenos, el efecto sobre el TR se invierte, de modo que las respuestas en los ensayos inválidos pasan a ser más rápidas que en los válidos. Este efecto se conoce como inhibición de retorno. Se piensa que este efecto refleja un mecanismo básico de funcionamiento de nuestra atención espacial: prioriza la exploración de posiciones espaciales nuevas. Por ejemplo, si atendemos primero a la posición A e inmediatamente después a B, necesitamos más tiempo para volver atender a A que a otra posición nueva; en otras palabras, cuando la atención se “mueve” desde una posición a otra, parece que se inhibe su retorno a la primera posición durante un período de tiempo corto. Esto es lo que se observa en los ensayos válidos de la tarea Posner cuando se emplean SOAs largos e indicios exógenos (el fenómeno no se observa con indicios endógenos): el sujeto primero atiende a la posición señalada (p.e., izquierda) pero inmediatamente después pasa a atender a la otra posición; si ahora aparece el estímulo objetivo, su respuesta se retrasará porque aparece en una posición no atendida; lo contrario ocurre, evidentemente, en los ensayos inválidos.
Figura 1.15. Representación de los resultados típicos con la tarea Posner.
5.2 Teoría premotora de la atención Hasta hace poco, la teoría de la atención espacial visual más extendida entre los psicólogos ha sido, en esencia, la propuesta por Helmholtz en 1878. Según esta teoría, que podemos llamar teoría cognitiva, la atención opera
29
independientemente de los procesos senso-motores responsables de los movimientos oculares, por lo que existe la posibilidad de que podamos “mover” la atención sin mover los ojos. Al principio, sin embargo, esta teoría no fue bien aceptada entre los psicólogos. De hecho, el influyente William James, contemporáneo de Helmholtz, era incluso de la opinión contraria, reconociendo que cualquier forma de atención requiere “el ajuste de los órganos sensoriales” (James, 1890, p. 434). El problema era que James no aportaba ninguna prueba experimental, sólo apoyaba su afirmación con citas de Gustav Th. Fechner y Ernest Mach, otros dos de los más influyentes científicos en la psicología de la época, quienes se habían manifestado anteriormente en el mismo sentido, pero que tampoco habían aportado pruebas. Hoy en día, sin embargo, la propuesta de James y otros de que la atención es indisociable de los procesos motores, se ha convertido en una teoría dominante en psicología, sobre todo a raíz de los trabajos de Giacomo Rizzollati a finales del siglo pasado. La teoría se conoce hoy como teoría premotora de la atención, nombre acuñado por el propio Rizzolatti. Según esta teoría, no hay necesidad de postular sistemas neurales diferentes e independientes para la atención visual y la acción motora, sino que los dos son indisociables. Según esta teoría, lo que suele llamarse atención encubierta implica en realidad una activación débil de los mismos circuitos neurales implicados en la atención abierta. Los antecedentes de la teoría pre-motora se remontan a finales del siglo XIX. En ese tiempo, el neurólogo David Ferrier presentó los primeros resultados de estudios con animales sobre lesiones experimentales de los campos oculares frontales (FEF, Frontal Eye Fields), una zona del córtex prefrontal implicada en la generación de movimientos oculares (ver figura 1.10). David Ferrier, que fue quien hizo la primera contribución importante al conocimiento del FEF, demostró de que la ablación de esa parte del cerebro no sólo impedía movimientos de ojos y cabeza sino que también producía un déficit importante de atención visual. Después de la ablación, los animales se comportaban como si ignorasen los objetos que aparecían en el campo contralateral al de la lesión.
30
El resultado sugería claramente una relación entre la atención y la actividad motora.
La principal evidencia actual en apoyo de la teoría premotora proviene de estudios fMRI que comparan la ejecución en tareas de atención abierta y encubierta. Estos estudios han demostrado que las mismas áreas corticales se activan tanto cuando se permiten movimientos oculares como cuando no se permiten (Corbetta y colaboradores, 1998). Evidencia conductual proviene de estudios psicofísicos de Rizzolatti y su equipo. Estos estudios demostraron dos potentes efectos conductuales que sugieren que la orientación de la atención visual es indisociable de los movimientos oculares. Efecto del meridiano. Este efecto se observó en una variante de la tarea Posner diseñada por Rizzolatti y su equipo. El sujeto fijaba la vista en un punto central y el objetivo aparecía en una de cuatro posiciones alineadas encima de este punto, como en la figura 1.14, o verticalmente a un lado (no mostrado en la figura). El indicio era un dígito (1-4) que indicaba la posición probable del objetivo. La respuestas eran manuales. El análisis de datos consistió en comparar los TRs al objetivo en ensayos inválidos en dos posiciones equidistantes de la fijación y en hemicampos diferentes (p.e. indicio en caja 1 y objetivo en la posición 2 o en la 3). El efecto meridiano consiste en que los TRs son más largos cuando objetivo e indicio aparecen en hemicampos diferentes que cuando ambos estímulos aparecen en el mismo hemicampo, a pesar de que la distancia entre la posición indicada y la del estímulo sea en ambos casos la misma. Este efecto se puede explicar fácilmente si se acepta que la atención encubierta y el mecanismo responsable de movimientos oculares operan conjuntamente. Cuando aparece el indicio, se inicia la programación de un movimiento ocular (sacada) hacia la posición esperada, lo cual incluye especificar la dirección y la amplitud del movimiento. En los ensayos inválidos, en los que el objetivo no aparece en la posición esperada, el movimiento se debe reprogramar durante el SOA. En el caso de que la nueva posición se encuentre en el mismo hemicampo que el indicio, el nuevo programa sólo requiere una modificación de la amplitud, pero si el estímulo aparece en el
31
hemicampo contrario, también hay que modificar la dirección, lo que conlleva un tiempo adicional. Ese tiempo adicional es el efecto meridiano.
Figura 1.14. Representación de los estímulos empleados en el estudio del efecto meridiano.
Desviación de sacadas a estímulos periféricos. Otro dato que apoya la teoría de Rizzolatti proviene de experimentos realizados por él y su equipo en los que midieron los tiempos de reacción sacádicos (tiempo que se tarda en iniciar una sacada) en otra variante de la tarea Posner. Los sujetos debían fijar un punto central y hacer una sacada rápida hacia la posición de un estímulo objetivo periférico que aparecía poco después del indicio. La particularidad de la prueba estaba en la correspondencia que se establecía entre el indicio y el objetivo. El indicio aparecía a la izquierda o derecha del punto de fijación y el objetivo arriba o abajo; al sujeto se le instruía que si el indicio aparecía a la izquierda, el objetivo aparecería con mayor probabilidad arriba. La figura 1.15 representa los estímulos y las respuestas de uno de los participantes. Como se ve, la trayectoria de las sacadas se desviaba en la dirección opuesta a la posición atendida (probable): cuando el indicio aparecía a la izquierda y el objetivo arriba, las sacadas se curvaban hacia la derecha; por el contrario, cuando el indicio aparecía a la derecha, las sacadas se desviaban hacia la izquierda. En cualquier caso, la trayectoria de las sacadas se desviaban hacia el hemicampo contralateral al del indicio atencional. Estos resultados no se esperarían en el caso de atención y control motor fuesen procesos independientes.
32
Figura 1.15. Desviaciones de las sacadas en función del indicio atencional. Arriba, el indicio aparece a la izquierda y la trayectoria de la sacada se desplaza a la derecha; centro, ensayo neutral (indicio en ambos lados); abajo, el indicio aparece a la derecha y la trayectoria se desplaza a la izquierda. A partir de datos del experimento de Sheliga, Riggio y Rizzolatti (1995).
6. Anatomía de la atención espacial visual: redes atencionales 4.1. Teoría de las redes atencionales de Posner La atención no es un sistema neural unitario, sino un conjunto de redes neurales interconectadas. Según Michael Posner existen tres redes: la de orientación, la de alerta y la ejecutiva. La figura 1.16 representa las zonas cerebrales más importantes de cada una de ellas. Estudios farmacológicos han relacionado además cada una de ellas con neuro-moduladores específicos: la acetilcolina tendría un papel importante en la red de orientación, la norepinefrina en la de alerta y la dopamina en la ejecutiva. Si bien se cree que las redes son multi-sensoriales (al menos visual y auditiva), la mayor parte de los estudios ha empleado estímulación visual. A
B
33
Figura 1.16. Anatomía de las redes atencionales según Michael Posner. A) Imagen fMRI promedio de 16 adultos normales durante la ejecución de la prueba ANT, un test diseñado por los autores para obtener medidas conductuales de la eficiencia de las diferentes redes. B) Representación esquemática de las zonas cerebrales implicadas en cada red.
La red de orientación corresponde, grosso modo, con lo que en algunos libros sobre la materia se llama “atención espacial selectiva”. Como su nombre indica, está implicada en la orientación espacial de la atención. Esta formada por un grupo amplio de estructuras cerebrales, entre las que se encuentran el córtex parietal superior, la unión temporo-parietal, los campos oculares frontales, el colículo superior y el núcleo pulvinar. La red de alerta tiene que ver con los aspectos intensivos de la atención y el ciclo vigilia-sueño. Las estructuras principales que la forman son el locus coeruleus y los córtices frontal y parietal del hemisferio derecho. Esta red es la base neural de lo que se
34
conoce generalmente como atención sostenida o vigilancia (ver tema 3). Finalmente, lo que Posner denomina red ejecutiva es lo que otros autores llaman “control supervisor”. Esta red interviene cuando planeamos o tomamos decisiones, detectamos errores o damos respuestas nuevas o no muy bien aprendidas. Generalmente se mide utilizando las llamadas tareas de conflicto. Las “tareas conflicto” o “de interferencia” se llaman así pues crean en el sujeto un conflicto de respuesta: exigen una respuesta rápida a determinado aspecto del estímulo y, al mismo tiempo, inhibición de otra respuesta más automatizada o natural. La variable dependiente en este tipo de pruebas es el tiempo de reacción. A continuación describimos brevemente algunas de las tareas de conflicto más utilizadas (ver figura 1.18). Tarea Stroop. En cada ensayo se presenta el nombre de un color (p.e. AZUL, ROJO) escrito en una tinta cuyo nombre puede coincidir o no con ese nombre (p.e. tinta azul o roja). La tarea consiste en nombrar el color de la tinta. Como puedes suponer, se tarda más tiempo en contestar cuando la tinta y el nombre son incongruentes que cuando son congruentes. Este resultado se conoce como efecto Stroop. La razón esta clara: no podemos evitar leer la palabra, y esto provoca un conflicto entre la respuesta que evoca el significado y la que elicita la tinta en que la palabra está escrita. Tarea Navon. También se conoce como tarea global/local. En cada ensayo se presenta una letra de tamaño grande formada por letras pequeñas iguales. La tarea consiste en identificar, lo más rápido posible, la letra pequeña, procurando que no le distraigan la letra global. Al igual que en la prueba Stroop, hay dos tipos de ensayos: congruentes, en los que las letras pequeñas coinciden con la grande y, por tanto, evocan la misma respuesta, e incongruentes, en los que no coinciden. Algunas veces se utilizan también ensayos neutrales, en los que las letras pequeñas no guardan relación con la letra grande. Tarea Eriksen. También se conoce como tarea de flancos. Consiste en identificar un estímulo central que aparece flanqueado por otros asociados a la
35
misma respuesta que (congruentes) o a la opuesta (incongruentes). Los estímulos más frecuentes son letras o flechas. Tarea prosacada/antisacada. El observador fija la vista en un punto central esperando que se le presente un estímulo en la periferia de su campo visual. En los ensayos congruentes, debe mirar lo más rápido posible a ese estímulo periférico; en los incongruentes debe mirar al lado opuesto. Las dos condiciones se conocen como prosacada y antisacada, respectivamente.
Figura 1.18. Tareas de conflicto utilizadas habitualmente para evaluar la red ejecutiva.
4.2. El test de las redes atencionales El test de redes atencionales o ANT (Fan, McCandliss, Sommer, Raz y Posner, 2002) se está convirtiendo en el procedimiento estándar para medir la eficiencia de las tres redes atencionales descritas anteriormente. El test es una “mezcla” de dos pruebas ya descritas: la de pre-señalización y la de flancos.
36
Figura 1.17. Representación de la prueba de redes atencionalesd (ANT).
La figura 1.17 representa la estructura de un ensayo. La tarea consiste en indicar la orientación de una flecha que aparece encima o debajo de un punto de fijación central en el que el sujeto mantiene la vista durante todo el ensayo. El estímulo es precedido por un indicio espacial exógeno. Dependiendo de este indicio hay cuatro condiciones: a) Condición doble señal o DS. El indicio aparece arriba y abajo del punto de fijación. b) Condición señal periférica o SP. Aparece encima o debajo del punto de fijación. c) Condición señal central o SC. Aparece justo en el lugar que ocupa el punto de fijación. d) Condición no señal o NS. No se presenta indicio.
El estímulo objetivo aparece con otros estímulos distractores o flancos a su derecha e izquierda. Estos flancos pueden ser:
37
a) Congruentes (condición FC), esto es, flancos con la misma orientación que el estímulo objetivo, o b) Incongruentes (condición FI), con la orientación opuesta. A partir de los tiempos medios de respuesta en las diferentes condiciones se obtienen medidas de la eficiencia de las diferentes redes. Estas medidas son las siguientes: Alerta = NS – DS Orientación = SC – SP Ejecutiva = FI – FC A modo de guía, en el estudio original de Fan y cols, las puntuaciones medias de un grupo amplio de sujetos adultos normales, sin patología conocida, fueron las siguientes: 47 ms, 51ms y 84 ms para las redes de alerta, orientación y ejecutiva, respectivamente. 6.2. Red cerebral por defecto Las tres redes que hemos citado –orientación, alerta y ejecutiva- tienen en común el hecho de que modulan la eficiencia con que el cerebro maneja la información del mundo externo. A estas tres redes hay que añadir otra diferente que tiene que ver con nuestro “mundo interior”, no con el mundo exterior. Esta red se conoce como red neuronal por defecto. Se trata de un conjunto de estructuras cerebrales interconectadas que se activan cuando no atendemos al mundo exterior, como cuando “soñamos despiertos”, recordamos o planificamos nuestras acciones futuras, o, simplemente cuando permanecemos con los ojos cerrados y en silencio o incluso cuando simplemente observamos un punto (fijación visual). Algunas de estas estructuras son las siguientes: lóbulo temporal, ciertas zonas del córtex pre-frontal y córtex cingulado posterior y córtex parietal inferior. Aunque la idea de una red de este tipo fue avanzada por los fisiólogos hace casi 100 años, el concepto se ha hecho popular en los últimos años a raíz principalmente de los trabajos del neurólogo Marcus E. Raichle, que fué quién acuñó el término “red por defecto” en 2001.
38
El descubrimiento de la red fue un tanto accidental (Bruckner, AndrewsHanna y Schacter, 2008). A mediados de los años 90 del siglo pasado, estudios típicos con neuroimagen funcional sobre percepción, lenguaje, atención y memoria, principalmente, no diseñados específicamente para investigar esta red, revelaron que, al tiempo que aumentaba la actividad en áreas corticales específicas relacionadas con los correspondientes procesos psicológicos, y que eran realmente el objeto de interés en esos estudios, también se observaba una disminución de la actividad cerebral en otras zonas, identificadas ahora como partes de la red por defecto. Estas zonas se activaban cuando los sujetos no realizaban ninguna tarea; por ejemplo, durante los intervalos entre ensayos experimentales, o también en condiciones control en las que los sujetos simplemente permanecían con los ojos cerrados o mirando un punto durante varios segundos,
Figura 1.15. a) Áreas cerebrales cuya actividad disminuye durante la ejecución de una tarea. B) Cuando se mide las señales fMRI en estas áreas durante períodos sin tarea, de descanso (flechas en a), se observa una correlación entre ellas (figura tomada de Raichle y Snyder, 2007).
39
7. Atención selectiva vs. dividida Atención selectiva y atención dividida son las dos caras de un mismo problema. Recordemos la cita de William James con la que empezábamos este tema: la selección de información conlleva necesariamente dejar de lado unas cosas o tareas para tratar otras (las atendidas) de una forma más eficiente. El enfoque que hemos seguido hasta aquí en el estudio de la selección y orientación de la atención se ha concentrado en los factores y procesos que intervienen en esa selección. El estudio de la atención dividida supone un nuevo enfoque para el mismo problema. El enfoque consiste, básicamente, en estudiar cómo la atención a una tarea interfiere en la ejecución de otra concurrente. Veamos ahora un ejemplo de este enfoque: el estudio de las consecuencias que tiene el uso del teléfono móvil en la conducción de un automóvil.
¿Por qué hablar por teléfono aumenta el riesgo de un accidente?. El número de accidentes de tráfico que se cree que están provocados por el uso del teléfono móvil ha aumentado considerablemente durante los últimos años. Al principio se barajó la posibilidad de que esto se debiera a algo tan simple como que el uso de tales teléfonos obliga a realizar con una sola mano una tarea que se hace mejor con dos. Si fuese así, el problema de la alta accidentabilidad al conducir mientras se habla por teléfono no sería de atención, ¡sería simplemente consecuencia de no tener más manos!, y su solución sería sencilla: utilizar un sistema de telefonía de “manos libres”. Sin embargo, sabemos ahora que el problema persiste aunque el conductor utilice su teléfono con un sistema de este tipo. La figura 1.2 representa la zona del campo visual en la que un conductor fija con más frecuencia la mirada. A la izquierda se representa esa zona durante la conducción normal y a la derecha mientras conduce y habla por teléfono de manos libres. Está claro que la tarea adicional de hablar por teléfono produce una reducción importante en la información visual que seleccionamos durante la conducción. La limitación, pues, no es periférica, no está en las manos, sino que es central. Estudios
40
actuales en neurociencia confirman esta interpretación. Tales estudios demuestran una sobrecarga de trabajo en el cerebro cuando simultáneamente conducimos y escuchamos, lo cual obviamente aumenta el riesgo de tener un accidente. Uno de los estudios demostró que una tarea que requería comprensión del lenguaje hablado perjudicaba seriamente la conducción de un automóvil en un simulador y producía una reducción de un 30-40% aproximadamente en la actividad neural en el lóbulo parietal, un área cortical que tiene un papel fundamental en tareas que requieren procesamiento espacial, como es el caso de la conducción.
Figura 1.2. Izquierda: zona del campo visual en la que un conductor hace la mayor parte de fijaciones oculares mientras conduce. Derecha: lo mismo mientras habla por teléfono (manos libres). Fuente: ministerio del transporte de Canada (White paper).
Figura 1.3. Imágenes de resonancia magnética funcional del cerebro de una persona durante la conducción en un simulador (Universidad de Carnegie Mellon). A la izquierda, actividad en los lóbulos parietales durante la conducción “normal” en el simulador. A la derecha, actividad en las mismas zonas corticales cuando el sujeto conduce y al mismo tiempo escucha a través de un teléfono; la reducción de actividad es de un 37% aproximadamente. Datos de un estudio de Marcel Just (2008).
41
42