Clásicos en la historia de la psicología Un recurso en internet desarrollado por Christopher D. Green Universidad de York, Toronto, Ontario
(Regrese al índice de Classics )
¿SON NECESARIAS LAS TEORÍAS DEL APRENDIZAJE ? [ 1 ] BF Skinner (1950) Publicado por primera vez en Psychological Review , 57 , , 193-216.
Ciertas suposiciones básicas, esenciales para cualquier actividad científica, a veces se llaman teorías. Que la naturaleza es ordenada en lugar de caprichosa es un ejemplo. Ciertas declaraciones son también teorías simplemente en la medida en que todavía no son hechos. Un científico puede adivinar el resultado de un experimento antes de que se lleve a cabo el experimento. La predicción y la posterior declaración de resultado pueden estar compuestas de los mismos términos en la misma disposición sintáctica, siendo la diferencia en el grado de confianza. Ningún enunciado empírico es totalmente no teórico en este sentido, porque la evidencia nunca es completa, y probablemente ninguna predicción se haga completamente sin evidencia. El término "teoría" no se referirá aquí a declaraciones de este tipo sino a cualquier explicación de un hecho observado que apele a eventos que ocurren en otro lugar, en algún otro nivel de observación, descrito en diferentes términos, y medido, si es que lo hace en diferentes dimensiones Tres tipos de teoría en el campo del aprendizaje satisfacen esta definición. El más característico se encuentra en el campo de la psicología fisiológica. Todos estamos familiarizados con los cambios que se supone que tienen lugar en el sistema nervioso cuando un organismo aprende. Las conexiones sinápticas se realizan o se rompen, los campos eléctricos se alteran o se reorganizan, las concentraciones de iones se acumulan o se difunden, y así sucesivamente.En la ciencia de la neurofisiología las declaraciones de este tipo no son necesariamente teorías en el sentido actual. Pero en una ciencia del comportamiento, en la que nos preocupa si un organismo secreta saliva cuando suena la campana, o salta hacia un triángulo gris, o dice bik cuando cuando una tarjeta lee a tuz , , o ama a alguien que se parece a su madre, todas las declaraciones sobre el sistema nervioso son teorías en el sentido de que no están expresadas en los mismos términos y no pueden ser confirmadas con los mismos métodos de observación que los hechos de los que se dice que rinden cuentas.
Un segundo tipo de teoría del aprendizaje en la práctica no está lejos de lo fisiológico, aunque hay menos acuerdo sobre el método de observación directa. Las teorías de este tipo siempre han dominado el campo del comportamiento humano. Consisten en referencias a eventos "mentales", como cuando se dice que un organismo aprende a comportarse de cierta manera porque "encuentra algo agradable" o porque "espera que algo suceda". Para el psicólogo mentalista estos eventos explicativos no son más teóricos que q ue las conexiones sinápticas con el neurofisiólogo, pero en una ciencia del comportamiento son teorías porque los métodos [p. 194] y los términos apropiados para los eventos a explicar difieren de los métodos y términos apropiados para los eventos explicativos. En un tercer tipo de teoría del aprendizaje, los eventos explicativos no se observan directamente. La sugerencia del escritor de que las letras CNS sean consideradas como representantes, no del Sistema Nervioso Central, sino del Sistema Nervioso Conceptual ( 2 , p.421), parece haberse tomado en serio. Muchos teóricos señalan que no están hablando del sistema nervioso como una estructura real sometida a cambios fisiológicos o bioquímicos, sino solo como un sistema con un cierto rendimiento dinámico. Las teorías de este tipo se multiplican rápidamente, al igual que las versiones operativas paralelas de los eventos mentales. Una definición de expectativa puramente conductual tiene la ventaja de que se evita el problema de la observación mental y, con ello, el problema de cómo un evento mental puede causar uno físico. Pero tales teorías no llegan a afirmar que los eventos explicativos son idénticos a los hechos conductuales que pretenden explicar. Una afirmación sobre el comportamiento puede respaldar dicha teoría, pero nunca se parecerá a ella en términos o sintaxis. Los postulados son buenos ejemplos. Los verdaderos postulados no pueden convertirse en hechos. Los teoremas se pueden deducir de ellos que, como afirmaciones tentativas sobre el comportamiento, pueden o no confirmarse, pero los teoremas no son teorías en el sentido presente.Los postulados siguen siendo teorías hasta el final. No es el propósito de este trabajo mostrar que ninguna de d e estas teorías se puede poner en buen orden científico, o que los eventos a los que se refieren pueden no ocurrir ocur rir o ser estudiados por las ciencias apropiadas. Sería imprudente negar los logros de teorías de este tipo en la historia de la ciencia. La cuestión de si son necesarios, sin embargo, tiene otras implicaciones y vale la pena preguntar. Si la respuesta es no, entonces puede ser posible argumentar de manera efectiva contra la teoría en el campo del aprendizaje. Una ciencia del comportamiento debe eventualmente lidiar con el comportamiento en su relación con ciertas variables manipulables. Las teorías, ya sean neurológicas, mentales o conceptuales, hablan de pasos intermedios en estas relaciones. Pero en lugar de incitarnos a buscar y explorar variables relevantes, con frecuencia tienen un efecto bastante opuesto. Cuando atribuimos el comportamiento a un evento neuronal o mental, real o conceptual, es probable que olvidemos que todavía tenemos la tarea de dar cuenta del evento neural o mental. Cuando afirmamos que un animal actúa de una manera determinada porque espera recibir alimento, entonces lo que comenzó como la tarea de dar cuenta del comportamiento aprendido se convierte en la tarea de dar cuenta de la expectativa. El problema es al menos igualmente complejo y probablemente más difícil. Es probable que cerremos nuestros ojos y usemos la teoría para darnos respuestas en lugar de las respuestas que podamos encontrar a través de un estudio posterior. Se podría argumentar que la función principal de la teoría
del aprendizaje hasta la fecha ha sido, no sugerir investigaciones apropiadas, sino crear una falsa sensación de seguridad, una satisfacción injustificada con el status quo . La investigación diseñada con respecto a la teoría también es probable que sea un desperdicio. Que una teoría genere investigación no prueba su valor a menos que la investigación sea valiosa. Muchos experimentos inútiles resultan de teorías, y mucha energía y habilidad son absorbidas por ellos. La mayoría de las teorías finalmente se derrocan, y la mayor parte de la investigación asociada se descarta. Esto podría justificarse si fuera cierto que la investigación productiva requiere una teoría, como es, por supuesto, a menudo reivindicada. Se argumenta que la investigación sería sin rumbo y desorganizada sin una teoría que lo guiara. La opinión es apoyada por textos psicológicos que toman la indicación de los lógicos en lugar de la ciencia empírica y [p. 195] describen el pensamiento como necesariamente involucrando etapas de hipótesis, deducción, prueba experimental y confirmación. Pero esta no es la forma en que la mayoría de los científicos realmente trabajan. Es posible diseñar experimentos significativos por otras razones y la posibilidad de ser examinada es que dicha investigación conducirá más directamente al tipo de información que una ciencia generalmente acumula. Las alternativas son, al menos, vale la pena considerar. ¿Cuánto se puede hacer sin teoría? ¿Qué otros tipos de actividad científica son posibles? ¿Y qué luz arrojan las prácticas alternativas sobre nuestra preocupación actual por la teoría? Sería inconsistente tratar de responder estas preguntas a un nivel teórico. Por lo tanto, volvamos a algunos materiales experimentales en tres áreas en las que las teorías del aprendizaje ahora florecen y plantea la cuestión de la función de la teoría de una manera más concreta. [ 2 ] El dato básico en el aprendizaje Lo que realmente sucede cuando un organismo aprende no es una pregunta fácil. Aquellos que estén interesados en una ciencia del comportamiento insistirán en que el aprendizaje es un cambio en el comportamiento, pero tienden a evitar referencias explícitas a las respuestas o actos como tales. "Aprender es el ajuste o la adaptación a una situación". Pero, ¿de qué cosas se hacen ajustes y adaptaciones? ¿Son datos o inferencias de datos? "El aprendizaje es una mejora". Pero mejora en qué? ¿Y desde qué punto de vista? "Aprender es restaurar el equilibrio". ¿Pero qué está en equilibrio y cómo se pone allí? "El aprendizaje es la resolución de problemas". Pero, ¿cuáles son las dimensiones físicas de un problema, o de una solución? Las definiciones de este tipo muestran una falta de voluntad de tomar lo que aparece ante los ojos en un experimento de aprendizaje como un dato básico. Las observaciones particulares parecen demasiado triviales. Un puntaje de error cae; pero no estamos preparados para decir que esto es aprender más que simplemente el resultado del aprendizaje. Un organismo cumple un criterio de diez ensayos exitosos; pero un criterio arbitrario está en desacuerdo con nuestra concepción de la generalidad del proceso de aprendizaje. Aquí es donde interviene la teoría. Si no es el tiempo requerido para salir de una caja de rompecabezas que cambia en el aprendizaje, sino más bien la fuerza de un vínculo, o la
conductividad de una vía neural, o el potencial excitador de un hábito, entonces los problemas parecen desaparecer. Salir de una caja cada vez más rápido no está aprendiendo; es meramente rendimiento. El aprendizaje continúa en otro lugar, en un sistema dimensional diferente.Y aunque el tiempo requerido depende de condiciones arbitrarias, a menudo varía de manera discontinua y está sujeto a reversiones de magnitud, estamos seguros de que el proceso de aprendizaje en sí es continuo, ordenado y más allá de los accidentes de medición. Nada podría ilustrar mejor el uso de la teoría como refugio de los datos. Pero finalmente debemos regresar a un dato observable. Si el aprendizaje es el proceso que suponemos que es, entonces debe aparecer así en las situaciones en que lo estudiamos. Incluso si el proceso básico pertenece a algún otro sistema dimensional, nuestras medidas deben tener propiedades relevantes y comparables. Pero las situaciones experimentales productivas son difíciles de encontrar, particularmente si aceptamos ciertas restricciones plausibles.Mostrar un cambio ordenado en el comportamiento de una rata o un mono o un niño promedio no es suficiente, ya que el aprendizaje es un proceso en el comportamiento de [pág. 196] el individuo. Registrar el comienzo y el final del aprendizaje o algunos pasos discretos no serán suficientes, ya que una serie de secciones transversales no proporcionará una cobertura completa de un proceso continuo. Las dimensiones del cambio deben surgir del comportamiento mismo; no deben ser impuestos por un juicio externo de éxito o fracaso o un criterio externo de completitud. Pero cuando revisamos la literatura con estos requisitos en mente, encontramos poca justificación para el proceso teórico en el que nos sentimos tan cómodos. El nivel de energía o el rendimiento laboral de la conducta, por ejemplo, no cambia de manera adecuada. En el tipo de comportamiento adaptado al experimento pavloviano (comportamiento del encuestado), puede haber un aumento progresivo en la magnitud de la respuesta durante el aprendizaje. Pero no gritamos más y más nuestras respuestas a medida que aprendemos material verbal, ni una rata presiona una palanca con más fuerza a medida que avanza el condicionamiento. En el comportamiento operante, la energía o magnitud de la respuesta cambia significativamente solo cuando un valor arbitrario se refuerza diferencialmente, cuando tal cambio es lo que se aprende. La aparición de una respuesta correcta en competencia con respuestas incorrectas es otro dato frecuentemente utilizado en el estudio del aprendizaje. El laberinto y la caja de discriminación producen resultados que pueden reducirse a estos términos. Pero una relación de comportamiento de derecha vs. lo incorrecto no puede producir una medida continuamente cambiante en un solo experimento en un solo organismo. El punto en el cual una respuesta tiene prioridad sobre otra no puede darnos la historia completa del cambio en ninguna de las respuestas. Promediando curvas para grupos de ensayos u organismos no resolverá este problema. Recientemente se ha prestado más atención a la latencia, cuya relevancia, al igual que la del nivel de energía, es sugerida por las propiedades de los reflejos condicionados y no condicionados. Pero en el comportamiento operante, la relación con un estímulo es diferente. Una medida de latencia implica otras consideraciones, como lo mostrará la inspección de cualquier caso. La mayoría de las respuestas operantes pueden emitirse en
ausencia de lo que se considera un estímulo relevante. En tal caso, es probable que la respuesta aparezca antes de que se presente el estímulo. No es una solución escapar de esta vergüenza al bloquear una palanca para que un organismo no pueda presionarla hasta que se presente el estímulo, ya que apenas podemos contentarnos con las relaciones temporales que han sido forzadas a cumplir con nuestras expectativas. Las latencias de pista están sujetas a esta objeción. En un experimento típico, se abre la puerta de una caja de inicio y se mide el tiempo que transcurre antes de que una rata abandone la caja. Abrir la puerta no es solo un estímulo, es un cambio en la situación que hace que la respuesta sea posible por primera vez. El tiempo medido no es tan simple como una latencia y requiere otra formulación. Mucho depende de lo que la rata esté haciendo en el momento en que se presente el estímulo. Algunos experimentadores esperan hasta que la rata está frente a la puerta, pero hacerlo es alterar la medición que se está tomando. Si, por otro lado, se abre la puerta sin hacer referencia a lo que está haciendo la rata, el primer efecto importante es el condicionamiento del comportamiento de espera favorable. La rata finalmente se queda cerca y de cara a la puerta. El tiempo de inicio más corto resultante no se debe a una reducción en la latencia de una respuesta, sino al condicionamiento del comportamiento preliminar favorable. Las latencias en un solo organismo no siguen un proceso de aprendizaje simple. Se obtuvieron datos relevantes sobre este punto como parte de un extenso estudio del tiempo de reacción. Una paloma, encerrada en una caja, está acondicionada para picotear un disco empotrado en una pared. La comida se presenta como refuerzo al exponer una tolva a través de [p. 197] un orificio debajo del disco. Si las respuestas se refuerzan solo después de que se ha presentado un estímulo, las respuestas en otros momentos desaparecen.Se obtienen tiempos de reacción muy cortos mediante respuestas de refuerzo diferencial que ocurren muy poco después del estímulo ( 4 ). Pero las respuestas también se hacen rápidamente sin refuerzo diferencial. La inspección muestra que esto se debe al desarrollo de una espera efectiva. El pájaro se para frente al disco con la cabeza en buena posición de golpe. En condiciones óptimas, sin refuerzo diferencial, el tiempo medio entre el estímulo y la respuesta será del orden de 1/3 seg. Esta no es una verdadera latencia refleja, ya que el estímulo es discriminativo en lugar de provocar, pero es un buen ejemplo de la latencia utilizada en el estudio del aprendizaje. El punto es que esta medida no varía continuamente o de manera ordenada. Al darle más comida al ave, por ejemplo, inducimos una condición en la que no siempre responde. Pero las respuestas que ocurren muestran aproximadamente la misma relación
temporal con el estímulo (Fig. 1, curva media). En la extinción, de especial interés aquí, hay una dispersión de latencias porque la falta de refuerzo genera una condición emocional. Algunas respuestas se producen antes y otras se retrasan, pero el valor más común permanece sin cambios (curva inferior en la Fig. 1). Las latencias más largas se explican fácilmente por inspección. El comportamiento emocional, del cual los ejemplos se mencionarán más adelante, es probable que esté en progreso cuando se presente la señal de listo. A menudo no se interrumpe antes de que se presente la señal de "ir", y el resultado es un largo tiempo de inicio. También comienzan a aparecer casos en los que el pájaro simplemente no responde en absoluto durante un tiempo específico. Si hacemos un promedio de una gran cantidad de lecturas, ya sea de un pájaro o de muchas, podemos crear lo que parece un alargamiento progresivo de la latencia. Pero los datos para un organismo individual no muestran un proceso continuo. Otro dato a examinar es la velocidad a la que se emite una respuesta. Afortunadamente, la historia aquí es diferente. Estudiamos esta frecuencia diseñando una situación en la cual una respuesta puede repetirse libremente, eligiendo una respuesta (por ejemplo, tocar o presionar una pequeña palanca o tecla) que se pueda observar y contar fácilmente.Las respuestas pueden registrarse en un polígrafo, pero una forma más conveniente es una curva acumulativa a partir de la cual la tasa de respuesta se lee inmediatamente como pendiente. La velocidad a la que se emite una respuesta en tal situación se aproxima a nuestra preconcepción del proceso de aprendizaje. A medida que el organismo aprende, la tasa aumenta. A medida que desaprende (por ejemplo, en extinción) la tasa cae. Varios tipos de estímulos discriminativos pueden controlarse con las correspondientes modificaciones de la frecuencia. Los cambios motivacionales alteran la tasa de una manera sensible. Entonces esos eventos de los que hablamos generan emoción. El rango a través del cual la tasa varía significativamente puede ser tan grande como del orden de 1000: 1. Los cambios en la tasa son satisfactoriamente suaves en el caso individual, por lo que no es necesario aver- [p. 198] casos de edad. Un valor dado es a menudo bastante estable: en la paloma se puede mantener una tasa de cuatro o cinco mil respuestas por hora sin interrupción durante tanto tiempo como quince horas. La tasa de respuesta parece ser el único dato que varía significativamente y en la dirección esperada bajo condiciones que son relevantes para el "proceso de aprendizaje". Podemos, por lo tanto, tener la tentación de aceptarlo como nuestra medida largamente buscada de fuerza de enlace, potencial de excitación, etc. Una vez en posesión de un dato efectivo, sin embargo, podemos sentir poca necesidad de cualquier construcción teórica de este tipo. . El progreso en un campo científico generalmente espera al descubrimiento de una variable dependiente satisfactoria. Hasta que se haya descubierto una variable de este tipo, recurrimos a la teoría. Las entidades que han figurado tan prominentemente en la teoría del aprendizaje han servido principalmente como sustitutos de un dato directamente observable y productivo. Tienen pocas razones para sobrevivir cuando se ha encontrado ese dato. No es accidental que la tasa de respuesta tenga éxito como dato, porque es particularmente apropiada para la tarea fundamental de una ciencia del comportamiento. Si queremos predecir el comportamiento (y posiblemente controlarlo), debemos tratar con la probabilidad de respuesta . El negocio de una ciencia del comportamiento es evaluar esta probabilidad y explorar las condiciones que la determinan. La fuerza del vínculo, la
expectativa, el potencial excitatorio, etc., llevan la noción de probabilidad en una forma fácil de imaginar, pero las propiedades adicionales sugeridas por estos términos han obstaculizado la búsqueda de medidas adecuadas. La tasa de respuesta no es una "medida" de la probabilidad, pero es el único dato apropiado en una formulación en estos términos. Como otras disciplinas científicas pueden atestiguar, las probabilidades no son fáciles de manejar. Queremos hacer declaraciones sobre la probabilidad de que se produzca una sola respuesta futura, pero nuestros datos se expresan en forma de frecuencias de respuestas que ya se han producido. Estas respuestas fueron presumiblemente similares entre sí y a la respuesta que se predijo. Pero esto plantea el problemático problema de respuestainstancia vs. clase de respuesta. Precisamente, ¿qué respuestas debemos tener en cuenta al predecir una instancia futura? Ciertamente, no las respuestas hechas por una población de diferentes organismos, dado que tal dato estadístico plantea más problemas de los que resuelve. Considerar la frecuencia de respuestas repetidas en un individuo exige algo como la situación experimental que acabamos de describir. Esta solución del problema de un dato básico se basa en la opinión de que el comportamiento operante es esencialmente un fenómeno emisivo. La latencia y la magnitud de la respuesta fallan como medidas porque no toman esto en cuenta. Son conceptos apropiados para el campo del reflejo, donde el control casi invariable ejercido por el estímulo desencadenante hace que la noción de probabilidad de respuesta sea trivial. Considere, por ejemplo, el caso de la latencia. Debido a nuestro conocimiento de reflejos simples inferimos que una respuesta que es más probable que sea emitida se emitirá más rápidamente. ¿Pero es esto cierto? ¿Qué puede significar la palabra "rápidamente"? La probabilidad de respuesta, así como la predicción de la respuesta, se refiere al momento de la emisión. Este es un punto en el tiempo, pero no tiene la dimensión temporal de una latencia. La ejecución puede llevar un tiempo después de que se haya iniciado la respuesta, pero el momento de ocurrencia no tiene duración. [ 3 ] En reconocimiento- [p. 199] nizando el carácter emisivo del comportamiento operante y la posición central de la probabilidad de respuesta como un dato, la latencia se ve como irrelevante para nuestra tarea actual. Varias objeciones se han hecho al uso de la tasa de respuesta como un dato básico. Por ejemplo, un programa como este puede impedirnos tratar con muchos eventos que son eventos únicos en la vida del individuo. Un hombre no decide una carrera, se casa, gana un millón de dólares o muere en un accidente con la frecuencia suficiente como para que la tasa de respuesta sea significativa. Pero estas actividades no son respuestas. No son simples eventos unitarios que se prestan a la predicción como tal. Si vamos a predecir el matrimonio, el éxito, los accidentes, etc., en algo más que términos estadísticos, debemos tratar con las unidades de comportamiento más pequeñas que conducen y componen estos episodios unitarios. Si las unidades aparecen en forma repetible, se puede aplicar el presente análisis. En el campo del aprendizaje, una objeción similar toma la forma de preguntar cómo el presente análisis puede extenderse a situaciones experimentales en las que es imposible observar frecuencias. No se sigue que el aprendizaje no tenga lugar en tales situaciones. La noción de probabilidad generalmente se extrapola a los casos en que no se puede llevar a cabo un análisis de frecuencia. En el campo del comportamiento, organizamos una situación en la cual las frecuencias están disponibles como datos, pero
usamos la noción de probabilidad para analizar y formular instancias o incluso tipos de comportamiento que no son susceptibles de este análisis. Otra objeción común es que una tasa de respuesta es solo un conjunto de latencias y, por lo tanto, no es un dato nuevo en absoluto. Esto se muestra fácilmente como incorrecto. Cuando medimos el tiempo transcurrido entre dos respuestas, no tenemos dudas sobre qué estaba haciendo el organismo cuando iniciamos nuestro reloj. Sabemos que solo estaba ejecutando una respuesta. Este es un cero natural, bastante diferente del punto arbitrario desde el que se miden las latencias. La repetición libre de una respuesta produce un dato rítmico o periódico muy diferente de la latencia. Muchos procesos físicos periódicos sugieren paralelismos. No elegimos la tasa de respuesta como un dato básico meramente a partir de un análisis de la tarea fundamental de una ciencia del comportamiento. El último atractivo es su éxito en una ciencia experimental. El material que sigue se ofrece como una muestra de lo que se puede hacer. No pretende ser una demostración completa, pero debe confirmar el hecho de que cuando estamos en posesión de un dato que varía de manera significativa, es menos probable que recurramos a entidades teóricas que lleven la noción de probabilidad de respuesta. Por qué se produce el aprendizaje Podemos definir el aprendizaje como un cambio en la probabilidad de respuesta, pero también debemos especificar las condiciones bajo las cuales se produce. Para hacer esto debemos estudiar algunas de las variables independientes de las cuales la probabilidad de respuesta es [p. 200] una función. Aquí encontramos otro tipo de teoría de aprendizaje. Una demostración efectiva de la Ley de Efecto de la sala de clase se puede organizar de la siguiente manera. Una paloma, reducida al 80 por ciento de su peso libre, está habituada a un pequeño anfiteatro semicircular y se alimenta allí durante varios días desde una tolva de alimentos, que el experimentador presenta al cerrar un interruptor de mano. La demostración consiste en establecer una respuesta seleccionada por refuerzo adecuado con alimentos. Por ejemplo, al observar a través del anfiteatro a una escala en la pared opuesta, es posible presentar la tolva siempre que la parte superior de la cabeza de la paloma se eleve por encima de una marca determinada. Se eligen marcas más altas y más altas hasta que, en pocos minutos, la paloma camina sobre la jaula con la cabeza tan alta como sea posible. En otra demostración, el ave está condicionada para golpear una canica colocada en el piso del anfiteatro. Esto se puede hacer en unos minutos reforzando los pasos sucesivos. La comida se presenta primero cuando el pájaro simplemente se mueve cerca del mármol, más tarde cuando mira hacia abajo en la dirección del mármol, más tarde aún cuando mueve su cabeza hacia el mármol, y finalmente cuando lo picotea. Cualquiera que haya visto tal demostración sabe que la Ley del Efecto no es una teoría. Simplemente especifica un procedimiento para alterar la probabilidad de una respuesta elegida. Pero cuando tratamos de decir por qué el refuerzo tiene este efecto, surgen teorías. Se dice que el aprendizaje tiene lugar porque el refuerzo es agradable, satisfactorio, reduce la tensión, y así sucesivamente. El proceso inverso de extinción se explica con teorías
comparables. Si la tasa de respuesta se eleva por primera vez a un punto alto mediante el refuerzo y el refuerzo retenido, se observa que la respuesta se produce cada vez con menos frecuencia. Una teoría común explica esto al afirmar que se construye un estado que suprime el comportamiento. Esta "inhibición experimental" o "inhibición de reacción" debe asignarse a un sistema dimensional diferente, ya que nada en el nivel de comportamiento corresponde a procesos opuestos de excitación e inhibición. La tasa de respuesta simplemente aumenta en una operación y disminuye en otra. Ciertos efectos comúnmente interpretados como que muestran la liberación de una fuerza de supresión se pueden interpretar de otras maneras. La desinhibición, por ejemplo, no es necesariamente el descubrimiento de la fuerza reprimida; puede ser un signo de fortaleza suplementaria de una variable extraña. El proceso de recuperación espontánea, a menudo citado para apoyar la noción de supresión, tiene una explicación alternativa, que se observará en un momento. Permítanos evaluar la pregunta de por qué el aprendizaje se lleva a cabo volviendo nuevamente a algunos datos. Dado que el acondicionamiento suele ser demasiado rápido para ser seguido fácilmente, el proceso de extinción nos proporcionará un caso más útil. Se han obtenido consistentemente varios tipos diferentes de curvas de ratas y palomas usando varios programas de refuerzo previo. Al considerar algunas de las condiciones relevantes, podemos ver qué espacio queda para los procesos teóricos. El simple paso del tiempo entre el condicionamiento y la extinción es una variable que tiene sorprendentemente poco efecto. La rata es demasiado efímera para hacer factible un experimento prolongado, pero la paloma, que puede vivir diez o quince años, es un sujeto ideal. Hace más de cinco años, veinte palomas fueron condicionadas para golpear una gran clave translúcida sobre la cual se proyectaba un complejo patrón visual. El refuerzo dependía del mantenimiento de una tasa alta y constante de respuesta y al golpear una característica particular del patrón visual. Estas aves fueron apartadas para estudiar la retención. Fueron transferidos a la vida habitual [P. 201] trimestres, donde sirvieron como criadores. Los grupos pequeños fueron probados para la extinción al final de los seis meses, un año, dos años y cuatro años. Antes de la prueba cada ave fue transferida a una jaula viva separada. Se usó un programa de alimentación controlada para reducir el peso a aproximadamente el 80 por ciento del peso libre . El pájaro fue alimentado en el aparato experimental débilmente iluminado en ausencia de la llave durante varios días, durante los cuales las respuestas emocionales al aparato desaparecieron. El día de la prueba, el pájaro fue colocado en la caja oscurecida. La clave translúcida estaba presente pero no iluminada. No se hicieron respuestas. Cuando el patrón se proyectó sobre la llave, las cuatro aves respondieron de manera rápida y exhaustiva. La Fig. 2 muestra la curva más grande obtenida. Este pájaro pulsó la tecla dentro de los dos segundos posteriores a la presentación de un patrón visual que no había visto durante cuatro años, y en el lugar preciso sobre el cual se había basado anteriormente el refuerzo diferencial. Continuó respondiendo durante la siguiente hora, emitiendo alrededor de 700 respuestas.Esto es del orden de la mitad a una cuarta parte de las respuestas que habría emitido si la extinción no se hubiera retrasado cuatro años, pero de lo contrario, la curva es bastante típica.
El nivel de motivación es otra variable a tener en cuenta. Un ejemplo del efecto del hambre ha sido reportado en otra parte ( 3 ). La respuesta de presionar una palanca se estableció en ocho ratas con un programa de refuerzo periódico. Se alimentaron con la parte principal de su ración en días alternos, por lo que las tasas de respuesta en días sucesivos fueron alternadamente altas y bajas. Dos subgrupos de cuatro ratas fueron emparejados en función de la tasa mantenida bajo refuerzo periódico bajo estas condiciones. La respuesta se extinguió, en un grupo en días alternos cuando el hambre era alta, en el otro grupo en días alternos cuando el hambre era baja. (Se consumió la misma cantidad de alimento en los días no experimentales que antes). El resultado se muestra en la Fig. 3. El gráfico superior proporciona los datos brutos. Los niveles de hambre están indicados por los puntos en P en la abscisa, las tasas que prevalecen bajo refuerzo periódico. Los puntos siguientes muestran el declive en la extinción. Si multiplicamos la curva inferior por un factor elegido para superponer los puntos en P, las curvas se superponen razonablemente de cerca, como se muestra en el gráfico inferior. Varios otros experimentos en ratas y palomas han confirmado este principio general. Si una proporción dada de respuesta prevalece bajo refuerzo periódico, las pendientes de curvas de extinción posteriores muestran la misma proporción. El nivel de hambre determina la pendiente de la curva de extinción pero no su curvatura.
[pag. 202] Otra variable, la dificultad de respuesta, es especialmente relevante porque se ha utilizado para probar la teoría de la inhibición de la reacción ( 1 ), en el supuesto de que una respuesta que requiere una energía considerable acumulará más inhibición de reacción que una respuesta fácil y plomo. por lo tanto, para una extinción más rápida. La teoría requiere que se modifique la curvatura de la curva de extinción, no simplemente su pendiente. Sin embargo, hay evidencia de que la dificultad de respuesta actúa como el nivel de hambre simplemente para alterar la pendiente. Algunos datos han sido reportados pero no publicados ( 5 ). Una paloma está suspendida en una chaqueta que limita sus alas y patas, pero deja la cabeza y el cuello libres para responder a una llave y un cargador de alimentos. Su comportamiento en esta situación es cuantitativamente muy parecido al de un pájaro moviéndose libremente en una caja experimental. Pero el uso de la chaqueta tiene la ventaja de que la respuesta a la llave puede
ser fácil o difícil al cambiar la distancia que debe alcanzar el ave. En un experimento, estas distancias se expresaron en siete unidades iguales pero arbitrarias. A la distancia 7 el pájaro apenas podía alcanzar la llave, a los 3 podría golpear sin extender apreciablemente su cuello. El refuerzo periódico proporcionó una línea de base recta sobre la cual fue posible observar el efecto de la dificultad cambiando rápidamente de posición durante el período experimental. Cada uno de los cinco registros en la Fig. 4 cubre un período experimental de quince minutos bajo refuerzo periódico. Las distancias del pájaro de la llave se indican con números encima de los registros. Se observará que la tasa de respuesta a la distancia 7 es generalmente bastante baja, mientras que la de la distancia 3 es alta. Las distancias intermedias producen pendientes intermedias. También se debe notar que el cambio de una posición a otra se siente inmediatamente. Si las respuestas repetidas en una posición difícil fueron construir una cantidad considerable de inhibición de la reacción, deberíamos esperar que la tasa sea baja durante un tiempo breve después de regresar a una respuesta fácil. Por el contrario, si una respuesta fácil fue generar poca inhibición de reacción, deberíamos esperar una tasa bastante alta de respuesta durante algún tiempo después de asumir una posición difícil. Nada como esto ocurre. La "extinción más rápida" de una respuesta difícil es una expresión ambigua. La constante de pendiente se ve afectada y con ella el número de respuestas en extinción a un criterio, pero puede no haber efecto sobre la curvatura. Una forma de considerar la pregunta de por qué las curvas de extinción son curvas es considerar la extinción como un proceso de ex- [p. 203] haustion comparable a la pérdida de calor de la fuente al sumidero o la caída del nivel de un depósito cuando se abre una salida. El acondicionamiento desarrolla una predisposición a responder, una "reserva", que la extinción agota. Esta es quizás una descripción defendible en el nivel de comportamiento. La reserva no es necesariamente una teoría en el sentido presente, ya que no está asignada a un sistema dimensional diferente. Podría definirse operativamente como una curva de extinción pronosticada, aunque, lingüísticamente, haga una declaración sobre la condición momentánea de una respuesta. Pero no es un concepto particularmente útil, ni la opinión de que la extinción es un proceso de agotamiento añade mucho al hecho observado de que las curvas de extinción se curvan de cierta manera.
Sin embargo, hay dos variables que afectan la velocidad, que operan durante la extinción para alterar la curvatura. Uno de estos cae dentro del campo de la emoción. Cuando no reforzamos una respuesta que se ha reforzado previamente, no solo iniciamos un proceso de extinción, sino que también establecemos una respuesta emocional, tal vez lo que a menudo significa frustración. La paloma coos en una [p. 204] patrón identificable, se mueve rápidamente alrededor de la jaula, defeca o mueve sus alas rápidamente en una posición de cuclillas que sugiere el comportamiento de pisada (apareamiento). Esto compite con la respuesta de golpear una tecla y es tal vez suficiente para explicar la disminución en la tasa de extinción temprana. También es posible que la probabilidad de una respuesta basada en la privación de alimentos se reduzca directamente como parte de dicha reacción emocional. Cualquiera que sea su naturaleza, el efecto de esta variable se elimina mediante la adaptación. Las curvas de extinción repetidas se suavizan, y en algunos de los programas que se describirán en breve hay poca o ninguna evidencia de una modificación emocional de la frecuencia. Una segunda variable tiene un efecto mucho más serio. La máxima respuesta durante la extinción se obtiene solo cuando las condiciones bajo las cuales se reforzó la respuesta se reproducen con precisión. Una rata condicionada en presencia de una luz no se extinguirá completamente en ausencia de la luz. Comenzará a responder más rápidamente cuando se vuelva a introducir la luz. Esto es cierto para otros tipos de estímulos, como lo ilustra el siguiente experimento en el aula. Nueve palomas fueron acondicionadas para golpear un triángulo amarillo bajo refuerzo intermitente. En la sesión representada por la Fig. 5, las aves se reforzaron primero en este programa durante 30 minutos. La curva acumulada combinada es esencialmente una línea recta, que muestra más de 1100 respuestas por ave durante este período. Un triángulo rojo fue sustituido por el amarillo y no se reforzaron las respuestas a partir de entonces. El efecto fue una caída pronunciada en la respuesta, con solo una ligera recuperación durante los siguientes quince minutos. Cuando se reemplazó el triángulo amarillo, la respuesta rápida comenzó inmediatamente y siguió la curva de
extinción habitual. Experimentos similares han demostrado que el tono de un tono incidental, la forma de un patrón que se golpea, o el tamaño de un patrón, si está presente durante el acondicionamiento, controlará en cierta medida la tasa de respuesta durante la extinción. Algunas propiedades son más efectivas que otras, y es posible una evaluación cuantitativa.Cambiando a varios valores de un estímulo en orden aleatorio repetidamente durante el proceso de extinción, el gradiente para la generalización del estímulo se puede leer directamente en las tasas de respuesta debajo de cada valor.
Algo muy parecido a esto debe continuar durante la extinción. Supongamos que todas las respuestas a una clave se han reforzado y que a cada una le ha seguido un breve período de alimentación. Cuando extinguimos el comportamiento, creamos una situación en la que las respuestas no se refuerzan, en las que no se come, y en las que probablemente haya nuevas respuestas emocionales. La situación podría ser tan novedosa como un triángulo rojo después de un amarillo. Si es así, podría explicar la disminución en la tasa durante la extinción. Podríamos haber obtenido un [p. 205] curva suave, con forma de curva de extinción , entre las líneas verticales en la Fig. 5 cambiando gradualmente el color del triángulo de amarillo a rojo. Esto podría haber sucedido aunque no se estaba produciendo ningún otro tipo de extinción. Las mismas condiciones de extinción parecen presuponer una creciente novedad en la situación experimental. ¿Es por eso que la curva de extinción es curva? Alguna evidencia proviene de los datos de "recuperación espontánea". Incluso después de la extinción prolongada, un organismo a menudo responderá a mayor velocidad durante al
menos unos momentos al comienzo de otra sesión. Una teoría sostiene que esto muestra una recuperación espontánea de algún tipo de inhibición, pero otra explicación es posible. No importa cuán cuidadosamente se maneje un animal, la estimulación que coincide con el comienzo de un experimento debe ser extensa y diferente a cualquier cosa que ocurra en la última parte de un período experimental. Las respuestas se han reforzado en la presencia de, o poco después, el organismo se coloca nuevamente en la situación experimental, la estimulación es esta estimulación. En extinción, está presente solo por unos momentos. Cuando restaurado; se emiten otras respuestas como en el caso del triángulo amarillo. La única forma de lograr la extinción total en presencia de la estimulación de comenzar un experimento es comenzar el experimento repetidamente.
Otra evidencia del efecto de la novedad proviene del estudio del refuerzo periódico. El hecho de que el refuerzo intermitente produzca curvas de extinción más grandes que el refuerzo continuo es una dificultad problemática para quienes esperan una relación simple entre el número de refuerzos y el número de respuestas en extinción. Pero esta relación es realmente bastante compleja. Un resultado del refuerzo periódico es que los cambios emocionales se adaptan. Esto puede ser responsable de la suavidad de las curvas de extinción posteriores, pero probablemente no de su mayor extensión. Esto último puede atribuirse a la falta de novedad en la situación de extinción. Bajo refuerzo periódico muchas respuestas se hacen sin refuerzo y cuando no se ha comido recientemente. La situación en extinción no es totalmente nueva.
El refuerzo periódico no es, sin embargo, una solución simple. Si reforzamos [p. 206] El refuerzo periódico no es, sin embargo, una solución simple. Si reforzamos en un horario regular, digamos, cada minuto, el organismo pronto forma una discriminación. Poca o ninguna respuesta ocurre justo después del refuerzo, ya que la estimulación de comer se correlaciona con la ausencia de refuerzo posterior. La rapidez con que se puede desarrollar la discriminación se muestra en la Fig. 6, que reproduce las primeras cinco curvas obtenidas de una paloma con refuerzo periódico en períodos experimentales de quince minutos cada una. En el quinto período (o después de aproximadamente una hora de refuerzo periódico), la discriminación produce una pausa después de cada refuerzo, lo que resulta en una curva marcadamente gradual. Como resultado de esta discriminación, el pájaro casi siempre responde rápidamente cuando se lo refuerza. Esta es la base de otra discriminación. La respuesta rápida se convierte en una condición estimulante favorable. Un buen ejemplo del efecto sobre la curva de extinción posterior se muestra en la Fig. 7. Esta paloma había sido reforzada una vez por minuto durante períodos experimentales diarios de quince minutos cada uno durante varias semanas. En la curva de extinción que se muestra, el ave comienza a responder a la velocidad prevaleciente según el cronograma anterior. Una aceleración positiva rápida al inicio se pierde en la reducción del registro. La paloma rápidamente alcanza y mantiene una tasa que es más alta que la tasa global durante el refuerzo periódico. Durante este período, la paloma crea una condición estimulante previamente correlacionada de manera óptima con el refuerzo. Eventualmente, cuando algún tipo de agotamiento interviene, la tasa cae rápidamente a un valor mucho más bajo pero bastante estable y luego prácticamente a cero. Entonces prevalece una condición bajo la cual una respuesta normalmente no se refuerza. Por lo tanto, es improbable que el ave comience a responder de nuevo. Sin embargo, cuando responde, la situación mejora ligeramente y, si continúa respondiendo, las condiciones se vuelven rápidamente similares a aquellas bajo las cuales se recibió el refuerzo. Bajo esta "autocatálisis", se alcanza rápidamente una tasa alta y se emiten más de 500 respuestas en una segunda ráfaga. La tasa luego disminuye rápidamente y bastante suavemente, nuevamente a casi cero. Esta curva no es en modo alguno desordenada. La mayor parte de la curvatura es suave. Pero el estallido de respuesta a los cuarenta y cinco minutos muestra una fuerza residual considerable que, si la extinción fuera meramente agotamiento, debería haber aparecido antes en la curva. La curva puede explicarse razonablemente suponiendo que [p. 207] el pájaro está controlado en gran parte por la correlación espuria precedente entre el refuerzo y la respuesta rápida.
Esta suposición puede verificarse mediante la construcción de un cronograma de reforzamiento en el que es imposible una contingencia diferencial entre la tasa de respuesta y el refuerzo. En uno de esos esquemas de lo que se puede llamar "refuerzo aperiódico", un intervalo entre respuestas reforzadas sucesivas es tan breve que no intervienen respuestas no reforzadas, mientras que el intervalo más largo es de aproximadamente dos minutos. Otros intervalos se distribuyen aritméticamente entre estos valores, el promedio restante de un minuto. Los intervalos son aproximadamente aleatorios para componer un programa de refuerzo. Bajo este programa, la probabilidad de refuerzo no cambia con respecto a los refuerzos previos, y las curvas nunca adquieren el carácter gradual de la curva E en la Fig. 6. (La Figura 9 muestra las curvas de un programa similar). Como resultado, no hay correlación entre se pueden desarrollar diferentes tasas de respuesta y diferentes probabilidades de refuerzo.
En la Fig. 8 se muestra una curva de extinción después de una breve exposición a refuerzos aperiódicos. Comienza característicamente a la velocidad predominante bajo refuerzo aperiódico y, a diferencia de la curva que sigue al refuerzo periódico periódico, no se acelera a una velocidad global más alta. No hay evidencia de la producción "autocatalítica" de una condición estimulante óptima. También característicamente, no hay discontinuidades significativas o cambios repentinos en la tasa en cualquier dirección. La curva se extiende a lo largo de un período de ocho horas, frente a no exactamente dos horas en la figura 7, y parece representar un único proceso ordenado. El número total de respuestas es mayor, tal vez debido al mayor tiempo permitido para la emisión. Todo esto puede explicarse por el simple hecho de que hemos hecho imposible que la paloma forme un par de discriminaciones basadas, primero, en la estimulación por comer y, segundo, en el estímulo de una respuesta rápida. Dado que el intervalo más largo entre el refuerzo fue de solo dos minutos, una cierta novedad aún debe haberse introducido con el paso del tiempo. Si esto explica la curvatura en la figura 8 puede probarse hasta cierto punto con otros programas de refuerzo que contienen intervalos mucho más largos. Se construyó una progresión geométrica comenzando con 10 segundos como el intervalo más corto y multiplicándose repetidamente a través de una relación de 1.54. Esto produjo un conjunto de intervalos de un promedio de 5 minutos, el más largo de los cuales fue más de 21 minutos. Tal conjunto fue aleatorizado en un programa [p. 208] de refuerzo repetido cada hora. Al cambiar a este programa de la serie aritmética, las tasas declinaron primero durante los
intervalos más largos, pero las palomas pronto pudieron mantener una tasa constante de respuesta debajo de ella. Dos registros en la forma en que se registraron se muestran en la figura 9. (El lápiz se restablece a cero después de cada mil respuestas. Para obtener una sola curva acumulativa, sería necesario cortar el registro y unir las secciones para producir una línea continua. La forma cruda se puede reproducir con menos reducción.) Cada armadura está representada por un tablero horizontal. El tiempo cubierto es de aproximadamente 3 horas. Los registros se muestran para dos palomas que mantuvieron diferentes tasas generales bajo este programa de refuerzo.
Bajo tal programa, se mantiene una tasa constante de respuesta durante al menos 21 minutos sin refuerzo, después de lo cual se recibe un refuerzo. Por lo tanto, se debería desarrollar menos novedad durante la extinción posterior. En la Curva 1 de la Fig. 10, la paloma había estado expuesta a varias sesiones de varias horas cada una con este conjunto geométrico de intervalos. El número de respuestas emitidas en extinción es aproximadamente el doble que la curva de la figura 8 después del conjunto aritmético de intervalos que promedia un minuto, pero el las curvas son muy parecidas. La exposición adicional a la programación geométrica genera ejecuciones más largas durante las cuales la velocidad no cambia significativamente. La Curva 2 siguió a la Curva 1 después de dos horas y media de refuerzo aperiódico adicional. En el día que se muestra en la curva 2, primero se dieron algunos refuerzos aperiódicos, como se marcó al comienzo de la curva. Cuando se interrumpió el refuerzo, prevaleció una tasa de respuesta bastante constante para varios miles de respuestas. Después de otra sesión experimental de dos horas y media con la serie geométrica, se grabó la curva 3. Esta sesión también comenzó con una serie corta de refuerzos aperiódicos, seguidos de una ejecución sostenida de más de 6000 respuestas no reforzadas con pocos cambios en la tasa (A). No parece haber ninguna razón por la cual otras series que promedian quizás más de cinco minutos por intervalo y que contienen intervalos excepcionales mucho más largos no lleven esa línea recta mucho más allá. En este ataque al problema de la extinción creamos un cronograma de refuerzo que se parece tanto a las condiciones que prevalecerán durante la extinción que no disminuye la tasa [p. 209] lugar durante mucho tiempo. En otras palabras, generamos extinción sin
curvatura. Finalmente, se produce algún tipo de agotamiento, pero no se aborda gradualmente. La última parte de la Curva 3 (desafortunadamente muy reducida en la figura) puede posiblemente sugerir agotamiento en la ligera curvatura general, pero es una pequeña parte de todo el proceso. El registro está compuesto principalmente por series de unos cientos de respuestas cada una, la mayoría de ellas aproximadamente a la misma velocidad que la que se mantiene bajo refuerzo periódico. La paloma se detiene bruscamente; cuando comienza a responder nuevamente, rápidamente alcanza la tasa de respuesta bajo la cual fue reforzada. Esto recuerda la correlación espuria entre la respuesta rápida y el refuerzo bajo refuerzo regular. Por supuesto, no hemos eliminado por completo esta correlación.A pesar de que ya no existe un refuerzo diferencial de altas contra bajas tasas, prácticamente todos los refuerzos han ocurrido bajo una tasa constante de respuesta.
El estudio adicional de los programas de refuerzo puede o no responder a la pregunta de si la novedad que aparece en la situación de extinción es completamente responsable de la curvatura. Parece ser necesario hacer que las condiciones prevalecientes durante la extinción sean idénticas a las condiciones que prevalecen durante el acondicionamiento. Esto puede ser imposible, pero en ese caso la pregunta es académico. La hipótesis, mientras tanto, no es una teoría en el sentido actual, [p. 210] ya que no hace declaraciones sobre un proceso paralelo en cualquier otro universo de discurso. [ 4 ]
El estudio de la extinción después de diferentes esquemas de reforzamiento aperiódico no se dirige completamente a esta hipótesis. El objeto es una descripción económica de las condiciones que prevalecen durante el refuerzo y la extinción y de las relaciones entre ellas. Al usar la tasa de respuesta como un dato básico, podemos apelar a condiciones que son observables y manipulables y podemos expresar las relaciones entre ellas en términos objetivos. En la medida en que nuestro dato lo hace posible, reduce la necesidad de la teoría. Cuando observamos una paloma que emite 7000 respuestas a una velocidad constante sin refuerzo, no es probable que expliquemos una curva de extinción que contenga quizás unos cientos de respuestas apelando a la acumulación de inhibición de la reacción o cualquier otro producto de fatiga. La investigación que se realiza sin compromiso con la teoría es más probable que lleve el estudio de la extinción a nuevas áreas y nuevos órdenes de magnitud. Al acelerar la acumulación de datos, aceleramos la salida de las teorías. Si las teorías no han tenido parte en el diseño de nuestros experimentos, no debemos lamentar verlos partir. Aprendizaje complejo Un tercer tipo de teoría del aprendizaje se ilustra con términos como preferir , elegir , discriminar y emparejar . Se puede hacer un esfuerzo para definirlos únicamente en términos de comportamiento, pero en la práctica tradicional se refieren a procesos en otro sistema dimensional. Una respuesta a uno de los dos estímulos disponibles se puede llamar elección, pero es más común decir que es el resultado de la elección, lo que significa que esta última es una actividad preconductual teórica. Los procesos mentales superiores son los mejores ejemplos de teorías de este tipo; paralelos neurológicos no han sido bien resueltos. El atractivo de la teoría es alentado por el hecho de que elegir (como discriminar, emparejar, etc.) no es un comportamiento en particular. No es una respuesta o un acto con una topografía específica. El término caracteriza un segmento más grande de comportamiento en relación con otras variables o eventos. ¿Podemos formular y estudiar el comportamiento al que generalmente se aplicarían estos términos sin recurrir a las teorías que generalmente los acompañan? La discriminación es un caso relativamente simple. Supongamos que encontramos que la probabilidad de emisión de una respuesta dada no se ve significativamente afectada por el cambio de uno de los dos estímulos al otro. Luego hacemos que el refuerzo de la respuesta dependa de la presencia de uno de ellos. El resultado bien establecido es que la probabilidad de respuesta sigue siendo alta bajo este estímulo y alcanza un punto muy bajo debajo del otro. Decimos que el organismo ahora discrimina entre los estímulos. Pero la discriminación no es en sí misma una acción, o necesariamente un proceso único. Los problemas en el campo de la discriminación pueden establecerse en otros términos. ¿Cuánta inducción se obtiene entre estímulos de diferentes magnitudes o clases? Cuáles son las diferencias más pequeñas en los estímulos que producen una diferencia de control? Y así. Las preguntas de este tipo no presuponen actividades teóricas en otros sistemas dimensionales.
Se debe especificar un segmento algo más grande al tratar con el comportamiento de elegir uno de los dos estímulos concurrentes. Esto ha sido estudiado en la paloma al examinar las respuestas a dos claves diferentes- [p. 211] ing en posición (derecha o izquierda) o en alguna propiedad como color aleatorizado con respecto a la posición. Al reforzar ocasionalmente una respuesta en una tecla u otra sin favorecer ninguna tecla, obtenemos tasas iguales de respuesta en las dos teclas. El comportamiento se acerca a una simple alternancia de una clave a la otra. Esto sigue la regla de que las tendencias a responder eventualmente corresponden a las probabilidades de refuerzo. Dado un sistema en el que una tecla u otra se conecta ocasionalmente con la revista mediante un reloj externo, si la tecla correcta acaba de ser golpeada, la probabilidad de refuerzo a través de la tecla izquierda es mayor que la derecha ya que un intervalo mayor de tiempo ha transcurrido durante el cual el reloj puede haber cerrado el circuito a la tecla izquierda. Pero el comportamiento del pájaro no corresponde a esta probabilidad simplemente por respeto a las matemáticas. El resultado específico de tal contingencia de refuerzo es que cambiar a la otra clave y golpear se refuerza con más frecuencia que golpear la misma tecla por segunda vez. Ya no estamos lidiando solo con dos respuestas. Para analizar "elección" debemos considerar una única respuesta final, impactante, sin importar la posición o el color de la clave, y además las respuestas de cambiar de una clave o color a la otra. Los resultados cuantitativos son compatibles con este análisis. Si periódicamente reforzamos las respuestas solo a la tecla correcta, la tasa de respuesta de la derecha aumentará mientras que la de la izquierda disminuirá. La respuesta de cambiar de derecha a izquierda nunca se refuerza, mientras que la respuesta de cambiar de izquierda a derecha es ocasionalmente. Cuando el pájaro golpea a la derecha, no hay una gran tendencia a cambiar las llaves; cuando está golpeando a la izquierda, hay una fuerte tendencia a cambiar. Muchas respuestas más se hacen a la clave correcta. La necesidad de considerar el comportamiento del cambio se muestra claramente si ahora revertimos estas condiciones y reforzamos las respuestas solo a la tecla izquierda. El resultado final es una alta tasa de respuesta en la tecla izquierda y una tasa baja en la derecha. Al revertir las condiciones nuevamente, la tasa alta se puede volver a desplazar a la tecla derecha. En la Fig. 11 se ha promediado un grupo de ocho curvas para seguir este cambio durante seis periodos experimentales de 45 minutos cada uno. A partir del segundo día en el gráfico, las respuestas a la tecla derecha (R R ) disminuyen en la extinción mientras que las respuestas a la tecla izquierda (R L ) aumentan a través del refuerzo periódico. La tasa media no muestra variaciones significativas- [p. 212], ya que el refuerzo periódico continúa en el mismo horario. La tasa media muestra la condición de la fuerza de la respuesta al golpear una tecla independientemente de su posición. La distribución de respuestas entre derecha e izquierda depende de la fuerza relativa de las respuestas de cambio. Si esto fuera simplemente un
caso de la extinción de una respuesta y el reacondicionamiento concurrente de otra, la curva media no permanecería aproximadamente horizontal ya que el reacondicionamiento ocurre mucho más rápidamente que la extinción. [ 5 ]
La velocidad con la que el pájaro cambia de una llave a otra depende de la distancia entre las llaves. Esta distancia es una medida aproximada de la diferencia de estímulo entre las dos teclas. También determina el alcance de la respuesta de cambio, con una diferencia implícita en retroalimentación sensorial. También modifica la extensión del refuerzo a las respuestas supuestamente no reforzadas, ya que si las teclas están muy juntas, una respuesta reforzada en un lado puede ocurrir más pronto después de un precedente respuesta en el otro lado. En la Fig. 11, las dos teclas estaban a una pulgada de distancia. Por lo tanto, eran bastante similares con respecto a la posición en la caja experimental. Cambiar de uno a otro implicaba un mínimo de retroalimentación sensorial, y el refuerzo de una respuesta a una tecla podría seguir muy poco después de una respuesta a la otra. Cuando las teclas están separadas por hasta cuatro pulgadas, el cambio en la fuerza es mucho más rápido. La figura 12 muestra dos curvas registradas simultáneamente de una sola paloma durante un período experimental de aproximadamente 40 minutos. Una alta tasa [p. 213] a la tecla derecha y una tasa baja a la izquierda había sido establecida previamente. En la figura, no se reforzaron las respuestas a la derecha, pero las de la izquierda fueron cada minuto, como lo indican los guiones verticales por encima de la curva L. La pendiente de R disminuye de manera bastante suave, mientras que la de L aumenta, también bastante suavemente, hasta un valor comparable al valor inicial de R. El ave se ha conformado al
cambio de contingencia dentro de un único período experimental. La tasa media de respuesta se muestra mediante una línea punteada, que nuevamente muestra una curvatura no significativa. Lo que se llama "preferencia" entra en esta
formulación. En cualquier etapa del proceso que se muestra en la figura 12, la preferencia se puede expresar en términos de las tasas relativas de respuesta a las dos claves. Sin embargo, esta preferencia no consiste en pulsar una tecla sino en cambiar de una clave a otra. La probabilidad de que el ave golpee una tecla independientemente de sus propiedades de identificación se comporta independientemente de la respuesta preferencial de cambio de una clave a otra. Varios experimentos han revelado un hecho adicional. Una preferencia permanece fija si se retiene el refuerzo. La Fig. 13 es un ejemplo. Muestra curvas de extinción simultáneas de dos claves durante siete períodos experimentales diarios de una hora cada uno. Antes de la extinción, la fuerza relativa de las respuestas de cambio a R y cambio a L arrojó una "preferencia" de aproximadamente 3 a 1 para R. La constancia de la velocidad a lo largo del proceso de extinción se ha mostrado en la figura al multiplicar L por una constante adecuada e ingresar los puntos como pequeños círculos en R. Si la extinción altera la preferencia, las dos curvas no podrían superponerse de esta manera. Estas formulaciones de discriminación y elección nos permiten tratar lo que generalmente se considera un proceso mucho más complejo: hacer coincidir con la muestra. Supongamos que organizamos tres teclas translúcidas, cada una de las cuales puede iluminarse con luz roja o verde. La tecla del medio funciona como la muestra y la coloreamos en rojo o verde en orden aleatorio. Coloreamos las dos teclas laterales uno rojo y otro verde, también en orden aleatorio. El "problema" es pulsar la tecla lateral que corresponde en color a la tecla del medio. En tal caso, solo hay cuatro patrones de tres teclas, y es posible que una paloma aprenda a dar una respuesta adecuada a cada
patrón. Esto no ocurre, al menos dentro del lapso temporal de los experimentos hasta la fecha. Si simplemente presentamos una serie de ajustes de los tres colores y reforzamos las respuestas exitosas, la paloma tocará las teclas laterales sin Respecto al color o patrón y se reforzará el 50 por ciento de las veces. Este es, en efecto, un programa de refuerzo de "relación fija" que es adecuado para mantener una alta tasa de respuesta. Sin embargo, es posible lograr que una paloma coincida con la muestra al reforzar las respuestas discriminatorias de rojo-llamativo-después-de-ser-estimulado-por-rojo y verdellamativo-después-de-ser-estimulado-por-verde mientras se extinguen los otros dos posibilidades. La dificultad está en organizar la estimulación adecuada en el momento de la respuesta. La muestra puede hacerse visible, por ejemplo, al tener el color de la muestra en la iluminación general de la caja experimental. En tal caso, el pi- [p. 214] geon aprendería a pulsar las teclas rojas en una luz roja y las teclas verdes en una luz verde (asumiendo una iluminación neutra del fondo de las teclas). Pero un procedimiento que se apega más a la noción de emparejamiento es inducir a la paloma a "mirar la muestra" por medio de un refuerzo separado. Podemos hacer esto presentando primero el color en la tecla del medio, dejando las teclas laterales sin color. Luego se refuerza (en segundo lugar) una respuesta a la tecla central iluminando las teclas laterales. La paloma aprende a hacer dos respuestas en rápida sucesión: a la tecla central y luego a una tecla lateral. La respuesta a la tecla lateral sigue rápidamente a la estimulación visual de la tecla del medio, que es la condición necesaria para una discriminación. El emparejamiento exitoso se estableció fácilmente en las diez palomas analizadas con esta técnica. Elegir lo contrario también se configura fácilmente. La respuesta discriminativa de golpear-rojo-después-ser-estimulado-por-rojo aparentemente no es más fácil de establecer que golpear-rojo-después-ser-estimulado-por-verde. Cuando la respuesta es a una clave del mismo color, sin embargo, la generalización puede hacer posible que el pájaro coincida con un nuevo color. Esta es una extensión de la noción de coincidencia que aún no se ha estudiado con este método. Incluso cuando el comportamiento de coincidencia ha sido bien establecido, el pájaro no responderá correctamente si las tres claves se presentan ahora al mismo tiempo. El ave no posee un comportamiento fuerte al mirar la muestra. El experimentador debe mantener un refuerzo separado para mantener este comportamiento en fortaleza. En monos, simios y sujetos humanos, el éxito final en la elección es aparentemente suficiente para reforzar y mantener el comportamiento de mirar la muestra. Es posible que esta diferencia de especie sea simplemente una diferencia en las relaciones temporales requeridas para el refuerzo. El comportamiento de la coincidencia sobrevive sin cambios cuando se retiene todo el refuerzo. Se ha establecido un caso intermedio en el que la respuesta de coincidencia correcta solo se refuerza periódicamente. En un experimento, apareció un color en la tecla central durante un minuto; luego se cambió o no se cambió, al azar, al otro color. Una respuesta a esta tecla iluminó el teclas laterales, una roja y una verde, en orden aleatorio. Una respuesta a una tecla lateral cortó la iluminación de ambas teclas laterales, hasta que la tecla central se golpeó de nuevo. El aparato registró todas las respuestas coincidentes en un gráfico y todas las que no
coinciden en otro. Las palomas que han adquirido un comportamiento de coincidencia bajo refuerzo continuo han mantenido este comportamiento cuando se refuerza no más de una vez por minuto en promedio. Pueden hacer miles de respuestas coincidentes por hora mientras se refuerzan por no más de sesenta de ellos. Este cronograma no necesariamente desarrollará el comportamiento de emparejamiento en un ave ingenua, ya que el problema se puede resolver de tres maneras. El ave recibirá prácticamente tantos refuerzos si responde a (1) solo una tecla o (2) solo a un color, ya que la programación del experimento hace que cualquier respuesta persistente finalmente sea la correcta. Una muestra de los datos obtenidos en un experimento complejo de este tipo se da en la figura 14. Aunque esta paloma había aprendido a combinar el color bajo refuerzo continuo, cambió a la solución espuria de una preferencia de color bajo refuerzo periódico. Cuando la muestra era roja, golpeaba tanto la muestra como la tecla lateral roja y recibía todos los refuerzos. Cuando la muestra era verde, no respondía y las teclas laterales no estaban iluminadas. El resultado que se muestra al comienzo del gráfico en la Fig. 14 es una alta tasa de respuesta en el gráfico superior, que registra coincidencias[p. 215] respuestas de ing. (El registro es realmente paso a paso, siguiendo la presencia o ausencia de la muestra roja, pero esto se pierde en la reducción de la figura.)
Sin embargo, una preferencia de color no es una solución al problema de los opuestos. Al cambiar a este problema, fue posible cambiar el comportamiento del pájaro como se muestra entre las dos líneas verticales en la figura. La curva superior entre estas líneas muestra la disminución en las respuestas de coincidencia que resultó de la preferencia de color. La curva inferior entre las mismas líneas muestra el desarrollo de responder y coincidir con el color opuesto. En la segunda línea vertical, el refuerzo volvió a depender del emparejamiento. La curva superior muestra el restablecimiento del comportamiento de coincidencia, mientras que la curva inferior muestra un descenso al golpear el color opuesto. El resultado fue una verdadera solución: la paloma golpeó la muestra, sin importar su color, y luego la tecla lateral correspondiente. La línea más clara conecta los medios de una serie de puntos en las dos curvas. Parece seguir la misma regla que en el caso de elegir: los cambios en la distribución de las respuestas entre dos claves no implican la tasa global de respuesta a una tecla. Esta tasa media no se mantendrá constante en virtud de la solución falsa lograda con una preferencia de color, como al comienzo de esta figura. Estos experimentos en unos pocos procesos superiores se han descrito necesariamente muy brevemente. No se ofrecen como prueba de que las teorías del aprendizaje no son necesarias, pero pueden sugerir un programa alternativo en esta área difícil. Los datos en el campo de los procesos mentales superiores trascienden respuestas únicas o relaciones de estímulo-respuesta individuales. Pero parecen ser susceptibles de formulación en términos de la diferenciación de respuestas concurrentes, la discriminación de estímulos, el establecimiento de varias secuencias de respuestas, etc. No parece haber una razón a priori por la cual una cuenta completa no sea posible sin apelar a procesos teóricos en otros sistemas dimensionales. Conclusión Quizás prescindir completamente de las teorías es un tour de force que es demasiado esperar como práctica general. Las teorías son divertidas. Pero es posible que el progreso más rápido hacia la comprensión del aprendizaje pueda hacerse mediante investigaciones que no estén diseñadas para probar teorías. La inclinación para obtener datos que muestren los cambios ordenados característicos del proceso de aprendizaje proporciona un ímpetu adecuado. Un programa científico aceptable es recopilar datos de este tipo y relacionarlos con variables manipulables, seleccionadas para el estudio a través de una exploración del campo de sentido común. Esto no excluye la posibilidad de la teoría en otro sentido. Más allá de la colección de relaciones uniformes se encuentra [p. 216] la necesidad de una representación formal de los datos reducida a un número mínimo de términos. Una construcción teórica puede producir una mayor generalidad que cualquier conjunto de hechos. Pero tal construcción no se referirá a otro sistema dimensional y no lo hará, por lo tanto, antes, caen dentro de nuestra definición actual. No obstaculizará nuestra búsqueda de relaciones funcionales porque surgirá solo después de que se hayan encontrado y estudiado variables relevantes. Aunque puede ser difícil de entender, no se malentendirá fácilmente, y no tendrá ninguno de los efectos objetables de las teorías aquí consideradas.
No parece que estemos preparados para la teoría en este sentido. Por el momento hacemos poco uso efectivo de ecuaciones empíricas, y mucho menos racionales. Algunas de las curvas actuales podrían haberse ajustado bastante de cerca. Pero la investigación preliminar más elemental muestra que hay muchas variables relevantes, y hasta que su importancia haya sido determinada experimentalmente, una ecuación que les permite tener tantas constantes arbitrarias que un buen ajuste será una cuestión de rutina y una causa de muy poca satisfacción. [SRA. recibido el 5 de diciembre de 1949]
Notas a pie de página [ 1] Dirección del presidente, Asociación Psicológica del Medio Oeste, Chicago, Illinois, mayo de 1949. [ 2] Parte del material que sigue se obtuvo en 1941-42 en un estudio cooperativo sobre el comportamiento de la paloma en el que colaboraron Keller Breland, Norman Guttman y WK Estes. Parte de ella se selecciona de trabajos subsecuentes, aún inéditos, en la paloma realizados por el autor en la Universidad de Indiana y la Universidad de Harvard. Las limitaciones de espacio hacen que sea imposible informar todos los detalles aquí. [ 3] No puede, de hecho, acortarse o alargarse. Cuando una latencia parece estar forzada hacia un valor mínimo por refuerzo diferencial, se requiere otra interpretación. Aunque podemos reforzar diferencialmente el comportamiento más enérgico o la ejecución más rápida de la conducta después de que comienza, no tiene sentido hablar de respuestas de refuerzo diferencial con latencias cortas o largas. Lo que en realidad reforzamos diferencialmente son (a) comportamiento de espera favorable y (b) respuestas más vigorosas. Cuando le pedimos a un sujeto que responda "lo antes posible" en el experimento del tiempo de reacción humano, le pedimos esencialmente (a) que lleve a cabo la mayor parte de la respuesta posible sin llegar realmente al criterio de emisión, (b) a haga lo mínimo posible y (c) responda energéticamente después de que se haya dado el estímulo. Esto puede producir un tiempo mensurable mínimo entre el estímulo y la respuesta, pero esta vez no es necesariamente un dato básico ni nuestras instrucciones lo han alterado como tal. Se requiere una interpretación paralela del refuerzo diferencial de "latencias" largas. En los experimentos con palomas antes citados, se condiciona el comportamiento preliminar que pospone las respuestas a la llave hasta el momento adecuado. El comportamiento que "marca el tiempo" suele ser conspicuo. [ 4] Es cierto que apela a la estimulación generada en parte por el propio comportamiento de la paloma. Esto puede ser difícil de especificar o manipular, pero no es teórico en el sentido actual. Mientras que estemos dispuestos a asumir una correspondencia de uno a uno entre la acción y la estimulación, es posible una especificación física.
[ 5] Dos respuestas topográficamente independientes, capaces de emitir al mismo tiempo y, por lo tanto, que no requieren un cambio, muestran procesos separados de reacondicionamiento y extinción, y la tasa combinada de respuesta varía.
Referencias ( 1) MOWRER, OH, y JONES, HM Extinción y variabilidad del comportamiento como funciones del esfuerzo de la tarea. J. exp . Psychol ., 1943, 33, 369-386. ( 2) SKINNER, BF El comportamiento de los organismos . Nueva York: D. AppletonCentury Co., 1938. ( 3) -----. La naturaleza de la reserva operante. Psychol. Bull ., 1940, 37, 423 (resumen). ( 4) -----. Refuerzo diferencial con respecto al tiempo. Amer. Psychol ., 1946, 1, 274-275 (resumen). ( 5) -----. El efecto de la dificultad de una respuesta sobre su tasa de emisión. Amer. Psychol , 1946, 1, 462 (resumen).