Neste este liv livrro, o Professor essor Fr Fred1 . uma introdução simples e breve l em termos da teoria do reforço. I___________ ,___ e breve, identifica e esclarece todos os princípios fundamentais e indica suas interrelações e possíveis extensões. É, por isso, mais do que uma pura exposição de uma teoria da aprendizagem; oferece um ponto de vista de teoria da aprendizagem para toda a Psicologia. Milhares de experimentos foram realizados na área da teoria e prática da Psicologia. Os termos básicos e os conceitoschave, assim como o esquema daí resultantes constituem a principal preocupação desta pequena introdução.
APRENDIZAGEM: TEORIA DO REFORÇO
FICHA CATALOGRÁFICA (Preparada pelo Centro de Catalogação-na-fonte, Câmara Brasileira do Livro, SP)
Keller, Fred Simmons, 1899K38a
Aprendizagem: teoria do reforço; tradução de Rodolpho Azzi, Lea Zimmerman, Luiz Octávio de Seixas Queiroz. São Paulo, E.P.U. 1973. p. (Ciências do comportamento) Bibliografia. 1. Psicologia da aprendizagem I. Título. II. Série.
73-0535
CDD-153.15 Índices para o catálogo sistemático: 1. Aprendizagem : Psicologia 153.15 2. Psicologia da aprendizagem 153.15
FRED S. KELLER Professor Emérito de Psicologia, Columbia University
APRENDIZAGEM: TEORIA DO REFORCO 3 Tradução de Rodolpho Azzi Lea Zimmerman Luiz Octávio de Seixas Queiroz
Tradução brasileira da 2.a edição americana: Learning Lear ning:: reinfo rei nforce rcemen mentt theo th eory ry,, second edition, 1969, Copyright © 1954, 1969 by Random House, Inc.
13a Reim Reimpr pres essã são o, 2003
© E.P.U. - Editora Pedagógica e Universitária Ltda., São Paulo, 1974. Todos os direitos reservados. A reprodução desta obra, no todo ou em parte, por qualquer meio, sem autorização expressa e por escrito da Editora, sujeitará o infrator, nos termos da lei n° 6.895, de 17-12-1980, à penalidade prevista nos artigos 184 e 186 do Código Penal, a saber: reclusão de um a quatro anos. E. P. U. - Telefone (0++11) 3168-6077 - Fax. (0++11) 3078-5803 E-Mail:
[email protected] Site na Internet: http://www.epu.com.br Rua Joaquim Floriano, 72 - 6o andar - conjunto 65/68 - 04534-000 São Paulo - SP Impresso no Brasil Printed Printed in Brazil
ÍNDICE Prefácio da Segunda Edição Prefácio ............................................................................ Agradecimentos 1. Introdução ..................................................... 2. Comportament Comportamentoo operante operante e responde respondente nte . . . 3. Condicionamento respondente 4 . Condicionamento operante 5 . Refo Reforç rços os po posi siti tivo vo e n e g a tiv ti v o 6 . Extinção Extinç ão .................................... ................................................... ............... 7. Reforçamento intermitente 8. Comportamento supersticioso 9 . Baixa freqüência de resposta: um exemplo exemplo . 10. Extinçã Extinçãoo e reforço reforço n eg ativ at ivoo 11. Generalização................................................. 12. Discriminação 13. Diferenciação (Modelagem) 14. Encadeamento 15. Reforço condicionado positivo 16. Reforço condicionado negativo 17. Pós-escrito ................................ ............................................... ................... .... Apêndice: Curvas acumuladas e registrador acumulado Leituras sugeridas .............................. .............. ............................ ............
............................... ............... ................................ ............................... ................ .
.....................
.........................
.......................
..
...........................
.....................
.......... ......................... ...............
................. ............... .. .............. .............................. ................. .
.......................
.............................. ............... ............................... .................. ..
...................
...................
............................. .............. .......................... ........... .............. .................. ....
Prefácio da Segunda Edição Quando o Professor Hartley, há quinze anos atrás, pediu-me para pa ra escrever escrever uma um a introduçã intro duçãoo à teoria teori a do reforço pa para ra alunos do college, leigos interessados e professores que sentiam a necessidade de uma apresentação sumarizada, eu fiquei amedrontado. Despido do acompanhamento usual de curvas e tabelas, sem pormenores ex perimentais e indicação bibliográfica especializada, com pouc poucaa ou ne nhuma referência às fontes históricas e às questões discutíveis, seria o resumo algo que valesse valesse a pena ser lido? lido? O que restasse seria su ficiente para envolver o interesse dessa audiência ou de qualquer outra? ( Parece Pare ce agora que esse essess temores eram infundados. A apresenta ção abreviada aparentemente mostrou-se útil em vários níveis de en sino e pa para ra vários tipos tipos de leitores. leitores. Nesta Nes ta revisão revisão,, eu tentei ampliar esse esse aspecto da utilidade. Novo material materi al foi incluído, incluído, especialmente especialmente na área de reforçamento intermitente, e foi anexado um apêndice sobre registro acumulado que é uma característica importante do estudo do comportamen compo rtamento to operante desde o seu início. início. As Leituras Leit uras sugeridas foram ampliadas e atualizadas. Milhares de experimentos foram realizados desde 1954 na área da teoria científica e da prática representadas por este pequeno livro; entretanto, pequena ou nenhuma atenção será dada aqui a esses es tudos. Os termos básicos, os os conceitos chaves e o esquema esqu ema amplo do sistema não foram muito alterados, e eles constituem ainda a prin cipal preocupação dessa introdução à aprendizagem, do ponto de vista da teoria do reforço. F. S. K. Kalamazoo, Michigan a
1
Prefácio £ muito difícil exagerar a importância dos processos de apren dizagem na definição do comportamento humano. Estudantes de psi cologia nem sempre alcançaram uma compreensão adequada desse im portante campo. “Escolas” teóricas diferentes sugeriram pontos de vista diversos, e integraram seus conceitos numa tentativa de unificar a compreensão do comportamento humano. Nos últimos anos, porém, nota-se ujn número crescente de esforços sistemáticos para elaborar a teoria da aprendizagem como o ponto de partida para compreender o homem. Uma das contribuições mais estimulantes é a comumente identificada como teoria do reforço ou da recompensa. Neste livro, o Professor Fred S. Keller apresenta uma introdu ção simples e breve à aprendizagem, em termos da teoria do reforço. Embora simples e breve, identifica e esclarece todos os princípios fundamentais e indica suas interrelações e possíveis extensões. É, por isso, mais do que uma pura exposição de uma teoria da aprendizagem; oferece um ponto de vista de teoria da aprendizagem para toda a Psicologia. Seu estilo simples não deixa de conter a precisão e a cautela científicas. Este é, pois, um documento que será apreciado não só por estudantes que se iniciam mas também por profissionais que consideram as exposições costumeiras muito técnicas e enfadonhas. O autor deste livro há muito é reconhecido como um teórico, pesquisador e professor. Muito contribuiu para o desenvolvimento e a aplicação da teoria do reforço. Nestas páginas ele ajuda a remo í
3
ver o esotérico deste ponto de vista — e assim torna possível a um maior grupo de pessoas compreender, criticar, ampliar e auxiliar a desenvolver este importante campo de investigação. Eugene L. Hartley The City College, New York
4
Agradecimentos Os nomes de muito poucas pessoas são mencionadas nas pági nas que seguem mas, qualquer leitor psicólogo rapidamente reconhe cerá meu débito geral ao Professor B. F. Skinner e a seus colabo radores pela formulação da teoria do reforço aqui apresentada. Ele também encontrará exemplos de débitos específicos a pesquisadores cuja orientação teórica, provém do Professor Clark L. Hull. Identifi cará alguns velhos amigos que, de nenhuma forma, estão ligados a uma teoria./Minha razão para omitir referências pessoais é a mesma em cada calso. Este e um livro para os que se iniciam. Se eles fo rem incentivados a prosseguir nos seus estudos, poderão sanar a falta de nomes. Se não o forem, não haverá dano por isso. Eu agradeço a John V. Keller, pela leitura cuidadosa deste livro em cada estágio da sua elaboração; seus comentários foram muito úteis. Desejo também agradecer aos meus colegas Ralph F. Hefferline e Wendell E. Jeffrey, pelas críticas e correções ao manuscrito completado. Anne S. Keller atuou como sujeito no experimento descrito na seção 4. Com um atraso de quinze anos eu lhe expresso minha gra tidão pela sua cooperação! Fred S. Keller
5
1. Introdução 1
São muitas as situações em que se usa o verbo aprender em algumas de suas formas. Aprendemos, em criança, a distinguir uma face de outra, ou uma voz amiga de outra zangada. Aprendemos, talvez, que algumas vezes se consegue coisas com manha — e, mais tarde, que não. Aprendemos que certos objetos cortam, queimam, picam ou machucam os dedos se não forem manejados corretamente. Aprendemos a patinar, a dançar e a esquiar. Aprendemos boas ma neiras à mesa, jeitos de falar e mesmo maneiras de demonstrar emo ção. Aprendemos a tabuada e a recitar o discurso de Gettysburg pronunciado por Lincoln. Aprendemos a ter medo do som do motor do dentista. Aprendemos a contar a verdade e a ficar envergonha dos quando contamos uma mentira. Aprendemos o valor do dinhei ro, da força, da idade, dos títulos, da hierarquia e das posições. E assim por diante. A lista apenas começa, mas já se pode ver por que se tem dito que o campo da aprendizagem é tão amplo quanto o da própria psicologia! Não é fácil, porém, definir aprendizagem. Examinemos rapida mente os casos que acabamos de citar. Serão iguais estas aprendiza gens? O aprender a patinar será igual ao aprender a ter vergonha? Ou ao aprender o valor do dinheiro? Será como o aprender a esquiar? Aprender a temer o motor do dentista será igual a aprender a não tocar a chama, ou se parecerá mais com o aprender a gritar para cha mar a atenção? Haverá uma única espécie de aprendizagem? Have rá duas? Sete? Ou haverá tantas espécies quantos forem os exemplos? Afinal, o que é exatamente aprendizagem?
7
São perguntas difíceis e não são, de forma alguma, as únicas que se pode fazer acerca da aprendizagem. E são perguntas que não podem ser respondidas com uma palavra, nem com uma sentença, nem mesmo com um livro. Ainda estamos aprendendo a respeito da aprendizagem e ainda, por algum tempo, não se terá escrito toda a história. Enquanto isso, não seria certo concluir que a situação é deses peradora. Na verdade, o que ocorre é o contrário, e nunca estivemos tão esperançosos. Alguns princípios ou leis gerais emergiram recen temente nos estudos modernos da natureza humana. Estes princípios e leis não são difíceis de serem entendidos e, se bem compreendidos, constituem um poderoso instrumento na análise de comportamentos de todos os tipos. Com este auxílio, será possível focalizar com nitidez quase todos os casos de aprendizagem que você tenderá a encontrar na vida diária. Inclusive todos os exemplos de aprendizagem men cionados acima, por mais complexos que pareçam ser.
2. Comportamento operante e respondente Antes de falar a respeito dos princípios, entretanto, é preciso distinguir entre dois tipos de comportamento. Um deles é conhecido há muito tempo, como comportamento voluntário, e o outro é geral mente denominado reflexo. Estas duas grandes classes da atividade humana, juntas, abrangem quase todos os exemplos de comporta mento em que o estudante de aprendizagem está interessado. Voluntário e reflexo, entretanto, são palavras infelizes de um ponto de vista científico. A história do seu uso nos diz que, com freqüência, significaram coisas diversas para diferentes pessoas. De fato, tem havido muito desacordo sobre o significado destas duas pa lavras e, para substituí-las muitos psicólogos adotaram recentemente os termos operante e respondente . Será proveitoso acompanhá-los, na esperança de evitar discussões acerca de definições. Mas o leitor poderá ter notado que, para alguns psicólogos, operante e respondente quase chegam a significar as mesmas coisas que os correspondentes mais antigos, voluntário e reflexo. 8
O comportamento respondente (reflexo) inclui todas as respos tas dos seres humanos, •e de muitos organismos, que são eliciadas (“produzidas”) por modificações especiais de estímulos do ambiente. Manifesta-se sempre que as pupilas dos olhos se contraem ou se dila tam em resposta a modificações na iluminação do ambiente; sempre que a boca se enche d’água ao degustar algum petisco; sempre que uma lufada de ar frio arrepia a pele; sempre que se derramam lágri mas ao descascar cebolas; sempre que se perde o fôlego ao receber no rosto um inesperado jato d’água; e em muitas outras maneiras, algumas das quais serão mencionadas mais tarde. O comportamento operante (voluntário) abrange uma quantida de maior da atividade humana — desde o espernear e balbuciar do bebê de colo até as mais sublimes perfeições das habilidades e do poder de raciocínio adulto. Inclui todos os movimentos de um orga nismo dos quais se possa dizer que, em algum momento, têm um efeito sobre ou jazem algo ao mundo em redor. O comportamento operante opera sobre o mundo, por assim dizer, quer direta, quer indiretamente. Quando se apanha um lápis ou quando simplesmente se pede a alguém que no-lo dê; quando se faz sinal para o ônibus, ou nele se sobe, quando se fala ao telefone; quando se trauteia uma melodia, ou se olha no relógio ou se resolve um problema de matemática — em todos estes, e em milhares de outros atos da vida cotidiana, se está exem plificando o comportamento operante. Algumas vezes o efeito do comportamento operante sobre o mun do exterior é imediato e óbvio, como quando se chuta uma bola, se abre uma porta ou se escreve uma carta. As modificações do mundo podem ser então observadas por quem quer que tenha o trabalho de procurá-las. Em outras ocasiões, no entanto, tal não é o caso. Quan do se disca um número de telefone e ninguém atende, quando alguém fala consigo mesmo, em voz alta ou silenciosamente, não é fácil ver exatamente como o ambiente foi alterado pelo que se fez. Só quando se observa a história destes comportamentos é que se descobre que, neste ou naquele momento, alguma forma da resposta em questão realmente fez com que as coisas acontecessem. OriginariamentQ al
9
guém foi instigado para a ação de discar o número do telefone; e, antes que alguém comece a falar sozinho, é necessário que a fala tenha tido algum efeito sobre o comportamento dos outros, ou jamais teria sido adquirida. O comportamento respondente, como já foi mencionado, é auto maticamente eliciado por estímulos especiais. Uma luz forte, proje tada no olho acostumado ao escuro, produzirá inevitavelmente uma contração pupilar. O comportamento operante, entretanto, não é assim tão automático, tão inevitável, nem tão específico com relação, aos estímulos. Suponhamos que se queira fazer com que uma pessoa atravesse uma sala, levante a mão acima da cabeça ou que apanhe um lápis da mesa. Como se faria para eliciar estas respostas? Em pregar-se-ia uma ordem, um pedido ou uma súplica? Tentar-se-ia fazê-la executar o ato, usando força se necessário? Usar-se-iam atra* tivos ou incentivos especiais? E ter-se-ia a mesma certeza dos resul tados como quando se projeta luz nos olhos de alguém? E se a pes soa não entendesse a nossa língua, como então evocar o comporta mento? A diferença entre comportamento operante e respondente poderá ficar mais clara se se pensar em suas origens — nas primeiras oca siões em que aparecem. Os respondentes, desde o começo, são evo cados pelos seus próprios estímulos especiais. Comida na boca pro duz salivação, luz nos olhos faz a pupila contrair-
10
na Seção 12, e como estas ligações se estabelecem, mas, mesmo en tão, será justificado dizer que os operantes e os respondentes relacio nam-se com os estímulos de modo diferente.
3. Condicionamento respondente Estamos agora em condições de falar acerca dos princípios. E, no que diz respeito ao primeiro, comecemos com alguns exemplos. Caso I: Suponha que, numa sala aquecida, sua mão direita seja mergulhada numa vasilha de água gelada. Imediatamente a tempera tura da mão abaixar-se-á, devido ao encolhimento ou constrição dos vasos sangüíneos. Isto é um exemplo de comportamento responden te. Será acompanhado de uma modificação semelhante e, mais facil mente mensurável, na mão esquerda, onde a constrição vascular tam bém será induzida. Suponha agora que a sua mão direita seja mer gulhada na água gelada um certo número de vezes, digamos em in tervalos de três ou quatro minutos; e, além disso, que você ouça uma cigarra elétrica pouco antes de cada imersão. Lá pelo vigésimo pareamento do som da cigarra com a água fria, a mudança de tempe ratura poderá ser eliciada apenas pelo som — isto é, sem necessi dade de molhar uma das mãos. Caso II: Imagine agora uma pessoa sentada diante de uma pe quena tela de cinema em uma sala silenciosa. Na tela, durante perío dos de um minuto, aparece projetada em intervalos irregulares uma palavra em letra de forma. Durante o mesmo período de um minuto, chumaços de algodão serão colocados debaixo da língua da pessoa, de modo que se embebam de certa quantidade de saliva, que será exatamente determinada pela diferença de peso do algodão no come ço e no fim de cada minuto. Depois, na mesma sala, mas sem chuma ços de algodão que atrapalhem, convidar-se-á a pessoa para uma série de petiscos (sanduíches, pastéis e outros bocados) durante os quais a palavra continua a ser intermitentemente projetada na tela em frente. Finalmente, sem mais nada que comer, mas com os chumaços de al
11
godão outra vez no lugar, a palavra intermitente será outra vez pro jetada por outro minuto — período de teste — e a salivação será medida como antes. Resultado: a palavra projetada elicia agora mui to mais saliva do que antes. Caso III: Imagine ainda outro sujeito humano numa sala de laboratório. Desta vez, está usando fones no ouvido e tem elétrodos presos à mão esquerda, de modo a permitir a aplicação de um cho que elétrico. Outros elétrodos, presos ao tórax e à perna esquerda, estão ligados a um cardiógrafo, para prover um registro das batidas do coração. Quando tudo estiver pronto, um som de altura e tona lidade moderadas chegará ao ouvido do sujeito durante o período de um segundo. Seis segundos mais tarde, um choque elétrico estimu lante será aplicado à sua mão. Esta combinação de som seguido de choque será repetida onze vezes, em intervalos de um ou dois minu tos. Lá pelo décimo primeiro pareamento, o batimento cardíaco do sujeito cairá de quinze a vinte batidas por minuto dentro de um se gundo mais ou menos depois de ter ouvido o som, e antes que o cho que seja sentido. Estes três casos foram tomados de experimentos reais. Cada um é um exemplo de aprendizagem , do mesmo modo que o de se chegar a suar ao simples som da broca do dentista ou a corar ao dizer uma mentira. Todos eles ilustram o mesmo princípio básico, já conhecido e denominado de “reflexo condicionado”. Este princípio foi formulado, nos primeiros anos deste século, pelo filósofo russo Pavlov. Poderá ser enunciado, de modo um pouco simples demais, como se segue: Se um estímulo neutro for pareado um certo número de vezes a um estímulo eliciador, este estímulo, previamente neutro, irá evocar a mesma espécie de resposta . O estímulo neutro, no pri
meiro caso, foi a cigarra; no segundo, a palavra projetada; e no último, o som. Através da associação com água gelada, comida e choque, respectivamente, vieram a eliciar, por si só, a queda da temperatura, o fluxo salivar e a mudança de batimento cardíaco. Estes condicionamentos ocorreram muito rapidamente; só uns poucos pareamentos foram necessários em cada caso. Isto não teria
acontecido se certos fatores temporais não tivessem sido observados e se certas precauções não tivessem sido tomadas. Por exemplo, se em cada um dos casos o estímulo eliciador tivesse vindo minutos de pois, em vez de segundos, o condicionamento poderia ter sido muito lento. Ou, se o estímulo neutro tivesse acompanhado, seguido, em vez de precedido o estímulo eliciador, poderia não ter ocorrido con dicionamento algum. Além disso, a velocidade do condicionamento teria sido também afetada pelo número de distrações presentes, pelo tipo de instruções dadas aos sujeitos, pela intensidade dos estímulos empregados, pelas condições fisiológicas do sujeito no momento do experimento, etc. Vê-se, portanto, que há mais coisas no condicio namento do que pode ser dito no enunciado de uma sentença. Nossa definição é inadequada ainda sob outro aspecto. A cigar ra, a palavra projetada e o som, nos nossos três exemplos, só eram “neutros” em um sentido relativo — só por que não tinham, ao co meçar, o mesmo efeito sobre o comportamento que seus associados: a água gelada, o alimento e o choque elétrico. Cada um deles tinha, provavelmente, algum efeito sobre o comportamento antes da asso ciação, alguma influência sutil que podemos mesmo não ser capazes de observar. Cada um, pode-se dizer, tinha a sua própria resposta reflexa; cada um era, na realidade, um estímulo eliciador por conta própria. Examine o seguinte diagrama em que S refere-se ao estí mulo e R à resposta:
Deveríamos dizer, provavelmente, que no condicionamento são pareados dois reflexos, duas conexões estímulo-resposta, em vez de dois estímulos. O condicionamento requer a formação de um terceiro reflexo, composto do estímulo “neutro” e da resposta ao estímulo “eliciador”.
13
Pavlov reconhecia tudo isso. O terceiro reflexo era o seu refle xo condicionado , e referia-se aos dois reflexos sobre os quais se ba seava como “incondicionados”. Referia-se, do mesmo modo, a estí mulos condicionados e incondicionados. O alimento foi denominado estímulo incondicionado para a salivação do cachorro e o estímulo (um som), com o qual era associado, tornava-se o estímulo condicio nado para a mesma resposta. (E deveríamos acrescentar, naturalmen te, que o som era um estímulo incondicionado para alguma outra resposta — por exemplo, um sobressalto — antes do condicionamen to ser iniciado.) Um outro termo de Pavlov se tornou muito importante na psi cologia moderna. Ao descrever o efeito do alimento no condiciomento de um cachorro a salivar ao som de uma campainha, referiar -se a ele como “reforçador”. O alimento reforçava a conexão entre o estímulo neutro e a salivação. É como o efeito da água gelada e do choque elétrico nos nossos Casos I e III. Hoje, de certo modo, ampliamos a significação do termo usando “reforçamento” também como mais ou menos equivalente a “recompensa” ou “punição” do comportamento operante. O princípio de Pavlov, como ele o formulara, aplica-se especial mente à atividade glandular, e ele trabalhava principalmente com as glândulas salivares. Mas aplica-se igualmente bem à atividade “mus cular lisa”, ou da espécie envolvida quando a pupila do olho dilata; ou os vasos sangüíneos se contraem; ou os pêlos da pele se arrepiam. Todas estas são modificações respondentes ou reflexas. Além destas, Pavlov achava que sua lei aplicava-se também às atividades “moto ras” ou “musculares estriadas” — movimentos da cabeça, pernas, dedos, etc. Hoje, entretanto, adotamos uma visão mais conservadora, editamos que a lei trata, não de operantes, mas exclusivamente -espondentes. Um teórico moderno chegou a afirmar que se aplica principalmente às reações emocionais, dependendo, por isso, do sis tema nervoso autônomo. Isto pode ou não englobar toda a história, mas pelo menos o leitor já sabe por que a palavra respondente foi incluída no título desta seção. /'
14
4. Condicionamento operante Ao apresentar o próximo princípio, mais uma vez é apropriado começar com um exemplo. Desta vez nosso sujeito é uma criança de cerca de dezessete meses, e a situação experimental é uma sala de visitas comum ligeiramente modificada para servir como laboratório. Nossas observações começam quando a criança entra correndo na sala de visitas, vindo do vestíbulo, e tenta chamar a atenção da mãe que está sentada perto da janela, lendo. Falhando nos seus esforços, a criança volta-se para o outro lado. À medida que seu olhar vagueia pela sala, de repente ilumina-se ao cair sobre um novo aspecto; Atra vés de uma estreita fresta da cortina que separa a sala de visitas da de jantar, projeta-se uma pequena maçaneta em forma de T. Logo abaixo da maçaneta há uma pequena vasilha, ao alcance da criança. Aproximando-se rapidamente destes objetos, mas prudentemente, a criança toca a maçaneta com o dedo, e olha dentro da vasilha. Quando o faz, cai na vasilha um pequeno pedaço de chocolate, vindo de um tubo escondido do outro lado da cortina da sala de visitas. Assustada com isso, a criança recua momentaneamente, mas volta e, apanhando o chocolate, come-o. Alguns segundos mais tarde, segura firmemente a maçaneta e puxa para baixo cerca de 2 centímetros, fazendo com que um segundo pedaço de chocolate caia na vasilha. Daí por diante, com eficiência rapidamente crescente, ela opera o mecanismo, comendo cada pedaço à medida que cai, até que o cho colate deixa de apetecer. Este caso simples ilustra um poderoso princípio do comporta mento. Edward L. Thorndike, um grande psicólogo norte-americano deste século, denominava-o Lei do Efeito , e realizou muitos experi mentos para demonstrar sua importância no comportamento humano e animal. Em essência, esta lei enuncia que um ato pode ser alterado na sua força pelas suas conseqüências . O ato, no nosso exemplo, foi o de pressionar a maçaneta; o reforçamento deste ato foi observado no aumento da freqüência de seu aparecimento, e a conseqüência do ato foi, naturalmente, o pedaço de chocolate que caía na vasilha. %
r
15
Muito conhecidos entre os próprios estudos de Thorndike são aqueles em que gatos famintos conseguiam acesso a pedacinhos de alimento sempre que manipulassem o fecho, alavanca, ou dispositivo apropriado que abria a porta da “gaiola-problema” em que estavam aprisionados. O progresso dos gatos nesta tarefa foi medido pela diminuição do tempo que demoravam para escapar e chegar até o alimento em sucessivas ocasiões de confinamento. Assim, quando o gato resolvia o problema, o número de segundos que precisava para operar o mecanismo de escape ia diminuindo gradualmente, até que seu desempenho se aproximava da perfeição. Hoje, falamos comumente desta “aprendizagem por efeito” como condicionamento “instrumental” ou operante e, freqüentemente, me dimos a sua força em termos da freqüência com que ocorre no tem po quando o organismo (animal ou humano) é livre para responder à vontade. No caso da nossa criança, esperaríamos uma resposta de vez em quando, mesmo na ausência de qualquer recompensa especial. Mas, quando o chocolate aparecia logo depois do pressionar da ma çaneta, a probabilidade da resposta ser repetida aumentou rapidamen te — a freqüência subitamente aumentou. Como a criança continuou a obter pedaços de chocolate, naturalmente veio a ocorrer saciação e a freqüência do pressionar a maçaneta diminuiu. Não se cometeria entretanto nenhum erro ao supor .que, quando voltasse a fome por chocolate, o comportamento de pressionar a maçaneta reapareceria rapidamente. Este condicionamento operante pode ser representado da seguin te maneira: R ___ > S R é a resposta (pressionar S é o estímulo reforçador, o
a maçaneta);-----> significa “leva a”, e chocolate. Não há necessidade de falar, neste ponto, sobre os estímulos que levariam ou não a pressionar a maçaneta. Como foi dito antes, eles seriam muito difíceis de identifi car na primeira vez que a resposta fosse feita, e estaríamos em maus lençóis se tivéssemos de eliciar ou pressionar. Mais tarde, entretanto,
16
ver-se-á que a R do nosso diagrama se relaciona com estímulos do meio e examinaremos as condições em que esta relação se estabelece.
5. Reforços positivo e negativo O chocolate não é, obviamente, o único tipo de estímulo refor çador que pode ser usado para condicionar uma resposta operante tal como pressionar barra. Na verdade, é apenas um dos membros de uma grande família de reforçadores —- a família dos assim deno minados reforços “positivos”. Esta família inclui todos aqueles estí mulos que, quando apresentadôs, atuam para fortalecer o comporta mento que os precede. Sob condições apropriadas de carência, mui tos outros alimentos (ou bebidas), e talvez mesmo certos sons e luzes, podem aumentar a freqüência do pressionar a barra do mesmo modo que o chocolate. Mas isto não é tudo. Assim como há reforços positivos, há re forços negativos que podem ser usados para condicionar o comporta mento operante. Alguns estímulos fortalecem a resposta através de sua remoção. Comumente não usamos estes estímulos em experimentos com crianças, ou mesmo com adultos, mas há muitos exemplos do modo como eles atuam em situações não-experimentais, e em experi mentos com animais inferiores. Quando um menino tira os sapatos porque eles estão apertados ou cheios de pedrinhas; quando tira o ca saco porque está muito quente, ou quando o veste porque está muito frio; quando fecha os olhos ou tapa as orelhas para eliminar luzes ou ruídos demasiado fortes — em todos estes casos o que o reforça é ficar livre da estimulação. Da mesma maneira, nos estudos de labo ratório muitas vezes se treinam ratos brancos para que pulem, corram, pressionem uma barra, etc., em situações em que a única recompensa é fugir de intensidades incômodas de choque elétrico ou de outra es timulação intensa. Pode-se então dizer que um estímulo reforçador negativo é aque le que fortalece a resposta que o remove. Mas é também o estímulo %
17
que enfraquece a resposta que o produz . Suponha-se, por exemplo, que a criança que mencionamos tivesse recebido, depois de cada pressão à barra, um choque elétrico em vez de um pedaço de cho colate; é fácil adivinhar o que teria acontecido. A freqüência do pres sionar a barra teria sido drasticamente afetada. Cairia bem abaixo do nível de sua ocorrência incondicionada, isto é, da freqüência com que ocorreria naturalmente, na ausência de qualquer efeito especial. Ao menos esta é a conclusão a que se poderia chegar na base do senso comum e dos estudos com animais em que as respostas operantes foram seguidas de estimulação intensa. De um modo geral, foi de monstrado que choques fortes, luzes intensas, sons agudos, etc., efe tivamente suprimem todo o comportamento que os produz. A supres são poderá não durar muito, especialmente se o organismo for deixado na mesma situação depois de ter sido interrompido o reforço nega tivo, mas não se põe em dúvida a sua existência. (Voltar-se-á a este problema na seção 10.)
6. Extinção É comum que os psicólogos sejam consultados sobre como eliminar comportamentos já condicionados, como desaprender, como aprender a não fazer algo. Esta é uma questão que conduz a muitas direções e, em resposta, há muito mais do que pode ser dito aqui. Mas a fórmula básica é suficientemente simples: a maneira de desar prender uma resposta já condicionada é através da extinção — atra vés da suspensão do reforçamento . Considere, por exemplo, o reflexo condicionado de Pavlov. Ele se estabelece fazendo com que o estímulo “neutro” seja sempre acom panhado do incondicionado ou reforçador. Poderá ser desfeito apre sentando-se o estímulo condicionado, mas suspendendo o incondicio nado. Lembre-se dos exemplos de condicionamento apresentados. Uma queda de temperatura foi condicionada ao som de uma cigarra; a secreção salivar foi condicionada à visão de uma palavra projetada; 18
uma mudança no batimento cardíaco foi condicionada a um som de um segundo de duração. Tudo isso já foi descrito. Entretanto, não foi mencionado o fato de que, depois de cada experimento, a respos ta condicionada foi extinguida. No primeiro caso, a cigarra foi toca da repetidamente, mas a mão não foi mergulhada na água; no se gundo, a palavra foi várias vezes projetada, mas nenhum alimento a acompanhou; e, no último caso, uma série de sons foram apresenta dos, mas não foram seguidos de choque. O resultado em cada um dos casos foi o mesmo. A força da resposta condicionada declinou, até que o efeito da associação se perdesse e o estímulo condicionado, outra vez, se tornasse “neutro”. Estes são exemplos de extinção respondente, mas a mesma regra fundamental se mantém para a extinção operante. Se o reforço for retirado, a resposta voltará, eventualmente, à sua freqüência original incondicionada (algumas vezes denominada nível operante). Em al guns experimentos, como no caso da criança que ganhava chocolate ao pressionar uma barra, a remoção do reforço é causa de conside rável emoção. Respostas rápidas e excessivamente vigorosas, e mes mo ataques encolerizados ao dispositivo que apresentava a recompen sa e que já não funciona, podem alternar-se com períodos de mau humor e depressão operante. O número de respostas de cada repente vai decrescendo gradualmente e os períodos de não-resposta vão au mentando cada vez mais. Finalmente, a força cai a um nível de rea ção apática ocasional, e a extinção já está quase completa. A extinção, tanto para operantes como para respondentes, é al gumas vezes extremamente lenta. Em uns poucos casos, investigado res relataram que ela absolutamente não ocorre. Isto é um tanto per turbador. Sugere que alguns dos nossos comportamentos podem du rar mais tempo do que desejamos — que poderemos, talvez a vida toda, continuar afligidos por ansiedades, compulsões e obsessões que não são fáceis de suportar. Teremos de ter sempre medo de cachor ros? Ou de falar em público? Nunca seremos capazes de deixar de fumar? Esta melodia ou este pensamento doloroso nunca nos aban donarão?
19
Provavelmente as coisas não são assim tão ruins. Por exemplo, o alegado fracasso em obter extinção de uma contração pupilar, de uma secreção salivar, ou de qualquer outro respondente condiciona do, pode ter uma explicação diferente. Sabemos que o comporta mento operante pode, às vezes, produzir efeitos respondentes incon dicionados . Isto é freqüentemente citado como o controle voluntário da ação involuntária . Assim, distendendo ççrtos músculos pode-se prover o estímulo incondicionado para uma mudança na freqüência do pulso, na constrição de vasos sangüíneos, etc. Pode bem ser que tal controle operante do comportamento respondente, estabelecido ao mesmo tempo que o respondente, tenha sido condicionado e se possa manter mesmo depois que o estímulo condicionado para o responden te tenha perdido todo o efeito. Em outras palavras, antes de termos certeza de que o respondente não se extinguirá, devemos estar certos de que o nosso sujeito não tenha descoberto, sem o sabermos e sem ele mesmo saber, seu próprio operante especial para produzir o mes mo efeito em uma base incondicionada — isto é, produzindo em si mesmo a estimulação que irá eliciar a mesma mudança respondente. Também os operantes condicionados podem resistir à extinção, às vezes em um grau fantástico, de modo que, segundo todas as apa rências, podem ser inextinguíveis. Experimentos com animais retratam isso mais vivamente. Por exemplo, um pombo pode ser condicionado a bicar um pequeno disco ou chave na parede de uma câmara expe rimental. Quando, após um longo treino, começa a extinção, o pombo poderá bicar 7.500 vezes durante a primeira hora, sem qualquer sinal de parar. Nas duas horas seguintes poderá emitir aproximadamente o mesmo número de respostas, e a extinção estará ainda longe de se completar. Observando o pombo, poder-se-á dizer que está incuravelmente viciado em bicar o disco; e poder-se-á ficar admirado de como não pára de pura exaustão. Posteriormente, é claro, não mais res ponderá, mesmo quando já estiver descansado e outra vez faminto do alimento que o bicar produzia. Mas um observador impaciente facil mente teria concluído e manteria a opinião de que o hábito era in quebrável.
20
7. Reforçamento intermitente Um primeiro agente na produção de uma grande resistência à extinção em casos como este é o esquema de reforço que esteve pre viamente em efeito. Quando se recompensa um pombo intermitente mente, em vez de em todas as ocasiões em que emite a resposta, uma forma de comportamento muito semelhante ao de uma máquina irá se desenvolver, depois de um treino longo e continuado. Se os reforçamentos forem apresentados em intervalos de tempo regulares, diga mos cada cinco minutos, breves períodos de não-resposta alternar-se-ão regularmente com períodos mais longos nos quais o pombo acelera rapidamente até uma freqüência duas ou três vezes maior por segun do e continua neste ritmo até a ocorrência do próximo reforçamento. O pombo parece “contar o tempo”. Nunca responde diretamente de pois de comer (nunca foi reforçado por responder nessa ocasião), mas volta a bicar intensamente quando se aproxima do momento do outro reforçamento. Os que trabalham em laboratório referem-se a este esquema como um esquema de reforço de intervalo fixo , pois um certo tempo fixo deve decorrer entre os reforçamentos. Quando os reforçamentos, en tretanto, dependerem de o pombo apresentar o mesmo número de respostas em cada ocasião, aparecerá uma alteração na freqüência, em parte similar. Quando o reforço é apresentado, o pombo come os grãos, espera um pouco, e então bica o número de vezes exigido, digamos vinte, numa seqüência constante e rápida. Isto é conhecido como um esquema de razão fixa, neste caso uma razão de vinte-paraum — vinte respostas para um reforçamento. (Não ocorre aqui uma “discriminação de tempo”, pois sabe-se que o pombo nada obtém parando depois de comer.) Um quadro diferente de freqüência de resposta emerge quando o reforçamento do pombo ocorre de forma randômica ou ao acaso, em intervalos variáveis ou depois de um número variável de respos tas — isto é, em um esquema de intervalo variável ou de razão va riável. Verifica-se uma freqüência singular e regular de resposta,
21
ê
interrompida somente quando o pombo pára alguns segundos para comer. Esta freqüência pode ser alta ou baixa, dependendo do tipo de esquema (o esquema de razão variável produz, tipicamente, fre qüências mais altas do que o esquema de intervalo variável) e do tempo médio que decorre entre os reforçamentos. Quando os refor ços são próximos, as bicadas podem ocorrer na proporção de três para quatro por segundo; quando mais distantes, a freqüência pode ser de três ou quatro por minuto. Essas freqüências podem ser man tidas durante muitas horas em cada dia e durante muitas semanas. Os efeitos desses esquemas de reforço diferentes podem ser no tados, como se disse no início desta seção, no total de respostas que ocorrem quando o reforçamento for completamente descontinuado — quando ocorre a extinção. Depois de um procedimento de reforça mento contínuo, quando cada resposta é reforçada, pode-se esperar que a extinção reduza rapidamente a freqüência de respostas com sinais claros de distúrbios, tal como foi descrito na seção 6. O refor çamento intermitente, entretanto, empresta em todos os casos uma maior resistência à extinção, com menos envolvimento emocional. O organismo poderá responder, hora após hora, da mesma maneira cons tante e imperturbada que exibia durante o treino. Isto é especial mente evidente quando as recompensas eram apresentadas em inter valos irregulares de tempo — algumas vezes em rápida sucessão e, em outras, distanciadas umas das outras. A freqüência de respostas, sob este esquema, poderá não ser distinta da freqüência mantida nas primeiras horas de extinção. A consideração do efeito dos diferentes esquemas de reforço so bre o responder posterior, não-reforçado, leva à conclusão de que um importante fator responsável pela resistência à extinção é a simi laridade das condições de treino com as condições de extinção. Quan do os reforços são dados regularmente para cada resposta durante o treino, a mudança das condições para o não-reforçamento é drástica. Mas quando o organismo já se acostumou a passar longos períodos sem unj reforço, as condições de extinção, pelo menos por algum tempo, são exatamente as mesmas que as condições de treino. A me
22
nos que o organismo possa perceber a diferença entre as duas condi ções, a freqüência do responder continuará a mesma de antes. Se esta conclusão for admitida, deve-se pensar que o comportamento operante está mais ligado do que foi sugerido antes nestas páginas com os estímulos ambientais. Este é um ponto importante e ao qual voltaremos em seções mais adiante.
8. Comportamento supersticioso Em todos os esquemas de reforço descritos na seção 7, o sujeito experimental, o pombo, tinha de bicar uma chave antes de poder obter seus grãos; o reforçamento, dizemos, foi contingente a um tipo específico de resposta. Isto, talvez, é o que ocorre normalmente em nossas vidas, bem como em experimentos com pombos; usualmente temos de fazer alguma coisa para obter algo. Mas nem sempre. Às vezes parece que somos pagos por não fazer nada. Que efeito, se é que existe algum, tem o reforçamento sobre nós? Considere outro estudo com pombos. A ave está novamente faminta na câmara experimental, na qual teve anteriormente uma chance de comer grãos em um alimentador. Não existe, agora, uma resposta particular que deve emitir, ou que foi condicionada, mas, a intervalos regulares de quinze segundos, um alimentador cheio de grãos lhe será apresentado automaticamente, durante um período de cinco segundos. Será este comportamento afetado de modo reconhe cível pelo reforçamento não-contingentel A resposta é sim. Nessas condições, depois de pouco tempo o pombo desenvolverá uma forma especial de resposta. Poderá andar em círculos dentro da câmara experimental; poderá apoiar-se ora num pé ora no outro; poderá alongar seu pescoço repetidamente em direção a um ângulo da câmara; poderá “inclinar-se” e ciscar repe tidamente, ou apresentar movimentos de bicar o assoalho da câmara. Qualquer uma dessas ações, ou outras, podem aparecer com uma fre qüência igual à de bicar um disco, embora nunca produzam realmen
23
te os grãos. A resposta parece ter sido “colhida” pelo reforçamento que ocorreu depois da sua primeira emissão. Antes que tivesse tempo de se extinguir, um outro reforço foi dado; e assim uma completa “superstição” foi estabelecida, não diferente do comportamento de um jogador que fala com suas fichas ou dá voltas ao redor da mesa para mudar' a sorte. Para que os resultados sejam como estes, o reforçamento não-contingente deve ser freqüente no princípio. Quando isto não se ve rifica, a resposta acidentalmente reforçada será suficientemente extin ta para ser substituída por outra que, por sua vez, pode ser substituí da por uma outra, destruindo deste modo o efeito ritualístico. O comportamento supersticioso desenvolver-se-á, entretanto, rapidamen te quando se começa com reforçamento pouco espaçado. Esse inter valo pode ser gradualmente aumentado, sem causar uma modificação no comportamento, quando este já estiver firmemente estabelecido. No caso do tempo entre os reforçamentos ser sempre o mesmo, desenvolver-se-á uma discriminação de tempo, como no caso da res posta de bicar sob um esquema de intervalo fixo. Ainda assim, a res posta supersticiosa pode ser difícil de ser eliminada. Um pombo pulou de um lugar para outro mais de 10.000 vezes antes de alcançar um ponto próximo da extinção.
9. Baixa freqüência de resposta: Um exemplo Os psicólogos tentaram, algumas vezes, controlar a freqüência da resposta de outras maneiras diferentes das acima descritas. Fre qüências altas foram alcançadas reforçando-se respostas somente quan do uma segue logo a outra, e freqüências baixas foram alcançadas reforçando-se respostas somente quando aparecem distanciadas, quan do o “tempo entre-as-respostas” não é menor do que um determinado número de segundos ou minutos. Um exemplo pode ser interessante. Nosso sujeito, um menino, está sentado a uma mesa em sua casa, com um microfone à sua frente e uma pequena xícara à sua direita. Atrás dele, localiza-se o experimentador, com um punhado de
24
moedas e um cronômetro. Ele acabou de instruir o menino para “pronunciar palavras” ao microfone, na velocidade que quisesse, podendo repetir a mesma palavra se quisesse, evitando sentenças ou outras seqüências significativas. A estas instruções, o experimentador acrescentou: “De vez em quando, quando você estiver fazendo isso, eu depositarei uma moeda na xícara. Quando o experimento termiminar, todas as moedas que obtiver serão suas. Tudo o que tem a fazer é pronunciar palavras”. Depois de alguma hesitação as palavras começaram a aparecer: microfone , árvore, grama, mesa, jantar , papel de parede. .. nomes de objetos na sala ou fora dela, e palavras de referência mais pessoal. Uma das palavras, jloresy é tomada ao acaso pelo experimentador como a ocasião para dar a moeda. Imediatamente é repetida, e no vamente reforçada, até cinco moedas terem sido distribuídas em rápida sucessão. A resposta do menino é condicionada; pode então ser ten tado o controle da freqüência. De agora em diante, jlores será refor çada somente quando for pronunciada dez segundos ou mais depois da última vez que foi enunciada.
A palavra sofre, a princípio, alguma extinção, sua força dimi nui e é pronunciada com menos segurança, até deixar de ser enun ciada. Então, depois de uma série de outras palavras terem sido emitidas, reaparece; e como já se haviam passado os dez segundos, é novamente reforçada. Depois de alguns minutos de treino, desenvol ve-se uma discriminação de tempo e a maioria das respostas flores é reforçada. (Se uma ocorre antes, naturalmente, o experimentador sim plesmente recoloca seu cronômetro no zero e passa a exigir um atra so de mais dez segundos para que a próxima resposta seja bem su cedida. ) Um dos resultados desse pequeno estudo pode surpreender. Entre cada apresentação da palavra flores, o menino não permanecia ca lado, como poderia ter feito. Ao contrário, preenchia o período de dez segundos com outras palavras, e estas palavras ocorriam comple tamente ao acaso. À medida que a prática continuava, desenvolvia-se uma seqüência suficientemente regular dessas palavras — um tipo de
25
“encadeamento supersticioso”. Imediatamente depois de receber uma moeda, essas palavras eram previsíveis mas, quando se aproximava o momento do próximo reforçamento, as mesmas palavras sempre apa reciam na ordem: navio, mar, bonito, vermelho, flores . Parece que temos aqui um outro caso de reforçamento não-contingente, desde que só a última resposta na cadeia era exigida para obter a recom pensa. Mas, há mais do que isso. O menino, neste experimento, apre sentou uma excelente “discriminação de tempo”. Raramente respon dia, depois do reforçamento, em menos de dez segundos, e raramente ultrapassava mais do que dois ou três segundos. E, no entanto, ele não tinha nenhuma idéia de que o experimento envolvia tempo! Ele “pensava” que tinha de aprender uma série de respostas e, quan do o experimento terminou, desculpou-se por não ter sido bem suce dido, dizendo: “Sinto muito, mas eu não pude dizer todas as pala vras que você queria que eu dissesse”. Tais resultados colocam ques tões interessantes relativas à parte desempenhada pelo nosso próprio comportamento quando estamos discriminando “tempo”. O encadea mento supersticioso de respostas atrapalhou ou auxiliou na contagem inconsciente de tempo? Mas, geralmente, quando discriminamos o tempo sem um relógio, a que respondemos? Este experimento poderia nos levar a duas direções. Podería mos discutir estudos similares mais formais do que técnicos, conhe cidos como diferenciação de baixa freqüência de resposta (abrevia damente, drl), com animais, crianças e estudantes de college como sujeitos experimentais. Ou poderíamos passar diretamente para o tópico de encadeamento estímulo-resposta. A primeira alternativa nos conduziria a uma especialização maior do que aquela que deve ria ser incluída em um livro como este e a segunda será melhor com preendida depois de termos preparado mais completamente o caminhoyPortanto, vamos agora mudar de assunto simplesmente passan do para uma questão, ou pelo menos um aspecto de uma questão, que tem preocupado a humanidade desde os primeiros dias — a questão da punição e seus efeitos. %
26
10. Extinção e reforço negativo Se lhe fosse pedido que sugerisse modos de apressar a extinção de um operante fortemente condicionado, é quase certo que, mais cedo ou mais tarde, você viria com a proposta de que a punição daria o efeito desejado. E punição significaria provavelmente algo como um choque, um tapa, um golpe ou outro reforçador negativo que pu desse ser aplicado sempre que a resposta indesejada ocorresse. Se o pressionar a barra da criança, na seção 4, tivesse sido recompensado por muitos dias, intermitentemente, e com muitas outras coisas além do chocolate, e se você tivesse agora de extinguir a resposta tão rá pido quanto possível, você não sugeriria uma maneira de encurtar o processo, como um leve choque ou um tapinha na mão? Não seria isso psicologicamente aconselhável? Não foi dito, na página 17 deste livro, que o comportamento da criança ficaria enfraquecido se a cada resposta à barra um choque fosse aplicado? E não foram os reforçadores negativos definidos, em parte, como os estímulos que enfra quecem as respostas que os precedem? A questão da eficácia do castigo ou da punição “corporal” ou “física” é muito antiga e não pode ser respondida com um simples sim ou não. É indubitavelmente verdade que um reforçador negativo bem forte porá fim a quase todas as espécies de comportamento ope rante que se possa citar; mas isto não abrange toda a história. Mui tos pais descobriram por si mesmos o valor de “umas boas palma das” para pôr fim ao mau comportamento crônico das crianças; en tretanto, nem todos os pais se sentem inteiramente seguros acerca dos possíveis efeitos posteriores. Por razões óbvias, existe muito pouco ou quase nenhum es tudo experimental sobre o efeito de punições severas sobre as reações humanas. Recentemente, entretanto, um bom número de dados vem sendo acumulado em pesquisas com animais. O fruto destas investi gações pode ser resumidamente anotado aqui. Em primeiro lugar, já está bem estabelecido, como se observou acima, que o efeito de um choque forte ou de qualquer outro reforçador negativo sobre um ope-
27
rante, como o pressionar a baira, é diminuir a sua freqüência de ocor rência. Isto é verdade se o estímulo for aplicado durante o reforçamento positivo regular, durante o reforçamento positivo intermitente, durante a extinção ou antes que tenha ocorrido qualquer condiciona mento de operante. Além disso, dentro de certos limites, quanto mais forte for a punição, maior será o efeito sobre a freqüência operante. Em segundo lugar, se o animal punido for deixado na mesma situação de punição por um período de tempo suficientemente longo em qualquer uma daquelas condições, mas sem o choque ou outro agente punitivo, recobrar-se-á dos efeitos. A recuperação será apa rentemente mais rápida se a resposta punida continuar a receber re forço positivo, quer regular quer intermitente, do que se estiver sob extinção ou em uma situação aparentemente “neutra”. Em um estu do com animais, em que ratos brancos foram punidos com choque durante os primeiros dez minutos de extinção da resposta de pressio nar a barra, o efeito da punição desapareceu quase que inteiramente durante uma hora na qual os sujeitos estiveram confinados na situa ção, mas com a barra ausente . Quase tanto tempo e quase tantas respostas foram em seguida requeridas antes que o pressionar a barra se extinguisse; e os ratos comportaram-se como animais que nunca tivessem recebido choques antes. Em terceiro lugar, parece que as respostas emocionais associa das com o estímulo punitivo são condicionadas de modo respondente. Quando, por exemplo, um choque for aplicado em lugar especial, digamos a câmara experimental, o próprio lugar torna-se um estímulo condicionado capaz de produzir os mesmos efeitos que o choque. E, com estas modificações respondentes, ocorre a depressão de qualquer comporjámento operante em curso. O lugar, pode-se dizer, provoca medo e o medo põe fim a outras coisas— por exemplo, ao pressio nar a barra. A extinção do medo, como qualquer extinção respon dente, requer que o estímulo reforçador incondicionado (o choque) seja suspenso. À medida que a extinção prossegue, e o lugar perde os seus aspectos atemorizadores, a resposta operante começa a rea parecer. O animal volta à atividade, reforçada ou não, que prevalecia 28
antes que o choque fosse aplicado. Se ainda estiver em vigor o refor çamento positivo intermitente, o animal volta à freqüência anterior; se as condições de extinção ainda estiverem presentes, retoma mais uma vez o responder não reforçado. A punição poderá ter adiado o responder, mas não terá alterado permanentemente a freqüência ope rante, nem acelerado o processo de extinção operante. Só se deve esperar este efeito transitório da punição se os estí mulos punitivos não forem mais aplicados e apenas se o sujeito per manecer na situação punitiva por um período de tempo suficiente mente longo — isto é, até que o efeito dos estímulos condicionados emocionais tenham tido oportunidade de se extinguir. Se, entretanto, o animal, depois de ter sido punido, tiver oportunidade de escapar para um ambiente diferente, no qual não receba mais punição e no qual todas as suas necessidades forem satisfeitas, então o efeito da punição pode parecer não ser transitório. O resultado da punição será então a esquiva, tópico sobre o qual versará a seção 16.
11. Generalização Alguns casos de “aprendizagem” não se qualificam nitida mente como tal. Representam, ao invés, o reaparecimento de com portamentos que já foram bem reforçados sob as mesmas, ou apro ximadamente as mesmas, condições. Veja por exemplo o caso de um chipanzé que aprendeu a usar uma longa vara de bambu para alcançar um fruto fora de sua jaula. Suponha que lhe sejam dadas, agora, duas varas menores que ele segura em suas mãos; nenhuma delas alcançará o fruto, mas poderão ser encaixadas uma na outra para consegui-lo. Suponha que, manipulando as duas varas, ele traga a extremidade sólida da mais fina a uma estreita relação visual com a extremidade tubular da mais grossa. Não sendo principiante em cutucar buracos com pedaços de pau, poderá rapidamente inserir uma extremidade dentro da outra. Então, de posse de uma única vara comprida, pode voltar-se e, num relâmpago, alcançar o alimento. Po
29
derá ter ocorrido em tudo isso uma pequena quantidade de condicio namento operante, e o macaco poderá, num teste futuro, alcançar mais rapidamente o objetivo. Mas o aspecto marcante da solução que deu ao problema é o restabelecimento de dois atos que tinham sido pri meiramente condicionados na presença de estimulação semelhante. Estes restabelecimentos de respostas previamente condicionadas foram tratados por Thorndike, alguns anos atrás, como exemplos de “respostas por analogia”, uma lei básica do comportamento. Enun ciava a lei simplesmente: “A qualquer situação nova o homem res ponde como o faria a uma situação semelhante, ou a um elemento semelhante dela”. Pavlov, pensando exclusivamente no comportamen to reflexo, e mais em cachorros do que em seres humanos, chegou independentemente a uma lei similar, que denominava generalização. Hoje usamos o termo Pavlov e não o de Thorndike, mas o aplicamos tanto a respondentes como a operantes e reconhecemos, mais do que qualquer um desses pesquisadores, sua importância teórica. Um exemplo de generalização do laboratório de Pavlov pode ajudar aqui. Um cão foi condicionado a salivar ao som de 1.000 ciclos. Quando a resposta já estava bem estabelecida para este tom (o único usado durante o treino), um certo número de outros tons foram testados no seu efeito sobre a salivação do cachorro. Sem ex ceção, eliciaram a resposta, embora num grau menor do que o tom original. Os estímulos “generalizaram’. Isto é, o cachorro respondeu a todos eles do mesmo modo, exceto na quantidade de saliva secretada. Os tons que estavam mais próximos da freqüência do estímulo condicionado produziram, em geral, maior fluxo salivar do que os tons que estavam mais afastados na escala de freqüência. Pode-se então dizer que, quando um operante ou um responden ts foi condicionado em uma dada situação-estímulo, poderá ser evocádo, sem condicionamento posterior, em uma outra situação-estímu lo. A isto se acrescenta que o poder dos novos estímulos de evocar a resposta dependerá das características físicas que as situações tiverem em comum. Indo mais adiante, pode-se dizer que há vários contí nuos ou escalas, ao longo dos quais os estímulos podem se generali30
zar. Tons, por exemplo, generalizarão ao longo da escala de freqüên cia de vibrações sonoras (tonalidade), de uma escala de energia (altura) e possivelmente de outras escalas. Um contínuo comparável existe na visão, no tato e nos outros sentidos. Na vida diária, exemplos de generalização são tão comuns que passam despercebidos. São talvez mais óbvios nas crianças, nas quais às vezes são divertidos. Os pais sorriem quando a criança diz “au-au” à vista de um cavalo, de uma vaca, ou de qualquer outro quadrúpe de; ou podem rir quando ouvirem uma criança dizer que a gasosa “tem um gosto de quando o meu pé está dormindo”. Podem deixar de perceber que o mesmo princípio está envolvido quando as respos tas são muito mais comuns e menos dramáticas. Podem não ver que a “galinha” de uma criança diante de uma codorna é, essencialmente, o mesmo que o “passarinho” de outra. O fato é este: uma criança ou um adulto, que foram condicionados a responder de uma certa maneira a uma dada situação, responderão ainda da mesma maneira quando cada um dos elementos da situação tiver sido alterado ao longo de um ou mais contínuos básicos, ou mesmo quando alguns ele mentos da situação original não estiverem presentes. Há um outro aspecto deste quadro, que deve ser indicado bre vemente aqui, para preparar a discussão da próxima seção. A gene ralização pode ocorrer tanto durante a extinção quanto durante o con dicionamento. Um exemplo de estudo de extinção respondente mos trará como isso acontece. Suponha que a resposta galvânica da pele (mudança da resistência elétrica da pele) foi condicionada a um estí mulo vibratório em cada um dos quatrô pontos seguintes do corpo de uma pessoa — a barriga da perna, a coxa, o lado e o ombro. Agora, suponha que, depois, a extinção seja parcialmente conseguida em um dos quatro lugares, por exemplo, estimulando a barriga da perna só com ò vibrador, até que a reação condicionada da pele tenha sido grandemente reduzida. Se, neste estágio do experimento, você testar o efeito do vibrador nos outros três lugares, verificará que, em cada um deles, a resposta também ficou enfraquecida, com o menor efeito na maior distância da barriga da perna. Posteriormente, é claro, ne*
31 (
nhnm dos lugares produzirá efeito algum e se poderá então dizer que a “generalização da extinção” já está completa.
12. Discriminação Já se deve ter tornado claro que os operantes, tanto quanto os respondentes, ficam ligados a estímulos bem cedo ná vida dos indiví duos. Talvez o leitor possa mesmo ter perguntando se não fica ligado a estímudos demais. Se a generalização opera da maneira aqui des crita, não iria uma pessoa passar a vida toda respondendo da mesma maneira a todos os estímulos visuais, e de outra a todos os estímulos auditivos, e assim por diante? Não iriam todos os estímulos visuais generalizar-se até certo ponto uns com os outros? E isto não seria igualmente verdade para todos os outros sentidos? Sabemos, é claro, que isto não acontece. A pergunta é tola. No entanto, como ocorre que pessoas façam distinções entre as coisas como o fazem? Por que é que somos capazes de distinguir, não só entre cães e outros quadrúpedes, mas entre várias raças de cães? E por que os criadores de cães são capazes de ver muito mais diferen ças do que nós podemos? Perguntas como estas podem ser respondidas simplesmente enun ciando o princípio da discriminação. Conexões entre estímulos e res postas que se efetuaram por generalização podem ser separadamente rompidas. Ou, para dizer de outro modo, o reforçamento poderá
ainda ser mantido para a conexão original, enquanto que se permitirá que todas as conexões derivadas sofram extinção. No fim, a resposta será exclusivamente, ou quase que exclusivamente, apresentada ao es tímulo original; e, correspondentemente, os estímulos generalizados fi carão sem efeito. Lembre-se da criança que, ao pressionar a barra, produzia cho colate. Quando esta resposta fosse bem condicionada, a criança teria, indubitavelmente, continuado a responder à barra a despeito de gran des modificações na situação-estímulo. Mudanças sensíveis na ilumi
32
nação da sala, no fundo visual da barra e da vasilha, ou na aparência da própria barra não perturbariam apreciavelmente o seu comporta mento. Isto é, haveria uma considerável generalização de estímulos. Mas, se o pressionar a barra fosse reforçado somente com grande iluminação, somente quando o fundo visual fosse de um certo padrão, ou somente quando a barra fosse de um certo tamanho, cor ou lumi nosidade ter-se-ia então formado uma discriminação: a resposta ter-se-ia extinguido em todas as situações, exceto num conjunto muito restrito de condições de estímulos. O caso respondente é similar. O cão, no laboratório de Pavlov, condicionado a salivar na presença de um som de 1.000 ciclos, sali vará também a sons de outras freqüências, devido à generalização. Mas se estes outros sons forem apresentados repetidamente, sem se rem acompanhados de alimento, e se o reforço continuar acompa nhando o som de 1.000 ciclos, chegará o momento em que não mais eliciarão a salivação, embora o som de 1.000 ciclos continue a eliciá-la. Isto é um relato super-simplificado do processo de discriminação, e objeções já devem ter ocorrido ao leitor. Por exemplo, e a genera lização da extinção mencionada na última seção? No caso do cão de Pavlov, por que é que o não-reforço, associado a sons que não o de 1.000 ciclos, não enfraquece a resposta ao próprio som de 1.000 ciclos? A resposta é que, de fato, isso acontece, mas o som de 1.000 ciclos não perde tanto o poder de eliciar quanto os outros. Cada reforço associado com o som de 1.000 ciclos compensa de longe a perda devida à generalização. Além disso, o aumento em poder para excitar a resposta dos tons generalizados (através do reforçamento do som de 1.000 ciclos) é mais do que anulado pelo efeito direto da extinção sobre estes tons. Gradualmente, por pequenas adições e sub trações, as duas condições de estimulação se separam uma da outra e a discriminação se estabelece. Este processo foi demonstrado repetidas vezes com animais, e com menor freqüência com seres humanos, especialmente com adultos. Uma razão importante para explicar porque isso ocorre é a de que a maioria dos seres humanos, antes de chegar ao laboratório, já traz
33
consigo uma história complicada da função discriminativa. Não é sempre que se pode começar do início e romper uma generalização. Os estímulos discriminativos da vida diária, em geral, já se adianta ram aos nossos procedimentos experimentais. Alguma melhoria pode ser possível; poder-se-á talvez provocar um ligeiro aumento na per centagem das respostas que serão reforçadas. Raramente se tem a possibilidade de limitar suficientemente a amplitude dos valores do estímulo que produzirão uma dada resposta. Pode-se, naturalmente, testar ainda a capacidade final do sujeito em discriminar. Pode-se determinar, por exemplo, qual a menor dife rença que pode existir entre dois estímulos antes que a probabilidade da resposta correta seja menor que 50 por cento. Esta é, há muitos anos, a preocupação de um ramo da psicologia denominado psicofísica, que tem como sua principal esfera de atividades o estudo da sensitividade a diferenças entre estímulos no ser humano adulto. Oca sionalmente tem preocupado também aqueles que estudam o compor tamento de animais e de crianças — às vezes com resultados sur preendentes. Em um experimento hoje famoso, Pavlov treinou um cão a discriminar visualmente entre um círculo e uma elipse. Passo a passo, ele aproximou a elipse da forma do círculo. Por fim, a dis criminação se desfez, como seria de se esperar. Com as continuadas exigências feitas, o cão terminou “neurótico”, até o ponto de ser ne cessário removê-lo da situação experimental e dar-lhe um longo des canso, para proteger sua saúde. Em outro experimento russo, uma criança de seis anos foi compelida a distinguir sucessivamente entre batidas do metrônomo de 144 batidas por minuto e batidas de 92, 108, 120 e 132 por minuto. Não houve nenhuma dificuldade em dis criminar entre 144 e 92 ou 108 batidas tyor minuto; a distinção se fez facilmente, em umas poucas tentativas. Mas as dificuldades co meçaram quando o de 144 foi comparado com o de 120 batidas por minuto; e, quando foi tentada a discriminação entre 144 e 132 bati das por minuto, a criança tornou-se seriamente perturbada, exibindo rudeza, desobediência, excitamento e comportamento agressivo, bem como sonolência na situação experimental.
34
Há muito mais coisas que poderiam ser aqui incluídas a respeito da discriminação. Livros inteiros foram escritos sobre este tópico, em geral com o título de “sensação” ou “percepção”. De um ponto de vista científico, este tópico está provavelmente mais adiantado do que qualquer outro tópico em psicologia. No momento, contudo, o nosso principal objetivo é compreender a “aprendizagem”, e o leitor pode ver agora que a discriminação desempenha um papel bastante impor tante nesta história. Milhares, talvez centenas de milhares de discri minações devem ser feitas por cada um de nós para enfrentar as exi gências do mundo exterior. O comportamento operante, para o qual, no início, não se pode encontrar um estímulo eliciador, mais tarde passa a ser quase que completamente controlado pelos estímulos. E isto se verifica apenas porque se dão reforços na presença de um es tímulo e se retiram reforços na presença de outro. Talvez o leitor lembre que, na seção 3, sobre Condicionamento Respondente, e outra vez na seção 4, sobre Condicionamento Operan te, foi apresentado um diagrama simples, com o fim de tornar esses princípios mais claros. Vejamos agora que espécie de quadro se po deria usar para representar a discriminação. O leitor já sabe anteci padamente, é claro, que nada de muito novo será incluído. Vimos que a generalização é meramente uma espécie de bônus derivado do condicionamento , e a discriminação (a quebra de uma generalização) é, em grande parte, uma questão de extinção . Quando se toma o caso da discriminação respondente, enfrenta mos dificuldades logo de início. Porque qualquer condicionamento respondente requer certo grau de discriminação. Por exemplo, o pri meiro efeito do pareamento de um som de 1.000 ciclos com alimento, para um cão preso em arreios na câmara experimental, é condicionar a salivação ao som mais a estimulação dos próprios arreios e mais o que possa ver, ouvir e cheirar dentro da sala. Não se reforça, entre tanto, na presença de todos estes estímulos, a meno\s que o som esteja presente. Assim, a resposta é extinta na ausência do som, mas apa rece quando o som for parte do composto — e isto é discriminação. Mais tarde, naturalmente, pode-se ir mais além. Será possível refor-
35
çar um som e extinguir outros, da maneira já descrita. O diagrama que pode indicar esta outra etapa terá a seguinte aparência:
sA Neste caso, SD (lê-se esse-de) representa o estímulo (por exem plo, o som de 1.000 ciclos) que foi selecionado entre os outros sons para ser reforçado. SA (lê-se esse-delta) representa os sons que não são seguidos de alimentos e que perdem, portanto, as conexões com a resposta. Do mesmo modo, pode-se representar uma discriminação operante da seguinte maneira: sA so
------------------- —
----- r --------
sA
No diagrama, o SD indica o estímulo ao qual o operante foi associado e os SA indicam os estímulos generalizados que perderam o poder de evocar a resposta. Por isso, não têm nenhuma conexão com o R do diagrama. (Ao se falar destes dois casos, a palavra “indício” é freqüente mente usada como um sinônimo de SD ou “estímulo discriminativo”, especialmente quando se trata de operantes. Seria econômico ter uma outra abreviação para usar com os respondents, para indicar quando os estímulos condicionados já foram discriminados, mas até agora ne nhuma foi apresentada.) Ainda um outro ponto. O procedimento de discriminação acima mencionado (reforçamento sob SD e extinção sob 54) é, às vezes, considerado como um caso especial de esquema de reforça , denomi nado esquema múltiplo . Pode-se mostrar uma discriminação não so mente pela resposta na presença de um estímulo e não-resposta na 36
presença de outro, mas também pelo padrão diferente de freqüência de resposta sob duas (ou mais) condições de estímulo. O estímulo A, por exemplo, pode ser apresentado sob um esquema de reforço de intervalo fixo; o estímulo B pode ser apresentado sob razão fixa; e o estímulo C pode ser apresentado sob razão variável. Depois de algum tempo, o organismo responderá, em cada condição diferente de estí mulo, com o padrão de respostas apropriado ao determinado esque ma de reforço presente naquele momento.
13. Diferenciação (Modelagem) Ao tratar dos princípios do condicionamento operante e respon dente, da extinção e da discriminação, discutimos, em certo sentido, diversas espécies de aprendizagem. A extinção, quando considerada em si mesma, poderia parecer mais uma questão de desaprender, mas viu-se que é vital en discriminações, as quais ninguém hesitaria em denominar de aprendizagem, e de uma espécie muito importante. Se voltarmos agora aos exemplos que ficaram na primeira página deste trabalho, descobriremos que grande parte do território que nos dis pusemos a explorar já foi coberta. Mas também que ainda não o ex ploramos todo. A seção que agora iniciamos aumentará considera velmente nossa habilidade de lidar com os exemplos que ainda faltam e as seções que seguem a aumentarão ainda mais. A palavra diferenciação não é muito boa para nosso presente propósito, pois é freqüentemente usada como se significasse discrimi nação. Habilidade talvez fosse uma palavra melhor, se não incluísse coisas demais, abrangendo tanto a diferenciação como a discrimina ção. Modelagem do comportamento é o termo (o termo mais ade quado para isto seria mudança ) usado mais comumente, mas ele tam bém encerra problemas, quando às vezes é usado para significar uma mudança no controle de estímulo de alguma resposta. Assim, vamos preferir o termo diferenciação e tentar fazer com que o seu sentido fique tão claro que não seja confundido com nenhuma outra coisa.
37
Comecemos outra vez com um exemplo. Imagine-se um labora tório no qual a principal peça de equipamento seja uma destas má quinas de parque de diversões, cujo funcionamento consiste em puxar e soltar a mola que impulsiona uma bolinha de aço, que vai sendo desviada no seu trajeto sobre um plano inclinado por uma série de pinos, até que emboque em uma das diversas cavidades que indicam a contagem obtida. Este aparelho, entretanto, é um aparelho especial. Um biombo oculta do operador o curso da bola e o impede de ver o quanto puxa a mola antes de soltá-la. Outro anteparo o impede de ver dois “quimó;*rafos” nos quais são registradas (1) a freqüên cia com que puxa a mola e (2) a distância de cada puxão. Nem pode ver a escala de 15 divisões que fica paralela ao cabo da mola e que permite outras tantas 15 conexões elétricas, que controlam o apa recimento de uma luz vermelha através de uma janela na extremidade do aparelho. (Cada intervalo dessa escala está separado do seguinte por 2,8 milímetros e pode ser disposto de modo a que um puxão na mola até um ponto entre qualquer par das divisões da escala — por exemplo, entre os pontos 2 e 5 ou entre 10 e 13 — ocasione o apa recimento da luz vermelha quando a bola chegar ao fim do trajeto). A única coisa que o operador, um aluno de college, vai saber é que estará participando em um “estudo das habilidades não-visuais” e que ele verá uma luz vermelha piscar na pequena janela sempre que sua resposta for correta. A primeira tarefa do sujeito, depois de receber instruções, será a de puxar a mola durante 5 minutos. Ser-lhe-á dito que use para puxar a mola uma força e uma freqüência que lhe pareçam naturais e confortáveis. Cumprindo estas instruções responderá, por exemplo, com uma freqüência de vinte e dois puxões por minuto, isto é, pouco mais de uma vez cada três segundos. A distância média de cada puxão (nossa medida da força da sua resposta) será, aproximadamen te, de 32 milímetros, mas alguns puxões serão maiores e outros me nores. Em outras palavras, haverá um certo grau de variabilidade na resposta, mesmo trabalhando com uma freqüência e uma força ótimas.
38
Quando este nível tiver sido determinado, diremos ao sujeito que a luz agora passará a funcionar e disporemos os interruptores de modo que só puxões que levem a posições entre 2 e 5 da escala pro duzam o aparecimento da luz vermelha. Isto lhe dá uma amplitude de 8,4 milímetros, dentro da qual as respostas serão corretas. Deixa remos que o sujeito trabalhe até que tenha assegurado vinte reforços, o que conseguirá facilmente em trinta e um puxões. Então, sem que tenha conhecimento, mudamos a disposição do interruptor de 2-5 para 10-13. A amplitude é exatamente a mesma que antes, mas colocada mais acima ao longo da escala. Exigirá cerca de 179 puxões, mais de cinco vezes do que na primeira vez, para obter os vinte reforços. Assim, parece que o domínio da primeira disposição atrapalha o do mínio da segunda. Entretanto, com repetidas mudanças de 2-5 para 10-13, o sujeito melhora a rapidez com que se reajusta. O não-reforço, depois de uma série de reforçamentos, passa a ser sinal para tentar algo diferente. No estágio seguinte de nosso experimento, o sujeito começa a responder com o interruptor disposto entre 2-6. Depois da obtenção de vinte reforços, mudamos a colocação, sem o seu conhecimento, para 3-6, diminuindo a amplitude de 2,8 milímetros. Desempenha tão bem nesta nova disposição quanto antes e assim, outra vez, mu damos a exigência, agora para 4-6. Quando a luz tiver acendido vinte vezes, mudamos outra vez para 5-6. O número de respostas exigidas para obter vinte reforços na disposição 3-6 foi de 32, o número exi gido em 4-6 foi 47, e o número em 5-6 foi 93. Isto é, o número de respostas aumenta à medida que a amplitude do movimento se torna cada vez mais restringida. Finalmente, o sujeito coloca-se em novas sessões na disposição 2-5, sob diferentes esquemas de reforço: (1) regular , em que cada uma das respostas será reforçada se satisfizer corretamente o requisito da distância; e (2) intermitente , no qual (nosso caso) não obterá re forços até que tenha emitido 10 respostas corretas. Depois de cada sessão, suspende-se completamente o reforçamento e se conta o nú mero de respostas dadas antes que o sujeito mude para um novo
39
nível de força. Resultado: o sujeito muda mais facilmente depois de um período de reforçamento regular, como seria de se esperar, do que depois de um período de reforçamento intermitente — na reali dade, com uma facilidade quatro vezes maior. O que foi narrado é apenas uma pequena parte de um experi mento efetivamente conduzido com quatorze sujeitos e vários outros procedimentos adicionais, mas a amostra já é suficiente para iniciar mos nossa discussão. Alguns dos principais aspectos da diferencia ção já podem ser nitidamente percebidos. Há, por exemplo, uma variabilidade inicial da resposta, sem a qual não poderia ocorrer ne nhuma diferenciação. Isto ficou patente nos cinco minutos prelimina res de puxões “naturais”, mas ocorreu também no começo da sessão de teste do sujeito na disposição do interruptor 2-5. A variabilidade apareceu principalmente na distância em que a mola era puxada e ocorreu também em relação à freqüência, e poderia ter ocorrido em relação à duração de cada puxão se isto tivesse sido medido. Pode ríamos mesmo ter descoberto diferenças na forma ou “topografia” da resposta — na maneira com que o sujeito segurava o cabo da mola em puxões sucessivos — mas isto teria sido muito difícil de medir. Em segundo lugar, há um reforçamento seletivo da resposta. Quando a luz vermelha acompanha apenas as respostas de amplitude de força entre os pontos 2-5 ou 10-13 da escala, em vez dos 1-15 original, o sujeito logo se ajusta com êxito. A amplitude da força que emprega diminui abruptamente e, quando o experimentador mo difica as “regras do jogo”, o sujeito é capaz de mudar facilmente de uma amplitude para outra. Se a amplitude se tornja pequena demais, há uma queda na acuidade (e se continuarmos mais além, poderá desenvolver-se um comportamento “neurótico”), e a rapidez da mu dança dependerá tanto do número de mudanças já feitas, como do esquema de reforço — mas ninguém pode duvidar que o comporta mento está sendo modelado pela presença ou ausência da luz que acompanha cada resposta. Puxões da mola que não produzem luz diminuem de freqüência; os que a produzem tornam-se mais nume rosos .
40
Em terceiro lugar, quando o experimentador reduz a amplitude das respostas bem sucedidas de uma faixa ampla para uma estreita, através de pequenos passos de 2-6 para um de 5-6, ele ilustra a im portância das aproximações sucessivas no processo de modelagem. Se tivesse passado abruptamente de uma faixa ampla para uma estreita, da “fácil” para a “difícil”, ele teria aumentado consideravelmente os erros e o tempo necessários para os seus sujeitos resolverem seus problemas. Reforçando seletivamente pequenos progressos na direção correta, reduz as chances de insucesso e alcança seu objetivo sem atraso desnecessário. Através das aproximações e no nível mais simples, ratos de la boratório podem ser ensinados a erguer grandes pesos, andar sobre as patas traseiras, mostrar um tempo de reação curto, e assim por diante; crianças podem ser treinadas com maior eficiência a escrever, falar, e a desempenhar muitas outras funções básicas, até mesmo a exercer “autocontrole”; e peritos em cada campo de arte e de habili dade podem ser levados ao máximo da perfeição. Em cada caso, o professor segue a mesma regra: começa com variabilidade no com portamento do seu aluno, reforça mudanças em uma direção e as extingue em outra, assegura o máximo de êxito e o mínimo de insu cesso com aproximações sucessivas ao comportamento que deseja. Finalmente, a mudança no comportamento de nosso sujeito não depende de modificações no seu mundo exterior. Não existem sinais exteriores que lhe digam quando o reforço é acessível ou não, nem que força terá de usar para ganhá-lo. Estas ligações poderiam ter sido estabelecidas, como logo se verá, mas os únicos sinais discriminativos empregados na diferenciação do tipo mais puro são os que vêm do próprio movimento, em vez de vir de uma fonte exterior. O sujeito dirá, depois de ter alguma prática, que pode “sentir” quando as respostas vão ser bem sucedidas, mas esta “sensação” vem das contrações de seus próprios músculos quando começam a agir. Não é um estímulo sobre o qual o experimentador tenha algum controle direto.
41
O exemplo experimental é um dos muitos que poderiam ter sido escolhidos. Há abundantes estudos na literatura psicológica sobre arremessos de bola e de dardos, traçado de linhas, ao lado de outros estudos de movimento em várias situações práticas. Muitos desses casos são de diferenciação pura. Há também uma quantidade de ha bilidades da vida diária que se baseiam no mesmo processo. O golfista que impulsiona a bola com o seu taco, o cestobolista que arre messa à cesta, o arqueiro, o jogador de malha, de boliche — são só algumas de nossas atividades que podem ser aperfeiçoadas em situa ções inalteradas de estímulos. Menos notórias, mas na verdade mais importantes, são as diferenciações presentes no domínio de habilidades universais tais como andar, falar, escrever, cantar e danças. O processo básico, em todos estes casos, pode ser retratado, embora de maneira não muito correta, assim: r * RD-------- +s
R*
Aqui, o R D representa a variante da resposta que conduz ao reforçamento, e R A (erre-delta) indica uma variante que não recebe reforço. O R D e o R á correspondem assim ao SD e SA do nosso dia grama de discriminação. O diagrama é inadequado porque, como o que representa o con dicionamento (página 12), sugere que os estímulos ambientais não desempenham nenhum papel no ditar de nossas respostas. Leva a pensar que o pressionar a barra não tem nada a ver com a presença ou a ausência de uma barra na situação, que o cèstobolista não ne cessita de uma cesta, ou o arqueiro de um arco. K verdade é que os processos de diferenciação e de discriminação são concomitantes desde o início do nosso desenvolvimento comportamental. Em certo momento, a discriminação pode tomar a dianteira, em outro, a dife renciação. Quando uma criança quer pegar uma bola, indica que a bola é um estímulo discriminativo, mas o progresso que revela na acuidade do pegar, com as repetições, se deve principalmente à dife renciação. A mudança na resposta ocorre sem dúvida na presença do sinal, mas não depende de nenhuma modificação nele.
42
Quando chegamos à idade adulta, cada um de nós adquiriu um número enorme de respostas diferenciadas que podem ser dadas ou não a um número ainda maior de sinais discriminativos. Além disso, cada um de nós tem a habilidade de mudar suave e rapidamente de uma resposta para outra diante de um campo de estímulos sempre mutável. Observa-se isto de uma maneira bem viva quando se olha os participantes de esportes como box, tênis ou futebol, nos quais movimentos com a rapidez de um raio são necessários para acompa nhar as variações de estímulos produzidos pelos movimentos do opo nente. Mas se pode observar a mesma coisa, se se atentar para isso, em praticamente todas as esferas da atividade humana, em interiores ou ao ar livre, verbais ou não-verbais, no entretenimento ou no tra balho. O músico que acompanha a partitura, o telegrafista que copia o código Morse, a estenógrafa que toma um ditado ou datilografa os símbolos abreviados que escreveu, o operário na linha de monta gem — nestes exemplos, e em tantos outros, pode ser visto o pro cesso. Nenhuma disposição de linhas e letras pode aspirar a represen tar o rápido intercâmbio de estímulo e resposta que ocorre nos casos citados, mas o diagrama seguinte pode ser de alguma ajuda no retra tar a mais simples das combinações de sinais discriminativos e ope rantes diferenciados. r
SD----------------------------
a
R O ------- * 5
Este diagrama permite avançar pelo menos um pequeno passo no sentido do nosso projeto de construir um quadro unificado do que corretamente, em nossa vida diária, tem o nome vago de “apren dizagem”.
14. Encadeamento Há setenta e cinco anos atrás, se alguém pedisse a um profes sor da nova ciência da psicologia que falasse sobre a natureza da
43
“aprendizagem”, ele não teria dito nada sobre condicionamento, ex tinção, generalização, discriminação, diferenciação ou reforçamento. Pavlov, que nos deu todos estes termos, estava naquela época exami nando a atividade digestiva de cães, e ainda faltavam dez anos para que ganhasse, por estes trabalhos, o Prêmio Nobel. Thorndike só tinha vinte anos de idade, e pelo menos ainda dois tinham de se pas sar antes que se engajasse nos estudos com a gaiola-problema que levariam à sua famosa Lei do Efeito. Em lugar destes tópicos e desenvolvimento ter-se-ia ouvido o professor de psicologia discorrer muito sobre a “associação de idéias” e sobre as “leis” que governam aquelas associações, particularmente na forma descrita pelos eminentes filósofos ingleses dos séculos XVIII e XIX. Poder-se-ia também ter ouvido o relato de algum longo e trabalhoso experimento alemão sobre a “memória” e o “esquecimen to” — experimentos em que os sujeitos tinham de memorizar séries de “sílabas sem sentido” ( mib, gop, ruz, ved, etc.) em condições muito especiais. Na melhor das hipóteses, ter-se-ia tratado exclusiva mente de um relato de assuntos que agora cabem em um só capítulo do campo da aprendizagem. O interesse pela “aprendizagem serial”, tanto verbal como não-verbal, aumentava no início do século, quando os estudos do com portamento animal começaram a exibir os labirintos para ratos bran cos, e quando certos fisiólogos influentes começaram a descrever “composições sucessivas” de reflexos em animais tão inferiores na es cala evolutiva como o sapo e a minhoca. Em 1914, John B. Watson, o fundador do “behaviorismo” primitivo na psicologia norte-americana, combinava o que já se conhecia destes desenvolvimentos com sua interpretação do princípio de Pavlov, para argumentar que a aprendizagem de sílabas sem sentido e do percurso de labirintos nada mais era do que a formação de “cadeias” de reflexos condicionados. Hoje, achamos que Watson estava errado em várias de suas afirmações sobre esta espécie de aprendizagem. Temos certeza, por exemplo, de que o percorrer corretamente o labirinto e as conexões silábicas não são exemplos de condicionamento respondente. Concor m
44
damos, entretanto, que Watson estava essencialmente certo ao tentar explicar tais formações de hábitos referindo-se a coisas mais funda mentais. E vemos, também, que estas coisas fundamentais são dife renciação, discriminação e generalização, que dependem, por sua vez, do condicionamento e da extinção. Formulamos a noção de encadeamento, hoje, enunciando sim plesmente que uma resposta pode produzir o estímulo para a seguinte. E reconhecemos, talvez mais do que antes, que é excepcional o caso em que as respostas não ocorrem em cadeias. Ê raro que uma única resposta ou conexão estímulo-resposta não conduza a outra ou não se origine de uma anterior. O enunciado essencial do que ocorre em um encadeamento pode ser suficientemente bem delineado dobrando o diagrama discutido na última seção. sA
gA
sA
r A
sp
rd—► sD
$A
s A.
--------------------
--------------------
R° — RA
Aqui se vê que um estímulo discriminativo pode evocar uma resposta diferenciada que, por sua vez, produzirá o estímulo discri minativo para outra resposta diferenciada que conduz, por sua vez, ao reforço. Tomemos como exemplo de encadeamento, não a aprendizagem de um labirinto ou de uma série de sílabas sem sentido, mas o com portamento de um rato branco chamado Plínio, da Universidade de Minnesota! * Plínio nada fez que um coati, um macaco ou uma crian ça não pudessem fazer melhor, mas o fato de que era um rato, não tão complicado ou diversificado em suas maneiras como estes outros, ajudará a esclarecer o que é essencial no processo de encadeamento. O que Plínio fazia resumia-se nisto. Primeiro, puxava uma cordinha que pendia do teto de sua gaiola. O puxar fazia com que uma * Uma série de fotografias das realizações deste animal foi publicada na revista Life de 31 de maio de 1937.
45
bolinha de vidro, colocada numa calha acima, caísse na gaiola. Quan do a bolinha caía no chão, Plínio apanhava-a com as patas diantei ras e a carregava pela gaiola até um pequeno tubo que se projetava verticalmente a cerca de 2,5 cm acima do chão da gaiola. Levantava então a bolinha até a borda do tubo e deixava-a cair dentro dele, o que fazia com que uma pelota de alimento fosse automaticamente des carregada num recipiente acessível. Plínio então se aproximava do recipiente, apanhava a pelota, comia-a e voltava outra vez a repetir a seqüência de atos. Desta maneira, Plínio ganhava a vida, dia após dia. Aqui há, pois, uma cadeia de operantes, cada um induzido pelo seu próprio sinal específico. (Vê-se com menos freqüência respondentes encadeados, razão pela qual não serão tratados aqui.) Os es tímulos visuais ou táteis, provindos da cordinha e circunvizinhanças, provavelmente iniciam a resposta de puxá-la. Puxar o cordel coloca em ação outros estímulos, evocados pelo aparecimento da bolinha. Estes constituem o sinal para as respostas de apanhá-la e carregá-la, que colocam o animal na presença de outro composto de estímulos visuais, o tubo. As respostas de levantar e deixar cair a bolinha den tro do tubo produzem, por sua vez, o som do mecanismo do alimen tador que conduz a aproximação do recipiente e, finalmente, do pró prio alimento. Com o término do comportamento de comer, toda a seqüência começa de novo. Exatamente quantas respostas distintas ocorrem na cadeia aper feiçoada de Plínio continua a ser uma pergunta, visto que cada res posta fundia-se quase completamente com a seguinte. É razoavel mente certo, entretanto, que havia mais no começo do que no fim. Por exemplo, o animal teve dificuldades consideráveis, de~ início, em deixar a bolinha de vidro cair depois de tê-la levantado até a borda do tubo; erguê-la era claramente uma resposta, largá-la outra e era-lhe difícil coordenar os dois movimentos adequadamente. Seu com portamento assemelhava-se ao das crianças que estão aprendendo a arremessar uma bola: ou soltam muito depressa ou seguram tempo demais. Entretanto, mais adiante no treinamento, a coordenação de Plínio estava tão boa e os elementos tão entrelaçados, que já não se
46
podia distinguir onde acabava uma resposta e começava a outra. Como acontece em muitas ações humanas, especialmente na lingua gem, as unidades originais, bem distintas de início, agrupam-se em unidades maiores, reduzindo perceptivelmente o número de elos na cadeia. Também é difícil especificar os sinais que estiveram em ação no controle do comportamento de Plínio na cadeia final. É bastante provável que o número tenha diminuído com a prática — e que Plínio tenha, no fim, respondido a meros fragmentos dos compostos iniciais. Outros experimentos indicam que esta redução pode ocorrer. Mas, na ausência de verificações especiais, não temos meios de dizer que elemento da situação estimuladora, em qualquer estágio da seqüên cia, foi o que desencadeou a resposta. O encadeamento de Plínio, ao contrário dos que ocorrem na maioria dos estudos humanos, requereu um longo treino de diferen ciação para vários elos. As respostas empregadas em carregar, levan tar e deixar cair a bolinha de vidro, embora modeladas em parte na experiência anterior em manipular o alimento, tiveram que receber ainda muita atenção. O treinador do rato tinha de vigiar cuidadosa mente, e reforçar seletivamente, todas as pequenas mudanças na res posta que indicavam uma melhoria. Como em todas as diferenciações delicadas, tinha de evitar passar muito rapidamente de um estágio para o seguinte, observando que os progressos se fizessem de maneira cons tante e que não houvesse ocasião de ocorrer extinção quando uma nova exigência fosse introduzida. Se as diferençiações já tivessem sido formadas — se as habilidades básicas estivessem bem estabelecidas —, não teria havido maior problema com o encadeamento em si, para o animal. Cada ato discreto teria sido facümente adicionado aos outros, da mesma maneira que os seres humanos combinam palavras velhas e bem diferenciadas ao memorizar um poema. Antes que tais dife renciações sejam feitas, entretanto, pode-se comparar Plínio a uma pessoa que, não familiarizada com a língua chinesa, tenha de reagir a uma sucessão de caracteres escritos nesta língua, pronunciando cada um corretamente no momento em que ocorre!
47
Através dos anos, muitas questões foram propostas sobre a apren dizagem serial. A maioria delas foram questões acerca do domínio de séries de sílabas sem sentido. Perguntou-se, por exemplo, como a velocidade dessa aprendizagem se relaciona com o número de itens da lista que deve ser aprendida. Ou sobre o tipo de itens da lista — por exemplo, o seu grau de semelhança com palavras reais ou partes de palavras. Ou ao lugar dos itens na lista, isto é,'se uma parte da lista é aprendida mais depressa do que outra. Ou ao domínio anterior de outras listas, tendo o mesmo conteúdo ou conteúdo diferente. Estes são alguns dos problemas formulados. Cada um deles foi submetido a muita investigação, discussão e teorização. Mas só muito recentemen te a sugestão de John Watson foi seriamente seguida e se fez a ten tativa de relacioná-los com os princípios básicos de condicionamento, extinção, discriminação, etc. Estas tentativas foram, no geral, bastante fecundas e pode valer a pena examinar alguns exemplos. Tomemos o assunto do número de itens da lista que deve ser memorizada. Os experimentos com sílabas sem sentido indicam que um número notável pode ser agrupado. Em uma investigação chegou-se ao domínio de 300, e o limite ainda está provavelmente longe de ser alcançado! Parece, entretanto, que o tempo que tem de ser gasto com cada sílaba aumenta apreciavelmente à medida que o número de sílabas sobe. Pode levar um minuto e meio, em média, para se me morizar 12 sílabas, mas requerer 195 minutos a memorização de 300 sílabas, que são apenas 25 vezes 12 sílabas. ] Um fator importante, responsável pelo aumento da dificuldade, pode ser a similaridade das sílabas escolhidas. Quando se aprende a recitar uma lista como jid, fap, tev, wof, pes, yut, zoy, e assim por diante, cada sílaba pronunciada fornece grande parte do sinal para a pronunciação da seguinte. Mais cedo ou mais tarde, à medida que o número de sílabas aumenta, começam a desaparecer as diferenças entre os sinais. Cada nova sílaba assemelha-se com uma ou mais das outras já incluídas na lista. Isto quer dizer, generalizam-se umas com as outras. Isto pode acontecer mesmo quando o sujeito agrupa as sílabas em conjuntos maiores com fap-tev ou wof-pes, ou quando su /
48
plementa de algum modo as sílabas, fazendo com que wof-pes vire algo como wolf-pest . A generalização pode também desempenhar um papel na explica ção das dificuldades que temos em dominar uma longa série de núme ros. Só se dispõe de 10 algarismos, de 0 a 9, para construir tais séries e, se não fosse pelos agrupamentos comuns, como 1492, 5280, 31416, e 1776, bem como vários outros mais pessoais (números de telefone, de chapas de automóvel, etc.), teríamos muito mais dificul dades com eles do que com as sílabas sem sentido. O agrupar pode auxiliar por algum tempo, mas com o tempo esgotam-se as diferenças entre os grupos. Finalmente, chega uma hora em que nenhurii acrés cimo pode ser feito sem que haja uma perda correspondente. Até chegarmos àquele diretor de faculdade, que era também ictiólogo, e se queixava de que cada vez que memorizava o nome de um aluno esquecia o nome de um peixe! Pesquisas com animais contam uma história parecida sobre a generalização como o fator que limita o estabelecimento de encadeamentos. Experimentos sobre aprendizagem de labirinto, usando ratos brancos, mostram que o domínio do trajeto correto da entrada até a saída depente, principalmente, dos sinais encontrados nas curvas su cessivas, onde o animal deve escolher entre dois ou mais trajetos. As diferenças entre estes sinais podem ser reduzidas de algumas maneiras. Órgãos dos sentidos de importância crítica (por exemplo, os olhos) podem ser cirurgicamente eliminados; ou cada unidade do aparelho pode ser construída tão idêntica às demais quanto for possível. Em qualquer dos casos, o resultado é o mesmo. A rapidez com que o animal aprende diminui, e também é inferior o seu nível final de desempenho. Um caso especial, em que a quantidade de generalização é ex trema, é o do labirinto “temporal”. Neste artefato, treinam-se os ratos a passar pelo mesmo ponto de escolha em ocasiões sucessivas; se forem, por exemplo, quatro, virando duas vezes à esquerda e depois duas vezes à direita. A mudança de viradas à esquerda para viradas à direita na terceira escolha é a fonte das maiores dificuldades. Não
49
há mudanças externas que digam quando virar à direita em vez de à esquerda, e há tão pouca diferença nas maneiras de responder na primeira e na segunda volta que o animal não pode identificar facil mente sinais vindos de seu próprio comportamento, o que poderia acontecer se se lhe permitisse emitir quatro respostas distintas em cada volta pelo ponto de escolha. É uma discriminação tão delicada que poucos ratos conseguem desenvolver com êxito a seqüência esquerda-esquerda-direita-direita. O que foi descrito é apenas uma introdução ao problema do en cadeamento. Um relato mais amplo teria de incluir uma exposição dos famosos “experimentos de associação”, algumas vezes usados na detecção de mentiras e na psicoterapia, e nos quais se pede ao sujeito, que responda uma palavra com outra tão depressa quanto puder. Ter-se-ia de tratar com a questão dos encadeamentos ou elos de ca deias que não podem ser observados, que são encobertos, e que figu ram proeminentemente na análise do “pensamento”, do “significado” e da “percepção”. Abrangeria a discussão de dúzias de conceitos e resultados de experimentos, e incluiria muitos pontos altamente dis cutíveis. Proveria o leitor de um grande conjunto de dados e poderia até levá-lo a descobrir novos métodos de investigação e a planejar novas pesquisas neste campo. Mas nem todas estas questões podem ser abordadas aqui. Para os propósitos presentes, será suficiente que o leitor tenha entendido claramente os princípios básicos e visto como se relacionam com os que já foram discutidos antes neste livro. Ver-se-á em um momento que se relacionam também com a secção se guinte.
15. Reforço condicionado positivo Alguns estímulos são naturalmente reforçadores quer de modo positivo, quer negativo. O alimento, para um organismo faminto, tem uma espécie de “capacidade inata” de reforçar o comportamento. Da mesma forma, a bebida, sob condições de sede. Igualmente, o
50
choque elétrico e outras formas de estimulação intensa têm, desde o início, a propriedade de reprimir o comportamento (ou de reforçar o comportamento que as remove). De todos estes se diz que são reforçadores primários. De outro lado, é bastante claro que estes estímulos constituem apenas uma pequena parte do conjunto das coisas que reforçam. De fato, só muito raramente observam-se condicionamentos, especialmente ao nível humano, em que bebida ou choque elétrico desempenham algum papel. Com muito mais freqüência, aparentemente, as respos tas são reforçadas ou enfraquecidas pela aprovação ou desaprovação de outras pessoas, por promessas ou ameaças, por “Certo!” ou “Erra do!”. E estes são eventos que devem ter adquirido o seu poder re forçador. Nós os chamamos de reforços secundários ou, algumas vezes, reforços condicionados. O modo pelo qual os reforços secundários adquirem seu poder foi sugerido por Pavlov nos primeiros anos deste século. Observou que, quando um reflexo condicionado estiver bem estabelecido em um cão, poderá ser então usado como base de um segundo condicio namento. Assim, se a batida de um metrônomo tornou-se um estí mulo condicionado para a resposta salivar, poderá então ser associa do a outro estímulo “neutro”, por exemplo, um retângulo negro, para formar um reflexo condicionado de “segunda ordem”. Isto é, a ba tida do metrônomo sozinha servia como estímulo reforçador para um novo condicionamento, e o faria por causa da sua associação prévia com o estímulo incondicionado primário, o alimento. Pavlov contu do não levou muito longe o conceito de reforço condicionado. Só nos últimos anos é que começamos a reconhecer a sua importância tre menda e a compreender como o comportamento operante passa a ser por ele controlado. Vamos examinar a maneira pela qual isto ocorre — como o re forçamento condicionado está relacionado com a discriminação, como auxilia a formar os encadeamentos, e o significado que tem para o comportamento humano quotidiano. E, como a psicologia, da mesma maneira que a biologia, tem uma atitude democrática em relação às
51
diferenças entre as espécies, por que não começar com uma amostra do comportamento dos chimpanzés? Nosso sujeito é um macho de cerca de seis anos. Seu nome é Moos, e vive em uma pequena colônia de macacos em uma estação de pesquisas com antropóides, onde já há mais de dois anos tem par ticipado de experimentos psicológicos. No experimento a que nos referimos, há outros cinco animais, todos mais jovens e menos traquejados. Moos e os outros já passaram por vários estágios de trei namento. Em primeiro lugar, Moos aprendeu a inserir fichas na fresta de uma destas máquinas de vender coisas que há nos Estados Unidos. As fichas eram brancas e a inserção de uma ficha seguia-se imediatamente ao aparecimento de um bago de uva no recipiente da máquina de vender. Por causa de sua história anterior de sujeito ex perimental, Moos aprendeu isso facilmente — bastou que o experimentador demonstrasse uma vez o processo. Logo depois, Moss apa nhou uma ficha do chão e, meio sem jeito, inseriu-a na fresta. Mais algumas tentativas e sua habilidade aumentou consideravelmente. Isto é, sua resposta diferenciou-se na direção de um movimento rápido, suave e sem esforço para obtenção da recompensa. Em segundo lur gar, ele e seus companheiros foram treinados a discriminar entre fichas brancas e amarelas. No treinamento, apresentavam-se-lhe as duas espécies de fichas em pares sobre uma bandeja que ele podia al cançar de dentro de sua jaula. Se apanhava uma ficha branca ( S D) para usar na máquina de vender, obtinha uma uva; mas se) escolhesse uma amarela ( S A) e as colocava na fresta, não aparecia uva alguma. Moos resolveu o problema em quatro sessões de 20 escolhas cada uma, durante as quais fez um total de 10 erros, isto é, 10 respostas em SA. Por esta altura, uma nova peça de equipamento foi colocada na jaula de Moos: uma máquina de trabalho. Suas características prin cipais eram (1) uma barra e (2) um reservatório de fichas. O mover um dos extremos da barra para cima, descrevendo um arco de 90 graus, fazia com que as fichas viessem a ficar ao alcance do opera dor. Com a máquina em posição e com Moos atento, o experimentador
52
coloca uma ficha branca conspicuamcnte no reservatório e afasta-se. O chimpanzé aproxima-se da máquina e começa a sacudi-la e agitá-la repetida e vigorosamente, até que o experimentador o interrompe por um breve período. Depois da pausa, Moos volta à máquina, desta vez empurrando e puxando a barra. Não se passa muito tempo antes que consiga descrever um arco de 90 graus, depois do que pega a ficha do reservatório e usa-a imediatamente para conseguir uma uva na máquina de vender. Em seguida, rapidamente retoma a resposta de puxar a barra, obtendo fichas (e uvas) sem nenhuma dificuldade. Dois aspectos deste experimento são especialmente dignos de nota. Primeiro, formou-se, no segundo estágio do experimento, uma nítida discriminação em que o SD era uma ficha branca e o Sá uma ficha amarela. Na presença da primeira, a resposta manipuladora de Moos produzia uma uva; na presença da segunda, não. Em segundo lugar, a ficha branca tornou-se um reforçador secundário que, sozinho, foi capaz de fortalecer a resposta de puxar a barra (mesmo quando, como se demonstrou em um estágio posterior deste experimento, as fichas não podiam ser trocadas por uvas senão depois de um certo tempo). Assim, parece que um estímulo discriminativo para uma resposta pode ser o reforçador condicionado de outra . Experimentos essencialmente análogos ao de Moos foram con duzidos também com ratos, gatos, cachorros e crianças, para não citar com pintinhos, e o resultado foi sempre o mesmo. Ê hoje quase certo que, se um estímulo deve tornar-se um reforçador condicionado, é necessário que, antes, se torne um estímulo discriminativo. Não é bastante dizer que um estímulo que esteve meramente presente em todas as ocasiões em que a resposta foi reforçada tornar-se-á ele próprio reforçador; o estímulo deve também ter estado ausente todas as vezes em que a resposta não foi reforçada. Talvez se possa ver agora, melhor do que antes, como se for mam os encadeamentos. Na seção 14, observou-se que um encadea mento não é mais do que uma fileira de relações SD R á, mas não se fez nenhuma menção direta ao papel desempenhado pelo reforçamento. Agora deve ter ficado claro que o sinal discriminativo ------------
53
para uma resposta que obtém reforço primário torna-se reforçador para a resposta que produz este sinal. Em outras palavras, cada SD na cadeia torna-se um reforçador secundário para a resposta que o produz. Isto significa que, em certo sentido, os encadeamentos são esta belecidos de trás para diante — que o primeiro elo é o último a ser adicionado ao encadeamento. Recordemos o comportamento de Plí nio, o rato. O primeiro elo da cadeia, puxar o cordel, não poderia ter sido fortalecido antes que a bolinha de vidro tivesse se tornado recompensadora; manipular a bolinha de vidro, carregá-la e levantá-la não poderia ter sido fortalecido a menos que o tubo tivesse, de algum modo, se tornado também reforçador; deixar cair a bolinha não poderia ter sido fortalecido sem o som do alimentador; e, final mente, o comportamento de aproximar-se do recipiente de alimento dependia da presença do reforçador primário, o alimento. O reforçamento condicionado explica também o porquê de as primeiras respostas da série tornarem-se fortes quando o reforçamen to primário, final, fica tão distante no tempo. Ou, para dizê-lo de outra maneira, explica porque o reforço primário pode ser “retarda do”. Na verdade, o período de atraso possível de um reforçador pri mário é provavelmente muito curto, questão de segundos. Se parece ser mais longo, é porque o encadeamento de respostas, cada uma com o seu reforço condicionado imediato, preenche a lacuna. Neste ponto, se tomarmos Sr como símbolo do reformo condicio nado, e SR como símbolo do reforço primário, o diagrama final que servirá para representar este estado de coisas é o seguinte: sá S D ------------------
SA
RA R D —
R*
S*
rA
p sr o ---------------- . R D —
t SR
SA
Temos aqui, como primeiro elo do encadeamento, um estímulo discriminativo que dálugar a uma resposta diferenciada. Esta é acom panhada de um reforçador condicionado que é, ao mesmo tempo, o
54
estímulo discriminativo para a resposta diferenciada seguinte no en cadeamento; e esta última conduz, finalmente, ao reforçador primá rio. O primeiro SD seria, naturalmente, um Sr para qualquer elo adi cional que se quisesse somar aos elos já ligados. A influência tremenda do reforço condicionado sobre o compor tamento humano pode ser observada mais conspicuamente no caso daqueles estímulos ou dos compostos de estímulos que foram comumente acompanhados, sem que houvesse distância muito grande do reforço primário. Os mais interessantes, talvez, são os compostos providos pelo comportamento de outra pessoa. Por exemplo, desde o nascimento até a morte, o comportamento “atento” dos outros é comumente a preliminar de reforçadores primários tais como alimen to, bebida, e alívio do desconforto. A atenção torna-se, portanto, para a maioria de nós, uma importante recompensa secundária, e pode ser a reforçadora de toda uma série de atividades — desde o simples “Olha, papai!” da primeira infância até o recital de achaques e de dores que freqüentemente acompanha a velhice. A aprovação, na forma de um sorriso, de um aceno de cabeça, de um “Sim” ou equivalentes (diferentes pessoas revelam aprovação de maneiras diferentes), é um outro aspecto do comportamento que é, quase sempre, o antecessor de coisas mais básicas. Embora não seja um reforçador condicionado tão óbvio como a atenção, ainda assim figura proeminentemente na maioria de nossos contatos sociais. A “busca de aprovação”, quando extrema, não é muito bem vista em nossa sociedade, possivelmente ainda mais que o procurar “chamar a atenção”, mas há poucos de nós que não tenhamos sido recompensa dos uma vez ou outra pela “boa vontade” dos outros. O comportamento afetivo (beijos, carícias, abraços, etc.) da par te de outros é também um freqüente reforçador para a maioria de nós, presumivelmente porque relaciona-se com várias espécies de re forço primário, incluindo o sexual e o “maternal”. As características de estímulo deste comportamento, como as da aprovação, revelam muita variação entre indivíduos e grupos, e pode ser difícil distinguir o seu padrão do da coqueteria, ou mesmo do da submissão (ver abai
55
xo). Os “sinais de afeição”, isto é, o próprio comportamento afetivo também não são exatamente os mesmos de pessoa a pessoa. Muitas pessoas em nossa sociedade são reforçadas pelo “ceder” dos outros, por fazer as coisas “a seu modo”. Esta submissão ou comportamento submisso é ainda mais difícil de identificar como um padrão especial do que o padrão de estímulos da afeição ou da aprovação, mas qualquer um pode lembrar-se de muitos exemplos. “De pois do senhor!”, “Posso lhe ser útil, senhora?”, “Pode ficar com o meu pirulito, Joãozinho.”, “Por aqui, senhor, tenho uma mesa reser vada para o senhor!”, “Você pode ficar de centro-avante”, “Não foi nada, não doeu muito”. Todas estas expressões derivam seu poder reforçador do fato de elas, ou respostas como elas, terem algumas vezes sinalizado recompensas mais concretas, ou a remoção de obs táculos do caminho que leva a elas. Encorajam o desenvolvimento de um estilo de vida dominante, de auto-afirmação, “masculino” .por parte das pessoas a quem se dirige. As pessoas dominantes, por sua vez, comumente concedem fa vores àqueles que lhes dão prioridade. Aquele que se afasta para o outro passar pode, pelo menos, receber um agradecimento ou ser en corajado a acompanhar; o caixeiro será elogiado pela sua delicadeza; Pedrinho terá uma chance de dar uma volta no velocípede do João zinho; o “maitre” receberá uma boa gorgeta; Beltrano deixará que Sicrano jogue na meia; e o homem cujo pé foi pisado receberá palmadinhas no ombro. Tudo isso encoraja a adoção de^um modo de reagir diferente, subserviente ou “feminino”, e pode atíé resultar no cortejar a dominância dos outros. Infelizmente, a pessoa cujos refor ços consistem principalmente nas “sobras” pode também se tornar presa da ansiedade e do medo. Atenção, aprovação, afeição, submissão e dominação podem ser difíceis de identificar como estímulos para o nosso comportamento, mas há uma espécie de reforçadores condicionados que não oferece tantas dificuldades. É a classe das “recompensas simbólicas”, um exemplo das quais foi discutido páginas atrás, na forma da ficha bran* ca de Moos. O dinheiro é naturalmente o principal espécime dessas
56
recompensas. Ê difícil superestimar o seu poder reforçador em nossa sociedade. Mas existem outros, algo menos negociáveis, que são fá ceis de destacar. Abrangem desde as estrelinhas douradas, boletins, prêmios, bolsas de estudo, menções honrosas e diplomas, até as lin das taças, medalhas, citações, condecorações e notícias nos jornais sobre as nossas realizações. Não são, em geral, ocasiões para o re forço primário imediato, mas nos levam pela estrada que a isso con duz! Não são estas as únicas espécies de reforço “generalizado” * que poderiam ser mencionadas aqui; nem foram tratadas tão porme norizadamente quanto se poderia desejar. Se, contudo, ao fazer um retrospecto desta seção, o leitor concordar que deu um passo adiante na compreensão da conduta humana, isto terá sido bastante. Se pu der ver que o reforço condicionado se baseia no estabelecimento de uma discriminação, e que a ficha branca de Moos não dista muito do valor de recompensa do “dinheiro, força, idade, títulos, hierarquia e posições” (p. 6) nos negócios humanos, não há necessidade de acrescentar mais nada.
16. Reforço condicionado negativo Cerca de cinqüenta anos atrás, Vladimir Bechterev, um “reflexólogo” russo, descrevia um método de condicionamento que era, na sua opinião, muito superior ao empregado pelo seu rival, Ivan Pavlov. Podia ser mais facilmente usado com seres humanos e utilizava o comportamento motor em vez do glandular. Requeria apenas que um estímulo neutro (tal como um som) fosse associado a um choque elétrico no pé ou na mão, até que o primeiro produzisse o movimen to de flexão ou retirada que era a resposta incondicionada ao cho que. O som, em geral, precedia o choque de um par de segundos, e o choque não era aplicado se o movimento de retirada ocorresse dentro desse período. * “Generalizado” é o termo às vezes aplicado a um reforçador condicio nado cuja força deriva das associações que mantém com mais de um tipo de reforçador primário.
57
John Watson adotou esta técnica em 1916 e, desde então, tem sido muito popular nos laboratórios norte-americanos, tanto em pes quisas com seres humanos como com animais. Só recentemente, en tretanto, foi plenamente reconhecido o que ali ocorria. Watson acre ditava, como Bechterev e Pavlov tinham acreditado antes dele, que o procedimento era o mesmo que o empregado no condicionamento da resposta salivar no cão. Pois não era a associação de um estímulo neutro com um estímulo incondicionado? O estímulo neutro não pas sava a eliciar a resposta. Segundo todas as aparências, a resposta é Sim, mas havia algumas considerações perturbadoras. Uma delas eram as comunicações que regularmente vinham de vários laboratórios empenhados em investigações com animais de que as respostas de flexão ao estímulo condicionado eram bem diferentes das respostas ao estímulo incondicionado, o choque, exceto por um breve período no início do condicionamento. Embora as respostas fossem reconhecidamente semelhantes, as respostas ao choque eram geralmente descritas.como parecidas com reflexos (respondentes), en quanto que as dadas ao som pareciam comportamentos voluntários (operantes). As primeiras eram um movimento rápido e convulsivo, acarretando uma ampla ação muscular; as últimas, suaves, delibera das e de uma forma bastante específica de resposta. Um segundo fato perturbador era o seguinte. Se o procedimen to empregado fosse o estritamente pavloviano, isto é, se o estímulo neutro fosse regularmente acompanhado pelo choque, excetò nas ses sões de verificação, seria difícil demonstrar nitidamente a existência de condicionamento. Só quando a resposta ao estímulo condicionado era bem sucedida em evitar ou esquivar o choque que deveria vir é que se desenvolvia uma resposta motora específica diferente de um tipo de comportamento difuso e convulsivo. Os resultados com seres humanos em estudos de retirada da mão, do pé, de um dedo também eram intrigantes. Crianças subnor mals no laboratório de Bechterev eram mais facilmente condiciona das que crianças normais, meninas eram mais facilmente condicio nadas que meninos, e crianças mais jovens mais facilmente que crian *
58
ças mais velhas; um choque forte erà mais eficiente que um choque fraco. Os resultados referentes à intensidade do choque foram con firmados nos laboratórios norteramericanos com sujeitos adultos, mas alguns sujeitos, mesmo com choque intenso não se condicionaram de maneira alguma. Comumente, os resultados com animais foram con firmados. O responder difuso foi substituído por reações altamente específicas à medida que o condicionamento prosseguia; a resposta condicionada era evocada menos rapidamente do que a incondicionada e o condicionamento era melhor sempre que era possível esqui var o choque. Além disso, os resultados com seres humanos eram notoriamente dependentes do tipo de instruções que recebiam e da experiência anterior dos sujeitos em situações semelhantes. A chave para a maioria desses problemas se encontra no que pode ser chamado, meio esdruxulamente, “reforço condicionado ne gativo”. O leitor estará lembrado da distinção, feita na seção 5, entre reforçamento positivo e negativo. Os reforçadores positivos foram definidos como sendo “todos aqueles estímulos que, quando apresetu tados, agem no sentido de fortalecer o comportamento que os prece de”. Reforçadores negativos foram definidos como os estímulos cuja remoção é fortalecedora ou cuja apresentação é enfraquecedora. De pois, na seção 15 aparece a distinção entre reforçadores primários e condicionados. Mas todos os reforçadores condicionados descritos fo ram do tipo positivo. Eram estímulos que, através de uma associa ção especial com os reforçadores positivos, tornavam-se, eles próprios, reforçadores. Nenhuma menção foi feita a estímulos que, através de associação com reforçadores negativos, tivessem assumido uma fun ção similar. Esta negligência será agora remediada se se considerar um ou tro experimento simples com um organismo relativamente simples, o rato branco de laboratório. Desta vez, o equipamento é uma câmara com uma divisão no meio e uma porta de ligação. O interior de uma das divisões está pintado de branco, e tem no chão grades atra vés das quais é possível aplicar choques elétricos aos pés do sujeito. A outra divisão é pintada de preto, tem o chão de madeira, e é quase
59
à prova de luz. No teto de cada divisão há um alçapão que permite colocar ou retirar o animal da câmara. Uma das paredes da divisão branca é de vidro, o que permite ao experimentador observar o animal. O procedimento no primeiro dia do experimento é simplesmente colocar o animal na divisão branca, ligar uma corrente elétrica na grade do chão, deixando que receba choque até que salte através da cortina preta da portinhola para a divisão preta. Como se poderia esperar, o rato resolve rapidamente este problema, em questão de segundos. Daí por diante o experimentador, depois de ter dado ao rato alguns minutos de descanso, experimenta outra vez. E outra vez, até que se tenha acumulado 60 corridas da divisão branca para a preta. A esta altura, ninguém vai discutir a afirmação de que o cho que é um reforçador negativo — e que o correr para a divisão preta foi reforçado pela remoção do choque. Ninguém duvida também que o choque é um estímulo eliciador para a atividade “emocional”. E pode-se também concluir que a divisão branca, no decorrer destas tentativas, tornou-se um estímulo condicionado para esta atividade. A primeira verificação destas afirmações se faz no dia seguinte. Mais uma vez o sujeito é colocado na divisão branca. As condições são as mesmas do dia anterior, exceto pelo fato de (a) a grade do chão já não estar eletrificada, (b) a portinhola entre as divisões estar fechada e trancada. Em quinze minutos de observação torna-se óbvio que a divisão branca atua de jato como um estímulo emocional con dicionado. Observam-se no comportamento do rato todos os sinais clássicos de medo: micção, defecação, tremores e respiração acelera da. Mesmo depois de um Quarto de hora de confinamento na divi são branca, quando já se pode ver alguma melhoria, o animal con tinua ainda agachado e trêmulo, obviamente desgraçado. A segunda verificação é feita no dia seguinte. As condições são as mesmas do dia anterior, isto é, o choque foi removido da divisão branca mas a porta de passagem para a divisão preta é destravada e permanece aberta atrás da cortina. O rato pode agora correr para a divisão preta e nela permanecer durante mais ou menos um minuto, depois do qual é retirado e recolocado na divisão branca, onde tem
60
outra chance de fugir. Isto é repetido sessenta vezes ou até que o animal não abandone mais a divisão branca. Resultado: no fim do dia, ele estará ainda atravessando a porta com apreciável velocidade embora não tão rapidamente quanto a princípio. A divisão branca, apesar de não mais apresentar choque, é ainda alguma coisa da qual deve fugir. A sua “remoção” é recompensadora. Devido à associa ção inicial entre a divisão branca e um reforço negativo, o choque, ela tornou-se um reforçador negativo, ou melhor, um reforço nega tivo condicionado. Outros pontos deveriam ser destacados em relação a este expe rimento. Um ponto é que se o animal fosse confinado na divisão branca por um período muito longo, no segundo dia ele não tentaria deixá-la, exceto para algumas explorações no terceiro dia. Ocorre ria a extinção da resposta emocional ao estímulo divisão branca (ver seção 10). Esta divisão teria perdido seu poder de reforço negativo condicionado, de modo que sua remoção deixaria de ser recompensa dora. O rato não fugiria simplesmente porque nada havia de que afastar-se. Um segundo ponto é que, se fizer com que o rato dê mais de sessenta corridas no terceiro dia, sua velocidade de correr terá dimi nuído e, por fim, caído para zero. O recolocar repetidamente o ani mal no terceiro dia na divisão branca terá o mesmo efeito que uma prolongada exposição no segundo. Não que o comportamento ope rante de correr se tenha extinguido; ao invés disto, sua causa é que foi eliminada à medida que a divisão branca vai perdendo sua força como reforçador negativo ou estímulo emocional condicionado. Um terceiro ponto é o seguinte. Poder-se-ia ter demonstrado o reforçamento “negativo” condicionado quase tão facilmente se não se tivesse permitido que o rato escapasse do choque no primeiro dia de treino. Teria sido possível aplicar sessenta choques breves enquanto estivesse confinado à divisão branca e, no terceiro dia, teria sido pos sível ensiná-lo a correr através da portinhola. O reforço, como antes, teria sido a remoção da divisão em que recebeu choques.
61
Um outro ponto ainda. Poderíamos ter condicionado o rato a remover qualquer outra coisa que não a divisão branca. Alterando ligeiramente o aparelho, poderíamos tê-lo condicionado a corrcr dc uma divisão para outra e, assim, remover um determinado fator es pecial do estímulo na situação, digamos desligar uma luz forte ou uma cigarra. Na verdade, poderíamos ter demonstrado que qualquer espécie de estimulação que não fosse negativa poderia passar a sê-lo — até mesmo a estimulação oriunda dos próprios movimentos do animal. Se um choquc fosse apresentado em intervalos de cinco se gundos, a menos que o animal estivesse apoiado só sobre as patas traseiras, poderíamos ter logo um animal que passaria a maior parte do tempo com as patas dianteiras no ar, escapando assim de suas outras maneiras de se comportar, todas as quais teriam eventual mente sido punidas pelo choque. Se recapitularmos agora o caso do condicionamento de retirada do dedo, mão ou pé, ele aparece sob uma luz diferente. Parece agora não ser muito mais do que um comportamento de esquiva, como o exibido pelo rato que escapa de um reforçador condicionado como um compartimento branco, uma cigarra ou umja das suas pró prias respostas. Se o cachorro levanta a pata dianteira ao escutar um som, e assim evita um choque elétrico na pata, seu reforçamento bem pode ser derivado da eliminação de uma parte do composto de estímulos que foi associado ao choque. Não se esperaria que este le vantar operante se assemelhasse à reação respondente ao choque mais do que esperaríamos que a corrida determinada do rato para o outro compartimento se assemelhasse com os saltos que dava feito louco, inicialmente, quando a grade era eletrificada. Os resultados dos experimentos sobre a retirada do dedo não são paralelos exatos dos experimentos de esquiva. Pode ser, contudo, que experimentos com seres humanos incluam uma situação de con flito que está ausente no caso de organismos como o cão e o rato. O comportamento de algumas pessoas, incluindo o relato de como se “sentem”, sugere uma espécie de esquiva competitiva. De um lado, há a tendência a evitar o choque, o que vem sendo reforçado pela
62
remoção de um som, uma luz, ou outra ameaça qualquer. De outro lado, há o que se poderia chamar uma esquiva de uma esquiva , que foi originariamente reforçada porque recebia aprovação social ou eli minava a desaprovação. Quando um sujeito relata que se sente “en vergonhado” ou “meio tolo” por tirar o dedo do elétrodo quando vem o sinal do choque, isto sugere que no passado suas falhas em “enfrentar” tal estimulação foi seguida por conseqüências piores ain da; e que, efetivamente, o deixar de retirar o dedo (para esquivar) deve-se a um contramovimento que esquiva isto! Uma explicação como esta pelo menos não contraria a descoberta de que as crianças anormais adquirem a retirada do dedo mais facilmente que as nor mais; que as meninas mais rapidamente que os meninos; que as crian ças menores mais facilmente que as mais velhas; que com choque forte é mais fácil que com fraco, etc. Já se deu alguma atenção antes (seção 15) ao papel do reforço positivo condicionado na vida diária do homem, e sua importância no controle do comportamento já foi salientada. Os reforçadores condicionados negativos são ainda dramáticos e vitalmente importan tes. Uma grande porcentagem de nossos atos, tanto normais como anormais, parecem ter adquirido quase toda sua força da remoção de estímulos que adquiriram um caráter aversivo. Os mais óbvios são as respostas que removem sinais exteriores de perigo. Muitos jogos e a maioria das ocupações requerem certo grau de comportamentos de esgueirar-se, eximir-se, furtar-se e esquivar-se em resposta a sinais do ambiente. De outro modo, como acontece com o cão que deixa de flexionar a perna ao som, pode vir o desastre. Há também atividades que demandam escape de sinais providos pelos nossos próprios movimentos. São importantes nas atividades em que o equilíbrio e a postura desempenham um papel relevante. Esquiar, patinar, andar de bicicleta, nadar, mergulhar, fazer acroba cias, são excelentes exemplos. O ziguezaguear e o cai-não-cai de quem começa a andar de esquis mostram vividamente a maneira pela qual os sinais oriundos de um movimento vêm a ser “corrigidos” por outro. Por fim, os escapes de cair são feitos tão rápida e sutilmente
63
que já não são vistos. Nos arabescos e figurações do ciclista de circo há muito pouco que lembre as esquivas desajeitadas (ou os tombos e os arranhões!) do principiante. E para retomar um exemplo ante rior, nada lembra no passo elástico do andarilho a longa série de “quase cair” e equilibrar-se que foram os principais ingredientes de sua “aprendizagem de andar”. Um aspecto mais sério deste assunto pode ser,aqui rapidamente mencionado para encerrar esta seção. Reforçadores negativos, primá rios e condicionados, constituem a maior parte do que chamamos “punição” (Seção 10). No caso do primário, há efetivamente “feri mento” corporal, como quando uma criança é espancada, leva palma-' das ou é fisicamente forçada à submissão. No caso do condiciona mento, pode ser na forma de um insulto, caçoadas, ironias ou amea ças, entre outras coisas. Em ambos os casos," contudo, uma resposta emocional fica condicionada de maneira pavloviana e a situação torna-se negativamente reforçadora. A fuga da situação, ou de qualquer resposta com ela relacionada, torna-se recompensadora. Um método óbvio de remover estas situações aversivas condicio nadas é o empregado pelo rato do exemplo anterior, que abandonava o lugar em que eTa punido tão rapidamente quanto podia. Assim procedem ocasionalmente os seres humanos. O lugar em que sofre ram uma perturbação emocional torna-se, para eles, um lugar a que nunca querem voltar; desenvolvem uma “fobia” em relação a ele e, através da generalização, a lugares que a ele se assemelhem. Algu mas vezes, entretanto, mecanismos de defesa menos óbvios são usa dos para evitar o reaparecimento de sinais ou ameaças de punição. Uma pessoa pode tornar-se incapaz de “ver” ou “ouvir” aquilo que seja negativamente reforçador, pode não ser capaz de fazer um mo vimento que, anteriormente, desempenhou um papel em produzir re forço negativo; ou pode desenvolver um comportamento que o man tenha ocupado com estimulações alternativas, elas próprias negativa mente reforçadoras, mas em menor grau. Estes e outros modos de fugir das mazelas de nosso mundo atual são interessantes para o estudioso da aprendizagem bem como para
64
aqueles cuja principal preocupação é com os desajustamentos huma nos e com sua cura. Os problemas envolvidos não são simples. Nem de longe tão simples como este apanhado do campo possa ter suge rido. Mas hoje se pode ver, melhor do que nunca, que necessitarão, para uma solução completa, de uma ampla compreensão dos princí pios básicos aos quais o leitor foi introduzido neste trabalho.
17. Pós-escrito Na seção 1, página 6, foram mencionados alguns exemplos de aprendizagem, e algumas questões a respeito deles foram levantadas. Não se ofereceu nenhuma definição do conceito, nem se prometeu uma. Nem seria uma definição útil agora. Deu-se a entender, entre tanto, que a “aprendizagem” passou a incluir grande parte do que se entende hoje pelo nome de “psicologia” e foi prometido que um co nhecimento dos: princípios gerais tratados nestas páginas permitiria ao leitor analisar muitos casos de aprendizagem na vida diária, inclusive os que lá foram citados. Assim sendo, seria bom que o leitor, agora, relesse a primeira seção, perguntando-se se a promessa foi cumprida, completamente ou em parte. Se o foi, melhor! Se não, e se o leitor tiver sido “aplicado”, então este trabalho não esteve à altura de seus objetivos. Neste caso, o único resultado positivo que ainda pode res tar é que tenha conseguido despertar o interesse na continuação dos estudos neste campo, ou no da própria psicologia.
65
Apêndice: curvas acumuladas e registrador acumulado Como foi ressaltado em vários pontos neste pequeno livro, a partir da seção 4, o comportamento é medido, primariamente, em termos de freqüência de ocorrência. Denominamos forte o ato que ocorre freqüentemente e fraco aquele que ocorre raramente. Uma criança condicionada a pressionar uma avalanca para obter pequenos pedaços de doce aumentará rapidamente a freqüência das pressões quando ocorrerem os primeiros reforçamentos da resposta. Com o tempo, o doce perde sua atração e a freqüência diminui' gradualmen te. A princípio, a resposta foi fortalecida e depois tornou-se fraca. Pode-se considerar este aspecto em termos de razão de respostas — respostas por segundo, respostas por minuto, ou respostas por hora. A razão das respostas aumenta, no condicionamento, de quase zero respostas por minuto até vinte ou trinta. Durante a saciação, à medida que o doce continua a ser comido, a razão decresce gradual mente desse valor até chegar a uma parada completa. Isto está graficamente representado nas figuras 1 e 2 abaixo. A figura 1 mostra como a freqüência da pressão à barra (o número de pressões por minuto) pode mudar durante um período de condi cionamento de três minutos. Nenhuma resposta foi apresentada nos primeiros trinta segundos mais ou menos, conforme mostra esse grá fico. As respostas aparecem e, assim que os reforços são apresenta dos, a freqüência de pressionar rapidamente aumenta até um valor de cerca de vinte por minuto. (O leitor pode verificar isto estimando o número de respostas apresentadas entre as duas linhas verticais ponteadas da figura.) Uma vez que a freqüência aumenta no decor rer desse registro, a curva mostra uma aceleração positiva .
66
0
1
2
3
0
1
2
(minutos)
(minutos)
Fig. 1
Fig. 2
3
Na figura 2 maior número de respostas são representadas. Este gráfico mostra que cerca de 100 respostas foram emitadas em um pe ríodo de três minutos, numa razão gradualmente decrescente. Pode-se considerar esta curva como um gráfico do consumo de cerca de 100 pedaços de doce por uma criança, durante um período de três minutos. Uma curva como esta, que mostra um decréscimo da fre qüência, é negativamente acelerada. A figura 3 ilustra um tipo especial de curva, uma curva em linha reta. Este é o tipo de registro obtido quando o doce, ao invés de ser dado após cada resposta de pressão, é dado de vez em quando — isto é, intermitentemente. Durante um período de três minutos, trezentas respostas foram apresentadas, numa razão de 100 respos tas por minuto. Os pequenos riscos ou marcas ao longo da linha in dicam quando foram apresentados os reforços — depois de quantas respostas e de quanto tempo.
0
1 2 (minutos)
3
Fig. 3
67
Seria muito útil ter um aparelho que, automaticamente, produ zisse curvas de freqüência como estas, no próprio momento em que as respostas são emitidas. Teríamos economizado o trabalho de acumular respostas durante as sucessivas unidades de tempo (por exemplo, cada minuto) e evitado elaborar curvas como as das figu ras 1, 2 e 3, às vezes muito tempo depois de ter observado o com portamento. Assim, se o sujeito do experimento (a menina, do exem plo) construísse seu próprio registro gráfico à medida que se com portasse, isto economizaria muito trabalho posterior e informaria em cada momento, durante o experimento, exatamente o que estava ocor rendo em termos da freqüência da resposta. Esse aparelho existe! É o registrador acumulado , um dos ins trumentos modernos mais úteis no estudo experimental do compor tamento. Produz curvas como aquelas consideradas acima e -muitas outras. Faz isso por simples adição (acumulação) de respostas e tempo no registro gráfico (a curva). Exaiídnemos como isto ocorre. Começa-se com alguma freqüência de resposta que se quer re gistrar, como nos exemplos mencionados. Suponha que a resposta seja a de pressionar uma alavanca. Cada vez que a alavanca for su ficientemente pressionada, ativa o mecanismo que faz com que a pena percorra verticalmente um degrau mínimo, em direção à parte supe rior da folha de papel do registro. Se nada mais ocorresse, uma série dessas respostas formaria uma linha reta no papel, de baixo para cima, como a linha vertical marcada Respostas nas figuras 1, 2 ou 3. Mas algo mais ocorre. Quando se aciona o aparelho para re gistrar a resposta, o papel colocado sob a pena corre muito lenta e constantemente para a esquerda, em uma velocidade de somente al guns milímetros por segundo. Se este movimento continuasse por algum tempo e nenhuma resposta fosse apresentada, a pena desenha ria uma linha para a direita, tal como a linha horizontal
68
superfície do papel.) As respostas, isoladamente, dariam uma linha vertical; o tempo, isoladamente, uma horizontal. Quando as respostas são apresentadas no decorrer do tempo, o registrador acumulado faz curvas como as dos exemplos, ou combi nações destas curvas. A fim de obter uma descrição pormenorizada de como isto pode acontecer, suponhamos que já se tenha desenhado na folha de registro uma linha para Respostas e uma linha para Mi nutos, como na figura 4. Suponhamos também que se marquem pon tos em cada linha a intervalos regulares, para mostrar o número de respostas ou a quantidade de tempo que gastariam. Coloca-se agora a pena do registrador no ponto zero, onde as duas linhas se encon tram, e aciona-se o aparelho. Imagine que, com a passagem do tem po, é possível, para alguns organismos, pressionarem uma alacanva, obterem um reforço e, automaticamente, registrarem a resposta. Lem bre-se que cada resposta elevará a pena no papel na altura de um pequeno degrau e que cada minuto de tempo será registrado como uma curta distância horizontal da pena ao deslocar-se para a direita. Na figura 4, parece que a primeira resposta ocorreu depois de seis minutos, elevando a pena um degrau acima da linha de base. Depois de outros três minutos de a pena movimentar-se para a direi ta, outra resposta ocorreu e a pena moveu-se um outro degrau para cima. As duas próximas respostas ocorreram aproximadamente no intervalo de dois minutos e, depois disso, passaram a ocorrer com constância e com uma freqüência de quase uma resposta por minuto, até quatorze respostas serem apresentadas. Então, gradualmente, au mentou cada vez inais o tempo entre as respostas. Finalmente, as respostas cessaram e a linha do tempo continuou paralela à linha de base, até o fim do registro. Foi construída a curva de respostas. A pena pode voltar para a linha de base e um novo registro pode ser iniciado. Modificando-se o aspecto de linha quebrada do registro obtido, enviesando o papel ou colocando-o à distância, pode-se reconhecer que a “curva” feita é, em alguns aspectos, semelhante àquelas das figuras 1, 2 e 3. A princípio, há uma ligeira aceleração positiva pa-
69
0
5
10
20
30
40
50
(minutos)
Fig. 4 recida com a que ocorre na figura 1. Segue-se um segmento em linha reta, como o da figura 3, no qual as respostas aparecem numa fre qüência constante. E finalmente, uma aceleração negativa, como a da figura 2. / Embora a curva da figura 4 tenha sido construída desse modo especial, para mostrar aceleração positiva e negativa e uma freqüên cia de respostas constante, os resultados não são muito diversos dos obtidos em um experimento real. O registro poderia representar, pri meiro, o condicionamento de uma resposta de pressionar uma ala vanca em uma criança, com bons pedaços de doce reforçando cada resposta; a segunda parte poderia representar um período constante de respostas de comer o doce, depois de a resposta ser condicionada; e a parte final da curva poderia ser um gráfico do decréscimo de respostas decorrente da saciação de doce. Dois outros pontos devem ser esclarecidos antes de encerrar este assunto de registrador acumulado e de suas operações. Primeiro, a aparência de linha quebrada da curva de registro acumulado não é, geralmente, tão óbvia quanto a da figura 4. Quando as unidades das respostas são muito pequenas e o movimento de tempo muito lento, é difícil distinguir os degraus; a curva parecerá quase tão lisa quanto as das três primeiras figuras. (Pode-se, naturalmente, exagerar o efei to de degrau fazendo que a pena se mova para mais longe em cada resposta e acelerando o movimento na direção tempo.)
70
Segundo, mesmo nos casos de degraus pequenos e velocidades baixas, alguns organismos, como pombos, por exemplo, respondem com alta freqüência e, se nada impedisse a pena, ela ultrapassaria a parte superior do papel de registro. Por essa razão, os registradores acumulados estão equipados com um mecanismo de reajuste que faz a pena voltar automaticamente à linha de base quando alcança uma determinada altura do papel de registro (quando um certo número de respostas foi apresentado). O efeito é simüar ao apresentado no fim do registro da figura 4. Curvas de respostas que se estendem no tempo, mantendo alta freqüência, podem mostrar muitas voltas e as censões. (Isto não significa, naturalmente, que se subtraem respostas do número das já apresentadas; as curvas acumuladas, como o nome sugere, acumulam respostas — somente adicionam. Se se tivesse no papel de registro todo o espaço necessário, o registro continuaria até o fim, sem qualquer necessidade para recomeçar da base.)
71