examenes de idiomas 67 IMPER.pdf

C a m b r i d g e

Exámenes de Idiomas Elaboración y evaluación

J. Charles Alderson Caroline Clapham Dianne Wall

Exámenes de idiomas Elaboración y evaluación Charles Alderson Caroline Clapham Dianne Wall

J .

Traducción de Neus Figueras

CAMBRIDGE U N I V E R S I T Y P R E SS SS

PUBLICADO POR THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE

The Pitt Building, Trumpington Street, Cambridge, United Kingdom CAMBRIDGE UNIVERSITY PRESS

The Edinburgh Building, Cambri dge CB2 2R U, UK http ht tp://w ://w w w .cu p.cam.ac-1 p.cam.ac-11^ 40 West 20th Street, New York, NY 10011-4211, USA http://www.cup.org 10 Stamford Road, Oakleigh, Melbourne 3166, Australia Ruiz de Alarcon, Alarcon, 13, 2 80 14 Madrid, España España Título original: Language Test Test Construction and and Evalu Evaluatio ation n (ISBN 0 521 521 47829 4) publicado public ado por Cambri dge University University Press Press,, 1995 © Cam bridge University Press, Press, 1995 Edición española como Exámenes de idiomas, elaboración y evaluación Primera edición 1998 © Cam bridge University Press, Press, Madrid, Madrid, 1998 © Traducción española, Neus Figueras, 1998 ISBN 84 8323 0305 rústica Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografia y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamo público. Impreso en España por C+I, S.L. Maquetado en QuarkXPress™ por Yeltes Soluciones Gráficas, S.L. Depósito legal: M-41566-1998

Sumario

Capítulo 1

Génesis y prólogo

Capítulo 2

Especificaciones de examen ..................................14

Capítulo 3

La redacción de ítems y la función moderadora

......................................................

7

43

.......................................

Capítulo 4

Ensayos previos y análisis .....................................74

Capítulo 5

La formación de examinadores y administradores ..................................................105

Capítulo 6

La supervisión de la fiabilidad de los examinadores

............................................

Capítulo 7

Informe de resultados y determinación de la puntuación de aprobado

..........................

127

145

Capítulo 8

La validación ...........................................................165

Capítulo 9

Los informes posteriores a laprueba

................

Capitu ló lo Desarrollo y mejora de los exámenes

.............

Capítulo 11 Criterios de la evaluación de lenguas: el estado de la cuestión

......................................

190 209

225

Apéndices ........................................................................................248 Glosario

271

.......

Abreviaturas y acrónimos

..........................................................

282

Bibliografía .....................................................................................284 índice

289

1

Génesis y prólogo

Este libro va dirigido a profesores de idiomas que tengan la responsabilidad de elaborar pruebas de competencia lingüística y a profesionales que quizá no estén directamente im plicados en la docencia pero q ue tengan qu e elaborar o evaluar pruebas o exámenes de idiomas, o interpretar la información resul tante de tales pruebas. (Com o la distinción entre «p ru eb a» -test- y «exa m en » -examination—es tan vaga, en este libro utilizaremos ambos términos indistin tamente.) Aunque nuestros e jemplos provengan en su mayor parte del campo del inglés como lengua extranjera, los principios y la práctica que describi mos pueden aplicarse a la evaluación de cualquier otro idioma, y este libro es sin duda relevante para profesores y evaluadores de cualquier lengua, ya sea considerada como segunda lengua o lengua extranjera, ya lo sea como pri mera lengua. Los profesores en activo deben elaborar a menudo pruebas de nivel para los alumnos nuevos, pruebas de final de trimestre o pruebas parciales de aprove chamiento para los diferentes cursos de una institución, o quizá sean los res ponsables de la elaboración de series de pruebas de aprovechamiento al final de un p eríodo de estudio relativamente largo. Entre los no docentes que deben saber cóm o preparar pruebas se cuentan las personas que trabajan para tribunales de exámenes e instituciones oficiales, que necesitan medidas válidas y fiables para evaluar el aprovechamiento. Entre otras personas que pueden tener que elaborar exámenes se incluyen estudiantes graduados, investigadores y académicos de lingüística aplicada, que necesitan exámenes como parte de sus investigaciones. Los exámenes pueden ser una forma de obtener los datos lingüísticos que son objeto de estudio o el medio para obtener información sobre la competencia lingüística con el fin de poder comparar ésta con otra variable lingüística. Pero además de aquellos que necesitan elaborar pruebas, se encuentran los que quieren entender cómo funcionan éstas y cómo deberían elaborarse para pod er entender m ejor el proceso de evaluación, o para poder seleccionar entre una colección de pruebas a su disposición el instrumento más adecuado a su situación particular. Estas personas tienen a menudo dificultades a la hora de valorar las cualidades que las distintas fuentes de producción de exámenes atri buyen a sus propios instrumentos. Al entender lo que constituye una buena práctica en el terreno de la evaluación y conociendo las prácticas más corrien tes, estos lectores tendrán suficiente información para decidir y escoger aque 

Génesis y prólogo

En este libro describimos el proceso de elaboración de pruebas, desde el borr ado r de las especificaciones iniciales hasta la publicación de resultados y la elaboración de nuevas pruebas, incorporando novedades y comentarios sobre los resultados de la convocatoria anterior. Este libro pretende describir e ilustrar la buena práctica en el desarrollo de exámenes y los principios de diseño, elaboración y administración que deben fundamentar esta buena práctica. El libro se divide en once capítulos, cada uno de los cuales trata un estadio en el proceso de elaboración de las pruebas. En el capítulo 2 se trata el conjunto de especificaciones en las que se basará el examen. En el capítulo 3 se describe el proceso de redacción de cada uno de los ítems que pasará a formar parte de la prueba y el análisis, discusión y selección a que debe someterse toda prueba. En el capítulo 4 se discute sob re la importancia de los en sayos previos a la primera versión de la prueba y se describe cómo deben analizarse las pruebas en esta fase. En el capítulo 5 se trata la formación de los correctores y administradores de la prueba, mientras que en el capítulo 6 se muestra cómo supervisar la fiabilidad de los examinadores. En el capítulo 7 se tratan aspectos relacionados con la fijación de criterios de co mportam iento y la publicación de resultados, mientras que en el capítulo 8 se describen aspectos del proceso de validación de las pruebas. En el capítulo 9 se describe cómo deben redactarse y presentarse los inform es sobre el funcionam iento de la prueba com o tal y en el capítulo 10 se discute cómo se pueden desarrollar y mejorar los exámenes a partir de la experiencia y de la investigación. En el capítulo final se discute la cuestión de lo s criterios en la evaluación de idiomas y se describe el estado actual de la cuestión. Sin dud a esta breve descripción de los contenidos del libro pu ede parecer abrumadora: el proceso de elaboración de pruebas es bastante complejo y exigente. Sin emb argo, hem os intentado exponer nuestro trabajo de forma que sea fácil de utilizar de diferentes maneras. Cada capítulo empieza con un breve enunciado de las cuestiones q ue se tratarán y concluye con un sum ario de los aspectos principales que se han tratado, que pueden consultar profesores atareados, miembros de tribunales de exámenes, investigadores y evaluadores de pruebas. Nuestras descripciones de los principios y pro cedim ientos q ue constituyen la evaluación de idiomas no presuponen ningún conocimiento previo sobre evaluación o estadística. En realidad, nuestro objetivo es dar a los lectores los conocimientos técnicos mínimos necesarios para elaborar y analizar sus propias pruebas o para evaluar pruebas elaboradas por otros. Sin embargo, este no es un libro de texto de psicometría: existen libros de texto sobre este tema y se anima al lector interesado en este aspecto de la evaluación a consultar los volúmenes citados al final de este capítulo. No obstante, debe tenerse en cuenta que muchos libros de medición en el campo de la educación no se limitan a la evaluación de idiomas sino que con frecuencia presuponen un cierto grado de conocimiento de matemáticas y una fam iliaridad con conceptos estadísticos que sabemos, por experiencia, que la mayoría de las personas implicadas en la evaluación de idioma Esperamos, sin embarg leído est

Génesis y prólogo

tJna de las cosas que no pretendemos en este libro es la descripción detallada de técnicas de evaluación. Esto es así en parte porque ese tema está tratado ampliamente en otros libros, por ejemplo en Oller, 1979; Heaton, 1988; Idugues, 1990; Weir, 1990; Cohén, 1994. Además, y todavía más importante, creemos que no es posible tratar este tema con profundidad en las páginas de este libro. Para seleccionar técnicas de evaluación y para redactar buenos ítems un redactor de p ruebas necesita conocim ientos de lingüística aplicada, de didác tica y de adquisición de la lengua que no pueden transmitirse de forma ade cuada en un libro de recetas, y mucho menos en el mismo libro en el que se discuten principios y procedim ientos de evaluación. Así pues d irigimo s a los lectores que necesiten una breve ejemplificación de técnicas de evaluación a los libros de'evaluación citados más arriba. A lo largo del libro complementamos nuestra discusión de los principios de elaboración de exámenes con ejemplos de cómo ponen en práctica estos prin cipios los tribunales de exámenes de inglés co mo lengua extranjera en el Reino Unido. En la segunda parte de cada capítulo se ilustra la puesta en práctica de lo descrito tal como se lleva a cabo en el Reino Unido. Nuestro objetivo no es el de proponer que todos los exámenes se elaboren de la misma forma en que se hace en los tribunales de exámenes del Reino Unido; ni mucho menos. Lo que queremos es facilitar ejemplos concretos que ayuden a nuestros lectores a com prender m ejor la teoría. Esperamos qu e esta inform a ción sea interesante para todos nuestros lectores y no solamente para las miem bros de los tribunales de exámenes, aunque creemos que estas personas considerarán instructivos los procedimientos y las prácticas de otros tribunales. Aunque los ejemplos que aparecen en este libro están claramente localizados en un entorno concreto —el Reino U n id o- sabem os p or experiencia que en otros países se siguen prácticas similares y creemos firmemente que la práctica lle vada a cabo en un tribunal de exámenes concreto resultará relevante para otros evaluadores de diferentes partes del mun do con respecto a su pro pia situación. Los principios son universales, aunque la práctica varíe. Hemos descubierto, dirigiendo talleres para evaluadores en ciernes alrededor del mundo, que las personas interesadas en aprender las técnicas de elaboración de exámenes, sean de nivel, de aprovechamiento o de competencia, pueden apren der de la experiencia de los demás. Presentamos los datos de la práctica habitual en el Reino Unido de form a crítica: discutimos los puntos a favor y los inconve nientes, y hacem os sugerencias para modificar esa práctica con el fin de mejorarla. El lector verá que incluso los tribunales de exámenes no hacen las cosas a la per fección; todos po dem os aprender al relacionar los principios con la práctica. Esta inform ación fue reco gida de distintas formas, tal y como describimos más adelante, pero primero queremos explicar por qué escribimos este libro. Los tres autores habíamos experimentado una frustración considerable al no haber obtenido ningún documento que diera cuenta de cómo elaboran sus pruebas los tribunales de exámenes. Los tres hemos dado clases sobre evalua

Génesis y prólogo

talleres para distintos alumnad os alrededor del mund o. T enem os una experien cia considerable con tribunales de exámenes del Reino Unido como redactores de ítems, com o m iembros de comités de redacción, co mo examinadores, com o responsables de validación y com o investigadores. Estamos tod os familiarizados con la teoría de la evaluación de idiomas y los principios de diseño de exáme nes. Sin embargo, no hemos encontrado una descripción adecuada para la ela boración de exámenes que deban poner en práctica estos principios. Nuestro primer intento de recoger información de forma sistemática sobre los tribunales de exámenes del Reino Unido empez ó en 1986, cuando fu imos invita dos a llevar a cabo un proy ecto de investigación que debía ofrecer recomendacio nes para el control de calidad de los nuevos exámenes de lengua inglesa en Sri Lanka. Tuvimos una serie de entrevistas con representantes de diversos tribunales de exámenes de inglés co mo lengua extranjera para averiguar cóm o llevaban a cabo las pruebas de inglés escrito y hablado. Estas entrevistas dieron como resultado un número de informes cuyo contenido se consensuó con lo s interlocutores. Los infor mes circularon internamente en Lancaster y estuvieron a la disposición de visitan tes y alumnos, pero nunca se publicaron y en ningún caso cubrieron todos los responsables de la elaboración y administración de exámenes del Reino Unido. Uno de los autores de este libro fue invitado por Karl Krahnke y Charles Stansfield para contribuir como redactor en la publicación por parte de TESOL de los Reviews of English Language Proficimcy Tests (Informes de los exámenes de aptitud en lengua inglesa). Parte del trabajo incorporaba el encargo de elaborar informes sobre doce exá menes de inglés como lengua extranjera realizados en el Reino Unido. Estos inform es, una vez elaborados, se enviaron a los tribunales de exámenes corres pondientes por si sus m iembros querían hacer comentarios. Se modificaron si éste era el caso y se publicaron en Alderson et al., 1987. Varios redactores de los infor mes c oincidían en sus comentarios sobre los puntos fuertes y los puntos débiles de los exámenes del Reino Unido, y algunos fueron contestados por los tribuna les. De los doce exámenes estudiados, nueve fueron criticados por no aportar sufi cientes pruebas sobre su fiabilidad y validez, y sólo en dos casos los autores del estudio se mostraron satisfechos por los datos que se les facilitaron. Alderson incluyó en dicha publicación para TESOL el trabajo Ai OverView of ESL/EFL Testing in Britain (Una descripción de la evaluación del inglés como lengua extranjera o como segunda lengua en Gran Bretaña), que explicaba la tradición británica a lectores de otros países. En su anáfisis afirmaba: «Debido a la necesidad constante de elaborar nuevos exámenes y a la falta de interés por parte de los tribunales de exámenes sobre la necesidad de una validación empírica y no meramente subjetiva, estos exámenes nunca (o casi nunca) se ensayan con estudiantes, ni se someten a los análisis estadísticos típicos. Los tribunales de exámenes no ven la necesidad de experimentar y validar sus instrumentos ni tampoco la de llevar a cabo análisis a posteriori de los resultados de las pruebas. Aunque las preguntas de corrección objetiva de pruebas se experimentan a menudo, raramente se publican las estadísticas.»

-

Génesis y prólogo Este análisis se actualizó para la publicación de un capítulo en Douglas, 1990, sobre los exámenes de inglés com o lengua extranjera del Reino Unido. Para recoger información actualizada, Alderson man dó una copia del informe original a los tribunales de exámenes del Reino Unido y preguntó si todavía eran válidos los comentarios allí recogidos o si eran necesarias algunas modificaciones. Pocos centros respondieron, y aquellos que lo hicieron dijeron que la situación no había cambiado. El grupo The Lancaster Language Testing Research Group decidió a continuación realizar un estudio sobre los tribunales. Para este propósito to mam os co mo punto de referencia el Apén dice en Carroll and West, 19 89 , y el infor me sobre el Proyecto Marco de la English Speaking Union (ESU). Además, decidimos incluir en nuestro informe el Schools Examination and Assessment Council (SEAC, antiguamente SEC, el Secondary Examinations Council), un organismo fundado por el gobierno con la responsabilidad de establecer criterios para evaluar exámenes en el campo de la educación y para determinar la validez de dichos exámenes. Nuestro informe tenía tres partes. Primero, en diciembre de 1989 escribimos cartas a cada uno de los tribunales mencionados y al SEAC. Estas cartas contenían las siguien tes tres preguntas abiertas, que intentaban recabar los punto s de vista de los tribunales sobre sus criterios y sobre los procedimientos que utilizaban p ara establecer la fiabilidad y la validez: 1. ¿Tiene criterios concretos a los que se ciñe? 2. ¿Qué procedim ientos se siguen para estimar la fiabilidad de sus exámenes? 3. ¿Qué proce dim iento s se siguen para asegurar la validez de sus exámenes? Presentamos los resultados de esta primera fase de nuestra investigación en una reunió n de la Association of British ESOL Examining Boards (ABEEB, Asociación de tribunales británicos de exámen es de inglés para hablantes de otras lenguas) en noviembre de 1990. A continuación, pasamos un cuestionario a los mismos tribunales en diciembre de 199 0. Parte de la segun da mitad de cada capítulo de este libro es un resu men de las respuestas a este cuestionario. En mayo de 1991 se mandó una copia de los resultados del cuestionario a los tribunales implicados por si tenían com entarios al respecto y se discu tieron aspectos relativos al estudio. Cada tribunal tuvo también la oportun idad de actualizar su respuesta en el caso de q ue hubiese habido cambios en los meses comprendidos entre diciembre y mayo, y recibim os respuestas m uy detalladas, en particular del University of Cambridge Local Examinations Syndicate (UCLES). En tercer lugar, recibimos gran cantidad de material impreso relacionado con los distintos exám enes y los distintos tribunales, y lo analizamos con detalle: presentamos los resúmenes y ejemplos de este análisis en cada capítulo. Sin embargo, puede ser de interés para el lector saber qué documentos recibimos. Se han listado, junto co n los nom bres de los centros y de los exámenes que elaboran, en el apéndice 1. Un resumen de algunos de los resultados principales de la fase 2 de la inves-

Génesis y prólogo

que esa publicación y presenta información más actual. Es posible, naturalmente, que haya habid o ca mb ios en los procedimientos que siguen los tribunales desde que c om pletamo s nuestra investigación. Esperamos no haber malinterpretado a ningún tribunal de exámenes, p ero agradeceremos cualquier corrección, añadido o modificación que sea necesaria. Puesto que la mayoría de los tribunales de exámenes prefirieron el anonimato cuando se publicaron los resultados del estudio, sólo mencionamos los nombres de aquellos que nos dieron permiso para hacerlo o cuando citamos bibliografía ya publicada. Este libro se ha ben eficiado de la experiencia y de los cono cimien tos ob tenidos del resultado del estudio. Esperamos que nuestros lectores se beneficien igualmente de la lectura de este inform e sob re la práctica actual junto a la descripción de los principios de la evaluación de idiom as y los procedimientos qu e creemos apropiados para la elaboración de exámenes. Más impor tante que lo s detalles de la práctica de los tribunales de exám enes en sí son los p rincipios que deberían informar la práctica de la evaluación de idiom as y p or esta razón cada capítulo contiene un tratamiento detallado de estos principios. Tam bién por este motivo cada capítulo termina con una sección en la que se detalla una lista de las preguntas que un evaluador podría hacer sobre cu alquier examen, o u n sum ario de lo que d eben tener en cuenta los responsables de la elaboración de pruebas o los evaluadores. Los principios generales que deberían gobernar el diseño de pruebas son la validez y la fiabilidad y hacemos referencia constante a ambos conceptos a lo largo del libro. La validez estudia hasta qué punto un examen mide lo que se pretende medir: está relacionada con el uso que se hace de las calificaciones y con la forma en que se éstas se interpretan y está por tanto relacionada con el propósito de la prueba. Aunque só lo un capítulo, el núm ero 8, hace referencia a este concepto en su título, la validez es un punto central en todos los capítulos d e este libro. La fiabilidad estudia hasta qué punto lo s resultados de la prueba son co nsistentes: si los candidatos hicieran el examen mañana después de haberlo hecho hoy, ¿obtendrían las mismas notas (presuponiendo que su capacidad no haya cam biado)? La fiabilidad es una propiedad de la prueba como instrumento de medida, pero también está relacionada con los candidatos qu e realicen la prueba: una prueba puede ser fiable con una población pero no con otra. Al igual que la validez, y aunque sólo se mencione en el título del capítulo 6, la fiabilidad es un concepto recurrente a lo largo del libro. Intentamos definir la terminología especializada en evaluación la primera vez que la utilizamos y por este motivo no entramos ahora en definiciones. Sin em bargo , facilitamos un glosario de términos importantes relativos a la evaluación para consulta del lector. Somos también conscientes de que la mayoría de los lectores no estarán familiarizados con las abreviaturas y los acrónimos que se utilizan habitualmente en la evaluación del inglés como lengua extranjera, y en particular con los que se usan para referirse a los tribunales de exámenes del Reino Unido. Hemos facilitado también una lista exhaustiva de estos términos

Bibliografía

La investigación a la que se hace referencia en este libro es el resultado de muchos meses de colaboración entre miembros de The Lancaster Language Testing Research Group y de investigadores visitantes. Estamos muy agradecidos a las siguientes personas por su ayuda, su aliento y sus criticas: Joan Allwright, Gary Buck, Nicki McLeod, Frank Bonkowski, Rosalie Banko, Marian Tyacke, Matilde Scaramucci y Pal Heltai. También q uerem os dar las gracias a los diversos tribu nales de exámenes, al British Council y al Educational Testing Service, de New Jersey, por su ayuda.

Bibliografía Alderson, J. C. y G. Buck (1993). «Standards in Testing: A Survey of the Practice of UK Examination Boards in EFL Testing.» Language Testing, 10 (2), págs. 1—26. Alderson, J. C., K. Krahnke y C. Stansfield (eds.), (1987). Reviews of English Language Proficiency Tests. TESOL, Washington, DC. Anastasi, A. (1988). Psychological Testing. Macmillan, Londres. Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language Examinations. Longman, Londres. Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury House/Heinle and Heinle, Rowley, Mass. Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart Winston, Chicago. Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA, Washington, DC. Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall, Englewood Cliffs, NJ. Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición, Prentice-Hall, Englewood Cliffs, NJ. Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education. McGraw-Hill, Tokio. Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response Theory. Sage Publications, Newbury Park, Calif. Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres. Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass. Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press, Cambridge. Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.), Testing and Experimental Methods. Oxford University Press, Oxford. Lord, F. M. (1980). Applications of ItemResponse Theory to Practical Testing Problems. Lawrence Erlbaum, Hillsdale, NJ. Oiler, J. (1979). Language Tests at School. Longman, Londres. Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21edición, Allyn and Bacon, Boston, Mass. Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood Cliffs, NJ.

2 Especificaciones de examen

Las preguntas a las que se pretende responder con detalle en este capítulo son: ¿Qué son las especificaciones de examen? ¿Quién necesita las especificaciones de examen? ¿Cómo deben ser las especificaciones de examen? ¿Cómo podemos elaborar las especificaciones de examen? ¿Qué utilizan actualmente los e xám e nes de inglés como lengua extranjera como especificaciones de examen?

2.1. ¿Qué son las especificaciones de examen? Las especificaciones de un examen facilitan información oficial sobre lo que un examen evalúa y cómo lo evalúa. Las especificaciones son el plan que deben seguir los re dactores del examen y de los ítems y son esenciales para establecer la validez del constructo d e la prueba. La descripción de contenidos del examen deriva de las especificaciones del mismo. Aunque algunos tribunales de exámenes del Reino Unido utilizan espe cificaciones (specifications) y descripción de contenidos (syllabus) indistin tamente, v em os una diferencia entre los dos. Una especificación de examen es un documento detallado, y a menudo es sólo de uso interno. Es a veces de uso confidencial, sólo para la organización. La descripción de contenidos es un documento público, a menudo muy simplificado, que indica a los usuarios del examen el contenido del mismo. Mientras que la especificación de examen es para los que van a desarrollar y redactar la prueba y para los que necesitan evaluar si una prueba ha cum plido sus objetivos, la descripción de contenidos va dirigida más a profesores y a alumnos q ue quieren prepararse para la prueba, a las personas que deben tomar decisiones a partir de los resultados de la prueba y a los edi tores qu e qu ieran pro ducir materiales relacionados con la prueba. El desarrollo y la publicación de especificaciones y de descripciones de exa men es, pues, una parte crucial en el proceso de elaboración y evaluación de un examen. Este capítulo pretende describir el tipo de cosas que deben incluir las especificaciones y las descripciones y considerará los documentos actual mente disponibles de los exámenes de inglés como lengua extranjera en el Reino Unido.

2.2. ¿Quién necesita especificaciones de examen? Tal como ya hemos sugerido, una amplia variedad de personas necesita las especificaciones de examen. En primer lugar, y principalmente, son necesa-

¿Quién necesita especificaciones de examen?

rías para los que elaboran la prueba. Las personas que van a elaborar la prueba deben tener muy claro a quién va dirigida, cuál es su objetivo, el contenido que cubre, los métodos que se utilizarán, las partes o secciones en que consistirá, su duración, etc. Además, las especificaciones deberán estar a disposición de las personas responsables de analizar y supervisar el trabajo de los redactores de ítems, sea a título individual o como equipo. Estos responsables pueden operar como comisión o pueden ser examinadores jefes o miembros del tribunal de exám enes (véase el capítulo 3 para una discusión m ás a fondo del proceso de análisis, supervisión y edición). En instituciones más peq ue ñas, puede tratarse de profesores que tengan la responsabilidad de supervisar una prueba antes de usarla. Las especificaciones deberían consultarse cuando se revisan las preguntas y las pruebas, por lo que han de estar redactadas de forma m uy clara para pod er con sultarlas con facilidad durante el debate. Para los qu e elaboran exám enes, las especificaciones deberán ser lo más detalladas posible, y pueden incluso ser confidenciales, especialmente si se trata de un examen de selección muy competido. Las especificaciones también son necesarias para los responsables o interesados en establecer la validez de una prueba (es decir, si la prueba evalúa lo que se pretende evaluar). Estas personas pueden no ser elaboradores de pruebas sino individuos independientes cuyas necesidades pueden ser distintas de las de los elaboradores de pruebas o de los supervisores de su edición. Puede ser que a los encargados de la validación les resulte menos importante tener información «práctica» de, por ejemplo, la duración y las partes del examen, y más importante saber la justificación teórica del contenido, las teorías sobre la lengu a y el do m inio de la m ism a sub yacentes en la prueb a y por qué la prueba es así y no de otra forma. Los usuarios también necesitan la descripción del contenido de una prueba, y distintos tipos de usuarios pueden necesitar distintas descripciones. Por ejemplo, los pro fesores que van a ser los responsables de los estudiantes asignados a su clase m ediante un a pru eba necesitan saber qué significan los resultados de la prueba: qué saben en particular los alumnos, qué pueden hacer, qué necesitan aprender. Aunque la interpretación de los resultados supone saber cómo se calculan y publican los mismos (véase capítulo 7), comprender realmente lo que significan tam bién tiene que ver con lo q ue una prueb a evalúa, y por tanto con una forma de especificación. Los profesores que desean presentar a sus alumnos a un examen oficial necesitan saber qué examen será el más apropiado para ellos con relación al programa de estudio que hayan seguido. Necesitarán información que les ayude a decidir qué prueba escoger de las muchas a su disposición. Aquí también ayudará algún tipo de especificación, probablemente una versión simplificada, conocida como la descripción de contenidos (syllabus). Las personas responsables de la admisión en distintos tribunales, que tienen

Especificaciones de examen

es válida para las decisiones que van a tomar: si se trata de la admisión en una universidad, una prueba que no mida destrezas lingüísticas académicas tenderá a ser menos válida que una que sí lo haga. Finalmente, las especificaciones de examen so n una fuente de información valiosa para los editores que quieran producir libros de texto relacionados con la prueba: los autores de libros de texto querrán asegurarse de que las pruebas prácticas que elaboran, po r ejemplo, sean del nivel de dificultad apropiado, con contenido, temas, tareas, etc. apropiados.

2.3. ¿Qué aspecto deben tener las especificaciones de examen? Puesto que las especificaciones van a variar según el público al cual vayan dirigidas, este apartado está dividido de acuerdo con los distintos grupos de personas que van a necesitar especificaciones. Sin embargo, como el usuario principal va a ser el redactor o supervisor, el primer apartado es más extenso e incluye gran parte de lo que puede ser importante para otros usuarios.

2.3.1. Especificaciones para los responsables de la elaboración de la prueba Las personas que redactan exámenes necesitan una guía práctica que les ayude en el proceso de elaboración. Necesitan respuestas a tona amplia gama de pre guntas. Las respuestas a estas preguntas pued en también utilizarse para tipificar una pregunta, u n texto, o u n banco de pru ebas de manera que, un a vez que las preguntas estén escritas y validadas, puedan clasificarse de acuerdo con uno de los aspectos siguientes y archivarse hasta que sean necesarias. 1.

¿Cuál es el propósito del examen? Los exám ene s tienden a encuadrarse en una de las siguientes categorías: nivel (placement), progreso (progress), aprovecha miento (achievement), dominio (proficiency) y diagnóstico (diagnostic). Las pruebas de nivel están pensadas para evaluar el nivel lingüístico de los alumnos con el objeto de poderlos asignar a un curso o clase apropiada. Estas pruebas pueden basarse en aspectos del programa que se enseña en la institución o en materiales no relacionados con éste. En algunas aca demias de idiomas los alumnos se agrupan de acuerdo con los resulta dos obtenidos de form a que, por ejemplo, los ocho alumnos con mejores resultados van a la clase de nivel más alto. En otros centros puede hacer falta identificar la habilidad de los alumnos en distintas destrezas como pueden ser la lectura y la escritura. En un centro de este tipo un alumno podría asignarse a la clase de lectura del nivel más alto y en la clase de nivel más bajo de escritura, o cualquier otra combinación. En otros cen tros la prueba de nivel puede tener como objetivo saber si los alumnos necesitan más clases o no. Por ejemplo, muchas universidades adminis tran pruebas a los alumnos de otros países al comienzo del curso acadé-

¿Qué aspecto deben tener las especificaciones de examen?

2.

3.

mico para ver si necesitan clases de lengua o de alguna destreza usada en la universidad. Las pruebas de progreso se administran en diferentes momentos a lo largo de un curso para ver lo que los alumnos han aprendido. Las pruebas de aprovechamiento son parecidas a las anteriores, pero tienden a administrarse al final del curso. El contenido de las pruebas de progreso y de las de aprovechamiento está normalmente basado en el programa del curso o en el libro de texto. Las pruebas de dominio, por el contrario, no están basadas en un programa en concreto. Están diseñadas para evaluar la competencia de los alumnos en diferentes campos del aprendizaje de idiomas. Algunas pruebas de domi nio, como muchas de las elaboradas por tribunales de exámenes del Reino Unido, pretenden determinar si los alumnos han adquirido un cierto nivel de competencia lingüística. Otras están pensadas para determinar si los alumnos tienen la suficiente competencia lingüística para poder utilizar la lengua en un área específica com o pu ede ser la medicina, el turismo o los estudios académicos. Tales pruebas se denominan a menudo «pruebas para fin es esp ecí fico s» —Specific Purposes (SP) tests-, y su contenido está no rm al mente basado en un análisis de necesidades relativo al tipo de contenidos lingüís ticos que se requiere para un determinado fin. Por ejemplo, una prueba de dominio para los controladores del tráfico aéreo se basaría en las des trezas lingüísticas necesarias en la torre de control. Las pruebas de diagnóstico pretenden identificar las áreas en las que un alumno necesita ayuda complementaria. Estas pruebas pueden ser bastante gene rales y determinar, por ejemplo, si un alumno necesita refuerzo en una de las cuatro destrezas; o pueden ser más específicas, si intentan identificar los puntos débiles en el uso de la gramática de un alumno en particular. Estas pruebas de diagnóstico más específicas no son fáciles de preparar puesto que es difícil diagnosticar precisamente los puntos fuertes y los puntos débiles entre las complejidades de la competencia lingüística. Por esta razón en realidad existen muy pocas pruebas de diagnóstico puras. Sin em bargo, se usan con frecuencia pruebas de aprovechamiento y de dom i nio, aunque de forma no sistemática, con el propósito de una prueba de diagnóstico. ¿Qu é tipo de estudiante se presentará a la prueba: edad, sex o, nivel de co m  petencia o estadio de aprendizaje, primera lengua, bagaje cultural, país de origen, nivel y tipo de educación, motivo para presentarse a la prueba, inte reses personales y profesionales, nivel aproximado de conocimiento del mundo? ¿Cuántas secciones o partes debería tener el examen, qué duración deberían tener y cómo deberían diferenciarse: un examen de tres horas, cinco partes sepa radas de dos horas cada una, tres secciones de 45 minutos, comprensión de


4. 5.

6.

7.

8. 9. 10.

11.

12.

¿Qué situación en la lengua meta se ha p revisto pa ra la pru eb a? ¿Se simulará de alguna forma en el contenido y el método de la prueba? ¿Qué tipos de texto deberían seleccionarse, escritos u orales? ¿Cuáles deberían ser sus fuentes, el público al cual van dirigidos, los temas, el grado de auten ticidad? ¿Cuál debería ser su dificultad o longitud? ¿Qué funciones comu nicativas deberían recoger: persuasión, definición, resumen, etc.? ¿Cual debería ser el grado de complejidad de la lengua? ¿Qué destrezas lingüísticas deberían evalu arse? ¿Se especifica n microd estrezas? ¿Se deberían diseñar las preguntas para evaluar éstas individualmente o de forma integrada? ¿Se distinguirá entre las preguntas qu e evalúen la idea prin cipal, los detalles específicos, la inferencia? ¿Qué elementos lingüísticos de berían evaluarse? ¿Existe un a lista de estructuras o aspectos gramaticales? ¿Está el léxico especificado de alguna manera: lis tas de frecuencia etc.? ¿Se especifican nociones y funciones, actos de habla o características pragmáticas? ¿Qué tipo de tareas se requieren: ítems discretos, integrados, «pseudo-auténticos», evaluables de forma objetiva? ¿Cuántos ejercicios se necesita n para cad a secció n? ¿Cuál es el valo r de cada uno? ¿Se puntúan todos igual o se puntúan más los más difíciles? ¿Qué métodos de evaluación van a utilizarse: elegir entre diversas opcio nes, completar, relacionar, transformaciones, respuestas breves, des cripción de fotos, simulación con tarjetas de roles, redacción, composición guiada? ¿Qué tipo de instrucciones se utilizarán para explicar a los candidatos qué deben hacer? ¿Harán falta ejem plos para ayudar a co mplem entar un ejercicio? ¿Deben incluirse los criterios de corrección? ¿Qué criterios utilizarán lo s correctores? ¿Cuál es la imp ortanc ia de la co rrec ción, de la adecuación, de la ortografía, de la longitud de la respuesta, etc.?

Inevitablemente, algunas de las preguntas descritas cubren espacios pareci dos: por ejemplo «tipo de texto», «clase de texto» y «complejidad de texto» se solapan. Sin embargo, es útil enfocarlos desde distintos ángulos. La taxonomía completa de unas especificaciones va más allá del objetivo de este capítulo, y en cualquier caso es imposible que sea exhaustiva dada la naturaleza de la lengua y la variedad de exámenes que pueden diseñarse. Una taxonom ía muy útil que los lectores podrían consultar es la desarrollada por Lyle Bachman en Fundamen tal Considerations in Language Testing (1990). Esta taxonomía está descrita con más detalle en el próximo apartado, pero para dar al lector una idea de lo que pue den contener unas especificaciones para los responsables de la elaboración de los exámenes, incluimo s a continuación un ejemplo ficticio de las especifica ciones para una prueba de comprensión de lectura. (Véase Davidson y Lynch, 1993, para un ejemplo de especificaciones más detalladas de una prueba de


EXAMEN DE FRANCÉS PARA ESTUDIOS DE POSTGRADO Especificaciones para la prueba de comprensión de lectura Propósito general de la prueba El Examen de francés para estudios de postgrado es una serie de pruebas elaborada para evaluar la competencia lingüística en francés de estu diantes que no hablan francés como primera lengua y que quieren empe zar estudios de postgrado en universidades u otras instituciones en donde el francés es la lengua de enseñanza. El objetivo de la serie es la selección de estudiantes que tengan un nivel suficiente de francés para aprovechar un curso académico y la identifi cación de aquellas áreas lingüísticas en las que pueden necesitar ayuda. Las pruebas se centran en el francés para fines académicos.

Detalle de la serie de pruebas La serie consiste en cuatro pruebas: -

Comprensión de lectura, 60 minutos. Expresión escrita, 60 minutos. Comprensión oral, 30 minutos. Expresión oral, 15 minutos.

Se facilitan los resultados de cada prueba por separado. Hay un listado de especificaciones distinto para cada una de las cuatro pruebas.

Prueba de comprensión de lectura Tiempo permitido: una hora. Nivel de la prueba. El nivel de comprensión de lectura exigido debería estar entre los niveles 5 y 7 de la escala de haremos de la English Speaking Union (ESU).

Los candidatos deben demostrar capacidad para leer libros de texto, artí culos especializados y otras fuentes de información relevantes del mundo académico. Se espera que los candidatos puedan mostrar capacidad para usar las siguientes destrezas de comprensión de lectura: a) b) c) d) e) f) g)

lectura general o globalizadora (skimming); lectura selectiva (scanning); obtención del sentido general ( getting the gisf); distinción entre ideas principales y secundarias; distinción entre hechos y opiniones; distinción entre afirmaciones y ejemplos; deducción de ideas implícitas y de información;


i) j) k)

comprensión de la estructura interna de la frase; comprensión de las relaciones entre frases y entre párrafos; comprensión de la función comunicativa de frases y párrafos.

Procedencia de los textos: libros de referencia, trabajos, reseñas, artí culos sobre temas académicos. Los textos no deberían ser demasiado específicos, ni discriminar a alumnos que no estén familiarizados con el tema. Todos los pasajes deberían ser comprensibles para lectores competentes. Si fuese necesario debería facilitarse un glosario con los términos técnicos. Debería haber cuatro textos, basados en distintas disciplinas académicas. Dos de los textos deberían tratar sobre ciencias naturales y físicas y dos sobre ciencias sociales. En la medida en que esto fuera posible los textos deberían ejemplificar géneros distintos. Por ejemplo, un texto podría ser la introducción a un trabajo académico, y los tres restantes podrían ser una reseña, una descripción de resultados y una discusión. Los textos deberían ser interesantes pero no provocar inquietud. Debe rían evitarse desastres recientes y tragedias. Los pasajes deberían estar basados en textos auténticos, pero pueden modificarse sensiblemente para acortarlos o para corregir errores gra maticales. La longitud total de los pasajes debería ser de entre 2.500 y 3.000 pala bras. Tipo de tarea. Cada pregunta debería evaluar una o más de las destrezas de comprensión de lectura listadas con anterioridad. Los redactores de la prueba deberían intentar encontrar el equilibrio entre las distintas destre zas y evitar que una o dos estén más representadas a expensas de las demás. Tipos de ítem. La prueba de comprensión de lectura debería constar de 40 o 50 ítems, doce para cada pasaje aproximadamente. Cada pasaje y sus ítems correspondientes formará una sub-prueba. Cada ítem tendrá el valor de un punto. Los ítems pueden ser de respuesta abierta, pero deben poder puntuarse de forma objetiva. Los responsables de la elaboración de la prueba deberían usar tipos de ítem variados, pueden incluirse:

identificar los titulares apropiados, relacionar, etiquetar o completar diagramas, cuadros, esquemas, etc., copiar palabras del texto, transferir información, preguntas con respuesta breve, rellenar huecos, ordenar acciones o procesos.

¿Qué aspecto deben tener las especificaciones de examen? Los responsables de la elaboración pueden utilizar otros tipos de ítems, pero deberían garantizar que puedan puntuarse de forma objetiva. Instrucciones. Hay

una introducción estándar a la prueba de comprensión de lectura al principio de las hojas del examen. Sin embargo, los redactores deberían proponer sus propias instrucciones y un ejemplo para cada grupo de preguntas. La lengua utilizada en las instrucciones debería ser de un nivel no superior al nivel 4 de la escala de baremación de la ESU.

2.3.2. Especificaciones para los responsables de la validación de la prueba Cada prueba tiene una teoría tras ella: una creencia abstracta sobre qué es la lengua, en qué consiste la aptitud lingüística, qué implica el aprendizaje de una lengua y qué hacen los hablantes nativos con la lengua. Esta teoría puede ser más o menos explícita. La mayoría de los responsables de la prueba se sorprenderían al oír que tienen una teoría, pero esto no implica que no esté ahí, sólo que lo está de forma implícita y no articulada en forma de metalenguaje. Cada prueba es la puesta en práctica de algunas creencias sobre la lengua, tanto si el responsable se refiere a un modelo explícito como si se basa en la «intuición». Toda teoría contiene constructos (o conceptos psicológicos), que son sus principales componentes y la relación entre estos componentes. Por ejem plo , algunas teorías sobre la comp rensió n de lectura afirman que ésta incluye distintos constructos (lectura globalizadora o skimming, lectura selectiva o scan ning, etc.) y que los constructos son distintos entre sí. La validación del constructo supone examinar hasta qué punto una prueba evalúa los distintos constructos. Para poder llevar a cabo la validación, las especificaciones de una prueba deben hacer explícitos sus fundamentos teóricos, además de la relación entre la teoría y el objetivo con el cual se ha elaborado la prueba. El mod elo de B achman mencionado anteriormente es un marco de refe rencia teórico que se desarrolló para poder analizar pruebas. Fue usado por Bachman y otros, 1988 , po r ejemplo, para comparar pruebas elaboradas por el University of Cambridge Local Examinations Syndicate (UCLES) y el Educational Testing Service (ETS), pero podría igualmente usarse como parte del proceso de ela boración o validación de las pruebas. La taxonomía se divide en dos grandes apartados: habilidad lingüística comunicativa y facetas del método utilizado en la prueba. El modelo que sigue a continuación muestra los componentes que incluye


Esquemas conceptuales relativos a la habilidad lingüística comunicativa y a distintos aspectos del método utilizado, según Bachman A. HABILIDAD LINGÜÍSTICA COMUNICATIVA 1. COM PETENCIA ORGAN IZATIVA Competencia gramatical

Vocabulario, morfología, sintaxis, fonología/grafología. Competencia textual

Cohesión, organización retórica. 2. COM PETENCIA PRAGMÁTICA Competencia ilocutiva

Funciones ideativas, manipulativas, heurísticas, imaginativas. Competencia sociolingüística

Sensibilidad hacia diferencias de dialecto o variedad, sensibilidad hacia las diferencias de registro, sensibilidad a la naturalidad, habili dad para interpretar referencias culturales y lenguaje figurado. (Bachman, 1990: capítulo 4.)

B. ASPECTOS DEL MÉTODO UTILIZADO EN LA PRUEBA 1. ASPECTOS DEL ENTORN O DE LA PRUEBA Familiaridad con el lugar y el material Personal Hora de administración de la prueba Condiciones físicas

2. ASPECTOS DE LAS INSTRUCCIONES GENERALES Organización de la prueba

Prominencia o peso de las distintas partes, secuencia e importancia relativa de cada una de ellas. Tiempo disponible Instrucciones

Lengua utilizada (materna, objeto de estudio), canal (auditivo, visual), especificación de procedimientos y tareas, explicitación de criterios de corrección lingüística 3. ASPECTOS DEL CON TEN IDO DE LA PRUEBA UNPUT) Formato

Canal de presentación, modo de presentación (receptivo), forma de


tación (en directo, pre-grabado, ambos), lengua de presentación (materna, objeto de estudio, ambas), identificación del problema (espe cífico, general), velocidad. Caracte rísticas de la lengua utilizada

Longitud, contenido proposicional (frecuencia y especialización del vocabulario, grado de contextualización, distribución de la informa ción nueva, tipo de información, tema, género), características orga nizativas (gramática, cohesión, organización retórica), características pragmáticas (fuerza ilocutiva, características sociolingüísticas). 4. ASPECTOS DE LA RESPUESTA PREVISTA Formato

Canal, modo, tipo de respuesta, forma de respuesta, lengua de res puesta. Características de la lengua utilizada

Longitud, contenido proposicional (vocabulario, grado de contextualización, distribución de la información nueva, tipo de información, tema, género), características organizativas (gramática, cohesión, orga nización retórica), características pragmáticas (fuerza ilocutiva, carac terísticas sociolingüísticas). Deficiencias en la respuesta

Canal, formato, características organizativas, características preposi cionales e ilocutivas. Duración o longitud de la respuesta. 5. RELACIÓN ENTRE CO NTE NIDO DE LA PRUEBA (INPUT) Y RESPUESTA Recíproca No-recíproca De adaptación

(Bachman, 1990: 119) Otros modelos en los que se han basado las especificaciones de examen recien temente son: The Coundl of Europe Threshold Skills, y Communication Needs Processor ( 1978) de Munby, que inform aron la elaboración y la validación del Test of English for Educational Purposes (TEEP) a cargo del Associated Examining Board (AEB) y del examen de la UCLES/British Counril English Language Testing Service (ELTS). Otros modelos de com  petencia comunicativa articulados de forma menos explícita están detrás de la elaboración, si no de la validación, de pruebas tales como el antiguo Examination in the Coramunicative Use of English as a Foreign Language (CUEFL) de la Royal Society of Arts (RSA). El contenido de las especificaciones de examen para los responsables de la validación de la prueba dependerá ob viamente del m arco de referencia teórico utilizado y no será tratado aquí de forma extensa. Sin embargo, el lector debe ría tener en cuenta que gran parte del contenido listado en el apartado anterior se incluiría en las especificaciones para la validación. Debería ofrecerse, en par


ticular, infor mac ión sobre q ué hab ilidades se evalúan, sob re las interrelaciones entre estas habilidades, sobre qué métodos de evaluación se usarán y cómo pue den influir (o no) estos mé todos en la med ición de las habilidades, y sobre qu é criterios se utilizarán para la evaluación. De menor importancia para este tipo de especificaciones son quizá cuestio nes como la extensión de la prueba, la duración de cada parte, los ejemplos pro vistos para cada tipo de ítem, la longitud de los textos e incluso su dificultad; en resumen, aquellas cuestiones que guían a los redactores de la prueba en la producción de los ítems pero que se sabe que no tienen un efecto significativo en la medición de la habilidad. Debería señalarse, sin embargo, que los inves tigadores de exámen es de id iom as no p ueden todavía concretar qué variables afectan a la validez del constructo y cuáles no, y el consejo más útil, aunque no el más práctico, es que las especificaciones para la validación deberían ser lo más completas posible. Discutir el valor de un modelo o teoría en particular va más allá del pro pósito de este libro, y es en realidad del dominio de libros de idiomas, de enseñanza de la lengua y del uso de la lengua. Sin embargo, cualquier trata miento adecuado de la elaboración de pruebas debe incluir referencias a las teorías relevantes. Por ejemplo, Fundamental Considerations in Language Testing (Bachman, 199 0) es esencialmente una discusión sobre un m odelo de lenguaje, y Language Tests at School (1979), de John Oller, trata de forma extensa su teoría sobre la gramática de expectativa pragmática (grammar of pragmatic expectancy), de la que se desprende la base para los tipos de pruebas que Oller defiende. Por desgracia, hay pocos libros de texto para los responsables de la elabora ción de pruebas de idiomas que contengan un debate sobre los constructos que es de suponer van a evaluar las pruebas y sobre los tipos de prueba y los tipos de ítem que se discuten. Pero no se puede diseñar una prueba de com prensión de lectura sin algún tipo de definición previa de lo que es la com prensión de lectura y de las habilidades que deben m edirse con una prueba adecuada. Tal definición, pues, debería también formar parte de las especi ficaciones del examen.

2.3.3. Especificaciones para usuarios de la prueba Las especificaciones qu e van dirigidas a los usuarios de la prueba (que llamare m os en esta d iscu sión especificaciones para usuarios, y que inclu ye la noción de des cripción de contenido s -syllabus- presentada en el apartado 2.1 ) pretenden dar a los usuarios una idea clara de lo que mide el examen y para qué debería usarse el mismo. Estas especificaciones deberían evitar usos concretos indebidos, ya conocidos o probables. Un ejemplo típico de uso indebido es el intento de medir el progreso lingüís tico de los estudiantes dándoles la m isma prueba de aptitud al principio y al final del curso. Estas pruebas son medidas tan toscas que si el intervalo de aplicación es de tres meses o inferior, p uede n o haber mejora en los resultados de los estu diantes, y los resultados de algunos pue den incluso ser más bajos qu e en un prin-

¿Cómo pueden elaborarse las especificaciones de examen?

ap io . Para evitar tales usos indebidos, las especificaciones deberían representar de la forma ibas exacta posible las características, la utilidad y las limitaciones de la prueba y describir la población para la cual es apropiada la prueba. Tales especificaciones para usuarios deberían facilitar ejemplos representativos de tipos de ítem o, mejor, pruebas completas, incluyendo todas las instrucciones. Deberían facilitar una descripción de una actuación tipo para cada nota o para cada nivel de la prueba y, siempre que fuera posible y relevante, una descripción de lo q ue se supone que puede hacer «en el mundo real» un candidato que aprueba el examen u obtiene una nota determinada. Además de ejemplos de ítems o pruebas, es especialmente útil para los profesores y también para los estudiantes el tener ejemplos de actuación lingüística de candidatos en pruebas anteriores o en pruebas modelo, y una descripción de cómo se usaron los criterios de evaluación pa ra valorar estas actuaciones. En muchos exámenes puede también resultar útil facilitar a los usuarios una descripción del tipo de curso o de preparación que puede ser apropiada antes de presentarse a la prueba. Es m uy importante que los candidatos reciban la información adecuada que les permita saber exactamente cómo será la prueba: su duración, su dificultad, qué métodos de evaluación incluirá, y cualquier otro tipo de información que los familiarice con la prueba antes de realizarla. La intención de tales especificaciones para candidatos es la de garantizar, en la medida que sea posible y mientras no interfiera con la segurid ad de la prueba, que los candidatos puedan dar lo mejo r de sí m ism os durante la prueba.

2.4. ¿Cómo pueden elaborarse las especificaciones de examen? El propósito para el que se utilizará la prueba es el punto de partida habitual a la hora de diseñar las especificaciones de un examen. Este objetivo debería definirse de la manera m ás com pleta posible. Por ejemplo: La prueba A se usa al final del segundo año de una diplomatura de Ciencias de la Educación de tres años de duración para futuros profesores de inglés como lengua extranjera. Esta prueba mide si los estudiantes tienen suficiente competencia en inglés para empezar su período de prácticas durante el tercer año de estudios. Los estudiantes que suspenden la prueba tienen la oportunidad de volverse a presentar a una versión paralela dos meses más tarde. Si vuelven a suspender, deberán repetir el segundo curso de inglés. Aunque el examen tiene como punto de referencia el inglés que se ha enseñado durante los dos primeros años, se trata de una prueba de dominio, no una medida de aprovechamiento, y como tal no pretende reflejar el programa de la asignatura. O bien: La prueba B es una prueba de nivel, diseñada para distribuir a los estudiantes

Especificaciones de e xame n

O bien: La prueba C está pensada para diagnosticar los puntos fuertes y los puntos débiles de los estudiantes de cuarto curso de secundaria en gramática alemana. A partir de los ejemplos citados, debería quedar claro que el objetivo de un examen va a influir sobre su contenido. La prueba A deberá incluir con toda prob abilidad la evaluación de habilidades que son relevantes para el uso del inglés en clase por parte de los futuros profesores durante la fase de prácticas. La prueba B intentará extraer un muestreo de la descripción de contenidos (sylla bus) o de pru ebas de aprove chamiento de cada nivel ya realizadas po r la mism a Alliance Franfaise. La prueba C deberá tener como punto de referencia un modelo de gramática del alemán, una lista de las estructuras que los estudiantes deben conocer en este nivel y probablemente los problemas típicos que tienen los estu diantes y los errores que cometen habituahnente. Una vez determinados el propósito y la población tipo, los elaboradores nece sitarán identificar un m arco de referencia teórico en el que se pueda basar el exa men. Puede tratarse de un a teoría lingüística -u n a visión de la lengu a en el caso de los exámenes de dominio (profidmcy tests), o una definición de los componentes de la aptitud en el caso d e los exámenes de ap titud (aptitude tests) - o b ien pu ede considerarse necesario hacer primero un análisis de las situaciones y del uso de la lengua meta, así com o de las actuaciones lingüísticas que el prop io exam en prevé. En este caso, los responsables de la prueba pueden decidir llevar a cabo un análisis del tipo de trabajo o de las tareas que previsiblemente deberán lle var a cabo los estudiantes en el futuro, y pu ede q ue tengan q ue realizar un aná lisis de sus necesidades lingüísticas. Los análisis de necesidades imp lican habituahnente la recogida de inform a ción sobre los contenidos lingüísticos que van a necesitar los candidatos para realizar la prueb a. Este análisis pue de im plicar la observación directa de pe rso nas en situaciones habituales en la lengua meta para determinar el tipo de varia bles relevantes en el uso de la lengua. Puede suponer la realización de cuestionarios o entrevistas a hablantes de la lengua, la consulta de bibliografía o el contacto con expertos en el tipo de comunicación analizada. Un ejemplo del tipo de variables que pueden considerarse es el descrito por Munby en su Communication Needs Processor (1 9 7 8 ): Participante; Propósito: Entorno: Interacción:

Instrumento:

edad, sexo, nacionalidad, domicilio. tipo de inglés para fines específicos (ESP) necesario, y objetivos para los que va a usarse. por ejemplo: lugar de trabajo, entorno tranquilo o ruidoso, ambiente conocido o no conocido. papel del participante; por ejemplo: situación en el trabajo, personas con las que se relacionará, relaciones de rol y relaciones sociales. medio, modo y canal de comunicación, por ejemplo: comunicación oral o escrita, monólogo o diálogo, libro

¿Cóm o pueden elaborarse las especificaciones de examen?

Variedad: Nivel: Situación comunicativa:

Objetivo comunicativo:

por ejemplo: inglés británico o americano, nivel de inglés exigido. por ejemplo, a un nivel general: atender a dientes en un restaurante, asistir a conferencias en la universidad; y a un nivel concreto: tomar nota de un pedido, introducir un punto de vista distinto «el tono, manera y espíritu con el que se lleva a cabo un acto» (Hymes, 1972).

La bib liog rafía sob re el ing lés para fines espe cífico s (ESP) —véase, p or ejem plo, Hutchinson y Waters, 1987 ; Robinson, 1980, Swales, 1 9 8 5 - es útil para los responsables de la elaboración de pruebas que necesitan llevar a cabo algún üpo de análisis de nec esidades antes de em pezar a elaborar sus especificaciones. Nótese que tanto el Test of English for Educational Purposes (TEEP) com o el English Language Testing Service (ELTS) se desarrollaron inicialmente usando alguna forma de análisis de necesidades al estilo de la de Munby. Los análisis de necesidades desembocan a menudo en una gran taxonomía de variables qu e influyen en el tipo de lengua que se necesitará en la situación pre vista. A partir de esta taxonomía, los responsables de la elaboración deberán pro  bar tareas, textos, escenarios, etc. hasta llegar a un tipo de pr ueba manejable. Sin embargo, el proyecto de revisión del ELTS, que fue el responsable del desarrollo del International English Language Testing System (IELTS), suceso r del ELTS origin al, se desarrolló de fo rm a distinta. U na vez identificados los principales problem as en el E L T S (véase Criper y Davies, 19 88 ), el proye cto de revisión llevó a cabo un extenso ejercicio de recogida de datos y se pidió a los responsables universitarios cómo creían que debía revisarse el examen de ELTS. Al mismo tiempo se revisó la bibliografía sobre los exámenes de dominio relacionados con el inglés para fines académicos, English for Academic Purposes (EAP) y se pidió la opinión de emi nentes especialistas en lingüística aplicada sobre la naturaleza de la competencia lingüística y cómo ésta debería evaluarse en el IELTS. Se pidió entonces a equipos de redactores que tuvieran en consideración los datos recogidos y produjeran un borra dor de especificaciones e ítems para diferentes partes del examen. Estos borradores se mostraron a evaluadores y a profesores, así como a profesores de universidad en diversas disciplinas académicas. Se preguntó a los profesores de universidad si co nsideraban ad ecuados para los estudiantes de sus disciplinas aca démicas los borradores de las especificaciones y de los ítems y si deberían incluirse otros tipos de texto s y tareas. Los redactores revisaron entonces la bate ría de pruebas y sus especificaciones para poder tener en cuenta todos los co men tarios. Procediendo de esta manera, los miembros del proyecto de revisión pud ieron utilizar la investigación sob re análisis de necesidades ya existente y lle var a cabo una v alidación del contenido del bo rrador de la prueba (véase Alderson y Clapham, 1992a y 1992b , y Clapham y Alderson, en impresión). Para una discu sión sobre cóm o desarrollar especificaciones para un a prueba de ESP, y la relación entre análisis de necesidades, especificaciones de una prueba e infor


El desarrollo de u na prueb a de aprovecham iento es, en teoría, tarea más fácil, puesto que la lengua que ha de evaluarse ha sido definida, al men os en un principio, p or la de scripción de contenidos so bre la que va a basarse la prueba. El problem a para los responsables de la elaboración de pruebas de aprovechamiento es garantizar que sean una m uestra adecuada de la descripción de con tenidos o, en su defecto, del libro de texto en cuanto a contenidos y método. Hughes (1988) argumenta que, aunque está de acuerdo con la distinción general entre pruebas de dominio y pruebas de aprovechamiento de final de curso, no está de acuerdo con que deban seguirse distintos procedimientos a la hora de decidir su contenido. Hughes propone que las pruebas de aprovechamiento deberían basarse en los objetivos del curso y no en los contenidos del curso y deberían por tanto ser similares o incluso idénticas a las pruebas de dominio basadas en estos m ismo s objetivos. Al final de este capítulo hay una lista que contiene los posibles puntos que habrían de tratarse en unas especificaciones. Esta lista se presenta de forma lineal, pero a menudo el diseño de una prueba y sus especificaciones es cíclico, con borradores previos y ejemplos bajo constante revisión para tener en cuenta los comentarios procedentes de pruebas y consejeros.

2.5. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionarios y documentación En este apartado describ irem os la form a de abord ar las especificaciones de exa m en po r parte de los tribunales de exámenes de inglés com o leng ua extranjera: cóm o las diseñan y lo que éstas contienen. Informarem os sobre las respuestas al cuestionario y, siempre que nos sea posible, haremos referencia a la documentación rem itida por los tribunales. (Véase el capítulo 1 para detalles de cómo se llevó a cabo este estudio .) Esto no es siempre fácil, porq ue lo s tribunales utilizan métodos distintos y distinta terminología. Por ejemplo, pocos utilizan la expresión especificaciones; algunos hablan de descripción d e contenidos, otros de normativa, y otros de manuales, y el significado de cada uno de estos términos es distinto de un centro a otro. Además, algunos de los procedimientos de los tribunales son confidenciales o bien no se difunden. Tampoco dicen a quién van dirigidas sus publicaciones, por lo cual no podemos tener en cuenta el público al que se destinan sus documentos. Nuestro informe sobre las respuestas de los tribunales a este apartado del cuestionario es más extenso que en el resto de capítulos. Esto refleja el detalle de las respuestas: los tribunales consultados no sólo respondieron ampliamente sobre las especificaciones de exam en sino que también enviaron docum entación que contenía gran variedad d e inform ación sobre sus exámenes en aspectos relativos a objetivos y descripción de contenidos. Puesto que UCEES completó cuestionarios por separado para cada uno de sus

Estudio sobre los tribunales de exámenes de ing lés.. .

uno. Además, los responsables de examen (subject officers) de cuatro de los exá menes de UCLES completaron también cuestionarios sobre las distintas seccio nes de cada examen. Por este motivo, las respuestas de UCLES se han combinado. En el cuadro 2.1, que detalla las respuestas de todos los tribunales a las preguntas 6 a 10, las cifras de UCLES representan la mayoría de las respuestas. Si, por ejem plo, de cada cinco partes de un examen, tres responsables de examen respon dían afirmativamente a una pregunta y dos respondían negativamente, la respuesta contabilizada es la afirmativa. (Para detalles sobre el redactado de cada sub-pregun ta, véase m ás adelante, y para una copia del cuestionario com pleto, véase el apéndice 2.) PR EG UN TA S 6 A 7 (d ): ¿Pu blica su tribunal una descripción dd contenido dd examen (o exámenes)? ¿Se ind uy e u na definición de su propósito y una descripción d d tipo de estudiante a quien va d irigido?

CUADRO 2.1. RESPUESTAS DE LOS TRIBUNALES DE 11 tribunales de exámenes No N/R Preguntas Sí 0 11 6. Publican la descripción 7. Incluye: 0 11 a) propósito 11 0 b) tipo de estudiante 11 0 c) nivel de dificultad 1 10 d) actuación tipo 1 9 e) habilidad en el «mundo real» 2 7 f) tipo de estudios o cursos g) contenido del examen: 6 3 estructuras 5 4 vocabulario 3 6 funciones lingüísticas 3 6 temas 2 6 longitud de los textos 0 9 tipo de preguntas 1 ponderación de las preguntas 8 0 9 tiempo de la prueba 3 6 tiempo por sección 9 1 h) criterios de evaluación 6 i) baremo para las calificaciones finales 4 0 8 j) exámenes anteriores S 2 k) actuación de antiguos candidatos 1 7 8. Análisis de necesidades 1 7 9. Directrices para redactores

EXÁMENES 8 exámenes de UCLES Sí No 8 0 0 0 0 0 0 1 1

8 8 8 5 4 1

0 0 0 3 4 7

0 0 0 0 1 0 0 0 0 0 0 2 2 0 2

2 2 2 3 5 8 3 8 1 2 2 6 7 4 8

6 6 6 S 2 0 S 0 7 6 5 0 1 3 0

Como puede verse en el cuadro 2.1, todos los tribunales respondieron afirma tivamente a las preguntas 6 y 7 a) b) y c). Todos los tribunales publicaban des cripciones de sus exámenes y éstas incluían la definición de objetivos del


examen, un a descripción del tipo de estudiante a quien iba dirigido y una d escripción del nivel de dificultad de la prueba. Un estudio de los documentos publicados mostró, sin embargo, que el nivel de detalle variaba de un tribunal a otro. Véanse los siguientes ejemplos: DEFINICIÓN DE OBJETIVOS En la descripción de contenidos del Joint Matriculation Board (JMB) se da ima de las descripciones más completas sobre el propósito de un examen: El objetivo del examen es evaluar las destrezas identificadas [...] en un contexto lo más similar posible al que probablemente se encontrarán en un curso para graduados. La prueba se considera particularmente adecuada para candidatos que quieren seguir estudios en las áreas de ciencias, ingeniería, estudios empresariales y ciencias sociales. El nivel de inglés de la prueba no es el suficiente ni el apropiado para estudiantes que quieren seguir estudios de literatura. La preparación para tales estudios debe incluir un estudio más completo de la lengua inglesa del que se requiere en este examen. (Descripción de UETESOL, JMB, 1991)

Los exámenes de la Cámara de Comercio e Industria de Londres (LCCI) tienen también una definición de ob jetivos m uy clara: El objetivo del examen es evaluar un nivel alto de comprensión y de expresión escrita así como la habilidad de procesar tanto la lengua inglesa en general como las variedades específicas usadas en el mundo de los negocios y la habilidad de usar formatos apropiados. Un candidato que apruebe habrá demostrado la capacidad de escribir en un inglés fluido, preciso e idiomàtico en nombre de un empresario, seleccionando los términos legales, el tono, la forma y el contenido apropiados a una situación en particular. (English for Business, Third Level, Regulations, syllabuses and timetables of examinations, London Chamber of Commerce and Industry Examinations Board, 1991)

Los tribunales que administran exámenes que no tienen una orientación académica (EAP) ni de fines específicos (ESP) tienden a describir el objetivo de sus pruebas a partir de las destrezas lingüísticas que se requerirán. Por ejemplo: Objetivo

El objetivo del examen es evaluar la capacidad de los candidatos para comprender y producir el lenguaje de tipo objetivo e impersonal que es el medio de instrucción a lo largo de sus estudios y de las transacciones cotidianas, junto con el uso de las destrezas de tipo cognitivo que esto implica. (Test in English Language Ski lis, CE NT RA , 1 9 9 2 )

Y también: El objetivo principal es averiguar hasta qué punto el estudiante comprende y habla el inglés oral «culto», dentro de los límites de cada nivel. (Syllabus, Grade Examinations in Spoken English for

Estudio sobre los tribunales de exámenes de inglés...

ESTUDIANTES TIPO Naturalmente, el objetivo del exam en y los estudiantes a los qu e va dirigido se solapan a menudo. El fragmento de la JMB citado con anterioridad lo demuestra, al igual que los fragmentos siguientes: Este certificado está elaborado para candidatos adultos y con experiencia que durante sus actividades laborales o sociales deben informar o dar clase utilizando la lengua inglesa. Los candidatos deberían tener competencia bilingüe en su campo de acción y deberían poder comunicarse con autoridad, manteniendo la atención de sus interlocutores, demostrando su capacidad para liderar y controlar la discusión, así como para facilitar información sobre su actividad profesional, mostrando sensibilidad hacia las dificultades de su interlocutor en cuanto al contenido de la conversación. (The Certificóte in English as an Acquired Language, English Speaking Board -ESB-, 1990)

Y también: Candidatos

Los candidatos que se presentan a este examen son adultos y jóvenes adultos que están siguiendo un curso de inglés en el Reino Unido o en el extranjero. Los candidatos pueden estar estudiando inglés como parte de su programa escolar o universitario o también para su uso fuera del aula. Los exámenes van dirigidos a estudiantes que necesitan una certificación externa sobre sus progresos en la lengua inglesa y son especialmente adecuados para aquellos estudiantes que llevan tiempo estudiando y necesitan un tipo de prueba que certifique sus progresos en el camino hacia el dominio de la lengua, a guisa de peldaños en una escalera. (A Guide for Teachers, Examinations in English for Speakers of Other Languages. P it m a n

Examinations Institute, 1988)

El Trinity College d escribe a los estudiantes para los que la prueba no es adecuada y no a los estudiantes a los que va dirigida: No se admite la entrada a las pruebas de inglés hablado a aquellos que hablan la lengua inglesa como primera lengua, ni tampoco a candidatos de edad inferior a los siete años. Se recomienda a los adultos que no se presenten a un nivel inferior al nivel tres y a los candidatos menores de trece años que no se presenten a los niveles once y doce; aparte de éstas, no hay otras restricciones.

Algunos tribunales no llegan a describir a los estudiantes tipo, suponiendo presumiblemente que la descripción del contenido y del nivel del examen lo aclararán. NIVEL DE DIFICULTAD Varios tribunales definen los niveles lingüísticos de sus exámenes haciendo referencia a los estadios del Consejo de Europa. Por ejemplo: Ambos exámenes están basados en el nivel Waystage descrito por el Consejo de


supervivencia: uno de los objetivos esenciales de la prueba es determinar si un candidato puede sobrevivir en un entorno de habla inglesa. Los exámenes son adecuados para alumnos de nivel intermedio bajo que han estudiado unas 300—400 horas de inglés. (New Editian of Rationale, Reguiations and Syllabuses, the Oxford-ARELS Examinations)

Los niveles del Trinity College pueden compararse con los del Consejo de Europa y los nueve niveles de la English Speaking Union. La UCLES describe los nive les de sus exámenes comparándolos con la escala de nueve puntos de la ESU, pero usa sus propias descripciones. Así, el First Certifícate in English (FCE), por ejemplo, se considera equiparable al nivel 5, que se describe como el del «us ua  rio independiente» y el Certifícate in Proficiency in English (CPE) corresponde al nivel 7, «b ue n usu ario ». Dos de los niveles se comparan también a los niveles del Consejo de Europa; el nivel 3 describe al «usuario en el nivel Waystage» y el nivel 4 corresponde al «usuario en el nivel umbral (Threshold)» en A Brief Guide to EFL Examinations and TEFL Schemes, UCLES. Pitman no compara los niveles de sus exámenes con ningú n criterio extem o, sino que usa sus propias descripciones. Por ejemplo: Niveles

Básico: el candidato puede operar en inglés sólo para comunicar necesidades básicas con mensajes cortos y a menudo poco articulados e inapropiados. El candidato puede comprender etiquetas, señales sencillas, nombres de calles, precios, etc., pero no tiene en realidad el suficiente dominio de la lengua para manejarse norm almente en la comun icación real del día a día.

(A Guide for Teachers ESOL, Pitman Examinations Institute, 1988) Algunos de los tribunales no describen los niveles de sus pruebas de forma explícita, supon iendo presum iblemen te que las descripciones de los contenidos lo aclararán. PREGUNTA (7d): Descripción de una actuación tipo para cada nivel o calificación Las Oxford-ARELS Reguiations describe n lo que deberían p oder hacer los candid ato s que aprueben. Por ejemplo, cuando obtiene un aprobado (pass) en el Prdiminary Stage of the Oxford Exam, un cand idato, entre otras cosas: tiene las destrezas básicas de supervivencia en la expresión escrita y la comprensión de lectura en inglés; tiene la capacidad de comunicarse de forma clara por escrito (aunque puede cometer un número de errores, y el dominio de las estructuras y el vocabulario pue de ser limitado ); puede comprender y extraer la información relevante de textos auténticos no literarios (por ejemplo instrucciones, reglamentos, formularios) y responder de forma apropiada.


El Trinity College describe lo que u n candidato pue de hacer en cada un o de los 12 niveles. Siguen a continuación, com o ejemp lo, los niveles 1 y 12: Nivel 1

El candidato utiliza un número reducido de palabras y expresiones tales como saludos habituales y el nombre de objetos de uso común y de acciones habituales. Puede haber un cierto grado de comunicación con ayuda.

Nivel 12 El candidato utiliza un amplio abanico de lenguaje con un dominio similar al de la lengua materna. Puede manejarse en situaciones que requieren un lenguaje complejo y exigente. Muestra pequeños fallos ocasionales en corrección, fluidez, adecuación y organización que no afectan a la comunicación. Hay sólo escasas dudas a la hora de comprender o hacer llegar el contenido del mensaje. (Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, T rin it y

College, Londres, 1990)

El examen de UCEES IELTS otor ga resultados para nue ve niveles, cada un o de los cuales tiene una descripc ión de actuación. Por ejemplo, un candidato que haya obtenido las calificaciones globales correspondientes al nivel 7 se describe como: Buen usuario. Tiene un dom inio operativo de la lengua, aunque con inexactitudes e inadecuaciones ocasionales y no sistemáticas. Pueden ocurrir malentendidos en situaciones no habituales. Maneja bien la argumentación compleja y detallada. (¿in Introduction to IELTS, The British Council, UCLES, International Development Program of Australian Universities Colleges)

Tal como ocurre con el nivel de dificultad citado más arriba, los niveles de los alumnos tipo parecen considerarse implícitos en las descripciones genera les. En la mayoría de las publicaciones de los tribunales no están descritos de forma específica y deben deducirse de las descripciones de examen.

PR EG U N TA 7 (e ): Descripción de lo que se puede esperar que haga «en el mundo real» un candidato que obtiene un certificado o una calificación determinada en un nivel concreto. Dada la tendencia hacia la utilización de tareas y situaciones auténticas en las pmebas de idiomas, muchos tribunales argumentan que su examen imita la actua ción « en el mu ndo real». En realidad las descripciones presentadas más arriba se refieren más al mundo real que al entorno de examen. Ningún tribunal distingue entre las actuaciones lingüísticas previstas en el examen y el mundo real.

PREGUNTA 7(f): Descripción de los estudios que se supone que deben seguir los candidatos antes de presentarse al exam en. En general, los tribunales de exámenes no presuponen que sus candidatos hayan seguido ningún curso en particular. Un tribunal dijo en su respuesta al cuestio nario: «Nosotros diseñamos esquemas, es decir, muestras de contenidos, no cur sos». Y otro dijo que el hecho de que no describieran cursos era intencionado. Sin embargo, el reglamento de Oxford-ARELS recomienda dos libros de texto.


PREGUNTA 7(g): Descripción del contenido de l examen en cuanto a: (I) estructuras, vocabulario, funciones lingüísticas El mayor o m enor detalle sobre las destrezas macrolingüísticas y microlingüísticas depende en gran parte del nivel de la prueba. Sólo el Preliminary English Test (PET), entre los exámenes de la UCLES, facilita listas de vocabulario, sintaxis y funciones del lenguaje. La descripción de contenidos para el nivel 1 de las pruebas del Trinity College incluye una lista de consigna s y órdenes tipificadas: Toca Señala Sujeta Muestra Dame Ponlo(los) aquí (allí)

y una lista de preguntas tipificadas, así com o los nom bres de los adjetivos de color y de tamaño. El nivel 2 incluye: el presente continuo, como en What am I (are you/we/they, is he/she/it) doing?, el presente habitual, etc.

Y dice: Vocabulario: los candidatos deberían estar familiarizados con unas cien palabras aparte de las mencionadas con anterioridad. NO se exige un vocabulario extenso. (Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages,

Trinity College, Londres, 1990)

Las pruebas ora les en in glé s h ablado del ESB (The ESB Oral Assessments in Spoken English as an Acquired Language) son mucho menos específicas. Para los tres niveles base los candidatos: deberán reconocer y producir los nombres de objetos de uso común (por ejemplo, ropa, mobiliario), y deberían demostrar desde el principio que son conscientes de los patrones básicos del orden de las palabras en inglés (por ejemplo, grupos nominales, grupos preposicionales, sujeto —verbo - complemento). (Oral Assessments in English as an Acquired Language, ESB, 1 9 9 0 )

Un tribunal dice que tiene listas «para los examinadores pero que no las publica a propósito». Otro dice que dan algunas directrices pero que una «des cripción detallada no se considera apropiada para exámenes comunicativos». Nos fue difícil encontrar la lógica tras esta afirmación. PREGUNTA 7(g): Descripción dd contenido dd examen en cuanto a: (II) tema y longitud de los textos ARELS y Oxford no incluyen una lista de temas establecidos para sus exámenes, pero tienen una lista de los temas que han tratado en exámenes anteriores. Por


Motivos para cambiar de casa El mejor día de tu vida Un día de trabajo típico Una experiencia aterradora El final de una amistad.

En los exámenes orales del ESB los candidatos escogen sus propios temas para aproxim adam ente la mitad del examen. Por ejemplo, preparan charlas por adelantado y escogen pasajes de lectura para leer en voz alta. En el Certifícate in English as an Acquired Language hay también una parte de Comprensión en la que se supone que los candidatos deben responder a preguntas y opiniones sobre un pasaje de actualidad general leído por el examinador. Los pasajes se seleccionarán por su actualidad e interés general y, cuando se considere apropiado, serán relevantes con respecto a la procedencia nacional y cultural del candidato. (The Certifícate in English as an Acquired Language, ESB, 1 9 9 0 )

Los d os exámenes del LCCI qu e evalúan el inglés para fines profesionales (English for Business Purposes) no dan la lista de ningún tema, pero pueden deducirse hasta cierto punto de la descripción de las tareas y de la procedencia de los materiales utilizados. Por ejem plo, una de las cuatro tareas en el nivel tercero es: Una tarea de comprensión en la que los candidatos deberán mostrar la comprensión de un pasaje con un objetivo definido. Podría tratarse de un artículo de prensa, un texto de una publicación de negocios, un informe comercial, una circular, un documento legal, o cualquier otro tipo de material comercial escrito con el que los candidatos estén familiarizados en este nivel. (Rcgulations, syllabuses and timetables of examinations, L CCI, 1 9 9 1 )

Aunque seis de los tribunales y cinco de los responsables de examen de la U C L E S afirmaron q ue facilitaban la longitud de los textos, éstos no estaban descritos en la mayoría de las publicaciones que recibimos. Sin embargo, la ESB especificaba el tiempo má xim o permitido para los pasajes que debían leerse en voz alta, y CENTRA citaba el número de palabras de cada texto. PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (III) tipos de pregunta, ponderación de las preguntas, tiempo para cada prueba, tiempo para cada parte de la prueba Com o pu ede verse en el cuadro 2 .1, todos los centros que respondieron a las preguntas dijeron que describían los tipos de pregunta que incluían en sus exámenes y especificaban la duración de cada examen, pero había más variación en el tipo de información sobre la ponderación y la duración de cada prueba. Algunos, como ARELS, publican el porcentaje de puntos adjudicado a cada prueba: Nivel prelim inar

Prueba 1: Prueba 2: Prueba 3:

uso social del inglés comprensión oral expresión oral

(20% de los puntos). (50% de los puntos). (30% de los puntos).

(New Edition of Rationale, Regulations and Syllabuses, the Oxford-ARELS Examinations in English as a Foreign Language)

Especificaciones de exam en

PR EG U N TA 7 (h ): Descripción de los criterios que se usarán pa ra evaluar la actuación de las estudiantes Aunque la mayoría de las tribunales de exámenes dijeron que publicaban los criterios con los q ue se evaluaban las actuaciones de los estudiantes, sólo pu dimos encontrar esta información en algunos de los documentos que nos hicieron llegar. La JMB describía sus criterios para la evaluación de dos tareas de expresión escrita: Criterios de evaluación

La nota más alta para la parte B refleja una mayor exigencia en cuanto a organización e interpretación. Se exigirán respuestas de alrededor de 300 palabras. Puesto que se pide a los candidatos el desarrollo lógico de una muestra escrita que interprete la información facilitada, deberá evitarse la descripción extensa de toda la información facilitada. Los candidatos deberían ser capaces de comparar y contrastar, mostrar relaciones de causa y efecto, sacar conclusiones, formular hipótesis y producir otros patrones de discurso. Deberían ser capaces de organizar su escrito en párrafos y de usar variedad de medios para crear coherencia entre frases y dentro de un mismo párrafo. Deberían producir frases de la complejidad requerida en el registro formal. Se espera que los candidatos escriban prosa gramatical prestando atención al orden de la frase, a la concordancia sujeto/verb o y mostrando un uso adecuado de la voz y de los tiempos verbales. (Syllabus for UETESOL, JM B, 1 9 9 1 )

Como puede verse, se han listado los criterios, pero no se explica cómo van a transformarse estas ideas en puntos o calificaciones. Tampoco lo hace el siguiente pasaje de LCCI: 2. Se otorgarán puntos de forma diferenciada por contenido, tono, estilo, presentación, corrección e impacto comunicativo, según la naturaleza de cada una de las tareas. 4. No puede quedar duda alguna de que para cualquier tipo de propósito comercial, el candidato puede percibir y transmitir significado en su expresión escrita, con rapidez y corrección. El inglés de los candidatos debería ser lo suficientemente correcto, especializado e idiomàtico como para permitirle detectar sutilezas de detalle y significado y poderlas expresar cuando escriben. Los candidatos deberán utilizar su sentido común en cuestiones de adecuación y conveniencia. Deberían poder hacerse una idea general de la situación a partir de los fragmentos q ue se les han presentado y responder de forma lingüística de manera que beneficie a su situación. (Regulations, syllabuses and timetables of examinations, English for Business, 3rd Level, LCCI, 1 9 9 1 )

Las respuestas a esta pregunta co inciden claramente en algunos aspectos con las respuestas a la pregunta 7 (d ), q ue pregu ntaba si los tribunales daban descripciones de la ejecución de una prueba modelo para cada nivel. Uno de los ejemplos citados bajo la pregunta 7(d) procedía del Trinity College, que introduce cada uno de sus doce exámenes orales con un breve párrafo que describe el nivel del candidato que pued e ap robar en el nivel correspondiente.


Lo que no está claro es si los examinadores usan alguno de los ejemplos ante riores como criterios de evaluación o si sólo se utilizan para propósitos de infor mación. El IELTS ha fijado bandas generales para cada nivel que se presentan a los estudiantes y que son distintas de las que se usan en los criterios de evalua ción de la producción escrita y oral de los candidatos. No está claro por qué algunos tribunales dan un trato confidencial a sus criterios, pues los usuarios de los exámenes podrían beneficiarse de conocer exactamente cuáles son. Un tribunal que sí da a conocer sus criterios de evaluación es la Oxford Delegacy, que pub lica un documen to titulado Criterios de puntuación y muestras. Este docu mento presenta los criterios de puntuación para cada una de las preguntas de expresión escrita, por ejemplo: Evaluación de la pregunta 1

Categoría 1 Estilo apropiado y bien planteado. Adecuado a la tarea, (de 26 a 30 puntos) Gama de vocabulario buena y apropiada y buen control de las estructuras. Si hay errores no interfieren con la comprensión. Una actuación realmente competente. Categoría 2 Pocos errores, buen control. Adecuado a la tarea. (de 20 a 25 puntos) Gama de vocabulario buena y apropiada. Conocimiento del estilo adecuado aunque no lo domine por completo necesariamente. O bien, extremadamente correcto, pero con una gama, complejidad o estilo deficiente. (Marking Criterio and Samples, Higher Level Paper 1, The Oxford Examination in English as a Foreign Language)

El docum ento explica el sistema de evaluación de cada una de las preguntas de expresión escrita y hace a lgunos comentarios sobre la actuación de los estudian tes en cada pregunta. También incluye muestras de tareas de expresión escrita y facsímiles de un a gam a de respuestas de lo s estudiantes a las preguntas. Cada muestra está puntuada y cada puntuación va acom pañada de una explicación. Este documento es muy útil, tanto para los estudiantes como para los profe sores. Al menos en lo que se refiere a esta prueba, los estudiantes pueden pre pararse bien antes de entrar a la sala de examen. UCLES tam bién facilita manu scritos y puntuáciones para alguno s de sus ex á menes. En un volumen llamado English as a Foreign Language: General Handbook (UCLES, 19 87 ), se describen algunos de los exámenes de inglés com o lengua extranjera. Se incluyen pruebas de muestra y, para las pruebas de expresión escrita del FCE y del CPE, criterios de evaluación, facsímiles de respuestas de alumnos y pun tuaciones con explicación. PREGUNTA 7(i): Descripción de cómo se calculan las puntuaciones o notas finales. Este tema se ha d iscutido de for ma p arcial en la pregunta 7 (g) y se discutirá


P R E G U N T A 8 : ¿ S e ha llevado a cabo a l g ú n t ip o d e «an álisis d e n e c e s i d a d e s » para ayudar al tribunal a tomar decisiones sobre el propósito, el contenido, el método, el nivel, etc. del examen? La interpretación que los tribunales hacen del análisis de n ecesidades varía ampliamente. La AEB se refirió a la tesis doctoral de Weir (1983), que contiene un análisis detallado de las necesidades de los estudiantes en ambientes acadé micos; un tribunal incluyó algunos informes; y uno mencionó un informe de investigación que se utilizó como base para una revisión de la prueba. Tres tri bunales se refirieron muy claramente de forma implícita a la investigación de mercados, y dos dijeron que profesores y otras personas facilitaban comenta rios que aconsejaban las revisiones de las descripciones de contenidos y de exá menes. Un centro dijo que sus descripciones de contenidos se revisaban anualmente pero no indicó cómo se decidía lo que debía modificarse cada año.

PREGUNTA 9 ;

¿Se

da a los redactores de pruebas alguna información o guía suplementaria?

Casi todos los tribunales dijeron que daban información suplementaria a los redactores de pruebas. Sin embargo, uno dijo que no lo hacía, y d os dijeron que la pregunta no era pertinente. De estos dos, uno hacía referencia a la prueba de la AEB TEEP, de la que ya no se elaboran más versiones, y el otro era un tribunal que sólo lleva a cabo pruebas orales. El tribunal que respondió negativamente a la pregunta presuponía que los redactores no necesitaban información suple mentaria porque se trataba de una prueba de expresión oral. No está claro por qué los dos ú ltimo s tribunales creían que no era relevante para sus prueba s sum i nistrar informac ión suplementaria a sus redactores, a no ser que qu isieran seña lar que las preguntas que había de formularse dependían más de los exam inadores que de los redactores de la prueba. Si éste es realmente el caso, es de supon er que los examina dores reciben asesoramiento sobre có mo seleccionar las preguntas o tareas siguientes. Este tema no fue tratado por ningún tribunal. La mayoría de los tribunales no dio detalles de las directrices que dan a los redactores de pruebas, pero dos facilitaron manuales para los redactores, y uno o dos más facilitaron breves explicaciones: Reuniones de puesta en común sobre la elaboración de la prueba con el examinador jefe. Redacción de los ítems de acuerdo con unas directrices y revisión de los mismos en la reunión. Los examinadores jefes facihtan a los redactores instrucciones detalladas sobre la elaboración de la prueba. Asisten a reuniones de redacción antes de convertirse en redactores. Trabajan en equipos de tres —un redactor para cada par te- con el asesoramiento de un redactor más experimentado. Tienen dos reuniones como equipo para consultar el material existente y planificar tareas (UCLES).

Sólo un tribunal dio inform ación extensa, incluyendo una copia de la carta muestra enviada a los redactores de ítems. Aunque la publicación de la carta vio laría la condición de anonimato estipulada por el centro, podemos dar la

Estudio sobre

los tribunales de exámenes de inglés...

A lo largo de los años, los redactores de ítems y de pruebas han recibido asesoramiento de distintas maneras: a través de cursos y conferencias de fin de semana para correctores y redactores de ítems, en los que se discutía y analizaba el contenido del examen y se trataban nuevos enfoques y tipos de examen; a través de reuniones con redactores motivados en las que se intercambiaban los ítems en borrador, se discutían y se modificaban para su inclusión en futuros exámenes; a través de una carta detallada enviada a cualquier redactor de pruebas en potencia que mostrara interés en contribuir a los exámenes; a través de comentarios y notas específicas sobre los materiales enviados por los redactores al responsable del examen.

PREGUNTA 10: Cuando lo s estudiantes se matriculan para su examen, ¿qué información reciben sobre su objetivo y contenido? Nueve tribunales no pertenecientes a UCLES dijeron que los centros de examen daban a los estudiantes detalles sobre las pruebas. Entre las respuestas más corrientes de los tribunales, se hallan las siguientes: La información está a disposición de los estudiantes en los centros en que se matriculan; además, cualquier estudiante puede recibir la misma información solicitándola directamente al tribunal de exámenes.

Y también: Es responsabilidad de los centros que matriculan a los alumnos y que administrarán la prueba el facilitar información completa sobre el objetivo y el contenido del examen.

Sin embargo, un tribunal dijo que facilitaba a cada estudiante la descripción de contenidos y las directrices relevantes. De las respuestas de UCLES, dos hacían referencia a los centros responsables de la matrícula y de la administración de la prueba, dos decían que podían conseguirse el reglamen to y las especificaciones, así como exámenes para practicar y exámenes anteriores; y uno mencionó un folleto. Muchas de las respuestas al cuestionario dan la impresión de que los tribunales de exámenes dan libertad al centro que administrará la prueba para decidir cuántos de entre los numerosos documentos publicados por el tribunal se dan a los candidatos. Es posible, naturalmente, que los centros den a los estudiantes todo lo que esté disponible; pero si no lo hacen, es causa de preocupación, pues si unos estudiantes reciben las publicaciones y otros no, los estudiantes estarán en distintos estados de preparación cuando se presenten al examen y, por tanto, los resultados serán poco fiables. Los tribunales deberían garantizar que los estudiantes reciben tanta información sobre sus exámenes como sea posible, y que todos los centros de administración de exámenes den a todos los estudiantes la misma información.


2.6. Debate

Tal como dijimos en la introducción a este apartado, hay una gran variedad en el enfoque por parte de los tribunales con respecto a la elaboración de especificaciones y a la transparencia con la que facilitan los fundamentos, los contenidos y los criterios de evaluación que sirven de base a sus exámenes. Esta variedad en la transparencia de la información debe tratarse más a fondo. Es cierto que hay una serie de aspectos de los contenidos de la prueba que deben ser confidenciales, especialmente si sólo hay una versión segura; sin embar go, en muchos casos no se trata de una cuestión de confidencialidad. Cuanto más sepan
Y el criterio 3.3 dice: Las definiciones del ámbito y las especificaciones de la prueba deberían ser lo suficientemente claras como para que los expertos sobre el tema puedan juzgar la relación de los ítems con los ámbitos que representan (página 26).

El Code of Fair Testing Practices in Education (véase ca pítulo 11) dice q ue l os responsables de un examen deberían: definir lo que cada examen evalúa y para qué debería usarse; describir la población para la que el examen resulta apropiado... (afirmación 1); describir el proceso de elaboración de un examen. Explicar cómo se seleccionaron el contenido y las destrezas que se van a evaluar (afirmación 4).

Parece que la práctica habitual en los tribunales de exámenes del Reino Unido no siempre se ajusta a estos criterios.

Bibliografía

2.7. Sumario Puesto que las especificaciones variarán de acuerdo con el uso a que estén des tinadas, no todos los puntos de la lista siguiente estarán presentes en todas las especificaciones. Por encima de todo, los redactores de especificaciones deben decidir, para empezar, quién es su público y facilitar la información apropiada. Las especificaciones de examen deberían incluir todos o la mayoría de los siguientes puntos: El propósito del examen Descripción del candidato Nivel de la prueba Constructo (marco de referencia teórico para el examen) Descripción de un curso o libro de texto adecuado Número de secciones/pruebas Ponderación de cada sección/prueba Situaciones contempladas en la lengua meta Tipos de texto Longitud de los textos Destrezas lingüísticas que se van a evaluar Elementos lingüísticos que se van a evaluar Tipos de tareas Procedimientos Instrucciones Criterios de evaluación Descripción de realizaciones lingüísticas típicas para cada nivel Descripción de lo que los candidatos para cada nivel pueden hacer en el mu ndo real Muestras de exámenes Muestras de las actuaciones de los estudiantes en cuanto a las tareas.

Biliografía Alderson, J. C. (1988b). «New Procedures for Validating Proficiency Tests of ESP? Theory and Practice.» Language Testing, 5 (2), págs. 220-232. Alderson, J. C. y C. M. Clapham (1992a). «Applied Linguistics and Language Testing: a Case Study o f the ELTS Te st.» Applied Linguistics, 13, págs .1 49—167. Alderson, J. C. and C. M. Clapham (1992b). Examining the ESTS Test: An Account of the First Stage of the ELTS Revision Project. IELTS Research Report 2. The British Council, University o f Cambridge Local Examination Syndicate and International Development Program of Australian Universities and Colleges, Cambridge. Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University Press, Oxford. Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability


Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS Research Report 3. The British Council, University of Cambridge Local Examinations Syndicate and International Development Program o f Australian Universities and Colleges, Cambridge. Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I). The British Council y University o f Cambridge Local Examination Syndicate, Londres y Cambridge. Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development. A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia. Hughes, A. (1988). «Achievement and Proficiency: The Missing Link.» En A. Hughes (e d.), Testing for University Study, ELT Docum ents 127. Modern English Publications, Londres. Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach. Cambridge University Press, Cambridge. Hymes, D. H. (1972). «On Communicative Competence.» En J. B. Pride y J. Holmes (eds.), Sociolinguistics, pags. 26 9—29 3. Penguin, Harmondsworth. Munby, }. (1978). Communicative Syllabus Design. Cambridge University Press, Cambridge. Oiler, J. (1979). Language Tests at School. Longman, Londres. Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford. Swales, J. (1985). Episodes in ESP. Pergamon, Oxford. Weir, C. J. (1 983 ). «Identifying the Language Problems of Overseas Students in Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.

3


En este capítulo trataremos lo que se requiere para redactar buenos ítems de examen. Describiremos algunos de los peligros que se deben evitar y los procedimientos que se deben seguir para subsanar muchos errores obvios antes de llevar a cabo los ensayos previos a la administración del examen. Intentaremos responder a las siguientes preguntas: ¿Qué hace a un buen redactor de ítems? ¿Nace o se hace? ¿Por dónde empieza la redacción de un ítem? ¿Qué métodos son los más adecuados para evaluar unas habilidades en particular? Cuando no hay acuerdo sobre la calidad de un ítem, ¿cómo podemos resolver el desacuerdo? ¿Qué principios y directrices deberíamos seguir cuando redactamos ítems? ¿Cuál es la función del comité de redacción y cómo funciona este tipo de comités?

3.1. Requisitos para redactar ítems El objetivo y el contenido del examen determinará hasta cierto punto quién puede ser el mejor redactor de ítems. Siempre resulta útil que los que redactan los ítem s teng an experiencia reciente en la docencia de estudiantes sem e jante s a lo s que se pre se nta rá n al exa m en , puest o que su ex periencia com o profeso res les permitirá hacerse una idea sobre lo que estos estudiantes consideran fácil o difícil, lo que les interesa, su bagaje cultural, etc. Por ejemplo, si el examen es de expresión escrita para fines académicos, alguien con experiencia en este campo y en su docencia y con práctica en la corrección de los escritos que presentan sus estudiantes estará más preparado para redactar mejores prueb as que alguien sin esta experiencia. Para exámenes de ap rovechamiento es importante que aquellos que redacten la prueba sepan lo que es razonable esperar de alumnos que han finalizado un estadio concreto en su aprendizaje y también hasta qué punto los estudiantes han progresad o en el programa. Es pues probable que los profesores que tengan experiencia con alumnos de tales características, o con asignaturas relacionadas, y que cumplan los requ isitos pr ofesionales n ecesarios para la realización de su trabajo en la situación en la que se desarrolla la prueba, sean buenos redactores de ítems. Sin em barg o, estas personas no serán necesariamente buenas redactoras de ítems. Tener la experiencia necesaria no garantiza que se tengan las ideas claras sobre lo que significa redactar buenas tareas ni la creatividad e imaginación ne ce-

L a r e d a c c i ó n d e í t e m s y l a

función moderadora

definir y difíciles de identificar en los futuros redactores de ítems, pero o bviamente ausentes en los malos redactores. Algunos exámenes son elaborados por redactores profesionales que trabajan con dedicación plena para una institución que elabora exámenes, o que traba jan de fo rm a in dependiente com o re dac tore s pa ra va rias institucio nes. Tales redactores com binan de form a ideal la experiencia y los requisitos de un profesor relacionado con la materia y las cualidades de un redactor de ítems perspicaz. Tales individuos existen y producen ítems excepcionalmente buenos, pero debe decirse que no abundan. Una de las ventajas de emplear a un redactor de ítems profesional es q ue esta persona será capaz de reproducir ítems de un examen para otro: es notoria la dificultad de escribir pruebas paralelas, y la sabiduría que desarrollan los redactores profesionales sobre cómo funcionan los ítems de examen es un ingrediente muy importante en la produc ción de pruebas consistentes. Sin emb argo, tales redactores de ítems p rofesionales tienden a ser meno s sensibles al público que evalúan, a los cam bios en el currículo o en su aplicación, a las variaciones en los niveles escolares o en los destinatarios de las pruebas y a otras características del entorno del examen. Sin duda, la mejor solución es tener equipos de redacción de ítems que incluyan a redactores profesionales y a profesores con la experiencia adecuada.

3.2. Exámenes versus ejercicios Cuando no s pregun tamo s «¿ Qué caracteriza a un buen redactor de pruebas?», también podríamos preguntarnos «¿Qué caracteriza a un buen autor de libros de texto? » La elaboración de un ítem es muy similar a la elaboración de un ejercicio escolar en el q ue se presenta a los estudiantes una tarea que tienen que llevar a cabo o unos datos que tienen que interpretar y, mediante las respuestas del profesor y de los compañeros, junto con la introspección y la observación de sí m ismo s, desarrollar la capacidad de mo dificar su comportam iento y su pensamiento. De manera parecida, los ítems de una prueba pretenden que los estudiantes lleven a cabo tareas e interpreten datos, pero en este caso el objetivo es el de provocar actuaciones o enunciados que se considerarán como demostración de una habilidad. Un ítem de examen constituye un método para provocar una actuación o un enunciado, junto con un sistema por el que tal actuación o enunciado pueda ser juzgado. Creemos, pues, que no hay diferencias importantes entre la redacción de un ítem para una prueba y la redacción de ama tarea de aprendizaje o un ejercicio. Así, cualesquiera que sean las cualidades requeridas para el redactor de un ejercicio lo son también para los redactores de pruebas. Incluso pueden usarse las fuentes de inspiración de los ejercicios en la redacción de pruebas: los redacto res de pruebas, en otras palabras, pueden y deben ser lo más ima ginativos posible cuando piensen en su s tipos de ítem, y una fuente de ideas muy útil son los libros de texto y otros materiales de aprendizaje.

■

¿Por dónde empezar?

Resulta interesante que, según nuestra experiencia, los profesores sean tan reacios a la hora de enseñar a extraños las pruebas qu e han escrito, mientras que no tienen ningún inconveniente en mostrar los ejercicios que han escrito para utilizar en el aula. Eso puede ser así por el aura que rodea a la redacción de pruebas, cosa que no sucede con la redacción de ejercicios: existe la creencia de que los exámenes son de por sí difíciles de redactar. En realidad, nuestra experiencia es que los extraños tienden a ser mucho más críticos con los ítems de examen que con los ejercicios de aprendizaje, y esto puede tener un efecto inhibidor en los redactores de pruebas. Esta reticencia a la hora de mostrar los propios ítems a los demás no sólo se debe a la creencia de que redactar pruebas es difícil. Puede también deberse a una diferencia importante entre las pruebas y los ejercicios de clase que hace que la redacción de pruebas resulte más difícil. El hecho es que cuando lo s estudiantes responden a una prueba lo hacen de forma individual: no reciben ninguna ayuda de sus compañeros ni de su profesor. ¡Tal ayuda se llamaría «copiar»! Sin embargo, cuando hacen ejercicios, los estudiantes esperan recibir ayuda de com pañero s y profesores, o al men os esperan poder pedir ayuda si la necesitan. Así, la principal diferencia entre una prueba y un ejercicio es que con los ejercicios los estudiantes reciben ayuda; con los exámenes, no. El efecto de esta diferencia es que los ítems de un examen deben ser más claros que los ejercicios de clase. Las instrucciones deben ser lo más simples y precisas posible, y las tareas deben resultar familiares para que se pueda evaluar a todos los candidatos de acuerdo con sus habilidades y no de acuerdo con sus conocimientos de la tipología de la tarea. Los ítems de examen, pues, deben ser autoexplicativos hasta un punto a menudo innecesario en un ejercicio de clase. Los profesores pueden compensar un ejercicio poco claro parafraseando, dando ejemplos, demostrando qué debe hacerse, o incluso saltándose aquellos ejercicios que los estudiantes no entienden o no les interesan. El estudiante no tiene esta posibilidad durante un examen y por tanto el redactor de pruebas tiene la obligación de garantizar que no haya ambigüedades en ningún ítem. Es interesante señalar que hablamos de la validez de un ítem de examen mientras que no es habitual hablar de la validez de un ejercicio de clase. De todas maneras, el concepto tiene vigencia en un debate sobre las tareas de aprendizaje: las tareas que no permiten a los estudiantes aprender o practicar lo que se supone que deben aprender o practicar no son válidas. Los exámenes difieren de los ejercicios de clase en que los primeros deben ser válidos (y fiables), mientras que los ejercicios generalmente no lo son.

3.3. ¿Por dónde empezar? Los redactores de ítems deben empezar su tarea por las especificaciones de la prueba (véase capítulo 2). Esto puede parecer demasiado obvio, pero es


exámenes de años anteriores se debe probablemente al hecho de qu e mu chos exám enes no tienen especificaciones. H ay dos prob lem as a la hora de intentar repetir o utilizar los exámenes antiguos. Primero, hay que deducir los objetivos y los prop ósitos, que a m enudo n o son fácilmente deducibles: los objetivos y los contenidos están implícitos en un examen antiguo, y sólo se suelen explicitar en las especificaciones. Segundo , las especificaciones aba rcan mucho más que un examen previo. Cualquier prueba es necesariamente sólo una m uestra de lo qu e po dría haber incluido. Redactar una prueb a a partir de pruebas previas es pues una forma de limitar al redactor de las pruebas a lo que ya se ha evaluado. Es práctica habitual variar el contenido, y a menudo el método, de cada nueva prueba que se prepara, a no ser que se tenga que elaborar una prueba estrictamente paralela, y éste no debiera ser el caso de los e xámenes de aprovechamiento ni lo es normalmente de los exá menes de dominio. Así pues, es primordial ir a las especificaciones del examen para asegurar una m uestra lo más am plia posible del contenido y de los métodos de examen. Lo que debe hacerse después de haber consultado las especificaciones de la prueba dependerá del tipo de prueba que se vaya a elaborar. Si la pmeba es sobre elementos lingüísticos discretos, tales como léxico o gramática, el siguiente paso será probablem ente consultar exámenes previos o algún inventario del contenido de exámenes anteriores para evitar el peligro de repetir excesivamente el contenido de otras pruebas. Aunque mirar el contenido de exámenes previos pued e ser útil, es mejo r clasificar de forma sistemática el contenido de todas las pruebas administradas. Los resp onsables del exam en deberían llevar un archivo del contenido de todas sus pruebas. Consultar este inventario será un segun do paso mu y útil para los redactores que están redactando prue bas basadas en textos, por ejem plo, de comp rensión oral o de comprensión de lectura, y quizá también de expresión oral y expresión escrita. El inventario debería mostrar los tipos de textos qu e ya se han usado, y las especificaciones indicarán los géneros, proceden cia, dificultad, etc. (véase capítulo 2) apropiado s para la prueba en cuestión. La siguiente tarea del redactor de pruebas en muchos exámenes es encontrar textos apropiados. En este caso «ap ro pia do s» significa no sólo textos que coin cidan con las especificaciones, sino también textos que faciliten ítems adecuados. No todos los textos se prestan a la redacción de ítems, y una buena recomen dación para los redactores de ítems es dedicar tiempo a buscar textos que prometan. Encontrar textos adecuado s pue de llegar a ser tan problem a y a menu do los redactores guardan su propio «b an co » de textos que pueden utilizar en exámenes futuros y que incrementarán constantemente a partir de sus lecturas diarias. Es a menudo una buena idea, sobre la que insisten algunos redactores, consegu ir la aprobación de los textos por parte del comité de red acción antes de proceder a la redacción de ítems o tareas. Es simplem ente una

Tipos de ítems

3.4. Tipos de ítems Es importan te darse cuenta de qu e el m étod o usad o para evaluar una habilidad lingüística puede por sí mismo afectar a la calificación obtenida por el estu diante. Los especiahstas llam an a este hecho efecto del método, y su influencia debe ría reducirse al máx im o. N o no s interesa saber si a un candidato se le dan bien las pruebas d e elección múltiple o es m ejor a la hora de completar textos con huecos (doze tests) que los demás candidatos, o si le resultan bastante difíciles las descripcio nes verbales de una serie de fotos. N os interesa averiguar los con oci m ientos g ramaticales de un candidato, su habihda d lectora o sus destrezas ver bales. Todavía no sabemos demasiado sobre el efecto de los métodos de examen, pero cuanta más investigación se dedique a observar cóm o responden los estu diantes a los distintos métodos de evaluación, empezaremos a entender el efecto o, m ejor, los efectos, de form a más completa. Sin embargo , se ha llevado a cabo una considerable investigación sobre algu nos métodos: la técnica de doze, y los c-tests, por ejemplo (véanse páginas 57 y 58 ). Se ha re alizado m ucha inv estigación utilizando lo s exám enes de tipo doze com o variables, pero se ha hecho much o m enos para ver lo que estos exám e nes miden exactamente. Lo que está claro, sin embargo, es que diferentes exá menes de tipo doze miden cosas distintas, es decir, un examen producido con la aplicación de la técnica del doze sobre u n texto puede o no med ir lo m ism o que otro examen distinto producido con la misma técnica sobre el mismo texto. Esta variación es imprevisible y suele depender de qu é palabras se han suprimido. Resumiendo, no se puede saber por adelantado lo que evaluará una determi nada p rueb a tipo doze sin haber validado la prueba de la for ma h abitual (véase el capítulo 8). Esto significa que el efecto del método de la técnica doze será pro bablemente muy complejo. Sin embargo, se ha demostrado que cuando los estu diantes respo nden a exám enes de tipo doze, leen de for ma distinta a la habitual; leen una pequeña cantidad de texto justo antes del hueco, pero no leen el texto que viene justo detrás del hueco. Nos parece que esto se debe a la propia téc nica de la prueba; la existencia de huecos a intervalos regulares tiende a indu cir a una lectura de «texto corto», y muchos de los que responden a exámenes de tipo cloze muestran una falta de atención al significado del contexto más amplio, cosa que no hacen cuando leen normalmente, cuando son realmente sensibles al contexto. De forma parecida, se ha demostrado que muchos alumnos pueden apren der estrategias para responder a exámenes de respuesta múltiple que inflan sus notas artificialmente: técnicas para acertar la respuesta correcta, para eliminar opciones poco probables, para evitar dos opciones con significado parecido, para seleccionar una o pció n notablemen te más larga que las otras, etc. (véase Alian, 199 2, y su interesante descripción de una prueba de habilidad para res ponder a exámenes elaborada para identificar a estudiantes que han desarro llado tales estrategias). Existen también anécdotas de estudiantes que han realizando pruebas de respuesta múltiple cuyo método les ha llevado a optar


por alternativas que no habrían elegido en otras circunstancias (véase el debate sobre preguntas de respuesta múltiple en Oller, 19 79 ): el m étodo de exam en engaña a los incautos, que hacen interpretaciones erróneas que no hubieran hecho en otras circunstancias. Además, es probable que algunos m étodos de examen en particular se pres ten a evaluar unas habilidades concretas y no sean tan buenos para evaluar otras. Un ejemplo extremo es el de los exámenes de respuesta múltiple, que no son adecuados para evaluar la habilidad de pronunciar una lengua correctamente. A pesar de las sugerencias de Lado (1961) y de las creencias en Japón sobre lo contrario, Buck (1989) demostró claramente que los resultados de las pruebas de respuesta múltiple de pronunciación no muestran correlación con la habi lidad de los candidatos a la hora de pronunciar correctamente los fonemas ingleses. Un ejem plo menos extremo p odría ser la técnica de respuesta múlti ple para evaluar la comprensión de lectura: puede resultar más fácil controlar los procesos co gnitivos de los lectores con técnicas de respuesta m últiple que con preguntas de respuesta breve (puesto q ue el redactor de la prueba pu ede idear opciones para que los candidatos razonen de ciertas maneras), y este con trol puede ser deseable para evaluar la capacidad de inferencia en una lengua extranjera. Por desgracia, nuestros conocimientos sobre los efectos del método de exa men son todavía tan rudimentarios que no es posible recomendar m étodos c on cretos para evaluar habilidades lingüísticas en particular. Éste es quizá el talón de Aquiles de la evaluación de idiomas. En ausencia de tales recomendaciones el mejor consejo que puede darse a un redactor de ítems es asegurarse de que se utilice más de un método para evaluar cualquier habilidad. Una disciplina muy útil es la de idear un ítem de examen que cubra una habilidad u objetivo, y después idear otro ítem que evalúe la misma habilidad usando un método o un tipo de ítem distinto. Esto puede conducir a una mayor comprensión sobre lo que distintos tipos de ítems evalúan, y debería conducir a un mayor conocimiento de las distintas posibilidades de los ítems. En general, cuanto m ás m étodos diferentes emplee una prueba, más seguri dad tendremos de que la prueba no se inclina hacia un método o hada un tipo de estudiante en concreto. Además, si una serie de pruebas va a elaborarse a lo largo de los años (por ejemplo, las pruebas de final de curso de una institución) recomendamos que los redactores varíen deliberadamente los métodos usados para que ninguno predomine y la prueba no se vuelva prededble (véase tam bién el capítulo 10). A unque sabem os sorprendentemente poco sobre cóm o influyen los exám enes en la doc en da (véase Alderson y Wall, 199 3, y Wall y Alderson, 1993, para una discu sión sobre el efecto de rebote -washback-), es probable que el hecho de «mantener a los estudiantes en vilo», variando los

Problemas con tipos de ítems concretos

3.5. Problemas con tipos de ítems concretos Mientras no se sepan los efectos de los diferentes métodos de evaluación, los redactores de pruebas necesitan saber las pegas ya conocidas de algunos métodos de evaluación en concreto y aprender cómo evitar los errores más comun es a la hora de redactar ciertos tipos de ítems. H eaton, 1988 aconseja sobre la redacción de distintos tipos de ítem y cómo evitar redactar malos ítems, y existen diversas publicaciones q ue dan e jemplos de distintos tipos de ítems (véase, por ejemplo, Valette, 1977; Hughes, 1989, y Weir, 1988). No entraremos pues en un análisis detallado de ítems, p ero describiremos algunos de los problemas más co mun es asociados a ellos, empezando con pruebas de corrección objetiva y pasando más adelante a pruebas m ás subjetivas.

3.5.1. Problemas generales Hay algunos problemas que afectan a todos los tipos de pruebas, y quizá lo más fundamental es la pregunta «¿Q ué evalúa el ítem en realidad ?» Es muy fácil en muchos tipos de ítem que se evalúe algo distinto de lo previsto. El ítem siguiente, por ejemplo, está redactado para evaluar la ortografía:

Reorganiza las letras siguientes para form ar palabras inglesas: RUFTI TOLSO

RSOEH RIEWT

MSAPT PAHYP

Puede ser que el ítem evalúe ortografía, pero también evalúa la inteligencia, la habilidad para resolver anagram as y, quizá, vocabulario. Para realizar esta tarea con éxito puede ser más importante el saber hacer la operación mental requerida que saber ortografía. Es mu y común , por desgracia, especialmente en exámenes de dominio de un nivel avanzado, evaluar la inteligencia al m ism o tiempo o en lugar de la lengua. De forma similar, también se evalúan conocimientos generales en vez de la com prensión oral o de lectura. Dos ejemplos de este tipo de ítem se discutirán en el apartado 3.5.2. Otro punto fundamental es que se dé un punto por cada ítem, y que cada ítem sea independiente del resto. El éxito en responder a un ítem no debería depender del éxito en otro ítem. Por ejemplo, si sólo es posible responder al segundo ítem en una prueba de com prensión de lectura después de haber contestado correctamente al primero, el candidato que suspenda el ítem número 1 suspenderá automáticamente el ítem número 2 y perderá por tanto dos pu ntos en vez de uno. Algunos redactores integran los ítems de tal forma que responder correctamente a unos ítems depende de haber contestado bien a los que les precedían, y esto puede acarrear problemas. Discutiremos este punto en el apartado 3.5.4. El punto final de este apartado general es que las instrucciones para todos los ítems deben estar muy claras. A menud o los estudiantes suspenden un exam en o un ítem no porque tengan un nivel bajo de conocimientos lingüísticos sino

L a r e d a c c i ó n

d e ít e m s

y l a

función moderadora

porque no comprenden qué deben hacer. Si es posible, el tipo de redacción uti lizado debería ser más fácil que el de los ítems en sí, y en algunos casos las ins trucciones deberían escribirse en la lengua materna de los candidatos. Cada nuevo grupo de ítems debería ir precedido de un ejemplo con su respuesta correspondiente marcada.

3.5.2. Respuesta múltip le El requisito más importante de un ítem de respuesta múltiple es que la respuesta «co rrecta » debe ser verdaderam ente correcta. (Véase Peirce, 199 2, para com en tarios interesantes sobre este punto y sobre otros problemas que surgen en la elaboración de pruebas de lectura con respuesta múltiple.) Aunque esto parece obvio, es muy posible, especialmente en tareas de comprensión oral o de lec tura, dar como correctas respuestas con las que muchos colegas no estarían de acuerdo. Tal tipo de respuestas dudosas es particularmente común en pregun tas de inferencia. Cada respuesta «corre cta» , pues, debe cotejarse con otros pro  fesores para evitar problemas como el siguiente:

¿Qué respuesta no corresponde? A. B. C. D.

rabbit (con ejo) haré (liebre) bunn y (con ejito) deer (ciervo)

El redactor ha previsto que la respuesta correcta sea la D, pero algún buen estudiante puede escoger la respuesta C, porque bunny es una palabra del len guaje familiar utilizada por los niños. El otro requisito es que los redactores de ítems deben asegurarse de que sólo haya qna respuesta correcta cuando la clave de respuestas sólo ofrezca una res puesta. Todos hemos hallado ítems con más de una alternativa correcta. Fre cuentemente los redactores de ítems se centran en una sola respuesta y no pueden ver que otra u otras alternativas tam bién son posib les y aceptables. Esto sólo puede descubrirse mostrando los ítems a otras personas. El siguiente ítem se escribió siguiendo escrupulosamente las reglas dadas en un libro de texto para principiantes. Sin embargo, cuando se preguntó cuál es la respuesta correcta a hablantes nativos de la lengua no se ponían de acuerdo. -Why hasn’t your mother come? -W ell, she said she __________ leave the baby. A. can’t B. won’t C. couldn’t D. mayn’t


especialmente en la lengua hablada. Nuestra experiencia nos demuestra que pretender seguir de forma demasiado rigurosa lo que dice el libro de texto puede llevar a ítems con más de una respuesta aceptable. Cada alternativa errónea debería atraer al menos a algunos de los alumnos. Si nadie opta por alguna de las alternativas ofrecidas, es señal de que esta alternativa es inútil y debería suprimirse. En general es una buena idea tener al menos cuatro respuestas alternativas, para que sólo haya un 25% de posibilidades de que los estudiantes acierten la pregunta al azar, pero si es imposible encontrar una tercera respuesta errónea, lo más sensato es ofrecer sólo tres alternativas en algunas preguntas. Si es necesario, los ítems de respuesta múltiple deberían presentarse en un contexto. A menudo el redactor, cuando redacta un ítem, tiene un contexto en mente que no es necesariamente obvio para los demás, y esto puede afectar a la respuesta de los estudiantes, que pueden equivocarse aunque tengan el nivel de conocimientos requerido. La presentación de contexto reduce a menudo las posibilidades de ambigüedad, por ejemplo:

Elige la opción m ás cercana en cuanto a significado a la palab ra subray ada: Vuelve pr on to .

. A. B. C. D.

. , dentro de poc o tiempo más tarde hoy mañana

La ausencia de con texto hace du dar si la opció n B es realmente errónea. Sería más claro de la forma siguiente:

Rellena el espacio en blanco con la opción más adecuada: Visitante: Muchas gracias por esta maravillosa reunión. Anfitriona: Estamos encantados de que p udiera venir. V uel va ________ . A. pronto B. más tarde C. hoy D. mañana Esta nueva versión también corrige otros problemas. En la versión original la respuesta correcta, la A, no se adapta fácilmente al verbo que inicia la frase, puesto que en muchos contextos no es corriente decir «Vuelva dentro de poco tiempo». Este hecho podría preocupar a algunos de los mejores alumnos, que podrían escoger una respuesta incorrecta. Como no hay un sinónimo exacto para «pronto», y como no es necesario en este nivel de aprendizaje de lengua mostrar la capacidad de producir sinónimos, la nueva versión es más apropiada. La alternativa correcta no debería ser muy distinta a simple vista del resto de las opciones, para que no resulte obvia. N o debería ser ni mucho más larga


ni mucho más corta, ni tampoco debería estar escrita en un estilo distinto. Heaton (1988: 32) da el ejemplo siguiente cuando describe malos ítems de respuesta múltiple:

Elige la opción más cercana en cuanto a significado a la palabra subrayada: Se atragantó mientras comía pescado. A. em pezó a m orir B. puso a toser y a vomitar C. le hizo imposible respirar al tener algo en la tráquea D. enfadó mu cho Hay varios prob lemas co n este ítem. El más obvio es q ue la respuesta correcta, la C, es inmediatamente identificable porque es mucho más larga que las otras alternativas. Parece una definición de diccionario, y cualquier candidato que dude a la hora de responder la escogerá. En segun do lugar, la opción B está relacionada con «atrag antar se» desde un punto de vista semántico y podría, por tanto, ser aceptable para muchos estudiantes. Después de todo, ¿qué quiere decir la opción más cercana? Para asegurarse de que la opción B es menos «cercana en cuanto a significado», el redactor se ha visto forzado a dar una «definición de diccionario» para que la respuesta C sea realmente la más «cercana en cuanto a significado» a la palabra «atragantó». En tercer lugar, sin más contexto que el que se da, no puede saberse si el sujeto en cuestión se asfixiaba a causa de la comida o si es que estaba m uy enfadado. El hecho de que la frase sea «Se atragantó mientras com ía pesc ad o», en vez de «Se atragantó con una esp ina» implica que quizá lo qu e en realidad pasó es que se enfadó mu cho. Y si no, ¿por qué se acaba la frase con un «m ientras comía p escad o»? Es com o una pregunta trampa para confundir a los mejores alumnos. Si la frase tuviera un contexto más amplio, las alternativas serían menos ambiguas. Otro requisito d e las preguntas de respuesta múltiple es que cada opción debe poder encajar perfectamente en el contexto. Heaton (1988: 29) cita el siguiente ítem, en el que la respuesta correcta, la C, no encaja, porque en inglés el articulo indefinido « a » no pu ede usarse delante de un nombre que emp ieza por vocal: Someone wh o designs houses is a __________ . A. designer B. builder C. architect D. plumber Tal como dijimos en el apartado 3.5.1, algunos ítems no evalúan lo que se pretende que evalúen. Esto ocurre con mayor frecuencia en pruebas de comprensión en las que los ítems suelen acabar evaluando conocimientos genera-


( A continuación

de un texto sobre la memoria.) Memorizar es más fácil cuando el contenido que hay que aprender ... A. está en una lengua extranjera. B. ya es en parte cono cido. C. no es cono cido pero es fácil. no tiene dem asiad o interés. D.

Aunque no leamos el texto, está claro que éste es un mal ítem. El sentido comú n y la experiencia nos dicen que la op ción A no es verdadera, que la D es muy poco probable, y que la B es probablemente la respuesta correcta. La única alternativa que parece depender del texto para su interpretación es la C, puesto que «no conocido» y «fácil» son palabras relativamente ambiguas. Tales ejemplos son corrientes, incluso cuando los ítems han pasado por distintos filtros. Aq uí hay otro ejemp lo sacado de un ex amen de ám bito nacional, en el que cinco ítems se podían contestar sin leer el texto: (A continuación de un texto sobre árboles.) ¿Quién obtiene comida de los árboles? A. Sólo el hom bre. B. Sólo los animales. C. El ho mbre y los animales.

Diga lo que diga el texto, es sin duda del dom inio general que tanto los huma nos como los animales obtienen comida de los árboles. Este problema de ítems independientes del texto que se lee o se escucha no se limita a ítems de respuesta múltiple. Puede encontrarse también en otro tipo de preguntas con respuestas de corrección objetiva, y también en preguntas de respuesta breve. Para asegurarse de que no se puede responder a preguntas de comprensión sin hacer referencia al texto, los supervisores de ítems deberían intentar responder a las preguntas antes de ver o escuchar el texto sobre el que están redactadas. Para finalizar, otra dificultad con la qu e pu eden encontrarse los redactores de ítems se halla en las tareas en las que los estudiantes de ben corregir algún texto. En el caso de q ue deban identificar un error en una frase, p or ejemplo, A B C A pesar de la lluvia / el profes or de los niños / no permitió / D E quedarse dentro / durante el recreo. En este caso tanto la opción C como la D pueden ser las respuestas correctas, dependiendo del tipo de error que se esté buscando. Cualquiera de las frases siguientes es correcta: ... el profeso r de los niños n o les permitió q uedarse dentro... ... el profeso r de los niños n o p ermitió que se quedaran dentro... Es probablemente sensato evitar frases que tengan un error sea de omisión.

f


3.5.3. Otros ítems de corrección objetiva ÍTEMS DICOTÓMICOS Los ítems a los que debe responderse con un Verdadero/Falso o Sí/No son en general insatisfactorios puesto que hay un S 0% de posibilidades de acertar la respuesta al azar. Si queremos saber algo sobre la capacidad de un estudiante es necesario tener un gran núm ero de estos ítems para poder reducir los efectos del azar. Algunos redactores de ítems reducen la posibilidad de acertar la respuesta correcta al azar incluyendo una tercera categoría como «no se dice» o «no consta». Esto puede ser útil en una prueba de comprensión d e lectura, pero no en una prueba de com prensión oral, especialmente si el texto sólo se pasa una vez, puesto que puede ser demasiado exigente y puede llevar a confusión.

RELACIONAR (MATCHING) Con «relacio nar» nos referimos a los ítems en los que se da a los estudiantes una lista de posibles respuestas que tienen que emparejar con otra Üsta de palabras, expresiones, frases, párrafos o estímulos visuales. En el siguiente ejemplo, los estudiantes deben emparejar las cuatro palabras de la izquierda con las de la derecha para formar otras palabras inglesas. Por ejemplo: car y pet forman caipet. 1. 2. 3. 4.

car cup bed night

A. B. C. D.

room pet dress board

El inconveniente de este ítem es que, una vez que se han empa rejado correctamente tres de los cuatro ítems, el cuarto será correcto por defecto. Es aconse jable, pues, dar más alternativas de las que la tarea en sí requiere. El e jemplo anterior podría mejorarse si los estudiantes tuvieran que escoger entre seis o siete palabras en la colum na de la derecha.

TRANSFERENCIA DE INFORMACIÓN Este tipo de tarea se usa en la mayor parte de los casos en las tareas de comprensión oral y de lectura. Los candidatos deben transferir inform ación del texto a un cuadro, tabla, cu estionario o m apa. Estas tareas se asemejan a men udo a actividades que se realizan en el mundo real y son por tanto muy utilizadas en las series de pruebas que intentan incluir tareas auténticas. Algunas veces las respuestas consisten sólo en nombres y números, y pueden corregirse de forma objetiva. A veces toman la form a de expresiones o de frases cortas y deben corregirse de form a m ás subjetiva. El problema de estos últimos ítems es similar a los que hem os d escrito en un apartado más adelante bajo el nom bre de preguntas con respuestas cortas. Lino de los principales problemas de las preguntas de transferencia de informac ión es que la tarea puede ser m uy co mplicada. A veces los candidatos tar-


dan tanto en descubrir lo que debe escribirse en la tabla que no consiguen resol ver lo que lingüísticamente es un problema sencillo. Otro prob lem a es que la tarea puede ser discriminatoria desde un punto de vista cultural o cognitivo. Por ejemplo, el candidato puede tener que escuchar la descripción del itinerario de alguien a través de una ciudad y marcar la ruta en el mapa. Los estudiantes que no estén familiarizados con planos o que ten gan dificultades a la hora de leer mapas estarán en desventaja con tareas de este tipo. TAREAS DE ORDENAMIENTO

En una tarea de ordenam iento se pide a los candidatos que ordenen un grupo de palabras, expresiones, frases o párrafos. Tales tareas son habitualmente uti lizadas para evaluar la gramática, simple o com pleja, la referencia y la cohesión, o la comprensión de lectura. Casi todas estas tareas son difíciles de redactar por que no es fácil encontrar palabras o expresiones que sólo tengan sentido orde nadas de una forma concreta. Por ejemplo, la siguiente pregunta puede responderse como mínimo de dos formas: Ordena ias palabras siguientes de forma que se complete la frase: Ella d i o __________________________________________. libro

su

ayer

madre

el

a

Es todavía más difícil redactar ítems en los que las frases o párrafos deban reordenarse. Por ejemplo: frases y expresiones siguientes proceden de un pánafo de una historia de aventuras. Ponías en el orden correcto. Escribe la letra correspondiente en el espacio de la derecha. La s

La frase D es la primera, y por tanto se ha escrito junto al número 1. A. B. C. D. E. F. G.

se llamaba «El últim o vals» 1 D la calle estaba en total oscu ridad 2_ po rqu e era una que él y Bichard habían aprendido en la escuela 3_ Peter m iró fuera 4 __ recono ció la me lodía 5 __ y parecía desierta 6__ creyó oír a alguien silbar 7__

Hay al menos dos formas de ordenar este párrafo. La clave de respuestas faci litada es 1-D, 2-G, 3-E, 4-C, 5-A, 6-B, 7-F, pero también es aceptable 1-D, 2B, 3-F, 4-G, S-E, 6-C, 7-A. En este caso es posible mejorar el ítem añadiendo «pero» a la frase G, para que diga «pero creyó oír a alguien silbar». Esto hará que sólo la segunda de las dos respuestas sea aceptable. Sin embargo, aunque sea posible redactar un ítem en el que los componentes sólo se puedan orde nar de una forma, no está siempre claro lo que se está evaluando, y siempre

L a redacción de ítems y la función moderadora

la secuencia de forma correcta. ¿Deberíamos dar a este estudiante la misma calificación que al que ha ordenado toda la secuencia mal? Parece injusto puntuarlos de la misma forma, pero una vez que empecemos a dar puntos distintos para distintos errores, la corrección se complica de forma m uy po co práctica. Tales ítems se corrigen pues dando un punto si están correctos por completo y no dándolo si no lo están, pero en este caso el esfuerzo realizado por parte del reda ctor a la hora de redactar la prueba y po r parte del estudiante a la hora de responderla no compensa.

CORRECCIÓN Las pruebas de corrección consisten a menudo en frases o pasajes en los que se han introducido errores que el candidato debe identificar. Pueden tomar la forma de preguntas de respuesta múltiple, como en el apartado 3.5.2, o pueden ser más abiertas. Un método común es preguntar a los estudiantes que identifiquen un error en cada línea de un texto, bien m arcándo lo en el texto, bien escribiendo la forma correcta junto a cada línea apropiada. La principal dificultad con este tipo de ítem es asegurarse de que sólo hay un error en cada línea. Algunos redactores de pruebas han intentado hacer la tarea más real pidiendo a los estudiantes que hagan una lista de los errores sin decir cuántos hay. Esto significa que los estudiantes pueden llegar a perder mucho tiempo barriendo el texto para buscar errores, puesto que nunca creen que los han encontrado todos. Tam bién significa que la corrección es difícil puesto que a los estudiantes se les puede escapar un error al principio, o marcar un error no existente, por lo que su lista no podrá cotejarse con la clave de respuestas oficial. Se debería por lo m enos inform ar a los estudiantes del núm ero de errores que hay. (Y esto también afecta a la mayoría de las tareas en las que los candidatos deben producir algún tipo de lista)

COMPLETAR HUECOS «Completar huecos» se refiere aquí a las pruebas en las que el candidato recibe un pasaje corto en el que se han suprimido algunas palabras o expresiones. Las supresiones se han seleccionado a propósito por parte del redactor para evaluar aspectos lingüísticos concretos tales como la gramática o la comprensión de lectura. Las tareas de rellenar huecos se basan a menu do en textos auténticos y a veces en pasajes escritos con este propósito. En ambos casos, la mayor dificultad es asegurarse de que cada hueco lleva a los estudiantes a escribir la palabra o palabras esperadas. Idealmente debería haber sólo una respuesta para cada hueco, pero esto es en general muy difícil de conseguir. La clave de respuestas tiene a menudo más de una respuesta para algunos huecos. Para una mayor fiabilidad


Otro problema es que a los candidatos no se les ocurra pensar en una res puesta, no porque tengan pocos conocimientos, sino porque simplemente la palabra no les viene a la mente. De nuevo nos encontramos en una situación que no ha previsto el redactor, y que no podía prever, ya que él sí tiene el texto completo y por eso ve obvia la respuesta. Y de nuevo aconsejamos que debe ensayarse la prueba con colegas primero y después con estudiantes de nivel y características parecidas a los futuros candidatos. Si nos encontramos con un texto en el que hay bastantes huecos que no se pueden completar fácilmente, o si hay dificultades de corrección, la tarea con sistente en co mpletar hue cos en un texto utilizando las palabras prov istas (banked gap filling) puede ofrecer una solución. Se trata de un tipo de tarea parecida a la de relacionar. Cada una de las palabras o grupos de palabras que completan el texto se incluyen en una lista que se presenta en la mism a págin a que el texto con huecos. La lista contiene más palabras que huecos hay en el texto, y la tarea del candidato estriba en seleccionar la palabra correcta para cada hueco. Debe ría haber sólo una respuesta posible para cada hueco, pero los candidatos debe rían estar informados de que cualquier palabra de la lista puede ir en más de un hueco. Las palabras deberían estar en orden alfabético. Es siempre importante informar a los estudiantes si cada hueco se completa con una o más de una palabra. Si se acepta más de una palabra, la corrección es más difícil. Si sólo se permite una palabra, se deberían evitar contracciones y palabras compuestas. A veces una frase o una expresión es correcta con o sin la palabra suprimida. Por ejemplo: Sucedió que el h om br e _____________que yo seguía resultó estar en muy buena forma. ítems como este pueden confundir a los estudiantes y deben evitarse. CLOZE

Llamamos doze a las pruebas en las que se suprimen algunas palabras de un texto de form a mecánica. Cada equis núm ero de palabras se suprime una, sea cual sea su función en la frase. Por ejemplo, cada sexta palabra se suprime y se deja en blanco para que los estudiantes lo rellenen. Como dijimos anteriormente en este capítulo, uno de los problemas de suprimir una de cada equis palabras es que la selección de la primera palabra puede afectar a la validez de la prueba, puesto que una vez que se ha supri mido la primera palabra el resto de supresiones sigue automáticamente. Los experimentos que se han hecho comparando pruebas basadas en el mismo texto pero con distintos huecos, han demostrado que las pruebas varían tanto en validez como en fiabilidad (Alderson, 1978, 1979, y Klein Braley, 1981). Algunas versiones de la prueba pueden, por ejemplo, contener una propor ción alta de huecos correspondientes a palabras gramaticales, que puede resul tar fácil de completar para estudiantes competentes en la lengua y que

L a r e d a c c i ó n d e í t e m s y l a f u n c i ó n m o d e r a d o ra

distinguirá entre estudiantes de distintos niveles, mientras que otras versio nes pueden contener huecos de vocabulario que serán difíciles de rellenar incluso por hablantes nativos. Otro inconveniente es que las pruebas de tipo doze son muy difíciles de modi ficar después de ensayarlas. Si una vez que se ha ensayado hay huecos imposi bles de rellenar, ¿cómo puede arreglarse? Si el redactor decide volver a incluir la palabra suprimida en su lugar de origen y suprimir otra palabra cercana rom perá la regla de supresión de una de cada equis palabras, y si se reescribe la prueba para que todos los huecos pu edan ser fácilmente completados, la prueba se vuelve m en os auténtica. Corregir una prueba de tipo doze puede ser difícil puesto que hay muchas res puestas posibles para cada hueco, y a menudo existen discrepancias sobre las respuestas aceptables. Para producir una clave de respuestas que incluya todas las posibilidades hará falta ensayar el examen con más de un grupo y mantener largas discusiones sobre la adecuación de las distintas respuestas. T odo este pr o  ceso será largo. Para evitarlo, algunos responsables de pruebas sólo aceptan la palabra exacta en el texto original. Esta decisión produce naturalmente notas más bajas, aun que no camb ia la posic ión relativa de los estudiantes en cuanto a sus calificaciones. Sin embargo, como es antinatural considerar incorrecta la res puesta «envía un fa x» si el texto decía «m an da un fax», lo más corriente es acep tar todas las respuestas apropiadas. Finalmente, a no ser que el objetivo de la prueba sea evaluar la competencia lingüística general, segú n defiende Oller, 1979, tales pruebas pu eden dar como resultado una pérdida de energías. Pocos de los ítems de cada pasaje evaluarán aspectos lingüísticos que interesaban al redactor. Así pues recomendamos que, en general, los redactores se inclinen hacia las pruebas de rellenar huecos y no hacia las pruebas del tipo doze para poder evaluar las características lingüísticas en las que están interesados. PRUEBAS DE TIPO C -

Las pmebas de tipo c- también incorporan la supresión mecánica, pero en esta oca sión se mutila cada segunda palabra de un texto. Esta mutilación consiste en supri mir la mitad de la palabra para dar al candidato pistas sobre la palabra original. Las pruebas de tipo c- tienen los mismos inconvenientes que las de rellenar huecos o las de tipo doze, aunque el hecho incluir las primeras letras de la pala bra que se debe completar reduce el número de posibles respuestas de cada hueco. Sin embargo, incluso cuando se da la primera mitad de una palabra, puede haber dificultades para dar con la respuesta acertada. Cada hueco en la prueba siguiente debe rellenarse con la segunda parte de una palabra. Si la pala bra completa tiene un número de letras par, faltarán exactamente la mitad de las letras: en

e...; ante

an...; come

co...


hacia = ha...; oír = o...; comer = co...

Have you heard abo ut a camera that can peer into the ground and “ see” a buried city? Or another th can he scientists esti when a vol will er ? Sthl ano that c show h deeply a bu has go into fl ? ....

......

......

.......

........

.......

........

.......

.......

.......

.......

El primer problema con el que nos encontramos aquí es que las instrucciones son dem asiado co mp lejas. La tarea puede p arecer men os difícil si las instrucciones simplemente informan al candidato de que se facilita el número de letras que faltan en cada hueco. Los primeros huecos del ejemplo anterior se presentarían de la siguiente forma: Or another th

___

can h e

____

scientists esti

_______

when

El segun do problem a es qu e la frase final no da suficientes pistas a los hablantes cultos de la lengua para com pletar palabras com o bu y fl Esto sólo se puede descubrir cuando se somete la prueba a ensayos previos. .....

.......

DICTADO

Un dictado sólo será equitativo para los estudiantes si se presenta a todos de la m ism a forma, y esto generalmen te significa el tenerlo que grabar en una cinta para que n o sólo se presente de la m ism a forma a todo s los candidatos, sino para que la velocidad de lectura y la colocación de las pausas puedan probarse con anterioridad. Si no se va a poder utilizar una grabación, las personas que lean el dictado deberán estar mu y bien preparadas. Los dictados pueden corregirse de forma objetiva si se exige a los candidatos que escriban el texto tal cual se ha dictado, y si el corrector tiene un sistema para decidir cómo debe puntuarse. Sin embargo, tales sistemas son difíciles de diseñar. Por ejemplo, si las instrucciones para la corrección dicen «reste un punto por cada falta de ortografía y dos puntos por cada palabra que falte o que no se corresponda con el original», no está siempre claro si una palabra contiene una falta de ortografía o si simplemente no es la palabra que corresponde. El mismo problema se produce si se instruye al corrector para que ignore las faltas de ortografía. El otro problema de este método de corrección del dictado es que es lento y pesado. Esto significa no sólo que va a resultar caro sino también que los correctores cometerán errores. Algunos redactores evitan este problema escogiendo dictados sólo parciales, en los que lo s candidatos deben completar un texto dado en el que faltan palabras, expresiones o frases completas. Los candidatos deben completar el texto mientras el examinador lo lee completo en voz alta. Algunas pruebas de dictado no piden a los alumnos que copien las palabras al pie de la letra, sino que sólo anoten los puntos principales, com o en una tarea de tomar notas. Por ejemplo, puede leerse el programa de un curso y pedir a los alumnos que tomen nota de la información que van a necesitar si siguen el curso. Tal tipo de dictado incluye una tarea de comprensión oral más auténtica que los dictados tradicionales, pero p rovoca problem as de corrección como los que se discutirán en el siguiente apartado.

L a r e d a c c i ó n d e í t e m s y l a f u n c i ó n m o d e r a d o r a

PREGUNTAS DE RESPUESTA BREVE

Por «preguntas de respuesta breve» queremos referimos a ítems abiertos en los que los candidatos tienen que pensar y producir su propia respuesta. Las respuestas pueden oscilar entre una palabra o frase y una o dos oraciones completas. El aspecto más importante que hay que tener en cuenta cuando se redactan preguntas de respuesta breve es que los candidatos deben saber qué se espera de ellos. Así, en el ejemplo siguiente no está claro lo que se requiere:

Reescribe la frase siguiente, empezando con las palabras dadas. La nueva frase debe ser lo m ás s im ilar posible a la original. Juan fue quien me salvó la vida. Si n o _________________________________________________ . Para un redactor de ítems acostumbrado a enseñar transformaciones, no hay duda de que éste es un ítem muy claro, pero cuando se ensayó, la mayoría de los estudiantes no tenían ni idea de lo que se suponía que debían escribir. La tarea hub iera estado m ás clara con la siguiente redacción: Juan fue quien me salvó la vida. Si n o ___________________________________________ _ me habría ahogado. Algunas veces, po r otra parte, los estudiantes creen saber lo que se supone que deben hacer, pero no lo saben. Por ejemp lo, el ítem siguiente estaba redactado para evaluar la capacidad de los estudiantes para utilizar el pretérito perfecto:

Escribe dos frases que contengan «desde». Entre las respuestas q ue dieron los e studiantes se encontraban: Desde entonce s nunca le volvió a ver. Desde París salim os hacia H olanda. Las respuestas eran lógicas, pero no contenían el pretérito perfecto. Si un redactor quiere que el estudiante utilice el pretérito perfecto, esto debe estar muy claro en las instrucciones. Por ejemplo:

Completa la frase siguiente, utilizando la forma correcta del verbo «ser»: Y o _________________ aquí desde ayer. Esto podría evaluarse de otra forma con un formato de respuesta múltiple:

Completa la frase siguiente: Y o __________________aquí desde ayer. A. estaba B. estuve C. estaré D. he estado


La comprensión oral y la de lectura pueden evaluarse utilizando preguntas de respuesta breve. Las respuestas son muy reveladoras, puesto que a menudo muestran malentendidos textuales que jamás se le hubieran ocurrido al redactor. Sin embargo, la corrección de tales ítems es a menudo muy difícil puesto que suele haber muchas formas de decir lo mismo y muchas respuestas alternativas aceptables, algunas de las cuales puede no haber previsto el redactor. Una vez más debemos insistir en que se ensayen los ítems.

3.5.4. Pruebas de corrección subjetiva REDACCIONES Y TRABAJOS A prim era vista, escribir los enu nciados para las redacciones parece m uy fácil, mucho más fácil, por ejemplo, que escribir preguntas de respuesta múltiple. Todo lo que se debe hacer, al parecer, es dar un tema y dejar al alumno que redacte una respuesta. Es muy corriente el siguiente tipo de enunciado:

«V iajar da amp litud de ideas» 0 . Sm ith). Coméntelo. Esta tarea tiene varios inconven ientes. El primero es la terminología. Los candidatos pueden no estar familiarizados con las convenciones existentes tras el uso técnico de la palabra «com én telo » y no sabrán lo que se espera de ellos. Los redactores deben asegurarse de que todos los candidatos comprenden términos como «comente», o «ejemplifique». Las instrucciones no contienen información necesaria para que los candidatos puedan dar lo mejor de sí mismos. Los candidatos necesitan saber la longitud que debería tener el texto y también si se deducirán puntos si el texto es demasiado corto. Tienen que saber a quién va dirigido su escrito, para decidir si deben redactarlo en el estilo coloquial que usarían en una carta, o en estilo académico parecido al utilizado en un trabajo escolar. En el ejemplo citado más arriba, los candidatos sabrán que el trabajo debe redactarse utilizando un estilo formal si están familiarizados con el término «co m énte lo». Sin embargo, algunos enunciados pueden ser meno s claros. Los estudiantes tienen que saber cóm o va a puntuarse su trabajo. ¿Qué se pun tuará, la corrección o la fluidez? ¿Se darán puntos por la organización del trabajo, por la habilidad de presentar un buen razonamiento, o solamente por el uso de la gramática y del vocabulario? Los candidatos tienen que saber todo esto para decidir si usarán estructuras fáciles que dominan, para que no les penalicen por los errores, o si correrán riesgos porqu e se dan puntos po r el uso de un lenguaje complejo y creativo. (La corrección de tareas escritas de este tipo se discute en el capítulo 5.) Los cand idatos tendrían más claro cóm o abordar la respuesta si el enunciado se presentara de la siguiente forma:

Escribe un a redacción p ara tu profesor en estilo form al ex plicando si estás de acuerdo con la frase

r

i

L a r e d a c c i ó n d e í t e m s y l a f u n c i ó n m o d e r a d o r a

La Se 1. 2. 3. 4. 5.

extensión deberá ser de entre 200 y 250 palabras. puntuarán: La organización del trabajo, com o por ejemplo el uso de párrafos (20% ). La adecuación del estilo (20 % ). La claridad de la expo sición (20% ). El uso variado de la gramática y del vocabulario (20% ). La corrección de la gramática y del vocabu lario (20% ).

Un problema adicional de muchas tareas de escritura es que esperan que el estudiante tenga conocimientos generales amplios. Por ejemplo:

Describe el sistem a legislativo de tu p aís. Si los estudiantes no están bien informados sobre el sistema legislativo de su país, y much os no lo estarán, no serán capaces de decir lo suficiente com o para demostrar su nivel de com petencia lingüística. Algunas tareas requieren la utilización de una cierta creatividad por parte de los estudiantes, de la que pueden carecer. Por ejemplo:

Estás perdido en una tormenta. Describe cómo intentas encontrar el camino a casa. Otras tareas esperan que los estudiantes escriban algo interesante sobre un tema que puede ser irrelevante o aburrido. Por ejemplo:

Co me nta las ventajas y los inconvenientes de vivir en el dom icilio paterno durante tus estudios un iversitarios. Para evitar algunos de estos problemas es mejor dar a los estudiantes algo de información antes de que empiecen a escribir para que no tengan que ser creativos. Puede dárseles un texto corto y fácil de leer que ilustre la situación, para que el estudiante no pierda un tiempo precioso leyendo en vez de escribiendo y para no pena lizar a estudiantes que sean lectores mediocres. Algunas de estas ayudas reducen el tiempo de lectura requerido presentando un gráfico o una imagen o serie de imágenes. En este caso es esencial que el gráfico sea fácil de entender y que las imágenes estén claras. Muchas tareas, naturalmente, no son tan formales como las redacciones. Cuando se pide a un estudiante que escriba una carta informal o una nota, es importante que la tarea sea lo más natural posible. No es pues aconsejable pedir a los estudiantes que escriban cartas o notas a amigos o parientes, puesto que habitualmente escribirían a tales personas en su lengua m aterna. Puede ser necesario inventar un escenario que obligue al candidato a escribir en la lengua extranjera. Por ejemplo, puede pedírsele que escriba a un amigo extranjero, o que deje una nota para su patrona.

RESÚMENES Los resúme nes se usan a men udo para evaluar la com prensión oral y de lectura

"

Problemas con tipos de ítems concretos de forma integrada la comprensión y la expresión escritas. Escribir resúmenes en realidad emula muchas actividades de la vida real, pero presenta dos proble mas en concreto. Si el candidato escribe un resumen mediocre en el que no estén presentes alguno s punto s principales del texto original, p uede resultar impo sible saber si esto se debe a una com prensión deficiente o a unas destrezas de escritura me dio cres. Esto no tiene importancia si sólo se puntúa, p or ejemplo, el hecho de hacer un resumen de un informe y si está claro que la puntuación corresponde a la combinación de destrezas lectoras y de escritura, pero no es razonable dar al candidato dos puntuaciones, una para la lectura y otra para la escritura. Puntuar un resum en no es fácil. Algunos examinadores puntúan sólo p or cada argumento que el estudiante haya incluido, sin tener en cuenta la gramática ni el estilo. Esto parece muy sencillo pero no lo es. Identificar los argumentos prin cipales de un texto es de por sí tan subjetivo que los examinadores pueden no ponerse de acuerdo. El problema aumenta si la corrección incluye criterios como: argumentos principales, dos puntos; argumentos secundarios, un punto. Si los criterios de evaluación quieren tener en cuenta también la corrección, la fluidez y la adecuación, la corrección se com plica mucho. Algunos examinadores resuelven este problema presentando el texto origi nal junto a un resumen del mismo en el que faltan palabras y expresiones clave. Los candidatos deben completar las palabras que faltan en el resumen. Una tarea de resumen de este tipo bien diseñada es una forma muy eficaz de evaluar la comprensión de lectura, pero al haber a menudo más de una posible respuesta alternativa para cada hueco , la corrección p ued e ser difícil, especialmente si la prue ba es a gran escala. Para evitar esto, algunos redactores piden a los can di datos que usen sólo la palabra exacta del texto original. Esto debería ser sufi ciente, pero por desgracia siempre hay algunos estudiantes que no siguen esta instrucción y escriben respuestas apropiadas, aunque no exactas, en los hue cos. Si estos estudiantes obtienen puntuaciones bajas aunque su comprensión del texto haya sido buena, entonces no podremos decir que la prueba evalúa la comprensión de lectura. Una bu ena m anera de evitar este problem a es dar un listado de posibles pala bras y expresiones, como en el banked gap filling descrito más arriba. Tales pruebás son difíciles de redactar y tienen que haberse ensayado mu chas veces, pero pueden funcionar bien y son más fáciles de corregir. ENTREVISTAS ORALES A menudo

se cree que entrevistar a alguien es una forma rápida y fácil de eva luar la competencia lingüística de esa persona. Mucha gente cree, por ejem plo, que si se tiene una breve charla con un recién llegado a la escuela, se podrá evaluar el nivel de competencia de ese estudiante rápidamente. Sin embargo, esto no es así. La conversación puede versar sobre temas superfi ciales que sólo requieren un vocabulario limitado y no el uso de estructuras

L a r e d a c c ió n d e í t e m s y l a f u n c ió n m o d e r a d o ra

detalle, pero debería quedar claro que la entrevista debe estar estructurada cuidadosamente para que los aspectos de la prueba considerados importantes se cubran con cada estudiante, y cada estudiante sea evaluado de forma similar. No es justo para los alumnos que algunos sólo deban hacer comentarios apropiados pero simples, mientras que a otros en igualdad de condiciones se les obligue a utilizar un lenguaje complejo que puede poner en evidencia sus debilidades. Los entrevistadores deben saber cómo lograr que los candidatos se sientan a gusto para conseguir una conversación auténtica sin interferir o hablar dem asiado , deben demo strar interés en cada entrevista y también deben saber qué preguntar para conseguir que la entrevista cubra los contenidos lingüísticos deseados. El capítulo 5 trata brevemente la formación de los entrevistadores orales.

ACTIVIDADES DE VACÍO DE INFORMACIÓN Algunas veces se dan a completar tareas de vacío de información a uno, dos o más estudiantes. Por ejemplo, dos estudiantes reciben fotografías ligeramente distintas y, sin ver la del otro, se les pide que encuentren las diferencias existentes. O un estudiante puede tener que hacer preguntas a su entrevistador para resolver algún problem a. Tales tareas puede n ser entretenidas para los candidatos pero son difíciles de construir y tienden a provocar el uso de un lenguaje limitado. Por ejem plo, el candidato pu ede salir airosamente de la situación utilizando preguntas co m o «¿Y ...?» Además, este tipo de tareas puede perjudicar a un sector del alumnado. Por ejemplo, muchas de las tareas de vacío de informac ión requieren la utilización de planos y, co mo hem os dicho antes, hay candidatos que tienen dificultades para utilizar planos. Todas las tareas de vacío de información deben ensayarse de forma rigurosa. 3.6. Comités de redacción

Tal como hemos señalado repetidamente, nadie puede elaborar una buena prueba, n i tan sólo u n buen ítem, sin recibir consejo. Por el hecho de estar muy vinculado al ítem, puesto que es quien lo ha escrito, el redactor «sabe» lo que el ítem pretende evaluar, y le resultará difícil darse cuenta de que en realidad puede estar evaluando otra cosa bastante distinta, u otra cosa además de la prevista. Saber cuál es la respuesta «co rrec ta» significa que la idea que tiene el redactor sobre la reacción de los candidatos ante el ítem es distinta a la de otra persona que n o sepa cuál es la respuesta correcta. Resulta, por tanto, absolutamente crucial en el proceso de redacción del examen, sea cual sea su objetivo y su nivel, y aunque las consecuencias de no superarlo sean triviales, que una o más personas, además del redactor, analicen cada ítem con detalle, respondan al mismo de la misma forma en que lo haría un estudiante, reflexionen sobre las habilidades que se requieren para responder de forma correcta al ítem o a la tarea, y después comparen sus res-

Comités de redacción

tener lugar en un estadio inicial del proceso de redacción y no debería implicar a un com ité o resultar demasiado formal. Los mejore s ítems se han som etido a unas cuantas de estas revisiones informales antes de alcanzar el formato de borrador final. Cuando se han revisado los ítems y está listo el borrado r final, deberían agru parse para formar la prueba en sí y someterse a la aprobación del «comité de redacción». Este comité debería estar formado por redactores expertos (y normalmente n o los que han redactado los ítems que se van a analizar), profesores con exp eriencia en la docencia de alum nos del nivel al que se dirige el examen o en la preparación de alumnos para este examen, y posiblemente otros expertos en evaluación, o incluso expe rtos en la docencia de la materia, si se está preparando algún tipo de prueba para fines específicos. La tarea de este comité es considerar cada ítem y la prueba como un todo a la hora de cotejarlo con las especificaciones de la prueba, el posible nivel de dificultad, posibles problemas no previstos, ambigüedades en la redacción de ítems y de instrucciones, problemas de presentación, de correspondencia entre textos y preguntas, y equilibrio general de la prueba. Es especialmente importante que los miembros de este «comité de redacción » n o solamente lean la prueba y sus ítems correspondientes: deben responder a cada ítem como si fueran estudiantes. Esto significa que, por ejemplo, para ítems que evalúen las destrezas de expresión escrita deben intentar responder por escrito, y en ítems de comprensión oral deben escuchar la cinta e intentar responder a las preguntas. Para las pruebas de comprensión oral en particular es importante que los miembros del comité no sólo lean la transcripción como si se tratara de una prueba de comprensión escrita; su respuesta a la prueba debe imitar la experiencia de los candidatos de la manera más parecida posible, y por tanto deben hacerlo escuchando la cinta si así lo requiere la prueba. Esto, naturalmente, significa que los miembros del comité deberán haber dedicado tiempo suficiente a hacer la prueba antes de que el comité se reúna, algo a men udo olvidado en instituciones q ue tienen en sus comités de redacción a personas atareadas que no puede n o n o les apetece pasar el tiempo n ecesario p ara respo nde r a la prueba con detalle. La organización del «c om ité de red acción» tiene mucha importancia. D ebería dedicarse tiemp o suficiente para discutir cada ítem de forma adecuada. Según nuestra experiencia, d emasiad os comités dedican una cantidad de tiempo excesiva a los primeros dos o tres ítems, no disponen de mucho tiempo para los ítems restantes, y analizan rápidamen te los do s últimos tercios de la prueba para cumplir con el orden del día. Además, según nuestra experiencia, los comités son más eficaces antes de una com ida que después, y mu chos m iemb ros del comité tienen que abandonar pronto la reunión para coger trenes de regreso a casa o para ir a otras reuniones. Un comité de redacción eficaz tendrá un presidente firme que se asegu-

L a r e d a c c i ó n

de ítems

y l a

f u n c i ón m o d e r a d o ra

del tiempo necesario a cada ítem, que se escuche y tenga en consideración la opinión de cada uno de los miembros del comité, y que se tomen decisiones claras de las que tomará nota el secretario o representante de la institución. Además, es muy importante que haya una persona responsable de que las recomendaciones del comité no sean sólo anotadas sino también llevadas a cabo en la prueba revisada, que de alguna manera se someterá a algún tipo de revisión final antes de ensayar el examen (véase capítulo 4). Aunque estas precauciones pueden parecer excesivamente burocráticas, nuestra experiencia nos demuestra que, cuando no se toman, el examen resultante tiene a menudo tantos defectos como tenía antes de que interviniera el «comité de redacción».

3.7. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera (EFL): cuestionario Un tribunal respondió «no procede: evaluación oral» a todas excepto dos de las preguntas relacionadas con la redacción de ítems. Para evitar repeticiones, no hemos incluido las respuestas de este tribunal en el presente capítulo. Debería, de todas formas, señalarse que la evaluación oral requiere especial consideración (véase página 62) puesto que la naturaleza de la tarea y los criterios de puntuación son com ponen tes importantes de la elaboración de pruebas.

P R E G U N T A 9 : ¿ D a n a los redactores información complementaria o directrices? («Complementaria» se refiere, además de a las especificaciones y a l a s m uestras de exámenes, a las que nos hemos referido anteriormente en el cue stionario.) La mayoría de los tribunales respondieron que daban a los redactores información complementaria, pero dieron pocos detalles. Un tribunal dijo que existían reuniones de redacción alrededor de una mesa, presididas por el exam inador jefe, y que los ítems se redactaban de acuerdo con unas directrices y eran seleccionados en la reunión. Otro dijo que los examinadores jefes facilitab an a lo s re dac to re s el de talle del pro cedim ie nto a se guir , y uno respondió que las directrices eran «en su mayor parte verbales durante la reunión y en el acta correspondiente». Dos de las respuestas recibidas de UCLES decían que cada redactor recibía «directrices», y el responsable del Certificado de Inglés para Negocios Internacionales y Comercio (Certifícate in English for International Business and Trade, CEIBT) dijo: «Asisten a sesiones de unificación de criterios antes de convertirse en redactores. Trabajan en grupos de tres —un re dactor para cada prueba —con la g uía de u n redac tor m ás e xp erimentado. Tienen dos reuniones como equipo para buscar material y planificar tareas.» Sólo un tribunal dio información extensa, que incluía una copia de la carta


P RE G U N TA 11 : ¿Q ué criterios utilizan a la hora de nom brar redactores de ítems o de pruebas? Los tribunales pedían requisitos distintos. Cinco dijeron que los redactores debían estar en posesión de la titulación correspondiente, uno especificaba titulación universitaria, y uno titulación en inglés com o leng ua extranjera o com o segunda lengua (EFL/ESL). Seis pedían experiencia en la docencia, en la administración de exámen es o en la materia que se iba a evaluar, m ientras que cuatro esperaban que los redactores fueran profesores en activo acostumbrados a preparar a sus alumnos para el examen en cuestión. Uno pedía una fuerte vinculación a un enfoque comunicativo en la docencia y en la evaluación y otro dijo que la aceptación de un redactor dependería de su comportamiento en una reunión de redacción. PR EG U N TA 1 2: ¿Para cuánto tiempo se nombran los redactores? Hub o variedad de respuestas, de cuatro tribunales que nombrab an a sus redactores anualmente, a uno que no nombraba redactores por un período determinado y dijo que los redactores actuales habían «elaborado materiales para exámenes durante los últimos quince años, y esta experiencia asegura la continuidad y estabilidad». Dos tribunales no nombraban a los redactores por un número de años dado sino para un número de pruebas en concreto. PREGUNTA 13: ¿Con cuánta antelación respecto a la fecha de examen se pide a los redactores que empiecen a redactar sus ítems? Cinco tribunales pedían a sus redactores que escribieran sus ítems unos dos años antes de la administración de la prueba, y tres un año antes. Entre el resto de respuestas, un tribunal dijo que la redacción de ítems era una «actividad siempre en curso» ; otro dijo: «N o hay necesariamente una relación directa entre el encargo y el exam en» ; y otro dijo: «Lo s redactores presentan materiales sobre la marcha, formando un banco de ítems potenciales. Se les paga por ítems utilizados. No hay plazo s ni presión sobre los red actores» . Las respuestas de UCLES variaban entre «tres años» y «de doce a dieciocho meses». PREGUNTA 14: ¿ Cuánto tiempo se da a los redactores para que redacten sus ítems? Ocho tribunales dieron el plazo concreto: oscilaban entre seis semanas y doce meses. Dos tribunales tenían un enfoque flexible; uno de ellos decía: «Depende del ítem y del redactor», y el otro decía: «M uy flexible, de comú n acuer do». El tiempo de UCLES oscilaba entre seis semanas y seis meses. P R EG U N TA 1 5 : Cuand o se ha presentado el primer borrador de un redactor, ¿qué sucede? Casi todos los tribunales mandaban los borradores para que los analizara un examinador jefe o un supervisor, y después tenía lugar la sesión del comité de redacción. La única excepción fue un tribunal que archivaba ítems para incorporarlos a posteriores borradores de examen y los guardaba hasta el mom ento de revisarlos. El proceso de selección concreto varía de tribunal a otro; un ejemplo es el

r

redacción de ítems y la función moderadora

L a

El primer borrador de la prueba lo redacta [el responsable del examen], quien tiene que garantizar que la prueba sea justa, tenga el nivel adecuado, y esté de acuerdo con la filosofía de la descripción de la prueba. Los ítems pueden haber sido ya probados [por el responsable del examen] con candidatos seguros para comprobar los niveles de los contenidos lingüísticos y la dificultad de la tarea. Se mandan copias del primer borrador: a) a los responsables del tribunal de exámenes y b) al examinador jefe de este nivel; a dos responsables expertos en corrección de una lista de doce. Estas personas estudian el borrador, lo someten a ensayos previos, si es posible, con candidatos seguros, hacen sugerencias de cambios si ello es necesario y envían un informe completo [al responsable del examen],

PR EG U N TA 1 6 : ¿Se reúne algún comité en algún mom ento del proceso para discutir cada prueba? Todos los tribunales excepto dos respondieron afirmativamente. Uno de los dos tribunales que no tenía un comité fijo tenía «comités ad hoc para discutir aspectos concretos de los exámenes, cambios en el proceso, modificaciones de los criterios de puntuación, etc. El proceso de unificación se hace por correo». En caso afirmativo, ¿cómo se llama este comité? El título más com ún era el de «Com ité/Co nsejo de unificación/un ificador». Otros títulos eran «Comité de selección», «Comisión asesora permanente», «Comité de revisión de EFL», «Comité de edición», «Equipo de redacción de pruebas» y «Subcomité preparatorio».

PREGUNTA 17: ¿Qué requisitos deben reunir los miembros de este comité? La composición de este comité variaba. En dos casos estaba constituida por examinadores y supervisores y en un tercer caso también incluía redactores, correctores y profesores en activo. Un comité también incluía directivos del tribunal y otro incluía industriales que habían «h echo una contribución excepcional al trabajo del tribun al» Los com ités de UCLES los co nstituían, en g eneral, el exam inado r jefe, el responsable del examen, los redactores de ítems y otros expertos en EFL. Los comités de otros tribunales estaban formados por profesores con experiencia especializados en la materia, por pro fesores que estaban preparando a candidatos para los exámenes, y por supervisores o autores de materiales. PR EG U N TA 1 8 : ¿Cu ánto tarda un com ité en discutir y preparar un examen completo? Aquí las respuestas eran de nuevo diversas. Un tribunal dijo que era im po sible responder a esta pregunta, y otro dijo «tanto co mo sea necesario». Dos dijeron que el tiempo variaba de un día a una semana o varias semanas. Algunos eran un poco más específicos. Uno dijo: «Al menos un día de reunión académica y contactos previos y posteriores por correo o teléfono», y uno dijo: «El proceso de selección dura un mínimo de tres semanas, a menudo cuatro o o». Tres fueron aún más específicos: «ap dame horas para cada


parte», «cuatro partes en un día de trabajo», y «a menudo 3 días para 15 com ponentes». Un tribunal dio más detalles del proceso: «Los miembros hacen comen tarios sob re las pruebas p or escrito antes de la reunión; esto dura po r lo menos un día. Los examinadores jefes responden a sus comentarios. La reunión del subcomité preparatorio dura un día completo».

PR EG U N TA 1 9 : ¿Q ué pasos se dan, si se dan, para com probar que el borrador presentado coincide con la descripción de contenidos de la prueba (si existe)? La mitad de los tribunales piden a sus redactores que sigan la descripción de contenidos y confían en que así sea. La otra mitad da instrucciones inicia les pero también hace comprobaciones, que son responsabilidad de: a) tres miembros del comité de selección, b) los supervisores, c) el examinador jefe y varios directores o moderadores, y d) un «revisor» que hace comentarios sobre las pruebas y su correlación con la descripción de contenidos. UCLES parece seguir lo que hacen los otros tribunales y en algunos exámenes da a los redactores la descripción de contenidos esperando que la sigan, y en otras se com prueb a si los exámenes coinciden con la descripción po r parte del res ponsable de la prueba o por parte del «presidente, responsable de EFL, seleccionador...»

PR EG U N TA 2 0 : ¿Qu é pasa habitualm ente con el borrador después de las deliberaciones del comité? La forma más clara de resumir las respuestas a esta pregunta es la de listar los ejemplos de los distintos procedimientos: 1.

Se da el manuscrito a imprenta, se encargan los gráficos, dibujos o fotos, se graban las cintas; las pruebas se hacen llegar al examinador jefe y al supervisor, se corrigen por el corrector de pruebas; se pasa la prueba final a imprenta con una orden de impresión.

2.

Los ítems seleccionados que deben modificarse. Preparación y corrección de la prueba u na vez aprobada . Se devuelve al examina dor jefe para la revisión y aprobación final con el fin de garantizar que el examen se ha preparado de acuerdo con la copia revisada y aprobada.

3.

Una vez comp letada la versión pactada de la prueba se pasa al ordena dor y se entrega para impresión. Todos los miembros del comité de revisión ven la primera prueba y tienen la oportunidad de hacer cam bios de todo tipo.

4.

[El respon sable de la prueba ] revisa el borrador a la luz de los informes de cinco examinadores expertos y lo prepara para la versión final. Durante la grabación, los actores hacen comentarios sobre la claridad y naturalidad del len guaje utilizado. El texto final y la copia de la cinta se mandan al director, quien organiza la impresión de los textos y el copiaje de las cintas a partir de la grabación original.

5.

El presiden

del

el

nsable de la

ba confeccionan

La redacción de ítems y la

función moderadora

3.8. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera (EFL): documentación Los únicos documentos que daban más información sobre las respuestas dadas al cuestionario hacían referencia a la redacción de ítems. City and Guilds nos mandó dos de sus publicaciones, Setting Múltiple Choice Tests (1984), y Setting and Moderating Wntten Question Papers —Other than Múltiple Choice- sin fech a). El prim ero da ideas útiles para redactar preguntas de respuesta múltiple, cita una amplia gam a de ejemplos y acon seja a los redactores sobre algunas de las posibles trampas. El segundo aconseja sobre las instrucciones y la presentación de preguntas que no son de respuesta múltiple, y acompaña recomendaciones sobre có mo elaborar buenos ítems con ejemplos de malas preguntas y de preguntas mejoradas. Pitman nos mandó copias de sus «directrices» para cada nivel de los exáme nes de English for Speakers of Other Languages (ESOL). Se trata de directrices para redac tores, que no sólo describen el tipo y nivel de lengua que se va a evaluar, sino que también dan instrucciones sobre tipos de texto y consejos sobre cómo redac tar buen os ítems.

3.9. Debate Como puede verse en las respuestas anteriores, la mayoría de los tribunales de exámenes tratan el proceso de redacción de ítems de forma muy seria. Dan a los redactores tiempo de sobra para producir futuros exámenes, y llevan a cabo con troles a fondo de los borradores. Un área que no siempre recibe la atención suficiente es la correspondiente a la cobertura de la descripción de la prueba. Aunque casi todos los tribunales dicen a los redactores que sus pruebas deben cubrir la descripción de conteni dos, sólo la mitad com prueban que así sea. Puesto que algunas áreas de una d es cripción de contenidos son siempre más fáciles de evaluar que otras, los redactores se encuentran a veces con dificultades para evaluar los aspectos más difíciles y, po r este motivo, la prueba puede no estar equilibrada. Creemos, pues, que es esencial comprobar los borradores de examen para ver si la descripción de los contenidos se ha cubierto de forma adecuada.

3.10. Sumario 1. 2.

3.

Para com pre nd er exactame nte qué hace un ítem, es esencial intentar responderlo como lo haría un candidato. Un vistazo no es suficiente. Respond er a un ítem prop io es importante pero inadecuado. El autor «sabe» lo que cree que el ítem requiere. Es por tanto importante que otras personas expertas y con dominio de la lengua respondan en las mismas condiciones en que lo haría un candidato. Nadie escribe buen os ítems solo. Incluso autores profesionales nece si tan la opinión de otras personas. Es necesario pedir a otras personas que

Sumario

4.

5.

6.

7.

8.

9. 10. 11.

12.

13.

14. 15.

No se po ng a a la defensiva: esté preparado para cambiar e incluso para desestimar los ítems si los demás los encuentran problemáticos. Todos podemos escribir malos ítems. Debe preguntarse a los que han contestado a los ítems por qué han dado la respuesta que han d ado y no otra; y si es posible, có mo reaccionaron ante el ítem. De nuevo , si es posible, de be intentar conseg uir que los que han con testado al examen, digan o escriban lo que ellos creen que el ítem evalúa, independientemente de lo que uno crea que evalúa. En otras palabras, ¡no les dig a lo que usted cree que evalúa para luego pedirles que estén de acuerdo! A demás, pregú nteles cuál creen que es el principal objetivo del ítem y para qué nivel de alumnado es adecuado. Todas las pruebas deberían ser supervisadas o discutidas por personas qu e no las hayan escrito. El com ité de redacción debería tener a su disposición las respuestas de las personas con las que se ha ensayado el examen en algún momento de sus deliberaciones. Lo ítems que han provocado respuestas inesperadas deben revisarse. Si la evaluación es de una población definida, pedid a los que respo nden a la prueba o a los supervisores que hagan una estimación aproximada de qué proporción de candidatos responderá al ítem correctamente. Com parad lo que el redactor dice que el ítem evalúa con lo que dice la mayoría de los que responden al ítem, y resolved discrepancias. Co mp arad lo acordad o en el punto 9 con las especificaciones o el pr ograma. Analizad el program a o las especificaciones y preguntaos si hay algo significativo que no esté incluido en la prueba. Si éste es el caso, ¿está justificado? Preguntaos si a los estudia ntes les resultará familiar el métod o de evaluación. Si no, cam biad el método o aseguraos de que las instrucciones estén claras. Preguntaos si otro método podría ser más adecuado para vuestro objetivo, o más claro, o más fácil para los candidatos. Preguntaos lo que el ítem o colección de ítems os dirá sobre las habilidades de los estudiantes. Si los resultados de la prueba o del ítem no coinciden con vuestra opinión de los estudiantes, ¿cuál os creeréis, los resultados de la prue ba o vuestra valoración? ¿Qué posib ilidade s hay de que los estudiantes saquen el mism o resultado si hicieran la prueba otra vez al día siguiente? Ensayad el exam en con alumn os que sean lo más parecidos posible a los alumnos a quien va d irigida la prueba. Analizad sus respuestas y preguntaos: a) ¿Hay algunas respuestas imprev istas? En caso de respuesta afirmativa, ¿las hay que, inesperadamente, sean correctas? Si éste es el caso,

1


16.

17.

18. 19.

20. 21. 22. 23.

24. 25.

b) ¿Cuántos estudiantes encontraron un ítem fácil? ¿Es dem asiado fácil o demasiado difícil? c) ¿Cuántos alumn os respondieron correctamente al ítem, los alumn os destacados o los alumnos flojos? En teoría, los alumnos destacados deberían obtener m ejores resultados para cada ítem, pero en la prác tica puede ser que el ítem contenga una trampa o algún punto oscuro, dos respuestas correctas, o algún otro problema. Pedid a las person as o a los estudiantes que hagan la prueba que res pondan a los ítems de comprensión oral y de lectura sin el texto corres pondiente (oral o escrito). ¿Pueden responder al ítem correctamente? Si es así, éste no está evaluando la comprensión del texto. En cuanto a los ítems de comp rensió n oral, aseg uraos de que las pe r sonas que responden escuchen el texto (y no lean la transcripción) cuando respondan el ítem. Leer es más fácil que escuchar —puede hacerse con tiempo, haciendo pausas, releyendo, etc. ¿Es más fácil la lengua utilizada en el ítem que la lengua del texto? Si no es así se estará evaluando también la comprensión de los ítems. En las pregun tas de respuesta múltiple, ¿hay opcion es que sean posibles en otra variedad estándar del idioma, según una interpretación distinta del contexto, con un acento o entonación distintos? ¿Es obvia la res puesta correcta a causa de su longitud o del grado de detalle? ¿Se han previsto todas las respuestas po sible s/pla usib les en la clave de respuestas? ¿El ítem está en un con texto? ¿Es éste suficiente para excluir otras inter pretaciones alternativas o p osibles ambigü edades? ¿Es posible qu e el ítem favorezca o perjudique a algunos estudiantes por razones de sexo, cultura, conocimientos generales o intereses? ¿Cuán auténtico es el ítem? ¿Se parece a lo que los estudiantes deberán hacer con el idio m a en la vida real? Por ejemplo, en las tareas de expre sión escrita, ¿hay un m otivo para escribir y alguien a quien escribir? ¿Sería preferible presentar las instruccion es, o incluso los ítems, en la lengua materna? ¿Cóm o se juzgará la actuación del candidato? ¿Están especificados los criterios de evaluación o las respuestas correctas o previstas? ¿Pueden especificarse, o se debe esperar hasta tener un cierto núm ero de res puestas o de realizaciones para pode r acabar los criterios de evaluación?

Bibliografía Alderson, J. C. (1978). A Study of the Cloze Procedure with Native and Non-Native Speakers of English. Tesis doctoral inédita, Universidad de Edimburgo. Alderson, J. C. (1 97 9) . «The Cloze Procedure and Proficiency in English as a Foreign Lan guage.» TESOL Quarterly, 13 (2), págs. 2 19—227. Reim preso en J. W. Oller

Bibliografía

Alderson, J. C. y D. Wall (1993). «D oes Washback Exist?» Applied Linguistics, 14, págs. 115-129. Alian, A. (1 99 2) . «Development and Validation of a Scale to Measure Test-Wiseness in EFL/ESL Reading Test Takers.» Language Testing, 9, pig s. 10 1- 123 . Buck, G. (1989). «Written Tests o f Pronunciation: Do They Work?» English Language Teaching Journal, 4 1, págs. 50—56. Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres. Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press, Cambridge. Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de Duisburg. Lado, R. (1 961). Language Testing. McGraw-Hill, Nueva York. Oiler, J. (1979). Language Tests at School. Longman, Londres. Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26, pigs. 665-689. Valette, R. M. (1977). Modem Language Testing. 21 edición, Harcourt Brace Jovanovich, Nueva York. Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1), pigs. 41-69. Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.

4

Ensayos previos y análisis

Este capítulo trata la cuestión de los ensayos previos y del análisis de los ítems. Discutiremos las razones para realizar ensayos previos, la naturaleza de los p ro  cesos implicados y las diferencias entre ensayos piloto y ensayos generales del examen como tal. Explicaremos la estadística básica necesaria para el análisis de ítems individuales y describiremos las formas más comunes de informar sobre los resultados generales de la prueba.

4.1. Razones para realizar ensayos previos Aunque un examen esté muy bien elaborado y se hayan seleccionado y corre gido todas sus partes cuidadosamente, no se puede saber cómo funcionará hasta que se haya ensayado con estudiantes. Aunque los redactores pueden pensar que saben lo que evalúa un ítem y cuál es la respuesta adecuada, no pueden prever las respuestas de los estudiantes de distintos niveles de competencia lingüística. Incluso profesores de idiomas y evaluadores expertos son a menudo incapaces de pone rse de acuerdo sob re lo que evalúa un ítem (véase Alderson, 1993 y Buck, 19 91) o lo difícil que pu ede resultar para un grupo de estudiantes dado. En un trabajo llevado a cabo por investigadores de la Universidad de Lancaster, se pidió a veintiún expertos en la materia que examinaran la dificultad que podían ofrecer a futuros exam inandos treinta preguntas de co mprensión de lec tura. El grupo de expertos lo constituían desde evaluadores muy experimenta dos que estaban familiarizados con la prueba y con el nivel de competencia de los candidatos hasta profesores que no conocían ni la prueba ni el nivel de los candidatos. Las estimaciones de los expertos variaron de forma exagerada. Por ejemplo, dos de ellos dijeron que el 90% de los estudiantes respondería correc tamente al ítem 2, mientras que otro opinó que sólo lo respondería correcta mente un 10%. El resto de estimaciones para el mismo ítem oscilaba entre el 80% y el 15%. Este no fue un ejemplo aislado. Siete ítems más provocaron dis crepancias entre las estimaciones, y en el caso de uno un experto estimó que el 95% de los estudiantes lo responderían bien mientras que otro estimó que sería sólo el 5%. Los dos ítems qu e provocaron el meno r desacuerdo entre los exper tos oscilaban en sus estimaciones entre el 100% y el 50%. Hay que destacar que los jueces más experimentados no acertaron más que los que no sabían nada acerca de la prueba o de los estudiantes.

Pruebas piloto

niñeados. Puede significar, por ejemplo, que un ítem que está previsto que evalúe una estructura en particular no lo haga en realidad, o pued e significar que el ítem consigue diferenciar a los alumnos de distintos niveles de forma que los alumnos con mayor competencia lingüística pueden responder mejor que los alumno s meno s competentes. Es sorprendente que a menudo los ítems, aunque se hayan redactado con cuidado, no distingan entre alumnos de esta forma. Es imposible prever si los ítems funcionarán sin haberlos probado. El funcionamiento de lo s ítems de respue sta múltiple puede resultar el más difícil de prever, puesto que la presencia de una variedad de respuestas correctas e incorrectas facilita el terreno a la ambigüedad y al desacuerdo, pero los ítems de respuesta abierta y las pruebas co rregidas de forma subjetiva también pueden producir sorpresas. Por ejemplo, una pregu nta de respuesta abierta puede resultar más con fusa para los candidatos destacados que para los candidatos más flojos, o una tarea de expresión escrita puede provocar el uso de sólo una pequeña gama de contenidos lingüísticos por parte de los candidatos. Aunque la combinación de redactores experimentados y un procedimiento de selección y de corrección estrictos de los ítems asegura qu e se descarten much os malos ítems en potencia, algunos pr oblemas no se identificarán en este estadio y sólo se descubrirán durante el período en que se realicen los ensayos previos. Es esencial, pues, que todos las pruebas se ensayen, tanto si se trata de ítems discretos de corrección objetiva como de ítems de respuesta abierta de corrección subjetiva.

4.2. Pruebas piloto En este libro, el término ensayos previos se refiere a todas las pruebas a las que se somete un examen antes de salir a la luz, de ser operativo o de «circular», como dicen algunos de los tribunales. La mayor parte de los ensayos previos tienen lugar durante la fase general de experimentación, pero estos ensayos deberían ir precedidos de otros menos formales a los que llamaremos pruebas piloto. Las pruebas piloto pueden variar de magnitud, desde ensayar una prueba con un pequeño grupo de profesores del mismo departamento a un ensayo con cien alumnos, pero en todos los casos el objetivo es limar los principales problemas antes de los ensayos más importantes. Un programa de prueba piloto podría consistir en los siguientes pasos: 1. Probar los ítems con unos cuantos am igos o con otros profesores, de los cuales dos, por lo menos, son hablantes nativos de la lengua que se va a evaluar para ver si las instrucciones están claras, el lenguaje utilizado en los ítems es aceptable y la clave de respuestas es precisa. Estos profesores deberían responder a todas las partes de la prueba, no sólo a las partes de corrección objetiva. Es sorprendente el número de fallos que se detectan en esta fase, especialmente si los redactores de la prueba no tienen la lengua que se va a evaluar como lengua materna. 2. Dar a hacer la versión revisada a un grupo de estudiantes similares en características y en nivel a aquellos qu e se examinarán. N o se necesitan de ma -


siados estudiantes, pero si hay al me nos veinte, mejor. Tales pruebas pu eden hacerse de forma relativamente rápida y barata, y dan una información inestimable sobre la facilidad de administración de la prueba, el tiempo que necesitarán los alumnos para completarla, la claridad de las preguntas, la exactitud y amplitud de la clave de respuestas, la facilidad de uso de los esquemas de puntuación, y otros. Los resultados revelarán muchos fallos imprevistos en la prueba y ahorrarán tiempo y esfuerzos cuando se lleven a cabo los ensayos generales.

4.3. Fase general de ensayo La magnitud de la fase general de experimentación o ensayo y de los tipos de análisis requeridos dependerá de factores tales como la importancia y el objetivo del examen y el grado de objetividad de la corrección. Las pruebas corregidas de forma más objetiva son aquellas, como las de respuesta múltiple, en las que la respuesta no la produce el candidato, sino que debe seleccionarse de una lista de alternativas posibles, y puede puntuarse de for ma precisa tanto po r un adm inistrativo o un ordenador c om o p or un pro fesor o examinador entrenado. Las pruebas corregidas de forma más subjetiva son las entrevistas orales y las redacciones, en las que el corrector sólo tiene unos criterios de evaluación como guia. Entre estos dos extremos se extiende una amplia gama de tipos de ítem que pide un mayor o menor grado de subjetividad en su corrección (véase capítulo 3). Una de las principales preguntas que se hace cualquier redactor de pruebas es el número de estudiantes con el que debería ensayarse un examen. Es imposible dar una regla para esto puesto que el número depende de la importancia y del tipo de examen, y también de la disponibilidad de alumnos adecuados. Puesto que la redacción de ítems de respuesta múltiple es muy difícil, y puesto que es tan fácil que al redactor se le escapen ambigüedades en las opciones, podría decirse que este tipo de prueba necesita más ensayos que cualquier otro tipo de prueba y, en realidad, cuando llegu em os al inform e sobre la práctica de ensayos previos por parte de los centros de exámenes, veremos que los ítems de respuesta múltiple son los que se ensayan más. Sin embargo, puesto que otros tipos de ítems de corrección objetiva, com o por ejemplo rellenar huecos y preguntas de respuesta abierta, pueden comportarse de for ma inesperada, todo tipo de prueb a de corrección objetiva debería ensayarse a fondo. Henning, 1987 recom ienda 1.000 alumnos para los ensayos de las pruebas de respuesta múltiple, pero es tan difícil encontrar muestras adecuadas que los responsables de la prueba deben contentarse con una muestra de 2 0 0 o 3 0 0 ,o incluso de 30 o 40. La única guía que se debe seguir es «cuanto s más m ejor », puesto que cuantos más alumnos haya menos influirá el azar en los resultados. Si, por ejemplo, 300 estudiantes participan en un ensayo de una prueba, y un alumno q ue aquel día está enfermo, responde m uy mal, este resultado tendrá un efecto menor sobre las estadísticas globales de la prueba. Sin embargo, si sólo hay 10 estudiantes en el ensayo, el comportamiento

Fase general de ensayo

Sin tener en cuenta el número de alumnos que haya en el ensayo, es importante que la muestra sea, en la medida en que esto sea posible, repre sentativa del número final de candidatos, con una gama parecida de habili dades y conocimientos generales. Si los alumnos que se utilizan para los ensayos no son similares a la población que se presentará al examen, los resultados de los ensayos pueden ser inútiles: las pruebas se comportan de forma m uy diferente con distintas poblaciones (para una d iscusión de este punto véase Crocker y Algina, 1986). Es también importante que los estudiantes del ensayo se tomen la prueba en serio y la respondan lo mejor posible. Si no valoran su importancia, y la tratan como un juego, los resultados que salgan pueden invalidar el proceso de ensayo por completo. Describiremos una forma de paliar este problema al final de este capítulo. El ensayo general de un examen debería administrarse de la misma manera en que se administrará el examen final, de form a que se puedan ensayar no sólo las directrices de administración sino también los ítems, que deberán presen tarse en las mismas circunstancias que en el examen real. El único aspecto que puede tener que ser distinto hace referencia a la duración del examen. Si los exa minadores quieren hacer una estimación sobre la fiabilidad de la prueba (véase más adelante), los estudiantes deberían poder tomarse todo el tiempo que nece siten para respond er al examen. Esto puede contradecir los principios del m ismo examen, durante el cual, y por motivos teóricos o prácticos, los alumnos pue den tener menos tiempo del que en realidad quisieran. Si es necesario limitar el tiempo dado a los estudiantes durante los ensayos, todavía es posible evaluar la fiabilidad de la prueba, pero los resultados deberán tratarse con precaución puesto que es probable q ue sobrestimen la fiabilidad de la prueba (véase Croc ker y Algina, 1986). En la discusión estadística sobre el análisis de pruebas de corrección objetiva que sigue, se asumirá que los ensayos de exam en se refieren a una norma o rango (normreferenced), es decir, que tienen como objetivo establecer el orden que ocupan los candidatos en una escala ordenada, para que puedan compararse los unos con los otros. Si el examen se refiere a un criterio (criterion-referenced), y los alumnos no se comparan los unos con los otros sino con un nivel de aprovechamiento o una serie de criterios recogidos en las descripciones de corrección, las medidas con referencia a un rango o norma pueden no ser aplicables. En muchos sistemas de exámenes podemos ver que las pruebas de corrección objetiva se tratan con refe rencia a un rango, y las de corrección subjetiva se tratan con referencia a un cri terio. Esto es así probablem ente p or cuestiones prácticas y no d ebido a una base teórica concreta. Puesto que los ítems correctos de una prueba objetiva pueden sumarse para dar una nota total, los alumnos pueden ordenarse de acuerdo con estos totales, y la actuación en ítems concretos pue de compararse con los resul tados totales (véase más adelante el apartado «Aná lisis clásico de íte m s» ). Para pruebas que tienen como punto de referencia un criterio, puede no ser apro piado basar un análisis de ítems en la ordenación de los resultados de los alum


nos de mayor a menor, por lo que se necesitarán métodos de análisis menos corrientes. (Véase Crocker y Algina, 198 6, y Hudson y Lynch, 1984, para dis cusiones sobre este tema.) Las pruebas corregidas de forma subjetiva, co mo las redacciones y las entrevistas orales, no se prestan a un análisis según u na norm a o rango, y siempre que se habla de correctores que utilizan criterios globales para la expresión escrita y la expresión oral, y de actuaciones de can didatos eva luadas de acuerdo con una serie de descripciones del tipo de contenidos lingüís ticos exigidos para cada nivel, se considera que se está de hablando con referencia a un criterio. 4.4. Análisis de exámenes 4.4.7. Correlación

Antes de tratar las formas en las que puede evaluarse el comportamiento de ítems individuales, hay un concepto que sustenta gran parte del análisis de exámenes y que debemos introducir antes de continuar. Este concepto es la correlación, que significa hasta qué punto dos conjuntos de resultados están de acuerdo el uno con el otro. Para dar una idea clara de lo que es la correlación, analizaremos algu nos resultados hipotéticos de un p equeñ o núm ero de estudiantes. La figu ra 4.1 da las escalas de 8 estudiantes (estudiantes A—H) en do s prue  bas. Puede verse que en cada caso los alumnos se ordenaron de forma idéntica para las dos p ruebas, para que A fuera el prim ero cada vez, B el segun do, y así sucesivamente. Esto puede verse gráficamente en el diagrama de dispersión. Las escalas de los a lumnos para la prueba 1 se ven en la línea vertical del gráfico y los de la prueba 2 en la línea horizontal. Cada punto en el gráfico representa el comp ortamien to de un alum no en la prueb a 1 y en la prueb a 2. Prueba 1

B C D

3 4

Prueba 2 (Escalas) 1 2 3 4

E F

5 6

5 6

G

7

7

H

8

8

A

(Escalas) 1 2

Prueba 1

•

8-i •

7•

6*

5•

4•

3•

21-

*

0-1---- 1---- 1---- 1---- i---- 1-----!-----i----- ! 0 1 2 3 4 5 6 7 8 Fie. 4.1.

C orrelación

= +1,0

Prueba 2

En este caso, el comportamiento de los alumnos, y por lo tanto el orden en la escala, fue el mism o para las dos pruebas. Se puede ver que los pun tos for man una diagonal ascendente en el gráfico, desde abajo a la izquierda hacia

Análisis de exámenes

arriba a la derecha. Tam bién se ve que si se juntaran estos puntos formarían una línea recta. Esta línea m uestra q ue hay una correlación perfecta entre los dos gru po s de resultados. Este resultado se describe co mo una correlación perfecta, o una correlación de +1,0. Si vamos ahora la figura 4.2 veremos lo que ocurre cuando los dos grupos, en lugar de ser idénticos, son diametralmente op uestos. En este caso el estu diante que tuvo los mejores resultados en la prueba 1 fue el ultimo en la prueba 3, el alumn o qu e fue segu ndo en la prueb a 1 fue penúltimo en la prueba 3, y así sucesivamente. El diagrama de dispersión muestra tamb ién una línea diago  nal, pero esta vez la pendiente va en la dirección opuesta; cae desde arriba a la izquierda hacia abajo a la derecha. El resultado se describe como una perfecta correlación n egativa, o una correlación de —1,0. Prueba 1

Prueba 3 (Escalas)

8-,

A

(Escalas) 1

8

7-

B

2

7

6-

C D

3

6

5-

4

5

4-

E F

5

4

6

3

G H

7

2

8

1

Prueba 1

C orrelación -

—1,0

• • • • •

32-

•

10

Fie. 4.2.

*

1

2

3

4

5

6

7

8 Prueba 3

Podría parecer que h ay una relación igual d e fuerte entre estos d os resultados com o la que había entre los resultados anteriores de las pruebas 1 y 2, pero esta vez se trata de u na re lación negativa. Es difícil encontrar correlaciones negati vas tan importantes entre los resultados de dos p ruebas de idiomas, pero pu e den encontrarse, por ejemplo, entre los resultados de una prueba de idiomas y algún tipo de medidas de personalidad. Finalmente, la figu ra 4.3 mu estra los resultados de las pruebas 1 y 4. En este caso no hay una relación obvia entre los dos grupos de resultados. Podría deberse a la casualidad, y no hay un patrón que se pueda distinguir en el dia grama de dispersión. Los puntos aparecen dispersos en todo el gráfico. El índice de correlación para este grupo de resultados es de +0,05, lo que se acerca tanto al 0,00 que podemos decir que no hay correlación entre los dos grupos de resultados. No es muy corriente que no haya correlación alguna entre los resultados de


de coincidencia. Una correlación más posible entre dos pruebas puede verse en la figura 4.4. Se distingue en las escalas de los estudiantes que participaron en la prueba que había una cierta similitud entre los dos grupos de resultados.

A B

Prueba 1 (Escalas) 1 2

Prueba 4 (Escalas) 6 3

3 4 5 6 7 8

5 1

C D E F G H

Prueba 1 8-

• •

76-

•

s-

• •

4-

7 8 2 4

•

32“

•

i1 1

>

Fie. 4.3.

! 2

1 3

1 4

i 5

1 6

+0,5

C orrelación =

7 8 Prueba 4

Por ejemplo, el estudiante B fue segundo en una prueba y tercero en otra, y el estudiante C fue tercero en una prueba y cuarto en la otra. Sin embargo, no hay una coincidencia total. El diagrama de dispersión muestra que hay alguna simi litud entre las notas, pu esto q ue los pu ntos tienden a progresar d esde ab ajo a la izquierda hacia arriba a la derecha, y puesto que no hay puntos arriba a la izquierda ni abajo a la derecha. Sin embargo, no es posible unir todos los pun tos con una línea recta. La correlación esta vez es +0,70 lo que significa que hay una coincidencia importante entre los dos grupos de notas. A B C D E F G H I J K L M N O P Q R S T Prueba 1 1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Prueba 2 7 3 4 1 10 8 2 18 11 13 5 6 12 14 15 20 17 9 16 19 Prueba 1

2018161412 10 -

8

-

•

-

6" 4-

•

2-

•

0 i — i—

0

i—

2

i— ¡— i— i— ¡— ; — ¡— i—

4

6

8

10

i— i— i—

12

i— i— ¡— ¡— i— ; — i

14

16

18

20

-

Prueba 2


Hay muchas maneras de calcular coeficientes de correlación. El método usado aquí fue el de correlaciones de acuerdo al orden de la escala (rank order correlation; véase el apéndice 5 para la fórmula y un ejemplo desarrollado). Este índice de correla ción es fácil de calcular a mano, y se usa cuando sólo hay un pequeño número de resultados a correlacionar, o cuando los resultados están escalados, como era el caso en nuestros ejemplos. Otro método de hacer correlaciones, que puede usarse para establecer corre laciones entre notas de pruebas, en vez de escalas, es el coeficiente de corrdación de Pearson (Pearson product moment corrdation). Este es el coeficiente más común de correlación y se calcula automáticamente con programas estadísticos. Sin embargo, su uso no es siempre aconsejable. Primero, asume que los dos grupos de notas tienen una escala de intervalos idéntica, es decir, que hay la misma diferencia entre cada resultado en la escala, es decir, que hay la mism a diferencia entre un 18/2 0 y un 19 /20 que entre u n 5 /2 0 y u n 6 /2 0 . Sería pues erróneo usar este coeficiente para establecer la correlación entre dos grupos de resultados basados en puntua ciones como Muy bien, Bien, Flojo, puesto que incluso en el caso de que se pasa ran a notas numéricas com o 3, 2 y 1 no hay ninguna garantía de que la diferencia entre 3 y 2 sea la misma que entre 2 y 1. Segundo, este coeficiente sólo es apro piado si la relación entre dos grupos de resultados es consistente a lo largo de toda la escala de notas. Por ejemplo, si las dos pruebas se administraron a un amplio grupo de alumnos y los resultados de los mejores alumnos coincidían en las dos pruebas pero no era así con los alumnos men os buenos, los puntos en el diagrama de dispersión se agruparán alrededor de una línea curva y no una línea recta, y el coeficiente no será el adecuado. Antes de utilizar este coeficiente debe ría leerse sobre lo que el mismo aparece en un libro de estadística estándar como el de Guilford y Fruchter, 1978. 4.4.2. Análisis clásico de ítems PRUEBAS DE CORRECCIÓN OBJETIVA

Tradicionalmente se calculan dos aspectos para cada ítem de corrección objetiva —el coeficiente de dificultad (facility valué) y el índice de discriminación (discrimination Índex). El coeficiente de dificultad (C.D.) mide el nivel de dificultad de un ítem y el índice de discriminación (I.D.) mide hasta qué punto los resultados de un ítem indivi dual se corresponden con los resultados de toda la prueba. Coeficiente de dificultad

El coeficiente de dificultad de un ítem es el porcentaje de alumnos que lo contes tan correctamente. Si hay 300 estudiantes y 150 responden correctamente, el coe ficiente de dificultad del ítem es de 150/300, lo que es el 50% (a menudo citado como una proporción: 0,5). Esta simple medida da inmediatamente a los redac tores idea de la dificultad del ítem para el muestreo de alumnos. Si sólo 6/300 estudiantes responde correctamente a un ítem, la dificultad será de un 2%, y está


95% (2 8 5 /3 0 0 ) el ítem es muy fácil. Tales ítems no son demasiado informativos puesto q ue no s dicen m uy p oco sobre los distintos niveles de competencia del grupo analizado. Para tomar un caso extremo, un ítem con un C.D. del 0% no dará ninguna infor mación excepto que se trata de un ítem m uy difícil. Si los examinadores quieren una distribución amplia de las notas en un examen, es decir, si quieren que las notas de los alumn os oscilen de m uy altas a mu y bajas, seleccionarán ítems qu e estén lo má s cerca posible de una dificultad del 50 % pu esto que tales ítems facilitan la mayor gam a de variación entre estudiantes individuales. (Explicaremos esto de forma más extensa más adelante cuando hablemos del índice de discriminación.) Sin embargo, si a los responsables de la prueba les interesa más asegurarse de que una prueba tiene un nivel concreto de dificultad, pueden manipular los contenidos de la prueba seleccionando ítems co n la facilidad apropiada para que la población obtenga la media aritmética esperada. (La « m ed ia » —mean—es la su ma d e las notas de to dos los alum nos dividida p or el número de alumnos.) Por ejemplo, si los alumnos obdenen una nota media del 70% en un examen, la dificultad media de todos los ítems es del 70% y por lo tanto la prueba seguram ente tiene mu chos ítems con un C.D. de más del 70%. Si los responsables de la prueba quieren hacer la prueba m ás difícil, p ueden quitar o substituir los ítems fáciles, quizá los que tienen un C.D. superior al 80%, para que baje la media del C.D. y por consiguiente la nota media de los alumnos. Esto se discutirá más extensam ente en el apartado 4.5 sobre estadística descriptiva. índice de discriminación

Así como es importante conocer la dificultad de un ítem, también es importante saber lo bien que discrimina, lo bien que distingue entre alumnos de distintos niveles de competencia. Si el ítem funciona bien, se podría esperar que haya más alumnos con buenas calificaciones que alumnos con calificaciones bajas que sepan la respuesta correcta. Si los alumnos buenos dan una respuesta incorrecta, mientras que los alumnos flojos dan una respuesta correcta, está claro que hay un problema en el ítem que debe investigarse. Hay muchas formas de calcular el índice de discriminación, pero una de las más fáciles supone ordenar a los alumnos de acuerdo con sus notas finales en la prueba y comparar la proporción de respuestas correctas del tercio superior del muestreo con las del tercio inferior. Por ejemplo, si el mejor grupo tiene 10 alumnos, y 7 aciertan el ítem (0,7), mientras que sólo 2 de los 10 del grupo más flojo (0 ,2) aciertan, el I.D. es de 0,7 —0,2 = + 0,5 . Se considera que un ítem con un I.D. de +0,5 discrimina bien, puesto que los alumnos de buenas notas lo han contestado m ejor qu e los alumn os de notas bajas. (Véase apéndice 3 para el estudio de ejemplos desarrollados.) El mayor índice de discriminación posible es +1,00, y se consigue si todos los alumnos del grupo más alto dan la respuesta correcta y ninguno de los alum nos del grupo más bajo responde correctamente. Tales ítems son muy raros. A


depende del tipo de prueba y de la gama de capacidades de los examinandos. A men udo, sin embargo, nos e ncontramos con un ítem que tiene un I.D. nega tivo, lo q ue significa que hay más alumnos que responden correctamente en el grupo inferior que en el grup o superior. Hay obviamente algo mu y erróneo en un ítem así y debería revisarse o descartarse. Por ejemplo, cuando se ensayó el ítem siguiente con 2 07 alumnos franceses de nivel elemental e intermedio bajo, el I.D. fue de —0, 31 . Sólo el 0,0 7 del grup o m ás alto escogió la respue sta correcta, mientras que el 0,38 del grupo más flojo acertó. Todos los estudian tes del grupo más alto, excepto el 7% escogió la alternativa A. This shirt is too dirty _______________________ . A. to wear it. B. that I wear it. C. than I wear. D. for m e to wear. No está claro lo que no funciona en este ítem, pero por alguna razón no fun ciona, y por lo tanto debería cambiarse o suprimirse de la prueba. Con ítems de respuesta múltiple, un índice de discriminación bajo puede a menudo explicarse por el comportamiento de una o de varias opciones. Las res puestas pueden distribuirse en tina tabla, com o en el ejemplo siguiente, que mues tra los resultados de una prueba piloto de un ítem de comprensión oral. Se puso la cinta, y los estudiantes tuvieron que seleccionar la respuesta apropiada. «W e’re go ing to a film tonight. Do you want to come along ?» A. Where are you going tonight? B. Do you want to see a film tonight? C. Thanks. What time is it? D. Are you goin g along now? Se agruparon los resultados de los alumnos en tres grupos: el más alto, el del medio y el más bajo. Para cada ítem se hizo una tabla que mostrara cuántos alumn os de cada grupo habían escog ido cada alternativa. Los resultados del ítem citado se pueden ver en la tabla 4.1. T a b l a . 4 . 1 . T a b ú de a n á l i s i s de ítem

A M B Total

A

B

C*

D

En blanco

Total

-

-

14

7

-

21

17

3

' 6 6

13 -

44

10

(A= Alto, M =

20 2 2

* La respuesta correcta es la C. C. D. = 71%

21 62

Medio, B = Bajo)

I.D. = +0,05


Esta tabla muestra cómo funcionó el ítem con estos alumnos. 44 de 62 escogieron la alternativa correcta, la C, pero esta alternativa atrajo igualmente a alumnos de los tres grupos. No distinguió entre alumnos de niveles diferentes, y el I.D. es sólo de + 0 ,0 5 . Si analizamos có mo funcionaron las alternativas, veremos lo que funcionó mal. Primero, la alternativa B fue inútil puesto que nadie la escogió. Segundo, la alternativa D atrajo a los que se equivocaron; 7 estudiantes del grupo alto la escogieron, al igual que 3 del grupo medio y ninguno del grupo bajo. Puesto que más estudiantes destacados que flojos escogieron la alternativa supuestamente incorrecta, debe de haber algo extraño en esa opción. Podría discutirse si «Are you going along now?» tiene sentido en el contexto dado. Esta alternativa debería pues suprimirse. La única alternativa que parece funcionar es la A, p uesto que todos los que la escogieron pertenecen al grupo bajo. Esta alternativa fue la única que discriminó. La distribución de los alumnos que dejaron el ítem en blanco también contribuyó a esta discriminación positiva puesto que las respuestas en blanco pertenecían sólo al grupo bajo. Mencionamos más arriba que si queremos que los ítems tengan I.D. altos, deberían tener C.D. cercanos al 50%. Esto es así porque los ítems de dificultad media dan más campo para la discriminación. La tabla 4.2, a continuación, lo demuestra al mostrar los I.D. que consiguen los ítems con distinta dificultad. En este ejemplo imaginario, 30 alumnos hicieron el examen, y la tabla muestra cuántos alumnos en cada uno de los grupos alto, medio y bajo, respondieron correctamente al ítem. Había 10 alumnos en cada uno de los tres grupos. T a b l a 4 . 2 . R elación entre c o e f i c i e n t e de dificultad e í n d i c e de discriminación

G ru po alto G ru po med io G ru po b ajo ítem ítem ítem ítem ítem ítem ítem ítem ítem ítem ítem

1 2 3 4 5 6 7 8 9 10 11

10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 9 (0,9) 6 (0,6) 2 (0,2) 0 (0,0)

10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 10 (1,0) 5 (0,5) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0)

10 (1,0) 8 (0,8) 4 (0,4) 1 (0 .1 ) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0) 0 (0,0)

C.D.

I.D.

100% 93% 80% 70% 66% 50% 33% 30% 20% 6% 0%

0,0 + 0 ,2 + 0 ,6 + 0 ,9 + 1,0 +1,0 + 1,0 +0,9 + 0 ,6 + 0 ,2 + 0 ,0

Nota: Los números entre paréntesis son las proporciones de los candidatos de un grupo que han acertado la respuesta correcta Obviamente, si todos los alumnos tienen un ítem bien (ítem 1), no puede haber discriminación alguna, y de la misma forma si todos tienen un ítem mal


C.D. es del 50% (ítem 6), es posible contar con el I.D. máximo de 1,00, pues todo el grupo alto ha contestado correctamente y todo el grupo bajo ha con testado mal. La tabla muestra que con unos C.D. del 66% al 33% es posible conseguir I.D. máximos, pero que cuando la dificultad se aparta de estos valo res, ya no es posible obtener I.D. altos. Por ejemplo, si el C.D. es del 80% (ítem 3), no es posible que todos los que hayan acertado el ítem estén en el grupo alto, por lo que la discriminación no puede ser más alta de +0,6. Esto debería recordarse a la hora de considerar los I.D. Si un ítem tiene un C.D. del 6% y todavía tiene un I.D. de +0,2, está discriminando muy bien si tenemos en cuenta que es un ítem muy difícil. Si el número de sujetos es pequeño , com o suele ocurrir en un ensayo previo, el I.D. pue de calcularse utilizando el métod o descrito aquí o usan do la formula Ej 3 que prod uce los mism os resultados (véase apéndice 3). Hoy en día los responsables de exámenes utilizan programas informáticos para su análisis de ítems. Estos no calculan el I.D. con la fórmula Ej 3 (véase el apéndice 3), pero calculan las correlaciones biseriales y las correlaciones biseriales puntuales. Como el E13, estas dos correlaciones comparan el comporta miento del ítem con el de la prueba completa, pero utilizan procedimientos matemáticos más complejos. La fórmula E] 3 y estas dos correlaciones produ cen resultados similares, pero las dos correlaciones biseriales tienen la ventaja de que tienen en cuenta todas las respuestas de todos los alumnos, y no sólo las de los gr up os alto y bajo. La correlación biserial, q ue tiende siempre a ser más alta que la correlación biserial puntual, debería usarse si la muestra tiende a ser de un nivel de competencia lingüística distinto del de la población a la que va dirigida la prueba. En los otros casos, debería usarse siempre la correlación bise rial puntual. Las fórmulas para estas correlaciones se pueden encontrar en cual quier libro de estadística y Crocker y Algina, 198 6, dan una explicación clara de su utilización. El programa informático ITEMAN de Microcat, calcula auto máticamente la dificultad y las dos correlaciones biseriales de todos los ítems, y también informa sobre el funcionamiento de las alternativas. Paquetes esta dísticos com o el SPSS y el SAS llevan a cabo los mi sm os p rocesos pero son más com plicados de utilizar. (Para nom bres y direcciones co mpletas de estos y otros programas informáticos, véase el apéndice 8.) Quizá deberíamos mencionar aquí un aspecto antes de continuar. Para obte ner el I.D. dijimos que los resultados de los alumnos se ordenaban de acuerdo con la nota. En el ejemplo de la prueba de comprensión oral que analizamos anteriormente, la calificación era la de la prueb a de com pren sión oral. Sin embargo, si esta prueba hubiera formado parte de una serie de pruebas, los alumnos habrían podido agruparse de acuerdo con las calificaciones resul tantes de toda la serie. El propósito de agrupar los resultados es para ordenar a los estudiantes de acuerdo con alguna medida de competencia lingüística, y a menudo la mejor medida son los resultados obtenidos en una serie de pruebas com pleta. Sin emb argo, si la prueba de comprensión oral se pro po 

E n s a y o s previos y an álisis

no ofrecería una correlación alta con las otras pruebas, y los ítems de comprensión oral no tendrían demasiada corresponde ncia con los resultados del conjunto de pruebas. Los índices de discriminación de los ítems tenderían por lo tanto a ser bajos. Lo que los responsables de examen hacen en estos casos es comparar el comp ortamiento de los ítems con las notas totales de los a lum nos en aquellas pruebas de la serie que parecen evaluar destrezas similares a las evaluadas po r los ítems en consideración. Por ejem plo, si la serie de pruebas contiene pruebas de respuesta múltiple de gramática y de vocabulario y pruebas de expresión oral y expresión escrita, los responsables de la prueba agruparán a los estudiantes de acuerdo con los resultados obtenidos en las pruebas de gramática y de vocabulario y utilizarán esta escala para analizar los ítems de gramática y vocabulario. Puesto que comparar ítems con los resultados de una prueba de la que forman parte, y que todavía no se ha experimentado, es lógicamente dud oso, algunos responsables de examen agrupan a los alumnos de acuerdo con alguna otra medida de compe tencia lingüística, co mo puede ser el orden dado p or el pr ofesor de estos alumnos, y comparan el comportamiento de cada ítem con esta med ida extem a. La dificultad aquí estriba en encontrar una med ida e xtema que sea fiable y que m ida las destrezas lingüísticas relevantes. Anastasi, 19 88 , d iscute este punto con más detalle. Los ítems que requieren respuestas de una sola palabra, de un grupo de palabras o de frases pue den analizarse de la m isma m anera que los ítems de respuesta múltiple, pero en este caso, naturalmente, no hay alternativas que analizar. Aparte de calcular el C.D. y el I.D., y de estudiar el com por tamiento de los huecos, el aspecto más importante de este tipo de análisis es estudiar las respuestas erróneas de los estudiantes. Estas respuestas darán información sobre cómo entendieron la tarea los estudiantes y sobre si el ítem evalúa lo que interesa. También revelarán inexactitudes y omisiones en la clave de respuestas, y descubrirán ambigüedades en el sistema de puntuación. Por ejemplo, las instrucciones de puntuación pueden decir «ign or e faltas de ortografía», pero pued e no estar claro lo que esto significa en realidad. Si la respuesta correcta es «tuvo», ¿qué pasa con «t u b o »? Utilizar la clave de respuestas y los criterios de evaluación durante la fase de ensayos previos debería pulir cualquier problema que pudiera presentarse en el examen definitivo, puesto que en este caso se prec isaría có m o tratar este tipo de respu estas incorrectas. Frecuentemente, nos encontramos con pruebas supuestamente de corrección objetiva que son difíciles de puntuar de forma coherente. Por ejemplo, es difícil redactar pruebas de comprensión lectora o comprensión oral de respuesta abierta que tengan un núm ero de respuestas correctas limitado. A demás de dificultades tales como el tratamiento de las faltas de ortografía descrito antes, las respuestas abiertas pueden incluir amb igüedad es g ram aticales que interfieren en la claridad de la respuesta. Además, ás larga


exámenes, estarán tentados de tomar sus propias decisiones sobre la bondad de tales respuestas, y estas decisiones serán distintas de las tomadas por otros correctores. Puede, p ues, que sea necesario com probar la consistencia de los correctores comparando las notas dadas por dos o más correctores (véase el apartado sobre fiabilidad más adelante). Mientras pueda mantenerse una corrección coherente, el análisis de ítems puede llevarse a cabo de la forma habitual.

PRUEBAS DE CORRECCIÓN SUBJETIVA Aunque el análisis de ítems no es apropiado para las pruebas de corrección sub jetiva, com o lo s resúmen es, las redaccion es y las entrevistas orales, estas pruebas tam bién debe n ser som etidas a ensayos previos para ver si los ítems permiten obtener la muestra lingüística prevista; si el esquema d e puntuación, que debería haberse escrito durante la fase de redacción (véase el capítulo 3), puede usarse; y si los examinadores pu eden corregir de form a consistente. Es a menudo imposible experimentar tales pruebas con grandes números de estudiantes a causa del tiempo que se necesitará para corregir las redacciones o llevar a cabo las entrevistas, p ero deberían probarse co n una g am a amplia de estudiantes de distintos niveles de len gua y de cono cimientos generales para garantizar que la muestra obten ida con tenga la m ayoría de las características que caracterizarán las respuestas producid as en el examen final. Una vez administradas las redacciones o las entrevistas, debería haber sesiones de corrección para comprobar que los enunciados han producido el tipo de respuestas previsto y si las directrices de corrección y los criterios de evaluación funcionan satisfactoriamente. Estas sesiones de corrección durante la fase de ensayos previos deberían seguir el patrón descrito en el capítulo 6, y deberían provocar la rectificación de los enunciados, en las directrices y en los criterios de evaluación.

4.4.3. Fiabilidad Si diéramos la misma prueba a los mismos estudiantes varias veces, probablemente constataríamos qu e los estudiantes no siempre obtienen las mismas notas. Algunas de estas variaciones en los resultados pued en estar motivadas po r dife rencias reales o sistemáticas, como pueden ser la mejora de los alumnos en la destreza evaluada, y otras pudieran estar produc idas por errores, esto es, cam bios no sistemáticos causados, por ejemplo, por lagunas en la concentración por parte de los estudiantes o ru idos en la sala de examen. El objetivo a la hora de administrar un examen es producir pruebas que midan los cam bios sistemáticos y no lo s no sistemáticos, y cuanta mayor sea la proporción de variación sistemática en la calificación de la pm eba, más fiable es. Un e xamen perfectamente fiable sólo medirá cambios sistemáticos. Aunque es a menud o im posible obtener un exam en perfectamente fiable, los responsables de examen deben procurar que las pruebas sean lo más fiables posible. Pueden hacerlo reduciendo al mínimo las causas de variación no sistemática.


Deberían garantizar, por ejemplo, que la prueba se administre y se corrija de forma consistente, que las instrucciones estén claras, y que no haya ítems ambi guos. Como hemos visto en el apartado referente a los índices de discriminación, los ítems am biguo s o defectuosos tienen índices de discriminación bajos, y una prueba que contiene este tipo de ítem tiende a ser poco fiable. La fiabilidad puede estimarse de distintas maneras. La forma clásica es adminis trar la prueba a un g rup o de alumnos, y volverla a administrar al m ism o grupo inmediatamente d espués. El supuesto es que los alum nos no habrán aprendido nada durante el intervalo, y que si la prueba es perfectamente fiable obtendrán la misma nota en la primera y en la segunda administración. Este procedim iento se llama fiabilidad test-retest. Obviamente es muy po co práctica, y en cualquier caso los alumnos pueden hacerlo mejor o peor la segunda vez según se hayan acos tumbrado al método usado o s i están cansados o nerviosos. Podemos obtener la fiabilidad test-retest dejan do un intervalo más largo entre las dos adm inistracio nes pero esto tiene también sus inconvenientes puesto que durante este período los alum nos pueden h aber cambiado. Por ejemplo, pueden haber aprendido más. Otra forma de ver la fiabilidad de un a pru eba es utilizar el métod o de la fiabilidad paralela, que propone comparar las notas de dos pruebas muy similares (parale las). Sin embargo, esto también puede resultar problemático puesto que es casi imposible redactar dos pruebas genuinamente paralelas. (La redacción de prue bas paralelas se discute en el apartado 4.5, más adelante.) Puesto que los proced imientos descritos anteriormente son largos y poc o satis factorios, es m ás corriente administrar la prueba só lo una vez, y medir lo qu e se llama consistencia interna (inter-item consistency). Una forma de hacer esto es simular el método de pruebas paralelas utilizando el método de las dos mitades (split half reliability index). Este método supone dividir la prueba en dos, tratando estas dos mitades como si fueran versiones paralelas, y estableciendo correlaciones entre las mis mas (véase apéndice 6 para un ejemplo). Cuanto más alta sea la correlación entre las dos m itades, m ás alta será la fiabilidad. Una prueba perfectamente fiable ten dría un coeficiente de fiabilidad de +1,0. El coeficiente de fiabilidad se interpreta de la misma forma que un coeficiente de correlación. Si los resultados de una prueba se deben solamente a factores no sistemáticos, o a la suerte, el coeficiente de fiabilidad estará cercano al 0,00. Este mé todo de las dos m itades no es del todo satisfactorio puesto que el valor de la correlación dependerá de qué ítems se escojan para cada una de las dos mitades. A menudo pues, se usa una forma más compleja de obtener el coefi ciente de fiabilidad, que hace una estimación de cuál sería el coeficiente de fia bilidad si se establecieran correlaciones entre todas las posibles divisiones de la prueba original. Las dos fórmulas más corrientes son la de Kuder Richardson (KR)20 y Kuder Richardson (KR)21. El KR20 está basado en datos de ítems, y puede usarse si se tienen los resultados de cada tmo de los ítems. (Mientras todos los ítems sean dicotóm icos -teng an el mism o peso en la prueba y se puntúen como correcto o incorrecto-, este coeficiente será idéntico al coeficiente alfa de Cronbach, que es el coeficiente que habitualmente calculan algunos programas

An álisis d e ex ámen es

informáticos). El K R 2 1, que asume que todos los ítems son también dicotómicos, se basa en notas totales de la prueba. Puesto que el KR21 utiliza menos infor mación que el KR20, es menos exacto y siempre produce un coeficiente de fiabilidad más bajo. Ambas fórmulas asumen una perfecta fiabilidad de correc ción. (Puede consultarse un ejem plo desarrollado de KR21 en el apéndice 7). La fórmula KR20 es difícil de calcular, y no la recom endam os a quien no tenga un ordenador. El coeficiente de fiabilidad del método de las dos mitades es el más fácil de los tres de calcular y en general produce resultados similares a los de las fórmulas KR20 y KR21. La fiabilidad de una prueba depende de much os factores, com o el tipo y la lon gitud de la prueba, y la gama de competencia lingüística de los alumnos con los que se ensayó la prueba. U na prueb a objetiva y bien redactada de 100 ítems de elección múltiple, que se ha ensayado con alumnos de distintas competencias, podría tener un coeficiente de fiabilidad de +0,95. Sin embargo, una prueba de comprensión oral igualmente bien redactada de 20 ítems de respuesta abierta que se ha ensayado con alum nos avanzados puede tener sólo una fiabilidad de + 0 ,7 5 . La fiabilidad también depende de la hom ogen eidad de los ítems. Si se supone que todos los ítems evalúan la misma destreza de la misma forma, estos ítems mos trarán correlaciones altas y la prueba tendrá un coeficiente de fiabilidad alto. Si la prueba contiene apartados que evalúan distintas destrezas de form a distinta, estas secciones no mostrarán una correlación alta con las demás, y la fiabilidad será menor. (Esto se discute con más extensión en el capítulo 8.) Cuando interprete mos un coeficiente de fiabilidad es importante considerar todos estos aspectos. Tal como mencionamos antes, las fórmulas de Kuder Richardson deberían usarse sólo si los estudiantes han tenido el tiempo necesario para acabar la prueba. En caso contrario, los alumnos más flojos no habrán llegado a respon der algunos ítems, en particular los del final, por lo cual el coeficiente de fiabi lidad tenderá a ser dema siado alto. (Para m ás inform ación acerca de la fiabilidad, véase Guilford y Fruchter, 1978; Anastasi, 1988, y Crocker y Algina, 1986). En una prueba subjetiva, naturalmente, la corrección misma puede que no resulte fiable. Esto puede ser debido a factores como la variación en las distin tas formas en que se llevó a cabo la entrevista, la ambigüedad de los criterios de evaluación, la aplicación de distintos modelos por distintos correctores y la inconsistencia por parte de algunos correctores. La fiabilidad de tales pruebas pued e evaluarse comp arand o las notas otorgadas por el m ism o corrector en dis tintas ocasiones. Puesto que estas comparaciones se harán con respecto al orden en que los correctores coloquen a los estudiantes, pero no con respecto a las notas obtenidas, es posible que dos examinadores ordenen un grupo de estu diantes de la misma forma y muestren de esta forma una correlación perfecta entre ellos, a pesar de que uno haya dado notas más altas que el otro o haya usado una gama menos amplia de notas. Es pues también necesario comparar


4.4.4. La teoría de respuesta al ítem (Item Response Theory) Los resultados de análisis llevados a cabo utilizando los procedimientos de aná lisis de examen citados más arriba tienen un principal inconveniente. Las carac terísticas de los examinandos y las características de la prueba no pueden separarse, con lo cual los resultados de los análisis sólo son válidos para la mues tra usada para obtenerlos. Los resultados no serán válidos para muestras de alum  nos con distintos niveles de competencia. No puede pues facilitar ninguna medida ñja de la dificultad de una prueba. Si los ítems de una prueba tienen coeficientes de dificultad bajos, la prueba puede resultar difícil o puede que se haya ensayado con alumno s de nivel bajo. Si el coeficiente de dificultad es alto, puede ser deb ido a que la prueba es fácil o que se ha ensayado con alumnos con un nivel de com petencia m uy alto. A causa de esto es difícil comparar alumno s que han hecho distintas pruebas, o comparar ítems que se han ensayado con grupos de estudiantes distintos. La medición usando la teoría de la respuesta al ítem (TRI) está diseñada para solu cionar este problema. Podemo s utilizarla para desarrollar una escala de dificul tad de un ítem que sea independiente de la muestra en la que se han ensayado los ítems, para poder comparar la actuación de examinandos que han contes tado a distintas pruebas, o puede aplicarse un grupo de resultados a grupos de alumnos con distintos niveles de capacidad lingüística. Esto significa que para comparar dos exámenes no hace falta, en teoría, ensayar las dos pruebas com pletas con el mismo grupo de estudiantes. Mientras haya idénticos ítems de anclaje en las do s versiones de la prueba, cada versión puede ensayarse con un grupo distinto, y las dos pueden compararse utilizando estos ítems de anclaje. La TRI se basa en la teoría de la probabilidad, y muestra la probabilidad que tiene una persona en concreto de responder correctamente a un ítem. Los resul tados de los alumnos y los totales de los ítems se convierten en una escala para que puedan relacionarse el uno con el otro. Si la capacidad lingüística de un estudiante es la m isma q ue el nivel de dificultad del ítem, este estudiante tiene una posibilidad de 50/50 de responder al ítem de forma correcta. La relación entre la actuación de un candidato con este ítem y las capacidades inherentes a la actuación del ítem se describen en una curva característica del ítem (CCI) (ítem characteristic curve). Ésta muestra que la posibilidad de responder a un ítem correc tamente crece al mismo tiempo que el nivel de competencia del candidato. La figura 4.5 muestra un ejemplo simple de CCI. La probabilidad qu e tiene de res ponder correctamente al ítem se muestra en el lado izquierdo del gráfico y los niveles de competencia de los alumnos se muestran abajo en horizontal. Los niveles de competencia en este caso van de -3 a +3. Esta escala, que se llama escala de logit (logit scale) es bastante arbitraria. Si al usuario no le gustan las cifras negativas, los niveles pueden transformarse para que oscilen de 100 a 0, con una m edia de 50. En este ejemplo pu ede verse que los alumnos con un nivel de competencia de 0 tienen un 0,3 (o 30%) de posibilidades de responder al ítem correctamente.


Hay tres modelos principales de TRI, y las opiniones varían acerca de qué modelos son los más apropiados para distintas circunstancias. Sin embargo, cual quiera que esté pensando en utilizar el TRI para analizar pruebas debería pedir consejo antes de embarcarse. Todo lo que podemos hacer es describir breve mente las p rincipales ventajas e inconvenientes de cada modelo.

MODELO (RASCH) DE UN PARÁMETRO Este es el más simple de los tres modelos. Es comparativamente fácil de enten der y requiere meno s sujetos en una muestra que los otros dos mod elos. Se con sidera suficiente un mínimo de 100 estudiantes. Naturalmente, en muchas situaciones, este núm ero es im posible de obtener, pero si se usa una muestra menor, los resultados tendrán un margen de error demasiado alto. Este modelo resulta muy manejable para análisis simples y prácticos, pero es limi tado en cuanto a su alcance porque sólo incluye dos aspectos: la capacidad lingüís tica del sujeto y la dificultad del ítem. N o tiene en cuenta la discriminación del ítem. Hay dos programas útiles para llevar a cabo análisis de Rasch, que son BIGSTEPS y QUEST (véase apéndice 8).

MODELO DE DOS PARÁMETROS Este modelo hace todo lo que hace el modelo de un parámetro, pero también tiene en cuenta la discriminación del ítem. Es, pues, más complejo y requiere una muestra de al menos 200 estudiantes.

MODELO DE TRES PARÁMETROS El m ode lo de tres parámetros no sólo hace todo lo que hacen el mode lo de uno y de dos parámetros, sino que también tiene en consideración el factor de acierto por suposición. Es mucho más sofisticado que los otros dos modelos y sus defen

Ensayos previos y aná lisis

Las matemáticas que subyacen en el TRI son dem asiado comp lejas para poder explicarlas aquí, p ero Henning, 198 7, y Crocker y Algina, 198 6, contienen breves introducciones al respecto; W right y Stone, 197 9, W right y Masters, 19 82 , Lord, 1980, y Hambleton, Swaminathan y Rogers, 1991, lo explican con más detalle. Un progra m a informático que p uede utilizarse para efectuar análisis de uno, dos y tres parámetros es el BILOG (véase el apéndice 8). El TRI es un instrumento adicional útil para el responsable de un examen. Puede utilizarse para identificar ítems que no se adaptan al grupo que se va a evaluar. Es útil para detectar la parcialidad de una prueba, y pu ede utilizarse para analizar los resultados tanto de pruebas objetivas como subjetivas. También es muy bueno para las pruebas adaptadas al ordenador. Sin embargo, no es necesario para el análisis de ítems básico de una prueba nueva.

BANCOS DE ÍTEMS El TRI es ideal para aquellos que desean almacenar ítems en bancos de ítems. Los ítems ensayados o grupos de ítems pueden «calibrarse» de acuerdo con características como la competencia de una persona, la dificultad del ítem, su poder de discriminación, y puede ser almacenado en un banco para ser utilizado cuando sea necesario. Entonces, cuando los responsables de una prueba están pensando en la elaboración de una nueva versión de un examen, pueden seleccionar del banco los ítems que tengan no sólo el nivel adecuado para la población del examen sino que también pueden combinarlos de manera que elaboren una prueba que sea equivalente en cuanto a dificultad y discriminación a pruebas anteriores del mismo tipo. El disponer de un banco de ítems depende de la disponibilidad de al menos 200 personas para cada ensayo y de la existencia de un grupo de ítems de anclaje que estén ya calibrados y por lo tanto se sepa su nivel de dificultad. Los nuevos ítems se colocarán en la misma escala de dificultad que los ítems ya existentes.

4.4.5. Estadística descriptiva Durante la fase de ensayos previos, además de analizar el comportamiento de ítems individuales, es útil también analizar el comportamiento global de una prueba y el comportamiento de cada una de sus partes. Aquí también deberán tenerse en cuenta los distintos requisitos de cada prueba, pero en cualquier caso deberían hacerse gráficos de la distribución de resultados, mostrando el lugar donde se agrupan los resultados y la amp litud de su dispersión. Los valores estadísticos más importantes que se deben realizar son la media (mean), la moda (mode) y la mediana (median), que muestran cómo se agrupan los resultados, y el rango (range) y la desviación típica o estándar (standard deviation), que m uestran la am plitud o recorrido de los resultados (entre la nota más alta y la más baja; véase el apéndice 4 para e jemplos desarrollados). Los histogramas de la figura 4 .6 muestran


7

7n

«

jÉ jÉJ 6'

1 S5 j¡j j¡j 4flj lÜ3' £ l 2 l 0

(*>)

86

.1 S ï +J

8
;

•P

Ó

i

2

3

4

S

Nota

6

7

8

9

Í0

U

i----- t t f 0 12 3 4 S 6 7 8 9 Nota

Media Moda M e d ia n a N °. d e r a n g o Estudiantes D.T.

6 6 6

6 6 6 4 1,13

6 7 6 ,5 8 2 ,3 4

0,74

(a)

(b)

(c)

2

En los tres casos, 12 alumnos alumn os han hecho una prueba de 10 ítems. Podemos Podem os ver en los histogram as que aunque la media es 6 cada vez, vez, los resultados resultados globales de la prueba son muy distintos. En A y en B, por ejemplo, hay más alumnos que obtuvieron la nota media que cualquier otra nota: 4 alumnos tuvieron un 6 en A, y 6 alumnos tuvieron un 6 en C. Sin embargo, en B hay más alumnos con un 7 que con un 6. La nota obtenida por el mayor grupo de alumnos se llama la moda, que en el caso de B es 7. Es útil tener la moda además de la media, en par ticular ticular si la la prueba es muy fácil fácil o muy mu y difícil, difícil, o cuando parece que los alumnos que han realizado la prueba tienen dos niveles diferenciados. La figura 4.7 da un ejemplo de los resultados de una prueba que resultó muy fácil para los estu diantes diantes.. La m oda od a es 20, 2 0, mientras que la media es 15,55. 15,5 5. Tal distribución distribución de notas, notas, en la que éstas se agrupan en el extremo alto del histograma se describe como «asimetría negativa», porque el número de notas decrece hacia la izquierda del gráfico. Si una prueba es muy difícil y los resultados disminuyen hacia la dere cha del gráfico, se dirá que existe una «asimetría positiva». La figura 4.8 muestra los resultados de una prueba que podrían haber reali zado estudiantes con dos niveles de competencia distintos. Por ejemplo, el res ponsable de la evaluación quizá ha administrado la prueba a dos grupos distintos, un grupo de nivel intermedio y otro de nivel avanzado. En este caso se describirá la distribución como «bimodal», puesto que tendrá dos modas. Si sólo hubiéram os buscado bu scado la nota media, no habríamo s obtenido una idea clara clara de los resultados puesto que sólo un alumno tuvo un 11. Si se dan la media y las modas la distribución de las notas se describe de forma más informativa.


Nota

Media Media = 15,55 15,55

Moda = 20

F ig . 4.7

Nota

Media Media = 1 1

Modas Modas = 6 y 17

F ig . 4.8

La terce tercera ra medid a de «tenden cia central» (medidas qu e muestran dónde se agrupan las notas) es la mediana, que corresponde a la nota obtenida por el estu diante que está en el centro de las notas de todos los estudiantes. Si, por ejem plo, cinco estudiantes realizaron una prueba y obtuvieron notas de 9, 7, 6, 2 y 1, la mediana sería de 6. La mediana es especialmente informativa cuando el responsable de la prueba tiene la sensación de que la media no es representativa del todo del nivel de competencia del grupo. Por ejemplo, si todo el grupo de 10 alumnos menos uno obtiene notas entre 8 y 10, y hay un alumno que obtiene un 1, la nota m edia se verá verá reducida por esta nota disidente. disidente. Para com  pensar cualquier representación errónea de las notas, es mejor tener también en cuenta cuenta la mediana además de la media. En la figura 4 . 6 se verá que las distribu-


do ne s simétricas de (a) y de (c) y la la mediana son iguales con la media, pero que en la (b) la mediana, 6,5, es distinta. Una Un a vez estudiadas estas medidas d e tenden ten denda da central central,, tenem os una idea idea más dara de las diferencia diferenciass en las distribudo nes de n otas de los ejemp los de la figura figura 4.6. Sin emb argo, ningu na de estas medidas exp lica lica las las diferenci diferencias as en la la dis persión de resultados. Por ejemplo, A y C tienen medias, modas y medianas idénti idénticas cas,, pero pu ede verse verse a simple vista vista que A tiene tiene una distribud ón de resul tados mucho más amplia que la C. La forma más simple de analizar esta diferencia rencia es ver d rango de cada distribu dón . El rango es la diferen difer enda da entre entre la nota más alta alta y la nota m ás baja. Así pues, d rango en A es de 8—4, que es igual a 4, y en C es 2. Cuand o sabe mo s los rangos, se muestran algunas algunas de las dife diferenci rencias as existentes en las amplitudes de las tres distribudones. Está ahora claro que C con un rango de 2, tiene tiene una d istribud ón de notas reducida, mientr mientras as que B, con un rango de 8, la tiene tiene amplia. amplia. El rango es una m edida m uy útil de «d ispe rsión », p ero tiene tiene un inconve niente: niente: no tiene tiene en cuenta los los hu ecos en la distribudó n, es de dr , las cali califi ficacado ne s qu e nadie obtuvo. Así, Así, en B, ningún alumno tuvo un 5 o un 9, p or tant tantoo d rango es quizá una exa gerad ón de la distr distribuci ibución ón de las las notas. notas. La medida de dispersión que tiene en cuenta cada una de las notas obtenidas es la desviación típica. Ésta es una estadística m uy im portante portan te y de bería obtenerse siempre siem pre que sea posible. Cualquier libro introductorio de estadíst estadística ica explica explicará rá la desv iadó n típica típica,, y puesto que es más c om plicada de explicar que las otras otras m edidas des critas, la describiremos aquí muy brevemente. La desviadón típica (D.T.) corres ponde, aproximadam ente, a la la variación variación med ia de la nota de cada alumno con respecto respecto a la media. Si un alum no tiene tiene una nota de 4, y la nota med ia es un 6, este estudiante se desvía —2 d e la m edia. De la mis m a manera, un alum no con un 10 se desviará un 4 de la media. La D.T. informa sobre la media entre las desviaciones de cada nota respecto a la media. Si vemos la figura 4.6 otra vez veremo s que A tien tienee una D.T. D.T. de 1,13 , B la la tien tienee de 2,3 4 y C de 0 ,74 . Com pa rando estas cifras cifras po dem de m os ver al instant instantee que C está m eno s dispersa que A o B. B. Hay otras estadísticas y gráficos que se utilizan para describir la distribución de resultados (véase cualquier libro de introducción a la la estadística), estadística), pero un histograma y las cinco med idas mencion adas más arriba arriba son adecuadas para la mayoría mayo ría de los objetivos. Con estas estas medid as es posible comp arar el el nivel de difi cultad cultad y la disp ersión d e resultados de distint distintas as partes partes de un a prueba o de dis tintas tintas pru ebas eba s entre sí. Estas Estas med idas de tendencia central central y de dispe rsión mostrarán hasta hasta qué punto es apropiad o el borrador de exam en para los prop ósitos con los que se ha redac redac tado. Por ejemplo, será posible ver si la prueba tiene el nivel de dificultad ade cuado. También será posible ver si la prueba es capaz de discriminar entre distintos estudiantes. Si un a prueba debe d istinguir entre entre much os niveles niveles de estudiantes, estudiantes, u na qu e sea m uy fácil o m uy difícil difícil con una distribución distribución asimétrica asimétrica


sión amplia de notas con sólo unos pocos estudiantes que obtengan una nota en concreto (véase la figura 4.9 a continuación). Para este tipo de prueba, los ítems deberían tener unos I.D. altos, altos, pu esto que éstos provocarán que las notas notas de los alum nos estén dispersas dispersas.. Sin embargo, si la prueba tiene tiene una nota de corte única y los resultados son sólo de aprobado/suspenso, la prueba puede necesi tar una distribución bimodal, agrupando a los alumnos a un lado o a otro mien tras tras unos p ocos alumno s obtienen la nota de corte corte mism a (véase (véase la la figura 4.8 ). Si una prueba se redacta pensando en seleccionar sólo los alumnos que estén en lo más alto o en lo más bajo del rango de competencia, los coeficientes de difi cultad de los ítems deberían reflejarlo.

6-1

S 5'

1+J Z 3-j 3-j

2u 2 < £

-

~T

0

f ' V

1

2

I" * t - ' - i

3

4

5

||- *

6

t

7

8

9

- *~ l

I

i '~ r

>

T

i

l

1

T

10 11 12 13 14 15 16 17 18 19 20

Nota

Fig. 4.9 Así, por ejemplo, si una prueba está pensada para seleccionar al 20% de los estudiantes más flojos para darles clases suplementarias, entonces los ítems debe rían tener coeficientes de dificultad altos. Esto llevará a una discriminación más alta entre los alumnos más flojos, como puede verse en la figura 4.7, en la que los alumno s de nivel nivel alto alto se agrupan juntos, y el 10% de los más flojos se agr u pan en el extremo inferior de la distribución. distribución. Para Para más inform ación sobre este este aspecto, véase Crocker y Algina, 1986 19 86 y Anastasi, Anastasi, 198 8.

4.5. Versiones paralelas y equivalentes equivalentes Es frecuentemente frecuentemente necesario p roduc ir versiones paralelas paralelas o equivalentes equivalentes de una prueba. Com o hem os visto, se utilizan utilizan versiones versiones paralelas paralelas para evaluar evaluar la fiabi lidad de una pr ueba y se necesitan necesitan versiones equivalentes equivalentes siempre que una ver sión única no pueda resultar segura por una u otra razón. Aunque los términos «paralelo» y «equivalente» son a menudo utilizados indistintamente, los mantendremos diferenciados. Pruebas paralelas son aquellas diseñadas para que sean lo más similares posible. Deberían, pues, incluir las m is mas instrucciones, instrucciones, los mism os tipos de respuesta, respuesta, el mism o núm ero de ítems, y deberían deberían estar basadas en el m ism o contenido. contenido. Deberían también, si se prueban con los mismos candidatos, producir las mismas medias y desviaciones típicas. Cada alumn o debería obten er notas casi idénticas para cada pru eba —las diferen cias existentes se deberían a la poca fiabilidad de la prueba—y si hubiera más de

Hablantes nativos

dos versiones paralelas de la prueba, todas las versiones deberían corresponderse igualmente (véase Magnusson, 1966, y Crocker y Algina, 1986). Tales pruebas paralelas son muy difíciles de elaborar, y además de utilizarse en estudios de fiabilidad se se usan de forma form a m ás corriente corriente en estudios en los que los sujetos de experimentación realizan pruebas no idénticas sino similares. Muchos tribunales de exámenes elaboran una o dos nuevas versiones de sus exámenes cada año. En estos estos casos, no elaboran versiones versiones paralelas paralelas sino que intentan elaborar versiones equivalentes, que se basan en las mismas especificaciones pero que pueden variar en cuanto al número de ítems, los tipos de respuesta y el contenido. Los tribunales tienen a menudo una serie de tipos de pruebas que pueden utilizar en un exam en y no suelen, suelen, ni lo pretenden, pretenden, usarlos todos en cada examen. Lo importante de las pruebas equivalentes es que midan las mismas destrezas lingüísticas y que tengan una correlación alta entre entre ellas ellas.. Es de suponer, naturalmente, que las versiones equivalentes serán de un nivel de dificultad similar y tendrán una dispersión de calificaciones parecida, pero si las medias y las desviaciones típicas no son idénticas, las calificaciones que se den a los estudiantes pueden ajustarse para tenerlo en cuenta (véase capítulo 7). Para calibrar las dos versiones de una prueba, las dos pruebas deberían darse al mismo grupo de estudiantes. Sin embargo, si es posible tener ítems de anclaje y usar análisis TRI (véase el apartado 4.4.1), entonces esto puede no resultar necesario. Sin embargo, debe llevarse a cabo algún tipo de comprobación en algún mo me nto. No es suficiente suficiente confiar confiar en la la opinión de los redactores redactores y los examinadores. 4.6. 4.6. Hablantes nativos

Un aspecto de los ensayos previos que hasta ahora no hemos discutido es la cuestión de los ensayos generales con hablantes nativos. Existe una polémica sobre si los exámenes de lengua extranjera deberían ensayarse con hablantes nativos (véase Alderson, 198 0; A ngo ff y Sharon Sharon,, 197 1, y Hamilton, Lopes, Lopes, McN amara y Sherida Sheridan, n, 19 93 ). Los intentos para definir definir a un «hablante na tivo» también han resultado resultado problemáticos (véase (véase Davies Davies,, 19 91). Sin Sin embargo, aunque somos conscientes de las complejidades del tema, nuestra opinión es que la actuación de hablantes nativos, seleccionados adecuadamente, es un aspecto importante de un a prueba, sobre el que deberían deberían recogerse datos datos.. Algunos responsables responsables de exam en dicen que puesto que a los examinandos no se les les está com para ndo con hablantes nativos, nativos, tales tales ensayos son innecesarios. innecesarios. Esto puede ser razonable si las pruebas son de nivel elemental o intermedio, aunque incluso en estos casos nosotros defenderíamos q ue al menos se utiliz utilizaaran hablantes nativos para los ensayos informales, puesto que siempre existe el peligro de que los redactores escriban ítems qu e observan las las reglas de la len-


hablantes nativos tam bién varían entre sí. Sin emb argo, para prueb as de corrección objetiva, los ensayos con hablantes nativos son valiosísimos. Puesto que se supone que m ucho s candidatos no tendrán un nivel de lengua tan alto com o el de hablantes nativos cultos, cualquier ítem que resulte demasiado difícil para estos nativos deberá suprimirse.

4.7. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario Antes de compilar las respuestas de los tribunales al cuestionario, se estudiaron los folletos inform ativos para ver si había discrepancias entre éstos y las respuestas. La única discrepancia que enc ontram os afectaba a un tribunal que decía que no llevaba a cabo ningún tipo de ensayo previo, aunque los materiales que publicaban demostraban qu e sí lo hacían. Hem os adaptado nuestro informe para tener en cuenta este punto. Puede que otros tribunales no hayan dado una imagen exacta de sí m ism os, pero sólo po de m os reflejar la información q ue se nos ha hecho llegar. N uestra única divergencia co n las respuestas del cuestionario fue la de seguir la recomendación de un tribunal que nos p idió q ue m encionáramos una tesis de doctorado como información sobre las estadísticas utilizadas durante la fase de ensayos previos. Puesto que UCLES no sólo co mpletó cuestionarios por separado para la mayor parte de sus exámenes, sino que también completó cuestionarios para muchas de las distintas partes de cada examen, es difícil com parar sus respuestas c on las de los otros tribunales de exámenes. En algunos casos, pues, las respuestas de UCLES se han tratado por separado.

PR EG U N TA 2 1 : ¿Llevan a cabo ensayos previos con los ítems o preguntas? En caso afirm ativo, ¿cómo se seleccionan los estudiantes y cuántos responden a cada ítem o pregunta? De los doce tribunales, seis dijeron que sus ítems se ensayaban y seis dijeron que no. De los seis que dijeron que llevaban a cabo ensayos previos, dos se referían a ensayos informales; uno dijo que ensayaba los ítems con unos pocos alumnos puesto que «la confidencialidad del material es esencial» y el otro dijo que los métodos de evaluación y los ítems difíciles se ensayaban de manera informal «con redactores o examinadores que en sus propias escuelas utilizan candidatos de ñar». La confidencialidad de la prueba es lo más importante». De los otros cuatro tribunales, uno dijo que sólo ensayaba los ítems durante la fase de desarrollo del examen, y otro sólo ensayaba los ítems de respuesta múltiple. Los dos centros restantes que dijeron que llevaban a cabo ensayos previos fueron UCLES y la AEB (Associated Examining Board). Los ensayo s previos de UCLES


correspondientes a la comprensión de lectura, la comprensión oral y partes del uso del inglés, pero sólo se ensayaban dos de las pruebas de expresión escrita, y ninguna prueba oral. No todas las respuestas de UCLES incluían cuántos alumnos se utilizaban para e stos ensayos generales, pero la escala de los ensayos parec ía variar entre las distintas partes de la prueba. En un caso (CEIBT) había demasiados pocos alumnos para llevar a cabo análisis estadísticos, pero en los casos de las pruebas de comprensión escrita del CAE y del CPE, se probaban los ítem s con 20 0—40 0 estudiantes. El CCSE se ensayaba con uno s 100 alumnos, pero c uriosamen te no se llevaba a cabo ningún análisis estadístico de los resultados. El examen de AEB TEEP, como se subrayó anteriormente, es un examen excepcional no só lo po rque sólo existe una versión, sino también porq ue actualmente no lo administra la AEB. Sin emba rgo, puesto que estaba bajo la auto ridad de la AEB cuando se respon dió al cuestionario, se tendrá en consideración aquí. Después de u nos cuantos ensayos informales, se hacía un ensayo general con alrededor de 100 hablantes nativos y 3 00 —400 hablantes no nativos. La muestra de no nativos intentaba ser lo más representativa posible de los estudiantes extran jeros en Gran Bretaña, con alumno s qu e se clasificaban de acuerdo co n su lengua materna, nivel académ ico y disciplina académica (véase Weir, 19 83 ). De los seis tribunales que respondieron que no hacían ensayos previos, uno dijo que se hacían ensayos iniciales para «establecer niveles» y uno dijo q ue « las preguntas y las distintas partes del exam en se ensayan durante la fase de desarrollo de la prueba, p ero no una vez administrada la prueba por primera vez». Un centro respond ió que el núm ero d e estudiantes que habían tenido hasta el mom ento había sido dem asiado pequeño para hacer ensayos y «facilitar estadísticas fiables», pero que «con la buena acogida que ha tenido el examen, empezarían a poner en práctica este procedimiento a partir de ahora». El LCCI dijo que «s e proyecta crear un banco con una selección de ítems probados para uso futuro». Tres tribunales, haciendo referencia a sus exámenes de inglés hablado, dijeron que no era apropiado hacer ensayos previos. Parece desprenderse de las respuestas de los tribunales que hay planes para llevar a cabo más ensayos en el futuro. Sin embargo, el hecho de que cuando se completó el cuestionario no hubiera tribunales que ensayaran sus ítems de forma habitual, y que sólo tres llevaran a cabo pruebas de sus ítems a gran escala, es motivo de grave preocupación. Hay motivos para sospechar que los estudiantes no se examinan con la justicia necesaria. Parece haber dos razones para que tantos exámenes no se ensayen. Primero, algunos tribunales creen que los ensayos generales no son necesarios por la manera exhaustiva que tienen de preparar y seleccionar los ítems, y también a causa de la experiencia de sus asesores. Segundo, puede resultar difícil ensayar una prueba confidencial sin revelar información a candidatos futuros. A partir de nuestros comentarios al comienzo de este capítulo, debe quedar claro que no suscribimos la primera de las razones aducidas más arriba. Puesto que hay evidencia de que incluso examinadores experimentados pueden errar


a la hora de juzgar el nivel y el efecto de los ítems de un examen, creemos que es esencial que se ensayen tod os los ítems. La segunda razón es más poderosa: cualquiera que haya intentado ensayar un examen sabe lo difícil que resulta encontrar candidatos apropiados, incluso cuando no está en peligro la confi dencialidad. Sin embargo, el problema no es imposible de solucionar, puesto que hay tribunales que sí llevan a cabo ensayos generales. Discutiremos una manera de abordar este problema al final de este capítulo. Resultó sorprendente que hubiera tantas pruebas de corrección subjetiva que no se ensayaran. Parece que muy pocos tribunales ensayan sus pruebas de expre sión escrita y casi ninguno ensaya sus exámenes orales. Tres tribunales respon dieron que ensayar sus pruebas orales «no era procedente». Una posible explicación a esto es que los tribunales hayan malinterpretado la expresión «ensayos previos». Una de las respuestas procedentes de UCLES confirma esta posibilida d diciendo que m ientras que la parte correspondiente al uso del inglés del CAE se ensayaba con 100-300 personas, la prueba de expresión escrita se ensayaba (el subraya do es suyo) a un a escala men or. Puede resultar que al m en os uno de los tribunales pensó q ue «e nsay os p rev ios» hacía referencia a ensayos a gran escala de preguntas de corrección objetiva y por lo tanto dijo que no pr o cedía el ensayar las pruebas orales. De todas maneras, es preocupante el hecho de que no se lleven a cabo ensayos de ningún tipo, puesto que hay muchos aspectos que pued en salir mal en la redacción, adm inistración y corrección sub jetiva de prue ba s. Si los ce ntros no en sayan su s pru eb as de corrección subjetiva con antelación, intentarán posiblemente compensar los defectos durante la fase de corrección, pero será demasiado tarde. PREGUNTA 22: Si realizan ensayos previos, ¿qué estadísticas calculan a partir de los resultados? Un o d e los tribunales que no realizaba ensayos previos a gran escala respon dió: «N o se necesitan estadísticas: si cualquiera de los m iem bro s del com ité de redacción tiene serias dudas sobre la adecuación de un ítem, éste no se utiliza». Otro tribunal dijo: «N o se calculan estadísticas oficiales», pero «s e us a la infor mac ión obtenida en los ensayos informales para mejo rar o rechazar pregu ntas». Sólo tres tribunales llevaban a cab o anáfisis estadísticos de lo s resultados de los ensayos. Uno de estos, la City and Guilds, usa la siguiente información para cada ítem de respuesta múltiple: el coeficiente de dificultad, el índice de dis criminación biserial puntual, el porcentaje de candidatos qu e escog en cada una de las opcion es, la nota med ia de la prueba de los candidatos que e scogen cada opción y el porcentaje de alumnos que escogen cada alternativa en el tramo del 27% su pe rio r e infer ior de la muest ra (City and Guilds, 1984). De nuevo, los procedimientos de UCLES eran muy variados. Este tribunal no llevaba a cabo anáfisis estadísticos d e ning una d e las partes del CCSE ni tam poco de la mayoría de las pruebas corregidas de forma subjetiva. Además, no calculaba


los otros tipos de prue bas de corrección objetiva realizaba «estadísticas glob ales», con lo que seguramente quería referirse a medias, desviaciones típicas y otras medidas de distribución de resultados. Para IELTS, las estadísticas de los ítems y de la prueba se hacían utilizando el programa de Microcat ITEMAN al que nos hemos referido anteriormente en este capítulo. Los ítems también se calibraban «entre versione s, utilizando ítem s de anclaje». Presumiblemente se utilizaba el análisis según la Teoría de la Respuesta al ítem. Para CEELT (Cambridge Examination in English for Language Teachers), se calculaban el coeficiente de dificultad y las correlaciones biseriales puntuales para cada ítem y las medias, las desviaciones típicas, la asimetría y la curtosis (el grado de inclinación de una curva de distribución) para cada parte de la prueba o para la prueba completa. La AEB calculaba lo s coe ficientes de dificultad y las correlacione s biseriales puntuales para cada ítem, y las m edias y las desviaciones típicas para todas las partes del examen (véase Weir, 19 83, para más detalle). Todas las estadísticas se llevaban a cabo con hablantes nativos y no nativos. Es sorprendente que tres de los tribunales que llevan a cabo análisis previos no analicen los resultados. Presumiblemente, sólo se utiliza el ensayo para estudiar las respuestas de los estudiantes y para comprobar la administración del examen. Si esto es así, se está perdiendo inform ación m uy útil. La tesis doctoral de Weir (Weir, 19 83 ) m ostró que AEB hab ía calculado índ ices de fiab ilidad en sus exám enes de corrección objetiva, pero ningú n otro tribunal mencionó la evaluación de la fiabilidad de sus pruebas de corrección objetiva durante la fase de ensayos previos. En algunas de las respuestas de UCLES, sin embargo, puede haberse incluido bajo «estadísticas globales», puesto que el programa de Microcat ITEMAN da automáticamente el alfa de Cronbach. Nin gún tribunal hizo referencia alguna a la compr obación de la fiabilidad de las pruebas de corrección subjetiva durante los ensayos previos. En algunas situaciones no es p osible calcular la fiabilidad de ítems de corrección subjetiva hasta que se ha adm inistrado la prueba, pero en exám enes que se administran a gran escala, debería ser posible hacerlo en la fase de ensayos previos para poder m od ificar las tareas y los criterios de corrección antes de administrar la prueba final. La fiabilidad de las pruebas de corrección subjetiva se discutirá más a fond o en el capítulo 6. PREGUNTA 23: ¿Qué ocurre si los ítems o preguntas que se ensayan no son satisfactorios? Los seis tribunales que ensayaban sus ítems dijeron que si los ítems no eran satisfactorios, se re form ulaba n o se descartaban. Tres de las respuestas de UCLES dijeron que todos los ítem s revisados se volvían a someter a un ciclo de ensayos previos. Cada vez que se vuelve a redactar un ítem debería probarse de nuevo, puesto que no hay ninguna garantía de que un ítem modificado sea mejor que su predecesor. Sin emba rgo, en much os tribunales, puede resultar imp osible volver a ensayar los ítems. En estos casos debería analizarse el ítem una vez se ha adm inistrado la prueba final para pod er suprim ir los malos ítems del cómpu to final.


PR EG U N TA 2 4 : ¿Qué pasos se dan, además de los mencionados anteriormente, para controlar la ca lidad de los redactores de ítems o pruebas? Dentro de las respuestas de UCLES, las correspondientes a las pruebas orales del PET, FCE, CAE y CPE dijeron que se recogían comentarios de los examinadores, de los candidatos y de los distintos tribunales. Los redactores de las partes de corrección objetiva se reunían en sesiones de selección y estaban supervisados por el presidente del comité y por el responsable de la prueba. Una respuesta menc ionó un curso de form ación de redactores, p ero no estaba claro si éste tenía lugar antes o después de realizarse los ensayos previos. Del resto de tribunales de exámenes, cinco no contestaron a la pregunta o dijeron que no era procedente en su caso. Tres dijeron que los borradores de las pruebas se analizaban y los comentarios resultantes se hacían llegar a los redactores antes de la prueba, y los tres tribunales restantes dijeron que los correctores hacían comentarios después de la administración de un examen y que el trabajo de los redactores de analizaba entonces. Uno dijo que «el análisis revelaba calidad» y que los redactores no competentes «no continuaban».

4.8. Estudio sobre los tribunales de examen de inglés como lengua extranjera (EFL): documentación Los docum entos ap ortados por los tribunales no contenían casi ninguna info rmación sobre ensayos previos, por lo que no po dem os am pliar las respuestas citadas más arriba. Sin embargo, UCLES nos mandó una nota en la que señalaba que se acababa de crear una unidad de ensayos previos en la División de Inglés co m o Len gua Extranjera y que estaban en un p roceso de am pliación de ensayos previos y de creación de un banco de ítems electrónico. No se añadía más detalle.

4.9. Debate La principal preocupación que se desprende de los resultados anteriores es, sin duda, la no realización de ensayos previos por parte de muchos tribunales. Es una pena que el análisis exhaustivo y el proceso de selección de las pruebas que llevan a cabo la mayoría de los tribunales no vaya seguido de comprobaciones empíricas. La diñcultad de encontrar alum nos adecuados es en realidad importante y los centros que no llevan a cabo ensayos previos deberían averiguar cómo pueden hacerlos los demás. Una forma de solucionar el problema de encontrar muestras representativas, y al mismo tiempo garantizar que se mantiene la confidencialidad de los materiales, es dar los ítems piloto a los candidatos mientras realizan exámenes reales. Si estos ítems añadidos se incluyen en el examen sin que lo sepan los candidatos, tendremos no sólo candidatos del nivel y conocimientos generales

Sumario

dad que a menudo falta en los ensayos. Los resultados de estas partes piloto del examen no se tendrán en cuenta en la calificación final que se entregará a los candidatos, pero una vez se hayan analizado los ítems, se podrán almacenar los que hayan resultado satisfactorios en un banco de ítems para exámenes futuros. Un inconveniente de este método de ensayo previo es que la inclusión de material piloto puede hacer el examen demasiado largo o exigente. Sin embargo, parece ser la forma más sencilla de realizar un ensayo y de obtener los resultados más válidos. Si los examinadores están preocupados por dar a los candidatos ítems no prob ados que pu eden resultar poco claros y por lo tanto provocar ansiedad, siempre pueden informar a los candidatos de que algunos ítems son de muestra y no se puntuarán. Sin embargo, esto podría causar problemas. Los candidatos podrían prestar menos atención a los ítems que creen que son piloto, lo que provocaría actuaciones poco representativas. Además, podría haber un problem a de confidencialidad, puesto que si los candidatos creen haber identificado con éxito los ítems piloto, pueden memorizarlos para pasar la información a futuro s candidatos. 4.10. Sumario ENSAYOS PREVIOS: PROCEDIMIENTOS

Pruebas piloto (con un pequeño grupo de candidatos que incluya hablantes nativos del idioma que se vaya a examinar). Comprobar la administración de la prueba, el tiempo, las instrucciones, el contenido, la clave de respuestas, etc. Ensayos generales (con tantos alumnos como sea posible, incluyendo hablantes nativos en exámenes de nivel avanzado). Comprobar la administración de la prueba, las instrucciones, el contenido, la clave de respuestas, etc. Pruebas de corrección objetiva Análisis de ítems: índice de discriminación y coeficiente de dificultad Examen completo: fiabilidad, por ejemplo KR20 o KR21. Pruebas de corrección subjetiva Corregir una muestra de redacciones o de entrevistas para comprobar cómo funcionan las tareas, los criterios, etc. Fiabilidad: Com probar la consistencia externa e intema de los correctores (ver capítulo 6). Para todas las pruebas, calcular las estadísticas de distribución H i s to g r a m a Media, moda, mediana, rango, desviación típica. Después de los ensayos previos, hay que cambiar los procedimientos de adm inistración, el tiempo, etc.; se modificarán los ítems y, si es posible, se volverán odificados.


Bibliografía Alderson, J. C. (198 0). «Native and Non-native Speaker Performance on Cloze Test.» Language Learning, 13 (1), págs. 59—76. Alderson, J. C. (199 3). «Jud gem ents in Language Testin g.» En D. Douglas, y C. Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia. Anastasi, A. (1988). Psychological Testing. Macmillan, Londres. Angoff, W. y A. J. Sharon (1971). «A comparison of scores earned on the Test of English as a Foreign Language by native American college students and foreign applicants.» TESOL Quarterly, 5, p ig. 129. Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University Press, Oxford. Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el Language Testing Research Colloquium, Princeton, NJ. Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Flolt Rinehart Winston, Chicago. Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press, Edimburgo. Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education. McGraw-Hill, Tokio. Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response Theory. Sage Publications, Newbury Park, Calif. Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and Native Speaker Performance o n a Communicatively Oriented EAP Test.» Melbourne Papers in Language Testing, 2, págs. 1—24. Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass. Hudson, T. y B. Lynch. (1 98 4). «A Criterion Referenced Measurement Approach to ESL Achievement Testing.» Language Testing, 1, pigs. 171—202. Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum, Hillsdale, NJ. Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass. Weir, C. J. (198 3). «Identifying the Language Problems of Overseas Students in Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres. Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press, Chicago. Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press, Chicago.

5

La formación de examinadores y administradores

En este capítulo se tratará el tipo de formación que necesitan los examinadores y los adm inistradores de las pruebas. Los examinado res deben familiarizarse con los sistemas de puntuación (sistemas o escalas)* que se espera que utilicen, y deben aprender cóm o aplicarlos de forma consistente. También deben saber qué hacer en circunstancias imprevistas o con respuestas para las que no han sido preparados. Incluso los exam inadores experimentado s necesitan puestas al día y formación constante y sistemática, y por este motivo describiremos con detalle la naturaleza de la formación necesaria, especialmente para quienes evalúan las actuaciones lingüísticas de los alumnos en cuanto a su expresión escrita y su expresión oral. Este capítulo debería leerse junto con el capítulo 6 para tener una visión completa de cómo garantizar la fiabilidad de la puntuación.

5.1. ¿Qué es un examinador? El término examinador indica la persona responsable de juzgar la actuación lingüística de un candidato en una prueba o examen. Utilizaremos este término para referirnos a todos los que tienen esta responsabilidad, sin distinguir entre los que puntúan partes del examen objetivas o subjetivas, ni entre los que han estado implicados en la elaboración o en la administración del examen. Distinguimos entre examinador e interlocutor en la evaluación de la expresión oral: el primer término se refiere a la persona que evalúa a los candidatos, mientras que el segundo se refiere a la persona que interactúa con el candidato mientras el examinador evalúa la actuación lingüística del candidato.

5.2. La importancia de la formación de los examinadores La forma ción de los examinadores es un com ponente crucial en cualquier programa de evaluación, puesto que si la puntuación de una prueba no es válida

* N del T. A lo largo de este capítulo y en capítulos posteriores se hará mención de las plantillas de corrección (marking schemes) y de las escalas de valoración (rating scales). Se ha intentado reflejar la diferencia entre ambos en el original, pero es justo mencionar aquí que el término que se viene utilizando tradicionalmente en español para ambos es el de criterios de evaluación. También queremos hacer notar que en inglés los términos marking y rating denotan los conceptos de corrección y puntuación pero que, al igual que marker y rater, se utilizan indistintamente en este libro.


y fiable, todo el trabajo llevado a cabo para obtener un instrumento de «calida d» habrá sido una pé rdida de tiempo. Aunque las especificaciones reflejen las finalidades de la institución o aunque se haya cuidado m ucho la elaboración y los ensayos previos, todos los esfuerzos serán vanos si los usua rios de la prueba no pueden confiar en los resultados que los exam inadores dan a los candidatos. La medición, según Mathews, 1985: 90, «incluye un instrumento de evaluación estándar y un operador que p uede aplicarlo de forma consistente». Y continúa con la afirmación de que hay al men os tres fuentes de inexactitud que pueden amenazar la solvencia de cualquier prueba: 1. dudas sobre la naturaleza de los atributos de los alumnos qu e van a examinarse y de las unidades de m edida qu e se les adjudicarán; 2. dudas sobre hasta qué punto las preguntas y las respuestas tienen realmente un a relación con estos atributos, aunque en este caso se haya identificado su naturaleza; 3. inexactitudes en los sistemas de pun tuación y varied ad de interpretación y aplicación de éstos por parte de los correctores. Los dos prim eros p untos se han discutido en los capítulos 2 (Especificaciones de examen) y 3 (La redacción de ítems y la función m od er ad or a). El tercero aparece sólo durante la fase de formación de los examinadores. En las páginas que siguen a continuación discutiremos los pasos que pueden darse para disminuir tanto la inexactitud del sistema de puntuación como la variedad que puede darse entre examinadores que empiezan a interpretar y aplicar sus sistemas de puntuación.

5.3. ¿Qué supone la formación de examinadores?

5.3.1. Tipos de puntuación Existen básicamente dos tipos de puntuación: objetiva y subjetiva, tal como se ha presentado en los capítulos 3 y 4. Estos dos tipos se describirán en profundidad más adelante, lo que servirá de contexto a la discusión sobre la formación de los examinadores.

PUNTUACIÓN OBJETIVA La puntuación objetiva se utiliza para los ítems de respuesta múltiple y de verda der o/falso , para los ítems que requieren la identificación de un error y para otro tipo de ítems en los que el candidato debe producir una respuesta que puede puntuarse c omo «cor recta » o «incorrecta». En la puntuación objetiva, el examinador compara la respuesta del candidato con la respuesta o la gama de

¿Qué supone k formació n de examinadores?

a la hora de puntuar (Mathews, 198 5: 90 y 101 ). El término «clave » se usa generalmente cuando hay u na única respuesta correcta para cada ítem (como se supone que ocurre en los tipos de ítem mencionados anteriormente). La puntuación de prueb as q ue tienen clave es mecánica y puede llevarla a cabo p ersonal administrativo o una máquina. La expresión «plantilla de corrección» se utihza cuando hay más de una respuesta posible a un ítem (como puede ocurrir en una transformación gramatical, por ejemplo, o en las pruebas de tipo cloze) o cuando los candidatos pueden utilizar sus propias palabras para expresar una idea en concreto (como es el caso de las respuestas breves en algunas pruebas de comprensión lectora). Tal como dijimos en el capítulo 4, el principal problema que se presenta en algunos tipos de puntuación objetiva (excluyendo las pruebas de respuesta múltiple) , es qu e los redactores no pueden prever todas las respuestas correctas que pueden llegar a dar los candidatos. Durante la fase de los ensayos previos es útil tomar nota de qué respuestas entre las no previstas son aceptables y qué respuestas no lo son; sin embargo, es posible que cuando se administre la prueba ñnal todavía aparezcan más respuestas q ue nadie haya previsto. El program a de formación para los examinadores de las secciones de puntuación objetiva debe ría dar a estos exam inadores tiemp o p ara analizar todos los ítems cuidad osamente, anotar sus respuestas como si fueran candidatos y corregir un gran número de exámenes administrados durante la fase de ensayos previos para ver si hay respuestas que debieran incluirse en el sistema de puntuación. La finalidad de la formación es completar el esquema de puntuación de forma que los examinadores, que a menu do corrigen individualmente y desde sus casas, no tengan dud as sob re las respuestas que de ben considerarse correctas o incorrectas. Además, los examinadores tienen que saber qué hacer cuando se encuentran con imprevistos para garantizar que no actúen de forma arbitraria y que cada uno tome diferentes decisiones.

PUNTUACIÓN SUBJETIVA La puntu ación subjetiva se utiliza habitualmente para puntuar pruebas de expresión escrita o de expresión oral. Los examinadores deben emitir juicios de valor que son m ás com plicados que las decisiones «correcto/inc orrecto» a las que nos re ferimo s anteriormente: deben evaluar lo bien que un candidato lleva a cabo un a tarea determinada y para esto necesitan tina «esca la de valoración» (rating scale). Esta escala puede consistir en números, en letras u otras etiquetas (por ejemplo: «Excelente» o «Muy bueno») que pueden ir acompañadas de afirmaciones so bre el tipo de actuación lingüística al que se refiere cada punto de la escala. Estas afirmaciones se llaman «d escr iptore s». Hay básicamente dos tipos de escalas. Los examinadores pueden tener que juzg ar la actuación lin güística del candidato en su totalidad, en cuyo caso utilizarán una «esc ala h olíst ica» o glob al (holisticscale). Un e jemplo de un a escala de este tipo se presenta en la figura 5.1 .

inistradores La formación de examinadores y adm

F ig . S . 1.

M uestra

de un a escala holística

18-20

Excelente

Inglés natural con errores mínimos y realización completa de la tarea encomendada.

16-17

Muy bien

Más que un conjunto de frases simples, con buen vocabulario y estructuras. Algunos errores básicos.

12-15

Bien

Realización simple aunque precisa de la tarea encomendada, con algunos errores serios.

8-11

Suficiente

Razonablemente correcta aunque torpe y no comunicativa O tratamiento natural y justo del tema, con algunos errores.

5 -7

Flojo

Vocabulario y gramática no adecuados al tema.

0^1

Muy Flojo

Incoherente. Los errores muestran la ausencia de conocimientos bá sicos de inglés.

D e: UCLES Internati ona l Exam inations in English as a Foreign Language General Handbook,

1987. Cuando los exam inadores utilizan este tipo de escala, se les pide que no ten gan m uy en cuenta ningún aspecto en concreto de la producción del candidato, sino que emitan un juicio sobre su eficacia en general. Este tipo de escala es a menudo también denominada «escala de impresión general» (impression scale), especialmente cuando se pide a los examinadores que emitan sus juicios de forma rápida. Otros examinadores pueden tener que juzgar varios componentes de una actuación lingüística por separado (por ejemplo, la caligrafía, la organización de los párrafos, la gramática, la selección de vocabulario). Este tipo de puntua ción re quie re u na «e sca la an alítica» (analytic scale), en la que hay descr iptore s para cada comp onente (véase figura 5.2 ). En la puntua ción analítica el candi dato puede obtener una nota m ás alta en un componente de la actuación lingüís tica que en otro; la institución debe decidir despu és si se com binan las distintas puntu aciones y cóm o se comb inarán para obtener una calificación final. (Véase la discusión sobre «po nd erac ión» en el capítulo 7.) Estas escalas (figuras 5.1 y 5.2) son sólo dos de las muchas disponibles en la evaluación del inglés com o lengua extranjera. El núm ero d e punto s de la escala y el núm ero de com ponen tes a analizar variará según el tipo y la exigencia de la tarea escrita u oral. El reto para los examinadores es el de comprender los princi pios que subyacen en las escalas de puntuación con las que deben trabajar y el de interpretar los descriptores de forma coherente. Este es el principal objetivo de los program as de formación para los exam inadores de la expresión escrita y uno de los do s principales objetivos para los exam inadores de la expre sión oral. En los

¿Qué supone la formación de examinadores?

remos cómo pueden modificarse estos pasos para los examinadores de la expresión oral. Se discutirá entonces una segunda dimensión en la formación de los exam inadores de la exp resión oral: la necesidad de desarrollar destrezas específicas si deben interaccionar con los candidatos al mismo tiempo que los evalúan. Fie. 5.2. 0. 1. 2. 3.

0. 1. 2. 3.

M uestra

de un a escala analítica

Relevancia v adecuación del contenido La respu esta no tiene prácticamente ningu na relación con la tarea enco mendada. Respuesta totalmente inadecuada. Respu esta de relevancia limitada respecto a la tarea. Existen posib leme nte lagunas importantes en el tratamiento del tema y/o repetición inútil. Resp onde en gran parte a la tarea, aunque puede haber algunas lagunas o información redundante. Resp uesta relevante y adecu ada a la tarea. Organ ización del texto No hay una organización clara del contenido. Muy poc a organización del contenido. Las estructuras subyacentes no son lo suficientemente claras. Hay ind icios de algunas destrezas organizativas, pero no se controlan de forma adecuada. La form a general y la estructura interna están claras. Las destrezas org an izativas se controlan de forma adecuada.

Cohesión 0. La cohes ión está casi totalmente ausente. El escrito es tan fragmentario que la comprensión de la comunicación prevista es prácticamente imposible. 1. La cohe sión poco satisfactoria pue de causar dificultades en la com prensión de la mayor parte de la comunicación prevista. 2. Co hesión satisfactoria en su may or parte aunq ue existen deficiencias ocasionales que pueden provocar que ciertas partes de la comunicación no sean siempre eficaces. 3. Uso satisfactorio de la coh esión que comp orta una comunicación eficaz.

0. 1. 2. 3.

Adecuación del vocabulario con respecto al objetivo El vocabu lario es inadecuado , incluso en los aspectos básicos de la com unicación prevista. U so inade cua do y frecuente del vocabu lario respecto a la tarea. Quizá uso inapropiado y frecuente del léxico y /o las repeticiones. Algún us o inadecua do del vocabulario en relación con la tarea. Quizá uso inapropiado del léxico y/o los circunloquios. Casi no existe un us o inadecuado del vocabulario para la tarea. Puede haber un uso poco apropiado de algunos elementos y/o circunloquios.

La formación

de examinadores

y administradores

0. 1. 2. 3.

Gramática Casi todas las estructuras gramaticales son incorrectas. Frecuentes incorreccion es gramaticales. Algunas incorrecciones gramaticales. Casi no se encuentran incorrec ciones gramaticales.

0. 1. 2. 3.

Precisión mecánica I (puntuación! Ignorancia de las convenciones de la puntuación. Poca precisión en la puntuació n. Algunas incorrecciones en la puntuación. Casi no se encuentran incorrecciones en la puntuación.

0. 1. 2. 3.

Precisión mecánica II (or tografía! Casi toda la orto grafía es incorrecta. Poca corrección en la ortografía. Algunas incorrecciones en la ortografía. Casi no se encuentran incorreccion es en la ortografía.

Procedencia:Test of Enalish for Educational Purposes, Associated Examinins Board. UK, 1984.

5.3.2. La formación de los examinadores de la expresión escrita El proceso que se describe a continuación es el adecuado para una prueba que tiene un gran núm ero de examinado res y en la que, p or razones prácticas, no todos los examinadores pueden tener el mismo p eso a la hora de tomar decisiones respecto al sistema de puntuación. La descripción siguiente asume que hay un «exam inador jefe» , que sólo o con un pequeño grupo de colaboradores, determina los criterios para la puntuac ión y los pasa a los exa mina dores, que pueden corregir de form a centralizada o en su prop io do micilio. Si una institución sólo cuenta con un pequeñ o grupo de personas para puntuar todo s los escritos produ cidos p or su población, y si estas personas corrigen en el mism o lugar al mismo tiempo, pueden cambiarse ciertos pasos del proceso siguiente para permitir mod ificaciones propuestas po r parte de todos los exam inadores. Sin embargo, el proceso descrito debería seguirse, en el mejor de los casos, en todos los programas de evaluación, aunque sean a pequeña escala.

LA REDACCIÓN DE LA ESCALA DE VALORACIÓN El redactor de una tarea de expresión escrita debería también ser el responsable de la redacción de la escala que se utilizará para puntuar el ejercicio escrito (véase capítulo 3). Recomendaríamos no usar nunca una escala que contenga sólo números o en que los descriptores sean simplemente afirmaciones breves como «Excelente», «Muy bien», etc., puesto que estas afir-


examinadores. Recomendaríamos escalas con siete puntos como máximo, puesto que es difícil hacer distinciones m ás sutiles, y también recom endaríamos que se acompañaran la mayoría de los puntos de la escala de descriptores explícitos. Puede ser importante tener diferentes escalas para distintas tareas: una escala de nivelación es raramente apro piada para la evaluación de todas las actuaciones lingüísticas, escritas u orales. Tanto las tareas como las escalas deb erían prob arse durante la fase de ensayos previos al desarrollo del examen (véase el capítulo 4).

LA FIJACIÓN DE LOS CRITERIOS Una vez administrada la prueba, el examinador jefe (EJ) debería leer rápidamente tantos ejercicios escritos com o sea posible para familiarizarse con el tipo de ejercicio que han producido los candidatos y con los problemas que han mostrado a la hora de completar la tarea. Teniendo en cuenta la escala de valoración (aunque no siguiéndola de forma rígida en este punto), el EJ debería seleccionar los ejercicios escritos que representen actuaciones «adecuadas» e «inade cua das» , así como ejercicios que presenten problemas con los que a menudo se encuentran los examinadores pero que raramente puedan preverse en una escala de valoración: mala caligrafía, respuestas demasiado largas o demasiado cortas que indican que el candidato no entendió la tarea, etc. Nos referiremos a estos ejercicios escritos como ejercicios «co nsen suad os» y escritos «problemáticos» respectivamente. El número de ejercicios que seleccione un EJ dependerá de va rios factores (tiempo, facilidades para hacer copias, etc.) pero sería útil seleccionar al menos 20: quizá 15 ejercicios consensuados que representen diversos niveles de actuación lingüística (aunque en su mayor parte de una gama media) y 5 que presenten distintos problemas como los men cionados antes. El siguiente paso es proba r la escala con estos ejercicios y determinar y dejar constancia por escrito de los criterios. Aunque algunas instituciones esperan que el EJ haga esta tarea solo, recom endam os qu e el EJ trabaje con un peq ueño núm ero de colaborado res, constituyendo una com isión de unificación de criterios. Todos los miembros de esta comisión deberían tener copias de los ejercicios escritos seleccionados por el EJ, ordenados de forma aleatoria, y cada m iembro debería puntuar todos los ejercicios antes de que la comisión se reúna para determinar los criterios. Durante la reunión, los miembros deberían comparar sus puntuaciones y discutir cualquier diferencia de opinión que surja. El objetivo es el de alcanzar una «puntuación de consenso» para cada uno de los ejercicios escritos y de esta forma definir la escala de valoración para que sea más fácil de comprender y de utilizar. Cuando se haya conseguido un acuerdo, deberían anotarse los m otivos de cada una de estas decisiones. El EJ debería entonces dividir los ejercicios escritos, tanto los de consenso co mo los problemáticos, en dos grupo s: el primer grupo debería usarse durante el estadio inicial de la formación de los examinadores y el


LA SESIÓN DE UNIFICACIÓN DE CRITERIOS El EJ debería ser el coordinador de la sesión de unificación de criterios, que incluye a todos los examinadores directamente o, en el caso de pruebas con mu chos candidatos, a los jefes de equipo que después deberán formar a sus pro pios examinad ores. Es imprescind ible que el coordinado r de esta reunión sea el EJ o el jefe de equipo, que esté familiarizado a fondo con la escala de valoración, co n todo s los ejercicios escritos que se usarán durante la formación y con las razones aducidas po r la com isión para otorgar sus puntuaciones. Debe elegirse un día completo para la sesión de unificación de criterios. Aunque resulte caro, es la form a m ás seg ura de garantizar que haya suficiente debate para com prende r a fond o la escala y el proce so de puntuación. (En situaciones en que existan poco s correctores, un día completo puede n o ser necesario, pero esto lo d irá la experiencia.) La sesión de unificación de criterios debería convocarse justo antes de que empiece el período oficial de calificación. Tanto los examinadores experimentados co mo los nuev os deberían asistir a tal reunión, aunque no necesariamente deba ser la misma. Nuestra experiencia demuestra que los examinadores expertos que se han apoltronado en su tarea son los responsables de la ausencia de fiabilidad de un program a de puntuación. Antes de asistir a la reunión, los exam inadores habrán recibido todos el mism o grupo de ejercicios escritos consen suados (la mitad de los que ha analizado la com isión) y una escala de valoración. Deberían haber proba do la escala con los ejercicios antes de la reunión y deberían explicar sus puntuaciones a sus colegas. El primer estadio de la sesión de unificación de criterios se dedicará a la discusión de estos ejercicios consensuados para averiguar si todos los examinadores están de acuerdo con las puntuaciones que han da do y para analizar los problemas si no están de acuerdo. Si las desavenencias surgen de conceptos poco claros o de la redacción de la escala, ésta debería corregirse. La finalidad de este estadio es ayudar a todos los examinadores a emular las puntuaciones de la comisión original, pero no se les deberían dar los motivos de la comisión hasta que no se haya seguido el proceso individual de puntuación y se hayan discutido sus resultados con sus compañeros. El objetivo de este procedimiento es el de evitar que a los exam inadores les influya la opinión de la com isión antes de qu e hayan pod ido probar la escala y juzgar por sí mismo s. D espués de haber analizado los ejercicios consensuados, se deberían presentar los ejercicios problemáticos junto con las directrices de lo que se debe hacer en estos casos. El segundo estadio del proceso de formac ión ofrece má s práctica. Los ejercicios escritos qu e utilicen los exa minadores a mo do de práctica serán el segund o g rupo de ejercicios puntuados por la comisión. En este grupo habrá ejercicios de consenso y ejercicios problemáticos y se habrán fotocopiado para que cada examinador tenga una copia de cada uno. De nuevo se trata de que se alcance un acuerdo sobre la puntuación de cada ejercido y que este acuerdo coindda con la decisión de la comisión. Este estadio debería ocupar m enos tiempo q ue el estadio inicial, puesto que much os de los problem as típicos que surjan ya pued en haberse resuelto.


Es importante que el EJ (o el jefe de equipo) preste atención a cómo puntúa cada examina dor durante los do s estadios de la formación. Si algún examinado r encuentra dificultades para comprender las escalas de valoración o para emitir opiniones parecidas a las del comité, el EJ debería pedir al examinador que no puntú e esta parte de la prueba. (Esto, naturalmente, se refiere tanto a los pr ogramas de evaluación modestos com o a los más importantes.) Parte de esta reunión deberá dedicarse a explicar el procedimiento de puntuación y a la anotación de resultados. Esto será distinto según la puntuación se haga de form a centralizada o no. Es especialmente importante que los e xam inadores conozcan el procedim iento que se seguirá para com probar la fiabilidad de su puntuación. Este se explica en el capítulo 6. Inmediatamente después de esta reunión, el EJ debería modificar la escala para incorporar los cambios adecuados y debería mandar copias de la nueva escala a todos los exam inadores, que podrán iniciar la fase de puntuación. Hay que tener en cuenta que no se harán más cam bios en la escala. Es m uy importante que los jefes de equip o co mpre nd an qu e cualquier alteración a partir de este m om en to podría quizá provocar que la variación en la puntuación fuera inaceptable. Cuando empiece el período de puntuación, cada examinador habrá seguido un programa completo de formación, tendrá una muestra de ejercicios escritos como punto de referencia y tendrá una copia de la escala de nivelación. Hay que recordar q ue los examinadores deberían seguir este proceso de for mación a intervalos regulares, no sólo cuando se administren las pruebas por primera vez. R esulta también crucial que los examinadores «exp erime ntados» o «fo rm ad os » se sometan a este tipo de formación regularmente, y no sólo los examinadores nuevos. Es muy fácil que los examinadores desarrollen formas propias e individuales de examinar que la formación debe intentar modificar.

5.3.3. La form ación de los examinadores de la expresión oral La formación de los examinadores de la expresión oral sigue el mismo patrón que la form ación de los exam inadores de la expresión escrita, con tres diferencias principales. La primera diferencia es que en la mayoría de las instituciones, en las que los examinadores puntúan durante la prueba y no después, la formación debe tener lugar antes de la administración de la prueba. La segunda diferencia es que las instituciones deben utilizar grabaciones de las actuaciones de los estudiantes en lugar de ejercicios escritos, tanto cuando la comisión está determinando los criterios como durante la sesión de unificación de criterios. A menudo se utilizan grabaciones de sonido para este propósito, pero es cada vez más común el uso de grabaciones de vídeo a no ser que la prueba esté diseñada para ser administrada en un laboratorio de idiomas. El proceso de grabación y montaje de la cinta, en cualquiera de los dos casos, es

La formación

de examinadores

y administradores

de actuaciones, es mejo r reunirlas en una m isma cinta para que los co ordina dores de las sesiones de unificación de criterios puedan encontrar con rapidez las actuaciones que necesitan. Las anotaciones de la comisión sobre la puntua ción acordada para cada actuación deberían ir acomp añadas del número corres pondiente en el contador. Tod as las grabaciones de berían ser de alta calidad para que los examinadores no tengan problem as con la visibilidad o la audición de los candidatos. Este punto pu ede recom endar la grabación en un estudio en lugar de en un aula. Probablemente será imp osible que lo s examinadores puedan escuchar las cin tas antes de la sesión de unificación de criterios, por lo que debe preverse el sufi ciente tiempo para escuchar cada actuación y volver a escuchar algunas partes de la mayoría de actuaciones. Los coordinadores deben ser realistas a la hora de determinar la cantidad de muestras de actuaciones que pueden analizarse en una reunión: probablemente menos de la mitad de los ejercicios escritos que anali zan los examinad ores de la expresión escrita en el mism o p eríodo de tiempo. El proceso seguido en la reunión debería ser básicamente el mismo que el seguido en las reuniones de los examinadores de la expresión escrita: escucha y visionado, puntuación independiente, discusión de notas, modificación de la escala de valoración si hace falta y aceptación de puntuaciones consensuadas. Algunas instituciones también invitan a alumnos voluntarios a «examinarse» durante la sesión de unificación de criterios. De esta forma, los examinadores tienen la oportunidad de probar sus destrezas (entre las cuales se halla la capa cidad de interactu ar con los ca ndida tos —véase m ás adelante) en una situación real. El problema de usar actuaciones en directo es que no resulta posible vol verlas a ver, cosa a men udo deseable cuando se han dado diferentes puntu acio nes, a no ser que, naturalmente, también se graben estas actuaciones. La tercera diferencia entre la formación de los examinadores de la expresión escrita y los examinadores de la expresión oral es que en muchas pruebas los examinadores de la expresión oral están presentes en el aula y deben interactuar con el candidato durante la prueba. En algunas pruebas otra persona (a menudo un profesor) puede tomar el rol de «interlocutor», ocupándose de conversar con el candidato mientras el examinador está libre para evaluar, pero es mucho más corriente encontrar al examinador solo dando instrucciones, haciendo las preguntas, respondiendo a las contribuciones del candidato e intentando eva luar la actuación ¡al mismo tiempo! En este caso, se debería tener una sesión de formación por separado para per mitir a los examinadores realizar con éxito la evaluación, sesión en la que sus compañeros actúan como candidatos o, si es posible, se trabaja con candidatos voluntarios. Los examinadores deberían recibir instrucciones sobre dónde sen tarse con relación a los candidatos, qué tipo de preguntas hacer para conseg uir que el candidato dé lo mejor de sí, cómo conseguir manejar los papeles que ten drán en las manos (no sólo sus propias instrucciones, la escala y la hoja de pun tuación, sino tamb ién todo el material que el candidato necesitará), cómo anotar sus puntuaciones de forma discreta, cómo acoger al candidato y cómo dar por

La importancia de la formación de los administradores

finalizada la prueba, etc. En algunas pruebas esta formación pued e ocupar m edio día, que debe añadirse al día reservado para la unificación de criterios. Esto es esencial para garantizar una administración y p untuación fiables. Los examinadores e interlocutores deben estar familiarizados con las tareas que administrarán, los papeles que deben desem peñar, las tarjetas de roles que deben utilizar o las preguntas que deben hacer (véase también el apartado 5.4.1, más adelan te). Para aquellos que n o sólo d eben examinar sino también llevar la conversación, esta tarea es extremadamente difícil, y se debe desarrollar un tipo de formación que permita a los examinadores familiarizarse con estas tareas.

5.4. La importancia de la formación de los administradores La discusión sobre la necesidad que tienen algunos examinad ores de la expresión oral de administrar la prueba además de calificar a los candidatos nos conduce a un aspecto de la formación que no debería ignorarse: la formación de todos los administradores. Los administradores de una prueba son las personas que «a dm inistran» la prueba a los candidatos y son también los responsables de procurar que las condiciones en las que la prueba se administra den a los candidatos la oportun idad de m ostrar las habilidades que se evalúan. Aunque la formación de los administradores no debe ser tan compleja como la de los examinadores, es importante q ue los administradores com prendan la naturaleza de la prueba que van a administrar, la impo rtancia de su papel y las posibles consecuencias para los candidatos si la administración no se lleva a cabo de forma adecuada. 5.4.7.

Pruebas de expresión oral

El papel del administrador es particularmente importante en las pmebas de expresión oral, po rque es siem pre necesario que haya al menos una persona q ue inicie la conversación con el candidato y que reaccione a sus intervenciones de forma que se anime la conversación. Tal com o explicamos anteriormente, algunas pm ebas están diseñadas de forma que hay un «interlocutor» que asume este papel mientras que el examinador observa la interacción y evalúa al candidato. En otras pmebas el examinador debe hablar con el candidato e intentar evaluarlo al mismo tiempo. Sea interlocutor o examinador, la persona que dialoga con el candidato debe dominar las técnicas que ayudarán a cada candidato a sentirse cómodo, mientras presta atención a la vez a detalles como el tiempo y la forma de hacer las preguntas, para garantizar que todos los candidatos tengan las mismas oportunidades de mostrar sus habilidades. La tarea del administrador se vuelve más complicada si se examinan dos o tres candidatos al mismo tiempo: deberá asegurarse de que todos entienden la tarea, deberá tomar nota del número y tipo de con tribuciones que hace cada candidato, y deberá pensar de qué forma puede introducir en la discusión a los candidatos que todavía no han podido hablar. En algunas pmebas de expresión oral puede ser necesario utilizar otro admi-


persona «acomodador». El acomodador puede también ser el responsable de las entradas y salidas a tiempo del aula y de procurar que los candidatos que ya hayan sido evaluados no se com uniquen con los que están esperando tumo. El éxito de una prueba de expresión oral dependerá de que todas las personas descritas cump lan bien con su deber. Tal com o ya hem os sugerido, se necesitaría medio día más de formación para los examinadores que tendrán que interactuar con los candidatos, y m edio día com o mín imo para la formación de los profesores que actuarán co mo interlocutores mientras que otro hace la función de examinador. Los acomodadores no necesitarán demasiado tiempo para aprender su trabajo, pero sería útil pod er discutir con ellos lo que de be hacerse y practicar el procedimiento varias veces antes del día del examen. Todos los administradores deberían tener instrucciones por escrito muy claras que explicaran qué hacer y cuándo hacerlo. También sería útil para todos que el material que debe usarse con los candidatos (hojas explicativas de la tarea, fotografías, textos, etc.) pudiera estar encuadernado para evitar perder tiempo antes o durante la prueba intentando localizar o reordenar papeles recalcitrantes. Una tarea importante para los administradores de las pruebas de expresión oral es la de crear un amb iente que ayude a los candidatos a sentirse cóm odos. Deberían adecuarse salas cómodas de espera y el aula de examen debería ser lo suficientemente grande como para que tod os los participantes puedan estar a gusto, aunque no tan grande como para abrumarlos. El interlocutor (o el examinad or que hace de interlocutor y evaluador) deb ería estar lo más cerca p os ible de los candidatos para que no deban esforzarse en hacerse oír, a no ser que, naturalmente, la tarea requiera que se proyecte la voz, com o en las pruebas de oratoria o de arte dramático.

5.4.2. Pruebas de comprensión oral En el caso de las pruebas de comprensión oral la selección del aula es particularmente importante, al igual que la decisión sobre el número de candidatos que pueden hacer la prueba al mismo tiempo. Algunas instituciones intentan llenar al máximo las aulas, creyendo que hacen la administración más fácil; sin embargo, las aulas que son lo suficientemente grandes para albergar a muchos candidatos tienen una acústica deficiente que provoca dificultades de audición del texto (la voz de un conferenciante en directo, un casete o una grabación en vídeo). Resulta imprescindible que los administradores hagan un ensayo de las pruebas de audición para comprobar si se puede ver u oír a la persona que habla desde todas las partes del aula y para comprobar si las grabaciones pueden oírse de la misma forma desde cualquier asiento. También es importante saber cómo funciona el equipo, cuándo y cómo debe usarse, y qué hacer cuando hay un error de funcionamiento. Debe comprobarse el funcionamiento de los micrófonos, los casetes y los magnetoscopios, los altavoces y las cintas que se usarán. Si la prueba va a administrarse en un laborato-

Estudio sobre lo.' adúnales de exámenes de inglés

Al igual que en la administración de las pruebas de expresión oral, las perso nas responsables de la administración de las pruebas de comprensión oral necesitan instrucciones claras por escrito sobre qué decir y hacer durante la prueba. Si los candidatos van a escuchar a un conferenciante en directo, esta persona debe tener tiempo suficiente de prepararse. La institución no debería subestimar el tiempo que necesita un conferenciante para completar su preparación. En el caso de una persona que debe hacer un dictado, por ejemplo, es ante todo necesario qu e com prenda el texto que leerá para decidir sobre su entonación y fraseo, ser capaz de pronunciar todas las palabras sin titubear, controlar el ritmo del dictado y la lon gitud d e las pausas, y leerlo en voz lo suficientemente alta com o p ara que todos los candidatos puedan oír bien. Si los candidatos deben escuchar grabaciones, la persona responsable de poner los aparatos en funcionamiento debe saber cuándo poner la grabación, cuándo parar, si debe parar, y cuándo volver a pasar la grabación de nuevo.

5.4.3. Pruebas para todas las destrezas y aspectos de la lengua Hemos dicho ya que muchas de las personas implicadas en la administración de las pruebas de expresión oral y de com prensión oral pueden necesitar formación. Hay otros administradores, sin embargo, cuyo trabajo no es especializado: los responsables de la distribución y recogida de los exám enes, de la administración del tiempo, los responsables de que los candidatos no se ayuden durante la prueba. A menudo nos referimos a estos administradores como «vigilantes». No suele ser necesario q ue los vigilantes se sometan a sesiones de formac ión específica, pero es importante que tengan claros sus deberes y lo que deben hacer si surgen problemas imprevistos. La institución debería dar a los vigilantes instrucciones claras por escrito y debería discutir estas instrucciones y otras preguntas qu e puede n tener los vigilantes antes de la administración de la prueba.

5.5. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario Pedimos a los tribunales de exámenes los criterios que usaban para seleccionar a los correctores y cuánto tiempo duraba el nombramiento. También solicitam os los tipos de puntuación que se llevaban a cabo en los centros y el procedimiento que seguían para coordinar a sus examinadores. (Fíjense que las preguntas del cuestionario se referían a «correctores» y no a «examinadores», pero por razones de consistencia con la terminología utilizada en este capítulo seguiremos utilizando el término «e xam inado res».)

Pregunta 3 1 : ¿Qu é criterios utilizan para nom brar correctores? Los criterios utilizados se parecían mucho a los que se utilizaban para los redactores de ítems (véase capítulo 3 ): los que se mencionaban más a men udo eran la experiencia docente relevante (que también incluía la preparación de


menes y la titulación profesional adecuada. Los que mencionaban titulación profesional no explicaban a qué se referían, pero creemos que se refieren a un certificado o un título en didáctica de la lengua o en lingüística aplicada. Varios tribunales mencionaron que los futuros examinadores debían realizar bien su trabajo en las sesiones de unificación de criterios (véase pregunta 3 4 más adelante), y uno m encionó que debían completar un manual de formación autónom a con éxito. N o se da ban detalles de qué se consideraba completar con éxito. Varios tribunales también mencionaron la edad: uno dijo que los examinadores debían ser menores de 55 años la primera vez que se les nombraba, y tres mencionaron que la edad de jubilación estaba entre los 65 y los 70 años. Otros factores que se mencionaron, aunque sólo por parte de uno o dos centros tribunales: buenas referencias, competencia en la lengua, experiencia en el área de estudios del candidato, fiabilidad, puntualidad, compromiso con un enfoque comunicativo en la didáctica y en la evaluación y una personalidad apropiada pa ra la evaluación de la expresión oral. No se daban detalles.

PREGUNTA 32: ¿Cuánto tiempo dura el nombramiento de los correctores? La duración del nombramiento variaba de forma considerable entre los tribunales: algunos nombran examinadores para cada examen, pero la mayoría tiene contratos renovables anualmente. Varios tribunales dijeron que contratan examinadores por un período indefinido, en tanto siguen dando un servicio satisfactorio. No esta claro cómo se mide un «servicio satisfactorio», pero la situación general parece ser que los examinadores ya conocidos y aceptables continuarán como examinadores, probablemente llegando incluso a ser examinadores jefes si procede.

PR EG U N TA 3 3 : ¿H ay partes del examen a) puntuadas de forma objetiva, por ejemplo por una máq uina o por administrativos; b) pu ntuadas de forma centralizada, por ejemplo por equipos que trabajan jun tos; c) puntuadas de forma individual, por ejemplo, por el administrador de la prueba o su equivalente? Sólo dos tribunales respondieron que puntuaban de forma objetiva. Uno de ellos puntualizó que «los administrativos que puntúan son personal temporal ordinario que está preparado para aplicar los esquem as de puntuación ba jo una supervisión estricta». Cuatro tribunales dijeron que puntuaban de forma centralizada; ocho no lo hacían. Uno de los tribunales se refirió a un «fin de semana de expresión escrita», pero no dio detalles sobre cómo se organizaba. Los otros centros no describieron cómo funcionaba su puntuación centralizada. Sólo cuatro tribunales dijeron que llevaban a cabo puntuación individual; sin emb argo, puede ser que la pregunta se interpretara de form a distinta po r parte de los tribunales, puesto que algunos de ellos, de los que sabemos que tienen examinadores que puntúan en su domicilio, respondieron de forma negativa. Según nuestra experiencia la mayor parte de los tribunales tiene organ izada en realidad una «industria casera», en la que los exámenes se mandan a los domicilios de los examinadores para que los puntúen en un período concreto. Aun-


que esto es lo más conveniente para los examinadores, y sin duda menos caro que la pun tuación centralizada, este proced imiento tiene consecuencias para la supervisión de la corrección y la puesta en marcha de controles de fiabilidad. Quizá el punto más importante es que haya un período de tiempo desde que el examinador puntúe el escrito hasta que el examinador jefe sea capaz de com probar si la puntuación es la adecuada. Se discutirá este punto en el capítulo 6.

PREGUNTA 34: ¿Convocan una sesión de coordinación con los correctores? Si la respuesta es afirm ativa, ¿cómo se llam a? ¿Cu ánto tiempo dura normalmente? Once de los doce tribunales que respondieron mantienen reuniones de coor dinación; uno no. El tribunal que no hacía este tipo de reunión respondió que la coordinación de los examinadores la llevaba a cabo «el examinador jefe de manera informal». El nombre de este tipo de reunión varía, de acuerdo con el examen. El nombre más común es «sesión de unificación de criterios», pero también se usan «reun ión de coordinación», «reunión de evaluadores», «re u nión de exam inadores» y «reu nión informativa». El tiempo previsto para la reunión varía desde medio día a un día. Un tribu nal dijo que la formación de sus examinadores para evaluar 10 niveles distintos duraba sólo un día, lo que parece muy insuficiente para asegurar una familiarización adecuad a con las escalas de nivelación y con el procedimiento general. PREGUNTA 35: Si su tribunal de exámenes mantiene una «sesión de unificación de criterios», ¿qué sucede normalmente durante esta reunión? La mayoría de los tribunales mantiene sesiones de unificación de criterios pare cidas a la descrita en el apartado 5.3.2: los correctores puntúan muestras de ejer cicios escritos o de grabaciones en vídeo, discuten los criterios de evaluación con el resto de los correctores y con el examinador jefe, y llegan a un acuerdo sobre la puntuación final y las áreas problemáticas. Los detalles del proceso de unifica ción varían (quié n facilita las muestras de ejercicios escritos, cuántas muestras se utilizan, si el examinador jefe «imparte» el criterio o si permite que se «descu bra» a lo largo de la discusión en grupo), pero en general el patrón era parecido. En algunos casos, sin embargo, no está claro que todos los examinadores ten gan acceso a los mismos ejercicios escritos. Tampoco está claro si los examinadores trabajan individualmente antes de discutir las puntuacio nes con otros pro fesores, o si trabajan en equipo desde el principio. Si trabajan juntos desde el principio, los examinadores con persona lidad fuerte o con opiniones muy firmes (o prejuicios) tenderán a dominar la discusión, evitando de esta forma que otros examinadores tengan la oportuni dad (o la necesidad) de decidir por sí solos. Es importante prestar atención al acceso que tienen los examinadores a los ejercicios escritos (incluso pudiendo llevárselos a casa para referencias futuras) y el tiempo de que disponen para deci


Demostración en directo con candidatos, evaluadores y evaluadores que puntúan. Corrección individualizada con hojas de puntuación por parte de los evaluadores presentes. Se discuten los resultados verbalmente de forma inmediata y se evalúan y supervisan los comentarios por escrito después de la reunión.

Hay dos puntos importantes en este proceso: en el primero, el tribunal facilita demostraciones en directo, y en el segundo se permite a los evaluadores que den sus puntuaciones de forma individual antes de discutirlas con sus colegas. Sin embargo, hay puntos a los que debemos prestar atención: ¿Tienen los evaluadores presentes ocasión de practicar como parte de su formación o sólo observan a los que evalúan a los «candidatos»? ¿Cuál es la naturaleza de la supervisión que tiene lugar de spués de la reunión? Este proc eso debe ser la forma de comprobar si los examinadores son lo suficientemente competentes para empezar a puntuar. Por desgracia, sin embargo, sabemos m uy poco sobre cóm o identifica un examinador jefe la incompetencia y cómo se informa a los examinadores de que no pueden puntuar. Un tribunal parece mantener sesiones de coordinación con los jefes de equipo, pero no hay una reunión entre los jefes de equipo y los examinadores de a pie. Aunque los examinadores tienen la oportunidad de discutir escritos con su jefe de equipo de forma individual, se pierden discusiones con otros examinadores, que son en potencia m uy valiosas. Un centro mandaba un manual de formación autodidacta a los examinadores, y les daba un certificado cuando demostraban que eran lo suficientemente competentes como para puntuar ejercicios escritos por sí solos. El centro usa seguramente este tipo de m anual porque el examen se puede « solicita r» desde distintos países y debe puntuarse de forma individual en un período de tiempo muy breve. Por desgracia, sin embargo, no nos dieron detalles sobre cómo está redactado el manual o cómo se usa, ni sobre cómo puede darse un «certificado» a los correctores que realizan una formación autodidacta.

PR EG U N TA 3 6 . ¿Qu é pasos se dan al final de la sesión de unificación de criterios para establecer el grado de acuerdo entre los correctores? Muchos de los tribunales mencionaron que pretendían llegar a un «acuerdo» al final de sus sesiones de unificación de criterios, pero no estaba claro cómo decidían si se había conseguido un grado suficiente de acuerdo. La siguiente descripción ilustra este punto: Los correctores habrán tenido los escritos durante una semana y habrán corregido provisionalmente unos 10 por nivel. En la reunión se discutirán y revisarán, si es necesario, los esquemas de puntuación y se acordará un enfoque común.

La descripción más clara que recibimos fue esta:


de equipo dirigirán su propio proceso de unificación de criterios. Los correctores deben puntuar los ejercicios escritos seleccionados y comparar sus resultados con los de la reunión. No se empieza la puntuación «en serio» hasta que se haya llegado a un acuerdo completo entre los distintos equipos.

Hemos citado dos tipos de reunión: una en la que se coordinan los jefes de equipo y otra en la que éstos se coordinan con los examinadores. Lo que no sabemos, sin embargo, es si este «acuerdo completo» es el resultado de la negociación o si se evalúa de alguna forma a los examinadores para ver su capacidad de otorgar puntuaciones satisfactorias. Ningún tribunal mencionó la evaluación de los exam inadores para determinar si estaban preparados para puntuar, ni un análisis de fiabilidad entre correctores para ver el grado de acuerdo existente entre cada examinador y el examinador jefe y sus colegas. Una pregunta todavía por responde r es hasta qué punto puede permitirse a un examinador desviarse de las puntuaciones acordadas sin que se le considere incapacitado para puntuar. (Véanse los capítulos 4 y 6 para una discusión sobre la fiabilidad.)

5.6. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: documentación 5.6.1. Formación de los correctores de la expresión escrita Los documentos que nos mandaron los centros contribuyeron muy poco a nuestra comprensión de sus procedimientos de formación. Sólo había cuatro documentos que mencionaban la formación; la mayoría no incluía información alguna sobre cóm o se formab a a los correctores para llevar a cabo su cometido. El documento de la ESB solamente decía que: Los evaluadores se reúnen regularmente para comparar sus anotaciones y discutir técnicas de evaluación (página 1).

No concretaban cómo llevaban esto a cabo. La descripción m ás com pleta de un p rogram a de formación la dio la AEB en un folleto que describe el procedimiento que se seguía con sus exámenes de GCE (niveles O y A) antes de 1986. No sabemos si se seguía el mismo procedimiento para la prueba de TEEP, y en cualquier caso los procedimientos del TEEP habrán cambiado puesto que el examen ha pasado a otra institución; sin embargo, vale la pena reproducir la descripción del procedimiento de la AEB puesto que es el tipo de descripción que probablemente dará a sus usuarios la tranquilidad de q ue el tribunal cuida la form ación de sus examinadores: Tan pronto como ha finalizado el examen, desde el tribunal se envían a todos los examinadores copias de las hojas de examen, esquemas de puntuación y hojas de puntuación. La primera tarea de los examinadores es la de estudiar las preguntas y los esquemas de puntuación y la de llevar a cabo un ensayo de puntuación con unos cuantos ejercicios escritos. En este estadio también se identificarán respuestas imprevistas a las que no se puede adaptar el esquema.


AI cabo de dos o tres días después del examen, todos los examinadores asisten a una sesión de unificación de criterios. En esta reunión el examinador jefe discute cada pregunta y su esquema de puntuación correspondiente. Se toma nota de lo que se requiere para cada puntuación; se acuerdan cuáles son las respuestas alternativas aceptables y también se toma nota no sólo de las respuestas aceptables sino también de las que sólo son correctas parcialmente y de las que son totalmente incorrectas. Se tratan aspectos diversos sobre las respuestas analizadas y se toman decisiones sobre todos ellos. Además, se discute el sistema de puntuación para garantizar que todos los examinadores corrigen de la misma forma. El objetivo de esta reunión es garantizar una correcta aplicación del esquema de puntuación por parte de todos los examinadores en todos los escritos para que, sea quien sea quien puntúe y sin importar dónde puntúe, una respuesta en particular reciba siempre una puntuación apropiada. En muchas materias el tribunal se asegura de que todos los examinadores corrijan fotocopias de los mismos ejercicios escritos para comprobar que puntúan de acuerdo con el mismo criterio y de la misma forma antes de que abandonen la reunión (página 11).

MATERIALES PARA LA FORMACIÓN Uno de los hallazgos más útiles en el estudio de los documentos fue que tanto Oxford como UCLES publican folletos para profesores que quieren preparar a estudiantes para el examen. Estos folletos contienen preguntas de exámenes ante riores, muestras de respuestas a las preguntas de expresión escrita, y las pun tuaciones del tribunal junto a comentarios para cada ejercicio escrito. La finalidad de estas publicaciones es la de familiarizar a los profesores no sólo con las tareas que deberán llevar a cabo los candidatos durante el examen sino también con la forma en la que se les juzgará. Presumimos que las mues tras de respuestas y los comentarios eran (o son) utilizados también para la for mación; sin embargo, no sabem os cóm o se han utilizado.

5.6.2. La formación de correctores de la expresión oral Se encontró muy poco sobre la formación de los correctores de la expresión oral en la documentación estudiada. Oxford-ARELS dice lo siguiente acerca de la coordinación de los jefes de e quipo: Alrededor de una semana después de cada examen, se convocan reuniones de coordinación de jefes de equipo para establecer criterios con respecto a las muy detalladas guías de corrección ya enviadas... Las guías de corrección para todos los exámenes son extremadamente detalladas. Están agrupadas en unos folletos conocidos como claves, y se utiliza un folleto para cada puntuación. Como ejemplo, diremos que la clave para un examen de nivel avanzado contiene unas 90 apreciaciones... Los criterios requeridos varían con cada tarea; en algunas, sólo se dan puntos a una respuesta que no contenga ningún error; en otras se reconocen 2, 3 o 4 grados de corrección. La clave de corrección da detalles completos. En muy pocas ocasiones se pide a los correctores que realicen una evaluación subjetiva, puesto que no hay alternativa. En estos casos se da tanta ayuda como sea posible en la clave.

Debate

No se dan detalles sobre el funcionamiento de la sesión de unificación de cri terios, y tam poco se dice nada sobre la formac ión de los correctores ordinarios. Sin embargo, Oxford-ARELS sí da información sobre el proceso de control de calidad, que se describe en el capítulo 6.

MATERIALES PARA LA FORMACIÓN DE LOS EXAMINADORES Tanto las publi caciones de la LCCI co mo las de UCLES hacen referencia a vídeos que producen para sus pruebas. LCCI ofrece dos tipos de vídeo a aquellos que estén interesados: uno que está pensado para profesores y estudiantes e ilustra los distintos niveles de actuación lingü ística oral, y otro que está pensado pa ra la formación. Este tipo de vídeo no «pretende ilustrar los principios de la evalua ción de la expresión oral en general sino facilitar la crítica y la discusión entre los examinadores del LCCI en proceso de fo rma ción.» Esto nos inform a sobre el fun cionamiento de la formación en el LCCI: básicamente, sus examinadores no pu n túan muestras de actuaciones en sus sesiones de formación, pero no tenemos detalles sobre cómo forman a sus examinadores. Presumimos, pero no lo sabe mos, que hay com entarios que acompañan a cada tipo de vídeo para ayudar a los profesore s y a los exam inadores a entender lo que ven. UCLES menciona vídeos en su descripción del FCE y del CPE, pero sólo sabe mos que los vídeos muestran niveles de actuación en los exámenes. No sabe mos si hay notas explicativas ni cómo se utilizan los vídeos en la formación. 5.7. Debate

Resultó reconfortante constatar que hay mucho s tribunales que mantienen sesio nes de unificación de criterios, pero es preocupante comprobar que hay dos que no lo hacen. Fue útil leer las descripciones ofrecidas por los tribunales sobre su proceso de formación; sin embargo, las descripciones eran a menudo muy bre ves. Todavía no hemos resuelto distintas preguntas sobre diversos estadios de la formación y especialmente sobre cuándo decide un tribunal que sus examina dores están preparados para empezar a puntuar «en serio». Varios tribunales mencionaron que los examinadores deben llegar a un acuerdo sobre los ejerci cios escritos seleccionados o sobre las actuaciones grabadas en vídeo, pero no sabem os si este acuerdo es el resultado de la discusión (en cuyo caso se persuade y no se convence a los examinadores) o si es una prueba que deben pasar los examinadores. Si éste fuera el caso, no sería razonable esperar que cada exami nador estuviera de acuerdo por completo con cada puntuación otorgada por el examinador jefe y los jefes de equipo, pero si se permite variación («desvia ción»), ¿cuánta se acepta? No s sorprendió constatar que al menos un o de los tribunales forma a sus exa minadores por correo o por teléfono y no de forma presencial. El tribunal se toma la molestia de formar a los jefes de equipo en grupo, pero los jefes de

La formación

de examinadores

y administradores

cusión, pero no s enco ntramo s ante una falsa idea de la economía. En el caso de que el centro fuera capaz de dar razones convincentes para la formación por correo o p or teléfono, todavía veríamos poc o claro que los examinadores em pezaran a mandar los primeros escritos puntuados a los jefes de equipo después de haber empezado la corrección en serio. Parecería más sensato pedir a los examinado res que enviaran los prim eros escritos puntuados antes de empezar a puntuar en serio y pedir a los examinadores que esperaran instrucciones antes de continuar puntuando. Descubrimos dos novedades interesantes: el «fin de semana de expresión escrita» que convoca un centro para formar a los examinadores de la expresión escrita y para supervisarlos mientras están puntuando, y los manu ales de fo rmac ión autodidacta, que un centro utiliza para preparar a los examinadores que no pueden asistir a las sesiones de formación. El fin de semana de expresión escrita parece facilitar un buen ambiente para discutir los criterios de puntuación y para discutir y volver a discutir ejercicios escritos que n o se adaptan con facilidad a ningu no de los punto s de las escalas de clasificación: si los correctores no tienen que viajar y no tienen que preocuparse de las presiones domésticas, pueden concentrarse en la corrección por com pleto. El manual de form ación autodidacta podría ser una buena idea en países en los que viajar resulta difícil y en donde el tribunal de exámenes sólo tiene la opción de facilitar formación a distancia. Sin embargo, sería importante conocer mejor cómo funciona el manual de form ación y c óm o decide el centro qu e un exam inador está capacitado antes de poder recomendar esta práctica. Un punto final: los materiales facilitados por algunos tribunales para ayudar a los profesores a compren der cóm o se evalúan la expresión oral y la expresión escrita eran mu y interesantes. Sería útil que tod os lo s centros ofrecieran cintas de vídeo (o casetes) que ilustraran los criterios que utilizan para evaluar con ejemplos de los distintos niveles de actuación lingüística. Es especialmente útil que estas grabaciones vayan acompañadas de las puntuaciones que daría el examinador jefe a las actuaciones, junto con notas explicativas de las razones. Existe siempre el peligro de que capítulos como este, que describen el proceso que ha d e seguirse para llegar a un objetivo final, sean considerados d em asiado prescriptivos o poco prácticos. Está claro que cada institución tiene sus limitaciones y que a men udo es necesario llegar a situaciones de com prom iso. No insistiremos en que todos los p asos del proceso descrito se sigan al pie de la letra, pero sí insistiremos en qu e hay q ue hacer ciertas cosas para garantizar que los examinadores estén bien preparados. Entre éstas se cuentan las siguientes: La institución debe tener un p rograma de form ación de algún üpo. Las instituciones no deberían suponer jamás que las plantillas de corrección y las escalas de valoración son perfectas o que los examinadores pueden aplicarlas sin practicar. Las instituciones debe n prever un pe ríodo de tiempo razon able para la for-

Sumario

Las instituciones deberían facilitar fotocopias de los escritos que se van a dis cutir para que los examinadores puedan hacer sus anotaciones y puedan guar darlas para una futura consulta. Los examinadores deben tener la oportunidad de tomar sus propias decisio nes y d iscutirlas con otro s examina dores y co n el examinador jefe o co n el jefe de equipo. Debe evitarse que el EJ o el jefe de equipo simplemente expliquen lo que debe hacerse. Las instituciones deberían tener una política sobre el grado de acuerdo que esperan de sus exam inadores y debería haber algún modelo definido que los examinadores deban conseguir antes de que se les permita examinar en serio. 5.8. Sumario

Una plantilla de corrección o una escala de valoración debe estar diseñada de forma apropiad a para las tareas que se van a pedir a los candidatos. Antes de la formación, el examinador jefe debe fijar los criterios aplicando el esquema o la escala a una muestra de exámenes o actuaciones. Si fuera necesa rio, debería mo dificarse el esquem a o la escala a partir de este ensayo. El EJ debería seleccionar ejercicios escritos o actuaciones adecuadas para el programa de formación. Deben seleccionarse examinado res experim entados y cualificados. En la ses ión de unificación de criterios, deben tenerse en cuenta los ejercicios escritos o las actuaciones consensuadas y las problemáticas, y se debe llegar a un acuerdo sobre la forma de aplicar las plantillas o escalas. Los examinadores que actúan de forma poco satisfactoria durante la forma ción deb en volverse a formar o ser rechazados. Si es necesario, las plantillas o escalas y las directrices para su aplicación debe rían revisarse a partir de la sesión de unificación de criterios antes de utilizarse «en serio». Para las prue bas de exp resión oral, las actuaciones que se graben para ser uti lizadas en la forma ción se compilarán en un a única cinta. En la reunión de form ación para la expresión oral, se garantizará la visión y audi ción de las cintas. Cuando esto no sea posible, se organizarán actuaciones en directo. Los ex aminad ores de la expresión oral necesitarán consejos prácticos sobre cóm o sentarse y q ué hacer con sus papeles y deberían disponer de instruccio nes po r escrito antes del examen. Debería organizarse una formación específica para los interlocutores y tam bién para los examinadores si no só lo van a evaluar sino también a conversar con el candidato. Esta formación debería capacitar a los interlocutores y a los examinadores para conseguir la actuación oral apropiada. También los que administrarán la prueba tienen que ser preparados para saber cuáles son sus cometidos. En las pruebas de comprensión oral, deberá comprobarse que el aula o las aulas tengan la ca pacidad y la acústica adecuada, la existencia y el estado de cual-

L a f o r m a c i ó n

de examinadores

y a d m i n i s t r a d o r e s

quier equipam iento especial que sea necesario y también debería hacerse un ensayo previo. Si la prueba debe administrarse en directo y no utilizando una grabación, el conferenciante o conferenciantes necesitan formación e instrucciones claras por escrito que expliquen qué hacer y cuándo hacerlo.

Bibliografía Mathews, J. C. (1985). Examinations: A Commentary. George Alien and Unwin, Londres.

6


En este capítulo se discutirá la naturaleza de la fiabilidad de los examinadores y su importancia, y cómo puede conseguirse una fiabilidad en la puntuación. Es importante que la nota de una prueba de un candidato no dependa de quién corrige la prueba, ni de la coherencia de un corrector en particular; un examinador no fiable es quien cambia sus criterios durante la corrección, quien no los aplica de forma consistente, o quien no está de acuerdo con las notas de otros examinadores. Describiremos con algún detalle el tipo de proceso que debería seguirse en un programa de supervisión eficaz.

6.1. La importancia de la supervisión de la fiabilidad de los examinadores En el capítulo 5 insistimos en la importancia que tiene la preparación completa de todos los e xaminadores, en especial de aquellos que puntúan la expresión escrita y la expresión oral. La formación ayudará a los examinadores a comprender las escalas de puntuación que deberán utilizar y debería prepararles para solucionar los prob lemas, incluso los no previstos cuando se diseñaron las tareas por primera vez. La formación debería dar a los examinadores competencia y confianza; sin embargo, no se puede garantizar que los examinadores corrijan como se ha previsto. Hay muchos factores que pueden interferir en la capacidad de emitir juicios sensatos y coherentes po r parte de un exam inador: dificultades con las escalas de puntuación, la presión de tiempo, las preocupaciones domé sticas y profesionales, etc. Incluso los examinadores experim entados pueden verse afectados por estos problemas. Es responsabilidad de la institución el diseñar procedimientos de control de calidad para garantizar a los usuarios de las pruebas que los resultados son lo más fiables posible. El término «fiable» puede aplicarse a diversos aspectos del proceso de confección de un examen (véanse los capítulos 4 y 5 sobre pruebas objetivas), pero en este capítulo nos concentraremos en la corrección de la expresión escrita y de la expresión oral. También hay necesidad de supervisar la corrección de las pruebas objetivas, pero en este caso sólo se trata de comprobar que los examinadores han aplicado la clave de respuestas o el esquema de puntuación de forma adecuada y que sus cálculos son exactos. Aunq ue siempre habrá errores, los procesos de supervisión son claros. Los que se utilizan para las pruebas subjetivas son más complicados y por tanto nos concentramos en ellos en este capítulo.

La supervisión d e la fiabilidad de los examinadores

En nuestra discusión aparecerán a menud o d os términos: «fiabilidad interna» y «fiabilidad entre correctores». Se dice que un examinador tiene «fiabilidad interna» si siempre da al mismo grupo de ejercicios escritos o de actuaciones lingüísticas orales las mismas puntuaciones en dos ocasiones distintas. El examinador todavía puede considerarse fiable si algunas de las puntuaciones son distintas; sin embargo, no puede permitirse mucha variación sin que se cuestione su validez. La fiabilidad entre correctores se mide a m enudo utilizando un coeficiente de correlación o a través de alguna forma de análisis de la varianza. La noción de correlación se discutió en detalle en el capítulo 4. Un análisis de la varianza com para en esencia las distribucion es (medias y desviaciones típicas —véase capítulo 4) de dos o más poblaciones. Por ejemplo, las puntuaciones que han dado cuatro exam inadores distintos al m ismo grup o de ejercicios escritos puede contrastarse. Si los distintos examina dores han dad o las mism as p untuaciones cada vez, las medias y las desviaciones típicas serán idénticas. El análisis de la varianza es una forma de evaluar cuán significativas pueden ser las diferencias (para más detalles véase cualquier libro de texto de introducción a la estadística). La «fiabilidad entre correctores» se refiere al grado de similitud entre diferentes examinadores: ¿Pueden dos o m ás exam inadores, sin influirse entre sí, dar las m ismas notas al m ism o grup o d e escritos o actuaciones orales? No sería realista esperar que todos los examinadores coincidieran todo el tiempo; sin embargo, es esencial que cada examinador intente emular siempre el «m od elo ». Este mod elo lo establece o bien el examinado r jefe o bien la comisión de coordinación, tal como se discutió en el capítulo 5. Aunque siempre habrá alguna variación entre los examinadores y el modelo, debe haber un alto grado de coherencia general si queremos que la prueba se considere fiable. Esta fiabilidad también se mide por un coeficiente de correlación o por alguna forma de anáfisis de varianza. Hay varias formas en las que una institución puede supervisar la puntuación de sus exam inadores. La selección de unos u otros métodos dependerá de diversos factores como, por ejemplo, si la corrección se hace de forma centralizada o no, o si se trata de la corrección de ejercicios escritos o de actuaciones lingüísticas orales. En las siguientes secciones describiremos métodos adecuados para cada situación. 6.2. Corrección centralizada

La situación más sencilla imaginable es la de una corrección centralizada de pruebas de expresión escrita. En este caso hay al menos tres tipos de supervisión.

6.2.1. Muestreo po r pa rte del examinador jefe o del je fe de equipo Cuando la corrección tiene lugar de forma centralizada, los examinadores se

C o r r e c c i ó n c e n t r a l iz a d a

dinado por el examinador jefe. Si hay más candidatos, puede haber varios equipos, cada uno coordinado por el jefe de equipo. Todos los jefes de equipo habrán sido coordinados por el examinador jefe y ellos habrán coordinado a los miembros de sus equipos (véase capítulo 5). Cada equipo corregirá en su zona de la sala de corrección o en una sala separada. Esto permitirá al jefe de equipo supervisar toda la corrección de forma eficaz y facilitará a los correctores la discusión de problemas de corrección tal como vayan surgiendo. Los examinadores deberían corregir según su preparación, deberían tener especial cuidado en no escribir comentario alguno sobre el ejercicio escrito y deberían anotar sus resultados en las hojas de puntuación diseñadas al efecto. Algunos tribunales de exám enes piden a los examinadores que anoten sus puntuaciones delante o detrás del pliego de examen, pero no recomendamos esta práctica en absoluto, p uesto q ue incita a los otros examinadores, jefes de equipo o «segundos correctores» (véase sección 2.3 más adelante) a mirar la puntuación escrita antes de dar la suya propia. El procedimiento de muestreo debería comenzar justo después de que empiece la corrección. Los párrafos siguientes explicarán los pasos del proceso. (Nótese que en esta explicación y en las otras de este capítulo supondremos que el coordinador de corrección es un jefe de equipo.) Cada examinad or debe corregir un cierto núm ero de ejercicios durante el primer día de corrección. El jefe de equipo reco ge un núm ero de ejercicios puntu ados por el examinador (a men udo 1 o 2 ejercicios de cada 10) y los lee otra vez para dar una pun tuación independiente. (Esto se llama «puntua ción a ciegas», porque el jefe de equipo no debería conocer las notas del examinador mientras está puntuando). Si las puntuaciones del jefe de equipo están de acuerdo con las del examinador, se permite que el examinador continúe corrigiendo. Si, por el contrario, las puntuaciones del jefe de equipo no están de acuerdo con las del examinador y las diferencias son serias (por ejemplo, una diferencia de más de un punto en una escala de 1 al 5), el jefe de equipo discute la situación con el examinador. El objetivo de la discusión es el de reducir las diferencias de opinión entre las dos partes, por lo que debe haber una lectura exhaustiva de los ejercicios problem áticos y de la escala de puntuación. Ocasionalmente el examinador con vencerá al jefe de equip o para que reconsidere su decisión, pero en instituciones en las que se lleva a cabo un muestreo se suele asum ir que el jefe de equipo tiene razón y al final es el exam inador el que debe mod ificar su puntuación. El proceso de muestreo debería continuar a lo largo de todo el periodo de puntuación, aún cuando el jefe de equ ipo se sienta seguro de que los exam inadores están corrigiendo bien. Una de las causas más comunes de ausencia de fiabilidad en la corrección es la autocomplacencia, pero afortunadamente es también una de las más fáciles de prevenir.

6.2.2. La utiliz ación de «ejercicios de fiabilidad» El segundo método de supervisión de la puntuación es el de preguntar a cada examinador que puntúe de forma independiente el mismo paquete de «ejerci-


dos de fiabilidad». Estos ejerddos escritos habrán sido escogidos por el exa minador jefe como representantes de distintos puntos en la escala de puntuad ó n y de distintos problemas a los que se enfrentan los examinadores (pa rea do s a las muestras de ejerc icios utilizad os en la form ación —véase capítulo 5) y habrán sido corregidos por el examinador jefe y la comisión de unificación de criterios. Este ejercicio de fiabilidad debería tener lugar de spués de que los exa minadores hayan empezado a corregir «en serio», pero lo suficientemente pronto en el periodo de puntuación como para poder hacer cambios en los ejer cicios que pued an haber sido co rregidos de forma incorrecta por exam inado res no fiables. La tarde del primer día de corrección o la seg unda mañan a serían el momento adecuado. No es necesario hacer fotocopias de los ejercicios para cada miembro del equipo: éstos pueden circular entre los mismos. Es importante, sin embargo, que los miembros del equipo no escriban encima de los ejercicios que leen, puesto que tales anotaciones o marcas influirán sin duda en los examinadores posteriores. Los examinadores deberían anotar sus puntuaciones en una hoja de puntuac ión po r separad o y entregarlas al final al jefe de equ ipo. Este comp arará las puntuaciones que cada exam inador dio con las puntuaciones que se acorda ron en la comisión de unificación de criterios. Si el jefe de equipo ve que las puntuaciones de algún exa minad or discrepan muc ho de las puntuaciones de la com isión, debería haber una discusión p ara determinar el porqué. Si el jefe de equipo constata que el equipo entero da puntuaciones distintas, debería haber una reunión para discutir lo que está sucediendo y para recoger sugerencias sobre cómo solucionar el problema. El objetivo de este ejercicio es el de refor zar la coordinación q ue tuvo lugar durante el periodo de formación (véase capí tulo S), y si resulta que los examinadores están aplicando la escala de puntuación de forma distinta de la de la comisión, debe detenerse la corrección para llevar a cabo una nueva unificación de criterios. Hay dos formas en las que el jefe de equipo puede determinar si los exami nadores están puntuando de la forma que se supone que deben puntuar. La forma más rápida, co nocida com o «a simple vista», es la de colocar las notas de cada examina dor junto a las de la com isión. Las diferencias obvias de op inión se verán inmediatamente, y el jefe de equipo puede empezar a actuar, seleccio nando inmediatamente más muestras de algunos examinadores. La forma a «simple vista», sin embargo, sólo revelará los problemas más sobresalientes. Un método más informativo es hacer una correlación de las puntuaciones de cada exam inador con las puntuaciones de la comisión de uni ficación de criterios y comparar las medias y las desviaciones típicas. La corre lación indicará si el examinador ha ordenado los ejercicios de fiabilidad en el mismo orden en que el comité (una correlación razonable a la que aspirar sería de un 0 ,8) y la com paració n de m edias y de desviaciones típicas indicará si el examinador es más estricto o más benévolo que la comisión. Si la puntuación

C o r r e c c i ó n c e n t r a l iz a d a

alta, significará que el examinador es más benévolo. (Una diferencia significativa es la que resulta lo suficientemente grande como para que no se deba sólo a la casualidad. La prueba m ás corriente para ver si la diferencia entre dos medianas es significativa es la prueba t, y se utiliza el análisis de la varianza para compa rar más de d os medianas. Véase Guilford y Fruchter, 197 8, o cualquier introducción a la estadística.) El mejor resultado para un examinador es tener una correlación de 0,8 o más alta con las puntuaciones de la comisión de unificación de criterios, y una nota media que no sea significativamente distinta de la de la comisión. Si alguna de estas condiciones está ausente, entonces el jefe de equipo debería discutir el problema con el examinador e intentar encontrar una solución. El jefe de equipo deberá comprobar el trabajo de todos los miembros del equipo de la misma forma. Esto requiere una cantidad de cálculos respetable, que puede hacerse a mano o con una calculadora. Algunas instituciones prefieren hacer estos cálculos por ordenador, utilizando un program a estadístico como el SPSS o SAS (véase el apéndice 8). Los lectores interesados en análisis más sofisticados (como la teoría de la generalizabilidad, que está basada en el análisis de la varianza y que puede estimar la fiabilidad de un grupo entero de correctores de una vez) de berían ir a Crocker y Algina, 1986.

6.2.3. El procedimiento de la doble corrección La tercera forma de supervisar a los examinadores y de asegurar que sus puntuaciones sean fiables requiere el procedimiento de la doble corrección de cada parte de la prueba que necesite un juicio subjetivo. Esto significa que cada escrito lo corrigen d os exam inadores distintos, trabajando independientemente. La pun tuación que el candidato recibe po r su ejercicio es la m edia de las puntuaciones otorgadas po r los dos examinadores. Administrativamente, la forma más fácil es disponer que dos examinadores de cada equipo corrijan cada ejercicio escrito, pero no es necesario que las dos personas trabajen juntas todo el tiempo. Al igual que en los dos métodos anteriores, los examinadores deberían abstenerse de escribir sobre el ejercicio, para no influirse mutuamente. Cada uno debe anotar su puntuación en una hoja de puntuac ión por separado. Es responsabilidad del jefe de equ ipo fijarse en si las dos puntuaciones son parecidas o no. Si son parecidas (es decir, si están en la misma área general de la escala de puntuación), la nota final del candidato será la media de las dos puntuaciones; si, sin embargo, las puntuaciones son muy distintas (dos puntos o m ás en una escala de cinco pu ntos), los examinadores deberán volver a leer el ejercicio y estudiar la escala de nivel cuidadosamente. Si los examinadores no pueden aproximarse en sus puntuaciones, se dará el escrito a otro examinador, que puede ser otro miem bro del equipo o incluso el jefe de eq uipo. Quedará a criterio de la institución la decisión del punto de vista que deb e primar en caso de desacuerdo, o si las dos puntuaciones más cercanas o todas las puntuaciones deberían hacer media.

La supervisión de la fia bilidad de los examinadores

6.3. Alternativas cuando la corrección se lleva a cabo fuera del centro de exámenes

Todos los métodos citados más arriba son válidos para la corrección centralizada, cuando los miem bros de un equ ipo de corrección trabajan juntos en el mism o lugar al mismo tiempo. Si la corrección tiene lugar fuera del centro de exámenes, los procedimientos descritos anteriormente deberán modificarse. Analizaremos primero el caso en que los examinadores corrigen en su domicilio. 6.3.1. Corrección en el do m icilio de los examinadores

El procedimiento por el que el jefe de equipo analiza una muestra de los ejercicios corregidos por los examinadores debe modificarse. Si los examinadores están corrigiendo en casa pueden no estar en posición de garantizar la corrección de un número determinado de ejercicios por día; no es por lo tanto práctico esperar que puedan mandar una muestra de las correcciones de cada día. Sería práctico, sin embargo, pedirles que envíen una muestra de cada paquete de las correcciones que deben hacer o, preferiblemente, m andar el paquete terminado al jefe de equipo para que éste realice un muestreo al azar. Esto permite al jefe de equipo acceder a los ejercicios que los examinadores han corregido en horas distintas durante el día y en distintas condiciones; si los exam inadores escogen su propia muestra, pueden enviar ejercicios que han corregido cuando estaban más frescos, o ejercicios que han tardado más tiempo en corregir o que han analizado más cuidadosamente. Si el jefe de equipo escoge la muestra, será más representativa de la corrección habitual de los examinadores. El m ayor p roblem a de este método es el tiempo: se puede retrasar el proceso de puntuación si los examinadores deben esperar para tener noticias del examina dor jefe antes de empe zar un nu evo paqu ete de correcciones. Sin emba rgo, esto es mejor para todas las partes implicadas que si el examinador se apresura a hacer todas sus correcciones y después quizá tiene que volver a corregir (o si el examinador jefe debe buscar otro examinador para corregir porque el examinador original no era capaz de corregir bien). Es responsabilidad del jefe de equipo el comunicarse con los examinadores lo antes posible, informarles si pueden continuar o aconsejarles sobre los problemas detectados. En el último caso el jefe de eq uipo debería enviar los ejercicios problemáticos al examinado r para que éste pueda estudiar los cambios que ha hecho el jefe de equipo e intentar internalizarlos. Las correcciones p osteriores de esta persona deberán sup ervisarse cuidadosamente. El segundo procedimiento de supervisión, que implica que todos los examinadores corrijan el mismo paquete de ejercicios de fiabilidad, también puede llevarse a cabo con examinadores que corrigen en su domicilio. La principal modificación es que se deben enviar fotocopias de todos los ejercicios a cada exa-

A l t e r n a t i v a s c u a n d o l a c o r r e c c i ó n s e l l e v a a c a b o fu e r a d e l c e n t r o d e e x á m e n e s

de la institución. Siempre existe la posibilida d de q ue los correctores corrijan los «ejercicios d e fiabilidad» de una form a m ás cuidadosa que el resto de ejercicios, y de que el jefe de equipo no obtenga una idea fidedigna de la capacidad del corrector para adaptarse a la escala de nivel bajo condiciones normales; sin em bargo , el procedim iento será útil para descubrir a aquellos correctores que tienen problemas incluso cuando saben que deben corregir de forma cuidadosa. El tercer métod o de corrección, el proced imiento de la doble corrección, también es posible con examinadores que corrigen desde su domicilio. La principal dificultad es que probablemente no será fácil para los examinadores que trabajan por separado poder discutir diferencias de opinión en los casos en que éstas llaman la atención por su importancia. Sin embargo, podría pedirse al jefe de equipo que lea los ejercicios en los qu e hay estas diferencias y que tome una decisión final.

6.3.2. La corrección en los centros de administración de pruebas El segun do tipo de corrección no centralizada tiene lugar en los centros de ad ministración de prue bas, especialmente durante las pruebas orales. Este tipo de corrección es notoriamente difícil: los exam inadores sólo disponen de un breve periodo de tiempo durante el que pueden tomar decisiones y a menudo no pueden volver a revisar la actuación lingüística del candidato para confirmar o cambiar su decisión sobre el nivel de actuación. Curiosamente, sin embargo, existen irnos cuantos procedimientos de supervisión para las pruebas de expresión oral. El procedimiento más común es el del muestreo. Lo lleva a cabo el jefe de equ ipo, quien visita el centro y asiste a las pruebas orales administradas por el examinador. El jefe de equipo observa la administración de la prueba y puntúa al candidato de forma independiente. Cuando la prueba ha terminado, el jefe de equipo y el examinador comparan sus puntuaciones y discuten los puntos en los que tienen diferencias de opinión serias. Aunque este procedimiento es sin duda útil para los examinadores observados, la posibilidad de poder observar a varios exam inadores a lo largo de un año es limitada, especialmente cuando hay instituciones que examinan en varios centros. Es raro encontrar algo equivalente a los «ejercicio s de fiabilidad» para las pruebas orales, o al proced imiento de doble corrección. Las instituciones afirman que no es práctico introducir estos procedimientos; cuando hay much os exam inadores sería caro c opiar «cas etes d e fiabilidad », y sería difícil desde u n punto de vista administrativo, además de caro, tener a dos examinadores en cada centro de administración de exámenes. Sin embargo, las instituciones que administran pruebas para su uso propio (promoción intema, final de curso) podrían considerar estas opciones; si los examinadores son también miembro s del equipo de profesores, podrían ver o escuchar juntos una única copia del casete de fiabilidad y llevar a cabo el procedimiento de doble corrección sin que sea necesario viaje alguno. Una posib ilidad interesante para las instituciones que examinan a candidatos en dis tintos centros de administración de exámenes sería la de grabar las actuaciones de los candidatos para que el jefe de equipo pueda tomar una muestra o incluso hacer una d oble corrección. Este es un proced imiento que se utiliza en la evaluación de


lenguas extranjeras en el Reino Un ido y que también utiliza Oxford-ARELS en sus exámenes de inglés como lengua extranjera. La sugerencia pued e no ser adecuada para todas las instituciones, p ero podría ponerse en práctica por m uchas.

6.4. Fiabilidad interna Todos los procedimientos detallados más arriba son intentos de mejorar la fia bilidad extema: el acuerdo entre examinadores. Sin embargo, a menudo ocu rre, especialmente en la evaluación de idiomas, que las diferencias de opinión entre examinadores sobre la calidad de la actuación de un candidato pueden ser legítimas. Por eso recomendamos el procedimiento de doble corrección en la mayo ría de circunstancias: este sistem a permite a los exam inadores dis crepar (hasta cierto pun to ), y simp lemente hace media de los resultados para llegar a una n ota final. En todos los casos es crucial que cada redactor sea coherente internamente: es decir, cada exam inador debería estar de acuerdo consigo m ism o a la hora de evaluar la misma actuación en una ocasión diferente. Esta fiabilidad interna puede suponerse que se ha supervisado normalmente cuando se comprueba la fiabilidad entre correctores. C ualquier acuerdó» entre exam inadores estará siem  pre limitado por la consistencia interna de cada uno de los examinadores. Sin emb argo, puede ser importante asegurar la fiabilidad intema al final de la for mac ión d e los. exam inado res o, de form a rutinaria, durante la corrección. La única forma de garantizar la fiabilidad intema es pidiendo a los examina dores que vuelvan a corregir ejercicios que ya han corregido. Esto sólo tendrá sentido si las primeras pun tuaciones no se han anotado en los ejercicios (por lo cual abogamos firmemente para que los examinadores nunca escriban en sus ejercicios). El jefe de e quip o debería ser el responsable de seleccionar una m ue s tra de ejercicios corregidos con anterioridad por cada examinador y organizar la manera de incluirlos en los paquetes de ejercicios que más adelante deberá corregir este examinador. Podrá entonces comprobarse la correlación entre la primera y la segunda puntuación, y las medias y desviaciones típicas respecti vas, y podrá decidirse qué pasos dar si la fiabilidad interna resulta ser baja. Pueden idearse procedimientos similares para la pmebas de expresión oral cuando las actuaciones hayan sido grabadas. En este caso, las cintas de sonido pueden ser preferibles a las cintas de vídeo para evitar la posibilidad de que el examinador reconozca al candidato, aunque hemos de tener en cuenta que las puntuaciones basadas en actuaciones grabadas pu eden resultar ligeramente d is tintas a las puntuac iones basadas en actuaciones en directo.

6.5. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario En el cuestionario preguntamos a los tribunales de exámenes de inglés como

Estudio sobre los tribunales de exámenes de inglés ...

resolvían los conflictos entre examinadores y qué tipos de estadísticas utilizaban para investigar la fiabilidad de la corrección de sus exámenes.

PR EG U N TA 3 7 : U na vez empezada la corrección, ¿se lleva a cabo la doble corrección de algunos ejercicios? En el caso de respuesta afirm ativa , ¿qué proporción de e je r c ic i o s ? Cuando redactamos esta pregunta presum imos que los tribunales de exám enes intentarían mejorar la fiabilidad de las correcciones subjetivas utilizando dos exam inadores para corregir cada ejercicio y quizá cada actuación oral. Descubrimos, sin embargo, que sólo tres tribunales utilizaban este sistema: un tribunal dijo que llevaba a cabo una doble corrección de todas las pruebas de expresión escrita en su único examen de inglés como lengua extranjera, otro respondió que utilizaba la doble corrección en muc hos d e sus exám enes, y otro qu e llevaba a cabo la doble corrección de las actuaciones orales en el nivel más avanzado. Otros seis tribunales parecieron interpretar «d ob le corrección » en la forma que nosotros utilizamos «corrección de muestreo» anteriormente: informaron que en algú n punto durante el proceso de corrección el exam inador jefe, o el jefe de eq uip o an alizaba u n porcentaje de lo s ejercicios co rreg idos por un ex aminador cualquiera. Algunos tribunales no dijeron cuántos ejercicios se analizaban de esta mane ra; otros dijeron qu e analizaban un 10 o un 15 por ciento de los exám enes correspondientes a cada examinador. Un tribunal dijo que sólo llevaba a cabo la doble corrección «a petición»: presumiblemente si un candidato o un centro de administración no estaba satisfecho con el resultado final y pedía revisión de examen. No quedó del todo da ro cuándo tenía lugar d muestreo. Un centro respondió que: Una muestra inicial de 10 a 15 ejercicios para cada parte (aproximadamente un 10%) es supervisada por d examinador jefe y d examinador adjunto. Si hay motivo de preocupadón, se tienen en cuenta más ejerddos. Si es necesario, se vuelve a corregir desde cero.

Esto indica que los ejerdcio s escritos son com probados po r un examinador veterano sólo al comienzo d d proceso de correcdó n, cuando los examinadores están frescos y se comportan según la norma. Sólo aquellos examinadores que no actúan de form a satisfactoria en este estadio se vuelven a supervisar. Parece arriesgado permitir a los examinadores corregir durante tanto tiempo ( d resto del periodo de corrección) sin algún tipo de evaluación de su trabajo, puesto que hay muchas presiones que pueden rebajar su nivel de atendón y hacerles corregir peor de lo que debieran. Sin embarg o, al men os un tribunal continúa analizando muestras a lo largo de todo el periodo de corrección: Se analizan muestras de los ejerddos escritos de todos los examinadores al pr ind pio , en la mitad y al final dd proceso de corrección. Al final los examinadores se someten a corrdaciones estadísticas y empíricas. Esto puede originar una nueva correcdón de los e jer dd os que han sido corregidos por malos examinadores (que no se volverán a contratar) o un escalonamiento de los examinadores demasiado exigentes o demasiado benévolos.

La supervisión de la fiabilidad de los exam inadores

(Para una breve explicación del término «escalonamiento» véase la pregunta 41 más adelante.) Es importante hacer notar en este punto q ue la may oría de los tribunales que respondieron a la pregunta sobre la doble corrección hacían referencia a sus exámenes escritos, quizá porq ue nuestra pregunta mencionaba «ejercicios escritos». Sólo cuatro mencionaron pruebas orales. Un tribunal mencionó que grababan todas las actuaciones orales del nivel superior y que éstas eran corregidas por dos examinadores, y por más en casos de desacuerdo. Una respuesta de otro centro mencionaba que a menudo usaban interlocutores y examinadores en algunas de sus pruebas, y qu e los interlocutores podían contribuir a la evaluación (aunque en caso de diferencias de opinión entre el interlocutor y el examinador, el punto de vista del exa mina dor prevalecía sobre el del interlocutor). Otros do s tribunales que administran pruebas orales respondieron que la doble corrección «no procedía», aunque am bos se refirieron al «m ue streo » o a la «sup ervisión » en sus respuestas a la pregunta 41. Sabemos pu es mu y poco sobre los procedimientos que se utilizan en la mayor parte de los tribunales para garantizar que sus examinadores de expre sión oral mantenga n sus criterios de form a consistente.

PR EG U N TA 3 8 : ¿Q ué ocurre en caso de discrepancia entre el primero y el segundo corrector? M arque los apropiados: 1. Se llam a a un tercer corrector, y se utilizan las dos puntuaciones m ás cercanas. 2 . Se hace m edia entre las dos puntuaciones. 3 . Se respeta la pun tuación de1segundo corrector. 4 . Los dos correctores discuten y llegan a un acuerdo. 5. Otros. Los tribunales que afirmaron utilizar la «doble corrección» en el sentido que noso tros lo ente ndíam os —es decir, utilizando dos e xam inadore s indepe ndien tes para corregir cada ejercicio o actuación—tenían diferentes formas de llegar a una puntuación final cuando los dos examinadores no estaban de acuerdo. La práctica de pedir a los dos examinadore s que discutieran y llegaran a un acuerdo la llevaba a cabo un tribunal, pero dos dijeron que en algunos de sus exámenes esta decisión se de jaba al jefe de eq uipo o al exam inador jefe. El cuarto tribunal dijo que el proceso no acababa aquí necesariamente. Si la decisión del examinador jefe no era satisfactoria, se po día llamar a los examinadore s de otros equ ipos para que diera su opinión: «y algunos candidatos han tenido el privilegio de tener hasta nueve correcciones antes de tomar una decisión». Los tribunales que usaban el método del muestreo dijeron que se respetaba la opinión del segundo corrector. Este corrector era un examinador veterano (examinador jefe o jefe de equipo) en todos los casos.


Uno respondió que no calculaba las correlaciones de forma habitual, pero no dijo si las calculaba o no. Tres tribunales respondieron que la pregunta «no procedía»: d os porque no h adan doble correcdón y uno «porq ue el examinador jefe co rrige to dos lo s eje rdcio s». Resultó curioso que al menos ocho tribunales dijeran que calculaban correlaciones algunas veces, puesto que sólo cuatro dijeron hacer doble corrección. No sabemos con quién hacen las correladones estos tribunales. Sería interesante saberlo, y ver los resultados de los cálculos. Por lo que sabemos, no se hacen públicas.

PR EG U N TA 4 0 : ¿Se calculan h abitualmente las m edias y las desviaciones típicas de los correctores? Ocho tribunales dijeron que calculaban las medias y las desviaciones típicas habitualmente; dos dijeron que sólo lo hacían en ocasiones. Otros dos dijeron que esto no procedía con su examen o bien porque «el examinador jefe corrige todos los ejercicios escritos» o bien porque el examen era de«evaluación oral». De nuevo encontramos curioso el número de tribunales que dicen llevar a cabo estos cálculos porque no sabemos qué medias se comparan y no tenemos evidencia de los resultados de estos cálculos.

PR EG U N TA 4 1 : ¿Se sigue habitualmente otro proceso para calcular o comprobar correctores?

l a

fiabilidad de los

Varios tribunales se refirieron a su proceso de formación y mu estreo, que ya hem os com entado en el capítulo 5; otros mencionaron nuevos procedimientos. Dos tribunales se refirieron al procedimiento llamado «escalonamiento»; un tribunal de exámen es «s ub irá » (ajustará la puntuación dada a) los ejercicios escritos que han sido corregido s por alguien que resulta ser demasiado estricto, y «bajará» los ejercicios corregidos por examinadores demasiado benevolentes. Suponemos que los tribunales deciden sobre la dirección y el grado de escalonamiento analizando las medias y las desviaciones típicas de sus examinadores, pero no está claro con quién comparan a cada examinador ni cómo se hace el «escalonamiento». El problem a del escalonamiento es que pu ede haber una tendencia a creer que la fiabilidad de la corrección se ha obtenido porque los resultados de los examinadores se han ajustado para «compensar discrepancias». Sin embargo, el escalonamiento puede en realidad empeorar los problemas; a no ser que los examinadores que han demostrado no tener fiabilidad extema sean examinadores con fiabilidad interna com prob ada —cosa harto difícil—la mo dificación de los resultados de los candidatos puede resultar menos, y no más, justa todavía. En resumen, la corrección y la precisión del escalonamiento están puestas en duda y los responsables de los exámenes deberían al menos comprobar que al menos el escalonamiento consigue lo que se pretende. Es mejor, creemos, asegurar la fiabilidad de los examinado res de la form a descrita más arriba. Otros procedimientos utilizados incluían informes sobre cada examinador recogidos por el examinador jefe (confidenciales para el centro), y la «repeti-


ción de la coordinación». El tribunal que mencionó la repetición de la coordi nación no dio detalles sobre quién la necesitaba ni cuándo debía llevarse a cabo. Otro tribunal dijo que en el caso de los examinadores de pruebas orales había un proceso de «observación, examen en grupo y nueva formación», pero no está claro a qué se refiere el término «ex am en en gru po » n i quién debe volver a ser formado. (Supone mos que la «repetición de la coordin ación» y la «nueva form ación » son procesos q ue tienen lugar además de las sesiones de unifica ción de criterios habituales que se convocan a lo largo del año.) El último pro cedimiento mencionado se describió como «sólo informe en pantalla de ordenador», pero no se dieron más detalles. Es una pena que el tribunal no ampliara más la información, puesto que otros podrían beneficiarse de los nue vos procedim ientos utilizando m icro-ordenadores.

6.6. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: documentación Recibimos documentos de cuatro tribunales que contenían información sobre la supervisión de los examinadores. Analizaremos primero los procedim ientos utilizados para la supervisión de la corrección de la expresión escrita y luego analizaremos los procedimientos utilizados para la supervisión de la corrección de la expresión oral.

6.6.1. La supervisión de la corrección de la expresión escrita Recibimos información sobre la supervisión de la corrección de la expresión escrita de tres tribunales: la LCCI, el AEB y el UCLES. La LCCI, en su Handbook of Duties of Examiners and Moderators for Business Studies Examina tions (Manual de deberes para los examinadores y moderadores de exámenes de estudios comerciales), dedica una página a lo que ellos llaman «pro cedim ientos estándar de re-escruti nio ». Estos procedimien tos se describen brevemente a continuación: 1.

El examinador adjunto (término usado por la LCCI para «examina do r») envía 12 ejercicios escritos del paquete inicial (preferiblemente en la franja del 40-60%) al examinador jefe.

2.

El examin ador jefe analiza los ejercicios escritos. «Si así lo desea, el examinador jefe puede telefonear al examinador adjunto para dar un informe (favorable o no favorable) sobre el re-escrutinio. En cualquier caso, los ejercicios escritos del examinador adjunto... se le devolverán... con instrucciones, por ejemplo: a. El criterio de corrección es aceptable: «OK. Con tinúe». b. El criterio de corrección requiere pequeño s ajustes. c. El criterio de corrección requiere ajustes considerables. En este caso, el examinador jefe pu ede pedir al examinador adjunto que haga los ajustes apropiados, pero que se abstenga de devolver ejercicios corregidos al


3.

Muestreo complementario

El examinador jefe puede pedir más muestras de los ejercicios corregidos por el examinador adjunto «para comprobar que están de acuerdo con el criterio establecido». Al final del periodo de corrección, el examinador jefe debería escribir un informe sobre el comportamiento de los examinadores adjuntos cuyo trabajo ha sido comprobado, por ejemplo: a. Corrección Correcci ón satisfactoria. Reutilizar para par a pruebas prue bas futuras. b. Corrección inicial ligeramente irregular, irregular, pero se hicieron los ajustes ajustes adecuados, por lo que el examinador adjunto puede volverse a utilizar para pruebas futuras. c. Este Este examinador exam inador adjunto no pudo adaptar su corrección corrección a los criter criterios ios requeridos. No se volverá a utilizar.

Hay varias características positivas en esta descripción, como son que el examinad or jefe com pruebe las correcciones correcciones una vez modificadas por el examinador y que el tribunal guarde la información sob re qué examinadores deberían volver volver a corregir en el futuro. Sin embarg em barg o, hay varios varios puntos que hay que acla aclara rar: r: 1. ¿Por qué es el exam inador quien selecciona los los ejercicios ejercicios escritos escritos que van a ser comprobados, y no manda el paquete entero al examinador jefe dejándole así escoger qué ejercicios corregirá? Como dijimos anteriormente, pedir al exam inador que escoja los ejercici ejercicios os puede provocar que la muestra enviada esté esté corregida m ás cuidadosame nte que el resto resto.. 2. ¿Por qué no se continúa solicitando solicitando mu estras a todos los correctores durante todo el periodo de corrección? Si los examinadores no se «mantienen en alerta», la complacencia puede hacer acto de presencia. 3. ¿Cóm o decide el exam inador jefe jefe que el el examinad or no está está corrigiendo suficientemente suficientemente bien? N o se mencionan los procedimientos que utiliz utilizaa el tribunal o los resultados que considerarán como evidencia de fiabilidad o no fiabilidad. 4.

¿Qué ocurre con los ejercicios ejercicios corregidos por un examinador examinador que no pudo «ajustarse al criterio requerido»? Algunos tribunales afirman que vuelven a corregir todos los ejercicios de un examinador que ha demostrado ser poco fiable; suponemos que esto ocurre en esos tribunales pero no lo sabemos a ciencia cierta.

El folleto del AEB How to set and mark GCE examinations (Cómo administrar y corregir los exámenes de GCE) presenta un procedimiento que es muy similar al de la LCCI, pero sugiere que todos los ejercicios escritos de los examinadores se someten a un muestreo durante el periodo de corrección y afirma de forma explícita que se volverán a corregir todos los ejercicios escritos si ello es necesario (página 12). El AEB AEB tamb tamb ién da detalles sobre lo q ue ocurre al final final del peri odo de corre cción como una comprobación complementaria de la fiabilidad de la corrección. Aunque este procedimiento no es pertinente en exámenes de inglés como lengua extranjera extranjera (el AE AEB ya no produ ce este tipo tipo de exam en), supon em os que se

La supervisión supervisión de la fiabilidad de los examinadores

utiliza para exámenes de lengua extranjera. Es útil reproducir esta descripción por com pleto pu es contiene vari varias as buenas ideas que podrían ser adoptadas por instituciones instituciones que tienen tienen un gran número de candidatos: candidatos: En asignaturas en las que se requiere un número mayor de quince examinadores para corregir una prueba, éstos se dividen en equipos. Un equipo está supervisado por el examinador jefe, mientras que el resto son supervisados por examinadores adjuntos veteranos. Todas las dudas que surgen después de la sesión de unificación de criterios se dirimen directamente con el examinador jefe o a través trav és del de l exami exa mina nador dor adjunto adju nto veterano. Tan pronto com o es posible, después de la sesión de unificación de criter criterios ios,, cada examinador adjunto envía al al jefe de equipo (examinador jefe o examinador adjunto veterano) una muestra de ejercicios escritos corregidos. El jefe de equi eq uipo po com co m pru eba eb a qu e cada cad a exam ex amina inado dorr esté corri co rrigie giend ndo o correctamente, volviendo a corregir estos ejercicios escritos. Si es necesario, se pide al examinador que haga los cambios, pequeños o no, para corregir correctamente. Si no está totalmente satisfecho, el jefe de equipo solicita ejercicios ejercicios com plementarios después de haber señalado las inexactitude inexactitudess y una vez que los examinadores hayan mo dificado sus correcci correcciones. ones. (El (El muestreo complementario de ejercicios corregidos, algunos seleccionados al azar, garantiza que la corrección prosiga de forma satisfactoria y que todos los examinadores estén corrigiendo de acuerdo con el criterio correcto. Si todavía hubiera dificultades dificultades con algún examinador—hay examinador—hay alguno s bueno s profesores con buenos conocimientos de su asignatura asignatura a los que les resulta resulta muy difícil difícil este tipo tipo de d e trabajo—, deben to marse medidas me didas para que tod os los lo s escritos de este examinador se vuelvan a corregir. En algunos casos las dificultades se limitan limitan a la corrección de sólo u na pregunta de la prueba y sólo debe volverse a corregir esta pregunta.) Cuando se ha com pletado la correcci corrección, ón, los examinadores jefes y su s adjuntos veteranos se encuentran en el tribunal para revisar el trabajo de todos los examinadores adjuntos. Vuelven Vuelven a corregir más ejercicios ejercicios corregidos por todos los miembros de sus equipos y estos ejercicios de «revisión de oficio» se seleccionan seleccionan de tal tal forma que supong an una variedad de resultados por parte de cada exam inador, una variedad en la procedencia procedencia de los e xaminadores y una variedad del periodo durante el cual se corrigieron los escritos. La muestra de ejercicios ya corregidos puede haber señalado algunos problemas; la información estadística estadística de la que dispone el responsable responsable del examen también también puede señalar señalar posibles problem as pero el trabajo trabajo de cada exam inador recibe recibe el mismo escrutinio exhaustivo. Se vuelven a corregir tantos ejercicios escritos como sea necesario hasta que se pueda tomar con seguridad una decisión sobre la calidad de su trabajo. trabajo. En la may oría de los casos, la corrección result resultaa ser correcta y los resultados se aceptan. En algunos pocos casos, la evidencia de la segunda corrección corrección indica que un peq ueño ajuste ajuste numérico corregiría la puntuación, y se hace este pequeñ o ajuste. ajuste. Cuando no p uede tomarse ninguna ninguna de estas decisiones, se vuelven a corregir todos los ejercicios. De esta manera, al final de la reunión de revisión de oficio, el tribunal ha confirmado la


quién corrigió el trabajo o de cuándo fue corregido. La corrección de las partes objetivas de la prueba no presentan ninguno de estos problemas. Las hojas de respuestas que contienen las respuestas codificadas se escanean por m edio de una máqu ina especial especial y sólo es necesario asegurarse asegurarse de que la máqu ina haya sido program ada con los códigos de respuesta respuesta correct correctos. os. Hay un procedimiento especial para garantizar que los candidatos que no siguen las instrucciones de utilización de las hojas de corrección reciben puntos por sus respuestas correctas. (How to set and and mark GCE exam examination inations, s, AEB, AEB, p á g in a 12)

Los aspectos en esta descripción que vale la pena señalar señalar son q ue el muestreo es continuo para cada profesor incluso una vez finalizada la corrección y que se utiliza utiliza inform ación estadística estadística que sirva de ayuda en el proceso de toma de d eci siones. Por desgracia, no sabemos qué tipo de información se utiliza. UCLES tam bién describe su proceso de supervisión para el FCE y el CPE en el General Handbook (Manual General). Es importante señalar que en el proceso seguido por UCLES no parece haber una división clara entre formación y supervisión: el examinador recibe una muestra de ejercicios escritos para su formación al mismo tiempo que recibe recibe el primer paquete de «ejercicios de verda d», y debe devolverlos devolverlos al mism o tiempo. A unque este sistema sistema es sin duda rápido si el examinador co rrige bien la la muestra mu estra de ejercicios, debe de ser difícil difícil decidir qué hacer si estos ejercicios dan problemas. No se dan detalles sobre lo que ocurre en estos casos. Hay qu e señalar señalar que n inguno de los tres tres informes menciona los procedimientos procedimientos estadísticos utilizados para tomar decisiones sobre la fiabilidad de la corrección. corrección.

6.6. 6.6.2. 2. La supervisión supervisió n de la corrección de la expresión or al OxfordOxford-AREL ARELS S public a una breve descripción de cóm o supervisa la corrección de la e x p r e sió si ó n oral or al e n u n foll fo llet eto o titu ti tula lado do Oxfo xford-A rd-AR RELS Exam xaminat inatio ion ns in in Englis glish h as a Forágn Forágn Language: Language: Rational Rationale, e, Regulations and Sylla Syllabuses. buses. (Los (Los exámenes exámenes de Oxford-ARELS Oxford-ARELS en inglés como len gua extranjera: fundamentos, normativa y programas). La descripción es la que sigue: Las grabaciones de los candidatos son corregidas todas en el Reino Unido por parte de examinadores cualificados. Para los dos niveles superiores es obligatoria la corrección independiente por parte de dos examinadores; si discrepan en más de una pequeña diferencia el examinador veterano debe dar un tercer y definitivo juicio. En el nivel preliminar, todas las grabaciones que en una primera corrección están cerca del limite que separa dos notas (por ejemplo entre aprobado y suspenso) vuelven vuelven a corregirs corregirsee por dos examinadores; si existe una discrepancia significativa, se pide una tercera corrección. En cada examen al menos un 10% de la totalidad de las actuaciones es revisada por los examinadores veteranos (página 7).

Resulta alentador saber qu e este tribunal lleva lleva a cabo tanta doble corrección y que también se pide un a tercera tercera opinión en caso de discrepancias. discrepancias. Es Es curioso, sin embargo , que el examen de nivel nivel inferior inferior es corregido por sólo un exam i nador, excepto en el caso en que la nota del primer examinador esté cerca del límite entre dos puntuaciones.

L a supervisión de la fiabilidad de los examinadores

E n c o n t r a m o s só s ó l o o t r a re r e fe f e r e n c ia i a a p r o c e d i m i e n t o s d e s u p e r v i si si ó n e n l o s d o c u  m e n t o s q u e r e c i b i m o s d e l o s c e n t r o s . L C C I e n s u f o l l e t o L an guages for In dustry and C om om  merce merce:: Oral Examinations. Syllabus Syllabus Bookl Booklet et,, Regulati Regulations ons and and Teacher' Teacher'ss Guide, Guide, 1 9 9 0 - 1 9 9 2 (Lenguas (Lenguas para Ja Industria y el Comercio: exámenes orales. Folleto de descripción, normativa y libro del profesor, 1 9 9 0 —1 —1 9 9 2 ) , d i c e lo l o s i g u i e n t e a c e rc r c a d e l a s p r u e b a s d e e x p r e s ió i ó n o r a l: l:

Los coordinadores actúan como examinadores jefes para el grupo y son los responsables de la supervisión de todos los examinadores de su grupo y les observarán durante la administración de los exámenes para mantener la formación y los criterios (página 41). Desgraciadamente, esta descripción es demasiado general para que pueda ser utilizada por instituciones que deseen diseñar nuevos sistemas de evaluación o reformar los antiguos. 6.7.

Debate

Es clara la importancia que tiene la supervisión de la corrección de una prueba para que p ued a hablarse de la fiabilidad fiabilidad del resultado. resultado. La form form a m ás corriente corriente de hacer esto por parte de los tribunales de exámenes es sacando muestras de las las puntuaciones de los examinadores y pidien do ajustes ajustes si la correcci corrección ón no es satisfac satisfactori toria. a. En los los exám enes con gran núm ero de candidatos, el mu estreo lo llevan a cabo los jefes de equipo, cuyas decisiones no se cuestionan; en algunos exámenes, sin embargo, las correcciones de los jefes de equipo las supervisa a través de un muestreo el examinador jefe, cuya decisión es definitiva. Sólo unos cuantos tribunales de exámenes ofrecieron detalles de sus proce dimientos de muestreo. Las descripciones que dieron fueron útiles, pero hay algunas cuestiones que deben clarificarse: 1. ¿Por qué hay tantos tribunales que utilizan utilizan el m uestreo en lugar lugar de la doble corrección? 2. ¿Por ¿Por qué algu nos tribunales tribunales sólo efectúan efectúan un muestreo al com ienzo de la corrección y no durante todo el periodo? 3. ¿Por qué algun os tribunales piden al exam inad or que escoja los escritos escritos que constituirán la muestra en lugar de llevar a cabo un muestreo al azar? 4. ¿Pide ¿Piden n todos los los tribunal tribunales es a los examinadores que han mostrado «d ife  rencias en la corrección» que vuelvan a mandar sus ejercicios escritos des pués de haberlos corregido de nuevo para volverlos a analizar? La clarificación de todos estos puntos resultaría muy valiosa para institucio nes que estén diseñando diseñando nuevo s exámenes y deseen adoptar adoptar m étodos de super visión prácticos sin tener que sacrificar demasiada fiabilidad. Aunque detectamos que algunos tribunales practican habitualmente la doble

Sumario

Es igualm ente importante hacer doble corrección tanto tanto cuando los exam ina dores trabajan en su domicilio como cuando corrigen de forma centralizada. La corrección debería llevarse llevarse a cabo de form a q ue el primer examinad or no influya en la opinión del segundo examinador. Creemos también que necesitamos saber más acerca de los procedimientos utilizados por los tribunales para la supervisión de la corrección de la expresión oral. oral. So m os conscientes que los examinadores jefes y los jefes de equipo obser van a me nudo a los examinado res mientras éstos están están corrigiendo, corrigiendo, pero duda mos que este método permita la supervisión de más de unos pocos examinadores cada año. Una posibilidad que hemos sugerido es organizar un sistema de supervisión mediante grabaciones en cinta, para que los jefes de equipo o los examinadores jefes puedan no sólo oír la actuación del candidato sino también controlar cóm o el examinad or adm inistra inistra la prueba, y pueda n de esta forma comprobar que la puntuación otorgada ha sido la razonable. Cree m os que todos lo s tribunales tribunales que ad ministran pruebas pruebas orales deberían hacer hacer esto de forma habitual. 6.8 Sumario

Presentamos a continuación una serie de cuestiones que deberían plantearse las instituciones cuando organizan la supervisión de la fiabilidad de sus examina dores: ¿Se han dividido los examinadores por equipos y está claro quién es el jefe de cada equipo? ¿Se ha entregado a los examinadores la última versión de la plantilla de correc ción o de las escalas de valoración que incorporan clarifi clarificacio caciones nes y otras mejo  ras acordadas durante la formación? ¿Se ha recordado a los examinadores que no deben escribir en los ejercicios escritos de los candidatos? ¿Se ¿Se ha aco rdado un sistema sistema d e supervisión de corrector correctores? es? ¿Se hará hará un mu estreo, se utilizarán ejercicios escritos de fiabilidad o se llevará a cabo la doble corrección? Si la supervisión se va a hacer hacer mediante muestreo, ¿se ¿se ha inform inform ado a todos sobre los detalles del sistema? ¿Qué porcentaje de los ejercicios corregidos por cada examinador analizará el jefe de equipo? ¿Qué opinión prevalecerá si la evaluación de un ejercicio por parte del jefe de equipo difiere de la del examinador? ¿Se llevará a cabo el muestreo al comienzo del proceso de corrección o con tinuará a lo largo de todo el proceso? ¿Volverá a analizar el jefe de equipo los ejercicios que haya tenido que vol ver a corregir un examinador? Si la la superv isión se va a efectuar efectuar mediante «ejer cicios escritos escritos de fiabilida d», ¿se ha informado a todos sobre los detalles del sistema?


¿Se han dad o a los ejercicios escritos qu e se utilizarán para estudiar la fiabili dad una «puntuación de consenso» por parte del examinador jefe y de la com isión de unificación de criterios? ¿Se han hecho las suficientes fotocopias de los ejercicios escritos para que todos los e quip os p uedan realizar el procedimiento de fiabilidad al mismo tiempo? ¿Se ha tom ado u na de cisión sobre qu é nivel de correlación indica una fiabi lidad aceptable entre correctores? ¿Saben los jefes de equ ipo cóm o calcular las correlaciones para poder info r mar a sus examinadores tan pronto como termine el estudio de la fiabilidad? Si la supervisión se va a realizar mediante la doble corrección, ¿se ha infor  mado a todos sobre los detalles del sistema? ¿Se ha tomad o un a decisión sobre la amplitud de las discrepancias que debe existir entre do s examinad ores antes de discutir sus puntuaciones respectivas? ¿Se ha tom ado u na decisión sobre lo qu e debe hacerse si ningun o de los do s examinadores está dispuesto a cambiar sus puntuaciones? ¿Se ha creado un sistema para supervisar los exáme nes orales? ¿Se grabará cada actuación, o al menos una muestra de las actuaciones? Si hacia el final del proceso se descubre que un examinador no ha sido cohe rente en sus correcciones, o h a sido de masiado generoso o estricto, ¿existe un sistema para corregir las puntuaciones erróneas? ¿Si se utiliza el «escalonamiento», existe un sistema para decidir cuándo y cómo ponerlo en práctica? ¿Se guardarán informes completos para que los examinadores que no hayan corregido bien no vuelvan a puntuar en el futuro? ¿Se pubhcará de alguna manera la información obtenida durante el proceso de supervisión? Si no, ¿cómo sabrán los usuarios del examen que la correc ción ha sido fiable?

Bibliografia C ro ck er , L. y J. A lgi na (1 9 8 6 ). Introduction to Classical and Modem Test Theory. H o lt R in e h a rt W i n s to n , C h ic a g o. G u ilf o rd , J. P. y B. F ru c h te r ( 1 9 7 8 ) . Fundamental Statistics in Psychology and Education. McGraw-Hill, Tokio.

7


En este capítulo se tratan las cuestiones que se han de considerar una vez se ha corregido el examen. Se deberán tomar decisiones sobre si simplemente se suman los diferentes resultados para llegar a una puntuación total para la prueba, o si se da a unos ítems más importancia que a otros. Los responsables de la prueba deben decidir de qué manera informarán de los resultados, y a menudo también deben decidir qué candidatos se han comportado de forma adecuada, desde el punto de vista lingüístico, y por lo tanto han superado la prueba, y cuáles han suspendido.

7.1. Resultados Una vez se han corregido las pruebas, será posible calcular algún tipo de resultado para cada candidato. Si la prueba tiene secciones de corrección objetiva (por ejemplo, ejercicios de respuesta de opción múltiple o de reconocimiento del error), se habrá adjudicado un punto si la respuesta ha sido correcta y un 0 si la respuesta ha sido incorrecta. Estas puntuaciones pueden sumarse para llegar a un total para cada sección de la prueba o a un total global para toda la prueba, o pueden hacerse ambas cosas. Si la prueba se corrige de forma subjetiva, se pueden dar puntuaciones globales o analíticas (véase capítulos 5 y 6) a las actuaciones lingüísticas de toda la prueba o de algunas tareas en particular. En este último caso, las puntuaciones pueden sumarse para llegar a la puntuación global del examen. A veces, los resultados de las pruebas objetivas se modifican para paliar los efectos de un acierto por azar. En tales casos, el resultado obtenido por el estudiante se ajusta deduciendo un porcentaje calculado a partir de las posibilidades de acertar el ítem por azar. En una prueba de verdadero/falso, en la que las posibilidades de acertar la respuesta correcta es del 50%, se puede esperar que los estudiantes respondan correctamente a una pregunta por cada pregunta que respondan incorrectamente, por lo que la modificación consistirá en la deducción del número de respuestas erróneas del número de respuestas correctas. La fórmula general es: Resultado m odificado = Respuestas correctas —

Respuestas erróneas -------------------------------Nú mero de alternativas —1


Sin embargo, la utilización de tales correcciones es controvertida y sólo se recomienda cuando se sabe que existe la posibilidad de acertar a ciegas y si hay un gran núm ero de ítems om itidos por algunos o todos los estudiantes. En cualquier otro caso, la corrección tiene efectos mínimos y no se recomienda (Ebel y Frisbie, 1991: 213). 7.2. Ponderación 7.2.7.

Ponderación de los ítems

Los redactores de pruebas creen a menudo que algunos ítems son más importantes que otros y que tales ítems deberían por lo tanto tener más peso en el total de la prueba. Dar valor extra a algunos ítems se conoce como «ponderación» (weighting). Sin embargo, la ponderación diferenciada de ítems raramente m ejora la fiabilidad o la validez. Se da más peso a algunos ítems porque se cree que el completarlos requiere mayor competencia o más conocimientos, o porque requiere más tiempo, o porque se cree que son más importantes en el currículo o en el concepto de dominio. Ebel, sin emb argo, condena de form a taxativa la ponderación de ítems: Si una prueba de aprovechamiento cubre dos áreas, una de las cuales se considera el doble de importante que la otra, deberían redactarse el doble de ítems sobre esta área más importante. Esto redundará en medidas más fiables y válidas que si se presenta el mismo número de ítems para las dos áreas y los que pertenecen a la parte más importante valen el doble. Los ítems complejos o que necesitan de más tiempo para ser contestados deberían, si es posible, producir más de una respuesta que pueda puntuarse de forma independiente como correcta o incorrecta. (Ebel, 1979: 199.)

La forma más simple de ponderación es la ponderación por igual: dar la misma nota a cada ítem. Es importante señalar, sin embargo, que si las diferentes secciones de una prueba son de distinta longitud, y que si cada ítem recibe la misma puntuación, entonces las distintas partes tendrán un peso distinto a no ser que los resultados se modifiquen de alguna manera.

7.2.2. La ponderación de las secciones de una prueba Los elaboradores de una prueba pueden también considerar que las distintas partes de una prueba (no ítems) deberían tener un valor distinto. Pueden creer que algunos aspectos de la competencia son más importantes que otros en un contexto dado, esto es, según el objetivo de la prueba. Si la prueba selecciona solicitudes para estudios académicos, entonces la corrección de la expresión escrita puede ser más importante que una pronunciación correcta. Si la prueba selecciona controladores de tráfico aéreo internacional, la capacidad de identificar núm eros e instrucciones en el discurso oral puede ser mucho más importante que la capacidad de escribir redacciones coherentes y gramaticalmente correctas.

Transformación

Otra razón para la ponderación p uede ser pedagóg ica: para enfatizar ante los alumnos la importancia de algunas partes del currículo. Por ejemplo, puede ser difícil producir ítems o tareas con un componente oral, pero los profesores pueden considerar las destrezas orales como cruciales y por lo tanto dar más peso a este componente aunque no esté en proporción al número de ítems. Otra razón para el distinto peso de distintos componentes puede ser el de asegurarse de que los candidatos utilicen su tiempo de forma adecuada cuando responden a la prueba. La relación entre las distintas secciones de una prueba según las correlaciones existentes entre las m ismas puede ser una consideración a tener en cuenta a la hora de ponderarlas. Si distintas secciones de la prueba tienen una correlación alta entre ellas, entonces el hecho de ponderarlas o no deja de ser un problema: la ponderación natural «n o pon derad a» dará unos resultados tan válidos com o los que resultarían de procedimientos estadísticos más complejos (Ebel, 1979: 252). Si los compon entes de una prueba no van a tener el mismo peso, normalmente la prueba más fiable debería tener más peso. Si los componentes tienen la misma fiabilidad, entonces se pueden usar de forma legítima juicios sobre la importancia relativa: debería insistirse, sin embargo, en que estos son subjetivos. Una correlación baja de una sección de una prueba con respecto a otras secciones significa a menudo que está midiendo algo distinto que las demás. Puede darse más peso a esta parte para aumentar su contribución a la puntuación total. Si las partes de distinta longitud tienen la misma pond eración, deberían po nderarse los resultados técnicamente para que sus desviaciones típicas fueran iguales (para una explicac ión y discusión detalladas, véase Ebel, 1979: 25 2—5). En general, sin emb argo, el mejor consejo es no pon derar las secciones de acuerdo con un ajuste de puntuaciones según una fórmula, sino ponderarlas en el m om ento de la elaboración de la prueba, incluyendo más o men os ítems en las distintas partes. 7.3. Transformación

Si, a pesar de las diferencias de longitu d, cada parte de la prueba se considera igualmente importante, entonces será necesario transformar las puntuaciones antes de sumarlas o compararlas. La forma más común de transformación es la de convertir las puntuaciones de cada parte en porcentajes: dividiendo la pu ntuación por el número de ítems y multiplicando por 100. Hay formas más complejas de transformación de resultados (puntuaciones según criterios, puntuaciones z y otras): se tratan en la mayoría de los libros de texto sobre la evaluación en la educación y no se describirán aquí. Baste decir que el efecto final de tales transformaciones es el de hacer comparables las puntuaciones de distintas secciones y, a menudo, si se suman, conseguir que estén ponde radas equitativamente. decisiones sobre la transfor den su poner la comparación de la


en otra sección. Puede decidirse ajustar las puntuaciones de una parte a la luz de las puntuaciones de otra. Por ejemplo, la puntuación de un candidato en la prueba de expresión oral, corregida de forma subjetiva, puede ajustarse para acercarla a la puntuación de esta mism a persona en un a prueba de c ompren sión oral corregida de form a objetiva: esto pod ría justificarse si una prueba se considera o se sabe que es má s válida o fiable que otra. La justificación para transformar puntuaciones es a menudo subjetiva y está influida por consideraciones pedagógicas, psicométricas y de lingüística aplicada. Puede ser importante saber si las partes de una prueba se han transformado y cóm o ha o currido, puesto que afecta directamente a la puntuación final y por lo tanto lo que ésta significa. Si, por ejemplo, la puntuación de una prueba de expresión escrita con un valor máximo de 20 puntos se suma a la puntuación de una prueba de com prensión lectora con un valor máx imo de 5 0 puntos para llegar a una puntuación final máxima de 70, esta puntuación final contará claramente con más puntos de lectura que de expresión escrita: en otras palabras, la capacidad lectora de un a persona tendrá más peso en la nota final que la capacidad de redactar, si las dos p ruebas tienen una dificultad, fiabilidad y variabilidad equivalentes. 7.4. Suma final

En el caso en que el resultado sea una letra o un número, esta puntuación estará formada por distintos compo nentes: la suma de las puntuaciones de las diferentes partes del examen. Esta suma se hace a menudo de forma complicada. Para ilustrarlo, tomaremos el caso del U C LE S First Certifícate in English, no porque el examen sea ejemplar, sino porque resulta conocido para muchos lectores. El examen del FCE consiste en 5 «partes» o pruebas. Cada parte tiene un número variable de puntos posibles: La parte 1 (com pre nsió n de lectura) tiene un valor de 55 pun tos (a partir de 25 ítems de un punto cada uno y de 15 ítems de 2 puntos cada uno). La puntuación del candidato en esta sección se transforma más adelante en una puntuación sobre un máximo de 40 puntos. La parte 2 (expresión escrita) tiene cinco preguntas que se corrigen de forma subjetiva y que se puntúan de 0 a 20. Las puntuaciones del candidato se convierten en una puntuación sobre un m áximo de 40 puntos. La parte 3 (uso de la lengua) se corrige sobre una puntuac ión total que se decid e durante la reunión de los exam inadores (UCLES General Handbook, 1987: 48) a menu do entre los 70—80 puntos. La puntuación final del candida to se transforma en una puntuación sobre un máximo de 40 puntos. La parte 4 (com pren sión oral) tiene una nota total de 20. «Este total final de 20 puede suponer el ajuste de las puntuaciones iniciales en un número de ítems individuales; esto se hace para dar la ponderación deseada a algunas respuestas por cuestiones de discriminac ión y para paliar, por ejemplo, el factor del acierto

Las distintas puntuaciones

La parte 5 (expresión oral) tiene un m áxim o de 3 0 punto s y la puntuación del candidato se transforma en una puntuación sobre un m áximo de 40 puntos. Sin embargo, esta puntuación sobre 40 se ajusta «si no concuerda con la actuación del candidato en las otras partes» (UCLES General Handbook, 1 9 8 7 : 4). El resultado d e este proceso son cinco puntuaciones que se suman basta un posible m áxim o de 180. En otras palabras, los candidatos tienen resultados para cada sección (c om prensión d e lectura, expresión escrita, uso de la lengua, co mprensión auditiva y expresión oral) que tienen aproximadamente el mismo peso. Debe decirse que este proceso es com plejo y qu e en principio resulta a menud o mejor evitar el uso de tales complejidades ajustando el equilibrio de los ítems en la prueba y asegurando la fiabilidad de los correctores con una formación adecuada.

7.5. Las distintas puntuaciones A la ho ra de co mprender los resultado s de u n examen, la puntuación final tiene la may or importancia: la puntuación que se da a los candidatos o a las empresas o a las escuelas. En principio, una vez pond eradas y transform adas las puntuaciones parciales, es posible informar sobre cada puntuación parcial por separado o combinarlas de algún m od o con el objetivo de tom ar decisiones o de informar. El enfoque más simple es el de combinar las puntuaciones sumándolas y decidir una puntuación de corte para «a pro ba r» respecto al examen com o un todo. Esto, en realidad, es un procedimiento muy común en los exámenes escolares y a menudo se utiliza también en exámenes de ámbito nacional. En este enfoque, la actuación de un candidato en una sección puede compensar una actuación pob re en otra sección. Sin embarg o, esta compen sación no será explícita y se verá o bviamen te afectada por el distinto peso de cada sección del examen. Una forma de afinar este enfoque de aprobado/suspenso es tener distintas puntuaciones de corte: un a puntuación es el límite entre el aprobado y el suspenso, una segun da puntuación, y m ás alta, es el límite entre el aprobad o y el notable, una tercera puntuación es el límite entre el notable y el sobresaliente. Esta es, por ejemplo, la costumbre en los exám enes de nivel O del GCE en much os pa íses. En el caso de los exámenes de FCE y de CPE de UCLES, los candidatos aprueban con un a puntuación A, B o C, y suspenden con una D o una E. Una forma de afinar más todavía es tener notas d e corte para cada sección de la prueba y no permitir a los candidatos que aprueben el examen si no consiguen una puntuación mínima en cada parte (véase apartado 7.7, más adelante). En muchos exámenes del Reino Unido, la puntuación final es una letra o un número. Sin embargo, no es necesario dar una puntuación global: es posible dar las puntuaciones de las partes más importantes de la prueba por separado. Por ejemplo, un tribunal de exámenes puede dar una puntuación de perfil, de la A a la D, para las cinco partes distintas: expresión escrita, corrección, comprensión de lectura, co mprensión auditiva y expresión oral (el exame n de JMB'S


puntuaciones de Oa 9 para las cuatro partes de expresión oral, comprensión auditiva, co mp rensión de lectura y expresión escrita, pero también da una pun tuación global, que es la suma y la media de las cuatro puntuaciones parciales.

7.6. ¿Combinar o no combinar? A menudo se discute que el enfoque simple de dar una letra como resultado final, aunque fácil, puede ser injusto para algunos candidatos, puesto que no se reconocen sus distintas capacidades en las partes que componen el examen. La alternativa mencionada con anterioridad trata cada componente de forma separada y da puntuaciones según un perfil, de acuerdo con el cual un candidato podría «a pr ob ar» dos partes y «suspe nd er» tres: no se calcula ni se informa sobre un «aprobado» o «suspenso» global. El problema que presenta este enfoque es que ignora las necesidades del mundo real: las personas que toman decisiones necesitan a menudo sólo una información, no un número de informaciones que requerirá una consideración más compleja. A la hora de de cidir sobre un puesto de trabajo o sobre la admisión a estudios superiores, los jefes de perso nal y los tutores n ecesitan saber si un cand idato es o no adecu ad o en términos amplios y pueden no llegar a comprender que tal decisión sea a menudo un asunto complejo. Un enfoqu e ligeramente distinto consiste en informar de los resultados, pero no estipular una puntuación de corte para «ap rob ar» . En tales casos la responsabilidad de decidir si una pun tuación es adecuada o inadecuada pe sa sobre el usuario de la puntuación. Este es el enfoque que toma el ETS, que no decide una puntuación de «aprobado» para los resultados del TOEFL, aunque instituciones particulares fijan sus propias puntuaciones de corte para las admisiones. El mismo enfoque es el adoptado para el examen de IELTS, aunque se facilitan descriptores para cada puntuación, que guíen a los usuarios de las puntuaciones sobre la interpretación del significado de las mismas. Resulta interesante examinar la práctica actual de la utilización de las puntuaciones de perfil del IELTS. La intención a la hora de dar las cuatro puntuaciones de perfil sin indicación alguna de aprobado o suspenso es la de permitir a las distintas instituciones decidir cual es el perfil aprop iado para el candidato. Por ejem plo, pued e resultar que los estudiantes de Ingen iería Eléctrica no necesiten una puntuación alta en expresión oral, pero necesiten una buena puntuación en comprensión d e lectura, m ientras que los estudiantes de Derecho necesiten ser buenos en expresión oral y en comprensión de lectura. Así pues la decisión de admitir o no admitir variará de acuerdo con la disciplina de la institución y el candidato. Sin embargo, en la práctica, la mayoría de los tutores responsables de adm isiones probablemen te ignoran las puntuaciones de perfil y sólo tienen en cuenta la puntuación final; la media de las cuatro puntuaciones. Incluso aquí, es posible discutir qué un futuro estudiante de Lingüística necesite una puntuación global más alta que un estudiante de Agricultur or ejem plo, que las

La determinación de las puntuaciones para aprobar

de la otra. De todas formas, mu cho s tutores simplemente consideran que una puntuación de 6'5 es «adecuada» y cualquier puntuación por debajo es «inadecuada», sin tener en cuenta la disciplina solicitada. En otras palabras, los que tom an las de cisio nes ig noran —algunos dirían q ue infrautilizan—el valor de las puntuaciones de perfil en las decisiones sobr e selección.

7.7. La utilización de las puntuaciones parciales para tomar decisiones Supongamos, pues, que es importante, tanto por razones teóricas como prácticas, tom ar una decisió n glob al sobre un can didato a partir de las puntuaciones parciales. Podría decidirse que un candidato debe «aprobar» todas las pruebas para aprobar el examen en su totalidad. O también, podría permitirse suspender una prueba de las cinco; po r ejemplo, u n candidato podr ía todavía aprobar el examen a pesar de no haber sacado un buen resultado en una prueba. O podría decidirse tam bién que si un candidato suspende una prueba, deberá obtener una puntuación alta en otra de las de pruebas para compensar (esto se llama «compensación»). O podría estipularse que un candidato sólo puede aprobar el examen si ha llegado a una nota mínima estipulada en una parte en particular (esto se llama «b arr era »). Está claro que la noción de «ap rob ar» un examen com o un todo presenta pro blemas conceptuales en potencia y puede provocar gran número de arbitrariedades. Los candidatos pu eden llegar a la mism a puntuación glo bal de diferentes form as y ob tener un a probad o, aunqu e tengan perfiles distintos. Esta es una de las principales razones por las que muchos consideran que es mucho mejor dar puntuaciones de perfil que dar puntuaciones globales, sea una nota de aproba d o / suspenso o sea una nota a interpretar por los futuros usuarios de los resultados de la prueba. Otro pr oblem a que se ha detectado en la noc ión de etiquetar la actuación en una prueba como «ap rob ad o» o «susp enso » es que una actuación, o una puntuación, puede tener distintos valores según el objetivo para el que se utiliza: lo que se considera adecuado para un objetivo o para una población de candidatos puede ser inadecuado o muy adecuado para otro objetivo u otra población. Esta es la razón por la que muchos resultados de examen se dan con referencia a una escala y no como una decisión de aprobado o suspenso, por ejemplo como aprobado, notable o sobresaliente, tal como mencionamos antes. Puede resultar incluso, com o ocu rre en los exámenes de niveles A en el Reino Unid o, que se facilite más de una puntuación de suspenso.

7.8. La determinación de las puntuaciones para aprobar A pesar de las consideraciones de los apartados anteriores, en muchos casos y por distintos motivo s, los evaluadores se ven forzados a determinar si la actuación lingüística de un candidato es adecuada (un aprobado) o inadecuada (un


suspenso). En el Reino Unido, por ejemplo, es práctica común en los tribunales de exámenes el fijar puntuaciones de corte. Como hemos visto, esta decisión puede tomarse para cada prueba o para todo el examen. En las pruebas corregidas de forma subjetiva, especialmente en pruebas referidas a un criterio, esta decisión puede tomarse para cada tarea y el examinador decide si el candidato ha completado la tarea de forma adecuada o no. Sin embargo, en muchas pruebas, la puntuación final será una combinación de ítems corregidos de forma objetiva y de forma subjetiva. ¿Cómo pueden determinarse los límites entre aprobado y suspenso para un examen en su totalidad? Vale la pena señalar en este punto que en muchos contextos la determinación de una nota para aprobar no se considera un problema y se juzga apropiado un porcentaje fijo. Puede ser el 50% o el 75% u otro número mágico. Esto es simplemente una cuestión de tradición histórica y no hay razón para que una cifra en particular sea la frontera entre aprobado y suspenso. Un aspecto del problema de cómo determinar las puntuaciones para aprobar es la diferencia entre las prueb as referidas a una no rma y las prue bas referidas a un criterio, m uy discutida en la bibliografía sobre evaluación (véase, por ejemplo, Ingram, 1977). Ya hemos tratado este tema en el capítulo 4, pero resulta aquí muy apropiado un breve recordatorio sobre la distinción. En las pruebas referidas a una norma, lo que ocurre en esencia es que cada candidato se compara con otros candidatos, tanto con los que han hecho la prueba antes para establecer las normas de la prueba, como los que han realizado a la prueba en su versión final. El caso más simple es cuando los candidatos se ordenan de acuerdo con sus puntuaciones y se decide arbitrariamente qué número de estudiantes han «aprobado». Este número arbitrario puede venir dado por la disponibilidad de plazas en una institución o por la medidas del aula. Por ejemplo, una institución puede ser capaz de ofrecer clases de repaso de comprensión de lectura y de escritura a sólo 40 alumnos. Puede utilizarse una prueba de nivel para identificar a los 40 candidatos más flojos en estas destrezas. Los estudiantes que saquen puntuaciones más altas que el candidato número 40 a partir del último pueden considerarse que han «aprobado»: no se les aceptará en las clases, a causa de la falta de espacio. La mayoría de las decisiones son más complejas que ésta y no las dicta tanto la disponibilidad de recursos como las opiniones de los profesores, de los adm inistradores o incluso de los políticos a partir de su experiencia en la docencia o de sus nociones sobre los criterios académicos apropiados para una población dada. Un sistema educativo puede creer que los criterios de aprovechamiento en la enseñanza secundaria corresponden a un 40 % de la población que no llega al criterio. Esto se traduce en la determinación de una puntuación para aprobar que perm ita pasar a un 60% de la población, presente o futura. Una alternativa, sólo un poco más sofisticada, es la de «puntuar sobre la curva». Esto se refiere a la distribución normal o campana de Gauss (véase cualquier libro de introducción a la estadística), y supone que las distribuciones nor

La determinación de las puntuaciones para aprobar

aprendizaje. (No d iscutirem os aquí si esta presunción está justificada.) B ásicamente, la idea es la de agru par a los candidatos en categorías de acuerdo con su puntuación expresada en términos de desviaciones típicas. Los que están por encima de dos desviaciones típicas sobre la media se consideran «sobresalientes» o «ex cep cio na les» y reciben la nota má s alta; los que están entre una y dos desviaciones típicas sobre la me dia se consideran « bu en os » y se clasifican como tal; y así sucesivamente hasta los «excepcionalmente flojos», para los que su puntuación está más de tres desviaciones típicas por encima o por debajo de la media. Por desgracia, una puntuación cualquiera no es necesariamente «excepcionalmente bu ena» o « m ala » simplemente porque esté más de tres desviaciones típicas por debajo de la media: se trata de una nota extrema, y su calidad debe interpretarse de acuerdo con el contenido y el objetivo de la prueba así como en relación a la población que ha realizado la prueba. Se adopta un enfoque similar cuando se analiza la curva de distribución para ver si hay huecos en la distribución: las curvas bimodales (véase la figura 7.1) son útiles para la m isma, puesto que la caída en la curva de frecuencia facilita un punto de corte natural (aunque éste debería interpretarse en términos del significado de la puntuac ión y de la dificultad de la prueba así com o de su objetivo).

Nota

Fie. 7.1. Distribución bimodal La evaluación referida a un criterio es distinta, al menos en principio. Se define un criterio o mod elo a priori —antes de administrar la prueba—y se considera aprobado a todo candidato que ha igualado o superado tal criterio. No hace falta decir que la realida d no es nunca tan sencilla: el prob lema aparece a la hora de decidir cuál debe ser el criterio para una prueba dada. En las pruebas de expresión oral y de expresión escrita es posible discutir que el proceso de puntuación pueda llevarse a cabo con referencia a un criterio, puesto que la mayoría de los descrip-

Informe de resoltados y determinación de la puntuación de aprobado

adecuación, y los correctores deben juzgar si el candidato cumple el mo delo para cada criterio. Aunque esto es de por sí poco claro, es mucho mas complicado aplicar este principio a las pruebas de ítems discretos de gramática o de voca bu lario, o incluso en las prueb as de tipo cloze que pretenden medir la c om prensión de lectura. ¿Qué consdtuye un resultado adecuado en esta prueba de gramática? ¿Qué pod em os considerar un aprobado en la prueba de tipo doze? Una manera de responder a esta pregunta de forma no arbitraria es identifi cando «m od elo s» o personas que se sabe que poseen la habilidad que se está midiendo y ver cómo responden a la prueba. Por ejemplo, podría seleccionarse a personas que se sabe que son buenas lectoras, y ver cómo responden a una prueba de comprensión de lectura. Esta actuación se compararía entonces con las personas que no puede n considerarse «m o d elo s» en cuanto a actuación lingüística y se tomaría una decisión sobre dónde se marca la puntuación de corte entre los do s tipos de actuación. En las pruebas de dom inio, una buena fuente de «modelos» la constituyen los hablantes nativos con estudios que pue den utilizar de forma competente la lengua sobre la que se evaluará a los can didatos. Sin embarg o, p ara la may oría de las pruebas de aprovechamiento (véase el capítulo 2 para la discusión de las diferencias entre pruebas de do m inio y de aprovechamiento), es mucho más problemático identificar modelos adecuados, y puede que la única forma de conseguirlos sea utilizando alumnos que ya han superado con éxito el programa que se evalúa. Un enfoque altemaüvo, conocido c om o «determinación de criterios» es pedir a expertos en la materia —profesionales form ados que tengan la experiencia rele van te- que analicen el contenido de la prueba y decidan cual será con toda pr o babilidad la actuación de aquellos candidatos qu e tienen aproxim adam ente el nivel de la prueba. Una forma de llevar esto a cabo es pedir a los expertos que estimen las probabilidades que un candidato tiene, para cada ítem, de dar una respuesta correcta. Estas probabilida des pued en a continuación sum arse junto a las del resto de la prueba, de la misma forma que se suman los resultados rea les, para llegar a un porcentaje probable de aprobado para un candidato. Por ejemplo, los expertos podrían estar de acuerdo en que la probabilidad de que un candidato qu e tiene aproxim adam ente el nivel de la prueba acierte el ítem 1 es del 75%, mientras que para el ítem 2 es del 50% y para el ítem 3 es del 25%. La sum a sería 75 + 50 + 25 dividido por 3 = 50%. La puntuación para apr o bar esta prueba con tres ítems sería pues de 1,5. Debe decirse que este procedimiento es largo y tedioso: un atajo más p rác tico es el de pedir a los expertos que analicen las partes de cada prueba y esti men qué resultado consideran que un candidato con el nivel adecuado debe obtener en cada parte. Un proc edim iento alternativo, d etallado en Ebel y Frisbie, 199 1, utiliza la escala que se va a utilizar para informar de los resultados. Primero, se establece la puntuación que se asignará a una actuación mínimam ente suficiente (por


pues se hace lo mismo para el resto de las puntuaciones (en este caso, C, B y A). A continuación, un experto lee el primer ítem de la prueba y decide si un alumno flojo puede responderlo de forma adecuada. Si es así, se etiqueta el ítem con una D. Si no, el experto decide si un alumno de nivel C puede responderlo correctamente y etiqueta el ítem con una C. Se sigue este procedimiento para todos lo s ítems de la prueba. Se cuenta el núme ro de ítems que tienen una D y el número resultante representa la puntuación de corte para un alumno D. El total de ítems que tienen una C se suma a la puntuación de corte para D y se convierte en la puntu ación de corte para C. Se siguen p rocedim ientos similares para obten er el resto de pun tuaciones de corte, que deberán ajustarse a la baja para compensar posibles errores de medición. Otros procedimientos para la fija ción de criterios se describen en la bibhografia sobre la evaluación referida a un criterio (véase por ejemplo Popham, 1990). No hace falta decir que en estos procedimien tos, y para aspirar a una validez mínima, resulta imprescindible tener razones de peso para entender que los expertos son tales, y estas razones deben ser explícitas. En la práctica, aunque estos procedim ientos pod rían llevarlos a cabo tribunales de exámenes im po r tantes, la decisión sobre las puntuaciones para aprobar se toma a menudo de forma más arbitraria y se refiere -de forma inapropiada- al porcentaje global que se ha usado históricamente. En resumen, el proceso de ponderación y de combinación de las notas por ítem y por nivel para llegar a resultados adecuados puede ser complejo. Los pro cedimien tos que se utilicen dependerán en gran parte del objetivo de la prueba y deberían reflejar lo que uno cree o, mejor, lo que uno sabe sobre la natura leza de la competen cia lingüística y del aprendizaje de idiomas. Tom ar decisio nes sobre lo que se puede considerar aprobado o suspenso es igualmente un tema complejo, y por este motivo los elaboradores de pruebas tienden a evi tarlo, dejando la decisión en manos de instituciones y de usuarios para que actúen de acuerdo con sus intereses. Sin embargo, cuando se espera que un exa men facilite las decisione s de aprob ado y suspen so, existen —aunque haya d ifi cultades- formas de obtener puntuaciones de corte empírica y racionalmente, o al menos defendibles, y no de forma arbitraria o al azar. A continuación veremos cómo toman tales decisiones los tribunales de exá menes de inglés como lengua extranjera en el Reino Unido.

7.9. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario Tratamos estos puntos en el cuestionario de las preguntas 42 y 43. La pregunta 42 consultaba sobre las reuniones que se convocaban cuando se había comple tado la corrección del examen. Esperábamos que hubiera una reunión para tomar decisiones sobre la ponderación de los resultados, en la que se tomarían decisiones sobre transformación y combinación y en la que se discutirían las puntuaciones para aprobar.


PR EG U N TA 4 2 : ¿Se convocan reuniones (reuniones para decidir las notas, reuniones de exam inadores) antes de entregar los resultados? En caso de respuesta afirmativa, ¿cómo son estas reuniones? La mitad de lo s centros que respondieron dijeron que existen esas reuniones, llamadas «sesiones de resultados». En esta reunión, para citar a un tribunal,«se determinan los límites entre puntuaciones, se revisan los casos límite y se analizan los ejercicios escritos en los que algunos examinadores expertos tuvieron dificultades o d uda s». Citando a otro tribunal: «Los examinadores tienen a su disposición durante la reunión las estadísticas del año en curso y de años anteriores, los exámenes del año en curso y los casos límite de años anteriores. Utilizando esta información se determina el límite entre aprobado y suspenso, se revisan los casos límite y se redacta un informe sobre la puntuación final». Tres tribunales se refirieron al proceso de análisis de los «casos límite» como una «reconsideración del trabajo de todos los candidatos que están justo por encima o por debajo de cada límite de puntuación». Debería mencionarse, sin embargo, que sólo cuatro tribunales describieron tal tipo de proceso. Entre los tribunales que resp ondieron que no mantenían tal tipo de reunión, uno respondió: «Se solían convocar, pero ahora se da una nota para cada destreza», y otro respondió: «Los exámenes pueden revisarse si se solicita. Los correctores tienen instrucciones de corregir de nuevo los resultados que se hallan en el límite y en caso de duda, someterlos a la consideración del tribunal para que lo hagan llegar, si es necesario, al supervisor.» El único examen de UCLES que no mantenía este tipo de reunión era el IELTS, que no facilita puntuaciones de aprobad o y suspen so (véase la discusión en los apartados 7.4 y 7 .6 m ás arriba). El resto de los exám enes de UCLES seguía p ro cedimientos parecidos a los mencionados anteriormente. La pregunta 43 consultaba de forma explícita sobre los procedimientos para determinar el límite entre aprobado y suspenso, presuponiendo que el proceso no necesariamente debía desarrollarse durante una reunión, sino que podían hacerlo los responsables del examen posiblemente con un ordenador. PR EG U N TA 4 3 : ¿Se sigue algún procedimiento especial para d ecidir sobre los lím ites entre aprobado y suspenso? Tres cuartas partes de los tribunales que respondieron explicaron los procedimiento s especiales que seg uían para decidir las puntuaciones para aprobar. A menudo se parecían a los descritos, pero un tribunal añadió la siguiente información: «El informe sobre la puntuación final que se elabora después de la reunión incluye las discrepancias que pueda haber entre las puntuaciones para aprobar del año en curso y las de años anteriores (teniendo en cuenta nuestra rápida expansión y por lo tanto el cambio en número y en naturaleza de nuestra población de c an did atos) .» Sólo tres tribunales hicieron referencia a estadísticas sobre la actuación de los candidatos en el examen del año en curso o de


Entre los tribunales que respondieron negativamente a la pregunta, uno señaló que «se determinan los límites entre las distintas puntuaciones antes del exam en». Desconocem os cóm o pueden compensar la dificultad inespe rada de un examen. La mayoría de los exámenes de UCLES parecen seguir procedimientos espe ciales a la hora de decidir los límites entre puntuaciones, pero sólo dos respon sables detallaron sus respuestas: Informes del examinador, datos sobre el nivel de los ítems, comparación con actuaciones anteriores (FCE, CAE, CPE, Paper 4). En cada prueba un candidato sólo puede suspender una tarea. Para aprobar el examen, los candidatos deben aprobar todas las pruebas (CEIBT).

Esta última respuesta era el único caso en que las respuestas al cuestionario hicieron referencia a las decisiones de aprobar o suspender a un nivel de sec ciones de una prueba. Sin emb argo, p udim os recoger información sobre estos aspectos al analizar los documentos que recibimos (véase apartado 7.10 más adelante). Las respuestas a estas dos preguntas fueron diversas y detalladas. Parece que es habitual que los examinadores y los responsables de examen tengan reuniones para discutir las puntuaciones para aprobar. Debido a que en el Reino Unido los resultados de los exámenes de GCSE y de los niveles A reciben mucha publici dad, en especial en lo que se refiere a los cambios de puntuación para aprobar año tras año, y puesto que se comparan estos cambios entre los diferentes tribu nales de e xám enes —una de las po cas áreas qu e pue de ser analizada por el gran público- se presta mucha atención al mantenimiento de los criterios año tras año. Otro tema es si los criterios son apropiados, que puede tratarse o no en las reu niones mencionadas. Sin embargo, es tranquilizador saber que parece que se siguen los m ismos p rocedimientos para los exámenes de inglés como lengua extranjera o inglés como segunda lengua (que no forman parte del sistema de los niveles A o del GCSE.) Los procedim ientos parecen comb inar la evaluación referida a una norma y la evaluación referida a un criterio. Lo que no sabemos con detalle es cómo se deciden exactamente las puntuaciones para aprobar: pode m os sólo supone r que las personas implicadas en ello toman decisiones a partir de la información que recogen con respecto a lo que constituye una actuación adecuada. El tener muestras de actuaciones de las distintas puntuacion es facilita obviamente el proceso y nos da más confianza en su validez. Para pruebas que incluyen componentes orales esto es naturalmente más problemático. La reunión de puntuación, cuando tiene a su disposición información sobre la actuación en el año en curso, las estadísticas de años anteriores, las pruebas de los candidatos y las pruebas límite de años anteriores, está en condiciones de mantene r los criterios constantes a través de los años, si pod em os sup oner que la población que se presenta al examen es constante en lo que se refiere a sus capacidades y a su actuación. Sin embargo, esto no ocurre cuando la población crece o disminuye o cuando se han introducido innovaciones en el formato de


la prueba, en sus contenidos o en los criterios de puntuación. Además, no está nada clara la confianza que se puede tener en la consistencia de los resultados de tribunales que tienen un número pequeño de candidatos o en los resultados de aquellos tribunales que no siguen los procedimientos mencionados de adjudicación de puntuaciones.

7.10. Estudio sobre los tribunales de examen de inglés como lengua extranjera: documentación La documentación que recibimos de los tribunales contenía bastante información sobre cóm o se informa de los resultados, pero mucha m enos sobre cómo se determinaban las puntuacion es para aprobar y cuáles eran los porcentajes de aprobados. 7.10.1. Ponderación

La mayoría de los centros de exámenes no dan demasiada información sobre la ponderación de sus exámenes. La excepción son la Oxford Delegacy, el ARELS Examin ations T rust y UCLES. Por ejemplo, Rationale, Regulations and Syllabuses incluye comentarios sobre la ponderación de las distintas secciones de las pruebas de Oxford: Excepto para la sección 1, el número preciso de puntos adjudicados varía de examen a examen, para poder llevar a cabo los ajustes necesarios según el trabajo que se requiere para cada sección. La proporción es en general: Sección Sección Sección Sección Sección

1 2 3 4 5

33 a 35% 40 a 54% 11 a 15% 5 a 6% 5 a 6%

Las secciones 1 y 2 tienen el mayor número de puntos, p ero los candidatos cometen a menudo el error de no prestar la suficiente atención a las últimas secciones, en las que todavía pueden ganar puntos. (Rationale, Regulations and Syllabuses, s in fe ch a: 4 )

El U C L E S General Handbook (1987) hace referencia a un «programa de investigación intensivo en el que se estableció la deseable pon deración relativa de los elementos objetivos y subjetivos en la evaluación de la lengua hablada y escrita» (19 87 : 3), pero no se dan m ás detalles sobre esta investigación. Sin em bargo, se da información sobre cómo se calculan y combinan los resultados de las diferentes secciones de cada prueba. Se dice que los puntos fuertes y las limitaciones de diversos formatos ampliamente aceptados se compensan los unos con los otros... Los resultados en las seccione s de corrección objetiva, sección 1 y sección 4, se correlacionan con los resultados obtenidos de forma más tradicional, por ejemplo, los obtenidos por la actuación en diversas tareas comunicativas» (1987: 3).


En efecto, tal como h em os visto en el apartado 7.4 m ás arriba, lo que sucede es que los resultados de las pruebas subjetivas se ajustan a la luz de las pruebas objetivas «ten iend o en cuenta cualquier variación entre exam inado res» o , en el caso de la sección 5 (e xpresión o ral ), «cuan do su contribución a la puntuación total no coincide con la prevista a partir de la actuación del candidato en otras partes» (1987: 4). En otras palabras, si un candidato obtiene muy buenos resultados en la prueba de expresión oral en comparación con su actuación en el resto del examen, su resultado se ajustará probablemente a la baja. El General Handbook da la siguiente información sobre lo que sucede después del proceso de puntuación: ... las puntuaciones iniciales se convierten en «puntuaciones normalizadas» calculando la media y la desviación típica de todas las puntuaciones otorgadas por un examinador en concreto, ajustándolas para que se acerquen a la media y a la desviación típica de las puntuaciones obtenidas por los candidatos en la sección 1 [...] de m odo que se minimice la subjetividad de la corrección [...] La utilización de puntuaciones normalizadas tiene el efecto de reducir el «agrupamiento» de resultados que se halla a menudo en la corrección de redacciones y el de asegurar que muchos candidatos obtengan el máximo de 40 puntos (1987: 17).

El problema de este enfoque es, naturalmente, que no permite que haya demasiada diferencia entre las distintas capacidades de un candidato: si la actuación no «está en línea», se ajusta para que se acerque a la actuación en otras secciones. No s gustaría haber encontrado más fundam entos, especialmente del program a de investigación citado, para esta práctica dudosa. Los ajustes pueden hacerse para compensar la baja fiabilidad de la entrevista si se compara con las otras partes de la prueba, pero esto tenderá a afectar a la validez. Sería más adecuado tratar el problema de una baja fiabilidad con una mejor formación y supervisión de los correctores. En A Brief Guide. EFL Examinations and TEFL Schemes, se describe el PET como una prueba con 100 puntos en la que se adjudica un 25% a cada componente (com prensión de lectura, expresión escrita, comprensión oral y expresión ora l). No se dan razones para el uso de una pond eración de igualdad en este examen en vez de la ponderación más complicada que se utiliza en el resto de exámenes de UCLES descritos más arriba. No hay información disponible sobre actuaciones flojas en un com ponente y c óm o pue den comp ensarse por una buena actuación en otro.

7.10.2. El informe de resultados y la determinación de las puntuaciones para aprobar Varios tribunales simplemente publican las puntuaciones finales y parecen tener notas fijas para aprobar. Por ejemplo, CENTRA publica un folleto que describe sus Tests in English Language Skills 1992. En este folleto afirma que:

Informe de resultados y d eterminación de la p untua ción de aprobado

No se fundamentan estos resultados. Otro ejemplo es el Trinity College de Londres, que administra una serie de pruebas de expresión oral, cuya descripción incluye la siguiente información sobre resultados: Se otorgarán certificados a los candidatos que obtengan las notas mínimas necesarias: aprobado: 65%; notable: 75%; sobresaliente: 85%. (Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, 1990:7)

No hay más información sobre cómo se llega a estos resultados o cómo se determinan o analizan las fronteras entre los mismos. Tampoco Pitmans o ESB ofrecen fundamentos sobre las puntuaciones finales que publican, ni hay discusión sobre cómo se consideran, a la hora de decidir las puntuaciones para aprobar, las variaciones en cuanto a la dificultad del examen de año en año o a las variaciones en el grupo de candidatos. Algunos tribunales, sin embargo, lo hacen mejor. El LCCI publica una serie de documentos que ayudan a definir los resultados y a describir las puntuaciones para aprobar. Para cada examen hay puntuaciones de aprobado, notable y sobresaliente, que están descritas en términos de comportamiento. Una nota de un 50% es el aprobado, y un 75% corresponde a un sobresaliente. Un notable equivale al 60%. Al contrario de otros centros, el LCCI da más detalles: Las puntuaciones límite para un aprobado son un 48 y un 49%, y se volverán a corregir los ejercicios escritos para ver si se puede dar un aprobado. Límites parecidos para un notable y un sobresaliente son un 58/59% y un 73/74% respectivamente.

Además (en dos exá m en es), «las no tas que caen entre los márg enes 4 5—49 después de este nuevo proceso de escrutinio darán al candidato la posibilidad de un aprobado en un nivel inferior al que se ha presentado» (19 87 : 9). Los sig uientes comentarios adicionales provienen del Handbook of Duties for Examinen: Se recomienda a los examinadores que no otorguen un aprobado, notable o sobresaliente como resultado de la suma «mecánica» de notas. Cada prueba debería juzgarse en última instancia como un todo: la plantilla de corrección debe ayudar a juzgar, no a distorsionar el proceso. El criterio primordial de los exámenes del tribunal es el criterio práctico de su utilidad. Nuestros exámenes evalúan con referencia a un criterio, por lo tanto no con referencia a una norma: aprobamos a los que merecen aprobar (y suspendemos a los que merecen suspender), independientemente de los resultados estadísticos.

Este grado de explicitación es de agradecer: el problema estriba en cómo saben los examinadores quién debería aprobar y qué fiabilidad tienen estos juicios (véase capítulo 6 para más discusión sobre este aspecto). El documento contiene detalles considerables, pero no se presentan pruebas de la validez del criterio de utilidad, ni tampoco se discuten los aspectos relacionados con la

Debate

7.10.3. Porcentaje de aprobados La mayoría de los centros no facilitaron información sobre el porcentaje de alumnos que aprobaban y suspendían sus exámenes. La excepción a esto fue el JMB. En los inform es de los examinadores de los exámenes de 1990, se da infor mación sobre los márgenes de puntuación de cada prueba, se presenta una tabla que muestra los puntos correspondientes a cada nota junto con el porcentaje de candidatos por cada nota en cada sección. Esta cantidad de información es poco corriente en nuestra experiencia y es de agradecer. Además, el informe señala: Debe apreciarse que las puntuaciones reflejan la naturaleza de una parte en concreto de la prueba y la forma en que se ha puntuado, y no representa un estándar absoluto: las notas, no los puntos, son las que dan cuenta de las decisiones del examinador sobre niveles de actuación (1990:1).

El comentario siguiente se encuentra en la Guide to English Commerce del LCCI: Los porcentajes de aprobado y suspenso no se determinan de forma proporcion al al número de alumnos matriculados, sino que varían de acuerdo con la calidad de los exámenes producidos en cada convocatoria. Puesto que los mismos examinadores administran, corrigen, supervisan y revisan las pruebas cada año, los criterios se mantienen razonablemente constantes por lo que las fluctuaciones en el número de aprobados puede atribuirse a la actuación de los candidatos, que de por sí puede variar según el día. No pueden pues sacarse conclusiones reveladoras a partir del número de aprobados [...] Citamos a continuación, con todas las reservas, los resultados mundiales del periodo 1980—1985, que variaron de acuerdo con los siguientes porcentajes: Elemental:

64-72%

Intermedio:

35-48%

Avanzado:

29—49%

Estas cifras son meramente un aspecto de la actuación de los candidatos que se presentaron al examen durante este periodo y no son de ninguna manera proporciones ideales de la población que habitualmente se presenta a los exámenes, que en cualquier caso era cuatro veces mayor en el nivel intermedio que en cualquiera de los otros dos niveles. Esto afecta por su parte a la importancia que puede darse a las cifras, que deberían utilizarse con gran cautela (1986: ii).

Este candor es admirable: sin em bargo, no explica cómo el LCCI puede con fiar en que sus notas para aprobar sean las apropiadas, a pesar de sus afirma ciones, sin informac ión sob re la fiabilidad y validez de los juicios e mitidos por sus examinadores. 7.11. Debate

La práctica en lo que se refiere a las explicaciones facilitadas y a la publicación de resultados y obtención de notas varía obviamente según los diferentes tri

Informe d e resultados y determinación de la puntuación de aprobado

forman los resultados y llegan a las notas finales o a decisiones sobre quién aprueba o suspende. Otros dan información que es poco adecuada. Puesto que algunos tribunales se ven en condiciones de facilitar informes y descripciones, no puede suponerse que el resto no lo haga por cuestiones de seguridad. El problema de decidir cuándo un candidato reúne las condiciones para aprobar una prueba en particular es obviamente compleja y difícil. Depende en gran parte del objetivo de la prueba, de la naturaleza de los candidatos, de la composición de la prueba, de su fiabilidad y de las consecuencias que se desprenderán para los candidatos: cuanto m ás importante sea la prueba, m ás importante resulta garantizar que se toman decisiones válidas y fiables. Enmascarar con secretismo o misterio el proceso de toma de decisiones no es una respuesta adecuada al proble ma. Los elaborado res de las pruebas tienen el deber de inform ar a los candidatos y a otros interesados sobre los procedimientos que han seguido para garantizar que se mantengan los criterios y se tomen decisiones razonables, y también para dar a la gente confianza sobre los pro pios criterios y su significado con respecto al propósito con el que se utilizarán. Obviamente, la naturaleza de la información facilitada variará según la naturaleza de las pruebas a las que se refieran, pero no debería ser difícil, largo ni costoso para los elaboradores de pruebas el facilitar información estándar sobre los procedimientos que siguen y los resultados estadísticos de sus exámenes. Tal información debería incluir informes apropiados y fáciles de entender sobre los resultados, con una descripción clara y precisa sobre la actuación en la prueba. Debería tam bién explicar el significado y las limitaciones de los resultados ofrecidos. También debería facilitarse información sobre cómo se llega a la decisión de aprobar o suspender. Una información adecuada podría incluir lo siguiente: 1. Qué procedim ientos se siguen cuando se ha corregido la prueb a y antes de pub licar los resultados. 2. Cuál es, o es probab le que sea, la pon deración de cada una de las partes de la prueba. 3. Qué resultados se publicarán y de qué forma. 4. Cóm o se relacionan los resultados publicados con los puntos de la prueb a en su totalidad, y con la puntuación de cada parte de la prueba. 5. Cóm o se llevará a cabo, si es que se realiza, la revisión de los casos límite y cual es el margen de puntos aceptable para cada sección. 6. Qué sign ifica el resultado final con relación al objetivo de la pru eba y el uso de la lengua en el mundo real. A la hora de decidir qué información debería facilitarse, es instructivo ver qué criterios se han establecido en otras partes. Nevo y Shohamy, 198 6 incluyen las siguientes categorías de criterios de evaluación para los instrumentos de evaluación relevantes de este capítulo (para más detalle, véase el capitulo 11):

Sumario

Alcance de la información: La información recogida en la prueba debería tener la amplitud suficiente como para responder a preguntas pertinentes sobre los conocimientos adquiridos por el alumno y a las necesidades e intereses del público específico. Criterios justificados: Los criterios utilizados para determinar los resultados y la puntuación de la prueba están descritos y justificados con claridad. Claridad del informe: Los resultados de la prueba se presentan de forma fácilmente comprensible para el público. Informe equilibrado: Los resultados de la prueba representan de forma justa y completa los puntos fuertes y débiles del individuo evaluado.

El Code of Fair Testing Practice in Education (véase capítulo 11), dice q ue los elabo radores de las pruebas deberían: Facilitar informes de resultados adecuados y fácilmente comprensibles, que describan la actuación en la prueba de forma clara y precisa. También explicar el significado y las limitaciones de los resultados publicados (Punto 9, Elaboradores de pruebas). Facilitar información que ayude a los usuarios a seguir los procedimientos razonables para la fijación de la nota para aprobar... (Punto 12, Elaboradores de pruebas).

Además, los usuarios de la prueba deberían: Explicar cómo se determinaron los resultados para aprobar y recoger información sobre la adecuación de los resultados (Punto 12, Usuarios de la prueba). 7.12. Sumario

Una vez se ha puntuado la prueba, los responsables de la misma deben tener en cuenta una serie de aspectos. Algunas de estas decisiones se habrán tomado en el momento de la redacción de las especificaciones de la prueba o en el momento de la redacción de la prueba misma. Pueden, sin embargo, revisarse y modifi carse después de la corrección, antes de la publicación de los resultados. ¿Se dará la mism a puntuación a cada ítem, o se darán más punto s a uno s ítems que a otros? ¿Superan los inconvenientes de hacer esto último a las ventajas prác ticas de utilizar una puntuación uniforme? ¿Cómo se sumarán las notas de cada ítem? ¿Se requieren notas para cada can didato en cada pru eba, o en las secciones de cada prueba? ¿Se ajustarán los resultados de algunas secciones según la actuación en otras secciones? ¿Se ponderarán las distintas secciones de fo rma diferente? ¿Cómo? ¿Cómo se publicarán los resultados? ¿Se transformarán en una letra com o cali ficación final o se darán en forma de porcentaje? ¿Se facilitará un perfil de los

Informe de resultados y determinación de la puntuac ión de aprobado

En el caso en que sean necesarias puntuaciones como tales, ¿están determi nadas de forma permanente por tradición o por creencias, o pueden variarse? ¿Cómo se determinarán las puntuaciones para aprobar: contando a partir de cero o bajando a partir de la nota máxima hasta llegar al número preciso; con referencia a una nor ma, utilizando las estadísticas de años anteriores y la del año en curso; con referencia a un criterio, utilizando m uestras de actuaciones o de candidatos «modelo»; solicitando la opinión de expertos sobre la prueba; uti lizando una combinación de los métodos anteriores? ¿Habrá una puntuación límite para revisar los exámenes de los candidatos que se acerquen a la puntuación para aprobar? ¿Cómo se llevará esto a cabo? ¿Se calcularán los porcentajes de aprobados y se informará sobre ellos? ¿Qué información se dará a conocer sobre los criterios, la ponderación, las puntuaciones para aprobar y el porcentaje de aprobados, para quién y de qué forma? ¿Qué significan los resultados que se dan a conocer, y para quién se infor mará y de qué?

Bibliografía Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall, Englewood Cliffs, NJ. Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición, Prentice-Hall, Englewood Cliffs, NJ. Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.), Testing and Experimental Methods. Oxford University Press, Oxford. Joint Com mittee on Testing Practices (1988). Code of Fair Testing Practices in Education. American Psychological Association, Washington, DC. Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of Alternative Testing Methods: an Application .» Studies in Educational Evaluation, 12, págs. 149-158. Popharn, W. J. (1990). Modem Educational Measurement: A Practitioner's Perspective. 21 edición, Allyn and Bacon, Boston, Mass.

8

La validación

Este capítulo trata la cuestión más importante de todas en la evaluación de idiomas: ¿Evalúa la prueba lo que se supone que debe evaluar? Este aspecto debería ser la preocupación prim ordial de todos los evaluadores, puesto q ue si una prueba no es válida para el objetivo para el que se ha preparado, los resultados no significan lo que se cree que significan. En este capítulo se describirán distintas formas de evaluar la validez y se discutirá la relación entre validez y fiabilidad. Se buscará también la respuesta a la pregunta ¿Cómo puedo saber si mi examen es válido?

8.1. La importancia de la validez Henning, 19 87 , define la validez como sigue: La validez se refiere en general a la adecuación de una prueba dada o de cualquiera de sus secciones como medida de lo que se supone que mide. Una prueba es válida en tanto que evalúa lo que se supone que evalúa. De aquí se desprende que el término válida, cuando se utiliza para describir una prueba, debería ir acompañado de la preposición para. Cualquier prueba puede ser válida para unos objetivos y no para otros (página 89).

No se puede subestimar la esencia del propósito para el que se elabora o se utiliza una prueba. Uno de los problemas más comunes de las pruebas es su mala utilización: utilizar una prueba con un pro pósito para el que no se diseñó y para el cual, por lo tanto, se desconoce su validez. Esto no significa que una prueba no pueda ser válida para más de un propósito. Sin embargo, si se va a usar para un objetivo, debe establecerse y demostrarse la validez de uso para tal objetivo. No es suficiente decir: «Esta prueba es válida», a no ser que se pueda responder a las preguntas siguientes: «Cómo lo sabes? ¿Para qué es válida? Tam bién d ebe señalarse que la definición de Henning permite distintos grados de validez: las pruebas son m ás o m enos válidas según sus objetivos: la validez no es un término absoluto. Esto significa que los usuarios deben utilizar su criterio o el de o tra persona a la hora de decidir, a partir de la evidencia de que disponen, sobre la validez relativa de una prueba.

8.2. Tipos de validez La validez puede establecerse de distintas maneras, lo que lleva a la mayoría de los autores que tratan del tema a hablar de distintos tipos de validez. Seguire-

La validación

que estos «t ip o s» son en realidad distintos «m éto d os » de evaluar la validez (véase Bachm an, 19 90 ). Lo me jor, hay que destacar también, es llevar a cabo la validación de una prueba en el mayor número de formas posible. En otras palabras, cuantos más «tipos» de validez puedan establecerse, mejor, y cuanta más evidencia pueda recogerse para cada «tipo» de validez, mejor. En los últimos años, el creciente interés en los distintos aspectos de la validez ha llevado a una con fusión de nom bres y definiciones, pero la mayor parte de los evaluadores, aunque usen distintos términos, han identificado tres tipos básicos de validez: racional, empírica y de constructo (véase Thomdik e y Hagen, 1986). La validez racional (o de «contenido») depende del análisis lógico del contenido de la prueba para ver si ésta contiene una muestra representativa de las destrezas lingüisticas importantes. La validez empírica depende de la evidencia empírica y estadística sobre si los resultados de los alumnos en la prueba son similares a sus resultados en otras medidas apropiadas de sus capacidades lingüísticas, como pueden ser sus resultados en otras pruebas, sus autoevaluaciones o las valoraciones de sus profesores. La validez de constructo hace referencia a lo que en realidad significan los resultados de la prueba. ¿Qué nos dicen sobre los candidatos? Si se supone que una prueba evalúa la capacidad de un alum no para usar elementos de cohesión y d e referencia en la expresión escrita, ¿es esto cierto? Para comprobarlo el evaluador debe formular teorías y predicciones sobre el examen y probarlas. Sin embargo, tal como ha avanzado la investigación sobre la validez de las pruebas, n o es útil hacer la distinción entre la validez racional y la empírica, puesto que ambos métodos de validación incluyen datos empíricos. Los análisis de contenido de las pruebas incluyen a menudo estudios sistemáticos del contenido y la opinión de expertos a los que se les pide, por ejemplo, que evalúen la prueba de distintas formas, algunas de las cuales pueden analizarse estadísticamente (esto se discute con más detalle en el apartado 8.3.2). Utilizaremos pues los términos de validez interna y externa, siendo la diferencia principal que la validez intema hace referencia a los estudios realizados sobre el contenido de la pme ba y su efecto, m ientras que la validez extema hace referencia a los estudios de comparación realizados entre los resultados de los alumnos y las medidas de su capacidad obtenidas fuera de la pmeba. La validez externa también se llama «validez de criterio» (véase la American Psychological Association, 1985), puesto que los resultados de los alumno s se comparan con otros criterios para medir sus capacidades, pero evitaremos utilizar el término «criterio», porque ya lo hemos utilizado con otro significado. La validez de constructo es la más difícil de comprender de las tres. Tiene muchos atributos de la validez interna y de la externa, por lo que muchos la consideran un término genérico para ambas. Discutiremos esto con más detalle en su momento. 8.3. La validez interna

Com o la validez interna tiende a ser más co nocida conceptualmente por el lec-

La validez interna

interna de una prueba, pero las tres más comunes son: la «validación aparente», que se obtiene rec ogiend o com entarios sobre el valor de una prueba entre per sonas que no han colaborado directamente en su elaboración, como pueden ser los alumnos y los administradores de la misma; la «validación de contenido», en la que los redactores o expertos en la materia juzgan la prueba, y la «v alida ción de respues ta» (Henning, 1987 : 96 ), en la que se utilizan una serie de téc nicas de apreciación cualitativa, tales como la introspección y la observación de sí mismos por parte de los candidatos para comprender cómo responden a los ítems y por qué.

8.3.1. La validez aparente La validez aparente se refiere a la «credibilidad aparente o a la aceptación pública» (Ingram, 1977: 18) de una prueba, y a menudo es considerada por los expertos en evaluación como poco científica y nada importante (véase Stevenso n, 19 85 ). En esencia, la validez aparente imp lica una opin ión intuitiva sobre el contenido de la prueba mantenida por aquellos cuya opinión no es necesariamente «ex per ta». Tales personas pueden carecer de conocim ientos sobre «e valu ació n»: los administradores de la prueba, los usuarios de los resul tados de la mism a y los alumnos. La opinión es, en general, g lobal y se refiere a la prueba como un conjunto, aunque también puede prestarse más atención unos ítems en concreto, instrucciones poco claras, periodos de tiempo poco rea listas, com o u na for ma de justificar la opinión global sobre una prueba. Se dice a menu do que la validez aparente provoca siempre el m ismo comentario: «Esta prueba no parece vá lida». Sin embarg o, se está dando u na mayor importancia a la validez aparente desde la aparición de la evaluación de la lengua com o comunicación (CLT), y mucho s de los defensores de este enfoqu e (véase po r ejemplo, M orrow, 1979 y 198 6, y Carroll, 1980 y 1985 ) propugn an que un examen comunicativo de idiomas debería parecerse a lo que se hace «e n el mun do re al» con la lengua. Com o esto no está definido de forma rigurosa o sistemática (por ejemplo, el concepto de «autenticidad» se cita frecuentemente para justificar la validez de una prueba, aunque pocas veces se explica), es probablemente apropiado relacionar tales lla mada s a la «vid a rea l» co n la validez aparente. Sin embargo, intentos más siste máticos de definir la vida real, com o los esquem as conceptuales de Bachman relativos a la habilida d lingüística comunicativa y a distintos aspectos del mé todo utilizado (véase capítulo 2), pertenecen de forma clara al ámbito de la validez de contenido. Quisiéram os advertir al lector que co mpru ebe siempre si el término «validez aparen te» se utiliza de form a peyorativa (en cuyo caso significa probablemente «sin va lide z»), o si se usa de forma positiva, en cuyo caso significa «aceptable para los usua rio s». Nuestra propia posición sobre el tema es que la validez apa rente es importante en evaluación. Por una parte, las pruebas que no parecen válidas a los usuarios no se tomarán en serio para su propósito. Por otra, si los

La validación

den hacerlo mejor y responder a los ítems de forma apropiada. En otras pala bras, creemos qu e la validez aparente influye en la validez de respuesta de una prueba. Pueden recogerse datos sobre la validez aparente entrevistando a alumnos o pidiéndoles que completen un cuestionario sobre sus actitudes, reacciones e impresiones con respecto a una prueba que acaban de terminar o de analizar. Los resultados puede n sumarse estadísticamente, si se quiere, para po der deter minar la aceptabilidad de los ítems y de las distintas partes de la prueba. 8.3.2. La validez de conte nid o

«La validez de contenido concierne a la representatividad o a la adecuación del conte nido —la substancia, el meollo, los temas—de un instrum ento de m ed ida» (Kerlinger, 197 3: 4 5 8 ). La validez de contenido requiere la recogida de opiniones de «ex pe rtos »: gente en cuya opinión estamos dispuestos a confiar, aunque no coincida con la nuestra. Ésta es quizá para nos otros la distinción más importante entre la validez aparente y la validez de co ntenido : en la validez aparente no aceptamos la opinión de los demás, aunque la respetamos, porqu e sabem os que para las personas que h an opinado este aspecto de la prueba es importante y por lo tanto influirá en su comportamiento. En la validación del contenido recoge m os la opinión de personas en las que e stamos dispuestos a confiar. Tradicionalmente, la validez de contenido implica que los «expertos» emi tan juicios de forma más sistemática. Una forma de hacer esto es analizando el contenido de una prueba y com parándolo con una definición de lo que debiera ser el contenido. Tal de finición puede estar en las especificaciones de la prueba (véase capítulo 2), puede ser el programa o el currículo, o puede ser una espe cificación de ámbito. Henning (1987: 4) dice: «Es precisamente en el área de la validez de contenido de las mediciones de aprovechamiento donde las prue bas referidas a un criterio o ámbito tienen ventajas considerables sobre las prue bas referidas a una norma, más tradicionales.» Un comité de redacción tal como los descritos en el capítulo 3 puede cum plir los requisitos necesarios para la validación del contenido, pero sólo en el caso de que los m iem bros del comité pueda n considerarse expertos y si se lleva a cabo la comparación del borrado r de la prueba con sus especificaciones o con las definiciones del contenido de forma sistemática. En nuestra experiencia esto raramente ocurre. Por el contrario, los miembros del comité opinan sobre el contenido de los ítems sin mucha preparación, no hay un intento de recogida de opiniones independiente y sistemática, lo que significa que la dinámica de grupo del comité influye directamente en el resultado. Una m ejor forma de validar el contenido supondría la creación de un instru mento para la recogida de datos. Los expertos recibirían instrucciones sobre cómo opinar y cómo tomar nota de sus opiniones. Por ejemplo, podría esta blecerse una escala sobre la que los expertos puntuarían la prueba de acuerdo con el grado de cumplimiento de los criterios. Bachman, Kunnan, Vanniariajan

La validez interna

lingüística comunicativa (CLA) y la escala de las características del método uti lizado (TMC), para hallar una forma de cuantiñcar las comparaciones del con tenido de dos series de pruebas. Las facetas de la CLA se puntuaron en una escala de cinco puntos y se relacionaron con el nivel de habilidad requerida a los can didatos en las áreas de competencia gramatical, textual, ilocutiva, sociolingüística y estratégica. La facetas del TMC hacían referencia a los ítems y a los textos de la prueb a y tenían en cuenta el entorno de la prueba, las instrucciones de la prueba, el tipo de ítems y la naturaleza del contenido de la prueba. Entre las facetas del contenido de la prueba estaban: la complejidad de la lengua, la orga nización retórica, el grado de contextualización, el tema de la prueba, los pre juicios culturales y las características pragmáticas. Para cada faceta los evaluadores puntuaban un ítem o texto de acuerdo con una escala que tenía en general tres puntos. Por ejemplo: ORGA NIZACIÓN

Muy simPle

RETÓRICA

0

Muy compleja 1

2

Algunas facetas se puntuaban de acuerdo con el número de apariciones de un rasgo, por ejemplo: REFERENCIAS

Sin aparición

Una aparición

Dos o más apariciones

CULTURALES

0

1

2

Clapham, 19 92, utilizó una ad aptación de la escala TMC de Bachman para evaluar el contenido de tres pruebas de comprensión de lectura. Pidió a tres pro fesores de inglés para fines académicos que puntuaran aspectos del contenido de la prueba, incluyendo el contenido preposicional y las características orga nizativas y sociolingüísticas de los ítems y de los textos. Una alternativa utilizada por Alderson y Lukmani, 19 89 , es la de facilitar a los expertos una lista de destrezas que se supone que se evalúan en un conjunto de ítems y pedir que m arquen junto a cada ítem la destreza o destrezas que creen que evalúa. Estas opiniones se agrupan luego para tener una idea clara del grado de consenso que existe entre expertos. Los ítems sobre los que hay poco con senso se consideran como ítems con una validez de contenido baja. Otra alternativa es la mencionada en el capítulo 2.3, en donde se describe cóm o, durante el desarrollo de una pru eba internacional de inglés para fines específicos, se pidió a profesores de entre un am plio espectro de especialidades académicas qu e dieran su opinión sobre los textos utilizados para las pruebas de comprensión de lectura y el tipo de tarea que suponían que se pedía a los alumnos (Alderson, 19 88 b). Esta investigación se llevó a cabo durante la redac ción de las especificaciones y los ensayos previos de los ejemplos y muestra lo pronto que debe comenzar el proceso de validación del contenido en la elabo

La validación

Lo que estos distintos enfoques tienen en común es, primero, que utilizan como informadores a expertos en el campo que se analiza y, segundo, que los expertos reciben una lista o instrucciones precisas sobre los aspectos de la prueba que se van a considerar. Finalmente, una advertencia sobre la utilización de expertos. Durante mucho tiempo se ha supuesto, con respecto a la evaluación de idiomas, que las opiniones de los expertos son decisivas: lo único que hay que hacer es seleccionar a las personas adecuad as y éstas producirán o pinion es válidas. Desgraciadamente, esto no siempre es así. Recientes investigaciones sobre la evaluación de idiomas han empezado a examinar la naturaleza de los juicios emitidos por expertos (véase Alderson, 1993). Reflexionando, no sorprende que a menudo los expertos no coincidan en sus opiniones. Algunas veces sólo uno o dos tienen opiniones am pliamente divergentes, pero otras es mu y difícil entrever un con senso entre ellos. Es interesante para los investigadores del mundo de la evaluación constatar esta variedad en la emisión de juicios: sugiere que los aspectos que hay que juzgar son mucho menos claros, más controvertidos, quizá más complejos de lo que se pensó en un principio. Si se analiza tal complejidad a fondo surgen todo tipo de nuevos matices. Sin emb argo, el responsable de una prueba se encuentra ante un dilema en tales circunstancias. Si los «expertos» no se ponen de acuerdo sobre lo que evalúa una prueba, ¿qué es en realidad lo que ésta evalúa? Al contrario de un investigador, que puede permitirse el lujo de investigar este tema durante un tiempo, los responsables de una prueba necesitan información sobre la validez de sus instrumentos tan pronto como sea posible. Si no se ha llegado a un acuerdo, ¿debería desecharse la prueba? La respuesta a este dilema, creem os, se encuentra en el hecho de que la validez de una prueba es más relativa que absoluta. Si los procedimientos de validación del contenido revelan problemas relacionados c on la validez de contenido de la prueba, se deben recoger otros tipos de evidencia de validez: validez externa, validez aparente, validez de respuesta, y así sucesivamente. A largo plazo, podrían pedir que se investigara sobre el problema que se ha descubierto, pero de mo mento no deben desesperarse. M ás bien deben aceptar que en la evaluación de idiomas, como en otros muchos aspectos, hay todavía mucho que desconocemos y hay que continuar a la búsqueda de la validez o modificar su prueba o las especificaciones de la misma a la luz de los desacuerdos. Una forma de solucionar este dilema, a la que muchos se resistirían, sería agrupar expertos que se sabe que coinciden habitualmente u org anizad o todo, mediante un proceso de formación o de alguna otra manera, para que se min imice el desacuerdo. A lo largo de este libro hemos señalado el valor que tiene la formación de examinadores, de redactores de pruebas, de administradores. Sin embargo, la formación de jueces expertos para fomentar o para asegurar un acuerdo tiene sus riesgos: el riesgo de la clonación. Cuando se utiliza a expertos, es importante utilizar a aquellos cuya opinión se respetará. Intentar cambiar esta opinión por medio de la formación, porque discrepe del resto, es sólo

La validez interna

8.3.3. La validez de respuesta Como se ha indicado anteriormente, un aspecto que es cada vez más corriente en el proceso de validación de una prueba es la recogida de información sobre cómo responden a los ítems de una prueba distintos individuos. Los procesos que siguen, el razonamiento que hacen al responder, son indicaciones impor tantes de lo que evalúa la prueba, al menos para estos individuos. De aquí que haya mucho interés actualmente en recoger relatos de estudiantes/candidatos sobre su comp ortamiento y sus pensamientos durante el proceso de realización de un examen. La recogida de datos introspectivos durante un examen no es algo sencillo, porque la recogida de datos puede interferir en el proceso que se pretende inves tigar. Sin embargo, la investigación ha revelado aspectos muy interesantes refe rentes a la actuación en una prueba a través de estos relatos centrados en los estudiantes (véase Cohén, 1984; Faerchy Kasper, 1987, y Grotjhan, 1986). Por ejemplo, la introspección durante una tarea de tipo doze mostrará si el alumno responde al ítem utilizando las destrezas de lectura que pretende el redactor de la prueba o si lo que pone en práctica es algún conocimiento de la estructura gramatical de la frase en la que aparece el ítem. De forma parecida, la instrospección durante una tarea de comprensión de lectura puede identificar debili dades de los ítems y puede producir casos en los que los alumnos responden a un ítem de forma incorrecta aunque comprendan el texto, o de forma correcta aunque no lo entiendan (véase Alderson, 19 90) . ¿Cómo deben recogerse los datos introspectivos? La manera más sencilla es hacerlo retrospectivamente. Una vez que los candidatos han contestado la prueba, o una de sus partes, pueden ser entrevistados sobre las razones por las que die ron las respuestas que dieron. Una forma de refrescar su m emo ria para las res puestas son los prop ios textos en el caso de la comprensión lectora y la expresión escrita y quizá también para las pruebas de comprensión oral. Sin embargo, en el caso de las pruebas de expresión oral, los datos más útiles se recogen grabando al candidato en vídeo o audio durante su actuación. El entrevistador deberá ser lo más neutro posible, haciendo preguntas generales como: «¿Por qué diste esta respuesta? ¿Por qué respondiste de esta forma?», y debería preguntar sólo cuando las respuestas no estén claras o no estén lo suficientemente detalladas. El inconveniente de tales retrospecciones es que los candidatos no se acuer dan de po r qué respon dieron de una form a en concreto. Una alternativa es obte ner introspecciones concurrentes, en las que el candidato «piensa en voz alta» mientras responde a unas preguntas formuladas durante los periodos de silen cio por un observador que está callado durante el resto del tiempo. El problema más obvio aquí es que si la prueba tiene consecuencias importantes, es muy poco razonable someter a los candidatos a tal investigación. Así pues, los infor madores para este tipo de validación serán inevitablemente personas que no estén realizando la prueba «en serio», y la realización de una prueba en serio es algo muy distinto a realizarla sólo con motivo de una investigación. Además,

L a v a l i d a c ió n

especialmente los procesos más automáticos relacionados con los procesos lingüísticos de abajo a arriba (bottom-up), con ítems de gramática o de léxico o con las pruebas de pronunciación o entonación. Sin embargo, especialmente para el tipo de prueba s en la que los candidatos deben ser conscientes de lo que están haciendo —com o en el caso de los exámenes de exp resión escrita, por ejem p lo - tales mé todo s de recogida cualitativa de datos pued en facilitar información muy útil sobre lo que las pruebas evalúan en realidad. 8.4. La validez externa

Los tipos más comunes de validez externa son la validez concurrente y la validez predictiva; la estadística utilizada con más frecuencia es el coeficiente de correla ción (véase el capítulo 4 para una explicación del término «correlación»). El concepto de validez externa es quizá m ás fácil de compren der a través de la dis cusión sobre validez concurrente. 8.4.1. La valid ez con currente

En esencia, la validez concurrente supone la comparación de los resultados de la prueba con cualquier otra m edida de los m ism os candidatos durante aproxi madamente el mismo periodo de la prueba. Esta otra medida pueden consti tuirla los resultados de una versión paralela de la misma prueba o de otra prueba, las autoevaluaciones de los cand idatos sobre sus pr opias capacidades lingüísti cas o las notas del profesor, de un experto en la materia o de otros inform ado  res sobre el candidato en distintos aspectos relevantes. Lo importante es que esta medida pueda expresarse numéricamente (como sucede, p or ejemplo, con las escalas de valoración) y que no esté relacionada con la prueba. El resultado de la comparación se expresa normalmen te com o un coeficiente de correlación, que oscila entre los valores —1,0 y + 1,0. La mayoría de los coeficientes de vali dez concurrente oscila entre + 0 ,5 y + 0 ,7 ; los coeficientes más altos se obtie nen si las pruebas son muy parecidas y fiables, pero raramente si se correlacionan medidas como la autoevaluación o las valoraciones del profesor. Es importante que haya motivos para creer en los resultados de la medida extema. Hay pocos motivos para comparar las notas de los alumnos con su actua ción en un tipo de medida que se sabe que es poco fiable o no válida. Aunque esto pueda parecer lógico y obvio, en la práctica es muy difícil recoger datos extem os creíbles. Tomemos por ejemplo el caso de recogida de datos sobre una prueba: un proyecto clásico de validación concurrente supondría la comparación de los resultados de la prueba en cuestión con los resultados de otra prueba reconocida como válida y fiable. Sin embargo, si esta otra prueba existe, ¿por qué vamos a preocupamos de producir una nueva prueba para contrastarla? ¿Por qué no usa mos la pm eba original? Hay dos respuestas a esto. La primera es que la otra prueba puede no estar fácilmente disponible. Puede resultar demasiado cara, demasiado

La validez extema

se necesita una prueb a alternativa: la q ue s e está validando. La segun da respuesta es que una v ez se ha validado la nueva prueba, el tribunal de exámenes necesita produ cir nuevas versiones de form a regular. (La construcción de tales versiones equivalentes se discute con brevedad en el capítulo 4.) Si los alumnos responden a la nueva versión y a la validada previamente, y s i el índice de correlación resultante entre los d os grupos de resultados es alto, es decir por encima de 0,9 0, po demos afirmar que la nueva prueba tiene validez concurrente. Sin embargo, a menu do n o existe una prueba reconocida como válida y fiable para realizar la validación concurrente, aun que d eseem os saber si la prueba experimental puede compararse con otras pruebas conocidas y utilizadas en el m ism o c ontexto, a unq ue no se conozca su validez y fiabilidad. En tales casos se está obligad o a tratar los resultados de la correlación con muc ha cautela. En realidad, no se espera que las dos pruebas no tengan ninguna correlación, puesto que en un principio las dos evalúan contenidos lingüísticos. De todas, formas tamp oco se espera tona correlación alta entre las do s, en parte porq ue pre sum iblemente están evaluando distintos aspectos d e la capacidad lingüística y en parte a causa de la posible poca fiabilidad e incierta validez de la otra prueba. En tales circunstancias, se necesita una interpretación m uy cu idadosa. Además de comparar los resultados de una prueba con las puntuaciones de otras pruebas, a menu do es muy útil compararla con otras medidas de las capacidades de los alumnos. Una medida útil es la opinión del profesor sobre sus propios alumnos. Si los profesores han dado clase a los mism os gru pos de alumnos durante un periodo de tiempo considerable, deberían tener una idea clara sobre sus niveles de com petencia y poder establecer un orden jerárquico de acuerdo con algú n aspecto de su hab ilidad lingüística. Si la destreza que se evalúa es relativamente fácil de puntuar, por ejemplo la «fluidez oral», el orden facilitado p or el profesor pu ede dar una idea clara de los niveles de capacidad de tod os los alum nos de la clase, pero h ay áreas lingüísticas, tales com o las destrezas receptivas de la lectura o de la audición, que son prácticamente imposibles de puntuar. Puesto que los profesores son también poco consistentes y no están Ubres de juicios parciales, las puntuaciones serán más válidas si se utilizan dos profesores para cada grupo de alumnos. Otro m étodo de llevar a cabo e studios de validación es correlacionando las puntuaciones de los alumnos con las apreciaciones de los profesores sobre su actuación. Por ejemplo, podría pedirse a los profesores que completaran el siguiente cuestionario: ¿Cómo evaluaría a cada alumno sobre una escala del 1 al 5 para cada una de las siguientes destrezas: gramática, expresión escrita, expresión oral, competencia lingüistica en general? Alumno 01 02 03 Etc.

Gramática Expresión escrita Expresión oral

Dom inio de la lengua

La validación

La escala del 1 al S pu ed e ser tan sencilla co m o la siguiente: 1. 2. 3. 4. 5.

Flojo Medianamente bueno Bueno Muy bueno Como un hablante nativo

O puede ser más c om pleja, con d efiniciones individuales para cada nivel de las distintas destrezas. (Para m ás inform ación sobre definic iones y descriptores véase el capítulo 5.) El cuestionario anterior pued e también utilizarse para la autoevaluación, aun que debe tenerse en cuenta que los alumnos pueden no estar tan acostumbrados a evaluar su habilidad lingüística como lo están los profesores. A continuación hay d os e jemplos de un cuestionario de autoevaluación. Ejemplo 1 Las siguientes áreas plantean posibles problemas lingüísticos que pueden surgir si usted estudia francés en Francia. Indique por favor si cree que tendría dificultades serias
Espero tener serios problemas:

muy a menudo

a menudo

a veces

raras veces

nunca

no procede

Escuchar y comprender conferencias. Escuchar y comprender los medios de comunicación (TV, radio). Comprender a la gente en las tiendas, en espacios públicos, etc. Ejemplo 2: ¿Cómo evalúa su capacidad de usar la lengua francesa en las áreas siguientes? Por favor, dibuje un círculo alrededor del número que mejor describe su capacidad.

LECTURA No lo suficientemente

Justo para

Muy bien

Casi como un

La validez extema

8.4.2. La validez predictiva Como sugiere el nombre, este tipo de validez se distingue de la validez concu rrente en que en lugar de recoger las medidas externas al mismo tiempo que se administra la prueba experimental, las m edidas externas sólo se recogen un tiempo después de que la prueba se haya administrado. La validez predictiva es más corriente en las prueb as de do min io: las pruebas que intentan predecir lo bien q ue alguien actuará en el futuro. La forma más simp le de estudiar la validez predictiva es dar a los alum nos la prueb a y al cabo de un tiempo volverles a administrar otra prueba sobre la habilidad que pre tendía predecir la primera prueba. Un uso común de las pruebas de dominio como el IELTS o el TOEFL es identificar a los alumnos que pueden tener pro blemas cuando estudien en un me dio inglés a causa de sus dificultades con esta lengua. La validación predictiva supon dría adm inistrar la prueb a IELTS a los alumnos antes de dejar su país de origen para estudiar en el extranjero, y des pués, una vez instalados en el país dond e van a estudiar y pasado un tiempo de adaptación, volverles a administrar una prueba sobre su uso del inglés en el m edio en qu e están. U na alta correlación entre las dos no tas indicará un alto grado de validez predictiva en la prueba de IELTS. Por desgracia, la vida no es nunca tan simple. Primero, es improbable que todos lo s a lumn os que hagan la prueba de IELTS puedan viajar para estudiar en el extranjero: algunos serán excluidos por malos resultados. Esto se conoce como «muestra truncada del problema»: sólo se puede usar parte de la pobla ción origin al en la validació n —en este caso, l os qu e pue den utilizarse serán los m ejores alum nos. El efecto de utilizar muestras truncadas no está suficiente mente estudiado en tales exámenes, pero probablemente reducirá la amplitud de los resultados d e los alumn os y rebajará el coeficiente de validez predictiva. Si todos los alumn os hubieran po dido acceder a la educación en el extranjero y no sólo los mejores, la correlación entre las dos pruebas hubiera sido más alta. Segundo, es probable que en nuestro ejem plo hipotético la competencia lingüística de n uestros alumn os pued a haber mejorad o entre la primera y la segunda ocasión, especialmente después de llegar al país extranjero. Esto tam bién tendrá como resultado la reducción del coeficiente de validez predictiva. Tercero, como ocurre con la validez concurrente, es poco probable que esté disponible una medida externa adecuada de la capacidad de utilización del inglés por parte de los alumnos en un ámbito de estudio, a no ser que sea otra versión de la prue ba original. En realidad, este último problem a intoxica m uchos estudios de validez pre  dictiva: ¿qué pue de considerarse una buen a medid a de la destreza que un o está intentando predecir? Algunos estudios de validación de las pruebas de domi nio utiliz an la p un tuación final o la m edia de las p un tuac ion es (grade point average) que los alumnos obtienen al final de sus estudios. Sin embargo, estos estudios no sólo utilizan obviamente muestras truncadas, sino que los resulta dos de cualquier correlación están oscurecidos po r el hecho de que el tipo de

La validación

nota ñnal refleja no sólo la capacidad lingüística sino también habilidades aca  démicas, cono cimiento de las distintas materias, perseverancia, técnicas de estu dio, capacidad de adaptación a la cultura y al contexto del país extranjero y much as otras variables. Es posible utilizar otras medidas en vez de la puntuación final o la media de las puntuaciones. Se podría intentar, por ejemplo, recoger las opiniones de los que están en contacto habitual con los alumnos. El responsable de la validación de la prueba puede pedir a los distintos profesores que evalúen a los alumnos que han hecho la prueba sobre sus habilidades lingüísticas: su habilidad en expre sión escrita, sus habilidades de comu nicación oral... Sin embargo, aquí de nuevo podemos encontramos con una muestra truncada. También nos encontraremos con el problema de que muchos profesores no son capaces de dar una opinión útil sobre las habilidades lingüísticas de sus alum nos hasta el final del primer tri mestre, cuando los alumnos ya han tenido oportunidades de sobra para mejorar su capacidad lingüística (véase Criper y Davies, 1988, y Wall, Clapham y Alderson, 19 94 ). Las correlaciones resultantes son m uy difíciles de interpretar. Otro ejemplo de un estudio de validación predictiva puede ser la validación de una prueba de competencia lingüística para alumnos que quieren ser profe sores de la lengua en cuestión. En este ejemplo, tales alumnos deben pasar la prueba antes de poder empezar las asignaturas de metodología de su curso, en las que necesitaran un alto nivel de competencia en la lengua extranjera. La vali dez predictiva de la prueba supone realizar un segu imiento de los alumn os que pasan la prueba y pedir a sus alumnos, sus comp añeros docentes y sus obse r vadores que los evalúen de acuerdo con su habilidad lingüística en clase. La vali dez predictiva de la prueba sería la correlación entre los resultados de la prueba y las evaluaciones de su habilidad lingüística en el aula. En todas estas circunstancias no esperaríamos correlaciones altas entre la prueba y la medid a extema. En realidad, en los estudios de validez predictiva, es corriente que los redactores de pruebas y los investigadores estén satisfechos con un coe ficiente tan bajo como +0,3. Sin embargo, la dificultad de llevar a cabo estudios de validación predictiva no absuelve a los responsables de la prueba de la res ponsabilidad de recoger datos para demostrar que sus pmebas poseen un grado de validez para el pro pósito para el cual están previstas y se utilizan. A veces, la frontera entre la validez concurrente y la validez predictiva es m uy tenue. Por ejemplo, después de dar a los alum nos una prueba de nivel, los eva luadores deberán intentar confirmar la validez de la prueba preguntando a los profesores que tienen a estos alumnos en sus clases si se han colocado en la clase adecuada. Los profesore s deberán respon der a esta pregunta durante la primera semana de clase, antes de que los alumnos hayan tenido tiempo de mejorar, para que la validación se considere concurrente y predictiva. En muchas de las circunstancias en que se desarrollan las pmeb as, es poco prác tico, si no imposible, recoger datos externos sobre los candidatos a la prueba. Puede resultar que la institución responsable de la pmeba no tenga control alguno

La validez de constructo

se puedan establecer criterios relevantes dada la diversidad de m otivos p or los que los alumnos hacen la prueba; o puede tratarse de que no haya recursos disponibles para realizar estudios de validación especiales. En tales casos puede ser útil llevar a cabo un estudio del examen como tal, para ver cómo se relacionan entre sí las distintas partes y por consiguiente averiguar qué evalúa el examen. Esto se discutirá a continu ación bajo el título de validez de constructo. 8.5. La validez de constructo

Se ha d ejado la discusión sobre la validez de constructo para el final, en parte porqu e es el concepto más difícil de explicar y en parte porque algunos evaluadores creen que es una forma superior de validez a la que contribuyen tanto la validez intem a co mo la externa. Ebel y Frisbie, 199 1, dan la siguiente explicación de la validez de constructo: El término constructo se refiere a un constructo psicológico, una conceptualización teórica sobre un aspecto del comportamiento humano que no puede medirse u observarse directamente. Ejemplos de constructos son la inteligencia, la motivación para un fin, la ansiedad, el aprovechamiento, la actitud, el dominio y la comprensión de lectura. La validación del constructo es un proceso de recogida de datos para demostrar que una prueba dada mide en realidad el constructo psicológico que sus elaboradores intentan medir. El objetivo es determinar el significado de los resultados de la prueba, para asegurar que significan lo que se cree que significan (página 108).

Una explicación más breve es la dada por Gronlund, 1985, para quien la validación de constructo mide «en qué grado la actuación en una prueba puede interpretarse com o una medida significativa de alguna característica o cualidad » (página 58).

8.5.1. La comparación con la teoría Para algunos teóricos de la evaluación, la validez de constructo es una forma de validación que implica en esencia la valoración de hasta qué punto la prueba está basada de forma clara en la teoría que la subyace. Nótese que en este enfoque la teoría en sí no se cuestiona: se da por sentado. El tema es si la pmeba es una buena puesta en práctica de la teoría. En efecto, esta forma de validación del constmcto funciona de forma similar a la validación del contenido: se seleccionan expertos, se les da una definición de la teoría que subyace la prueba y se les pide que emitan juicios de opinión cuando hayan analizado la prueba desde el punto de vista de la validez de constructo.

8.5.2. Correlaciones internas Como mencionamos anteriormente, una forma de evaluar la validez de constructo de una prueba es haciendo correlaciones entre las distintas partes de la

La validación

es que tod os ellos m idan algo distinto y por lo tanto contribuyan a la visión de conjunto que se intenta obtener sobre la habilidad lingüística mediante la prueba, deberíamos suponer que las correlaciones serán bajas, posiblemente entre +0,3 y +0,5. Si dos partes tienen una correlación muy alta, digamos de +0,9, podremos suponer que las dos partes de la prueba son en esencia lo mismo. Si este es el caso, podemos decidir desechar una de las dos. Las corre laciones entre cada parte de la prueba y toda la prueba, por otra parte, se puede supone r que serán más altas, al menos de acuerdo con la teoría clásica de la eva luación, posiblemente alrededor de +0,7 o más, puesto que la puntuación glo bal se considera una medida más general de la habilidad lingüística que la obtenida en cada parte de la prueba. Ob viamente, si la puntuación de este com  ponente se incluye en la puntuación global, la correlación será en parte la resul tante entre este componente consigo mismo, lo que aumentará la correlación de forma artificial. Por este motivo es habitual que en estudios de correlación intema se correlacionen los com ponentes de una p rueba con la puntuación glo bal menos el componente en cuestión. Tabla 9 . 1

. Matriz de correlación entre partes de una prueba

Lectura Competencia lingüística Expresión escrita Expresión oral Total

Lectura

Competencia lingüística

Expresión escrita

Expresión oral

Total

Total menos componente

-

0,53

0,27

0,44

0,73

0,50

0,53

-

0,43

0,66

0,84

0,72

0,27

0,43

-

0,45

0,66

0,46

0,44

0,66

0,45

-

0,86

0,66

0,73

0,84

0,66

0,86

-

-

n = 2,443 Datos sacados de Alderson, Wall y Clapham, 1986.

En la matriz de correlación citada la correlación más alta es la existente entre los componentes de competencia, que consisten en una serie de pruebas de tipo cloze y c-tests, y la pmeba de expresión oral (0,66). La correlación está por encima de lo que podría esperarse si las pruebas en realidad evalúan distintas destrezas, pero la coincidencia no es lo suficientemente grande como para sugerir a los redactores la supresión de una de las dos partes. Todas las partes excepto la de expresión escrita tienen correlaciones con la pmeba global por encima de un 0,7. El hecho de que la correlación entre la expresión escrita sea más bien baja (+0,66) puede deberse al hecho de que este prueba resultó ser poco fiable, y las correlaciones entre las pruebas no fiables muestran coeficientes bajos puesto que los resultados se deben al factor suerte. Las correlaciones de las partes de competencia lingüística y de expresión oral con la nota global están por encima

La validez de constructo

de +0,8. Esto muestra que ambos componentes influyen de forma importante en la puntuación global final. Cuando cada una de esta pruebas se correlaciona con la puntuación global me nos ella misma, las correlaciones se reducen a +0 ,7 2 y a +0,66. De todas formas, estas correlacions son todavía las más altas entre las partes de la prueba y el total y muestran lo importantes que son estas dos sec ciones dentro de la serie. Una versión algo más refinada de este proceso de validación del constructo es la de h acer predicciones teóricas sobre las relaciones que hay entre los c om  ponentes de la prueba a la luz de las necesidades de la teoría subyacente, y des pués compararlas con los coeficientes de correlación.

8.5.3. Comparaciones con los datos personales de los alumnos y sus características psicológicas Otra forma de validación del constructo que se lleva a cabo es la de comparar la actuación en la prueba con los datos personales y otros datos recogidos de los alum nos en el mom ento de realizar la prueba. La intención es la de detectar parcialidad en la prueba hacia grupos de alumnos según sus características personales: sexo, edad, lengua materna, número de años estudiando la lengua... La hipótesis sería que una prueba válida es más difícil para alumnos que han estudiado la lengua durante un periodo de tiempo m ás corto, o para aquellos cuya lengua materna es menos cercana a la lengua de la prueba que la de otros alumnos, etc. Una alternativa sería la de comparar la actuación en la prueba con medidas psicológicas que se consideren teóricamente relevantes. Se podría querer vali dar una p rueba de aptitud, po r ejemplo, comp arando la actuación en una parte que evalúa la sensibilidad hacia la gramática con otra m edida de la habilidad para el aprendizaje inductivo de la lengua con la que en teoría se supone que va relacionada. Nótese que estos procedimiento s de validación son parecidos a los de validez intema y externa discutidos con anterioridad. La diferencia es que la razón para seleccionar los aspectos relevantes del historial de los alumnos y de sus caracte rísticas psicológicas se derivan de la teoría.

8.5.4. Análisis multirrasgo y validación convergente y divergente Otros procedimiento s más com plejos de validación del constructo, que su po nen la utilización más o menos sofisticada de la estadística, van más allá del ámbito de este libro. Se remite al lector interesado a Kerlinger, 19 73, y a Wood, 1991, para obtener explicaciones más detalladas. Es, sin embargo, útil en este punto esbozar dos de estos enfoques. Lo que Bachman, 1990 llama el «enfo qu e clásico hacia el diseño de estudios de correlación para la validación del constructo» es la matriz multirrasgo-multimétodo (multitrait-multimethod matrix) descrita p or Cam pbell y Fiske, 1959 . Consiste en una combinación de procedimientos de validación intema y extema. La teoría

L a v a l i d a c i ó n

dez divergen te): los alum nos responden a la prueba experimental al mism o tiempo qu e a las otras pruebas cuyas propiedades ya se conocen (com o se hace en la validación concurrente). W ood, 19 91 , d a una explicación m uy clara sobre el análisis multirrasgo-m ultimétod o, y variaciones sobre este procedimiento pueden verse en estudios realizados por Bachman y Palmer, 19 81 ,19 82 . 8.5.5. Análisis fac tor ial

Otro enfoque es el del análisis factorial. Lo que hace el análisis factorial es coger una matriz de coeficientes de correlación, que habitualmente es demasiado com pleja de comp render en un estudio superficial, y reducir su co mp lejidad a pro porciones más manejables mediante medios estadísticos. El resultado de tal reducción es habitualmente un p eque ño núm ero de factores. Las distintas prue bas comparadas en la matriz de correlación original se relacionarán de distintas formas con los distintos factores (el término usado técnicamente es «carga rán »). Existen dos variedades principales: una es el análisis factorial exploratorio y el otro es el análisis factorial confirmatorio. En el prime ro, solamente se exploran los datos para ver los factores que emergen: esto se hace mirando con qué fac tores se relacionan de form a más cercana qué prue bas y etiquetando los factores de acuerdo co n esto. En la segunda, el investigador formula un a hipótesis sobre las pruebas o las partes de un a prueb a que previsiblemente mostrarán relación y cómo y a continuación lleva a cabo pruebas de «co nfirm ación » de las hipótesis con los datos. La razón para que estos enfoques de análisis factorial pertenezcan a los procedimientos de validación del constructo es que los factores que emer gen se explican o se prevén en función de una teoría -en este caso, la teoría de lingüística aplicada que un o tiene sobre qu é debería relacionarse con qué.

8.6. Fiabilidad y validez La relación entre la fiabilidad (véanse los capítulos 1, 4 y 6) y la validez es en principio simple, pero en la práctica compleja y no siempre bien entendida. En principio, u na prueb a no p ued e ser válida si no es fiable. Si una prueba no mide algo de forma consistente, es de supone r que no siempre lo pued e medir de forma precisa. Por otra parte, es p osible qu e una prueb a sea fiable pero no válida. Una prueba puede, por ejemplo, dar los mismos resultados de forma repetida, aunque no mida lo que se supone que mide. Por lo tanto, aunque se necesita fiabilidad para obtener validez, la fiabilidad por sí sola no es suficiente. El problema para la mayoría de las personas responsables de exámenes es que para maximiz ar la fiabilidad a menu do es necesario reducir la validez. Las prue bas de respuesta múltiple pueden ser muy fiables, especialmente si contienen suficientes ítems, pero mu chos dirían que la actuación en una prueba de res puesta múltiple no es una medida válida de la habilidad de un alumn o para uti lizar la lengua en el m und o real. Para tomar un ejem plo extrem o, es posible reda prueb ta de respuesta múltiple de sea al

F i a b i l i d a d y validez

es en en realidad buena o m ala (véase Buck, 19 89 ). Por otra parte, parte, es posible adm inistrar una prueba oral de pronunciación que sea válida, pero puede resultar muy difícil de corregir de forma fiable. Algunas personas argumentarán que la fiabilidad d ebe sacrificarse sacrificarse en aras de la validez. validez. Pero no p ode m os tener validez validez sin fiabilidad. En la práctica, ni la validez ni la fiabilidad son valores absolutos: hay grados de amb as y es habitual habitual hablar hablar de un co mp rom iso entre entre las las dos: se max imiza una en detrimento de la otra. otra. Lo que se decide maximizar depende del objetivo de la prueba y de las consecuencias para para los candidatos que o btengan un resultado resultado inadecuado. El análisis de las correlaciones entre partes de la prueba nos da un buen ejemplo de los intereses divergentes de la fiabilidad y de la validez. Dijimos más arriba que era en general mejor obtener correlaciones bajas entre las distintas partes de la pru eba puesto que cada parte estaba estaba allí para evaluar una destreza o rasgo distinto. distinto. Sin embargo, lo que no m encionam os fue que cuanto cuanto más bajas bajas son las las correlaciones correlaciones,, m enos h om ogéneo s son los ítems de la prueba, y por lo tanto tanto más bajas so n las correlaciones entre entre los ítems, y más bajo es el índice de fiabilidad de la consistencia interna interna de to da la prueba. Por lo tanto una validez validez de constructo alta alta puede com portar un a baja consistencia inte interna. rna. Sin Sin emb argo, si una prueba contiene contiene ítems ítems que no son ho m ogéneos, ¿significa esto que la prueba no es fiable? Puede tener un índice bajo de consistencia tencia interna interna porq ue m ide distintos rasgos con la mism a prueba, pero puede estar estar midie nd o estos rasg os de form a consistente. consistente. Si este este es el el caso, el índice índice de consistencia interna no parece que sea una forma de evaluar la fiabilidad. Sin Sin embarg o, puesto q ue indica si se están están midien do uno o má s rasgos, puede constituir, aunque de forma un poco perversa, una medida de validez. Tenemos pues un ejemplo de un índice de fiabilidad que puede utilizarse como un índice de validez. Esto plantea dos problemas. El primero es que los conceptos de fiabilidad y validez validez no están están siempre tan bien bien delimitados com o p odría suponerse. El segundo es que cuando calculamos un índice de fiabilidad en particular particular necesitamo s saber qu é no s dice este índice para para saber si es el apropiado para nuestros nuestros propó sitos. sitos. En el caso de pruebas que tienen a propósito una gama de ítems heterogéneos, por lo qu e se pued e esperar un índice de consistencia consistencia inter interna na bajo, pod ríam os decir qu e el índice só lo d ebería calcularse calcularse para las las distintas partes de la la prueba y q ue para toda la prueba es m ejor utiliz utilizar ar el m étodo de com probación de la fiabilidad con el uso de pruebas paralelas paralelas descrito descrito en el capítulo capítulo 4.3 y 4.5. Con este métod o no importa cuántos rasgos se estén evaluan evaluando, do, m ientras ientras cada cada prueba evalúe lo mismo. Si las dos pruebas muestran una correlación alta, la prueba será fiable. Sin embarg o, tenemo s aquí un p roblem a a la hora de distinguir entre entre validez validez y fiabilidad. Para saber si la segu nda pr ueb a es realmente paralela paralela a la primera, debe mo s hacer correlaciones correlaciones entre los resultados resultados d e las dos pru ebas para estaestablecer la validez concurrente de la segunda prueba. ¿Cuál es pues la diferencia entre esta correlación, que se supone que comprueba la validez concurrente, y


la correlación correlación con prueba s paralelas, paralelas, que se supone que co mprueba mpr ueba la fiabilidad? fiabilidad? La respuesta es que no hay diferencia: en este caso es imposible distinguir entre valide validezz y fiabi fiabilida lidad. d. (Par (Paraa más discusión, véase véase Alderson Alderson,, 19 91 ,y Sw ain , 1993.) La confusión que hemos visto entre validez y fiabilidad puede llevar al evaluador a considerar si vale la pena después de todo comprobar la fiabilidad. Hemos de decir rápidamente que sí vale la pena. Si un proceso en particular discierne entre validez o fiabilidad no importa: lo que importa es que seamos conscientes de los problemas que tenemos. Puesto que una prueba no puede ser válida sin ser fiable, es esencial que las pruebas se analicen todo lo que se pueda para garantizar su fiabilidad, y si algunas de las formas de análisis resulta que comprueban la validez y no la fiabilidad, al menos nos dan más información sobre la prueba. Lo qu e im porta en realidad realidad es si la prueba da un resultado que puede considerarse considerarse com o u n reflejo reflejo justo y preciso de la habilidad habilidad lingüístic lingüísticaa del candidato.

8.7.. Informe sobre los tribunal 8.7 trib unales es de exámen exá menes es de inglés como lengua extranjera: cuestionario Al comienzo de este capítulo hemos introducido la validez diciendo que era la cuestión más importante en la evaluación de idiomas. No sólo debemos comprobar q ue el material material que se incluye incluye en una prueba es el apropiado para el objetivo con el que se elabora, sino que debemos comprobar si los resultados son precisos. ¿La prueba aprueba y suspende a los alumnos que deben aprobar y suspender? En su libro Assessment and Testing, Wood duda sobre los procedimientos de validación de los tribunales de exámenes del Reino Unido, y dice: Si se preguntara a un tribunal de exámenes sobre la validez de su oferta, o más incluso, incluso, sobre q ué pa sos da para validar validar los resultados resultados q ue otorga, ¿qué diría? diría? (Wood, 1991: 147)

Estamos ahora en situación de poder responder a la pregunta.

PREGUNTA 25: Además de los procedimientos seguidos para la validación aparente y de contenido (véase capítulo 3, preguntas 16—19), los siguientes tipos de validez, a) ¿son pertinentes? b) ¿se estiman o calculan? Cinco tribunales no respondieron a esta pregunta o simplemente respondieron con brevedad. Los que respondieron dieron las siguientes respuestas: 1) validez concurrente 2) validez predictiva 3) validez de constructo

Pertinente Sí 6 Sí 4 Sí 4

Estimada Sí 6 2 Sí Sí 4

Un tribunal tribunal no facilitó facilitó respuestas respuestas pero añadió el siguiente comentario: comentario: «N eceec esitaríamos más información sobre el significado de estas preguntas y la intención al preguntarlas». Otro tribunal, sin embargo, aunque tampoco dio


Los e xam inadores expertos pu eden hacer sus previsiones previsiones sob re la actuaci actuación ón de los candidatos en algunas preguntas o en las las partes partes de la prueb a de la que son responsables o en todo el examen. Tales suposiciones se contrastan con las estadísticas de la prueba antes de tomar decisiones sobre la adjudicación de puntuaciones. El proceso de adjudicación también tiene en cuenta los casos individuales en los que hay mayor variación en la actuación de los distintos componentes de la prueba.

Otro tribunal respondió que esta pregunta no era pertinente, puesto que la suya era una prueba oral. Esta respuesta, naturalmente, no tiene ningún sentido. No se pidieron detalles, ni nos los dieron, sobre cómo se estimaban o calculaban estos tipos de validez, pero el LCCI respondió que se estimaban de forma «impresionista y anecdótica, no de forma matemática, todavía». Un tribunal dio breves detalles. Sobre la validez concurrente dijo: «A medida que vamos obteniendo datos, llevamos a cabo estudios comparativos con los exám enes de TOEFL y de UCLES UCLES,, y la compara ción con nuestra propia prueba (otra prueba para alumnos extranjeros) es una de las características clásicas de nuestro proceso de adjudicación de resultados en los niveles superiores». Con respecto a la validez de constructo, el tribunal respondió: «Las pruebas se estructuran en seis niveles, niveles, cad a uno de los cuales evalúa destrez destrezas as específica s», e hizo hincapié en que los estudios de validez predictiva «estaban planificados, pero de momento no había suficientes candidatos como para dar estadísticas fiables». Otro tribunal respondió que se estimaban algunos tipos de validez pero no en todas las pruebas; sin embargo, «las compañías y las universidades que utilizan las pruebas parecen contentas». Esto haría referencia a la validez aparente. Un tribunal facilitó una respuesta detallada: 1) Validez concurrente. Este tipo de validez es pertinente. En realidad se han llevado a cabo distintas investigaciones comparando [los exámenes] con entrevistas «cara a cara». Más recientemente se está elaborando una tesis doctoral [se cita el nombre del alumno] que compara las actuaciones de distintos candidatos en uno de nuestros exámenes con los resultados obtenidos en entrevistas orales. 2) Validez predictiva. Existen org ani zac ion es qu e lo s u tilizan [los exá m en es] para prever la capacidad d e actuación de ciertos ciertos individu os en el lugar de trabaj trabajo. o. Por ejemplo [la compañía X], requiere que su personal pase el examen antes de perm itirles itirles participar en intercam bios internacionales internacionales.. D e form a similar, similar, la promoción a niveles administrativos «internacionales» en [compañía Y] requiere un aprob ado en el examen, y todos los profesores en [país Z] deben demostrar también el mismo nivel de competencia oral en la prueba. Nunca hemos estimado estadísticamente la validez predictiva del examen, pero asumimos, puesto que tales organizaciones parecen estar satisfechas con los resultados obtenidos a lo largo de los años (12 en el caso de la com pañía y ), que el examen debe de tener tener la validez validez predictiva predictiva esperada esperada..

Cinco de los examinadores jefes de UCLES no respondieron a esta pregunta

La validación

UCLE UCLES. S. Sin embarg o, analizando analizando las respuestas parece parece que h ay una gran variación de un exam en a otro, y de una parte a otra. otra. Las Las pruebas de expre sión escrita escrita en tres tres de los los exám enes y en una de uso del inglés, inglés, se analiz analizaban aban para com pro bar su validez concurrente y su validez de constructo, pero no hay estudios de validación en las pruebas de lectura, comprensión oral y expresión oral. Cuatro de los otros exám enes no se validaban validaban de form a sistemática, sistemática, pero un o de ellos, ellos, el IELTS se sometía a estudios específicos de validación. A partir de las respuestas obtenidas parece que hay tribunales poco familiarizados con los métodos para evaluar la validación descritos en este capítulo, y hay al menos un tribunal que no está familiarizado con nuestra utilización del término «validez». Esto no significa, naturalmente, que la validez no se evalúe bajo otro nom bre, pero dem uestra una fal falta ta de conocimiento de los términos y procedim ientos establecidos en la evaluación educati educativa. va.

P R E G U N T A 2 6 : ¿ L l e v a n a cabo estudios específicos de validación de sus exámenes? En caso de respuesta afirmativa, facilite detalles. Cinco tribunales dijeron que llevaban a cabo tales estudios, aunque es dudoso en el caso de un tribunal puesto que la respuesta explicaba: «Se llevan a cabo sesiones de un ificación de criterios a lo largo del año, a las las qu e asisten asisten los asesores». Otro tribunal respondió que los estudios de validez tenían lugar «a partir de la revisión del esquema general», pero no dio más detalles. El AEB AEB se refirió refir ió a Weir, 1983. 198 3. Un tribunal dijo que no llevaban a cabo estudios específicos pero sin embargo añadió: «Algunas tesis de doctorado han utilizado [los exámenes] como base». También dijo que «la English Speaking Union ha validado los exámenes». Deberíam os insistir insistir aquí en que la aprobación de la ESU ESU no implica la validación de la prueba en el sentido en que se ha utilizado el término en este capítulo. La respuesta de un centro fue «Hay proyectos en curso». El único tribunal que nos facilitó información sobre estudios de validez fue el LCCI; aunque dijo que los estudios «eran confidenciales», añadió que «algunos resultados pueden publicarse» y adjuntó un artículo como ejemplo. P R E G U N T A 2 7 : E n el el c as a s o d e que se admin istren distin tas versiones versiones de su examen, ¿ s e toman medidas pa ra ga rantizar que sean equival equivalente entes? s? Las respuestas de los tribunales fueron: sí, 9; no, 1; no procede, 2. A la pregunta sobre la descripción de las medidas que se toman, hubo distintas tintas respuestas. respue stas. Dos de los tribunales utilizaban análisis estadístico de los resultados (uno mencionó el análisis de Rasch) y el resto dependía de las opiniones de los comités de redacción. Cinco de los tribunales señalaron el hecho de que utilizaban los m ismos redactores redactores y supervisores para todas todas las versiones versiones,, o que todas las las pruebas de un mismo año se analizaban en una misma sesión.

Debate

La estructura estructura de la la prueba es parecida parecida en todo s los exám enes del m ism o nivel. nivel. Los distintos niveles son puntos fijos. Aparte de las comprobaciones internas que se llevan llevan a cabo d espués de la administración administración de la prueba, nuestros exam inadores ex pertos notarían notarían si una parte de una prueb a es más fácil o m ás difícil que las anteriores.

PREGUNTA 28: ¿Se administra más de un tipo de prueba distinto durante el mismo periodo de examen? En caso afirmativo, ¿qué medidas se toman para garantizar que cada tipo de prueba sea equivalente valente en dificu ltad? Las respuestas de los tribunales fueron: sí, 5; no, 5. Los paso s qu e se dieron para asegurar la equivalencia equivalencia en dificultad dificultad entre entre distintas tintas pruebas prue bas so n los m ism os que los detallados detallados en la respuesta respuesta a la la pregunta 27. Las tres excepciones fueron: 1. M ediante la un ificación de criterios y la la evaluación. evaluación. 2. A través través del proc eso de análisis de la prueba. Si aparecen discrepancias en las actuaciones de los candidatos, se solucionan a la hora de decidir los límites entre puntuaciones en la reunión para la determinación de las calificaciones. 3. El tribunal tribunal funciona funciona con u n sistem sistem a «a petición», con lo que los distint distintos os centros escogen el día y la hora de la realización del examen. El comité de redacción garantiza la comparabilidad y la adecuación de los ítems. El nivel de dificultad dificultad está determinado po r el formato de los exámenes.

Puede deducirse de las respuestas a las preguntas 27 y 28 que la mayoría de los tribunales no llevan a cabo comprobaciones estadísticas sobre la equivalencia de sus exámenes. En general general confian confian en sus comités de redacción o supe rvisión para la administración de exámenes equivalentes y para identificar aquellas partes que puedan resultar demasiado fáciles o demasiado difíciles.

8.8. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: documentación Los únicos documentos que recibimos relacionados con la validez fueron un informe confidencial de UCLES, que discutía distintas formas de llevar a cabo estudios de validación, validación, y un docum ento de LCC LCCI producido en marzo de 1989, titulado Policy and Practice for Assessment: A Guide for Examinen and Assessors. Este folleto da detalles de la política y de la práctica que d ebería g uiar las actividades actividades de evaluación del Instituto. Describe lo que el Instituto hace y por qué lo hace. Un apartado del documento está dedicado a los asuntos de fiabilidad y validez.

8.9. Debate Vimos en el capítulo 3 que la mayoría de los tribunales emplean gran cantidad de tiempo y energía en la redacción de sus ítems, concentrándose en los problemas relacionados con la validez aparente y de contenido. Sin embargo, salvo una o dos

La v alid ació n

exámenes son válidos en la práctica. De la misma forma que muchos tribunales confían en que hay ítems que funcionan bien sin ningún ensayo previo, también parece que confían en q ue sus exámenes son válidos sin con firmación empírica alguna. Vale la pena citar los comentarios de Wo od sobre los pro cedimiento s de validación de los tribunales de exámenes del Reino Unido. Nótese que estos comentarios hacen referencia a los tribunales de exámenes del Reino Unido en general y no sólo a los de inglés como lengua extranjera. Los tribunales de exámenes han tenido suerte en no enzarzarse en una discusión sobre la validez. Al contrario de la fiabilidad, la validez no se presta a inform es sen sacionalistas. Sin em barg o, el nivel de olvido de la validez por parte de los centros es obvio una vez se centra la atención sobre el tema. Siempre q ue los centros argumentan qu e están m idiendo la capacidad de emitir juicios claros y razonado s, o la capacidad de llegar a conclusiones (ambos ejemplos del examen de economía de IGCSE), tienen la responsabilidad de al menos intentar una validación de las medidas [...] Los tribunales saben tan poco sobre lo que están evaluando que si, por ejemplo, se les dijera que los profesores están evaluando habilidades (inteligencia) y no aprovechamiento, los tribunales no estarían en posición de poderse defender. (Wood, 1991: 151)

De nuestro debate sobre el tema de la validez debe desprenderse que la validación de prueb as, y en particular la realización de m étod os externos de va lidación, es largo y difícil. Sin embargo, no podemos tomar la validez por descontado. D ebemo s esforz am os en com proba r que una prueb a realmente evalúa lo que se supon e q ue evalúa y lo hace de forma precisa. 8.10. Sumario

Tipos de validez

Procedimientos de evaluación

Validez interna Validez aparente

Cuestionarios y entrevistas a candidatos, adm inistradores y otros usuarios.

Validez de contenido

a) Com parar el contenido d e la prueb a con las especificaciones y el programa. b) Cuestionarios y entrevistas a «expertos», como profeso res, especialistas en la materia, especialistas en lingüística aplicada. c) Los expertos valoran los ítems y lo s textos de la pm eba de acuerdo con una lista detallada de criterios.

Bibliografia

Validez externa Validez concu rrente

a) Estudiar las correlac iones entre los resulta dos de los alumnos y los resultados en otras pruebas. b) Estudiar las correlaciones entre los resultado s de los alum nos y las valoraciones de los profesores. c) Estudiar las correlaciones entre los resultados de los alumnos y otras medidas de sus capacidades, como las valoraciones de los estudiantes o de los profesores.

Validez predictiva

a) Estudiar las correlacion es entre los resulta dos de los alum nos con los resultados de pruebas reali zadas poco después. b) Estudiar las correlaciones entre los resu ltados de los alu mn os y el éxito en los exám enes finales. c) Estudiar las correlaciones entre los resultados de los alumnos y otras medidas de sus capacidades obtenidas un p oco después, tales com o las valo raciones del profeso r experto en la materia o del profesor de idiomas. d) Estudiar las correlaciones entre los resultados de los alumnos y el éxito de la nivelación realizada.

Validez de constructo

a) Estudiar la correlación de cada parte de la prueba con las otras partes. b) Estudiar la correlación de cada parte de la prueba con la prueba en su totalidad. c) Estudiar la correlación de cada parte de la prueba con la prueba en su totalidad menos la parte ana lizada. d) Comparar los resultados de los alumnos con sus datos personales y características psicológicas. e) Estudios multimétodo-multirrasgo. f) Análisis factorial.

Bibliografia Alderson, J. C. (1 98 8b ). «N ew Procedures for Validating Proficiency Tests of ESP? Theory and Practice.» Language Testing, S (2), pigs. 220-232. Alderson, J. C. (1990). «Testing Reading Comprehension Skills (Part Two): Getting Students to Talk about Taking a Reading Test (A Pilot Study).» Reading in a Foreign Language, 7 (1), pigs. 465-502. Alderson, J. C. ( 1 99 1 ). « D is-spo rting Life.» En Alderson J. C. y B. North, (eds.), Language Testing in the 1990s. M ac m illa n, L on dr es .


Alderson, J. C. (1993). «Judgements in Language Testing.» En D. Douglas, y C. Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia. Alderson, J. C. y Y. Lukmani (1 98 9). «Co gn ition and Levels of Comp rehension as E m bo di ed in T est Q u es tio n s. » Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —27 0. Alderson, J. C. y B. North (eds.), (1991). Language Testing in the 1990s. Macmillan, Londres. A ld er so n, J. C , D. W all y C. M . C lap ha m ( 1 9 8 6 ) . An Evaluation of the National Certificate in English. Centre for Research in Language Education, Universidad de Lancaster. American Education Research Association, American Psychological Association, y N atio na l C ou nc il on M ea sur em en t in Ed uca tion (1 9 8 5 ). Standard for Educational and Psychological Testing. Am eric an Ps yc ho log ical A ssoc iatio n, Inc., W ash ing ton , DC. B ac hm an , L. F. ( 1 9 9 0 ) . Fundamental Considerations in Language Testing. O x fo rd U niv er sity Press, Oxford. Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability Analysis as a Basis for Examining Content and Construct Comparability in Two EFL Proficiency Test Batteries.» Language Testing, 5, págs. 128—160. Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into the Construct Validity o f Six Tests o f Listening and R ea din g.» En A. S. Palmer, P. J. M. Groot y G. A. Trosper (eds.), The Construct Validation of Tests of Communicative Competence. TESO L, W as h in gt o n , DC. Bachman, L. F. y A. S. Palmer (19 8 2) . « Th e Construct Validation o f Som e Com ponen ts o f Co m m un ica tive Pro ficie nc y.» TESOL Quarterly, 16 ( 4 ), p ig s. 449^4-6 5. Buck, G. (1 9 8 9 ). «W ritten T ests o f Pro nun ciation : D o Th ey W or k? » English Language Teaching Journal, 4 1 , p ig s . 5 0 - 5 6 . Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by the Mu ltitra it-M ultim eth od M atr ix.» Psychological Bulletin, 56 , p ig s. 8 1 -1 0 5 . Ca rro ll, B. J. ( 1 9 8 0 ). Testing Communicative Performance. Pe rg am on , L on dr es . Carroll, B. J. (1 98 5) . «S eco nd L anguage Performance Testing o f University and Professional Contexts.» En P. C. Hauptman, R. LeBlanc y M. B. Wesche (eds.), Second Language Performance Testing. U n iv ers it y o f O ttaw a Pr es s, Otta wa. C la pham , C. M. ( 1 9 9 2 ) . The Effect of Academic Discipline on Reading Test Performance. Contribución presentada en el Language Testing Research Colloquium , Princeton, NJ. Coh en , A. D. (1 9 8 4 ). «O n Ta kin g Test s: W hat the Stud ents R e po rt .» Language Testing, 1 (1). pigs. 7 0-81. Cr ipe r, C. y A. Da vi es ( 1 9 8 8 ). ELTS Validation Project Report, ELTS Re se ar ch R ep o rt 1 (I) . The British Council y University o f Cam bridge Local Examination Syndicate, L o n d r e s y C a m b r i d ge . Ebe l, R. L. y D. A. Fr is bi e ( 1 9 9 1 ) . Essentials of Educational Measurement. 5* ed ic ió n , Prentice-Hall, Englewood Cliffs, NJ. Fa er ch , C. y G. K as per ( 1 9 8 7 ) . Introspection in Second Language Research. M u ltil in gu al Matters, Clevedon. G ro n lu n d, N . E. ( 1 9 8 5 ) . Measurement and Evaluation in Teaching. M ac m illa n , N u ev a Yo rk. Grotjahn, R. (1986). «Test validation and cognitive psychology: some m et ho do lo gic al con sid er ati on s.» Language Testing, 3 (2 ), p ig s. 15 9—185. H en nin g, G. (1 9 8 7 ). A Guide to Language Testing. N ew bu ry H ou se, Ca m br idg e, Ma ss.

Bibliografía

K er lin ge r, F. N . ( 1 9 7 3 ) . Foundations of Behavioral Research. H ol t, R ine ha rt an d W in sto n, Nueva York. Morrow, K. (1979). «Communicative Language Testing: Revolution or Evolution?» En C. J . B rum fi t y K . Jo h n so n (e d s. ), The Communicative Approach to Language Teaching. O xford U niversity Press, O xford. M o r r o w , K. ( 1 9 8 6 ) . « T h e E v a lu a ti o n o f T es ts o f C o m m u n i c a ti v e P e rf o r m a n c e . » En M . P or ta l ( e d .) , Innovations in Language Testing. N FE R -N els on , W in d so r, Ber ks. Stevenson, D. K. (1985). «Authenticity, Validity and a Tea Party.» Language Testing, 2 (1 ), pag s. 41 —47. Swain, M. (1993). «Second Language Testing and Second Language Acquisition: Is Th ere a Co nflic t w ith Tr ad ition al Psy ch om etr ics? » Language Testing, 10 (2 ), p ag s. 193-207. T h o rn dik e, R. L. y E. P. H a g en ( 1 9 8 6 ) . Measurement and Evaluation in Psychology and Education. Macmillan, Nueva York. Wall, D., C. M. Clapham y J. C. Alderson (1 99 4) . «Ev aluating a Placement Te st.» Language Testing, 11 ( 3 ), p a g s. 3 2 1 —3 4 3 . Weir, C. J. (1 98 3) . «Iden tifying the Language Problems o f Overseas Students in Tertiary Education in the United K ingd om .» Tesis doctoral. U niversidad de Londres. W o o d , R. ( 1 9 9 1 ) . Assessment and Testing: A survey of Research. C am b ri d ge U n iv er sit y Pre ss, Cambridge.

9

Los informes posteriores a la prueba

En este capítulo se discute por q ué es importante escribir inform es una vez terminada y administrada la prueba. Los informes podrán ir dirigidos a distinto tipo de público y las características de cada informe, según el público a quien va dirigido, se describen con detalle.

9.1. La importancia de los informes posteriores a la prueba Las pruebas tienen importantes consecuencias para los can didatos y para los que utilizan sus resultados. Es pues responsabilidad de los que elaboran las pruebas el facilitar toda la información que puedan sobre la validez, la fiabilidad y el significado de las pruebas y de sus resultados. Aspectos como el de la responsabilidad ante el público empiezan a discutirse en los círculos de evaluación, aunque todavía no se han establecido o acordado criterios específicos para las pruebas de idiomas por parte de los responsables de la investigación y elaboración de las mismas. Sin embargo, está claro que las presiones para conseguir tales criterios y para obtener información sobre los instrumentos de los redactores de pruebas aumentarán (véase capítulo 11). Además, se dedica mucho tiempo y energía a la preparación de pruebas de idiomas, y puede aprenderse mucho de todos los estadios del proceso de evaluación. Es por tanto importante que las instituciones tengan archivos de sus decisiones, sus p rocedimien tos, los anáfisis qu e llevan a cabo sobre los resultados de las pruebas y los comentarios que reciben, y que pasen la información al público que consideren apropiado. El público m ás ob vio lo constituyen las personas qu e trabajan en la mism a institución: los que tienen el encargo de elaborar las futuras versiones de las pruebas y de coordinar las actividades relacionadas con la elaboración de prue bas (ensayos previos, administración, corrección, etc.) Estas personas necesitarán información detallada que les ayude a tomar las decisiones adecuadas sobre la práctica de la institución en el futuro. Otro público obvio son los profesores que han preparado a los candidatos del año en curso y que prepararán a otros alumnos en un futuro. Estas personas no necesitan tanto informació n técnica com o resúmen es de có mo lo han hecho sus alumnos y con sejos sobre cóm o preparar al próx imo grupo de forma m ás eficaz.

L o s i n f o r m e s p o s te r io r e s a l a p r u e b a p a r a l a p r o p i a i n s t i t u c i ó n

fesionales del mundo de la evaluación y otros campos relacionados, que están interesados en saber cóm o asumen los retos clásicos planteados por la validez, la fiabilidad y las cuestiones prácticas los distintos tribunales de exámenes. Cada institución debe decidir por sí m isma el público al cual quiere dirigirse y considerar a continuación la clase de información que puede resultar más útil para este público. Sin embargo, uno de los asuntos más importantes es la responsabilidad ante el público, por eso debería publicarse una información mínima para todas las partes interesadas. En el apartado que sigue discutiremos la clase de información que interesa a cada tipo de público y revisaremos los informes posteriores a la prueba que hem os recibido de distintos tribunales de exámenes, para ver si lo hacen y cómo lo hacen.

9.2. Los informes posteriores a la prueba para la propia institución Un informe posterior a la prueba elaborado para la propia institución cumple dos funciones: 1. Sirve como inform e histórico de la prueba, mostrando cóm o funcionaron en la práctica los diferentes aspectos de la prueba. 2. Sirve como guía para la elaboración de futuras pruebas, con recomendaciones para mejorar los aspectos de la prueba actual que no funcionaron bien. Hay varios tipos de información que la institución necesita recoger y analizar para decidir si la prueba resultó satisfactoria. El tribunal de exámenes debería informar sobre las estadísticas relevantes y sobre su interpretación de las cifras. También debería resumir lo que se ha aprendido a partir del análisis de las notas tomadas durante puntos clave en el proceso, examinando los comentarios recogidos de los participantes importantes a lo largo del proceso y del estudio de la actuación de los candidatos. 9.2.1. Info rm ac ión estadística

Puede que no sea posible para una institución recoger toda la información que quisiera de tod os sus cand idatos, sobre todo si hay un gran número de ellos, pero debería hacerse un esfuerzo para recoger datos de al menos una muestra de la població n. Es siempre aconsejable consultar a un especialista en estadística para la educación con el fin de determinar la med ida de una m uestra adecuada para una pob lación en concreto, al igual que para discutir el me jor méto do de escoger la muestra. Los datos más importantes para recoger son los resultados de cada ítem de corrección objetiva y los puntos otorgados por cada parte de corrección subjetiva. Con estos datos podrán reconstruirse de forma precisa los resultados totales de las secciones y del total de la prueba.


Es también importante recopilar las puntuaciones otorgadas por todos los correctores que participen en u n estudio d e fiabilidad entre correctores del tipo descrito en el capítulo 6. Los análisis sobre los q ue se debería inform ar son los siguientes: 1. Estadísticas descriptivas para toda la prueb a y para cada una de su s partes: histograma, media, moda, mediana, rango y desviación típica. 2. Análisis de ítems para cada ítem de corrección objetiva: coeficiente de dificultad e índice de discriminación. 3. Correlaciones entre las distintas partes de la prueb a y entre cada parte y el total de la prueba menos ésta. 4. Fiabilidad de cada sección de corrección objetiva. 5. Fiabilidad de la corrección de cada sección de corrección subjetiva. Los detalles de cómo llevar a cabo los primeros cuatro análisis se encuentran en el capítulo 4, y los detalles sobre el quinto están en el capítulo 6. Los resultados deberían indicar si las diferentes partes de la prueba se comportan com o debieran y si no, dónde parecen encontrarse los problemas. Esta información estadística puede combinarse con la clase de información descrita más adelante para determinar si las partes de la prueba que plantean problemas tenían defectos intrínsecos o si los problemas se debieron a una preparación inadecuada de los candidatos o a una prueba mal administrada que produ jo resultados inesperados. Deberían darse explicaciones sobre cualquier problema detectado, junto con las recomendaciones sobre cóm o evitar tales problem as en el futuro. 9.2.2. Resultados de las observaciones

Debería haber observadores p resentes durante la administración de la prueba, el programa de formación para los examinadores y las sesiones de corrección. Los observadores deberían tener una lista de los aspectos específicos q ue han de tener en cuenta durante la observación de cada procedimien to, aspectos que deberían estar claramente impresos en un documento de observación. Las siguientes tres preguntas podrían formar parte de un docum ento de observación durante la admin istración de una prueba: 1. El administrador comprueba la identidad de los candidatos.

SÍ

NO

SÍ

NO

SÍ

NO

Problemas: _____________________________________ 2. El administrador lee las instrucciones dos veces. Problemas: _____________________________________ 3. Todos los candidatos pueden oír al administrador

Los informe s posteriores

a

la prueba para la propia institución

que pud ieron haber influido en los resultados de los candidatos tanto favorable como negativamente. Ejemplos de los problemas que pueden afectar a los resultados son: El administrador no evita que los candidatos hablen durante la prueba. (Los candidatos p ueden intercambiar información y /o impedir la concentración de los que se encuentran a su alrededor.) El profesor que está dictando un texto a los candidatos pronu ncia mal varias palabras. (Los candidatos no entienden el sentido del texto y por tanto no comprenden otras palabras que han sido bien pronunciadas.) Después de la sesión de formación, el examinador jefe no envía a los examinadores una versión revisada de las escalas de puntuación para la expresión escrita. (Los examina dores terminan usando la escala original, que contiene conceptos «d esd ibu jados», una redacción poco clara, etc., resultando así difícil una corrección consistente.) Durante la corrección de la expresión escrita se permite a los examinadores que escriban sus comentarios encima de los ejercicios escritos de los candidatos. (Los examinadores que deben hacer una segunda corrección se sienten influidos por los comentarios de los primeros correctores.) 9.2.3. Resultados de los comentarios posteriores

Deberían recogerse los comen tarios de los administradores, los candidatos y los examinadores de forma regular, utilizando cuestionarios sobre aspectos específicos de la prueba. Por ejemplo: 1. ¿Comprendió las instrucciones de la tarea 1 de expresión escrita?

SI

NO

2. ¿Se requería el número de palabras adecuado?

SÍ

NO

Deberían incluirse resúmenes de esta información en el informe junto con recomendaciones sobre có mo mejorar el proceso en el futuro. Ejemplos del tipo de ayuda que puede obtenerse con esta información son los siguientes: Las instrucciones dadas a los administradores decían que la prueba d ebía durar 30 minutos y las instrucciones dadas a los candidatos decían que duraría 35 minuto s. (Hub o con fusión durante los últimos cinco minutos de la prueba puesto que tanto los administradores como los candidatos intentaron decidir qué instrucciones eran las correctas.) El redactor de la prueba pretendía cubrir todo el libro de texto, pero la mayoría de las clases que se presentaron a la prueba no pasaron de la penúltima lección. (Esto no invalidaría la prueba, p ero explicaría la mala actuación de los candidatos en alguno de los ítems.) A los exam inadores no les g ustó la regla que decía que los candidatos que escribieran al menos seis palabras obtendrían un 1 en la escala de puntuación de 5 pinitos. (Esto podría explicar por qué había más puntuaciones de 0 de lo esperado.)

T Los informes posteriores a la prueba

9.2.4. Análisis de los ejercicios escritos de los candidatos Esto pueden llevarlo a cabo como una operación independiente los jefes de equipo o el examinador jefe, o puede formar parte de la recogida de comentarios por parte de los examinadores. El objetivo del análisis es encontrar el tipo de problemas que los candidatos tuvieron con ciertos ítems o tareas. Si, por ejemplo, un análisis de ítems (véase el capítulo 4) revela que un ítem de lectura con respuesta abierta en particular funciona mal, vale la pena repasar los exámenes de los candidatos para ver si hay algún esquema o patrón en las respuestas incorrectas que dé información sobre la fuente del problema. No es raro que durante el análisis de los ejercicios escritos de los candidatos se descubran problemas en un ítem o en una tarea que hayan escapado a la atención de redactores y supervisores. Ejemplos de problemas de este tipo son: La tarea de expresión escrita pide a los candidatos que escriban un conjunto de normas. Los que escriben buenas normas utilizan, como es natural, una sintaxis simple, por ejemplo: «Seca lo mojado». Por desgracia, la escala de puntuación no permite que se otorgue una puntuación alta a no ser que se hayan utilizado frases complejas. La consecuencia es que incluso los mejores candidatos obtienen puntuaciones bajas. Muchos candidatos responden de form a incorrecta a un ítem que sólo requ iere un cálculo aritmético. El hecho de que muchos den la misma respuesta incorrecta lleva al analista a darse cuenta de que el texto original contiene una frase ambigua, que puede interpretarse legítimamente de forma no prevista por el redactor de la prueba. Un análisis de los ejercicios escritos también revelará los problemas de los candidatos que simplemente no tienen la competencia requerida para una buena actuación. En estos casos puede que la culpa no sea de la prueba.

9.2.5. Análisis de las características del candidato y detección de parcialidad A la institución le puede interesar en recoger datos sobre los candidatos para poder comparar las actuaciones de distintos grupos de personas. Este tipo de comparación, que puede hacerse por sexo, región, lengua materna, edad, etc., a veces revela parcialidad en algunos ítems o tareas. Por ejemplo, el análisis puede revelar que los candidatos jóvenes tienen más problemas que otros en secciones de la prueba q ue presupo nen conocimientos de cultura general más allá de su nivel de experiencia. De forma similar, se puede descubrir que los candidatos de una lengua en especial tienden a tener más problemas con ciertos tipos de ítems que otros candidatos de otras lenguas. Si la organización de la prueba hace descubrimientos de este tipo, deberá decidir si usar los mismos tipos de prueba o cambiarlos para adaptarse a los candidatos. Estas decisiones dependerán de muchos factores. Por ejemplo, si un centro dice que una prueba es apropiada para todas las edades, puede que tenga que

Informes posteriores a la prueba para profesores...

riamente las personas m ayores. Sin embargo , si se ha prom ocionad o siempre una prueba co mo apropiada para personas mayores, el hecho de que los candidatos más jóvenes la realicen peor no debería plantear un problema. En el caso de un cierto tipo de ítem que demuestra ser más difícil para los candidatos de una lengua en particular que para el resto, la organización debería considerar si el tipo de ítem en concreto es la única forma de evaluar un cierto tipo de conocimiento y si este conocimiento es una característica indispensable de la prueba. Si esto es así, los redactores y el grupo que ha tenido problemas deberá aceptar que la prueba es «justa» y que este grupo tiene, necesariamente, más problemas. Sin embargo , también podría darse el caso de que se encontrara otra forma de evaluar el mismo tipo de conocimiento sin perjudicar a un grupo con respecto a los demás.

9.2.6. Comparación con estadísticas de versiones previas de la prueba Es importante para la institución saber cómo se relaciona una prueba con las versiones anteriores. ¿Resultó ser de una dificultad parecida? ¿Era fiable en los años anteriores? ¿Se aplicaron las mismas notas para aprobar? ¿La distribución de notas fue parecida? Aunque los evaluadores intenten producir pruebas q ue son de dificultad equivalente, y puedan organizar los ensayos previos, el análisis y la edición de pruebas de forma que esto se garantice, cualquiera de los factores mencionad os en los apartados anteriores, u otros que son ajenos a la pmeba (problemas políticos, p or ejemp lo) pueden prod ucir resultados imprevistos.

9.3. Informes posteriores a la prueba para profesores que preparan a sus alumnos para la misma El segundo tipo de público que m ás claramente se beneficia de los informes po steriores a la prueba lo constituyen los profesores que han preparado alumnos para la prueba que se ha administrado y que prepararán nuevos alumnos para futuras versiones. Tal com o se dijo en el apartado 1, estos profesores no n ecesitan tanto información técnica como resúmenes de las clases de problemas que los candidatos tuvieron en las distintas partes de la prueba y recomendaciones sobre cómo preparar a los candidatos de forma más eficaz en el futuro. Véase que aunque nos referimos a profesores en este apartado, no hay motivo para que esta información no esté también a disposición de los alumnos, de forma directa o a través de sus profesores. Los profesores q ue también son responsables de la administración de la pmeba querrán saber qué problemas relativos a dicha administración afectaron a la actuación de los candidatos, y si ellos (y sus compañeros) necesitan prestar más atención a ciertos aspectos relativos a la administración. La clase de información que desearán poseer los profesores o que necesitarán


9 . 3 . 1.

Información estadística referente a la población de la prueba y a su actuación en la misma y en cada una de sus secciones

Este tipo de información no es vital para los profesores o los alumnos que se preparan para la prueba, pero es útil porque dará a los alum nos una m ejor idea de cóm o se desenvuelve el resto de los candidatos y de cóm o pued e compararse su actuación con la de los demás. La información que puede resultar interesante para cada prueba sería la siguiente: ¿Cuántos candidatos se presentaron a la prueba o a cada nivel de la misma? ¿Qué características tenían —sexo, nacionalidad, lengua materna, e dad, etc.? ¿Cómo resultó la distribución d e las puntuaciones —cuántos ap robados, notables y sobresalientes se dieron para cada prueba o para cada nivel? ¿Cuáles fueron las notas medias y las desviaciones típicas en cada sección de la prueba? ¿Cómo se diferencian estas cifras de las del año pasad o? La forma más simple de dar este tipo de información es mediante tablas, con breves comentarios que ayuden a los lectores a interpretar lo que están leyendo. Estos comentarios deberían responder a preguntas como éstas: ¿Por qué la nota para aprobar esta versión es más alta o más baja que para la versión anterior? ¿Por qué no ha variado la proporción de candidatos que han obtenido una nota en concreto aunque la prueba parece que ha sido más difícil que la versión anterior?

9.3.2. Clave de respuestas para los ítems de corrección objetiva y escalas de valoración para las secciones de corrección subjetiva No siempre resulta obvio para los profesores cóm o deben responderse las preguntas de un examen ni tampoco cóm o se puntúan destrezas como la expresión oral o la expresión escrita. Puesto que una forma muy corriente de preparar a los alumnos para una prueba es utilizando exámenes antiguos, es importante que los profesores sepan cuáles de las respuestas propuestas por sus alumnos hubieran sido consideradas «aceptables» por el tribunal de exámenes. Resulta también útil para los tribunales de exám enes reprodu cir muestras de expresión escrita que representen distintos puntos en la escala de valoración, para que los alumnos, al igual que los profesores, puedan discutir lo que hace que un ejercicio escrito sea mejor que otro.

9.3.3. Debate de cada sección de la prueba po r parte de los evaluadores: lo que se evaluaba, problemas típicos y recomendaciones para prepararse de forma más eficaz en el fu tu ro

Informe s posteriores a la prueba para profesores...

cia para profesores y para alumnos, y debería constituir el cuerpo del informe. Los evaluadores deberían, primero, reflejar con claridad lo que se evaluaba en cada sección de la prueba. A continuación, deberían indicar cóm o respon dieron los candidatos a cada sección y mencionar el tipo de problema que resultó más difícil para la población en general o para ciertos segmentos de la población. Es importante entrar en detalle en este punto, pero también es importante que emerjan puntos generales de entre los detalles. Si los evaluadores pueden ver que los problemas que tuvieron los candidato s con u n ítem en especial están relacionados con los pr oblemas que tuvieron con otros ítems, deberían decirlo claramente, en parte porque los profesores tal vez no vean las conexiones (si no tienen acceso a las especificaciones para cada ítem, puede que no sean conscientes de lo que se está evalu and o), pero también porq ue de esta forma pueden concentrarse en los aspectos espec íficos qu e provoc aron las dificultades en esta ocasión y no en las categorías lingüísticas más generales que pueden aparecer otra vez en versiones futuras de la prueba. Finalmente, los evaluadores deberían hacer recomendaciones sobre el tipo de contenidos lingüísticos y las destrezas en las que deberían hacer hincapié los candidatos en el futuro, o sob re técnicas que pueden resultar útiles para los candidatos con el fin de mejorar su actuación.

9.3.4. Reconocimiento de problemas en la prueba Es importante que las instituciones que han descubierto problemas en sus pruebas lo reconozcan. Esto ocurre a menudo tras el análisis de ítems, y los tipos de problema que pueden surgir incluyen instrucciones ambiguas, inclusión de contenidos o destrezas que no están en el programa, etc. El hecho de que un organismo responsable de evaluación haya cometido un error no dará mala imp resión a los pro fesores o a los alumno s si los evaluadores dejan claro que al final se trató a los candidatos de manera justa.

9.3.5. Recomendaciones a los profesores sobre la administración de la prueba El término «administración» cubre una amplia gama de actividades, desde la matriculación de los can didatos hasta la entrega de los resultados finales, pero las actividades en las que más fácilmente se implicará al profesorado son las que tienen lugar mientras los candidatos están realizando la prueba. Algunos problemas que suceden habitualmente durante las pruebas de comprensión oral son: una mala colocación del equipo de sonido, una acústica deficiente en la sala de examen o interferencias causadas por ruido en los pasillos o en salas cercanas. Tam bién pue den ocurrir problemas durante las pruebas de expresión oral, en especial (aunque no exclusivamente) si las pruebas implican a más de un candidato al mismo tiempo. Algunos problemas surgen porque los profesores no se han preparado bien: puede que no hayan informado suficientemente a los


parejas compatibles. Sin emb argo, pueden surgir otros problem as porque los profesores pierdan el control del tiempo, den a los candidatos ayuda excesiva, no observen las reglas de seguridad, etc. A veces, por desgracia, los profesores no son conscientes de los procedim ientos correctos, sobre todo si no han recibido formación en esta área. El inform e po sterior a la prueba p uede ser una m anera efectiva de recordar a los profesores estos problemas y lo que deben hacer para evitarlos en el futuro.

9.3.6. Inform ación sobre futuros cambios en la prueba o en los procedim ientos que deben seguirse Los organismos responsables de evaluación pueden tener buenas razones para cambiar la forma general de sus pruebas, ajustar la ponderación o modificar el contenido lingüístico o de destrezas. El inform e posterio r a la prueba es el lugar lógico para notificar a los profesores los cam bios qu e tendrán lugar puesto que es el espacio natural en el que los profesores buscarán inform ación cuando preparen a nuevos alumnos para futuras versiones de la prueba.

9.4. Informes posteriores a la prueba para el resto del público Existen al m eno s do s tipos d e público para los inform es posteriores a la prueba: los responsables de seleccionar una pru eba o decidir si aceptar sus resultados, y otros profesionales que quieren comprender cómo aplican en la práctica ciertas instituciones los principios de la evaluación. Los administradores a los que nos referimos pueden trabajar en distintos lugares: escuelas, centros de estudios superiores, de negocios o industriales. Pueden tener a su cargo la selección de pruebas con las que se prepararán sus alumnos o empleados, o pueden tener que aceptar o rechazar a un alumno según sus calificaciones en la prueba. En amb os casos, les interesarán los m ismos tipos de preguntas: ¿Esta prueba cubre los contenidos lingüísticos y de destrezas que nos interesan? ¿Es adecuada para el tipo de alumno o empleado que tenemos? ¿Cuáles fueron los resultados de la prueba? ¿Qué relación existe entre los resultados de nuestros alumnos y los del resto de la población? ¿Es una prue ba válida? ¿Es fiable? Los otros profesionales a los que nos referimos pueden ser profesores, evaluadores o investigadores que trabajan en educación o en campos relacionados. Tendrán distintos m otivos para querer explorar más allá de la superficie de la prueba que les interesa, pero una razón relativamente frecuente es que buscan modelos para organizar su propio sistema de evaluación. Los tipos de pregunta

Informe sobre los tribunales de exámenes de inglés...

¿Qué m étod os se han utilizado para validar las pruebas? ¿Cuáles fueron los resultados de los estudios de validación? ¿Qué m étod os se han utilizado para determinar la fiabilidad de la prueba? ¿Cuáles fueron lo s resultados de los e studios de fiabilidad? ¿Qué investigación se ha llevado a cabo sobre esta prueba? En algunos países, las instituciones que producen pruebas para su uso extemo deben facilitar un manual que contiene información sobre el objetivo de la prueba, la población a la que va dirigida, su elaboración y desarrollo, los estudios de validez y de fiabilidad, y la investigación en curso. Aquellos que están interesados en averiguar si una prueba es apropiada para sus propósitos o en saber lo q ue sign ifican los resultados, consultan primero el manual. El sistema de evaluación del Reino Unido no utiliza manuales de forma tan extensa como otros sistemas (en reabdad los manuales son prácticamente inexistentes), por lo que aquellos que necesitan información sobre la validez y la fiabilidad de una prueba deben acudir a otra parte. Un posible lugar puede ser un informe posterior a la prueba. Este informe no debería ser tan detallado co mo los inform es elaborado s para uso intem o, y tam poco debería analizar y evaluar las actuaciones de los candidatos de la misma manera que lo hacen los informes para profesores. No debería ser excesivamente largo, puesto que su principal objetivo es el de informar a los lectores sobre hechos, no servir de prueba para tomar decisiones o como material de formación de profesores o alumnos.

9.5. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario PR EG U N TA 4 4 : ¿Los examinadores jefes redactan informes? Si es así, ¿están a disposición de: a) los profesores, b) los alumnos, c) sólo unos pocos? En esta pregunta hemos mencionado a los examinadores jefes porque asumimos que ellos eran las personas que deberían recoger toda la información a la que nos hemos referido en este capítulo como «informes posteriores a la prueba». De los doce tribunales que respondieron, tres dijeron que sólo redactaban informes para uso intemo. Un tribunal respondió q ue empezaría a producir un informe del examinador jefe el año sigu iente, y qu e pretendía distribuirlo a lo s centros exam inad ores. Estos informes estarían a disposición de los alum nos de los centros educativos. Los ocho tribunales restantes respondieron que ya producían informes del examinador jefe que distribuían de forma habitual o a veces enviaban a los profesores; sin embargo, uno de estos tribunales pareció referirse a los informes que p rodu cen para los exámen es de enseñanza secundaria de otras asignaturas, no los exámenes de inglés como lengua extranjera. Este tribunal nos mandó una copia de sus informes del examen de nivel A para inglés y artes aplicadas; aunque la información que contenía era muy extensa y probab lemente m uy útil para el público a que iba dirigida, no era de

L o s informes posteriores a ¡ a prueba

9.6. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: documentación 9.6.1. Informes posteriores del pro pio centro

a

la prueba para el uso

Por desgracia no recibimos informes intemos de ningún tribunal de inglés como lengua extranjera, por lo que n o p odem os comentar las funciones que cumplen tales inform es ni la forma que tienen. N o sabem os si los tribunales tienen archivos de las propiedades estadísticas de sus pruebas, del seguimiento de sus distintos procedimientos, de los comentarios que reciben, de los análisis de los ejercicios escritos de los candidatos, de los análisis para detectar distintas actuaciones según los distintos grupos de candidatos o de la parcialidad de la prueba. Sabemos que alguno de estos tribunales guarda la información sobre la actuación de los candidatos en años anteriores porq ué hem os visto esta información en los informes para profesores; sin embargo, sabemos poco más de los datos que los tribunales analizan para su uso intemo o de cómo reaccionan a los resultados de sus análisis.

9.6.2. Informes posteriores a la prueba para profesores que preparan a alumnos Tres tribunales nos enviaron informes p osteriores a los exámenes que adm inistraron en 1989 o 1990: El JMB nos envió una copia de sus Examiners' Reports 1990, que cubría las versiones del UETESON de marzo y noviembre de 1990. La Delegación de Oxford nos mandó su Armual Rcport, que cubría las versiones de n ov iembre de 19 89 y de m arzo y mayo 1990 de la Oxford Examination in English as a Foreign Language. El Instituto de Exámenes de Pitman nos mandó su Examinations Report 1989, que incluía sus exámenes de English for Speakers of Other Languages para aquel año. Los informes de JMB y de la Delegación de Oxford se parecían en que cada tribunal facilitaba comentarios detallados sobre los exámenes en cuestión. Hemos seleccionado varios ejemplos de cada uno de estos tribunales para ilustrar los puntos que queremos señalar (ver más adelante). El inform e de Pitman sobre su exam en de ESOL no es muy detallado, pro bablemente porque es sólo uno de las dos docenas de exámenes sobre los que informa en el mismo libro. No recibimos copias de los informes de ningún otro tribunal, por lo que no podemos comentar sobre su naturaleza o eficacia. El propósito de los siguientes apartados es el de revisar la clase de información que puede resultar útil para profesores que preparan a sus alumnos para las pruebas y presentar fragmentos de los informes posteriores a la prueba que hemos recibido para ver cómo intentan los distintos tribunales dar respuesta a las necesidades de los profesores.


INFORMACIÓN ESTADÍSTICA En el apartado 9.2 afirmamos que a los profesores les interesarían cuatro tipos de información estadística. Listamos a continuación las preguntas que hicimos junto co n la in fo rm ación que re cibim os de JMB o de la Delegación de Oxford. 1. ¿Cuántos can didatos se presen taron para la prue ba o para cada nivel de la prueba? ¿Cuáles eran sus características: sexo, nacionalidad, lengua materna, edad, etc.? La Delegación de Oxford da esta información de la forma siguiente: T abla 9 .1 .C andidatura

para los exámenes de oxford por añ o t país

( página 3 )

Los Exámenes de Oxford de inglés como lengua extranjera Superior 2630 1988 3073 1989

Preliminar 1988 6538 1989 6988

Candidatura por países

Argelia Argentina Bélgica Brasil Chile Etc.

Superior 1988 1989 38 26 25 57 0 2 435 579 36 2

Preliminar 1989 1988 105 106 268 277 1 0 219 138 0 95

Aquí podemos ver que hay más candidatos para el nivel preliminar que para el superior, y que las cifras para cada prueba aumentaron unos 400 candidatos a lo largo del año analizado. También podemos ver en qué partes del mundo son m ás populares estos exámenes y si los candidatos aumentan o disminuyen. Estas cifras darán a los profesores y a sus alumnos una idea de si la prueba es conocida o importante en su propia parte del mundo, lo que puede ayudar a decidir si quieren adoptarla o no. Los tribunales no facilitaron más detalles sobre sus candidatos. 2. ¿Cuál fue la distrib ució n de resultados? ¿Cuántos apro bad os, notab les y sobresalientes hubo en cada examen o en cada nivel del examen? Ninguno de los informes facilitó el número de candidatos que se presentaron a cada nivel; sin embargo, el informe de JMV presentaba el porcentaje de candidatos que obtuvo una puntuación en concreto para cada una de las destrezas evaluadas (página 2).

Los informes posteriores a l a prueba

Esta inform ación pued e encontrarse en el inform e de JMB, justo antes de la discusión de cada sección d e la prueba. Está ilustrado en el siguiente fragmento: Apartado 3. Lectura (Nota máxima: 30; media: 16,0 3; desviación típica: 5,5 2.) Los dos textos produ jeron una buena dispersión de resultados. Los alumnos flojos y medianos tendieron a sacar buenos resultados en las preguntas basadas en hechos pero respondieron mal a las preguntas que requerían una comprensión m ás amplia del texto. Los dos párrafos de resumen sólo los hicieron bien los mejores candidatos... (Fragmento de un análisis del apartado 3 del examen del UETESOL, marzo de 1990, página 5)

La idea d e presentar la inform ación estadística al principio del debate sobre la sección de la prueba correspondiente es muy buena, puesto que ayuda a los lectores a ver la relación que existe entre las cifras y la información que sigue. 4.

¿Cóm o se distinguen estas cifras de las del año anterior?

El informe de la Delegación de Oxford presenta tablas con el porcentaje de aprobados de las cuatro versiones distintas de dos exámenes (página 2). Lo que revela la tabla es que la versión correspondiente a marzo de 1990 de los dos exámenes tuvo un porcentaje de aprobado s mucho m ás bajo que nin guna de las otras tres versiones. Estas cifras podrían significar que los exá menes de marzo de 1990 fueron más «difíciles» que otras versiones. Una revelación de este tipo podría resultar inquietante para los profesores que presentaron sus candidatos a la versión de marzo de 1990: sin embargo, el centro, en su introducción al informe, afirma que el bajo porcentaje de apro bados puede deberse al tipo de población que se presentó a la prueba y no a la prueba en sí. Creemos que facilitar este tipo de información a los profe sores es positivo; sin embargo, es también importante saber qué análisis rea lizó el tribunal para determinar si fue la población y no las preguntas lo que hizo la prueba difícil.

LAS PLANTILLAS DE CORRECCIÓN PARA LOS ÍTEMS DE CORRECCIÓN OBJETIVA Y LAS E S C A L A S DE VALORACIÓN PARA LAS SECCIONES DE CORRECCIÓN SUBJETIVA La segunda fu nción de e stos inform es es la de facilitar la respuesta correcta y las escalas de valoración para la expresión escrita y la expresión oral. El informe de JMB fue el único que recibimos que facilitaba las plantillas de corrección utili zadas por los examinadores, junto con las modificaciones que se habían incluido durante las sesiones de unificación de criterios. Ninguno de los informes que recibimos facilitó la escala de valoración para la expresión escrita. Sabemos que al m eno s un tribunal, la Delegación de Oxford,


cicios escritos y comentarios del exam inador aparecidos en otra publicación. Sin emb argo, sería útil dar la escala de valoración en el inform e posterior a la prueba para que toda la inform ación esté disponible cuand o los profesores lean los comentarios sobre los principales problemas de los candidatos.

EL DEBATE DE LOS EVALUADORES DE CADA SECCIÓN DE LA PRUEBA: QUÉ SE ESTABA EVALUANDO, PROBLEMAS MÁS CORRIENTES Y RECOMENDACIONES PARA PREPARAR A LOS CANDIDATOS DE FORMA MÁS EFICAZ EN EL FUTURO La tercera función de un informe es ayudar a los profesores y a los alumnos a comprender lo que se está evaluando en cada sección de la prueba. El informe de JMB da varias explicaciones de este tipo: por ejemplo, esta es la descripción de lo qu e se pid e en la parte de expresión escrita: En la primera pregunta de esta parte, los examinadores buscan primordialmente un dominio preciso de las estructuras sintácticas simples. Para obtener un aprobado los candidatos deben mostrar un dominio funcional de las formas verbales, las expresiones con preposición, etc., que requiere el enunciado. En la segunda pregunta, el énfasis está en elementos más generales como, por ejemplo, la organización, la coherencia, el desarrollo de las ideas, del argumento, etc., aunque la lengua constituye también un factor importante... (página 3).

Resulta especialmente útil que el tribunal explique el propósito de los nuevos tip os d e ítem. JMB facilita la explicación de una tarea de corrección que n o había sido utilizada anteriormente: Este tipo de pregunta se ha introducido para fomentar una mayor corrección de las versiones finales de los trabajos escritos. Cuando un ejercicio escrito ya ha sido revisado para garantizar que las ideas y el sentido se han presentado de forma clara, todavía pueden encontrarse errores de concordancia, de tiempo verbal, del uso de preposiciones, de ortografía, etc. Son los errores de esta naturaleza los que se han cometido o se han introducido en breves fragmentos de expresión escrita en este tipo de pregunta. En el mundo real los autores que corrigen su propio trabajo no conocen el número o posición de tales ítems. Sin embargo, para el propósito del examen, siempre habrá alguna indicación para los candidatos cuando se incluya este tipo de pregunta (página 5),

Una vez explicado el propósito de cada sección, el tribunal debería indicar los tipos de problemas que los candidatos tuvieron en algunas preguntas en particular. Este ejem plo p roviene del inform e de la Delegación de Oxford: En las preguntas 3 a la 6 de la sección 1, los candidatos a menudo se equivocaron en la distinción entre escribir notas y escribir de forma telegráfica. Deberían saber la diferencia: una «nota» debe ser breve y puntual, pero tiene que estar escrita con frases completas; en la «forma telegráfica» se omiten los artículos, algunos verbos, etc. y sólo debería utilizarse cuando se ha pedido específicamente, aunque esto rara vez ocurre en el examen del nivel preliminar (página S).

r

L o s informes posteriores a l a p r u e b a

Aquí el tribunal no sólo describe el problema que tuvieron los candidatos sino que también intenta clarificar el concepto para los profesores. Aunque no todo el mundo estaría de acuerdo con la distinción dada por el tribunal, está claro que esto es lo que esperan los examinadores en el futuro. El JMB también facilita una crítica clara del com portam iento de los ca ndida tos, aunque reconoce que en los últimos años ha habido una mejoría en algu nos aspectos de su actuación: En esta pregunta se vio claramente que se había tomado nota de los comentarios relativos a la importancia de las respuestas bien organizadas y presentadas. En contraste con años anteriores fue reconfortante ver que la gran mayoría de candidatos había incluido una introducción, organizado sus respuestas en párrafos, y había incorporado algún tipo de conclusión. Por desgracia, el resto de la composición fue a menudo decepcionante. La mayoría de los candidatos todavía no saben cómo dar explicaciones o hacer comentarios sobre datos cuando la pregunta lo requiere. Cuando el informe debe acompañar a los datos, el lector no espera la repetición de los mismos. Espera que el informe los haya interpretado y los comente. Esto supone tomar nota de las tendencias o patrones, si los hay, detectar las anomalías y seleccionar puntos de interés concretos... (página 4).

Las consecuencias de una crítica explícita son a menudo obvias, pero resulta útil si los tribunales explican claramente el tipo de docencia q ue deberían impartir los profesores o los tipos de repaso que deberían hacer los alumnos. El inform e de JMB facilita varios e jemp los interesantes sobre c óm o pu ede hacerse esto. En el caso de los candidatos que no «saben cómo dar explicaciones o hacer comentarios sobre dato s» (véase más ar riba), recomiendan: El lenguaje necesario para comentar datos numéricos o gráficos debe enseñarse de forma más explicita... (página 4).

En una sección posterior del mismo informe el tribunal lista una serie de libros de texto útiles que el profesor puede utilizar para ayudar a sus candidatos a solventar estos problemas. Esta información es especialmente valiosa para profesores que todavía no tienen demasiada experiencia en la preparación de candidatos para esta prueba. RECONOCIMIENTO DE PROBLEMAS EN LA PRUEBA MISMA

La cuarta función que pueden cumplir los informes posteriores a la prueba es la de hacer saber a los profesores y a los alumnos si ha habido problemas en la prueba mism a y cóm o los ha solucionado el tribunal. Un ejemp lo de buen hacer puede verse en el informe de la Delegación de Oxford, en el que el tribunal presenta la evaluación de un ítem en particular: La única dificultad en mayo surgió con la opción B. La palabra «appointment» se malinterpretó en muchos casos. Como se trata de una palabra difícil para el nivel preliminar, no se penalizó a los candidatos que la interpretaron mal


En el m ism o inform e el tribunal discute el nivel de dificultad de una sección completa de la prueba, que resultó más difícil que en años anteriores: Los candidatos encontraron dificultades en la sección 2 de la prueba de noviembre, por lo que se tuvo en cuenta durante el proceso de puntuación (página 7).

El JMB también reconoce sus propios problemas: en este ejemplo admite que ama parte en particular no resultó tan equilibrada co mo hubiera sido de esperar: Esta parte resultó más difícil de lo esperado, por lo que se ajustaron los resultados como corresponde [...] Esta parte en concreto mostró una marcada parcialidad hacia los ítems de gramática en detrimento de los ítems de léxico y esto puede haber contribuido al nivel de dificultad. Los exámenes en el futuro tenderán a estar más equilibrados y se considerará importante el desarrollo del vocabulario a través de textos, trabajo de diccionario y actividades diversas (página 12).

Reconocimientos de este tipo pueden ahorrar tiempo y problemas a profesores y alumnos. En los ejemplos presentados más arriba, los problemas no eran serios, pero los profesor es p odían haberse equivocad o al utilizar los exámenes anteriores como material de repaso, pues habían resultado más difíciles de lo que les hacía suponer la descripción de los contenidos. En otros casos, sin embargo, es aún más importante que las instituciones indiquen cuándo han tenido problemas, por ejem plo, cuando n o han revisado las instrucciones de manera apropiada o cuando no han detectado que hay ciertos ítems que no pueden responderse a partir de los textos que se dan a los alumnos. Este tipo de error puede causar mucha frustración. Creemos que la admisión del error puede ayudar mucho a profesores y alumnos y aumentar la reputación de un tribunal si éste deja claro que no ha penalizado a los candidatos por errores que no son culpa suya.

RECOMENDACIONES A LOS CENTROS SOBRE LA ADMINISTRACIÓN DE LA PRUEBA La quinta función del inform e posterior a la prueba es la de aconsejar sobre cuestiones relativas a la administración de los exámenes, especialmente en lo que hace referencia a las pruebas de comprensión oral y de expresión oral. El único ejemplo que encontramos de esta función en los informes que recibim os fue este párrafo del informe de JMB, que insistía en la necesidad de com odidad en las pruebas de expresión oral: El mejor entorno para la prueba es una habitación relativamente íntima en la que el candidato no se sienta amenazado por el espacio y la distancia y donde las voces no resuenen, lo que se traduce en una mala reproducción acústica. Si hay un aula cercana disponible para los candidatos que esperan, es mucho más agradable que estar sentado en un pasillo donde hay mucho movimiento de alumnos... (página 16).

Sin embargo, hemos encontrado buenos ejemplos de este tipo de recomendación en inform es posteriores a la prueb a de otras materias, especialmente en


lenguas extranjeras. La siguiente recomendación proviene de un informe sobre una prueba oral de español e ilustra la clase de consejo que los tribunales podrían facilitar sobre la admin istración de la prueba: Aunque en general el nivel de la grabación era bueno, todavía existen problemas que afectan al desarrollo de las pruebas. a) Los mom entos de excesivo ruido de fondo continúan siendo causa de preocupación. Es importante señalar que el examinador sólo puede puntuar lo que puede oír. Las clases que se reúnen fuera del aula de examen, la gente que interrumpe la prueba y la mala colocación de los micrófonos son factores que influyen en la audibilidad de los candidatos. b) Hubo ocasiones en la que los profesores se apartaron de las respuestas de los diálogos en el nivel básico, lo que produjo confusión en los candidatos. c) La preparación por parte de algunos profesores de su actuación en el diálogo 4 fue insuficiente y demuestra que hay profesores que no comprenden que los candidatos tengan que completar frases. Se debe tener en cuenta que solucionar los problemas de los candidatos, no presentarles los problemas existentes, introducir tareas adicionales o ayudarles en exceso no ayuda a los candidatos. (Northern Examining Association, Spanish: Report on the 1 99 0 Examination, pá g in a s 5—6 )

Este tribunal continuaba con tres fórmulas más con las que los profesores podrían mejorar su administración de los diálogos. Aunque algún tipo de recomendación puede parecer obvia para una persona po co familiarizada con el tema, es también obvio que los profesores no comprendieron o no prestaron la suficiente atención a las reglas que se suponía que debían seguir. El centro ha intentado recordar a los profesores cómo hacer su trabajo bien para ayudar a sus propios alumnos.

INFORMACIÓN SOBRE CAMBIOS EN LA PRUEBA O EN LOS PROCEDIMIENTOS Encontramos varios e jemplos de esto en el informe de JMB. El examen de UETESOL había sufrido una revisión importante durante el año correspondiente al informe, pero estaba claro que tendrían lugar más cambios en las versiones futu ras de la prueba. El tribunal anunció estos posibles cambios a profesores y alum nos para darles tiem po de adaptarse a las nuevas exigencias. Este fragme nto del informe se refiere a la sección de comprensión oral de la prueba: Se espera que los profesores continúen preparando a sus candidatos para escuchar varios tipos de información auditiva, en variedad de contextos, de modo que estén preparados para las conferencias, los seminarios, las tutorías individuales con que se encontrarán en la enseñanza superior, cuyo contexto y estilo se reflejan cada vez más en la prueba de comprensión oral (página 7).

9.6.3. Informes posteriores a la prueba para otros públicos Los tribunales de exámenes de inglés como lengua extranjera no elaboran infor

Debate

docum entos que recibimos de los tribunales encontraríamos la información que interesa a los administradores u otros profesionales, pero la única información que encontramos fueron descripciones sobre el tipo de público a quien iban dirigidas las pruebas (en material publicitario y en los program as), el dpo de lengua y destrezas que se evaluaban, y las distribuciones de los resultados de los candidatos. No había inform ación sobre la validez o la fiabilidad de ninguna prueba en la información que recibimos. Nos desilusionó que no existiera o no estuviera a nuestra disposición información técnica de este tipo, y que no pudiéramos señalar a ning uno de los tribunales de exámenes de inglés com o leng ua extran jera com o m odelo de distribución de info rm ac ión de este tipo. 9.7. Debate

Los informes posteriores a la prueba son importantes por las razones que hemo s discutido al principio de este capítulo. Sin embargo, la evidencia recogida es que hay poc os y escasos inform es adecuados sobre la actuación en las pruebas de idiomas, al menos en el campo del inglés com o lengua extranjera. Hemos extraído bastantes pasajes de los informes que recibimos porque son bueno s ejemplos de la dase de información que debería estar a disposidón de los distintos tipos de público y de como podría presentarse. Sin embargo, tales informes son difíciles de encontrar, y esto es una pena. Puede ser que hasta el momento no haya habido la suficiente presión sobre los que elaboran pruebas para que presenten evidencia de la validez y fiabilidad de sus instrumentos, pero tal como dijimos al principio de este capítulo, puede que esto cambie, y sólo puede cambiar a mejor. Puede también deberse a que los profesores n o p iden información sobre la actuación de sus candidatos, pues la m ayor parte de éstos son extranjeros y no están en la posición de presionar a los tribunales de exámenes. Esto contrasta con los profesores de enseñanza secundaria del Reino Unido, que sí pueden presionar a los tribunales para que faciliten la información adecuada para ayudar a los qu e preparan los exámenes. Puesto que los tribunales de exámenes del Reino U nido presumen de la relación entre la docencia y la evaluación, todavía sabe peo r que tan pocos faciliten una información adecuada a los profeso res y alumnos de inglés c omo lengua extranjera. El incremento general de publicaciones como el Code of Fair Testing Practices in Education y los APA/AERA/NCME Standards (véase capítulo 11) asegura que los usu arios de las pruebas y otras partes interesadas reciben la información más completa posible sobre la prueba que utilizan. La mejor manera de facilitar tal información es mediante los manuales y los informes que hem os defendido. El documento APA/AERA/NCME Standards dedica un apartado completo (el número 5) a la descripción de lo que deberían contener los manuales técnicos y las g uías del usuario. El apartado de los on ce mo delo s sobre este tema va precedido por la siguiente frase: «Los editores deberían facilitar la suficiente información para que un usuario o revisor cualificado de una prueba pueda evaluar si es apropiada y técnicamente adecuada» (página 35). Los tribunales de exámenes del Reino Unido deberían hacer lo mismo.


9.8.

Sumario

Las instituciones deberían pr ime ro determ inar las obligacione s existentes —tanto legales como morales—para publicar informes sobre la actuación en sus pruebas. Esto variará según el contexto. Se debería tener en cuenta las necesidades del pú blico al que se dirigen los informes: ¿Qué necesitan saber? ¿Qué podría resultarles de ayuda? Debería facilitarse información estadística relacionada con los asuntos que interesan al público. ¿Deben incluirse los resultados de la supervisión del examen? ¿Existen comentarios recibidos de los alumnos, de los examinadores o de los administradores ? ¿Se han analizado los ejercicios escritos de los alumnos para ver qué pueden revelar sobre los pu ntos fuertes y débiles del examen y de los candidatos? ¿Existe evidencia de parcialidad en la prueba? ¿Cómo se relaciona esta prueba con las versiones anteriores? ¿Cómo pueden preparar los profesores mejor a sus alumnos, o cómo pueden los alumnos prepararse a sí mismos? ¿Qué consideran los examinadores com o buen as actuaciones y actuaciones flo jas, y por qué? ¿Qué criterio s se utilizan para evaluar la actuación ? ¿Qué problem as se detectaron en la prueba? ¿Qué cambios se prevén en un futuro próximo? ¿Qué contenidos o destrezas cubre la prueba, y para qué sirven los resultados de un candidato? ¿Es la prueba válida? ¿Es la prue ba fiable?

10 Desarrollo y mejora de los exámenes

En este capítulo se discute cómo pueden modificarse y mejorarse las pruebas a la luz de su comportamiento, de la investigación y de los comentarios posteriores. Se tratan las cuestiones de por qué y cómo pueden mantenerse al día las pruebas y se insiste en la necesidad de una constante supervisión de la prueba durante su periodo de vigencia.

10.1. La supervisión de una prueba 10.1.1. Análisis constantes: contenido de la prueba, administración, formación del profesorado y corrección Habrá quedado claro desde el capítulo 8 que establecer la validez de una prueba no es un asunto rápido ni fácil. Esto quiere decir que a menudo se ponen en funcion amiento pruebas —y se utilizan de form a rutinaria para el propósito para el cual se han diseñado—sin que su validez se haya visto confirmada. Los responsables de la elaboración de la prueba habrán dado todos los pasos necesarios para garantizar que su instrumento sea lo más fiable y válido posible, dado el tiempo y los recursos disponibles. Sin embargo, puede que los problemas relacionados con una prueba o con los procedimientos que ésta implica sólo emerjan cuando la prueba haya funcionado durante un tiempo. Esto es así tanto para los exámenes que sólo se administran una vez, pero cuya estructura se repite año tras año, como para las pruebas «seguras» que se administran más de una vez. En algunas circunstancias, es simplemente imposible continuar revisando una prueba hasta que cada ítem, escala o parte funcione a la perfección; lo que ocurre habitualmente es que el borrador de examen se somete a ensayos previos y se modifica, pero no se vuelve a someter a ningún ensayo antes de ponerlo en funcionamiento. Así los responsables de una prueba no llegan a saber cómo funcionan los ítems, las tareas o las instrucciones modificadas hasta que se administra la prueba. En tales casos, puede ser posible analizar los resultados de la prueba y retirar los malos ítems antes de calcular los resultados. Sin embargo, es más probable que se lleven a cabo los análisis después de la administración, cuando ya se hayan entregado los resultados. En este caso, aunque ya no se pueden ajustar las notas, los resultados de los anáfisis deben tenerse en cuenta antes de empezar a elabo-

Desarrollo y mejora de los exámenes

En realidad, nosotros recomendamos que las pruebas se supervisen de forma regular y rutinaria. Los análisis de los ítems y de cada parte deberían llevarse a cabo d espu és de cada adm inistración, deberían calcularse estadísticas descriptivas (incluyendo los coeficientes de fiabilidad habituales), y los correctores deberían ser supervisados para observar la fiabilidad de sus puntuaciones (véanse capítulos 4, 5 y 6 para detalles de cómo deberían llevarse a cabo tales análisis). Hemos sugerido en el capítulo 8 que los informes posteriores a la prueba deberían contener información que permita modificarla en un futuro, si es necesario. En esencia, tales proced imien tos son parecido s a los que se deberían seguir durante la fase de ensayos previos de los ítems y de la prueba. Sin em bargo, durante una adm inistración rutinaria pueden surgir otros pr oblemas que n o se identifiquen de fo rm a fácil en los análisis establecidos. Para ilustrarlo, discutiremos un ejemplo en el que estuvimos implicados; una nueva prueba para evaluar la habilidad de escuchar conferencias. La prueba tenía lugar con la utilización de una cinta de vídeo: los alumnos debían ver el vídeo de una conferencia mientras escuchaban el texto y luego tenían que anotar sus respuestas en una hoja de respuestas. La prueba fue ensayada de forma habitual, pareció aceptable, y se puso en funcionamiento. Sin embargo, la observación de la administración de la prueba reveló qu e much os alum nos no estaban en realidad mirando los m onitores: de hecho, leían sus hojas de respuesta mientras escuchaban el texto y respond ían de acuerdo con lo q ue oían, no con lo que veían. Los análisis de ítems no habían revelado ning ún p ro blema en la prueba, pero la observación nos indicó que la imagen po día resultar en realidad redundante. A partir de este hecho se diseñaron dos pequeños estudios: el primero comparaba la actuación en la prueba de vídeo con la actuación en la misma prueba sólo escuchando el texto. No había ninguna diferencia en los resultados. El segundo estudio preguntó a los estudiantes qué versión de la prueba preferían. Votaron unánimemente por la versión que tenía sólo el sonido; dijeron que la prueba con vídeo era demasiado co m plicada, puesto que no sólo debían leer las preguntas, escuchar la cinta y respond er a las preguntas sino que también debían estar m irando el m on itor al tiempo que leían la hoja de respuestas. Ignorar la image n reducía la com ple jidad de la tare a sin afectar la m edid a de su capac id ad auditiva. Por lo tanto quitamos el componente vídeo. El primer pun to que ilustra este ejemplo es q ue si no hub iéramos o bservado la prueba de forma rutinaria, no habríamos tropezado con el problema. Así pues, aconsejamos la observación rutinaria de la administración de la prueba com o una forma complementaria de supervisión. El segundo punto es que necesitábam os diseñar un estudio especial en pequ eña escala para investigar el problema que se había observado: los procedim ientos rutinarios no fueron suficientes por sí mism os para ayud am os a com prender el problema. Las organizaciones res-

La supervisión de una prueba

Puede ocurrir que los procedimientos recomendados por los que han elabo rado la p rueba n o se lleven a la práctica por parte de lo s responsables de la mism a o se abandonen una vez comenzada la prueba. Las comprobaciones rutinarias de los procedimientos pueden identificar tales situaciones. Para ilustrar este punto po dem os citar el ejemplo de una nueva prueba de idiom as, cuyo proyecto de ela boración incluía también el desarrollo de procedim ientos de form ación, certifi cación y supervisión de los examinadores de las pruebas de expresión oral y de expresión escrita. Se consideró la importancia de que las puntuaciones se lleva ran a cabo de forma fiable porque la prueba se administraba en varios países y pod ía darse el caso de que s ólo hubiera un corrector po r prueba. Los elaboradores prepararon un m anual de formación para los exam inadores, que incluía actua ciones grab adas en vídeo, u na m uestra de ejercicios escritos y directrices sobre cóm o puntuar, junto c on instrucciones sobre cóm o dirigir sesiones de forma ción en las qu e utibzar los m ateriales. T ambién elaboraron un procedim iento para calcular la fiabilidad de las puntuaciones o torgadas p or los profesores al final del taller, lo que permitiría a las autoridades po der certificar que u n profeso r cumplía los criterios requeridos. Además, se acordaron y diseñaron procedi mientos para la recogida rutinaria de m uestras grabadas de actuaciones de can didatos en la prueba oral, junto con muestras de la expresión escrita de los candidatos, qu e de bían mand arse a un pu nto centralizado para volver a puntuar. Esta superv isión deb ía llevarse a cabo de m anera regular, y los correctores que se «apartaran del camino» (puntuando demasiado alto o demasiado bajo) serían avisados y despedidos o tendrían que volver a seguir un program a de formación. Después de los ensayos, se pusieron en funcionamiento la prueba y los pro  cedimientos recom endados, pero éstos se abandonaron pronto porque fueron considerados « inne cesa rios». Los talleres de form ación se substituyeron por «form ación autodidacta». Los examinadores debían leer el manual y ver los vídeos, y se suponía que, como consecuencia de ello, podrían puntuar de forma fiable. No se llevaron a cabo comprobaciones rutinarias sobre la fiabilidad de las puntuaciones. Las propuestas de los responsables de la elaboración de la prueba se frustraron por un a ejecución imperfecta de los procedimientos. En tales casos, hay probablemente necesidad de supervisión extema de la puesta en práctica. La disponibilidad de informes posteriores a la prueba, como se ha des crito en el capítulo 9, daría la oportunidad de realizar esta supervisión. Un problema aparece cuando se utilizan las pruebas sin cambio alguno durante un núm ero de años. Los exam inadores em piezan a relajarse en la utili zación de las escalas de puntuac ión y la formac ión dada a los examinadores, que es en un com ienzo ad ecuada, p uede volverse laxa y mecánica, al tiempo que éstos creen que ya tienen la suficiente experiencia en la administración de la prueba. Sin embargo, experiencia no siempre equivale a fiabilidad, y las com probaciones rutinarias sobre el consenso entre examinadores, especialmente cuando tiene lugar una doble corrección auténtica, son esenciales para garanti zar que se m antengan los estándares y que la form ación y la unificación de cri terios de los examinadores continúen siendo satisfactorias.

'

----------- -------------- ------------- ------------- --------------- ------------- -------------- ------------- ------------- --------------- ------------- --------------- ------------- ------------ --------------- ------------- --------------- ------------- -------------- ------------- ------------- --------------- ------------- -------------- ------------- ------------- --------------- ------------- --------------- ------------ ------------- --------------- -------------

Desarrol esarrollo lo y mej mejora ora de los exámenes exámenes

10.1 10.1.2 .2.. Come Co menta ntarios rios de los usuarios de la prue pr ueba ba Otro aspecto importante de la supervisión de la prueba que no debería pasarse por alto es la recogida de información entre los usuarios de la misma. Los can didatos pueden facilitar información muy valiosa a los responsables de la prueba: lo que piensan de los ítems, de los métodos de la prueba, de la claridad de las instrucciones, del tiempo disponible para las distintas partes, la importancia del contenido a la luz de su experiencia como estudiantes o sobre sus propósitos para aprender la lengua, la relación entre cómo perciben sus habilidades lingüís ticas ticas y su actuación en la prueba en cuestión, etc. Tal Tal informa ción pu ede reco  gerse de forma rutinaria con cuestionarios administrados inmediatamente después de la prueba, o en estudios preparados especialmente. La ventaja de recoger información de forma regular más que de forma especial es que se pued e identificar identificar la la inform ación importante m ás rápidamente. rápidamente. Igualmente, deberían recogerse de forma sistemática los comentarios de los pro fesores, como se sugirió en el capítulo 9, para introducirlos en los informes de los examinadores. Entre otras cosas, esto propiciaría el control de los cambios en los niveles niveles de dificultad dificultad o incluso de los cam bios en la habilidad de los candidatos. También habría que recabar comentarios de los profesores de idiomas, sobre todo en las pruebas relacionadas con los currículos. Si es posible, resulta útil reco ger información no sólo sobre la relación entre el contenido y el método de la prueba con el currículo, currículo, sino tam bién sobre si la prueba está afectan afectando do a la forma de enseñar enseñar de los profesores. ¿Hay formas de preparar a los alumnos para la pmeba, usadas habitual habitualmente mente po r los profesores, que podrían no ser recomendables recomendables si se hicieran cambios en la prueba o si se dieran directrices sobre actividades de pre paración adecuadas? adecua das? (Véase Wall y Alderson, 1993, 19 93, para una discusión sobre este punto, pero nótese tam bién que los profesores pued en no ser la fuente más fiable fiable de información inform ación sobre sob re las actividades actividades de preparación prepa ración para la prueba. La observación directa de las aulas puede revelar prácticas no sospechadas ni admitidas.) Es igualmente igualmente importante recabar informa informa ción de otros usuarios de los resul tados de las pmebas: los responsables de admisión en centros de enseñanza supe rior, empresas, autoridades educativas y otros parecidos. La pregunta clave es hasta qué p unto tale taless informad ores creen creen que la prueb a cum ple el objetivo objetivo para el cual se pensó. Tal información es en cualquier caso (especialmente, aunque no sólo, para los exámenes de dominio) necesaria para la validación de la prueba (capítulo 8), en particular cuando es relevante la validez de predicción y hace falt faltaa saber si se están seleccionando los candidatos adec uados teniendo en cuenta cuenta la información re cogida p or la prueba. Tal como se discutió discutió antes, antes, normalmente resulta resulta mu y difícil investigar investigar a los candidatos rechazados, pero es posible hacer un segu imiento de la naturaleza naturaleza de de la población qu e sí aprobó -en tró en la un i versidad, encontró empleo, entró en el mundo profesional, etc —y ver si ocu rren cambios en tal población a lo largo del tiempo. Las opiniones de los

La influencia de nuevos hallazgos en la necesidad...

10.1 10.1.3 .3.. Características de la pobl po blac ac ión ió n de la prueba pru eba

Un aspecto relacionado con la supervisión que resulta útil es la determinación de las caracter característ ísticas icas de la población de la prueba (no sólo de d e los que aprueban). Es posible que con el tiempo la población cambie: el origen geográfico, el bagaje lingüístico, el sexo, el nivel educativo, el nivel de aprovechamiento y el nivel de habilidad, etc. Por este motivo, la administración rutinaria de un cuestionario que recoja información biográfica sobre los candidatos es de un valor considerable. Además, pueden organizarse estudios específicos para analizar las características de la población con más profundidad, p or ejemplo su mo dvadó dv adón, n, las razones razones para para prepresentarse a la prueba, su historial como estudiantes de la lengua, sus estrategias comunicativas nicativas,, y otros aspectos. aspectos. Los resultados resultados de un estudio de este tipo tipo pueden damo d amoss información sobre la pmeba y sobre los posibles cambios necesarios. Los estudios sobre la parcialidad de las pruebas son cada vez más comunes y potencialmente importantes para los exámenes de idiomas. ¿Es la pmeba parcial con referencia al sexo o a una etnia? ¿Lo hacen mejor que el resto los candidatos de ciertas regiones o grupos socioeconómicos? Puede, sin embargo, haber dificultades a la hora de interpretar los resultados o de decidir qué hacer. En un estudio, Lynch, Davidson y Henning, 1988, descubrieron que partes partes del del examen de nive nivell de inglés inglés como segunda segund a lengua lengu a de la UCLA UCLA (Universidad de California en Los Los Ángeles) Ángeles) favorecían favorecían a los estudiantes de habla española y perjudicaban a los estudiantes de habla coreana. Sin embargo, una vez analizado el problema, parece claro que esto sucede porque el inglés es de por sí parcial: a causa de la afinidad lingüística, a los alumnos de habla española les resulta más fácil aprender inglés que a los de habla coreana. Tal parcialidad parcialidad sugeriría q ue la pmeba pme ba es válida en lugar de señalar señalar su no validez. validez. Finalmente, es importante supervisar los niveles de aprovechamiento y de habilidad de la población que se presenta a la pmeb a. Si, Si, a lo largo del tiempo, parece que los niveles estén cambiando, puede ser necesario investigar las causas y ajustar la prueba. Podría suceder que, debido a la creciente familiaridad con la prueba y a una mejor preparación, la pmeba estuviera volviéndose más fácil, o podría ser que con una mejor enseñanza del idioma la habilidad de la población estuviera aumentando. En cualquier caso, podría resultar necesario ajustar la pmeba. Como alternativa, puede decidirse que tales cambios en la dificultad o en la habilidad requerida queden reflejados en un mayor porcentaje de éxito en la prueba. Mucho dependerá, como siempre, de los objetivos que se buscaban con la administración de la pmeba, pero si no se hace un seguimiento de la actuación de los candidatos se perderá una información importante.

10.2. 10 .2. La influencia de nuevos hallazgos en la necesidad y la oportunidad de revisar una prueba 10.2. 10.2.1. 1. Nuevas técnicas de análisis

La necesidad de mejora s en una prueba o en los procedimientos relacionados relacionados con la misma puede pued e en ocasiones descubrirse descubrirse sólo con la introducción de nue-


vos métodos de análisis. Por ejemplo, el desarrollo de metodologías que ana lizan distintos rasgos y distintos métodos (multi-trait, multi-method methodologies) para la investigación de la validez convergente y divergente (véase el capítulo 8; Bachman y Palmer, 19 81 , y Cam pbell y Fiske, Fiske, 19 59 ) fue el detonante de varios estudios de validez que contribuyeron a nuestra comprensión de la forma en que podría evaluarse mejor la competencia lingüística. El descubri miento del análisis factorial confirmatorio como un nuevo instrumento junto con el análisis factorial exploratorio llevó a descubrimientos similares. Este es el caso del desarrollo de los programas de ordenador que permiten realizar nuevos análisi análisiss estadísticos estadísticos.. Un m uy buen ejemp lo reciente reciente de esto es el desa rrollo y la disp on ibilid ad de FAC FACETS ETS (Linacre y Wright, 19 92 ). Este prog ram a permite el análisis de la actuación de distintos examinadores en distintas tareas, bajo distintas condiciones operativas y con distintos tipos de candidatos. Es posible explorar hasta qué punto algunos examinadores en concreto funcio nan de forma poco consistente o idiosincrática, o si hay que ajustar las esca las de puntuación o se deben modificar las tareas para obtener puntuaciones más consistentes o válidas. Antes de la aparición de estos programas, podían hacerse comprobaciones sobre la variabilidad entre examinadores, pero de forma muy rudimentaria. Ahora es posible explorar el proceso de puntuación y los factores que influyen en los resultados con más profundidad y conoci miento. En tale taless circunstancias circunstancias es posible que pru ebas q ue pod ían parecer satisfa satisfactor ctorias ias tengan que ser revisadas revisadas porqu e m uestren aspectos prob lemáti cos después de ser analizadas analizadas con m ejores instrumentos. instrumentos. Una situación parecida ha ocurrido recientemente cuando los investiga dores de la evaluación de idiom as se han interesado interesado y familiarizado con téc nicas de investigación investigación «cua litativas», que p ueden utilizar utilizarse se para investigar investigar la validez de la prueba. Un ejemplo de tales técnicas es el uso de informes introspectivos de candidatos y examinadores, llamados informes de «pensar en voz alta», y relatos retrospectivos sobre los procesos de realización de una prueba (véase capítulo 8). Tales datos cualitativos pueden revelar informa ción sorprendente sobre lo que los alumnos y los examinadores están pen sando en lo relativo relativo a las tareas tareas de una prueba, que p ued e estar en conflicto conflicto con lo que los responsables de la elaboración de la prueba creen que los alumnos o los examinadores «deberían hacer». En tanto que los datos dan evidencia de la validez (o no validez) del contenido, los responsables de la prueba deberían hacer todos los esfuerzos que estén estén en su mano para reco ger información sobre el funcionamiento de los instrumentos existentes y hacer las modificaciones necesarias en los ítems, instrucciones, método, esca las de puntuación y otras facetas de la elaboración de la prueba que se con sideren apropiadas. El men saje claro claro es que lo s administradores y los redactores de una prueba, al igual qu e los investigadores, deben estar familiarizados familiarizados con los nuevos des cubrimientos de métodos de análisis, para poder aplicarlos a las pruebas exis

La influencia de nuevos hallazgos en la necesidad...

10.2 10.2.2. .2. Cambios en la tecnolog tecno logía ía Tales Tales nov edades puede n parecer crípticas crípticas y remotas para los redactores y los usuarios no rmales de pruebas, aunqu e su ritmo de desarrollo desarrollo es tal tal que, creemo s, ya no lo son. Sin embargo, novedades más sencill sencillas as pueden ofrecer ofrecer oportunidades para ca mb iar pruebas que n o eran posibles hace irnos irnos años, y que reconocerá el m ás cínico de los redactores redactores de pruebas. U n ejemplo obvio de esto esto es la posibilidad de tener casetes baratos y de buena calidad. La disponibilidad de tal tecnolo gía hace posible unificar la administración, po r ejemplo, de pruebas d e dictado y grabar la actuación de los candidatos en las las pruebas orales para que lu ego pued an ser puntua das por correctores preparados. Posibil Posibilita, ita, incluso, incluso, c o m o suce su cede de co n la l a p ru eba eb a AET y el Test of Spoken Englis lish (TSE) (T SE),, la adm ad m inistr ini strac ación ión de pruebas orales en grupo y en laboratorios laboratorios de idiomas. Esto hace que la administración de pruebas orales resulte más factible. Tal tecnología también significa que a los estudiantes se les puede evaluar su capacidad de comprensión de una gama de textos orales, lo que antes no podría haberse realizado con facilidad: discusiones de radio, comentarios sobre hechos públicos, contestadores telefónicos, avisos en aerop uertos y en estaciones de tren, etc. etc. En realidad, po dría pen sarse que la posib ilidad d e utiliz utilizar ar grabaciones de sonido ha aum entado la disponibilidad de pruebas de co mprensión oral y ha ha acentuado la enseñanza de la comprensión oral. Podría incluso decirse que los casetes, junto con otros medios de reproducción de textos escritos (como por ejemplo, las fotocopiadoras) han impulsado, e incluso iniciado, el debate sobre la conveniencia del uso de lenguaje auténtico en la mayoría de las pruebas. De igual form a, la llegada llegada de la tecnología de vídeo vídeo hace posible el uso de un tipo de textos y de formatos de prueba que eran impensables antes (aunque el ejemplo anterior del desarrollo de una prueba de comprensión oral utilizando una grabación en vídeo ilustra que tales posibilidades pueden no representar una mejora real en la validez de la prueba). También mejora la formación de los examinadores de las pruebas de expresión oral. Actualmente, la tecnología de vídeo interactivo interactivo ofrece fascinantes fascinantes pos ibilidades para la innovación en el el campo de la evaluación. La dispon ibilidad de ordenadores personales ya ha llevado llevado a un gran núm ero de avances interesantes (y menos interesantes) en el terreno de la evaluación de idiom as por ord enador (véase Alderson, 1986, 1988a , y Alderson y Windeatt Windeatt,, 1991, que tratan con extensión el impacto potencial de tales avances). Los exámenes adaptables, en los que el ordenador decide qué nuevo ítem presentar según la actuación del candidato en los ítems anteriores, anteriores, provocará c ambios radicales radicales en la forma en que se administran las pruebas y se calculan los resultados. Incluso cambios tan simples como la disponibilidad de electricidad en las escuelas donde antes antes no había, va a prod ucir grandes oportunidades de innovación y avance en las las pruebas de idio m as a nivel de escuela o incluso a nivel nivel de aula. aula. El mensaje está claro: los responsables de la elaboración de las pruebas deben estar abiertos a los avances generales que ofrecen oportunidades de cambio en


10.3 10.3.. Nuevas tendenci tend encias as

Una cosa parece obvia en estos últimos treinta años de enseñanza, de evalua ción de idio m as y de lingüística aplicada, aplicada, y es que las ideas ideas so bre la naturaleza naturaleza de la lengua, sobre la competencia lingüística, sobre el aprendizaje y la docen cia de la lengua y sobre las mejores maneras de evaluar evaluar el aprendizaje aprendizaje y la com  petencia lingüística lingüística están camb iando constantemente. constantemente. La lingüística lingüística se ha apartado apartado de un enfoque b asado en la la lengua com o un sis tema formal y se ha vuelto más consciente de otras dimensiones: la naturaleza del significado, la relación entre las frases y su contexto, la variación lingüística según el usuario y según el uso, etc. La lingüística se ha abierto para incluir aspectos sociolingüísticos de la comunicación, se ha redefinido la competencia lingüística en términos de competencia comunicativa (Hymes, 1972), y los modelos de competencia lingüística han pasado de estar basados en la compe tencia gramatical a incluir la competencia textual, la competencia ilocutiva y la competencia sociolingüística (véase Bachman, 1990). De forma form a parecida, parecida, en la docencia de la lengua el objetivo de instrucción y apren dizaje dizaje se ha ampliado ampliad o para incorporar n o sólo las estructuras estructuras lingüísticas y el léxico sino también funciones y nociones, estrategias de aprendizaje y de comunicación, el comportamiento culturalmente apropiado y otros aspectos. A su vez, la revolu ción comunicativa se ha transformado en ortodoxia y debe resistir los envites de los que abogan p or la importancia que tiene tiene el hecho de que los estudiantes estudiantes adquie ran conciencia conciencia sobre la lengua -con ocim ient os sob re la lengua—, que p ropu gnan una semi-reinstauración de la impo rtancia de la gramática, gramática, entendida de form a amplia, amplia, en cualquier definición de los prop ósitos ósito s y objetivos de la formación. La evaluación de idiomas no está aislada de tales avances, y los años ochenta vieron camb ios importantes en el contenido y, y, hasta ciert cierto o punto, en los mét o dos de los exámenes para reflejar reflejar estas estas nuevas preocupaciones e ideas. La eva luación de unidades discretas discretas dio pa so, al men os en ciertos ámbitos, a pruebas basadas en tareas, a técnicas más integradas y a un mayor énfasis en la evalua ción de la actuación. actuación. Las prueb as de respuesta múltiple se complem entaron con otras como las de tipo doze, las pruebas c-test, las preguntas con respuesta breve y otros procedimientos de respuesta más abierta, y la evaluación objetiva cedió terren terreno o a form as de corrección corrección más subjetivas subjetivas aunque po siblemente m ás váli váli das para evaluar la la com petencia lingüística lingüística.. Es improbable que hayamos visto el fin de los cambios en la forma de des cribir cribir la lengua y la compe tencia lingüístic lingüística, a, y de decidir qu é contenidos ling üís ticos ticos enseñar y cóm o. Mientras Mientras la evaluación evaluación de idio m as deba incorporar una noc ión del lenguaje, y una visión de la docencia y del aprendizaje aprendizaje de la lengua, los exám enes deberán continuar reflejando reflejando los cam bios teóricos y prácticos que se produzcan en los otros campos. Así pues, los responsables de la elaboración elaboración de pruebas deberán estar siempre abiertos a nuevas ideas sobre lo que resulta

Nuevas tendencias

Por tanto, mientras sigan cam biando los currículos y los libros de texto, cam biarán tam bién las pruebas b asadas en éstos para mantener su validez curricular (de contenido). Al desarrollarse nuevas formas de enseñanza de las habilidades de com prensión oral, por ejemplo, o d e la enseñanza de la gramática de forma significativa y comunicativa, las pruebas deberán cambiarse para incorporar tales novedades. Esto no quiere decir que la evaluación de idiomas dependa de la docencia y deba responder a cada capricho de la moda pedagógica; d e hecho, ha y pruebas q ue tendrán que mantenerse independientes de los currículos para po der cumplir su propósito. Los responsables de la elaboración de pruebas trabajan bajo determinados imperativos que no se aplican de la m ism a form a a los autores de libros de texto y a los autores de un currículo (los exámenes son sólo muestras, deben administrarse en un periodo de tiempo relativamente corto, no pueden ayudar a los alumnos flojos, etc.) y tienen que capear cualquier deseo o presión de seg uir la mo da con co nsideraciones que tengan en cu enta los aspectos prácticos, la validez y la fiabilidad. Sin embarg o, es difícil concebir una situación de evaluación en la que los responsables de la prueba puedan mantenerse inmunes a la influencia de los avances externos y al m ism o tiempo conservar la aceptación de sus pruebas por parte de la com unidad profesional de profesores, especialistas en lingüística aplicada y otros evaluadores. Así pues, h ay una necesidad constante de encontrar formas que po ngan al día y modifiquen las pruebas para incorporar los avances externos. Una forma habitual de cambiar las pruebas es someterlas a una revisión importante cada cierto número de años, como se ilustra en la siguiente cita de Alderson, 1986: Después de considerar, al m eno s, las pautas de desarrollo del inglés com o lengua extranjera, diría que una prueb a tiene un cid o vital estab lead o d e 12 a 1S años. U na vez ha nacido, una prueb a necesita tiempo y cuidados esmerad os p ara desarrollarse, para atraer m ás y m ás atención y candidatos, para establecer su credibilidad com o instrumento pa ra un objetivo en particular, para que sea reconocida com o válida y fiable, algo qu e nosotros en e l R e i n o U n i d o m e d i m o s m á s p o r l a o p i n i ó n d e l p ú b li c o y e l p r e s t ig i o q u e por datos empíricos. Este periodo suele ocupar entre tres y cinco años. Un a vez establecida, la prueba se considera com o aceptable durante un perio do de tiem po razonable. Durante este period o pu ede resultar aceptada po r v ariedad de instituciones, citada en la bibliografía sobre evaluación y después en la bibliografía sobre docencia. Puede tener gran núm ero de candidatos, a me nud o con stituyendo el objetivo de su formación y sus aspiraciones. Este periodo pued e durar entre cinco y o cho años. Hacia el final de este periodo, sin em bargo, aparecen signo s de senilidad en form a de aum ento de críticas sobre la influencia de la prue ba en la docencia y en las am biciones y vida de los alumnos. La queja habitual es que la prueba ejerce una influencia restrictiva en la docencia, y que no permite a los profesores enseñar de forma deseable o siguiendo la moda. La presión pu ede entonces crecer dentro de la organización m ism a (en el caso

*


las especificaciones, el contenido o el form ato de la prueba. Estas presiones para el cambio, como veremos, no están tan relacionadas con la recogida de datos que demuestren la incapacidad de la prueba para satisfacer el propósito especificado como con la sensación que tienen las partes interesadas de que existe un desfase de la prueb a con respe cto a lo s avances de la teoría didáctica y de la lingüística aplicada. En un sentido más general, puede tratarse de que la prueba ya no cum pla con su función original. Puede que el cambio lo produzcan profesores universitarios de lingüística aplicada a través de la investigación, a menudo impulsada por comités o comisiones de trabajo, o por el mismo tribunal de exámenes a través de la ya existente o recién creada red d e profeso res—evaluadores [...] o pu ede ser provocada por una implicación directa, no siempre solicitada, de los profesores m ediante movim ientos com o el de las pruebas escalonadas ( g r a d e ó test movement) en el caso del Reino Unido. Sea cual sea el agente del cambio, un nuevo alum bramiento es inevitable, a me nud o de spués de un periodo de gestación de dos o tres años. Y volveremos a contar con otra innovación: el nacimiento de una nueva prueba. Esta puede parecerse mucho a la anterior o ser muy distinta de ella. De todas form as, es lícito pregun tarse: ¿Existía la necesidad real de una nueva prueba? ¿Don de residía la demostración, y n o sólo la opinión, de qu e la prueba antigua no era eficaz, de que estaba periclitada, a punto de pasar a otra vida? ¿Qué necesidad sentían o qué sabían de la necesidad de una nueva prueba sus usuarios: los alumnos, los patrocinadores, las instituciones? (pág inas 9 6—97 ).

Otra forma de cambiar las pruebas, sin embargo, es organizando modos de innovar el contenido y el formato de la misma constantemente. Esto implica cambios continuos en cuanto a formatos, más que revisiones relativamente ambiciosas e irregulares como las sugeridas anteriormente. Puesto que cualquier tipo de prueba, incluso una de aprovechamiento basada en un currículo espe cífico, es inevitablemente sólo una muestra de lo que podía haberse evaluado, la modificación continua del diseño de la prueba está justificada en el deseo de mejorar la cobertura del currículo por parte de la prueba. Si el formato de la prueba permanece estable durante un periodo de tiempo, puede tener el efecto de reducir el currículo: no sólo restringirá la prueba a los elementos que se cree que son evaluables o convenientes sino que posiblemente la enseñanza durante la preparación para la prue ba se limitará a los tipos de actividades y habilidades que se van a evaluar. Para evitar tal limitación, al igual que para mejorar la validez del contenido, hay organizaciones que adoptan de forma deliberada una política de innovación constante cada año. Para cada convocatoria se cambia una parte de la prueba: puede tratarse de la introducción de un método de examen nuevo, de un distinto equilibrio entre sus com ponentes, de la evaluación de nuevas destrezas o competencias; o pueden introducirse cambios en los enunciados en los tipos de prueba o en los procedimientos de respuesta. El ó-


10.4. El mundo real Hay, naturalmente, otras consideraciones que llevan a los responsables de una prueba a cambiarla aparte de los avances teóricos. Los aspectos prácticos son a menudo de gran importancia. El coste de la producción de una prueba es a menudo un factor significativo en la limitación de lo que puede conseguirse: el grado de com plejidad que imp lica la elaboración de una prueba, la cantidad de forma ción necesaria para los examinadores, el núm ero de distintas hojas, la cantidad de tiemp o necesaria para la administración de la prueba, el núm ero de examinadores necesario. Además, una presión financiera complementaria puede llevar al centro a modificar la naturaleza de su prueba y su administración para reducir costes. La creciente saturación de los horarios de examen en las escuelas puede significar que queda menos tiempo disponible que antes para una prueba de idiom as, y puede ser necesario llegar a una solución de co mpro miso en el momento del diseño de la prueba. Puede darse también el caso (aunque menos corriente) de que haya más tiempo dispon ible y qu e desaparezca la limitación de recursos y de personal preparado, po r lo qu e las pruebas puedan volverse más innovadoras y reflejar el currículo y las tendencias en la enseñanza y en la lingüística apficada. La presión de otros tribunales de exámenes competidores, del país o internacionales, también pueden provocar llamadas a la innovación más que a la simplificación o reducción de costes. Muchos países tienen una autoridad centralizada con la única responsabilidad de p roducir exám enes, y la experiencia muestra que tales mono polios de estado tienden a ser conservadores en lo que respecta a la innovación. Sin embargo, en otros ámbitos, como es el caso de los exámenes de inglés como lengua extranjera en el Reino Unido, por ejemplo, las «fuerzas del m ercado » tienden a forzar una innovación competitiva en el desarrollo de pruebas con la esperanza de alcanzar una cuota de mercado más alta. De manera parecida, donde los tribunales de exámenes compiten intemacionalmente por el mismo mercado (como es el caso, por ejemplo, con el ETS de TOEFL, y el IELTS de UCLES), podemos suponer que el diseño de las pruebas avanza a medida que cada institución intenta ganar ventaja. Así pues, debemos esperar que las prospecciones de mercado y las comparaciones de «productos» rivales sean importantes en algunos ámbitos y actúen como una fuerza de cambio en el desarrollo de pruebas.

10.5. Estudio sobre los tribunales de exámenes de inglés como lengua extranjera: cuestionario El cuestionario contenía varias preguntas que intentaban descubrir hasta qué punto los tribunales de exámenes del Reino Unido realizaban de form a regular la revisión y la actualización de sus pruebas. Además, pretendíamos determinar hasta qué punto los centros estaban satisfechos con las pruebas existentes y sus


procesos de producción para poder estimar hasta qué punto tales centros podían sentir la necesidad de cam biar sus prueb as en un futuro. PREGUNTA 46: ¿Se recogen comentarios sobre sus exámenes? Sólo un tribunal dijo que no recogía tal tipo de información sobre sus exámenes. Cómo se recogía y de quién, sin embargo, variaba. Algunos tribunales recogían información de manera informal de profesores en conferencias y en seminarios, y «p or r um ores». Un o o dos recogían información de forma regular, utilizando los «info rm es de los vigilantes de las prueb as», los «in form es de los asesores», o cuestionarios a «escuelas, centros de administración de exám enes, profesores y examinadores» (nótese que no a estudiantes). Un tribunal respondió que se recogían comentarios de manera «inform al, por contacto personal con los centros», y otro que su «in tención es la de manda r cuestionarios a los centros periódicamente, aproximadamente cada tres años». La práctica de UCLES varía, pero al menos una respuesta mencionaba una «Hoja de información del cand idato» que debían rellenar todos los candidatos. PREGUNTA 47: ¿Existen procedimientos rutinarios para garantizar que sus exámenes se revisen a la luz de los comentarios? Es interesante remarcar que tres tribunales respondieran que tales procedimientos no existían. Una respuesta de UCLES decía que los grupos de trabajo discutían el tema a intervalos de seis meses. PREGUNTA 48: ¿ C a d a cuánto tiempo aproximadamente se revisan sus exámenes? La frecuencia de la revisión de los exámenes de inglés como lengua extran jera varía de «e n m en ore s detalles, co nstan tem ente» a «cada dos añ os aproxim adam ente»; un tribunal dijo: «R evisiones menores cada poc os años. Mayores revisiones sólo ocasionalmen te. A ctualmente se está realizando un a revisión imp ortante .» Dos centros hicieron referencia a revisiones en 1989 y 1990 respectivamente. PREGUNTA SO: ¿Tienen planes para realizar cambios como los descritos más arriba en los procedimientos que siguen? La mitad de los tribunales dijo que sí tenían tales planes y la otra mitad respond ió que no. Se hizo m ención a una revisión de envergadura en curso, pero no se facilitaron detalles. Las últimas preguntas pretendían sondear hasta qué punto los centros estaban satisfechos con sus pruebas y hasta qué punto creían que sus pruebas eran «s up eriores » a otras prueba s del mercado. Aunque estas respuestas no estaban directamente relacionadas con la supervisión de la prueb a o con su mejora, dan idea de si los centros creen, al meno s en público, que sus pruebas tienen que mejorar.


Ningún tribunal discrepó de esta afirmación, aunque uno dijo que no tenía opinión, puesto que «la fortaleza de nuestros esquemas reside en unas definiciones claras de actuación. No dictamos materiales de aprendizaje». Entre los que respondieron «Algo», uno dijo: «Hay otros puntos fuertes, y la docencia es una base tambaleante, porque las modas cambian frecuentemente.» La mayoría respondió con un rotundo Sí y tres dijeron que sus exámenes tenían efectos de rebote positivos. Sin embargo, no tenemos conocimiento de ningún estudio sobre la materia. La suposición más común fue que la cercanía a la docencia estaba asegurada con la implicación de los profesores como examinadores y con la evaluación de las destrezas comunicativas. PREGUNTA 52: También se dice que los criterios y procedimientos «psicométricos» o «americanos» son irrelevantes para los exámenes británicos. ¿Está de acuerdo? Si está de acuerdo, ¿qué criterios y/o procedimientos son irrelevantes para sus exámenes? Una gran mayoría de los tribunales discrepó de esta afirmación, aunqu e varios decían que tales «pr oce dim iento s» sólo afectaban a las secciones de corrección objetiva de sus exámenes. Dos tribunales, sin embargo, añadieron calificaciones a su desacuerdo, que creemos vale la pena citar completas: Una com binación de realismo lingüístico británico y de psicometría americana es, creo, muy deseable y técnicamente posible, mientras se suponga que los examinadores no sean unos sinvergüenzas y, dentro de unos límites, tiendan a converger en sus opiniones sobre los contenidos lingüísticos y los candidatos [...] el análisis psicométrico no es nunca lo suficientemente completo como para disipar todas las sospechas y no convencerá a los profesores si entra en conflicto con el sentido común, evidencia empírica que pueden comprender fácilmen te a sim ple vista.

Y también: Su aplicación aumentaría de forma significativa el coste de un producto que debería tener un precio m oderado.

PREGUNTA 53: ¿Cuáles son, en su opinión, los puntos fuertes de sus exámenes? Esta pregunta prov ocó gran variedad de respuestas, desde «flexib ilidad de la administración», «disponibilidad a petición», «tareas prácticas realistas», exámenes «d ispon ibles para distintos niveles», a las meno s modestas «fiabilidad, ju st icia co mpleta, validez y pr oced im ie nto s de admin istración in ta ch ables» . Gama d e textos y tipos de tarea, autenticidad, relación con la docencia y la afirmación de efectos de rebote fueron los puntos fuertes más mencionados. PREGUNTA 54: ¿Cuáles son, si los tienen, los puntos débiles de sus exámenes? ¡No es de sorprender que las respuestas a esta pregunta fueran más breves! Cuatro tribunales dijeron que no tenían ninguno, y uno afirmó que el único punto débil de sus exámenes es que todavía no se convocaban en Estados Unidos o Canadá. Sin embargo, uno o dos dio respuestas más detalladas, haciendo


referencia, por ejemplo, a la dificultad de unificar juicios de impresión. La ausencia del componente de evaluación de la producción oral fue mencionado por dos centros, y un tercero mencionó las destrezas integradas. N o todos los lectores se tranquilizarán al leer una de las respuestas: «S i se de scubriera un pu nto débil, se rectificaría inmed iatamen te». Las respuestas de UCLES eran má s creíbles y resultaron francas y alentadoras. Una de ellas contenía tres puntos: a) Necesitamos llevar a cabo mayores esfuerzos para garantizar la fiabilidad de los examinadores mediante certificaciones y revisiones de estas certificaciones. b) Tenemos que procurar establecer en mayor medida que las distintas versiones sean equivalentes en términos de fiabilidad y de contenido. c) Las tareas de expresión escrita que requieren una corrección subjetiva deberían ser corregidas habitualmente por dos correctores. Una segu nda respuesta identificó do s pu ntos débiles «la falta de form ación del personal relacionado con la administración de la prueba y la administración tediosa», y una tercera respuesta, refiriéndose a una prueba recién introducida, dijo: « la falta de proced im ientos form ales para la validación y la equiparación constante de la pru eba ». 10.6. Discusión

Según estos resultados, parecerá que los tribunales están en general satisfechos de sus pruebas, aunque estén implicados en un proceso de revisión habitual. Lo que está me no s claro es hasta qué pu nto esta revisión es el resultado de la reco gida sistemática de d atos, y hasta qu é pun to refleja reacciones intuitivas del «ám bito pro fesional» y del «m erca do ». N uestra posición es que la recogida de com entarios inform al a través de «ru m or es » es una base poco fiable para fun damentar la satisfacción sob re la prueba, o incluso las revisiones de la mism a. Sin embargo , algunas respuestas aseguraro n que se identificaban los problemas y que se tomaban medidas para ponerles remedio. La supu esta estrecha relación con la docenc ia era qu izá predecible, pero debe tomarse con escepticismo, puesto que la práctica varía de form a considerable. Las afirmaciones sobre el efecto de rebote beneficioso son comunes, pero no presentan pruebas y , com o han señalado A lderson y Wall, 199 3, ésta es un área que podría beneficiarse de una considerable investigación. Dada la supuesta estrecha relación entre la docencia y la evaluación, puede darse el caso de que las pruebas pueda n m ejorarse m ediante un estudio exhaustivo de la práctica de la preparación de pruebas. 10.7. Sumario

Sumario

observación de la administración de la prueba observación del proceso de formación y de unificación de criterios observación de la corrección y de la supervisión comparaciones de niveles de éxito a lo largo del tiempo reco gida de datos sobre las características de la población de la prueba: sexo país o región de origen lengua m aterna historial de aprendizaje de lenguas motivos para presentarse a la prueba nivel de habilidad etc. comentarios de los usuarios de la prueba: candidatos examinadores profesores otros usuarios, co m o, po r ejemplo, responsables de admisión ¿Se llevan a cabo los procedimientos de seguimiento de forma adecuada? ¿Se necesitan estudios especiales? parcialidad de los ítems y de la prueba motivación del candidato, razones para presentarse a la prueba, resultados en otras m aterias etc. ¿Hay otros m étod os de análisis disponibles —estadísticos o cualitativos- que p ue  dan revelar más información sobre la prueba? ¿Qué tecnología está disponible que pueda conducir a mejoras? casetes de audio laboratorios de lenguas fotocopiadoras electricidad vídeo vídeo interactivo ordenadores lectores ópticos sistemas de reconocimiento de caligrafía lápices correctores etc. ^ ¿Está pasada de m oda la visión de los contenidos lingüísticos que la prueba con tiene? ¿Refleja la prueba las corrientes y la práctica actual de la docencia de lenguas? ¿Qué efecto tiene la prueba en la docencia? ¿Puede m ejorarse? ¿Puede la prueba pon erse al día de forma habitual y no sólo ocasionalmente? ¿Puede reducirse el coste de la prueba sin que se vean afectadas la validez y la fiabilidad?


¿Puede simplificarse la prueba sin que se vean afectadas la validez y la fiabili dad? ¿Cóm o son las pruebas de la competencia? ¿Puede su prueba me jorar lo que ellas hacen? ¿Revelan los estudios de merca do la necesidad de camb io? ¿Hay huecos en el mercado?

Bibliografía Alderson, J. C. (1986a). En Leach y Candlin (eds.), Computen in English Language Education and Research. Longman, Londres. Alderson, J. C. (1986b). «Innovations in Language Testing?» En M. Portal (ed.). Innovations in Language Testing, págs. 93—IOS. NFER-Nelson, Windsor, Berks. Alderson, J. C. (1988a). «Innovations in Language Testing: Can the Microcomputer Help?» Número especial de Language Testing Update. Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The Communicative Legacy. Macmillan, Nueva York. Alderson, J. C. y D. Wall ( 1993). «D oes Washback Exist?» Applied Linguistics, 14, págs. 115-129. Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University Press, Oxford. Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into the Construct Validity of Six Tests of Listening and Reading.» En A. S. Palmer, P. J. M. Groot y G. A. Trosper (eds.), The Construct Validation of Tests of Communicative Competence. TESOL, Washington, DC. Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pig s. 81—105. Hymes, D. H. (1972). «On Communicative Competence.» En J. B. Pride y J. Holmes (eds.), Sociolinguistics, pigs. 269-293. Penguin, Harmondsworth. Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press, Chicago. Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language test valida tion.» Language Testing, 5 (2), p igs. 206—219. Wall, D. y J. C. Alderson (1 993). «Exam ining W ashback.» Language Testing, 10 (1 ), pig s. 4 1—69.

11 Criterios de la evaluación de lenguas: el estado de la cuestión

En este capítulo final se tratan los principios y los criterios que hemos pretendido establecer e ilustrar en este libro hasta el mo me nto. Cada capítulo ha tratado un estadio distinto del proceso de redacción y de evaluación de las pruebas, y ha descrito lo que consideramos como «práctica deseable» en la evaluación de idiomas. Al m ism o tiempo he mo s intentado ilustrar la práctica habitual en una zona en particular —el Reino U nido—y en un grupo de pruebas: las de inglés co mo seg unda lengua o lengu a extranjera. Si hubiéram os descrito la práctica de otras partes del mu ndo o de otros idiomas en el Reino Unido, sin duda hubiéramos hecho otro retrato, quizá mejor, quizá peor del que hemos pintado en estas páginas. Hay mu cho s factores que influyen en el proceso de evaluación: prácticos, financieros y políticos. Distintos responsables de distintas pruebas pueden empezar con la misma idea, pero acaban con instrumentos y procedimientos muy diferentes a causa de las limitaciones del entorno en el que trabajan. Heaton (1988: 24) utiliza el término « co m pr om iso » para describir el tira y afloja que está siempre presente en el proceso de elaboración de una prueba. Si tales compromisos resultan inevitables, al men os debem os garantizar que estén basado s en ciertos principios. Tener una idea clara de cuál es la me jor práctica ayudará a los responsables de la prueba a ver qué elementos pued en permitirse sacrificar y cuáles deben m antener a pesar del alto coste. A quí resid e el sign ificado de « cri ter ios » (standards).

11.1. ¿Qué son los criterios? En evaluación, el término standards puede tener dos significados distintos, sólo un o de los cuales se adoptará en este capítulo. El prim er significado tiene relación con los niveles de los resultados de los alumnos. Este es el m ás co m únmente utilizado para referirse a los candidatos de una prueba, como en la expresión «L os niveles han ca ído...», y h emo s utilizado el término con este significado en capítulos anteriores. El segun do significad o de standards [al que correspon de el térm ino «cri terio s»] está relacionado con la noción de «prin cipio s». Pollit (19 90 ) considera los «criterios» com o una fo rma de m edir la adherencia de una institución a irnos determinados «principios»: Los «principios» dividen el mundo de la evaluación de forma horizontal, en distintos ámbitos que nos conciernen. Los «criterios» lo dividen de forma vertical, definiendo (por ejemplo) cuánta «fiabilidad» se debe pedir, o lo bien o lo detalladamente que debe describirse el proceso de elaboración de la prueba (página 1).

Criterios d e la evaluación de lenguas: el estado d e l a c u e s t i ó n

Para Pollitt es relativamente fácil llegar a un acuerdo sobre los «principios», mientras que los «criterios» son «escurridizos» y pueden conducir a un exceso de prudencia o a una represión de los avances creativos. De la misma manera que vemos la lógica de esta distinción, reconocemos que para la m ayor parte del m und o de la evaluación los «crite rios» y los «p rin cipios» se refieren a la misma idea: una base para evaluar la práctica de la eva luación. Esto es así a causa de los Standards for Educational and Psychological Testing, que describimos más adelante, y documentos similares, que utilizan la palabra «cri terios» en sus títulos. Queremos contribuir a lo que consideramos un uso extendido del término, y también queremos animar a los que están desarro llando un trabajo importante en esta área. Por este motivo utilizamos el tér mino «criterios» con este segundo significado, que se refiere a las directrices acordadas que deberían consultarse y, en la medida de lo posible, ser tenidas en cuenta durante la elaboración y evaluación de una prueba. En el Reino Unido y en el entorno europeo, la expresión «código de comportamiento» parece preferirse al término «criterios», e incluimos un resumen de estos dos tipos de documentos en este capítulo. Estos últimos a ños hem os asistido a una discusión considerable sobre la nece sidad de contar con criterios, y sobre si la evaluación de idiomas debería tener unos criterios pro pios. La Asociación Internacional de E valuación de Lenguas (ILTA) está investigando los criterios existentes para las pruebas y otros tipos de medidas en el ámbito de la educación, para comenzar una discusión sobre el posible diseño de una política que defina estos criterios o la compilación de un nuevo conjunto que sea más específico. En este capítulo damos nuestra opinión sobre los criterios en general y sobre los conjuntos de criterios en particular que pueden ser puntos de partida útiles para un trabajo futuro. En los apartados siguientes describimos seis conjuntos de criterios distintos. Los hemos escogido porqu e creemos que representan enfoq ues interesantes sobre el problema que supone la definición de una buena p rácdca y porque cada grupo contribuye con algo nuevo a nuestro retrato de lo que deberían ser los criterios. Somos, sin embargo, conscientes de que al escoger criterios escritos en inglés podemos estar excluyendo de la discusión directrices producidas en otras lenguas. El informe de ILTA dará pronto información sobre los esfuerzos que se hacen para asegurar la calidad de pruebas y exámenes en otras lenguas. A continuación presentam os la base, el propó sito y la organización general de cada uno de estos seis conjun tos de criterios, y un com entario so bre el valor de su contribución al campo de la evaluación. Incorporamos luego ideas de todos ellos a una discusión sobre las preguntas que deberían formularse en futu ros debates sobre la conveniencia de otros criterios. Nótese que la fecha que se da entre paréntesis al principio de cada descrip ción es la fecha de la última edición del documento que se presenta. Ninguno

Standards for Educational and Psychological Testing...

bien importante darse cuenta de que algunos documentos reconocen a otros como fuente de inspiración. Ha habido mucho intercambio en esta área hasta el momento, y es probable que continúe en el futuro.

11.2. Standards for Educational and Psychological Testing («Criterios de evaluación educativa y psicológica») (1985) 11.2.1. Antecedentes

Quizá los criterios más conocidos son los Standards for Educational and Psychological Testing, a los que muchos se refieren como los «criterios APA». Estos criterios fueron publicados en 1985 por The American Educational Research Association (AERA), The American Psychological Association (APA) y The National Council on Measurement in Education (NC ME). APA y AERA habían pubÜcado por separado «recom endaciones técnicas» para pr uebas a mediad os de los años cincuenta y, junto con NCNE, contribuyeron a la publicación de sus primeros criterios conjuntos en 1966. Estos fueron revisados en 1974 y de nuevo en 1985. La versión de 1985 incluye la gran cantidad de cambios que tuvieron lugar en el campo de la evaluación en los años setenta, incluyendo adelantos técnicos, nuevos usos de las pruebas para «preocupaciones sociales crecientes sobre el papel de la evaluación en la logro de objetivos sociales» (página 5). Suponemos que habrá otra revisión durante la presente década. 11.2.2. Propósito

El documento de los criterios es suficientemente explícito en cuanto a su propósito: El propósito al publicar este documento es el de facilitar criterios para la evaluación de pruebas, prácticas evaluativas y los efectos producidos por esta práctica [...] Pueden aportar un marco de referencia para garantizar que se tratan los aspectos importantes [...] Todos los responsables de la elaboración de pruebas, los que las costean, los editores, y los usuarios deberían hacer esfuerzos para cumplir estos criterios y animar a otros a hacer lo mismo (página 2).

Se da por hecho que hay pruebas que no ofrecen la calidad que el público espera de ellas: los criterios pued en utilizarse com o un a base para identificar las pruebas que cumplen con sus objetivos y las que no. El documento reconoce que «la utilización de criterios en litigios es inevitable» (página 2); sin emb argo, se han ideado com o guía para contribuir a la toma de decisiones, pero no de forma prescriptiva. En realidad, hay que señalar recientes debates con AERA sobre cómo, o sobre si los criterios deberían «imponerse». El Comité de Revisión los ve claramente como voluntarios, aunque con un grado de obligación moral. El prefacio al documento de los criterios da información detallada sobre cómo cree el Comité de Revisión que éstos deberían operar:

Criterios

lenguas: el estado de la cuestión

d e l a e v a l u a c ió n d e

L o s c r it e r io s d e b e r í a n : 1. tratar temas relativos al uso de pruebas en variedad de aplicaciones; 2. ser el modelo de los criterios técnicos para la buena práctica profesional y no una prescripción sobre acción social; 3. hacer posible la determinación de la adecuación técnica de una prueba, la propiedad y adecuación de aplicaciones específicas, y si las inferencias basadas en los resultados de la prueba son razonables; 4. requerir a los responsables de la elaboración de pruebas, a los editores y a los usuarios la recogida y disponibilidad de información suficiente para que un inspector cualificado pueda determinar si se cumplieron los criterios adecuados; 5. representar un fuerte imperativo ético, aunque estaba claro que el documento en sí no debía contener mecanismos de control; 6. reconocer que no todos los criterios son aplicables de forma uniforme según instrumento y uso; 7. presentarse a un nivel que permita utilizarlos a una gama amplia de profesionales que elaboran o utilizan las pruebas o sus resultados. 8. no inhibir la experimentación en el desarrollo, utilización e interpretación de pruebas; 9. reflejar los actuales niveles de consenso de los expertos reconocidos. (Página v)

11.2.3. Objetivos Los criterios van dirigidos a las pruebas, según se definen en el documento de la siguiente forma: Por pruebas se entiende instrumentos de habilidad (aptitud y aprovechamiento) tipificados, mecanismos de diagnóstico y evaluación, listados de intereses, listados de personalidades e instrumentos de proyección [...] En los criterios se cubren tres categorías amplias de instrumentos de evaluación: tareas para evaluar la actuación, cuestionarios, y en menor medida, muestras de actuaciones (páginas 3—4) .

Sin embargo, los criterios no sólo van dirigidos a los instrumentos de evaluación sino también, y sobre todo en la revisión de 1985, al uso de las pruebas y, en particular, a sus aplicaciones y a los procedimientos administrativos. Procuran ser completos, dirigiéndose a «un uso mayoritario de las pruebas, a los aspectos técnicos relativos a una amplia gama de preocupaciones sociales y legales, y a las distintas necesidades de los participantes en el proceso de evaluación» (página viii). 7

1.2.4. Organización general

Standards for Educat ional and Psychological Testing...

Parte I: Criterios técnicos para la redacción y evaluación de pruebas Contiene capítulos sobre los aspectos siguientes: validez; fiabilidad; elabo ración y revisión de pruebas; elaboración de escalas y de normas, compa ración y ecuación de resultados; y publicación de la prueba: manuales técnicos y guías del usuario.

Parte II: Criterios profesionales para la utilización de pruebas Contiene capítulos sobre p rincipios generales de la utilización de pruebas; la evaluación educativa y psicoló gica en escuelas; utilización de pruebas para asesoramiento; selección de personal; licenciaturas profesionales y ocupacionales; y evaluación de programas.

Parte III : Criterios para aplicaciones específicas Se ocupan de evaluación de minor ías lingüísticas; y de la evaluación de per sonas discapacitadas.

Parte IV: Criterios para los procedimientos administrativos Cubren la administración de las pruebas, puntuación y publicación de resul tados; y de la protección de los derechos de los candidatos. Hay un pró log o al principio de cada capítulo que facilita un contexto para la interpretación de los criterios descritos en el capítulo. También hay un glosario de términos técnicos utilizados en el documento de siete páginas y un índice para dirigir a los usuario s a las secciones que m ás les interesen. 7 7 . 2 . 5 . Características distintivas

Los criterios comprenden tres tipos distintos de recomendaciones: criterios pri marios, secundarios y condicionales. Los criterios primarios deberían: cumplirlos todas las pruebas antes de su utilización y deberían cumplirse en todas las utilizaciones posibles, a no ser que haya una razón profesional de peso que demuestre por qué no es necesario o técnicamente posible en un caso en particular. Los responsables de la elaboración de las pruebas y sus usuarios, al igual que los patrocinadores de la prueba, deben poder explicar por qué alguno de los criterios primarios no se ha cumplido (página 2).

Un ejemplo de criterio primario es el número 1.11: Debería presentarse evidencia de validez para los principales tipos de inferencias para cuyo uso se recomienda una prueba. Debería facilitarse una ^-explicación que respalde la evidencia presentada (página 13).

Los criterios secundarios, por otra parte, son deseables, pero pueden encon trarse «más allá de lo que puede esperarse en muchas situaciones» (página 3). Tales criterios describen procedim ientos ben eficiosos pero pueden ser difíciles de poner en práctica cuando los recursos son limitados. Un ejem plo de criterio secundario es el número 2.10: Los errores típicos de corrección deberían hacerse públicos si afectan a los

Criterios de la evaluación de lenguas: el estado de la cuestión

o clasificación, estos errores deberían notificarse en los niveles cercanos a la nota límite entre niveles o a la nota de corte (página 22).

La tercera categoría de criterios, llamada « con dicion al», pued e ser primaria o secundaria, según la prueba que se esté analizando. En este caso, el responsable de la prueba debe utilizar un elemento de raciocinio que equilibre las consideraciones prácticas con otros factores tales como el número de candidatos que se presentará a la prueba. Si la prueba tiene pocos candidatos y las consecuencias de sus resultados no son excesivamente importantes, puede no valer la pena el intentar cumplir un criterio condicional. Un ejemplo de este tipo de criterio, es el número 5.1: Debería haber un m anual técnico a disposición de futuros usuarios en el momento de publicar o empezar a utilizar una prueba (página 35). Aunque sería útil para los patrocinadores de la prueba, para los adm inistradores y otros el poderse referir a tal tipo de manual, podría resultar poco razonable pretender que una persona responsable de la elaboración de la prueba elabore un manual para cada versión de la misma, especialmente si se administra más de una versión cada año. Esto no significa que no tenga que haber documentos que respondan a las preguntas de futuros usuarios, sino que estos documentos pueden tener el formato de informes breves en lugar de publicarse oficialmente en forma de folletos. Además de distinguir entre criterios esenciales y los que pueden no tenerse en consideración si las circunstancias lo piden, el documento también facilita un comentario explicativo para ciertos criterios. Este comentario contiene una información general, una justificación, una ejem plificación y una explicación de la redacción del criterio: pretende contribuir a la comprensión, no constituir otro principio que deba ser tenido en cuenta. 11.2.6. Comentario

Por lo que h em os dicho se puede deducir que los criterios son mu y totalizadores. Aunque a primera vista puedan abrumamos, con 16 apartados y 181 directrices, una vez que el lector se haya familiarizado con la organización de las definiciones y se hayan leído los prólogos y el comentario, no son difíciles de comprender. Existen, sin embargo, dos aspectos que quisiéramos comentar. El primero es que no está claro por qué los criterios secundarios se consideran menos «primordiales» que los criterios primarios. Alrededor del diez por ciento de todas las directrices corresponden a esta categoría «secundaria», que significa que los evaluadores no necesitan seguirlos si creen que no son prácticos, ni tienen que explicar por qué no los han seguido. Naturalmente, si los evaluadores se concentran en los criterios primarios, su práctica será tan correcta y estará tan bien docum entada que la falta de los criterios secundarios n i se notará;

Code of Fair Testing Practices in Education...

El segundo aspecto tiene que ver con el entorno educativo en el que se utilizan las pruebas. En Estados Unidos existe una gran dependencia del uso de pruebas normalizadas; una serie de preocupaciones sobre los problemas qu e pueden resultar de este tipo de evaluación es lo que llevó, en primer lugar, al desarrollo de los criterios. En otros entornos, las pruebas normalizadas pueden ser menos corrientes y presentar, por tanto, menos causas de preocupación sobre posible abusos o usos erróneos. Sin embargo, la familiaridad con los criterios es útil para los evaluadores o profesores de idiomas, para los evaluadores de programas y para los investigadores de lingüística que necesiten elaborar o utilizar pruebas de idiomas, y no pretendemos excusamos por haber tratado este conjunto de criterios en detalle.

11.3. Code of Fair Testing Practices in Education (Código para una buena práctica en evaluación educativa) (1988) 11.3.1. Antecedentes A principios de los años ochenta, durante el periodo en que los Criterios de evaluación educativa y psicológica estaban en el estadio de revisión final, la APA empezó a preocuparse por la cantidad de críticas dirigidas hacia la práctica de la evaluación en Estados Unidos y sobre el volumen de legislación y los litigios relacionados con los exámenes y su uso. Aunque la edición revisada de los Criterios iba a tener en cuenta el papel cambiante de las pruebas en la sociedad, algunos miembros de la APA creyeron que sería útil centrarse en cómo mejorar la práctica de la evaluación. Se celebró una conferencia en 198 4, que co ngregó a representantes de la APA, de la AERA, de NCME, de la Canadian Psychological Aaoaation y a 23 ed itores de prueb as. Se constituyó el Joint Committee on Testing Practices (JCTP) y se formó un grupo de trabajo que estudiara la posibilidad de crear un código de comportamiento para evaluadores. El resultado de su trabajo fue el Code of Fair Testing Practices in Education (Diamond y Fremer, 1989: pass im ).

11.3.2. Propósito El propósito del Código es «establecer las principales obligaciones hacia los candidatos y hacia los profesionales que elaboran o que utilizan pruebas en educaci ón» (JCTP, 19 80 : 1). No es intenció n del Código el mo dificar o com plem entar él documento sobre criterios del año 1985, sino el subrayar ciertos aspectos tratados, en particular los relativos al uso correcto de las pruebas en educación. Como los Criterios, el Código está preocupado sobre todo por las pruebas elaboradas de forma profesional, incluyendo las producidas por editores comerciales, más que por las pruebas a pequeña escala elaboradas por profesores o escuelas. Está redactado en un estilo que pretende ser comprensible para el público en general; de hecho, su parte introductoria afirma que debe ser «significativo para los candidatos y/o para sus padres o tutores» (página 2).


11.3.3. Objetivos El Código especifica directrices para los redactores de pruebas y para su s usuarios. Considera que los redactores son « las personas que elaboran la prueba así como las que diseñan la política de uno s program as de evaluación en particular», y que los usuarios son «las pe rsonas que seleccionan pruebas, encargan su elaboración, o toman decisiones a partir de las notas de las m ism as» (página 1). Reconoce que estos papeles pueden solaparse en ocasiones, com o se daría en el caso de que el Ministerio d e Educación decidiera elaborar un nuevo exam en para complementar un nuevo programa de enseñanza a escala nacional, y utilizara los resultados de la prueba para juz gar la eficacia del programa.

11.3.4. Organización general El Código presenta las obligacione s de lo s redactores d e pru ebas y de sus usuarios en cuatro grandes áreas: A. B. C. D.

Elaboración/Selección de pruebas apropiadas Interpretación de resultados Criterios de equ idad Información a los usuarios

En los apartados A—C estas resp onsabilidade s se presentan en colu mnas paralelas; cada enunciado d irigido a un redactor se empareja con el correspon diente enunciado para el usuario. Generalmente se pide al redactor que facilite la información al usuario (definiciones, descripciones, explicaciones, testim onios, muestras de pruebas, informes claros de los resultados y recomen daciones) , y al usuario se le pide que considere toda esta inform ación antes de decidir qué prueba será la más apropiada para la población. El redactor también deb ería revisar los m ateriales de la pru eba p ara evitar la parcialidad hacia cualquier grupo de la población, y el usuario debería evaluar los procedimientos u tilizados y los resultados ob tenidos po r los redactores y utilizar los mejores materiales o procedimientos facilitados para asegurar que la prueba es justa para todos. El apartado A contiene oc ho directrices para los redactores y usua rios. El apartado B, cinco, y el apartado C, tres. A continuación se incluyen algunas directrices del apartado A, para m ostrar cóm o se presentan y cómo se corresponden las que van d irigidas a los redactores con las que se dirigen a los usuarios. Los redactores deberían:

L o s u s u a r i o s d e b e r ía n :

1. definir lo que mide cada prueba y para qué debe utilizarse. Describir la población para la que la prueba es adecuada.

1. definir prim ero el pro pó sito de la evaluación y la población q ue va a ser evaluada. A continuación, seleccionar una p rueba para tal

Code of Fair Testing Practices in Education..,

2. representar de forma adecuada las características, la utilidad y las limitaciones de las pruebas para los prop ósitos previstos.

2. investigar fuentes de información potencialmente útiles, además de los resultados obtenidos, para corroborar la información que proporcionan las pruebas.

3. explicar los conceptos necesarios y relevantes en evaluación con la claridad y el detalle adecuados al público.

3. leer los m ateriales facilitados por los redactores de la prueba y evitar utilizar prueba s de las que se facilita información incompleta o poco clara.

4. describir el proceso de elaboración de la prueba. Explicar cóm o se seleccionaron el contenido y las destrezas que se evalúan.

4. familiarizarse con el cómo y el cuándo se elaboró y ensayó la prueba.

5. facilitar evidencia de que la prueba cumple con el propósito previsto.

5. leer evaluaciones independientes de la prueba y de otras alternativas posibles. Buscar la información necesaria para co nfirmar las conclusiones de los redactores de la prueba.

En el apartado D h ay cinco directrices. Sin em bargo , en esta sección los redactores y los usuarios tienen las mismas obligaciones, que tienen que ver con facilitar a los qu e van a hacer la prueb a la información que necesitan para decidir, ante todo , si se presentan a la misma , familiarizarse con el nivel exigido, obtener copias de la prueba una vez realizada, solicitar una nueva corrección, presentar una reclamación, etc. 7 7 .3.5. Comentario

El Code of Fair Testing Practices in Education pretende reforzar muchos de los principios que ya aparecieron por primera vez en los Criterios APA/AERA/NCME, pero se limita a las pruebas de educación. Aunque sienta principios para los responsa bles de la elaboración de pruebas, va d irigido en realidad a los usu arios de las pruebas y a los candidatos, dándoles aquella información a la que tienen derecho antes y después de la administración de una prueba. El formato de los principios es fácil de utilizar y el lenguaje no incluye términos técnicos. Como en los Criterios, en el Código se utiliza el término «debería» en lugar de «debe», más obligatorio; sin embargo, insiste en las obligaciones morales de los responsables de la prueba y de los usuarios, una vez que han decidido cumplir el Código: Las organizaciones, las instituciones y aquellas personas que suscriben el Código se comprometen a defender los derechos de los candidatos siguiendo los principios listados (página 2).

Criterios de la evaluación de lenguas: el estado de la cu estión

Al contrario del documento de los Criterios, el Código otorga el mismo peso a todas sus directrices: no se discute sobre qué criterios pueden ser deseables aunque no prácticos en la vida real. Esto puede ser debido a que el Código pretende operar a un nivel general, mientras que el documento de los Criterios da recomendaciones mucho más técnicas y detalladas. 7

1.3.6. ALTE Code o f Practice (Código de comportamiento de ALTE)

El Código de JCTP ha influ ido en la evaluación de idiom as en cuanto que h a sid o la base para el ALTE Code of Practice (1 9 9 4 ). ALTE es la Association of Language Testers in Europe, un grupo que facilita exámenes de idiomas. Las lenguas que evalúan los m iem bro s de esta asociación incluyen el catalán, el danés, el holandés, el francés, el alemán, el italiano, el portu gué s y el español. La asociación pretende, entre otras cosas: ... establecer criterios com unes en todos los estadios del proceso de evaluación de idiomas; es decir, durante el proc eso de redacción, administración, corrección, puntuación, publicación de resultados, el análisis de los m ism os y redacción de las conclusiones (página 2).

ALTE ha adoptado este Código «para hacer explícitos los criterios que pretende cumplir, y para reconocer públicamente las obligaciones bajo las que opera» (página 3). El Código está inspirado de cerca en el de JCTP y utiliza mucha de su terminología. Se dirige a los responsables de la elaboración de exámenes, a sus usuarios y a los candidatos, y cubre las mism as áreas que el JCTP. Sin emba rgo, es interesante su tono. Con referencia a los responsables de los exámenes, el Código dice, para cada apartado: «En la práctica, esto significa que los miembros de ALTE garantizarán lo siguiente: ...» (ib., passim). Este nuevo código para los responsables de exámenes debe ser bienvenido; será interesante ver cóm o pued e llevarse a la práctica y cóm o p uede supervisarse.

11.4. ETS Standards for Quality and Fairness (Criterios de calidad y de equidad de ETS) (1987) 7

1.4.1. Antecedentes

En 1981, el Educational Testing Service (ETS) de Estados Unid os ad optó los ETS Standards for Quality and Fairness. El propósito del documento era hacer explícitos los principios, la política y las directrices que el ETS pretendía seguir en su deseo de asegurar «transparencia en la evaluación, información al público, calidad y equidad» (página iii). Los Criterios del ETS se encontraban entre los documentos consultados por el Standards Revisión Committee de AERA/APA/NCME a principios de los años ochenta, cuando estaban intentando actualizar sus propios

E T S S ta n d a r d s f o r Q u a l i ty a n d F a i r n e s s . . .

de los criterios revisados cuando empezó a reescribir su propio documento. Al hacer esto, el ETS pretendía mantenerse « al frente de la evaluación y de las últi mas teorías en la profesión» (página iv). 11.4.2. Propósito Los Criterios del ETS pretenden garantizar el producto y los servicios de una orga nización en particular. Contienen criterios explícitos para juzgar la actuación de los profesionales de la evaluación, en cuanto a los principios, la política y las directrices. El ETS deja muy claro, sin embargo, que sus Criterios se han redac tado teniendo presente el propio ETS; por ello, quizá no puedan aplicarse a otros organismos o a otras personas. 11.4.3. Organización general

Los Criterios del ETS se dividen en siete secciones distintas: Responsabilidad ante el público. —Confidencialidad de los datos. —Control de calidad en cuanto a ade cuación y tiem po. —Investigación y desarrollo. -Pruebas y medición. - U so de la prueba e Información al público. Los tres primeros apartados incluyen afirma ciones relevantes para todas las actividades que lleva a cabo el ETS, mientras que los cuatro restantes son relevantes para áreas específicas. Cada apartado contiene una definición de los principios que el ETS pretende seguir y de la política que quiere mantener. Éstos van seguidos de directrices detalladas que marcan exac tamente qué debe hacerse para asegurar pruebas y servicios de alta calidad. Casi un tercio del documento está dedicado al tema de las pruebas y su medi ción. Este apartado contiene directrices detalladas que se refieren a la validez, a la elaboración y a la administración de pruebas, a la fiabilidad, a la definición de escalas, a la nivelación y a la interpretación de resultados. Reproducimos a continuación las últimas cinco entradas del apartado «Elaboración de prueb as», para dar una idea del nivel de detalle: 10. Evaluar el comportamiento de cada edición de la prueba mediante: —análisis apropiados y oportunos de pruebas y de ítems, incluyendo análisis de fiabilidad, correlación entre secciones o partes y velocidad; —comparación de las características de la prueba con sus especificaciones psicométricas. 11. Revisar periódicamente la adecuación del modelo de respuesta al ítem y la muestra utilizada para estimar los distintos parámetros, cuando se utilicen procedimientos de la teoría de respuesta al ítem para elaborar, puntuar o nivelar la prueba. 12. Revisar el contenido de la prueba y de las especificaciones periódicamente para garantizar que todavía son relevantes y apropiadas para el ámbito que se pretende evaluar. 13. Revisar periódicamente todas las ediciones de la prueba todavía en activo pero elaboradas en años anteriores y sus descripciones en las publicaciones para garantizar que todavía son adecuadas en cuanto a contenido y lenguaje para los posibles candidatos y el ámbito de la

C riterios de k evaluación de lenguas: el estado de la cuestión

14. Analizar los cambios importantes de las especificaciones de la prueba para garantizar que se consideren debidamente las consecuencias que puedan tener en la comparación de resultados y para determinar si son necesarios cambios en cuanto a terminología o si debe advertir a los usuarios sobre las diferencias que existan con las pruebas anteriores (página 12). 1 1.4.4. Características distintivas

Hay dos características que distinguen a los criterios del ETS del resto de crite rios que presentamos: el hecho de que representan una «política corporativa» y el hecho de que se incluye un mecanismo de regulación en la estructura orga nizativa del ETS que garantiza el cumplimiento de los criterios. En la introdu cción al docum ento, el ETS reconoce qu e sus criterios «refle jan y adoptan» los de AERA/APA/NCME. Sin embargo, el ETS también deja claro que sus criterios están pensados para su prop io entorno profesional: « ... los cri terios pueden no resultar útiles para las organizaciones cuya práctica, progra mas o servicios sean distintos de loS de ETS» (página vi). El ETS mismo es el primer juez que interpreta si ha seguido la política y las directrices de forma satisfactoria; sin embargo, la organización también se somete a un proceso de auditoría elaborado y riguroso, por el que inspectores indepen dientes extemos valoran si la actuación del ETS en distintas áreas evalúa de acuerdo con sus propios criterios. El comité auditor informa a la ETS Office of Corporate Quality Assurance, que resume el informe de la asesoría y la solución o soluciones que el personal del ETS ha adoptado ante el informe. Este resumen se somete a perso nas y a com ités q ue pertenecen a los puestos altos de la jerarquía organizativa. El ETS también invita a un «c om ité visitante» a que evalúe su comp ortamiento con respecto a los criterios. Este comité está formado por «personalidades dis tinguidas del ám bito ed ucativo, exp ertos en el cam po de la evaluación y repre sentantes de organizaciones que han sido críticas con el ETS en el pasado» (página iii). Este comité también prepara un informe para el ETS, que publica la organización y que se da a conocer a los me dios de comun icación y a todos aquellos que p iden una copia. Está claro que en el contexto del ETS, el término «c riter ios» supo ne m ás que una connotación moral: como existe un mecanismo de regulación dentro de la política de la organización, los criterios se parecen más a unas reglas que a unas directrices. Sin embargo, las reglas no son mecánicas. Hay espacio para la inter pretación (por ejemplo, «el ETS elaborará pruebas que sean lo suficientemente fiables para su uso o uso s p rev istos»), y los responsables de la prueba tienen ocasión de exphcar cómo se han interpretado ciertas definiciones y porqué no han podido seguir ciertos procedimientos. 11.4.5. Comentario

Los criterios del ETS son claros y comprensibles: se han escrito para profesio nales de la evaluación más que para el público en general, pero su organización

Standards for Educational Testing M etho ds...

páginas q ue clarifica los térm inos clave utilizados en las directrices que se deben seguir durante el proceso. La cobertu ra de los criterios es también am plia. El ETS trata la calidad técnica de las prueba s y sus respon sabilidades hacia los usuarios y los candidatos; además el ETS trata temas relacionados con la accesibilidad de la información para investigadores y para el público en general. Sin embargo, la característica más importante de estos criterios no es su redacción o su cobertura, sino el hecho de que se escribieron para ser cumphdos. Puesto que el no cumplirlos, si no se explica de forma m uy convincente, puede traer serias consecuencias (incluyendo la reducción del programa), los profesionales del ETS deben considerar de form a muy cu idadosa todos los pasos que siguen a la hora de preparar un producto para su público y no pueden p ermitirse a sí mismos ni a sus colegas caer en la complacencia. No está claro si tal control sería posible o incluso deseable para los evaluadores en general. Este es uno de los temas que debe considerarse en futuros debates sobre criterios.

11.5. Standards for Educational Testing Methods (Criterios para métodos de evaluación en educación) (1986) 11.5.1. Antecedentes

En 1 986 Nevo y Shoham y escribieron sobre una adaptación que habían hecho de los Standards for Evaluación of Educational Programs, Projects and Materials (198 1). Estos criterios los había desarrollado a lo largo de los años el Joint Committee on Standards for Educational Evaluation, compuesto por miembros de AERA, APA, NCME y otras nueve organizaciones. Se redactaron para servir como guía a los profesionales relacionados con la evaluación de programa s educativos y se pretendía que el establecimiento de un conjunto de principios com unes con tribuyera a la mejora de la práctica de la evaluación en el campo de la educación. El Comité redactó un a lista de 30 criterios, divididos bajo cuatro grandes titulares: criterios de utilidad, de viabilidad, de adecuación y de corrección. Dedicaron un capítulo a cada uno de los criterios, con una definición formal del criterio, un prólogo explicando por qué era importante, directrices para los investigadores para cumplirlo, una lista de posibles dificultades, una lista de advertencias y un historial de casos problemáticos que tuvieron los investigadores en el pasado cuando no eran conscientes del criterio o no lo siguieron. El historial va acompañado de consejos para ayudar a futuros investigadores a evitar los mismo s problemas. Nevo y Shohamy intentaron extender tales criterios a los m étodos de evaluación. A partir de los 30 criterios originales del comité, elaboraron una lista de 23 que creyeron adecuados para la evaluación. Se eliminaron algu nos criterios originales, se combinaron otros, y se añadieron uno o dos nuevos. Al igual que el comité, dividieron sus criterios en cuatro apartados. Organizaron estos apartados en un orden distinto, pero dejaron los criterios más o men os agrupados de la mism a forma que en el documento original. Todos los criterios se redactaron de nuevo para adaptarlos a los métodos de evaluación y no a los programas de evaluación.

-------- ----------------------------------------- ----------------------------------------- —

Criterios de la evaluación de lenguas: el estado de la cuestión Nevo y Shohamy no se contentaron con una mera form ulación de los criterios: decidieron pone rlos en práctica con profesionales relevantes. Pidieron a dos gru pos que estudiaran los criterios y que los utilizaran para ordenar cuatro métodos de evaluación alternativos que se estaban considerando para un nuevo examen a escala nacional. El primer gru po consistía en miem bros de la organización que iban a tomar la decisión final sobre qu é métodos se incluirían en el nuevo examen; un segundo grupo consistía en expertos en el terreno de la evaluación que asistían a un congreso sobre evaluación. También diseñaron un examen de muestra que contenía los cuatro métodos de evaluación que estaban considerando. Este examen se administró a 1.000 alumnos para averiguar no sólo cómo funcionaban las prue bas en el mundo real, sino también para facilitar una base que permitiera discriminar si los nuevos criterios podían utilizarse para evaluar tales métodos.

11.5.2. Organización general Los criterios resultantes se organizaron de la forma siguiente:

1. Criterios de utilidad Los criterios de utilidad pretenden «garantizar que un m étodo de evaluación esté al servicio de las distintas necesidades de información práctica que tienen algunos grupos». Los aspectos que se tratan en este apartado son identificación del público, credibilidad del evaluador, amplitud de información, justificación de los criterios, claridad del informe, distribución del informe, pertinencia temporal del informe e impacto de la evaluación. 2. Criterios de precisión Los criterios de precisión pretenden «garantizar que un método de evaluación revele y transmita información técnicamente adecuada sobre los logros educativos de aquellos a los que se evalúa». Los problemas analizados en este apartado son la medición válida, la medición fiable, las condiciones de evaluación, el análisis de datos y los informes objetivos.

3. Criterios de viabilidad Los criterios de viabilidad se proponen «garantizar que un método de evaluación sea realista, prudente y econó m ico». Los problemas analizados en este apartado son los procedimientos prácticos, la viabilidad política y el coste adecuado.

4. Criterios de equidad Estos criterios pretenden «garantizar que un método de evaluación se lleve a cabo de forma legal, ética y con la debida consideración hada el bienestar de los candidatos y de los afectados por los resultados». Los problem as presentados aquí son los criterios aceptados, los derechos humanos, el derecho a conocer, los conflictos de intereses,

S t a n d a r d s f o r E d u c a t i o n a l T e s ti n g M e t h o d s . . .

11.5.3. Comentario

Aunque las prop uestas de Nevo y de Shoham y tratan aspectos técnicos de la eva luación (com o po r ejemplo B - l, m edición válida: « La evaluación se lleva a cabo med iante instrumento s y procedim ientos qu e facilitan inform ación válida para un uso concreto»; y B-2, medición fiable: «La evaluación se lleva a cabo mediante instrum entos y proc edimien tos qu e facilitan información viable para un uso concreto»), muestran mayor interés en el contexto de la situación de evaluación y la consideración que la prueba en sí merece al público; los infor mes ; el efecto de la prueb a en los candidatos, la educación y la sociedad. La via bilidad política de un a prueba (C-2: «La evaluación se planifica y se lleva a cabo teniendo en cuenta las distintas posiciones de los diversos grupos de interés, para pod er obtener su coo peración ») es un problem a que no aparece en otros conjuntos de criterios de evaluación. En el docum ento original del comité, el criterio se presentaba de la sigu iente forma: La evaluación se debería planificar y llevar a cabo teniendo en cuenta las distintas posicion es de los diversos gru pos de interés para poder obtener su cooperación y poder controlar o contrarrestar cualquier posible intento por parte de uno de estos grupos de acortar las operaciones evaluativas o de aplicar los resultados de forma parcial o errónea (página 56).

Es interesante que Nevo y Shohamy no hayan incluido la segunda parte del criterio original, en el que se recon oce claramente que las evaluaciones educa tivas pueden utilizarse como armas políticas y que los evaluadores necesitan ser conscientes de todas las formas posibles en que puede hacerse un uso erróneo de su s evaluaciones para pode r prever cualquier irregularidad. Tanto los Criterios de AERA/APA/NCME como el Code of Fair Testing Practice tie nen apartados que hacen referencia al posible uso erróneo de las pruebas, pero no está claro si se refieren al uso erróneo co mo resultado de la ignorancia o de la falta de cuidad o, o si reconocen q ue hay partes que podrían utilizar la infor mación de forma errónea deliberadamente tal como está implícito en el crite rio citado m ás arriba. La pregunta para el futuro es si los peligros qu e existen para los evaluadores en el cam po de la educación también existen para los redac tores y usuarios de pruebas, y si los criterios en evaluación deberían incluir directrices para ayudar a las personas relacionadas con la evaluación a capear los problemas de la Realpolitik. En lo que respecta a la aplicabilidad del nuevo conjunto de criterios a los m étodos de evaluación, Nev o y Shohamy concluyen que sus criterios podrían adoptarse y utilizarse com o u n «m arc o para analizar y evaluar los m éritos de los méto dos de evaluación alternativos» (página 157 ). Afirman que consideran su trabajo sólo « co m o u n intento parcial de estudiar el alcance de los criterios», y animan a otros investigadores a llevar a cabo investigaciones más sistemáticas en esta área.


11.6. SEAC's Mandatory Code of Practice (Código de comportamiento obligatorio de SEAC) (1993) 11.6.1. Antecedentes The Schools Examination and Assessment Council (SEAC) fue fundado por el gobierno del Reino Unido en los años ochenta para regular los criterios y los procedimientos de elaboración de exámenes en el contexto del National Curriculum para escuelas de enseñanza prim aria y secundaria de Inglaterra y Gales. A partir de entonces se ha reorganizado y se ha cambiado su nombre por el de Schools Curriculum and Assessment Authority (SCAA). En Inglaterra y Gales, a la edad de 16 años los alumnos de secundaria deben presentarse a unos exámenes que, para muchos, marcan el final de sus estudios: las pruebas para obtener el General Certifícate of Secondary Education ( G C S E ). Tales exámenes son elaborados por distintos g rupos u organismos examinadores, que a lo largo del tiempo han producido gran número de currículos, exámenes y prácticas evaluativas distintas. Con la aparición del National Curriculum, se vio la necesidad de racionalizar esta pluralidad de programas y de sistemas, y de regular la preparación y validación de exámenes por parte de los distintos grupos. A finales de los años ochenta, el Secretario de Estado para Educación pidió a SEAC que preparara un código de comportamiento para la administración de los exámenes del GCSE en Inglaterra y Gales. «Se requiere el cumplimiento del código para la aprobación de las calificaciones del GCSE y de los currículos asociados, según el apartado 5 de la Ley de Reforma Educativa de 1988» (SEAC, prólogo).

11.6.2. Propósito El Mandatory Code pretende garantizar la «calidad y consistencia en el proceso de evaluación para tod os lo s gru pos que ofrecen las pruebas del CGSE. Garantizará que los criterios de puntuación sean constantes para cada asignatura en tod os los tribunales de exámenes y con los distintos currículos en diferentes años» (loe. d t.) .

11.6.3. Organización El Código de comportamiento obligatorio está div id id o en seis apartados, com o sigue: 1. Responsabilidades de los grupos examinadores y del personal del grupo examinador Define los papeles del consejo rector del grupo, su jefe ejecutivo, los responsables de grupo examinador, el presidente de los examinadores, el examinador jefe, los examinadores titulares, los revisores, los asesores, los examinadores adjuntos y los supervisores principales y adjuntos. 2. La Administración de los exámenes y los esquemas de puntuación provisionales para los exámenes finales y las pruebas de fin de módulo Este apartado trata sobre cómo deberían garantizar los grupos examina-

SEAC's M andatory Code of Pra ctice...

vo s de evaluación y que se man tengan lo s criterios en los distintos currículos. Incluye detalles sobre cómo debe llevarse a cabo la redacción final de la prueba y el proceso de revisión. 3. Unificación de criterios de puntuación: exámenes finales y pruebas de fin de módulo Pretenden asegurar la fiabilidad de la puntuación estipulando un sistema de grupos de corrección y de formación , el proceso de unificación de criterios y el sistema de supervisión de la puntuación, al igual que el reajuste final de puntuaciones a partir de los problemas surgidos con examinadores. 4. Evaluación del trabajo de clase y moderación Cubre la superv isión externa de los criterios de evaluación del trabajo de clase entre centros de administración de pruebas o escuelas. Detalla la necesidad de la formación del profesorado y de la supervisión de las tareas encom endada s sobre el trabajo de clase, así com o la unificación de crite rios en la puntuación y la moderación de resultados entre centros. 5. Fijación de los límites de calificación o nivel Trata de los pro cedimien tos que han de seguirse para garantizar quedos cri terios de calificación o nivel se mantengan con el tiempo y con los distintos currículos. Estipula qué infor mació n debería tenerse en cuenta para deter minar los límites de calificación o nivel, y cómo deben fijarse y revisarse. 6.

La evaluación de la ortografía, de la puntuación y de la gramática Refleja la preocupación del Gobierno de que los niveles de ortografía, puntuación y gramática deben mantenerse o mejorarse, y define la pro porción de puntos que deben darse a la actuación en estas áreas, sin tener en cuenta la asignatura que se evalúa. Esto afecta a los exámenes, a las pruebas de final de módulo y al trabajo de clase.

11.6.4. Comentario

Quizá la característica más destacada de este Código de comportamiento es que sea prescriptivo, es decir, legalmente o bligatorio. Todavía no se sabe cóm o funcio nará, cómo se aplicará y se supervisará, y qué sanciones se impondrán si hay un grupo que no cumple con alguno de sus requisitos. Será interesante ver su evo lución a lo largo del tiempo. El segund o punto que h ay qu e c onsiderar es que este Código se refiere a prue bas o exámenes orientados a medir el aprovechamiento, cuyos currículos fun cionan como programas de enseñanza en las escuelas y cuyo contenido está definido por ley a través del National Curriculum. Así pues, el Código afecta igual mente a la evaluación del trabajo de clase y de las pruebas de fin de módulo y a los exámenes. Dado que el inglés como lengua extranjera no forma parte del National Curri culum, las pruebas de esta materia no se ven afectadas por el Código, aunque sí se verá afectado el inglés c om o leng ua materna, al igual que otras lenguas moder-


ñas. Está por ver si los tribunales que elaboran exámene s de inglés para extran jero s de cide n voluntariamente adherirse a este códig o; a nos otros, por nuestra parte, nos gustaría poder analizar de cerca los motivos de cualquier centro que decida no extender este código (que, según se dice, está basado «en la mejor práctica evaluativa») a las asignaturas no reguladas, p or ejem plo el inglés com o lengua extranjera. Finalmente, es interesante señalar que el gobierno del Reino Unido ha con siderado adecuado legislar sobre la evaluación de parte del uso de la lengua inglesa, mientras ignoraba otros muchos aspectos. El cinco por ciento de la pun tuación de cada sección escrita de los exámenes (excepto en las partes de res puesta múltiple y en las que deben responderse en una lengua extranjera) corresponde a la ortografía, la puntuación y la gramática, de acuerdo con tres criterios de actuación: umbral, intermedio y avanzado. El hecho de que unos criterios acordados intemacionalmente se impongan de una manera tan prescriptiva es un punto discutible, que trataremos en el próximo apartado.

11.7. ¿Qué deberíamos esperar de unos criterios? Mencionamos antes que habíamos seleccionado seis conjuntos de criterios en particular porque eran buenos ejemplos del tipo de trabajo que se ha hecho en el pasado reciente y porque cada uno de estos conjuntos añade algo nuevo a nuestra comprensión de lo que los criterios pueden y deben ser. El comentario al final de cada descripción discute los que co nsideramos pun tos fuertes y déb i les de cada conjunto de criterios, y no los vamos a repetir aquí. Lo que vamos a hacer, sin emb argo, es facilitar una lista de preguntas que, en nuestra opinión, debería hacerse cualquier organización a la hora de elaborar sus propios crite rios en el futuro. ¿Es necesario crear otro conjunto de criterios? ¿Qué hay de malo en los que ya tenemos? Si la respuesta es que los criterios existentes no incluyen la evaluación de idio mas, ¿qué es lo que falta? Si la respuesta a esta pregunta está relacionada con una visión en particular de la lengua o de la metod ología, ¿llegaremos a un acuerdo sobre qué contenido y metod ología son m ejores y perdurarán más, cuando la mo da cambie y afecte a nuestra idea de cuál es el contenido o la metodología más apropiada? ¿Habrá un conjunto de criterios que se adapte a toda la gama de pruebas ofer tadas, o los criterios adecuados para un tipo de pruebas obligarán a asumir el mism o esque ma para otro tipo de pruebas (por ejemplo, pruebas de ítems d is cretos comparadas con pruebas basadas en la actuación) ? ¿Los criterios deberían ser totalizadores? ¿Deberían limitarse a los instrumentos de evaluación y a los procedimientos empleados o deberían preocuparse por la utilización de los resultados de las pruebas? ¿Deberían ir incluso más allá y faci litar directrices para tratar la realidad política y las intenciones dudosas de mucha

Estado de la cuestión en la evaluación del inglés...

¿Los criterios deberían ser muy detallados? ¿Dónde se traza la línea entre el detalle esencial y la trivialidad? ¿Qué tipo de lengua debería usarse: lengua comprensible por los evaluadores o lengua que puede comprender el público en general? ¿En qué idio m as deberían redactarse, y quién hará las traducciones? ¿Los criterios deberían ser idealistas? ¿Deben describir un mínimo de buena práctica o el máximo? ¿Hasta qué punto deben ser o pueden ser prescriptivos? ¿Debe haber irnos criterios más prescindibles que otros? La distinción entre primarios, secundarios y condicionales, ¿es útil o confunde? ¿Deberían ser obligato rios? Si éste es el caso, ¿quién se ocupará de hacerlos cum plir? Si la respuesta es negativa, ¿cómo podemos asegurar que todas las partes harán lo posible para que se cumplan? ¿Hay alguna manera de «comprobar» los criterios para averiguar si son efectivos?

11.8. Estado de la cuestión en la evaluación del inglés como lengua extranjera en el Reino Unido En este libro hemos presentado los resultados de un informe sobre los tribunales de exámenes de inglés como lengua extranjera en el Reino Unido para ilustrar la práctica habitual de la evaluación en un área geo gráfica. Creemo s que nuestro informe cubre los exámenes más significativos de inglés com o lengua extranjera del Reino Unido y es representativo de la práctica habitual de la evaluación en este país. Los resultados del informe muestran algunos de los procedimientos seguidos por to dos o p or la mayoría de los tribunales y otros en los que hay más variación. Las áreas de coincidencia más importante son: la disponibilidad de las descripciones del contenido del examen; los criterios utilizados para nombrar redactores de ítem s o de pru ebas y la naturaleza de su relación contractual con los tribunales; el proceso de redacción final o de mod eración; la produ cción de distintas versiones cada año; los criterios para el nom bramien to de e xamina dores; la ausencia de corrección «objetiva» o administrativa; la existencia de sesiones de unificación de criterios para examinadores; el cálculo, aunque sólo de forma ocasional, de una estimación de la fiabilidad del examinador; la producción (aunque no siempre se difunden) de los informes del examinador jefe; y la recogida de comentarios sobre los exámenes, normalmente por parte de los tribunales de exámenes y, a veces, de los profesores. La mayoría de los tribunales cree que los criterios psicométricos son relevantes para los exámenes del Reino Unido, aunque no quedó claro en el informe si creían que sus exámenes cumplían tales criterios. Las áreas más significativas en las que la práctica varía de for ma considerable son: los ensayos previos de los ítems y de las preguntas; la validación de la prueba; los proce dim ientos para garantizar la equivalencia de las distintas versiones de los exámenes; la formación y la supervisión de los administradores;


la doble corrección de todos los escritos; la existencia de reuniones para fijar las puntuaciones; la disponibilidad de los informes de los examinadores jefes; y el cálculo y d ispon ibilidad de estadísticas sobre la realización de la prueba. Algunos análisis mostraron, sin embargo, que el acuerdo puede, en algunos casos, ser más aparente que real. Así, por ejemplo, aunque la mayoría de los tribunales calcula la fiabilidad del corrector, la frecuencia con la cual se calcula, cómo se calcula, y qué ocurre con los resultados varía de forma considerable. De forma parecida, aunque la doble corrección tiene lugar en la mayoría de los tribunales, lo que éstos entienden por doble corrección varía, siendo en mucho s casos poco más que un control de algun os exam inadores llevado a cabo por el exam inador jefe. Aunque la mayoría de los tribunales tienen sesiones de unificación de criterios para correctores, lo que realmente ocurre en estas reuniones varía. Necesitaríamos llevar a cabo una inspección mucho más detallada de las actividades de cada tribunal para llegar a una descripción precisa de lo que ocurre en realidad. Así pues, aunque no n os abstenem os de emitir un juicio, es probable que una evaluación justificada de la calidad de los proc edim ientos de control de calidad deban esperar a esta inspección detallada. Esto sería sólo p osible contando con la colaboración de lo s tribunales, y sólo tendría sentido llevarla a cabo si hubiera coincidencia entre lo que debería ocurrir durante la produ cción de la prueba y su adm inistración y lo que el investigador quiere averiguar. Los distintos criterios que hemos visto en este capítulo son puntos de referencia obvios. Los resultados del informe parecen demostrar que en general hay información disponible sobre el contenido de los exámenes pero que el tipo de información y el grado de detalle que contiene varía de forma considerable. Las recomendaciones dirigidas específicamente a los candidatos están ausentes, y po cos centros dan ejemplos de las actuaciones de los alumnos en exámenes previos. Aunque la mayoría de los centros argumentan que existe un «a nálisis de necesidad es» que justifica o guía la elaboración de sus exámenes, la naturaleza de tales análisis parece que varía mucho. La mayoría de los centros parecen interpretar el término «anáfisis de resultados» de form a equivalente a «pregunta r a los profesores». Los redactores de ítems son por lo general profesores titulados y experimentados en inglés como lengua extranjera, que se consideran en contacto con las corrientes de pensamiento existentes en la profesión y son, por tanto, capaces de incorporar tales ideas a los exámenes. La falta de redactores profesionales a tiempo com pleto pue de también verse com o una forma de garantizar este contacto con la profesión. Los redactores reciben una cantidad considerable de directrices relativas al contenido y al método de la prueba. Existen procedimientos de mod eración y d e revisión final de la prueba, p ero es difícil determinar lo concienzudos que son. Es posible que varíen entre tribunales, entre los distintos comités, y en particular entre los examinadores jefes. En otras palabras, mucho depende d e la calidad de las opinion es de person as individuales. En particular, no se conoce la minuciosidad de los procedimientos para comparar el contenido de la prueb a con el currículo. Adem ás, no está claro hasta qué punto

Estado de la cuestión en la evaluación del inglés...

La ausencia extendida de ensayos previos es causa de considerable preocupa ción, puesto que los ensayos previos pueden corroborar o n egar el valor de las opiniones de los revisores, los m oderado res y los examinadores. En la actuali dad parece que incluso cuando se realizan ensayos previos sólo se incluyen los ítems de respuesta objetiva, y debem os recordar qu e la may oría de los tribuna les no los utilizan. En cualquier caso, no hay ninguna razón po r la que las prue bas de respuestas abiertas u otros tipos de prueba no pueden someterse al rigor de los ensayos previos. Es preocupante la ausencia de evidencia empírica, que no sea anecdótica, que valide los exám enes de algun os tribunales, así com o la idea de que no to dos los tribunales comprenden lo que se entiende por validación, validez y fiabilidad. Puede darse el caso de que los exámenes sean válidos, pe ro la validez debería ser el sujeto de la investigación, no la comprobación. Incluso cuando se dice que se ha llevado a cabo una validación, mucho s reconocen que se ha hecho de forma « imp resionista y de manera anecdótica», por ejemplo aduciendo que las «co m pañ ías y las universidades parecen contentas». Algunos centros reivindi can la realización de estudios de validación, pero no dan detalles, con lo que debem os ser escépticos. La equivalencia de las distintas versiones de lo s exám enes parece estar garanti zada por el uso de los procesos de revisión y moderació n, por la referencia al currículo, y por el uso de los m ismos redactores de ítems y comités de redacción durante un período de tiempo determinado. Es posible que cuando éste sea el caso, los pr o cedimientos para la adjudicación de calificaciones finales que tienen en cuenta el comportamiento de los candidatos en exámenes de años anteriores pudiera con tribuir a la comparación de la dificultad de la prueba a lo largo de los años, pero en cualquier caso, no todos los centros llevan a cabo estos procedimientos. De form a similar, h ay falta de datos sobre la fiabilidad de las pruebas y la fia bilidad de la corrección. Se toman med idas para form ar y supervisar a los correc tores pero parece que se presta poc a atención de form a sistemática a la hora de ver si los procedimientos de formación y de supervisión han sido eficaces. De nuevo, debería medirse la fiabilidad, no sólo afirmarla. Parece ser que alrede dor de la mitad de los centros que respondieron calcula estadísticas sobre la actuación de los correctores, pero no hemos tenido acceso a las mismas. La corrección doble auténtica es poco habitual. Los tribunales de exámenes afirman que sus pruebas están basadas en lo mejor de la docencia actual y que tienen un efecto positivo sobre la enseñanza, pero no sabemos qué es lo mejor de la docencia actual ni hemos visto evidencia del efecto de rebote positivo. Una vez más, se hacen afirmaciones infundadas sobre la calidad de los exámenes que deberían analizarse de forma crítica. Sin embargo, nuestro informe sugiere que los distintos procedimientos segui dos por los tribunales no son necesariamente inadecuados y que puede ocurrir que los tribunales tengan los datos que p odrían confirmar la calidad, la validez y la fiabilidad de sus exámenes. Los resultados de nuestro informe sugieren que los tribunales hacen más de lo que se podía esperar y más de lo que se sabe

T Criterios de la evaluación de lenguas: el estado de la cuestión

públicamente. El hecho es que la información existente no está disponible con facilidad ni públicamente, y costó much o tiempo y m uch os esfuerzos llegar tan lejos como hemos llegado. Esto debería ser innecesario. Si la evidencia que demuestra la calidad supuesta de la prueba existe, debería estar a disposición del público. Además, creemos que la información debería estar fácilmente disponible, y no só lo d espu és de haber hecho esfuerzos considerables para obtenerla. En la actualidad, parece que los diferentes tribunales impücados en la evaluación del inglés com o lengua extranjera hacen cosas distintas, con distintos grados de rigor, para supervisar la calidad de sus exámenes. Los resultados de este informe m uestran que no hay coincidencia en los procedimientos a seguir por los que elaboraran exámenes de inglés como lengua extranjera y tampoco existe un conjunto unitario de criterios que deban seguir. Creemos que la situación está madura para que los tribunales de exámenes del Reino Unido y los redactores de pruebas elaboren un conjunto de criterios para todas las pruebas de inglés como lengua extranjera, y para discutir qué procedimientos serían los más apropiados para garantizar el cumplimiento de tales criterios. 11.9. Conclusión

La evaluación de idiomas todavía no tiene unos criterios comunes con los que poder evaluar, comparar o seleccionar las pruebas. La necesidad de tales criterios se está discutiendo y ya se está trabajando en el tema, lo que puede conducir al desarrollo de unos criterios apropiados reconocidos intemacionalmente. Sin embargo, creemos que este libro ha dejado claro que la teoría de la evaluación de idiom as ya ha ñjado un conjunto de principios que pued en inspirar la elaboración de prue bas y la investigación en el camp o de la evaluación. Estos principios se recogen bajo etiquetas tales como validez, fiabilidad, practicidad o viabilidad, e impacto o efecto de rebote. Los redactores de pruebas tienen también un conjunto de procedimientos generalmente aceptados para el desarrollo y administración de pruebas si se pretende que tales pruebas representen lo mejor de la prácdca profesionaL Este libro ha pretendido e xplicar los principios y describir los procedimientos. También hemos podido describir la práctica habitual de un grupo de redactores de pruebas. La práctica varía de forma considerable en cuanto a su naturaleza, su concreción y s u calidad. Existen, sin em barg o, razones comprensibles de que n o haya ninguna prueba que se adapte a todos los principios y procedimientos, y esperamos que la m ayo ría de los redactores de pruebas sean conscientes de la necesidad de mejorar de forma continuada sus p rocedimientos y sus productos. Esperamos q ue este libro haya indicado no sólo dónde pueden mejorar éstos, sino también cómo pueden producirse esas mejoras, y esperamos llevar a cabo un nuevo informe en el futuro, con respecto al Reino Unido o con miras internacionales, sobre el inglés u otros

Bibliografía

Bibliografía Am erican Education Research Association, Am erican Psychological Association, y National Council on Measurement in Education (1985). Standard for Educational and Psychological Testing. Am eric an Ps yc ho log ica l A sso cia tio n, Inc., W ash ing ton , DC. A sso cia tio n o f Lan gu ag e Tes ters in E uro pe (1 9 9 4 ). The ALTE Code of Practice. ALTE, Cambridge. Diamond, E. E. y J. Fremer (1989). «The Joint Committee on Testing Practices and the C o d e o f Fa ir T es tin g Pra ctice s in E d u ca ti o n .» Educational Measurement: Issues and Practice. N úm ero de p rim aver a. H ea ton , J. B. (1 9 8 8 ). Writing English Language Test. 21 ed ició n, Lo ng m an , L on dres . Joint Committee on Standards for Educational Evaluation (1981). Standards for Evaluations of Educational Programs, Projects, and Materials. M cG ra w -H ill, N ueva Yor k. Jo in t C o m m it te e on T es tin g Pra ctice s ( 1 9 8 8 ) . Code of Fair Testing Practices in Education. American Psychological Association, Washington, DC. Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of A lter na tive T es tin g M et h o ds : an A p p li ca ti o n .» Studies in Educational Evaluation, 12 , p ig s. 149—158. Po llitt, A. ( 1 9 9 0 ) . Standards. Notes prepared for a meeting to discus language testing standards. Un iversity o f Ca m bridge Local Exam inations Syndicate, Cam bridge. Sc h oo ls E xa m in atio n an d A sse ssm en t C ou nc il (1 9 9 3 ). Mandatory Code of Practice for the GCSE. SEAC, Londres.

Apéndices

Apéndice 1

Apéndice 2

Apéndice 3

Tribunales de exámenes consultados en la investigación y pruebas que elaboran Cuestionario y carta explicatoria enviada a los tribunales de exámenes

249

......

..........

251

índice de discriminación E-i.3 (D de Ebel)

.....................................................

259

Apéndice 4

Estadísticas de distribución ...

Apéndice 5

Correlación por orden de rango

Apéndice 6

Fiabilidad por el método de las dos mitades

265

Apéndice 7

Kuder Richardson 21

267

Apéndice 8

Paquetes estadísticos .........................................269

............................

.....................

...............................................

..........................................

260 263

Apéndice 1

Tribunales de exámenes consultados en la investigación y pruebas que elaboran Nombres de los tribunales de exámenes ARELS Examination Trust (AET) Associated Examining B oard (AEB) City and Guilds o f Lond on Institute (C & C) English Speaking Board (ESB) Joint Matriculation Board (JMB) London Chamber of Commerce and Industry Examinations Board (LCCI) North W est Regional Exam inations Board (CENTRA) Pitman Examinations Institute (PEI) Trinity College London (Trinity) University o f Camb ridge Local Examinations Syndicate (UCLES) University of London Schools Examination Board (ULSEB) University o f Oxford D elegacy o f Local Examinations (OUDLES)

Exámenes citados en las respuestas de los tribunales ARELS Examination Trust (AET) ARELS Examinations in Spoken English & Comprehension (2 niveles) Associated Exam ining Bo ard (AEB) Test of Enghsh for Educational Purposes (TEEP) City and Guilds of London Institute (C &G) Communication in Technical Enghsh (Overseas) (CTE) Communication Skills (CS) English Wordpower English Speaking Board (ESB) Enghsh as an Acquired Language (EAL) Toint Matriculation Board fTMB') University Entrance Test in Enghsh for Speakers o f Other Languages (UETESOL)

Apéndices

London Chamber of Commerce and Industry Examinations Board (LCCI) English for Commerce (3 niveles) (EfC) English for Business (3 niveles) (EfB) Spoken English for Industry and Com merce (4 niveles) (SEflC) North West Regional Examinations Board (CENTRA) Test in English Language Skills (3 niveles) (TELS) Pitman Examinations Institute (PEI) English for Speakers o f Others Lang uages (5 niveles) (ESOL) Trinity College London (Trinity) Graded Examinations in Spoken English for Speakers o f Other Languages University of Cambridge Local Examinations Syndicate (UCLES) Preliminary English Test (PET) First Certificate in English (FCE) Certificate in Advanced English (CAE) Certificate o f Proficiency in En glish (CPE) Diploma of English Studies (DES) Certificates in Co mm unicative Sífilis in English ( 4 niveles) (CCSE) Certificate in English for International Business and Trade (CEIBT) Cambridge Examination in English for Language Teachers (CEELT) International English Langu age T esting System (IELTS) International General Certificate o f Secon dary Education (IGCSE) University o f London Schools Examination Board (ULSEB) Certificate o f Attainment in English: (CAE) a) versión sin laboratorio de idiomas, niveles 1-6 b) versión con laboratorio de idiomas, niveles 3-6 University o f Oxford Delegacy o f Local Examinations (OUDLES) Oxford Preliminary Exam (OPE) Oxford Higher Exam (OHE)

A p é n d i ce 2

Cuestionario y carta explicatoria enviada a los tribunales de exámenes JCA/AIGD Noviembre de 1990

Querido colega: Como quizá recordará, el Lancaster Language Testing Research Group está llevando a cabo un estudio sobre los tribunales de exámenes de ESOL británicos para intentar determinar los criterios y procedimientos que se siguen en la elaboración, validación y adm inistración de pruebas de idiomas. Ya le hemos pedido sus respuestas en una carta con tres preguntas abiertas que pretendían recoger las opiniones de los tribunales sobre sus criterios y s obre el procedimiento utilizado para establecer la fiabilidad y la validez. Además hemo s recogido datos de cuatro fuentes complementarias: a)

L o s m i e m b r o s d e l G r u p o d e I n v e s t ig a c ió n h a n p o d i d o b a s a r s e en su a m p l i a experiencia tras haber trabajado con distintos tribunales pertenecientes a ESOL como correctores, redactores de ítems y de pruebas, miembros de comités de redacción, de reuniones para la adjudicación de calificaciones, así como tam bién d e form a ad hoc en gru po s de traba jo y com ités asesores. Los tribunales de exámenes de EFL con los que hemos trabajado son: JMB, AEB, UCLES, I n s t it u t e o f L i n g u i s t s , R SA , P LA B. A d e m á s , a l g u n o s m i e m b r o s t ie n e n e x p e r i e n c i a e n l a p r e p a r a c i ó n d e a l u m n o s q u e h a n e st a d o e s t u d i a n d o p a r a p r e s e n t a r s e a u n o o m á s d e u n o d e l o s e x á m e n e s e l a bo r a d o s p o r t a l e s

b)

tribunales de exámenes. U na serie de entrevistas con los representantes de diversos tribunales de exámenes como parte de un proyecto de investigación separado sobre los exámenes de inglés en el extranjero. Estas entrevistas dieron paso a informes cuyo contenido se consensuó con los tribunales de exámenes.

c)

Visitas a un núm ero de tribunales de exám enes con asistentes a cursos sobre

d)

evaluación de idiom as durante un perío do de tres años. Inform es sobre trece pru ebas británicas de inglés com o lengua extranjera, y las reacciones a éstos por parte de los representantes de los tribunales, publicados en A ld er so n, Krahnk e y Sta nsfie ld , 1 9 8 4 , Review of English Language Proficiency Tests.

A p é n d ic e s

Estamos ahora intentando completar la información mediante un cuestionario estructurado, que se basa en parte en las fuentes de inform ación citadas má s arriba. S o m o s m u y c o n s c i e n te s d e q u e e s p o s i b l e q u e e s té m u y o c u p a d o , p o r l o q u e h e m o s intentado reducir la cantidad de tiempo requerido para completar el cuestionario. Sin em bargo, con el fin de garantizar la recog ida de un con junto de datos lo m ás com pleto posible, estaríam os mu y agrade cidos si dedicara el tiemp o necesario a su contestación. Pensamos presentar una ponencia (un resumen revisado de la misma estará disponible en breve) sobre nuestros resultados en una conferencia internacional en m a r z o d e 1 9 9 1 , p o r l o q u e e s p e r a m o s r e c o g e r t a n t a in f o r m a c i ó n c o m o s e a p o s i b l e hasta entonces para conseguir que nuestro informe sea lo más representativo posible. En esta presentación no pensamos mencionar los nombres de ningún tribunal en concreto, a no ser que así lo solicite el tribunal. Sin embargo, si usted prefiere que la información que va a darnos se mantenga confidencial, por favor háganoslo saber. Agradecemos la cooperación de que hemos disfrutado hasta la fecha para e ste proyecto; especialmen te querem os mo strar nuestro agradecimiento a los tribunales que se han tomado la molestia de responder de forma extensa. E speramos que el cuestionario que incluimos no duplique la información que muchos tribunales ya nos han enviado. Creemos, sin embargo, que para evitar posibles malas interpretaciones por nuestra parte de las respuestas que ya hemos recibido, sería de i nterés, por cuestiones de claridad y de globalidad, si pudiera responder a todas las preguntas, aunque esto signifique duplicidad. Creemos que los resultados de este estudio serán considerablemente útiles para la profesión y que también ayudarán a los tribunales de exámenes británicos a establecer el valor de sus pruebas en el mercado internacional. No s interesa que nuestros resultados reflejen la calidad de los exám enes británicos, por lo que esperamos que sus datos sean lo más completos, precisos e imparciales posible. Esperamos que pueda responder a este cuestionario. Pero si prefiere discutir estos aspectos con nosotros en lugar de responder por escrito, podríamos fijar una reunión con sus representantes. Estaríamos muy agradecido s si pud iera respond er antes del 21 de diciembre. Si esto no es posible, háganos saber por favor cuándo podemos esperar su respuesta. Le damos las gracias por su colaboración por adelantado. Atentamente,

J. Charles Alderson Coordinador Lancaster

Language Testing

Research Group

Cuestionario y carta explicatoria enviada a los tribunales de exámenes

Cuestionario

El objetivo de este cuestionario es establecer y confirmar las prácticas seguidas por los tribun ales británicos de exámenes de ESOL a la hora de elaborar, validar y administrar sus exámenes. Puede darse el caso de que alguna de la información que puede Ud. darnos sea confidencial o de uso restringido. Por favor indique en sus respuestas a las preguntas que siguen si este es el caso. Puede ser que no quiera responder a una pregunta en particular o que la pregunta sea irrelevante. Si se encuentra en una de estas dos situaciones, por favor indíquelo al lado de la pregunta correspondiente. Puede que le parezca, una vez completado el cuestionario, que hay aspectos importantes de su trabajo que no hemos cubierto o señalado suficientemente. Si eso ocurre, por favor indíquelo en una carta por separado o al final del cuestionario. Finalmente si la práctica o los procedimientos son distintos según la prueba, indique por favor las diferencias donde sea necesario. 1. No mbre del tribunal de exámenes ................................................................ 2. Nom bre de la persona que responde ............................................................ 3. Puesto en el tribunal de exámen es ................................................................ 4. ¿Cuánto tiem po ha trab ajado en este puesto? .............................................. 5. ¿A qué exám enes hacen referencia sus respuestas?

DESCRIPCIÓN DE LOS CONTENIDOS 6. ¿Publica su centro una descripción del contenido del examen (o exámen es) ? 7. En caso de respuesta afirmativa, ¿esta descripción incluye algunos de los datos siguientes? a) Definición del propósito del examen. b) Descripción del tipo de estudiante a quien va dirigido. c) Descrip ción del nivel de dificultad del examen. d) Descripción de una actuación tipo para cada nivel o calificación. e) Descripción de lo que se puede esperar «en el mundo real» de un candidato que obtiene un certificado o una nota determinada en un nivel concreto. f) Descripción de un curso o de uno s estudios que se supone que deben seguir los candidatos

Sí

No

Sí

No

Sí Sí

No No

Sí

No

Sí

No

.Apéndices

g) Descripción del contenido del examenen cuanto a: estructuras vocabulario funciones lingüísticas temas longitud de los textos tipos de preguntas ponderación de las preguntas tiempo adjudicado para cada prueba tiem po para cada sección de la prueba h) Descripción de los criterios que se utilizarán para evaluar la actuación de los estudiantes. i) Descripción de có m o se calculan las calificaciones finales. j) Ejemplos de prue bas anteriores. k) Ejemplos de actuaciones de alumnos en pruebas anteriores. 1) Algún añadido a lo anterior. Por favor, dé más detalles a continuación o en hoja aparte. ¿Se ha llevado a cabo algún tipo de «análisis de necesidades» para ayudar al tribunal a tomar decisiones sobre el propósito, el contenido, el método, el nivel, etc. del examen? En caso de respuesta afirmativa, por favor incluya esta descripción en el cuestionario. ¿Se da a los redactores de pruebas alguna información adicional o guía suplementaria? En caso de respuesta afirmativa, ¿qué información se da sobre el propósito y contenido de la prueba?

ELABORACIÓN DE LA PRUEBA 11. ¿Qué criterios utilizan a la hora de nom brar redactores de ítems o de pruebas? 12. ¿Para cuánto tiempo se nom bran los redactores? 13. ¿Con cuánta antelación respecto a la fecha de exam en se pide a los redactores que empiecen a redactar sus ítems? 14. ¿Cuánto tiem po se da a los redactores para que elaboren el primer borrador de un ítem? 15. Una vez que el redactor entrega el prim er borrador, ¿qué sucede?

Sí Sí Sí Sí Sí Si Sí Sí Sí

No No No No No No No No No

Sí

No

Sí Sí

No No

Sí Sí

No No

Sí

No

Sí

No

Cuestionario y carta expiicatoria enviada a los tribunales de exámenes

16. ¿Se reúne algún comité en algún pun to del proceso para discutir cada prueba?

Sí

No

Sí

No

17. ¿Qué requisitos deben reunir los mie mb ros de este comité? 18. ¿Cuánto tarda un comité en discutir/p repa rar un examen completo? 19. ¿Qué pasos se dan, si se dan, para com probar que el borrador presentado coincide con la descripción de los con tenidos del examen (si existe) ? 20. ¿Qué pasa habitualmente con el borrador después de las deliberaciones del comité? 21. ¿Se som eten los ítems o las preguntas a ensayos previos? En caso de respuesta afirmativa, ¿cómo se seleccionan los estudiantes, y cuántos responden a cada ítem o pregunta? 22. Si se realizan ensayos previos, ¿qué estadísticas se calculan a partir de los resultados? 23. ¿Qué ocurre si los ítems o preguntas que se ensayan no son satisfactorios? 24. ¿Qué pasos se dan, si se dan, adem ás de los mencionad os anteriormente, para controlar la calidad de los redactores de ítems o pruebas?

VALIDACIÓN 25. Además de los proc edim ientos anteriores para la validación de aspecto y de contenido, los siguientes tipos de validez: a) ¿son pertinentes? b) ¿se estiman o calculan?2 *7 estimada pertinente Sí No i) validez concurrente Sí No ii) validez de predicción Sí No Sí No iii) validez del constructo Sí No Sí No ¿Llevan a cabo estudios de validación específicos en sus exámenes? En caso de respuesta afirmativa, facilite detalles o una copia de los informes relevantes. 27. En caso de que se administren distintas versiones de su examen, ¿se toman medidas para asegurar que son equivalentes? En caso de respuesta afirmativa, incluya por favor una descripción de tales medidas.

Sí

No

Sí

No

Apéndices

28. ¿Se administra más de un tipo de prueba distinto durante el m ismo período de examen? En caso afirmativo, ¿qué medidas se toman para garantizar que cada tipo de prueba sea equivalente en dificultad?

Sí

No

29. ¿Se da una form ación específica a los administradores? En caso afirmativo, ¿quién da esta formación y cuanto tiempo dura?

Sí

No

30. ¿Se supervisa la administración de la prueba? En caso afirmativo, ¿quién? ¿Qué ocurre como resultado de la supervisión?

Sí

No

Sí

No

Sí

No

Sí

No

Sí

No

Sí

No

ADMINISTRACIÓN

CORRECCIÓN 31. ¿Qué criterios se utilizan para el nom bramien to de correctores? 32. ¿Para cuánto tiempo (meses, años) se nom bran los correctores?3 3 8 7 6 5 * 33. ¿Hay algunas secciones del exam en a) que se corrigen de form a objetiva, por ejemplo, por medio de una máquina o de un corrector? b) que se corrigen de forma centralizada, por ejemplo, por medio de equipos de trabajo? c) que se corrigen de form a local, po r me dio personas que trabajan solas, por ejemplo, el administrador de la prueba o un equivalente? ¿Convocan una «sesión de unificación de criterios» para los correctores? En caso afirmativo, ¿cómo se llama a este tipo de reunión? ¿Cuánto tiempo dura normalmente? 35. Si su tribunal mantiene una «se sió n de unificación de criterios», ¿qué ocurre habitualmente durante esta sesión? 36. ¿Qué paso s se dan al final de la sesión de unificación de criterios para establecer el grado de acuerdo entre correctores? 37. ¿Una vez empezada la corrección, se lleva a cabo la doble corrección de algunos ejercicios escritos? En caso de respuesta afirmativa, ¿en qué proporción? 38. ¿Qué ocurre si no hay acuerdo entre el prim er y el segundo corrector? Dibuje un círculo alrededor del

Cuestionario y carta explicatoria enviada a los tribunales de exámenes

1) se incorpora a un tercer corrector y se utilizan las dos puntuaciones más cercanas. 2) se hace la media de las dos notas. 3) se mantiene la puntuación del segundo corrector. 4) los dos correctores discuten y llegan a un acuerdo. 5) otros (por favor, especifique). 39. ¿Se calculan habitualm ente las correlaciones entre correctores? En caso de respuesta negativa, ¿se calculan en algún caso?

Sí Sí

No No

40 . ¿Se calculan habitualm ente las me dias y las desviaciones típicas de los correctores?

Sí

No

Sí

No

41. ¿Se sigue algún otro proceso para calcular o comprob ar la fiabilid ad de los correctores? En caso afirmativo, ¿puede describirlos más abajo o por separado o puede mandarnos una copia de los informes correspondientes? RESULTADOS

42 . ¿Se man tienen otras reuniones antes de la publicación de resultados (reuniones de adjudicación de puntuacion es, reuniones de examin adores)? En caso de respuesta afirmativa, ¿qué forma toman estas reuniones? 43. ¿Se siguen procedim ientos específicos para la decisión sobre las puntuaciones de aprobado/suspenso o los límites entre notas? En caso afirmativo, ¿puede describir tales procedimientos o mandarnos o darnos referencias sobre publicaciones o informes relevantes?4 5 44 .

Redactan informes los examinadores jefes? Ji éste es el caso, ¿están a disposición a) de los profesores? b) de los estudiantes? c) sólo de form a restringida? Si tales informes existen, ¿podría enviamos una copia? Si no puede ma ndam os una copia, ¿podría describir más abajo o por separado lo que habitualmente contiene un informe de este tipo?

45. ¿Se calculan estadísticas sobre los ítems o pm eba s cuando el exam en ha concluido? En caso afirmativo, ¿cuáles? En caso afirmativo, ¿qué ocurre con los resultados?

Sí

No

Sí

No

Sí

No

Sí Sí Sí

No No No

Sí

No

Apéndices

REVISIÓN DE EXÁMENES 46. ¿Se recogen comentarios sobre sus exámenes? En caso afirmativo, ¿cómo y quién la recoge? 47 . ¿Existen proce dim ientos rutinarios que garanticen que sus exám enes se revisan teniendo en cuenta los comen tarios?

Sí

No

Sí

No

Sí

No

Sí

No

48. ¿Cada cuánto tiempo, po r término med io, se revisan sus exámenes? 49. ¿Hay aspectos importan tes de sus procedim ientos de control de calidad que crea que no han sido incluidos en este cuestionario? En caso afirmativo, dé detalles más abajo o por separado. 50. ¿Existen planes para hacer cambio s en los procedimien tos que realizan, tal como se han descrito antes? En caso de respuesta afirmativa, por favor facilite detalles junto con un a estimac ión so br e cu án do serán operativos. 51. Se dice que la fuerza de los exáme nes británicos de inglés como lengua extranjera reside en su relación con la docencia. ¿Está de acuerdo? ¿Puede describir cómo puede demostrarse esta relación con respecto a su examen?

Sí No Algo

52. Tam bién se dice que los criterios y proced imiento s «americanos» o «psicométricos» no son pertinentes para los exámenes británicos. ¿Está de acuerdo? Si está de acuerdo (parcialmente), ¿qué criterios y/o procedimientos no son relevantes para sus exámenes?

Sí No Algo

53. ¿Cuáles son, en su opinión, los puntos fuertes de sus exámenes? 54. ¿Cuáles son, si los hay, los pun tos débiles de sus exámenes? Pretendemos publicar los resultados de este estudio de forma anónima. ¿Preferiría que nom brár am os su tribunal en nuestra presentación? Muchas gracias por su cooperación. O Language Testing Research Group Lancaster University, UK. 1990

Sí

No

A p é n d ic e 3

índice de discriminación E13 (D de Ebel) 1. 2. 3. 4.

Ordenar a los alum nos de acuerdo con su nota total. Dividirlos en tres grupo s, asegurándo se de que los grupo s más altos y los más bajos tienen igual número de estudiantes. Contar cuán tos estudiantes del grup o alto y del grup o bajo responden correctamente a un ítem. Encontrar la diferencia entre el núme ro de respuestas correctas en el grupo alto (GA) y en el grupo bajo (GB). Dividir este resultado por el número total de personasen el grupo alto (TA): GA-GB TA Por ejemplo, para los resultados en la tabla 4.1: hay 14 respuestas correctas en el grupo alto; hay 13 respuestas correctas en el grupo bajo. El número total de alumnos en el grupo alto es de 21. Así, pues, para encontrar el I.D. 14- 13 21

yy

= 0, 0 47 61 9

Una vez establecido con dos decimales, el I.D. es de +0,5.

A p é n d ic e 4

Estadísticas de distribución Imaginar que ocho estudiantes tuvieron los siguientes resultados: 12

28

19

15

15

35

14

15

La media

La media es la suma de todas las notas, dividida por el número de estudiantes:

£X _ N

M — media

X = la puntuación

£ = «la suma de »

N = el número de estudiantes

12 + 28 + 1 9 + 15 + 15 + 35 + 1 4 + 1 5 _ 8 "

153 _ 8 “

1

La media es pues 19,13. La moda

Es la nota m ás frecuente. En este caso hay tres 15, y sólo una de cada una de las otras notas. La moda es por lo tanto 15. La mediana

La mediana es la nota del med io, o el punto medio en las notas. Primero se orde nan las notas de mayor a menor: 35

28

19

15

15

15

14

12

A continuación se calcula el punto medio de las notas. Puesto que hay ocho estu diantes, el punto medio está entre la cuarta y la quinta nota (hay cuatro notas por encima de este punto, y cuatro por debajo). Puesto que la cuarta y la quinta notas son las dos un 15, el punto medio es un 15. La mediana es un 15. Si las notas hubieran sido 3 5 -2 8 -1 9 -1 7 -1 5 -1 5 -1 4 —12, la mediana hubiera sido el 16. Si hubiera habido un número impar de notas, la mediana hubiera sido enton ces la nota del medio. Por ejemplo, si las notas fueron 35-28-19-1 7-15, la

Estadísticas de distribución

El rango El rango es la diferencia entre la nota más alta y la nota más baja. El rango es: 35-12 = 23.

La desviación típica Es la raíz cuadrada de la desviación media al cuadrado de la media de las notas de los alumnos. DT =

/

(X —M )2 N - 1

DT = desviación típica

X = «la suma de»

X

= puntuación

M = la media de las notas

N

= el núm ero de alumnos

Primer paso.

Hacer un listado de las puntuaciones (X ).

Segun do paso. Hacer un listado de las diferencias entre cada pun tuación y la me dia (1 9, 12 5) en (X—M). Notas: a) Utilizar la media exacta; no corregir ningún decimal. b) El resultado de la sum a de los núm eros en (X—M) debería ser 0. Tercer paso.

Elevar al cuadrad o los núm eros en la lista (X-M ) y anotarlos en (X-M)2

Cuarto paso.

Sumar la colum na (X -M )2. El resultado total es X (X -M )2. X

(X - M )

(X-M)2

35 28 19 15 15 15 14 12

15,875 8,875 - 0 ,1 2 5 -4,125 -4,125 -4,125 -5,125 -7,125

252,02 78,77 0,02 17,02 17,02 17,02 26,67 50,77

0

” X(X -M )2 = 458,91

.Apéndices

Ahora puede utilizarse la fórmula.

nr D T _

J V

N -1

- . / 45 8. 91 _ > 5 8 . 9 1 ~ V 8 -1 ~ V 7

,------= ^6 5-56

(Nota: 65,56 es la varianza (v) utilizada por la fórmula de Kuder Richardson 21 en el apéndice 7.) DT

=

8,1 (Utilizar una calculadora para calcular la raíz cuadrada.)

A p é n d ic e 5

Correlación por orden de escala La fórm ula es:

rho =

rho

coeficiente de correlación

X

=

suma de

d

=

diferencia entre escalas

N

=

núm ero de estudiantes

Ejemplo 1.

Hacer un a lista de los resultado s de los estudiantes en cada prue ba igua l que en la tabla de la página siguiente. Asegúrese de que las dos puntuaciones del m ism o estudiante están en una m isma línea. Por ejemp lo, las notas del estudiante A son 20 y 12, y las del estudiante G son 13 y 17.

2.

Ordenar los alum nos de cada prueba según su resultado en la prueba. Por ejem plo, el estudiante A fue el primero en la prueba 1 y el tercero en la prueb a 2. El estudiante G fue el octavo en la prueba 1 y también en octavo en la prueba 2. (Si las notas están empatadas, deben darse a los estudiantes las medias de las escalas. Por ejemplo, C y D habrían sido tercero y cuarto en la prue ba 1, con lo que su escala m edia es

Los alumnos G, H e I habrían sido el séptimo, octavo y noveno, por lo qu e su escala media es 8.) 3.

Encontrar las diferencias entre las dos escalas de cada estudiante (d), deduciendo el número me nor del m ayor. La diferencia entre las dos escalas del estudiante A es 3—1= 2 .4

4.

Eleva

diferencia al cuadrado.

Apéndices

5.

Sumar estas diferencias al cuadrado . Esto da Xd2.

Estudiante A B C D E F G H I J

Resultado de la prueba 1 20 18 17 17 16 14 13 13 13 9

Resultado de la prueba 2 12 11 8 15 14 6 7 10 9 4

Escala de la prueba 1 1 2 3,5 3,5 5 6 8 8 8 10

Escala de la prueba 2 3 4 7 1 2 9 8 5 6 10

d 2 2 3,5 2,5 3 3 0 3 2 0

d2 4 4 12.25 6,25 9 9 0 9 4 0

Xd2 = 5 7 , 5 0 N

=

Xd2 =

10 57,50

Ahora puede utilizar la fórmula.

rh o - 1

1

-

6X 57,5 \ 1^10(100—1)J i

1-0,3484= 0,6516

Una vez reducidos a dos los decimales, la correlación es igual a 0,65.

Ap éndice 6

Fiabilidad por el método de las dos mitades Para obtener este dato, debe calcularse primero la correlación por orden de escala (véase apéndice 5) entre las mitades pares e impares de la prueba, y a continuación debe utilizarse la fórm ula correctiva de Spearman Brown. 1.

Dividir la prueb a en dos mitades, con los ítems impares (ítems 1, 3, 5, 7, etc.) en una prueba, y los ítems pares (ítems 2, 4, 6, 8, etc.) en la otra.

2.

Calcular las notas de cada alumn o en las prueb as pares e impares.

3.

Dar a cada alumno do s escalas, una para la prueba imp ar y una para la prueba par.

4.

Calcular la correlación po r orden de escala entre los dos grupos de escalas. rho = 1 —

5.

Esta correlación entre las do s mitades de la prueb a no s dice la fiabilidad de un a prueba que fuera la mitad de la prueba completa. Para averiguar la fiabilidad para tod a la prueba, deb e utilizarse la fórmu la correctiva de Spearman Brown:

=

rK

=

rhh =

2r,hh 1 + r hh fiabilidad correlación entre las dos m itades de la pm eb a

Apéndices

Estudiante Resultado en toda la prueba

Resultado en la mitad impar

Resultado en la mitad par

Escala en la mitad impar

Escala en la mitad par

A B C D E F G H I

8 6 6 2 0 5 4 10 1 8

7 2 3 4 3 5 10 8 1 4

2,5 4,5 4,5 8 10 6 7 1 9 2,5

3

J

15 8 9 6 3 10 14 18 2 12

9 7,5 5,5 7,5 4 1 2 10 5,5

d 0,5 4,5 3 2,5 2,5 2 6 1 1 3

d2 0,25 20,25 9 6,25 6,25 4 36 1 1 9

Xd2 = 9 3 , 0 0 N

ruu = 1 - í . . 6?

=

10

2 . U i - I

Ed2 = 93

'6X93 \

- i - n t í . — H A A.

La correlación entre las dos mitades de la prue ba es de 0,4 4 po r lo tanto

El índice de fiabilidad de las dos mitades es de 0,61.

A p é n d ic e 7

Kuder Richardson 21 fórmula es la siguiente: nv —M (n —M) (n-l)v

r tt r« n

=

el índice de fiabilidad

=

número de ítems

V

=

varianza de la prueba

M

=

nota media

Este ejemplo utiliza los resultados d el apéndice 6. 1.

El núm ero de ítems de la prueba es de 20, por lo que n = 20.

2.

97 La nota media es de ^ , por lo que M = 9,7.

3.

v

= 26,9

4.

nv

= 2 0 X 2 6 , 9 = 5 38

5.

n-M

= 2 0 - 9 , 7 = 10,3

6.

M (n-M ) = 9,7 X 10,3 = 99,91

7.

n- 1

= 2 0 - 1 = 19

8

(n -l) v

= 19 X 26,9 = 511,1

(Para calcular la varianza deben seguirse los pasos 1—6 en el ejemp lo de la desviación típica del apéndice 4.)

Substituir los símb olos en la fórmula po r los números: _ rtt

nv —M (n —M) (n—l)v 53 8- 99 ,9 1

'«

=

511,1

4 3 8 ,0 9

n oc,

= 7 Ï Ï T = 0 ’857

.Apéndices

El índice de fiabilidad KR21 es de 0,86. La razón de que este índice de fiabilidad sea tan distinto del de las dos mitades se debe probablemente a que el número de alumnos es m uy pequeño y a que, por tanto, los resultados están muy influidos por el factor azar. Si hubiera habido 100 estudiantes, o incluso 50, los dos índices habrían sido probablemente muy parecidos, aunque el índice de las dos m itades habría sido ligeramente má s bajo.

A p é n d i ce 8

Paquetes estadísticos IT E M A N

Part of the MicroCAT testing system A s s e s sm e n t s S y s te m s C o r p o r a t i o n , 2 2 3 3 , U n i v e r si ty A v e n u e , S u it e 4 0 0 , St. Paul, M in n e so ta 5 5 1 1 4 , USA.

SPSS

Statistical Package for the Social Sciences SPSS Inc., 4 4 4 N . M i c h ig a n A v e n u e , Chicago, Illinois 60611, U SA

SA S

Statistical Package for Data Analysis S A S I n s t i t u t e I n c ., S A S C i rc l e , Box 8000, Cary, N o r th C a r o l i n a 2 7 5 1 2 - 8 0 0 0 , U SA

FACETS

Rasch Measurement Computer Program MESA Press, 5 8 3 5 S. K i m b a r k A v e n u e , Chicago, Illinois 60637, USA.

BIGSTEPS

Rasch Measurement Computer Program MESA Press, 5 8 3 5 S. K i m b a r k A v e n u e , Chicago, Illinois 60637,

j4 pé nd ic es

QUEST

The Interactive Test Analysis System A u s t r a li a n C o u n c i l f o r E d u c a t i o n a l R e s e a r c h , R a d f o rd H o u s e, Frederick Street, H a w t h o r n , V i c to r ia 3 1 2 2 , Australia

TESTAT

A Supplementary Module for SYSTAT 1 8 0 0 S h e rm a n A v e nu e , Evanston, I ll in o i s 6 0 2 0 1 - 3 7 9 3 , USA

BILOG

One-, Two-, and Three-Parameter Item Response Theory Analysis S c i e n t if ic S o f t w a r e , I n c ., M o o r e s v i ll e , In d ia n a 4 6 1 5 8 U SA

Glosario

El análisis de la varianza compa ra las distribuciones (med ias y desviaciones típicas) de dos o más grupos para ver si las diferencias entre las medias son significativas. Se utiliza la prueba t (t-test) p ara comparar los d os gru pos y una ratio F para más de dos grupos (capítulo 4).

El análisis factorial aborda una matriz de coeficientes de correlación, a menudo dem asiado com pleja para entenderla mediante un estudio superficial, y reduce la complejidad de tal matriz a proporciones más manejables. El resultado de tal reducc ión se utiliza para identificar los factores que tienen en com ún los distintos grupos de ítems (capítulo 8).

Véase Validez de constructo.

Véase Teo ría de respuesta al ítem.

En una distribució n con asimetría negativa, las notas se agru pan en el extremo alto del histo gram a y decrecen hacia la izquierda del gráfico. Esta distribu ción muestra que la prueba resultó fácil para los candidatos (capítulo 4). (Véase Asimetría positiva.)

En un a distribución con asimetría positiva, las notas se agrupa n al final del his togram a, y decrecen hacia la derecha. Tal distribución muestra qu e la prueba resultó difícil para los candidatos (capítulo 4) . (Véase Asim etría negativa.) Ba nc o d e íte m s (Item bank) Un banco de ítems es un conjunto d e ítems o tareas que ha sido calibrado de acuerdo con características tales como la habilidad de una persona, la difi cultad del ítem y su capacidad de discriminación, y ha sido almacenado en un archivo central para su uso en el mom ento en que sea necesario. Cuando los elabo radores d e una prue ba están planificando una nueva versión d e una

*

Exámenes de idiomas. Elaboración y evaluación

se combinarán para formar una prueba que sea equivalente en dificultad y discriminación a las pruebas previas del mismo tipo (capítulo 4).

Se llama bimodal a una distribución que tiene dos modas (capítulo 4).

Una clave es el conjunto de respuestas aceptables en una prueba de corrección objetiva. En una clave sólo hay una respuesta aceptable para cada ítem (capítulo 5).

Un coeficiente de correlación es una cifra que representa el grado en que dos conjuntos de resultados coinciden. Hay muchas formas de calcular los coeficientes de co rrelación. La correlación por orden de escala y la correlación de Pearson se explican en el capítulo 4, y la fórmula y el ejemplo desarrollado de la correlación de rango se facilitan en el apénd ice 5 (capítulo 4 ).

El coeficiente de dificultad mide el nivel de dificultad de un ítem. Representa el porcentaje de alumnos que lo contesta correctamente (capítulo 4).

oída

La curtosis se refiere a la indinación de la curva de distribución de una prueba (capítulo 4).

La descripción de los contenidos de una prueba se deriva de las especificaciones de la misma. Aunque algunos tribunales de exámenes del Reino Unido utilizan especificaciones y d escripciones de form a intercambiable, nosotro s vemos una diferencia entre ambos. Una especificación es un docum ento deta-

Glosario

nes. La descripción de los contenidos es un documento público, a menudo mu cho m ás simp lificado, que indica a los usuarios lo que incluirá la prueba. Mientras qu e las espe cificaciones son para los redactores de la prueba y para los q ue necesitan evaluar si una prueba cum ple con su objetivo, la descrip ción de los co ntenido s va dirigida a los profesores y a los estudiantes que desean prepararse para la prueba, a personas q ue debe n tomar decisiones con respecto a las notas de la prueba y a editores que desean elaborar materiales relacionados con la prueba (capítulo 2). (Véase Especificaciones.)

Los descriptores son las definiciones que describen los niveles de actuación en cada p unto o prácticamente en cada pun to de una escala de valoración (capítulo 5).

La desviación típica es, aproximadamente, la cantidad media en que la pun tuación de cada estudiante se desvía (o difiere) de la media. Si un alumno tiene una n ota de 4, y la media es 6, este estudiante se desvía - 2 de la media. De la misma forma, un estudiante con una nota de 10 se desviará +4 de la med ia. La desviación típica inform a sobre la cantidad me dia en que todas las notas difieren de la media (capítulo 4).

En este libro la determ inación de niveles hace referencia al procedimien to por el cual juece s exp ertos —profe sion ales qu e tienen la experien cia adec uad aanalizan el contenido de la prueba y de ciden cuál debería ser la posible actua ción de los candidatos mínimamente adecuados para la prueba (capítulo 7).

Una diferencia significativa es la que resulta lo suficientemente grande como para que no se deba sólo al azar. La prueba para saber si la diferencia entre dos m edias es significativa es la prueba t (capítulo 6 ).

Véase

Véase

' En este libro, los ensayo s previos se refieren a todo tipo de ensayos a los que se som ete un a prue ba antes de que salga a la luz o em piece a funcionar. La mayoría de los en sayos previos tienen lugar durante los «en sayos generales» pero deberían ir precedidos de ensayos previos menos formales llamados prueb as piloto. Las pruebas piloto pued en variar en envergadura, desde pr o


a probarla con un centenar de estudiantes, pero, en cualquier caso, su objetivo principal es limar los principales problem as antes de los ensayos g enerales (capítulo 4).

Una persona (a menudo un profesor) que interacciona con el candidato en una prueb a de exp resión oral para obtener una producción lingüística, m ientras que otra persona llamada examinador evalúa la actuación del candidato (capítulo 5). (Véase Examinador.)

Una escala analítica es un tipo de escala de valoración en la que la actuación de un candidato (en expresión escrita, por ejemplo) se analiza en términos de distintos componentes (como por ejemplo, la organización, la gramática, la ortografía) y se dan descripciones de cada comp onente a niveles distintos. En la corrección analítica el candidato puede recibir una puntuación más alta en un componente de su actuación que en otro; es decisión del usuario de los resultados el combinar estas puntuaciones para llegar a un resultado global (capítulo 5).

La escala de valoración se utiliza normalmente para puntuar pruebas de expresión escrita y de expresión oral. Este tipo de escala consiste en números, letras y otras etiquetas (com o por ejemplo «Excelente» o «M uy bue no »), que pueden ir acompañadas de descriptores, definiciones del tipo de comportamiento a que se refiere cada punto en la escala (capítulo 5).

Una escala holística es un tipo de escala de valoración en la que se pide a los examinadores que no presten demasiada atención a un aspecto en concreto de la actuación de un candidato, sino qu e juzgue n su eficacia global. Se les pide, p or e jemplo, que juzguen la habilidad de escribir en general y no que emitan juicios por separado sobre la organización, la gramática, la ortografía, etc. del escrito (capítulo 5).

Esta escala es un tipo de escala holística que perm ite a los examinadore s e m itir juicios rápidos sobre la actuación de un candidato (capítulo 5).

El escalonamiento e s el procedimiento utilizado por los tribunales de exámenes para ajustar las puntuaciones otorgadas por un examinador que, com o se descubre más tarde, no «está en línea» con otros examinadores. Las puntuaciones

Glosario

Las especificaciones de una prueba constituyen la descripción oficial de lo que un a prue ba evalúa y cóm o evalúa lo qu e pretende evaluar. Las especificacio nes son la gu ía a seguir p or los redactores de la prueba y de los ítems, y tam bién son esenciales para establecer la validez del constructo de la prueba (capítulo 2). (Véase Descripción de los contenidos.)

En este libro, el término « ex am ina do r» indica la persona responsable de juz gar la actuación de un candidato en una prueba o examen. U tilizamos este término par a incluir a todos aq uellos qu e tienen tal responsabilidad, sin tener en cuenta si corrigen las secciones de corrección objetiva o subjetiva, y sin tener en cuenta si han estado implicado s en la redacción y administración de la prueba. Distinguimos entre examinador y entrevistador en la evaluación de la expre sión oral: el primero se refiere a la persona que evalúa a los candida tos, mientras que el segundo se refiere a otra persona que interacciona con el candidato mientras el examinador evalúa su actuación (capítulo 5).

La fiabilidad es la me dida en que los resultados de una prueba son fiables; si los candidatos volvieran a responder a la prueba mañana, después de haberla hecho hoy, ¿obtendrían el m ism o resultado (asumiendo que su habilidad no hub iera cam biado ) ? (Véase el capítulo 2 y en todo el libro.) Hay much as maneras de medir la fiabilidad de pruebas «objetivas» (test-retest, formas para lelas, dos mitades, KR20, KR21 etc.), que se explican con detalle en el capí tulo 4. La fiabilidad de las pruebas subjetivas se mide calculando la fiabilidad de la corrección. Esto puede hacerse de distintas formas (fiabilidad entre correctores, fiabilidad interna, etc.) (capítulo 6).

Véase

Véase

Véase

La fiabilidad entre correctores se refiere al grado de similitud entre distintos examinadores. ¿Pueden dos o más examinadores, sin influirse entre sí, dar las mismas notas al mismo grupo de escritos o actuaciones orales? No sería rea lista esperar que los examinadores estén de acuerdo todo el tiempo; sin em bargo, es esencial que cada exam inador intente acercarse al mode lo siem  pre. La fiabilidad entre correctores se mide habitualmente mediante el coefi-

Exámenes

d e i d i o m a s . Elaboración

y evaluación

cíente de correlación, o mediante algún tipo de análisis de la varianza (c apítulo 6). (Véase

Se considera que un examinado r demuestra fiabilidad intema si da las mismas puntuaciones al mismo grupo de escritos o expresiones orales en dos ocasiones distintas. El examinador puede todavía considerarse fiable incluso si algunas notas son distintas; sin embargo, no se puede permitir mucha variación si se pretende evitar que se cuestione la fiabilidad. La fiabilidad intema se mide a menudo mediante un coeficiente de correlación o mediante algún tipo de análisis de la varianza (capítulo (Véase

El índice de discriminación mide hasta qué punto los resultados de un ítem en particular están correlacionados con los resultados de toda la prueba. Además de saber la dificultad de un ítem, es importante saber cómo discrimina, es decir, lo bien que distingue entre los alumnos de los distintos niveles de capacidad. Si el ítem funciona bien deberíamo s esperar más de los alumno s que sacan buenas notas que de los que sacan notas bajas. Si los alumnos buenos no responden bien a un ítem, m ientras que los alum nos flojos lo responden correctamente, el ítem tiene problemas que deben investigarse. Hay distintos métodos para calcular el índice de discriminación de un ítem (fórmula E] 3, correlación biserial, correlación biserial puntu al), que se explican en el capítulo 4 (capítulo 4).

Un in form e de resultados es el que contiene la nota qu e se entrega a los c andidatos, a los empresarios o a las colegios o institutos (capítulo 7). (también conocidos por Véase Fiabilidad.

La nota media de una prueba es lo que comúnmente se llama la media; esto es, la suma de las notas de todos los estudiantes dividida por el número de estudiantes (capítulo 4).

La mediana es la nota obtenida por el estudiante que se encuentra en la mitad de los resultados obtenidos por la totalidad de los estudiantes. Si, por ejemplo, cinco alumnos responden a una prueba, u obtienen unas notas de 9, 7, 6, 2 y 1, la mediana sería de 6. La mediana es particularmente útil cuando el

Glosario

La m oda es la nota obtenida por el mayor núm ero de estudiantes (capítulo 4).

Véase

Véase

Una plantilla de corrección es parecida a una clave, puesto que contiene un grupo de respuestas aceptables para una prueba de corrección objetiva. Sin embargo, al contrario que una clave, puede haber más de una respuesta correcta para cada ítem (capítulo 5).

Los redactores de pruebas a menudo creen que hay ítems más importantes que otros y que tales ítems deberían tener más peso. Dar valor añadido a algunos ítems se conoce como ponderación (capítulo 7).

La prueba t se lleva a cabo para averiguar si la diferencia entre dos medias es signiñcativa (capítulo 6).

Las pruebas de aprovechamiento son parecidas a las pruebas de progreso, pero se administran al final del curso. El contenido de las pruebas de aprovechamiento y de las de progreso se basa generalmente en el programa del curso o en el libro de texto (capítulo 2).

Las pruebas de clasificación están pensadas para evaluar los niveles de habilidad lingüística de los estudiantes con el fin de colocarlos en el curso o clase apropiada (capítulo 2).

Estas pruebas hacen referencia a ítems del tipo de respuesta múltiple, verdadero—falso y recon ocimiento del error, entre otras, en las que el candidato debe producir una respuesta que se ha de puntear como «correcta» o «incorrecta». En la corrección objetiva, el examinador compara la respuesta del candidato con la respuesta o con junto de respuestas que el redactor del ítem ha determinado como correctas (capítulo 5). (Véase Pruebas corrección subjetiva.)


Estas pruebas hacen referencia a los ítems o tareas en las que los examinadores no pueden aplicar juicios del tipo «correcto» o «incorrecto». Deben evaluar la calidad de la respuesta de u n candidato a una tarea, y para ello deben utilizar una «escala de valoración» (capítulo 5). (Véase Pruebas de corrección objetiva.)

Las pruebas de diagnóstico pretenden descubrir aquellas áreas en las que un estudiante necesita ayuda suplementaria. Pueden ser relativamente generales y mostrar, po r ejemplo, s i un estudiante necesita ayuda en una de las dos prin cipales destrezas lingüísticas, o más específicas, identificando los puntos débiles en el uso de la gramática por parte de un estudiante.

Las pruebas de dominio no están basadas en un programa en particular. Están pensadas para evaluar la habilidad lingüística de estudiantes que tienen distinto bagaje educativo. Algunas pruebas de dominio, como muchas de las elaboradas por los tribunales de exámenes del Reino Un ido, pretenden mostrar si los estudiantes han alcanzado un nivel dado de habilidad lingüística general. Otras están pensadas para mostrar si los estudiantes tienen las habilidades suficientes como para utilizar una lengua en un área específica, como puede ser la medicina, el turismo o los estudios académicos (capítulo 2).

Las pruebas de progreso se administran en diversos estadios a lo largo de un curso de lengua para ver lo que los alumnos han aprendido (capítulo 2).

Las pruebas equivalentes están basadas en las m ism as especificaciones pero pueden variar en cuanto a núm ero de ítems, tipo de respuestas y contenido. Los tribunales de exámenes a menudo tienen una gama de tipos de pruebas que pued en utilizarse en un examen, y a menudo no esperan ni quieren usarlas todas cada vez. Lo importante con respecto a las pruebas equivalentes es que cada un a mida las m ismas destrezas lingüísticas y que se correlacionen entre sí lo más posible (capítulo 4). (Véase Pruebas paralelas.) tests)

Las pruebas paralelas están elaboradas para que resulten tan similares entre sí como sea posible. Deberían, pues, incluir las mismas instrucciones, tipos de respuesta y número de ítems, y deberían estar basadas en el mismo contenido. También deberían, si se probaran con los m ism os estudiantes, producir las mism as medias y las mismas desviaciones típicas (capítulo 4). (Véase Pruebas equivalentes.)

Véase Ensayos previos.

Glosario

Rango (Range) El rango es la diferencia entre las notas más altas y las más bajas de una prueba (capítulo 4).

Si una prueba se considera con referencia a la norma pretende ordenar a los alumnos en algún tipo de escala, para poderlos comparar unos con otros (capítulo 4). (Véase Referencia a un criterio.)

Si una prue ba se dice qu e evalúa con referencia a un criterio, los estudiantes no se comparan los uno s con los otros, sino con un nivel de conocimientos, o con un conjunto de criterios fijados por descriptores (capítulo 4). (Véase Referencia a la norm a).

La teoría de la generalizabilidad se basa en el análisis de la varianza y puede estimar la fiabilidad de un grupo com pleto de correctores de una vez (capítulo 6).

La teoría de respuesta al ítem es un sistema de m edición que tiene en cuenta tanto al candidato como las características del ítem. Está basada en la teoría de la probab ilidad y muestra la probabilidad de q ue una persona acierte un ítem en particular. Las notas de los candidatos y los totales de cada ítem se transforman en un a escala para que puedan relacionarse entre sí. La relación entre la actuación de los candidatos en el ítem y las habilidades que subyacen en la actuación del ítem se describen en una curva de las características del ítem. Hay tres m ode los principales de la teoría de respuesta al ítem; el modelo con un parám etro (Rasch) q ue sólo tiene en cuenta la habilidad de un candidato y la dificultad del ítem; el modelo de dos parámetros, que también tiene en cuenta la discriminación del ítem; y el modelo de tres parámetros, que adem ás tiene en cuenta la posib ilidad de acertar por azar (capítulo 4 ).

La transformación tiene lugar cuando los responsables de la prueba quieren dar el mismo peso a las partes de una prueba que tienen distinta duración. La forma m ás habitual de hacer una transformación es convirtiendo las notas de las distintas partes en porcentajes, dividiendo cada nota de cada parte por el núm ero de ítems y multiplicando p or 100. Hay formas de transformación de notas más complejas (notas tipificadas, notas z, etc.) (capítulo 7). Validez (Validity) La validez define hasta qué punto una prueba mide lo que se supone que mide: se refiere al uso o usos que se darán a las calificaciones de una prueba y a las formas en las que pueden interpretarse estas calificaciones, por lo que

Exámenes de idiomas. Elaboración

y evaluación

tulo del libro qu e hace referencia a la validez en su título es el número 8, el concepto de validez es central en todos los capítulos, d esde el dedicado a las especificaciones hasta el que trata de los criterios.

La validez aparente se refiere a la «credibilidad aparente o aceptación pública» de la prueba (Ingram, 19 77 :18) , y es frecuentemente rechazada po r los evalua dores como poco científica e irrelevante. En esencia, la validez aparente implica un juicio intuitivo sobre el contenido de la prueba expresado p or personas cuya opinión no es necesariamente «experta». Normalmente, tales personas son «no profesionales»: administradores, usuarios no expertos y estudiantes (capítulo 8).

La validez concurrente implica la com paración de los resultados de la prueba con otra medida de los mismos candidatos recogida aproximadamente al mismo tiempo de la prueba. Esta otra medida pueden ser los resultados de una versión paralela de la mism a prueba o de otra prueba, o de la autoevaluación de los candidatos sobre sus habilidades lingüísticas, o las puntuacio nes dadas por los profesores, los especialistas en la materia u otros informadores. Esta medida debe estar expresada numéricamente (como sucede, por ejemplo, con las escalas de puntuación), y no debe estar relacio nada con la prueba en sí (capítulo 8).

Un constructo es un componente clave en una teoría. Toda teoría contiene un número de constructos e intenta definir la relación entre los mismos. Por ejemplo, algunas teorías de comprensión de lectura afirman que hay muchos constructos distintos dentro de la comprensión de lectura (lectura globahzadora, lectura selectiva, etc.) y que lo s constructos so n distintos entre sí. Para medir la validez del constructo de una prueba un evaluador debe articular la teoría que subyace a s u prueb a y comp arar los resultados co n esta teoría. La validación del constructo imp lica evaluar lo bien que una prueba mide los constructos en los que está basada (capítulo 2). Lo que Bachman, llama el «enfoque clásico en el diseño de estudios de corre lación para la validación del constructo» es la matriz multimétodo-multirrasgo (multitrait-multimethod matrix) descrita por Campbell Fiske, En esencia consiste en una combinación de procedimientos de validación internos extemos. La teoría es que las pmebas que están relacionadas entre sí mostrarán correlaciones entre sí más altas (validez convergente) que las pruebas que no están relacionada (validez diver gente). Los estudiantes responden a la pm eba experimental al mism o tiempo que a las otras pruebas, algunas de cuyas propiedades ya se conocen (como es el caso en la validez concurrente). Wood, 1991, da una explicación muy clara de este método de análisis y pueden verse variantes de este procedimiento en los estudios multi

Glosario

La validación del contenido (o racional) depende de un análisis sistemático del contenido de la prueba para ver si la prueb a contiene una muestra representativa de las destrezas lingüísticas relevantes. La validación del contenido implica la recogida de opiniones de «ex pe rtos» : personas en cuya opinión se está dispuesto a confiar, aunque discrepe con la propia (capítulo 8).

La validación de la respuesta (Henning, 1987: 96) se refiere a la creciente gam a de técnicas cualitativas mediante las cuales se pide a los candidatos información sob re cóm o responden a los ítems de una prueba (capítulo 8).

La validación empírica depende de la evidencia empírica y estadística sobre si los resultados de los estudiantes en la prueba so n similares a otros resultados en otras medidas apropiadas de su habilidad, tales como sus resultados en otras pruebas, sus autoevaluaciones o las valoraciones de sus profesores sobre sus habilidades. H ay do s tipos de validez empírica: la validez concurrente y la validez predicüva (capítulo 8 ). (Véase Validez concurrente y Validez pre dictiv a).

La validez externa hace referencia a los estudios que comp aran los resultados de los estudiantes en una prueb a con la habilidad que se ha podid o com probar desde fuera. La validez externa a menudo se llama validez de criterio (véase American Psychological Association, 1985) porq ue las notas de lo s estudiantes se comparan con otras medidas de su habilidad referentes a un criterio. Hay d os tipos de validez externa: la validez concurrente y la validez pre dictiva (capítulo 8). (Véase concurrente y predictiva)

La validez inteima se refiere los estudios sobre el contenido que se ha observado en un a prueba y el efecto c omp robado de la misma. Hay varios tipos de validez interna : la validez aparente, la validez de contenido, la validez de constructo y la validez de respuesta (capítulo 8). (Véase Validez aparente, Validez de contenido, constructo y respuesta.)

La validez predictiva supone la comparación de las notas de una prueba con otra medida sobre los mismos candidatos, tomada un tiempo después de la admin istración de la prueba. La validación predictiva es mu y com ún en las pruebas de dominio: se pretende que las pruebas puedan la calidad de la actuación de un candidato en el futuro (capítulo 8).

Véase Validez de

Abreviaturas y acronimos

ABEEB AEB AERA AET ALTE APA ARELS C&C CAE CCSE CEELT

Association o f British ESOL Exam ining Boards Associated Exam ining Board Am erican Educational Research Association ARELS Exa mination Trust Association o f Langu ages Testers in Europe Am erican Psych ological Association Association o f Reco gnised English Langua ge Schools City and Guilds o f Londo n Institute Certificate in Advanced English (UCLES) Certificates in Commu nicative Skills in English (UCLES) Cam bridge Exam ination in English for Langu age Teachers (UCLES) CEIBT Certificate in English for International Bu siness and Trade (UCLES) CENTRA North West Regional Examinations Board CPE Certificate o f Proficiency in English (UCLES) CS Co mm un icatio n Skills (C&G) CTE Communication in Technical English (Overseas) (C&G) CUEFL Examination in the Com municative Use o f English as a Foreign Language DES Dip lom a o f English Studies (UCLES) EAL English as an Acquired Lan guage (ESB) EAP English for Academ ic Purpo ses EfB English for Business (LCCI) EfC English for Com me rce (LCCI) EFL English as a Foreign Language ELTS English Lan guage Testing Service (The British Council) ESB English Speak ing Board ESL English as a Secon d Language ESOL English for Speakers o f Other Lan guages (PEI) ESP English for Specific Purposes ESU English Speaking Union ETS Educational Testing Service FCE First Certificate in English (UCLES) GCSE General Certificate o f Secondary Education

Abreviaturas y acrânimos

International Language Testing Association Joint Comm ittee on Testing Practices Joint Matriculation Board London Chamber of Commerce and Industry Examination Board National Council o f Measurement in Education Ox ford Higher Exam (OUDLES) Oxford Preliminary Exam (OUDLES) University of Oxford Delegacy of Local Examinations Pitman Examinations Institute Preliminary English Test (UCLES) PET Royal Society o f Arts RSA Schools Curriculum and Assessment Authority SCAA Schools Exam ination and Assessment Council SEAC Spoken English for Industry and Com merce (LCCI) SEflC Test o f English for Educational Purposes (AEB) TEEP Tests in English Language Skills (CENTRA) TELS TESOL Teaching En glish to Speakers o f Other Languages TOEFL Test o f English as a Foreign Language (ETS) Trinity Trinity College Lon don TSE Test o f Spoken Eng lish (ETS) TWE Test o f Written English (ETS) University of Cambridge Local Examination Syndicate UCLES UETESOL University Entrance Test in English for Speakers of Other Languages (JMB) ULSEB University o f London Schools Examination Board

ILTA JCTP JMB LCCI NCME OHE OPE Oxford PEI

Bibliografía

Ald erso n, J. C. ( 1 9 7 8 ) . A Study of the Cloze Procedure with Native and Non-Native Speakers of English. Tesis doctoral inédita, Universidad de Edimburgo. Alderson, J. C. (1 97 9) . «Th e Cloze Procedure and Proficiency in English as a Foreign L an gu ag e.» TESOL Quarterly, 13 (2 ), p ig s. 2 19 —22 7. R eim pre so en J. W. O iler (e d .) , (1 9 8 3 ) . Issues in Language Testing Research. N e w b u ry H o u se , R ow ley , M ass. Alderson, J. C. (1980). «Native and Non-native Speaker Performance on Cloze Test » Language Learning, 13 (1 ), p ig s . 5 9 - 7 6 . Alderson, J . C. (1 9 8 6 a ). En Le ac h y C an dlin (e d s.) , Computers in English Language Education and Research. Longman, Londres. Alderson, J. C. (1986b). «Innovations in Language Testing?» En M. Portal (ed.), Innovations in Language Testing, p ig s . 9 3 - 1 0 5 . N FE R- Ne lso n, W in ds or , Berk s. Alderson, J. C. (1988a). «Innovations in Language Testing: Can the Microcomputer H e lp ?» N ú m ero es pec ial de Language Testing Update. Alderson, J. C. (19 88 b ). «N ew Procedures for Validating Proficiency Tests o f ESP? Th eo ry an d Pr act ice .» Language Testing, 5 (2 ), p ig s. 2 2 0 —23 2. Alderson,

J .

C. (1990). «Testing Reading Comprehension Skills (Part Two): Getting

Students to Talk about Taking a Reading Test (A Pilot Study).» Reading in a Foreign Language, 7 (1), pigs. 465-502. Alderson, J. C. (19 91 ). «D is-sporting L ife.» En Alderson J. C. y B. North, (eds.), Language Testing in the 1990s. M acm illan , Lo ndr es. Alderson, J. C. ( 19 93 ). «Ju dge m en ts in Langu age Testing .» En D. Douglas, y C. Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia. Alderson, J. C. y G. Buck (1 99 3) . «Standards in Testing: A Survey o f the Practice o f UK Ex am ina tion B oa rd s in EFL T es tin g .» Language Testing, 10 (2 ), p ig s. 1—26 . Alderson, J . C. y C. M. Clapham (1992a). «Applied Linguistics and Language Testing: a C ase St ud y o f the ELTS T e st .» Applied Linguistics, 1 3, p ig s. 149 —167 . A ld er so n, J . C. an d C. M. C laph am (1 9 9 2 b ). Examining the ESTS Test: An Account of the First Stage of the ELTS Revision Project. IELTS Research Report 2. The British Council, University o f Cam bridge Local Exam ination Syndicate and International Developm ent Pro gram o f Australian Universities and Colleges, C ambridge. Al de rso n, J. C , K. Kf ah nk e y C. Sta ns fiel d ( e d s. ), (1 9 8 7 ). Reviews of English Language Proficiency Tests. TESOL, W as hin gt o n , D C. Alderson, J. C. y Y. Lukmani (1 98 9) . «C og nition and Levels o f Com prehen sion as E m bo d ie d in T est Q u e st io n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —27 0 . Alderson, J . C. y B. North (eds.), (1991). Language Testing in the 1990s. Macmillan, Londres. Ald erso n, J. C. y D. Wa ll ( 1 9 9 3 ). «D o es W ash bac k Exi st? » Applied Linguistics, 14, pá gs.

Bibliografía

Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The Communicative Legacy. Macmillan, Nueva York. Allan, A. (1992). «Development and Validation of a Scale to Measure Test-Wiseness in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123. American Education Research Association, American Psychological Association, y National Council on Measurement in Education (1985). Standard for Educational and Psychological Testing. American Psychological Association, Inc., Washington, DC. Anastasi, A. (1988). Psychological Testing. Macmillan, Londres. Angoff, W. y A. J. Sharon (1971). «A comparison of scores earned on the Test of English as a Foreign Language by native American college students and foreign applicants.» TESOL Quarterly, 5, pig. 129. Association of Language Testers in Europe (1994). The ALTE Code of Practice. ALTE, Cambridge. Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University Press, Oxford. Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability Analysis as a Basis for Examining Content and Construct Comparability in Two EFL Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160. Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into the Construct Validity of Six Tests of Listening and Reading.» En A. S. Palmer, P. J. M. Groot y G. A. Trosper (eds.), The Construct Volidation of Tests of Communicative Competence. TESOL, Washington, DC. Bachman, L. F. y A. S. Palmer (1982). «The Construct Validation of Some Components of Communicative Proficiency.» TESOL Quarterly, 16 (4), pigs. 449—465. Buck, G. (1989). «Written Tests of Pronunciation: Do They Work?» English Language Teaching Journal, 41, pigs. 50—56. Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el Language Testing Research Colloquium, Princeton, NJ. Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81-105. Carroll, B. J. (1980). Testing Communicative Performance. Pergamon, Londres. Carroll, B. J. (1985). «Second Language Performance Testing of University and Professional Contexts.» En P. C. Hauptman, R. LeBlanc y M. B. Wesche (eds.), Second Language Performance Testing. University of Ottawa Press, Ottawa. Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language Examinations. Longman, Londres. Clapham, C. M. (1992). The Effect of Academic Discipline on Reading Test Performance. Contribución presentada en el Language Testing Research Colloquium, Princeton, NJ. Clapham, C. M. y J . C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS Research Report 3. The British Council, University of Cambridge Local Examinations Syndicate and International Development Program of Australian Universities and Colleges, Cambridge. Cohen, A. D. (1 984). «On Taking Tests: What the Students Report.» Language Testing, 1 (1), pigs. 70—81. Cohen, A. (1994). Assessing Language Ability in the Classroom. 21edición, Newbury House/Heinle and Heinle, Rowley, Mass.

Exámenes de idiomas. Elaboración y ev aluación

Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I). The British Council y University of Cambridge Local Examination Syndicate, Londres y Cambridge. Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart Winston, Chicago. Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development. A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia. Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press, Edimburgo. Diamond, E. E. y J. Fremer (1989). «The Joint Committee on Testing Practices and the Code o f Fair Testing Practices in Education.» Educational Measurement: Issues and Practice. Número de primavera. Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA, Washington, DC. Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall, Englewood Cliffs, NJ. Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 51 edición, Prentice-Hall, Englewood Cliffs, NJ. Faerch, C. y G. Kasper (1987). Introspection in Second Language Research. Multilingual Matters, Clevedon. Gronlund, N. E. (1985). Measurement and Evaluation in Teaching. Macmillan, Nueva York. Grotjahn, R. (1986). «Test validation and cognitive psychology: some methodological considerations.» Language Testing, 3 (2 ), pig s. 159—185. Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education. McGraw-Hill, Tokio. Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response Theory. Sage Publications, Newbury Park, Calif. Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne Papers in Language Testing, 2, pigs. 1—24. Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres. Henning, G. (1987). A Guide to Language Testing. Newbury House, Cam bridge, Mass. Hudson, T. y B. Lynch. (1 98 4) . «A Criterion Referenced Measurement Approach to ESL Achievement Testin g.» Language Testing, 1, pigs. 171—202. Hughes, A. ( 19 88 ). «Achievement and Proficiency: The Missing lin k .» En A. Hughes (e d.), Testing for University Study, ELT Documents 127. Modern English Publications, Londres. Hughes, A. (1 989). Testing for Language Teachers. Cambridge University Press, Cambridge. Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach. Cambridge University Press, Cambridge. Hymes, D. H. (1972). «On Communicative Competence.» En J. B. Pride y J. Holmes (eds.), Sociolinguistics, págs. 269-293. Penguin, Harmondsworth. Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.), Testing and Experimental Methods. Oxford University Press, Oxford. Joint Committee on Standards for Educational Evaluation (1981). Standards for

Bibliografía

Joint Com mittee on Testing Practices (1988). Code of Fair Testing Practices in Education. American Psychological Association, Washington, DC. Kerlinger, F. N. (1973). Foundations of Behavioral Research. Holt, Rinehart and Winston, Nueva York. Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de Duisburg. Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York. Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press, Chicago. Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum, Hillsdale, NJ. Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language test validation.» Language Testing, S (2 ), pig s. 206—21 9. Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass. Mathews, J. C. (1985). Examinations: A Commentary. George Allen and Unwin, Londres. Morrow, K. (1979). «Communicative Language Testing: Revolution or Evolution?» En C. J. Brumfit y K. Johnson (eds.), The Communicative Approach to Language Teaching. Oxford University Press, Oxford. Morrow, K. (1 98 6) . «The Evaluation o f Tests of Communicative Performance.» En M. Portal (ed.), Innovations in Language Testing. NEER-Nelson, Windsor, Berks. Munby, J. (1978). Communicative Syllabus Design. Cambridge University Press, Cambridge. Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of Alternative Testing Methods: an Application .» Studies in Educational Evaluation, 12, págs. 149-158. Oiler, J. (1979). Language Tests at School. Longman, Londres. Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26, p ig s. 665—689. Pollitt, A. (1990). Standards. Notes prepared for a meeting to discus language testing standards. University o f Cambridge Local Examinations Syndicate, Cambridge. Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición, Allyn and Bacon, Boston, Mass. Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford. Schools Examination and Assessment Council (1993). Mandatory Code of Practice for the GCSE. SEAC, Londres. Stevenson, D. K. (1 985). «Authenticity, Validity and a Tea Party.» Language Testing, 2 (1), pigs. 41-47. Swain, M. (1 99 3) . «Seco nd Language Testing and Second Language Acquisition: Is There a Conflict with Traditional Psychometrics?» Language Testing, 10 (2 ), pig s. 193-207. Swales, J. (1 985). Episodes in ESP. Pergamon, Oxford. Thorndike, R. L. y E. P. H agen (1986). Measurement and Evaluation in Psychology and Education. Macmillan, Nueva York. Valette, R. M. (1 977). Modern Language Testing. 21 edición, Harcourt Brace Jovanovich, Nueva York. Wall, D. y J. C. Alderson (1 993). «Examining Washback.» Language Testing, 10 (1 ), p ig s. 4 1—69. Wall, D., C. M. Clapham y J. C. Alderson (1994). «Evaluating a Placement Test.»


Weir, C. J. (1 98 3) . «Identifying the Language Problems of Overseas Students in Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres. Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter. Weir, C. J. (1 9 9 0 ). Communicative Language Testing. Prentice-Hall Regent, Englew oo d Cliffs, NJ. Wood, R. (1991). Assessment and Testing: A survey of Research. Cambridge University Press, Cambridge. Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press, Chicago. Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press, Chicago.

Indice

Los números en

c u r s i v a remiten

a las definiciones dadas en el Glosario.

"a simple vista", 130 ABEEB, 11 actividades de vacío de información, 64 administradores, formación de, 115-117 Alderson, J. C , 10, 11, 27, 48, 57, 74, 97, 169, 170, 171, 178, 212, 245, 217-218 Algina, J„ 77, 78, 85. 89, 92, 97, 131 Alian, A., 47 American Educational Research Association (AERA), 227—231 American Psychological Association, 166 análisis de ítems, 81-87 coeficiente de dificultad (CD), 81- 82, 272 índice de discriminación (ID), 82- 87, 276 análisis de necesidades, 17, 26, 38 análisis de varianza, 271 análisis factorial, 180, 271 análisis multimétodo-multirrasgo, 179 Anastasi, A., 86, 89, 96 Angoff, W„ 97 "asimetría negativa” , 93, 271 "asimetría positiva” , 93, 271 Associated Examining Board (AEB), 23, 38, 99, 101, 121-122, 138-141, 184 Association of Recognised English Language Schools (ARELS), 32, 34 Bachman, L„ 18, 21, 23, 166, 167, 169, 180, 214, 216 bancos de ítems, 92, 271 BIGSTEPS, 91. 269 BHOG, 92, 270

Cámara de Comercio e Industria de Londres, 30, 35, 36, 99, 123, 138-139, 142, 160, 161, 183-185 Campbell, D., 179, 214 Carroll, B„ 11, 167 City and Guilds of London Institute (C & G), 70, 100 Clapham, C„ 27, 169, 176 cloze, 47, 57—58 coeficiente de dificultad, 81—82, 272 Cohén, A., 9, 171 comentarios posteriores, 193 comités de redacción, 64-66 completar huecos, pruebas de, 56—57 comprensión oral, 116 Consejo de Europa, 32 constructos, 21 corrección, centralizada, 128 "a simple vista” , 130 doble corrección, 131 ejercicios de fiabilidad, 129—131 muestreo, 128-129 prueba t, 131, 277 puntuación a ciegas, 129 segundos correctores, 131 clave, 106-107, 272 descriptores, 107, 273 ejercicios, consensuados, 111 problemáticos, 111 en el domicilio, 132 en los centros de administración de pruebas, 133 escala analítica, 108 escala de valoración, 107, 274 redacción, 110—111 ala holística o global, 10 7-1 08

Exámenes

d e id i o m a s . E la b o r a c i ó n y ev alu ació n

escala por impresión general, 108, 274 escalonamiento, 274 objetiva, 106 plantillas de corrección, 106—107, 277 sesión de unificación de criterios, 112 subjetiva, 107 supervisión, 138—142 correlación, 78-81 coeficiente de, 272 coeficiente de Pearson, 81, 272 correlación biserial, 85 correlación biserial puntual, 85 correlación por orden de escala, 85, 272 correlaciones internas, 177—179 Criper, C„ 27, 176 criterios, 18, 225, 247 condicional, 230 criterios primarios, 229 criterios secundarios, 229 definido, 225 determinación de, 111, 273 principios, 226 Crocker. L„ 77, 78, 85, 89, 92, 96, 131 cuestionario, 253—258 curtosis, 272 Davidson, F., 18, 213 Davies, A., 27. 97. 176 descripción de los contenidos, 14, 272 descriptores, 107, 273 desviación típica, 95, 261, 273 determinación de las puntuaciones para aprobar, 151—155 Diamond, E., 231 dictado, 59 diferencia significativa, 273 dispersión, 95 doble corrección, 13 1 Douglas, D., 11 Ebel, R., 146, 147, 154, 177 Educational Testing Service (ETS), 21,

ejercicios consensuados, 111 ejercicios, 44 English for Academic Purposes, 27 English for Business Purposes, 35 English for Specific Purposes, 27 English Speaking Board, 31, 34. 35, 121

English Speaking Union, 1 1 ,3 2 ensayos previos, 74—104, 273-274 análisis de las pruebas, 78—96 fase general de ensayo, 76 pruebas piloto “m enos formales” , 75 razones para, 74 uso de versiones paralelas y equivalentes, 96 utilización de hablantes nativos, 97 entrevistas orales, 63 escala analítica, 108, 109, 274 escala de logit, 90 escala de valoración, 107, 11 0-11 1, 27 4 escala holística o global, 107—108, 27 4 escala por impresión general, 108, 2 74 escalonamiento, 274 especificaciones, para los responsables de la elaboración de la prueba, 16—18 para los responsables de la validación de la prueba, 21-24 para los usuarios de la prueba, 24-25 usuarios, 24—25 validación, 23-24 especificaciones de una prueba, 14, 16-28, 275 criterios, 18 destrezas lingüísticas, 18 ejercicios, 18 elementos lingüísticos, 18 estudiantes, 17 instrucciones. 18 métodos, 18 para los usuarios, 24—25 propósito del examen, 16 secciones o partes, 17 situación en la lengua meta, 18

índice

estadística descriptiva, 92 “ asimetría negativa” , 93, 271 "asimetría positiva” , 93, 271 desviación típica (DT), 95, 273 diferencia significativa, 273 dispersión, 95 media, 93, 276 mediana, 94, 276 moda, 93, 277 rango, 95, 279 examinador, 105, 275 formación de. 110-115 expresión oral, 115-116 Faerch, C , 171 fase general de ensayo, 76—78 fiabilidad, 12, 88, 127, 180-182, 275 alfa de Cronbach, 101 consistencia interna, 88 de formas paralelas, 88, 275 ejercicios, 129-131 entre correctores, 128, 275 fiabilidad interna, 128, 134, 27 6 fiabilidad test-retest, 88, 275 Kuder Richardson 20 (KR20), 88-89, 103, 276 Kuder Richardson 21 (KR21), 88-89, 103, 267-268, 276 método de las dos mitades, 88, 275 y validez, 180—182 Fiske, D„ 179, 214, fórmula El-3, 85, 259 Fremer, ]., 231 Frisbie, D., 146, 154, 177 Fruchter, B., 81, 89, 131 Gronlund, N., 177 Grotjahn, R., 171 Guilford, J., 81, 89, 131 hablantes nativos, 97 Hagen. E., 166 Hambleton, ]., 92 Hamilton, 97 Heaton, B„ 9, 49, 52, 255 Henning, G„ 76, 92, 165, 168, 213

Hudson, T., 78 Hughes, A., 9, 28, 49 Hutchinson, T., 27 Hymes, D„ 27, 216 índice de discriminación (ID), 82-87, 259, 276 informes posteriores a la prueba, 190-208 análisis de los ejercicios de los candidatos, 194 para el resto del público, 198—199 para la propia institución, 191- 195 para los profesores, 195—198 resultado de las observaciones, 192- 193 resultados de los comentarios posteriores, 193 inglés para fines académicos, 27 inglés para fines específicos, 27 inglés para los negocios, 35 Ingram, E., 152, 167 Instituto de Exámenes de Pitman. 31-32, 20 0

interlocutor, 105 International English Language Testing System (IELTS), 27 ITEMAN (Microcat), 85. 101, 269 ítems de corrección objetiva, 54, 277 ítems dicotómicos, 54 Joint Committee on Testing Practices, 231-234 Joint Matriculation Board, 30, 36, 149, 161 Kasper, G, 171 Kerlinger, F., 168, 179 Klein-Braley, C , 57 Krahnke, K., 10 Kuder Richardson 20 & 21 (KR20 /21 ), 88-89, 103, 276 Kunnan, A., 168 Lado, R., 48 Lancaster Language Testing Research Group, 11, 74


Linacre, J., 214 London Chamber o f Commerce and Industry, 30, 35, 36, 99, 123, 138-139, 142, 160, 161, 183-185 Lopes, M., 97 Lord, F„ 92 Lukmani, 169 Lynch, B„ 18, 78, 168, 213 Magnusson, D., 97 Masters, G., 92 Mathews, J., 106 McNamara, T., 97 media, 93, 260, 276 mediana, 94, 260, 276 tendencia central, 94 moda, 93, 260, 277 modelo de dos parámetros (Rasch), 91 modelo de tres parámetros (Rasch), 91 modelo de un parámetro (Rasch), 91 Morrow, K., 167 muestreo, 131 muestra truncada, 175-176 Munby, J., 23, 26 National Curriculum (UK), 240 Nevo, D„ 162, 237-239 niveles de dificultad, 31 —32 Oiler, J., 9, 24, 48, 58 ordenadores, usos de los, 215 Oxford, University of, Delegacy of Local Examinations (OUDLES), 37, 200-204 Oxford-ARELS, 32, 35. 123, 141, 158 Palmer, A., 180, 214 Pearson, correlación de, 81, 272 Peirce, B., 50 plantillas de corrección, 106, 277 Pollitt, A., 225 ponderación de items, 146—147, 158, 277 Popham, W„ 155 preguntas de respuesta breve, 60

programas de ordenador BIGSTEPS, 91. 269 B1LOG, 92. 270 ITEMAN (Microcat), 85. 101, 269 QUEST, 91, 270 SAS, 85, 131, 269 SPSS, 85, 131, 269 pruebas análisis de necesidades, 17, 26, 3 8 comentarios de los usuarios de la prueba, 212 de comprensión oral, 116-117 de expresión oral, 115 de repaso, 213-215 desarrollo y mejora, 20 9—22 4 estado de la cuestión en EFL, 243-246 exámenes versus ejercicios, 4 4 redactar ítems, 43 respuesta múltiple, 48 , 50 -53 supervisión, 209—213 textos apropiados, 46 pruebas, tipos de, 16—17 pruebas de aprovechamiento, 17, 277 pruebas de corrección, 56 pruebas de corrección objetiva, 49-61, 106 pruebas de corrección subjetiva, 61-64, 87, 107, 278 pruebas de diagnóstico, 278 pruebas de dominio, 17, 278 pruebas de nivel, 16, 277 pruebas de progreso, 17, 278 pruebas equivalentes, 96, 278 pruebas para fines específicos, 17 pruebas paralelas, 96-97 pruebas piloto, 75, 278 . pruebas tipo C, 47, 58 pruebas-t, 131, 277 puntuación/porcentaje de aprobados, 151-155, 159-161 QUEST, 91, 270 rango, 92, 261, 279 redacción de ítems, 43

índice

actividades de vacío de información, 64 cloze, 57 completar huecos, 56 dictado, 59 entrevistas orales, 63 ítems dicotómicos, 54 preguntas de respuesta breve, 60 problemas con algunos tipos (de pruebas), 49 pruebas de corrección, 56 pruebas objetivas, 106, 277 pruebas subjetivas, 107, 278 pruebas/tests tipo C, 58 redacciones y trabajos, 61 respuesta múltiple, 50 resúmenes, 62—63 tareas de ordenamiento, 55 tipos, 47 tipos de pruebas objetivas, 54 tipos de pruebas subjetivas, 61 trabajos, 61 transferencia de información, 54 redacciones y trabajos, 61-62 referencia a un criterio, 77, 153, 279 referencia a una norma, 77, 152, 2 79 relacionar, ítems de, 54 respuesta múltiple, 48, 50 resultados, 145 combinar, 150 corrección, 145 determinación para puntuaciones, 151-155, 159-160, 161 info rm e/inf orm ar, 149, 159—160, 276 suma final, 148 transformación, 147—148, 279 utilización de puntuaciones parciales para tomar decisiones, 131 resúmenes, 62—63 Robinson, P., 27 Rogers, H., 92 Royal Society of Arts (RSA), 23 SAS, 85, 131, 269 Schools Curriculum and Assessment

Schools Examination and Assessment Council (SEAC), 11, 240 segunda corrección, 129 sesión de unificación de criterios, 112-113 Sharon, A.. 97 Sheridan, E., 97 Shohamy, E., 162, 237 —239 SPSS, 85, 131, 269 Stansfield, C , 10 Stevenson, D., 167 Stone, M., 92 supervisión, 138—142, 20 9—213 Swales, J .p 27 Swaminathan, H., 92 tareas de ordenamiento, 55 tendencia central, 94 teoría de la generalizabilidad, 131, 279 teoría de respuesta al ítem (TRI), 90—92, 27 9 BIGSTEPS, 91, 269 BILOG, 92, 270 curva característica del ítem, 90, 272 escala de logit, 90 modelo de dos parámetros, 91 modelo de tres parámetros, 91 modelo de un parámetro, 91 QUEST, 91, 270 Thorndike, R., 166 transferencia de información, 54 transformación de la nota, 147 -14 8, 279 Trinity College, 3 0—34 , 160 University o f Cambridge Local Examinations Syndicate (UCLES), 11, 21, 28, 32, 33, 37-39, 66-68, 98, 100-102, 122-123, 138, 141, 148—49, 1 56 -1 58 , 183, 184, 219, 22 2 validación convergente-divergente, 179-180 validez, 12, 165, 180-182, 279 análisis multimétodo-multirrasgo,

E x á m e n es d e i d i o m a s . E l a b o r a c i ó n y e v a lu a c ió n

comparación con la teoría, 177 comparación con los datos de los alumnos, 179 correlaciones internas, 177—179 criterio, 166 y fiabilidad, 1 2 ,1 8 0 —182 validez, tipos de, 165—166 validez aparente, 167, 280 validez concurrente, 172—174, 280 validez de constructo, 21, 177-179, 280 validez de contenido, 168—170, 281

validez de criterio, 166 validez de respuesta, 171, 281 validez empírica, 166, 281 validez externa, 166, 172—177, 2 81 validez interna, 166—172, 281

validez predictiva, 172, 175—177, 281

validez racional, 166, 281 Vallette, R., 49 Vanniariajan, S., 168 varianza, 262 video, para la formación de los examinadores, 123 usados en las pruebas, 215 Wall, D„ 48, 176, 212 Waters, A., 27 Waystage, nivel (de dificultad), 31 Weir, C , 9, 38, 49, 99, 101, 184 West, R., 11 Windeatt, S., 215 Wood, R., 179, 182, 186 Wright, B., 92, 214

examenes de idiomas 67 IMPER.pdf

Recommend Documents